百科知識(shí)

當(dāng)前位置: 首頁 > 百科知識(shí)

百科知識(shí)

中國(guó)商盾網(wǎng)商標(biāo)查詢(商標(biāo)類別明細(xì))

2023-12-25 14:01:54 來源:互聯(lián)網(wǎng)

爬蟲介紹

image這是一個(gè)采集程序,不需要登錄,根據(jù)企業(yè)名稱抓取企業(yè)頁面數(shù)據(jù)。

注:這是一個(gè)比較簡(jiǎn)單的爬蟲,基本上只使用代理,不使用其他反爬技術(shù)。但是由于爬取的數(shù)據(jù)量較大,適合刷解析技能的熟練程度,所以高手不要輸入

代碼已經(jīng)上傳到GitHub有用請(qǐng)給我一個(gè)star

python版本: python2.7

編碼工具: pycharm

數(shù)據(jù)存儲(chǔ): MySQL

crawler結(jié)構(gòu):廣度crawler

crawler idea:

iamge 先獲取需要采集信息的公司: get from database get field:etid,etname get data from state table of The acquired data storage。并更新狀態(tài)表拼接etname和初始url獲取初始url 拼接初始URL:將初始url放在一個(gè)列表中,如何在獲取HTML時(shí)出錯(cuò),將錯(cuò)誤的url放在另一個(gè)列表中,進(jìn)行循環(huán)采集驗(yàn)證查詢的公司是否正確(?)請(qǐng)求解析初始一級(jí)頁面:將二級(jí)url放在一個(gè)列表中,獲取HTML時(shí)如何出錯(cuò),將錯(cuò)誤的url放在另一個(gè)列表中,循環(huán)獲取將二級(jí)url放在一個(gè)列表中,獲取HTML時(shí)如何出錯(cuò),將錯(cuò)誤的url放在另一個(gè)列表中,循環(huán)獲取獲取待確定的信息請(qǐng)求解析二級(jí)頁面:創(chuàng)建表將公司的信息存儲(chǔ)到數(shù)據(jù)庫中:創(chuàng)建表:創(chuàng)建表:

企業(yè)主信息:et_host_info

iamge 工商信息:et_busi_info分公司信息:et_branch_office軟件版權(quán)信息:et_container_copyright_info網(wǎng)站記錄信息:et _ convainer _ ICP _ info 外商投資信息:et_foreign_investment_info融資融資信息: et_rongzi_info股東信息: et_stareholder_info商標(biāo)信息: et_trademark_info狀態(tài)表: et_name_status

看一下部分的結(jié)果圖:

iamge iamge iamge iamge
上一篇:涼涼!視覺中國(guó)版權(quán)事件或構(gòu)成商業(yè)欺詐
下一篇:商標(biāo)法案例分析100例(個(gè)體戶被訴商標(biāo)侵權(quán))

熱門文章