本軟件屬于網(wǎng)絡(luò)類應(yīng)用軟件,在Windows平臺使用的網(wǎng)絡(luò)圖片爬取工具,主要功能為根據(jù)提供的網(wǎng)站地址,分析網(wǎng)頁源碼獲取網(wǎng)站的圖片資源,能夠?qū)崿F(xiàn)簡單分類并存儲到數(shù)據(jù)庫和硬盤中。
貝殼圖片爬取工具使用方法
(1)本技術(shù)需配合SQL Server數(shù)據(jù)庫使用,請參考附錄安裝SQL Server 2008。
(2)獲取圖片
在獲取圖片時(shí),需要用戶自己輸入要抓取的根網(wǎng)址,這里的根網(wǎng)址需要保證其真實(shí)存在,如果不存在則會提示網(wǎng)頁源代碼獲取失敗,從而導(dǎo)致任務(wù)啟動失敗。
(3)搜索參數(shù)設(shè)置
在搜索參數(shù)設(shè)置的時(shí)候,需要慎重考慮其各個(gè)參數(shù)之間的制約關(guān)系,有以下幾種情況需要說明。
如果搜索深度設(shè)置過大,那么就需要將抓取數(shù)據(jù)容量設(shè)置的大一些,否則任務(wù)會因?yàn)樽ト∪萘坎蛔愣黄韧V棺ト」ぷ鳌?/p>
如果能夠保證自己的網(wǎng)絡(luò)連接正常,則選擇不使用代理服務(wù)器。因?yàn)槭褂么矸⻊?wù)器,在任務(wù)執(zhí)行過程中,如果代理服務(wù)器失效或者停止活動,則需要重新選擇代理服務(wù)器,這中間會耗費(fèi)大量時(shí)間來更換代理服務(wù)器。
在選擇開始執(zhí)行時(shí)間時(shí),不易將執(zhí)行時(shí)間設(shè)置的過長,因?yàn)樵O(shè)置的過長會使任務(wù)長期處于等待狀態(tài),建議只有在任務(wù)較少的情況下這樣設(shè)置。
(4)關(guān)鍵字管理
在關(guān)鍵字管理中,需要注意的是在添加主關(guān)鍵字的時(shí)候,要同時(shí)添加一個(gè)與主關(guān)鍵字名字相同的子關(guān)鍵字,因?yàn)樵趫D片進(jìn)行分類的時(shí)候,首先比對的是子關(guān)鍵字,只有子關(guān)鍵字匹配之后才能確定其分類歸屬。
另外需要注意的是,刪除主關(guān)鍵字時(shí)會將與其相關(guān)的所有子關(guān)鍵字一同刪除。
(5)多任務(wù)
鑒于對任務(wù)耗費(fèi)資源的考慮,同時(shí)執(zhí)行的任務(wù)個(gè)數(shù)設(shè)定為5個(gè),超過5個(gè)的任務(wù)只能處于等待狀態(tài),只有5個(gè)被執(zhí)行任務(wù)中有結(jié)束的,處于等待的任務(wù)才能被執(zhí)行。
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版