八爪魚“衡水杯”一等獎_第1頁
八爪魚“衡水杯”一等獎_第2頁
八爪魚“衡水杯”一等獎_第3頁
八爪魚“衡水杯”一等獎_第4頁
八爪魚“衡水杯”一等獎_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主講教師:毛凌志浙江經貿職業(yè)技術學院數(shù)據(jù)采集與處理八爪魚簡易采集案例導入采集工具實際操作010203總結04案例導入

小明的領導讓小明將在京東上熱銷電腦品牌的數(shù)據(jù)統(tǒng)計好交給他,小明看著電腦一臉發(fā)愁,想著那么多數(shù)據(jù),總不能一條一條手動輸入吧,這得統(tǒng)計到猴年馬月啊!小明思索了好一會決定求助他的朋友,他的朋友是程序員,他朋友則建議小明使用當下比較簡單操作的八爪魚采集器,那么接下來我們學習八爪魚采集器。采集工具——八爪魚采集器本次采集選擇八爪魚采集器,以采集京東、天貓搜索結果頁為例,這里以關鍵詞“電腦”為例,我們可以得到我們想要的數(shù)據(jù),比如:價格、電腦標題等,這些數(shù)據(jù)我們后續(xù)可以導出作為我們想要參考的數(shù)據(jù),這樣我們就不用大費周章的進行記錄比較,而八爪魚采集器相對新手來說比較簡單易懂,所以這次案例選擇它來作為我們的采集器。八爪魚工具介紹:/item/%E5%85%AB%E7%88%AA%E9%B1%BC%E9%87%87%E9%9B%86%E5%99%A8/18090835?fr=aladdin第一步,新建任務以關鍵詞“電腦”為例

將網頁鏈接復制粘貼到八爪魚,點進行保存設置后,擊開始采集,可以自行設置字段采集,目前是最初的多字段采集/Search?keyword=%E7%94%B5%E8%84%91&enc=utf-8&pvid=47bd1c8a84014e62a17717b4b22e9e44第二步,生成設置點擊確認之后,會自動對該網頁進行自動滾動識別我們點擊自動識別后這里可以直接點擊生成采集設置,也可以修改你想要取得的字段第三步,采集方式“生成采集設置”后,再點擊左上角的“保存”后點擊“采集”,我們通常選擇“本地采集”,這里也是這樣,選擇完畢后就可以網頁自動采集了(這里如果沒有設置翻頁則會無限采集下去,直到采集完畢)第四步,自動采集點擊“開始采集”后(這里是基礎的多字段采集,沒有進行字段設置)第五步,采集結果因沒有設置翻頁限制,所以八爪魚會自動幫我們采集到最后一頁,但因數(shù)據(jù)太多,這里手動點擊“停止采集”第五步,采集結果之后我們可以點擊“導出數(shù)據(jù)”第六步,導出格式采集數(shù)據(jù)結果每個人導出的數(shù)據(jù)都不一樣,主要取決于對字段的設置總結根據(jù)前面的步驟演示,我們可以對京東、天貓等網頁進行數(shù)據(jù)采集,該次采集了以關鍵詞“電腦”為例的數(shù)據(jù)采

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論