




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主講教師:毛凌志浙江經貿職業(yè)技術學院數(shù)據(jù)采集與處理八爪魚自定義采集案例導入自定義采集的介紹案例實操0102031、案例導入小明是一家數(shù)據(jù)咨詢公司的員工,最近他接到了上司給他分配的一個任務,他的上司想了解一下商務數(shù)據(jù)分析專業(yè)在杭州本地的工作招聘領域需要有多大,所以小明想通過在拉勾網上搜集一些招聘信息來作進一步分析,但奈何大量的數(shù)據(jù)分析處理起來十分繁瑣,有什么辦法可以有效地提高小明的工作效率呢?2、自定義采集的定義自定義采集指的是取消八爪魚對網頁的自動識別,改為自己手動對要采集的網頁進行相關的設置操作。自定義采集相比較簡易采集使得我們對自己整個采集的步驟更加的清楚,可以明確每個步驟的目的,出現(xiàn)了相應的問題也可以更快地找出解決。爬取的方式更靈活,爬取的數(shù)據(jù)更加全面。3、案列實操
打開網頁將網址復制到八爪魚取消自動識別手動設置所需信息開始采集數(shù)據(jù)導出數(shù)據(jù)1546233.1、打開網頁
舉個例子,假如我們要在拉勾網上找工作,也就是找一個職務,我們可以進入拉勾網后,點擊職位,如下圖。3.2、將網址復制到八爪魚
然后把該頁的網址/zhaopin/復制,粘貼到八爪魚首頁輸入網頁的地方,然后點擊“開始采集”八爪魚就會打開這張網頁開始進行自動識別網頁內容的操作,這時候我們可以在黃色的方框里點擊“取消識別”(如下圖):3.3、取消自動識別
3.4、手動設置所需信息
左側會出現(xiàn)一張流程圖(如下圖),流程圖的內容就是我們要在這張網頁上進行的一系列操作,現(xiàn)在我們可以來手動設置要爬取與職務相關的內容的一系列操作接下來如果對我們所要找的職務有什么需求的話也進行選擇,例如我想在杭州工作,那么我就需要找工作地點是在杭州的職務,那我就點擊一下杭州,然后在右邊的黃色框中選擇“點擊該鏈接”。3.4、手動設置所需信息
這樣我們就可以選出我們要爬取的內容了,首先,我們先任意點擊一個我們要爬取的內容,比如職務的名稱我們是要的,那我們(如下圖)就點擊一下這個“嵌入式系統(tǒng)開發(fā)”。3.4、手動設置所需信息
接著再依次選出其他各項我們要爬取的內容,如該工作具體在杭州哪個地區(qū)、是什么公司的、工資、對學歷的要求等等內容,選取完畢之后點擊“采集數(shù)據(jù)”;3.5、開始采集數(shù)據(jù)
之后我們可以給每個選取出的字段改一下名,讓我們更方便地弄清這分別代表什么內容,我們可以點擊流程圖中的“提取列表數(shù)據(jù)”右邊的設置按鈕。3.5、開始采集數(shù)據(jù)
3.5、開始采集數(shù)據(jù)
編輯好每個字段代表的內容方便我們查看(如下圖),之后點擊應用3.5、開始采集數(shù)據(jù)所要爬取的職業(yè)有很多,在這頁中無法完全顯現(xiàn),所以我們還要給它進行一個翻頁的設置,具體操作是我們將網頁下拉,點擊“下一頁”,然后告訴它我們的操作是“循環(huán)點擊下一頁”3.5、開始采集數(shù)據(jù)
在流程圖中點擊“點擊翻頁”右邊的設置按鈕,將其中的“頁面加載后”這一項設置成如下圖所示,點擊應用3.6、導出數(shù)據(jù)之后即可開始本地采集,然后去除重復數(shù)據(jù)后進行導出3.6、導出數(shù)據(jù)導出數(shù)據(jù)的方式可以有Excel、CSV等格式可選,最常用到的導出格式是Excel,也可選擇其他格式導出。3.6、導出數(shù)據(jù)開始采集之后是無限采集下去的,有多少頁都會采到采完為止,如果我們不需要過于多條的內容的話,停止的辦法有兩個:一是自己點擊停止采集,即停止采集了;二是可以在流程圖中的“循環(huán)翻頁”右邊的設置里面,有一個“退出循環(huán)設置”項,循環(huán)執(zhí)行的次數(shù)就是要采集的頁數(shù)。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)連帶擔保借款合同模板
- 道路拓寬及改造工程合同
- 辦公用房租賃合同英文范本
- 廚師服務合同樣本
- 夫妻共同購房合同條款
- 女方凈身出戶離婚法律合同模板
- 跨境融資合同(一)
- 職業(yè)技術學院大學生創(chuàng)新創(chuàng)業(yè)項目合同
- 新能源汽車電機技術演進與產業(yè)鏈創(chuàng)新考核試卷
- 文化產業(yè)與體育賽事結合考核試卷
- 《醫(yī)院應急培訓》課件
- 提高教育教學質量深化教學改革措施
- 招標代理機構遴選投標方案(技術標)
- 證件使用協(xié)議書(2篇)
- KTV商務禮儀培訓
- 三級安全教育試題(公司級、部門級、班組級)
- 2024年《論教育》全文課件
- 貧血醫(yī)學教學課件
- 計算機網絡與信息安全(2024年版)課件 李全龍 第1-4章計算機網絡與信息安全概述-網絡層服務與協(xié)議
- 肺栓塞患者護理查房課件
- 人工智能教育背景下中小學教師智能教育素養(yǎng)提升路徑研究
評論
0/150
提交評論