下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1688數(shù)據(jù)采集方法.bazhuayu.
1688數(shù)據(jù)采集方法
目前電商網(wǎng)站采集需求特殊大,本文介紹使用八爪魚采集1688-某店鋪全部商品信息的方法。
采集網(wǎng)站:
示例規(guī)章
使用功能點:
●分頁列表信息采集
http://.bazhuayu./tutorial/fylb-70.aspx?t=1
●Xpath
http://.bazhuayu./search?query=XPath
●AJAX點擊和翻頁
.bazhuayu.http://.bazhuayu./tutorial/ajaxdjfy_7.aspx?t=1
步驟1:創(chuàng)建采集任務(wù)
1)進入主界面,選擇“自定義模式”
采集1688店鋪的全部商品信息圖1
2)將要采集的網(wǎng)址復(fù)制粘貼到網(wǎng)站輸入框中,點擊“保存網(wǎng)址”
.bazhuayu.
采集1688店鋪的全部商品信息圖2
步驟2:創(chuàng)建翻頁循環(huán)
1)在頁面右上角,打開“流程”,以呈現(xiàn)出“流程設(shè)計器”和“定制當(dāng)前操作”兩個板塊。將頁面下拉究竟部,點擊“”按鈕,在右側(cè)的操作提示框中,選擇“循環(huán)點擊”,以建立一個翻頁循環(huán)
.bazhuayu.
采集1688店鋪的全部商品信息圖3
步驟3:創(chuàng)建列表循環(huán)并提取數(shù)據(jù)
1)移動鼠標(biāo),選中頁面里的第一條商品信息的區(qū)塊。系統(tǒng)會識別此區(qū)塊中的子元素,在操作提示框中,選擇“選中子元素”
.bazhuayu.
采集1688店鋪的全部商品信息圖4
2)系統(tǒng)會自動識別出頁面中的其他同類元素,在操作提示框中,選擇“選中全部”,以建立一個列表循環(huán)
.bazhuayu.
采集1688店鋪的全部商品信息圖5
3)我們可以看到,頁面中企業(yè)信息區(qū)塊里的全部元素均被選中,變?yōu)榫G色。右側(cè)操作提示框中,消失字段預(yù)覽表,將鼠標(biāo)移到表頭,點擊垃圾桶圖標(biāo),可刪除不需要的字段。字段選擇完成后,選擇“采集以下數(shù)據(jù)”
.bazhuayu.
采集1688店鋪的全部商品信息圖6
4)字段選擇完成后,選中相應(yīng)的字段,可以進行字段的自定義命名
.bazhuayu.
采集1688店鋪的全部商品信息圖7
步驟4:修改Xpath
1)我們連續(xù)觀看,在“列表循環(huán)”步驟中,我們要建立的是整個頁面18個商品鏈接的循環(huán)。選中整個“循環(huán)步驟”,打開“高級選項”,不固定元素列表中的這條Xpath:
//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,對應(yīng)的只有3個循環(huán)項。將此條Xpath,復(fù)制粘貼到火狐掃瞄器中的相應(yīng)位置
.bazhuayu.
采集1688店鋪的全部商品信息圖8
Xpath:是一種路徑查詢語言,簡潔的說就是利用一個路徑表達式找到我們需要的數(shù)據(jù)位置。
Xpath是用于XML中沿著路徑查找數(shù)據(jù)用的,但是八爪魚采集器內(nèi)部有一套針對HTML的Xpath引擎,使得直接用XPATH就能精準(zhǔn)的查找定位網(wǎng)頁里面的數(shù)據(jù)。
2)在火狐掃瞄器中,我們發(fā)覺,通過這條Xpath:
.bazhuayu.
//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,頁面中被定位的是3個商品信息區(qū)塊。而我們需要的是,本頁中18個商品信息區(qū)塊,均被選中
采集1688店鋪的全部商品信息圖9
3)將Xpath修改為:
//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,我們發(fā)覺頁面中全部要采集的18個商品信息區(qū)塊,均被選中了
.bazhuayu.
采集1688店鋪的全部商品信息圖10
4)將修改后的Xpath:
//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,復(fù)制粘貼到圖片中所示的位置,然后點擊“確定”
.bazhuayu.
采集1688店鋪的全部商品信息圖11
5)點擊左上角的“保存并啟動”,選擇“啟動本地采集”
.bazhuayu.
采集1688店鋪的全部商品信息圖12
步驟4:數(shù)據(jù)采集及導(dǎo)出
1)采集完成后,會跳出提示,選擇“導(dǎo)出數(shù)據(jù)”。選擇“合適的導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出
.bazhuayu.
采集1688店鋪的全部商品信息圖13
2)這里我們選擇excel作為導(dǎo)出為格式,數(shù)據(jù)導(dǎo)出后如下圖
采集1688店鋪的全部商品信息圖14
.bazhuayu.
相關(guān)采集教程
淘寶賣家信息采集
http://.bazhuayu./tutorial/tbmjinfocj
餓了么商家信息采集
http://.bazhuayu./tutorial/elmsjinfocj
新浪博客文章采集
http://.bazhuayu./tutorial/sinablogcj
uc頭條文章采集
http://.bazhuayu./tutorial/ucnewscj
百家號爆文采集
http://.bazhuayu./tutorial/bjharticlecj
詞庫網(wǎng)關(guān)鍵詞采集
http://.bazhuayu./tutorial/cikucrawl
愛站關(guān)鍵詞采集
http://.bazhuayu./tutorial/azkeywordcj
個人房源采集網(wǎng)站以及方法
http://.bazhuayu./tutorial/grfangyuancj
自媒體文章怎么采集
http://.bazhuayu./tutorial/zmtwzcj
八爪魚——70萬用戶選擇的網(wǎng)頁數(shù)據(jù)采集器。
1、操作簡潔,任何人都可以用:無需技術(shù)背景,會上網(wǎng)就能采集。完全可視化流程,點擊鼠標(biāo)完成操作,2分鐘即可快速入門。
2、功能強大,任何網(wǎng)站都可以采:對于點擊、登陸、翻頁、識別驗證碼、瀑布流、Ajax腳本異步加載數(shù)據(jù)的網(wǎng)頁,均可經(jīng)過簡潔設(shè)置進行采集。
3、云采集,關(guān)機也可以。配置好采集任務(wù)后可關(guān)機,任務(wù)可在云端
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廚房衛(wèi)生工具管理規(guī)定(3篇)
- 《工程合同管理》課程教學(xué)大綱
- 船舶側(cè)向推進器課程設(shè)計
- 物聯(lián)網(wǎng)煙霧報警課程設(shè)計
- 生物數(shù)學(xué)的基礎(chǔ)課程設(shè)計
- 自動服務(wù)課程設(shè)計
- 2024幼兒園安全生產(chǎn)月活動工作總結(jié)范文(31篇)
- 藝術(shù)家作品課程設(shè)計
- 航空公司服務(wù)員工作總結(jié)
- 教育行業(yè)營銷策略分享
- 污水處理廠有毒有害氣體檢測記錄表
- 馬克思主義與社會科學(xué)方法論課后思考題答案全
- 針灸推拿習(xí)題庫+參考答案
- 手術(shù)區(qū)皮膚消毒及鋪單法課件
- 血液科侵襲性真菌的治療
- 淺析巖溶地區(qū)工程地質(zhì)勘察手段及應(yīng)用
- 2023-2024學(xué)年六年級上期末數(shù)學(xué)考試試卷附答案解析
- 羅伊模式個案護理
- 公益性崗位開發(fā)申請審批表
- 中國馬克思主義與當(dāng)代知到章節(jié)答案智慧樹2023年西安交通大學(xué)
- 組織協(xié)同運用平衡計分卡創(chuàng)造企業(yè)合力
評論
0/150
提交評論