1688數(shù)據(jù)采集方法_第1頁
1688數(shù)據(jù)采集方法_第2頁
1688數(shù)據(jù)采集方法_第3頁
1688數(shù)據(jù)采集方法_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1688數(shù)據(jù)采集方法.bazhuayu.

1688數(shù)據(jù)采集方法

目前電商網(wǎng)站采集需求特殊大,本文介紹使用八爪魚采集1688-某店鋪全部商品信息的方法。

采集網(wǎng)站:

示例規(guī)章

使用功能點:

●分頁列表信息采集

http://.bazhuayu./tutorial/fylb-70.aspx?t=1

●Xpath

http://.bazhuayu./search?query=XPath

●AJAX點擊和翻頁

.bazhuayu.http://.bazhuayu./tutorial/ajaxdjfy_7.aspx?t=1

步驟1:創(chuàng)建采集任務(wù)

1)進入主界面,選擇“自定義模式”

采集1688店鋪的全部商品信息圖1

2)將要采集的網(wǎng)址復(fù)制粘貼到網(wǎng)站輸入框中,點擊“保存網(wǎng)址”

.bazhuayu.

采集1688店鋪的全部商品信息圖2

步驟2:創(chuàng)建翻頁循環(huán)

1)在頁面右上角,打開“流程”,以呈現(xiàn)出“流程設(shè)計器”和“定制當(dāng)前操作”兩個板塊。將頁面下拉究竟部,點擊“”按鈕,在右側(cè)的操作提示框中,選擇“循環(huán)點擊”,以建立一個翻頁循環(huán)

.bazhuayu.

采集1688店鋪的全部商品信息圖3

步驟3:創(chuàng)建列表循環(huán)并提取數(shù)據(jù)

1)移動鼠標(biāo),選中頁面里的第一條商品信息的區(qū)塊。系統(tǒng)會識別此區(qū)塊中的子元素,在操作提示框中,選擇“選中子元素”

.bazhuayu.

采集1688店鋪的全部商品信息圖4

2)系統(tǒng)會自動識別出頁面中的其他同類元素,在操作提示框中,選擇“選中全部”,以建立一個列表循環(huán)

.bazhuayu.

采集1688店鋪的全部商品信息圖5

3)我們可以看到,頁面中企業(yè)信息區(qū)塊里的全部元素均被選中,變?yōu)榫G色。右側(cè)操作提示框中,消失字段預(yù)覽表,將鼠標(biāo)移到表頭,點擊垃圾桶圖標(biāo),可刪除不需要的字段。字段選擇完成后,選擇“采集以下數(shù)據(jù)”

.bazhuayu.

采集1688店鋪的全部商品信息圖6

4)字段選擇完成后,選中相應(yīng)的字段,可以進行字段的自定義命名

.bazhuayu.

采集1688店鋪的全部商品信息圖7

步驟4:修改Xpath

1)我們連續(xù)觀看,在“列表循環(huán)”步驟中,我們要建立的是整個頁面18個商品鏈接的循環(huán)。選中整個“循環(huán)步驟”,打開“高級選項”,不固定元素列表中的這條Xpath:

//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,對應(yīng)的只有3個循環(huán)項。將此條Xpath,復(fù)制粘貼到火狐掃瞄器中的相應(yīng)位置

.bazhuayu.

采集1688店鋪的全部商品信息圖8

Xpath:是一種路徑查詢語言,簡潔的說就是利用一個路徑表達式找到我們需要的數(shù)據(jù)位置。

Xpath是用于XML中沿著路徑查找數(shù)據(jù)用的,但是八爪魚采集器內(nèi)部有一套針對HTML的Xpath引擎,使得直接用XPATH就能精準(zhǔn)的查找定位網(wǎng)頁里面的數(shù)據(jù)。

2)在火狐掃瞄器中,我們發(fā)覺,通過這條Xpath:

.bazhuayu.

//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,頁面中被定位的是3個商品信息區(qū)塊。而我們需要的是,本頁中18個商品信息區(qū)塊,均被選中

采集1688店鋪的全部商品信息圖9

3)將Xpath修改為:

//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,我們發(fā)覺頁面中全部要采集的18個商品信息區(qū)塊,均被選中了

.bazhuayu.

采集1688店鋪的全部商品信息圖10

4)將修改后的Xpath:

//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,復(fù)制粘貼到圖片中所示的位置,然后點擊“確定”

.bazhuayu.

采集1688店鋪的全部商品信息圖11

5)點擊左上角的“保存并啟動”,選擇“啟動本地采集”

.bazhuayu.

采集1688店鋪的全部商品信息圖12

步驟4:數(shù)據(jù)采集及導(dǎo)出

1)采集完成后,會跳出提示,選擇“導(dǎo)出數(shù)據(jù)”。選擇“合適的導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出

.bazhuayu.

采集1688店鋪的全部商品信息圖13

2)這里我們選擇excel作為導(dǎo)出為格式,數(shù)據(jù)導(dǎo)出后如下圖

采集1688店鋪的全部商品信息圖14

.bazhuayu.

相關(guān)采集教程

淘寶賣家信息采集

http://.bazhuayu./tutorial/tbmjinfocj

餓了么商家信息采集

http://.bazhuayu./tutorial/elmsjinfocj

新浪博客文章采集

http://.bazhuayu./tutorial/sinablogcj

uc頭條文章采集

http://.bazhuayu./tutorial/ucnewscj

百家號爆文采集

http://.bazhuayu./tutorial/bjharticlecj

詞庫網(wǎng)關(guān)鍵詞采集

http://.bazhuayu./tutorial/cikucrawl

愛站關(guān)鍵詞采集

http://.bazhuayu./tutorial/azkeywordcj

個人房源采集網(wǎng)站以及方法

http://.bazhuayu./tutorial/grfangyuancj

自媒體文章怎么采集

http://.bazhuayu./tutorial/zmtwzcj

八爪魚——70萬用戶選擇的網(wǎng)頁數(shù)據(jù)采集器。

1、操作簡潔,任何人都可以用:無需技術(shù)背景,會上網(wǎng)就能采集。完全可視化流程,點擊鼠標(biāo)完成操作,2分鐘即可快速入門。

2、功能強大,任何網(wǎng)站都可以采:對于點擊、登陸、翻頁、識別驗證碼、瀑布流、Ajax腳本異步加載數(shù)據(jù)的網(wǎng)頁,均可經(jīng)過簡潔設(shè)置進行采集。

3、云采集,關(guān)機也可以。配置好采集任務(wù)后可關(guān)機,任務(wù)可在云端

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論