火車采集器使用教程_第1頁
火車采集器使用教程_第2頁
火車采集器使用教程_第3頁
火車采集器使用教程_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——火車采集器使用教程一、新建任務(wù)

1.在任務(wù)列表空白處單擊右鍵,選擇新建分組

2.在彈出對話框內(nèi)添加分組名稱A,并點(diǎn)擊保存

3.左鍵單擊新建分組A,選擇之后右鍵單擊,選擇新建任務(wù)

4.在彈出對話框內(nèi)添加任務(wù)名B

二、添加采集網(wǎng)址規(guī)則

1.在起始網(wǎng)址右側(cè)單擊“添加〞按鈕

2.在彈出對話框內(nèi)添加采集列表頁規(guī)則:

(1)單頁面網(wǎng)址添加在“單條網(wǎng)址〞分頁內(nèi):直接把URL復(fù)制到文本框內(nèi),依次點(diǎn)擊“添加〞、“完成〞即可;

(2)有規(guī)則的批量網(wǎng)頁可以在“批量/多頁〞分頁內(nèi)添加:將地址格式(如:http://./list/?204_1.html和http://./list/?204_2.html的規(guī)則是http://./list/?204_(*).html)

3.在多級網(wǎng)址獲取右側(cè)單擊“添加〞按鈕

4.在彈出對話框內(nèi)添加采集腳本規(guī)則

附錄:腳本規(guī)則填寫方法

找到新聞列表頁要采集的內(nèi)容,并在源碼中找到文章所對應(yīng)的鏈接,觀測代碼規(guī)則,發(fā)現(xiàn)他們的共同點(diǎn)是:

[參數(shù)]是你要采集文章的鏈接,(*)為變量。

注意:一定要確保[參數(shù)]兩端的規(guī)則完整,不能光填寫

注:填寫完采集規(guī)則后,可以點(diǎn)擊“測試網(wǎng)址采集〞按鈕,來驗(yàn)證你填寫的規(guī)則是否能讓程序采集到文章頁URL。

三、添加采集內(nèi)容規(guī)則

1.刪除不需采集的內(nèi)容

在“采集內(nèi)容規(guī)則〞分頁中將不需要采集的幾個(gè)選項(xiàng)刪除掉,雙擊需要采集的內(nèi)容相應(yīng)的框框,并在彈出的對話框內(nèi)填寫相應(yīng)的規(guī)則。

2.填寫標(biāo)題規(guī)則

(1)在頁面中找到你想要采集的標(biāo)題

(2)在源碼中找到你想采集的標(biāo)題對應(yīng)的位置(3)填寫標(biāo)題規(guī)則(正則提取)。如上面代碼中的規(guī)則為:

火車采集器使用教程

注:html-2次加工.html的保存位置:

..\\火車采集器V8\\System\\FileTemplate\\html-2次加工.html

五、發(fā)布內(nèi)容設(shè)置

1.在主界面的任務(wù)欄

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論