版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、益眾網(wǎng)站信息抓取工具 用戶手冊 目 錄 1.1.概述概述.4 1.1.關(guān)于網(wǎng)站抓取工具.4 1.2.特點.5 2.2.軟件安裝軟件安裝.5 2.1.安裝環(huán)境.5 2.1.1.硬件環(huán)境.5 2.1.2.軟件環(huán)境.5 2.2.安裝步驟.6 2.2.1.安裝jdk 1.5.x.6 2.2.2.安裝數(shù)據(jù)庫.6 2.2.3.導(dǎo)入系統(tǒng)數(shù)據(jù).6 2.2.4.安裝本系統(tǒng).7 2.2.5.tomcat啟動和停止.9 3.3.術(shù)語術(shù)語.10 4.4.使用說明使用說明.11 4.1.輔助功能.12 4.1.1.登錄.12 4.1.2.修改管理員信息.12 4.1.3.系統(tǒng)參數(shù)配置.12 4.1.4.入庫數(shù)據(jù)表配置.
2、13 4.1.5.抓取統(tǒng)計.14 4.1.6.查看網(wǎng)頁源碼.14 4.1.7.軟件注冊.14 4.2.頁面配置.14 4.2.1.增加頁面基本信息.15 4.2.2.修改頁面基本信息.16 4.2.3.刪除頁面基本信息.16 4.2.4.url配置.17 4.2.5.增加正文頁url及定位配置信息.17 4.2.6.修改正文頁url及定位配置信息.19 4.2.7.增加列表頁url配置信息.19 4.2.8.修改列表頁url配置信息.21 4.2.9.url參數(shù)配置.21 4.2.10.增加url參數(shù).21 4.2.11.修改url參數(shù).22 4.2.12.刪除url參數(shù).23 4.2.13.
3、設(shè)置url參數(shù)值.23 4.2.14.增加url參數(shù)值.23 4.2.15.修改url參數(shù)值.24 4.2.16.刪除url參數(shù)值.24 4.2.17.定位信息設(shè)置.24 4.2.18.增加列表頁定位配置信息.25 4.2.19.修改列表頁定位配置信息.26 4.2.20.下級頁面配置.26 4.2.21.增加子頁面.27 4.2.22.修改子頁面.28 4.2.23.刪除子頁面.28 4.2.24.設(shè)置抓取時間.28 4.2.25.抓取.30 4.3.頁面解析.30 4.3.1.增加頁面解析配置信息.30 4.3.2.修改頁面解析配置信息.34 4.3.3.刪除頁面解析配置信息.34 4.3
4、.4.值替換配置信息.34 4.3.5.增加值替換配置信息.35 4.3.6.修改值替換配置信息.35 4.3.7.刪除值替換配置信息.35 4.4.頁面入庫.36 4.4.1.增加頁面入庫數(shù)據(jù)表信息.36 4.4.2.修改頁面入庫數(shù)據(jù)表信息.37 4.4.3.刪除頁面入庫數(shù)據(jù)表信息.37 4.4.4.字段對照值配置信息.37 4.4.5.增加字段對照值.38 4.4.6.修改字段對照值.39 4.4.7.刪除字段對照值.39 5.5.配置樣例配置樣例.39 5.1.登錄.40 5.2.入庫數(shù)據(jù)表配置.40 5.3.頁面配置.40 5.3.1.頁面基本信息配置:.41 5.3.2.url配置:
5、.42 5.3.3.定位信息配置:.43 5.4.頁面解析.44 5.5.下級頁面配置.46 5.6.下級頁面解析:.48 5.7.入庫配置:.51 5.7.1.選定入庫數(shù)據(jù)表.51 5.7.2.字段對照值配置.53 5.8.抓?。?55 6.6.參考內(nèi)容參考內(nèi)容.56 6.1.規(guī)則表達(dá)式.56 6.2.jdbc url.58 7.7.服務(wù)支持服務(wù)支持.60 1.1. 概述概述 . 關(guān)于關(guān)于網(wǎng)站抓取工具網(wǎng)站抓取工具 本工具可以抓取互聯(lián)網(wǎng)上的任何網(wǎng)頁,包括需要登錄后才能訪問的頁面。對抓取 到頁面內(nèi)容進(jìn)行解析,得到結(jié)構(gòu)化的信息,比如:新聞標(biāo)題、作者、來源、正文等。 支持列表頁的自動翻
6、頁抓取,支持正文頁多頁合并,支持圖片、文件的抓取,可以抓 取靜態(tài)網(wǎng)頁,也可以抓取帶參數(shù)的動態(tài)網(wǎng)頁,功能極其強(qiáng)大。 用戶指定要抓取的網(wǎng)站、抓取的網(wǎng)頁類型(固定頁面、分頁顯示的頁面等等) , 并配置如何解析數(shù)據(jù)項(如新聞標(biāo)題、作者、來源、正文等) ,系統(tǒng)可以根據(jù)配置信息 自動實時抓取數(shù)據(jù),啟動抓取的時間也可以通過配置設(shè)定,真正做到“按需抓取,一按需抓取,一 次配置,永久抓取次配置,永久抓取” 。抓來的數(shù)據(jù)可以保存到數(shù)據(jù)庫中。支持當(dāng)前主流數(shù)據(jù)庫,包括: oracle、sql server、mysql 等。 本工具完全可以替代傳統(tǒng)的編輯手工處理信息的模式,能夠?qū)崟r、準(zhǔn)確、一天 24*60 不間斷為企業(yè)
7、提供最新資訊,真正能為企業(yè)降低成本,提高競爭力。 系統(tǒng)功能結(jié)構(gòu)圖如下圖所示: . 特點特點 適用范圍廣,可以抓取任何網(wǎng)頁(包括登錄后才能訪問的網(wǎng)頁) 處理速度快,如果網(wǎng)絡(luò)暢通,1 小時可以抓取、解析 10000 個網(wǎng)頁 采用獨特的重復(fù)數(shù)據(jù)過濾技術(shù),支持增量式數(shù)據(jù)抓取,可以抓取實時數(shù)據(jù),如: 股票交易信息、天氣預(yù)報等 抓取信息的準(zhǔn)確性高,系統(tǒng)提供了強(qiáng)大的數(shù)據(jù)校驗功能,保證了數(shù)據(jù)的正確性 支持?jǐn)帱c續(xù)抓,在當(dāng)機(jī)或出現(xiàn)異常情況后可以恢復(fù)抓取,繼續(xù)后續(xù)的抓取工作, 提高了系統(tǒng)的抓取效率 對于列表頁,支持翻頁,可以抓取到所有列表頁中的數(shù)據(jù)。對于正文頁,可以對 分頁顯示的內(nèi)容自動進(jìn)行合并; 支
8、持頁面深度抓取,頁面間可以一級一級地抓下去。比如,通過列表頁抓取到正 文頁 url,然后再抓取正文頁。各級頁面可以分別入庫; web 操作界面,一處安裝,隨處使用 分步解析,分步入庫 一次配置,永久抓取,一勞永逸 2.2. 軟件安裝軟件安裝 . 安裝環(huán)境安裝環(huán)境 .1.1.硬件環(huán)境硬件環(huán)境 機(jī)型要求:pc、pc serve、服務(wù)器 最小內(nèi)存:256mb 最小硬盤空間:1gb .1.2.軟件環(huán)境軟件環(huán)境 操作系統(tǒng):windows 2k/xp,linux、solaris 等 unix 系統(tǒng) 數(shù)據(jù)庫:mysql、sql server、oracle 之一 ja
9、va jdk:1.5 及以上版本 web server:tomcat5.0 及以上版本 . 安裝步驟安裝步驟 .2.1.安裝安裝 jdk 1.5.x 如果機(jī)器上沒有 jdk 1.5.x 的環(huán)境,需要安裝 jdk 1.5.x,推薦安裝的版本為 1.5.0。 jdk 為 sun 公司推出的 java 開發(fā)包,您可以去網(wǎng)站 http:/ 下載,也可 以在我們的網(wǎng)站下載 jdk 1.5.0,下載鏈接: windows:http:/ linux:http:/ 安裝完畢后,設(shè)置環(huán)境變量 java_home,需要設(shè)置為 jdk 的安裝目錄。例如: windows 下為 c:jdk
10、1.5.0,unix 下為/usr/java/jdk1.5.0。 .2.2.安裝數(shù)據(jù)庫安裝數(shù)據(jù)庫 如果機(jī)器上沒有安裝數(shù)據(jù)庫,請安裝 mysql 數(shù)據(jù)庫。您可以去 mysql 官方網(wǎng)站 http:/ mysql 4.0.x: windows:http:/ linux:http:/ .2.3.導(dǎo)入系統(tǒng)數(shù)據(jù)導(dǎo)入系統(tǒng)數(shù)據(jù) 數(shù)據(jù)庫腳本文件存放在目錄 dbscript 下。 如果使用的數(shù)據(jù)庫為 mysql,需要使用如下兩個命令行導(dǎo)入數(shù)據(jù): mysql u【用戶名】 -p【密碼】 db_mysql.sql mysql u【用戶名】 -p【密碼】 db_wis help.sql 例
11、如: mysql uroot db_mysql.sql mysql uroot db_wis help.sql 即可完成數(shù)據(jù)庫的創(chuàng)建及數(shù)據(jù)導(dǎo)入工作。 .2.4.安裝本系統(tǒng)安裝本系統(tǒng) 把安裝包解壓到指定目錄。windows 系統(tǒng)中,需要把本系統(tǒng)安裝在 c:webspider 目錄 下,請確認(rèn)文件 webspider.war 存放在 c:webspider 目錄下;unix 系統(tǒng)中,需要把本系統(tǒng)安 裝在/usr/local/webspider 目錄下,請請確認(rèn)文件 webspider.war 存放在/usr/local/webspider 目 錄下。 1)如果已經(jīng)安裝了 tomcat
12、5.0 及以上版本,可以把本抓站系統(tǒng)集成到已有 tomcat 中。 為了保證程序能正常運(yùn)行,需要修改 tomcat 的啟動腳本。windows 下修改文件 catalina.bat,在文件的前面設(shè)置變量 java_opts,如下所示: set java_opts=-agentlib:c:webspiderclassloader unix 系統(tǒng)下,修改文件 catalina.sh,在文件的前面設(shè)置變量 java_opts,如下所示: java_opts=-agentpath:/usr/local/webspider/libclassloader.so 需要在 tomcat 的配置文件 serve
13、r.xml 中增加一個 context(子項目) ,需要增加的配置 代碼如下(樣例): driverclassname org.gjt.mm.mysql.driver url jdbc:mysql:/:3306/db_wis?autoreconnect=trueuseunicode=true characterencoding=gbk username root password maxidle 5 maxactive 100 maxwait 5000 2)如果機(jī)器上沒有安裝 tomcat,直接使用安裝目錄下的 tomcat。windows 系統(tǒng)下需 要修改 c:webs
14、pidertomcat-5.0.28confserver.xml 中的 context 配置,unix 系統(tǒng)下需要修改 /usr/local/webspider/tomcat-5.0.28/conf/server.xml 中的 context 配置。 如果本系統(tǒng)沒有安裝在缺省目錄下,需要修改中的屬性 docbase,把其中的 路徑設(shè)置為系統(tǒng)安裝到的路徑。并且要修改 tomcat 的啟動腳本,在 windows 下修改文件 catalina.bat,在 unix 下修改 catalina.sh,把變量 java_opts 中的-agentlib 設(shè)置為正確值。 參見本節(jié)的 1) 。 和之間為數(shù)據(jù)
15、庫連接池配置。需要修改數(shù)據(jù)庫 連接池配置中的 driverclassname、url、username 和 password 等參數(shù)值,以保證能正常連接 數(shù)據(jù)庫。 啟動 tomcat 后,在瀏覽器中鍵入網(wǎng)址:http:/【目標(biāo)服務(wù)器】/webspider/,例如: http:/locahost:8080/webspider/,進(jìn)入本抓站系統(tǒng)的登錄界面。 .2.5.tomcat 啟動和停止啟動和停止 1)windows 系統(tǒng)系統(tǒng): 啟動命令:startup.bat 停止命令:shutdown.bat 為了實現(xiàn) tomcat 在開機(jī)時自動啟動,需要把 tomcat 加到系統(tǒng)服務(wù)中。進(jìn)
16、入 tomcat 的 bin 目錄,修改 tomcat 的 service.bat,在語句 echo the service %service_name% has been installed. 前加上: %executable% /us/%service_name% +jvmoptions - agentlib:c:webspiderclassloader 然后執(zhí)行如下兩行命令: service remove service install 重新安裝 tomcat 服務(wù) 2)unix 系統(tǒng)系統(tǒng): 啟動命令:startup.sh 停止命令:shutdown.sh 為了實現(xiàn) tomcat 在開機(jī)
17、時自動啟動,需要把 tomcat 加到操作系統(tǒng)的啟動腳本中,例如: linux 的啟動腳本文件為/etc/rc.local。在啟動腳本中增加一個命令行:【tomcat 所在目錄】 /bin/startup.sh msie 6.0; windows nt 5.0) cache-control=no-cache http_mime_mappingcontent-type 和文件后 綴名對照信息,格式為: content-type=文件后 綴名列表,多個文件后 綴名之間用西文逗號分 隔。 一個對照一行。 image/gif=gif image/jpeg=jpg,jpeg image/png=png
18、application/vnd.ms-powerpoint=ppt application/vnd.ms-excel=xls application/msword=doc application/x-shockwave-flash=swf text/html=html,htm text/plain=txt visual_parse_exclude_tag可視化解析時,定位字a,iframe 符串中不應(yīng)出現(xiàn)的 html 標(biāo)記,多個標(biāo) 記之間用西文逗號分隔。 http_proxy_ipaddr代理服務(wù)器地址,如果 不使用代理服務(wù)器,不 需要設(shè)置。 http_proxy_port代理服務(wù)器端口,小于
19、 等于 0 表示不使用代理 服務(wù)器 8080 http_proxy_username代理服務(wù)器用戶名 http_proxy_password代理服務(wù)器用戶密碼 .1.4.入庫數(shù)據(jù)表配置入庫數(shù)據(jù)表配置 入庫數(shù)據(jù)表配置用于配置系統(tǒng)要使用的數(shù)據(jù)庫、數(shù)據(jù)表信息。包括增加入庫數(shù)據(jù)表、 修改入庫數(shù)據(jù)表、刪除入庫數(shù)據(jù)表功能。 增加入庫數(shù)據(jù)表,包括如下幾個輸入框: jdbc driver:jdbc 驅(qū)動類名,例如:com.mysql.jdbc.driver jdbc url:jdbc 連接 url,例如: jdbc:mysql:/localhost:3306/test?useunicode=tr
20、ue,其中標(biāo)記$sys_current_page_no;表示當(dāng)前 頁碼。 設(shè)置好頁面各項以后,點擊“新增”按鈕,如果設(shè)置無誤,會顯示“增加正文頁 url 及定位信息成功”頁面,該頁面會顯示設(shè)定的各項內(nèi)容。該頁面有兩個按鈕:“url 參數(shù) 配置”和“完成” ,如果該正文頁 url 中包含參數(shù),點擊“url 參數(shù)配置”按鈕,會進(jìn)入 “url 參數(shù)列表”頁面,進(jìn)而進(jìn)行 url 參數(shù)配置。如不需要進(jìn)行 url 參數(shù)配置,點擊 “完成”按鈕,會返回“網(wǎng)站列表” ,這樣完成了該正文頁的 url 配置。 .2.6.修改正文頁修改正文頁 url 及定位配置信息及定位配置信息 在頁面配置“網(wǎng)站列表
21、”中,選中要進(jìn)行配置的網(wǎng)頁類型為正文頁的網(wǎng)站,點擊列表 頁上方或下方的“url 配置”按鈕,如果該正文頁已經(jīng)進(jìn)行過 url 配置,會進(jìn)入“修改 正文頁 url 及定位配置信息”頁面,根據(jù)需要設(shè)置好要修改的項,具體設(shè)置方式可參照 “增加正文頁 url 及定位配置信息” ,點擊“保存”按鈕,如果設(shè)置正確無誤,會進(jìn)入 “修改正文頁 url 及定位配置信息成功”頁面,顯示頁面設(shè)置的內(nèi)容,該頁面有兩個按鈕: “url 參數(shù)配置”和“完成” ,如果該正文頁 url 中包含參數(shù),點擊“url 參數(shù)配置”按 鈕,會進(jìn)入“url 參數(shù)列表”頁面,進(jìn)而進(jìn)行 url 參數(shù)配置。如不需要進(jìn)行 url 參數(shù)配 置,點擊
22、“完成”按鈕,會返回“網(wǎng)站列表” 。 .2.7.增加列表頁增加列表頁 url 配置信息配置信息 在“網(wǎng)站列表”中,選中要進(jìn)行配置的網(wǎng)頁類型為列表頁的網(wǎng)站,點擊列表頁上方或 下方的“url 配置”按鈕,如果該列表頁未進(jìn)行過 url 配置,進(jìn)入“增加列表頁 url 配 置信息”頁面; 按頁面提示設(shè)置好各項,各項具體說明如下: 第一頁第一頁 url:該項必須輸入,設(shè)定要抓取的列表頁的第一頁 url 地址,比如: http:/ 中可以嵌入系統(tǒng)變量或 url 參數(shù),嵌 入方式為:$ + 變量名稱 + ;。如$sys_current_page_no;(當(dāng)前頁碼) ,表示把當(dāng)前頁碼值 放置到$
23、sys_current_page_no;所在的位置。點擊右側(cè)的“選擇系統(tǒng)變量”按鈕可以選擇系統(tǒng) 變量或 url 參數(shù),加入到 url 中。 其他頁其他頁 urlurl 獲得方式獲得方式:用來設(shè)定如何獲得其他頁 url,有兩個選項:固定模式和動態(tài) 解析。如果其他頁 url 比較固定,包括一些參數(shù),可以設(shè)定為固定模式,否則應(yīng)設(shè)定為動 態(tài)解析方式。動態(tài)解析表示在頁面中提取下一頁 url,利用規(guī)則表達(dá)式解析處下一頁的 url。當(dāng)選擇動態(tài)解析方式時,會出現(xiàn)解析下一頁 url 四個設(shè)置項: 定位下一頁定位下一頁 urlurl 開始的字符串:開始的字符串:用于設(shè)置能夠唯一定位到下一頁 url 開始的字符串,
24、 這樣可以保證定位到下一頁 url 的準(zhǔn)確性,頁可以提高抓取效率??梢圆辉O(shè)置,表示從頭 開始定位。 定位下一頁定位下一頁 urlurl 結(jié)束的字符串:結(jié)束的字符串:用于設(shè)置能夠唯一定位到下一頁 url 結(jié)束的字符串, 這樣可以保證定位到下一頁 url 的準(zhǔn)確性,也可以提高抓取效率。可以不設(shè)置,表示定位 到整個頁面結(jié)束。 定位下一頁定位下一頁 urlurl 的外圍規(guī)則表達(dá)式:的外圍規(guī)則表達(dá)式:用于設(shè)置縮小定位下一頁 url 范圍的規(guī)則表達(dá)式。 本項可以不設(shè)置,表示直接使用“定位下一頁 url 規(guī)則表達(dá)式”即可解析出下一頁 url。 定位下一頁定位下一頁 urlurl 規(guī)則表達(dá)式:規(guī)則表達(dá)式:用于
25、設(shè)置解析下一頁 url 的規(guī)則表達(dá)式,該項必須設(shè)定。 其他頁其他頁 url:設(shè)定要抓取的列表頁的其他頁 url 地址,如果不設(shè)置表示無其他頁, 只抓取第一頁。當(dāng)“其他頁 url 獲得方式”為“動態(tài)解析”時,該項必須輸入。輸入內(nèi)容 如:$1、$2 等,其中$1 代表規(guī)則表達(dá)式中匹配到的第一組值(第一對括號中匹配到的值) , $2 代表規(guī)則表達(dá)式中匹配到的第二組值。當(dāng)“其他頁 url 獲得方式”為“固定模式”時, 點擊右側(cè)的“選擇系統(tǒng)變量”按鈕可以選擇系統(tǒng)變量或 url 參數(shù),加入到 url 中。 提取提取 hiddenhidden 參數(shù)的參數(shù)的 formform 名稱:名稱:用于自動提取該 fo
26、rm 中的 hidden 參數(shù)及參數(shù)值,如 果不需要提取,請不要輸入。 提取的提取的 hiddenhidden 參數(shù)名稱:參數(shù)名稱:多個參數(shù)名之間用西文逗號分隔,為空表示提取指定 form 中的所有 hidden 參數(shù)。只有指定了提取 hidden 參數(shù)的 form 名稱時,本字段才有意義。 提取提取 hiddenhidden 參數(shù)的頁面:參數(shù)的頁面:只從第一頁中提取 hidden 參數(shù),還是從上一頁提取 hidden 參數(shù)。當(dāng)下一頁的 url 中包含頁碼或記錄號時,通常應(yīng)設(shè)置為“只從第一頁中提取” ,以 提高系統(tǒng)的處理效率。對于一些特殊的列表頁(例如:下一頁 url 中沒有包含頁碼或記錄 號
27、) ,此時需要從上一頁中動態(tài)提取 hidden 參數(shù),本數(shù)據(jù)項應(yīng)設(shè)置為“從上一頁提取” 。只 有指定了提取 hidden 參數(shù)的 form 名稱時,本字段才有意義。 起始頁號:起始頁號:用于設(shè)定該列表頁的起始基準(zhǔn)頁號,取值通常為 0 或 1。基于 0 的情況下, 第一頁的頁號為 0,第二頁的為 1,以此類推。本項的缺省值為 1,表示按頁碼的自然順序。 此項必須設(shè)定。 起始行號:起始行號:用于設(shè)定該列表頁的起始基準(zhǔn)行號,取值通常為 0 或 1,缺省值為 1。解釋 參見上面的“起始頁號” 。此項必須設(shè)定。 第一頁的第一頁的調(diào)用方式調(diào)用方式:用來設(shè)定第一頁請求的處理方式,有兩個選項:post 和 g
28、et, 通常應(yīng)設(shè)置為 get。 其他頁的其他頁的調(diào)用方式調(diào)用方式:用來設(shè)定其他頁或下一頁請求的處理方式,有兩個選項:post 和 get,通常應(yīng)設(shè)置為 get。 是否是總頁數(shù)標(biāo)記是否是總頁數(shù)標(biāo)記:用來設(shè)定是總頁數(shù)還是總記錄數(shù)的標(biāo)記。 “總頁數(shù)”表示是總頁數(shù) 標(biāo)記, “總記錄數(shù)”表示是總記錄數(shù)標(biāo)記。 定位記錄數(shù)或總頁數(shù)的規(guī)則表達(dá)式:定位記錄數(shù)或總頁數(shù)的規(guī)則表達(dá)式:用于設(shè)置解析總記錄數(shù)或總頁數(shù)的規(guī)則表達(dá)式。 當(dāng)“是否是總頁數(shù)標(biāo)記是否是總頁數(shù)標(biāo)記”設(shè)置為總記錄數(shù)時,本項用于設(shè)置解析總記錄數(shù)的規(guī)則表達(dá)式; “是否是總頁數(shù)標(biāo)記是否是總頁數(shù)標(biāo)記”設(shè)置為總頁數(shù)時,本項用于設(shè)置解析總頁數(shù)的規(guī)則表達(dá)式。 是否允
29、許跳頁是否允許跳頁:用來設(shè)定列表頁是否可以跳頁, “可以”表示可以跳頁, “不可以”表 示不能跳頁。此項用于設(shè)定斷點續(xù)抓??梢蕴摰那闆r下,可以直接跳到上次抓取到的下 一頁繼續(xù)抓取,提高了處理效率,否則只能一頁一頁地翻到目標(biāo)頁。例如,列表頁上次抓 到了第 10 頁就停止了。重新開始抓取從第 11 頁開始,但有的網(wǎng)站不允許你直接到第 11 頁, 必須一頁一頁的翻到第 11 頁,這里就只能設(shè)定“不可以”跳頁。 設(shè)置好頁面各項以后,點擊“新增”按鈕,如果設(shè)置無誤,會顯示“增加列表頁 url 配置信息成功”頁面,該頁面會顯示設(shè)定的各項內(nèi)容。該頁面有兩個按鈕:“url 參數(shù)配 置”和“完成” ,如果該列
30、表頁 url 中包含參數(shù),點擊“url 參數(shù)配置”按鈕,會進(jìn)入 “url 參數(shù)列表”頁面,進(jìn)而進(jìn)行 url 參數(shù)配置。如不需要進(jìn)行 url 參數(shù)配置,點擊 “完成”按鈕,會返回“網(wǎng)站列表” ,這樣完成了該列表頁的 url 配置。 .2.8.修改列表頁修改列表頁 url 配置信息配置信息 在“網(wǎng)站列表”中,選中要進(jìn)行配置的網(wǎng)頁類型為列表頁的網(wǎng)站,點擊列表頁上方或 下方的“url 配置”按鈕,如果該列表頁已經(jīng)進(jìn)行過 url 配置,會進(jìn)入“修改列表頁 url 配置信息”頁面,根據(jù)需要設(shè)置好要修改的項,具體設(shè)置方式可參照“增加列表頁 url 配置信息” ,點擊“保存”按鈕,如果設(shè)置正確無
31、誤,會進(jìn)入“修改列表頁 url 配置 信息成功”頁面,顯示頁面設(shè)置的內(nèi)容,該頁面有兩個按鈕:“url 參數(shù)配置”和“完成” ,如果該列表頁 url 中包含參數(shù),點擊“url 參數(shù)配置”按鈕,會進(jìn)入“url 參數(shù)列表” 頁面,進(jìn)而進(jìn)行 url 參數(shù)配置。如不需要進(jìn)行 url 參數(shù)配置,點擊“完成”按鈕,會返 回“網(wǎng)站列表” 。 .2.9.url 參數(shù)配置參數(shù)配置 在增加 url 配置信息完成或修改 url 配置信息時,會出現(xiàn)“url 參數(shù)配置”按鈕, 如果需要配置 url 參數(shù),點擊該按鈕進(jìn)入“url 參數(shù)列表”頁面。在該列表的上方和下 方各有一排按鈕,點擊“新增”按鈕,進(jìn)入“增加
32、 url 參數(shù)”頁面;選中一條記錄,點擊 “刪除”按鈕會提示是否刪除該項,確定后即刪除該 url 參數(shù)。列表右側(cè)“操作”欄目, 中有“修改”鏈接,對于“參數(shù)取值類型”為離散值的參數(shù),還會顯示“設(shè)置參數(shù)值”鏈 接:點擊“修改”按鈕進(jìn)入“修改 url 參數(shù)”頁面;點擊“設(shè)置參數(shù)值”按鈕進(jìn)入“url 參數(shù)值列表”頁面,進(jìn)行參數(shù)值的增加、修改、刪除操作。 .2.10.增加增加 url 參數(shù)參數(shù) 在“url 參數(shù)列表”中,點擊列表頁上方或下方的“新增”按鈕,進(jìn)入“增加 url 參 數(shù)”頁面; 按頁面提示設(shè)置好各項,各項具體說明如下: 參數(shù)名稱參數(shù)名稱:該項必須輸入,設(shè)定頁面中需要用到的參
33、數(shù)名稱,如 province(省份) 、 (城市)等。參數(shù)名稱中允許的字符包括:字母、數(shù)字、_(下劃線) 、-(減號)和.(點) 。 參數(shù)說明參數(shù)說明:該項可以不設(shè),主要是為了說明該參數(shù)的用途,便于理解和維護(hù)。 參數(shù)取值類型參數(shù)取值類型:用來設(shè)定該參數(shù)如何取值,有兩個選項:有序值和離散值。如果是 “離散值” ,在增加 url 參數(shù)完成后,還要“設(shè)置 url 參數(shù)值” ;如果是“有序值”時, 下面會出現(xiàn)有序值設(shè)置數(shù)據(jù)項,包括以下四項: 信息信息 idid 起始值:起始值:用于設(shè)置該有序值參數(shù)的起始值,該項必須輸入。 遞增值:遞增值:用于設(shè)置該有序值參數(shù)的遞增值,也叫循環(huán)步長。設(shè)定為 0 時,表示
34、只抓取 一次。該項必須輸入。 信息信息 idid 終止值:終止值:用于設(shè)置該有序值參數(shù)的終止值。設(shè)定為 0 時,表示沒有最終值,對 應(yīng)的循環(huán)為無限循環(huán)。該項必須輸入。 循環(huán)順序:循環(huán)順序:用于設(shè)置該參數(shù)的循環(huán)順序。多個參數(shù)時,順序值小的為外層循環(huán)(大循 環(huán)) ,大的為內(nèi)層循環(huán)(小循環(huán)) 。該項必須設(shè)定。 是否是否 url 參數(shù)參數(shù):用來設(shè)定該項是否應(yīng)用于頁面 url 參數(shù)中, “是”表示添加到 url 參數(shù)中, “否”表示不添加。通常都應(yīng)該是 url 參數(shù)。 是否有效是否有效:用來設(shè)定該參數(shù)是否生效。 “有效”系統(tǒng)使用本參數(shù), “無效”表示不使用 本參數(shù)。 設(shè)置好頁面各項以后,點擊“新增”按鈕
35、,如果設(shè)置無誤,會顯示“增加 url 參數(shù)信 息成功”頁面,該頁面會顯示設(shè)定的各項內(nèi)容。如果“參數(shù)取值類型”為“離散值” ,該頁 面會有兩個按鈕:“設(shè)置 url 參數(shù)值”和“完成” ,點擊“設(shè)置 url 參數(shù)值”按鈕,會進(jìn) 入“url 參數(shù)值列表”頁面,進(jìn)而進(jìn)行 url 參數(shù)值配置。如果“參數(shù)取值類型”為“有 序值” ,頁面只有一個“完成”按鈕,點擊“完成”按鈕,會返回“url 參數(shù)列表” ,這樣 完成了增加 url 參數(shù)配置, “url 參數(shù)列表”中會顯示剛剛增加的 url 參數(shù)。 .2.11.修改修改 url 參數(shù)參數(shù) 在“url 參數(shù)列表”中,點擊列表頁右側(cè)“操作”欄中的
36、“修改”鏈接,會進(jìn)入“修 改 url 參數(shù)信息”頁面,根據(jù)需要設(shè)置好要修改的項,具體設(shè)置方式可參照“增加 url 參數(shù)信息” ,其中“參數(shù)取值類型”不能修改,點擊“保存”按鈕,如果設(shè)置正確無誤,會 進(jìn)入“修改 url 參數(shù)信息成功”頁面,顯示頁面設(shè)置的內(nèi)容,如果“參數(shù)取值類型”為 “離散值” ,該頁面會有兩個按鈕:“設(shè)置 url 參數(shù)值”和“完成” ,點擊“設(shè)置 url 參 數(shù)值”按鈕,會進(jìn)入“url 參數(shù)值列表”頁面,進(jìn)而進(jìn)行 url 參數(shù)值配置。如果“參數(shù) 取值類型”為“有序值” ,頁面只有一個“完成”按鈕,點擊“完成”按鈕,會返回“url 參數(shù)列表” ,這樣完成了修改 url 參數(shù)配置,
37、 “url 參數(shù)列表”中會顯示剛剛修改的 url 參數(shù)。 .2.12.刪除刪除 url 參數(shù)參數(shù) 在“url 參數(shù)列表”中,選中一條記錄,點擊列表頁上方或下方的“刪除”按鈕,系 統(tǒng)會提示確認(rèn)信息,確定后刪除該條 url 參數(shù)記錄,如果未選中記錄,系統(tǒng)會提示選中要 刪除的記錄。 .2.13.設(shè)置設(shè)置 url 參數(shù)值參數(shù)值 有三種方式可以進(jìn)入“設(shè)置參數(shù)值”頁面: “增加 url 參數(shù)”完成后,如果“參數(shù)取值類型”為“離散值” ,點擊“增加 url 參數(shù)信息成功”頁面上的“設(shè)置參數(shù)值”按鈕 “修改 url 參數(shù)”時,如果“參數(shù)取值類型”為“離散值” ,點擊“設(shè)置參數(shù)值
38、” 按鈕 在“url 參數(shù)列表”中,如果 url 參數(shù)取值類型為“離散值” ,在列表頁右側(cè) “操作”欄中會有的“設(shè)置參數(shù)值”鏈接,點擊該鏈接 執(zhí)行以上任何一種操作后,進(jìn)入“url 參數(shù)值列表”頁面,在該列表頁面的上方和下 方各有一排按鈕,點擊“新增”按鈕,進(jìn)入“增加 url 參數(shù)值”頁面;點擊“批量增加” 按鈕,將進(jìn)入“批量增加參數(shù)值”頁面。 選中一條記錄,點擊“刪除”按鈕會提示是否刪除該項,確定后即刪除該 url 參數(shù)值。 列表右側(cè)“操作”欄目,中有“修改”鏈接,點擊該鏈接進(jìn)入“修改 url 參數(shù)值”頁面。 url 參數(shù)值設(shè)定完成后,可以點擊導(dǎo)航條或頁面上方的菜單進(jìn)行其他配置。 4.2.14
39、.4.2.14.增加增加 url 參數(shù)值參數(shù)值 在“url 參數(shù)值列表”中,點擊列表頁上方或下方的“新增”按鈕,進(jìn)入“增加 url 參數(shù)值”頁面。 按頁面提示設(shè)置好各項,各項具體說明如下: 參數(shù)取值參數(shù)取值:該項必須輸入,根據(jù)頁面情況設(shè)定對應(yīng)參數(shù)的取值,如:省份名稱。 參數(shù)說明參數(shù)說明:該項可以不設(shè),主要是為了說明該參數(shù)值的用途,便于維護(hù)和使用。 顯示順序:顯示順序:用于設(shè)置該參數(shù)的顯示順序,循環(huán)時按顯示順序升序遍歷參數(shù)值。該項必 須設(shè)定。 設(shè)置好頁面各項以后,點擊“新增”按鈕,如果設(shè)置無誤,會顯示“增加 url 參數(shù)值 信息成功”頁面,該頁面會顯示設(shè)定的各項內(nèi)容。該頁面有一個“完成”按鈕,點
40、擊“完 成”按鈕,會返回“url 參數(shù)值列表” ,這樣完成了增加 url 參數(shù)值配置, “url 參數(shù)值 列表”中會顯示剛剛增加的 url 參數(shù)值。 .2.15.批量增加批量增加 url 參數(shù)值參數(shù)值 在“url 參數(shù)值列表”中,點擊列表頁中的“批量增加”按鈕,進(jìn)入“批量增加 url 參數(shù)值”頁面。 頁面中的各項數(shù)據(jù)項說明如下: 批量參數(shù)取值批量參數(shù)取值:該項必須輸入。需要循環(huán)的字符書寫為:起始字符-終止字符,不需 要循環(huán)的字符原樣書寫。循環(huán)的字符只能是字母 a-z、a-z 或數(shù)字 0-9 中的全部或一部分, 字符取值范圍中的小寫字母、大寫字母和數(shù)字不能交叉,如果取值范圍交叉,
41、則不是有效 的循環(huán),將保持原樣。正確的帶循環(huán)參數(shù)值如:a-z、column1-9,不正確的循環(huán)參數(shù)值 如:a-z、a-9。批量參數(shù)值中可以嵌入一個或多個字符循環(huán),允許不帶字符循環(huán),此時 等價于增加單個參數(shù)值。帶兩個循環(huán)的例子如:a-d-1-3,入庫時生成的參數(shù)值共 12 個: a-1、a-2、a-3、b-1、b-2、b-3、c-1、c-2、c-3、d-1、d-2 和 d-3。 點擊“新增”按鈕,如果設(shè)置無誤,會顯示“增加批量 url 參數(shù)值信息成功”頁面, 并提示總共入庫了多少個 url 參數(shù)值。 .2.16.修改修改 url 參數(shù)值參數(shù)值 在“url 參數(shù)值列表”中,點擊列表
42、頁右側(cè)“操作”欄中的“修改”鏈接,會進(jìn)入 “修改 url 參數(shù)值信息”頁面,根據(jù)需要設(shè)置好要修改的項,具體設(shè)置方式可參照“增加 url 參數(shù)值” ,點擊“保存”按鈕,如果設(shè)置正確無誤,會進(jìn)入“修改 url 參數(shù)值信息成 功”頁面,顯示頁面設(shè)置的內(nèi)容,該頁面有一個“完成”按鈕,點擊“完成”按鈕,會返 回“url 參數(shù)值列表” ,這樣完成了修改 url 參數(shù)值配置, “url 參數(shù)值列表”中會顯示 剛剛修改的 url 參數(shù)值。 .2.17.刪除刪除 url 參數(shù)值參數(shù)值 在“url 參數(shù)值列表”中,選中一條記錄,點擊列表頁上方或下方的“刪除”按鈕, 系統(tǒng)會提示確認(rèn)信息,確定后刪除該
43、條 url 參數(shù)值記錄,如果未選中記錄,系統(tǒng)會提示選 中要刪除的記錄。 .2.18.定位信息設(shè)置定位信息設(shè)置 在“頁面配置”的“網(wǎng)站列表”頁面,選中要進(jìn)行配置的網(wǎng)站,點擊列表頁上方或下 方的“定位信息設(shè)置”按鈕,如果未選中要進(jìn)行配置的網(wǎng)站,系統(tǒng)會提示“請選擇要配置 定位信息的頁面” ,選中后,系統(tǒng)會根據(jù)所選中網(wǎng)站的網(wǎng)頁類型、是否已經(jīng)進(jìn)行過定位信息 設(shè)置,進(jìn)入不同的操作頁面: 網(wǎng)頁類型是正文頁, “url 配置”和“定位信息設(shè)置”是相同的處理頁面 未進(jìn)行 url 配置或定位信息配置的,進(jìn)入“增加正文頁 url 及定位配置信息”頁 面; 已經(jīng)進(jìn)行過 url 配置或定位信息配置的,進(jìn)
44、入“修改正文頁 url 及定位配置信息” 頁面; 網(wǎng)頁類型是列表頁, 未進(jìn)行定位信息配置的,進(jìn)入“增加列表頁定位配置信息”頁面; 已經(jīng)進(jìn)行過定位信息配置的,進(jìn)入“修改列表頁定位配置信息”頁面; .2.19.增加列表頁定位配置信息增加列表頁定位配置信息 在“網(wǎng)站列表”中,選中要進(jìn)行定位配置的網(wǎng)頁類型為列表頁的網(wǎng)站,點擊列表頁上 方或下方的“定位信息設(shè)置”按鈕,如果該列表頁未進(jìn)行過定位信息設(shè)置,進(jìn)入“增加列 表頁定位配置信息”頁面; 按頁面提示設(shè)置好各項,各項具體說明如下: 每頁顯示的記錄數(shù)每頁顯示的記錄數(shù):設(shè)定每個列表頁的記錄數(shù)(數(shù)據(jù)行數(shù)) 。對于類型為列表頁的入口 頁,正數(shù) n
45、 表示如果其中一頁的記錄數(shù)小于 n,則不再抓取和處理下一頁;如果為-n,則 表示只要成功提取了一條記錄,且存在下一頁,則繼續(xù)抓取和處理下一頁。對于中間頁面 (非入口頁) ,n 表示嘗試從該列表頁中提取 n 條記錄,如果沒有提取到 n 條記錄,則該 次處理失??;-n 表示最多提取 n 條記錄,此時允許提取 0 條記錄(無記錄) 。如果列表頁 包含多頁,最好準(zhǔn)確地設(shè)置每頁記錄數(shù)。如果只有一頁,而且當(dāng)記錄數(shù)很多時,可以估計 一個較大的數(shù)值,例如 n,保證能夠把頁面中的所有記錄處理完,推薦將記錄數(shù)設(shè)置為負(fù) 數(shù)-n。 在正常情況下,下級頁面處理(包括頁面解析和入庫)出現(xiàn)錯誤,將影響本頁面的處 理。如果本
46、頁的記錄數(shù)設(shè)置為 n,因出現(xiàn)錯誤導(dǎo)致抓取結(jié)束;如果記錄數(shù)設(shè)置為-n,且本 頁正確處理的記錄數(shù)目大于 0,則繼續(xù)抓取和處理下一頁(不處理本頁面中的后續(xù)記錄) 。 記錄數(shù)設(shè)置為-n 時,且 n10000,表示下級頁面出現(xiàn)頁面解析錯誤時,繼續(xù)處理本列 表頁中的后續(xù)記錄。此時從該列表頁中提取的最大記錄數(shù)為:n 10000。 注意:記錄數(shù)設(shè)置為-n 時的容錯處理,只針對頁面解析錯誤,而不針對(不包括)頁 面入庫時發(fā)生的錯誤。 該項必須輸入。 定位到列表開始的字符串:定位到列表開始的字符串:用于設(shè)置能夠唯一定位到列表內(nèi)容開始的字符串,這樣可 以保證列表內(nèi)容的準(zhǔn)確性,也可以提高抓取效率。本項可以不設(shè)置,表示
47、從頭開始定位。 格式為:定位字符串,后面的“”為可 選項。當(dāng)沒有本可選項時,表示跳過的匹配次數(shù)為 0。例如:表示跳過 2 次匹配, 第 3 次匹配到的為列表開始位置。 定位到列表結(jié)束的字符串:定位到列表結(jié)束的字符串:用于設(shè)置能夠唯一定位到列表內(nèi)容結(jié)束的字符串,這樣可 以保證列表內(nèi)容的準(zhǔn)確性,也可以提高抓取效率,可以不設(shè)置本項,表示列表內(nèi)容一直到 整個頁面結(jié)束。 格式為:定位字符串,后面的“”為可 選項。當(dāng)沒有本可選項時,表示跳過的匹配次數(shù)為 0。例如:表示跳過 1 次匹配, 第 2 次匹配到的為列表結(jié)束位置。 定位到記錄開始的字符串:定位到記錄開始的字符串:用于設(shè)置能夠唯一定位到每條記錄內(nèi)容開
48、始的字符串,這 樣可以保證記錄中數(shù)據(jù)的準(zhǔn)確性,也可以提高抓取效率??梢圆辉O(shè)置,不設(shè)定表示從頭開 始定位。如果設(shè)置了本項, “定位到記錄結(jié)束的字符串”也必須設(shè)置。 格式為:定位字符串,后面的“”為可 選項。當(dāng)沒有本可選項時,表示跳過的匹配次數(shù)為 0。例如:表示跳過 1 次匹配, 第 2 次匹配到的為記錄開始位置。 定位到記錄結(jié)束的字符串:定位到記錄結(jié)束的字符串:用于設(shè)置能夠唯一定位到每條記錄內(nèi)容結(jié)束的字符串,這 樣可以保證記錄中數(shù)據(jù)的準(zhǔn)確性,也可以提高抓取效率。可以不設(shè)置,表示定位到整個頁 面結(jié)束。如果設(shè)置了本項, “定位到記錄開始的字符串”也必須設(shè)置。 格式為:定位字符串,后面的“”為可 選項
49、。當(dāng)沒有本可選項時,表示跳過的匹配次數(shù)為 0。例如:表示跳過 1 次匹配, 第 2 次匹配到的為記錄結(jié)束位置。 跳過的記錄數(shù)目:跳過的記錄數(shù)目:用于設(shè)定該列表頁跳過多少條記錄后開始抓取記錄內(nèi)容,缺省為 0,表示不跳過。通常用于跳過表頭(此時應(yīng)設(shè)置為 1) 。此項必須設(shè)定。 是否重新抓取是否重新抓取:用來設(shè)定對于抓取過的頁面是否重新抓取。 “是”表示重新抓取, “否” 表示不重新抓取。 是否需要是否需要 unescapeunescape 解碼解碼:如果頁面內(nèi)容使用 javascript escape 編碼,需要進(jìn)行 unescape 解碼。這種情況下頁面調(diào)用 javascript 的函數(shù) une
50、scape 解碼,為了獲得解碼后 的內(nèi)容,需要把本項設(shè)置為“是” 。 可接受的頁面可接受的頁面 url 連續(xù)重復(fù)次數(shù):連續(xù)重復(fù)次數(shù):抓取頁面過程中,url 連續(xù)重復(fù)時,繼續(xù)嘗試的 抓取次數(shù)。假設(shè)其取值為 n,如果實際的連續(xù) url 重復(fù)次數(shù)大于 n,則不再繼續(xù)抓取。一旦 一個網(wǎng)頁的 url 不重復(fù),實際的 url 連續(xù)重復(fù)次數(shù)從零開始重新計數(shù)。本項的缺省值為 0,表示碰到已抓取過的網(wǎng)頁,就停止抓取。該項必須輸入且不小于零。 可接受的入庫連續(xù)失敗次數(shù):可接受的入庫連續(xù)失敗次數(shù):抓取網(wǎng)頁過程中,入庫連續(xù)失敗時,繼續(xù)嘗試的抓取次 數(shù)。假設(shè)其取值為 n,如果實際的入庫連續(xù)失敗次數(shù)大于 n,則不再繼續(xù)抓
51、取。一旦一個網(wǎng) 頁成功入庫,實際的入庫連續(xù)失敗次數(shù)從零開始重新計數(shù)。本項的缺省值為 0,表示入庫 一旦失敗,就停止抓取。該項必須輸入且不小于零。 設(shè)置好頁面各項以后,點擊“新增”按鈕,如果設(shè)置無誤,會顯示“增加列表頁定位 配置信息成功”頁面,該頁面會顯示設(shè)定的各項內(nèi)容。該頁面有一個“完成”按鈕,點擊 該按鈕,會返回頁面配置的“網(wǎng)站列表” ,這樣完成了該列表頁的定位配置。 .2.20.修改列表頁定位配置信息修改列表頁定位配置信息 在“網(wǎng)站列表”中,選中要進(jìn)行配置的網(wǎng)頁類型為列表頁的網(wǎng)站,點擊列表頁上方或 下方的“頁面定位配置”按鈕,如果該列表頁已經(jīng)進(jìn)行過頁面定位配置,會進(jìn)入“修改
52、列 表頁定位配置信息”頁面,根據(jù)需要設(shè)置好要修改的項,具體設(shè)置方式可參照“增加列表 頁定位配置信息” ,點擊“保存”按鈕,如果設(shè)置正確無誤,會進(jìn)入“修改列表頁定位配置 信息成功”頁面,顯示頁面設(shè)置的內(nèi)容,該頁面有一個“完成”按鈕,點擊該按鈕,會返 回頁面配置的“網(wǎng)站列表” ,這樣完成了該列表頁的定位信息修改。 .2.21.下級頁面配置下級頁面配置 在頁面配置的“網(wǎng)站列表”頁面右側(cè)“操作”欄中,點擊“下級頁面”鏈接,會進(jìn)入 “下級頁面列表”頁面:如果選中的網(wǎng)站已經(jīng)配置了下級頁面,會在該列表中顯示出來, 在頁面右側(cè)“操作”欄中有“修改名稱”和“下級頁面”兩個連接,如果該下級頁面還有
53、 下級頁面,點擊“下級頁面”鏈接,可以看到下級頁面列表,在每一個下級頁面列表中都 可以增加新的子頁面,如此反復(fù)可以到無限多下級頁面,深度抓取頁面信息;如果沒有配 置,該列表頁為空列表頁。 在每一級“下級頁面列表”頁面的下方,有五個按鈕: “頁面定位信息”:增加或修改選中的子頁面的“頁面定位信息” ,頁面類型為 “列表頁”的子頁面頁面定位設(shè)置同頁面基本信息的頁面定位設(shè)置相同,頁面類 型為“正文頁”的子頁面頁面定位設(shè)置同頁面基本信息的頁面定位設(shè)置稍有不同, 缺少了“頁面 url”項的設(shè)置,其他項設(shè)置相同 “頁面解析”:對選中的子頁面進(jìn)行頁面解析 “頁面入庫”:對選中的子頁面進(jìn)行入庫配置 “增加”:
54、增加新的子頁面,前提是上級頁面進(jìn)行了“頁面解析” ,并且有解析出 來的類型為“url”的數(shù)據(jù)項。 “刪除”:刪除選中的子頁面 .2.22.增加子頁面增加子頁面 進(jìn)行該操作之前,必須針對上一級頁面進(jìn)行過頁面解析,并且有解析出來的數(shù)據(jù)類型 為“url”的數(shù)據(jù)項,否則系統(tǒng)會提示“頁面中不存在數(shù)據(jù)類型為 url 的數(shù)據(jù)項” 。確認(rèn)已 經(jīng)進(jìn)行過上級頁面的解析處理后,在“下級頁面列表”中,點擊列表頁下方的“新增”按 鈕,進(jìn)入“增加子頁面”頁面; 按頁面提示設(shè)置好各項,各項具體說明如下: 網(wǎng)頁名稱網(wǎng)頁名稱:該項必須輸入,設(shè)定要增加的子頁面的名稱。 網(wǎng)頁類型網(wǎng)頁類型:有兩個選項“列表頁”和“正
55、文頁” ,根據(jù)該子頁面的頁面類型進(jìn)行設(shè)定, 該項必須設(shè)定。 頁面調(diào)用方式:頁面調(diào)用方式:請求子頁面的方式,有兩個選項:post 和 get,通常應(yīng)設(shè)置為 get。 url 來源數(shù)據(jù)項:來源數(shù)據(jù)項:該列表框會列出所有上一級頁面解析出來的類型為“url”的數(shù)據(jù) 項,選定該子頁面來源于哪個 url 數(shù)據(jù)項,該項必須設(shè)定。 設(shè)置好頁面各項以后,點擊“新增”按鈕,如果設(shè)置無誤,會顯示“增加頁面成功” 頁面,該頁面會顯示設(shè)定的各項內(nèi)容。該頁面有“定位信息設(shè)置”和“完成”兩個按鈕, 點擊“定位信息設(shè)置”按鈕,進(jìn)行該頁面的定位信息設(shè)置(頁面類型為“列表頁”的子頁 面頁面定位設(shè)置同頁面基本信息的頁面定位設(shè)置相同
56、,頁面類型為“正文頁”的子頁面頁 面定位設(shè)置同頁面基本信息的頁面定位設(shè)置稍有不同,缺少了“頁面 url”項的設(shè)置,其 他項設(shè)置相同) 。點擊“完成”按鈕,會返回“下級頁面列表” ,這樣完成了增加子頁面, “下級頁面列表”中會顯示剛剛增加的頁面信息。 .2.23.修改修改子頁面子頁面 在“下級頁面列表”中,點擊列表頁右側(cè)“操作”欄中的“修改名稱”鏈接,會進(jìn)入 “修改子頁面”頁面,根據(jù)需要設(shè)置好要修改的項,具體設(shè)置方式可參照“增加子頁面” , 其中網(wǎng)頁類型不能修改。點擊“保存”按鈕,如果設(shè)置正確無誤,會進(jìn)入“修改子頁面成 功”頁面,顯示頁面設(shè)置的內(nèi)容,該頁面有一個“完成”按鈕,點擊
57、“完成”按鈕,會返 回“下級頁面列表” ,這樣完成了修改子頁面操作, “下級頁面列表”中會顯示剛剛修改的 頁面信息。 .2.24.刪除刪除子頁面子頁面 在“下級頁面列表”中,選中一條記錄,點擊列表頁下方的“刪除”按鈕,系統(tǒng)會提 示確認(rèn)信息,確定后刪除該條子頁面記錄,如果未選中記錄,系統(tǒng)會提示選中要刪除的記 錄。 .2.25.設(shè)置抓取時間設(shè)置抓取時間 設(shè)置抓取時間可以讓系統(tǒng)在設(shè)定的任意時間點執(zhí)行抓取操作,可以精確到分鐘。需要 對小時、分鐘、月、日以及星期分別設(shè)置。在頁面配置的“網(wǎng)站列表”中,點擊“設(shè)置抓 取時間”鏈接,會進(jìn)入“設(shè)置抓取小時和分鐘”頁面。小時分為 2
58、4 個復(fù)選框,分鐘分為 60 個復(fù)選框,小時和分鐘均可以全部選取,也可以設(shè)定為一個或多個值。點擊“下一步” 按鈕進(jìn)行月和日的設(shè)置,月分為 12 個復(fù)選框,日分為 31 個復(fù)選框,月和日均可以全部選 取,也可以設(shè)定為一個或多個值。點擊“下一步”按鈕進(jìn)行星期的設(shè)置,星期分為 7 個復(fù) 選框,可以全部選取,也可以設(shè)定為一個或多個值。 月、日和星期是兩套并列的時間單位,需要對它們進(jìn)行特別的說明。 當(dāng)星期指定為一個星期的所有天數(shù),而月和日也指定為所有月份和一個月份中的所有 天數(shù)時,表示抓取在每一天中的某些時間點進(jìn)行,格式如下(以星號“*”表示所有,下同) : 星期:* 月:* 日:* 當(dāng)星期指定為一個星
59、期的所有天數(shù),而月和日均不取所有值時,忽略星期的設(shè)置,抓 取在給定月份和該月的某些天進(jìn)行,例如: 星期:* 月:* 日:1,15 表示抓取在每月的 1 號和 15 號進(jìn)行。 又如: 星期:* 月:1,4,7,10 日:* 表示抓取在 1 月、4 月、7 月、和 10 月中的每一天進(jìn)行。 再如: 星期:* 月:1,6 日:10,20 表示抓取在 1 月 10 號、1 月 20 號以及 6 月 10 號和 6 月 20 號進(jìn)行。 當(dāng)明確指定抓取在一個星期的哪些天進(jìn)行,而月和日指定為所有月份和一個月份中的 所有天數(shù)時,忽略月和日的設(shè)置,抓取在一個星期的某些天進(jìn)行,例如: 星期:1,2,3,4,5 月
60、:* 日:* 表示抓取在工作日(星期一到星期五)的任何一天進(jìn)行。 當(dāng)明確指定抓取在一個星期的哪些天抓取,并且月和日均不取所有值時,星期、月和 日都有效,二者是或(or)的關(guān)系,即:滿足星期的條件或月和日的條件時,都進(jìn)行執(zhí)行 抓取工作,例如: 星期:6,7 月:1,5,10 日:1 表示抓取在周末(星期六和星期天)進(jìn)行,在 1 月 1 號、5 月 1 號和 10 月 1 號也要進(jìn) 行抓取。 設(shè)置完成后,點擊“完成”按鈕,提示設(shè)置成功,點擊“返回”按鈕返回“網(wǎng)站列表” 。 .2.26.抓取抓取 在頁面配置的“網(wǎng)站列表”中,選中一條記錄,點擊列表頁上方或下方的“抓取”按 鈕,會進(jìn)入“
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 手絹舞教案5篇
- 第八講辯證法的基本范疇與辯證思維方法
- 講文明樹新風(fēng)比賽演講學(xué)生(32篇)
- 融合教育考試知識集錦解讀
- 新三板盡職調(diào)查清單-證券公司
- 古藝魅影:博物館之旅-揭秘中國古代藝術(shù)與文化
- 下載語文課件教學(xué)課件
- 2024八年級數(shù)學(xué)上冊階段拔尖專訓(xùn)15分類討論思想的應(yīng)用習(xí)題課件新版北師大版
- 2024年南京客運(yùn)從業(yè)資格證考試題庫下載
- 2024年汕尾客運(yùn)從業(yè)資格證考試網(wǎng)
- 無人機(jī)查違技術(shù)方案
- 黑臭水體治理技術(shù)課件
- 道口開設(shè)施工方案
- 護(hù)理給藥制度課件
- 學(xué)校辦學(xué)方向
- 2024年電池行業(yè)培訓(xùn)資料
- 優(yōu)撫年審標(biāo)題
- 民辦小學(xué)招生方案
- 中班班本課程《你好-小鳥》
- 神經(jīng)外科標(biāo)準(zhǔn)護(hù)理的計劃范文
- 2022-2023學(xué)年北京市大興區(qū)八年級(上)期中數(shù)學(xué)試卷-普通用卷
評論
0/150
提交評論