WEB數(shù)據(jù)采集系統(tǒng)_第1頁
WEB數(shù)據(jù)采集系統(tǒng)_第2頁
WEB數(shù)據(jù)采集系統(tǒng)_第3頁
WEB數(shù)據(jù)采集系統(tǒng)_第4頁
WEB數(shù)據(jù)采集系統(tǒng)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、西安網(wǎng)是科技發(fā)展有限公司一一網(wǎng)站信息采集系統(tǒng)WEB數(shù)據(jù)采集系統(tǒng)亠.概述面對互聯(lián)網(wǎng)海量的信息,政府機關(guān)、企事業(yè)單位和研究機構(gòu)都迫切希望獲取 與自身工作相關(guān)的有價值信息, 如何方便快捷地獲取這些信息就變得至關(guān)重要 了。如果采用原始的手工收集方式,費時費力且毫無效率,面對越來越多的信息資 源,勞動強度和難度可想而知。因此,現(xiàn)代的政府和企業(yè)都迫切需要一種能夠 提 供高質(zhì)量和高效運作的信息采集解決方案。本系統(tǒng)針對不同行業(yè)用戶的應(yīng)用需求,以抓取互聯(lián)網(wǎng)為目的,實現(xiàn)在用戶自定義規(guī)則下,從互聯(lián)網(wǎng)中抓取指定信息。抓取的信息可存入數(shù)據(jù)庫或直接入庫發(fā) 送至指定欄目,實現(xiàn)網(wǎng)站信息及時更新和數(shù)據(jù)量提升,從而使得搜索引擎收

2、錄量 提升,擴大企業(yè)信息宣傳推廣力度。二. 典型應(yīng)用1. 政府機關(guān)實時跟蹤、采集與業(yè)務(wù)工作相關(guān)的信息來源。全面滿足內(nèi)部工作人員對互聯(lián)網(wǎng)信息的全局觀測需求。及時解決政務(wù)外網(wǎng)、政務(wù)內(nèi)網(wǎng)的信息源問題,實現(xiàn)動態(tài)發(fā)布??焖俳鉀Q政府主網(wǎng)站對各地級子網(wǎng)站的信息獲取需求。全面整合信息,實現(xiàn)政府內(nèi)部跨地區(qū)、跨部門的信息資源共享與有效 溝通。節(jié)約信息采集的人力、物力、時間,提高辦公效率。2. 企業(yè)實時準(zhǔn)確地監(jiān)控、追蹤競爭對手動態(tài),是企業(yè)獲取競爭情報的利器。 及時獲取競爭對手的公開信息以便研究同行業(yè)的發(fā)展與市場需求。為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。大幅度地提高企業(yè)獲取、利用情報的效率,節(jié)省

3、情報信息收集、存儲、挖掘的相關(guān)費用,是提高企業(yè)核心競爭力的關(guān)鍵。提高企業(yè)整體分析研究能力、市場快速反應(yīng)能力,建立起以知識管 理為核心的“競爭情報數(shù)據(jù)倉庫”是提高企業(yè)核心競爭力的神經(jīng)中樞。3. 新聞媒體快速準(zhǔn)確地自動采集數(shù)信息。支持每天對數(shù)萬條新聞進行有效抓取。支持對所需內(nèi)容的智能提取、審核。實現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。三. 系統(tǒng)構(gòu)架工作過程描述采集的目的就是把對方網(wǎng)站上網(wǎng)頁中的某塊文字或者圖片等資源下載到自己的站網(wǎng)上,這個過程需要做如下配置工作:下載網(wǎng)頁配置,解析網(wǎng)頁 配置,修正結(jié)果配置,數(shù)據(jù)輸出配置。如果數(shù)據(jù)符合自己要求,修正結(jié)果這 步可省略。配置完畢后,把配置形

4、成任務(wù)(任務(wù)以XML格式描述),采集系統(tǒng)第9頁按照任務(wù)的描述開始工作,最終把采集到的結(jié)果存儲到網(wǎng)站服務(wù)器上工作流程圖如下:數(shù)據(jù)處理邏輯圖:四. 系統(tǒng)功能根據(jù)用戶事先配置好的規(guī)則(網(wǎng)頁下載規(guī)則,網(wǎng)頁解析規(guī)則等),進行數(shù)據(jù)采集當(dāng)對方網(wǎng)站數(shù)據(jù)進行了更新,或者添加新數(shù)據(jù)時,系統(tǒng)自動會進行檢測,并進 行采集,然后更新到自己的數(shù)據(jù)庫(或者別的存儲方式),這個過程不再需要人工干 涉。五. 技術(shù)特點1. 支持多種網(wǎng)頁編碼格式,也可以人工設(shè)置編碼格式。支持各國語言的網(wǎng)站。2. 支持圖片,軟件,音樂,視頻,flash等多種格式資源的下載。3. 支持采集結(jié)果輸出的多樣性,可以使用不同輸出插件進行輸出,也可以自 己開

5、發(fā)輸出插件。4. 采集配置分為三個部分:網(wǎng)頁爬蟲配置,網(wǎng)頁解析配置,采集任務(wù)配置。 以上三者可以自由搭配,便于重復(fù)利用已設(shè)置完畢的配置。5. 可定制的數(shù)據(jù)解析和抽取。可以自由配置要采集的網(wǎng)絡(luò)元數(shù)據(jù),并可以對 每個網(wǎng)絡(luò)元數(shù)據(jù)自定義字段名。便于后續(xù)信息處理。6. 采集爬蟲采用多任務(wù)、多數(shù)據(jù)源管理。7. 每個任務(wù)下可以指定多個采集入口網(wǎng)站。8. 采集條件設(shè)置,可以針對不同任務(wù)下的入口網(wǎng)站設(shè)置采集路徑、重點頁面、 采集網(wǎng)址過濾等控制條件。控制條件采用正則表達式。9. 運行配置,采集運行過程中使用的爬蟲名稱、個數(shù)、數(shù)據(jù)更新頻度等均可 以由用戶進行配置。10. 自動識別文本中的圖片信息,并且自動下載到本地

6、,并替換文本中的圖片 URI為本地URL11. 管理控制臺可以監(jiān)控采集過程的運行情況。六. 系統(tǒng)優(yōu)勢1. 精確度咼用戶可以按照自身需要自行選擇、設(shè)定監(jiān)測的目標(biāo)網(wǎng)站和特定信息源,實施24小時不間斷監(jiān)測和采集,信息動態(tài)始終處于掌握之中。系統(tǒng)支持將網(wǎng)頁中的 信息內(nèi)容按日期、標(biāo)題、作者、欄目進行提取,過濾網(wǎng)頁中的無用信息。擴展抓 取 采集范圍可以精確到特定網(wǎng)站、特定欄目、特定頁面、特定區(qū)域。2. 易用性好系統(tǒng)參數(shù)設(shè)置簡單,一次設(shè)置多次使用。設(shè)置過程直觀、便捷。3. 靈活性強系統(tǒng)具有很強的靈活性,可按需選擇目標(biāo)站點,并根據(jù)形勢的變化,隨時 更 換目標(biāo)站點。用戶可直接到某一網(wǎng)站抓取用戶想要的特定欄目下的信

7、息, 它僅 僅 要求用戶設(shè)定特定的抓取條件,用戶需要的內(nèi)容就會自動被抓取和保存下來, 從 而實現(xiàn)由用戶上網(wǎng)找信息轉(zhuǎn)變?yōu)樾畔⒆詣恿飨蛴脩舻姆绞健?. 實施部署容易系統(tǒng)用戶界面友好,抓取服務(wù)器在任意瀏覽器下運行,實施部署過程簡單,即裝即用。5. 采集內(nèi)容全面適應(yīng)網(wǎng)站內(nèi)容格式的多變性,能完整地獲取需要采集的頁面,遺漏少,網(wǎng)頁 采集內(nèi)容的完整性在99%以上。6. 抓取速度快系統(tǒng)支持多線程處理技術(shù),支持運行多條線程的同時抓取??煽焖俑咝У貙?目標(biāo)站點或欄目進行信息采集,大大加快了信息的抓取速度,保證在同等單位時 間內(nèi)信息的抓取量成倍數(shù)增長。七. 系統(tǒng)界面展示倉管理員豊陸用戶:匚驗證碼:匚二:4700剜闖

8、采ftuS印、五一災(zāi)幣用刪盅請翳興庠呈玨沿査;印、磁麗ifi闌礫需用口,則lit頃口瑚走無邊居再進行岳隼*栓(ti?ik二童悝首貫1浦力噺咽目1丟夙本詵生丨廿零語蠱分糞顯示:|適擇廿糞二|頂目它理頃目臺稱狀祇上拓辜廠和 W信用韋無曲定克矩V2013/5/15 17:36:51亙制洞據(jù)丟弟確武m匚易整網(wǎng)_利I固斶民詞堵款無走專雖V尚無乜錄EW細招親集測誡W 爆r獗冋一一頁民目捋乾無指走專営VSt?J 淸惜殊 Sliit Itl FS廠期冋_彳晞?chuàng)p砸_民耳克款無定專疤V當(dāng)無ifi錄s«j采辛剽試m島賞網(wǎng)一 一企1E貸麗一 貢民閆疲軟無狛走些題V尚無乜錄SfiJ fHffi親爲(wèi)測誡HI廠毅

9、同-汽車牴戸屋一 頁車葫賀檸芟轉(zhuǎn)無皓走專豈7盲無記錄St?j編惜采怎期適ttl廠刑冋一一二手車加脯 -貢車齡質(zhì)聘蠱潮旨定專矩V尚無記錄富制堀揖殺辛測誡田匚霸貸網(wǎng)一一汽車貨網(wǎng)一 貢車羽質(zhì)損罠螢無狛走專題V尙無記錄E制図植采集測試KI確網(wǎng)一-腳稅膜一 頁無皓圭專気V肖無記錄更刮編惜采集fliEt Itl廠舄勲冋住広ifei?第亠啟產(chǎn)牴碟議無拒定專題V尚無記錄羞制病槪采辛対試糾廠銭、第一次使用本功能,請慘改采隼星本設(shè)畫;熔、采第前請堀需乘第項目測試項目確宦無邊后再淮行乘第令曙作尋航:管理首頁I添加新I頁目I采隼基本設(shè)盍丨分類設(shè)蠱分類顯示;|麟分類3墜理導(dǎo)航:添加新圭欄目編號欄目分類簡管理選項操作150新聞漆加下靈欄目冊鵬173H1用卡勸口下級程目172卜民間貨隸添加F錢欄目綁m171卜車輛質(zhì)押貸款讀加下級欄目綁鵬170卜房產(chǎn)抵押貸款逶加下璽欄目憾鵬16Q閘行賞就逵加下級程目153kft用貨款懣加下報欄目啊刪余入圉內(nèi)咨顯示:営顯術(shù) 廣隱龜|譎訃幔枚|遽曰采集乘竦歷蟲記錄昔理営雀導(dǎo)航:管煙首頁1成功記錄1尖腹記錄丨尖效記錄歷史記錄- Hi有記錄選擇頂目名稱標(biāo)題頻請芒目來源結(jié)果入庫慢作廠和訊網(wǎng)一銀行卡資電月持卡人消賈信倉恿期玻韻無佶走

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論