資源數(shù)據(jù)采集技術(shù)方案._第1頁
資源數(shù)據(jù)采集技術(shù)方案._第2頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、資源數(shù)據(jù)采集技術(shù)方案公司名稱2011年7月二O一一年七月目錄第1部分概述31.1項目概況31.2系統(tǒng)建設(shè)目標31.3建設(shè)的原則41.3.1建設(shè)原則41.4參考資料和標準5第2部分系統(tǒng)總體框架與技術(shù)路線52.1系統(tǒng)應(yīng)用架構(gòu)62.2系統(tǒng)層次架構(gòu)62.3關(guān)鍵技術(shù)與路線7第3部分系統(tǒng)設(shè)計規(guī)范9第4部分系統(tǒng)詳細設(shè)計9第1部分概述1.1 項目概況Internet已經(jīng)發(fā)展成為當今世界上最大的信息庫和全球范圍內(nèi)傳播知識的主要渠道,站點遍布全球的巨大信息服務(wù)網(wǎng),為用戶提供了一個極具價值的信息源。無論是個人的發(fā)展還是企業(yè)競爭力的提升都越來越多地依賴對網(wǎng)上信息資源的利用?,F(xiàn)在是信息時代,信息是一種重要的資源,它在人

2、們的生活和工作中起著重要的作用。計算機和現(xiàn)代信息技術(shù)的迅速發(fā)展,使Internet成為人們傳遞信息的一個重要的橋梁。網(wǎng)絡(luò)的不斷發(fā)展,伴隨著大量信息的產(chǎn)生,如何在海量的信息源中查找搜集所需的信息資源成為了我們今后建設(shè)在線預訂類旅游網(wǎng)重要的組成部分。因此,在當今高度信息化的社會里,信息的獲取和信息的及時性。而Web數(shù)據(jù)采集可以通過一系列方法,依據(jù)用戶興趣,自動搜取網(wǎng)上特定種類的信息,去除無關(guān)數(shù)據(jù)和垃圾數(shù)據(jù),篩選虛假數(shù)據(jù)和遲滯數(shù)據(jù),過濾重復數(shù)據(jù)。直接將信息按照用戶的要求呈現(xiàn)給用戶??梢源蟠鬁p輕用戶的信息過載和信息迷失。1.2 系統(tǒng)建設(shè)目標在線預訂類旅游網(wǎng)是在線提供機票、酒店、旅游線路等旅游商品為主,

3、涉及食、住、行、游、購、娛等多方面的綜合資訊信息、全方位的旅行信息和預訂服務(wù)的網(wǎng)站。如果用戶要搜集這一類網(wǎng)站的相關(guān)數(shù)據(jù),通常的做法是人工瀏覽網(wǎng)站,查看最近更新的信息。然后再將之復制粘貼到Excel文檔或已有資源系統(tǒng)中。這種做法不僅費時費力,而且在查找的過程中可能還會遺漏,數(shù)據(jù)轉(zhuǎn)移的過程中會出錯。針對這種情況,在線預訂類旅游網(wǎng)信息自動采集的系統(tǒng)可以實現(xiàn)數(shù)據(jù)采集的高效化和自動化。1.3 建設(shè)的原則1.3.1 建設(shè)原則由于在線預訂類旅游網(wǎng)的數(shù)據(jù)采集涉及的方面多、數(shù)據(jù)量大、采集源數(shù)據(jù)結(jié)構(gòu)多樣化的特點。因此,在進行項目建設(shè)的過程中,應(yīng)該遵循以下原則:可擴充性根據(jù)實際的要求,系統(tǒng)可被方便地載減和靈活的擴展

4、,使系統(tǒng)能適應(yīng)變化和新情況??梢詫崿F(xiàn)模塊級別的動態(tài)擴展,而且是運行時的。所謂運行時模塊的動態(tài)擴展,比如說你需要增加一些新的功能,你可以將新開發(fā)的類和文件按照Bundle進行組織,然后直接扔到運行時環(huán)境下,這些功能就可以用了。因此系統(tǒng)不會受技術(shù)改造而重新做出調(diào)整。創(chuàng)新性軟件的投資要考慮到今后的發(fā)展,不能使用落后的產(chǎn)品與技術(shù),避免投資的浪費;在系統(tǒng)軟件選型、開發(fā)技術(shù)上,達到國內(nèi)外先進水平。規(guī)范性和標準性整個設(shè)計方案從網(wǎng)絡(luò)協(xié)議、操作系統(tǒng)到各個設(shè)計細節(jié),應(yīng)該全部遵循通用的國際或行業(yè)標準,符合國家有關(guān)標準規(guī)范的。低耦合性采集系統(tǒng)與其它系統(tǒng)彼此間相對獨立,直接進行數(shù)據(jù)庫入庫、sql同步或者基于txt/xm

5、l的數(shù)據(jù)交換,保證整體系統(tǒng)的低耦合性。高效性在底層的技術(shù)實現(xiàn)上采用java語言,跨平臺,跨數(shù)據(jù)庫,運行效率卓越。安全、穩(wěn)定、準確、及時性采用先進的算法,采用多個子系統(tǒng)和工具組成一個安全、穩(wěn)定、準確、及時的解決方案。方案在總體設(shè)計上遵循穩(wěn)定、開放、可擴展、經(jīng)濟、安全的原則,從而使整個方案組成合理,技術(shù)先進,易于擴展,既能滿足當前的業(yè)務(wù)數(shù)據(jù)處理要求,又能符合長期發(fā)展的需要。易操作和易維護原則整個系統(tǒng)易于維護,容易操作,易學,易用,完全通過WEB方式完成,降低維護的技術(shù)難度,也減少了人為隱患的發(fā)生。1.4 參考資料和標準主要參閱并依據(jù)以下一些參考資料及標準: 中國項目管理知識體系(C-PMBOK),

6、2001.5 GB/T1526-1989信息處理數(shù)據(jù)流程圖、程序流程圖、系統(tǒng)流程圖、程序網(wǎng)絡(luò)圖、系統(tǒng)資源圖的文件編制符號及約定 GB/T8566-1995信息技術(shù)軟件生存期過程 GB/T8567-1988計算機軟件產(chǎn)品開發(fā)文件編制指南 GB/T9385-1988計算機軟件需求說明編制指南 GB/T13702-1992計算機件分類與代碼 GB/T11457-1995軟件工程術(shù)語第2部分系統(tǒng)總體框架與技術(shù)路線網(wǎng)絡(luò)信息資源采集系統(tǒng)是一套功能強大的網(wǎng)絡(luò)信息資源開發(fā)利用與整合系統(tǒng),可用于定制跟蹤和監(jiān)控互聯(lián)網(wǎng)實時信息,建立可再利用的信息服務(wù)系統(tǒng)。能夠從各種網(wǎng)絡(luò)信息源,包括網(wǎng)頁、BLOG、論壇等采集用戶感興

7、趣的特定信息,經(jīng)自動分類處理后,以多種形式提供給最終用戶使用。2.1 系統(tǒng)應(yīng)用架構(gòu) 網(wǎng)絡(luò)蜘蛛:按照指定規(guī)則抓取網(wǎng)站數(shù)據(jù)。 數(shù)據(jù)分析:分析從網(wǎng)絡(luò)蜘蛛來的數(shù)據(jù),過濾掉我們不需要的信息。 數(shù)據(jù)解析:根據(jù)指定資源格式(字段)的定義,進行數(shù)據(jù)庫字段級別的解析。 分組分析:根據(jù)不同的網(wǎng)絡(luò)資源類型進行分類,并以多種存儲方式進行存儲2.2 系統(tǒng)層次架構(gòu)網(wǎng)絡(luò)資源采集數(shù)據(jù)導出數(shù)據(jù)發(fā)布網(wǎng)絡(luò)請求數(shù)據(jù)轉(zhuǎn)換應(yīng)用層采集監(jiān)控數(shù)據(jù)分析消息通知登錄驗證數(shù)據(jù)處理任務(wù)計劃常用腳本庫認證碼識別WEB服務(wù)器應(yīng)用服務(wù)器規(guī)范接口其他支撐層關(guān)系數(shù)據(jù)文本文件數(shù)據(jù)圖片視頻數(shù)據(jù)數(shù)據(jù)層».整個系統(tǒng)分為四層,分別為:數(shù)據(jù)層:數(shù)據(jù)層負責存儲抓取

8、來的各種信息及數(shù)據(jù),這里面包括網(wǎng)頁、文檔、關(guān)系型數(shù)據(jù)、多媒體數(shù)據(jù)等。 支撐層:支撐層提供了關(guān)鍵的硬、軟件支撐系統(tǒng),包括應(yīng)用服務(wù)器、WEB服務(wù)器、規(guī)范接口等規(guī)范支撐系統(tǒng)。 應(yīng)用層:在應(yīng)用層主要提供網(wǎng)絡(luò)資源采集、數(shù)據(jù)轉(zhuǎn)換、分析、處理、導出、發(fā)布、采集監(jiān)控、消息通知、登錄驗證、任務(wù)計劃、認證碼識別等服務(wù)。 表現(xiàn)層:表現(xiàn)層通過瀏覽器等方式,為用戶提供多樣化的信息服務(wù)。2.3 關(guān)鍵技術(shù)與路線為了充分滿足本項目的建設(shè):我們采用先進、主流、可靠、實用、性價比好的三層架構(gòu)體系,充分考慮今后縱向、橫向擴張能力。采用構(gòu)件化和面向?qū)ο蠹夹g(shù),使系統(tǒng)具有靈活的擴展性和良好的移植性。2.3.1 J2EE規(guī)范體系從軟件層次

9、上看,我們采用了典型的J2EE三層架構(gòu)體系,即應(yīng)用一支撐一數(shù)據(jù)三層。簡單地說,J2EE(Javatm2PlatformEnterpriseEdition)是一個標準中間件體系結(jié)構(gòu),旨在簡化和規(guī)范多層分布式應(yīng)用系統(tǒng)的開發(fā)和部署,有了它,開發(fā)者只需要集中精力編寫代碼來表達應(yīng)用的商業(yè)邏輯和表示邏輯,至于其他系統(tǒng)問題,如內(nèi)存管理,多線程,資源分布和垃圾收集等,都將由J2EE自動完成。J2EE已經(jīng)被證明是一個穩(wěn)定的、可擴展的、成熟的平臺,在國內(nèi)外擁有眾多成功的應(yīng)用實例。J2EE應(yīng)用服務(wù)器(ApplicationServer)采用目前國際最先進的開發(fā)理念、擁有許多適合基于Internet應(yīng)用需求的特點:

10、三層結(jié)構(gòu)體系最適合Internet環(huán)境,可以使系統(tǒng)有很強的可擴展性和可管理性。 面向?qū)ο?、組件化設(shè)計一一2EE是一種組件技術(shù),已完成的模塊能方便的移植到其它地方,可以提高開發(fā)速度,降低開發(fā)成本。 基于JAVA完全跨平臺特性一一與平臺無關(guān),適應(yīng)Internet需要,并能得到大多數(shù)廠商支持,用戶可根據(jù)需要選擇合適的服務(wù)器硬件和數(shù)據(jù)庫。并且如果需要更換系統(tǒng)平臺時,J2EE也能方便的進行移植。把J2EE三層架構(gòu)軟件體系引用到資源采集系統(tǒng),將大大提高系統(tǒng)的可移植性、可伸縮性和可擴展性。2.3.2 XML技術(shù)XML(extensibleMarkupLanguage,可擴展標記語言),是當前最熱門的網(wǎng)絡(luò)技術(shù)

11、之一,被稱為“第二代Web語言”“下一代網(wǎng)絡(luò)應(yīng)用的基石”自它被提出以來,幾乎得到了業(yè)界所有大公司的支持。XML具有卓越的性能,它具有四大特點: 優(yōu)良的數(shù)據(jù)存儲格式 可擴展性 高度結(jié)構(gòu)化 方便的網(wǎng)絡(luò)傳輸以XML技術(shù)作為支持,為用戶自定義應(yīng)用界面和業(yè)務(wù)數(shù)據(jù)結(jié)構(gòu),并將其與底層數(shù)據(jù)庫定義格式、界面標準輸入、輸出的接口轉(zhuǎn)換作了實現(xiàn),可實現(xiàn)分布式、異構(gòu)應(yīng)用系統(tǒng)之間的數(shù)據(jù)交換。我們將在本項目中主要以XML為存儲方式,方便擴展和數(shù)據(jù)分析。2.3.3 WEB2.0技術(shù)Web2.0,是相對Webl.O(2003年以前的互聯(lián)網(wǎng)模式)的新的一類互聯(lián)網(wǎng)應(yīng)用的統(tǒng)稱,是一次從核心內(nèi)容到外部應(yīng)用的革命,是依據(jù)“六度分隔”(注

12、:由美國哈佛大學社會心理學教授斯坦利米爾格蘭姆發(fā)現(xiàn)的,你和任何一個陌生人之間所間隔的人不會超過六個,也就是說,最多通過六個人你就能夠認識任何一個陌生人。)、XML、AJAX等新理論和技術(shù)實現(xiàn)的互聯(lián)網(wǎng)新一代模式。由Webl.0單純通過網(wǎng)絡(luò)瀏覽器瀏覽html網(wǎng)頁模式向內(nèi)容更豐富、聯(lián)系性更強、工具性更強的Web2.0互聯(lián)網(wǎng)模式的發(fā)展已經(jīng)成為互聯(lián)網(wǎng)新的發(fā)展趨勢。Webl.0到Web2.0的轉(zhuǎn)變,具體的說,從模式上是單純的“讀”向“寫”、“共同建設(shè)”發(fā)展;由被動地接收互聯(lián)網(wǎng)信息向主動創(chuàng)造網(wǎng)絡(luò)信息邁進。運行機制上,由“ClientServer"向“WebServices”轉(zhuǎn)變;作者由程序員等專業(yè)

13、人士向全部普通用戶發(fā)展;應(yīng)用上由初級的,滑稽”的應(yīng)用向全面大量應(yīng)用發(fā)展。采用創(chuàng)新的Ajax技術(shù),同等網(wǎng)絡(luò)環(huán)境下,頁面響應(yīng)時間最高減少90。2.3.4 系統(tǒng)集成APIXML文檔結(jié)構(gòu)在很多方面可以方便地反映對象的結(jié)構(gòu),這也是其適合面向?qū)ο蟮能浖夹g(shù)的一個關(guān)鍵點。使用XML對數(shù)據(jù)源的數(shù)據(jù)進行處理,它起著接口層或者封裝的作用,這樣不同的應(yīng)用程序之間,不同的操作系統(tǒng)之間,不同的數(shù)據(jù)庫之間都可以交換數(shù)據(jù)。使用XML作為數(shù)據(jù)交換工具還可以解決異構(gòu)數(shù)據(jù)庫之間的集成。對本項目中涉及到的數(shù)據(jù)采集、轉(zhuǎn)換、分析、處理等問題,我們將開發(fā)專用的數(shù)據(jù)接口,采用XML技術(shù)作為數(shù)據(jù)交換的頁面描述規(guī)范。XStream是一個Jav

14、a和XML相互轉(zhuǎn)換的工具。使用非常的簡單,并且可以自定義轉(zhuǎn)換的過程,但是這個組件僅能做的就是這些最基本的工作,有了這個組件,我們可以不用考慮具體一個Java對象和XML之間問題了。第3部分系統(tǒng)設(shè)計規(guī)范第4部分系統(tǒng)詳細設(shè)計4.1應(yīng)用功能設(shè)計4.1.1資源采集我們可以使用采集,對網(wǎng)絡(luò)上的各種資源進行挖掘。a) 采集工程:采集工作的詳細設(shè)置文件,包含了要采集的資源鏈接。1. 精確:根據(jù)指定資源格式(字段)的定義,進行數(shù)據(jù)庫字段級別的采集。2. 蜘蛛/爬蟲:根據(jù)指定的文件匹配表達式,自動對指定網(wǎng)站的資源進行全面分析和采集。b) 字段:各種資源的最小單位,譬如您要采集某個網(wǎng)站的多個帖子,那么每個帖子可能

15、包含以下字段:作者、標題、日期、內(nèi)容等。c) 鏈頁:一些帖子在多頁面里的,這種情況下您可以為帖子的內(nèi)容字段設(shè)置鏈頁屬性,自動把多個分頁的內(nèi)容合并到內(nèi)容字段。d) 追蹤:一些資源是要從列表頁面中,通過點擊多個頁面才顯示的,這種情況下,您可以為內(nèi)容自動設(shè)置跟蹤屬性,自動獲取最終的內(nèi)容。e) 登錄驗證:一些資源網(wǎng)站需要您登錄后才可以訪問內(nèi)容,這種情況下下,您可以為整個網(wǎng)站、每個鏈接甚至每個資源單獨定義登錄驗證以滿足具體需求。1. 參數(shù):這是模擬登錄需要的參數(shù),譬如用戶名、密碼等。2. 登錄采集工程:一些網(wǎng)站的登錄認證相當復雜,往往會采用一些動態(tài)參數(shù)/值,如果用固定的參數(shù)是無法滿足登錄需求的,這個時候

16、,您可以使用采集工程來自動獲取登錄參數(shù)的值。3. 登錄腳本:如果即便使用采集工程仍然無法滿足一些特別網(wǎng)站的登錄需求,您可以使用自定義的登錄腳本來實現(xiàn)相應(yīng)的登錄認證。f)數(shù)據(jù)處理:1. 臟字過濾:對符合國家規(guī)定的敏感字符的過濾,還可以自定義要過濾的字符,以確保采集到的內(nèi)容符合相關(guān)法律法規(guī)。2. 垃圾內(nèi)容過濾:使用貝葉斯概率模型對已采集的內(nèi)容自動分析判定是否為垃圾內(nèi)容,您可以自行對各種垃圾內(nèi)容進行過濾。3.內(nèi)容嗅探:對于Flash/Silverlight播放器,會在頁面加載之后才從后臺獲取實際的文件(FLV/MP3/.XAP等),您可以使用內(nèi)容嗅探實現(xiàn)對這些實際內(nèi)容的采集。4. 關(guān)鍵字/標簽(Ta

17、g)自動分析:利用全文分詞對采集的內(nèi)容進行分析,自動獲取內(nèi)容的關(guān)鍵字/標簽列表。5. 文件格式批量轉(zhuǎn)換:對大量文件的快速轉(zhuǎn)換,改變圖片或視頻的大小/添加水印/改變格式,抽取壓縮文件,Office系列文檔轉(zhuǎn)換為HTML,以多種方式修改文件名稱和內(nèi)容,修改圖片文件屬性,文本排版,文本混淆,文本簡繁大小寫編碼互轉(zhuǎn),文本切分合并,網(wǎng)頁文本互轉(zhuǎn),不良圖片過濾,數(shù)據(jù)轉(zhuǎn)換等。g)圖片轉(zhuǎn)換:改變圖片大小和格式,添加水印,支持jpg、bmp、png、gif、icl、jpeg等。h)壓縮文檔:抽取/轉(zhuǎn)換/生成壓縮文檔,支持zip、rar等。i)Office文檔支持:支持doc、docx、xls、xlsx、xml、

18、pdf、rtf等。j)文本排版:段落智能修正、去掉干擾符、修正段落首尾空格、修正標點符號,支持txt,htm,eml。k)文本切分合并:按大小、行數(shù)或段落數(shù)剪切文本內(nèi)容、和并內(nèi)容,支持txt,htm,eml。l) 不良圖片過濾:識別并過濾不良圖片,支持所有圖片。m)數(shù)據(jù)轉(zhuǎn)換:使用自定義腳本轉(zhuǎn)換數(shù)據(jù)和文件,支持采集工程、各種數(shù)據(jù)庫和各種文件。n)快速下載:1.鏈接分析:復制要下載各種資源(如圖片等)的鏈接或網(wǎng)頁內(nèi)容,全自動分析并下載到本地磁盤。2.嗅探:復制視頻地址或內(nèi)容,全自動分析并下載視頻,特有嗅探功能,支持所有視頻網(wǎng)站。o)通過多線程并行采集,加快采集速度。4.1.2 數(shù)據(jù)導出a) 導出數(shù)

19、據(jù)庫:把采集后的數(shù)據(jù)導出到各大數(shù)據(jù)庫/數(shù)據(jù)文件中。b)以Excel、XML等文件形式導出。c)可以把文件導出到FTP。d)自定義導出腳本。4.1.3 資源信息發(fā)布a) 采集后的數(shù)據(jù):可以把采集后的數(shù)據(jù),發(fā)布到指定網(wǎng)站或系統(tǒng)。b) 網(wǎng)絡(luò)請求:可以自定義請求,譬如網(wǎng)絡(luò)投票等。4.1.4 任務(wù)計劃可以指定采集、轉(zhuǎn)換、導出、發(fā)布、請求等各種任務(wù)定時執(zhí)行。a) 可啟用多個線程來完成同一個采集任務(wù)。b) 可自由設(shè)定采集網(wǎng)頁數(shù)和暫停的時間,此功能主要解決采集過快而被屏閉或禁止訪問等問題。c) 可以在采集當中隨身暫停、啟動或停止任務(wù)。4.1.5 消息通知能夠自動通過多種方式(郵件、系統(tǒng)日志、系統(tǒng)聲音等)通知采集發(fā)布情況。a)在各種任務(wù)完成之后,如采集,發(fā)布,計劃任務(wù)等。b) 監(jiān)控指定網(wǎng)站并在數(shù)據(jù)改變時。4.1.6 監(jiān)控設(shè)置當網(wǎng)絡(luò)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論