




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設(shè)計(jì)與初步實(shí)現(xiàn)杜義華 及俊川(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心管理服務(wù)中心 , 北京 )摘要:通過(guò)建立網(wǎng)頁(yè)資源庫(kù)、結(jié)合Spider技術(shù)、內(nèi)容分析技術(shù),引入用戶數(shù)據(jù)項(xiàng)和替換抽取指令編輯器等,提供和定制可視化通用性較強(qiáng)的互聯(lián)網(wǎng)信息采集系統(tǒng),能定期自動(dòng)跟蹤相關(guān)網(wǎng)站或網(wǎng)頁(yè),進(jìn)行比較分析、抽取、規(guī)整入庫(kù)、分類等從互聯(lián)網(wǎng)上獲取所需信息。本文主要分析和介紹其設(shè)計(jì)實(shí)現(xiàn)思路。關(guān)鍵詞:互聯(lián)網(wǎng)信息采集系統(tǒng) 網(wǎng)絡(luò)信息挖掘 中圖法分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):Design and Implementation of a Internet Information Gather & Pr
2、ocess SystemDU Yi-hua , JI Jun-chuan(Dept. of OA , Computer Network Information Center , Chinese Academy of Science Beijing 10084,China)Abstract: By using web page database technology 、SPIDER searching technology and content parsing technology , providing with User-Defined field config tool and batc
3、h Get & Replace script language editor , We develop a flexible visual Internet Information Gather & Process System , which according to users setting , can automatic track Web 、filter information、Gather information、extract information、classify information and save to database termly .This paper intr
4、oduces the design and implementation of the system in detail.Keywords:Internet Information Gather & Process System ;Web Mining引言現(xiàn)狀信息多、有用少、分布雜亂無(wú)章、不斷發(fā)展變化是互聯(lián)網(wǎng)上信息資源特點(diǎn),信息來(lái)源的異構(gòu)性是網(wǎng)絡(luò)信息難以采集整理再利用的焦點(diǎn)1。近年來(lái)關(guān)于web信息利用研究很多,大多集中在搜索引擎技術(shù)2,旨在利用先進(jìn)系統(tǒng)和人工智能技術(shù),以一定策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)、理解、組織信息后為用戶提供網(wǎng)頁(yè)、圖片、軟件等檢索服務(wù)?;ヂ?lián)網(wǎng)信息采集系統(tǒng)是對(duì)Internet上某
5、些或某類站點(diǎn)進(jìn)行內(nèi)容分析和分類整理,從網(wǎng)頁(yè)中提取有效數(shù)據(jù)加工得到所需要的常常是該領(lǐng)域絕大部分資料,是新一代網(wǎng)絡(luò)應(yīng)用的方向,其不同于搜索引擎,純智能化技術(shù)不能滿足需要,不同于基于代理因特網(wǎng)信息獲取的 WebClone系統(tǒng)3及各類離線瀏覽器,他們下載的是頁(yè)面,不能直接讓用戶抽取所需要數(shù)據(jù)項(xiàng),不便自動(dòng)實(shí)時(shí)監(jiān)測(cè)源網(wǎng)站的更新信息等。采集系統(tǒng)均基于網(wǎng)頁(yè)內(nèi)容分析,除零星新聞采集程序外,目前較成熟的內(nèi)容采集系統(tǒng)有“天星”系統(tǒng)(Webcate CPS) 4,其采用一種通用模板加腳本編程解決實(shí)現(xiàn),有網(wǎng)絡(luò)信息采集、分析、管理與發(fā)布工具(II-3I)5等。但現(xiàn)有系統(tǒng)不夠大眾化,還局限于定制開發(fā),無(wú)法通用。設(shè)計(jì)目的信息
6、采集過(guò)程可表現(xiàn)為用戶指定需要采集的內(nèi)容、這些內(nèi)容映射到數(shù)據(jù)庫(kù)中的哪一部分、以及其他一些采集規(guī)則,然后采集系統(tǒng)根據(jù)用戶提供的這些信息進(jìn)行采集。其不是用于互聯(lián)網(wǎng)上未知信息未知網(wǎng)站的自動(dòng)搜索,而主要是用于指定網(wǎng)站指定欄目下的信息,其采集的最終結(jié)果不再是頁(yè)面,而是深入到站點(diǎn)和頁(yè)面內(nèi)部,采集中有效數(shù)據(jù)項(xiàng)和相關(guān)圖片附件,并直接進(jìn)入用戶指定庫(kù)。采集系統(tǒng)開發(fā)目的就是提供一個(gè)有力的工具,幫助普通用戶(熟悉基本的HMTL)而非編程人員從異構(gòu)數(shù)據(jù)源收集信息并轉(zhuǎn)換為他所需要的信息,功能包括網(wǎng)頁(yè)采集、分析下載、直接入庫(kù)、自動(dòng)分類整理、內(nèi)容定期更新監(jiān)測(cè)等,整個(gè)采集過(guò)程基于參數(shù)和配置管理控制,提供圖形化界面編輯或向?qū)讲僮?/p>
7、。系統(tǒng)將為最終用戶提供一步到位的信息再整理過(guò)程,將浩瀚信息從無(wú)序化到有序化,可廣泛用于情報(bào)收集、信息監(jiān)控、行情跟蹤、專業(yè)信息資源站、搜索引擎上二次開發(fā)6、內(nèi)部知識(shí)系統(tǒng)或天氣預(yù)報(bào)、股市、匯率、商情、動(dòng)態(tài)新聞等的實(shí)時(shí)采集更新等。設(shè)計(jì)時(shí)充分考慮最大程度的通用性、易用性。實(shí)現(xiàn)原理目前,互聯(lián)網(wǎng)上各網(wǎng)頁(yè)均采用動(dòng)態(tài)發(fā)布技術(shù)實(shí)現(xiàn)或采用模板制作,雖然Internet上的數(shù)據(jù)非常龐雜,但對(duì)于具體的網(wǎng)站和網(wǎng)頁(yè),卻是有結(jié)構(gòu)和有規(guī)律的。由于無(wú)論采集系統(tǒng)多么智能,網(wǎng)站頁(yè)面和用戶需求的映射關(guān)系都是采集系統(tǒng)程序不可能完全自動(dòng)感知到的,但用戶可以知道。因此系統(tǒng)程序?qū)崿F(xiàn)的方法就是提供一個(gè)用戶能夠?qū)⑿枨蟾嬖V采集系統(tǒng)程序的通道。 用
8、戶通過(guò)分析指定網(wǎng)站或指定的網(wǎng)站頻道欄目下的網(wǎng)頁(yè)元素,分析網(wǎng)頁(yè)源HTML代碼及網(wǎng)頁(yè)間相互關(guān)系;可以發(fā)現(xiàn)其與所需要數(shù)據(jù)項(xiàng)的規(guī)律和對(duì)應(yīng)關(guān)系,在剖析到原有網(wǎng)站本身版面內(nèi)和版面間元素的關(guān)系的基礎(chǔ)上,就可以根據(jù)用戶指令將這些元素之間關(guān)系轉(zhuǎn)換為用戶需要的數(shù)據(jù),即能有效利用了網(wǎng)站制作人的智慧和用戶的智慧,從數(shù)據(jù)挖掘整理的角度設(shè)計(jì)和開發(fā)一套通用互聯(lián)網(wǎng)信息采集系統(tǒng)。用戶需告訴采集系統(tǒng)要在什么時(shí)候從哪里對(duì)滿足哪些條件的內(nèi)容經(jīng)過(guò)哪些步驟(或者事件)然后采集出什么元素,并把該元素放置到數(shù)據(jù)庫(kù)哪一部分等,系統(tǒng)設(shè)計(jì)時(shí)主要為將以上所有內(nèi)容根據(jù)不同掃描頻率作為配置文件按一套自定義接口描述標(biāo)準(zhǔn)對(duì)用戶開放。流程分析信息采集過(guò)程即從
9、異構(gòu)數(shù)據(jù)源收集信息并轉(zhuǎn)換為用戶需要的信息的過(guò)程。以分析某個(gè)網(wǎng)站發(fā)布的需求信息或新聞動(dòng)態(tài)為例,我們可能使用的方法是,第一次發(fā)現(xiàn)其已有上千條信息,將其全部下載為本地文件、分析為些文件,編程對(duì)此目錄(含子目錄)下所有文件掃描處理,取出有用數(shù)據(jù)項(xiàng)后,插入到數(shù)據(jù)庫(kù),中間還需要在插入庫(kù)前進(jìn)行轉(zhuǎn)換、查重、對(duì)可能有關(guān)的圖片附件進(jìn)行分析、拷貝、重命名及入庫(kù)處理,此后,根據(jù)源網(wǎng)站信息的更新頻率,需在此基礎(chǔ)上定期或不定期重新下載、重新掃描、查重入庫(kù),整個(gè)過(guò)程開發(fā)量大、調(diào)試煩瑣,每次需要人工干預(yù)操作,且只有專業(yè)人士才能進(jìn)行。特別是在同時(shí)跟蹤許多個(gè)相關(guān)網(wǎng)站的不同更新信息時(shí),幾乎無(wú)法高效工作。本著模訪現(xiàn)實(shí)的設(shè)計(jì)原則,我們
10、設(shè)計(jì)和對(duì)照如下:上例中實(shí)際工作流程采集系統(tǒng)工作流程說(shuō)明下載/更新建立下載用文件目錄建立或指定網(wǎng)頁(yè)資源庫(kù)后者某類工程對(duì)一資源庫(kù) 下載網(wǎng)頁(yè)/圖片到本地解析保存到網(wǎng)頁(yè)資源庫(kù)后者更能有效篩選范圍、解析特殊鏈接編程進(jìn)行分析規(guī)整入庫(kù)分析網(wǎng)頁(yè)內(nèi)規(guī)律分析網(wǎng)頁(yè)內(nèi)規(guī)律均用戶干預(yù),用戶流覽網(wǎng)站、查看分析網(wǎng)頁(yè)源Html 定義數(shù)據(jù)項(xiàng)、與表結(jié)構(gòu)對(duì)應(yīng)定義或加載數(shù)據(jù)項(xiàng)申明文件某類處理對(duì)應(yīng)一申明文件掃描下載到本地目錄 掃描網(wǎng)頁(yè)資源庫(kù)后者可視化定義篩選范圍對(duì)每個(gè)文件進(jìn)行替換或抽取分析處理通過(guò)替換抽取過(guò)程編輯器定義處理指令后系統(tǒng)解釋執(zhí)行后者可加載模板,可視化操作,無(wú)需用戶編程對(duì)圖片附件分析處理定義其它信息采集規(guī)則可視化配置后自動(dòng)完
11、成。將分析后信息整理和入庫(kù)根據(jù)數(shù)據(jù)項(xiàng)與數(shù)據(jù)庫(kù)的映射、查重規(guī)則等自動(dòng)處理調(diào)試程 序下載、取樣、文件操作、內(nèi)容分析,反復(fù)調(diào)試,清空或還原測(cè)試數(shù)據(jù)直接從互聯(lián)網(wǎng)上拖入網(wǎng)址即能可視化測(cè)試、預(yù)覽、排版和入庫(kù)前者極不方便,后者靈活。定期跟蹤手工重新執(zhí)行以上過(guò)程/程序,需設(shè)法手工排重重新解析和增量下載(起點(diǎn)控制、地址排重、斷續(xù)掃描)后者可自動(dòng)跟蹤。詳細(xì)說(shuō)明1、建立網(wǎng)頁(yè)資源庫(kù)用于跟蹤采集用的源網(wǎng)頁(yè)信息,記錄項(xiàng)包括網(wǎng)頁(yè)地址(Url)、網(wǎng)頁(yè)標(biāo)題(為原鏈接文字或網(wǎng)頁(yè)中標(biāo)題部分)、網(wǎng)頁(yè)源文件、鏈接從何解析得到、源文件下載時(shí)間、分析入庫(kù)狀態(tài)等。支持對(duì)每個(gè)工程(我們定義對(duì)某個(gè)網(wǎng)站某類信息的跟蹤處理全過(guò)程稱一個(gè)工程)建一個(gè)資
12、源庫(kù)或某類工程(如均為采集企業(yè)類信息)建一個(gè)資源庫(kù)或所有工程共用一個(gè)資源庫(kù)。提供保存或不保存網(wǎng)頁(yè)源文件兩種方式,網(wǎng)頁(yè)源文件只包括純文本的Html,不保存圖片等多媒體信息,可做定期清理維護(hù)。2、網(wǎng)站解析和網(wǎng)頁(yè)下載同其它SPIDER系統(tǒng)或離線下載工具,能夠獲取網(wǎng)頁(yè)源文件并進(jìn)一步分析超鏈接遞歸掃描和將指定范圍內(nèi)有效信息保存到網(wǎng)頁(yè)資源庫(kù)。自行開發(fā)Spider具有更大靈活性和可定制性。能可視化配置掃描范圍、附加篩選、過(guò)濾條件、最深層數(shù)等;并支持手工指定解析規(guī)律進(jìn)行各類JavaScript特殊鏈接解析,提供Session控制功能等; 3、內(nèi)容分析入庫(kù)引擎運(yùn)用了html分析技術(shù),剝離出用戶所需信息的過(guò)程,如
13、標(biāo)題、正文、作者等。包括對(duì)用戶自定義數(shù)據(jù)項(xiàng)聲明文件加載、內(nèi)容替換抽取腳本的解釋執(zhí)行、入庫(kù)與數(shù)據(jù)整理,主要依靠一種自定義腳本過(guò)程語(yǔ)言支持實(shí)現(xiàn)。3.1) 用戶自定義數(shù)據(jù)項(xiàng)聲明數(shù)據(jù)項(xiàng)聲明文件為進(jìn)行內(nèi)容分析處理前的一種聲明(或稱配置文件),為xml格式文件,其中信息包含有自定義數(shù)據(jù)項(xiàng)、數(shù)據(jù)庫(kù)映射、數(shù)據(jù)項(xiàng)缺省值、合法性校驗(yàn)規(guī)則、內(nèi)置函數(shù)、查重設(shè)置。一個(gè)聲明文件適用于一類內(nèi)容分析過(guò)程。數(shù)據(jù)項(xiàng)定義:聲明文件用于告知分析引擎將要處理的工作;如新聞?lì)愋畔⒉杉臄?shù)據(jù)項(xiàng)常為新聞標(biāo)題、新聞內(nèi)容、新聞時(shí)間、新聞作者、新聞來(lái)源、新聞關(guān)鍵詞、原網(wǎng)頁(yè)上的當(dāng)前位置項(xiàng),項(xiàng)目需求類信息采集的數(shù)據(jù)項(xiàng)可為項(xiàng)目名稱、項(xiàng)目聯(lián)系人、應(yīng)用行業(yè)
14、、聯(lián)系電話等,公司類信息采集的數(shù)據(jù)項(xiàng)可為公司名稱、公司法人、公司年?duì)I業(yè)額等。數(shù)據(jù)項(xiàng)的中文標(biāo)簽化:為更加直觀和友好界面,系統(tǒng)采為中文標(biāo)簽,分析引擎加載和處理時(shí)采用內(nèi)部變量翻譯和轉(zhuǎn)換;版權(quán)保護(hù):采集系統(tǒng)只是方便編輯人員的工具,版權(quán)問(wèn)題由用戶自行負(fù)責(zé)。系統(tǒng)同時(shí)提供內(nèi)置兩個(gè)全局?jǐn)?shù)據(jù)項(xiàng)變量:源文件內(nèi)容和源網(wǎng)址,分別為從網(wǎng)上抽取的源HTML(即供分析的數(shù)據(jù))和源網(wǎng)頁(yè)的URL,可供用戶日后對(duì)照查看或顯示轉(zhuǎn)載來(lái)源用。數(shù)據(jù)項(xiàng)存儲(chǔ)與數(shù)據(jù)庫(kù)映射:xml格式存儲(chǔ):系統(tǒng)缺省按定義的數(shù)據(jù)項(xiàng)以xml格式存儲(chǔ),便于信息的利用和轉(zhuǎn)換;數(shù)據(jù)庫(kù)映射:系統(tǒng)支持和推薦用戶將信息一步到位的直接入庫(kù),如新聞信息類采集可直接保存到新聞表、圖
15、片附件表等。用戶最終數(shù)據(jù)項(xiàng)的存儲(chǔ)由用戶在數(shù)據(jù)項(xiàng)定義文件中映射定義,表結(jié)構(gòu)由用戶先行構(gòu)造好,存儲(chǔ)格式無(wú)論是存為SQL Server 中、 Acess庫(kù)中、dbf中、Orcale中,只要為支持標(biāo)準(zhǔn)SQL即可。此時(shí),還可設(shè)置合法性校驗(yàn)規(guī)則(主要為對(duì)長(zhǎng)度控制、特殊字符控制、關(guān)鍵詞過(guò)濾等)、查重設(shè)置(可定義根據(jù)某個(gè)或某幾個(gè)數(shù)據(jù)項(xiàng)組成來(lái)判斷)。分析引擎中聲明文件為數(shù)據(jù)分析前的預(yù)先定義和初始化操作,只有加載后才能進(jìn)行隨后面的過(guò)程語(yǔ)言定義和編輯、進(jìn)行數(shù)據(jù)項(xiàng)與數(shù)據(jù)庫(kù)的映射直接入庫(kù)等。各數(shù)據(jù)項(xiàng)在分析引擎中變化處理時(shí)均作為字符串處理,不同類型的字段通過(guò)與數(shù)據(jù)庫(kù)的映射來(lái)實(shí)現(xiàn)。分析引擎中聲明文件的引入,使用信息采集分析
16、系統(tǒng)具有最大的靈活性。實(shí)際工作中,每個(gè)人此類定義的變化不一定很多,但只有它使得信息采集分析系統(tǒng)的通用和實(shí)用成為可能。3.2) 數(shù)據(jù)項(xiàng)替換抽取過(guò)程根據(jù)定義加載的數(shù)據(jù)項(xiàng)對(duì)資源庫(kù)中的網(wǎng)頁(yè)源文件內(nèi)容進(jìn)行系統(tǒng)替換抽取操作并將有用信息分別賦值給各數(shù)據(jù)項(xiàng)的過(guò)程。替換抽取操作實(shí)際為四種字符串處理,分別對(duì)應(yīng)系統(tǒng)內(nèi)部幾個(gè)自定義工具命令:賦值命令,即 等于,如信息來(lái)源=新浪網(wǎng);簡(jiǎn)單替換命令,即 將什么替換為什么,如新聞日期=將新聞日期 中的 年 替換為 .高級(jí)替換命令,即 將什么 與 什么 之間的內(nèi)容 替換為 什么 ,如 當(dāng)前位置 = 將 當(dāng)前位置 中 之間的內(nèi)容替換為空;抽取命令,即 取 什么 與 什么 之間的
17、全部?jī)?nèi)容/第1個(gè)/第幾至幾個(gè)/最后一個(gè);如 新聞標(biāo)題 = 取 源文件內(nèi)容 中的 到 之間的 全部?jī)?nèi)容 或 新聞標(biāo)題 = 取 新聞內(nèi)容 中的 到 之間的 第1行另提供規(guī)整、當(dāng)包含、當(dāng)不包含等內(nèi)置命令,規(guī)整 命令為將指定的數(shù)據(jù)項(xiàng)去除前后的空格、合并多個(gè)空行、處理一些特殊字符,并可進(jìn)行設(shè)置是否將全角數(shù)字或英文字符換為半角等。當(dāng) 包含 和當(dāng)不包含 實(shí)際為一種簡(jiǎn)化的判斷轉(zhuǎn)向命令,分別為對(duì)一個(gè)變量進(jìn)行判斷是否含有或不含用某字符串時(shí)替換抽取操作如何進(jìn)行,用于以上四種字符串處理命令行前限定用。內(nèi)置幾個(gè)特殊字符p、t、o,分別代替回車換行、制表符、換行符等。內(nèi)容分析處理引擎解釋執(zhí)行時(shí)依照以上命令行塊的先后順序依
18、次執(zhí)行。RPL(腳本文件擴(kuò)展名,僅為一種習(xí)慣用法,最初來(lái)源于 Resouse Process Language的首字母)編輯器能根據(jù)用戶定義的數(shù)據(jù)項(xiàng)列出下拉菜單等方便的進(jìn)行上述操作指令的編輯、順序調(diào)整及全面實(shí)時(shí)的測(cè)試。編輯或新建前可以靈活的定義和加載RPL塊,如對(duì)于新聞信息采集(部分)。操作內(nèi)容新聞標(biāo)題 = 取 源文件內(nèi)容 中的 到 之間的 全部?jī)?nèi)容當(dāng)前位置 = 取 源文件內(nèi)容 中的 當(dāng)前位置: 到 之間的 全部?jī)?nèi)容當(dāng)前位置 = 將 當(dāng)前位置 中的 之間替換為 當(dāng)前位置 = 將 當(dāng)前位置 中的 > 替換為 規(guī)整 當(dāng)前位置新聞內(nèi)容 = 取 源文件內(nèi)容 中的 到 之間的 全部?jī)?nèi)容新聞內(nèi)容 =
19、 將 新聞內(nèi)容 中的 p 替換為 新聞內(nèi)容 = 將 新聞內(nèi)容 中的 替換為 p新聞內(nèi)容 = 將 新聞內(nèi)容 中的 替換為 p新聞內(nèi)容 = 將 新聞內(nèi)容 中的 替換為 p新聞內(nèi)容 = 將 新聞內(nèi)容 中的 替換為 p新聞內(nèi)容 = 將 新聞內(nèi)容 中的 sub 替換為 _sub新聞內(nèi)容 = 將 新聞內(nèi)容 中的 /sub 替換為 _/sub新聞內(nèi)容 = 將 新聞內(nèi)容 中的 sup 替換為 _sup新聞內(nèi)容 = 將 新聞內(nèi)容 中的 /sup 替換為 _/sup新聞內(nèi)容 = 將 新聞內(nèi)容 中的 替換為 _b_新聞內(nèi)容 = 將 新聞內(nèi)容 中的 替換為 _/b_新聞內(nèi)容 = 將 新聞內(nèi)容 中的 img 替換為 _
20、img新聞內(nèi)容 = 將 新聞內(nèi)容 中的 之間替換為 新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _img 替換為 img新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _b_ 替換為 新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _/b_ 替換為 新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _sub 替換為 sub新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _/sub 替換為 /sub新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _sup 替換為 sup新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _/sup 替換為 /sup新聞來(lái)源 = 健康時(shí)報(bào)以上腳本中,抽取了標(biāo)題、當(dāng)前位置、正文,并保留有正文中圖片、原加粗、上標(biāo)、下標(biāo)、段落等排版格式。3.3) 其它分析采集規(guī)則規(guī)則
21、加載方式:設(shè)定缺省下載采集配置,當(dāng)調(diào)用中若有某項(xiàng)特別指定,以指定為準(zhǔn),否則繼承此處設(shè)置。腳本有效范圍:指定內(nèi)容分析過(guò)程所針對(duì)網(wǎng)頁(yè)范圍,一般為指定網(wǎng)站或網(wǎng)址目錄內(nèi)尚未處理 (即監(jiān)控程序新掃描到的)記錄。圖片附件處理:指定當(dāng)通過(guò)替換抽取后某數(shù)據(jù)項(xiàng)中含有其它文件標(biāo)記信息時(shí)是否處理和處理方法,如新聞內(nèi)容中含有信息或產(chǎn)品介紹中等時(shí),是否進(jìn)一步分析下載其它格式文件,如圖片、Flash、音頻、視頻文件等,若指定了需保留下載的文件(素材)類型,各類型文件的物理存放目錄、數(shù)據(jù)庫(kù)素材表字段的映射關(guān)系,系統(tǒng)可自動(dòng)分析、采集、重命名和進(jìn)行分類存儲(chǔ),并保持?jǐn)?shù)據(jù)之間的邏輯關(guān)系。3.4) 映射存儲(chǔ)入庫(kù)設(shè)置配合數(shù)據(jù)項(xiàng)申明文件
22、中的定義外,還有 是否根據(jù)關(guān)鍵數(shù)據(jù)項(xiàng)查重:如新聞標(biāo)題查重、項(xiàng)目名稱查重、圖書名稱+出版社查重等。信息再整理配置:是否分類映射、映射關(guān)系文件,用于信息自動(dòng)分揀如根據(jù)新聞源網(wǎng)頁(yè)的當(dāng)前位置自動(dòng)分類到某頻道欄目等。3.5) 用戶界面包括用戶數(shù)據(jù)項(xiàng)申明文件編輯器、內(nèi)容替換抽取腳本編輯器、范圍定義生成向?qū)А⒆值渚庉嬈鞯?,均同時(shí)提供單個(gè)和批量測(cè)試功能,各環(huán)節(jié)可分解調(diào)試組合應(yīng)用。4、工程文件與自動(dòng)監(jiān)測(cè):一個(gè)工程項(xiàng)目(Project)文件包括:指定對(duì)應(yīng)網(wǎng)頁(yè)資源庫(kù)(缺省為空即公用資源庫(kù))、設(shè)置掃描解析前處理工作(掃描起始點(diǎn),檢查和清洗網(wǎng)頁(yè)資源庫(kù));定義掃描和解析的各類參數(shù),如范圍、層次、保存內(nèi)容、過(guò)濾等;指定分析
23、整理中調(diào)用RPL文件;設(shè)置入庫(kù)完成后是否需要和如何進(jìn)行信息再整理;配置自動(dòng)掃描周期(信息采集的時(shí)間間隔)。自動(dòng)定期掃描更新的工程文件保存于autorun目錄,信息采集系統(tǒng)的服務(wù)監(jiān)控程序會(huì)定期檢查此目錄下所有工程項(xiàng)目,對(duì)需要掃描者添加至掃描序列中,掃描服務(wù)程序根據(jù)序列任務(wù)的優(yōu)先級(jí)別和先后順序依次執(zhí)行。通過(guò)按工程項(xiàng)目管理和掃描處理,采集系統(tǒng)能自動(dòng)把用戶需要的信息按時(shí)從網(wǎng)絡(luò)上采集分析入庫(kù),配合自動(dòng)檢測(cè)、標(biāo)題重排、地址重排(網(wǎng)頁(yè)資源庫(kù)中網(wǎng)頁(yè)地址唯一,標(biāo)記有掃描日期和下載整理狀態(tài))、斷續(xù)掃描等技術(shù),最大程度的減少人工干預(yù)環(huán)節(jié),提高效率。結(jié)束語(yǔ)互聯(lián)網(wǎng)上有著海量信息,但信息龐雜無(wú)序和信息來(lái)源異構(gòu)給我們挖掘利用帶來(lái)一定難度。通過(guò)采用Html分析技術(shù)而非人工智能技術(shù),引入加載數(shù)據(jù)項(xiàng)申明文件和解釋執(zhí)行替換抽取腳本技術(shù),基本實(shí)現(xiàn)有通用性較強(qiáng)的互聯(lián)網(wǎng)信息采集系統(tǒng)。配套有信息編輯管理和頁(yè)面發(fā)布系統(tǒng),本文不展開論述。系統(tǒng)目前運(yùn)行平臺(tái)為Windwos,網(wǎng)頁(yè)資源庫(kù)采用MSSQL 2000,采用多工程逐一啟動(dòng)處理,性能對(duì)P4的單CPU日采集分析網(wǎng)頁(yè)50000條左右,已成功應(yīng)用于醫(yī)藥博覽網(wǎng)(www.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度工地施工安全培訓(xùn)責(zé)任免除協(xié)議
- 2025年度城市綠化景觀土地使用權(quán)轉(zhuǎn)讓與維護(hù)合同
- 2025年度大學(xué)實(shí)習(xí)生實(shí)習(xí)期間權(quán)益保護(hù)與職業(yè)規(guī)劃合同
- 2025年度婚嫁婚前財(cái)產(chǎn)繼承與分配協(xié)議
- 健身房裝修合同標(biāo)準(zhǔn)
- 2025年度礦山地質(zhì)災(zāi)害防治投資合作協(xié)議
- 2025年度宅基地使用權(quán)轉(zhuǎn)讓與農(nóng)村旅游基礎(chǔ)設(shè)施建設(shè)合同
- 2025年度山林林業(yè)生態(tài)補(bǔ)償租賃合同
- 2025年度家具加工廠轉(zhuǎn)讓協(xié)議
- 2025年湖北生態(tài)工程職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案1套
- 2025年官方領(lǐng)養(yǎng)兒童策劃協(xié)議書
- 2025年官方策劃完整個(gè)人離婚協(xié)議書模板
- 2025年人教版新教材英語(yǔ)小學(xué)三年級(jí)下冊(cè)教學(xué)計(jì)劃(含進(jìn)度表)
- GB/T 45083-2024再生資源分揀中心建設(shè)和管理規(guī)范
- 北京理工大學(xué)出版社二年級(jí)下冊(cè)《勞動(dòng)》教案
- 中國(guó)食物成分表2018年(標(biāo)準(zhǔn)版)第6版
- 光纖通信原理課件 精品課課件 講義(全套)
- 甲醛安全周知卡
- 三菱變頻器e700使用手冊(cè)基礎(chǔ)篇
- 第二課堂美術(shù)教案
- 化工投料試車方案(一)
評(píng)論
0/150
提交評(píng)論