基于網(wǎng)頁的信息系統(tǒng)的一種預(yù)處理過程_第1頁
基于網(wǎng)頁的信息系統(tǒng)的一種預(yù)處理過程_第2頁
基于網(wǎng)頁的信息系統(tǒng)的一種預(yù)處理過程_第3頁
基于網(wǎng)頁的信息系統(tǒng)的一種預(yù)處理過程_第4頁
基于網(wǎng)頁的信息系統(tǒng)的一種預(yù)處理過程_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、題目:基于網(wǎng)頁的信息系統(tǒng)的一種預(yù)處理過程姓 名: 學(xué) 號(hào): 院 系:計(jì)算機(jī)科學(xué)技術(shù)系專 業(yè):計(jì)算機(jī)軟件與理論研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng)導(dǎo) 師: 教授版權(quán)聲明任何收存和保管本論文各種版本的單位和個(gè)人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律責(zé)任。摘要隨著web的迅速發(fā)展,web上的信息越來越豐富。web使用方便、信息豐富,人們?cè)絹碓蕉嗟氖褂脀eb來尋找需要的信息。為了更好的使用web上的信息,人們也不斷的追求能夠有效組織和利用網(wǎng)上信息的技術(shù)和系統(tǒng)。然而,web上的信息存在很多問題:網(wǎng)頁內(nèi)的噪音內(nèi)容多

2、、web上近似網(wǎng)頁量大以及缺乏必要的元數(shù)據(jù)信息,這些問題嚴(yán)重影響了web信息系統(tǒng)的服務(wù)質(zhì)量。針對(duì)web信息系統(tǒng)的共性需求,本文提出了一個(gè)預(yù)處理框架及相應(yīng)的方法。該預(yù)處理框架包括了三個(gè)預(yù)處理工作:網(wǎng)頁凈化、近似網(wǎng)頁刪除和網(wǎng)頁元數(shù)據(jù)提取。通過預(yù)處理過程,原始網(wǎng)頁集中的近似網(wǎng)頁被刪除,而保留下來的網(wǎng)頁被凈化并轉(zhuǎn)化為一個(gè)統(tǒng)一的結(jié)構(gòu)化模型(稱之為docview模型)。該模型中提供了各個(gè)領(lǐng)域需求較多的元數(shù)據(jù)和內(nèi)容數(shù)據(jù),它包括網(wǎng)頁標(biāo)識(shí)、網(wǎng)頁類型、內(nèi)容類別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接等元素。本文提出的預(yù)處理方法的一個(gè)重要優(yōu)點(diǎn)是它不需要除原始網(wǎng)頁以外的其他信息,而這些額外信息是該領(lǐng)域中其他方法所必須的;

3、另一個(gè)優(yōu)點(diǎn)是將web信息系統(tǒng)的共性需求放到一個(gè)過程中一次性提取出來,可以避免相同中間過程的重復(fù)執(zhí)行,從而提高信息提取效率。 本文中提出的預(yù)處理框架和方法已經(jīng)應(yīng)用到了“天網(wǎng)”搜索引擎和網(wǎng)頁自動(dòng)分類系統(tǒng)中。通過使用預(yù)處理后應(yīng)用系統(tǒng)質(zhì)量的提高,驗(yàn)證了該預(yù)處理方法的有效性。不難看出,通過這樣一個(gè)預(yù)處理過程,可以在任何一個(gè)網(wǎng)頁集上(包括world wide web)搭建一個(gè)組織良好的、凈化的、更易使用的信息層。關(guān)鍵詞:萬維網(wǎng), 數(shù)據(jù)預(yù)處理,數(shù)據(jù)凈化,近似網(wǎng)頁識(shí)別,元數(shù)據(jù)提取abstractwith the rapid expansion of the web, the content of the we

4、b become richer and richer. people are increasingly using web to find their wanted information because of the webs convenience and its abundance of information. in order to make better use of web information, technologies that can automatically re-organize and manipulate web pages are pursued such a

5、s web information retrieval, web page classification and other web mining work. however, there are many noises in the web such as the noise content in the web page (local noise) and near replica web pages in the web (global noise), which decrease the quality of the information on the web, and conseq

6、uently descrease the quality of the web information systems seriously. also, meta data of the web pages are widely used in web information systems, but they are not described explicitly. some of these problems are never met in the traditional work.in this thesis, we propose a new preprocessing frame

7、work and the corresponding approach to meet the common requirements of several typical web information systems. the framework includes three parts: web page cleaning, replica removal and meta data extraction. after the preprocessing stage, redundant web pages are deleted, then, reserved web pages ar

8、e purified and transformed into a general model called docview. the model consists of eight elements, identifier, type, content classification code, title, keywords, abstract, topic content and relevant hyperlinks. most of them are meta data, while the latter two are content data. the main advantage

9、 of our approach is no need for other information beyond the raw page, while additional information is usually necessary for previous related work. the preprocessing framework and approach have been applied to our search engine tw and web page classification system. the strong evidence of improvemen

10、t in applications shows the practicability of the framework and verifies the validity of the approach. its not difficult to realize that after such a preprocessing stage, we can set up a well-formed, purified, easily manipulated information layer on top of any web page collection (including www) for

11、 web information systems.keywords: world wide web, data preprocessing, data cleaning, near replica detection, meta data extraction目 錄第1章引言11.1研究背景11.2本文研究內(nèi)容21.3本文貢獻(xiàn)31.4本文組織3第2章相關(guān)研究42.1搜索引擎42.2網(wǎng)頁自動(dòng)分類72.3信息提取92.4元數(shù)據(jù)提取10第3章web信息系統(tǒng)面臨的問題及共性需求12第4章預(yù)處理方法與技術(shù)144.1預(yù)處理框架及結(jié)果描述144.1.1預(yù)處理框架144.1.2預(yù)處理結(jié)果描述144.2網(wǎng)頁表示

12、154.2.1網(wǎng)頁標(biāo)簽樹表示164.2.2網(wǎng)頁量化表示194.3網(wǎng)頁凈化244.3.1網(wǎng)頁類型判斷244.3.2主題網(wǎng)頁凈化254.3.3目錄網(wǎng)頁凈化254.3.4圖片網(wǎng)頁凈化264.3.5網(wǎng)頁凈化時(shí)空效率分析264.4近似網(wǎng)頁的發(fā)現(xiàn)274.4.1近似網(wǎng)頁發(fā)現(xiàn)算法274.4.2性能分析294.5網(wǎng)頁元數(shù)據(jù)提取294.5.1網(wǎng)頁元數(shù)據(jù)提取流程描述304.5.2正文提取304.5.3關(guān)鍵詞提取304.5.4內(nèi)容類別判斷314.5.5標(biāo)題提取324.5.6摘要提取324.5.7主題相關(guān)超鏈提取334.6本章小結(jié)35第5章應(yīng)用與評(píng)測365.1網(wǎng)頁凈化在網(wǎng)頁自動(dòng)分類系統(tǒng)中的應(yīng)用與評(píng)測365.1.1應(yīng)用3

13、65.1.2評(píng)測標(biāo)準(zhǔn)375.1.3評(píng)測結(jié)果與分析375.2近似網(wǎng)頁消除在搜索引擎中的應(yīng)用與評(píng)測385.2.1實(shí)驗(yàn)設(shè)計(jì)385.2.2評(píng)測標(biāo)準(zhǔn)395.2.3評(píng)測結(jié)果與分析405.3網(wǎng)頁元數(shù)據(jù)在搜索引擎的索引過程中的應(yīng)用與評(píng)測415.3.1檢索效率評(píng)測415.3.2檢索精度評(píng)測425.4本章小結(jié)44第6章總結(jié)與展望456.1總結(jié)456.2展望45參考資料47作者就讀期間參加的科研項(xiàng)目和發(fā)表的論文51致謝52第1章 引言1.1 研究背景萬維網(wǎng)(world wide web,簡記為web)是因特網(wǎng)上最成功的應(yīng)用,起源于1989年歐洲粒子物理研究室cern。web的最初計(jì)劃是由cern的物理學(xué)家tim b

14、erners-lee于1989年3月提出的,第一個(gè)基于文本原型于18個(gè)月后運(yùn)行。1991年12月在德克薩斯州的san antonio 91超文本會(huì)議上進(jìn)行了一次演示,次年繼續(xù)發(fā)展,并于1993年2月,隨著第一個(gè)圖形界面mosaic的發(fā)布而達(dá)到了其發(fā)展的高峰vsw94。1995年4月,web在網(wǎng)上的流量超過了internet上其它服務(wù)的流量,成為internet上的第一大應(yīng)用服務(wù)。到1997年12月,網(wǎng)上大約有3億2000萬網(wǎng)頁lg98。根據(jù)inktomi搜索引擎在2000年的數(shù)據(jù)庫數(shù)據(jù)表明,網(wǎng)頁數(shù)目已經(jīng)超過了10億。google搜索引擎在2002年4月索引網(wǎng)頁表明,網(wǎng)頁數(shù)已經(jīng)超過20億goog

15、le。而在2004年4月,google搜索引擎索引網(wǎng)頁數(shù)已經(jīng)超過42億。隨著web的迅速擴(kuò)展,web上的信息也飛速膨脹。這一方面使得web成為一個(gè)巨大的信息倉庫,另一方面也使得其中絕大多數(shù)的信息對(duì)于絕大多數(shù)的用戶是沒有意義的,而且對(duì)于一個(gè)用戶而言,極小部分的有用信息也淹沒在無用信息中很難被找到。為了更好的使用web上的信息,人們不斷的追求能夠有效組織和利用網(wǎng)上信息的技術(shù)和系統(tǒng),包括搜索引擎、網(wǎng)頁自動(dòng)分類、信息提取以及主題搜索,等等。我們通常把以網(wǎng)頁為處理對(duì)象的系統(tǒng)稱為基于網(wǎng)頁的信息系統(tǒng),為表達(dá)簡單,本文中我們稱其為web信息系統(tǒng)。在相關(guān)的技術(shù)中,一方面涉及到對(duì)網(wǎng)頁內(nèi)容的分析,另一方面也涉及到對(duì)

16、網(wǎng)頁間鏈接關(guān)系的分析。其最終目的是通過對(duì)web上信息的有效組織來方便用戶對(duì)所需信息的獲取。在內(nèi)容分析的過程中傳統(tǒng)信息檢索領(lǐng)域的技術(shù)自然的會(huì)被引用進(jìn)來。但web上網(wǎng)頁與傳統(tǒng)的文檔相比有著自己的特點(diǎn):一、web上有用信息通常伴隨著大量的“噪音”內(nèi)容,而噪音內(nèi)容正是web網(wǎng)頁與傳統(tǒng)文檔的一個(gè)主要區(qū)別。根據(jù)噪音內(nèi)容的粒度大小,web上的噪音內(nèi)容可以被分為兩類yll03:全局噪音:全局噪音是指web上具有較大粒度的噪音內(nèi)容,它通常包含鏡像網(wǎng)站、重復(fù)網(wǎng)頁。局部噪音:局部噪音是指web網(wǎng)頁內(nèi)與網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容,比如:廣告、導(dǎo)航條以及版權(quán)聲明等內(nèi)容。二、web上網(wǎng)頁缺乏必要的元數(shù)據(jù)信息。而元數(shù)據(jù)在信

17、息管理過程中有著重要的作用。三、web上文本信息大多數(shù)是以html網(wǎng)頁的形式存在的,html中定義了一套標(biāo)簽來描述網(wǎng)頁中內(nèi)容的布局和顯示方式,因而,網(wǎng)頁中的標(biāo)簽信息隱含了網(wǎng)頁內(nèi)容的重要性信息以及相關(guān)性信息。web上信息的這些特點(diǎn)使得傳統(tǒng)信息檢索領(lǐng)域中的技術(shù)已經(jīng)不能滿足各種web信息系統(tǒng)的要求。針對(duì)web網(wǎng)頁的不足給各種web信息系統(tǒng)帶來的問題,各個(gè)領(lǐng)域都有一套具體的解決方法。但并沒有一個(gè)較為通用的預(yù)處理框架及相應(yīng)的方法。通過分析可以看到,這些問題都是源自web上信息本身的不足,因而各種web信息系統(tǒng)的需求是有共性的。這意味著我們有必要也有可能建立一個(gè)較為通用的預(yù)處理框架并給出相應(yīng)的方法,從而方

18、便大多數(shù)web信息系統(tǒng)的需求。本文中的研究工作就是在這樣一個(gè)背景下展開的。1.2 本文研究內(nèi)容本文中的研究圍繞以下幾個(gè)方面展開:分析web上網(wǎng)頁的特點(diǎn)以及其不足對(duì)web上應(yīng)用系統(tǒng)造成的影響,從而發(fā)現(xiàn)web上各種應(yīng)用系統(tǒng)的共性需求。針對(duì)web上應(yīng)用系統(tǒng)的共性需求,給出一個(gè)較為通用的預(yù)處理框架和相應(yīng)的方法,從而滿足大多數(shù)web信息系統(tǒng)的需求。將提出的預(yù)處理框架中的方法應(yīng)用到實(shí)際系統(tǒng)中,包括:搜索引擎和網(wǎng)頁自動(dòng)分類系統(tǒng)。通過對(duì)應(yīng)用的效果評(píng)測和一系列實(shí)驗(yàn),發(fā)現(xiàn)方法中的不足,繼續(xù)改進(jìn)方法。1.3 本文貢獻(xiàn)基于對(duì)web上網(wǎng)頁的特點(diǎn)和web信息系統(tǒng)共性需求的分析,提出一個(gè)較為通用的預(yù)處理框架,包括:網(wǎng)頁凈化

19、、近似網(wǎng)頁發(fā)現(xiàn)和元數(shù)據(jù)提取。提出一個(gè)新的網(wǎng)頁內(nèi)容凈化方法,該方法的一個(gè)重要優(yōu)點(diǎn)是它不需要除原始網(wǎng)頁以外的其他信息(例如:網(wǎng)頁模板),而這些額外信息是該領(lǐng)域中其他方法所必須的。在參考了dublin coredc和eda(encoded archival description)ead后,提出了一個(gè)包含元數(shù)據(jù)和內(nèi)容數(shù)據(jù)的網(wǎng)頁表示模型(稱為docview)。該模型包含這樣幾項(xiàng)信息元素:網(wǎng)頁標(biāo)識(shí)、網(wǎng)頁類型、內(nèi)容類別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接。并給出了該模型中元素的自動(dòng)提取方法。(5:8080 中提供了自動(dòng)提取網(wǎng)頁docview模型的服務(wù))將本文中提出的方法

20、應(yīng)用到實(shí)際的系統(tǒng)中:搜索引擎和網(wǎng)頁自動(dòng)分類系統(tǒng),通過對(duì)原有系統(tǒng)質(zhì)量的提高,驗(yàn)證了方法的有效性和實(shí)用性。通過本文中提出的方法,一方面能夠自動(dòng)去除web上噪音網(wǎng)頁以及網(wǎng)頁內(nèi)與網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容,另一方面也能自動(dòng)的從網(wǎng)頁中提取相關(guān)的元數(shù)據(jù),從而使我們看到了在原始web上搭建一個(gè)噪音小、描述清晰、更易于處理和利用的網(wǎng)頁信息平臺(tái)。1.4 本文組織本文后面是這樣組織的,第2章是相關(guān)領(lǐng)域的研究;第3章討論web信息系統(tǒng)遇到的問題及其共性需求;第4章講述預(yù)處理過程的框架和其中的方法;第5章介紹本文中提出方法的應(yīng)用以及實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果分析;第6章是對(duì)本文的總結(jié)和對(duì)未來工作的展望。第2章 相關(guān)研究2.1 搜

21、索引擎搜索引擎是web上信息檢索的典型系統(tǒng),它的作用是幫助人們快速準(zhǔn)確的在web上找到所需的信息。根據(jù)搜索引擎基于的技術(shù)原理,可以分為三個(gè)類型:基于機(jī)器人(robot)的搜索引擎這種搜索引擎利用一個(gè)稱為robot的程序以某種策略自動(dòng)的將web上的網(wǎng)頁搜集起來,并由一個(gè)索引器為搜集到的網(wǎng)頁建立索引。當(dāng)用戶通過服務(wù)提交查詢請(qǐng)求時(shí),由檢索器從索引庫中檢索出相關(guān)的文檔返回給用戶。該類搜索引擎的優(yōu)點(diǎn)是提供服務(wù)的信息量大、無需人工參與;缺點(diǎn)是返回的信息過多,包括很多與查詢無關(guān)的信息。目錄式搜索引擎(directory search engine)這種搜索引擎以人工或半自動(dòng)方式搜集信息。由人工來訪問其中的網(wǎng)

22、站,并對(duì)該網(wǎng)站撰寫一段描述,并根據(jù)網(wǎng)站中的信息將網(wǎng)站加入到一個(gè)預(yù)先定義好的分類體系下。用戶訪問時(shí),通過該分類體系不斷按照自己關(guān)心的類別向下找,可以找到自己關(guān)心的網(wǎng)站。該搜索引擎的優(yōu)點(diǎn)是用戶找到的結(jié)果較為準(zhǔn)確;缺點(diǎn)是需要大量人工介入、信息量少。元搜索引擎(meta search engine)。元搜索引擎是建立在其他獨(dú)立搜索引擎之上的搜索引擎。當(dāng)用戶提交一個(gè)查詢,元搜索引擎將查詢項(xiàng)做一定處理后,提交給多個(gè)獨(dú)立的搜索引擎,并將所有的查詢結(jié)果集中起來處理后返回給用戶。本節(jié)中,我們將重點(diǎn)介紹基于robot的搜索引擎,并探討web信息中的噪音內(nèi)容對(duì)搜索引擎中某些環(huán)節(jié)的影響。下圖是一個(gè)搜索引擎通用的結(jié)構(gòu)圖

23、。圖表 1搜索引擎通用結(jié)構(gòu)圖 acmp基于robot的搜索引擎通常包含以下四個(gè)步驟:網(wǎng)頁抓?。喊l(fā)現(xiàn)、搜集web上的網(wǎng)頁信息。網(wǎng)頁消重:消除搜集到的網(wǎng)頁中重復(fù)或近似重復(fù)的網(wǎng)頁。建立索引:對(duì)搜集到的web信息建立索引庫。提供檢索服務(wù):根據(jù)用戶輸入的查詢項(xiàng),在索引庫中檢索出文檔。下面詳細(xì)討論網(wǎng)頁消重和建立索引。網(wǎng)頁消重是指將搜集到的網(wǎng)頁中重復(fù)網(wǎng)頁去掉的過程,在消重后的網(wǎng)頁集上建索引再提供服務(wù)可以保證用戶查詢時(shí)不會(huì)出現(xiàn)大量內(nèi)容重復(fù)的網(wǎng)頁,同時(shí)節(jié)省建立索引的時(shí)間以及檢索的時(shí)間。manber94 scam sm99是三種比較常用的重復(fù)網(wǎng)頁判斷方法,其中sm99被google所使用。這些重復(fù)網(wǎng)頁發(fā)現(xiàn)算法都是

24、基于相同的想法:為每張網(wǎng)頁計(jì)算一組指紋(fingerprint),如果兩張網(wǎng)頁中相同的指紋數(shù)量超過一個(gè)閾值,這兩張網(wǎng)頁就被認(rèn)為是互為重復(fù)的網(wǎng)頁。然而,大量的重復(fù)網(wǎng)頁并不是對(duì)原始網(wǎng)頁的簡單拷貝,而是將要轉(zhuǎn)載的主題內(nèi)容放在不同的模板中形成的。我們把這種近似的重復(fù)網(wǎng)頁以及完全相同的重復(fù)網(wǎng)頁統(tǒng)稱為近似網(wǎng)頁。由于模板中的內(nèi)容絕大多數(shù)是與主題內(nèi)容無關(guān)的,因此模板中的內(nèi)容就會(huì)干擾近似網(wǎng)頁識(shí)別程序?qū)魄闆r的判斷,從而導(dǎo)致錯(cuò)誤消重。常見的錯(cuò)誤消重有以下兩種情況: 情況1:相同的內(nèi)容,由于放在了不同的模板中導(dǎo)致應(yīng)該被消掉但實(shí)際上被消重程序判斷為非近似網(wǎng)頁而保留。 情況2:不同的內(nèi)容,由于放在了相同的模板中導(dǎo)致不

25、應(yīng)該被消掉但實(shí)際上被消重程序判斷為近似網(wǎng)頁而消掉。 對(duì)于完全相同的近似網(wǎng)頁,消重算法是容易識(shí)別的,因而,如何識(shí)別主題內(nèi)容相同但模板不同的情況是消重算法面臨的問題。在索引過程中,索引器為搜集到的文檔建立了一個(gè)(或若干個(gè))索引文件,索引文件是用來在檢索時(shí)對(duì)查詢?cè)~與文檔進(jìn)行匹配的,從而找到與查詢?cè)~相關(guān)的文檔。為了合理的對(duì)檢索到的文檔排序,研究人員提出了hits hits and pagerank pr算法,這兩個(gè)算法通過分析web上的鏈接結(jié)構(gòu)來計(jì)算網(wǎng)頁的重要性。正如pr中附錄所講述的,由于廣告等噪音內(nèi)容通常伴隨著超鏈出現(xiàn),pagerank算法得到的排序通常偏向于廣告網(wǎng)頁。另外,如果不去除原始網(wǎng)頁中的

26、噪音內(nèi)容,檢索系統(tǒng)必然對(duì)噪音內(nèi)容也建立索引,從而導(dǎo)致僅僅因?yàn)椴樵冊(cè)~在某張網(wǎng)頁的噪音內(nèi)容中出現(xiàn),而把該網(wǎng)頁作為結(jié)果返回,而網(wǎng)頁的主題內(nèi)容可能和這個(gè)查詢?cè)~完全無關(guān)??梢钥闯?,噪音內(nèi)容不僅使索引結(jié)構(gòu)的規(guī)模變大,而且還導(dǎo)致了檢索準(zhǔn)確性的下降。針對(duì)這個(gè)問題,lh02中提出了一個(gè)去除網(wǎng)頁中噪音內(nèi)容的方法,該方法首先依據(jù)標(biāo)簽構(gòu)造網(wǎng)頁的標(biāo)簽樹,從而依據(jù)標(biāo)簽將一張網(wǎng)頁規(guī)劃為相互嵌套的內(nèi)容塊;而后,對(duì)于使用同一個(gè)模板作出的網(wǎng)頁集,利用基于信息熵的方法找出在該網(wǎng)頁集中多次出現(xiàn)的內(nèi)容,作為冗余內(nèi)容,而在該網(wǎng)頁集中出現(xiàn)較少的內(nèi)容塊就是有效信息塊。實(shí)驗(yàn)證明該方法是有效的,但該方法必須局限在基于同一個(gè)模板的網(wǎng)頁集,而web

27、上的網(wǎng)頁模板不計(jì)其數(shù),該方法顯然不夠通用。yll03中也提出了一個(gè)噪音內(nèi)容判斷方法,該方法必須針對(duì)某一個(gè)網(wǎng)站,通過對(duì)網(wǎng)站建立一棵特殊的標(biāo)簽樹的方法,自動(dòng)發(fā)現(xiàn)網(wǎng)站中網(wǎng)頁內(nèi)的噪音內(nèi)容。但這種方法的局限在于,它只能以網(wǎng)站為單位進(jìn)行處理。實(shí)際上,任意一張網(wǎng)頁,人是比較容易區(qū)別其中的噪音內(nèi)容和主題內(nèi)容的。這說明我們有可能追求自動(dòng)識(shí)別一張網(wǎng)頁中的主題內(nèi)容和噪音內(nèi)容而不需要依賴于一個(gè)網(wǎng)頁集合;這樣就可以使去除網(wǎng)頁噪音內(nèi)容的方法更加通用和獨(dú)立。2.2 網(wǎng)頁自動(dòng)分類網(wǎng)頁自動(dòng)分類是指用計(jì)算機(jī)程序來自動(dòng)確定網(wǎng)頁與預(yù)先定義類別之間的隸屬關(guān)系fabrizio。從總體上,分類器的整個(gè)工作周期可以分成訓(xùn)練過程和分類過程。訓(xùn)

28、練過程是指為預(yù)先確定的分類體系中的每個(gè)類別人工挑選一定量的樣本(我們稱這個(gè)樣本集合為訓(xùn)練集),目的在于通過每個(gè)類別內(nèi)的樣本來最大程度地體現(xiàn)每個(gè)類的特征并區(qū)別不同類之間的特征。在訓(xùn)練過程中,訓(xùn)練集實(shí)例經(jīng)過分詞和特征選取處理后被表示成向量形式。在該特征向量集上,統(tǒng)計(jì)不同類別內(nèi)的詞的分布,形成類別與詞之間的一個(gè)加權(quán)映射。這個(gè)映射關(guān)系將是后續(xù)分類過程的依據(jù)。另外,校驗(yàn)集是訓(xùn)練集的一部分,通過應(yīng)用相應(yīng)的閾值策略來預(yù)先確定每個(gè)類別的截尾閾值。截尾閾值的作用在于,在分類過程中,每個(gè)網(wǎng)頁都會(huì)被賦予一些候選類,以及該網(wǎng)頁與每個(gè)候選類的類屬關(guān)系權(quán)值,那么候選類中,類屬關(guān)系權(quán)值大于對(duì)應(yīng)類截尾閾值的類別將被保留下來作

29、為該網(wǎng)頁的分類結(jié)果。在分類過程中,一個(gè)待分類的中文網(wǎng)頁表示成向量形式后,應(yīng)用分類算法同訓(xùn)練過程得到的類別模式逐一比較,得到候選類別列表,然后同訓(xùn)練過程中得到的每個(gè)類別的閾值相比較,保留大于閾值的類別,并作為該網(wǎng)頁的分類結(jié)果。在這兩個(gè)過程中,包含以下幾個(gè)關(guān)鍵技術(shù):訓(xùn)練集整理:從上述的介紹可以知道,訓(xùn)練集是分類器的一個(gè)重要分類依據(jù),訓(xùn)練集的質(zhì)量直接影響到后續(xù)分類的質(zhì)量。特征項(xiàng)選?。涸谟?xùn)練的過程中,對(duì)每個(gè)類別內(nèi)文檔中包含的詞項(xiàng)進(jìn)行取舍,選取那些能夠明確體現(xiàn)一個(gè)類別特征并有很強(qiáng)區(qū)分能力的詞項(xiàng),而去掉那些區(qū)分能力弱,模糊不同類別間特征邊界的詞項(xiàng)。同時(shí),特征項(xiàng)選取還有降低向量空間維度的作用,從而提高分類系

30、統(tǒng)的效率。人們已經(jīng)研究了多種特征選取方法,如:文檔頻率(document frequency,df)、信息增益(information gain,ig)、互信息(mutual information,mi)、開方擬和檢驗(yàn)(2-test,chi)、術(shù)語強(qiáng)度(term strength,ts)等。分類算法:通過比較給定網(wǎng)頁的特征向量與每個(gè)類別內(nèi)特征項(xiàng)的分布,確定網(wǎng)頁與類別的隸屬關(guān)系。常用的分類算法有以下幾種:knn算法、nb(nave bayes)算法、基于svm的分類算法、決策樹(dtree,decision tree)算法、rocchio算法,等等。圖表 2 實(shí)現(xiàn)中文網(wǎng)頁自動(dòng)分類的一般過程fs

31、c圖表 3 中文網(wǎng)頁分類器的工作原理圖fsc由于噪音內(nèi)容與主題內(nèi)容無關(guān),因此,噪音內(nèi)容對(duì)上述的幾個(gè)關(guān)鍵技術(shù)都造成了不同程度的影響。在訓(xùn)練過程中,訓(xùn)練集中的噪音內(nèi)容會(huì)導(dǎo)致各個(gè)類別的特征變得模糊,甚至造成噪音中的關(guān)鍵詞成為類別的重要特征項(xiàng)。在分類過程中,待分類網(wǎng)頁中的噪音內(nèi)容則會(huì)導(dǎo)致該網(wǎng)頁類別不明確,甚至網(wǎng)頁的分類結(jié)果被大量的噪音內(nèi)容所誤導(dǎo),因而影響了網(wǎng)頁自動(dòng)分類的效果。ls、yang95中提出了通過去掉網(wǎng)頁中的噪音特征項(xiàng)來提高網(wǎng)頁分類質(zhì)量的方法。這兩個(gè)方法中,作者著重考慮如何從訓(xùn)練集中選取有代表性的特征項(xiàng)而去掉噪音的特征項(xiàng),而沒有考慮先去掉訓(xùn)練集網(wǎng)頁中的噪音內(nèi)容,而后在網(wǎng)頁的主題內(nèi)容中選取特征項(xiàng)

32、。2.3 信息提取信息提取是從文本中提取用戶感預(yù)先定義好的某些類型的信息(定義、實(shí)體、關(guān)系)并以結(jié)構(gòu)化的形式返回提取結(jié)果的過程jw ralph97。它與信息檢索的區(qū)別在于:信息檢索是在一個(gè)文檔集合中找到與查詢?cè)~相關(guān)的文檔子集;而信息提取是在文檔內(nèi)部提取出預(yù)先定義的某些類型的信息。信息提取的結(jié)果通常自動(dòng)導(dǎo)入數(shù)據(jù)庫中,在這些數(shù)據(jù)之上可以作許多應(yīng)用層次上的分析,例如:趨勢(shì)分析;也可以直接在web上提供服務(wù),例如:當(dāng)前市場上某類商品價(jià)格表。信息提取研究的目標(biāo)是建立具有如下功能的系統(tǒng):1、 從無結(jié)構(gòu)或半結(jié)構(gòu)化的文檔中自動(dòng)發(fā)現(xiàn)有用信息,并將其中相關(guān)的信息聯(lián)系起來。2、 能夠在只做簡單修改的情況下方便的應(yīng)用

33、到不同的領(lǐng)域。3、 性能要滿足用戶的需求。一個(gè)信息提取系統(tǒng)通常分為三個(gè)自過程:1、 從每個(gè)文檔內(nèi)提取有用信息。2、 如果一個(gè)完整的記錄內(nèi)容分布在不同文檔中,則需要將不同文檔中提取的相關(guān)信息連接為一個(gè)完整的記錄。3、 將用戶需要的信息按照一定格式輸出。針對(duì)html網(wǎng)頁的信息提取,較早的方法是:針對(duì)某一類具體網(wǎng)頁,人工提取該類網(wǎng)頁的內(nèi)容組織模式。然后,信息提取系統(tǒng)根據(jù)該模式從屬于該類的網(wǎng)頁中提取相應(yīng)的內(nèi)容hmc、hcb。但這些方法有一個(gè)共同的局限性,那就是需要人工提取內(nèi)容組織模式,這對(duì)于內(nèi)容組織風(fēng)格繁多的www來說顯然是不適用的。因此,在hd98中,作者提出了5條啟發(fā)式規(guī)則,綜合利用這5條規(guī)則系統(tǒng)

34、可以自動(dòng)地發(fā)現(xiàn)網(wǎng)頁中各個(gè)主題信息塊(chunk)的邊界。yh提出了一種基于視覺相似性來自動(dòng)分析網(wǎng)頁語義結(jié)構(gòu)的方法,該方法首先比較html網(wǎng)頁內(nèi)容的視覺相似性,然后使用一個(gè)模式發(fā)現(xiàn)算法來確定這些視覺相似的內(nèi)容最有可能的組織模式,最后按照該模式將內(nèi)容重新組合。在網(wǎng)頁信息提取過程中,自動(dòng)識(shí)別網(wǎng)頁模式以及按照一定模式從網(wǎng)頁中提取信息都是很費(fèi)時(shí)的,時(shí)間開銷主要取決于網(wǎng)頁中標(biāo)簽結(jié)構(gòu)的復(fù)雜性以及提取出的模式的復(fù)雜性。傳統(tǒng)的方法必須要從整個(gè)網(wǎng)頁中提取模式,而不是只針對(duì)主題內(nèi)容提取。由于主題內(nèi)容的結(jié)構(gòu)是相對(duì)簡單的,因此直接從主題內(nèi)容中提取模式或信息可以大大節(jié)省時(shí)間開銷。綜上,在凈化后的網(wǎng)頁上作信息提取不僅可以排

35、除噪音信息對(duì)信息提取的干擾,提高信息提取的準(zhǔn)確性,而且可以使得網(wǎng)頁中的結(jié)構(gòu)簡單化,提高信息提取的效率。2.4 元數(shù)據(jù)提取元數(shù)據(jù)是指面向應(yīng)用的、能被計(jì)算機(jī)所理解和處理的、描述web文檔特征的數(shù)據(jù)wjc。長期以來,元數(shù)據(jù)在數(shù)據(jù)庫領(lǐng)域和圖書館領(lǐng)域扮演著重要角色。隨著web上研究與應(yīng)用的發(fā)展,單純的網(wǎng)頁內(nèi)容已經(jīng)不能滿足需求,網(wǎng)頁元數(shù)據(jù)得到越來越廣泛的使用。在web信息檢索領(lǐng)域,單純依賴關(guān)鍵詞匹配的檢索手段過于單一。內(nèi)容類別、摘要等元數(shù)據(jù)信息的合理使用,不僅使用戶可以從不同的角度進(jìn)行查詢,而且也使得查詢的準(zhǔn)確性得到提高。而主題搜索、個(gè)性化信息服務(wù)以及數(shù)字圖書館也都強(qiáng)烈的依賴資源的元數(shù)據(jù)信息。因此,準(zhǔn)確且

36、高效的提取必要的元數(shù)據(jù)是web上各個(gè)研究領(lǐng)域面臨的重要問題。dc(dublin core)是一個(gè)得到廣泛應(yīng)用的網(wǎng)絡(luò)資源元數(shù)據(jù)標(biāo)準(zhǔn),它提供了一個(gè)描述網(wǎng)絡(luò)信息資源的元素集合。在元數(shù)據(jù)提取領(lǐng)域,關(guān)鍵詞提取是一個(gè)比較活躍的分支。在關(guān)鍵詞提取的各種方法中,基于統(tǒng)計(jì)的方法被廣泛的接受并被證明是有效的。tf-idf 公式通常被用來量化一個(gè)詞項(xiàng)的重要性。但html網(wǎng)頁中有著豐富的標(biāo)簽信息,如果將這些有用信息與傳統(tǒng)的公式結(jié)合起來,將會(huì)提高關(guān)鍵詞提取的準(zhǔn)確性。在傳統(tǒng)的摘要提取方法中,摘要是通過選取權(quán)值較高的句子形成的,而句子的權(quán)值則是由它所包含的關(guān)鍵詞的權(quán)值決定的。除此之外,一些啟發(fā)式規(guī)則也起到了重要的作用,比如

37、出現(xiàn)“綜上所述”、“本文論述了”等短語的句子通常有總結(jié)全文的功能。但基于啟發(fā)式規(guī)則的方法過于機(jī)械。在本文中,我們首先對(duì)凈化后的網(wǎng)頁按照標(biāo)簽結(jié)構(gòu)進(jìn)行語義分段。在分段的基礎(chǔ)上,我們?cè)诿慷蝺?nèi)按照句子的權(quán)值選取重要句子。通過這種方法,可以保證自動(dòng)生成的摘要能夠覆蓋整篇網(wǎng)頁的內(nèi)容,而不會(huì)被幾個(gè)權(quán)值很高的關(guān)鍵詞所引導(dǎo)。第3章 web信息系統(tǒng)面臨的問題及共性需求目前,web信息系統(tǒng)通常面臨以下兩個(gè)問題:一、 web上有用信息通常伴隨著大量的“噪音”內(nèi)容,而噪音內(nèi)容正是web網(wǎng)頁與傳統(tǒng)文檔的一個(gè)主要區(qū)別。根據(jù)噪音內(nèi)容的粒度大小,web上的噪音內(nèi)容可以被分為兩類yll03:全局噪音:全局噪音是指web上具有較大

38、粒度的噪音內(nèi)容,它通常包含鏡像網(wǎng)站以及近似網(wǎng)頁。全局噪音內(nèi)容不僅影響了web上信息檢索系統(tǒng)(比如搜索引擎)的網(wǎng)頁搜集、索引和檢索結(jié)果排序的質(zhì)量,也使得web信息存儲(chǔ)系統(tǒng)浪費(fèi)大量的磁盤空間去保存重復(fù)的網(wǎng)頁。局部噪音:局部噪音是指web網(wǎng)頁內(nèi)與網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容,比如:廣告、導(dǎo)航條以及版權(quán)聲明等內(nèi)容。局部噪音使得應(yīng)用程序很難確切得到網(wǎng)頁的主題內(nèi)容,因此它嚴(yán)重的影響了基于網(wǎng)頁內(nèi)容的應(yīng)用程序。同時(shí),局部噪音很多情況下是伴隨著超鏈出現(xiàn)的,因此,局部噪音也對(duì)基于網(wǎng)頁間鏈接關(guān)系的應(yīng)用程序造成影響。雖然噪音內(nèi)容在某些應(yīng)用程序中是有用的,但對(duì)于大多數(shù)的web信息系統(tǒng)而言,它們是有害的。二、隨著web上研

39、究與應(yīng)用的發(fā)展,單純的網(wǎng)頁內(nèi)容已經(jīng)不能滿足需求,網(wǎng)頁元數(shù)據(jù)得到越來越廣泛的使用。在web信息檢索領(lǐng)域,單純依賴關(guān)鍵詞匹配的檢索手段過于單一,內(nèi)容類別、摘要等元數(shù)據(jù)信息的合理使用,不僅使用戶可以從不同的角度進(jìn)行查詢,而且也使得查詢的準(zhǔn)確性得到提高。而主題搜索、個(gè)性化以及數(shù)字圖書館也都強(qiáng)烈的依賴資源的元數(shù)據(jù)信息。但網(wǎng)頁的元數(shù)據(jù)信息在網(wǎng)頁中并沒有被明確的表示出來。因此,準(zhǔn)確且高效的提取必要的元數(shù)據(jù)是web上各個(gè)研究領(lǐng)域面臨的重要問題。通過對(duì)各個(gè)領(lǐng)域工作及研究成果的分析,我們發(fā)現(xiàn)不同領(lǐng)域的工作存在兩個(gè)共性:1、工作結(jié)果的共性。雖然各個(gè)領(lǐng)域所做的工作都是為了解決網(wǎng)頁復(fù)雜化給本領(lǐng)域帶來的問題,但各個(gè)領(lǐng)域的

40、工作結(jié)果中有著共同的部分。譬如,各個(gè)領(lǐng)域都需要去除原始網(wǎng)頁中的噪音內(nèi)容,然后在凈化后的網(wǎng)頁上進(jìn)行后續(xù)工作;很多領(lǐng)域都需要獲取網(wǎng)頁的元數(shù)據(jù)信息。即凈化的網(wǎng)頁和元數(shù)據(jù)是它們都需要的結(jié)果。2、工作過程的共性。在獲得不同結(jié)果的過程中存在著共同的中間環(huán)節(jié)。譬如:網(wǎng)頁分類、摘要的提取以及關(guān)鍵詞的選取都需要對(duì)文檔進(jìn)行分詞操作。而這些中間環(huán)節(jié)有時(shí)是整個(gè)工作中效率上的瓶頸。這些共性啟示我們有可能通過歸納不同應(yīng)用需求中的通用元素,并作為一個(gè)模型一次性提取出來,從而對(duì)多種應(yīng)用提供一個(gè)統(tǒng)一的支持。可以想象,這樣做既便于提高所需信息的質(zhì)量,又最大限度地避免重復(fù)工作帶來的時(shí)間開銷,從而在信息量和復(fù)雜性這兩個(gè)相互制約的因素

41、之間找到一個(gè)合理的折衷點(diǎn)。第4章 預(yù)處理方法與技術(shù)4.1 預(yù)處理框架及結(jié)果描述4.1.1 預(yù)處理框架本文中提出的預(yù)處理框架包括三部分:網(wǎng)頁凈化(局部噪音清除)、近似網(wǎng)頁消除(全局噪音清除)以及網(wǎng)頁元數(shù)據(jù)提取。 圖表 4 預(yù)處理框架示意圖由上圖可以看到,經(jīng)過網(wǎng)頁凈化,所有的原始網(wǎng)頁中的噪音內(nèi)容都得到有效的清除,經(jīng)過近似網(wǎng)頁消除,凈化后的網(wǎng)頁集得到了精簡,在精簡的網(wǎng)頁集上,經(jīng)過元數(shù)據(jù)提取,所有保留的網(wǎng)頁被表示為一個(gè)統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)模型。從而,在原始網(wǎng)頁集上搭建了一個(gè)無噪音、易操作和使用的信息平臺(tái)。4.1.2 預(yù)處理結(jié)果描述為了方便預(yù)處理結(jié)果的使用,我們用一個(gè)統(tǒng)一的結(jié)構(gòu)化的模型表示預(yù)處理的結(jié)果,這個(gè)

42、網(wǎng)頁表示模型稱為docview。它包括:網(wǎng)頁標(biāo)識(shí)、網(wǎng)頁類型、內(nèi)容類別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接等要素。其中正文和相關(guān)鏈接要素屬于網(wǎng)頁的內(nèi)容數(shù)據(jù),而其他6項(xiàng)則屬于網(wǎng)頁的元數(shù)據(jù)。下面將對(duì)模型中的各個(gè)要素作詳細(xì)描述。網(wǎng)頁標(biāo)識(shí)是對(duì)web上網(wǎng)頁的唯一性標(biāo)識(shí),在docview模型中使用網(wǎng)頁的url作為網(wǎng)頁標(biāo)識(shí)。網(wǎng)頁類型是根據(jù)網(wǎng)頁內(nèi)容的表現(xiàn)形式進(jìn)行劃分的,在本文中將網(wǎng)頁分為三類:有主題網(wǎng)頁、目錄網(wǎng)頁、圖片網(wǎng)頁。有主題網(wǎng)頁:網(wǎng)頁中通過文字描述了一件或多件事物,是有一定主題的。一張具體的新聞網(wǎng)頁就是典型的有主題網(wǎng)頁。目錄網(wǎng)頁:專門用來提供網(wǎng)頁導(dǎo)向的網(wǎng)頁,因而是超鏈聚集的網(wǎng)頁。門戶網(wǎng)站的首頁就是典型的目

43、錄網(wǎng)頁。圖片網(wǎng)頁:網(wǎng)頁的內(nèi)容是通過圖片的形式體現(xiàn)的,其中文字很少,僅僅是對(duì)圖片的一個(gè)說明。某個(gè)機(jī)構(gòu)的人員介紹網(wǎng)頁就是典型的圖片網(wǎng)頁。 將網(wǎng)頁分為上述三個(gè)類型是因?yàn)槿惥W(wǎng)頁在用途和處理方法上存在較大的差別。其中目錄網(wǎng)頁與其它兩類網(wǎng)頁的區(qū)別在于網(wǎng)頁在web上發(fā)揮的作用不同,目錄網(wǎng)頁通常不會(huì)具體的講述一件事物,而是提供關(guān)于相關(guān)信息的鏈接集。而圖片網(wǎng)頁與其它兩類網(wǎng)頁的區(qū)別在于處理的方法不同,由于圖片網(wǎng)頁的內(nèi)容是通過圖片表達(dá)的而不是通過文字,因而,傳統(tǒng)信息處理領(lǐng)域的方法對(duì)圖片網(wǎng)頁是不夠有效的。三類網(wǎng)頁間的區(qū)別導(dǎo)致很多應(yīng)用領(lǐng)域都會(huì)對(duì)它們作適當(dāng)?shù)膮^(qū)別。內(nèi)容類別是對(duì)網(wǎng)頁的內(nèi)容進(jìn)行分類的結(jié)果,它是計(jì)算機(jī)獲取網(wǎng)頁

44、語義信息的一個(gè)直接手段,在web上的研究領(lǐng)域中有著廣泛的應(yīng)用。它是通過特定的分類器對(duì)網(wǎng)頁內(nèi)容分類得到的,依賴于一定的分類體系。dublin core中推薦用內(nèi)容類別作為其中subject元素的值。標(biāo)題、關(guān)鍵詞和摘要是概括描述web文檔內(nèi)容的重要的元數(shù)據(jù),對(duì)于web信息檢等領(lǐng)域的工作有非常重要的作用;正文是原始網(wǎng)頁中真正描述主題的部分,可以看作是凈化后的網(wǎng)頁,因此,在某些具體應(yīng)用中用正文代替原始網(wǎng)頁更為合理。相關(guān)鏈接是指在本網(wǎng)頁中指向與正文內(nèi)容相關(guān)的網(wǎng)頁的鏈接,而非廣告等噪音鏈接??梢钥闯?,將正文和相關(guān)超鏈重新組合可以得到另外一個(gè)凈化尺度的凈化后的網(wǎng)頁。4.2 網(wǎng)頁表示網(wǎng)頁的表示是網(wǎng)頁內(nèi)容分析的

45、基礎(chǔ),在網(wǎng)頁內(nèi)容分析過程中通常需要兩個(gè)層次的表示,抽象表示和量化表示。抽象表示是以網(wǎng)頁制作規(guī)范(html規(guī)范)為依據(jù)和出發(fā)點(diǎn),構(gòu)造出能體現(xiàn)網(wǎng)頁內(nèi)容結(jié)構(gòu)和內(nèi)容重要性等信息的表示模型,其目的是充分利用網(wǎng)頁制作規(guī)范,挖掘出網(wǎng)頁中隱含的信息,為后續(xù)量化表示提供更多可利用信息。對(duì)于html網(wǎng)頁,最常用的方法是構(gòu)造網(wǎng)頁的標(biāo)簽樹。量化表示則是從計(jì)算機(jī)處理的角度出發(fā),利用信息檢索領(lǐng)域的技術(shù)和從網(wǎng)頁中挖掘的隱含信息,生成計(jì)算機(jī)可以直接用于計(jì)算的表示模型(比如,向量空間模型)。下面對(duì)這兩個(gè)層次的表示方法做詳細(xì)描述。4.2.1 網(wǎng)頁標(biāo)簽樹表示今天,web上大多數(shù)的文本信息都是以html網(wǎng)頁的形式存在的。html是一

46、個(gè)標(biāo)識(shí)語言(markup language),網(wǎng)頁中的內(nèi)容都存在于標(biāo)簽之中。為了更清楚的描述網(wǎng)頁內(nèi)容的組織結(jié)構(gòu),通常將網(wǎng)頁中的標(biāo)簽按照出現(xiàn)順序,依次整理出來并用適當(dāng)?shù)慕Y(jié)構(gòu)記錄下來。由于標(biāo)簽之間的嵌套關(guān)系,標(biāo)簽的整理結(jié)果自然是一棵樹狀結(jié)構(gòu)。我們把整理一篇網(wǎng)頁中的標(biāo)簽得到的樹狀結(jié)構(gòu)稱為該網(wǎng)頁的標(biāo)簽樹。 為了獲取所需的信息,web上很多領(lǐng)域需要對(duì)網(wǎng)頁內(nèi)容進(jìn)行分析,而隨著研究和應(yīng)用的深入,以整張網(wǎng)頁為單位的分析粒度已經(jīng)不能滿足需要,這要求我們必須深入到網(wǎng)頁內(nèi)部,將分析對(duì)象的粒度縮小,以提高分析的準(zhǔn)確性。由于網(wǎng)頁中的標(biāo)簽結(jié)構(gòu)是對(duì)頁面布局的描述,因而依據(jù)標(biāo)簽樹對(duì)網(wǎng)頁進(jìn)行細(xì)化是合理的。因此,標(biāo)簽樹在網(wǎng)頁內(nèi)容

47、分析工作中經(jīng)常會(huì)用到。 傳統(tǒng)的標(biāo)簽樹目前,有很多構(gòu)造標(biāo)簽樹的工具,他們各有特點(diǎn)。下面我們主要介紹w3c document object model (dom dom)和html tidytidy。 dom可以為每篇html構(gòu)造一個(gè)樹狀結(jié)構(gòu),其中網(wǎng)頁內(nèi)的標(biāo)簽作為樹的內(nèi)部節(jié)點(diǎn),而文字和圖像作為樹的葉子節(jié)點(diǎn)。 html tidy也是一個(gè)被廣泛使用的標(biāo)簽分析工具,它的特點(diǎn)是有很強(qiáng)的容錯(cuò)能力,可以發(fā)現(xiàn)網(wǎng)頁中的標(biāo)簽錯(cuò)誤(例如:結(jié)束標(biāo)簽丟失、結(jié)束標(biāo)簽匹配錯(cuò)誤等等)并進(jìn)行較為合理的修正。 本文提出的標(biāo)簽樹構(gòu)造方法則是面向內(nèi)容分析。該方法首先從內(nèi)容分析的角度將標(biāo)簽分類,并以一種適合內(nèi)容分析工作的方

48、式組織標(biāo)簽信息。另外,在標(biāo)簽樹中包含一定的統(tǒng)計(jì)信息,因此通過標(biāo)簽樹中的信息,可以對(duì)網(wǎng)頁有一個(gè)大致的了解。 適合內(nèi)容分析的標(biāo)簽樹與通用標(biāo)簽樹相比有這樣幾個(gè)特點(diǎn):1、在標(biāo)簽樹的框架上,更強(qiáng)調(diào)對(duì)網(wǎng)頁內(nèi)容組織結(jié)構(gòu)的刻劃。換言之,內(nèi)容分析中強(qiáng)調(diào)內(nèi)容塊的概念,而不是任意的標(biāo)簽都構(gòu)成標(biāo)簽樹中的一個(gè)結(jié)點(diǎn)。2、在標(biāo)簽樹中信息的組織上,對(duì)內(nèi)容分析經(jīng)常用到的幾類信息按內(nèi)容塊組織,并且提供可以快速且方便操作的存儲(chǔ)方式。3、需要有適當(dāng)?shù)拿枋鲂孕畔?。在做?nèi)容分析的時(shí)候,除了用標(biāo)簽樹來刻劃網(wǎng)頁的結(jié)構(gòu),我們通常還希望得到這樣的一些信息:標(biāo)簽樹的規(guī)模(內(nèi)容塊的個(gè)數(shù))、每個(gè)內(nèi)容塊的信息量(可以通過內(nèi)容塊中的字?jǐn)?shù)體現(xiàn))、哪些內(nèi)容塊

49、中有超鏈、哪些內(nèi)容塊中有描述性標(biāo)簽、及相應(yīng)的數(shù)量; 而這些信息在現(xiàn)有工具構(gòu)造的標(biāo)簽樹中是很難直接得到的。鑒于此,本文提出一套適合內(nèi)容分析的標(biāo)簽樹組織方式及其構(gòu)造方法。 改進(jìn)的標(biāo)簽樹html中定義的標(biāo)簽按照功能可以分為三類:規(guī)劃網(wǎng)頁布局的標(biāo)簽:在視覺上,網(wǎng)頁是由若干提供內(nèi)容信息的區(qū)域(我們稱之為內(nèi)容塊)組成的,而內(nèi)容塊是由特定的標(biāo)簽規(guī)劃出的(稱之為容器標(biāo)簽),而且容器標(biāo)簽是允許嵌套的。常用的容器標(biāo)簽有、等。因此,依據(jù)容器標(biāo)簽可以將網(wǎng)頁表示成樹狀結(jié)構(gòu),雖然該樹狀結(jié)構(gòu)描述的是網(wǎng)頁內(nèi)容的布局結(jié)構(gòu),但布局信息中隱含著網(wǎng)頁內(nèi)部各部分內(nèi)容的相關(guān)性信息。描述顯示特點(diǎn)的標(biāo)簽:在html標(biāo)準(zhǔn)中定義了

50、一套標(biāo)簽來規(guī)范其包含的內(nèi)容的顯示方式(比如:字體變大、粗體、斜體),我們稱之為重要信息標(biāo)簽。常用的重要信息標(biāo)簽有、等十幾種。這類標(biāo)簽中的內(nèi)容通常是網(wǎng)頁作者希望引起讀者注意的,因此隱含著一定的內(nèi)容重要性信息。超鏈相關(guān)的標(biāo)簽:超鏈?zhǔn)莌tml網(wǎng)頁區(qū)別于傳統(tǒng)文本的最明顯的特點(diǎn)之一,表示著網(wǎng)頁間的關(guān)系,因此整理出超鏈標(biāo)簽并作合理的分析可以挖掘出網(wǎng)頁間的內(nèi)容相關(guān)性信息。下面簡要的描述標(biāo)簽樹。給定一篇html網(wǎng)頁,順序整理出容器標(biāo)簽就得到了對(duì)應(yīng)的標(biāo)簽樹的框架。而后,整理每個(gè)內(nèi)容塊(對(duì)應(yīng)標(biāo)簽樹的一個(gè)結(jié)點(diǎn))中的超鏈標(biāo)簽、圖片標(biāo)簽和重要信息標(biāo)簽,并在標(biāo)簽樹中對(duì)應(yīng)的結(jié)點(diǎn)中記錄下來。這樣就構(gòu)造了一棵基本的標(biāo)簽樹。對(duì)上

51、述基本標(biāo)簽樹信息作適當(dāng)?shù)姆治?、整理就可以得到?nèi)容分析過程中需要的一些描述信息。譬如,依據(jù)內(nèi)容塊中詞項(xiàng)數(shù)、圖片數(shù)和出現(xiàn)在超鏈anchor text上的文字?jǐn)?shù)的比值可以為每個(gè)內(nèi)容塊設(shè)定一個(gè)類型,分為主題型、目錄型、圖片型三種。如果內(nèi)容塊中詞項(xiàng)數(shù)與圖片數(shù)的比值小于某個(gè)閾值,該內(nèi)容塊就是圖片類型,如果內(nèi)容塊中作為anchor text出現(xiàn)的詞項(xiàng)數(shù)與該塊中總詞項(xiàng)數(shù)的比值小于某個(gè)閾值,該內(nèi)容塊就是目錄類型,否則為主題類型。這樣,標(biāo)簽樹中每個(gè)結(jié)點(diǎn)都有類型和屬性集兩組描述性信息,以及超鏈集和重要標(biāo)簽集等數(shù)據(jù)信息。下圖是一個(gè)標(biāo)簽樹的圖例,其中type等屬性將在本文后續(xù)內(nèi)容中詳細(xì)描述。圖表 5 html tree

52、 結(jié)構(gòu)示意圖link_list:該內(nèi)容塊中超鏈集合;weighty_tag_list:該內(nèi)容塊中重要標(biāo)簽集合html網(wǎng)頁的制作是很隨意的,這導(dǎo)致大量網(wǎng)頁的標(biāo)簽是有錯(cuò)誤的。如果不對(duì)網(wǎng)頁內(nèi)的標(biāo)簽進(jìn)行修正,那么構(gòu)造出的標(biāo)簽樹與網(wǎng)頁的布局是不相符的。文章ape中對(duì)web文檔做了全面詳細(xì)的統(tǒng)計(jì),在對(duì)網(wǎng)頁標(biāo)簽錯(cuò)誤的統(tǒng)計(jì)中,丟失結(jié)束標(biāo)簽和錯(cuò)誤匹配結(jié)束標(biāo)簽是最容易出現(xiàn)的錯(cuò)誤,本文講述的方法可以發(fā)現(xiàn)和自動(dòng)修正這兩種情況,例如:1、丟失結(jié)束標(biāo)簽: a table content修正為 a table content2、錯(cuò)誤匹配結(jié)束標(biāo)簽: a div content修正為 a div content4.2.2 網(wǎng)頁

53、量化表示 傳統(tǒng)的量化方法在傳統(tǒng)的文本處理領(lǐng)域中,一個(gè)文本被看作是一定特征項(xiàng)的一種分布,因此文本就被表示成一個(gè)特征項(xiàng)向量,其中是第i個(gè)特征項(xiàng)的權(quán)值,n是特征項(xiàng)的總數(shù)。這樣,每個(gè)文本就被映射到了向量空間中的一個(gè)點(diǎn),因而向量空間中的點(diǎn)的距離就可以用來衡量其對(duì)應(yīng)的文本的相似性。在量化方法上,對(duì)權(quán)值的計(jì)算,比較常用的是tf-idf方法tfidf,其計(jì)算公式如下:公式 1 tf-idf方法公式是第i個(gè)關(guān)鍵詞在文檔d中的出現(xiàn)頻率,n是文檔集中的文檔總數(shù),是文檔集中含有第i個(gè)關(guān)鍵詞的文檔數(shù)相似性的計(jì)算有很多方法,較為常用的是計(jì)算對(duì)應(yīng)向量的euclid 距離、cosine距離sb和內(nèi)積ld。給定向

54、量,(2)(3)(4)公式2. (2)euclid 距離,(3)cosine距離,(4)內(nèi)積 改進(jìn)的量化方法在量化方法上,我們可以充分的利用html網(wǎng)頁中的重要信息標(biāo)簽信息以及html網(wǎng)頁內(nèi)容的布局結(jié)構(gòu)。為了體現(xiàn)重要信息標(biāo)簽中內(nèi)容的重要性,通常的做法是對(duì)重要信息標(biāo)簽中的內(nèi)容加權(quán)值。但重要信息標(biāo)簽中包含的并非都是重要內(nèi)容,其中的噪音信息非常多,例如:“tel”、“fax”、“聯(lián)系電話”、“傳真”、“廣告服務(wù)”、“前一頁”等等。我們對(duì)此做了這樣的統(tǒng)計(jì),從web上隨機(jī)抓取的20000個(gè)網(wǎng)頁中,包含在我們定義的重要信息標(biāo)簽中的內(nèi)容有9091條,其中上述的噪音內(nèi)容(共定義了22個(gè))出現(xiàn)了1

55、200條,也就是說,重要信息標(biāo)簽中的噪音信息至少占13.2%。因此,簡單的對(duì)重要信息標(biāo)簽中的內(nèi)容加權(quán)是不合理的,整理噪音詞集合并對(duì)重要信息標(biāo)簽中的內(nèi)容進(jìn)行過濾,對(duì)過濾后的真實(shí)重要內(nèi)容加權(quán)值可以避免噪音擴(kuò)大化。由于網(wǎng)頁中的標(biāo)簽結(jié)構(gòu)是對(duì)頁面布局的描述,我們不難得到這樣的結(jié)論:如果某個(gè)內(nèi)容塊中存在真實(shí)重要信息,那么這個(gè)內(nèi)容塊的重要性也相對(duì)較高;如果一個(gè)內(nèi)容塊的重要性較高,那么這個(gè)內(nèi)容塊的外層嵌套塊的重要性也相對(duì)較高??梢钥闯觯瑢?dǎo)致網(wǎng)頁中內(nèi)容塊重要性增加的是包含真實(shí)重要內(nèi)容的重要信息標(biāo)簽。基于這個(gè)結(jié)論,我們給網(wǎng)頁中每個(gè)內(nèi)容塊賦予一個(gè)權(quán)值,用來表示這個(gè)內(nèi)容塊的重要性,并提出內(nèi)容塊權(quán)值的傳遞規(guī)則(我們稱其

56、為權(quán)值傳遞規(guī)則)。由于內(nèi)容塊與標(biāo)簽樹中結(jié)點(diǎn)是一一對(duì)應(yīng)的關(guān)系,以下對(duì)權(quán)值傳遞規(guī)則的描述統(tǒng)一使用標(biāo)簽樹的結(jié)點(diǎn)而不使用內(nèi)容塊。權(quán)值傳遞規(guī)則:標(biāo)簽樹中每個(gè)結(jié)點(diǎn)的初始權(quán)值為1。每個(gè)重要信息標(biāo)簽都有一個(gè)影響因子。如果標(biāo)簽樹某個(gè)葉子結(jié)點(diǎn)中存在重要信息標(biāo)簽并且重要標(biāo)簽中的內(nèi)容是真實(shí)重要內(nèi)容,那么累加重要信息標(biāo)簽的影響因子,得到的和就是該葉子結(jié)點(diǎn)的影響因子。沒有出現(xiàn)重要標(biāo)簽的葉子結(jié)點(diǎn)的影響因子為1。對(duì)于每一個(gè)葉子結(jié)點(diǎn),如果影響因子為且 1,則該葉子結(jié)點(diǎn)的權(quán)值變?yōu)楫?dāng)前值的倍,它的父結(jié)點(diǎn)以及父結(jié)點(diǎn)下的其他子樹中的結(jié)點(diǎn)均變?yōu)楫?dāng)前值的倍,然后以該父結(jié)點(diǎn)為變化源,按照上述規(guī)則再向外擴(kuò)展一次。每一次擴(kuò)展過程中,遇到父結(jié)點(diǎn)為或父結(jié)點(diǎn)權(quán)值超過預(yù)定上限就結(jié)束整個(gè)權(quán)值傳遞過程。過程如下圖所示。圖表 6 內(nèi)容塊權(quán)值傳遞過程示意圖可以證明,“權(quán)值傳遞規(guī)則”有以下兩個(gè)性質(zhì): 性質(zhì)1:對(duì)于初始的標(biāo)簽樹,無論從哪個(gè)結(jié)點(diǎn)開始、以什么順序執(zhí)行“權(quán)值傳遞規(guī)則”,標(biāo)簽樹最終的權(quán)值結(jié)果都是相同的。性質(zhì)2:如果初始標(biāo)簽樹中葉子結(jié)點(diǎn)影響因子的分布不同,那么標(biāo)簽樹最終的權(quán)值結(jié)果一定是不同的。其中,性質(zhì)1是保證規(guī)則正確的基本條件,性質(zhì)2則說明,“權(quán)值傳遞規(guī)則”可以保證:初始標(biāo)簽樹中葉子結(jié)點(diǎn)影響因子的分布與最終標(biāo)簽樹中權(quán)值結(jié)果是一一對(duì)應(yīng)的。另外,可以證明,“權(quán)值傳遞規(guī)則”的兩個(gè)性質(zhì)與權(quán)值向上傳遞的層

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論