web數(shù)據(jù)的領(lǐng)域相關(guān)性研究_第1頁(yè)
web數(shù)據(jù)的領(lǐng)域相關(guān)性研究_第2頁(yè)
web數(shù)據(jù)的領(lǐng)域相關(guān)性研究_第3頁(yè)
web數(shù)據(jù)的領(lǐng)域相關(guān)性研究_第4頁(yè)
web數(shù)據(jù)的領(lǐng)域相關(guān)性研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

web數(shù)據(jù)的領(lǐng)域相關(guān)性研究

0實(shí)驗(yàn)結(jié)果與分析根據(jù)最新的研究,網(wǎng)絡(luò)已連接到數(shù)十億個(gè)靜態(tài)頁(yè)面,但網(wǎng)絡(luò)的某些內(nèi)容無(wú)法直接訪問(wèn)。這部分頁(yè)面僅當(dāng)用戶填充表單并提交查詢后才可以訪問(wèn)。這部分頁(yè)面被稱為是HiddenWeb或者DeepWeb為了定位DeepWeb數(shù)據(jù)源,對(duì)一個(gè)比較好的定位機(jī)制的需求也迫在眉睫。文獻(xiàn)[6]中提出的使用機(jī)器學(xué)習(xí)中C4.5決策樹(shù)的方法來(lái)實(shí)現(xiàn)Web上查詢接口的判別,其主要分兩個(gè)步驟:首先是查詢接口特征的自動(dòng)生成,其次是以這些特征為依據(jù),利用C4.5算法得到一棵決策樹(shù),通過(guò)這棵決策樹(shù)來(lái)進(jìn)行查詢接口的判定。實(shí)驗(yàn)結(jié)果表明:從Web中隨機(jī)查詢的數(shù)據(jù)集準(zhǔn)確性達(dá)到了87%,顯然還有很大的提升空間,其實(shí)還有一些有用的信息可以利用,如HTML表單中,控制組件之間的文檔內(nèi)容,控制組件的數(shù)量和布局,頁(yè)面中的頻繁詞匯等等。文獻(xiàn)[7]提出了一種利用樸素貝葉斯分類算法的自動(dòng)判定網(wǎng)頁(yè)表單是否是DeepWeb查詢接口的方法,文章提取了HTML表單標(biāo)簽的屬性值和控件類型以及控制標(biāo)簽之間的詞匯信息等作為貝葉斯分類的特征集,實(shí)驗(yàn)結(jié)果表明在查詢接口的查全率和查準(zhǔn)率方面都有提高,但是忽略了整個(gè)頁(yè)面的信息和數(shù)據(jù)源的領(lǐng)域相關(guān)性。文獻(xiàn)[8]使用強(qiáng)化學(xué)習(xí)來(lái)建立一個(gè)聚焦爬蟲(chóng),其對(duì)于分散的概念比較有效,并且其設(shè)計(jì)是用來(lái)搜索非HiddenWeb數(shù)據(jù)庫(kù)的內(nèi)容。文獻(xiàn)[9]提出了一種使用強(qiáng)化學(xué)習(xí)的基于Agent的HiddenWeb爬蟲(chóng)(ALAC)來(lái)實(shí)現(xiàn)DeepWeb數(shù)據(jù)源的判別。本文描述了一種多分類器來(lái)實(shí)現(xiàn)對(duì)DeepWeb數(shù)據(jù)源的分類和判別的方法,首先使用聚焦表單的爬蟲(chóng)實(shí)現(xiàn)對(duì)頁(yè)面表單的抓取,然后利用樸素貝葉斯分類器對(duì)文檔頁(yè)面領(lǐng)域性分類的優(yōu)勢(shì),對(duì)于抓取到的表單頁(yè)面進(jìn)行領(lǐng)域相關(guān)性分類,獲取所需的領(lǐng)域信息,過(guò)濾非領(lǐng)域相關(guān)性的頁(yè)面信息,最后依據(jù)C4.5決策樹(shù)分類器對(duì)于查詢接口判別錯(cuò)誤率低的特點(diǎn),對(duì)抓取到的領(lǐng)域表單頁(yè)面進(jìn)行查詢接口的判別。1web網(wǎng)絡(luò)實(shí)名數(shù)據(jù)源分類的目標(biāo)是在聚焦爬蟲(chóng)檢索到的異構(gòu)的表單中只選擇領(lǐng)域相關(guān)和作為查詢接口的表單。過(guò)程如下:給定一個(gè)Web表單的集合F和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)領(lǐng)域D,這里F是通過(guò)聚焦爬蟲(chóng)自動(dòng)搜集到的。目標(biāo)是從集合F中選出那些僅作為D中某一特定領(lǐng)域的可查詢的表單,過(guò)濾掉與特定領(lǐng)域不相關(guān)的可查詢表單和非查詢功能表單。定義1查接口分類與判別方法HTML表示的網(wǎng)頁(yè)中包含有大量復(fù)雜的信息,可以從中獲取大量有用的信息集合。網(wǎng)頁(yè)特征的選擇對(duì)于網(wǎng)頁(yè)分類的速度和精度都至關(guān)重要。因此,如何有效地選擇合適的網(wǎng)頁(yè)特征對(duì)網(wǎng)頁(yè)進(jìn)行描述,是進(jìn)行網(wǎng)頁(yè)表單分類和判別的首要問(wèn)題。傳統(tǒng)的查詢接口分類與判別方法,如決策樹(shù)和貝葉斯,其原理是對(duì)于提取到的表單頁(yè)面,使用單一分類器分析表單文本與結(jié)構(gòu)特征來(lái)實(shí)現(xiàn)查詢接口的分類和判別,這樣用于分類的特征就局限到表單內(nèi)的特征,而忽略了整個(gè)頁(yè)面的文本信息,而且單一分類器只對(duì)于某一功能有優(yōu)勢(shì)(貝葉斯對(duì)于接口分類有優(yōu)勢(shì),決策樹(shù)對(duì)于判定查詢接口有較小的出錯(cuò)率)。故這里提出了一種分層的思想,即使用不同分類器分別對(duì)DeepWeb數(shù)據(jù)源進(jìn)行分類和判定。在這里,關(guān)注于提取整個(gè)頁(yè)面的文本信息(用于表單網(wǎng)頁(yè)的分類)和表單包含的全部信息(作為查詢接口判別的特征)。本文通過(guò)三個(gè)基本組件來(lái)實(shí)現(xiàn)上面的功能:基于表單的聚焦爬蟲(chóng)(FFC)、表單頁(yè)面分類器(FPC)和表單分類器(FC)。圖1顯示了其結(jié)構(gòu)框架。專注于爬行動(dòng)物工作的原則單頁(yè)頁(yè)面分割器單元格柵2數(shù)據(jù)源的分類和決定2.1葉斯分類器特征標(biāo)準(zhǔn)化表單頁(yè)面分類可作為文本分類技術(shù)的一種擴(kuò)展,但表單網(wǎng)頁(yè)的特征比較復(fù)雜,網(wǎng)頁(yè)格式靈活,而且同一格式的網(wǎng)頁(yè)也存在多個(gè)標(biāo)準(zhǔn),因此對(duì)其分類相比較于文檔分類要難于處理,這里引入了樸素貝葉斯文檔分類器。根據(jù)貝葉斯學(xué)習(xí)框架對(duì)于文檔分類的處理過(guò)程,這里首先對(duì)特征進(jìn)行標(biāo)準(zhǔn)化以提高分類的準(zhǔn)確性。假設(shè)文檔數(shù)據(jù)是通過(guò)參數(shù)模型產(chǎn)生的,使用訓(xùn)練數(shù)據(jù)來(lái)計(jì)算模型參數(shù)的最大后延估計(jì)。根據(jù)這個(gè)估計(jì),來(lái)對(duì)新的測(cè)試文檔所生成的模型使用貝葉斯規(guī)則計(jì)算其所屬類別的后延概率來(lái)對(duì)其進(jìn)行分類。分類過(guò)程就是將文檔歸類到有最大概率的類別里面。貝葉斯分類器使用文檔頻率和詞頻對(duì)文檔類別參數(shù)化。每個(gè)類別c通過(guò)訓(xùn)練集合來(lái)學(xué)習(xí)到P(c算法1樸素貝葉斯分類器學(xué)習(xí)算法其中,Examples為一組頁(yè)面及其目標(biāo)值,C為所有可能的目標(biāo)值的集合。此函數(shù)作用是學(xué)習(xí)概率項(xiàng)P(w1網(wǎng)絡(luò)文本處理(1)anchor提取液(1)HTML去噪,刪除HTML標(biāo)簽;(2)AnchorText提取,提取文檔的In-link和Out-linkAnchorText;(3)中文分詞。(2)特征提取詞優(yōu)化項(xiàng)(1)禁用詞表,預(yù)定義禁用詞表,將禁用詞表中出現(xiàn)的詞從文檔的特征向量中刪去;(2)詞性選擇,基于ICTCLAS的分詞結(jié)果,只特定詞性標(biāo)注的詞作為特征項(xiàng);(3)信息增益,對(duì)數(shù)據(jù)集進(jìn)行特征降維,壓縮特征空間;(4)存放處理結(jié)果到DOC文檔中。(3)所有單詞和其他信息都收集在exampes處理之后的文檔中V←將處理后的文本信息出現(xiàn)的所有詞和記號(hào)的集合。2貝葉斯分類算法的對(duì)待分析根據(jù)上面貝葉斯文本分類器對(duì)于文檔分類的知識(shí)分可知:對(duì)C中的每個(gè)目標(biāo)值c(1)doc其中d對(duì)V中每個(gè)詞w(1)N(w算法2貝葉斯分類算法對(duì)待分析頁(yè)面進(jìn)行預(yù)處理,處理結(jié)果存入文檔Doc中,文檔Doc返回其估計(jì)的目標(biāo)值。a1)positions←在Doc中的所有詞的位置,它包含能在V中找到的記號(hào);2)返回v對(duì)于給定的大量的訓(xùn)練文檔,樸素貝葉斯分類器在文本文檔分類方面表現(xiàn)良好2.2利用文件提取特征在2.1節(jié)中,使用樸素貝葉斯對(duì)包含表單的頁(yè)面進(jìn)行領(lǐng)域分類,提取出感興趣的頁(yè)面,然后對(duì)固定領(lǐng)域的表單進(jìn)行查詢接口的判定。HTML表單包含有復(fù)雜的結(jié)構(gòu),通過(guò)它可以得到一個(gè)特征豐富的集合。事實(shí)上,表單結(jié)構(gòu)化的特征就可以作為判斷此表單是否是查詢接口的一個(gè)指示器。此部分描述了一個(gè)自動(dòng)產(chǎn)生HTML表單特征的方法作為有效進(jìn)行查詢接口探測(cè)的標(biāo)準(zhǔn)。圖2顯示了統(tǒng)計(jì)得來(lái)的一些數(shù)據(jù)信息。由圖2知:可查詢的表單有比較多的SelectionList和CheckBox,而非查詢表單有比較多的TextBox。其它的一些結(jié)構(gòu)信息也被用來(lái)作為C4.5決策樹(shù)的特征,如:hidden標(biāo)簽的個(gè)數(shù),Radio標(biāo)簽的個(gè)數(shù),Submit標(biāo)簽的個(gè)數(shù),Password標(biāo)簽的個(gè)數(shù),TextBox的個(gè)數(shù),Submit的方法,還有一個(gè)很有用的是“查詢”“搜索”此類別的關(guān)鍵字。事實(shí)上,表單中查詢關(guān)鍵字和提交按鈕的出現(xiàn)在特征集中擁有最高的權(quán)值。上面提到的特征信息都是可以從Web表單中自動(dòng)提取的,不需要手工的預(yù)處理。在文獻(xiàn)[6]提出使用決策樹(shù)來(lái)對(duì)查詢表單進(jìn)行分類,此分類器使用的特征是其自動(dòng)從表單提取出來(lái)的。因?yàn)榇瞬呗酝瑫r(shí)也考慮到表單標(biāo)簽內(nèi)部的文本信息,使得策略最后要考慮的特征個(gè)數(shù)多于550個(gè)。而這里只用到了17個(gè)特征,這樣極大地壓縮了分類的特征空間。這里用機(jī)器學(xué)習(xí)中的C4.5決策樹(shù)算法進(jìn)行判定。因?yàn)樗斜容^小的錯(cuò)誤率,而且可以根據(jù)產(chǎn)生的特征類型對(duì)算法進(jìn)行修改,更重要的是此算法會(huì)生成一個(gè)規(guī)則樹(shù),可以描述成簡(jiǎn)單的分類規(guī)則:IF條件成立,THEN判斷是/否查詢接口。而規(guī)則樹(shù)的生成過(guò)程就是將分類能力最好的屬性作為樹(shù)的根節(jié)點(diǎn)進(jìn)行測(cè)試,然后為根節(jié)點(diǎn)屬性的每個(gè)可能值產(chǎn)生一個(gè)分支,并把訓(xùn)練樣例排列到適當(dāng)?shù)姆种е?。然后重?fù)整個(gè)過(guò)程,用各個(gè)分支節(jié)點(diǎn)關(guān)聯(lián)的訓(xùn)練樣例來(lái)選取在該點(diǎn)被測(cè)試的最佳屬性。一旦規(guī)則樹(shù)生成后,查詢接口的判定問(wèn)題就簡(jiǎn)化為規(guī)則樹(shù)的條件邏輯問(wèn)題。3策樹(shù)分類器或貝葉斯分類器比較為了驗(yàn)證使用多分類器進(jìn)行查詢接口分類和判定的有效性,實(shí)驗(yàn)中從對(duì)于表單的網(wǎng)絡(luò)爬蟲(chóng)隨機(jī)抓取的網(wǎng)頁(yè)中抽取大量的網(wǎng)頁(yè)表單,然后手工對(duì)其進(jìn)行分類,選取了65個(gè)DeepWeb查詢接口和130個(gè)非查詢接口組成的訓(xùn)練集,140個(gè)Deepweb查詢接口和160個(gè)非查詢接口組成的測(cè)試集,測(cè)試其與單一使用C4.5決策樹(shù)分類器或貝葉斯分類器比較結(jié)果如圖3所示。實(shí)驗(yàn)表明,和單一使用C4.5決策樹(shù)或貝葉斯分類器相比,此方法在精度和召回率方面都有所改善,特別是精度。召回率實(shí)驗(yàn)結(jié)果中,多分類器和C4.5決策樹(shù)和單一貝葉斯方法相比效果雖有改進(jìn)但不是很明顯,它是使用貝葉斯分類器對(duì)頁(yè)面進(jìn)行分類時(shí)產(chǎn)生的誤差引起,在圖書(shū)領(lǐng)域有顯著增強(qiáng)。分析原因,圖書(shū)頁(yè)面中含有豐富的文本信息,經(jīng)過(guò)分詞處理,與圖書(shū)相關(guān)的關(guān)鍵詞的出現(xiàn)以及詞頻,使得在使用樸素貝葉斯分類時(shí),能更準(zhǔn)確的將其進(jìn)行分類;精度實(shí)驗(yàn)結(jié)果與C4.5和貝葉斯方法相比有較大提高,工作、圖書(shū)、租賃領(lǐng)域,其精度都在90%以上,特別是工作領(lǐng)域其精度達(dá)94.4%。分析原因是,對(duì)于同一領(lǐng)域的頁(yè)面表單,HTML表單的結(jié)構(gòu)和特征有大的相似性,其中用到的CheckBox和SelectList比較多,TextBox比較少,而且對(duì)于特殊的領(lǐng)域,為了方便用戶進(jìn)行查詢,網(wǎng)絡(luò)查詢接口提供給用戶的選擇控件的功能是一致的,這樣多分類器中的決策樹(shù)分類器更能將查詢接口從中正確判別出來(lái)。4領(lǐng)域分類結(jié)果分析隨著DeepWeb數(shù)據(jù)庫(kù)數(shù)量和其蘊(yùn)含數(shù)據(jù)量的增長(zhǎng),對(duì)DeepWeb數(shù)據(jù)的集成越來(lái)越成為研究領(lǐng)域關(guān)注的問(wèn)題,而DeepWeb數(shù)據(jù)源的分類和判別是進(jìn)行DeepWeb數(shù)據(jù)集成的基礎(chǔ),其二者的結(jié)合不僅保證了更高的準(zhǔn)確性和效率,而且更有其實(shí)際應(yīng)用意義。本文在研究以往判別查詢接口方法的基礎(chǔ)上,針對(duì)其提取特征方式不同和精度低以及忽略領(lǐng)域相關(guān)性的問(wèn)題,提出了一種結(jié)合多分類器的方式來(lái)對(duì)DeepWeb數(shù)據(jù)源進(jìn)行分類和判別。實(shí)驗(yàn)結(jié)果比較于使用單一決策樹(shù)分類器,在召回率和精度方面都有提高。以后的工作是對(duì)此種方法中的領(lǐng)域分類結(jié)果進(jìn)行分析,分析出不同領(lǐng)域的查詢接口的特征,縮小貝葉斯分類器在進(jìn)行網(wǎng)頁(yè)分類的錯(cuò)誤率,根據(jù)提取不同領(lǐng)域的特征信息來(lái)提高查詢接口的召回率和精度??刹樵儽韱巫鳛榫W(wǎng)絡(luò)數(shù)據(jù)庫(kù)的查詢接口,通常是以HTML中的表單的形式表示,當(dāng)用戶提交要查詢的信息時(shí),網(wǎng)絡(luò)數(shù)據(jù)庫(kù)會(huì)返回其查詢結(jié)果的那些表單。非查詢表單主要包括兩部分的信息。其一,只是作為信息的提交功能,雖與網(wǎng)絡(luò)數(shù)據(jù)庫(kù)進(jìn)行交互,但是不會(huì)返回查詢結(jié)果的表單;其二,作為搜索引擎或者元搜索引擎的表單,雖然返回查詢結(jié)果,但結(jié)果一般是非結(jié)構(gòu)化或者半結(jié)構(gòu)化鏈接信息。首先給定一個(gè)主題相關(guān)頁(yè)面作為種子,然后寬度搜索其中靜態(tài)連接,將鏈接到的包含HTML表單的頁(yè)面抓取下來(lái)。在爬蟲(chóng)的抓取過(guò)程中,本文用到了一種有效的爬蟲(chóng)終止策略:1)當(dāng)爬蟲(chóng)檢索到一個(gè)給定的表單個(gè)數(shù)的時(shí)候,爬蟲(chóng)就離

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論