主題提取TFIDFWordNet語義相似度論文_第1頁
主題提取TFIDFWordNet語義相似度論文_第2頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于語義的 Web 主題提取的研究 【摘要】人們通過互聯(lián)網(wǎng)對(duì)同一主題進(jìn)行搜索時(shí),會(huì)通過鏈接展現(xiàn)出 許多包含主題的相關(guān)網(wǎng)頁,為了使用戶更加準(zhǔn)確地找尋到有用信息, 或更快更方便地轉(zhuǎn)移到相關(guān)感興趣的話題,很好的維護(hù)與正確的識(shí)別 這些有緊密聯(lián)系網(wǎng)頁是十分有意義的。目前眾多網(wǎng)頁集的維護(hù)還是通 過人工方法進(jìn)行,因此,更智能的識(shí)別技術(shù)被人們迫切需求。本文重點(diǎn) 研究的是引入本體庫,結(jié)合了語義信息的網(wǎng)頁主題提取算法。利用 WordNet 本體庫,進(jìn)行關(guān)鍵詞的語義相似度的計(jì)算,然后進(jìn)行關(guān)鍵詞語 義級(jí)別的合并,對(duì)整個(gè)文本信息進(jìn)行語義抽象歸納,從而達(dá)到更準(zhǔn)確 的主題抽取的效果。此方法改進(jìn)了現(xiàn)有的采用人工方法或者詞頻統(tǒng)

2、計(jì) 的方法進(jìn)行主題提取的不足,使搜索變得自能化,使搜索結(jié)果更加準(zhǔn) 確。此方法的實(shí)現(xiàn)分為以下幾個(gè)步驟。首先,將獲取的樣本網(wǎng)頁進(jìn)行 過濾處理,清除與主題不相關(guān)的信息,如網(wǎng)頁包含的圖片、廣告及導(dǎo)航 鏈接等信息,這些信息的去除使得在進(jìn)行主題抽取的過程不會(huì)受到這 些對(duì)主題提取貢獻(xiàn)不大的信息的干擾,從而使得最終主題的提取更加 準(zhǔn)確。然后將其轉(zhuǎn)化為文本信息,因?yàn)樵诤罄m(xù)的操作中,直接進(jìn)行頁面 的聚類計(jì)算量是很大的,并且效率也不高。然后,將初步處理后得到的 文本信息進(jìn)行共指消解和分詞處理。引 更多還原 E3【Abstract When people search on line, they always get

3、 several pages on the same object which related to each other through web links. 基于語義的 Web 主題提取的研究 It s significant for us to maintain and iden tify whose closely associated pages, as a result, people can find the useful information exactly and quickly moveto the other related topic which they are i

4、n terested in. Nowadays, pages are usually maintained through artificial means, so it becomes esse ntial to provide a in tellige nt recog niti on tech no logy to satisfy people s n eed. 更多還原 C3 【關(guān)鍵詞】 主題提取;TF*IDF; WordNet;語義相似度; 【Key words in formation extraction ; WordNet; TF*IDF; Sema ntic Similari

5、ty ; 【索購論文全文 138113721 139938848 即付即發(fā) 目錄 摘要 4-5 Abstract 5 第 1 章弓 I 言 8-11 1.1 研究背景及意義 8-9 1.2 研究內(nèi)容 9-11 第 2 章 相關(guān)技術(shù)介紹 11-18 2.1 WEB 挖掘 11-14 2.1.1 Web 內(nèi)容挖掘 12 2.1.2 Web 結(jié)構(gòu)挖掘 12-13 2.1.3 Web 訪問日志挖掘 13-14 2.2 基于網(wǎng)頁信息的發(fā)現(xiàn)技術(shù) 14-16 2.2.1 基于 HITS 技術(shù) 14-15 2.2.2 基于二分有向圖技術(shù) 15 2.2.3 基于流量技術(shù) 15-16 2.3 文本文檔主題提取技術(shù) 16-18 2.3.1 基于單文檔的提取技術(shù) 16 2.3.2 基于多文檔的提取技術(shù) 16-18 第 3 章 結(jié)合語義的主題提取算法 18-31 3.1 網(wǎng)頁預(yù)處理 18-21 3.1.1 廣告的移除 19 3.1.2 導(dǎo)航欄和分類的移除 19-20 3.1.3 空表的移除 20-21 3.2 共指消解 21-22 3.3 相似度計(jì)算 22-26 3.4 單個(gè)網(wǎng)頁文本信息抽取 26-27 3.5 網(wǎng)頁集的聚類 27-29 3.6 主題詞提取 29-31 第 4 章 實(shí)驗(yàn)及結(jié)果分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論