基于機(jī)器學(xué)習(xí)的主題Web挖掘技術(shù)_第1頁(yè)
基于機(jī)器學(xué)習(xí)的主題Web挖掘技術(shù)_第2頁(yè)
基于機(jī)器學(xué)習(xí)的主題Web挖掘技術(shù)_第3頁(yè)
基于機(jī)器學(xué)習(xí)的主題Web挖掘技術(shù)_第4頁(yè)
基于機(jī)器學(xué)習(xí)的主題Web挖掘技術(shù)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于機(jī)器學(xué)習(xí)的主題Web挖掘技術(shù)摘要:本文研究和分析了Web挖掘技術(shù)和機(jī)器學(xué)習(xí)理論。機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要分支,它主要研究電腦怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,有目的地自動(dòng)增進(jìn)其性能,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能本中主要研究了機(jī)器學(xué)習(xí)理論,對(duì)機(jī)器學(xué)習(xí)的模型、分類、及發(fā)展歷程作了介紹同時(shí),對(duì)機(jī)器學(xué)習(xí)在Web挖掘領(lǐng)域的應(yīng)用前景作了描述。Web頁(yè)面重要性的計(jì)算是進(jìn)行Web挖掘的一個(gè)重要問(wèn)題本文在原有HITS算法的基礎(chǔ)上,加入了內(nèi)容相關(guān)度的計(jì)算,提出了一種新的計(jì)算頁(yè)面重要性的算法一HITS算法。關(guān)鍵字:A: Web挖掘;B:機(jī)器學(xué)習(xí);C :HITSThe T

2、echnology of Topical Web Mining Based on Machine LearningThis article studies and analyses Web Mining and Machine Learning.Machine Learning is an important branch of the field of artificial intelligenceThis paper presents the model of Machine Learning,classification,and the development process。Meanw

3、hile,chine Learning in the field of Web Mining application is described The calculation of Web pages authority radio is an important issue for Web MiningBased on the HITS algorithm,we advance a new algorithmfor calculating the importancethe WHITS algorithm Keylrords:A: Web Mining; B:Machine Learning

4、; A: HITS引言: 隨著網(wǎng)絡(luò)信息資源的急劇增長(zhǎng),人們?cè)絹?lái)越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中,獲取潛在的、有價(jià)值的信息,使之有效地在管理和決策中發(fā)揮作用。但當(dāng)用戶面對(duì)這個(gè)海量、異構(gòu)、半結(jié)構(gòu)化的信息庫(kù)時(shí),常常發(fā)現(xiàn)要查找到所需的信息要消耗大量的時(shí)間和精力,甚至難以找到,造成了“信息過(guò)載、知識(shí)匱乏”的現(xiàn)象。主題Web挖掘是近幾年內(nèi)興起的一個(gè)被廣泛關(guān)注的研究課題。它利用主題頁(yè)面在Web上的分布特點(diǎn),根據(jù)用戶或系統(tǒng)定義的目標(biāo)主題,以智能的方法在線爬行Web頁(yè)面,收集與目標(biāo)主題相關(guān)的頁(yè)面,并對(duì)收集到的頁(yè)面進(jìn)行智能分析和處理,最后將處理的頁(yè)面集合以靈活方便的檢索方式提供應(yīng)用戶使用。許多項(xiàng)目的研究

5、結(jié)果說(shuō)明,主題Web挖掘方法能夠保持較高的主題相關(guān)度,提高查詢的精度這為提高用戶查詢效率,提供了一個(gè)新的研究方向1.緒論11研究背景隨著因特網(wǎng)(Internet)的迅速發(fā)展,網(wǎng)絡(luò)對(duì)我們的影響已經(jīng)越來(lái)越大,日漸成為人們獲得信息的必要途徑和重要手段而在網(wǎng)上發(fā)展最為迅猛的WWW(World Wide Web)技術(shù),以其直觀、方便的使用方式和豐富的表達(dá)能力,己經(jīng)發(fā)展成為一個(gè)全球化信息發(fā)展空間。隨著信息時(shí)代的到來(lái)和發(fā)展,Web上的信息如雨后春筍般迅速增長(zhǎng)起來(lái)。2007年23日, 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在北京發(fā)布第十九次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告。報(bào)告顯示,截止到2006年12月31日,我國(guó)

6、網(wǎng)民人數(shù)到達(dá)了13700萬(wàn)人,與去年同期相比增長(zhǎng)了234,其中寬帶上網(wǎng)網(wǎng)民人數(shù)己突破一億目前,我國(guó)網(wǎng)民數(shù)和寬居世界第二”然而面對(duì)這個(gè)分散無(wú)序的海量信息庫(kù),Web用戶經(jīng)常發(fā)現(xiàn)難以找到能滿足他們需要的息,造成“信息過(guò)載,知識(shí)匱乏”的現(xiàn)狀一方面網(wǎng)上的信息多種多樣、豐富多彩,一方面用戶卻找不到他們所需要信息這一矛盾的主要原因是人們?cè)谌绱舜蟮男畔?kù)里, 很難用瀏覽的方式找到自己所需的信息。這一現(xiàn)象促使一種以Web搜索引擎為主的,用于提取網(wǎng)絡(luò)有效資源的信息檢索技術(shù)應(yīng)運(yùn)而生了。Google,Infoseek,Baidu,AltaVista、天網(wǎng)等國(guó)內(nèi)外知名的搜索引擎正是人們?yōu)榱私鉀Q網(wǎng)上信息檢索的難題,而在信

7、息檢索領(lǐng)域進(jìn)行大量研究后的成果。12 Web挖掘與相關(guān)研究?jī)?nèi)容Web挖掘1就是從Web頁(yè)面和Web用戶訪問(wèn)活動(dòng)中發(fā)現(xiàn)、抽取感興趣的潛在的模式和隱藏的信息。它是以從Web上挖掘有用知識(shí)為目標(biāo),以數(shù)據(jù)挖掘、文本挖掘、體挖掘?yàn)榛A(chǔ),并綜合運(yùn)用電腦網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)儲(chǔ)、人工智能、信息檢索、可視化、自然語(yǔ)言理解等技術(shù),將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來(lái)的一門新興學(xué)科。介紹一下Web挖掘相關(guān)領(lǐng)域的研究,以及它們與Web挖掘的聯(lián)系。2.Web挖掘理論簡(jiǎn)介萬(wàn)維網(wǎng)作為一個(gè)巨大的、分布廣泛的全球性信息服務(wù)中心,服務(wù)內(nèi)容不僅涉及新聞、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)等許多其它服務(wù)信息,而且還包括豐富的超

8、鏈接信息,和訪問(wèn)信息。一人們將數(shù)據(jù)挖掘技術(shù)應(yīng)用到半結(jié)構(gòu)化的Web數(shù)據(jù)上,使其能夠針對(duì)Web數(shù)據(jù)的特點(diǎn)進(jìn)行知識(shí)發(fā)現(xiàn),這為數(shù)據(jù)挖掘開辟一個(gè)新的研究領(lǐng)域,即Web挖掘。21 Web挖掘的定義Web挖掘睜”1是一項(xiàng)綜合技術(shù),涉及Web、數(shù)據(jù)挖掘、電腦語(yǔ)言學(xué)、信息學(xué)等多個(gè)領(lǐng)域。不同研究者從自身的研究領(lǐng)域出發(fā),對(duì)Web挖掘的含義有著不同的理解。例如,有些專家認(rèn)為:Web挖掘就是利用數(shù)據(jù)挖掘技術(shù),自動(dòng)地從網(wǎng)絡(luò)文檔以及服務(wù)中發(fā)現(xiàn)和抽取信息的過(guò)程。有些學(xué)者將網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘歸入網(wǎng)絡(luò)信息檢索和網(wǎng)絡(luò)信息內(nèi)容的開發(fā)。而有些專家從電腦語(yǔ)言學(xué)角度考慮,認(rèn)為Web文檔為自然語(yǔ)言理解提供了豐富的語(yǔ)料,可以從中自動(dòng)地學(xué)習(xí)詞

9、語(yǔ)的意義,以進(jìn)行詞義辨析或確定詞語(yǔ)所屬的概念Web挖掘以萬(wàn)維網(wǎng)上的資源(如網(wǎng)頁(yè)內(nèi)容、Web網(wǎng)站結(jié)構(gòu)、用戶訪問(wèn)數(shù)據(jù)等)作為數(shù)據(jù)源,是數(shù)據(jù)挖掘在Web上的應(yīng)用所以,Web挖掘的定義為從與w孵相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息。典型Web挖掘隅“1的處理流程包括如下四個(gè)步驟:資源發(fā)現(xiàn)、信息選擇和預(yù)處理、模式發(fā)現(xiàn)、模式分析。(1)資源發(fā)現(xiàn)系統(tǒng)使用網(wǎng)絡(luò)爬蟲在線收集Web文檔,并從中得到相應(yīng)數(shù)據(jù)。值得注意的是信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組、網(wǎng)站的日志數(shù)據(jù),甚至是通過(guò)Web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)。(2)信息選擇和預(yù)處理系統(tǒng)從取得的Web資源中剔除無(wú)用信息

10、,并將信息進(jìn)行必要的整理例如Web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、自動(dòng)識(shí)別段落或者字段、將數(shù)據(jù)組織成規(guī)整的邏輯形式、英文單詞的詞干提取、高額低頻詞的過(guò)濾等。(3)模式發(fā)現(xiàn)系統(tǒng)自動(dòng)地進(jìn)行模式發(fā)現(xiàn),可以在同一個(gè)站點(diǎn)內(nèi)部或多個(gè)站點(diǎn)之間進(jìn)行,以自動(dòng)發(fā)現(xiàn)Web站點(diǎn)的共有模式。(4)模式分析系統(tǒng)驗(yàn)證并解釋上一步驟產(chǎn)生的模式,對(duì)其進(jìn)行可視化表示??梢允菣C(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互完成。3.機(jī)器學(xué)習(xí)理論簡(jiǎn)介機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要分支,它主要研究電腦怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,有目的地自動(dòng)增進(jìn)其性能,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。學(xué)習(xí)是人類

11、具有的一種重要智能行為,機(jī)器學(xué)習(xí)的核心內(nèi)容就是學(xué)習(xí)。學(xué)習(xí)是一種多側(cè)面、綜合性的心理活動(dòng),它與記憶、思維、知覺(jué)、感覺(jué)等多種心理行為都有著密切的聯(lián)系,使得人們難以把握學(xué)習(xí)的機(jī)理與實(shí)現(xiàn)。目前,國(guó)內(nèi)外關(guān)于學(xué)習(xí)還沒(méi)有一個(gè)精確、公認(rèn)的定義。其中,影響較大的是H Simor的觀點(diǎn):學(xué)習(xí)是系統(tǒng)中的任何改良行為,這種改良使得系統(tǒng)在重復(fù)同樣的工作或進(jìn)行類似的工作時(shí),能完成得更好。學(xué)習(xí)的基本模型就是基于這一觀點(diǎn)建立起來(lái)的當(dāng)一個(gè)電腦系統(tǒng)在一段時(shí)間內(nèi),能自行改良而提高問(wèn)題求解的能力,我們則稱該系統(tǒng)具備學(xué)習(xí)能力。這種性能的提高可表現(xiàn)在多個(gè)方面,如加快解決問(wèn)題的速度、處理范圍的擴(kuò)張、運(yùn)算精度的提高等4.總結(jié)與展望隨著網(wǎng)絡(luò)信

12、息資源的急劇增長(zhǎng),人們?cè)絹?lái)越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中,獲取潛在的、有價(jià)值的信息,使之有效地在管理和決策中發(fā)揮作用。Web挖掘技術(shù)以Web資源為研究對(duì)象,挖掘Web中有趣的,潛在的、有用的模式及隱藏的信息。這為提高用戶的查詢效率,提供了一個(gè)新的研究方向 本文研究和分析了Web挖掘技術(shù)和機(jī)器學(xué)習(xí)理論。Web挖掘根據(jù)挖掘?qū)ο蟮牟煌环譃槿箢?,Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用記錄挖掘主題Web挖掘則是利用主題頁(yè)面在Web上的分布特點(diǎn),以智能的方法收集與目標(biāo)主題相關(guān)的頁(yè)面,并對(duì)收集到的頁(yè)面進(jìn)行智能分析和處理。Web爬蟲是一類可以通過(guò)下載Web頁(yè)面、分析頁(yè)面內(nèi)容、并跟隨其中的鏈

13、接來(lái)遞歸的遍歷Web的電腦程序。如何有效地控制爬蟲爬行策略是影響Web挖掘是否成功的最重要因素之一本文結(jié)合強(qiáng)化學(xué)習(xí)和貝葉斯學(xué)習(xí)技術(shù),引入反例樣本學(xué)習(xí)理念。提出一種新的主題爬蟲爬行策略。實(shí)驗(yàn)證明該策略能有效的提高查詢的查準(zhǔn)率同時(shí)對(duì)于系統(tǒng)收集起來(lái)的主題頁(yè)面進(jìn)行進(jìn)一步的篩選,利用Web頁(yè)面問(wèn)的結(jié)構(gòu)特征,計(jì)算主題頁(yè)面的重要性和Hub性,從而使那些與主題相關(guān)且重要的頁(yè)面被反應(yīng)給用戶在此基礎(chǔ)上,本文提出了基于機(jī)器學(xué)習(xí)的主題Web資源挖掘系統(tǒng)的概念設(shè)計(jì),并對(duì)各個(gè)模塊的作用進(jìn)行了介紹。該系統(tǒng)能夠根據(jù)用戶的查詢請(qǐng)求進(jìn)行頁(yè)面收集,對(duì)收集到的頁(yè)面計(jì)算其重要性,最后把主題相關(guān)且重要的頁(yè)面反應(yīng)給用戶同時(shí),可根據(jù)用戶的反應(yīng)信息,進(jìn)行進(jìn)一步的系統(tǒng)調(diào)整參考文獻(xiàn)1中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心:中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2007年1月2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論