WEB數(shù)據(jù)挖掘資源綜述_第1頁
WEB數(shù)據(jù)挖掘資源綜述_第2頁
WEB數(shù)據(jù)挖掘資源綜述_第3頁
WEB數(shù)據(jù)挖掘資源綜述_第4頁
WEB數(shù)據(jù)挖掘資源綜述_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

WEB數(shù)據(jù)挖掘資源綜述摘要:Internet技術(shù)的發(fā)展和普及使得信息的發(fā)布和獲取的方式發(fā)生了根本性的變化,Web成為了當(dāng)前信息傳播的主要載體之一。如何在Web這個(gè)全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)數(shù)據(jù)已成為了數(shù)據(jù)挖掘研究的熱點(diǎn)。本文綜述了Web數(shù)據(jù)挖掘的基本概念、分類、應(yīng)用,介紹了相應(yīng)領(lǐng)域的可用資源,分析了Web挖掘的發(fā)展趨勢。關(guān)鍵字:數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;分類;資源SurveyofWebdataminingresourcesAbstract:ThedevelopmentandthepopularizationofInternettechnologymadethewayoftheinformationacquisitionandtheissuehavethehugeleapandtheessentialchange.WWWbecameoneofthemaincarriersoftheinformationdissemination.Howtominedataintheworld’slargestcollectionofdatahasbecomeahotresearch.Thissummarizedthebasicconcept,theclassificationandtheapplicationofWebdatamining,describedtheresourcesavailabletothecorrespondingfield,paperanalyzedthetrendofdevelopmentofWebdataminingKeywords:Datamining;Webdatamining;Classification;Resources1.引言近年來Internet正以令人難以置信的速度在飛速發(fā)展,越來越多的機(jī)構(gòu)、團(tuán)體和個(gè)人在Internet上發(fā)布信息、查找信息。雖然Internet上有海量的數(shù)據(jù),但由于Web是無結(jié)構(gòu)的、動(dòng)態(tài)的,并且Web頁面的復(fù)雜程度遠(yuǎn)遠(yuǎn)超過了文本文檔,人們要想找到自己想要的數(shù)據(jù)猶如大海撈針一般。信息檢索界開發(fā)了許多搜索引擎[1],但其覆蓋率有限,因此查全率低,一般的搜索引擎是基于關(guān)鍵字的查詢,命中率較低,另外不能針對特定的用戶給出特殊的服務(wù),因?yàn)槊總€(gè)人感興趣的東西是不一樣的,因此不具有個(gè)性化。解決這些問題的一個(gè)途徑,就是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和Web結(jié)合起來,進(jìn)行Web挖掘[2-6]0Web挖掘就是從Web文檔和Web活動(dòng)中抽取感興趣的潛在的有用模式和隱藏的信息。Web挖掘可以在很多方面發(fā)揮作用,如對搜索引擎的結(jié)構(gòu)進(jìn)行挖掘,確定權(quán)威頁面,Web文檔分類,WebLog挖掘、智能查詢,建立Meta-Web數(shù)據(jù)倉庫等。萬維網(wǎng)目前是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其它信息服務(wù)。Web還包含了豐富和動(dòng)態(tài)的超鏈接信息,以及Web頁面的訪問和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源。然而從以下的分析可以看出,對Web進(jìn)行有效的資源和知識(shí)發(fā)現(xiàn)具有極大的挑戰(zhàn)性。對有效的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘而言,數(shù)據(jù)量太大。Web頁面的復(fù)雜度超過任何傳統(tǒng)的文本文檔。Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源。Web面對的用戶群體是廣泛而多樣的。Web上的信息只有極少一部分是相關(guān)的或者是有用的。這些挑戰(zhàn)已經(jīng)推動(dòng)了如何高效且有效地發(fā)現(xiàn)和利用因特網(wǎng)上資源的研究工作。Web挖掘是一個(gè)更具挑戰(zhàn)性的課題,它實(shí)現(xiàn)對Web存取模式、Web結(jié)構(gòu)、規(guī)則和動(dòng)態(tài)的Web內(nèi)容的查找。2.Web挖掘的分類根據(jù)對Web數(shù)據(jù)的感興趣程度不同,Web挖掘一般可以分為三類:Web內(nèi)容挖掘(WebContentMining)Web結(jié)構(gòu)挖掘(WebStructureMining)Web使用挖掘(WebUsageMining)圖1給出了Web挖掘的分類圖:圖1Web挖掘的分類隨著Web2.0的發(fā)展,又出現(xiàn)了一種新的Web用戶性質(zhì)挖掘。Web內(nèi)容挖掘web內(nèi)容挖掘主要包括文本挖掘和多媒體挖掘兩類,其對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。這些數(shù)據(jù)由非結(jié)構(gòu)化的數(shù)據(jù)(如文本)、半結(jié)構(gòu)化的數(shù)據(jù)(如HTML文檔)和結(jié)構(gòu)化的數(shù)據(jù)(如表格)構(gòu)成。對非結(jié)構(gòu)化文本進(jìn)行Web挖掘,稱為文本數(shù)據(jù)挖掘或文本挖掘,是web挖掘中比較重要的領(lǐng)域。web文本挖掘的一般處理過程如圖2所示。目前,關(guān)于Web內(nèi)容挖掘的研究大體以web文本內(nèi)容挖掘?yàn)橹鳌eb內(nèi)容挖掘一般從資源查找和數(shù)據(jù)庫兩個(gè)不同的方面進(jìn)行研究。從資源查找的方面來看,Web內(nèi)容挖掘的任務(wù)是從用戶的角度出發(fā),著重提高信息質(zhì)量和幫用戶過濾信息。主要是對結(jié)構(gòu)化文檔和半結(jié)構(gòu)化文檔進(jìn)行挖掘。從數(shù)據(jù)庫的觀點(diǎn)進(jìn)行Web內(nèi)容挖掘主要是試圖建立web站點(diǎn)的數(shù)據(jù)模型并加以集成,以支持復(fù)雜查詢,兩不只是簡單的基于關(guān)鍵詞的搜索。這要通過找到Web文檔的模式、建立Web知識(shí)庫來實(shí)現(xiàn)。對文本數(shù)據(jù)進(jìn)行挖掘的文檔分類和模型質(zhì)量評價(jià)方法與傳統(tǒng)的數(shù)據(jù)挖掘方法相類似,分類方法主要應(yīng)用樸素貝葉斯(NaiveBayesClassifier)0對模型的質(zhì)量評價(jià)主要有分類的正確率(ClassificationAccuracy)、準(zhǔn)確率(Precision)和信息估值(InformationScore)oWeb結(jié)構(gòu)挖掘Web結(jié)構(gòu)挖掘是指挖掘Web潛在鏈接結(jié)構(gòu)模式,即通過分析頁面鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式。Web數(shù)據(jù)不同于文本或者數(shù)據(jù)庫,有用的知識(shí)不僅在Web頁面的內(nèi)容中存在,而且也在Web頁面間的鏈按結(jié)構(gòu)和Web頁面內(nèi)部結(jié)構(gòu)中包含。所以,Web結(jié)構(gòu)挖掘可以分為外部結(jié)構(gòu)挖掘、內(nèi)部結(jié)構(gòu)挖掘以及URL挖掘。Web結(jié)構(gòu)挖掘的基本思想是將Web看作一個(gè)有向圖或者無向圖的形式,把Web頁面抽象作為圖的頂點(diǎn),而頁面間的超鏈接就是圖的邊。然后利用圖論對Web的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析研究。常見的算法有PageRank、HITS,(HypertextInducedTopicsearch),二次方程推斷法(QuadraticExtrapolation)、分塊矩陣排序算法(B10ckRankA190rithm)、發(fā)現(xiàn)虛擬社區(qū)(Cyber—community)的算法,發(fā)現(xiàn)相似頁面的算法等。Web結(jié)構(gòu)挖掘的算法一般可分為查詢相關(guān)算法和查詢無關(guān)算法兩類:(1) 查詢相關(guān)算法需要為每一個(gè)查詢進(jìn)行一次超鏈分析從而進(jìn)行一次值的指派。(2) 查詢獨(dú)立算法則為每個(gè)文檔僅進(jìn)行一次值的指派,對所有的查詢都使用此值。Web使用挖掘Web使用挖掘是從用戶存取模式中獲取有價(jià)值的信息,即通過分析Web日志數(shù)據(jù)及相關(guān)數(shù)據(jù),來發(fā)現(xiàn)訪問者訪問Web頁面的模式,分析日志記錄中的規(guī)律,從而識(shí)別訪問者的興趣、頻率、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競爭力。Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘的對象是Web上的原始數(shù)據(jù),而Web使用記錄挖掘則面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器端日志記錄、用戶簡介、注冊信息,用戶對話或交易信息,cookie中的信息、用戶查詢、等一切用戶與站點(diǎn)之間可能的交互記錄。一般可分為一般訪問模式分析以及分析特制Web站點(diǎn)。Web使用挖掘的基本流程包括數(shù)據(jù)預(yù)處理、模式識(shí)別和模式分析。Web用戶性質(zhì)挖掘Web2.0是從2005年直到現(xiàn)在一直都很流行的名詞。web2.0是以Flickr、Craigslist、Linkedin、Tribes、Ryze、Friendster、Del.icio.us、43T等網(wǎng)站為代表,以Blog(博客/網(wǎng)志)、TAG(網(wǎng)頁書簽)、SNS(社會(huì)網(wǎng)絡(luò))、RSS(站點(diǎn)摘要)、wiki(百科全書)等應(yīng)用為核心,依據(jù)六度分隔、xml、Ajax等新理論和技術(shù)實(shí)現(xiàn)的互聯(lián)網(wǎng)新一代模式。Web2.0時(shí)代的顯著特征是個(gè)性化、互動(dòng)性、大眾化和去中心,旨在給用戶提供更人性化的服務(wù),同時(shí)不再像Web1.0時(shí)代用戶只能被動(dòng)的接受各網(wǎng)站“填鴨”式的信息轟炸。在Web2.0時(shí)代,每個(gè)普通用戶既是信息的獲取者,也是信息的提供者。面對Web2.0的誕生,Web數(shù)據(jù)挖掘技術(shù)又面臨著新的挑戰(zhàn)[7]。如果說Web使用挖掘是通過挖掘網(wǎng)站訪問者在網(wǎng)站上留下的痕跡來獲取有用的信息,那么Web用戶性質(zhì)挖掘則是要去Web用戶的老巢去探尋究竟。在web2.0時(shí)代,網(wǎng)絡(luò)徹底個(gè)人化了,Web用戶可以用自己的方式、喜好來個(gè)性化定制自己的互聯(lián)網(wǎng)。Web2.0賦予Web用戶最大的自由度,同時(shí)給予有心商家有待發(fā)掘的高含金量信息數(shù)據(jù)。通過對Web用戶自建的Blog、RSS等Web2.0功能模塊下客戶信息的統(tǒng)計(jì)分析,能夠幫助運(yùn)營商以較低成本獲得準(zhǔn)確度較高的客戶興趣傾向、個(gè)性化需求以及新業(yè)務(wù)發(fā)展趨勢等信息。有關(guān)Web2.0下的數(shù)據(jù)挖掘正在進(jìn)一步研究中。3常見Web與可視化數(shù)據(jù)挖掘工具通常情況下,數(shù)據(jù)挖掘工具一次一般只能解決一個(gè)問題或者任務(wù),例如分類、估計(jì)、預(yù)測、關(guān)聯(lián)分析、聚類和細(xì)分。通過解決不同類型的任務(wù),可以將數(shù)據(jù)挖掘工具分成兩大類:有監(jiān)督和無監(jiān)督的學(xué)習(xí)。3.1有監(jiān)督的學(xué)習(xí)工具有監(jiān)督的學(xué)習(xí)工具包括:(1)決策樹和規(guī)則集模型(2)用于分類的神經(jīng)網(wǎng)絡(luò)模型(3)線性回歸模型(4)Logistic回歸3.2無監(jiān)督的學(xué)習(xí)工具無監(jiān)督學(xué)習(xí)把一組記錄的集合作為輸入,然后試圖從中發(fā)現(xiàn)一些模式。各個(gè)工具之間的差別在于發(fā)現(xiàn)的模式和搜索的過程,主要包括以下三種:(1)關(guān)聯(lián)規(guī)則(2)聚類(3)SOM

(Kohonen自組織映射)4常見數(shù)據(jù)挖掘工具對比不同的數(shù)據(jù)挖掘工具能夠解決不同的數(shù)據(jù)挖掘任務(wù),如表1所示。同樣,不同的數(shù)據(jù)挖掘工具具有不同的優(yōu)點(diǎn)和缺點(diǎn),如表2所示。表1數(shù)據(jù)挖掘工具功能對比數(shù)據(jù)挖掘工具分類估值預(yù)測相關(guān)分組聚類和細(xì)分解釋決策樹VVV神經(jīng)網(wǎng)絡(luò)VV線性回歸VVVIjOgistie回歸VVV關(guān)聯(lián)規(guī)則VV聚類VVVSOMVV'表2中效力:對于有監(jiān)督學(xué)習(xí)來說,判斷效力的標(biāo)準(zhǔn)就是工具的準(zhǔn)確率;對于無監(jiān)督學(xué)習(xí)來說,判斷有效性的標(biāo)準(zhǔn)就是數(shù)據(jù)挖掘工具發(fā)現(xiàn)的模型的有用程度。表2數(shù)據(jù)挖掘工具優(yōu)缺點(diǎn)對比數(shù)據(jù)挖掘工}1效力可解釋性易于實(shí)施產(chǎn)生模是否能否適合概型時(shí)間可信任可視化念證明決策樹(湖ExcellentFastY郴YesYes全體決策樹ExcellentNot(ktorJNot(krtdSlowY餡NoNo神經(jīng)網(wǎng)絡(luò)ExcellentNot(Mkk]Not(khO<JSlowY郴NoNo線性回歸ExcelleniEKcellftniFastNoNoYesLogistic回歸(5EbccellentEKcellftniFgY郴NoYes美聯(lián)規(guī)則ExcellentSlowY珞YesYes聚類ExcellentFastY郴YesYesSOMNot(^oodSlowNoNoNo可解釋性:指的是一個(gè)領(lǐng)域?qū)<一蛘咭粋€(gè)不具有數(shù)據(jù)挖掘相關(guān)知識(shí)的人員理解數(shù)據(jù)挖掘模型的難易程度。易于實(shí)施:指的是在生產(chǎn)和測試環(huán)境中部署模型的難易程度,直接和模型的復(fù)雜程度相關(guān)。產(chǎn)生模型時(shí)間:數(shù)據(jù)挖掘工具通過搜索模式來形成最后的模型,不同工具的搜索速度不同。是否可信任(可信程度):對于有監(jiān)督學(xué)習(xí)任務(wù)來說通過利用可信程度,可以對預(yù)測結(jié)果進(jìn)行排序,從而可以使用其中最準(zhǔn)確的一部分結(jié)果;對于無監(jiān)督學(xué)習(xí)任務(wù)來說,比如聚類,相關(guān)的可信程度表示是否能夠計(jì)算出記錄隸屬于一個(gè)聚類的程度或者到某聚類的距離。能否可視化:可以了解模型對未知例子打分的過程,對于模型部署之后的監(jiān)督尤為重要。適合概念證明:用于證明數(shù)據(jù)挖掘是否能帶來利潤,從而展示在特定問題上數(shù)據(jù)挖掘的價(jià)值。常用Web數(shù)據(jù)挖掘軟件資源對應(yīng)于每一個(gè)Web挖掘分類都有其相應(yīng)的資源。5.1文本信息挖掘工具通常文本挖掘工具主要完成兩方面的工作:信息檢索和對文本的分析。文本挖掘工具的主要設(shè)計(jì)目標(biāo)是使用戶用于理解文檔內(nèi)容或用于收集相關(guān)文檔所花費(fèi)的時(shí)間最少。IBM公司推出的Web文本挖掘工具IntelligentMinerforText,它是IBM開發(fā)的IntelligentMiner家族的一成員,它主要包括三部分:高級(jí)搜索引擎TextMiner,其最大特點(diǎn)是具有在線更新的能力,即它在執(zhí)行索引任務(wù)的同時(shí)無須將搜索進(jìn)程掛起,可獲得較高的效率;Web訪問工具包括一個(gè)優(yōu)化的搜索引擎NetQuestion和WebCrawler,WebCrawler是一個(gè)可以在一個(gè)或多個(gè)Web站點(diǎn)啟動(dòng)的自動(dòng)機(jī),它可以監(jiān)視Web頁的活動(dòng)并可以變更檢索使之更優(yōu)化;文本分析工具,這部分完成的才是對文本信息的挖掘,這部分工具可以獨(dú)立使用,但將它與文本搜索工具結(jié)合使用將能發(fā)揮更強(qiáng)大的作用。該軟件主要是由信息提取器工具組成,該工具提供了高效的文本信息挖掘,可以實(shí)現(xiàn)全文搜索、文本分析Web文檔查詢和檢索。5.2用戶訪問模式挖掘工具用戶模式挖掘工具通常實(shí)現(xiàn)的方法是對ServerLogs、ErrorLogs和CookieLogs等日志文件分析挖掘出用戶訪問行為、頻度和內(nèi)容等信息,從而找出一定的模式和規(guī)則。由StephenTurner博士編制的免費(fèi)個(gè)人軟件Analog,是一個(gè)用來分析服務(wù)器日志文件的工具,它適用于Windows及Unix等操作系統(tǒng)中,由于它的使用較簡單,可以直接在服務(wù)器上運(yùn)行,也可以將日志文件下載到客戶端,在客戶端運(yùn)行。比較適用于個(gè)人和小規(guī)模分析應(yīng)用,是一個(gè)實(shí)用性很強(qiáng)的日志文件分析工具。從/上可免費(fèi)獲得該軟件。5.3用戶導(dǎo)航行為挖掘工具主要是對用戶訪問時(shí)留下的IP地址、訪問日期和時(shí)間等信息進(jìn)行挖掘,以找出對公司企業(yè)有用的信息。用戶導(dǎo)航行為挖掘工具WUM(WebUtilizationMiner)是一種序列挖掘器。它主要用來分析用戶導(dǎo)航行為的發(fā)現(xiàn),它適用于從任何類型的日志文件中發(fā)現(xiàn)用戶導(dǎo)航信息°WUM是一個(gè)對日志文件進(jìn)行集成處理、查詢及分析的工具,它的核心是MINT處理器,主要是對從web日志文件中提取的集成信息進(jìn)行分析,從而發(fā)現(xiàn)導(dǎo)航模式。MINT是用于用戶和挖掘器接口的語言,這種語言為用戶提供了更為強(qiáng)大、靈活和全面的功能,它可以根據(jù)用戶輸入的語法標(biāo)準(zhǔn)進(jìn)行以用戶為前提的分析工具。正是因?yàn)閃UM能提供較強(qiáng)大和靈活的功能,所以對用戶也提出了較高的要求。要求用戶掌握MINT語言,并具有能對挖掘結(jié)果進(jìn)行分析處理所具備的知識(shí)°MINT語言語法是一個(gè)包含了SQL查詢語句中變量和通配符的模板,它與SQL查詢語言有類似的語法結(jié)構(gòu),對用戶而言比較容易掌握和使用??蓮木W(wǎng)上免費(fèi)獲得軟件MINT5.0的演示版本,其網(wǎng)址為:http://wum.wiwi.hu-berlin.de/。5.4綜合性的Web數(shù)據(jù)挖掘工具綜合性的Web數(shù)據(jù)挖掘工具主要是綜合前面的挖掘工具功能,利用多種Web數(shù)據(jù)收集方法,包括高級(jí)網(wǎng)絡(luò)收集、服務(wù)器收集器和服務(wù)器日志。AccrueInsight5是Accrue公司的主打產(chǎn)品。它是一個(gè)綜合性的Web分析工具。常用Web數(shù)據(jù)挖掘平臺(tái)資源MALLET[8]MALLET是一個(gè)機(jī)器學(xué)習(xí)的語言工具包,來自UMASS的AndrewMcCallum。用JAVA寫成,除了支持CRF外,還支持topicmodel(可以用于LDA模型)和graphicalmodel。MinorThird[9]“一個(gè)用于存儲(chǔ)文本收集的Java類,注釋文字,學(xué)習(xí)以提取實(shí)體和分類文本”文檔似乎是不錯(cuò)的:全面的Javadoc文檔,教程,常見問題…有“頻率頻距”的概念(詞頻),可以用于基于內(nèi)容的提取和分類存儲(chǔ)的文件可以通過使用TextLabels進(jìn)行獨(dú)立的注釋(標(biāo)記,說,部分的語音和語義信息)Weka[10]Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化(與之對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine)的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machinelearning)以及數(shù)據(jù)挖掘(datamining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。有趣的是,該軟件的縮寫WEKA也是NewZealand獨(dú)有的一種鳥名,而Weka的主要開發(fā)者同時(shí)恰好來自NewZealand的theUniversityofWaikatc。WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開發(fā)者則可使用Java語言,利用Weka的架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。讀者如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看weka的接口文檔。在weka中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。CLUTO[11]“一個(gè)用于聚類低維和高維數(shù)據(jù)集和分析各種群組特點(diǎn)的軟件包’分割式的,凝聚的和圖形分區(qū)算法各種相似性/距離度量許多選項(xiàng)/工具用于可視化和概括聚類結(jié)果wCluto:基于Web的應(yīng)用程序CLUTOgCluto:跨平臺(tái)圖形化應(yīng)用MG4J[12]MG4J是另一個(gè)搜索engine。與Lucene主要區(qū)別是,它提供了cluster功能,具有更OO的設(shè)計(jì)方式。MG4J可以讓你為大量的文檔集合構(gòu)建一個(gè)被壓縮的全文本索引,通過使內(nèi)插編碼(interpolativecoding)技術(shù)。雖然MG4J(ManagingGigabytesforJava)不是一個(gè)像Lucene、Egothor和Xapian那樣的信息檢索庫,但是我們相信正在讀這本書的每一位軟件工程師都應(yīng)該知道它,因?yàn)樗鼘?gòu)建Java信息檢索庫提供了低水平的支持。MG4J是在一本很流行的書問世之后被命名的,這本書是由H.Witten,AlistairMoffat和Timothy所寫,名字是《管理十億字節(jié):壓縮并且索引文檔和圖片》。在使用他們的分布式、可容錯(cuò)的網(wǎng)頁爬蟲UbiCrawler收集到大量的網(wǎng)頁數(shù)據(jù)后,它的作者需要一個(gè)軟件來解析那些收集來的數(shù)據(jù),由于這個(gè)需求,MG4J誕生了。MG4J的庫提供了優(yōu)化的類來處理I/O,轉(zhuǎn)化索引文件的壓縮等等。Web數(shù)據(jù)挖掘相關(guān)應(yīng)用及技術(shù)前瞻7.1Web挖掘在搜索引擎方面的應(yīng)用通過對網(wǎng)頁內(nèi)容的挖掘,可以實(shí)現(xiàn)對網(wǎng)頁的聚類和分類。實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索。運(yùn)用Web挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法。提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,改善檢索效果。參與搜索服務(wù)市場的有多家實(shí)力企業(yè),如Google、雅虎(Yahoo!以微軟(Microsoft)等巨頭企業(yè),以及若干規(guī)模較小但有特定市場區(qū)隔或技術(shù)者如dTSearch、Copemic等。近期全力開發(fā)搜索技術(shù)的還包括IBM。7.2Web挖掘在電子商務(wù)方面的應(yīng)用電子商務(wù)方面的Web挖掘功能主要是如下幾個(gè)方面:首先,客戶分類和客戶聚類。?其次是找到潛在的客戶。?最后保留客戶的駐留時(shí)間7.3技術(shù)前瞻在未來一段時(shí)間內(nèi),Web挖掘研究的焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:?高性能Web搜索引擎。Web數(shù)據(jù)的特征描述與監(jiān)控。Web數(shù)據(jù)的獲取與集成。Web數(shù)據(jù)流挖掘。安全與非法訪問檢測。?個(gè)性化與安全隱患。?基于Web的模式分析技術(shù)和工具。Web挖掘的算法改進(jìn)與質(zhì)量評估。Web挖掘在社會(huì)領(lǐng)域的應(yīng)用。此外,分布式Web挖掘、語義Web挖掘、無線網(wǎng)絡(luò)下的Web挖掘、Web2.0時(shí)代的Web挖掘、多語言環(huán)境下的Web挖掘等是值得研究的方向。同時(shí),Web挖掘技術(shù)應(yīng)用于具體領(lǐng)域的研究將持續(xù)受到關(guān)注,例如,銀行證券、企業(yè)ERP、醫(yī)療衛(wèi)生、農(nóng)業(yè)、電子商務(wù)、網(wǎng)絡(luò)教學(xué)、BLOG等。結(jié)語Web挖掘技術(shù)是一個(gè)新興的研究領(lǐng)域,對它的研究和應(yīng)用正在成為一個(gè)熱點(diǎn)。伴隨著Internet的快速發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論