《數(shù)據(jù)挖掘原理、算法及應(yīng)用》課件第7章_第1頁(yè)
《數(shù)據(jù)挖掘原理、算法及應(yīng)用》課件第7章_第2頁(yè)
《數(shù)據(jù)挖掘原理、算法及應(yīng)用》課件第7章_第3頁(yè)
《數(shù)據(jù)挖掘原理、算法及應(yīng)用》課件第7章_第4頁(yè)
《數(shù)據(jù)挖掘原理、算法及應(yīng)用》課件第7章_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章Web挖掘

7.1

Web挖掘的分類及其數(shù)據(jù)來(lái)源7.2

Web日志挖掘7.3

Web內(nèi)容挖掘7.1

Web挖掘的分類及其數(shù)據(jù)來(lái)源

7.1.1

Web挖掘的分類根據(jù)對(duì)Web數(shù)據(jù)的感興趣程度的不同,Web挖掘一般可以分為三類:Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘(WebStructureMining)、Web使用挖掘(WebUsageMining)。

Web挖掘的分類如圖7-1所示。圖7-1

Web挖掘的分類

1.Web內(nèi)容挖掘

Web內(nèi)容挖掘是指對(duì)Web頁(yè)面內(nèi)容進(jìn)行挖掘,從Web文檔的內(nèi)容信息中抽取知識(shí)。Web內(nèi)容挖掘的對(duì)象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。Web內(nèi)容挖掘的重點(diǎn)是文本的特征、分類和聚類。Web挖掘的一個(gè)研究熱點(diǎn)是針對(duì)無(wú)結(jié)構(gòu)化文本進(jìn)行的文本挖掘;Web多媒體數(shù)據(jù)挖掘正成為另一個(gè)研究熱點(diǎn)。

Web內(nèi)容挖掘一般從兩個(gè)不同的觀點(diǎn)來(lái)進(jìn)行研究。從資源查找(IR)的觀點(diǎn)來(lái)看,Web內(nèi)容挖掘的任務(wù)是從用戶的角度出發(fā),提高信息質(zhì)量和幫助用戶過(guò)濾信息。這里的非結(jié)構(gòu)化文檔主要指Web上的自由文本,包括小說(shuō)、新聞等。而從數(shù)據(jù)庫(kù)(DB)的觀點(diǎn)來(lái)看,Web內(nèi)容挖掘的任務(wù)主要是試圖對(duì)Web上的數(shù)據(jù)進(jìn)行集成、建模,以支持對(duì)Web數(shù)據(jù)的復(fù)雜查詢。數(shù)據(jù)庫(kù)技術(shù)應(yīng)用于Web挖掘主要是為了解決Web信息的管理和查詢問(wèn)題。這些問(wèn)題可以分為三類:Web信息的建模和查詢、信息抽取與集成、Web站點(diǎn)建構(gòu)和重構(gòu)。

2.Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘主要是通過(guò)對(duì)Web站點(diǎn)的超鏈接結(jié)構(gòu)進(jìn)行分析、變形和歸納,將Web頁(yè)面進(jìn)行分類,以利于信息的搜索。Web結(jié)構(gòu)挖掘可用于發(fā)現(xiàn)Web的結(jié)構(gòu)和頁(yè)面的結(jié)構(gòu)及其蘊(yùn)含在這些結(jié)構(gòu)中的有用模式;對(duì)頁(yè)面及其鏈接進(jìn)行分類和聚類,找出權(quán)威頁(yè)面;發(fā)現(xiàn)Web文檔自身的結(jié)構(gòu),這種結(jié)構(gòu)挖掘能更有助于用戶的瀏覽,也利于對(duì)網(wǎng)頁(yè)進(jìn)行比較和系統(tǒng)化。Web結(jié)構(gòu)挖掘可細(xì)分為超鏈接挖掘、URL挖掘和內(nèi)部結(jié)構(gòu)挖掘三種。

Web結(jié)構(gòu)挖掘在一定程度上得益于社會(huì)網(wǎng)絡(luò)和引用分析的研究。把網(wǎng)頁(yè)之間的關(guān)系分為incoming連接和outgoing連接,運(yùn)用引用分析方法找到同一網(wǎng)站內(nèi)部以及不同網(wǎng)站之間的連接關(guān)系。在Web結(jié)構(gòu)挖掘領(lǐng)域最著名的算法是HITS算法和PageRank算法。它們的共同點(diǎn)是使用一定方法計(jì)算Web頁(yè)面之間超鏈接的質(zhì)量,從而得到頁(yè)面的權(quán)重。著名的Clever和Google搜索引擎就采用了該類算法。此外,Web結(jié)構(gòu)挖掘的另一個(gè)嘗試是在Web數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下的挖掘,包括通過(guò)檢查同一臺(tái)服務(wù)器上的本地連接衡量Web結(jié)構(gòu)挖掘Web站點(diǎn)的完全性,在不同的Web數(shù)據(jù)倉(cāng)庫(kù)中檢查副本以幫助定位鏡像站點(diǎn),通過(guò)發(fā)現(xiàn)針對(duì)某一特定領(lǐng)域超鏈接的層次屬性去探索信息流動(dòng)如何影響Web站點(diǎn)的設(shè)計(jì)。

3.Web使用挖掘(WebusageMining)

Web使用挖掘即Web使用記錄挖掘,是數(shù)據(jù)挖掘技術(shù)在Web使用數(shù)據(jù)上的應(yīng)用。利用Web使用挖掘技術(shù),可以通過(guò)Web緩存改進(jìn)系統(tǒng)設(shè)計(jì)、Web頁(yè)面預(yù)取、Web頁(yè)面交換;認(rèn)識(shí)Web信息訪問(wèn)的本質(zhì);理解用戶的反映和動(dòng)機(jī)。例如,有些研究提出了可適應(yīng)站點(diǎn)的概念,即可以通過(guò)用戶訪問(wèn)模式的學(xué)習(xí)改進(jìn)其自身的Web站點(diǎn)。這些分析還有助于建立針對(duì)個(gè)體的個(gè)性化Web服務(wù)。Web使用挖掘在新興的電子商務(wù)領(lǐng)域有重要意義,例如可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。

Web使用挖掘的記錄數(shù)據(jù)除了服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、交易信息、Cookie中的信息、用戶查詢、鼠標(biāo)點(diǎn)擊流等一切用戶與站點(diǎn)之間可能的交互記錄??梢?jiàn)Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當(dāng)豐富。

Web使用挖掘主要涉及兩個(gè)關(guān)鍵問(wèn)題:一是如何進(jìn)行數(shù)據(jù)的預(yù)處理;二是如何挖掘出有價(jià)值的知識(shí)。Web使用挖掘可以分為兩類:一類是將Web使用記錄的數(shù)據(jù)轉(zhuǎn)換并傳遞進(jìn)傳統(tǒng)的關(guān)系表里,再使用數(shù)據(jù)挖掘算法對(duì)關(guān)系表中的數(shù)據(jù)進(jìn)行常規(guī)挖掘;另一類是將Web使用記錄的數(shù)據(jù)直接預(yù)處理,再進(jìn)行挖掘。根據(jù)數(shù)據(jù)來(lái)源、數(shù)據(jù)類型、用戶數(shù)量、數(shù)據(jù)集合中的服務(wù)器數(shù)量等將Web使用挖掘分為五類:

(1)個(gè)性挖掘:針對(duì)單個(gè)用戶的使用記錄對(duì)該用戶進(jìn)行建模,結(jié)合該用戶基本信息分析他的使用習(xí)慣、個(gè)人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的個(gè)性化服務(wù)。

(2)站點(diǎn)修改:通過(guò)挖掘用戶的行為記錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依據(jù),比如頁(yè)面連接情況應(yīng)如何組織、哪些頁(yè)面應(yīng)能夠直接訪問(wèn)等。

(3)系統(tǒng)改進(jìn):通過(guò)用戶的記錄發(fā)現(xiàn)站點(diǎn)的性能缺點(diǎn),以提示站點(diǎn)管理者改進(jìn)Web緩存策略、網(wǎng)絡(luò)傳輸策略、流量負(fù)載平衡機(jī)制和數(shù)據(jù)的分布策略。此外,可以通過(guò)分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)據(jù)找到系統(tǒng)弱點(diǎn),提高站點(diǎn)安全性,這在電子商務(wù)環(huán)境下尤為重要。

(4)Web特征描述:通過(guò)用戶對(duì)站點(diǎn)的訪問(wèn)情況統(tǒng)計(jì)各個(gè)用戶在頁(yè)面上的交互情況,對(duì)用戶訪問(wèn)情況進(jìn)行特征描述。

(5)智能商務(wù):電子商務(wù)銷售商關(guān)心的重點(diǎn)是用戶怎樣使用Web站點(diǎn)的信息,用戶一次訪問(wèn)的周期可分為被吸引、駐留、購(gòu)買和離開(kāi)四個(gè)步驟,Web使用挖掘可以通過(guò)分析用戶點(diǎn)擊流等Web日志信息挖掘用戶行為的動(dòng)機(jī),以幫助銷售商安排銷售策略。

7.1.2

Web數(shù)據(jù)來(lái)源

Web使用挖掘所涉及的數(shù)據(jù)源包括:服務(wù)器端的數(shù)據(jù)記錄、客戶端的數(shù)據(jù)記錄和代理端的數(shù)據(jù)使用記錄。Web使用挖掘通過(guò)挖掘Web日志記錄進(jìn)行,這些記錄包括:網(wǎng)絡(luò)服務(wù)器訪問(wèn)記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡(jiǎn)介、注冊(cè)信息、用戶對(duì)話或交易信息、用戶提問(wèn)式等。直接對(duì)WebServer的日志文件或日志行為進(jìn)行統(tǒng)計(jì)分析處理,包括幾乎所有的LOG屬性項(xiàng),如clienthost、remoteuser、requesttime、servername/serverip、timelength、bytereceived、bytesended、status、request、URL,這些屬性項(xiàng)之間可以單獨(dú)進(jìn)行統(tǒng)計(jì)分析,也可以適當(dāng)?shù)匾砸欢ǖ倪壿嬯P(guān)系組合起來(lái)進(jìn)行統(tǒng)計(jì)分析。7.2

Web日志挖掘

Web日志挖掘主要是通過(guò)分析Web服務(wù)器的日志文件,以發(fā)現(xiàn)用戶訪問(wèn)站點(diǎn)的瀏覽模式,為站點(diǎn)管理員提供各種Web站點(diǎn)改進(jìn)或可以帶來(lái)經(jīng)濟(jì)效益的信息。用戶訪問(wèn)模式分析通過(guò)分析Web使用記錄來(lái)了解用戶的訪問(wèn)模式和傾向,從而幫助銷售商確定相對(duì)固定的顧客群,設(shè)計(jì)商品的銷售方案,評(píng)價(jià)各種促銷活動(dòng)以及發(fā)現(xiàn)Web空間最有效的邏輯結(jié)構(gòu)。個(gè)性化分析傾向于分析單個(gè)用戶的偏好,根據(jù)不同用戶的訪問(wèn)模式,動(dòng)態(tài)地為用戶定制觀看的內(nèi)容或提供瀏覽建議,使得網(wǎng)站更加生動(dòng)和獨(dú)特。

Web日志挖掘是一種很重要的信息獲取方式,它挖掘的數(shù)據(jù)一般是在用戶和網(wǎng)絡(luò)交互的過(guò)程中抽取出來(lái)的第二手的數(shù)據(jù)。這些數(shù)據(jù)包括:Web服務(wù)器日志記錄、代理服務(wù)器的日志記錄、客戶端的日志記錄、用戶簡(jiǎn)介、注冊(cè)信息等。本文著重對(duì)Web服務(wù)器的日志記錄進(jìn)行挖掘。

Web日志挖掘可以分為四個(gè)階段:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和對(duì)挖掘出來(lái)的模式進(jìn)行分析。由于Web缺少使用數(shù)據(jù)的精確收集機(jī)制,所以使用數(shù)據(jù)的收集技術(shù)是日志挖掘研究的一個(gè)重要部分。Web上的使用數(shù)據(jù)非常豐富,收集地點(diǎn)有很多,包括客戶端、HTTP代理端、Web服務(wù)器端,甚至底層的網(wǎng)絡(luò)通路。使用數(shù)據(jù)的特性與收集方法相關(guān)。Web服務(wù)器軟件自動(dòng)記錄的Web日志是目前最常用的使用數(shù)據(jù)。

Web日志挖掘的一般過(guò)程如下:

(1)數(shù)據(jù)的收集及預(yù)處理:對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并,轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,保存到關(guān)系型數(shù)據(jù)庫(kù)表或數(shù)據(jù)倉(cāng)庫(kù)中。

(2)模式發(fā)現(xiàn):對(duì)數(shù)據(jù)預(yù)處理所形成的文件,利用數(shù)據(jù)挖掘的一些有效算法(如關(guān)聯(lián)規(guī)則、聚類、分類、序列模式等)來(lái)發(fā)現(xiàn)隱藏的模式和規(guī)則。

(3)模式分析:針對(duì)實(shí)際應(yīng)用,對(duì)挖掘出來(lái)的模式、規(guī)則進(jìn)行分析,過(guò)濾掉無(wú)用的規(guī)則或模式,把客戶感興趣的規(guī)則或模式轉(zhuǎn)化成知識(shí),應(yīng)用到具體領(lǐng)域中。

Web日志挖掘得到的結(jié)果可以用于重構(gòu)Web站點(diǎn)的頁(yè)面之間的鏈接關(guān)系,及Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu),發(fā)現(xiàn)相似的客戶群體,開(kāi)展個(gè)性化的信息服務(wù)和有針對(duì)性的電子商務(wù)活動(dòng),應(yīng)用信息推拉技術(shù)構(gòu)建智能化Web站點(diǎn)。

Web日志挖掘的具體過(guò)程如圖7-2所示。

圖7-2WEB日志挖掘的過(guò)程日志文件是用戶瀏覽Web服務(wù)器時(shí)記錄下來(lái)的用戶訪問(wèn)網(wǎng)站的情況,被記錄在Web服務(wù)器中,由于每天的日志訪問(wèn)量比較大,可以將日志文件保存在數(shù)據(jù)庫(kù)服務(wù)器中。Web日志挖掘就是對(duì)原始的日志文件進(jìn)行預(yù)處理,使之轉(zhuǎn)變成適合挖掘的數(shù)據(jù)形式,然后用傳統(tǒng)的數(shù)據(jù)挖掘方法(如關(guān)聯(lián)規(guī)則、聚類等)對(duì)Web數(shù)據(jù)進(jìn)行挖掘,最后將挖掘出的結(jié)果進(jìn)行匯總,從而應(yīng)用到實(shí)際當(dāng)中去。數(shù)據(jù)采集可以從服務(wù)器端數(shù)據(jù)、客戶端數(shù)據(jù)、代理服務(wù)器端進(jìn)行。

(1)服務(wù)器端數(shù)據(jù)。通過(guò)Web服務(wù)器記錄用戶訪問(wèn)日志,在服務(wù)器中記錄了用戶每次訪問(wèn)網(wǎng)站進(jìn)行的每一次網(wǎng)頁(yè)請(qǐng)求的信息。這種數(shù)據(jù)收集方法有利于數(shù)據(jù)挖掘的進(jìn)行,易于分析出用戶的瀏覽行為。

(2)客戶端數(shù)據(jù)。客戶端的數(shù)據(jù)收集可以使用Javascripts或者Javaapplets這樣的遠(yuǎn)程代理來(lái)實(shí)現(xiàn)。Javaapplet能記錄用戶所有的行為但存在效率問(wèn)題;Javascritps雖然對(duì)效率影響不大,但不能記錄用戶所有的動(dòng)作。也可以修改用戶的瀏覽器軟件,使之具有數(shù)據(jù)收集的能力。

(3)代理服務(wù)器端數(shù)據(jù)。通常在網(wǎng)絡(luò)中基于安全和效率的考慮,需要使用代理服務(wù)器技術(shù)。代理服務(wù)器在用戶端和服務(wù)器端扮演著中間傳遞的角色。代理服務(wù)器上保存著一個(gè)最近訪問(wèn)過(guò)的頁(yè)面集合。7.3

Web內(nèi)容挖掘

Web內(nèi)容挖掘是從Web文檔的內(nèi)容或其描述中提取知識(shí)的過(guò)程。Web內(nèi)容挖掘針對(duì)的對(duì)象是Web文檔信息和多媒體信息,就其挖掘內(nèi)容而言,又可以將其分為對(duì)Web文本文檔(包括Text、HTML等格式)和多媒體文檔(包括Image、Audio、Video等媒體類型)的挖掘。目前,關(guān)于Web內(nèi)容挖掘的研究大體以Web文本內(nèi)容挖掘?yàn)橹?。Web內(nèi)容挖掘一般從資源查找和數(shù)據(jù)庫(kù)兩個(gè)不同的方面進(jìn)行研究。從資源查找的方面來(lái)看,Web內(nèi)容挖掘的任務(wù)是從用戶的角度出發(fā)的,考慮如何提高信息質(zhì)量和幫助用戶過(guò)濾信息,主要是對(duì)非結(jié)構(gòu)化文檔和半結(jié)構(gòu)化文檔的挖掘。非結(jié)構(gòu)化文檔主要指Web上的自由文本,如小說(shuō)、新聞等。Web上的半結(jié)構(gòu)化文檔挖掘指在加入了HTML、超鏈接等附加結(jié)構(gòu)的信息上進(jìn)行挖掘,其應(yīng)用包括超鏈接文本的分類、聚類,發(fā)現(xiàn)文檔之間的關(guān)系,提出半結(jié)構(gòu)化文檔中的模式和規(guī)則等。從數(shù)據(jù)庫(kù)的觀點(diǎn)來(lái)看,Web內(nèi)容挖掘首先采用數(shù)據(jù)抽取和轉(zhuǎn)換的方法將非結(jié)構(gòu)化的Web信息轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),再采用數(shù)據(jù)挖掘技術(shù)進(jìn)行信息挖掘。這要通過(guò)找到Web文檔的模式、建立Web知識(shí)庫(kù)來(lái)實(shí)現(xiàn)。與傳統(tǒng)的數(shù)據(jù)挖掘方法相類似的文本數(shù)據(jù)挖掘方法是文檔分類和模型質(zhì)量評(píng)價(jià)方法。文檔分類算法主要應(yīng)用樸素貝葉斯(NaiveB

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論