數(shù)據(jù)挖掘技術(shù)在web中的應(yīng)用_第1頁
數(shù)據(jù)挖掘技術(shù)在web中的應(yīng)用_第2頁
數(shù)據(jù)挖掘技術(shù)在web中的應(yīng)用_第3頁
數(shù)據(jù)挖掘技術(shù)在web中的應(yīng)用_第4頁
數(shù)據(jù)挖掘技術(shù)在web中的應(yīng)用_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘技術(shù)在web中的應(yīng)用

web存儲基礎(chǔ)隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)也在迅速增長。如何開發(fā)和利用這些豐富的資源已成為一個普遍關(guān)注的問題。于是,數(shù)據(jù)挖掘技術(shù)和Internet應(yīng)用研究的結(jié)合,構(gòu)成了當(dāng)今比較活躍的一個研究領(lǐng)域——Web數(shù)據(jù)挖掘。在Web數(shù)據(jù)挖掘中,最重要的應(yīng)用是Web日志挖掘。Web日志挖掘與傳統(tǒng)數(shù)據(jù)挖掘的區(qū)別在于數(shù)據(jù)源不同,Web日志挖掘的對象通常是服務(wù)器的日志信息,而傳統(tǒng)數(shù)據(jù)挖掘的對象多為數(shù)據(jù)庫。Web服務(wù)器的日志(WebLog)記載了用戶訪問站點(diǎn)的信息,這些信息包括:訪問者的地址、訪問時間、訪問的頁面、頁面的大小、瀏覽器類型、響應(yīng)狀態(tài)等等。每當(dāng)站點(diǎn)被訪問一次,WebLog就在日志數(shù)據(jù)庫內(nèi)追加相應(yīng)的記錄。站點(diǎn)的規(guī)模和復(fù)雜程度與日俱增,利用普通的概率方法來統(tǒng)計(jì)、分析和安排站點(diǎn)結(jié)構(gòu)已經(jīng)不能滿足要求。通過挖掘服務(wù)器的日志文件,得出用戶的訪問模式,從而可以進(jìn)一步分析和研究日志記錄的規(guī)律,來改進(jìn)網(wǎng)站的組織結(jié)構(gòu)及其性能,構(gòu)造自適應(yīng)網(wǎng)站;還可以通過統(tǒng)計(jì)和關(guān)聯(lián)分析,增加個性化服務(wù),發(fā)現(xiàn)潛在的用戶群體,這在電子商務(wù)等領(lǐng)域是很有市場的Web日志挖掘主要分為三個步驟:(1)系統(tǒng)頁面的識別它主要包括數(shù)據(jù)清洗和事務(wù)識別兩個部分。數(shù)據(jù)清洗主要是對無關(guān)記錄的刪除,判斷是否有重要的訪問沒有被記錄、用戶識別等。事務(wù)識別是指將頁面訪問序列劃分為代表Web事務(wù)或用戶會話的邏輯單元。根據(jù)上述目的,對原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存到關(guān)系型數(shù)據(jù)庫表或數(shù)據(jù)倉庫中,等待進(jìn)一步處理。(2)識別器運(yùn)用各種算法對處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。(3)web日志挖掘進(jìn)行用戶訪問模式的分析,從而將有價(jià)值的模式提取出來的過程。數(shù)據(jù)預(yù)處理這個環(huán)節(jié)是整個過程的基礎(chǔ)和實(shí)施有效挖掘算法的前提,在Web日志挖掘中起著非常重要的作用。原始日志文件是簡單的平面文本文件,包含了一些不完整的、冗余的、錯誤的數(shù)據(jù),需要進(jìn)行處理,否則將會直接影響挖掘的效果;此外,一些OLAP分析、挖掘算法的實(shí)施也需要規(guī)范化的數(shù)據(jù)源進(jìn)行支持,所以在這一個階段還需要對數(shù)據(jù)存儲的格式進(jìn)行調(diào)整,以適合所用的挖掘方法。1數(shù)據(jù)預(yù)處理的主要技術(shù)1.1多源異構(gòu)信息記錄ogbrtWeb服務(wù)器日志記錄著用戶訪問該站點(diǎn)時每個頁面的請求信息。日志記錄的格式主要分為兩種:通用日志格式(CommonLogFormat,CLF)和擴(kuò)展型日志格式(ExtendedLogFormat)。其主要結(jié)構(gòu)如表1所示。表1中斜體字部分是擴(kuò)展型日志格式中添加的記錄項(xiàng),其中一些內(nèi)容在實(shí)際應(yīng)用中是用不到的,如Cookie和URI查詢。Cookie是在服務(wù)器端產(chǎn)生的,記錄用戶的狀態(tài)或訪問路徑,但是由于涉及到隱私問題,Cookie的使用需要用戶的配合;URI查詢是用戶查詢所需要的信息時在服務(wù)器端產(chǎn)生的記錄。由于服務(wù)器并不記錄用戶的瀏覽行為,所以如果用戶的請求是通過本地(如在IE瀏覽器中按“后退鍵”)或Proxy端的緩沖區(qū)得到滿足,則服務(wù)器端并不記錄此次請求,因此日志文件中的記錄并不能完全地反映用戶的訪問行為。1.2數(shù)據(jù)預(yù)處理流程(1)頁面訪問算法生成界面萬維網(wǎng)協(xié)會WorldWebConsortium,簡稱W3C)定義了一些數(shù)據(jù)抽象,如下:用戶(user):通過瀏覽器訪問網(wǎng)頁的個體;用戶可以在不同的地方通過不同的機(jī)器使用不同的代理訪問網(wǎng)站。頁面瀏覽(pageview):用戶點(diǎn)擊鼠標(biāo)瀏覽網(wǎng)頁所得到的結(jié)果;這個結(jié)果可以由多個文件構(gòu)成;一次頁面瀏覽代表一次用戶行為。點(diǎn)擊流(click-stream):用戶訪問的一組連續(xù)的頁面瀏覽的序列。用戶會話(usersession):某個用戶階段性的頁面瀏覽所構(gòu)成的點(diǎn)擊流。其特點(diǎn)是可以跨越多個服務(wù)器。服務(wù)器會話(serversession):某個用戶在一個服務(wù)器上階段性的頁面瀏覽所構(gòu)成的點(diǎn)擊流。片斷(episode):用戶會話中一段有意義的點(diǎn)擊流。(2)為滿足數(shù)據(jù)的轉(zhuǎn)化,其數(shù)據(jù)數(shù)據(jù)預(yù)處理是在將日志文件轉(zhuǎn)換成數(shù)據(jù)庫文件以后進(jìn)行的,其目的是把Web日志轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的可靠精確的數(shù)據(jù)。這個過程主要包括四個階段:數(shù)據(jù)清洗、識別用戶、識別用戶會話和識別片斷。存儲相關(guān)文件作為刪除記錄的基礎(chǔ)數(shù)據(jù)清理是指根據(jù)需求,對日志文件進(jìn)行處理,包括刪除無關(guān)緊要的數(shù)據(jù),合并某些記錄,對用戶請求頁面時發(fā)生錯誤的記錄進(jìn)行適當(dāng)?shù)奶幚淼鹊取.?dāng)用戶請求一個網(wǎng)頁時,與這個網(wǎng)頁有關(guān)的圖片、音頻等信息會自動下載,并記錄在日志文件中;而如果我們挖掘的目的是用戶訪問模式,這些信息對我們來說顯然用處不大(除非圖片、音頻等是用戶顯示請求的,即用戶所需要的內(nèi)容正是這些圖片和音頻等文件),所以可以把日志中文件的后綴為gif、jpg、jpeg等的記錄刪除。但是,當(dāng)挖掘的目的是為了進(jìn)行網(wǎng)絡(luò)流量分析或?yàn)轫撁婢彌_與預(yù)取提供依據(jù)時,這些信息又會顯得格外重要,所以在刪除這些記錄的時候一定要把相關(guān)信息記錄下來。我們選擇將其中的“發(fā)送字節(jié)數(shù)”和“接收字節(jié)數(shù)”這兩個域的內(nèi)容記錄下來。此外,后綴名為cgi、js和JS的腳本文件因?qū)竺娴姆治鎏幚聿辉斐扇魏斡绊?所以應(yīng)該刪除。我們可以定義一個缺省的規(guī)則庫來幫助刪除記錄,而且這個規(guī)則庫可以根據(jù)正在分析的網(wǎng)站類型進(jìn)行修改。例如,對于主要包含圖形的站點(diǎn),日志中的圖形文件可能代表了用戶的顯式請求,此時就不能將圖形文件刪除。我們可以預(yù)先將網(wǎng)站分為一般網(wǎng)站、圖片網(wǎng)站、音視頻網(wǎng)站等,分別建立對應(yīng)的規(guī)則庫;確定要分析的網(wǎng)站屬于哪一類,然后按照該類網(wǎng)站的規(guī)則庫進(jìn)行數(shù)據(jù)清理。當(dāng)然,我們還可以根據(jù)自己的需要對規(guī)則庫進(jìn)行刪改。啟發(fā)式的識別用戶如若進(jìn)行用戶訪問模式的挖掘或?qū)τ脩暨M(jìn)行聚類分析,用戶識別問題則顯得至關(guān)重要,因?yàn)槿后w是由個體組成的,只有對個體有清楚的了解,才能識別群體的特征。由于緩存、代理服務(wù)器(包括網(wǎng)吧、局域網(wǎng)等環(huán)境)和防火墻的使用,使得識別用戶這一步變得很復(fù)雜:●不同的用戶可以在同一時間通過一個簡單的代理訪問Web服務(wù)器;●同一個用戶可能在不同的機(jī)器上訪問Web服務(wù)器;●一個用戶可能在同一臺機(jī)器上使用不同的瀏覽器訪問Web服務(wù)器;而當(dāng)不同的用戶使用同一臺機(jī)器瀏覽某一站點(diǎn)時也會造成混淆。為此,我們提出了如下的啟發(fā)式規(guī)則來識別用戶:●不同的IP地址代表著不同的用戶;●當(dāng)IP地址相同時,我們默認(rèn)不同的操作系統(tǒng)或?yàn)g覽器代表不同的用戶;在IP地址相同,用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下,則判斷每一個請求訪問的頁面與訪問過的頁面之間是否有鏈接。如果一個請求訪問的頁面與上一個已經(jīng)訪問過的所有的頁面之間并沒有直接的鏈接,則假設(shè)在訪問Web站點(diǎn)的機(jī)器上同時存在著多個用戶。多個會話的生成用戶會話是指用戶對服務(wù)器的一次有效訪問,通過其連續(xù)請求的頁面,我們可以獲得他在網(wǎng)站中的訪問行為和瀏覽興趣。日志文件中不同用戶訪問的頁面當(dāng)然屬于不同的會話。當(dāng)某個用戶的頁面請求在時間上跨度比較大時,就有可能是該用戶多次訪問同一個網(wǎng)站,我們可以將用戶的訪問記錄分成多個會話來處理。最簡單的方法就是設(shè)置一個timeout值,如果用戶訪問頁面的時間差超過了這個值,則認(rèn)為用戶開始了一個新的會話。許多商業(yè)產(chǎn)品都采用30分鐘作為缺省的timeout值,但是L.Catledge和J.Pitkow由實(shí)驗(yàn)得出timeout值設(shè)為25.5分鐘更好一點(diǎn)。會話標(biāo)識的目的就是要創(chuàng)建每一個用戶的有意義的頁面聚類。基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)轉(zhuǎn)化在數(shù)據(jù)集完成會話標(biāo)識之后,會話數(shù)據(jù)必須被格式化成符合相應(yīng)數(shù)據(jù)挖掘算法的數(shù)據(jù)模型,這一步工作稱之為數(shù)據(jù)轉(zhuǎn)化。例如,進(jìn)行關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)格式和進(jìn)行序列挖掘的數(shù)據(jù)格式就可能不同。在數(shù)據(jù)轉(zhuǎn)化完成之后,可以對格式化的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)挖掘。2記錄數(shù)據(jù)的預(yù)處理通常進(jìn)行操作的數(shù)據(jù)源主要是服務(wù)器端的日志文件?,F(xiàn)將服務(wù)器日志中的每一個記錄用一組數(shù)學(xué)符號來表示如下:定義1:服務(wù)器日志中的一個頁面視圖L可用如下的符號定義:每一個頁面視圖包括一個頁面的定義vi(通常為這個頁面的Url),參考頁面文件ri(通常為這個頁面的Referer),訪問時間tf(通常為這個頁面的Date或叫Time),至于{d1,d2,……,dm}則為客戶端向服務(wù)器通過表單發(fā)送的數(shù)據(jù)項(xiàng)及值對。其中A中包含了一些元數(shù)據(jù),如可能有客戶端用戶的IP地址,Agent的類型(主要包括瀏覽器及操作系統(tǒng)的類型),{a1,a2……,ak}中所包含的數(shù)據(jù)是客戶端與服務(wù)器行交互的數(shù)據(jù)對等。當(dāng)然了,日志文件中的每一個記錄中還包括如用戶向服務(wù)器請求的方式(是Post還是Get方式)及請求的文件的大小等屬性,但這些屬性均屬次要屬性,故該日志預(yù)處理的過程中不參與會話的標(biāo)識工作。定義2:日志中的記錄經(jīng)過預(yù)處理過以后,所形成的單個用戶對單個站點(diǎn)的一次訪問的數(shù)據(jù)定義如下:設(shè)L是服務(wù)器日志文件中記錄的集合,其中的每一個記錄1均適合上面定義的記錄的格式,這里I∈L。每一個1包括客戶端IP地址1.IP,客戶端瀏覽器類型l.agent,客戶端訪問的頁面的Url為l.url,訪問頁面的時間l.time等。則用戶的一次訪問會話或叫事務(wù)t為下式:①數(shù)據(jù)清理,簡單的就是檢查每一個日志記錄L的Url的擴(kuò)展名,削除擴(kuò)展名為gif,jpg,jpeg的日志記錄就可以了。②首先將原日志文件劃分成相同的IP和Agent的用戶訪問序列集的形式,集合中的每一個序列形如Hi={fi,f2……,fn},每一個Hi執(zhí)行算法③。③將相同的IP和Agent的用戶訪問序列劃分成用戶的一次訪問序列。(1)記錄和讀取時間調(diào)整對于每一個Hi={f1,f2……,fn}是一個時間序列的日志記錄集,其中l(wèi)j,fj,rj,tj分別定義日志記錄的頁面視圖,Url,Referer,訪問時間Time。定義T為一個時間戳:(2)是否已經(jīng)擴(kuò)大了t此函數(shù)完成的主要功能是測試包含lj的請求頁的rj頁,在Hi中是否已經(jīng)過時了,也就是是否已經(jīng)大于了T。如果有的都大于了T則返回真,否則返回假。(3)確定記錄對象的確定Distance(H,rj)函數(shù)主要是計(jì)算頁面的距離函數(shù),當(dāng)一個日志記錄視圖的參考頁面rj為不同的Hi所包含時,確定該頁面文件是屬于哪一個序列集。采用的算法是判斷每一個頁面在它所包含的序列集中的距離(序列集的總頁數(shù)與該請求頁在序列集中的位置之差),采取距離最小者也就是最近被訪問的,將該頁面放入到這個序列集中。若在多個序列集中距離相等,則計(jì)算訪問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論