淺析WEB日志數(shù)據(jù)挖掘技術(shù)_第1頁
淺析WEB日志數(shù)據(jù)挖掘技術(shù)_第2頁
淺析WEB日志數(shù)據(jù)挖掘技術(shù)_第3頁
淺析WEB日志數(shù)據(jù)挖掘技術(shù)_第4頁
淺析WEB日志數(shù)據(jù)挖掘技術(shù)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

淺析WEB日志數(shù)據(jù)挖掘技術(shù)

摘要:互聯(lián)網(wǎng)發(fā)展到今天已經(jīng)成為了人們生活中不可缺少的一部分了,而互聯(lián)網(wǎng)從某種意義上講也可以看作是一個龐大的數(shù)據(jù)庫,并且涉及到各個領(lǐng)域。那么在這個龐大的數(shù)據(jù)庫中,教據(jù)挖掘技術(shù)有什么用武之地呢?本文通過時互聯(lián)網(wǎng)上數(shù)據(jù)挖掘的簡單論述,說明現(xiàn)在互聯(lián)網(wǎng)上數(shù)據(jù)挖掘的一些趨勢和相關(guān)技術(shù),并且著重分析一下其中一種互聯(lián)網(wǎng)上數(shù)據(jù)挖掘的應(yīng)用方向相關(guān)的技術(shù)一一Web使用記錄的挖掘,

關(guān)鍵詞:web數(shù)據(jù)挖掘;Web日志;數(shù)據(jù)預(yù)處理

一、引言

目前?;ヂ?lián)網(wǎng)已經(jīng)和我們的生活密不可分,它可以說是一個巨大的、分布廣泛和全球性的信息服務(wù)中心。它涉及新聞、廣告、消息信息、金融信息、教育、政府、電子商務(wù)和許多其他信息服務(wù)。根據(jù)有關(guān)機(jī)構(gòu)統(tǒng)計,目前互聯(lián)網(wǎng)的數(shù)據(jù)以幾百兆字節(jié)來計算,而且增長速度很快,如果將這個龐大的數(shù)據(jù)庫用一般的統(tǒng)計分析來處理的話,顯然是有心無力的。自從數(shù)據(jù)挖掘技術(shù)成功地應(yīng)用于傳統(tǒng)數(shù)據(jù)庫領(lǐng)域之后,人們對于數(shù)據(jù)挖掘在像互聯(lián)網(wǎng)數(shù)據(jù)這樣的一些特殊數(shù)據(jù)源的應(yīng)用也寄予了厚望,并且做了許多相應(yīng)的研究和發(fā)展了相應(yīng)的技術(shù)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到互聯(lián)網(wǎng)數(shù)據(jù)上,理論上可行,但是由于互聯(lián)網(wǎng)自身的特點(diǎn),也使它面臨一些需要克服的技術(shù)難點(diǎn)。

可以說,在互聯(lián)網(wǎng)上應(yīng)用數(shù)據(jù)挖掘技術(shù)的前途是光明的,但道路也是曲折的。目前互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘技術(shù)主要根據(jù)挖掘的方向一般分為三類:Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用記錄的挖掘。而結(jié)構(gòu)本來就蘊(yùn)藏在內(nèi)容中,是內(nèi)容的骨,因此有些分類方法又分為Web內(nèi)容挖掘和Web使用記錄挖掘。這里按照后一種分類方法來看一下目前的相關(guān)技術(shù)和應(yīng)用。

二、技術(shù)

(一)Web日志

目前市面上比較流行的Web服務(wù)器,例如IIs通常都保存了對Web頁面的每一次訪問的日志項。它忠實(shí)地記錄了訪闖該Web服務(wù)器的數(shù)據(jù)流的信息。日志文件記錄些什么內(nèi)容還可以根據(jù)客戶的不同需要。來調(diào)整記錄些什么信息。

(=)數(shù)據(jù)挖掘的必要性

通常Web服務(wù)器每天都會新開一個日志文件,在流量比較大的網(wǎng)站,這些Web文件的大小往往達(dá)到幾百兆甚至更多,因此要能有效地分析和處理這些日志文件,用數(shù)據(jù)挖掘技術(shù)是最好不過了。對于簡單的網(wǎng)站結(jié)構(gòu),可能分析處理一個Web的日志文件就可以了,但是通常對于一些比較大的門戶網(wǎng)站來說,一個門戶網(wǎng)站往往是好幾十個甚至上百個web服務(wù)器組成一個集群來對外服務(wù)的,在分析這些網(wǎng)站的日志文件時候,就需要采取分布式的Web數(shù)據(jù)挖掘的復(fù)雜技術(shù)了??偠灾?,對于這種每天都會產(chǎn)生這么大量的數(shù)據(jù)的日志文件,數(shù)據(jù)挖掘可以起到很好的效果。

(三)基于簡單結(jié)構(gòu)的Web日志挖掘方案

Web服務(wù)器的簡單結(jié)構(gòu)是指那些訪問量不是很多,一般只有一個Web服務(wù)器組成的網(wǎng)站。對于這些簡單結(jié)構(gòu)的Web服務(wù)器,分析的原始數(shù)據(jù)往往就是一個Web日志文件。一般來說,對于這種情況和傳統(tǒng)的數(shù)據(jù)挖掘的處理手法有類似的地方,也大致可以分開原始數(shù)據(jù)預(yù)處理。挖掘算法和模式分析幾個主要的步驟。

數(shù)據(jù)預(yù)處理是一個十分關(guān)鍵的步驟,根據(jù)不同的業(yè)務(wù),不同的情況,將海量的原始數(shù)據(jù)中抽取需要的數(shù)據(jù),并且對于不完整的數(shù)據(jù)還需要做些處理等。Web日志挖掘的數(shù)據(jù)預(yù)處理包括依賴域的數(shù)據(jù)凈化、用戶識別、會話識別和路徑補(bǔ)充等。對日志進(jìn)行預(yù)處理的結(jié)果直接影響到挖掘算法產(chǎn)生的規(guī)則與模式。因此,預(yù)處理過程是保證web日志挖掘質(zhì)量的關(guān)鍵。

數(shù)據(jù)掙化:指刪除Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù)。大多數(shù)情況下。只有日志中HTML文件與用戶會話相關(guān)(但有些以瀏覽圖片或者查詢其它媒體為主的網(wǎng)頁除外),因此可以通過檢查URI資源的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù),在實(shí)際系統(tǒng)應(yīng)用中,可以建立一個后綴名表幫助過濾刪除這些文件。經(jīng)過數(shù)據(jù)凈化,數(shù)據(jù)可以十分集中。

用戶識別:由于本地緩存、代理服務(wù)器和防火墻的存在,使得有效識別用戶的任務(wù)變得十分復(fù)雜。一般被采用的方法是基干日志/站點(diǎn)的方法,還可以使用一些啟發(fā)性規(guī)則。例如:如果IP地址相同,但是代理信息變了,表明用戶可能是在某個防火墻后面的內(nèi)網(wǎng)的不同用戶,則可以標(biāo)記為不同的用戶;還可以將訪問信息,引用信息和站點(diǎn)拓?fù)錂C(jī)構(gòu)結(jié)合,構(gòu)造出用戶的測覽路徑,如果當(dāng)前請求的頁砸同用戶已瀏覽的頁面沒有鏈接關(guān)系,則認(rèn)為存在IP地址相同的多個用戶。使用這些規(guī)則并不可以保證可咀準(zhǔn)確識別用戶,因此用戶識別是個難題。

會話識別:在跨越時間區(qū)段比較大的Web服務(wù)器日志中,用戶可能多次訪問該站點(diǎn),會話識別的目的就是將用戶的訪問記錄分為單個會話。最簡單的方法是用超時的技術(shù),如果兩個頁面之問請求的時聞差值超過了一定界限就認(rèn)為用戶開始了一個新的會話。例如??梢栽O(shè)置30分鐘等。

路徑補(bǔ)充:在識別用戶會話過程中的另外一個問題是確定訪問日志中是否有重要的請求沒有被記錄。這就需要路徑補(bǔ)充來完成這些記錄了。如果當(dāng)前請求的頁面與用戶上一次請求的頁面之閫沒有超文本鏈接,那么用戶很可能使用了瀏覽器上“BACK”的功能調(diào)用緩存在本機(jī)中的頁面。檢查引用信息確定當(dāng)前請求來自哪一頁,如果在用戶的歷史訪問記錄上有多個頁面都包含與當(dāng)前請求頁面的鏈接,則將請求時間最接近的作為當(dāng)前請求的來源,如果引用信息不完整,則可以利用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)來代替。

以上的步驟是web日志挖掘中數(shù)據(jù)預(yù)處理常用的手段,其目的就是盡量使得預(yù)處理后的數(shù)據(jù)比較真實(shí)和完整,為后面的數(shù)據(jù)挖掘打好基礎(chǔ)。對于預(yù)處理后的數(shù)據(jù)。就可以進(jìn)一步進(jìn)行識別川』、瀏覽行為的序列模式了。

(四)基于復(fù)雜結(jié)構(gòu)的分布式Web日志挖掘方案

所謂Web服務(wù)器的復(fù)雜結(jié)構(gòu)主要是說像那些大型的門戶網(wǎng)站的分布式結(jié)構(gòu),擁有多臺Web服務(wù)器,日志文件存在于各自服務(wù)器上。對于這種分布式的結(jié)構(gòu),一般采用的是多代理技術(shù)的分布式Web日志挖掘技術(shù)來解決。代理這個概念源于分布式人工智能領(lǐng)域,隨后引申到其它計算機(jī)研究領(lǐng)域。代理主要是指在一定環(huán)境下自主運(yùn)行,包含信念、承諾、義務(wù)和意圖等精神狀態(tài)的實(shí)體。它具有自治性、社會性、反應(yīng)性和能動性等特點(diǎn)。

多代理就是由多個代理組成,它們之間互相協(xié)作,相互作用,完成有些復(fù)雜任務(wù)或者目標(biāo)。顯然多代理解決問題的能力比單個代理要強(qiáng)。它的數(shù)據(jù)分布,計算過程是異步、并發(fā)或并行的。多代理分布技術(shù)用到Web日志挖掘系統(tǒng)主要基于多代理技術(shù)的三重體系結(jié)構(gòu),包括用戶訪問層,代理層和Web服務(wù)器層。用戶層管理不同的用戶有不同的操作權(quán)限,一般用戶只允許查詢結(jié)果,而管理用戶則可以實(shí)現(xiàn)配置代理及監(jiān)控系統(tǒng)情況的功能。Web服務(wù)層就是Web服務(wù)器群集組成的,每個Web服務(wù)器提供了相應(yīng)的Web日志文件,并有一個接口實(shí)現(xiàn)與代理層的交互。代理層是用戶訪問層和Web服務(wù)器層的橋梁,主要為了解決分布式異構(gòu)性和速度問題以及保證數(shù)據(jù)的完整性而設(shè)。

代理技術(shù)的使用能夠有效地對多個異構(gòu)Web服務(wù)器同時進(jìn)行分析和處理。對于數(shù)據(jù)的預(yù)處理和數(shù)據(jù)挖掘算法等則和簡單結(jié)構(gòu)的Web日志挖掘方案類似,這里就不再敘述了。

三、結(jié)論

由上面列舉的兩種環(huán)境下的Web日志挖掘方案可知,好的數(shù)據(jù)預(yù)處理手段是Web日志挖掘方案是否成功的關(guān)鍵。在做預(yù)處理的過程中,由于不同層次的訪問者瀏覽網(wǎng)站行為的復(fù)雜性,不確定性和不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論