



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于web日記的數(shù)據(jù)預(yù)處理方法研究
web挖掘是指通過(guò)大量用戶點(diǎn)擊并操作web網(wǎng)站生成的大量信息來(lái)執(zhí)行相關(guān)挖掘,以真正有效地反映用戶的興趣和期望獲得的信息。根據(jù)數(shù)據(jù)挖掘的數(shù)據(jù)來(lái)源不同,可以將Web數(shù)據(jù)挖掘分為三種挖掘類型,一種是Web內(nèi)容挖掘,一種是Web結(jié)構(gòu)挖掘,一種是Web使用挖掘,而Web使用挖掘是對(duì)大量用戶對(duì)Web頁(yè)面操作產(chǎn)生的日志信息進(jìn)行數(shù)據(jù)挖掘,從而獲得用戶的訪問(wèn)行為,從中發(fā)現(xiàn)有效信息的過(guò)程。從原始數(shù)據(jù)庫(kù)到挖掘數(shù)據(jù)庫(kù)之間,對(duì)數(shù)據(jù)進(jìn)行的操作稱為數(shù)據(jù)預(yù)處理。Web日志挖掘與傳統(tǒng)數(shù)據(jù)挖掘的區(qū)別在于數(shù)據(jù)源不同,Web日志挖掘的對(duì)象通常是服務(wù)器的日志信息,而傳統(tǒng)的數(shù)據(jù)挖掘的對(duì)象多數(shù)為數(shù)據(jù)庫(kù)。數(shù)據(jù)預(yù)處理的結(jié)果作為日志挖掘算法的輸入,直接影響挖掘的質(zhì)量,因此改進(jìn)Web日志數(shù)據(jù)預(yù)處理技術(shù)可以有效地提高Web日志挖掘結(jié)果的質(zhì)量。1web服務(wù)器綠色規(guī)定數(shù)據(jù)的預(yù)處理Web日志是指用戶對(duì)Web頁(yè)面進(jìn)行操作過(guò)程中,用戶端與服務(wù)器交互信息產(chǎn)生的日志,用戶在客戶端請(qǐng)求Web服務(wù)過(guò)程中,可能會(huì)經(jīng)過(guò)代理服務(wù)器,防火墻,Web服務(wù)器然后到達(dá)Web應(yīng)用服務(wù)器,有些情況下,Web服務(wù)器和Web應(yīng)用服務(wù)器是在一起的。一般進(jìn)行數(shù)據(jù)挖掘的日志類型主要是客戶端日志、代理服務(wù)器日志和Web服務(wù)器日志。其中客戶端日志記錄的是單個(gè)用戶對(duì)多個(gè)Web頁(yè)面進(jìn)行操作的信息;代理服務(wù)器日志記錄的是多個(gè)用戶對(duì)多個(gè)Web頁(yè)面進(jìn)行操作的信息;而Web服務(wù)器日志完整記錄了用戶對(duì)其網(wǎng)站操作請(qǐng)求的完整過(guò)程。一般網(wǎng)站的管理者最關(guān)心的是其網(wǎng)站的Web服務(wù)器記錄的信息,這些信息是多個(gè)用戶對(duì)其Web網(wǎng)站進(jìn)行操作的記錄。本文使用的Web日志就是CSDN論壇提供的某Web服務(wù)器端記錄的日志。對(duì)Web日志進(jìn)行數(shù)據(jù)挖掘過(guò)程中最基礎(chǔ)的是對(duì)Web日志數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,這是因?yàn)閺姆?wù)器端獲得的Web日志多數(shù)是不完整的、包含噪聲的、非結(jié)構(gòu)化或者是半結(jié)構(gòu)化的數(shù)據(jù),對(duì)這樣的數(shù)據(jù)進(jìn)行操作在模式識(shí)別中將會(huì)有一定的困難。典型的訪問(wèn)Log文件中記錄的是用戶訪問(wèn)信息,不同服務(wù)器的Web日志記錄是不同的,但其中都包含有用戶訪問(wèn)的基本信息。如表1所示,Web服務(wù)器日志的格式一般包括date,time,c-ip,cs-username,s-ip,s-port,cs-method,cs-uri-stem,cs-uri-query,sc-status,cs(User-Agent)等信息。表2是作者從互聯(lián)網(wǎng)獲取的部分日志信息示例。2數(shù)據(jù)預(yù)處理流程和方法Web日志數(shù)據(jù)預(yù)處理的過(guò)程一般包括數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別和路徑補(bǔ)充四個(gè)重要步驟。2.1非成功的請(qǐng)求數(shù)據(jù)清理是指對(duì)原始數(shù)據(jù)采取填充、糾正、刪除等操作清除掉冗余數(shù)據(jù)。例如網(wǎng)頁(yè)上的圖片也記錄為一個(gè)單獨(dú)的請(qǐng)求,但這對(duì)于用戶請(qǐng)求是毫無(wú)意義的,只是網(wǎng)頁(yè)打開(kāi)時(shí)附帶的自動(dòng)操作,應(yīng)該刪去;非成功的請(qǐng)求,這主要是指sc-status中提示出錯(cuò)的狀態(tài)碼,包括403,404等狀態(tài)碼;用戶請(qǐng)求方法中不是GET的請(qǐng)求;由于該日志是對(duì)某指定網(wǎng)站的信息記錄,所以服務(wù)器端的地址和端口號(hào)也可以刪掉。經(jīng)數(shù)據(jù)清洗之后的日志片段如表3所示。2.2引用頁(yè)的識(shí)別一般采用以下啟發(fā)式規(guī)則對(duì)日志中的用戶進(jìn)行識(shí)別:(1)不同的ip地址代表不同的用戶;(2)如果ip地址相同,則不同用戶代理代表不同的用戶;(3)如果ip地址和用戶代理都相同,則根據(jù)引用頁(yè)進(jìn)行判斷,若引用頁(yè)為空,代表不同的用戶。但在日常的互聯(lián)網(wǎng)訪問(wèn)過(guò)程中,一般會(huì)出現(xiàn)以下幾種情況對(duì)用戶識(shí)別造成困難:(1)多個(gè)用戶使用同一臺(tái)計(jì)算機(jī)對(duì)同一網(wǎng)站進(jìn)行訪問(wèn);(2)單個(gè)用戶使用多個(gè)瀏覽器對(duì)網(wǎng)站進(jìn)行訪問(wèn);(3)單個(gè)用戶使用同一瀏覽器的多個(gè)頁(yè)面對(duì)網(wǎng)站進(jìn)行訪問(wèn);(4)單個(gè)用戶使用同一瀏覽器,采用直接輸入url和引用頁(yè)對(duì)同一網(wǎng)站進(jìn)行訪問(wèn)。以上情況使用啟發(fā)式規(guī)則均無(wú)法準(zhǔn)確識(shí)別用戶。由于本文采用的Web日志數(shù)據(jù)未提供引用頁(yè)信息,故只能使用啟發(fā)式規(guī)則的前兩條進(jìn)行判斷。識(shí)別結(jié)果如表4所示。最終用戶識(shí)別數(shù)與IP地址識(shí)別數(shù)相同的原因,經(jīng)分析是由于數(shù)據(jù)集中多個(gè)IP地址使用同一客戶端代理導(dǎo)致第二條啟發(fā)式規(guī)則在該數(shù)據(jù)集中并不適用。2.3用戶訪問(wèn)控制方法會(huì)話識(shí)別是將用戶的訪問(wèn)活動(dòng)分解成多個(gè)的會(huì)話過(guò)程,每個(gè)會(huì)話代表1次對(duì)站點(diǎn)的訪問(wèn)過(guò)程集合。一般關(guān)于會(huì)話識(shí)別的啟發(fā)式方法有以下四種:(1)假設(shè)用戶在網(wǎng)站的停留時(shí)間為t,設(shè)定時(shí)間閾值為t0,如果t>t0,則第一個(gè)超出t0的訪問(wèn)請(qǐng)求視為新的會(huì)話開(kāi)始。(2)假設(shè)用戶對(duì)網(wǎng)站的兩次訪問(wèn)時(shí)間間隔為t,設(shè)定時(shí)間間隔閾值為t0,如果t>t0,則第二次訪問(wèn)請(qǐng)求視為新的會(huì)話開(kāi)始。(3)假設(shè)用戶的該次訪問(wèn)無(wú)法從當(dāng)次記錄的參引頁(yè)中得出,則將該次訪問(wèn)請(qǐng)求視為新的會(huì)話開(kāi)始。(4)假設(shè)用戶的該次訪問(wèn)出現(xiàn)在用戶的訪問(wèn)歷史中,則將該次訪問(wèn)視為新的會(huì)話開(kāi)始。2.4系統(tǒng)集成訪問(wèn)路徑路徑補(bǔ)充的目的是補(bǔ)全用戶在訪問(wèn)過(guò)程中完整的訪問(wèn)路徑,正確合理的補(bǔ)充未記錄的用戶的訪問(wèn)請(qǐng)求。例如,從A頁(yè)面到B頁(yè)面,然后用戶按下“后退”,繼續(xù)從A頁(yè)面訪問(wèn)C頁(yè)面,日志不會(huì)記錄后退請(qǐng)求,完整的訪問(wèn)路徑應(yīng)該是A-B-A-C,但是日志記錄的路徑則是A-B-C。目前大多數(shù)的路徑補(bǔ)充方法都是利用網(wǎng)站的拓?fù)浣Y(jié)構(gòu)來(lái)完成的,主要思想如下所述:(1)如果用戶當(dāng)前訪問(wèn)頁(yè)面與之前訪問(wèn)頁(yè)面存在超鏈接的關(guān)系,則認(rèn)為當(dāng)前訪問(wèn)與前訪問(wèn)之間的路徑是不完整的。(2)如果用戶當(dāng)前訪問(wèn)頁(yè)面的referlog中有多個(gè)頁(yè)面和當(dāng)前頁(yè)面存在超鏈接關(guān)系,則認(rèn)為用戶通過(guò)多個(gè)頁(yè)面中最近被訪問(wèn)的頁(yè)面鏈接到當(dāng)前頁(yè)面。3會(huì)話集合sset在會(huì)話識(shí)別的四種方法中,基于時(shí)間考慮的前兩種方法一般情況下可以很好地識(shí)別出新的會(huì)話,如果將基于時(shí)間考慮的兩種方法結(jié)合在會(huì)話識(shí)別的算法中,應(yīng)該可以更加準(zhǔn)確的提高會(huì)話識(shí)別的準(zhǔn)確性,下面對(duì)新的啟發(fā)式規(guī)則的主要思想予以描述:設(shè)定第一種算法的停留時(shí)間閾值為t0=20min,第二種算法中的時(shí)間間隔閾值為t=3min,用戶在網(wǎng)站停留超過(guò)20min的新的訪問(wèn)請(qǐng)求,視為新的會(huì)話,但后續(xù)情況除外,若第一個(gè)超過(guò)20min的訪問(wèn)請(qǐng)求與最后一個(gè)20min之內(nèi)的訪問(wèn)請(qǐng)求時(shí)間間隔不超過(guò)時(shí)間間隔閾值為t=1min,則認(rèn)為該訪問(wèn)請(qǐng)求仍然屬于上一個(gè)會(huì)話,直到出現(xiàn)新的訪問(wèn)請(qǐng)求與前一訪問(wèn)請(qǐng)求時(shí)間間隔超過(guò)時(shí)間間隔閾值t=1min。以下是用數(shù)學(xué)語(yǔ)言對(duì)新的啟發(fā)式規(guī)則進(jìn)行嚴(yán)格描述:定義1一個(gè)Web服務(wù)器日志文件LSET可以看成是按時(shí)間順序排列的一連串的單個(gè)日志記錄L的集合,即LSET={L1,L2,L3,…,Li,…,Ln}(其中1<i<n),n代表日志記錄的個(gè)數(shù),Li=(Li.time,Li.cs-uriquery,Li.cs(User-Agent)),此處假設(shè)日志記錄都在同一天,不存在跨天記錄的情況(此處假設(shè)只是為了簡(jiǎn)便計(jì)算,無(wú)其他特殊含義)。定義2會(huì)話集合SSET可以看成是包含多個(gè)會(huì)話的集合,即SSET={S1,S2,S3,…,Sj,…,Sm}(1<j<m),其中m代表會(huì)話個(gè)數(shù),SJ=(Lx,Lx+1,Lx+2,…,Ly)。定義3初始判斷是指首先使用停留時(shí)間判斷法進(jìn)行判斷,停留時(shí)間閾值t0,表示初始判斷時(shí)會(huì)話中最后一個(gè)訪問(wèn)請(qǐng)求與會(huì)話的第一個(gè)訪問(wèn)請(qǐng)求的時(shí)間間隔最大不超過(guò)t0,邊緣訪問(wèn)請(qǐng)求Led表示初始判斷時(shí)會(huì)話中最后一個(gè)訪問(wèn)請(qǐng)求;下一訪問(wèn)請(qǐng)求Lnext表示按照時(shí)間順序排在Led之后的第一個(gè)訪問(wèn)請(qǐng)求。定義4再次判斷是指經(jīng)初始判斷之后對(duì)下一訪問(wèn)請(qǐng)求使用時(shí)間間隔判斷法進(jìn)行判斷,時(shí)間間隔閾值是指被下一訪問(wèn)請(qǐng)求視為新的會(huì)話開(kāi)始時(shí),下一訪問(wèn)請(qǐng)求與邊緣訪問(wèn)請(qǐng)求之間的最小時(shí)間間隔。新的啟發(fā)式規(guī)則的偽代碼描述如下所示:算法:生成會(huì)話集合PSET(LSET,SSET);輸入:日志文件LSET,停留時(shí)間閾值20min,時(shí)間間隔閾值1min;輸出:會(huì)話集合SSET;以客戶端地址為172.16.62.62的用戶的日志記錄為例,測(cè)試改進(jìn)算法的效果,該用戶的部分日志記錄如表5所示。經(jīng)該算法測(cè)試,識(shí)別出來(lái)的該用戶的會(huì)話如表6所示。只利用停留時(shí)間判斷法測(cè)試,識(shí)別出來(lái)的該用戶的會(huì)話如表7所示。由表6和表7可知,經(jīng)改進(jìn)的算法測(cè)試結(jié)果和原先的停留時(shí)間判斷法的測(cè)試結(jié)果相比,區(qū)別在于8:25至8:32的5條記錄,根據(jù)改進(jìn)算法對(duì)停留時(shí)間邊緣的訪問(wèn)請(qǐng)求的處理,改進(jìn)算法將這5條記錄歸于第一次會(huì)話中,而根據(jù)停留時(shí)間判斷算法,這5條記錄歸于第二次會(huì)話中,基于實(shí)際考慮
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025分布式光伏發(fā)電屋頂租賃合同
- 2025年度空調(diào)設(shè)備供應(yīng)合同
- 2025存量房買賣合同附件樣本
- 陰莖癌的臨床護(hù)理
- 《中醫(yī)診斷學(xué)題》課件
- 《公共衛(wèi)生法規(guī)與傳染病管理》課件
- 《深度解析醫(yī)療制度》課件
- 2025年陜西貨運(yùn)從業(yè)資格證模擬考試下載
- 塔里木職業(yè)技術(shù)學(xué)院《教學(xué)統(tǒng)計(jì)軟件》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海市長(zhǎng)寧區(qū)高級(jí)中學(xué)2025屆初三年級(jí)第一次質(zhì)量檢測(cè)試題化學(xué)試題含解析
- DB65-T 4765-2024 農(nóng)牧區(qū)標(biāo)準(zhǔn)化羊場(chǎng)建設(shè)規(guī)范
- 城軌行車課程設(shè)計(jì)
- 2024年南京市中考?xì)v史試題及答案
- 2024羽毛球教案36課時(shí)
- A類供應(yīng)商績(jī)效評(píng)價(jià)表
- 攝影攝像知識(shí)競(jìng)賽考試題庫(kù)500題(含答案)
- 2024至2030年中國(guó)丹參行業(yè)市場(chǎng)發(fā)展監(jiān)測(cè)及投資潛力預(yù)測(cè)報(bào)告
- GB/T 44218-2024微型揚(yáng)聲器測(cè)量方法
- (正式版)JB∕T 14666-2024 鋼質(zhì)汽車轉(zhuǎn)向節(jié)臂鍛件 工藝規(guī)范
- AQ/T 9009-2015 生產(chǎn)安全事故應(yīng)急演練評(píng)估規(guī)范(正式版)
- 《無(wú)人機(jī)測(cè)繪技能訓(xùn)練模塊》課件-模塊7:無(wú)人機(jī)航測(cè)影像獲取
評(píng)論
0/150
提交評(píng)論