



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
web用戶訪問會話識別方法
1web用戶訪問記錄由于網(wǎng)絡傳輸協(xié)議http的狀態(tài)、客戶端和代理服務器緩慢,用戶訪問協(xié)議的狀態(tài)狀態(tài)分別存在于服務器、代理服務器和客戶端。同時,這分布在不同地方的訪問日志數(shù)據(jù)集也分別記載了用戶使用網(wǎng)絡資源的不同模式,比如,客戶端瀏覽器日志記錄了單個用戶訪問多個網(wǎng)站的模式;Web服務器的日志則記錄了多個用戶訪問一個網(wǎng)站的模式;代理服務器日志跟蹤記錄了多個用戶訪問多個網(wǎng)站的情況。從Web用戶訪問日志中探究用戶訪問規(guī)律前必須要把這些日志收集整理,進行預處理,形成多個用戶一次次對同一服務器的會話。這中間主要涉及到對用戶的確定,確定用戶瀏覽Web頁面的時間,確定用戶訪問服務器會話期間和用戶訪問服務器會話期間頁面幾個步驟。本文在分析國際上Web數(shù)據(jù)挖掘數(shù)據(jù)預處理方面研究狀況的基礎上,經(jīng)過對用戶瀏覽行為的合理假定,提出了基于時間窗口模型和最大前向參引模型的用戶訪問會話識別方法。2web日志數(shù)據(jù)預處理方法分析2.1現(xiàn)有技術的優(yōu)缺點我們知道,用戶訪問和服務器資源不是一對一的關系,比如,服務器端日志可能記載了一個用戶在多個客戶端提交請求的情況,也可能是多個用戶在一個客戶端提交請求的情況。同時,由于存在緩存、防火墻和代理服務器等的存在,準確確定出每個用戶很困難。除非通過在客戶端跟蹤用戶的行蹤得到第一手的訪問資料,否則,很難準確確定用戶。即使能做到這一點,在客戶端跟蹤用戶的訪問行為因為要涉及到用戶的個人隱私,必須用戶自己要配合才行。在這種情況下有關學者也設計了種種啟發(fā)式推斷用戶的方法,表1歸納了目前常用的為確定用戶及其行為所使用的方法及其優(yōu)缺點。表1中根據(jù)IP和代理識別用戶是最簡單易行的,不過,誤差也最大。嵌入SessionID技術一般在電子商務記錄用戶購物籃內(nèi)物品時最常用,對每一次用戶訪問都嵌入一個SessionID,也就是把一段時間內(nèi)同一用戶的請求都標記上相同的SessionID號。但是,嵌入SessionID只在動態(tài)網(wǎng)站上適用,而且是以時間間隔來判別當前SessionID是否失效,超過一定的時間段就需要分配新SessionID,因此沒有考慮短時間內(nèi)重復訪問的情況。注冊的方法只有在用戶登錄進站以后才能跟蹤用戶訪問行為,方法準確性稍高一些,但是并不是所有的用戶都愿意注冊,且每一次訪問時都愿意登錄,可操作性不強。在客戶端寫入Cookie標志,可以跟蹤用戶的重復訪問情況,精確性較高,但是用戶如果不打開瀏覽器Cookie開關,就無法實施。目前有一種折中的方法把用戶注冊登錄與寫Cookie技術結合起來,用戶可以選擇本次登錄以后與下次登錄的時間間隔,利用代理軟件,精確性高,可以得到用戶精確的訪問情況,但是可操作性也不強,用戶可能認為侵犯了個人隱私,拒絕使用代理軟件。修改了的瀏覽器可得到用戶對廣域網(wǎng)范圍內(nèi)的訪問情況,對用戶隱私涉及程度也最深,幾乎不能實施,可操作性很差。如果不使用表1的方法收集客戶在客戶端瀏覽行為的數(shù)據(jù),用戶訪問日志數(shù)據(jù)挖掘中,只根據(jù)服務器端日志數(shù)據(jù)確定用戶是有誤差的。確定用戶的誤差會導致對用戶訪問服務器會話期間的劃分出現(xiàn)偏差,從而引起數(shù)據(jù)挖掘結果也出現(xiàn)偏差。因此,如何準確確定用戶而又不涉及用戶隱私在研究領域內(nèi)一直很受關注。2.2服務器記載的時間由于網(wǎng)絡擁塞情況不同,Web頁面大小不同,服務器記載用戶請求頁面的時刻,瀏覽頁面時間也有較大的偏差。根據(jù)服務器端記載的用戶瀏覽頁面時間明顯要比客戶端實際的瀏覽時間長。服務器記載的時間是從服務器響應用戶請求時開始,在服務器收到用戶發(fā)出的下一次請求時結束。其中,包括了Web頁面?zhèn)鬟f向客戶瀏覽器的時間、用戶瀏覽頁面實際使用的時間、用戶下一次請求傳到服務器的時間。受客戶端連接處理速度、頁面大小和網(wǎng)絡擁擠程度的影響,服務器記載的用戶瀏覽頁面時間誤差大小甚至可以達到幾分鐘,因此,無法準確確定用戶訪問時間。實際應用中一般都把服務器記載的用戶訪問時間當作用戶瀏覽時間。2.3確定用戶訪問行為并進行時間窗口評估一般地,Web服務器都要并發(fā)處理多個用戶的請求,因此,要從多個相互交織的用戶訪問會話期間中正確區(qū)分出所有用戶訪問會話期間也是有一定困難的。一般都是對用戶在客戶端瀏覽行為做合理的假定,然后在此基礎上確定用戶訪問服務器會話期間。因此,也不能保證完全精確。目前最常做的假設有:用戶訪問過程中只有在改變訪問主題時,才會訪問前面訪問過的頁面以跳轉到另外的頁面;用戶一次訪問的時間都不會超過一個最大的限制——時間窗口(TimeWindow)。與之相對應也就出現(xiàn)了兩種確定用戶訪問行為及訪問服務器會話期間的模型:最大前向參引模型(MaximalForwardReferenceModel)、時間窗口模型(TimeWindowModel)。最大前向參引模型中所謂前向,指的是某頁面不在目前的訪問服務器會話期間頁面集里。后向指的是某頁面已在目前的訪問服務器會話期間集里。比如,一個用戶在一次瀏覽過程中請求了ABCBCDE頁面,根據(jù)最大前向參引模型,用戶訪問過的訪問服務器會話期間應該是ABC和BCDE。時間窗口模型,以用戶訪問會話歷時來作為用戶訪問服務器會話期間的分界,如式(1)所示。當然也可能用戶離開了,卻長時間開著瀏覽器,如果出現(xiàn)這種情況,也可以使用間隔時間來區(qū)分訪問服務器會話期間。時間窗口是可以調(diào)整的。ltmmt.time-lt11t.time≤W(1)不過,在實際用戶訪問中經(jīng)常用戶在時間窗口內(nèi)同時在進行著兩個以上的訪問服務器會話期間,比如同時打開幾個瀏覽器窗口,在一個窗口內(nèi)容下載過程中,瀏覽另外的窗口內(nèi)容。因此,我們提出把時間窗口模型和最大參引模型結合起來,對訪問服務器會話期間進行推斷的方法。3基于最大前向參引模型的時間窗口模型前面介紹了根據(jù)不同的用戶瀏覽行為假設確定用戶訪問服務器會話期間的兩種方法,實際使用過程中都存在不完善的地方。假如某網(wǎng)站具有以下的鏈接結構:假如某用戶訪問序列是ABCDBEGF,訪問A頁面的時刻為0時刻。根據(jù)服務器記載,T1=5,T2=10,T3=16,T4=20,T5=28,T6=56,T7=60。而第T5=28分鐘訪問到E頁面,此刻用戶接了一個電話,在第T6=56分鐘時請求了E頁面,在第60分鐘又請求了G頁面。這種情形下,根據(jù)最大前向參引模型,可以劃分為兩個會話期間—ABCD和CEFG。根據(jù)時間窗口模型,取時間窗口長度為15分鐘,那么,可以劃分為三個會話期間分別是ABC,DCE和FG??梢?單純使用最大前向參引模型,無法區(qū)分一個用戶沿時間軸訪問的準確轉折點,比如說用戶前后兩次訪問間隔了有可能把一個用戶的若干次訪問全都分配到一個訪問服務器會話期間中。而時間窗口模型僅按照用戶瀏覽時間長短區(qū)分,如果用戶在短時間(時間窗口)里進行了兩次訪問,用時間窗口模型就無法區(qū)分,同時,如果時間窗口設置不合適,又會把不屬于一次訪問會話的頁面放在一起。因此,我們提出綜合以上兩種方法優(yōu)點的會話期間確定方法:①根據(jù)最大前向參引模型生成用戶訪問服務器會話期間。②把根據(jù)最大前向參引模型劃分的除了第一個會話期間的其他會話期間按照時間窗口約束進行劃分。在上述中把BEFG,再根據(jù)時間窗口約束W=15進行劃分,就得到了ABCD,BE,FG三個會話期間。4不同頁面的參引關系由于客戶端緩存的存在,用戶訪問過程中會不斷訪問到緩存中間已經(jīng)存在的頁面,前面的方法只是從服務器日志中區(qū)分出了一個個用戶訪問服務器會話期間,其中沒有完全包含所有用戶訪問過的頁面。需要推斷完善用戶訪問服務器會話期間。這里給出了一種推斷的算法??傮w思路是判斷兩個相鄰的頁面之間是否存在參引關系,所謂參引關系,就是指從一個頁面上的鏈接可以訪問到另一個頁面。若沒有參引關系,就有需要推斷。假定相鄰頁面中間,后一個頁面為當前頁面。這里就有兩種可能性:①需要推理的頁面在該用戶訪問會話期間以前面頁面為參引頁面的頁面集中間;②需要推理的頁面在前面頁面的參引頁面中間。因此,問題就轉換為在以前面頁面為參引頁面的頁面集與后一個頁面的參引頁面集之間的交集,或者前面頁面的參引頁面集和后一個頁面的參引頁面集中間尋找服務器日志中沒有記載的用戶訪問頁面。通過這種方法就可以補上用戶從客戶端緩存中訪問的頁面。根據(jù)圖1和圖2,我們知道E,C頁面之間不存在直接參引關系,通過尋找E,C頁面參引頁面的交集—B,可以推斷出用戶在訪問C與E頁面之間,可能通過客戶端的緩存訪問到了B頁面,由B頁面上的鏈接轉到了E頁面。同樣道理,我們可以推斷出用戶在訪問F頁面之前可能通過客戶端的緩存訪問到了B和A頁面,由A頁面上的鏈接轉到了F頁面。5服務器信息整理通過對用戶訪問日志分析,確定用戶訪問會話期間、推斷和完善用戶訪問會話期間,我們可以比較清楚地了解用戶訪問的情況,為進一步的Web用戶訪問數(shù)據(jù)挖掘做好準備。本文在上述假設基礎上只給出了如何把服務器端日志整理成用戶訪問會話期間并完善會話期間的方法。綜合了最大化前向訪問模型和時間窗口模型確定用戶訪問服務器會話期間的方法。其次,由于一個完整的Web是由一個個圖片和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 承包合同終止協(xié)議
- 木材公司銷售合同
- 平面模特拍攝合同
- 電力施工勞務合同
- 漫畫助理外包合同
- 油漆勞務分包合同協(xié)議書
- 無人機物流配送運營合作項目合同
- 商丘幼兒師范高等??茖W校《旅行社經(jīng)營管理》2023-2024學年第二學期期末試卷
- 山東管理學院《高階地質(zhì)資源勘查與評價》2023-2024學年第二學期期末試卷
- 文華學院《地理科學類專業(yè)導論》2023-2024學年第二學期期末試卷
- 2024環(huán)氧磨石地坪施工技術規(guī)程
- 五年級下冊小學數(shù)學《分數(shù)的加法和減法》單元作業(yè)設計
- 2024年建筑業(yè)10項新技術
- 重大風險管控方案及措施客運站
- 新編大學英語跨文化交際教程 課件 Unit 1-A Chinese Character
- 方案偏離處理措施
- 顱腦損傷的護理診斷及護理措施
- 純電動乘用車 技術條件
- 德力西質(zhì)量獎自評報告領導樣本
- IT總監(jiān)年終述職報告
- 環(huán)境衛(wèi)生整治推進行動實施方案
評論
0/150
提交評論