




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書用戶行為數(shù)據(jù)分析 項(xiàng)目計(jì)劃書2019/5/4修改記錄版本修改日期修改人修改內(nèi)容審核人V1.01技術(shù)開發(fā)部創(chuàng)建,初稿用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書V1.01V1.01V1.01V1.01V1.01V1.01數(shù)據(jù)采集方式分析數(shù)據(jù)分析模型 需求描述和示例網(wǎng)站用戶身份識(shí)別;web 日志缺陷;漏斗模型數(shù)據(jù)分析模型與數(shù)據(jù)庫表的對(duì)應(yīng)關(guān)系WEKA 開源數(shù)據(jù)挖掘工具統(tǒng)計(jì)分析系統(tǒng)項(xiàng)目周期和項(xiàng)目開發(fā)進(jìn)度Analysis.mpp技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書目錄一、 項(xiàng)目背景 5二、 相關(guān)術(shù)語 51. Web 數(shù)據(jù)挖掘 51) Web 數(shù)據(jù)挖掘分類 62) Web 數(shù)據(jù)的特點(diǎn) 73) 典型
2、 Web 挖掘的處理流程 74) 常用的數(shù)據(jù)挖掘技術(shù) 75) Web 商業(yè)智能 BI(Business Intelligence) 82. 網(wǎng)站流量統(tǒng)計(jì) 103. 統(tǒng)計(jì)指標(biāo)/術(shù)語 104. 用戶分析 - 網(wǎng)站用戶的識(shí)別 135. WEB 日志的作用和缺陷 156. 漏斗模型(Funnel Model) 177. 目前提供此服務(wù)產(chǎn)品/企業(yè) 18三、 項(xiàng)目目的 18四、 項(xiàng)目需求 181. 頁面統(tǒng)計(jì) 182. 用戶行為指標(biāo) 193. 潛在用戶特征分析 194. 指定 User Cookie 的分析 205. 用戶趨勢(shì)分析 20五、 項(xiàng)目系統(tǒng)設(shè)計(jì) 20六、 項(xiàng)目詳細(xì)設(shè)計(jì) 211. 數(shù)據(jù)收集 212.
3、 數(shù)據(jù)模型 221) 統(tǒng)計(jì) PV 量(趨勢(shì)) 222) 消重 統(tǒng)計(jì)獨(dú)立 IP 量 / IP 的平均訪問頁面量(趨勢(shì)) 223) 消重 統(tǒng)計(jì)獨(dú)立 UV 量 / UV 的平均訪問頁面量(趨勢(shì)) 234) 統(tǒng)計(jì) URL 的訪問來源 Ref 的量 / Ref 排行(趨勢(shì)) 235) 統(tǒng)計(jì) Ref=URL 的去訪 URL*/跳出的量 / 去訪/跳出排行(趨勢(shì)) 236) 統(tǒng)計(jì)分析/預(yù)測/規(guī)律 特定用戶的行為(趨勢(shì)) 247) 統(tǒng)計(jì)新訪客/老訪客(趨勢(shì)) 248) 頁面平均停留時(shí)間 / 頁面平均時(shí)長 (趨勢(shì)) 249) 搜索引擎列表 2410) 搜索引擎關(guān)鍵詞 2511) 搜索引擎關(guān)鍵詞(各搜索引擎) 2
4、512) 老用戶回頭率(用戶黏性) 2513) 新增用戶增加/流失(用戶黏性) 2514) 不活躍用戶激活(用戶黏性) 2615) 用戶瀏覽深度(用戶黏性) 26技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書16) 用戶訪問興趣分析(用戶黏性) 2617) 性別結(jié)構(gòu)(訪客特征分析) 2618) 年齡結(jié)構(gòu)(訪客特征分析) 2619) 學(xué)歷結(jié)構(gòu)(訪客特征分析) 2620) 收入結(jié)構(gòu)(訪客特征分析) 2721) 操作系統(tǒng)類型(客戶端信息) 2722) 操作系統(tǒng)語言(客戶端信息) 2723) 操作系統(tǒng)時(shí)區(qū)(客戶端信息) 2724) 瀏覽器(客戶端信息) 2725) 顯示器顏色(客戶端信息) 2726) 屏幕分辨
5、率(客戶端信息) 2827) 國家/省份 - 地址位置(客戶端信息) 2828) 城市 - 地址位置(客戶端信息) 2829) 接入商(客戶端信息) 2830) 場所(客戶端信息) 283. 數(shù)據(jù)處理 284. 數(shù)據(jù)展示 281) 參考網(wǎng)站 292) 趨勢(shì) 曲線圖趨勢(shì) 353) 忠誠度 / 用戶黏性 394) 用戶客戶端 瀏覽器 415) 來源分析:Ref 分析、 站內(nèi)/站外、站外統(tǒng)計(jì) 416) 用戶行為 45七、 項(xiàng)目約束 45八、 項(xiàng)目資源 45九、 項(xiàng)目周期 46十、 項(xiàng)目交付 48十一、 其他信息 48技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書一、 項(xiàng)目背景數(shù)據(jù)挖掘技術(shù)是近年來計(jì)算機(jī)技術(shù)發(fā)展
6、的熱點(diǎn)之一。通過對(duì)歷史積累的大量數(shù)據(jù)的有效挖掘,可以發(fā)現(xiàn)隱藏的規(guī)律或模式,為決策提供支持,而這些規(guī)律或模式是不能夠依靠簡單的數(shù)據(jù)查詢得到,或者是不能在可接受的時(shí)間內(nèi)得到。這些規(guī)律或模式可以進(jìn)一步在專業(yè)人員的識(shí)別下成為知識(shí)。數(shù)據(jù)挖掘面對(duì)的任務(wù)是復(fù)雜的,通常包括分類、預(yù)測、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)和聚類分析等。企業(yè)網(wǎng)站的績效考評(píng)就是指企業(yè)網(wǎng)站訪問情況的績效考評(píng),在網(wǎng)絡(luò)營銷評(píng)價(jià)方法中,網(wǎng)站訪問統(tǒng)計(jì)分析是重要的方法之一,通過網(wǎng)站訪問統(tǒng)計(jì)報(bào)告,不僅可以了解網(wǎng)絡(luò)營銷所取得的效果,而且可以從統(tǒng)計(jì)數(shù)字中發(fā)現(xiàn)許多有說服力的問題。網(wǎng)站訪問量統(tǒng)計(jì)分析無論對(duì)于某項(xiàng)具體的網(wǎng)絡(luò)營銷活動(dòng)還是總體效果都有參考價(jià)值,也是網(wǎng)絡(luò)營銷評(píng)價(jià)體系中
7、最具有說服力的量化指標(biāo)。銷售預(yù)測在提高企業(yè)的經(jīng)濟(jì)效益及決策支持水平方面占有重要的地位。隨著企業(yè)信息化水平的提高,企業(yè)銷售數(shù)據(jù)的日益豐富,管理者對(duì)其中隱藏的銷售預(yù)測信息的渴望日益強(qiáng)烈。用傳統(tǒng)的方法來分析這些海量數(shù)據(jù)中的銷售信息非常困難,已不能適應(yīng)時(shí)代的要求。如何找到更好的方法挖掘出銷售數(shù)據(jù)中隱藏的銷售預(yù)測信息。二、 相關(guān)術(shù)語1. Web 數(shù)據(jù)挖掘Web 數(shù)據(jù)挖掘建立在對(duì)大量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,采用相應(yīng)的數(shù)據(jù)挖掘算法,在具體的應(yīng)用模型上進(jìn)行數(shù)據(jù)的提取、數(shù)據(jù)篩選、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和模式分析,最后做出歸納性的推理、預(yù)測客戶的個(gè)性化行為以及用戶習(xí)慣,從而幫助進(jìn)行決策和管理,減少?zèng)Q策的風(fēng)險(xiǎn)。We
8、b 數(shù)據(jù)挖掘涉及多個(gè)領(lǐng)域,除數(shù)據(jù)挖掘外,還涉及計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉儲(chǔ)、人工智能、信息檢索、可視化、自然語言理解等技術(shù)。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書1) Web 數(shù)據(jù)挖掘分類Web 數(shù)據(jù)挖掘可分為四類:Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘、Web 使用記錄挖掘和 Web 用戶性質(zhì)挖掘。其中,Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和 Web 使用記錄挖掘是 Web1.0 時(shí)代就已經(jīng)有了的,而 Web 用戶性質(zhì)挖掘則是伴隨著 Web2.0 的出現(xiàn)而出現(xiàn)的。2.1 Web 內(nèi)容挖掘(WCM,Web Content Mining)2.2 Web 結(jié)構(gòu)挖掘(WSM,Web Structure Mi
9、ning)的基本思想是將 Web 看作一個(gè)有向圖,他的頂點(diǎn)是 Web 頁面,頁面間的超鏈就是圖的邊。然后利用圖論對(duì) Web 的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。2.3 Web 使用記錄挖掘(WUM,Web Usage Mining)Web 使用記錄挖掘也叫 Web 日志挖掘或 Web 訪問信息挖掘。它是通過挖掘相關(guān)的 Web 日志記錄,來發(fā)現(xiàn)用戶訪問 Web 頁面的模式,通過分析日志記錄中的規(guī)律,可以識(shí)別用戶的喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競爭力。Web 使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外, 還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、交易信息、Cookie 中的信息、用戶查詢
10、、等一切用戶與站點(diǎn)之間可能的交互記錄。Web 使用記錄挖掘方法主要有以下兩種:(1) 將網(wǎng)絡(luò)服務(wù)器的日志文件作為原始數(shù)據(jù),應(yīng)用特定的預(yù)處理方法進(jìn)行處理后再進(jìn)行挖掘;(2) 將網(wǎng)絡(luò)服務(wù)器的日志文件轉(zhuǎn)換為圖表,然后再進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘。通常,在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后就可以使用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行挖掘。2.4 Web 用戶性質(zhì)挖掘Web 用戶性質(zhì)挖掘是伴隨著 Web2.0 的出現(xiàn)而出現(xiàn)的?;?RSS、Blog、SNS、Tag 以及 WiKi等互聯(lián)網(wǎng)軟件的廣泛應(yīng)用,Web2.0 幫助人們從 Web10 時(shí)代各大門戶網(wǎng)站“填鴨”式的信息轟炸,過渡到了“人人對(duì)話”,每個(gè)普通用戶既是信息的獲取者,也是
11、信息的提供者。4面對(duì) Web2.0 的誕生,Web 數(shù)據(jù)挖掘技術(shù)又面臨著新的挑戰(zhàn)。如果說 Web 使用記錄挖掘是挖掘網(wǎng)站訪問者在各大網(wǎng)站上留下的痕跡,那么 Web 用戶性質(zhì)挖掘則是要去 Web 用戶的老巢探尋究竟。在 Web2.0 時(shí)代,網(wǎng)絡(luò)徹底個(gè)人化了,它完全允許客戶用自己的方式、喜好和個(gè)性化的定制服務(wù)創(chuàng)造自己的互聯(lián)網(wǎng),它一方面給予互聯(lián)網(wǎng)用戶最大的自由度,另一方面給予有心商家有待發(fā)掘的高含金量信息數(shù)據(jù)。通過對(duì) Web 用戶自建的RSS、Blog 等 Web2.0 功能模塊下客戶信息的統(tǒng)計(jì)分析,能夠幫助運(yùn)營商以較低成本獲得準(zhǔn)確度較高的客戶興趣傾向、個(gè)性化需求以及新業(yè)務(wù)發(fā)展趨勢(shì)等信息。有關(guān) We
12、b2.0 下的數(shù)據(jù)挖掘正在進(jìn)一步的研究中。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書2) Web 數(shù)據(jù)的特點(diǎn)1)異構(gòu)數(shù)據(jù)庫環(huán)境。Web 上的每一個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,每個(gè)數(shù)據(jù)源都是異構(gòu)的,因而每一站點(diǎn)的信息和組織都不一樣,這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫。2)分布式數(shù)據(jù)源。Web 頁面散布在世界各地的 Web 服務(wù)器上,形成了分布式數(shù)據(jù)源。3)半結(jié)構(gòu)化。半結(jié)構(gòu)化是 Web 上數(shù)據(jù)的最大特點(diǎn)。Web 上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型描述,是一種非完全結(jié)構(gòu)化的數(shù)據(jù),稱之為半結(jié)構(gòu)化數(shù)據(jù)。4)動(dòng)態(tài)性強(qiáng)。Web 是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源,信息不斷地快速更新,各站點(diǎn)的鏈接信息和訪問記錄的更新非常頻繁。5)多樣復(fù)雜
13、性。Web 包含了各種信息和資源,有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻數(shù)據(jù)和視頻數(shù)據(jù)等多種多媒體數(shù)據(jù)。3) 典型 Web 挖掘的處理流程包括如下四個(gè)過程:1)查找資源:根據(jù)挖掘目的,從 Web 資源中提取相關(guān)數(shù)據(jù),構(gòu)成目標(biāo)數(shù)據(jù)集,Web 數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進(jìn)行數(shù)據(jù)提取。其任務(wù)是從日標(biāo) Web 數(shù)據(jù)(包括 Web 文檔、電子郵件、電子文檔、新聞組、網(wǎng)站日志、網(wǎng)絡(luò)數(shù)據(jù)庫中的數(shù)據(jù)等)中得到數(shù)據(jù)。2)數(shù)據(jù)預(yù)處理:在進(jìn)行 Web 挖掘之前對(duì)“雜質(zhì)”數(shù)據(jù)進(jìn)行過濾。例如消除數(shù)據(jù)的不一致性;將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一為一個(gè)數(shù)據(jù)存儲(chǔ)等。預(yù)處理數(shù)據(jù)的效果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式。數(shù)據(jù)預(yù)處理主
14、要包括站點(diǎn)識(shí)別、數(shù)據(jù)選擇、數(shù)據(jù)凈化、用戶識(shí)別和會(huì)話識(shí)別等。3)模式發(fā)現(xiàn):利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識(shí)。常用的模式發(fā)現(xiàn)技術(shù)包括:路徑分析、關(guān)聯(lián)規(guī)則挖掘、時(shí)序模式發(fā)現(xiàn)、聚類和分類等技術(shù)。4)模式分析:利用合適的工具和技術(shù)對(duì)挖掘出來的模式進(jìn)行分析、解釋、可視化,把發(fā)現(xiàn)的規(guī)則模式轉(zhuǎn)換為知識(shí)。4) 常用的數(shù)據(jù)挖掘技術(shù)6.1 路徑分析技術(shù)我們通常采用圖的方法來分析 Web 頁面之問的路徑關(guān)系。G(V,E),其中:V 是頁面的集合,E 是頁面之間的超鏈接集合,頁面定義為圖中的頂點(diǎn),而頁面聞的超鏈接定義為圖技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書中的有向邊。頂點(diǎn) v
15、的人邊表示對(duì) v 的引用,出邊表示 v 引用了其他的頁面,這樣形成網(wǎng)站的結(jié)構(gòu)圖,從圖中可以確定最頻繁的訪問路徑。路徑分析技術(shù)常用于進(jìn)行改進(jìn)站點(diǎn)的結(jié)構(gòu)。如 70的用戶訪問companyproduct 時(shí),是從company 開始,經(jīng)過companynewcompanyproductscompanyproduct。此時(shí)可以將路徑放在比較顯著的地方,方便了用戶訪問,也提高了該產(chǎn)品的點(diǎn)擊率。6.2 關(guān)聯(lián)規(guī)則技術(shù)關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項(xiàng)中挖掘出相關(guān)的規(guī)則,就是要挖掘出用戶在一個(gè)訪問期限(Session),從服務(wù)器上訪問的頁面文件之間的聯(lián)系,這些頁面之間并不存在直接的參引(Re
16、ference)關(guān)系。使用關(guān)聯(lián)規(guī)則可以發(fā)展很多相關(guān)信息或產(chǎn)品服務(wù)。例如:某信息 A 和 B,同時(shí)被很多用戶瀏覽,則說明 A 和 B 有可能相關(guān)。同時(shí)點(diǎn)擊的用戶越多,其相關(guān)度就可能越高。系統(tǒng)可以利用這種思想為用戶推薦相關(guān)信息或產(chǎn)品服務(wù)。如當(dāng)當(dāng)電子書店就采用了這一模式用以推薦相關(guān)書目。當(dāng)你選擇某本圖書時(shí),系統(tǒng)會(huì)自動(dòng)給你推薦信息,告知“很多讀者在購買此書時(shí)還購買的其他書目”。ACM 數(shù)字圖書館也采用了這一思想,推出信息推薦服務(wù)“Peer to Peer”。6.3 序列模式挖掘技術(shù)序列模式數(shù)據(jù)挖掘技術(shù)就是要挖掘出交易集之間的有時(shí)間序列關(guān)系的模式。它與關(guān)聯(lián)挖掘技術(shù)都是從用戶訪問下的日志中尋找用戶普遍訪問
17、的規(guī)律,關(guān)聯(lián)挖掘技術(shù)注重事務(wù)內(nèi)的關(guān)系,而序列模式技術(shù)則注重事務(wù)之間的關(guān)系。發(fā)現(xiàn)序列模式,便于預(yù)測用戶的訪問模式,有助于開展基于這種模式的有針對(duì)性的廣告服務(wù)。依賴于發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則和序列模式,能夠在服務(wù)器方動(dòng)態(tài)地創(chuàng)立特定的有針對(duì)性的頁面。以滿足訪問者的特定需求。6.4 聚類分類技術(shù)分類規(guī)則可挖掘出某些共同的特性,而這一特性可對(duì)新添加到數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)進(jìn)行分類。在 Web 數(shù)據(jù)挖掘中,分類技術(shù)可根據(jù)訪問用戶而得到個(gè)人信息、共同的訪問模式以及訪問某一服務(wù)器文件的用戶特征。而聚類技術(shù)則是對(duì)符合某一訪問規(guī)律特征的用戶進(jìn)行用戶待征挖掘。發(fā)現(xiàn)分類規(guī)則可以識(shí)別一個(gè)特殊群體的公有屬性的描述,這種描述可以用于分類新
18、的檢索。如政府機(jī)關(guān)的用戶一般感興趣的頁面是companyproduct。聚類可以從 Web 訪問信息數(shù)據(jù)庫巾聚集出具有相似特性的用戶群。在 Web 事務(wù)日記中聚類用戶信息或數(shù)據(jù)項(xiàng)能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。這些事務(wù)信息可以用在:在找出用戶共同興趣后,進(jìn)行合作式信息推薦,共同體的成員町以互相推薦新的滾動(dòng)信息;自動(dòng)給一個(gè)特定的用戶聚類發(fā)送銷售郵件,為用戶聚類動(dòng)態(tài)地改變一個(gè)特殊的站點(diǎn)等。5) Web 商業(yè)智能 BI(Business Intelligence)深入分析訪問數(shù)據(jù),從訪問數(shù)據(jù)中挖掘財(cái)富。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書web-ia/1、文本挖掘技術(shù)和聚類模型分析的網(wǎng)站自動(dòng)分類;
19、2、用戶訪問興趣聚類;3、用戶等級(jí)自動(dòng)分類;4、用途分析;5、新產(chǎn)品推廣預(yù)測分析和精算分析;等一系列基于數(shù)學(xué)模型的 True BI 決策分析工具,幫助企業(yè)進(jìn)行產(chǎn)品 BI 分析、用戶 BI 分析、服務(wù)質(zhì)量測評(píng)、新產(chǎn)品市場預(yù)測與分析等一系列 True BI 服務(wù)。一、 異常訪問分析 一般情況下,正常的用戶訪問網(wǎng)站都是通過瀏覽器(IE、FireFox 等)向網(wǎng)站發(fā)送 URL 請(qǐng)求,操作是一個(gè)手動(dòng)平緩的過程。 所謂“異常訪問”,是指不是通過瀏覽器,而是通過程序進(jìn)行的一個(gè)高速機(jī)械化的連續(xù) URL 請(qǐng)求過程。這包括不良程序黑客攻擊、搜索引擎蜘蛛程序?qū)W(wǎng)站的訪問等。 “異常訪問”主要包括 5 個(gè)功能:異常訪
20、問分析、搜索引擎訪問分析、發(fā)生錯(cuò)誤分析、異常 URL 分析、時(shí)段訪問分析。 通過“異常訪問分析”,可以讓用戶發(fā)現(xiàn)異常訪問行為和訪問規(guī)律,通過對(duì) URL 請(qǐng)求 頻度、服務(wù)器處理時(shí)間、請(qǐng)求流量等時(shí)序圖形趨勢(shì)分析,確定黑客攻擊點(diǎn),排查軟件錯(cuò)誤、診斷服務(wù)器處理能力、網(wǎng)站Internet 帶寬限制“瓶頸”所在點(diǎn)。二、 頻道關(guān)聯(lián)分析 頻道關(guān)聯(lián)分析應(yīng)用對(duì)象是內(nèi)容管理者。網(wǎng)站在內(nèi)容服務(wù)層面被抽象為“頻道-子頻道-內(nèi)容”,組成“網(wǎng)站結(jié)構(gòu)樹”。數(shù)據(jù)挖掘的經(jīng)典故事是“啤酒和尿布”關(guān)聯(lián)發(fā)現(xiàn),說的是對(duì)某個(gè)商場的數(shù)據(jù)挖掘發(fā)現(xiàn),購買啤酒的人有很多同時(shí)購買尿布。關(guān)聯(lián)分析的目的,是發(fā)現(xiàn)在一個(gè)事物中,各個(gè)元素的關(guān)聯(lián)關(guān)系,通過關(guān)聯(lián)
21、關(guān)系的發(fā)現(xiàn),指導(dǎo)“關(guān)系設(shè)置”,進(jìn)而引導(dǎo)事物向有利于管理者主觀傾向的方向發(fā)展。 Web-DM 中的“頻道關(guān)聯(lián)分析”,針對(duì) Web的具體應(yīng)用情況,對(duì)經(jīng)典的“關(guān)聯(lián)分析”算法進(jìn)行了改進(jìn),使關(guān)聯(lián)分析速度更快,分析結(jié)果也更加有效。 簡單的結(jié)果可能不能給管理者更多的指導(dǎo)。Web-DM 不僅僅簡單地給出關(guān)聯(lián)分析中的“支持度”和“置信度”指標(biāo),在此基礎(chǔ)上,提出了“置信差”指標(biāo),進(jìn)一步提高關(guān)聯(lián)分析結(jié)果的可用性。在給出關(guān)聯(lián)分析技術(shù)指標(biāo)的同時(shí),給出包含關(guān)聯(lián)項(xiàng)的訪問 Session,使用戶可以更加詳細(xì)觀察和研究關(guān)聯(lián)分析的結(jié)果。三、 特定關(guān)聯(lián)分析 “頻道關(guān)聯(lián)分析”是在內(nèi)邏輯層面的關(guān)聯(lián)分析,對(duì)于“廣告”和用戶特別關(guān)心的 P
22、age 關(guān)聯(lián)分析是網(wǎng)站管理者希望掌握的數(shù)據(jù)。 哪些 Page 對(duì)于廣告的貢獻(xiàn)有多大?看廣告的人更多的看了哪些 Page? 特別推出的內(nèi)容與網(wǎng)站的其他 URL 有哪些關(guān)聯(lián)?關(guān)聯(lián)程度如何? Web-DM 的“特定關(guān)聯(lián)分析”給出深入分析結(jié)果,同時(shí)以簡單直觀的形式展示給用戶。以提供新聞或本地新聞為主的門戶網(wǎng)站,管理人員關(guān)心網(wǎng)站總體訪問情況,整體訪問趨勢(shì),內(nèi)容編輯人員關(guān)心熱門新聞和冷門新聞以及 TOP 排名,經(jīng)營人員關(guān)心訪問者從哪個(gè)頻道登錄網(wǎng)站、從哪個(gè)頻道的哪個(gè)頁面離開網(wǎng)站,其訪問行為呈現(xiàn)什么規(guī)律,設(shè)計(jì)人員關(guān)心網(wǎng)站頻道的如何設(shè)置以及頁面版面的如何布局,維護(hù)人員關(guān)心錯(cuò)誤是怎么產(chǎn)生的、如何跳轉(zhuǎn)的、網(wǎng)站是否收
23、到惡意攻擊等。商務(wù)網(wǎng)站 主要針對(duì)在網(wǎng)站上已經(jīng)注冊(cè)的客戶群,作為網(wǎng)站的經(jīng)營者不僅要掌握用戶在網(wǎng)上技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書關(guān)心哪些商品,更重要的是要掌握匿名用戶怎么變成注冊(cè)用戶,轉(zhuǎn)化率是多少,匿名用戶是直接訪問的還是通過搜索引擎鏈接來的,購買行為如何,營業(yè)額是多少等。對(duì)于電子郵件市場推廣,通過沉默用戶分析其沉默時(shí)間,根據(jù)發(fā)出量、返回量、成交量來判斷市場推廣效果。對(duì)于廣告市場推廣,通過曝光量、點(diǎn)擊量、成交量來反映市場推廣的效果。2. 網(wǎng)站流量統(tǒng)計(jì)流量統(tǒng)計(jì)是什么是指通過各種科學(xué)的方式,準(zhǔn)確的紀(jì)錄來訪某一頁面的訪問者的流量信息,目前而言,必須具備可以統(tǒng)計(jì):統(tǒng)計(jì)獨(dú)立的訪問者數(shù)量(獨(dú)立用戶、獨(dú)立
24、訪客);可以統(tǒng)計(jì)獨(dú)立的 IP 地址數(shù)量;可以統(tǒng)計(jì)頁面被刷新的數(shù)量。其他附加信息。3. 統(tǒng)計(jì)指標(biāo)/術(shù)語頁面瀏覽數(shù)(page views)PV(page view),即頁面瀏覽量,或點(diǎn)擊量;通常是衡量一個(gè)網(wǎng)絡(luò)新聞?lì)l道或網(wǎng)站甚至一條網(wǎng)絡(luò)新聞的主要指標(biāo)。高手對(duì) PV 的解釋是,一個(gè)訪問者在 24 小時(shí)(0 點(diǎn)到 24 點(diǎn))內(nèi)到底看了你網(wǎng)站幾個(gè)頁面。這里需要強(qiáng)調(diào):同一個(gè)人瀏覽你網(wǎng)站同一個(gè)頁面,不重復(fù)計(jì)算 PV 量,點(diǎn) 100 次也算 1 次。說白了,PV 就是一個(gè)訪問者打開了你的幾個(gè)頁面。PV 之于網(wǎng)站,就像收視率之于電視,從某種程度上已成為投資者衡量商業(yè)網(wǎng)站表現(xiàn)的最重要尺度。PV 的計(jì)算:當(dāng)一個(gè)訪問者
25、訪問的時(shí)候,記錄他所訪問的頁面和對(duì)應(yīng)的 IP,然后確定這個(gè) IP今天訪問了這個(gè)頁面沒有。如果你的網(wǎng)站到了 23 點(diǎn),單純 IP 有 60 萬條的話,每個(gè)訪問者平均訪問了 3 個(gè)頁面,那么 PV 表的記錄就要有 180 萬條。影響 PV 的因素:新聞發(fā)布的時(shí)間訪問的周期突發(fā)事件獨(dú)立訪客數(shù) (unique visitor)UV(unique visitor):指訪問某個(gè)站點(diǎn)或點(diǎn)擊某條新聞的不同 IP 地址的人數(shù)。在同一天內(nèi),UV 只記錄第一次進(jìn)入網(wǎng)站的具有獨(dú)立 IP 的訪問者,在同一天內(nèi)再次訪問該網(wǎng)站則不計(jì)數(shù)。獨(dú)立 IP 訪問者提供了一定時(shí)間內(nèi)不同觀眾數(shù)量的統(tǒng)計(jì)指標(biāo),而沒有反應(yīng)出網(wǎng)站的全面活動(dòng)。每
26、個(gè)訪問者的頁面瀏覽數(shù)(Page Views per user)技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書Page Views per user: 這是一個(gè)平均數(shù),即在一定時(shí)間內(nèi)全部頁面瀏覽數(shù)與所有訪問者相除的結(jié)果,即一個(gè)用戶瀏覽的網(wǎng)頁數(shù)量。這一指標(biāo)表明了訪問者對(duì)網(wǎng)站內(nèi)容或者產(chǎn)品信息感興趣的程度,也就是常說的網(wǎng)站“粘性”。重復(fù)訪客者數(shù)(repeat visitors)repeat visitors:重復(fù)訪問者。是指在一定時(shí)期內(nèi)不止一次訪問一個(gè)網(wǎng)站的獨(dú)立用戶。瀏覽數(shù) Page Views: 網(wǎng)頁(含文件及動(dòng)態(tài)網(wǎng)頁)被訪客瀏覽的次數(shù)。Page View 的計(jì)算范圍包括了所有格式的網(wǎng)頁,例如:.htm、.h
27、tml、.asp、.cfm、 asa、cdx、htmls、shtm、shtml、txt等等,可以由用戶根據(jù)實(shí)際情況自己設(shè)定。訪問數(shù) Visits: 也稱為登陸數(shù),一個(gè)登陸是指客戶開始訪問網(wǎng)站到離開網(wǎng)站的過程。其中:相鄰兩次點(diǎn)擊頁面時(shí)間間隔在 30 分鐘以內(nèi)(系統(tǒng)默認(rèn) 30 分鐘,用戶可以修改默認(rèn)值)為一次登陸,大于 30 分鐘為兩次登陸。用戶數(shù) Unique Visitors: 也稱為唯一客戶數(shù),是指一天內(nèi)訪問本網(wǎng)站的唯一 IP 個(gè)數(shù)。點(diǎn)擊數(shù) Hits: 是指日志文件中的總記錄條數(shù)。停留時(shí)間 Visiting Times: 也稱為訪問時(shí)長,是用同一個(gè)訪問過程中最后一個(gè)頁面的訪問時(shí)間減去第一個(gè)頁
28、面的訪問時(shí)間,得到此訪問在網(wǎng)站上的停留時(shí)間。首頁瀏覽數(shù): 網(wǎng)站首頁被訪客瀏覽的次數(shù)。過濾瀏覽數(shù) Filter Page Views: 網(wǎng)站中的某些頁面并不是獨(dú)立的頁面,而是附屬于某個(gè)頁面,如滾動(dòng)條頁面就是附屬于首頁的頁面,用戶可以將這些附屬頁面設(shè)置為過濾頁面,過濾頁面被訪客瀏覽的次數(shù)即為過濾瀏覽數(shù)。有效瀏覽數(shù) Effective Page Views: 去除過濾頁面后的其他所有頁面被訪客瀏覽的次數(shù),即有效瀏覽數(shù)=瀏覽數(shù)-過濾瀏覽數(shù)。平均訪問瀏覽數(shù): 一次訪問平均產(chǎn)生的瀏覽數(shù),即平均訪問瀏覽數(shù)=瀏覽數(shù)訪問數(shù)。重復(fù)訪問數(shù) Returning Visits during a day: 一天內(nèi)訪問兩次
29、以上的用戶數(shù)。曝光數(shù): 廣告彈出次數(shù)。廣告點(diǎn)擊數(shù): 用戶點(diǎn)擊彈出廣告的次數(shù),即 Click 數(shù)。返回?cái)?shù): 通過電子郵件進(jìn)行市場推廣時(shí),用戶通過點(diǎn)擊郵件中的鏈接地址訪問網(wǎng)站的次數(shù)。注冊(cè)數(shù): 用戶通過電子郵件和廣告訪問本網(wǎng)站,并最終轉(zhuǎn)換為注冊(cè)用戶的數(shù)量。返回率: 廣告彈出后,被用戶點(diǎn)擊的程度,即返回率=點(diǎn)擊數(shù)曝光數(shù)100%??蛻艮D(zhuǎn)化率: 客戶轉(zhuǎn)化率包含兩方面含義:用戶通過廣告訪問本網(wǎng)站,并最終轉(zhuǎn)化成注冊(cè)用戶的程度,即客戶轉(zhuǎn)化率=注冊(cè)數(shù)點(diǎn)擊數(shù)100%;用戶通過郵件上的鏈接地址訪問本網(wǎng)站,并最終轉(zhuǎn)化成注冊(cè)用戶的程度,即客戶轉(zhuǎn)化率=注冊(cè)數(shù)返回?cái)?shù)100%。發(fā)送字節(jié)數(shù): 從服務(wù)器端向客戶端發(fā)出的字節(jié)數(shù)。接收
30、字節(jié)數(shù): 服務(wù)器端從客戶端接收的字節(jié)數(shù)??傋止?jié)數(shù): 是發(fā)送字節(jié)數(shù)和接收字節(jié)數(shù)的總和,即總字節(jié)數(shù)發(fā)送字節(jié)數(shù)接收字節(jié)數(shù)。行為/路徑: 在一個(gè)訪問過程中,客戶訪問過的所有頁面的軌跡稱為路徑,或稱為行為。特定行為: 由用戶自行定義的行為,包含若干行為步驟,其中行為步驟不受限制,即可以任意設(shè)定行為步驟。進(jìn)而分析出滿足設(shè)定行為的發(fā)生次數(shù)及各個(gè)步驟之間的轉(zhuǎn)化率。特定行為轉(zhuǎn)化率: 在特定行為中,兩個(gè)步驟之間的轉(zhuǎn)化率。行為入口: 客戶開始訪問網(wǎng)站的第一個(gè)頁面。在 Web-IA 中,根據(jù)入口給出典型行為分析。行為出口: 客戶訪問網(wǎng)站的最后一個(gè)頁面。在 Web-IA 中,根據(jù)出口給出典型行為分析。沉默時(shí)間: 注冊(cè)用
31、戶最后一次訪問網(wǎng)站到分析日的天數(shù)。沉默用戶: 在沉默時(shí)間內(nèi)未訪問網(wǎng)站的注冊(cè)用戶。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書重復(fù)訪問用戶比例: 一天內(nèi)訪問兩次以上用戶占總用戶數(shù)的比例,該值越大表明用戶品質(zhì)越高,理想值為 100%。用戶粘著度指數(shù): 一天內(nèi)的總訪問數(shù)與總用戶數(shù)之比,該值越大表明用戶品質(zhì)越高。重度訪問用戶: 按每次訪問的停留時(shí)間劃分,把停留時(shí)間超過 20 分鐘的用戶歸為重度訪問用戶;也可以按照每次訪問產(chǎn)生的瀏覽數(shù)劃分,把一次訪問瀏覽超過 10 個(gè)頁面的用戶歸為重度訪問用戶。對(duì)于重度訪問用戶,包括以下四個(gè)指標(biāo),每個(gè)指標(biāo)值越大,表明用戶品質(zhì)越高。重度用戶比例(次數(shù))=(瀏覽數(shù)11 頁面的訪問數(shù)
32、)總訪問數(shù)重度用戶比例(時(shí)長)=(20 分鐘的訪問數(shù))總訪問數(shù)重度用戶指數(shù)=(20 分鐘的瀏覽數(shù))(20 分鐘的訪問數(shù))重度訪問量比列=(20 分鐘的瀏覽數(shù))總瀏覽數(shù)輕度訪問用戶: 按每次訪問的停留時(shí)間劃分,把停留時(shí)間不超過 1 分鐘的用戶歸為輕度訪問用戶。對(duì)于輕度訪問用戶,包括以下三個(gè)指標(biāo),每個(gè)指標(biāo)值越小,表明用戶品質(zhì)越高。輕度用戶比例=(0-1 分鐘的訪問數(shù))總訪問數(shù)輕度用戶指數(shù)=(0-1 分鐘的瀏覽數(shù))(0-1 分鐘的訪問數(shù))輕度訪問量比例=(0-1 分鐘的瀏覽數(shù))總瀏覽數(shù)拒絕率: 一次訪問只訪問一個(gè)頁面的訪問次數(shù)占總訪問數(shù)的比例,比例越小,表明用戶品質(zhì)越高。拒絕率(一個(gè)頁面)=只訪問
33、1 個(gè)頁面的訪問數(shù)總訪問數(shù)拒絕率(首頁)=只訪問首頁的訪問數(shù)總訪問數(shù)地區(qū): 訪問客戶的來源地區(qū),是根據(jù) IP 地區(qū)對(duì)照表,查詢?cè)L問客戶的 IP 地址落在哪個(gè) IP區(qū)段內(nèi),而得到其對(duì)應(yīng)的地區(qū)。地區(qū)包括國內(nèi)地區(qū)和國外地區(qū),國內(nèi)地區(qū)以省為單位,國外地區(qū)以國家為單位。時(shí)段: 按照一天 24 個(gè)小時(shí)自然時(shí)間段進(jìn)行劃分。趨勢(shì): 趨勢(shì)分為兩種,第一種是以時(shí)段為單位的一天 24 小時(shí)發(fā)展趨勢(shì)。第二種是以日為單位的周、月、以及指定區(qū)間發(fā)展趨勢(shì)。IP 地址: IP 地址由 4 個(gè)數(shù)組成,每個(gè)數(shù)可取值 0255, 各數(shù)之間用一個(gè)點(diǎn)號(hào).分開,例如: 6。頁面: 網(wǎng)站中的所有格式的網(wǎng)頁(含文件及動(dòng)態(tài)網(wǎng)頁),例如:.ht
34、m、.html、.asp、.cfm、 asa、cdx、htmls、shtm、shtml、txt 等等,可以由用戶根據(jù)實(shí)際情況自己設(shè)定屬于頁面的文件格式。特定頁面: 對(duì)于需要特殊分析的頁面,通過設(shè)置,從眾多頁面中獨(dú)立出來,進(jìn)行特定分析的頁面。過濾頁面: 網(wǎng)站中的某些頁面并不是獨(dú)立的頁面,而是附屬于某個(gè)頁面,如滾動(dòng)條頁面就是附屬于首頁的頁面,用戶可以將這些附屬頁面設(shè)置為過濾頁面。過濾后的瀏覽數(shù)方能真正反映網(wǎng)站的訪問情況。離開頁面: 客戶訪問網(wǎng)站的最后一個(gè)頁面。未定義頁面: 頁面功能沒有定義的頁面,即沒有歸類到任何頻道的頁面。頻道/欄目: 將網(wǎng)站中的各種內(nèi)容根據(jù)功能歸類,劃分出若干邏輯上的頻道或欄目
35、。網(wǎng)站: 網(wǎng)站是由 Web Server 組成,專業(yè)版一個(gè)網(wǎng)站只有一個(gè) Web Server,企業(yè)版和商務(wù)版一個(gè)網(wǎng)站至少由一個(gè) Web Server 組成。熱點(diǎn): 將一個(gè)網(wǎng)頁中包含的各個(gè)鏈接根據(jù)功能歸類劃分出若干板塊,比如新聞板塊、財(cái)經(jīng)板塊、體育板塊、科技板塊等,每個(gè)板塊成為一個(gè)熱點(diǎn)。進(jìn)而分析出該頁面上的各個(gè)熱點(diǎn)板塊被點(diǎn)擊的情況。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書匯總: 對(duì)多網(wǎng)站的分析進(jìn)行匯總。同期比較: 對(duì)任意兩個(gè)日、周、月、以及指定區(qū)間的瀏覽數(shù)(或訪問數(shù)、或用戶數(shù)、停留時(shí)間)進(jìn)行比較。比較對(duì)象可以是頁面、頻道、欄目、廣告、地區(qū)等。聚合: 對(duì)日期的聚合,比如周聚合就是將 7 天的數(shù)據(jù)合在一
36、起為一個(gè)分析項(xiàng),聚合目的就是以聚合項(xiàng)為單位分析網(wǎng)站發(fā)展的趨勢(shì)。環(huán)比: 在趨勢(shì)分析中,當(dāng)前日期數(shù)據(jù)與上一日期數(shù)據(jù)的比成為環(huán)比。跳轉(zhuǎn): 狀態(tài)代碼為 302 的訪問請(qǐng)求。熱門: 最受歡迎的頁面或頻道,即瀏覽數(shù)排名前若干位(可由用戶自行定義)的頁面或頻道。冷門: 最不受歡迎的頁面或頻道,即瀏覽數(shù)排名后若干位(可由用戶自行定義)的頁面或頻道。廣告: 通過在別的網(wǎng)站上彈出窗口等方式介紹本網(wǎng)站的一種商業(yè)活動(dòng)。郵件: 通過發(fā)送電子郵件,郵件中包含鏈接地址,吸引用戶通過點(diǎn)擊郵件中包含的鏈接地址訪問本網(wǎng)站,實(shí)際上也是廣告的一種。搜索引擎: 在互聯(lián)網(wǎng)上為您提供信息檢索服務(wù)的網(wǎng)站。關(guān)鍵字: 通過搜索引擎檢索的內(nèi)容。E
37、xcel 輸出: 將分析結(jié)果以 Excel 表格形式輸出。網(wǎng)站拓?fù)浣Y(jié)構(gòu): 網(wǎng)站的拓?fù)浣Y(jié)構(gòu)是由網(wǎng)站匯總、網(wǎng)站分析和頻道分析三類節(jié)點(diǎn)構(gòu)成。其中,網(wǎng)站匯總下可以有部門匯總,網(wǎng)站分析下可以有子網(wǎng)站,頻道分析下可以有子頻道。用戶根據(jù)網(wǎng)站拓?fù)浣Y(jié)構(gòu),來查詢所需要的分析結(jié)果。匿名用戶: 登陸網(wǎng)站不用確認(rèn)身份,便可訪問網(wǎng)站內(nèi)容的用戶。認(rèn)證用戶: 通過身份認(rèn)證后,方可訪問網(wǎng)站內(nèi)容的用戶。一般情況,用戶通過注冊(cè)成為認(rèn)證用戶。日志文件: 在 Web-IA 中,日志文件是指被分析網(wǎng)站的工作日志。瀏覽器: 客戶端通過什么瀏覽器訪問網(wǎng)站。操作系統(tǒng): 客戶端通過什么操作系統(tǒng)訪問網(wǎng)站。運(yùn)營商: 客戶端接入互聯(lián)網(wǎng)的服務(wù)提供商,比
38、如中國電信、中國網(wǎng)通、教研網(wǎng)等。接入方式: 客戶端接入互聯(lián)網(wǎng)的方式,比如撥號(hào)、專線、ISDN、ADSL 等。狀態(tài)代碼: 也稱作錯(cuò)誤代碼,是為服務(wù)器所接收每個(gè)請(qǐng)求(網(wǎng)頁點(diǎn)擊)分配的 3 位數(shù)代碼。4. 用戶分析 - 網(wǎng)站用戶的識(shí)別用戶分析是網(wǎng)站分析中一個(gè)重要的組成部分,在分析用戶之前我們必須首先能夠識(shí)別每個(gè)用戶,分辨哪些是”New Customer”,哪些是”Repeat Customer”。這樣不但能夠更加清晰地了解到底有多少用戶訪問了你的網(wǎng)站,分辨他們是誰(用戶 ID、郵箱、性別年齡等);同時(shí)也能夠幫助你更好地跟蹤你的用戶,發(fā)現(xiàn)它們的行為特征、興趣愛好及個(gè)性化的設(shè)置等,以便于更好地把握用戶需
39、求,提升用戶體驗(yàn)。通常當(dāng)你的網(wǎng)站提供了注冊(cè)服務(wù),而用戶注冊(cè)并登陸過你的網(wǎng)站,那么用戶可以更容易地被識(shí)別,因?yàn)榫W(wǎng)站一般都會(huì)保存注冊(cè)用戶的詳細(xì)信息;但是你的網(wǎng)站并不需要注冊(cè),而用戶的行為以瀏覽為主,這是用戶識(shí)別就會(huì)顯得較為困難,下面提供了幾種常用的用戶識(shí)別的方法:技術(shù)開發(fā)部1)2)3)4)用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書識(shí)別用戶的幾種方法當(dāng)用戶并未注冊(cè)登錄的情況下,識(shí)別用戶的唯一途徑就只剩下用戶瀏覽行為的點(diǎn)擊流數(shù)據(jù),通常情況下它們會(huì)保存在 WEB 日志里面。而 WEB 日志本身存在的缺陷可能導(dǎo)致用戶識(shí)別的不準(zhǔn)確性,所以我們?cè)谶x擇用戶識(shí)別方法的過程中,在條件允許的情況下盡量選擇更為準(zhǔn)確的方法:基于 IP
40、的用戶識(shí)別IP 地址是最容易獲取的信息,任何的 WEB 日志中均會(huì)包含,但其局限性也較為明顯:偽 IP、代理、動(dòng)態(tài) IP、局域網(wǎng)共享同一公網(wǎng) IP 出口這些情況都會(huì)影響基于 IP 來識(shí)別用戶的準(zhǔn)確性,所以 IP 識(shí)別用戶的準(zhǔn)確性比較低,目前一般不會(huì)直接采用 IP 來識(shí)別用戶。獲取難度:準(zhǔn)確度:基于 IP+Agent 的用戶識(shí)別同樣基于最簡單形式的 WEB 日志,我們可以增加一項(xiàng)Agent,來提高單一 IP 方式識(shí)別用戶的準(zhǔn)確性。Agent 也是 WEB 日志中一般都會(huì)包含的信息,通過 IP+Agent 的方式可以適當(dāng)提高 IP 代理、公用 IP 這類情況下用戶的分辨度,同時(shí)通過 Agent 還
41、可以識(shí)別網(wǎng)絡(luò)爬蟲等特殊“用戶”,但同樣準(zhǔn)確度也欠高。獲取難度:準(zhǔn)確度:基于 cookie 的用戶識(shí)別當(dāng)你通過自定義 Apache 日志格式或者 JavaScript 的方法獲得用戶 cookie 的時(shí)候,其實(shí)你已經(jīng)找到了一個(gè)更有效的用戶識(shí)別的手段。cookie 在未被清除的其前提下可以認(rèn)為是跟某個(gè)訪問客戶端電腦綁定的(一個(gè)客戶端有可能包含多個(gè) cookie),所以用 cookie 來標(biāo)識(shí)用戶其實(shí)指的是用戶使用的客戶端電腦,而并非用戶本身。用 cookie 識(shí)別用戶的方法當(dāng)然也存在缺陷:最常見的就是 cookie 被清除而導(dǎo)致用戶無法與原先記錄實(shí)現(xiàn)對(duì)應(yīng);同時(shí)由于客戶端電腦會(huì)被共用,或者用戶會(huì)在不
42、同的電腦上訪問你的網(wǎng)站,這個(gè)時(shí)候 cookie 就無法直接對(duì)應(yīng)到該用戶了。獲取難度:準(zhǔn)確度:基于用戶 ID 的用戶識(shí)別基于用戶 ID 的用戶識(shí)別是最為準(zhǔn)確,因?yàn)橐话闱闆r下用戶不同共享他的用戶 ID,所以我們可以認(rèn)為數(shù)據(jù)中的 userid 唯一地指向該用戶,幾乎不存在偏差。當(dāng)然要使用用戶 ID 來識(shí)別用戶是需要一定的前提條件的:網(wǎng)站必須是提供用戶注冊(cè)登錄服務(wù)的,并且可以通過一些手段在點(diǎn)擊流數(shù)據(jù)中記錄 userid。技術(shù)開發(fā)部5)6)用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書獲取難度:準(zhǔn)確度:所以對(duì)于一個(gè)需要用戶 ID 注冊(cè)登錄的網(wǎng)站來說,用戶唯一標(biāo)識(shí)符的選擇可以遵從以下順序:當(dāng)用戶注冊(cè)登錄時(shí)以 userid 為
43、準(zhǔn),當(dāng)用戶在未登錄狀態(tài)瀏覽時(shí)以用戶的 cookie 為準(zhǔn),當(dāng)用戶未登錄且 cookie 無法獲取的情況下以 IP+Agent 為準(zhǔn);這樣就能從最大程度上識(shí)別唯一用戶。這里推薦一個(gè)網(wǎng)站日志中 cookie 項(xiàng)的自定義設(shè)置方法,以便更好地識(shí)別用戶。cookie是從用戶端存放的 cookie 文件記錄中獲取的,這個(gè)文件里面一般在包含一個(gè) cookieid 的同時(shí)也會(huì)記下用戶在該網(wǎng)站的 userid(如果你的網(wǎng)站需要注冊(cè)登陸并且該用戶曾經(jīng)登錄過你的網(wǎng)站且 cookie 未被刪除),所以在記錄日志文件中 cookie 項(xiàng)的時(shí)候可以優(yōu)先去查詢 cookie中是否含有用戶 ID 類的信息,如果存在則將用戶
44、ID 寫到日志的 cookie 項(xiàng),如果不存在則查找是否有 cookieid,如果有則記錄,沒有則記為”-”,這樣日志中的 cookie 就可以直接作為最有效的用戶唯一標(biāo)識(shí)符被用作統(tǒng)計(jì)。當(dāng)然這里需要注意該方法只有網(wǎng)站本身才能夠?qū)崿F(xiàn),因?yàn)橛脩?ID 作為用戶隱私信息只有該網(wǎng)站才知道其在 cookie 的設(shè)置及存放位置,第三方統(tǒng)計(jì)工具一般很難獲取。獲取用戶信息的途徑通過以上的方法實(shí)現(xiàn)用戶身份的唯一標(biāo)識(shí)后,我們可以通過一些途徑來采集用戶的基礎(chǔ)信息、特征信息及行為信息,然后為每位用戶建立起詳細(xì)的 Profile:1) 用戶注冊(cè)時(shí)填寫的用戶注冊(cè)信息及基本資料;2) 從網(wǎng)站日志中得到的用戶瀏覽行為數(shù)據(jù);3
45、) 從數(shù)據(jù)庫中獲取的用戶網(wǎng)站業(yè)務(wù)應(yīng)用數(shù)據(jù);4) 基于用戶歷史數(shù)據(jù)的推導(dǎo)和預(yù)測;5) 通過直接聯(lián)系用戶或者用戶調(diào)研的途徑獲得的用戶數(shù)據(jù);6) 有第三方服務(wù)機(jī)構(gòu)提供的用戶數(shù)據(jù)。識(shí)別并獲取用戶信息的價(jià)值通過用戶身份識(shí)別及用戶基本信息的采集,我們可以通過網(wǎng)站分析的各種方法在網(wǎng)站是實(shí)現(xiàn)一些有價(jià)值的應(yīng)用:基于用戶特征信息的用戶細(xì)分;基于用戶的個(gè)性化頁面設(shè)置;基于用戶行為數(shù)據(jù)的關(guān)聯(lián)推薦;基于用戶興趣的定向營銷;參考:webdataanalysis/data-collection-and-preprocessing/5. WEB 日志的作用和缺陷Avinash Kaushik 將點(diǎn)擊流數(shù)據(jù)的獲取方式分為 4
46、種:log files、web beacons、JavaScript tags和 packet sniffers,其中包嗅探器(packet sniffers)比較不常見,最傳統(tǒng)的獲取方式是通過技術(shù)開發(fā)部;2)用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書WEB 日志文件(log files) 而 beacons 和 JavaScript 是目前較為流行的方式,Google Analytics目前就是采用 beacons+JavaScript 來獲取數(shù)據(jù)的,我們可以來簡單看一下傳統(tǒng)的網(wǎng)站日志和 beacons+JavaScript 方式各自的優(yōu)缺點(diǎn):1)WEB 日志文件優(yōu)勢(shì):簡單方便,不需要修改網(wǎng)頁代碼,可以自定
47、義日志格式;較多的現(xiàn)成的日志分析工具的支持(AWStats、Webalizer 等);獲取網(wǎng)絡(luò)爬蟲數(shù)據(jù)的唯一途徑;可以收集底層數(shù)據(jù)供反復(fù)的分析。缺陷:數(shù)據(jù)的質(zhì)量較低,網(wǎng)站日志包含所有日志數(shù)據(jù),包括 CSS、圖片、腳本文件的請(qǐng)求信息,所以過濾和預(yù)處理來提升數(shù)據(jù)質(zhì)量必不可少;頁面緩存導(dǎo)致瀏覽無日志記錄,這個(gè)是比較致命的。beacons+JavaScript優(yōu)勢(shì):只需要在頁面代碼中操作,不需要配置服務(wù)器;數(shù)據(jù)的獲取有較高的可控性,可以只在需要統(tǒng)計(jì)的頁面植入代碼;能夠獲取點(diǎn)擊、響應(yīng)等數(shù)據(jù);不需要擔(dān)心緩存等的影響,數(shù)據(jù)的準(zhǔn)確度較高;可用第三方 cookie 實(shí)現(xiàn)多網(wǎng)站跟蹤比較。缺陷:當(dāng)瀏覽器禁止接收?qǐng)D片
48、或者禁用 JS 時(shí),都可能導(dǎo)致數(shù)據(jù)獲取的失??;只在應(yīng)用服務(wù)層操作,無法獲取后臺(tái)的數(shù)據(jù);對(duì)圖片、文件等請(qǐng)求信息的獲取難度相對(duì)較大;過多地JS 可能導(dǎo)致頁面性能的下降,雖然這方面的影響一般可以忽略。無論通過何種方式,最終數(shù)據(jù)都是通過日志文件來記錄的,只是通過 JS 可以更容易控制想要獲取的數(shù)據(jù),并通過在 URL 帶參數(shù)的方式記錄到日志文件中共解析和統(tǒng)計(jì)。所以底層的數(shù)據(jù)形式無非就是記錄在日志文件中的那幾項(xiàng),在 WEB 日志格式一文中,已經(jīng)對(duì)網(wǎng)站日志的類型和組成做了基本的介紹,這里就再來解析下 WEB 日志中各項(xiàng)對(duì)網(wǎng)站數(shù)據(jù)分析的作用,以及存在的不確定性和缺陷。3)日志的不準(zhǔn)確性WEB 日志在技術(shù)層面的
49、獲取方式及各類外部因素的影響使基于網(wǎng)站日志的數(shù)據(jù)分析會(huì)存在許多的不準(zhǔn)確性,下面來介紹下 WEB 日志中那些項(xiàng)目可能造成數(shù)據(jù)的不準(zhǔn)確,以及造成這些缺陷的原因。a) 客戶端的控制和限制由于一些瀏覽網(wǎng)站的用戶信息都是有客戶端發(fā)送的,所以用戶的 IP、Agent 都是可以人為設(shè)置的;另外 cookie 可以被清理,瀏覽器出于安全的設(shè)置,用戶的可以在訪問過程中限制 cookie、referrer 的發(fā)送。這些都會(huì)導(dǎo)致用戶訪問數(shù)據(jù)的丟失或者數(shù)據(jù)的不準(zhǔn)確,而這類問題目前很難得到解決。b) 緩存瀏覽器緩存、服務(wù)器緩存、后退按鈕操作等都會(huì)導(dǎo)致頁面點(diǎn)擊日志的丟失及 referrer 的丟失,目前主要的處理方法是保
50、持頁面信息的不斷更新,可以在頁面中添加隨機(jī)數(shù)。當(dāng)然如果你使用的 JavaScript 的方法,那么就不需要擔(dān)心緩存的問題。技術(shù)開發(fā)部而用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書c) 跳轉(zhuǎn)一些跳轉(zhuǎn)導(dǎo)致 referrer 信息的丟失,致使用戶的訪問足跡中斷無法跟蹤。解決方法是將referer 通過 URL 重寫,作為 URL 參數(shù)帶入下一頁面,不過這樣會(huì)是頁面的 URL 顯得混亂。d) 代理 IP、動(dòng)態(tài) IP、局域網(wǎng)(家庭)公用 IPIP 其實(shí)準(zhǔn)確性并不高,現(xiàn)在不止存在偽 IP,而且局域網(wǎng)共享同一公網(wǎng) IP、代理的使用及動(dòng)態(tài) IP 分配方式,都可能使 IP 地址并不是與某個(gè)用戶綁定的,所以如果有更好的方法,盡量不
51、要使用 IP 來識(shí)別用戶。e) session 的定義與多 cookie不同的網(wǎng)站對(duì) session 的定義和獲取方法可能差異,比如非活動(dòng)狀態(tài) session 的失效時(shí)間、多進(jìn)程同時(shí)瀏覽時(shí) sessionid 的共享等,所以同一個(gè)網(wǎng)站中 session 的定義標(biāo)準(zhǔn)必須統(tǒng)一才能保證統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確。cookie 的不準(zhǔn)確一方面是由于某些情況下 cookie 無法獲取,另一方面是由于一個(gè)客戶端可以有多個(gè) cookie,諸如 chrome、Firefox 等瀏覽器的 cookie 存放路徑都會(huì)與 IE 的 cookie 存放路徑分開,所以如果你是用不同的瀏覽器瀏覽同一網(wǎng)站,很有可能你的 cookie
52、就是不同的。f) 停留時(shí)間停留時(shí)間并不是直接獲取的,而是通過底層日志中的數(shù)據(jù)計(jì)算得到的,因?yàn)樗腥罩局械臅r(shí)間都是時(shí)刻的概念,即點(diǎn)擊的時(shí)間點(diǎn)。這里不得不提的是一個(gè) session 的最后一個(gè)頁面的停留時(shí)間是無法計(jì)算得到的,可以來看一下停留時(shí)間的計(jì)算過程:假設(shè)一個(gè)用戶在一個(gè) session 里面依次點(diǎn)擊了 A-B-C 這 3 個(gè)頁面,并在點(diǎn)完 C 之后關(guān)閉了瀏覽器,或者長時(shí)間的禁止導(dǎo)致了 session 的中斷。那么我們可以從日志中獲得的數(shù)據(jù)為 3 個(gè)頁面的點(diǎn)擊時(shí)間(HitTime),假設(shè) A、B、C 點(diǎn)擊時(shí)間分別為 HTA、HTB、HTC,那么 A 和 B 頁面的停留時(shí)間(StayTime)就可
53、以通過計(jì)算得到:STA= HTB-HTA,STB= HTC-HTB,而因?yàn)槲覀儫o法獲取 session 結(jié)束的時(shí)間,所以 STC 是無法通過計(jì)算得到的,所以一般 session 最后頁面的停留時(shí)間是 0, session 得停留時(shí)間,即一次訪問的時(shí)間(Time on site)是 HTC- HTA,其實(shí)是從打開第一個(gè)頁面到打開最后一個(gè)頁面的時(shí)間間隔,也是不準(zhǔn)確的。另外,我們也無法獲知用戶在瀏覽一個(gè)頁面的時(shí)候到底做了什么,是不是一直在閱讀博客上的文章或者瀏覽網(wǎng)站上展示的商品,用戶也有可能在期間上了個(gè)廁所、接了通電話或者放空的片刻,所以計(jì)算得到的停留時(shí)間并不能說明用戶一直處于 Engagement
54、 的狀態(tài)。參考:webdataanalysis/data-collection-and-preprocessing/effect-of-we/6. 漏斗模型(Funnel Model)漏斗模型不僅顯示了用戶在進(jìn)入流程到實(shí)現(xiàn)目標(biāo)的最終轉(zhuǎn)化率,同時(shí)還可以展示整個(gè)關(guān)鍵路徑中每一步的轉(zhuǎn)化率。單一的漏斗模型對(duì)于分析來說沒有任何意義,我們不能單從一個(gè)漏斗模型中評(píng)價(jià)網(wǎng)站某個(gè)關(guān)鍵流程中各步驟的轉(zhuǎn)化率的好壞,所以必須通過趨勢(shì)、比較和細(xì)分的方法對(duì)流程中各步技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書驟的轉(zhuǎn)化率進(jìn)行分析:趨勢(shì)(Trend):從時(shí)間軸的變化情況進(jìn)行分析,適用于對(duì)某一流程或其中某個(gè)步驟進(jìn)行改進(jìn)或優(yōu)化的效果監(jiān)控;
55、比較(Compare):通過比較類似產(chǎn)品或服務(wù)間購買或使用流程的轉(zhuǎn)化率,發(fā)現(xiàn)某些產(chǎn)品或應(yīng)用中存在的問題;細(xì)分(Segment):細(xì)分來源或不同的客戶類型在轉(zhuǎn)化率上的表現(xiàn),發(fā)現(xiàn)一些高質(zhì)量的來源或客戶,通常用于分析網(wǎng)站的廣告或推廣的效果及 ROI。所以,漏斗模型適用于網(wǎng)站中某些關(guān)鍵路徑的轉(zhuǎn)化率的分析,以確定整個(gè)流程的設(shè)計(jì)是否合理,各步驟的優(yōu)劣,是否存在優(yōu)化的空間等。試著去了解用戶來你的網(wǎng)站的真正目的,為他們提供合理的訪問路徑或操作流程,而不是一味地去提高轉(zhuǎn)化率。7. 目前提供此服務(wù)產(chǎn)品/企業(yè)北京藍(lán)太平洋科技開發(fā)有限公司 webdss/(目前公司就購買的此產(chǎn)品 IIS 日志分析)般若網(wǎng)絡(luò)科技有限公司
56、 web-ia/Web 商業(yè)智能 Bi,深入分析訪問數(shù)據(jù),從訪問數(shù)據(jù)中挖掘財(cái)富。WEKA 懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis) 開源軟件。官方網(wǎng)址:cs.waikato.ac.nz/ml/weka/WEKA 作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。WEKA 提供的接口文檔可以實(shí)現(xiàn)自定義的數(shù)據(jù)挖掘算法。三、 項(xiàng)目目的四、 項(xiàng)目需求1. 頁面統(tǒng)計(jì)頁面 PageView 訪問數(shù)頁面 Ref 跳入頁面 UserView
57、 用戶數(shù)技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書頁面 IP 獨(dú)立 IP 數(shù)頁面 Out 跳出2. 用戶行為指標(biāo)用戶行為指標(biāo)主要反映用戶是如何來到網(wǎng)站的、在網(wǎng)站上停留了多長時(shí)間、訪問了那些頁面等,主要的統(tǒng)計(jì)指標(biāo)包括:用戶在網(wǎng)站的停留時(shí)間;用戶來源網(wǎng)站(也叫“引導(dǎo)網(wǎng)站”);用戶所使用的搜索引擎及其關(guān)鍵詞;在不同時(shí)段的用戶訪問量情況等。用戶區(qū)域分布用戶對(duì)在線支付功能的使用情況用戶對(duì)在線教室功能的使用情況用戶瀏覽網(wǎng)站的方式 時(shí)間 設(shè)備、瀏覽器名稱和版本、操作系統(tǒng)用戶瀏覽網(wǎng)站的方式相關(guān)統(tǒng)計(jì)指標(biāo)主要包括:用戶瀏覽器的名稱和版本;用戶瀏覽器的版本分布;訪問者電腦分辨率顯示模式;用戶所使用的操作系統(tǒng)名稱和版本;用
58、戶所在地理區(qū)域分布狀況等。3. 潛在用戶特征分析( / 網(wǎng)易郵箱廣告 分區(qū)域/分學(xué)歷/分職業(yè)投放 )1、最常瀏覽該網(wǎng)站的用戶性別分布2、最常瀏覽該網(wǎng)站的用戶年齡分布3、最常瀏覽該網(wǎng)站的用戶學(xué)歷分布4、最常瀏覽該網(wǎng)站的用戶婚姻狀況分布5、最常瀏覽該網(wǎng)站的用戶職業(yè)分布6、最常瀏覽該網(wǎng)站的用戶收入分布7、最常瀏覽該網(wǎng)站的用戶區(qū)域分布最后:那些人是我們潛在的用戶?技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書首頁有多少 PV 數(shù)?UV 數(shù)?有多少獨(dú)立 IP 訪問? 都從那些網(wǎng)址跳入?用戶又跳出到哪里去了?頻道/欄目首頁 網(wǎng)站欄目分類的優(yōu)勢(shì)有多少 PV 數(shù)?UV 數(shù)?有多少獨(dú)立 IP 訪問? 都從那些網(wǎng)址跳入?用
59、戶又跳出到哪里去了?新/舊功能頁面 聽課行為 / 記筆記行為有多少 PV 數(shù)?UV 數(shù)?有多少獨(dú)立 IP 訪問? 都從那些網(wǎng)址跳入?用戶又跳出到哪里去了?用戶都是用那個(gè)頁面進(jìn)入到聽課功能頁面的?是否和我們?cè)O(shè)定/假象的用戶行為一致?4. 指定 User Cookie 的分析用戶瀏覽軌跡特征;用戶頁面時(shí)長特征;用戶操作軌跡特征;新學(xué)員/老學(xué)員的操作行為差異?功能選擇差異?瀏覽/關(guān)注點(diǎn)差異?5. 用戶趨勢(shì)分析用戶瀏覽的趨勢(shì);使用產(chǎn)品的趨勢(shì);五、 項(xiàng)目系統(tǒng)設(shè)計(jì)如何獲取流量統(tǒng)計(jì)信息獲取網(wǎng)站訪問統(tǒng)計(jì)資料通常有兩種方法:一種是通過在自己的網(wǎng)站服務(wù)器端安裝統(tǒng)計(jì)分析軟件來進(jìn)行網(wǎng)站流量監(jiān)測;另一種是采用第三方提供
60、的網(wǎng)站流量分析服務(wù)。兩種方法各有利弊,采用第一種方法可以方便地獲得詳細(xì)的網(wǎng)站統(tǒng)計(jì)信息,并且除了訪問統(tǒng)計(jì)軟件的費(fèi)用之外無需其他直接的費(fèi)用,但由于這些資料在自己的服務(wù)器上,因此在向第三方提供有關(guān)數(shù)技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項(xiàng)目計(jì)劃書據(jù)時(shí)缺乏說服力;第二種方法則正好具有這種優(yōu)勢(shì),但通常要為這種服務(wù)付費(fèi),雖然也有一些免費(fèi)網(wǎng)站流量統(tǒng)計(jì)服務(wù),但由于在功能方面會(huì)有一定的限制,或者通常需要在網(wǎng)站上出現(xiàn)服務(wù)商的標(biāo)識(shí)甚至廣告,對(duì)于商業(yè)網(wǎng)站來說使用免費(fèi)服務(wù)肯那個(gè)不太合適。此外,如果必要,也可以根據(jù)需要自行開發(fā)網(wǎng)站流量統(tǒng)計(jì)系統(tǒng)。具體采取哪種形式,或者哪些形式的組合,可根據(jù)企業(yè)網(wǎng)絡(luò)營銷的實(shí)際需要決定。在線流量統(tǒng)計(jì)網(wǎng)站有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高層土方施工方案
- 樓板管口灌漿施工方案
- 房產(chǎn)委托代理合同
- 旅游酒店業(yè)智慧客房服務(wù)系統(tǒng)建設(shè)方案
- 橋梁基礎(chǔ)注漿施工方案
- 鐵藝別墅施工方案
- 冷凍機(jī)房施工方案
- 低壓柜施工方案
- phc靜壓樁施工方案
- 順德瀝青鋪路工程施工方案
- 23G409先張法預(yù)應(yīng)力混凝土管樁
- 2024年江蘇省中小學(xué)生金鑰匙科技競賽(高中組)考試題庫(含答案)
- DBJ53/T-39-2020 云南省民用建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn)
- 2023年山東春季高考數(shù)學(xué)試題
- 初中 初一 勞動(dòng)教育《舉辦一次家庭聚會(huì)》教學(xué)設(shè)計(jì)
- 人教版六年級(jí)上冊(cè)數(shù)學(xué)第六單元測試卷(百分?jǐn)?shù)(一))
- 《基礎(chǔ)英語》課件 Unit 1 Thinking as a Hobby
- 雅思大作文資料_十大類題材_解析詳細(xì)_應(yīng)有盡有(最好全部打印后看_非常全)
- 小學(xué)綜合實(shí)踐食品添加劑
- 電氣消防設(shè)計(jì)說明專篇
- GCP知識(shí)考核試題與答案
評(píng)論
0/150
提交評(píng)論