版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 信利SensitiView寬帶用戶行為分析系統(tǒng)技術(shù)建議書 西安信利軟件科技有限公司(版權(quán)所有)目 錄1、簡介3 1.1. 開發(fā)背景3 1.2. 術(shù)語:32. 項(xiàng)目概述4 2.1. 產(chǎn)品簡介4 2.2. 商業(yè)機(jī)會4 2.3. 系統(tǒng)組成5 2.4. 子系統(tǒng)功能描述5 2.5. 運(yùn)行環(huán)境83. 系統(tǒng)總體架構(gòu)9 3.1. 系統(tǒng)目標(biāo)9 3.2. 技術(shù)方案說明9 3.3. 網(wǎng)絡(luò)拓?fù)鋱D10 3.4. 網(wǎng)絡(luò)拓?fù)湔f明11 3.5. 系統(tǒng)整體結(jié)構(gòu)圖11 3.6. 系統(tǒng)中各服務(wù)器介紹12 3.7. 模塊清單134. 各模塊說明14 4.1. 數(shù)據(jù)采集模塊144.1.1 功能概述144.1.2 模塊設(shè)計(jì)要素說明15
2、4.1.3 結(jié)構(gòu)154.1.4 詳細(xì)功能說明16 4.2. 數(shù)據(jù)匯總存儲模塊174.2.1 模塊功能概述174.2.2 模塊設(shè)計(jì)要素說明174.2.3 結(jié)構(gòu)174.2.4 詳細(xì)功能說明18 4.3. 數(shù)據(jù)分析處理模塊184.3.1 模塊功能概述184.3.2 模塊設(shè)計(jì)要素說明184.3.3 詳細(xì)功能說明184.3.4 程序邏輯流程19 4.4. 數(shù)據(jù)展示模塊194.4.1 功能描述194.4.2 模塊設(shè)計(jì)要素說明214.4.3 結(jié)構(gòu)21用戶信息管理:對用戶信息進(jìn)行查詢、統(tǒng)計(jì)等。224.4.4 程序邏輯224.4.5 系統(tǒng)頁面設(shè)計(jì)225. 其他接口說明241、簡介1.1. 開發(fā)背景 互聯(lián)網(wǎng)應(yīng)用紛
3、呈,市場空間快速擴(kuò)張。電信運(yùn)營商在獲取寬帶接入收入之外,需要進(jìn)一步參與互聯(lián)網(wǎng)市場價(jià)值分配,不斷開發(fā)出能夠發(fā)揮電信運(yùn)營商優(yōu)勢的互聯(lián)網(wǎng)業(yè)務(wù)。而這需要電信運(yùn)營商及時(shí)掌握互聯(lián)網(wǎng)用戶的需求特點(diǎn)。 面對龐大的互聯(lián)網(wǎng)用戶群體、廣泛多樣的用戶需求,針對性營銷成為提升營銷效率、改善營銷效果,達(dá)成營銷制勝的必選手段。而為了能夠有效的實(shí)現(xiàn)針對性營銷,需要首先獲得目標(biāo)用戶的范圍。1.2. 術(shù)語:HOST:特指HTTP協(xié)議中的HOST信息,如訪問某一頁面 則對應(yīng)的HOST信息為 :URL:特指訪問WEB站點(diǎn)的地址信息,如訪問某一頁面 則對應(yīng)的URL信息為: 一級域名:特指訪問WEB站點(diǎn)的一級域名信息,如訪問某一頁面 則
4、對應(yīng)的一級域名信息為: 應(yīng)用分類:指按照預(yù)先建立好的分類模型,將用戶的行為信息進(jìn)行分類,例如訪問,進(jìn)行應(yīng)用分類則為 新聞 類。用戶分類:根據(jù)用戶的網(wǎng)絡(luò)行為信息及信息對應(yīng)的應(yīng)用分類的結(jié)果,將用戶進(jìn)行分類,每個(gè)用戶可以在多個(gè)分類中,如新聞?lì)愑脩舻取S脩艟垲悾焊鶕?jù)用戶的網(wǎng)絡(luò)行為及分類結(jié)果進(jìn)行數(shù)據(jù)挖掘和各類關(guān)聯(lián),從而可以獲得用戶的相關(guān)聚類信息。例如喜歡新聞?lì)惖挠脩粢话阋蚕矚g某類。2. 項(xiàng)目概述2.1. 產(chǎn)品簡介該產(chǎn)品通過對用戶的網(wǎng)絡(luò)相關(guān)行為進(jìn)行有效分析,根據(jù)提取出的應(yīng)用特征對用戶進(jìn)行有效分群,細(xì)致把握用戶互聯(lián)網(wǎng)應(yīng)用需求,為實(shí)現(xiàn)基于分群的針對化營銷提供有效支持。2.2. 商業(yè)機(jī)會目前電信擁有大量的寬帶用
5、戶,使用的大多是簡單包月+物理帶寬為基礎(chǔ)的粗放型業(yè)務(wù)發(fā)展模式;然而該模式無法真實(shí)的反應(yīng)用戶的潛在需求,網(wǎng)絡(luò)消耗率日益增長,隨之?dāng)U容的頻率也越來越高,不符合集約化,精細(xì)化的發(fā)展趨勢,無法給電信帶來更大的收益。另外電信在向信息超市的提供者與管理者的角色轉(zhuǎn)型過程中,缺少“叫好又叫座”的SP/CP業(yè)務(wù),同時(shí)電信本身所推出的綠色上網(wǎng)、在線服務(wù)等增值業(yè)務(wù)對用戶也缺少足夠的吸引力。為了實(shí)現(xiàn)寬帶業(yè)務(wù)的精耕細(xì)作,推進(jìn)SP/CP業(yè)務(wù)以及多樣增值業(yè)務(wù)的快速、健康發(fā)展,目前電信急需對寬帶用戶的上網(wǎng)行為進(jìn)行了解,從而能夠及時(shí)獲知整體用戶的網(wǎng)絡(luò)行為或傾向、從而推出相關(guān)的業(yè)務(wù),更好的吸引用戶,進(jìn)而提高自身的收益,促進(jìn)寬帶業(yè)
6、務(wù)的健康發(fā)展。同時(shí)面對龐大的互聯(lián)網(wǎng)用戶群體、廣泛多樣的用戶需求,針對性營銷成為提升營銷效率、改善營銷效果,達(dá)成營銷制勝的必選手段。而為了能夠有效的實(shí)現(xiàn)針對性營銷,需要首先獲得目標(biāo)用戶的范圍。2.3. 系統(tǒng)組成用戶行為分析系統(tǒng)由四大模塊組成:信息采集,信息匯總存儲,信息挖掘統(tǒng)計(jì),系統(tǒng)展現(xiàn)、輸出:ID名稱功能描述08PN03-SRS-BHCOLLECT信息采集模塊采集用戶行為數(shù)據(jù),負(fù)責(zé)用戶行為數(shù)據(jù)的來源。目前主要通過星空極速客戶端,采集用戶行為信息,主要包括訪問的網(wǎng)站、搜索的關(guān)鍵字、計(jì)算機(jī)進(jìn)程、電腦硬件信息、網(wǎng)頁收藏夾等信息。采集到的數(shù)據(jù)上傳給數(shù)據(jù)存儲匯總模塊。08PN03-SRS-BHSTORE
7、信息匯總存儲模塊匯總并存儲采集插件上傳的數(shù)據(jù)。匯總后的數(shù)據(jù)輸出到原始數(shù)據(jù)庫中。08PN03-SRS-BHANALYSIS信息挖掘統(tǒng)計(jì)模塊系統(tǒng)的核心模塊,定期從原始數(shù)據(jù)庫中提取出數(shù)據(jù)并進(jìn)行統(tǒng)計(jì)、挖掘和分析。包括簡單的排名統(tǒng)計(jì)、用戶行為分類、用戶分類、用戶聚類等;分析結(jié)果輸出到統(tǒng)計(jì)數(shù)據(jù)庫中。08PN03-SRS-BHPRESENT系統(tǒng)展現(xiàn)、輸出模塊展示用戶行為分析的結(jié)果。從結(jié)果數(shù)據(jù)庫中獲取數(shù)據(jù),以web、列表、統(tǒng)計(jì)圖、報(bào)表等形式展現(xiàn)出來。08PN03-SRS-BHOTHER其他模塊系統(tǒng)后續(xù)相關(guān)功能的完善,如增值業(yè)務(wù)使用情況,用戶自然屬性信息等相關(guān)功能。2.4. 子系統(tǒng)功能描述各個(gè)模塊對應(yīng)的子系統(tǒng)功
8、能如下:模塊名稱功能點(diǎn)ID實(shí)現(xiàn)版本核心價(jià)值工作內(nèi)容其他重點(diǎn)跟進(jìn)信息采集模塊采集用戶計(jì)算機(jī)主要配置信息08PN03-SRS-BHCOLLECT-F011.0了解用戶計(jì)算機(jī)配置情況獲得用戶計(jì)算機(jī)的硬件、軟件配置信息,如CPU、內(nèi)存、已安裝軟件等信息。部分信息也可以從星空極速后臺直接獲取。采集用戶上網(wǎng)基本信息08PN03-SRS-BHCOLLECT-F021.0反映用戶基本上網(wǎng)行為獲得用戶上網(wǎng)的基本信息,如上網(wǎng)時(shí)長、上網(wǎng)流量等信息部分信息也可以從星空極速后臺直接獲取。采集用戶訪問URL信息08PN03-SRS-BHCOLLECT-F031.0反映用戶頁面訪問行為獲得用戶進(jìn)行WEB訪問的有用URL,過
9、濾掉圖片等無用信息,并能夠支持進(jìn)行過濾,同時(shí)可以進(jìn)行信息簡單統(tǒng)計(jì),上傳指定數(shù)量信息(TOP N 機(jī)制)過濾條件可變,TOP N值可支持動(dòng)態(tài)給定采集用戶搜索關(guān)鍵字信息08PN03-SRS-BHCOLLECT-F041.0可以獲知用戶所關(guān)心信息獲得用戶使用baidu、google,yahoo等主要搜索引擎進(jìn)行搜索的關(guān)鍵字信息,并且需要進(jìn)行相關(guān)字符的解碼處理先僅記錄頁面搜索信息,其他分類搜索暫不考慮采集用戶使用進(jìn)程信息08PN03-SRS-BHCOLLECT-F051.0可以獲知用戶日常使用程序的信息獲得用戶機(jī)器中啟動(dòng)的進(jìn)程名稱和使用時(shí)長過濾掉系統(tǒng)相關(guān)的進(jìn)程采集用戶收藏夾信息08PN03-SRS-B
10、HCOLLECT-F061.0可以獲知用戶喜愛,同時(shí)可驗(yàn)證用戶分類正確性獲取用戶收藏夾相關(guān)信息采集用戶對應(yīng)的郵箱地址信息08PN03-SRS-BHCOLLECT-F071.0為針對性營銷提供目的地采集獲取用戶所對應(yīng)的軟件、WEB等郵箱地址信息WEB郵箱可以僅選常用郵箱其他采集信息08PN03-SRS-BHCOLLECT-F081.0其他反映用戶行為信息例如用戶訪問網(wǎng)站是否收費(fèi),訪問流量較多的前多少IP,P2PVOIP信息等可以逐步添加細(xì)化采集信息上傳08PN03-SRS-BHCOLLECT-F091.0將用戶信息上傳,進(jìn)行匯總、分析將用戶信息上傳,進(jìn)行匯總、分析上傳過程需要進(jìn)行加密,防止采集行
11、為被用戶感知,同時(shí)盡量做到壓縮上傳,減少通訊數(shù)據(jù)量信息匯總存儲采集信息接收08PN03-SRS -BHSTORE-F011.0接收采集信息獲得采集插件上傳信息 如果上傳前壓縮,則接收到數(shù)據(jù)之后需要解析。采集行為信息入庫08PN03-SRS -BHSTORE-F021.0保存行為信息將接收到的采集信息進(jìn)行保存信息挖掘統(tǒng)計(jì)分類模型建立08PN03-SRS -BHANALYSIS-F011.0為分類提供前提根據(jù)行為特征劃分不同的類別參見附錄中的用戶行為分析模型設(shè)計(jì)文檔分類相關(guān)特征庫形成08PN03-SRS -BHANALYSIS-F021.0為用戶分類、行為統(tǒng)計(jì)等提供數(shù)據(jù)依據(jù)根據(jù)分類模型,形成URL
12、,搜索關(guān)鍵字,進(jìn)程等各類的特征庫,為進(jìn)行自動(dòng)分類提供依據(jù)。特征庫需要長時(shí)間逐步完善。數(shù)據(jù)清洗轉(zhuǎn)換08PN03-SRS -BHANALYSIS-F031.0丟棄無用信息數(shù)據(jù)根據(jù)已過濾庫、網(wǎng)頁標(biāo)題等信息將原始行為數(shù)據(jù)進(jìn)行過濾,并以特定的格式進(jìn)行保存。應(yīng)用分類08PN03-SRS -BHANALYSIS-F041.0對用戶行為進(jìn)行分類依據(jù)分類特征庫,對用戶行為數(shù)據(jù)進(jìn)行分類并保存分類結(jié)果用戶分類08PN03-SRS -BHANALYSIS-F051.0對用戶進(jìn)行分類根據(jù)用戶的行為數(shù)據(jù)及其分類,將用戶進(jìn)行分類并保存分類結(jié)果用戶聚類分析08PN03-SRS -BHANALYSIS-F061.0判定用戶類別
13、根據(jù)用戶行為信息和類別,挖掘用戶其他感興趣類別相關(guān)熱門統(tǒng)計(jì)08PN03-SRS -BHANALYSIS-F071.0獲得整體以及每個(gè)用戶的熱門信息根據(jù)用戶行為信息和分類結(jié)果,統(tǒng)計(jì)獲得整網(wǎng)及各用戶的熱門信息模型訓(xùn)練驗(yàn)證08PN03-SRS -BHANALYSIS-F081.0驗(yàn)證整個(gè)模型的有效性通過一定時(shí)間內(nèi),根據(jù)大量數(shù)據(jù)統(tǒng)計(jì)的結(jié)果驗(yàn)證模型的正確、有效性。需要不斷逐步改進(jìn)系統(tǒng)展現(xiàn)、輸出WEB展現(xiàn)08PN03-SRS -BHPRESENT-F011.0以web形式展現(xiàn)統(tǒng)計(jì)信息以web頁面的形式將系統(tǒng)統(tǒng)計(jì)信息進(jìn)行展現(xiàn)自動(dòng)生成報(bào)表08PN03-SRS -BHPRESENT-F021.0以報(bào)表的形式展現(xiàn)
14、統(tǒng)計(jì)信息以報(bào)表的形式將系統(tǒng)統(tǒng)計(jì)信息進(jìn)行展現(xiàn)提供對外接口08PN03-SRS -BHPRESENT-F031.1為其他系統(tǒng)提供接口為其他系統(tǒng)提供接口其他衍生業(yè)務(wù)分析08PN03-SRS-BHOTHER-F011.1了解現(xiàn)有增值業(yè)務(wù)使用情況獲得用戶試用現(xiàn)有增值業(yè)務(wù)的使用情況用戶相關(guān)屬性等信息收集08PN03-SRS-BHOTHER-F021.1獲得用戶基本信息,便于分類統(tǒng)計(jì)獲得用戶自然、社會、網(wǎng)絡(luò)等屬性從電信相關(guān)服務(wù)器獲得定期營銷調(diào)研08PN03-SRS-BHOTHER-F031.1更深入了解用戶情況由市場營銷人員進(jìn)行完成、開發(fā)上可能需要提供輸入、報(bào)表生成等接口2.5. 運(yùn)行環(huán)境n 操作系統(tǒng)采集插
15、件Windows XP及以上中文簡體操作系統(tǒng)服務(wù)器WINDOWS2003 或linux系統(tǒng)數(shù)據(jù)庫DB2或ORACLEn 系統(tǒng)支持語言中文3. 系統(tǒng)總體架構(gòu)3.1. 系統(tǒng)目標(biāo)本系統(tǒng)的主要目標(biāo)是,通過分析用戶的計(jì)算機(jī)行為(主要是上網(wǎng)行為),來確定用戶的類型(喜好、興趣等),從而實(shí)現(xiàn)對用戶進(jìn)行群分,并可將具有相同喜好的用戶進(jìn)行聚類,對不同類型的用戶進(jìn)行定向的營銷和廣告推送等商業(yè)活動(dòng)。用戶的行為主要包括用戶計(jì)算機(jī)安裝軟件、訪問的URL、搜索的關(guān)鍵詞、經(jīng)常使用的軟件等等,系統(tǒng)的采集模塊采集到這些數(shù)據(jù)后,由分析處理模塊進(jìn)行聚類、分類等的處理后,再將用戶劃分為不同的群體,并由系統(tǒng)的展示模塊展示分群結(jié)果。3.
16、2. 技術(shù)方案說明本系統(tǒng)的特點(diǎn)是以數(shù)據(jù)為中心,進(jìn)行相關(guān)的采集、分析處理工作。因此數(shù)據(jù)采集、數(shù)據(jù)存儲以及數(shù)據(jù)的分析處理,都是要重點(diǎn)考慮的技術(shù)問題。下圖為相關(guān)的數(shù)據(jù)流圖:系統(tǒng)主要由信息采集、信息匯總存儲、信息挖掘統(tǒng)計(jì)、系統(tǒng)展現(xiàn)輸出幾大部分組成,各部分相關(guān)描述為:l 數(shù)據(jù)采集:以插件(動(dòng)態(tài)鏈接庫)的方式內(nèi)嵌到星空極速撥號客戶端中,在用戶上網(wǎng)過程中采集用戶相關(guān)的行為數(shù)據(jù)。上網(wǎng)行為數(shù)據(jù)采集基于網(wǎng)絡(luò)嗅探的方式進(jìn)行實(shí)現(xiàn),利用WinpCap抓取用戶的上網(wǎng)數(shù)據(jù),如訪問URL,搜索關(guān)鍵字等信息用戶其他行為信息,如包括進(jìn)程快照,硬件、軟件配置等信息,則利用Windows相關(guān)的API進(jìn)行獲取。l 信息匯總存儲:借助T
17、CP/IP協(xié)議,信息采集插件在用戶每次上線后,將上次上網(wǎng)的相關(guān)行為信息以XML的形式組織上傳;信息匯總存儲部分,將采集插件上傳的信息進(jìn)行解析,并按照內(nèi)容存儲在數(shù)據(jù)倉庫中的不同表中,供后續(xù)的統(tǒng)計(jì)挖掘使用。同時(shí)出于系統(tǒng)容量的考慮,系統(tǒng)會定期的清理無用的歷史數(shù)據(jù),從而減少整體數(shù)據(jù)量,提供系統(tǒng)的分析、處理性能。l 系統(tǒng)展現(xiàn)輸出該部分的主要目的是將系統(tǒng)相關(guān)的統(tǒng)計(jì)分析數(shù)據(jù)簡單直觀的展現(xiàn)給用戶,展現(xiàn)方式有WEB、報(bào)表等形式,展現(xiàn)相關(guān)數(shù)據(jù)主要從數(shù)據(jù)倉庫中提取。3.3. 網(wǎng)絡(luò)拓?fù)鋱D 3.4. 網(wǎng)絡(luò)拓?fù)湔f明 裝有采集插件的客戶端在使用過程中進(jìn)行信息采集,并會在適當(dāng)時(shí)間將采集的信息上報(bào)給后臺業(yè)務(wù)服務(wù)器,業(yè)務(wù)服務(wù)器接
18、收到采集信息之后,會進(jìn)行簡單處理,然后將行為數(shù)據(jù)放入到數(shù)據(jù)倉庫中。 統(tǒng)計(jì)服務(wù)器根據(jù)數(shù)據(jù)倉庫和行為特征庫定期將用戶的行為數(shù)據(jù)進(jìn)行分類,并根據(jù)應(yīng)用分類的結(jié)果對用戶進(jìn)行分類,同時(shí)進(jìn)行一定的熱門統(tǒng)計(jì)、數(shù)據(jù)挖掘等工作。發(fā)布服務(wù)器以web、報(bào)表、接口等多種方式將用戶分群、匯總統(tǒng)計(jì)、模型輸出等相關(guān)數(shù)據(jù)信息進(jìn)行呈現(xiàn)。3.5. 系統(tǒng)整體結(jié)構(gòu)圖 該結(jié)構(gòu)圖中信息采集包括了旁路分光采集、客戶端插件采集和其他來源,在現(xiàn)階段,僅僅考慮客戶端插件采集的方式。3.6. 系統(tǒng)中各服務(wù)器介紹 系統(tǒng)中的服務(wù)器主要有信息匯總服務(wù)器,數(shù)據(jù)倉庫服務(wù)器,信息統(tǒng)計(jì)分析服務(wù)器,信息發(fā)布服務(wù)器等服務(wù)器組成。各服務(wù)器介紹如下:l 信息匯總服務(wù)器該
19、服務(wù)器主要作用是將插件采集的信息進(jìn)行匯總、保存。l 數(shù)據(jù)倉庫服務(wù)器 該服務(wù)器主要作用是運(yùn)行數(shù)據(jù)倉庫,由于數(shù)據(jù)量很大,因此數(shù)據(jù)庫選擇是DB2或ORACLE。l 信息統(tǒng)計(jì)分析服務(wù)器 該服務(wù)器主要作用是定期對匯總之后的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、應(yīng)用分類、用戶分群、數(shù)據(jù)挖掘、保存到數(shù)據(jù)倉庫等操作。l 信息發(fā)布服務(wù)器 該服務(wù)器主要作用是以web等方式呈現(xiàn)用戶分群、匯總統(tǒng)計(jì)、模型輸出等相關(guān)數(shù)據(jù)信息。 各服務(wù)器間的關(guān)系如下:3.7. 模塊清單SRS IDHLD ID名稱功能描述08PN03-SRS-BHCOLLECT08PN03-HLD-BHCOLLECT信息采集模塊采集用戶行為數(shù)據(jù),負(fù)責(zé)用戶行為數(shù)據(jù)的來源。目前主
20、要通過星空極速客戶端,采集用戶行為信息,主要包括訪問的網(wǎng)站、搜索的關(guān)鍵字、計(jì)算機(jī)進(jìn)程、電腦硬件信息、網(wǎng)頁收藏夾等信息。采集到的數(shù)據(jù)上傳給數(shù)據(jù)存儲匯總模塊。08PN03-SRS-BHSTORE08PN03-HLD-BHSTORE信息匯總存儲模塊匯總并存儲采集插件上傳的數(shù)據(jù)。匯總后的數(shù)據(jù)輸出到原始數(shù)據(jù)庫中。08PN03-SRS-BHANALYSIS08PN03-HLD-BHANALYSIS信息挖掘統(tǒng)計(jì)模塊系統(tǒng)的核心模塊,定期從原始數(shù)據(jù)庫中提取出數(shù)據(jù)并進(jìn)行統(tǒng)計(jì)、挖掘和分析。包括簡單的排名統(tǒng)計(jì)、用戶行為分類、用戶分類、用戶聚類等;分析結(jié)果輸出到統(tǒng)計(jì)數(shù)據(jù)庫中。08PN03-SRS-BHPRESENT08
21、PN03-HLD-BHPRESENT系統(tǒng)展現(xiàn)、輸出模塊展示用戶行為分析的結(jié)果。從結(jié)果數(shù)據(jù)庫中獲取數(shù)據(jù),以web、列表、統(tǒng)計(jì)圖、報(bào)表等形式展現(xiàn)出來。08PN03-SRS-BHOTHER08PN03-HLD-BHOTHER其他模塊系統(tǒng)后續(xù)相關(guān)功能的完善,如增值業(yè)務(wù)使用情況,用戶自然屬性信息等相關(guān)功能。4. 各模塊說明以下從各個(gè)子模塊的功能、結(jié)構(gòu)、與其他模塊的接口等方面對各個(gè)子模塊進(jìn)行較詳盡說明介紹:4.1. 數(shù)據(jù)采集模塊4.1.1 功能概述該模塊的主要功能是采集并保存用戶上網(wǎng)過程中的相關(guān)行為信息,并在用戶每次上線之后,將上次上線的行為數(shù)據(jù)信息進(jìn)行組織合并,以XML的方式上傳給信息匯總存儲模塊。4.
22、1.2 模塊設(shè)計(jì)要素說明 由于該模塊是以插件(DLL)的方式內(nèi)嵌在星空極速撥號客戶端中,并在用戶撥號上網(wǎng)過程中,對用戶的相關(guān)行為信息進(jìn)行采集、上傳,整個(gè)過程對用戶隱蔽,不希望被用戶發(fā)覺該模塊的存在,因此模塊設(shè)計(jì)、開發(fā)、測試等過程中需要充分考慮以下因素。l 穩(wěn)定、可靠性由于插件是DLL方式內(nèi)嵌,因此如果采集插件出現(xiàn)問題(崩潰、資源占用較大等),會導(dǎo)致星空極速客戶端也受到影響,對用戶造成不良影響,因此需要特別保證采集插件模塊的開發(fā)質(zhì)量。l 隱蔽性由于采集插件在數(shù)據(jù)采集過程中,對用戶不可見,因此需要在配置信息保存、數(shù)據(jù)采集、采集數(shù)據(jù)臨時(shí)保存、采集信息上傳等各個(gè)階段,進(jìn)行加密等相關(guān)操作,從而實(shí)現(xiàn)對用戶
23、的不可見。l 小流量上傳由于該模塊僅采集用戶的行為數(shù)據(jù),并在用戶上網(wǎng)過程中上傳該信息,出于隱蔽性,以及盡量減少資源消耗的考慮,需要在上傳數(shù)據(jù)前對數(shù)據(jù)進(jìn)行簡單的匯總,以及壓縮處理,從而縮小上傳的信息量。l 可擴(kuò)展性隨著模型的不斷完善,采集部分后續(xù)可能會不斷添加新的功能,為了盡量減少采集插件的升級過程,同時(shí)降低開發(fā)的復(fù)雜度和工作量,需要系統(tǒng)設(shè)計(jì)、開發(fā)過程中盡量考慮可擴(kuò)展性。為了滿足上訴的各個(gè)要素,需要相關(guān)的開發(fā)人員在開發(fā)過程中,更加合理的設(shè)計(jì)軟件,提高代碼質(zhì)量、強(qiáng)化開發(fā)過程中的單元測試力度;同時(shí)相關(guān)測試人員需要對上述各個(gè)因素進(jìn)行著重測試,爭取更早的發(fā)現(xiàn)問題。4.1.3 結(jié)構(gòu) 該模塊可以劃分為數(shù)據(jù)采
24、集、數(shù)據(jù)記錄、數(shù)據(jù)上報(bào)和采集管理幾個(gè)部分,具體說明如下:l 數(shù)據(jù)采集:采集用戶上網(wǎng)行為信息和計(jì)算機(jī)配置等信息;l 數(shù)據(jù)記錄:將采集到的信息臨時(shí)保存在文件中,在用戶下次上線之后進(jìn)行上傳。l 數(shù)據(jù)上報(bào):將采集到的信息進(jìn)行組織、壓縮、加密等處理,上傳給匯總存儲模塊;l 采集管理:負(fù)責(zé)相關(guān)采集配置等信息的接收。4.1.4 詳細(xì)功能說明詳細(xì)功能相關(guān)說明使用技術(shù)采集用戶計(jì)算機(jī)主要配置信息獲得用戶計(jì)算機(jī)的硬件、軟件配置信息,如CPU、內(nèi)存、已安裝軟件等信息。讀取注冊表相關(guān)信息采集用戶上網(wǎng)基本信息獲得用戶上網(wǎng)的基本信息,如上網(wǎng)時(shí)長、上網(wǎng)流量等信息基于winpcap,使用網(wǎng)絡(luò)嗅探技術(shù)采集用戶訪問URL信息獲得用
25、戶進(jìn)行WEB訪問的有用URL,過濾掉圖片等無用信息,并能夠支持進(jìn)行過濾 基于winpcap,使用網(wǎng)絡(luò)嗅探技術(shù)采集用戶搜索關(guān)鍵字信息獲得用戶使用baidu、google,yahoo等主要搜索引擎進(jìn)行搜索的關(guān)鍵字信息,并且需要進(jìn)行相關(guān)字符的解碼處理基于winpcap,使用網(wǎng)絡(luò)嗅探技術(shù)。同時(shí)涉及到解碼相關(guān)技術(shù)采集用戶使用進(jìn)程信息獲得用戶機(jī)器中啟動(dòng)的進(jìn)程名稱和使用時(shí)長WINDOWS API等采集用戶收藏夾信息獲取用戶收藏夾相關(guān)信息WINDOWS API等采集用戶對應(yīng)的郵箱地址信息采集獲取用戶所對應(yīng)的軟件、WEB等郵箱地址信息基于winpcap,使用網(wǎng)絡(luò)嗅探技術(shù)采集信息上傳將用戶信息以XML形式,進(jìn)行壓
26、縮,加密之后,上傳給信息匯總存儲模塊 XML技術(shù)、壓縮、加密、套接字等技術(shù)4.2. 數(shù)據(jù)匯總存儲模塊4.2.1 模塊功能概述該模塊主要負(fù)責(zé)接收數(shù)據(jù)采集模塊上傳的行為數(shù)據(jù),并對該信息進(jìn)行解密、解壓等操作,然后將操作之后的數(shù)據(jù)根據(jù)內(nèi)容存入到原始數(shù)據(jù)庫中的不同表中。4.2.2 模塊設(shè)計(jì)要素說明 由于該模塊需要同時(shí)接收多個(gè)客戶端上傳的采集信息、并需要對該信息進(jìn)行解密、解壓、入庫存儲等操作,因此該模塊的設(shè)計(jì)、開發(fā)等過程需要考慮以下因素:l 效率隨著進(jìn)行采集用戶的增多,服務(wù)器需要處理的上傳量會不斷增大,為了能夠有效處理并存儲所有的行為數(shù)據(jù),服務(wù)器需要較高的效率,必要時(shí)可以增加硬件設(shè)備的投入l 穩(wěn)定性作為一
27、個(gè)接收、處理服務(wù)器,為了保證數(shù)據(jù)的完整性,需要充分考慮模塊的穩(wěn)定性。4.2.3 結(jié)構(gòu)4.2.4 詳細(xì)功能說明詳細(xì)功能相關(guān)說明使用技術(shù)采集信息接收接收數(shù)據(jù)采集模塊上傳的用戶行為數(shù)據(jù)套接字等技術(shù)采集信息解密、解壓對接收到的信息進(jìn)行解密、解壓等操作解密、解壓相關(guān)技術(shù)采集行為信息入庫將接收到的信息根據(jù)內(nèi)容的不同存儲在數(shù)據(jù)倉庫不同的表中JDBC相關(guān)技術(shù)采集配置下發(fā)將采集相關(guān)的配置信息以XML形式進(jìn)行下發(fā)套接字等技術(shù)4.3. 數(shù)據(jù)分析處理模塊4.3.1 模塊功能概述 數(shù)據(jù)分析處理模塊:系統(tǒng)的核心模塊,分析數(shù)據(jù)倉庫中的數(shù)據(jù)。對匯總的數(shù)據(jù)做統(tǒng)計(jì)、挖掘和分析。包括簡單的排名統(tǒng)計(jì)、用戶行為分類、用戶分類、用戶聚類
28、等;分析結(jié)果輸出到統(tǒng)計(jì)數(shù)據(jù)庫中。4.3.2 模塊設(shè)計(jì)要素說明由于該模塊設(shè)計(jì)到對行為數(shù)據(jù)進(jìn)行分類,以及用戶分類等過程,因此在設(shè)計(jì)、編碼過程中需要考慮以下幾個(gè)要素:l 準(zhǔn)確性 為了能夠保證分類結(jié)果的準(zhǔn)確性,需要在分類特征庫建立、分類方法等過程中,保證分類的準(zhǔn)確性,準(zhǔn)確率應(yīng)該在80以上。l 效率由于隨著用戶數(shù)的增長,和時(shí)間的延長,系統(tǒng)的數(shù)據(jù)會較大,從而導(dǎo)致分類過程時(shí)間較長,因此設(shè)計(jì)、開發(fā)等過程需要考慮效率問題。4.3.3 詳細(xì)功能說明該模塊詳細(xì)功能列表為:詳細(xì)功能相關(guān)說明使用技術(shù)分類模型建立根據(jù)行為特征劃分不同的類別統(tǒng)計(jì)、營銷等相關(guān)理論分類相關(guān)特征庫形成根據(jù)分類模型,形成URL,搜索關(guān)鍵字,進(jìn)程等各
29、類的特征庫,為進(jìn)行自動(dòng)分類提供依據(jù)ADO、網(wǎng)絡(luò)爬蟲、拆詞等數(shù)據(jù)清洗轉(zhuǎn)換根據(jù)已過濾庫、網(wǎng)頁標(biāo)題等信息將原始行為數(shù)據(jù)進(jìn)行過濾,并以特定的格式進(jìn)行保存ADO、數(shù)據(jù)挖掘相關(guān)技術(shù)(ETL)應(yīng)用分類依據(jù)分類特征庫,對用戶行為數(shù)據(jù)進(jìn)行分類并保存分類結(jié)果 ADO、拆詞,自動(dòng)分類技術(shù)用戶分類根據(jù)用戶的行為數(shù)據(jù)及其分類,將用戶進(jìn)行分類并保存分類結(jié)果 ADO、自動(dòng)分類,聚類等技術(shù)用戶聚類分析根據(jù)用戶行為信息和類別,挖掘用戶其他感興趣類別相關(guān)熱門統(tǒng)計(jì)根據(jù)用戶行為信息和分類結(jié)果,統(tǒng)計(jì)獲得整網(wǎng)及各用戶的熱門信息ADO等模型訓(xùn)練驗(yàn)證通過一定時(shí)間內(nèi),根據(jù)大量數(shù)據(jù)統(tǒng)計(jì)的結(jié)果驗(yàn)證模型的正確、有效性。4.3.4 程序邏輯流程 4.
30、4. 數(shù)據(jù)展示模塊4.4.1 功能描述提供預(yù)定義用戶行為分析價(jià)值數(shù)據(jù)展現(xiàn)功能,可自定義統(tǒng)計(jì)、匯總、分群條件,從基礎(chǔ)數(shù)據(jù)以列表、統(tǒng)計(jì)圖、報(bào)表等形式提供自定義結(jié)果。主要包括 分群信息管理,定制分群,自定義分群, 數(shù)據(jù)匯總信息 ,用戶信息查詢, 系統(tǒng)管理,宣傳支撐,競爭,分析模塊,合作選擇/談判支撐,自有產(chǎn)品營銷,產(chǎn)品或業(yè)務(wù)開發(fā)方向,用戶權(quán)限管理等, 具體功能模塊規(guī)劃如下:功能名稱功能描述備注網(wǎng)絡(luò)行為分群(一級) 管理統(tǒng)計(jì)查詢網(wǎng)絡(luò)行為一級類別分群的用戶比例,用戶流動(dòng)特征。網(wǎng)絡(luò)行為分群(二級)管理統(tǒng)計(jì)查詢網(wǎng)絡(luò)行為二級類別分群的用戶比例,用戶流動(dòng)特征。商業(yè)價(jià)值分群根據(jù)系統(tǒng)自定義商業(yè)級別查詢統(tǒng)計(jì)寬帶用戶分
31、布數(shù)據(jù),以及各級別寬帶用戶流動(dòng)特征和群組資料。用戶計(jì)算機(jī)水平分群根據(jù)系統(tǒng)自定義計(jì)算機(jī)水平等級統(tǒng)計(jì)分析寬帶用戶計(jì)算機(jī)水平,以及各等級用戶群組資料。用戶安全意識分群依據(jù)系統(tǒng)自定義用戶安全意識統(tǒng)計(jì)分析寬帶用戶安全意識,以及各級別用戶流動(dòng)特征和群組資料。用戶購買力分群根據(jù)系統(tǒng)自定義用戶購買力級別統(tǒng)計(jì)分析寬帶用戶購買力,以及各級別用戶群流動(dòng)特征和群組資料。用戶可引導(dǎo)性分群根據(jù)系統(tǒng)自定義用戶消費(fèi)能力統(tǒng)計(jì)分析寬帶用戶消費(fèi)能力,以及各級別用戶群組資料。自定義分群 可自定義網(wǎng)絡(luò)行為類別、種類、商業(yè)價(jià)值、可引導(dǎo)性等用戶分群信息創(chuàng)建自定義分群以及分群用戶資料。全網(wǎng)匯總信息自定義條件統(tǒng)計(jì)查詢?nèi)W(wǎng)用戶熱門網(wǎng)站、關(guān)鍵詞、
32、熱門軟件信息,以及全網(wǎng)排名。網(wǎng)絡(luò)行為熱門信息自定義網(wǎng)絡(luò)分類條件,根據(jù)類別統(tǒng)計(jì)查詢?nèi)W(wǎng)用戶站點(diǎn)訪問數(shù)據(jù)以及站點(diǎn)全網(wǎng)排名。筆記本電腦用戶 自定義檢索條件,根據(jù)檢索條件查詢?nèi)W(wǎng)寬帶用戶計(jì)算機(jī)配置信息。流行病毒 自定義檢索條件,根據(jù)檢索條件查詢?nèi)W(wǎng)寬帶用戶計(jì)算機(jī)中毒信息,以及病毒發(fā)作排名。流行殺毒軟件 自定義查詢條件,根據(jù)查詢條件統(tǒng)計(jì)查詢?nèi)W(wǎng)寬帶用戶殺毒軟件安裝情況以及殺毒軟件使用排行。寬帶用戶檢索提供精確或模糊檢索功能,查詢用戶基礎(chǔ)信息,統(tǒng)計(jì)分析該用戶寬帶行為數(shù)據(jù)。宣傳支撐將與產(chǎn)品宣傳所相關(guān)的頁面進(jìn)行組合,并按照給定的流程逐步給予展示。競爭分析將與產(chǎn)品競爭(web以及增值產(chǎn)品)所相關(guān)的頁面進(jìn)行組合,并按照給定的流程逐步給予展示。產(chǎn)品推廣包括網(wǎng)絡(luò)安全產(chǎn)品推廣和電腦服務(wù)推廣,將用戶工作流與系統(tǒng)相關(guān)分群以及部分信息相聯(lián)系,為產(chǎn)品推廣準(zhǔn)確定位目標(biāo)客戶群。網(wǎng)絡(luò)應(yīng)用目標(biāo)客戶識別針對二級網(wǎng)絡(luò)應(yīng)用相關(guān)分群,結(jié)合用戶所關(guān)注的相關(guān)信息,如地區(qū)、時(shí)間、偏好等,準(zhǔn)確定位目標(biāo)客戶群,并展現(xiàn)該目標(biāo)群的常用web訪問、搜索等相關(guān)信息。用戶權(quán)限管理可以支持對用戶設(shè)計(jì)權(quán)限,不同組下的用戶進(jìn)入頁面后僅能看到其權(quán)限允許下的相關(guān)頁面操作員管理提供系統(tǒng)操作員管理功能。系統(tǒng)日志管理提供系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海技術(shù)服務(wù)合同的賠償范圍
- 標(biāo)準(zhǔn)全款購房合同格式
- 網(wǎng)店服務(wù)合同的權(quán)益保護(hù)
- 項(xiàng)目服務(wù)合同范式
- 電纜購銷協(xié)議樣本
- 標(biāo)準(zhǔn)招標(biāo)文件的流程
- 簡單耗材采購合同格式
- 學(xué)生犯錯(cuò)保證書撰寫要點(diǎn)
- 商業(yè)服務(wù)合同的物聯(lián)網(wǎng)整合
- 房產(chǎn)貸款抵押合同范本
- MOOC 管理學(xué)-北京師范大學(xué) 中國大學(xué)慕課答案
- 鄉(xiāng)村內(nèi)碳排放量計(jì)算方法
- 不銹鋼蜂窩材料市場洞察報(bào)告
- 科研思路與方法智慧樹知到期末考試答案2024年
- 工程水文學(xué)智慧樹知到期末考試答案2024年
- 有關(guān)物業(yè)管家培訓(xùn)課件模板
- 肇事逃逸的法律規(guī)定
- 300KW儲能系統(tǒng)初步設(shè)計(jì)方案及調(diào)試
- 2024年安徽合肥市軌道交通集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 檢修部年度安全工作總結(jié)
- 【初中語文】名著導(dǎo)讀《駱駝祥子》課件 2023-2024學(xué)年統(tǒng)編版語文七年級下冊
評論
0/150
提交評論