一種基于分布式網(wǎng)絡(luò)爬蟲調(diào)度的用戶行為分析方法交底書v_第1頁
一種基于分布式網(wǎng)絡(luò)爬蟲調(diào)度的用戶行為分析方法交底書v_第2頁
一種基于分布式網(wǎng)絡(luò)爬蟲調(diào)度的用戶行為分析方法交底書v_第3頁
一種基于分布式網(wǎng)絡(luò)爬蟲調(diào)度的用戶行為分析方法交底書v_第4頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、中國移動(dòng)專利申請技術(shù)交底書注意事項(xiàng)1. 技術(shù) 人應(yīng)為深入了解本申請?zhí)岚讣夹g(shù)方案的技術(shù) ,如交底書撰寫人,負(fù)責(zé)向?qū)@麑徍?和 人解釋技術(shù)細(xì)節(jié)、修改交底書、審核申請文件等工作, 請務(wù)必填全技術(shù) 人的姓名、 、 。2. 請按照 公司提供的本技術(shù)交底書模板逐項(xiàng)填寫,除交底書第八部分為可選項(xiàng)外,其他均為必須填寫的內(nèi)容。填寫不全的專利申請?zhí)岚福?公司不予 。3. 專利申請不要求已具體實(shí)現(xiàn)或?qū)嵤?,形成完整的技術(shù)方案即可提交申請,特別是需要向合作方公開、向標(biāo)準(zhǔn)提案或以其他方式公開的重要技術(shù)構(gòu)思應(yīng)公司編號由公司專利管理處填寫發(fā)明名稱一種基于分布式網(wǎng)絡(luò)爬蟲調(diào)度的用戶行為分析方法申報(bào)廣西移動(dòng)運(yùn)營支撐中心申報(bào)類型發(fā)明

2、發(fā)明人劉曉峰 甘雯 王濤 羅鵬技術(shù)人羅鵬luopeng中國移動(dòng)通信公司在公開前盡早申請。4技術(shù)交底書文件命名要求:發(fā)明名稱短橫線(半角)交底書版本號,例:一種短消息方法-交底書 v1.doc一、發(fā)明名稱【發(fā)明名稱應(yīng)盡量清楚、簡要、全面地反映技術(shù)方案的主題和類型,并盡可能使用所屬技術(shù)領(lǐng)域通用技術(shù)術(shù)語?!恳环N基于分布式爬蟲調(diào)度的用戶行為分析方法二、技術(shù)領(lǐng)域【請?jiān)谙率黾夹g(shù)領(lǐng)域中選擇本申請?zhí)岚钢屑夹g(shù)方案所屬領(lǐng)域:無線、網(wǎng)、傳支持技輸與 IP、業(yè)務(wù)支撐、數(shù)據(jù)業(yè)務(wù)、其他(包括通信電源及其他術(shù)等)。如果本申請?zhí)岚傅募夹g(shù)方案序選擇多個(gè)領(lǐng)域。】多個(gè)領(lǐng)域,請按照相關(guān)性從高到低的順業(yè)務(wù)支撐三、現(xiàn)有技術(shù)的技術(shù)方案【請

3、在這部分寫明以下兩個(gè)部分的內(nèi)容:其一是作申請?zhí)岚富A(chǔ)且能夠幫助人理解本申請?zhí)岚傅墓夹g(shù);這部分內(nèi)容以與本申請?zhí)岚该芮邢嚓P(guān)的公知技術(shù)為限,且簡單介紹即可;其二是現(xiàn)有技術(shù)中與本申請?zhí)岚缸顬榻咏募夹g(shù)方案;這部分要寫明現(xiàn)有的技術(shù)方案是怎樣實(shí)施的,尤其是對現(xiàn)有技術(shù)方案與本申請?zhí)岚傅牟煌幰枋銮?楚,清楚到足以讓閱讀交底書的人能夠符合邏輯地推導(dǎo)出現(xiàn)有技術(shù)方案的缺點(diǎn); 而不能只給出現(xiàn)有技術(shù)方案的缺點(diǎn)。如果存在多個(gè)與本申請?zhí)岚缸顬榻咏默F(xiàn)有技術(shù),請將其逐一按照上述要求寫明。如果與本申請?zhí)岚缸顬榻咏募夹g(shù)方案是檢索到的專利文獻(xiàn),可以只給出專利文獻(xiàn)的申請?zhí)柣蚬_號,但需對公開的技術(shù)方案進(jìn)行簡單描述。請注意

4、:如果重新檢索到更接近的對比文件,應(yīng)當(dāng)相應(yīng)修改本部分內(nèi)容?!磕壳坝谝苿?dòng)用戶行為分析的,主要為基于用戶通信行為以及用戶消費(fèi)行為的分析。根據(jù)兩者的綜合結(jié)果確定用戶的消費(fèi)偏好從而得到用戶畫像,再進(jìn)行性的。另外一方面,目前分布式爬蟲系統(tǒng)多采用集中式或基于散列的任務(wù)分割策略。這兩種策略都是從均勻分配的出發(fā)點(diǎn)解決問題,沒有考慮URL 優(yōu)先級的影響和子節(jié)點(diǎn)負(fù)載情況。四、現(xiàn)有技術(shù)的缺點(diǎn)及本申請?zhí)岚敢鉀Q的技術(shù)問題【請技術(shù)中與本申請?zhí)岚缸顬榻咏募夹g(shù)方案,將其與本申請?zhí)岚赶啾龋瑢懨鳜F(xiàn)有的技術(shù)方案具有哪些缺點(diǎn);如果有多個(gè)與本申請?zhí)岚缸顬榻咏募夹g(shù)方案,請逐一分別寫明。這些缺點(diǎn)同時(shí)必須是本申請?zhí)岚傅募夹g(shù)方案能夠解決

5、的技術(shù)問題。請注意:所寫的缺點(diǎn)應(yīng)當(dāng)是技術(shù)性的缺點(diǎn),比如利用率低、網(wǎng)絡(luò)實(shí)體負(fù)荷過大等,而不能是管理性或商業(yè)性的缺點(diǎn),比如依據(jù)人的評價(jià)或某個(gè)管理規(guī)范推導(dǎo)出的缺點(diǎn)、商業(yè)運(yùn)行上的缺點(diǎn)等。如果重新檢索到更接近的對比文件,應(yīng)當(dāng)相應(yīng)修改本部分內(nèi)容?!磕壳暗挠脩粜袨榉治鲋饕嬖谝韵卤锥耍海?)隨著 3G的到來,傳統(tǒng)的用戶通信行為分析以及用戶消費(fèi)行為分析已經(jīng)不足以完全反應(yīng)用戶的行為習(xí)慣,用戶畫像存在缺失。這對于要求日益精確的的客戶畫像,則無法準(zhǔn)確管理來說是個(gè)很大的缺憾,沒有完整用戶的行為喜好,從而無法做出精準(zhǔn)營銷,直接企業(yè)投入產(chǎn)出比;(2)而在分布式爬蟲系統(tǒng)中,爬取任務(wù)的均衡分配是影響系統(tǒng)性能和或基于配置的關(guān)鍵

6、問題之一。目前分布式爬蟲系統(tǒng)慣用的集中式散列的任務(wù)分割策略并沒有考慮 URL 優(yōu)先級的影響和子節(jié)點(diǎn)負(fù)載情況,導(dǎo)致系統(tǒng)任務(wù)調(diào)度效率低下,從而成為分析 WAP日志這一海量數(shù)據(jù)的瓶頸。五、本申請?zhí)岚傅募夹g(shù)方案的詳細(xì)闡述【請對本申請?zhí)岚杆峁┑募夹g(shù)方案做詳細(xì)描述,必須說明技術(shù)方案是怎樣實(shí)現(xiàn)的,不能只有原理,也不能只介紹功能。如果本申請?zhí)岚傅募夹g(shù)方案提供的是法或者業(yè)務(wù)流程,則需要提供該方法或業(yè)務(wù)的流程圖或信令交互圖,并結(jié)合圖以步驟的形式順序描述技術(shù)方案的整體實(shí)現(xiàn)流程。如果本申請?zhí)岚傅募夹g(shù)方案提供的是一種系統(tǒng)或者一個(gè)設(shè)備,則需要提供該系統(tǒng)或該設(shè)備內(nèi)部組成部分的結(jié)構(gòu)圖,并結(jié)合結(jié)構(gòu)圖,詳細(xì)描述各個(gè)組成部分的功

7、能或各個(gè)部分的信號處理方式、以及各個(gè)部分之間的連接關(guān)系(該連接關(guān)系可以是物理的連接,如焊接;也可以是邏輯的連接,如傳送了某種信號或某種信息)。在方法的各個(gè)步驟或設(shè)備的結(jié)構(gòu)中,對于本申請?zhí)岚笡]有對其作出改進(jìn)的步驟或組成部分(如和現(xiàn)有技術(shù)相同的實(shí)現(xiàn))簡要描述即可,對于本申請?zhí)岚笇ζ渥鞒龈倪M(jìn)的步驟或組成部分,或者是新的步驟或組成部分,則需要詳盡地描述,到本領(lǐng)域技術(shù)不需要付出創(chuàng)造性的勞動(dòng)即可實(shí)施的程度?!磕壳?WAP 網(wǎng)關(guān)中有大量用戶上網(wǎng)日志,此重要的信息沒有被很好地挖掘,無法形成有效的用戶知識,不能支撐對客戶的工作,在此背景下,我們建設(shè)互聯(lián)網(wǎng)行為分析系統(tǒng),一方面完善對用戶的認(rèn)知,一方面在此基礎(chǔ)上支撐

8、對用戶的。整體系統(tǒng)架構(gòu)如下圖所示。系統(tǒng)基于網(wǎng)絡(luò)爬蟲設(shè)計(jì),數(shù)據(jù)處理流程為:1、用戶終端網(wǎng)絡(luò),在 WAP 網(wǎng)關(guān)留下日志,日志文件通過 ETL 接口接入分析平臺;2、分析平臺對網(wǎng)關(guān)日志進(jìn)行分析,提取用戶信息及URL 信息,經(jīng)過業(yè)務(wù)過濾和任務(wù)分解,生成網(wǎng)絡(luò)爬蟲抓取任務(wù),加入任務(wù)調(diào)度隊(duì)列;3、網(wǎng)絡(luò)爬蟲根據(jù)任務(wù)分配 URL,從互聯(lián)網(wǎng)上抓取該 URL 對應(yīng)的網(wǎng)頁內(nèi)容,根據(jù)內(nèi)容出 URL,再進(jìn)行內(nèi)容抓取;4、對于抓取的頁面內(nèi)容,通過分詞、類,再結(jié)合聚類技術(shù),進(jìn)行用戶行為挖掘;挖掘等進(jìn)行文本分5、得到用戶網(wǎng)絡(luò)行為特征,結(jié)合傳統(tǒng)的用戶通信行為以及消費(fèi)行為特征,完戶畫像。面對海量用戶的網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)容的抓取效率將會(huì)成

9、為互聯(lián)網(wǎng)行為分析系統(tǒng)性能以及準(zhǔn)確程度的關(guān)鍵因素,對于這樣的應(yīng)用環(huán)境,采取分布式網(wǎng)絡(luò)爬蟲的抓取方式是提高抓取效率的一個(gè)有效途徑。而對于分布式網(wǎng)絡(luò)爬蟲抓取,網(wǎng)絡(luò)爬蟲任務(wù)的任務(wù)分割算法將成為分布式網(wǎng)絡(luò)性能能否最優(yōu)化的的因素。本項(xiàng)目的系統(tǒng)架構(gòu),任務(wù)分割算法包括的 URL 加權(quán)傳遞排序算法和方法。服務(wù)器調(diào)度的基于散列的最小調(diào)度(1)在中心節(jié)點(diǎn)和子節(jié)點(diǎn)中的 URL 隊(duì)列中設(shè)計(jì)算法。傳遞的排序首先,在中心節(jié)點(diǎn)級,其 URL 隊(duì)列主體是不同主題的 URL,影響爬取質(zhì)量的屬性包括頁面重要性、抓取頻率和搜索深度。頁面重要性評價(jià)采用基于網(wǎng)絡(luò)拓?fù)涞?PageRank 算法作為標(biāo)準(zhǔn),采用線性函數(shù)計(jì)算,具體為對應(yīng)的 PR

10、 和 URL 隊(duì)列中 PR 最小值的差與PR 最大值和最小值差的比值:PRI - min( PR)a =Imax( PR) - min( PR)搜索深度是指頁面在最佳優(yōu)先策略中規(guī)定的層數(shù),有 HiddenWeb 表單的深度為 1,目錄塊結(jié)構(gòu)的數(shù)據(jù)密集型頁面深度為 2,正文導(dǎo)向的目標(biāo)頁面深度為 3,搜索深度的權(quán)重影響因子為其本身深度的倒數(shù)。b I =1Li抓取頻率是根據(jù)搜索前臺需求和更新策略設(shè)置的時(shí)間間隔對應(yīng)的影響因子,更新間隔短,抓取頻率大,則優(yōu)先級較高。經(jīng)過研究比較,首先采用線性歸一化函數(shù)處理得到結(jié)果,然后過 Sigmoid 函數(shù)均勻處理,具體計(jì)算如下:,最后經(jīng)FI - min( F )x

11、=Imax( F ) - min( F )其中, FI 是最大值和最小值。的抓取頻率;min 和 max 分別取得隊(duì)列中頻率11 + e-axg =Ia取值大于 1,是線性平滑結(jié)果后的因子,目標(biāo)是擴(kuò)大首步計(jì)算結(jié)果。按照 Sigmoid 函數(shù)曲線,a 在系統(tǒng)中取 2.5。由此可以得出,的優(yōu)先級權(quán)重是 3 個(gè)影響因子的算術(shù)平均:= a i + b i + g iQI3其次,子節(jié)點(diǎn)中的 URL 隊(duì)列繼承了中心節(jié)點(diǎn)的 URL 權(quán)重算法,Q 值中抓取頻率和站點(diǎn)重要性 2 個(gè)因子不變,只會(huì)隨搜索深度因子變化,計(jì)算如下:- b pre- bpre3其中, Qpre 是從父 URL 傳遞下來的權(quán)值; b pr

12、e 是父 URL 的搜索深度因子; b 是對象 URL 的搜索深度因子。(2)調(diào)度隊(duì)列的調(diào)度采用用相應(yīng)的權(quán)值表示其處理性能最小調(diào)度算法。各個(gè)子節(jié)點(diǎn)最小連接調(diào)度在調(diào)度新連接時(shí)盡可能使服務(wù)器的已建連接數(shù)和其權(quán)值呈正比最小連接調(diào)度的算法流程如下:假設(shè)有一組服務(wù)器 S=S0,S1, Sn-1,W(Si)表示服務(wù)器Si 的權(quán)值,C(Si)表示服務(wù)器 Si 的當(dāng)前連接數(shù)。所有服務(wù)器當(dāng)前連接數(shù)的總和為CSUM = åC(Si )(i=0,1,n-1)當(dāng)前的新連接請求會(huì)被服務(wù)器 Sm,當(dāng)且僅當(dāng)服務(wù)器 Sm 滿足以下條件再,Sm 執(zhí)行內(nèi)容抓取任務(wù):C(Sm )= min C(Si )W (Sm )W

13、(Si )整體的系統(tǒng)拓?fù)浣Y(jié)構(gòu)如下圖所示。在經(jīng)過網(wǎng)絡(luò)爬蟲抓取頁面內(nèi)容入庫后,經(jīng)過內(nèi)容分類以及用戶聚類分析,最終得到用戶的網(wǎng)絡(luò)行為分析畫像。六、本申請?zhí)岚傅年P(guān)鍵點(diǎn)和欲保護(hù)點(diǎn)【請對本申請?zhí)岚概c現(xiàn)有技術(shù)不同的各個(gè)區(qū)別點(diǎn)進(jìn)行提煉,按照區(qū)別點(diǎn)對本申請?zhí)岚赴l(fā)明目的影響的重要程度從高到低順序列出。】將移動(dòng)通信用戶分析范疇從傳統(tǒng)的通信及消費(fèi)分析模式提升到 網(wǎng)絡(luò)行為分析模式,完善客戶畫像。整套系統(tǒng)基于分布式網(wǎng)絡(luò)爬蟲構(gòu) 建;當(dāng)前網(wǎng)絡(luò)爬蟲系統(tǒng)對于海量分析數(shù)據(jù),爬蟲任務(wù)的調(diào)度成為系統(tǒng)效率一大瓶頸的問題,本項(xiàng)目采用了基于 URL傳遞排序算法和基于散列的最小調(diào)度方法,有效提高了調(diào)度效率。七、與第三條中最接近的現(xiàn)有技術(shù)相比,本申請?zhí)岚赣泻渭夹g(shù)優(yōu)點(diǎn)【請按照重要性從高到低的順序,寫明本申請?zhí)岚赶啾扔诂F(xiàn)有技術(shù)所具有的優(yōu)點(diǎn),并逐一說明本申請?zhí)岚甘且驗(yàn)椴捎昧嗽鯓拥募夹g(shù)才能具有某個(gè)優(yōu)點(diǎn)。請注意:至少要寫明與現(xiàn)有技術(shù)缺點(diǎn)相對應(yīng)的本申請?zhí)岚傅膬?yōu)點(diǎn),如果本申請?zhí)岚溉〉昧说募夹g(shù)效果也請列出;這里所說的優(yōu)點(diǎn)或效果是指技術(shù)上的優(yōu)點(diǎn),而不是管理上或商業(yè)上的優(yōu)點(diǎn)。】申請的專利方案有如下特點(diǎn):3G 網(wǎng)絡(luò)移動(dòng)用戶的行為特點(diǎn),了傳統(tǒng)的基于用戶通信及消費(fèi)的分析模式,加入了基于分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的用戶網(wǎng)絡(luò)行為分析元素,最大程度完善了客戶畫像,從而在精確方面提供了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論