《Spark應(yīng)用開發(fā)技術(shù)》課件-03-構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶_第1頁
《Spark應(yīng)用開發(fā)技術(shù)》課件-03-構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶_第2頁
《Spark應(yīng)用開發(fā)技術(shù)》課件-03-構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶_第3頁
《Spark應(yīng)用開發(fā)技術(shù)》課件-03-構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶_第4頁
《Spark應(yīng)用開發(fā)技術(shù)》課件-03-構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Spark應(yīng)用開發(fā)技術(shù)本章主要講述SparkGraphX:圖計算框架。通過學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)SparkGraphX:圖計算框架。通過本節(jié)學(xué)習(xí)可以:理解圖與圖計算的基本概念掌握GraphX圖的創(chuàng)建方法掌握GraphX的基本操作掌握以GraphX進(jìn)行關(guān)聯(lián)聚合操作認(rèn)識SparkGraphX圖的基本概念、圖計算的應(yīng)用、GraphX的基礎(chǔ)概念、GraphX的發(fā)展了解GraphX常用API圖的創(chuàng)建與存儲、數(shù)據(jù)查詢與數(shù)據(jù)轉(zhuǎn)換、結(jié)構(gòu)轉(zhuǎn)換與關(guān)聯(lián)聚合構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶構(gòu)建網(wǎng)站信任網(wǎng)絡(luò)、找出需要支付稿酬的用戶、找出進(jìn)入熱門榜的用戶1.背景W網(wǎng)站是一個面向廣大用戶的消費品信息聚合網(wǎng)站,主要向用戶提供各類日常消費品的點評信息,以幫助用戶選到滿意的商品。當(dāng)用戶登錄網(wǎng)站后,可以發(fā)表對某件商品的點評,也可以參考其他點評者的點評信息。如果覺得某個點評信息的質(zhì)量優(yōu)秀,則可以將這個點評者納入自己的信任列表。這樣一來,在用戶與用戶之間就產(chǎn)生了一個基于信任關(guān)系的網(wǎng)絡(luò)。如果某用戶被其他用戶納入到信任列表的次數(shù)越多,則表明其信任值就越高。W網(wǎng)站為了鼓勵用戶做出優(yōu)質(zhì)的商品點評,會向信任值很高的用戶支付一定的稿酬以鼓勵點評,對于極受歡迎且達(dá)到一定活躍度的用戶,可以進(jìn)入熱門點評榜,增加知名度構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶1.

背景目前網(wǎng)站已經(jīng)積累了大量的用戶數(shù)據(jù),其中包括用戶的個人信息,基本格式如表所示,Id表示用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶1.背景用戶間的信任關(guān)系數(shù)據(jù)如表所示,F(xiàn)romNodeId為收藏信任點評人的用戶Id,ToNodeId為被加入信任列表的用戶Id,每一行數(shù)據(jù)表示左邊的用戶將右邊的用戶納入了信任列表構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶2.分析目標(biāo)主要是根據(jù)網(wǎng)站的需求,結(jié)合采集到的數(shù)據(jù),利用SparkGraphX圖計算工具完成以下任務(wù)構(gòu)建網(wǎng)站信任網(wǎng)絡(luò)找出網(wǎng)站需要支付稿酬的用戶找出有資格進(jìn)熱門點評榜的用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶3.構(gòu)建網(wǎng)絡(luò)信任圖構(gòu)建網(wǎng)絡(luò)信任圖的步驟如下所示先將數(shù)據(jù)上傳到HDFS文件系統(tǒng)導(dǎo)入圖計算所需要的包通過graph.fromEdges的方法創(chuàng)建信任網(wǎng)絡(luò)圖,頂點與邊的屬性設(shè)為常用的替代屬性1L構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶4.找出需要支付稿酬的用戶為了鼓勵用戶點評,所以對于信任度比較高的前50名用戶會支付一定的稿酬。想要找出信任度比較高的用戶,首先需要計算每個用戶的被信任度,也就是計算每個頂點的入度數(shù)。計算完入度數(shù)之后,需要根據(jù)入度數(shù)進(jìn)行排序,排序按照從高到低的順序,然后從排序后的頂點數(shù)據(jù)中取出前50名作為獎勵用戶,這50名用戶就是網(wǎng)站需要支付稿酬的用戶了構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶5.找出進(jìn)入熱門榜的用戶熱門排行榜是用于對網(wǎng)站用戶進(jìn)行一個排名的,想上排行榜需要滿足一定的要求才有資格進(jìn)入。第一點就是用戶的信任度必須在網(wǎng)站用戶信任度排名中排在前3%;第二點就是用戶的活躍度在滿足第一點的用戶中排在前5%,其中信任度表示入度數(shù),活躍度表示出度數(shù)。根據(jù)以上要求,要找出滿足條件的用戶,第一點需要計算入度數(shù)并排列取出前3%的用戶,然后再計算這3%的用戶的出度數(shù),取出前5%的用戶,這部分用戶即為可上榜用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶5.找出進(jìn)入熱門榜的用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶5.找出進(jìn)入熱門榜的用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶5.找出進(jìn)入熱門榜的用戶進(jìn)入熱門榜的用戶如圖所示構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可信任用戶一個用戶對另一個用戶表示信任,那么他/她可能對于另一個用戶所信任的其他用戶的點評同樣也比較信任。將信任人的信任人推薦給這個用戶,屬于二度關(guān)系推薦,這是常用的一種最簡單的推薦方法。這個過程可以稱為二度關(guān)系或二跳鄰居,二度關(guān)系推薦可抽象成在有向圖中尋找到指定頂點的最短距離為2的所有頂點。具體求解過程如下先構(gòu)造一個屬性圖,為了存儲符合關(guān)系的鍵值對(用戶Id->度數(shù)),每個頂點的屬性Attr初始化為Map(),然后進(jìn)行兩次迭代求解二度關(guān)系構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可信任用戶二度關(guān)系求解過程使用aggregateMessages把VerticeID和第幾度鄰居的度數(shù)N作為一個鍵值對傳播到出度點上,出度點把收集到的信息合成一個大Map構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可信任用戶二度關(guān)系求解過程更新后的Vertice與原圖進(jìn)行“Join”,更新圖中的變化過的點屬性,將Map數(shù)據(jù)加入到圖中進(jìn)行下一輪的分析構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可信任用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶給用戶推薦可信任用戶重復(fù)1,2步,此時N值改為2,輸出更新了2輪之后的有關(guān)系的Vertice,去掉其中已經(jīng)被頂點所信任過的用戶6.給用戶推薦可信任用戶二度關(guān)系求解過程數(shù)據(jù)類型為(頂點Id,2度鄰居頂點Id),現(xiàn)在將同一個用戶的所有推薦用戶Id合并成一個List,選取其中的10個作為推薦結(jié)果并且輸出到HDFS構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論