月機器學習第10課-社交網(wǎng)絡在工業(yè)界應用_第1頁
月機器學習第10課-社交網(wǎng)絡在工業(yè)界應用_第2頁
月機器學習第10課-社交網(wǎng)絡在工業(yè)界應用_第3頁
月機器學習第10課-社交網(wǎng)絡在工業(yè)界應用_第4頁
月機器學習第10課-社交網(wǎng)絡在工業(yè)界應用_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

社交網(wǎng)絡在工業(yè)界的應用七月在線王博士2016年9月4日

8月機器學習應用主要內(nèi)容社交網(wǎng)絡算法介紹互聯(lián)網(wǎng)金融服務面臨的欺詐風險社交網(wǎng)絡算法在金融反欺詐中的應用自動化風控系統(tǒng)架構2/39社交網(wǎng)絡

8月機器學習應用3/39社交網(wǎng)絡算法應用場景在社交網(wǎng)絡中社區(qū)圈子的識別(CommunityDetection)Facebook/微信是基于朋友之間的強關系網(wǎng)絡,有助于朋友之間的聯(lián)系與關系維系Twitter/微博/豆瓣是基于單向關注的弱關系社交網(wǎng)絡,有助于消息的傳播和塑造意見領袖Linkedin是面向工作的職業(yè)社交網(wǎng)絡,幫助商務交流與求職招聘。基于好友關系為用戶推薦商品或內(nèi)容社交網(wǎng)絡中人物影響力的計算信息在社交網(wǎng)絡上的傳播模型虛假信息和機器人賬號的識別基于社交網(wǎng)絡信息對股市、大選的預測互聯(lián)網(wǎng)金融行業(yè)中的反欺詐預測

8月機器學習應用4/39社交網(wǎng)絡算法-分析指標一個具體的網(wǎng)絡可抽象為一個由節(jié)點(vertex或node)集合V和邊(edge)集合E組成的圖G=(V,E),節(jié)點數(shù)記為n=|V|,邊數(shù)記為m=|E|。衡量指標:度(degree)密度(density)團(clique)度中心性(degree

centrality)緊密中心性(closeness

centrality)介數(shù)中心性(betweenness

centrality)聚集系數(shù)(clustering

coefficient)

8月機器學習應用5/39PageRank算法思想:被大量高質量網(wǎng)頁引用(鏈接)的網(wǎng)頁也是高質量網(wǎng)頁。例如網(wǎng)頁Y被X1,X2,X3,X4四個網(wǎng)頁所鏈接,且這四個網(wǎng)頁的權重分別為0.001,0.01,0.02,0.04,則網(wǎng)頁Y的Rank值=0.01+0.02+0.03+0.04=0.071。

8月機器學習應用6/39社區(qū)發(fā)現(xiàn)算法什么是社區(qū)(communitystructure)?同一社區(qū)內(nèi)的節(jié)點與節(jié)點之間的連接很緊密,而社區(qū)與社區(qū)之間的連接比較稀疏。

8月機器學習應用7/39GN算法邊介數(shù)(Betweenness):網(wǎng)絡中經(jīng)過每條邊的最短路徑的數(shù)目。GN算法:計算網(wǎng)絡中所有邊的介數(shù)找到介數(shù)最高的邊并將它從網(wǎng)絡中移除重復,直到每個節(jié)點就是一個社團為止

8月機器學習應用8/39社區(qū)評價指標-模塊度Modularity

8月機器學習應用9/39社區(qū)評價指標-模塊度Modularity

8月機器學習應用10/39社區(qū)評價指標-Conductance

8月機器學習應用11/39Louvain算法Louvainmethod(FastUnfolding):Findingcommunitiesinlargenetworks.[VincentBlondelet.al,2008,Nature]

8月機器學習應用12/39LPA算法優(yōu)點:不需要預先知識,不用預先給定社區(qū)的數(shù)量,可以控制迭代的次數(shù)來劃分節(jié)點類別??蓴U展性強,時間復雜度近線性,適合處理大規(guī)模復雜網(wǎng)絡。

8月機器學習應用13/39LPA算法算法思想:初始化每個節(jié)點,給其唯一標簽根據(jù)鄰居節(jié)點最常見的標簽更新每個節(jié)點的標簽最終收斂后標簽一致的節(jié)點屬于一個社區(qū)

8月機器學習應用14/39Code

8月機器學習應用15/39Runscala>importorg.apache.spark._scala>importorg.apache.spark.rdd.RDDscala>importorg.apache.spark.graphx._scala>valgraph=GraphLoader.edgeListFile(sc,"followers.txt")scala>valcd=lib.LabelPropagation.run(graph,20)scala>cd.vertices.collect()res:Array[(org.apache.spark.graphx.VertexId,org.apache.spark.graphx.VertexId)]=Array((4,4),(6,5),(2,2),(1,1),(3,2),(5,5))

測試數(shù)據(jù)followers.txt:2,13,15,46,41,4

社區(qū)劃分結果:2,3屬于一個社區(qū)“1”5,6屬于一個社區(qū)“4”1屬于一個社區(qū)“2”4屬于一個社區(qū)“5”

8月機器學習應用16/39SLPA算法算法思想:給每個節(jié)點設置一個列表來存儲歷史標簽每個Speaker節(jié)點帶概率選擇自己標簽列表中的標簽傳播給Listener節(jié)點(Speaker節(jié)點為Listener節(jié)點的鄰居節(jié)點)節(jié)點將最熱門的標簽更新到標簽列表中使用閾值r去刪除低頻標簽,產(chǎn)出標簽一致的節(jié)點為社區(qū)

KarateClubNetwork

8月機器學習應用17/39

8月機器學習應用主要內(nèi)容社交網(wǎng)絡算法介紹互聯(lián)網(wǎng)金融服務面臨的欺詐風險社交網(wǎng)絡算法在金融反欺詐中的應用自動化風控系統(tǒng)架構18/39互聯(lián)網(wǎng)和金融的結晶金融的本質:資源的最合理化應用互聯(lián)網(wǎng)技術:交易的邊界成本趨向“零”互聯(lián)網(wǎng)金融:用大數(shù)據(jù)、云計算等技術實現(xiàn)的資金融通、支付、投資和信息中介服務

8月機器學習應用Volume每天生成

T級數(shù)據(jù)量速Velocity最高每分鐘

50+申請Variety

網(wǎng)絡,設備,行為,

渠道,PII,社交,

三方,等類別類質Veracity完整度和質量

經(jīng)常殘差不齊19/39個人對個人的信用貸款

8月機器學習應用P2P借款與理財咨詢服務平臺借款人群出借人群債權資金場景開發(fā)渠道有效率訪問注冊轉化率貸款申請轉化率貸款流程用戶體驗反欺詐流程信用審批流程借款用戶培育(nurturing)場景開發(fā)渠道有效率訪問注冊轉化率出借成功率出借流程用戶體驗提款流程用戶體驗全周期用戶價值

老用戶運營(AUM)分析20/39極速信任-自動化信用評估

8月機器學習應用客戶獲取信用評估交易促成客戶服務全流程線上借款與理財咨詢服務欺詐風險

是互聯(lián)網(wǎng)金融

線上信貸工廠模式

最大的挑戰(zhàn)場景不同人群不同數(shù)據(jù)獲取方式不同數(shù)據(jù)維度不同數(shù)據(jù)深度不同信用評估機制不同線下線上21/39互聯(lián)網(wǎng)金融行業(yè)中的欺詐金融欺詐有兩種:偽冒申請

欺詐交易偽冒申請:

變造申請材料,以獲得更高額度欺詐交易:申請時無還款意愿有的中介會在包辦貸款時雙向欺詐:偽造虛假文件欺詐借款公司騙取貸款人身份信息多方借貸

8月機器學習應用人群團體化地區(qū)集中化方式多樣化工具智能化22/39

8月機器學習應用主要內(nèi)容社交網(wǎng)絡算法介紹互聯(lián)網(wǎng)金融服務面臨的欺詐風險社交網(wǎng)絡算法在金融反欺詐中的應用自動化風控系統(tǒng)架構23/39反欺詐中可應用到多種社交網(wǎng)絡算法社交網(wǎng)絡算法:分析指標:degree、closeness

centrality、betweenness

centrality、cluster

coefficient、triangle

count、connectedcomponents算法:PageRank社區(qū)發(fā)現(xiàn):GN、FastUnfolding、LPA、SLPA、WalkTrap在工業(yè)界的其他應用包括:精準營銷、改善搜索/幫助推薦、網(wǎng)絡系統(tǒng)安全

8月機器學習應用24/39社交網(wǎng)絡算法在金融反欺詐中的優(yōu)勢

8月機器學習應用點傳統(tǒng)反欺詐:-客戶是否觸黑-客戶的消費記錄是否異常面應用社交網(wǎng)絡反欺詐:-客戶一度、二度關系是否觸黑-客戶消費關聯(lián)商家是否異常-一機多人-識別組團欺詐25/39構建金融知識圖譜FinGraph

8月機器學習應用應用場景層面智能搜索、反欺詐、貸后管理、營銷分析、運營支撐等數(shù)據(jù)整合層面信用數(shù)據(jù)、金融消費數(shù)據(jù)、行為數(shù)據(jù)、社交數(shù)據(jù)、網(wǎng)絡安全、第三方數(shù)據(jù)等圖數(shù)據(jù)庫neo4j系統(tǒng)支持層面特征工程、模型開發(fā)、異常監(jiān)控、推薦系統(tǒng)等Spark+GraphX+Mllib+Streaming+TensorFlowFinGraph平臺系統(tǒng)包含電話、身份證、銀行卡、信用卡、IP、設備號、地理位置等10種實體約1億節(jié)點約10億邊關系預計到2017年增長20倍26/39反欺詐案例:人以群分(1)借款用戶通信社交網(wǎng)絡與欺詐風險結論:與壞用戶有大量關聯(lián)的借款用戶的壞賬率是未關聯(lián)用戶的2.9倍

8月機器學習應用2.9倍27/39反欺詐案例:人以群分(2)從整體借款群體的角度,用PageRank算法探索哪些用戶與大量借款用戶有關聯(lián)關系

8月機器學習應用28/39反欺詐案例:人以群分(2)借款用戶通信社交網(wǎng)絡與欺詐風險結論:PageRank高分段用戶的壞賬率是低分段用戶的3.3倍

8月機器學習應用3.3倍29/39反欺詐案例:識別組團欺詐風險通過社區(qū)發(fā)現(xiàn)算法來實時評估每個用戶的組團欺詐風險

8月機器學習應用30/39欺詐案例調(diào)查的挑戰(zhàn):失聯(lián)用戶找尋通過社區(qū)發(fā)現(xiàn)算法挖掘失聯(lián)用戶的通信社交網(wǎng)絡

8月機器學習應用31/39欺詐案例調(diào)查的挑戰(zhàn):失聯(lián)用戶找尋在社區(qū)內(nèi)使用最短路徑算法來發(fā)現(xiàn)失聯(lián)用戶與一個正常還款用戶的關系鏈

8月機器學習應用32/39

8月機器學習應用主要內(nèi)容社交網(wǎng)絡算法介紹互聯(lián)網(wǎng)金融服務面臨的欺詐風險社交網(wǎng)絡算法在金融反欺詐中的應用自動化風控系統(tǒng)架構33/39社交網(wǎng)絡分布在多個離線建模環(huán)節(jié)中

8月機器學習應用34/39FinGraph是線上風控系統(tǒng)中的關鍵一環(huán)

8月機器學習應用35/39總結:社交網(wǎng)絡算法把反欺詐工作從局部考量提升到全局考量

8月機器學習應用36/39工具推薦

NetworkxiGraphGephiGraphX(Spark)neo4j和py2neo

8月機器學習應用37/39作業(yè)

LPA算法劃分followers.txt的社區(qū)(參考上課內(nèi)容)Walktrap算法實現(xiàn)原理筆記在構成圓形的30000個隨機樣本點上,設置7個簇,分別使用K-Means算法和K-Means++算法的聚類對比解答答案:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論