版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
金融風控反欺詐圖算法先介紹下金融借貸業(yè)務流程:用戶前來申請借貸,會先經(jīng)過欺詐識別,把欺詐團伙和主觀欺詐的個人拒絕掉,然后對通過的人做信用評估,最后根據(jù)額度模型,算出利潤最大化時放款金額。剛才提到了團隊欺詐,舉個真實的例子。宜人貸在他們的財報中公布的,他們被20004w8000w那么如何防范這種風險呢。這就是今天要分享的圖算法。圖可以將這些一個個有良好記錄的個體關聯(lián)起來,一網(wǎng)打盡。再舉一些團伙欺詐的行為。比如一個團伙,注冊真實的淘寶商家,然后刷出良好的淘寶購物記錄。或者來回轉賬,刷出良好的銀行流水。剛才前兩位老師都沒有提到額度模型,簡單介紹下,如果只給用戶放款5000,可能壞賬風險很小,但是利息也少,如果放款10000,利息雖然收到利息多了,但是壞賬風險高嶺,所以需要做個權衡Graph簡介G=(V,E)G=(V,E)V:vertexsetE:edgeset有向,無向,有權重和沒有權重)舉例,兩個人之間的聯(lián)系,A給B買了東西,A和B之間的通話次數(shù)時長多于A和C之間。度中心性(DegreeCentrality)-表示連接到某節(jié)點的邊數(shù)。在有向圖中,2接近中心性(ClosenessCentrality)-從某節(jié)點到所有其他節(jié)點的最短路徑的平均長度。反映在網(wǎng)絡中某一節(jié)點與其他節(jié)點之間的接近程度。介中心性(BetweennessCentrality)-某節(jié)點在多少對節(jié)點的最短路徑上。社團發(fā)現(xiàn)算法一般有:最小割,正則化割:通過計算圖的最小割,即將網(wǎng)絡劃分為預定的分組數(shù),并使連接各分組的邊的條數(shù)最少。非負矩陣分解:基本原理是將原始矩陣分解得到社區(qū)指示矩陣和基矩陣基于模塊度的社區(qū)劃分基于節(jié)點相似性的社區(qū)劃分最小割算法廣泛應用在分布式計算的負載均衡中,對集群節(jié)點的分組有利于減少不相關節(jié)點之間的通信。然而由于該算法限定了網(wǎng)絡最終分組的個數(shù),而不能通過算法“發(fā)現(xiàn)”節(jié)點間的內(nèi)在聯(lián)系并自然地構成若干個社區(qū),因此最小割算法應用較為局限。本文主要分享這兩類的主要算法,基于模塊度的louvain和基于信息熵infomap,基于相似度的node2vec模塊度(Modularity)公式及簡化優(yōu)化目標:一般認為社團內(nèi)部的點之間的連接相對稠密,而不同社團的點之間的連接相對稀疏。所以模塊度也可以理解是社區(qū)內(nèi)部邊的權重減去所有與社區(qū)節(jié)點相連的邊的權重和,對無向圖更好理解,即社區(qū)內(nèi)部邊的度數(shù)(內(nèi)部的連線數(shù))減去社區(qū)內(nèi)節(jié)點的總度數(shù)。模塊度公式的解釋節(jié)點i和節(jié)點j之間邊的權重,網(wǎng)絡不是帶權圖時,所有邊的權重可以看做是1;表示所有與節(jié)點i相連的邊的權重之和(度數(shù));表示節(jié)點i所屬的社區(qū);表示所有邊的權重之和(邊的數(shù)目)。其中 表示社區(qū)c內(nèi)的邊的權重之和, 表示與社區(qū)c內(nèi)的節(jié)點相的邊的權重之和,即社區(qū)c節(jié)點的度之和(包含與其他社區(qū)相連邊的度)。從概率的角度去看:表示實際情況下,c社區(qū)內(nèi)產(chǎn)生邊的概率。表示在一種理想情況下,給定任意節(jié)點i的的度ki,對節(jié)點i和節(jié)點j進行隨機連邊,邊屬于社區(qū)c的概率期望。于是上式就表示了社區(qū)內(nèi)連邊數(shù)與隨機期望的一個差值。連邊數(shù)比隨機期望值越高,表明社區(qū)劃分的越好。一般使用后面簡化的公式,簡化后的公式刪除了判斷兩個節(jié)點是否劃為同一個社區(qū)的函數(shù),所以在一定程度上大大減少了Q值計算量。LouvainLouvain算法的思想很簡單:將圖中的每個節(jié)點看成一個獨立的社區(qū),此時社區(qū)的數(shù)目與節(jié)點個數(shù)相同;i配前與分配后的模塊度變化,并記錄最大的那個鄰居節(jié)點,如果,則把節(jié)點i分配最大的那個鄰居節(jié)點所在的社區(qū),否則保持不變;2,直到所有節(jié)點的所屬社區(qū)不再變化;對圖進行壓縮,將所有在同一個社區(qū)的節(jié)點壓縮成一個新節(jié)點,社區(qū)內(nèi)節(jié)點之間的邊的權重轉化為新節(jié)點的環(huán)的權重,社區(qū)間的邊權重轉化為新節(jié)2,3;2~4,直到整個圖的模塊度不再發(fā)生變化。第一階段稱為ModularityOptimization,主要是將每個節(jié)點劃分到與其鄰接的節(jié)點所在的社區(qū)中,以使得模塊度的值不斷變大;第二階段稱為CommunityAggregation,主要是將第一步劃分出來的社區(qū)聚合成為一個點,即根據(jù)上一步生成的社區(qū)結構重新構造網(wǎng)絡。重復以上的過程,直到網(wǎng)絡中的結構不再改變?yōu)橹埂R苿邮巧鐓^(qū)c內(nèi)節(jié)點與節(jié)點i的邊權重之和,再乘以2前面部分表示把節(jié)點i加入到社區(qū)c后的模塊度,后一部分是節(jié)點i作為一個獨立社區(qū)和社區(qū)c的模塊度Louvain社區(qū)發(fā)現(xiàn)算法\h/fengfenggirl/p/louvain.html\hSparkGraphX分布式圖計算實戰(zhàn)infomap從信息論的角度出發(fā),假設一個randomworker在圖上進行隨機游走,那么怎么用最少的編碼長度來表示其路徑呢?如果節(jié)點存在社區(qū)結構,那么社區(qū)內(nèi)的節(jié)點就可以共享社區(qū)的bit位碼,可以得到更小的平均比特,所以社區(qū)劃分的越好,那么表示任意一條隨機游走的路徑所需的平均比特就越小。如果我們能夠計算出每個節(jié)點的到達概率,就可以依據(jù)信息熵的公式來量化平均比特了:怎么計算每個點的到達概率呢?一個暴力的辦法是在圖上進行長時間的隨機游走,最后統(tǒng)計每個節(jié)點的出現(xiàn)概率。太暴力了。利用pagerank思路,初始化了每個節(jié)點的到達概率之后,就可以不斷地迭代更新每個節(jié)點的到達概率,這個結果會很快趨于收斂。其實這過程就是一個馬爾科夫隨機過程,隨機初始化起始值,然后隨機游走就相當于不停地用概率轉移矩陣相乘,最后就可以達到馬爾科夫穩(wěn)態(tài)。把隨機游走事件歸為三類:進入某個社團,離開某個社團,再社團內(nèi)部游走。定義清楚各類事件的發(fā)生概率,依據(jù)信息熵公式,就可以得到此時編碼所需的平均比特了,其本質(zhì)就是從信息論的角度出發(fā)。Infomap算法的迭代過程初始化,對每個節(jié)點都視作獨立的社區(qū);while平均比特的值不再下降;參考鏈接Themapequation\h/apps/MapDemo.html\h/s/qUxMesQA-edSyHeudQRRGADEEPGRAPHINFOMAX閱讀筆記/p/58682802GraphembeddingsDeepwalk使用隨機游走(RandomWalk)的方式在圖中進行節(jié)點采樣獲得節(jié)點共關系,skip-gram1中生成的節(jié)點序列學習每個節(jié)點的向量表示。skip-gram就是根據(jù)給定輸入的節(jié)點,預測上下文節(jié)點。Deepwalk有多不足,比如泛化能力,有新節(jié)點加入時,它必須重新訓練模型以表示該節(jié)點。其中一個就是采樣,從其鄰居中隨機采樣節(jié)點作為下一個訪問節(jié)點,是一種可重復訪問已訪問節(jié)點的深度優(yōu)先遍歷算法。node2vec是一種綜合考慮DFS鄰域和BFS鄰域的graphembedding方法node2vec優(yōu)化目標:條件獨立假設:特征空間的對稱性:優(yōu)化目標:計算量非常大,所以論文采用負采樣(negativesample)進行近似計算。這個node2vec優(yōu)化目標函數(shù),因為它跟大名鼎鼎的word2vec是一樣。我們最初是用一個Python寫的包,跑一遍算法需要一周。后來想,既然優(yōu)化目標是一樣的,那能不能用word2vec包,因為word2vec用c寫的,而且還采用了HierarchicalSoftmax,negativesampling加速。然后在網(wǎng)上找到了一個套用word2vec實現(xiàn)的node2vec包,速度快很多。隨機游走的方式復雜網(wǎng)絡處理的任務其實離不開兩種特性,前面也提到過:一種是同質(zhì)性,就是之前所說的社區(qū)。一種就是結構相似性,值得注意的是,結構相似的兩個點未必相連,可以是相距很遠的兩個節(jié)點。能不能改進DeepWalk中隨機游走的方式,使它綜合DFS和BFS的特性呢?所以本文引入了兩個參數(shù)用來控制隨機游走產(chǎn)生的方式。Z是分子的歸一化常數(shù)如果已經(jīng)采樣了(t,v),也就是說現(xiàn)在停留在節(jié)點v上,那么下一個要采樣的節(jié)點x是哪個?作者定義了一個概率分布,也就是一個節(jié)點到它的不同鄰居的轉移概率:直觀的解釋一下這個分布:如果t與x相等,那么采樣x的概率為;txx1;txxp、q的意義分別如下:返回概率p:DataFunTalk成就百萬數(shù)據(jù)科學家!如果pmaq,)t。如果p<q,),那么采樣會更傾向于返回上一個節(jié)點,這樣就會一直在起始點周圍某些節(jié)點來回轉來轉去。出入?yún)?shù)q:如果q>1,那么游走會傾向于在起始點周圍的節(jié)點之間跑,可以反映出一BFS特性。如果q1DS特性。p,q1DeWak簡而言之:參數(shù)p控制重復訪問剛剛訪問過的頂點的概率,q控制著游走是向外還是向內(nèi),若q>1,隨機游走傾向于訪問和t接近的頂點(BFS)q<1t的頂點(DFS)。缺點慢embedding再聚類,感覺這兩個過程很割裂!!融合一下comEGraphembedding得到向量后,可以做很多事情,在我們這個主題可以簡單的通過聚類來講節(jié)點分組。但是這個過程比較割裂,先優(yōu)化node2vec,然后再優(yōu)化聚類。能不能整體上一次性優(yōu)化完呢。comE這個算法優(yōu)化目標中加入了社區(qū)的檢測和嵌入。通過一個混合高斯模型將節(jié)點劃分開。優(yōu)化目標中前面兩項跟LINE定義的相似度相似:/u012151283/article/details/87013915LearningCommunityEmbeddingwithCommunityDetectionandNodeEmbeddingonGraphs/p/36924789Lea
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度外墻保溫項目質(zhì)量監(jiān)督與施工承包協(xié)議4篇
- 2025年度文化產(chǎn)業(yè)實習生勞動合同書(二零二五版)4篇
- 2025版離婚協(xié)議中關于房產(chǎn)抵押及貸款合同處理范本8篇
- 2024版遠洋貨運合同協(xié)議
- 2025版綠色環(huán)保社區(qū)共享租賃合同可下載4篇
- 2025版體育項目提成協(xié)議書(賽事贊助收入分成協(xié)議)3篇
- 2025年智慧倉儲與運輸管理系統(tǒng)合同3篇
- 長春師范高等??茖W校《數(shù)據(jù)結構與算法》2023-2024學年第一學期期末試卷
- 2025年度海洋工程精密焊管采購合同范本3篇
- 電子設備的防雷防潮措施
- 2024生態(tài)環(huán)境相關法律法規(guī)考試試題
- 有砟軌道施工工藝課件
- 兩辦意見八硬措施煤礦安全生產(chǎn)條例宣貫學習課件
- 40篇短文搞定高中英語3500單詞
- 人教版高中數(shù)學必修二《第九章 統(tǒng)計》同步練習及答案解析
- 兒科護理安全警示教育課件
- 三年級下冊口算天天100題
- 國家中英文名稱及代碼縮寫(三位)
- 人員密集場所消防安全培訓
- 液晶高壓芯片去保護方法
- 拜太歲科儀文檔
評論
0/150
提交評論