基于大數據分析的金融反欺詐建模方法研究_第1頁
基于大數據分析的金融反欺詐建模方法研究_第2頁
基于大數據分析的金融反欺詐建模方法研究_第3頁
基于大數據分析的金融反欺詐建模方法研究_第4頁
基于大數據分析的金融反欺詐建模方法研究_第5頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、    基于大數據分析的金融反欺詐建模方法研究    李云雪 劉靜 閆雪梅摘要:承認混雜性,追求效率以及探索相關關系是大數據的核心。大數據分析的實質是依據策略劃分數據、建立模型然后評估模型并持續(xù)優(yōu)化。文章淺析了互聯(lián)網大數據的特點和it架構;以互聯(lián)網大數據的建模分析方法和模型特征為基礎,重點解析了大數據征信模型的反欺詐應用,并給出大數據準備的優(yōu)化方向。筆者最后依據大數據行業(yè)崗位特點,針對高職教育提出了學生的培養(yǎng)路徑。關鍵詞:大數據建模;數據準備;反欺詐模型;數據優(yōu)化;培養(yǎng)路徑一、引言21世紀是數字經濟時代,數據成為經濟資產帶動新興商業(yè)模式和投資機會。基于大

2、數據的建模分析和應用無處不在,比如春節(jié)客流量分析,客戶畫像和行為特征分析等。從數據使用角度來看大數據主要采用數據均參與的全量數據建模方法,并非指數據集合的巨大。但當前移動互聯(lián)網社交軟件、電子商務等海量應用已經把數據資產的體量提升到pb(1024tb)級,其數據組合也已呈現(xiàn)非結構和多樣化態(tài)勢。本文梳理了大數據與普通數據的異同,解析數據的采集與存儲使用的行業(yè)it解決方案;在此基礎上進一步深入研究基于大數據的模型特征;以互聯(lián)網金融為主線,在業(yè)務策略模型、貸前風險評估和反欺詐評分方面,立足實踐深入淺出歸納總結基于神經網絡的金融反欺詐模型的優(yōu)勢。二、大數據特征與it架構大數據分析建模的前提是數據準備,互

3、聯(lián)網金融反欺詐數據關注時間跨度和數據粒度,時間跨度越長得出相關性預測越準確,而數據的粒度和具體業(yè)務、數據采集和it處理有關?;ヂ?lián)網金融領域反欺詐數據的準備有以下特點:1、數據量大,特別是移動互聯(lián)網產業(yè)興起后的各種應用app產生的海量登錄數據,注冊信息,位置信息,運動軌跡,頁面點擊數據和會話聊天等數據。2、數據類型多,有文本數據,有視頻/音頻數據,有文件數據,有二進制數據,也有結構化的數據如xml文檔等。整體呈現(xiàn)異構化,在某些領域又存在標準的結構化數據。3、數據維度雜,比如客戶維度的社交圈子,通話視頻,購買能力,償還能力和工作穩(wěn)定度等。也有平臺維度的信息和相關瀏覽點擊和行為軌跡,也可從互聯(lián)網黑名

4、單,客戶特征畫像等維度分析。4、數據敏感性和公開性交織,從信息安全和數據敏感角度,又有數據保密、公開使用和授權使用等法律法規(guī)要求。hadoop是google公司apache基金會所開發(fā)的分布式系統(tǒng)基礎架構,其應用范圍非常廣泛。例如yahoo使用4000個節(jié)點的hadoop集群支持廣告系統(tǒng)和搜索;百度用hadoop處理每周200tb的數據;中國移動研究院基于hadoop開發(fā)了“大云”(bigcloud)系統(tǒng);金融反欺詐方面的應用主要是金融服務或政府機構利用hadoop來存儲客戶金融屬性數據,包括一些非結構化的數據來發(fā)現(xiàn)客戶的異常活動,拒絕欺詐行為。三、大數據建模方法及模型特征大數據建模首先需要確

5、定業(yè)務模型,業(yè)務模型指的是針對某個業(yè)務場景定義,用于解決問題的規(guī)則和流程,核心是場景化的應用。比如電商網站會有銷售預測模型、商品關聯(lián)模型等;媒體和自媒體應用會建立讀者關注度模型?;ヂ?lián)網大數據分析是在業(yè)務模型基礎上實現(xiàn)數據建模,主要步驟是1)選擇或定義模型;2)訓練模型;3)評估模型;4)應用模型;5)優(yōu)化模型。其中訓練和評估模型采用不同的數據集合,以免過度優(yōu)化參數?;ヂ?lián)網大數據分析的典型模型有回歸模型,分類模型,聚類模型,關聯(lián)模型和歸因模型等。模型有符合其業(yè)務和數據的特點,如可采用決策樹算法來對客戶分類,并在關鍵流失節(jié)點上加運營策略來減少流失;關聯(lián)關系是互聯(lián)網海量數據的天然應用體現(xiàn),關聯(lián)學習通

6、過尋找數據變量之間的規(guī)則,對多種數據的關系進行挖掘。典型案例是“啤酒和尿布”的捆綁銷售。聚類是電商運營的重要分析模型,可采用k-means聚類模型快速分群,電商網站可以根據用戶的購買行為將客戶分為“年輕白領女性”、“家有小孩”、“單身青年”等類型,然后依據不同的用戶畫像發(fā)起營銷??蛻艮D換率和相關數據追蹤是互聯(lián)網app和會員系統(tǒng)類基本應用,歸因的漏斗分析是一套流程式步驟,比如直播用戶從激活app開始到花費,漏斗能夠展現(xiàn)出各個階段的轉化率,通過漏斗各環(huán)節(jié)相關數據的比較,能夠直觀地發(fā)現(xiàn)問題所在并找到優(yōu)化方向。四、基于互聯(lián)網金融的征信反欺詐美國個人信用評估起源較早,在上世紀50年代形成了為金融零售商提

7、供分析的公司,fico(fairisaaccorporation)個人評分如今成為美國放款的重要指標之一。我國個人征信評分起步較晚,目前比較典型的是芝麻信用。反欺詐業(yè)務策略實質就是預測貸前欺詐的概率,互聯(lián)網大數據征信評分模型中,主要應用的有神經網絡,隨機深林和logistics回歸分析等。神經網絡模型在預測準確率和穩(wěn)健性方面有自身的優(yōu)勢。征信的神經網絡評估模型主要納入了金融交易數據和社交關系數據,形成以金融數據為中心其他數據為補充的征信評分。目前我國的在線征信和資質審查已快速展開,基于互聯(lián)網大數據的反欺詐評分,已經成為貸前風控的重要依據,比如在線金融的“秒貸”就利用反欺詐評分來快速完成審批和放

8、款。五、結語基于互聯(lián)網大數據分析的金融征信反欺詐建模是互聯(lián)網海量大數據建模分析的一個典型應用,其特點是數據維度多,來源廣泛且需要底層分布式大數據架構。在上層算法分析模型方面有選擇性的構建適合于征信處理的神經網絡模型,使得評分可被金融機構采納并進行高效反欺詐判決。筆者結合實際工作經驗提出數據準備優(yōu)化的路徑。對于區(qū)域封閉的行業(yè)數據如交通客服數據,交通裝備數據,醫(yī)療診斷數據,病人回訪數據,金融交易數據,金融畫像數據等可形成統(tǒng)一數據標準,嚴格按照國家或行業(yè)標準來建設和治理。對開放的互聯(lián)網數據,要加強采集機構和大型企業(yè)的監(jiān)管,也要打破委辦局之間的隔閡,做好大數據業(yè)務生態(tài)鼓勵更多的企業(yè)和個人的創(chuàng)新使用。大

9、數據分析與數據處理崗位一般分為業(yè)務條線和it技術條線,業(yè)務人員要求精通業(yè)務,能夠依據應用構建業(yè)務建模和梳理業(yè)務策略。it技術線主要分為數據準備維護類,數據建模實現(xiàn)類it人員。針對高職學生的主要大數據分析崗位一是在業(yè)務線,成為業(yè)務能手;二是在開發(fā)條線,主要是數據維護類相關工作。針對高職學生的大數據分析建模it能力主要是建模和數據呈現(xiàn)類工具使用,成為熟練的企業(yè)“提數”操作人才?;ヂ?lián)網大數據既要融合共享,又要結合有償和免費利用;既要做到人人提供數據,又要遵循法律法規(guī)對于敏感數據需授權使用。參考文獻:1于曉陽.互聯(lián)網+大數據模式下的征信以芝麻信用為例j.北方金融,2016,(11):73-75.2 吳俊一.基于logistic回歸的信用反欺詐預測模型j.價值工程,2020,(1):206-210.3 仵偉強,后其林.基于機器學習模型的消費金融反欺詐

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論