




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2021年數(shù)據(jù)價值釋放與隱私保
護計算應用研究報告護計算技術(shù)助力加快驅(qū)動生產(chǎn)、生活、治理方式的變革,以及營造良好數(shù)字生態(tài)。.打造數(shù)字經(jīng)濟競爭優(yōu)勢,驅(qū)動生產(chǎn)方式變革在數(shù)字經(jīng)濟建設方面,數(shù)據(jù)憑借其可復制、可共享、可無限供給的特點,助力產(chǎn)業(yè)實現(xiàn)精細管理、精益生產(chǎn)、精準營銷、精確規(guī)劃等提升,以此降低經(jīng)濟運行成本、提高經(jīng)濟運行效率、賦能傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級,催生大量新產(chǎn)業(yè)、新模式、新業(yè)態(tài)。依托數(shù)字經(jīng)濟中的海量數(shù)據(jù)規(guī)模和豐富應用場景優(yōu)勢,隱私保護計算技術(shù)助力打破“數(shù)據(jù)壁壘”,推動數(shù)據(jù)賦能全產(chǎn)業(yè)鏈協(xié)同轉(zhuǎn)型,助力形成高質(zhì)量供給創(chuàng)造新需求、需求牽引供給的動態(tài)平衡,促進國民經(jīng)濟良性循環(huán)。.加快數(shù)字社會建設步伐,驅(qū)動生活方式變革在數(shù)字社會建設方面,隱私保護計算在助力推進學校、醫(yī)院、養(yǎng)老院等公共服務機構(gòu)實現(xiàn)資源數(shù)字化的基礎(chǔ)之上,有助于進一步加大開放共享和應用力度,推動線上線下公共服務協(xié)同發(fā)展、深度融合,提高公共服務能力的便捷性,以及數(shù)字服務應用的普惠性。此外,對于基層、邊遠和欠發(fā)達地區(qū),通過隱私保護計算技術(shù),可在保護數(shù)據(jù)安全和隱私的情況下,助力擴大公共服務資源輻射覆蓋范圍,有效緩解“數(shù)字鴻溝”,提高“數(shù)字弱勢群體”及人民群眾對公共服務的獲得感和滿足感,促進社會運行方式變革,構(gòu)建全民暢享數(shù)字紅利的數(shù)字生活。提高數(shù)字政府建設水平,驅(qū)動治理方式變革在數(shù)字政府建設方面,隱私保護計算在助力確保公共安全的前提下,有助于提高數(shù)字化政府工作效能,實現(xiàn)數(shù)據(jù)跨部門、跨層級、跨地區(qū)匯聚融合、深度利用和高質(zhì)量協(xié)作。具體體現(xiàn)在三方面,一是有效推動公共數(shù)據(jù)資源開放,以增強公共數(shù)據(jù)資源開放的透明度、增加政府公信力;二是有序推進政務數(shù)據(jù)資源共享,以提升協(xié)同治理能力;三是全面深化公共數(shù)據(jù)資源利用,以提高政府決策制定的科學性、專業(yè)性和時效性,助力政府精準施策。激發(fā)安全技術(shù)創(chuàng)新活力,營造良好數(shù)字生態(tài)隱私保護計算在提供數(shù)據(jù)安全和個人信息保護能力的基礎(chǔ)上,一是從技術(shù)角度實現(xiàn)“數(shù)據(jù)”向“數(shù)據(jù)價值”流通的升維,破除既有數(shù)據(jù)壁壘;二是憑借其堅實的理論基礎(chǔ)和安全性證明,加強數(shù)據(jù)應用透明度,增進數(shù)據(jù)價值利用下的安全保護信任,有效緩解數(shù)字經(jīng)濟發(fā)展中的數(shù)據(jù)安全和個人信息保護的信任危機,彌合信任鴻溝;三是助力實現(xiàn)數(shù)據(jù)合規(guī)應用中的數(shù)據(jù)最小化、數(shù)據(jù)分類分級和數(shù)據(jù)匿名化,促進數(shù)據(jù)應用的合規(guī)化發(fā)展。如隱私保護計算技術(shù)通過聯(lián)邦學習的控制用法用量、安全多方計算實現(xiàn)目的受限,機密計算的授權(quán)代碼運行等實現(xiàn)數(shù)據(jù)最小化。綜上,“十四五”規(guī)劃綱要強調(diào)以數(shù)字化轉(zhuǎn)型驅(qū)動生產(chǎn)方式、生活方式和治理方式的變革,而隱私保護計算技術(shù)的出現(xiàn),為充分發(fā)揮海量數(shù)據(jù)和豐富應用場景優(yōu)勢,有力促進數(shù)字技術(shù)與經(jīng)濟社會發(fā)展各領(lǐng)域融合發(fā)展,加快實現(xiàn)數(shù)字化發(fā)展、建設數(shù)字中國的遠景目標提供了重要的基礎(chǔ)(如圖3所示)。釋放變」實現(xiàn)DIKW模型指導驅(qū)動優(yōu)化科學決策生產(chǎn)方式變革生活方式變革治理方式變革數(shù)字生態(tài)J價值實現(xiàn)數(shù)字經(jīng)濟數(shù)字社會數(shù)字生態(tài)數(shù)一帝國”遠景晨實際變革遠景目標來源:4*國信息通信研究院圖3數(shù)據(jù)價值釋放路徑模型二、隱私保護計算技術(shù)概述(-)隱私保護計算及其矣鍵技術(shù)隱私保護計算(Privacy-PreservingComputation)是一套包含人工智能、密碼學、數(shù)據(jù)科學等眾多領(lǐng)域交叉融合的跨學科技術(shù)體系3。它能夠在不泄露原始數(shù)據(jù)的前提下,對數(shù)據(jù)進行加工、分析處理、分析驗證,其重點提供了數(shù)據(jù)計算過程和數(shù)據(jù)計算結(jié)果的隱私安全保護能力。隨著數(shù)字技術(shù)的發(fā)展,隱私保護計算的內(nèi)涵及主流技術(shù)不斷演進。主流的技術(shù)研究焦點從早期的數(shù)據(jù)擾動和數(shù)據(jù)匿名化等演進至今,己經(jīng)能夠?qū)崿F(xiàn)數(shù)據(jù)計算過程和數(shù)據(jù)計算結(jié)果的保護,形成一套包含眾多領(lǐng)域的跨學科安全技術(shù)體系。隱私保護計算具體涵蓋了安全多方計算、聯(lián)邦學習、同態(tài)加密、差分隱私和機密計算等技術(shù)。安全多方計算(SecureMulti?PartyComputation,SMPC),由中國科學院院士姚期智于1982年通過“百萬富翁問題”提出,旨在解3中國信通院《隱私保護計算技術(shù)研究報告》決“一組相互獨立且互不信任的參與方各自持有秘密數(shù)據(jù),協(xié)同計算一個既定函數(shù)”的問題。安全多方計算保證了各參與方在獲得正確計算結(jié)果的同時,無法獲得計算結(jié)果之外的任何信息。聯(lián)邦學習(FederatedLearning,FL),可被理解為是由兩個或兩個以上數(shù)據(jù)方共同參與,在保證數(shù)據(jù)方各自原始數(shù)據(jù)不出其定義的安全控制范圍的前提下,協(xié)作構(gòu)建并使用機器學習模型的技術(shù)架構(gòu)。通常情況下,聯(lián)邦學習需與其它隱私保護計算技術(shù)聯(lián)合使用,才可在計算過程中實現(xiàn)數(shù)據(jù)保護。同態(tài)加密(HomomorphicEncryption,HE),是一種允許在加密之后的密文上直接進行計算,且計算結(jié)果解密后與基于明文的計算結(jié)果一致的加密算法,可在不解密以實現(xiàn)數(shù)據(jù)機密性保護的同時完成計算。根據(jù)支持密文運算的程度,同態(tài)加密方案可以分為部分同態(tài)加密方案和全同態(tài)加密方案兩類。部分同態(tài)加密方案能夠支持有限的密文計算深度,常作為其他方案的組成部分之一進行使用。而全同態(tài)加密理論雖支持無限次任意給定函數(shù)的運算,但由于計算開銷較大,目前尚未形成規(guī)?;纳逃谩2罘蛛[私(DifferentialPrivacy,DP),是Dwork在2006年針對數(shù)據(jù)庫的隱私問題提出的一種嚴格的、可量化的隱私定義和技術(shù)。差分隱私在保留統(tǒng)計學特征的前提下,去除個體特征以保護用戶隱私。差分隱私具有兩個重要的優(yōu)點:一是提出與背景知識無關(guān)的隱私保護模型,實現(xiàn)攻擊者背景知識最大化的假設;二是為隱私保護水平提供嚴格的定義和量化評估方法。機密計算(ConfidentialComputing,CO,機密計算是指通過在基于硬件的可信執(zhí)行環(huán)境中執(zhí)行計算來保護數(shù)據(jù)應用中的隱私安全的技術(shù)之一。其中可信執(zhí)行環(huán)境定義為可在數(shù)據(jù)機密性、數(shù)據(jù)完整性和代碼完整性三方面提供一定保護水平的環(huán)境4。其基本原理是將需要保護的數(shù)據(jù)和代碼存儲在可信執(zhí)行環(huán)境中,對這些數(shù)據(jù)和代碼的任何訪問都必須經(jīng)過基于硬件的訪問控制,防止他們在使用中未經(jīng)授權(quán)被訪問或修改,從而提高機構(gòu)管理敏感數(shù)據(jù)的安全水平\除上述技術(shù)外,隱私保護計算技術(shù)還包含了秘密共享、不經(jīng)意傳輸、混淆電路、零知識證明等諸多技術(shù)方向,在此暫不一一贅述。(二)基于隱私保護計算技術(shù)的數(shù)據(jù)流通模式在實際應用中,根據(jù)數(shù)據(jù)流通方式、數(shù)據(jù)集中程度、模型復雜度等差異化的業(yè)務場景,從技術(shù)角度來說,基于隱私保護計算技術(shù)的數(shù)據(jù)流通方式可分為可信環(huán)境模式、可證模式和可度量模式三類(如圖2所示):機構(gòu)間無互信基礎(chǔ)可度■可證核心技術(shù):核心技術(shù):聯(lián)邦學習、拆分學習、差分隱私安全多方計鼻、同態(tài)加密輔助技術(shù):輔助技術(shù):可信執(zhí)行環(huán)境、安全多方計算、同態(tài)加密可信執(zhí)行環(huán)境、差分隱私服務器計算模塊機構(gòu)間無互信基礎(chǔ)可度■可證核心技術(shù):核心技術(shù):聯(lián)邦學習、拆分學習、差分隱私安全多方計鼻、同態(tài)加密輔助技術(shù):輔助技術(shù):可信執(zhí)行環(huán)境、安全多方計算、同態(tài)加密可信執(zhí)行環(huán)境、差分隱私服務器計算模塊核心技術(shù):可信執(zhí)行環(huán)境輔助技術(shù):差分隱私集中式模式服務器脈2機構(gòu)3聯(lián)合計算模式機構(gòu)1機構(gòu)3去中心化模式機構(gòu)間有互信基礎(chǔ)可信來源:中國信息通信研究院圖2基于隱私保護計算技術(shù)的數(shù)據(jù)流通模式1.可信環(huán)境模式可信環(huán)境模式,是以機密計算技術(shù)為核心,在基于硬件的可信執(zhí)行環(huán)境中執(zhí)行計算,保護數(shù)據(jù)應用中的隱私安全的集中式計算模式。該模式本質(zhì)上是一種集中式的數(shù)據(jù)計算模式,需以各參與方的強信任關(guān)系為前提,將各參與方的數(shù)據(jù)進行集中式匯總,并利用集中匯總的數(shù)據(jù)進行模型訓練。因該模式將數(shù)據(jù)進行了集中匯總,故可進行非常復雜的計算,具有效率高、網(wǎng)絡延遲低等優(yōu)勢,但難點在于如何構(gòu)建各參與方的強信任關(guān)系。該模式通過基于硬件的可信執(zhí)行環(huán)境構(gòu)建參與方的信任關(guān)系,其信任的基礎(chǔ)是對可信執(zhí)行環(huán)境的信任。目前市場上技術(shù)成熟的廠商主要有IntelSGX,ARMTrustZone等,較容易產(chǎn)生供應商鎖定等供應鏈安全問題。該模式的核心技術(shù)包括機密計算的可信執(zhí)行環(huán)境等,輔助技術(shù)包括差分隱私等。2.可證模式可證模式,是以安全多方計算和同態(tài)加密等密碼技術(shù)為核心,支持在無可信第三方的情況下,各參與方協(xié)同計算一個既定函數(shù)的分布式計算模式。在該計算模式下,中間數(shù)據(jù)均以密態(tài)呈現(xiàn)。所謂“可證”是指數(shù)據(jù)的運算態(tài)或結(jié)果態(tài)的安全性可由其使用的密碼算法的理論安全性來證明提供。該模式的優(yōu)勢是其采用基于密碼學的安全多方計算和同態(tài)加密等技術(shù),憑借其堅實的理論基礎(chǔ)和可證明的安全性,獲得了較強的安全性保障。但是由于該模式包含復雜的密碼學操作,實現(xiàn)相關(guān)技術(shù)需要付出較大的性能代價,對性能提出了嚴峻的挑戰(zhàn)。對于一些計算復雜度較低的場景,該模式己取得良好的應用效果。該模式的核心技術(shù)包括安全多方計算、同態(tài)加密等,輔助技術(shù)包括可信執(zhí)行環(huán)境、差分隱私等。3.可度量模式可度量模式,是以差分隱私技術(shù)為核心,可對數(shù)據(jù)計算過程中的隱私泄露風險進行量化評估的數(shù)據(jù)流通模式,該技術(shù)通常與聯(lián)邦學習等其他技術(shù)結(jié)合使用。例如,在聯(lián)邦學習中,中心節(jié)點需對各方模型更新的中間結(jié)果進行聚合,但此過程中存在數(shù)據(jù)重構(gòu)時的攻擊風險。差分隱私可在各方數(shù)據(jù)出域前,通過施加隨機噪聲的方式保護中間結(jié)果,并度量這些噪聲帶來的隱私保護效果。該技術(shù)的優(yōu)勢是能夠?qū)崿F(xiàn)隱私風險的量化評估,但是會對數(shù)據(jù)的精度形成不可忽略的影響,因此對精度要求較高的場景需酌情使用。該模式的核心技術(shù)包括差分隱私、聯(lián)邦學習等,輔助技術(shù)包括可信執(zhí)行環(huán)境、安全多方計算、同態(tài)加密等。(三)基于隱私保護計算技術(shù)的數(shù)據(jù)流通場景基于當前隱私保護計算技術(shù)的應用場景,其數(shù)據(jù)的流通場景主要包含單數(shù)據(jù)方的主動開放、無數(shù)據(jù)方的申請使用以及多數(shù)據(jù)方間的聯(lián)合計算(如表2所示)。表2基于數(shù)據(jù)流通的場景分類來源:中國信息通信研究院序號特點介紹參與方式需要保護的數(shù)據(jù)隱私保護相矣技術(shù)典型應用場景1單數(shù)據(jù)方主動開放數(shù)據(jù)擁有方主動發(fā)起(單方)。發(fā)布數(shù)據(jù)的個人信息和敏感內(nèi)容。差分隱私等公共管理和服務機構(gòu)開放符合開放條件的公共數(shù)據(jù)等。2無數(shù)據(jù)方申請使用無數(shù)據(jù)方提供查詢條件、并申請查詢;數(shù)據(jù)方根據(jù)查詢條件進行查詢并反饋查詢結(jié)果。無數(shù)據(jù)方查詢條件中的隱私信息;數(shù)據(jù)擁有方的數(shù)據(jù)PSLPIR等征信查詢、訂單查詢、敏感疾病查詢等。3多數(shù)據(jù)方聯(lián)合計算雙方或多方各數(shù)據(jù)方的數(shù)據(jù)安全多方計算、聯(lián)邦學習、可信執(zhí)行環(huán)境聯(lián)合風控、聯(lián)合營銷等。一是單數(shù)據(jù)擁有方主動開放數(shù)據(jù)。通常為公共管理和服務機構(gòu)對符合開放條件的公共數(shù)據(jù)進行開放。為保障數(shù)據(jù)安全及個人隱私,在對數(shù)據(jù)進行脫敏處理或使用差分隱私等技術(shù)時往往會給數(shù)據(jù)加入噪聲。如美國人口普查局會在發(fā)布人口數(shù)據(jù)時使用差分隱私技術(shù)進行保護處理,在保證數(shù)據(jù)的統(tǒng)計信息的基礎(chǔ)上,避免泄露詳細的個人信息,保障了數(shù)據(jù)和個人隱私的安全。二是無數(shù)據(jù)方申請使用數(shù)據(jù)擁有方的數(shù)據(jù)。在此場景下,無數(shù)據(jù)方需向數(shù)據(jù)擁有方提供查詢條件,數(shù)據(jù)擁有方根據(jù)查詢條件進行查詢并反饋相關(guān)結(jié)果。借助隱私保護計算技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)庫數(shù)據(jù)及查詢條件的“雙盲”,以此保護數(shù)據(jù)和個人隱私的安全。相關(guān)的支撐技術(shù)包括隱私集合求交PSI和隱私信息檢索PIR等。三是多數(shù)據(jù)擁有方聯(lián)合計算。兩個或多個機構(gòu)之間基于某種業(yè)務需求,將各方數(shù)據(jù)進行聯(lián)合計算和分析。該類跨機構(gòu)進行數(shù)據(jù)聯(lián)合計算的場景是當前業(yè)界研究和應用最多的場景。三、隱私保護計算技術(shù)落地應用案例(-)金融行業(yè)應用案例1.基于隱私保護計算縱向聯(lián)邦的銀行交易反欺詐案例業(yè)務背景以云計算、區(qū)塊鏈、大數(shù)據(jù)等為代表的新一代信息通信技術(shù),正在加速金融業(yè)與信息科技的創(chuàng)新融合。金融科技(FinTech)在使支付、借貸、投資、保險等金融服務變得高效便捷的同時,也為銀行業(yè)帶來了申請欺詐、交易欺詐和營銷欺詐等欺詐風險。申請欺詐是指在信貸申請階段存在的惡意逾期、中介代辦、內(nèi)外勾結(jié)、團伙欺詐等行為;交易欺詐指第三方在客戶不知情的情況下,非法利用他人賬戶進行的賬戶盜用、偽卡盜刷等行為,以及內(nèi)部員工在支付和交易過程中的違規(guī)操作、騙取客戶或行內(nèi)資金等行為;營銷欺詐是指黑產(chǎn)利用金融機構(gòu)發(fā)放新用戶紅利時的推廣活動漏洞,進行非正常參與、非法獲取營銷紅利,致使金融機構(gòu)遭受損失的行為。欺詐行為攻擊對象不確定、犯罪主體難追蹤、外部欺詐風險涵蓋范圍廣、防控難度大等原因使得金融欺詐成為導致銀行業(yè)受損最嚴重的風險之一。據(jù)國外研究機構(gòu)統(tǒng)計,欺詐風險每年導致的銀行業(yè)受損金額高達近千億美元,國內(nèi)銀行每年因欺詐風險損失的金額也高達上百億元。傳統(tǒng)方案近年來,基于機器學習和大數(shù)據(jù)的反欺詐風控技術(shù)迅猛發(fā)展,銀行業(yè)在反欺詐風控領(lǐng)域取得一定的進步,大部分銀行均構(gòu)建了實時交易反欺詐系統(tǒng),基于銀行已有的業(yè)務數(shù)據(jù),結(jié)合專家規(guī)則與機器學習模型來甄別交易欺詐行為。然而,在巨大的經(jīng)濟利益驅(qū)使下,金融交易欺詐黑色產(chǎn)業(yè)鏈愈發(fā)成熟,其技術(shù)和手段不斷升級迭代,傳統(tǒng)的基于機器學習和業(yè)務數(shù)據(jù)的反欺詐風控技術(shù)捉襟見肘,為金融行業(yè)的交易反欺詐工作帶來了巨大的挑戰(zhàn)。業(yè)務痛點特征維度不足:對于絕大多數(shù)銀行機構(gòu),反欺詐的最大難題是反欺詐模型建立過程中數(shù)據(jù)來源單一,單純依靠自身業(yè)務數(shù)據(jù)構(gòu)建出的反欺詐模型識別準確度極低。隨著黑色產(chǎn)業(yè)鏈智能化與集團化發(fā)展,各類欺詐手段的特征越發(fā)隱蔽、難以察覺,且跨行業(yè)欺詐逐漸成為常態(tài),單次欺詐行為貫穿社交媒體、銀行APP等多個工具,各機構(gòu)的單方數(shù)據(jù)無法應對。例如,在利用社交網(wǎng)絡進行金融欺詐的場景中,TOC\o"1-5"\h\z\o"CurrentDocument"一、數(shù)據(jù)概念內(nèi)涵及價值1\o"CurrentDocument"(-)數(shù)據(jù)定義1\o"CurrentDocument"(二)數(shù)據(jù)的特征2\o"CurrentDocument"(三)數(shù)據(jù)的價值3\o"CurrentDocument"(四)隱私保護計算助力數(shù)據(jù)價值釋放5\o"CurrentDocument"二、隱私保護計算技術(shù)概述8(一)隱私保護計算及其關(guān)鍵技術(shù)8\o"CurrentDocument"(二)基于隱私保護計算技術(shù)的數(shù)據(jù)流通模式10\o"CurrentDocument"(三)基于隱私保護計算技術(shù)的數(shù)據(jù)流通場景13三、隱私保護計算技術(shù)落地應用案例14(―)金融行業(yè)應用案例14\o"CurrentDocument"(二)醫(yī)療行業(yè)應用案例36\o"CurrentDocument"(三)政務行業(yè)應用案例46\o"CurrentDocument"四、隱私保護計算技術(shù)應用困境及建議52社交網(wǎng)絡服務提供商掌握黑客針對用戶的廣撒網(wǎng)、常以中老年人群為目標等行為的特征;銀行則掌握受害者在被欺詐后,向黑客轉(zhuǎn)賬以及后續(xù)資金轉(zhuǎn)移時間、流向等特征;雙方數(shù)據(jù)的特征割裂,均不足以獨立實現(xiàn)對欺詐行為的有效識別。數(shù)據(jù)安全與共享利用的矛盾:數(shù)據(jù)作為企業(yè)的核心競爭力之一,各企業(yè)不斷加強對數(shù)據(jù)處理和利用的重視程度,但同時,日益頻發(fā)的個人信息泄露和數(shù)據(jù)安全事件引發(fā)大眾廣泛關(guān)注,數(shù)據(jù)使用與隱私保護之間的矛盾日益突出。隨著近幾年國內(nèi)外一系列數(shù)據(jù)安全與隱私保護相關(guān)政策法規(guī)的出臺,以往的粗放式數(shù)據(jù)收集、使用與交易模式將被嚴格規(guī)范和限制,如何在數(shù)據(jù)安全框架內(nèi)促進數(shù)據(jù)的共享利用成為下一階段的重要議題。解決方案碎片化:為優(yōu)化反欺詐效果,銀行采取了諸多措施,例如,采購外部反欺詐評分類產(chǎn)品、構(gòu)建全域反欺詐關(guān)聯(lián)網(wǎng)絡等。但各類措施大都聚焦于業(yè)務流程的單個環(huán)節(jié)(如身份識別認證、欺詐行為識別、信用等級識別等),無法覆蓋業(yè)務全流程的欺詐風險。業(yè)務流程各環(huán)節(jié)的反欺詐解決方案部署割裂,整體協(xié)同配合困難,致使銀行機構(gòu)反欺詐能力發(fā)揮受限,業(yè)務反欺詐效果不佳。綜上,如何在有效保護數(shù)據(jù)安全的前提下,合法合規(guī)地利用內(nèi)外部數(shù)據(jù),豐富樣本數(shù)據(jù)特征維度,構(gòu)建更加精準的反欺詐風控模型,提升反欺詐能力,是當前各類銀行的當務之急。(4)實踐案例
針對銀行當前反欺詐管理中遇到的特征維度不足、安全與利用矛盾、解決方案碎片化等困境,基于聯(lián)邦學習等隱私保護計算技術(shù)的“數(shù)據(jù)+平臺+模型”一體化解決方案,通過實現(xiàn)銀行與外部機構(gòu)在反欺詐場景下的跨行業(yè)數(shù)據(jù)鏈接,聯(lián)合了金融交易特征、社交行為特征和相關(guān)人員特征等多維度特征信息構(gòu)建反欺詐模型,實現(xiàn)更精準有效的交易欺詐甄別,提升銀行機構(gòu)交易反欺詐能力。在整體方案實施中,需在銀行機構(gòu)部署隱私保護計算節(jié)點,通過隱私保護計算節(jié)點與數(shù)據(jù)源生態(tài)完成對接(如圖4所示)。銀行隱私計算成果加密計算因子co數(shù)據(jù)源計算服務計算服務§曜庫MPC交易反欺詐隱私雷節(jié)點,i數(shù)據(jù)庫金融交易運營商電商銀行隱私計算成果加密計算因子co數(shù)據(jù)源計算服務計算服務§曜庫MPC交易反欺詐隱私雷節(jié)點,i數(shù)據(jù)庫金融交易運營商電商移動SDK醫(yī)療聯(lián)邦學習圖4銀行與外部數(shù)據(jù)源對接示意圖首先通過隱私保護計算平臺的PSI功能6,以縱向聯(lián)邦的方式,將銀行機構(gòu)準備的反欺詐樣本數(shù)據(jù)與外部數(shù)據(jù)源進行隱私求交,獲取多方的交集客戶信息,在銀行客戶三要素信息(姓名、身份證號、手機號)不出庫的前提下,完成銀行與外部數(shù)據(jù)源之間的數(shù)據(jù)樣本對齊。然后,運用隱私保護計算平臺的特征工程與模型訓練模塊,完成反欺詐模型訓練與調(diào)優(yōu)工作。從效果上看(如表3所示),該隱私保護計算反欺詐解決方案幫助銀行安全引入客戶的支付行為、設備信息、社交習慣等數(shù)據(jù),提升了反欺詐模型的準確性和效率,通過隱私保護計算技術(shù)構(gòu)建的反欺詐模型的模型評估指標AUC,可以達到0.82,模型風險區(qū)分能力指標KS8達到0.51,模型效果有較大提升。表3傳統(tǒng)計算方案與隱私保護計算反欺詐方案對比來源:隱私保護計算服務提供商方案反欺詐模型準確性反欺詐效率是否引入同行業(yè)標簽是否引入其他行業(yè)數(shù)據(jù)源實時性傳統(tǒng)方案低低否否低隱私保護計算高高是是高反欺詐方案(5)實踐價值隱私安全:此實踐中隱私保護計算方案使用的秘密分享、全同態(tài)、半同態(tài)加密等技術(shù),確保了每個計算節(jié)點在整個計算過程中都無法看到其他參與方的任何隱私信息,最終結(jié)果輸出只有發(fā)起方有權(quán)限查看,其他計算節(jié)點無法獲取,從而確保了應用過程的隱私性。同時,在產(chǎn)品邏輯上,半誠實模型與惡意模型的實現(xiàn),也保證了各方隱私信息的安全不泄露,不會在通信層面或者非數(shù)據(jù)方節(jié)點有任何隱私數(shù)據(jù)留存。自動化編譯引擎:首先,隱私保護AI編譯器以底層數(shù)據(jù)流圖9的視角揭示了機器學習算法和對應的分布式聯(lián)邦學習算法的聯(lián)系,可通過數(shù)據(jù)流圖變換完成兩者間的自動轉(zhuǎn)換。其次,數(shù)據(jù)流圖變換具有通用性,可以適配上層多種機器學習算法,如邏輯回歸、貝葉斯分類、神經(jīng)網(wǎng)絡等。從數(shù)據(jù)流圖的視角,分布式聯(lián)邦學習變換可以理解為將整體數(shù)據(jù)流圖切分為若干子圖分布到各隱私保護計算參與方,并保證子圖交互的部分(通信部分)以隱私保護的方式進行。簡而言之,該引擎將隱私保護計算各參與方使用的不同算法“格式化”為統(tǒng)一算法,避免了各方分別轉(zhuǎn)換算法所需的定制化改造帶來的巨大工作量和時間成本。安全可驗證:受限于密碼學證明方式與聯(lián)邦學習領(lǐng)域的結(jié)合不夠深入,傳統(tǒng)模式無法做到安全性的自動化驗證。隱私保護計算方案可全方位實現(xiàn)事前、事中、事后的安全評估驗證。同時,以底層數(shù)據(jù)流圖的視角揭示算法和對應的分布式聯(lián)邦學習算法的聯(lián)系,使得運算流程透明可見、可審計。高度適配產(chǎn)業(yè)需求:相比人工編譯模式,隱私保護算法的構(gòu)造速度指數(shù)級提升,系統(tǒng)整體運行速度是典型架構(gòu)模式的20-40倍,能夠在實施難度、系統(tǒng)效率、安全可視等方面滿足工程、業(yè)務、運維、安全等各方面綜合需求,具備成熟的商用推廣模式。2.中小銀行間橫向反欺詐建模和黑名單共享案例業(yè)務背景風控能力一直被視為銀行機構(gòu)的核心能力,但目前行業(yè)內(nèi)各梯隊風控能力懸殊。大型銀行在風控技術(shù)和經(jīng)驗上的優(yōu)勢極為明顯,尤其在互聯(lián)網(wǎng)平臺的流量加持下,吸引了更多客戶,從而積累了更豐富的數(shù)據(jù),使得依托于客戶數(shù)據(jù)規(guī)模的風控優(yōu)勢進一步擴大。與大型銀行優(yōu)勢地位形成鮮明對比的是,中小銀行的風控處境比外界所見的更加困難。一方面,大型國有商業(yè)銀行或股份制商業(yè)銀行的地方分行依托相對較低的利率和資金成本,更易吸引信用記錄良好、資產(chǎn)結(jié)構(gòu)良好、資產(chǎn)負債率較低等資質(zhì)較優(yōu)的客戶,留給地域經(jīng)營的中小銀行的客戶群體相對更容易存在征信不良、固定資產(chǎn)少、多頭借貸等問題。另一方面,中小銀行的服務客群更集中在不發(fā)達地區(qū),這類客群很容易受到電信詐騙、釣魚網(wǎng)站、木馬病毒、黑客勒索等黑灰產(chǎn)影響,給中小銀行的風控工作帶來更復雜嚴峻的挑戰(zhàn)。這些問題迫使中小銀行必須持續(xù)完善自身風控體系,當前較為迫切的需求體現(xiàn)在反欺詐和識別不良客戶兩類風控業(yè)務上。傳統(tǒng)方案在反欺詐業(yè)務的傳統(tǒng)解決方案中,兩家或多家中小銀行各有一批欺詐樣本,分別構(gòu)建反欺詐模型,擬合出客戶特征和反欺詐樣本之間的關(guān)系,但在樣本和觀察數(shù)據(jù)規(guī)模有限的前提下,本地建模學習的模型效果并不理想。若各行的客戶分類、客戶偏好、地理位置等分布差異較大,銀行間共享樣本并基于共享的樣本合集構(gòu)建模型,可顯著的提升模型效果,但出于對數(shù)據(jù)安全及個人信息保護的考慮,銀行之間無法直接共享樣本數(shù)據(jù)。不良客戶識別業(yè)務的風控處境更為嚴峻。傳統(tǒng)條件下,數(shù)據(jù)分享只能通過明文方式,且被查詢方能夠獲取查詢方的記錄,因此,不良客戶識別業(yè)務在機構(gòu)間的安全合作甚至無法在傳統(tǒng)條件下實現(xiàn)。直至隱私保護計算技術(shù)出現(xiàn)后,銀行機構(gòu)間的數(shù)據(jù)融合才有了安全的實現(xiàn)方式。業(yè)務痛點不良客戶識別方面,各銀行在開展業(yè)務過程都會積累業(yè)務黑名單,以此在前置風控環(huán)節(jié)識別并剔除不良客戶。對于中小銀行來說,因為其業(yè)務開展的時長及覆蓋的客戶有限,積累的黑名單無論在客戶體量、客戶地域分布上都較為局限,無法幫助銀行精準高效地識別不良客戶。反欺詐方面,交易實時反欺詐系統(tǒng)對交易欺詐行為的甄別,很大程度上需要依靠專家規(guī)則與機器學習模型。對中小銀行而言,一個棘手的問題是,積累的欺詐樣本數(shù)量較少,不足以構(gòu)建高準確度的交易反欺詐模型,導致反欺詐工作開展效果不理想。政策合規(guī)方面,針對上述兩個業(yè)務風控樣本不足的共通性問題,中小銀行迫切希望獲得其他金融機構(gòu),尤其是同類銀行的風控樣本數(shù)據(jù),作為自身風控樣本數(shù)據(jù)的補充,以提升自身的風控能力。近年來,國內(nèi)外出臺的一系列數(shù)據(jù)安全與隱私保護相關(guān)政策法規(guī),在數(shù)據(jù)收集、使用與交易模式等方面進行了規(guī)范,銀行間的數(shù)據(jù)共享與流通將面臨嚴格的合規(guī)限制。(4)實踐案例針對黑名單局限、建模所需數(shù)據(jù)樣本不足、數(shù)據(jù)安全保護趨嚴等業(yè)務痛點,隱私保護計算技術(shù)為中小銀行提供了解決方案。在隱私保護計算平臺實踐案例中,通過在各銀行部署隱私保護計算節(jié)點,實現(xiàn)了銀行間的數(shù)據(jù)互聯(lián)對接,在滿足數(shù)據(jù)不出庫、客戶隱私不泄露的安全合規(guī)要求的同時,橫向聯(lián)邦功能為銀行提供了反欺詐模型共建能力,匿蹤查詢功能實現(xiàn)了銀行間的黑名單共享,幫助中小銀行化解了上述的業(yè)務痛點。以下分別展開說明:1)反欺詐模型共建以銀行A和銀行B的反欺詐模型共建試點項目為例,在該反欺詐模型共建案例中,銀行A和銀行B分別提供欺詐樣本數(shù)據(jù),包括欺詐用戶標簽以及該用戶的特征(如信用記錄、消費習慣、常用手機設備等),并上傳至隱私保護計算節(jié)點。隱私保護計算平臺通過橫向聯(lián)邦的方式,對兩銀行的欺詐樣本數(shù)據(jù)進行數(shù)據(jù)特征對齊及建模,在數(shù)據(jù)可用不可見的情況下,構(gòu)建一個雙方共用且效果更優(yōu)的反欺詐模型。0.710.720.74來源:隱私保護計算服務提供商0.8圖5橫向聯(lián)邦反欺詐模型指標對比0.710.720.74來源:隱私保護計算服務提供商在模型效果方面(如圖5所示),傳統(tǒng)方案中銀行A和銀行B分別在本地構(gòu)建反欺詐模型,模型評估指標AUC值分別為0.71和0.72,風險區(qū)分能力評估指標KS值分別為0.231和0.322;隱私保護計算平臺構(gòu)建橫向聯(lián)邦學習得到的模型,AUC值和KS值分別是0.74和0.355o由此可見,基于隱私保護計算技術(shù)的橫向聯(lián)邦應用為金融反欺詐業(yè)務帶來了一定程度的指標提升。2)黑名單共享除了反欺詐模型共建,隱私保護計算平臺也可為金融機構(gòu)提供金融黑名單共享的能力,打破金融機構(gòu)間的“數(shù)據(jù)孤島”。如某大型股份制商業(yè)銀行牽頭,與多家銀行共同搭建了隱私保護計算平臺。銀行間基于匿蹤查詢技術(shù)為彼此提供隱私黑名單查詢服務,各行在保護隱私安全的前提下實現(xiàn)了黑名單共享(如圖6所示)。
一虛擬黑名單數(shù)據(jù)池L隱私保一護節(jié)點一-隱私保一一虛擬黑名單數(shù)據(jù)池L隱私保一護節(jié)點一-隱私保一-護節(jié)點一一隱私保一一護節(jié)點一一隱私保一一護節(jié)點一nO3S阿sg虞席£1顯瞬目聳S021圖6基于匿蹤查詢技術(shù)提供銀行間隱私黑名單查詢服務匿蹤查詢技術(shù)能夠保證查詢發(fā)起方在不暴露被查詢客戶ID的前提下,獲得該客戶ID是否在其他機構(gòu)的信息。在黑名單共享場景中,客戶ID為客戶身份三要素信息(姓名、身份證號、手機號),待查詢的信息為是否在黑名單中,通過同態(tài)加密技術(shù)對客戶ID和各維度金融信息進行加密,并對外提供黑名單服務。查詢方即可知曉該用戶是否在虛擬黑名單數(shù)據(jù)池中,并且僅能解密所請求客戶1D的黑名單標簽值。在實際匿蹤查詢業(yè)務中(如圖7所示),銀行X要判斷一個客戶是否是黑名單客戶,首先會在本地查詢該客戶ID是否存在于本行黑名單內(nèi),若命中黑名單,則業(yè)務流程結(jié)束;若未命中,則通過匿蹤查詢技術(shù),向銀行A、銀行B、銀行C分別查詢客戶ID是否在其黑名單內(nèi),并得到返回結(jié)果。本地來源:隱私保護計算服務提供商圖7匿蹤查詢業(yè)務流程實踐價值在本案例中,銀行通過部署隱私保護計算平臺完善了自身的風控體系,一方面通過橫向聯(lián)邦實現(xiàn)了欺詐樣本的安全共享與模型共建,另一方皿通過匿蹤查詢實現(xiàn)了銀行間的黑名單安全共享。隱私保護計算方案在性能上也有較優(yōu)的表現(xiàn)。在反欺詐模型橫向聯(lián)邦建模場景中,銀行A和銀行B分別提供百萬級別的訓練樣本,平臺每進行一次聯(lián)邦建模的總耗時僅在分鐘級別內(nèi),接近模型本地訓練的性能;黑名單共享匿蹤查詢場景中,在銀行A、銀行B、銀行C各自擁有數(shù)萬量級黑名單的情況下,匿蹤黑名單查詢服務對于單個客戶單次查詢的平均耗時為720ms,單次平均通信數(shù)據(jù)量為420M,可以滿足業(yè)務場景時效性的要求。3.基于隱私保護計算技術(shù)的同業(yè)風控聯(lián)盟案例業(yè)務背景移動互聯(lián)網(wǎng)及大數(shù)據(jù)技術(shù)的蓬勃發(fā)展加速了數(shù)字經(jīng)濟時代的到來,傳統(tǒng)的金融業(yè)務模式正在隨之不斷發(fā)生變革,越來越多的金融機圖目錄TOC\o"1-5"\h\z圖1DIKW模型4圖3數(shù)據(jù)價值釋放路徑模型8圖2基于隱私保護計算技術(shù)的數(shù)據(jù)流通模式11圖4銀行與外部數(shù)據(jù)源對接示意圖17圖5橫向聯(lián)邦反欺詐模型指標對比23圖6基于匿蹤查詢技術(shù)提供銀行間隱私黑名單查詢服務24圖7匿蹤查詢業(yè)務流程25圖8隱匿查詢雙盲方案28圖9數(shù)據(jù)流與管控流分離28圖10基于區(qū)塊鏈隱私保護計算的大數(shù)據(jù)智能風控產(chǎn)品技術(shù)架構(gòu)33圖11聯(lián)合建模前后不度貸款率對比35圖12融合外部數(shù)據(jù)的建模效果35圖13全基因組關(guān)聯(lián)分析結(jié)果的曼哈頓圖40圖14傳統(tǒng)方案和隱私保護計算平臺技術(shù)方案架構(gòu)對比40圖15基于隱私保護計算服務平臺的聯(lián)合DRG建模的流程44圖16PHEV與BEV充電負荷曲線5()圖17電動汽車充電總負荷曲線50構(gòu)通過人工智能、云計算等技術(shù)擁抱數(shù)字化轉(zhuǎn)型。互聯(lián)網(wǎng)金融、數(shù)字化金融為金融信貸帶來快捷便利的同時,網(wǎng)絡犯罪的強隱蔽性和金融欺詐的低成本也使信貸行業(yè)面臨著更嚴峻的欺詐風險,多頭借貸惡意行為的發(fā)生兒率隨之升高。多頭借貸一般分為兩類:一類是長時多頭借貸,主要是用戶消費、投資等需求超出現(xiàn)有收入水平和授信后尋求更多授信的行為,此類人群容易因資金鏈斷裂導致逾期,抗風險能力較弱。另一類是短時多頭借貸,主要是一些不法分子通過團伙欺詐、電信欺詐、殺豬盤等手段,利用金融機構(gòu)間的信息差,在短時間內(nèi)大量申請授信。統(tǒng)計數(shù)據(jù)表明,多頭借貸客戶的逾期風險可達普通客戶的3倍以上,對金融機構(gòu)的正常運轉(zhuǎn)和金融穩(wěn)定性帶來極大隱患。(2)傳統(tǒng)方案傳統(tǒng)方案中,金融機構(gòu)主要通過人行征信報告或外部三方數(shù)據(jù)的方式查詢多頭借貸人員名單。人行征信報告主要通過匯總和加工各家金融機構(gòu)主動上報的信息對外提供服務。一方面,在助貸模式中,平臺端為提升用戶體驗,人為向多家機構(gòu)推送同一用戶的同一借貸申請,導致用戶被動多頭以致其征信被污染;另一方面,當前各家金融機構(gòu)內(nèi)部對借款的寬限期及征信上報的時間標準(包括時間點、上報頻率)存在差異,最小顆粒度為天的征信報告無法幫助金融機構(gòu)及時識別短時多頭借貸的用戶,存在利用征信信息收集和更新的時間差獲得非法授信進行多頭借貸的風險。查詢外部三方數(shù)據(jù)往往需要金融機構(gòu)提供用戶三要素信息,存在原始數(shù)據(jù)出庫直接暴露個人信息和第三方數(shù)據(jù)來源合規(guī)風險,成為業(yè)務穩(wěn)健發(fā)展的達摩克利斯之劍。(3)業(yè)務痛點安全隱私風險:傳統(tǒng)的外部三方數(shù)據(jù)查詢一般需要查詢方將經(jīng)MD5或者SHA256處理后的用戶唯一標識發(fā)送至數(shù)據(jù)提供方,并通過API的方式獲取查詢結(jié)果。數(shù)據(jù)提供方基于已有用戶信息規(guī)模優(yōu)勢,將自己所有用戶的ID用MD5加密之后進行對比,相等則即可識別出對應用戶。這種查詢方法很容易解析到數(shù)據(jù)查詢方的原始用戶信息,并間接掌握被查詢用戶的身份信息,對于數(shù)據(jù)查詢方而言存在用戶信息泄漏風險。風險識別低效:征信機構(gòu)的信息來源于各家金融機構(gòu)的主動報送,參與信息報送的金融機構(gòu)數(shù)量及其用戶量影響著征信報告的覆蓋度和準確度。一方面,一些非持牌的互聯(lián)網(wǎng)金融機構(gòu)用戶體量較大但并未接入央行征信,接入機構(gòu)有限導致征信機構(gòu)覆蓋用戶不全面。另一方面,參與征信報送的金融機構(gòu)因內(nèi)部風險規(guī)則不同使得對寬限期的定義標準不一,且各家金融機構(gòu)的報送時間點、頻率存在差異,導致征信報告存在信息遲滯的問題。征信報告覆蓋度和準確度因此受到影響,一定程度上降低了金融機構(gòu)的貸前用戶風險識別效率。主觀意愿不強烈,存在客戶競爭:不同體量的金融機構(gòu)在信息共享時存在數(shù)據(jù)共享的公平性問題和客戶資源暴露問題,傳統(tǒng)的銀行聯(lián)
盟模式下,客戶名單共享易造成客戶流失,以致金融機構(gòu)彼此提防,數(shù)據(jù)共享意愿低。實踐案例為有效應對上述問題,以將管控流和數(shù)據(jù)流分離為設計原則,基于隱私保護計算技術(shù)的隱匿查詢雙盲方案應運而生(如圖8所示)。銀聯(lián)作為聯(lián)盟主協(xié)調(diào)方部署盟主中心節(jié)點,實現(xiàn)中心化管控,參與聯(lián)盟的銀行為聯(lián)盟成員,部署計算節(jié)點,聯(lián)盟成員的數(shù)據(jù)均留存在本地。聯(lián)盟成員A加?聯(lián)盟成員A加?點聯(lián)盟成員c目一畫加密數(shù)據(jù)安全計算節(jié)點來源:隱私保護計算服務提供商圖8圖8隱匿查詢雙盲方案圖8隱匿查詢雙盲方案金融明A圖8隱匿查詢雙盲方案金融明A金融me來源:隱私保護計算服務提供商圖9數(shù)據(jù)流與管控流分離聯(lián)盟中某一成員發(fā)起查詢請求到盟主中心節(jié)點(如圖9所示),中心節(jié)點收到請求后轉(zhuǎn)發(fā)到聯(lián)盟內(nèi)其他成員隱私保護計算節(jié)點,做到數(shù)據(jù)查詢方與數(shù)據(jù)提供方身份的互盲。隱私保護計算節(jié)點通過隱匿查詢技術(shù)保障數(shù)據(jù)提供方不能獲知數(shù)據(jù)查詢內(nèi)容,保護數(shù)據(jù)查詢方的輸入數(shù)據(jù),避免客戶信息泄露,防止同業(yè)惡性競爭。相比較傳統(tǒng)數(shù)據(jù)共享方式,基于隱私保護計算技術(shù)的隱匿查詢雙盲方案在數(shù)據(jù)安全、數(shù)據(jù)實時性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)開放生態(tài)4個方面都有明顯改善(如表4所示)。表4傳統(tǒng)計算方案與隱匿查詢雙盲方案對比來源:隱私保護計算服務提供商對比項傳統(tǒng)方案隱匿查詢雙盲方案數(shù)據(jù)安全查詢數(shù)據(jù)可被解析,存在數(shù)據(jù)泄露風險數(shù)據(jù)不出本地的前提下多方聯(lián)合計算,有效降低數(shù)據(jù)泄露風險數(shù)據(jù)實時性多頭名單數(shù)據(jù)更新不及時,金融機構(gòu)無法第一時間識別風險可實時更新聯(lián)盟多頭數(shù)據(jù)數(shù)據(jù)質(zhì)量助貸查詢多資方模式導致查詢被污染參與方彼此直連,保證數(shù)據(jù)質(zhì)量數(shù)據(jù)開放生態(tài)無法避免客戶流失帶來的同業(yè)竟爭,參與方數(shù)據(jù)共享意愿低身份雙盲設計,參與方可放心進行數(shù)據(jù)共享,提升生態(tài)開放性目前本案例聯(lián)盟有100余家金融機構(gòu)參與使用,包含多家頭部金融機構(gòu),日均計算量達到60多萬,滿足實時多頭數(shù)據(jù)預警應用場景的業(yè)務需求,后續(xù)可增設場景解決授權(quán)額度共享等痛點問題。(5)實踐價值本案例將原始數(shù)據(jù)保留在本地,通過隱匿查詢技術(shù)使得各參與方在查詢過程中身份雙盲,各參與方對數(shù)據(jù)“可用不可見”,只通過數(shù)據(jù)使用的共享來實現(xiàn)數(shù)據(jù)價值共創(chuàng)。既滿足各方業(yè)務需求,又保障了數(shù)據(jù)安全。借助隱私保護計算技術(shù)能力,金融機構(gòu)能夠在貸前客戶識別業(yè)務中及時更新客戶的多頭信息,實現(xiàn)了征信查詢場景的實時響應,兼顧了業(yè)務準確性、實時性和數(shù)據(jù)安全性要求。同時,身份雙盲設計消減了參與方的同業(yè)競爭顧慮,促進了金融機構(gòu)間的數(shù)據(jù)安全、充分共享,進一步弱化了數(shù)據(jù)共享的壁壘。4.基于區(qū)塊鏈和隱私保護計算技術(shù)的小微企業(yè)智能風控產(chǎn)品案例(1)業(yè)務背景目前我國95%以上的企業(yè)屬于小微型企業(yè),作為國民經(jīng)濟的重點之一,我國對小微企業(yè)扶植力度逐年加大,無論是政策上的支持、制度上的支撐、還是資金上的補助,都反映出國家大力發(fā)展小微企業(yè)的決心。為切實助力支持小微企業(yè)的發(fā)展,各商業(yè)銀行將信貸業(yè)務的服務重心,從大中型企業(yè)逐漸轉(zhuǎn)向小微型企業(yè)。然而,隨著大數(shù)據(jù)時代的快速發(fā)展,商業(yè)銀行在對小微企業(yè)進行信貸風險控制時,為了得到更加精準的信用風險預測結(jié)果,往往會將小微企業(yè)的基本信息、資金流水等自有數(shù)據(jù)與工商、司法、稅務、公安等外部數(shù)據(jù)相結(jié)合,以此來豐富數(shù)據(jù)維度、擴大數(shù)據(jù)規(guī)模,提升聯(lián)合建模模型的準確度。但數(shù)據(jù)的合作過程涉及到多方數(shù)據(jù)的共享與利用,因此就存在隱私數(shù)據(jù)泄露、數(shù)據(jù)真實性等安全風險,導致商業(yè)銀行無法得到準確、全面的數(shù)據(jù)去判斷小微企業(yè)的風險能力,面向小微企業(yè)的信貸業(yè)務面臨嚴峻的考驗。傳統(tǒng)方案商業(yè)銀行結(jié)合外部數(shù)據(jù)對小微企業(yè)進行風險評估的業(yè)務場景下,傳統(tǒng)解決方案是將經(jīng)脫敏技術(shù)處理后的多方數(shù)據(jù)聚集在一起進行計算和建模。隨著技術(shù)手段不斷演進,基于脫敏技術(shù)的數(shù)據(jù)安全保護傳統(tǒng)方案不再固若金湯:數(shù)據(jù)脫敏通過失真等變換在降低了數(shù)據(jù)敏感度的同時,又保留了一定程度的數(shù)據(jù)統(tǒng)計特征和可用性,但是攻擊者仍可以通過如彩虹表z等特定技術(shù)手段對脫敏數(shù)據(jù)進行逆推處理,從而獲取部分乃至全部原始數(shù)據(jù),故仍存在原始數(shù)據(jù)泄露風險。業(yè)務痛點商業(yè)銀行方面的業(yè)務痛點,一是技術(shù)手段缺失,商業(yè)銀行內(nèi)部各部門、商業(yè)銀行與工商、司法、稅務、公安等外部大數(shù)據(jù)之間數(shù)據(jù)融合、風險信息共享程度低,機構(gòu)間數(shù)據(jù)孤島現(xiàn)象長期存在,各商業(yè)銀行和小微企業(yè)有意愿打破這種桎梏,卻缺乏有效技術(shù)手段,導致商業(yè)銀行對小微企業(yè)的跨機構(gòu)、多維度全景客戶畫像構(gòu)建不全面、不準確,從而對小微企業(yè)客戶風險和潛在價值的評估準確度降低,影響商業(yè)銀行對小微企業(yè)信貸業(yè)務的風控評估與決策。二是數(shù)據(jù)合作成本高,由于商業(yè)銀行與工商、司法、稅務、公安等外部數(shù)據(jù)源在數(shù)據(jù)采集、統(tǒng)計標準等方面要求不一,在數(shù)據(jù)融合過程中就需要投入大量人力、物力重新整合數(shù)據(jù),建立底層統(tǒng)一的數(shù)據(jù)資源框架,導致合作成本高昂。此外,在數(shù)據(jù)管理時,為解決內(nèi)、外部數(shù)據(jù)安全問題,需要在組織架構(gòu)、管理流程方面執(zhí)行嚴格的管控,再次增加了管理成本。小微企業(yè)方面的業(yè)務痛點,一是融資難,長期以來,商業(yè)銀行對小微企業(yè)的印象是違規(guī)成本低、經(jīng)營不規(guī)范、抗風險能力差,在社會各方尤其是與工商、司法、稅務、公安等外部大數(shù)據(jù)中無法實現(xiàn)企業(yè)信息及時融合互通的背景下,商業(yè)銀行無法準確、客觀評估小微企業(yè)的風險等級,導致眾多具備發(fā)展?jié)撡|(zhì)的小微企業(yè)無法順利借貸,形成了小微企業(yè)融資難、融資貴、融資門檻高的現(xiàn)狀。二是合作難,受法律法規(guī)的約束,各企業(yè)無法進行各實體機構(gòu)之間的數(shù)據(jù)共享,造成了相關(guān)企業(yè)之間因擔保、營銷以及發(fā)展規(guī)劃差異形成的數(shù)據(jù)壁壘,企業(yè)間合作困難。(4)實踐案例功能特點方面,基于區(qū)塊鏈和隱私保護計算技術(shù)的小微企業(yè)智能風控產(chǎn)品,通過區(qū)塊鏈上的隱私保護計算合約助力保護個人隱私和數(shù)據(jù)安全,實現(xiàn)大數(shù)據(jù)在各數(shù)據(jù)合作方之間的價值流通,具備相對安全的數(shù)據(jù)查詢服務、風控數(shù)據(jù)分析、聯(lián)合建模、多方數(shù)據(jù)規(guī)則和模型的部署與管理功能,能夠聯(lián)合外部大數(shù)據(jù)幫助商業(yè)銀行信貸風控部門進行小微企業(yè)信貸客戶的風險評估和決策,提升商業(yè)銀行的風險識別能力和智能化水平。隱私保護計算技術(shù)在解決數(shù)據(jù)隱私保護和共享利用的平衡的同時,也面臨著諸如數(shù)據(jù)真實性難確認、參與方身份難信任、可信數(shù)據(jù)共享協(xié)作網(wǎng)絡難構(gòu)建等挑戰(zhàn)。本案例的風控產(chǎn)品通過區(qū)塊鏈技術(shù)實現(xiàn)上鏈前數(shù)據(jù)具體來源、生成機制、存儲過程的真實性交叉驗
區(qū)塊鏈節(jié)點區(qū)塊鏈節(jié)點區(qū)塊鏈節(jié)點某銀行分行技術(shù)1
提供方項區(qū)塊鏈隱私計算平白智能_I外部大數(shù)據(jù)證,以及上鏈后數(shù)據(jù)使用可記錄、源頭可追溯、過程可審計、不可篡改等功能。通過區(qū)塊鏈上的存證合約完成關(guān)鍵業(yè)務流程的上鏈記錄,使數(shù)據(jù)應用、模型結(jié)果可信存儲,同時支持對外開放接口提供給總行以及監(jiān)管機構(gòu)進行安全審計,解決了多方數(shù)據(jù)在融合過程中的安全性及真實性問題。區(qū)塊鏈節(jié)點某銀行分行技術(shù)1
提供方項區(qū)塊鏈隱私計算平白智能_I外部大數(shù)據(jù)業(yè)努申請企業(yè)主,V>4放款—瞄申雙企業(yè)血,來源:隱私保護計算服務提供商圖10基于區(qū)塊鏈隱私保護計算的大數(shù)據(jù)智能風控產(chǎn)品技術(shù)架構(gòu)技術(shù)架構(gòu)方面,本案例通過安全多方計算和可信聯(lián)邦學習技術(shù)將行內(nèi)信貸客戶的申請信息、存款、理財、行為偏好等數(shù)據(jù)和外部大數(shù)據(jù)進行安全融合(如圖10所示),豐富了信貸用戶風控數(shù)據(jù)特征維度,擴大了數(shù)據(jù)開放程度,實現(xiàn)了在保證商業(yè)銀行與工商、司法、稅務、公安等外部大數(shù)據(jù)源的原始數(shù)據(jù)不出各自私域的情況下,聯(lián)合構(gòu)建風控客戶畫像、風險規(guī)則和信用評分模型,幫助銀行更加安全、全面、智能地評估信貸客戶的風險狀況。此外,通過區(qū)塊鏈數(shù)字身份的建立,基于匿蹤私密查詢合約保護數(shù)據(jù)查詢過程中行內(nèi)信貸客戶身份信息,采用切片決策引擎技術(shù)實現(xiàn)基于多方大數(shù)據(jù)的風控規(guī)則和模型的安全部署和管理,并提供可視化監(jiān)控分析展示系統(tǒng),幫助銀行建立貫穿信貸客戶全生命周期的安全智能風控平臺,提升多方大數(shù)據(jù)在行內(nèi)的風控應用價值和效率(如表5所示)。表5傳統(tǒng)解決方案與隱私保護計算解決方案對比來源:隱私保護計算服務提供商對比項傳統(tǒng)解決方案隱私保護計算解決方案參與方數(shù)據(jù)聚合一方后進行計算分析多方聯(lián)合分布式計算特征維度受制于數(shù)據(jù)安全,特征維度缺失多方聯(lián)合,幾乎涵蓋全部特征維度計算效率單一節(jié)點計算效率低數(shù)據(jù)并行計算,多方聯(lián)合,顯著提高效率計算精度有損失無損失數(shù)據(jù)安全性多方參與數(shù)據(jù)出域,存在極大安全隱患數(shù)據(jù)不出域,實現(xiàn)數(shù)據(jù)的“可用不可見”(5)實踐價值數(shù)據(jù)方面,隱私保護計算平臺為銀行提供了外部大數(shù)據(jù)安全融合能力,緩解了數(shù)據(jù)的泄露風險,提升了銀行的大數(shù)據(jù)風控應用能力。本案例幫助銀行聯(lián)合了包括工商、稅務、水電、司法、電信、征信機構(gòu)等十余家跨行業(yè)數(shù)據(jù)源提供的上千個數(shù)據(jù)維度的外部大數(shù)據(jù)進行小微企業(yè)風控。在基于這些數(shù)據(jù)進行聯(lián)合建模后,商業(yè)銀行的不良貸款率從原有的1.81大幅下降至0.38(如圖11所示),經(jīng)測算,基于區(qū)塊鏈和隱私保護計算技術(shù)訓練得到的信用評分模型,無損于傳統(tǒng)方式得到的模型,其AUC提升11%,FlScore】】提升42%,精度(Precision)
從62.2%提升到70.0%,提升幅度13%,召回率(Recall)提升59%(如圖12所示),大大提升了銀行的大數(shù)據(jù)風控應用能力。86420O.O.O.O.1.81聯(lián)合建模前商業(yè)銀行平均水平0.38聯(lián)合建模后商業(yè)銀行平均水平86420O.O.O.O.1.81聯(lián)合建模前商業(yè)銀行平均水平0.38聯(lián)合建模后商業(yè)銀行平均水平來源:隱私保護計算服務提供商圖11聯(lián)合建模前后不良貸款率對比BaselineLR-分箱+WOEBaselineLR-分箱+WOEXgboost-特征工程XpvPXpXpxPXpcT**q/Q/Q/oooooo876543圖12融合外部數(shù)據(jù)的建模效果效率方面,本案例有效優(yōu)化了銀行建模分析決策路徑和信貸風控流程。根據(jù)案例試點實踐數(shù)據(jù),隱私保護計算平臺運行期間,小微企表目錄TOC\o"1-5"\h\z表1DIKW模型解釋5表2基于數(shù)據(jù)流通的場景分類13表3傳統(tǒng)計算方案與隱私保護計算反欺詐方案對比18表4傳統(tǒng)計算方案與隱匿查詢雙盲方案對比29表5傳統(tǒng)解決方案與隱私保護計算解決方案對比34表6P值最高的單核昔酸多態(tài)性列表39表7傳統(tǒng)方案和隱私保護計算平臺技術(shù)方案性能對比41表8傳統(tǒng)技術(shù)方案與安全計算平臺創(chuàng)新方案對比51業(yè)信貸業(yè)務平均審批效率較之前提升了30%,不僅大幅提升了銀行的風險管理水平,而且也極大優(yōu)化了信貸客戶的申請體驗。業(yè)務方面,商業(yè)銀行結(jié)合外部數(shù)據(jù)的引入,深度挖掘自身數(shù)據(jù),得以更加有效、低成本地觸達小微企業(yè)客戶,準確識別信用風險。區(qū)塊鏈和隱私保護計算技術(shù)保護了數(shù)據(jù)提供者和數(shù)據(jù)使用者雙方的數(shù)據(jù)隱私安全,使多方數(shù)據(jù)相對安全地應用于業(yè)務決策。(二)醫(yī)療行業(yè)應用案例1.全基因組安全聯(lián)邦學習分析案例(1)業(yè)務背景隨著數(shù)據(jù)要素價值釋放的需求越來越強烈,現(xiàn)代醫(yī)學研究、藥物開發(fā)、公共衛(wèi)生防疫以及臨床醫(yī)療應用等生物醫(yī)學科學的進步,也愈發(fā)倚重電子病歷數(shù)據(jù)、基因數(shù)據(jù)、影像數(shù)據(jù)等生物醫(yī)學數(shù)據(jù)的開放共享與利用。例如,近幾年常被提及的“精準醫(yī)療”以及全基因組關(guān)聯(lián)研究(Genome-WideAssociationStudies,GWAS)等相關(guān)概念,都是數(shù)據(jù)應用價值在生物醫(yī)學領(lǐng)域的直觀體現(xiàn),其本質(zhì)是通過分析大樣本的個體生物醫(yī)學信息,鑒別特定疾病類型的生物標記物,輔助疾病的預防、診斷和治療,提高疾病診治與預防的效率及成本。生物醫(yī)學數(shù)據(jù),尤其是基因數(shù)據(jù),包含了大量涉及國家安全、個人隱私的敏感信息,數(shù)據(jù)泄露將對國家安全、公共利益造成難以估量的損失,這使得生物醫(yī)療數(shù)據(jù)的開放共享受到一定阻礙,基于數(shù)據(jù)規(guī)?;e累的價值釋放方法遭遇瓶頸。(2)傳統(tǒng)方案GWAS是指在人類全基因組范圍內(nèi)篩選出與疾病相關(guān)的變異序列,即單核昔酸多態(tài)性(SNPs)。傳統(tǒng)的GWAS解決方案需要以足夠大的病例和對照樣本數(shù)量為基礎(chǔ),對其所有感興趣的SNPs進行基因分型,然后分析每個SNP與疾病的關(guān)聯(lián),計算其關(guān)聯(lián)強度和OR值%在傳統(tǒng)的解決方案中,GWAS非常依賴大量基因數(shù)據(jù)的積累,樣本量不足是各項GWAS研究中的常見問題和困難。即使多方以豐富病例和對照樣本數(shù)量為目標展開數(shù)據(jù)合作,也很難保證合作過程的數(shù)據(jù)安全。傳統(tǒng)方案在數(shù)據(jù)合作過程中需要各參與方將數(shù)據(jù)進行物理轉(zhuǎn)移,匯總到一方后進行基因分析,面臨著第三方不可靠帶來的潛在數(shù)據(jù)隱私泄露、數(shù)據(jù)濫用、數(shù)據(jù)轉(zhuǎn)賣等風險,以及數(shù)據(jù)分享意愿不強等問題。業(yè)務痛點傳統(tǒng)方案通過限制數(shù)據(jù)的流通,一定程度上保證了數(shù)據(jù)的安全性,但方案的落地實施仍存在其局限性。一是樣本割裂缺乏交互和共享,規(guī)?;e累不足?;谏镝t(yī)療數(shù)據(jù)的各項科學研充通常需要大量樣本,單一數(shù)據(jù)源很難滿足海量的數(shù)據(jù)需求。且受限于不同數(shù)據(jù)源所在國家和地區(qū)其數(shù)據(jù)安全和隱私保護法律法規(guī)的要求存在差異性,不同數(shù)據(jù)源可能在部分地區(qū)允許外傳,而在其他部分地區(qū)禁止外傳,各數(shù)據(jù)源也無法有效地直接和第三方分享自身數(shù)據(jù),加劇了醫(yī)療數(shù)據(jù)孤島困境,影響生物醫(yī)學研究的合作。二是超大數(shù)據(jù)量,高通量計算對技術(shù)與計算效率的要求較高。通過匯集多方醫(yī)療數(shù)據(jù),數(shù)據(jù)量和數(shù)據(jù)維度的增加滿足了樣本規(guī)模需求,這雖然有利于提升模型精準度,但對計算效率也提出了更高的要求,傳統(tǒng)方案中的單一計算節(jié)點力所不及,無法滿足計算效率與精度之間的平衡。三是統(tǒng)一大數(shù)據(jù)平臺存在安全性不足等短板,嚴重限制了其發(fā)展。生物醫(yī)學研究數(shù)據(jù)包含了大量敏感的個人信息,研究發(fā)現(xiàn),基于幾十個基因位點(SNPs)的數(shù)據(jù)就可以基本確定一個個體的身份。面對如此敏感的醫(yī)療數(shù)據(jù),當前GWAS依賴統(tǒng)一大數(shù)據(jù)平臺的實現(xiàn)方式其安全性更顯不足。如何在保護醫(yī)療敏感信息、規(guī)避隱私泄露風險的前提下,廣泛推行生物醫(yī)學數(shù)據(jù)分享和聯(lián)合分析、多元醫(yī)療數(shù)據(jù)融合,成為制約GWAS研究的關(guān)鍵挑戰(zhàn)之一。實踐案例強直性脊柱炎(AnkylosingSpondylitis,AS)是最常見的自身免疫病之一,發(fā)病一般較早,且主要累及青壯年男性,如不能及時接受科學治療,有較高致殘率。在我國,至少有1()0()萬強直性脊柱炎患者,人群龐大。研究發(fā)現(xiàn),該病與HLA-B27等基因具有高達90%的相關(guān)性,因此開展強直性脊柱炎的GWAS分析有很高的社會價值。由某三甲醫(yī)院牽頭,在隱私保護計算技術(shù)的支持下,實現(xiàn)了在不分享明文數(shù)據(jù)(個體基因數(shù)據(jù))的基礎(chǔ)上,支持強直性脊柱炎的GWAS分析,為解決生物醫(yī)學數(shù)據(jù)開放共享問題提供了思路。該方案基于隱私保護計算技術(shù)設計并開發(fā)了新框架,使用了具有隱私保護功能的安全聯(lián)邦學習(Privacy-preservingSecurityFederatedLearning)方法,整個數(shù)據(jù)共享的過程從始至終對患者信息進行保護,解決數(shù)據(jù)共享中存在的隱私安全問題。該框架以強直性脊柱炎作為切入點進行全基因組分析,以識別人類基因組中具有的潛在風險,即識別可能導致強直性脊柱炎的基因型。表6P值最高的單核昔酸多態(tài)性列表來源:隱私保護計算服務提供商單核昔酸多態(tài)性染色體位置P值exm-rs8863906303349945.00E-17exm-rs28447456303437036.00E-17exm-rs9702706303473065.00E-17rs9702706303473066.50E-17rs25166856303616087.20E-16rs122109476307351059.10E-16exm-rs43277306307809365.00E-15rsl21927046307922707.30E-15exm-rs22548476309338488.20E-15exm-rs16347316309556812.10E-14exm-rs16193766309833265.00E-14exm5295056309934404.20E-13rs28941796310666716.30E-13exm-rs37348546310788364.33E-12exm5296536310792645.20E-11案例中(如表6所示)通過多中心全基因組關(guān)聯(lián)分析,可得到部分P值最高的單核昔酸多態(tài)性數(shù)據(jù),進一步以其為基礎(chǔ)生成的曼哈頓圖(如圖13所示)可使得疾病相關(guān)的基因變異情況一目了然,為臨床和實驗提供了強有力的理論依據(jù)。
18910111213141516171819202C2染色體來源:隱私保護計算服務提供商圖I3全基因組關(guān)聯(lián)分析結(jié)果的曼哈頓圖相較于傳統(tǒng)方案中,需要將數(shù)據(jù)拷貝移動到授信第三方,且還需面對由于不同機構(gòu)間的不同隱私保護政策所帶來的合規(guī)性挑戰(zhàn),隱私保護計算平臺支持下的GWAS研究作為兼具隱私保護和跨機構(gòu)數(shù)據(jù)共享的技術(shù)解決方案,連接多個數(shù)據(jù)源,實現(xiàn)了數(shù)據(jù)共享和有效利用(如圖14所示);在研究過程中只交換加密的經(jīng)過處理中間計算結(jié)果,助力數(shù)據(jù)使用合規(guī)性,既保護了各方用戶隱私、商業(yè)機密,又打破了數(shù)據(jù)孤島,還使責任可追溯,讓絕大部分計算在本地完成,有效減少數(shù)據(jù)冗余(如表7所示)。來源:隱私保護計算服務提供商圖14傳統(tǒng)方案和隱私保護計算平臺技術(shù)方案架構(gòu)對比表7傳統(tǒng)方案和隱私保護計算平臺技術(shù)方案性能對比來源:隱私保護計算服務提供商對比項傳統(tǒng)方案隱私保護計算平臺參與方單一參與方或數(shù)據(jù)匯到一方后分析多方聯(lián)盟式合作數(shù)據(jù)樣本量受限于參與方或單一數(shù)據(jù)源樣本量多方合作顯著提高樣本規(guī)模及維度的豐富程度計算效率受限于單一節(jié)點計算效率多方聯(lián)邦模式計算,數(shù)據(jù)并行分析,顯著提高效率計算精度基礎(chǔ)參考標準與傳統(tǒng)技術(shù)方案比較均方誤差在10-22?10-28之間數(shù)據(jù)安全性多方參與時需要數(shù)據(jù)物理轉(zhuǎn)移,匯總分析,存在原始數(shù)據(jù)直接暴露的安全風險數(shù)據(jù)不出域的情況下完成聯(lián)合數(shù)據(jù)分析,數(shù)據(jù)“可用不可見”結(jié)果安全性計算結(jié)果不支持定向發(fā)放使用計算結(jié)果定向發(fā)放使用(5)實踐價值基于隱私保護計算平臺打造的全基因組關(guān)聯(lián)分析引擎,能滿足GWAS研究所需的超大數(shù)據(jù)量(GB?TB級數(shù)據(jù))、多中心(10+中心)聯(lián)合計算的技術(shù)要求。通過使用聯(lián)邦學習框架,可以在不拷貝和移動原始數(shù)據(jù)的情況下實現(xiàn)多中心的聯(lián)合GWAS研究,避免了傳統(tǒng)數(shù)據(jù)共享過程中數(shù)據(jù)管理職責模糊的問題,使數(shù)據(jù)管理的職責清晰化。此外,部分計算在本地完成,有效減少了數(shù)據(jù)冗余問題,進一步提高了GWAS研究的計算效率,也有效解決了大數(shù)據(jù)平臺安全性不足以及各參與機構(gòu)分享意愿不強烈的痛點。微觀來看,隱私保護計算平臺在此實踐案例中是一個具有創(chuàng)新性的大數(shù)據(jù)流通共享和利用平臺,不同于其他傳統(tǒng)的大數(shù)據(jù)系統(tǒng),該平臺在計算過程中不會泄露敏感的原始數(shù)據(jù),充分保護生物醫(yī)學隱私數(shù)據(jù)和醫(yī)療機構(gòu)商業(yè)機密。在符合法律法規(guī)及相關(guān)管理部門監(jiān)管要求的基礎(chǔ)上,打破數(shù)據(jù)孤島,建立了跨行業(yè)、跨部門、跨主體的安全、可控的大數(shù)據(jù)聯(lián)合分析。宏觀來看,基于隱私保護計算技術(shù)的大數(shù)據(jù)分析管理平臺,不僅在生物醫(yī)學研究,在金融保險、商業(yè)營銷等行業(yè)也具有廣泛的應用前景。不僅可以應用在政府監(jiān)管部門,也適合行業(yè)聯(lián)盟、集團企業(yè),在保護隱私安全、商業(yè)機密安全以及信息安全基礎(chǔ)上促進數(shù)字產(chǎn)業(yè)發(fā)展,為建設數(shù)字中國提供動能。2.基于“安全多方計算+聯(lián)邦學習”的DRG付費(1)業(yè)務背景近幾年,隨著《關(guān)于進一步深化基本醫(yī)療保險支付方式改革的指導意見》《關(guān)于推進醫(yī)療保障基金監(jiān)管制度體系改革的指導意見》等系列政策的出臺,深化了醫(yī)保支付方式的改革,成為促進我國醫(yī)療保障制度健康持續(xù)發(fā)展的重要內(nèi)容。在系列政策的助力下,作為全球公認較為先進和科學的醫(yī)保支付方式之一的“醫(yī)療診斷相關(guān)分組”(DiagnosisRelatedGroups,DRG)持續(xù)受到重視。DRG本質(zhì)上是一種病例組合分類方案,即根據(jù)年齡、疾病診斷、合并癥、并發(fā)癥、治療方式、病癥嚴重程度以及轉(zhuǎn)歸和資源消耗等因素,將患者分入若干診斷組進行管理的體系也傳統(tǒng)醫(yī)保費用支付方式是醫(yī)保部門按照患者在院的實際費用(即按服務項目)支付給醫(yī)療13《國家醫(yī)療保障DRG分組與付費技術(shù)規(guī)范》機構(gòu),但在疾病診斷相關(guān)組-預付費(DRG-PPS)模式下,醫(yī)保部門將根據(jù)患者所在診斷相關(guān)組的付費標準將費用預給醫(yī)療機構(gòu),以實現(xiàn)相關(guān)組內(nèi)患者臨床過程的相似,以及資源消耗的相近。傳統(tǒng)方案在傳統(tǒng)方案中,各醫(yī)療機構(gòu)需將患者病例信息按規(guī)范匯總至醫(yī)保部門,由醫(yī)保部門統(tǒng)一進行醫(yī)療診斷相關(guān)分組,并反饋至醫(yī)療機構(gòu)。但由于醫(yī)保部門給予醫(yī)療機構(gòu)的反饋,往往是在醫(yī)療機構(gòu)對患者完成診療之后,導致醫(yī)療機構(gòu)在診療過程中對于患者的分組方法并不明晰,只能根據(jù)自身病例數(shù)據(jù)積累先進行預判,再根據(jù)預判進行分組診療。業(yè)務痛點單個醫(yī)療機構(gòu)建立模型,準確性不足:由于單個醫(yī)院擁有的樣本數(shù)量較少,以有限的數(shù)據(jù)難以進行模型訓練,繼而對分組的準確性產(chǎn)生影響。多個醫(yī)療機構(gòu)建立模型,安全性不足:各醫(yī)療機構(gòu)及行業(yè)主管部門都將醫(yī)療數(shù)據(jù)安全作為監(jiān)管重點,多方聯(lián)合建模必要面對數(shù)據(jù)匯集可能導致的隱私泄露風險。由此,如何在確保各方醫(yī)療數(shù)據(jù)安全的前提下,充分挖掘數(shù)據(jù)價值,為醫(yī)療機構(gòu)提供科學的參考、為人民群眾就醫(yī)提供便利和保障,成為醫(yī)保DRG控費亟待解決的關(guān)鍵問題。實踐案例在本實踐案例中,通過隱私保護計算服務平臺將多家醫(yī)療機構(gòu)的患者數(shù)據(jù)進行匯總訓練,在保護患者隱私的前提下,增加患者樣本數(shù)量,擴大數(shù)據(jù)規(guī)模,最終獲得了更準確的DRG分類模型,幫助醫(yī)療機構(gòu)進行DRG預測。來源:隱私保護計算服務提供商圖15基于隱私保護計算服務平臺的聯(lián)合DRG建模的流程DRG模型訓練(以下簡稱平臺)(如圖15所示)基于隱私保護計算服務平臺的聯(lián)邦建模主要包含初始化、數(shù)據(jù)準備、隱私求交、模型訓練、模型發(fā)布、服務集成、服務監(jiān)控七個環(huán)節(jié)。初始化:醫(yī)療機構(gòu)A和醫(yī)療機構(gòu)B在本地進行隱私保護計算節(jié)點部署,并進行網(wǎng)絡授權(quán)和調(diào)試,待初始化完成后即開始具體聯(lián)合建模項目的運營。數(shù)據(jù)準備:醫(yī)療機構(gòu)A和醫(yī)療機構(gòu)B將本地樣本數(shù)據(jù)加載到各自本地隱私保護計算節(jié)點上,在平臺上進行對應樣本的數(shù)據(jù)表結(jié)構(gòu)注冊并授權(quán)進入聯(lián)合項目。隱私求交6:平臺上選擇兩方注冊授權(quán)的數(shù)據(jù)集合進行隱私求交指令操作,實現(xiàn)兩方樣本數(shù)據(jù)對齊,形成虛擬寬表(數(shù)據(jù)存儲表,列為屬性,行為ID)o模型訓練:平臺上針對虛擬寬表進行模型訓練,其中包括數(shù)據(jù)預處理、特征工程、特征篩選、算法調(diào)優(yōu)以及模型評估,待模型訓練完畢后產(chǎn)出模型評估報告并由聯(lián)合項目機構(gòu)進行線下模型評審,最終完成后即可進入模型服務部署階段。模型發(fā)布:機構(gòu)針對提交的聯(lián)合模型各自開發(fā)模型需要的對應機構(gòu)的特征服務,一般以API形式對接本地隱私保護計算節(jié)點。完成特征服務后在平臺進行特征定義(即注冊),并將模型與特征綁定后進行發(fā)布。服務集成:服務集成在平臺進行操作,主要針對己發(fā)布的模型進行出入?yún)⑴渲茫约罢{(diào)用服務流程編排,并進行服務鏈路驗證保證。待上述步驟完成后即可進行服務部署,一般以API形式由服務需求方(比如金融機構(gòu)的決策系統(tǒng))進行調(diào)用。服務監(jiān)控:服務正常運行時,平臺提供全鏈路服務監(jiān)控,用以監(jiān)控聯(lián)合模型服務的調(diào)用情況以及運行時模型穩(wěn)定性情況。兩個醫(yī)療機構(gòu)基于隱私保護計算服務平臺,通過聯(lián)邦學習技術(shù)實現(xiàn)了數(shù)據(jù)不出本地,使得數(shù)據(jù)隱私保護能力有所保障;同時,擴大了模型訓練數(shù)據(jù)規(guī)模,提升了本地DRG模型準確度。(5)實踐價值一、數(shù)據(jù)概念內(nèi)涵及價值數(shù)據(jù)并非新生事物,但是數(shù)據(jù)的價值釋放需以明確數(shù)據(jù)、數(shù)據(jù)價值、數(shù)據(jù)特征等相關(guān)概念為前提。本章嘗試對數(shù)據(jù)、數(shù)據(jù)特征和數(shù)據(jù)價值進行定義,拋磚引玉,以供社會各界參考及討論。(-)數(shù)據(jù)定義根據(jù)《數(shù)據(jù)安全法》定義,“數(shù)據(jù),是指任何以電子或者其他方式對信息的記錄。”該定義在法律層面明確了數(shù)據(jù)的記錄方式,并將“數(shù)據(jù)”和“信息”進行區(qū)分。國際數(shù)據(jù)管理協(xié)會(DAMA)認為,“數(shù)據(jù)是以文本、數(shù)字、圖形、圖像、聲音和視頻等格式對事實進行的表現(xiàn)”,對“數(shù)據(jù)”存在的不同形態(tài)進行了列舉,且指出“數(shù)據(jù)”是對事實的表現(xiàn)I標準ISO/IEC11179-1:20152將“數(shù)據(jù)”定義為“以適合于交流、解釋或處理的形式化方式對信息進行可重新解釋的表示”,該定義強調(diào)了“數(shù)據(jù)”的電子性質(zhì),其認為“數(shù)據(jù)”是對它代表的對象(信息)的解釋;且該解釋方式必須是權(quán)威、標準、通用的,只有這樣才可以達到通信、解釋和處理的目的。統(tǒng)計學將“數(shù)據(jù)”定義為“用于表示和解釋而收集、分析和總結(jié)后的客觀事實和數(shù)字符號”,并將“數(shù)據(jù)”分為定性數(shù)據(jù)和定量數(shù)據(jù)。根據(jù)我國權(quán)威科學技術(shù)名詞審定機構(gòu)全國科學技術(shù)名詞審定委員會審定,在計算機科學技術(shù)中,“數(shù)據(jù)”是客觀事物的符號表示,指所有可輸入到計算機中并可被計DRG支付模式的優(yōu)勢一是能夠減少對藥品、耗材、大型建設設備的不合理使用,減少過度醫(yī)療,有效降低患者醫(yī)療成本、減輕患者經(jīng)濟負擔;二是提高醫(yī)療機構(gòu)醫(yī)療資源利用率,有利于促進醫(yī)療服務公開透明,有效規(guī)范醫(yī)療機構(gòu)的醫(yī)療服務行為,有效提高醫(yī)療服務質(zhì)量;三是醫(yī)保基金不超支,助力醫(yī)??刭M。DRG支付模式有助于實現(xiàn)醫(yī)、保、患三方各自利益達到最大化,建立以患者為中心、使醫(yī)保管理部門和醫(yī)療機構(gòu)實現(xiàn)醫(yī)保購買談判、財務收支平衡,調(diào)動廣大醫(yī)務人員的積極性,優(yōu)化臨床路徑、規(guī)范診療行為、提高服務效率,促進醫(yī)療衛(wèi)生事業(yè)可持續(xù)發(fā)展?;陔[私保護計算技術(shù)實現(xiàn)的聯(lián)合DRG建模方式在患者方面,加強了數(shù)據(jù)授權(quán)和流轉(zhuǎn)的立法保護和實際落地,保護了患者醫(yī)療數(shù)據(jù)和個人信息的安全性;醫(yī)療機構(gòu)方面,本案例提供了更安全的數(shù)據(jù)不出本地的共享方式,保障機構(gòu)數(shù)據(jù)利益的同時充分釋放了數(shù)據(jù)價值。(三)政務行業(yè)應用案例1.基于電力聯(lián)邦學習的城市電動汽車負荷分析與預測(1)業(yè)務背景面對全球氣候變暖問題,我國明確在2030年前和2060年前分別實現(xiàn)碳達峰和碳中和。據(jù)統(tǒng)計,僅交通行業(yè)的碳排放量約占全國總碳排放量的10%左右,其中道路交通在交通全行業(yè)碳排放中則高達80%,推動新能源汽車產(chǎn)業(yè)發(fā)展己成為節(jié)能減排的關(guān)鍵抓手。根據(jù)工信部統(tǒng)計,2020年我國新能源汽車單年度銷量約為130萬臺,與現(xiàn)存充電樁總數(shù)相當,新能源汽車與充電樁的保有量比例為3.15:1,遠高于《電動汽車充電基礎(chǔ)設施發(fā)展指南》規(guī)定的l:lo“公樁難找、私樁難設”是現(xiàn)階段阻礙新能源汽車產(chǎn)業(yè)發(fā)展的痛點問題。要解決上述問題,亟需研發(fā)城市電動汽車負荷分析與預測技術(shù),為開展充配電網(wǎng)協(xié)同布局規(guī)劃提供技術(shù)支撐,實現(xiàn)增量基礎(chǔ)設施優(yōu)化配置,提升城市充電網(wǎng)的覆蓋率和利用率。傳統(tǒng)方案在傳統(tǒng)電力場景中,負荷、電量等用電數(shù)據(jù)來源單一,可在電力企業(yè)的數(shù)據(jù)中臺進行匯聚、脫敏、分析和建模。而在電動汽車領(lǐng)域,電動汽車的充電可在公樁、私樁等不同渠道完成,在電動汽車負荷分析與預測場景中,電動汽車的充用電數(shù)據(jù)由電力公司、私樁個人等多方持有,出于商業(yè)利益的考慮和用戶隱私保護等監(jiān)管約束,往往形成各種數(shù)據(jù)壁壘。究其原因,一方面,用戶充用電數(shù)據(jù)是持有機構(gòu)的高價值資產(chǎn),出于商業(yè)利益的考量,不會輕易對外開放;另一方面,這些數(shù)據(jù)關(guān)乎國家安全、涉及個人隱私,持有機構(gòu)“不敢、不能”直接對外開放。業(yè)務痛點安全事件危害范圍廣,程度重:由于電力網(wǎng)絡存在結(jié)構(gòu)復雜、業(yè)務特殊、系統(tǒng)繁多等特性,電力數(shù)據(jù)面臨嚴峻的安全威脅與挑戰(zhàn),如若發(fā)生盜用、泄露、篡改、刪除等安全事件,不僅會對電力企業(yè)自身的業(yè)務、信譽和經(jīng)濟利益造成嚴重損害,甚至可能影響能源供應,導致社會恐慌,威脅國家安全。個人隱私數(shù)據(jù)高敏感,法律嚴:隨著電動汽車大范圍、高密度的推廣和使用,電動車充用電數(shù)據(jù)兒乎能夠完整刻畫出用戶的行動軌跡和生活習慣,因此電動車充用電數(shù)據(jù)也是關(guān)乎用戶隱私安全的高敏感個人數(shù)據(jù),受到相關(guān)法律法規(guī)的嚴格保護。數(shù)據(jù)孤島使數(shù)據(jù)失真,存隱患:在傳統(tǒng)的電動汽車負荷分析與預測過程中,電動汽車充用電相關(guān)數(shù)據(jù)往往分散在多個主體手中,例如新能源汽車數(shù)據(jù)、公共充電設施的用電數(shù)據(jù)、居民充電設施的用電數(shù)據(jù)等均由不同的機構(gòu)收集與持有。傳統(tǒng)方式使用單一數(shù)據(jù)源或高強度脫敏的數(shù)據(jù),致使任意一方開展用戶畫像和數(shù)據(jù)建模時的模型效果不盡如人意,同時也存在巨大的數(shù)據(jù)安全隱患。綜上所述,如何通過技術(shù)手段來解決多方數(shù)據(jù)的共享問題,是城市電動汽車負荷的跨域分析與精準預測的一個關(guān)鍵難點。(4)實踐案例針對以上問題,某科技公司聯(lián)合電力公司,利用自主研發(fā)的安全計算平臺,集成安全多方計算、聯(lián)邦學習等隱私保護計算技術(shù),提供面向配電網(wǎng)協(xié)同發(fā)展的電力場景安全計算解決方案。通過綜合運用秘密分享、不經(jīng)意傳輸、同態(tài)加密等密碼學手段,提供滿足實際電力業(yè)務場景需求的輔助聯(lián)邦建模組件,包括安全數(shù)據(jù)對齊、安全多方統(tǒng)計與分析、聯(lián)邦特征工程、聯(lián)邦探索性分析、匿蹤查詢等功能;在此基礎(chǔ)上,結(jié)合規(guī)?;碾妱悠噲鼍?,以上海電動汽車充用電數(shù)據(jù)為基礎(chǔ),構(gòu)建充用電畫像;最后,通過電力聯(lián)邦學習算法建立城市電動汽車負荷分析與預測模型:1)城市電動汽車負荷分析:基于橫向電力聯(lián)邦學習安全協(xié)同建模能力,融合公私充電樁運營數(shù)據(jù),對全市充電樁、充電站、充電網(wǎng)進行負荷聚類分析,構(gòu)建反映充電網(wǎng)的用電畫像。首先,根據(jù)實際計算、存儲、網(wǎng)絡等資源條件,在數(shù)據(jù)持有者之間搭建支持多方安全協(xié)同建模的聯(lián)邦學習平臺。然后,通過多方協(xié)同的特征工程,建立分布式電動汽車負荷畫像,并通過安全相關(guān)性分析方法量化評估各畫像特征與充電樁、充電設施、充電網(wǎng)的負荷變化的相關(guān)性程度,從而對特征進行關(guān)聯(lián)排序。最后,通過橫向電力聯(lián)邦學習算法建立融合多方同構(gòu)電動汽車充用電數(shù)據(jù)的負荷分析模型(如圖16、圖17所示),以充電樁、充電設施、充電網(wǎng)等多級粒度開展電動汽車負荷安全聚類分析,形成充電樁、充電設施、充電網(wǎng)負荷的聚類結(jié)果。2)城市電動汽車負荷預測:基于縱向電力聯(lián)邦學習安全協(xié)同建模能力,融合包含充電樁運營數(shù)據(jù)在內(nèi)的電力、經(jīng)濟、社會、交通、規(guī)劃等多源異構(gòu)數(shù)據(jù),以用電畫像特征庫為基礎(chǔ)構(gòu)建充電網(wǎng)負荷預測模型。首先,建立融合多源異構(gòu)數(shù)據(jù)的負荷預測模型,針對充電樁、充電設施、充電網(wǎng)等不同粒度開展電動汽車負荷預測,不同粒度不同分類,使用多種長、短期負荷預測方法構(gòu)建多方協(xié)同數(shù)據(jù)模型。然后,分析比較各種預測模型的性能,得到適用于各種情況的解決方案。
圖17電動汽車充電總負荷曲線該方案基于聯(lián)邦學習的用電預測建模方法,挖掘用電時序數(shù)據(jù)的局部、全局變化特征,構(gòu)建兼具線性和非線性擬合能力的用電預測模型,建立電力數(shù)據(jù)價值和數(shù)據(jù)安全之間的平衡。其中,短期用電預測模型可用于月末供售電量預測、配電網(wǎng)元件重過載預警、臺區(qū)可開放容量計算,為相關(guān)專職開展日常工作提供決策支持;中長期用電預測模型可用于預測無重大突發(fā)事件影響下的規(guī)上工業(yè)和一般工商業(yè)用電量,助力政府量化評估行業(yè)景氣狀況和復工復產(chǎn)狀況。通過實行該方案,成功地支撐了充配電網(wǎng)的協(xié)同布局規(guī)劃,助力新能源汽車產(chǎn)業(yè)發(fā)展和營商環(huán)境的持續(xù)優(yōu)化(如表8所示)。表8傳統(tǒng)技術(shù)方案與安全計算平臺創(chuàng)新方案對比來源:隱私保護計算服務提供商對比項傳統(tǒng)技術(shù)方案安全計算平臺創(chuàng)新方案參與方單一電力機構(gòu)或匯聚于同一中心電力機構(gòu)分布式、跨域的多個電力機構(gòu),無中心機構(gòu)樣本量單一樣本或脫敏的聚合數(shù)據(jù)集間接聚合的多源數(shù)據(jù)樣本,數(shù)據(jù)樣本更豐富安全性采用腳本或人工脫敏的情況,數(shù)據(jù)關(guān)系被破壞,易遭受單點攻擊數(shù)據(jù)不轉(zhuǎn)移不匯集,采用高困難性和復雜度的新型加密和安全計算技術(shù)效率受限于單一機構(gòu)效率多機構(gòu)并行計算,此外可擴展硬件加速準確性單一數(shù)據(jù)源導致模型效果不佳海量、高維電力大數(shù)據(jù)的聚合樣本,顯著提升建模效果審計監(jiān)管由于機構(gòu)間系統(tǒng)差異和數(shù)據(jù)孤島,主要依賴人工審計數(shù)據(jù)安全開放共享,自動跨域授權(quán),此外分布式的架構(gòu)可協(xié)同區(qū)塊鏈進行存證溯源(5)實踐價值安全計算平臺創(chuàng)新方案以“電力數(shù)據(jù)跨源協(xié)同”為核心,提出了集成聯(lián)邦學習、安全多方計算等新型隱私保護計算技術(shù)的電力場景解決方案,建立開放環(huán)境下多主體安全協(xié)同建模框架,能夠在原始數(shù)據(jù)不出域、不直接交換的前提下,以不可破解的加密方式實現(xiàn)電力數(shù)據(jù)的開放共享與多元協(xié)同應用,使各數(shù)據(jù)持有機構(gòu)之間安全高效地協(xié)同使用各方數(shù)據(jù),合法合規(guī)地進行多源數(shù)據(jù)協(xié)同建模與分析,確保了各方在模型訓練、更新、應用等環(huán)節(jié)實現(xiàn)“數(shù)據(jù)不出門,算法滿地跑”,解決了電力場景中數(shù)據(jù)隱私安全、跨域數(shù)據(jù)協(xié)同應用和數(shù)據(jù)價值挖掘困難的難題。在此基礎(chǔ)上,該方案通過構(gòu)建充電樁、充電站、充電網(wǎng)的用電畫像,建立城市電動汽車的負荷分析與預測模型,進一步實現(xiàn)了樣本規(guī)模的擴大、特征顯著性的提升、模型預測精度的提高以及對電力數(shù)據(jù)安全和個人隱私的保障。四、隱私保護計算技術(shù)應用困境及建議現(xiàn)階段隱私保護計算技術(shù)在金融、醫(yī)療、電子政務等領(lǐng)域已有一些落地嘗試。但總體來說,隱私保護計算技術(shù)仍處于大規(guī)模商業(yè)應用的早期,由于技術(shù)和解決方案還不夠完全成熟,隱私保護計算在走向市場化、產(chǎn)業(yè)化的過程中,仍面臨諸多挑戰(zhàn),需多方精誠協(xié)作?!巴缴撇蛔阋詾檎椒ú荒芤宰孕??!狈ㄒ?guī)制度的生命力在于執(zhí)行。在我國日臻完善的數(shù)據(jù)安全治理體系下,《數(shù)據(jù)安全法》《個人信息保護法》強調(diào)了在兼顧安全的基礎(chǔ)上,鼓勵依法合理有效利用數(shù)據(jù)和個人信息?!督鹑诳萍及l(fā)展規(guī)劃(2019-2021)》《中國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》《網(wǎng)絡安全產(chǎn)業(yè)高質(zhì)量發(fā)展三年行動計劃(2021-2023年)(征求意見稿)》等相關(guān)政策文件中,也提及強化安全多方計算、聯(lián)邦學習、機密計算等技術(shù)的研究攻關(guān)和部署應用,促進數(shù)據(jù)要素安全有序流動。那么,如何合規(guī)地使用隱私保護計算技術(shù),建立安全合規(guī)與正當商業(yè)利用相平衡的制度框架,亟需對除法律之外的行政法規(guī)、部門規(guī)章、準則、指南等“軟性”措施進行細化、優(yōu)化,強化與法律之間的銜接,為依法合理有效釋放數(shù)據(jù)要素價值奠定基礎(chǔ)。“欲知平直,則必準繩?!碑斍皣@隱私保護計算已開展一系列的標準化工作,但由于技術(shù)路線豐富、場景強相關(guān)、輕量化與定制化無法兼得、安全性不統(tǒng)一等問題,尚未形成兼顧權(quán)威性、適用性、科學性的標準。隱私保護計算的標準化工作,不僅包含標準制定,更需注重標準的實施效果。建議立足市場
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《智能手機維修教程》課件
- 鐵路橋隧無損檢測任務二無損檢測基本理論課件
- 鐵道機車專業(yè)教學鄭州鐵路課件
- 鐵路安全監(jiān)測與預警系統(tǒng)講師劉新強課件
- 鐵路工程安全技術(shù)石家莊鐵路21課件
- 鐵路集裝箱運輸組織單元集裝箱運輸作業(yè)流程課件
- 2025年吉林醫(yī)學高等專科學校單招考試題庫
- 合同糾紛處理辦法
- 個人終止租房合同協(xié)議書范本
- 版體育場地使用權(quán)租賃合同
- 監(jiān)理整改回復單(模板)
- 如何申報縱向課題
- 招貼設計 課件完整版
- SJG 36-2017 深圳市巖土工程勘察報告數(shù)字化規(guī)范-高清現(xiàn)行
- 杭州市主城區(qū)聲環(huán)境功能區(qū)劃分圖
- 《新媒體運營》課件(完整版)
- Q∕GDW 11698-2017 水電站金屬結(jié)構(gòu)無損檢測技術(shù)規(guī)范
- (高清正版)T-CAGHP 031—2018 地質(zhì)災害危險性評估及咨詢評估預算標準(試行)
- 產(chǎn)品平臺與CBB_技術(shù)管理PPT課件
- 裝配式疊合板樓板安裝施工方案
- 北京市中小學生天文知識競賽復習題庫
評論
0/150
提交評論