數(shù)據(jù)脫敏方案_第1頁(yè)
數(shù)據(jù)脫敏方案_第2頁(yè)
數(shù)據(jù)脫敏方案_第3頁(yè)
數(shù)據(jù)脫敏方案_第4頁(yè)
數(shù)據(jù)脫敏方案_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)大數(shù)據(jù)脫敏方案 2017-1-15更改履歷版本號(hào)修改編號(hào)更改時(shí)間更改的圖表和章節(jié)號(hào)更改簡(jiǎn)要描述更改人批準(zhǔn)人目錄 TOC o 1-3 h z u 概述編寫目的本文檔描述了數(shù)據(jù)脫敏的研究成果和方法論。旨在為具有數(shù)據(jù)脫敏需求的開發(fā)人員和項(xiàng)目提供參考和借鑒。數(shù)據(jù)脫敏的定義敏感數(shù)據(jù)一般指不當(dāng)使用或未經(jīng)授權(quán)被人接觸或修改會(huì)不利于國(guó)家利益或不利于個(gè)人依法享有的個(gè)人隱私權(quán)的所有信息。工業(yè)和信息化部編制的信息安全技術(shù) 公共及商用服務(wù)信息系統(tǒng)個(gè)人信息保護(hù)指南明確要求,處理個(gè)人信息應(yīng)當(dāng)具有特

2、定、明確和合理的目的,應(yīng)當(dāng)在個(gè)人信息主體知情的情況下獲得個(gè)人信息主體的同意,應(yīng)當(dāng)在達(dá)成個(gè)人信息使用目的之后刪除個(gè)人信息。這項(xiàng)標(biāo)準(zhǔn)最顯著的特點(diǎn)是將個(gè)人信息分為個(gè)人一般信息和個(gè)人,并提出了默許同意和明示同意的概念。對(duì)于個(gè)人一般信息的處理可以建立在默許同意的基礎(chǔ)上,只要個(gè)人信息主體沒有明確表示反對(duì),便可收集和利用。但對(duì)于個(gè)人敏感信息,則需要建立在明示同意的基礎(chǔ)上,在收集和利用之前,必須首先獲得個(gè)人信息主體明確的授權(quán)。這項(xiàng)標(biāo)準(zhǔn)還正式提出了處理個(gè)人信息時(shí)應(yīng)當(dāng)遵循的八項(xiàng)基本原則,即目的明確、最少夠用、公開告知、個(gè)人同意、質(zhì)量保證、安全保障、誠(chéng)信履行和責(zé)任明確,劃分了收集、加工、轉(zhuǎn)移、刪除四個(gè)環(huán)節(jié),并針對(duì)每

3、一個(gè)環(huán)節(jié)提出了落實(shí)八項(xiàng)基本原則的具體要求。數(shù)據(jù)脫敏(Data Masking),又稱數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形。百度百科對(duì)數(shù)據(jù)脫敏的定義為:指對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù) 的可靠保護(hù)。這樣,就可以在開發(fā)、測(cè)試和其它非生產(chǎn)環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實(shí)數(shù)據(jù)集。敏感數(shù)據(jù),又稱隱私數(shù)據(jù),常見的敏感數(shù)據(jù)有: 姓名、身份證號(hào)碼、地址、電話號(hào)碼、銀行賬號(hào)、郵箱地址、所屬城市、郵編、密碼類 ( 如賬戶查詢密碼、取款密碼、登錄密碼等 )、組織機(jī)構(gòu)名稱、營(yíng)業(yè)執(zhí)照號(hào)碼、銀行帳號(hào)、交易日期、交易金額等。隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)商業(yè)價(jià)值的挖掘,用戶的精準(zhǔn)定位,大數(shù)據(jù)中

4、蘊(yùn)藏的巨大商業(yè)價(jià)值被逐步挖掘出來,但是同時(shí)也帶來了巨大的挑戰(zhàn)個(gè)人隱私信息 的保護(hù)。個(gè)人信息與個(gè)人行為(比如位置信息、消費(fèi)行為、網(wǎng)絡(luò)訪問行為)等,這些都是人的隱私,也是我們所關(guān)注的一類敏感信息,在大數(shù)據(jù)價(jià)值挖掘的基礎(chǔ)上如 何保護(hù)人的隱私信息,也將是數(shù)據(jù)脫敏必須解決的難題。數(shù)據(jù)脫敏需求隨著國(guó)家電網(wǎng)數(shù)據(jù)應(yīng)用的不斷深入,有許多應(yīng)用需要和外部系統(tǒng)對(duì)接,數(shù)據(jù)需要對(duì)外提供服務(wù)才能體現(xiàn)出它的價(jià)值,大數(shù)據(jù)時(shí)代是數(shù)據(jù)融合的時(shí)代,如何在數(shù)據(jù)融合的過程中,保證數(shù)據(jù)在開發(fā)、測(cè)試、生產(chǎn)、應(yīng)用等各個(gè)環(huán)節(jié)的安全,成為信息安全部門的重要任務(wù)。國(guó)家電網(wǎng)數(shù)據(jù)脫敏需求包括:通過數(shù)據(jù)抽取、數(shù)據(jù)漂白、數(shù)據(jù)混淆等處理過程,用來滿足測(cè)試、開

5、發(fā)、培訓(xùn)、數(shù)據(jù)共享和數(shù)據(jù)融合場(chǎng)景下的敏感數(shù)據(jù)保護(hù)需求,并使得數(shù)據(jù)處理過程滿足國(guó)家電網(wǎng)的敏感數(shù)據(jù)防護(hù)的政策規(guī)定。具體脫敏需求包括:防止生產(chǎn)庫(kù)中的敏感數(shù)據(jù)泄漏通過對(duì)生產(chǎn)庫(kù)中的身份、地址、用戶卡號(hào)、手機(jī)號(hào)等敏感信息進(jìn)行混淆、打亂后再提供給第三方使用,防止生產(chǎn)庫(kù)中的敏感數(shù)據(jù)泄漏。保證測(cè)試、開發(fā)、應(yīng)用階段的數(shù)據(jù)關(guān)聯(lián)性 通過脫敏策略和算法,保證脫敏數(shù)據(jù)有效性(保持原有數(shù)據(jù)類型和業(yè)務(wù)格式不變)、完整性(保證長(zhǎng)度不變、數(shù)據(jù)含義不丟失)、關(guān)系性(保持表間、表內(nèi)數(shù)據(jù)關(guān)聯(lián)關(guān)系)。以提升測(cè)試、開發(fā)、應(yīng)用環(huán)節(jié)的數(shù)據(jù)真實(shí)性和可用性。保證數(shù)據(jù)維護(hù)和數(shù)據(jù)共享的安全 對(duì)數(shù)據(jù)庫(kù)訪問者的用戶名、IP、工具類型、時(shí)間等進(jìn)行監(jiān)控,控制

6、數(shù)據(jù)訪問結(jié)果的差異化,數(shù)據(jù)結(jié)果可以劃分為真實(shí)數(shù)據(jù)、掩碼數(shù)據(jù)、數(shù)據(jù)阻斷、行限定數(shù)據(jù)等,通過訪問者的不同訪問策略,滿足細(xì)粒度的數(shù)據(jù)訪問需求。例如DBA可維護(hù)但無法查看敏感數(shù)據(jù)、業(yè)務(wù)系統(tǒng)可以訪問真實(shí)數(shù)據(jù)、分析系統(tǒng)可以訪問脫敏后的數(shù)據(jù)。保證隱私數(shù)據(jù)管理的政策合規(guī)性 數(shù)據(jù)的脫敏和數(shù)據(jù)處理必須在國(guó)家電網(wǎng)的相關(guān)政策規(guī)定允許的情況下進(jìn)行,脫敏規(guī)則符合國(guó)家電網(wǎng)的數(shù)據(jù)管理要求。脫敏方案脫敏流程數(shù)據(jù)脫敏的流程一般分為:敏感數(shù)據(jù)發(fā)現(xiàn)、敏感數(shù)據(jù)梳理、脫敏方案制定、脫敏任務(wù)執(zhí)行四大步驟,結(jié)合數(shù)據(jù)脫敏算法、數(shù)據(jù)脫敏規(guī)則以及脫敏的環(huán)境來達(dá)到最佳的數(shù)據(jù)脫敏效果。敏感數(shù)據(jù)發(fā)現(xiàn)敏感數(shù)據(jù)的發(fā)現(xiàn)分為人工發(fā)現(xiàn)和自動(dòng)發(fā)現(xiàn)兩種。對(duì)于國(guó)家電網(wǎng)

7、相對(duì)固定的業(yè)務(wù)數(shù)據(jù),可以采用人工甄別,明確指定那些列、那些庫(kù)的數(shù)據(jù)是需要脫敏,這些數(shù)據(jù)一般數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)長(zhǎng)度不會(huì)有變化,大部分為數(shù)值型和固定長(zhǎng)度的字符。比如:?jiǎn)挝淮a、戶號(hào)、戶名、用電地址等標(biāo)識(shí)列,針對(duì)這些數(shù)據(jù)可以通過人工指定脫敏規(guī)則和不同的數(shù)據(jù)訪問策略,保證敏感信息不被泄漏。自動(dòng)識(shí)別根據(jù)人工指定或預(yù)定義的敏感數(shù)據(jù)特征,借助敏感數(shù)據(jù)信息庫(kù)和分詞系統(tǒng),自動(dòng)識(shí)別數(shù)據(jù)庫(kù)中包含的敏感信息,相對(duì)于人工識(shí)別可以減少工作量和防止遺漏。一般采用自動(dòng)發(fā)現(xiàn)為主,結(jié)合人工發(fā)現(xiàn)和審核,來完成敏感數(shù)據(jù)的發(fā)現(xiàn)和定義,最終形成完善的敏感數(shù)據(jù)字典。敏感數(shù)據(jù)梳理在敏感數(shù)據(jù)發(fā)現(xiàn)的基礎(chǔ)上,完成敏感數(shù)據(jù)列、敏感數(shù)據(jù)關(guān)系的調(diào)整,以保證

8、數(shù)據(jù)的關(guān)聯(lián)關(guān)系。通過屏蔽、變形、替換、隨機(jī)、格式保留加密、強(qiáng)加密等數(shù)據(jù)脫敏算法,針對(duì)不同的數(shù)據(jù)類型進(jìn)行數(shù)據(jù)掩碼擾亂。脫敏方案制定對(duì)于不同的數(shù)據(jù)脫敏需求,在基礎(chǔ)脫敏算法的基礎(chǔ)上,可配置專門的脫敏策略。脫敏方案的制定主要依靠脫敏策略和脫敏算法的復(fù)用來實(shí)現(xiàn),通過配置和擴(kuò)展脫密算法以制定最優(yōu)方案。脫敏任務(wù)執(zhí)行脫敏任務(wù)的停止、啟動(dòng)、暫停等操作,支持任務(wù)并行處理,支持脫敏任務(wù)的中斷續(xù)延等。脫敏算法脫敏算法特征通常根據(jù)不同數(shù)據(jù)特征選擇不同的脫敏算法,對(duì)常見數(shù)據(jù)如姓名、證件號(hào)、銀行賬戶、金額、日期、住址、電話號(hào)碼、Email 地址、車牌號(hào)、車架號(hào)、企業(yè)名稱、工商注冊(cè)號(hào)、組織機(jī)構(gòu)代碼、納稅人識(shí)別號(hào)等敏感數(shù)據(jù)進(jìn)行

9、脫敏,脫敏算法通常包括屏蔽、變形、替換、隨機(jī)、格式保留加密(FPE)和強(qiáng)加密算法(如AES )。脫敏算法具有如下特性:同義替換使用相同含義的數(shù)據(jù)替換原有的敏感數(shù)據(jù),如姓名脫敏后仍然為有意義的姓名,住址脫敏后仍然為住址。部分?jǐn)?shù)據(jù)遮蔽將原數(shù)據(jù)中部分或全部?jī)?nèi)容,用“*”或“# ”等字符進(jìn)行替換,遮蓋部分或全部原文。混合屏蔽將相關(guān)的列作為一個(gè)組進(jìn)行屏蔽,以保證這些相關(guān)列中被屏蔽的數(shù)據(jù)保持同樣的關(guān)系,例如,城市、省、郵編在屏蔽后保持一致。確定性屏蔽確保在運(yùn)行屏蔽后生成可重復(fù)的屏蔽值??纱_保特定的值(如,客戶號(hào)、身份證號(hào)碼、銀行卡號(hào))在所有數(shù)據(jù)庫(kù)中屏蔽為同一個(gè)值??赡婷撁舸_保脫敏后的數(shù)據(jù)可還原,便于將第三

10、方分析機(jī)構(gòu)和內(nèi)部分析團(tuán)隊(duì)基于脫敏后數(shù)據(jù)上的分析的結(jié)果還原為業(yè)務(wù)數(shù)據(jù)。K-Anonymity (K-匿名)算法描述: 要求對(duì)于任意一行記錄,其所屬的相等集內(nèi)記錄數(shù)量不小于k,即至少有k-1條記錄半標(biāo)識(shí)列屬性值與該條記錄相同。 理論上來說,對(duì)于 K-Anonymity 數(shù)據(jù)集,對(duì)于任意記錄,攻擊者只有 1/k 的概率將該記錄與具體用戶關(guān)聯(lián)。算法步驟:先移除標(biāo)識(shí)列泛化半標(biāo)識(shí)列算法優(yōu)缺點(diǎn):優(yōu)點(diǎn):可以用于保護(hù)個(gè)人標(biāo)識(shí)泄漏的風(fēng)險(xiǎn)。缺點(diǎn):容易受到鏈接式攻擊,無法保護(hù)屬性泄露的風(fēng)險(xiǎn)。對(duì)于 K-Anonymity 的數(shù)據(jù)集,攻擊者可能通過 同質(zhì)屬性攻擊 與 背景知識(shí)攻擊 兩種方式攻擊用戶的屬性信息。對(duì)移除標(biāo)識(shí)列

11、的數(shù)據(jù)根據(jù)半標(biāo)識(shí)列進(jìn)行分組,每組最少有 k 條記錄,每組中至少有 k-1 條記錄的半標(biāo)識(shí)列的值與該記錄相同。L-Diversity算法描述:如果對(duì)于任意相等集內(nèi)所有記錄對(duì)應(yīng)的敏感數(shù)據(jù)的集合,包含 L 個(gè) “合適” 值,則稱該相等集是滿足 L-Deversity 。如果數(shù)據(jù)集中所有相等集都滿足 L-Deversity , 則稱該數(shù)據(jù)集滿足 L-Deversity。相對(duì)于K-Anonymity 標(biāo)準(zhǔn),符合L-Deversity 標(biāo)準(zhǔn)的數(shù)據(jù)集顯著降低了屬性數(shù)據(jù)泄漏的風(fēng)險(xiǎn)。對(duì)于滿足L-Derversity 的數(shù)據(jù)集,理論上,攻擊者最多只有 1/L 的概率能夠?qū)傩孕孤豆簦瑢⑻囟ㄓ脩襞c其敏感信息關(guān)聯(lián)起來

12、。通過插入干擾數(shù)據(jù)構(gòu)造符合 L-Diversity 的數(shù)據(jù)集。在K-Anonymity的基礎(chǔ)上,每個(gè)數(shù)據(jù)集中,其敏感信息列有 L 個(gè)不同的值,攻擊者只有 1/L 的幾率獲得正確的敏感信息。T-Closeness算法描述:L-Diversity 是通過約束 P 的 diversity 屬性,盡量減少B0 和B2之間的信息量差距,差距越小,說明隱私信息泄漏越少。T-Closeness 約束則期望減少B1 和 B2 之間的信息量差距,減少攻擊者從敏感數(shù)據(jù)的全局分布信息和相等集分布信息之間得到更多的個(gè)人隱私信息。如果一個(gè)相等類的敏感數(shù)據(jù)的分布與敏感數(shù)據(jù)的全局分布之間的距離小于T,則稱該相等類滿足 T-

13、Closeness約束。如果數(shù)據(jù)集中的所有相等類都滿足 T-Closeness,則稱該數(shù)據(jù)集滿足T-Closeness.T-Closeness約束限定了半標(biāo)識(shí)列屬性與敏感信息的全局分布之間的聯(lián)系,減弱了半標(biāo)識(shí)列屬性與特定敏感信息的聯(lián)系,減少攻擊者通過敏感信息的分布信息進(jìn)行屬性泄露攻擊的可能性。不過同時(shí)也肯定導(dǎo)致了一定程度的信息丟失,所以管理者通過T值的大小平衡數(shù)據(jù)可用性與用戶隱私保護(hù)。算法用例2.2.5.1原始數(shù)據(jù)我們以用采用戶數(shù)據(jù)為例:ORG_NO(單位代碼)CONS_NO(戶號(hào))CONS_NAME(戶名)ELEC_ADDR(用電地址)ELEC_TYPE_CODE(用電類型)LINE_IDT

14、RADE_CODEVOLT_CODECONTRACT_CAP浙江長(zhǎng)興縣供電公司浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)塔上行政村張家灣自然村4024710AC00101315浙江奇碟汽車零部件有限公司浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)五里渡行政村五里渡新村自然村1003720AC001011880華能長(zhǎng)興光伏發(fā)電有限責(zé)任公司浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)三里亭行政村亭子頭自然村杰夫廠區(qū)1001710AC001021240長(zhǎng)興縣泗安鎮(zhèn)錢莊村村民委員會(huì)浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)錢莊行政村劉小灣自然村1001540AC0010180長(zhǎng)興縣泗安鎮(zhèn)錢莊村村民委員會(huì)浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)錢莊行政村劉小灣自然村4032540AC00102

15、80浙江物產(chǎn)汽車安全科技有限公司浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)趙村村行政村趙村廟自然村1001610AC00102630華能長(zhǎng)興光伏發(fā)電有限責(zé)任公司浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)三里亭村行政村亭子頭自然村4024410AC001012500長(zhǎng)興泗安嚴(yán)義明蔬菜種植園浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)塔上村行政村塔上大灣自然村4032500AC0010180浙江長(zhǎng)興縣供電公司浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)塔上行政村張家灣自然村4024710AC001013152.2.5.2 K-Anonymity( k=2 )ORG_NOCONS_NOELEC_ADDRELEC_TYPE_CODELINE_IDTRADE_CODEVOLT_

16、CODECONTRACT_CAP35201*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)4024000AC0010131535201*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)4024000AC00101250035200*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)1003000AC00101188035200*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)1003000AC001018035200*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)4032000AC001028035200*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)4032000AC001028035201*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)1001000AC00102124035201*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)1001000AC001026302.2.

17、5.3 L-Diversity( L=2 )ORG_NOCONS_NOELEC_ADDRELEC_TYPE_CODELINE_IDTRADE_CODEVOLT_CODECONTRACT_CAP35201*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)4024000AC0010131535201*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)4024000AC00101250035200*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)1003000AC00101188035200*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)1003000AC001018035200*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)4032000AC001028035200*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)4032000AC00

18、1028035200*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)4032000AC0010212035201*浙江省湖州市長(zhǎng)興縣泗安鎮(zhèn)1001000AC001021240脫敏規(guī)則脫敏規(guī)則,一般的脫敏規(guī)則分類為可恢復(fù)與不可恢復(fù)兩類??苫謴?fù)類,指脫敏后的數(shù)據(jù)可以通過一定的方式,可以恢復(fù)成原來的敏感數(shù)據(jù),此類脫敏規(guī)則主要指各類加解密算法規(guī)則。不可恢復(fù)類,指脫敏后的數(shù)據(jù)被脫敏的部分使用任何方式都不能恢復(fù)出。一般可分為替換算法和生成算法兩大類。替換算法即將需要脫敏的部分使用定義好的字符或字符串替換,生成類算法則更復(fù)雜一些,要求脫敏后的數(shù)據(jù)符合邏輯規(guī)則,即是“看起來很真實(shí)的假數(shù)據(jù)”。常用的脫敏規(guī)則主要有:編號(hào)名稱描述示例1

19、Hiding(隱匿)將數(shù)據(jù)替換成一個(gè)常量,常用作不需要該敏感字段時(shí)500 - 0630 - 02Hashing(hash映射)將數(shù)據(jù)映射為一個(gè)hash值(不一定是一一映射),常用作將不定長(zhǎng)數(shù)據(jù)應(yīng)設(shè)成定長(zhǎng)的hash值Jim,Green - Tom,Cluz -3Permutation(唯一值映射)將數(shù)據(jù)映射為唯一值,允許根據(jù)映射值找回原始值,支持正確的聚合或連接操作Smith - ClemetzJones - Spefde4Shift(偏移)將數(shù)量值增加一個(gè)固定的偏移量,隱藏?cái)?shù)值部分特征253 - 1253254 - 12545Enumeration(排序映射)將數(shù)據(jù)映射為新值,同時(shí)保持?jǐn)?shù)據(jù)順序

20、500 - 25000400 -200006Truncation(截?cái)啵?shù)據(jù)尾部階段,只保留前半部分021-021010-0107Prefix-preserving(局部混淆)保持IP前n位不變,混淆其余部分10.199.90.105-10.199.32.1210.199.90.106-10.199.56.1928Mask(掩碼)數(shù)據(jù)長(zhǎng)度不變,但只保留部分?jǐn)?shù)據(jù)信息 - 23423 - 145349Floor(偏移取整)數(shù)據(jù)或是日期取整28-20 12:30:45 - 12:00:00脫敏環(huán)境數(shù)據(jù)脫敏的環(huán)境一般按照生產(chǎn)環(huán)境和非生產(chǎn)環(huán)境(開發(fā)、測(cè)試、外包、數(shù)據(jù)分析等)進(jìn)行劃分,根據(jù)數(shù)據(jù)脫敏產(chǎn)品應(yīng)

21、用場(chǎng)景的將數(shù)據(jù)脫敏劃分為靜態(tài)數(shù)據(jù)脫敏(static data masking)和動(dòng)態(tài)數(shù)據(jù)脫敏(dynamic data masking),靜態(tài)數(shù)據(jù)脫敏(SDM)與動(dòng)態(tài)數(shù)據(jù)脫敏(DDM)主要的區(qū)別是:是否在使用敏感數(shù)據(jù)當(dāng)時(shí)進(jìn)行脫敏。靜態(tài)數(shù)據(jù)脫敏(SDM)一般用在非生產(chǎn)環(huán)境,在敏感數(shù)據(jù)從生產(chǎn)環(huán)境脫敏完畢之后再在非生產(chǎn)環(huán)境使用,一般用于解決測(cè)試、開發(fā)庫(kù)需要生產(chǎn)庫(kù)的數(shù)據(jù)量與數(shù)據(jù)間的關(guān)聯(lián),以排查問題或進(jìn)行數(shù)據(jù)分析等,但又不能將敏感數(shù)據(jù)存儲(chǔ)于非生產(chǎn)環(huán)境的問題。動(dòng)態(tài)數(shù)據(jù)脫敏(DDM)一般用在生產(chǎn)環(huán)境,在訪問敏感數(shù)據(jù)當(dāng)時(shí)進(jìn)行脫敏,一般用來解決在生產(chǎn)環(huán)境需要根據(jù)不同情況對(duì)同一敏感數(shù)據(jù)讀取時(shí)需要進(jìn)行不同級(jí)別脫敏的

22、問題。數(shù)據(jù)脫敏方式 按照數(shù)據(jù)處理方式的不同,可以將數(shù)據(jù)脫敏分為靜態(tài)數(shù)據(jù)脫敏和動(dòng)態(tài)數(shù)據(jù)脫敏兩大類。靜態(tài)數(shù)據(jù)脫敏靜態(tài)數(shù)據(jù)脫敏指將數(shù)據(jù)文件進(jìn)行去敏感、去隱私化的處理同時(shí)保證數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。外發(fā)給第三方公司進(jìn)行開發(fā)測(cè)試或是數(shù)據(jù)分析。得到的分析結(jié)果后能夠?qū)⒎治龀龅臄?shù)據(jù)進(jìn)行回溯。該脫敏方式適用于項(xiàng)目開發(fā)單位需要獲取完整的數(shù)據(jù)才能保證數(shù)據(jù)分析工作的順利完成,對(duì)于數(shù)據(jù)提供方,又不希望敏感數(shù)據(jù)泄漏出去,在這種情況下,就需要對(duì)數(shù)據(jù)進(jìn)行可回溯的脫敏方式,保證發(fā)送出去的數(shù)據(jù)不包含敏感信息,當(dāng)項(xiàng)目開發(fā)單位開發(fā)完成后,將分析系統(tǒng)或結(jié)果數(shù)據(jù)回溯成真實(shí)的結(jié)果數(shù)據(jù)。這樣既保證了開發(fā)過程中的數(shù)據(jù)共享和結(jié)果一致性,又保證了真實(shí)

23、數(shù)據(jù)不會(huì)在開發(fā)過程中泄漏。靜態(tài)數(shù)據(jù)的脫敏非常適合數(shù)據(jù)擁有者在和多個(gè)外部開發(fā)團(tuán)隊(duì)的數(shù)據(jù)融合和數(shù)據(jù)共享中使用,保證開發(fā)、測(cè)試環(huán)節(jié)不會(huì)泄漏數(shù)據(jù)。動(dòng)態(tài)數(shù)據(jù)脫敏動(dòng)態(tài)數(shù)據(jù)脫敏指用戶在前端應(yīng)用處調(diào)取后臺(tái)數(shù)據(jù)庫(kù)中敏感數(shù)據(jù)時(shí),進(jìn)行數(shù)據(jù)脫敏,再反饋至前臺(tái)呈現(xiàn)??稍谕ㄓ崒用嫔?,通過代理部署方式,對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中敏感數(shù)據(jù)進(jìn)行透明的、實(shí)時(shí)的脫敏。通常依據(jù)用戶的角色、職責(zé)和其他IT 定義身份特征,動(dòng)態(tài)的對(duì)生產(chǎn)數(shù)據(jù)庫(kù)返回的數(shù)據(jù)進(jìn)行專門的屏蔽、加密、隱藏和審計(jì),可確保不同級(jí)別的用戶按照其身份特征恰如其分的訪問敏感數(shù)據(jù),并且不需要對(duì)生產(chǎn)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行任何改變。動(dòng)態(tài)數(shù)據(jù)脫敏同樣支持同義替換、部分遮蔽、混合脫敏、確定性脫敏及

24、可逆脫敏,通??筛鶕?jù)不同用戶身份特征,指定對(duì)應(yīng)的數(shù)據(jù)脫敏算法。通過動(dòng)態(tài)脫敏功能,能夠幫助國(guó)家電網(wǎng)公司快速、低風(fēng)險(xiǎn)、平穩(wěn)的提供生產(chǎn)數(shù)據(jù)庫(kù)的實(shí)時(shí)隱私保護(hù)。典型的應(yīng)用場(chǎng)景體現(xiàn)在:1:保護(hù)生產(chǎn)環(huán)境對(duì)于國(guó)家電網(wǎng)大型復(fù)雜系統(tǒng)環(huán)境下,為了給客戶提供高水平的服務(wù),有時(shí)意味著開發(fā)人員、數(shù)據(jù)庫(kù)管理員、設(shè)計(jì)人員、專業(yè)顧問和其他系統(tǒng)需要不受限制的訪問生產(chǎn)數(shù)據(jù),以便迅速解決重大問題和快速響應(yīng)。由此造成了對(duì)客戶信息、電話、地址等隱私信息的違規(guī)訪問途徑。動(dòng)態(tài)數(shù)據(jù)脫敏可以有效解決這一風(fēng)險(xiǎn),并且不會(huì)喪失快速響應(yīng)的能力。2:降低外包風(fēng)險(xiǎn)對(duì)于大型復(fù)雜系統(tǒng),往往依賴大量的外包IT人員和開發(fā)單位來開展和維護(hù)業(yè)務(wù),這些外包人員能夠通過應(yīng)

25、用程序,報(bào)表和開發(fā)、運(yùn)維工具訪問生產(chǎn)數(shù)據(jù),這意味著隱私數(shù)據(jù)完全暴露在不可控的環(huán)境中;動(dòng)態(tài)數(shù)據(jù)脫敏可以對(duì)不同用戶和應(yīng)用的訪問進(jìn)行實(shí)時(shí)的隱私數(shù)據(jù)屏蔽,幫助國(guó)家電網(wǎng)有效保護(hù)重要數(shù)據(jù)資產(chǎn)的訪問。3:保護(hù)通用帳戶風(fēng)險(xiǎn)數(shù)據(jù)庫(kù)維護(hù)人員常常會(huì)使用強(qiáng)度很弱的通用密碼,便于開發(fā)人員和DBA訪問和監(jiān)控生產(chǎn)數(shù)據(jù)庫(kù),便利的同時(shí)也為獲取關(guān)鍵隱私數(shù)據(jù)開了方便之門。通過提供過敏后的數(shù)據(jù)掩碼,一方面可以防止來自非生產(chǎn)環(huán)境的登錄,并且可以根據(jù)規(guī)則向不同的登錄用戶和系統(tǒng)提供經(jīng)過脫敏的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)脫敏技術(shù)大數(shù)據(jù)平臺(tái)通過將所有數(shù)據(jù)整合起來,充分分析與挖掘數(shù)據(jù)的內(nèi)在價(jià)值,為業(yè)務(wù)部門提供數(shù)據(jù)平臺(tái),數(shù)據(jù)產(chǎn)品與數(shù)據(jù)服務(wù)。大數(shù)據(jù)平臺(tái)接入的

26、數(shù)據(jù)中可能包括很多用戶的隱私和敏感信息,如用電記錄、用電用戶支付信息、國(guó)家機(jī)密信息等,這些數(shù)據(jù)存在可能泄漏的風(fēng)險(xiǎn)。大數(shù)據(jù)平臺(tái)一般通過用戶認(rèn)證,權(quán)限管理以及數(shù)據(jù)加密等技術(shù)保證數(shù)據(jù)的安全,但是這并不能完全從技術(shù)上保證數(shù)據(jù)的安全。嚴(yán)格的來說,任何有權(quán)限訪問用戶數(shù)據(jù)的人員,如ETL工程師或是數(shù)據(jù)分析人員等,均有可能導(dǎo)致數(shù)據(jù)泄漏的風(fēng)險(xiǎn)。另一方面,沒有訪問用戶數(shù)據(jù)權(quán)限的人員,也可能有對(duì)該數(shù)據(jù)進(jìn)行分析挖掘的需求,數(shù)據(jù)的訪問約束大大限制的充分挖掘數(shù)據(jù)價(jià)值的范圍。數(shù)據(jù)脫敏通過對(duì)數(shù)據(jù)進(jìn)行脫敏,在保證數(shù)據(jù)可用性的同時(shí),也在一定范圍內(nèi)保證惡意攻擊者無法將數(shù)據(jù)與具體用戶關(guān)聯(lián)到一起,從而保證用戶數(shù)據(jù)的隱私性。數(shù)據(jù)脫敏方案

27、作為大數(shù)據(jù)平臺(tái)整體數(shù)據(jù)安全解決方案的重要組成部分,是構(gòu)建安全可靠的大數(shù)據(jù)平臺(tái)必不可少的功能特性。用戶隱私數(shù)據(jù)保護(hù)與挖掘用戶數(shù)據(jù)價(jià)值是兩個(gè)互相沖突的矛盾體,徹底的數(shù)據(jù)脫敏,需要抹去全部的用戶標(biāo)識(shí)信息,使得數(shù)據(jù)潛在的分析價(jià)值大大降低。另一方面,完全保留用戶隱私數(shù)據(jù)信息,可最大化數(shù)據(jù)的分析價(jià)值,同時(shí)導(dǎo)致用戶隱私泄露的風(fēng)險(xiǎn)無法控制。因此大數(shù)據(jù)脫敏平臺(tái)的設(shè)計(jì)目標(biāo)并不是實(shí)現(xiàn)工具算法用來完全抹去全部的用戶標(biāo)識(shí)信息,而是包括如下幾個(gè)目標(biāo):數(shù)據(jù)泄露風(fēng)險(xiǎn)可控。首先,實(shí)現(xiàn)基于大數(shù)據(jù)平臺(tái)的脫敏算法庫(kù),可并行,高效的按照脫敏規(guī)則對(duì)隱私數(shù)據(jù)進(jìn)行脫敏。其次,基于數(shù)據(jù)脫敏的理論基礎(chǔ),建立用戶隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)的衡量模型,可定性

28、定量的準(zhǔn)確衡量數(shù)據(jù)可能發(fā)生泄露的風(fēng)險(xiǎn)??晒芾?。結(jié)合大數(shù)據(jù)平臺(tái)的用戶認(rèn)證體系,權(quán)限管理體系,以及隱私數(shù)據(jù)不同保護(hù)級(jí)別的權(quán)限管理體系,實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪問機(jī)制。結(jié)合公司制度,規(guī)范,法務(wù)等管理,實(shí)現(xiàn)在盡可能保護(hù)用戶隱私數(shù)據(jù),減少數(shù)據(jù)泄露風(fēng)險(xiǎn)的前提下,最大化保留數(shù)據(jù)分析挖掘的價(jià)值??蓪徲?jì)。對(duì)數(shù)據(jù)的訪問要保證可回溯,可審計(jì),當(dāng)發(fā)生數(shù)據(jù)泄露時(shí),要保證能夠通過審計(jì)日志找到對(duì)應(yīng)的泄露人員。大數(shù)據(jù)平臺(tái)的數(shù)據(jù)來源比較廣泛,根據(jù)現(xiàn)在流行的數(shù)據(jù)采集技術(shù),可以分為流式數(shù)據(jù)和批量數(shù)據(jù)兩種。流式數(shù)據(jù)脫密流式數(shù)據(jù)是指不斷產(chǎn)生、實(shí)時(shí)計(jì)算、動(dòng)態(tài)增加且要求及時(shí)響應(yīng)的數(shù)據(jù),它具有海量和實(shí)時(shí)性等特點(diǎn),一般將實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的數(shù)據(jù)處理技術(shù)歸為流式數(shù)據(jù)處理技術(shù)。包括:Apache Storm、等。基于Storm的流式數(shù)據(jù)脫敏是一個(gè)分布式的,可靠的,容錯(cuò)的數(shù)據(jù)流處理系統(tǒng)。Storm集群的輸入流由一個(gè)被稱作spout的組件管理,spout把數(shù)據(jù)傳遞給bolt,bolt要么把數(shù)據(jù)保存到某種存儲(chǔ)器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論