




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)大數(shù)據(jù)脫敏方案 2017-1-15更改履歷版本號修改編號更改時間更改的圖表和章節(jié)號更改簡要描述更改人批準(zhǔn)人目錄 TOC o 1-3 h z u 概述編寫目的本文檔描述了數(shù)據(jù)脫敏的研究成果和方法論。旨在為具有數(shù)據(jù)脫敏需求的開發(fā)人員和項(xiàng)目提供參考和借鑒。數(shù)據(jù)脫敏的定義敏感數(shù)據(jù)一般指不當(dāng)使用或未經(jīng)授權(quán)被人接觸或修改會不利于國家利益或不利于個人依法享有的個人隱私權(quán)的所有信息。工業(yè)和信息化部編制的信息安全技術(shù) 公共及商用服務(wù)信息系統(tǒng)個人信息保護(hù)指南明確要求,處理個人信息應(yīng)當(dāng)具有特
2、定、明確和合理的目的,應(yīng)當(dāng)在個人信息主體知情的情況下獲得個人信息主體的同意,應(yīng)當(dāng)在達(dá)成個人信息使用目的之后刪除個人信息。這項(xiàng)標(biāo)準(zhǔn)最顯著的特點(diǎn)是將個人信息分為個人一般信息和個人,并提出了默許同意和明示同意的概念。對于個人一般信息的處理可以建立在默許同意的基礎(chǔ)上,只要個人信息主體沒有明確表示反對,便可收集和利用。但對于個人敏感信息,則需要建立在明示同意的基礎(chǔ)上,在收集和利用之前,必須首先獲得個人信息主體明確的授權(quán)。這項(xiàng)標(biāo)準(zhǔn)還正式提出了處理個人信息時應(yīng)當(dāng)遵循的八項(xiàng)基本原則,即目的明確、最少夠用、公開告知、個人同意、質(zhì)量保證、安全保障、誠信履行和責(zé)任明確,劃分了收集、加工、轉(zhuǎn)移、刪除四個環(huán)節(jié),并針對每
3、一個環(huán)節(jié)提出了落實(shí)八項(xiàng)基本原則的具體要求。數(shù)據(jù)脫敏(Data Masking),又稱數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形。百度百科對數(shù)據(jù)脫敏的定義為:指對某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù) 的可靠保護(hù)。這樣,就可以在開發(fā)、測試和其它非生產(chǎn)環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實(shí)數(shù)據(jù)集。敏感數(shù)據(jù),又稱隱私數(shù)據(jù),常見的敏感數(shù)據(jù)有: 姓名、身份證號碼、地址、電話號碼、銀行賬號、郵箱地址、所屬城市、郵編、密碼類 ( 如賬戶查詢密碼、取款密碼、登錄密碼等 )、組織機(jī)構(gòu)名稱、營業(yè)執(zhí)照號碼、銀行帳號、交易日期、交易金額等。隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)商業(yè)價值的挖掘,用戶的精準(zhǔn)定位,大數(shù)據(jù)中
4、蘊(yùn)藏的巨大商業(yè)價值被逐步挖掘出來,但是同時也帶來了巨大的挑戰(zhàn)個人隱私信息 的保護(hù)。個人信息與個人行為(比如位置信息、消費(fèi)行為、網(wǎng)絡(luò)訪問行為)等,這些都是人的隱私,也是我們所關(guān)注的一類敏感信息,在大數(shù)據(jù)價值挖掘的基礎(chǔ)上如 何保護(hù)人的隱私信息,也將是數(shù)據(jù)脫敏必須解決的難題。數(shù)據(jù)脫敏需求隨著國家電網(wǎng)數(shù)據(jù)應(yīng)用的不斷深入,有許多應(yīng)用需要和外部系統(tǒng)對接,數(shù)據(jù)需要對外提供服務(wù)才能體現(xiàn)出它的價值,大數(shù)據(jù)時代是數(shù)據(jù)融合的時代,如何在數(shù)據(jù)融合的過程中,保證數(shù)據(jù)在開發(fā)、測試、生產(chǎn)、應(yīng)用等各個環(huán)節(jié)的安全,成為信息安全部門的重要任務(wù)。國家電網(wǎng)數(shù)據(jù)脫敏需求包括:通過數(shù)據(jù)抽取、數(shù)據(jù)漂白、數(shù)據(jù)混淆等處理過程,用來滿足測試、開
5、發(fā)、培訓(xùn)、數(shù)據(jù)共享和數(shù)據(jù)融合場景下的敏感數(shù)據(jù)保護(hù)需求,并使得數(shù)據(jù)處理過程滿足國家電網(wǎng)的敏感數(shù)據(jù)防護(hù)的政策規(guī)定。具體脫敏需求包括:防止生產(chǎn)庫中的敏感數(shù)據(jù)泄漏通過對生產(chǎn)庫中的身份、地址、用戶卡號、手機(jī)號等敏感信息進(jìn)行混淆、打亂后再提供給第三方使用,防止生產(chǎn)庫中的敏感數(shù)據(jù)泄漏。保證測試、開發(fā)、應(yīng)用階段的數(shù)據(jù)關(guān)聯(lián)性 通過脫敏策略和算法,保證脫敏數(shù)據(jù)有效性(保持原有數(shù)據(jù)類型和業(yè)務(wù)格式不變)、完整性(保證長度不變、數(shù)據(jù)含義不丟失)、關(guān)系性(保持表間、表內(nèi)數(shù)據(jù)關(guān)聯(lián)關(guān)系)。以提升測試、開發(fā)、應(yīng)用環(huán)節(jié)的數(shù)據(jù)真實(shí)性和可用性。保證數(shù)據(jù)維護(hù)和數(shù)據(jù)共享的安全 對數(shù)據(jù)庫訪問者的用戶名、IP、工具類型、時間等進(jìn)行監(jiān)控,控制
6、數(shù)據(jù)訪問結(jié)果的差異化,數(shù)據(jù)結(jié)果可以劃分為真實(shí)數(shù)據(jù)、掩碼數(shù)據(jù)、數(shù)據(jù)阻斷、行限定數(shù)據(jù)等,通過訪問者的不同訪問策略,滿足細(xì)粒度的數(shù)據(jù)訪問需求。例如DBA可維護(hù)但無法查看敏感數(shù)據(jù)、業(yè)務(wù)系統(tǒng)可以訪問真實(shí)數(shù)據(jù)、分析系統(tǒng)可以訪問脫敏后的數(shù)據(jù)。保證隱私數(shù)據(jù)管理的政策合規(guī)性 數(shù)據(jù)的脫敏和數(shù)據(jù)處理必須在國家電網(wǎng)的相關(guān)政策規(guī)定允許的情況下進(jìn)行,脫敏規(guī)則符合國家電網(wǎng)的數(shù)據(jù)管理要求。脫敏方案脫敏流程數(shù)據(jù)脫敏的流程一般分為:敏感數(shù)據(jù)發(fā)現(xiàn)、敏感數(shù)據(jù)梳理、脫敏方案制定、脫敏任務(wù)執(zhí)行四大步驟,結(jié)合數(shù)據(jù)脫敏算法、數(shù)據(jù)脫敏規(guī)則以及脫敏的環(huán)境來達(dá)到最佳的數(shù)據(jù)脫敏效果。敏感數(shù)據(jù)發(fā)現(xiàn)敏感數(shù)據(jù)的發(fā)現(xiàn)分為人工發(fā)現(xiàn)和自動發(fā)現(xiàn)兩種。對于國家電網(wǎng)
7、相對固定的業(yè)務(wù)數(shù)據(jù),可以采用人工甄別,明確指定那些列、那些庫的數(shù)據(jù)是需要脫敏,這些數(shù)據(jù)一般數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)長度不會有變化,大部分為數(shù)值型和固定長度的字符。比如:單位代碼、戶號、戶名、用電地址等標(biāo)識列,針對這些數(shù)據(jù)可以通過人工指定脫敏規(guī)則和不同的數(shù)據(jù)訪問策略,保證敏感信息不被泄漏。自動識別根據(jù)人工指定或預(yù)定義的敏感數(shù)據(jù)特征,借助敏感數(shù)據(jù)信息庫和分詞系統(tǒng),自動識別數(shù)據(jù)庫中包含的敏感信息,相對于人工識別可以減少工作量和防止遺漏。一般采用自動發(fā)現(xiàn)為主,結(jié)合人工發(fā)現(xiàn)和審核,來完成敏感數(shù)據(jù)的發(fā)現(xiàn)和定義,最終形成完善的敏感數(shù)據(jù)字典。敏感數(shù)據(jù)梳理在敏感數(shù)據(jù)發(fā)現(xiàn)的基礎(chǔ)上,完成敏感數(shù)據(jù)列、敏感數(shù)據(jù)關(guān)系的調(diào)整,以保證
8、數(shù)據(jù)的關(guān)聯(lián)關(guān)系。通過屏蔽、變形、替換、隨機(jī)、格式保留加密、強(qiáng)加密等數(shù)據(jù)脫敏算法,針對不同的數(shù)據(jù)類型進(jìn)行數(shù)據(jù)掩碼擾亂。脫敏方案制定對于不同的數(shù)據(jù)脫敏需求,在基礎(chǔ)脫敏算法的基礎(chǔ)上,可配置專門的脫敏策略。脫敏方案的制定主要依靠脫敏策略和脫敏算法的復(fù)用來實(shí)現(xiàn),通過配置和擴(kuò)展脫密算法以制定最優(yōu)方案。脫敏任務(wù)執(zhí)行脫敏任務(wù)的停止、啟動、暫停等操作,支持任務(wù)并行處理,支持脫敏任務(wù)的中斷續(xù)延等。脫敏算法脫敏算法特征通常根據(jù)不同數(shù)據(jù)特征選擇不同的脫敏算法,對常見數(shù)據(jù)如姓名、證件號、銀行賬戶、金額、日期、住址、電話號碼、Email 地址、車牌號、車架號、企業(yè)名稱、工商注冊號、組織機(jī)構(gòu)代碼、納稅人識別號等敏感數(shù)據(jù)進(jìn)行
9、脫敏,脫敏算法通常包括屏蔽、變形、替換、隨機(jī)、格式保留加密(FPE)和強(qiáng)加密算法(如AES )。脫敏算法具有如下特性:同義替換使用相同含義的數(shù)據(jù)替換原有的敏感數(shù)據(jù),如姓名脫敏后仍然為有意義的姓名,住址脫敏后仍然為住址。部分?jǐn)?shù)據(jù)遮蔽將原數(shù)據(jù)中部分或全部內(nèi)容,用“*”或“# ”等字符進(jìn)行替換,遮蓋部分或全部原文?;旌掀帘螌⑾嚓P(guān)的列作為一個組進(jìn)行屏蔽,以保證這些相關(guān)列中被屏蔽的數(shù)據(jù)保持同樣的關(guān)系,例如,城市、省、郵編在屏蔽后保持一致。確定性屏蔽確保在運(yùn)行屏蔽后生成可重復(fù)的屏蔽值??纱_保特定的值(如,客戶號、身份證號碼、銀行卡號)在所有數(shù)據(jù)庫中屏蔽為同一個值。可逆脫敏確保脫敏后的數(shù)據(jù)可還原,便于將第三
10、方分析機(jī)構(gòu)和內(nèi)部分析團(tuán)隊(duì)基于脫敏后數(shù)據(jù)上的分析的結(jié)果還原為業(yè)務(wù)數(shù)據(jù)。K-Anonymity (K-匿名)算法描述: 要求對于任意一行記錄,其所屬的相等集內(nèi)記錄數(shù)量不小于k,即至少有k-1條記錄半標(biāo)識列屬性值與該條記錄相同。 理論上來說,對于 K-Anonymity 數(shù)據(jù)集,對于任意記錄,攻擊者只有 1/k 的概率將該記錄與具體用戶關(guān)聯(lián)。算法步驟:先移除標(biāo)識列泛化半標(biāo)識列算法優(yōu)缺點(diǎn):優(yōu)點(diǎn):可以用于保護(hù)個人標(biāo)識泄漏的風(fēng)險。缺點(diǎn):容易受到鏈接式攻擊,無法保護(hù)屬性泄露的風(fēng)險。對于 K-Anonymity 的數(shù)據(jù)集,攻擊者可能通過 同質(zhì)屬性攻擊 與 背景知識攻擊 兩種方式攻擊用戶的屬性信息。對移除標(biāo)識列
11、的數(shù)據(jù)根據(jù)半標(biāo)識列進(jìn)行分組,每組最少有 k 條記錄,每組中至少有 k-1 條記錄的半標(biāo)識列的值與該記錄相同。L-Diversity算法描述:如果對于任意相等集內(nèi)所有記錄對應(yīng)的敏感數(shù)據(jù)的集合,包含 L 個 “合適” 值,則稱該相等集是滿足 L-Deversity 。如果數(shù)據(jù)集中所有相等集都滿足 L-Deversity , 則稱該數(shù)據(jù)集滿足 L-Deversity。相對于K-Anonymity 標(biāo)準(zhǔn),符合L-Deversity 標(biāo)準(zhǔn)的數(shù)據(jù)集顯著降低了屬性數(shù)據(jù)泄漏的風(fēng)險。對于滿足L-Derversity 的數(shù)據(jù)集,理論上,攻擊者最多只有 1/L 的概率能夠?qū)傩孕孤豆簦瑢⑻囟ㄓ脩襞c其敏感信息關(guān)聯(lián)起來
12、。通過插入干擾數(shù)據(jù)構(gòu)造符合 L-Diversity 的數(shù)據(jù)集。在K-Anonymity的基礎(chǔ)上,每個數(shù)據(jù)集中,其敏感信息列有 L 個不同的值,攻擊者只有 1/L 的幾率獲得正確的敏感信息。T-Closeness算法描述:L-Diversity 是通過約束 P 的 diversity 屬性,盡量減少B0 和B2之間的信息量差距,差距越小,說明隱私信息泄漏越少。T-Closeness 約束則期望減少B1 和 B2 之間的信息量差距,減少攻擊者從敏感數(shù)據(jù)的全局分布信息和相等集分布信息之間得到更多的個人隱私信息。如果一個相等類的敏感數(shù)據(jù)的分布與敏感數(shù)據(jù)的全局分布之間的距離小于T,則稱該相等類滿足 T-
13、Closeness約束。如果數(shù)據(jù)集中的所有相等類都滿足 T-Closeness,則稱該數(shù)據(jù)集滿足T-Closeness.T-Closeness約束限定了半標(biāo)識列屬性與敏感信息的全局分布之間的聯(lián)系,減弱了半標(biāo)識列屬性與特定敏感信息的聯(lián)系,減少攻擊者通過敏感信息的分布信息進(jìn)行屬性泄露攻擊的可能性。不過同時也肯定導(dǎo)致了一定程度的信息丟失,所以管理者通過T值的大小平衡數(shù)據(jù)可用性與用戶隱私保護(hù)。算法用例2.2.5.1原始數(shù)據(jù)我們以用采用戶數(shù)據(jù)為例:ORG_NO(單位代碼)CONS_NO(戶號)CONS_NAME(戶名)ELEC_ADDR(用電地址)ELEC_TYPE_CODE(用電類型)LINE_IDT
14、RADE_CODEVOLT_CODECONTRACT_CAP浙江長興縣供電公司浙江省湖州市長興縣泗安鎮(zhèn)塔上行政村張家灣自然村4024710AC00101315浙江奇碟汽車零部件有限公司浙江省湖州市長興縣泗安鎮(zhèn)五里渡行政村五里渡新村自然村1003720AC001011880華能長興光伏發(fā)電有限責(zé)任公司浙江省湖州市長興縣泗安鎮(zhèn)三里亭行政村亭子頭自然村杰夫廠區(qū)1001710AC001021240長興縣泗安鎮(zhèn)錢莊村村民委員會浙江省湖州市長興縣泗安鎮(zhèn)錢莊行政村劉小灣自然村1001540AC0010180長興縣泗安鎮(zhèn)錢莊村村民委員會浙江省湖州市長興縣泗安鎮(zhèn)錢莊行政村劉小灣自然村4032540AC00102
15、80浙江物產(chǎn)汽車安全科技有限公司浙江省湖州市長興縣泗安鎮(zhèn)趙村村行政村趙村廟自然村1001610AC00102630華能長興光伏發(fā)電有限責(zé)任公司浙江省湖州市長興縣泗安鎮(zhèn)三里亭村行政村亭子頭自然村4024410AC001012500長興泗安嚴(yán)義明蔬菜種植園浙江省湖州市長興縣泗安鎮(zhèn)塔上村行政村塔上大灣自然村4032500AC0010180浙江長興縣供電公司浙江省湖州市長興縣泗安鎮(zhèn)塔上行政村張家灣自然村4024710AC001013152.2.5.2 K-Anonymity( k=2 )ORG_NOCONS_NOELEC_ADDRELEC_TYPE_CODELINE_IDTRADE_CODEVOLT_
16、CODECONTRACT_CAP35201*浙江省湖州市長興縣泗安鎮(zhèn)4024000AC0010131535201*浙江省湖州市長興縣泗安鎮(zhèn)4024000AC00101250035200*浙江省湖州市長興縣泗安鎮(zhèn)1003000AC00101188035200*浙江省湖州市長興縣泗安鎮(zhèn)1003000AC001018035200*浙江省湖州市長興縣泗安鎮(zhèn)4032000AC001028035200*浙江省湖州市長興縣泗安鎮(zhèn)4032000AC001028035201*浙江省湖州市長興縣泗安鎮(zhèn)1001000AC00102124035201*浙江省湖州市長興縣泗安鎮(zhèn)1001000AC001026302.2.
17、5.3 L-Diversity( L=2 )ORG_NOCONS_NOELEC_ADDRELEC_TYPE_CODELINE_IDTRADE_CODEVOLT_CODECONTRACT_CAP35201*浙江省湖州市長興縣泗安鎮(zhèn)4024000AC0010131535201*浙江省湖州市長興縣泗安鎮(zhèn)4024000AC00101250035200*浙江省湖州市長興縣泗安鎮(zhèn)1003000AC00101188035200*浙江省湖州市長興縣泗安鎮(zhèn)1003000AC001018035200*浙江省湖州市長興縣泗安鎮(zhèn)4032000AC001028035200*浙江省湖州市長興縣泗安鎮(zhèn)4032000AC00
18、1028035200*浙江省湖州市長興縣泗安鎮(zhèn)4032000AC0010212035201*浙江省湖州市長興縣泗安鎮(zhèn)1001000AC001021240脫敏規(guī)則脫敏規(guī)則,一般的脫敏規(guī)則分類為可恢復(fù)與不可恢復(fù)兩類??苫謴?fù)類,指脫敏后的數(shù)據(jù)可以通過一定的方式,可以恢復(fù)成原來的敏感數(shù)據(jù),此類脫敏規(guī)則主要指各類加解密算法規(guī)則。不可恢復(fù)類,指脫敏后的數(shù)據(jù)被脫敏的部分使用任何方式都不能恢復(fù)出。一般可分為替換算法和生成算法兩大類。替換算法即將需要脫敏的部分使用定義好的字符或字符串替換,生成類算法則更復(fù)雜一些,要求脫敏后的數(shù)據(jù)符合邏輯規(guī)則,即是“看起來很真實(shí)的假數(shù)據(jù)”。常用的脫敏規(guī)則主要有:編號名稱描述示例1
19、Hiding(隱匿)將數(shù)據(jù)替換成一個常量,常用作不需要該敏感字段時500 - 0630 - 02Hashing(hash映射)將數(shù)據(jù)映射為一個hash值(不一定是一一映射),常用作將不定長數(shù)據(jù)應(yīng)設(shè)成定長的hash值Jim,Green - Tom,Cluz -3Permutation(唯一值映射)將數(shù)據(jù)映射為唯一值,允許根據(jù)映射值找回原始值,支持正確的聚合或連接操作Smith - ClemetzJones - Spefde4Shift(偏移)將數(shù)量值增加一個固定的偏移量,隱藏數(shù)值部分特征253 - 1253254 - 12545Enumeration(排序映射)將數(shù)據(jù)映射為新值,同時保持?jǐn)?shù)據(jù)順序
20、500 - 25000400 -200006Truncation(截斷)將數(shù)據(jù)尾部階段,只保留前半部分021-021010-0107Prefix-preserving(局部混淆)保持IP前n位不變,混淆其余部分10.199.90.105-10.199.32.1210.199.90.106-10.199.56.1928Mask(掩碼)數(shù)據(jù)長度不變,但只保留部分?jǐn)?shù)據(jù)信息 - 23423 - 145349Floor(偏移取整)數(shù)據(jù)或是日期取整28-20 12:30:45 - 12:00:00脫敏環(huán)境數(shù)據(jù)脫敏的環(huán)境一般按照生產(chǎn)環(huán)境和非生產(chǎn)環(huán)境(開發(fā)、測試、外包、數(shù)據(jù)分析等)進(jìn)行劃分,根據(jù)數(shù)據(jù)脫敏產(chǎn)品應(yīng)
21、用場景的將數(shù)據(jù)脫敏劃分為靜態(tài)數(shù)據(jù)脫敏(static data masking)和動態(tài)數(shù)據(jù)脫敏(dynamic data masking),靜態(tài)數(shù)據(jù)脫敏(SDM)與動態(tài)數(shù)據(jù)脫敏(DDM)主要的區(qū)別是:是否在使用敏感數(shù)據(jù)當(dāng)時進(jìn)行脫敏。靜態(tài)數(shù)據(jù)脫敏(SDM)一般用在非生產(chǎn)環(huán)境,在敏感數(shù)據(jù)從生產(chǎn)環(huán)境脫敏完畢之后再在非生產(chǎn)環(huán)境使用,一般用于解決測試、開發(fā)庫需要生產(chǎn)庫的數(shù)據(jù)量與數(shù)據(jù)間的關(guān)聯(lián),以排查問題或進(jìn)行數(shù)據(jù)分析等,但又不能將敏感數(shù)據(jù)存儲于非生產(chǎn)環(huán)境的問題。動態(tài)數(shù)據(jù)脫敏(DDM)一般用在生產(chǎn)環(huán)境,在訪問敏感數(shù)據(jù)當(dāng)時進(jìn)行脫敏,一般用來解決在生產(chǎn)環(huán)境需要根據(jù)不同情況對同一敏感數(shù)據(jù)讀取時需要進(jìn)行不同級別脫敏的
22、問題。數(shù)據(jù)脫敏方式 按照數(shù)據(jù)處理方式的不同,可以將數(shù)據(jù)脫敏分為靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏兩大類。靜態(tài)數(shù)據(jù)脫敏靜態(tài)數(shù)據(jù)脫敏指將數(shù)據(jù)文件進(jìn)行去敏感、去隱私化的處理同時保證數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。外發(fā)給第三方公司進(jìn)行開發(fā)測試或是數(shù)據(jù)分析。得到的分析結(jié)果后能夠?qū)⒎治龀龅臄?shù)據(jù)進(jìn)行回溯。該脫敏方式適用于項(xiàng)目開發(fā)單位需要獲取完整的數(shù)據(jù)才能保證數(shù)據(jù)分析工作的順利完成,對于數(shù)據(jù)提供方,又不希望敏感數(shù)據(jù)泄漏出去,在這種情況下,就需要對數(shù)據(jù)進(jìn)行可回溯的脫敏方式,保證發(fā)送出去的數(shù)據(jù)不包含敏感信息,當(dāng)項(xiàng)目開發(fā)單位開發(fā)完成后,將分析系統(tǒng)或結(jié)果數(shù)據(jù)回溯成真實(shí)的結(jié)果數(shù)據(jù)。這樣既保證了開發(fā)過程中的數(shù)據(jù)共享和結(jié)果一致性,又保證了真實(shí)
23、數(shù)據(jù)不會在開發(fā)過程中泄漏。靜態(tài)數(shù)據(jù)的脫敏非常適合數(shù)據(jù)擁有者在和多個外部開發(fā)團(tuán)隊(duì)的數(shù)據(jù)融合和數(shù)據(jù)共享中使用,保證開發(fā)、測試環(huán)節(jié)不會泄漏數(shù)據(jù)。動態(tài)數(shù)據(jù)脫敏動態(tài)數(shù)據(jù)脫敏指用戶在前端應(yīng)用處調(diào)取后臺數(shù)據(jù)庫中敏感數(shù)據(jù)時,進(jìn)行數(shù)據(jù)脫敏,再反饋至前臺呈現(xiàn)??稍谕ㄓ崒用嫔希ㄟ^代理部署方式,對業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中敏感數(shù)據(jù)進(jìn)行透明的、實(shí)時的脫敏。通常依據(jù)用戶的角色、職責(zé)和其他IT 定義身份特征,動態(tài)的對生產(chǎn)數(shù)據(jù)庫返回的數(shù)據(jù)進(jìn)行專門的屏蔽、加密、隱藏和審計,可確保不同級別的用戶按照其身份特征恰如其分的訪問敏感數(shù)據(jù),并且不需要對生產(chǎn)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行任何改變。動態(tài)數(shù)據(jù)脫敏同樣支持同義替換、部分遮蔽、混合脫敏、確定性脫敏及
24、可逆脫敏,通常可根據(jù)不同用戶身份特征,指定對應(yīng)的數(shù)據(jù)脫敏算法。通過動態(tài)脫敏功能,能夠幫助國家電網(wǎng)公司快速、低風(fēng)險、平穩(wěn)的提供生產(chǎn)數(shù)據(jù)庫的實(shí)時隱私保護(hù)。典型的應(yīng)用場景體現(xiàn)在:1:保護(hù)生產(chǎn)環(huán)境對于國家電網(wǎng)大型復(fù)雜系統(tǒng)環(huán)境下,為了給客戶提供高水平的服務(wù),有時意味著開發(fā)人員、數(shù)據(jù)庫管理員、設(shè)計人員、專業(yè)顧問和其他系統(tǒng)需要不受限制的訪問生產(chǎn)數(shù)據(jù),以便迅速解決重大問題和快速響應(yīng)。由此造成了對客戶信息、電話、地址等隱私信息的違規(guī)訪問途徑。動態(tài)數(shù)據(jù)脫敏可以有效解決這一風(fēng)險,并且不會喪失快速響應(yīng)的能力。2:降低外包風(fēng)險對于大型復(fù)雜系統(tǒng),往往依賴大量的外包IT人員和開發(fā)單位來開展和維護(hù)業(yè)務(wù),這些外包人員能夠通過應(yīng)
25、用程序,報表和開發(fā)、運(yùn)維工具訪問生產(chǎn)數(shù)據(jù),這意味著隱私數(shù)據(jù)完全暴露在不可控的環(huán)境中;動態(tài)數(shù)據(jù)脫敏可以對不同用戶和應(yīng)用的訪問進(jìn)行實(shí)時的隱私數(shù)據(jù)屏蔽,幫助國家電網(wǎng)有效保護(hù)重要數(shù)據(jù)資產(chǎn)的訪問。3:保護(hù)通用帳戶風(fēng)險數(shù)據(jù)庫維護(hù)人員常常會使用強(qiáng)度很弱的通用密碼,便于開發(fā)人員和DBA訪問和監(jiān)控生產(chǎn)數(shù)據(jù)庫,便利的同時也為獲取關(guān)鍵隱私數(shù)據(jù)開了方便之門。通過提供過敏后的數(shù)據(jù)掩碼,一方面可以防止來自非生產(chǎn)環(huán)境的登錄,并且可以根據(jù)規(guī)則向不同的登錄用戶和系統(tǒng)提供經(jīng)過脫敏的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)脫敏技術(shù)大數(shù)據(jù)平臺通過將所有數(shù)據(jù)整合起來,充分分析與挖掘數(shù)據(jù)的內(nèi)在價值,為業(yè)務(wù)部門提供數(shù)據(jù)平臺,數(shù)據(jù)產(chǎn)品與數(shù)據(jù)服務(wù)。大數(shù)據(jù)平臺接入的
26、數(shù)據(jù)中可能包括很多用戶的隱私和敏感信息,如用電記錄、用電用戶支付信息、國家機(jī)密信息等,這些數(shù)據(jù)存在可能泄漏的風(fēng)險。大數(shù)據(jù)平臺一般通過用戶認(rèn)證,權(quán)限管理以及數(shù)據(jù)加密等技術(shù)保證數(shù)據(jù)的安全,但是這并不能完全從技術(shù)上保證數(shù)據(jù)的安全。嚴(yán)格的來說,任何有權(quán)限訪問用戶數(shù)據(jù)的人員,如ETL工程師或是數(shù)據(jù)分析人員等,均有可能導(dǎo)致數(shù)據(jù)泄漏的風(fēng)險。另一方面,沒有訪問用戶數(shù)據(jù)權(quán)限的人員,也可能有對該數(shù)據(jù)進(jìn)行分析挖掘的需求,數(shù)據(jù)的訪問約束大大限制的充分挖掘數(shù)據(jù)價值的范圍。數(shù)據(jù)脫敏通過對數(shù)據(jù)進(jìn)行脫敏,在保證數(shù)據(jù)可用性的同時,也在一定范圍內(nèi)保證惡意攻擊者無法將數(shù)據(jù)與具體用戶關(guān)聯(lián)到一起,從而保證用戶數(shù)據(jù)的隱私性。數(shù)據(jù)脫敏方案
27、作為大數(shù)據(jù)平臺整體數(shù)據(jù)安全解決方案的重要組成部分,是構(gòu)建安全可靠的大數(shù)據(jù)平臺必不可少的功能特性。用戶隱私數(shù)據(jù)保護(hù)與挖掘用戶數(shù)據(jù)價值是兩個互相沖突的矛盾體,徹底的數(shù)據(jù)脫敏,需要抹去全部的用戶標(biāo)識信息,使得數(shù)據(jù)潛在的分析價值大大降低。另一方面,完全保留用戶隱私數(shù)據(jù)信息,可最大化數(shù)據(jù)的分析價值,同時導(dǎo)致用戶隱私泄露的風(fēng)險無法控制。因此大數(shù)據(jù)脫敏平臺的設(shè)計目標(biāo)并不是實(shí)現(xiàn)工具算法用來完全抹去全部的用戶標(biāo)識信息,而是包括如下幾個目標(biāo):數(shù)據(jù)泄露風(fēng)險可控。首先,實(shí)現(xiàn)基于大數(shù)據(jù)平臺的脫敏算法庫,可并行,高效的按照脫敏規(guī)則對隱私數(shù)據(jù)進(jìn)行脫敏。其次,基于數(shù)據(jù)脫敏的理論基礎(chǔ),建立用戶隱私數(shù)據(jù)泄露風(fēng)險的衡量模型,可定性
28、定量的準(zhǔn)確衡量數(shù)據(jù)可能發(fā)生泄露的風(fēng)險??晒芾怼=Y(jié)合大數(shù)據(jù)平臺的用戶認(rèn)證體系,權(quán)限管理體系,以及隱私數(shù)據(jù)不同保護(hù)級別的權(quán)限管理體系,實(shí)現(xiàn)對隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪問機(jī)制。結(jié)合公司制度,規(guī)范,法務(wù)等管理,實(shí)現(xiàn)在盡可能保護(hù)用戶隱私數(shù)據(jù),減少數(shù)據(jù)泄露風(fēng)險的前提下,最大化保留數(shù)據(jù)分析挖掘的價值??蓪徲嫛?shù)據(jù)的訪問要保證可回溯,可審計,當(dāng)發(fā)生數(shù)據(jù)泄露時,要保證能夠通過審計日志找到對應(yīng)的泄露人員。大數(shù)據(jù)平臺的數(shù)據(jù)來源比較廣泛,根據(jù)現(xiàn)在流行的數(shù)據(jù)采集技術(shù),可以分為流式數(shù)據(jù)和批量數(shù)據(jù)兩種。流式數(shù)據(jù)脫密流式數(shù)據(jù)是指不斷產(chǎn)生、實(shí)時計算、動態(tài)增加且要求及時響應(yīng)的數(shù)據(jù),它具有海量和實(shí)時性等特點(diǎn),一般將實(shí)時或準(zhǔn)實(shí)時的數(shù)據(jù)處理技術(shù)歸為流式數(shù)據(jù)處理技術(shù)。包括:Apache Storm、等?;赟torm的流式數(shù)據(jù)脫敏是一個分布式的,可靠的,容錯的數(shù)據(jù)流處理系統(tǒng)。Storm集群的輸入流由一個被稱作spout的組件管理,spout把數(shù)據(jù)傳遞給bolt,bolt要么把數(shù)據(jù)保存到某種存儲器
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025款智能家居買賣合同模板
- 跨部門合作的溝通策略計劃
- 班級知識傳承活動的實(shí)施計劃
- 提高前臺文員協(xié)調(diào)安排能力的工作計劃
- 美術(shù)教學(xué)中的品德教育滲透計劃
- 2025電子設(shè)備試用買賣合同書參考模板
- 開展員工士氣提升活動計劃
- 運(yùn)動健身行業(yè)保安工作計劃
- 2025年貸款協(xié)議使用的借款合同范本
- 農(nóng)業(yè)綜合開發(fā)土地租賃合同
- 國際壓力性損傷-潰瘍預(yù)防和治療臨床指南(2025年版)解讀課件
- 英語-北京市朝陽區(qū)2025年高三年級第二學(xué)期質(zhì)量檢測一(朝陽一模)試題和答案
- 抖音運(yùn)營考核試題及答案
- 2025年河南醫(yī)學(xué)高等專科學(xué)校單招職業(yè)適應(yīng)性考試題庫含答案
- 公司安全事故隱患內(nèi)部舉報、報告獎勵制度
- 奎因企業(yè)文化因?qū)蛟\斷模型詳解
- 北京市森林火警、火情、火災(zāi)信息報告管理規(guī)定
- 淺談巖溶隧道設(shè)計、施工與管理
- 學(xué)校中層干部民主測評表(一)
- 焊接質(zhì)量計劃書
- 中建股份《項(xiàng)目管理手冊》印刷版
評論
0/150
提交評論