數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)_第1頁
數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)_第2頁
數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)_第3頁
數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)_第4頁
數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)清洗、去標(biāo)識化、匿名化

業(yè)務(wù)規(guī)程(試行)

中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所

北京國際大數(shù)據(jù)交易所

2023年11月

前言

為規(guī)范數(shù)據(jù)處理行為,指導(dǎo)組織正確開展數(shù)據(jù)清洗、去標(biāo)識化、

匿名化處理等業(yè)務(wù)活動及相應(yīng)的技術(shù)測試評估,支撐數(shù)據(jù)共享、交

易、開放等流通活動合規(guī)、有序進(jìn)行,激活數(shù)據(jù)要素市場,依據(jù)《個

人信息保護(hù)法》《數(shù)據(jù)安全法》,結(jié)合《北京市數(shù)字經(jīng)濟(jì)促進(jìn)條例》《北

京市數(shù)字經(jīng)濟(jì)全產(chǎn)業(yè)鏈開放發(fā)展行動方案》等法規(guī)政策要求,在北

京市經(jīng)濟(jì)和信息化局指導(dǎo)下,中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究

所、北京國際大數(shù)據(jù)交易所聯(lián)合編制本報告。

組織依據(jù)法律法規(guī)要求及相關(guān)業(yè)務(wù)場景需要,對其控制的數(shù)據(jù)

資源進(jìn)行清洗、去標(biāo)識化、匿名化處理,是為滿足數(shù)據(jù)處理目的對

原始數(shù)據(jù)逐步深入加工改造的過程,是提升數(shù)據(jù)可用性和安全性的

關(guān)鍵數(shù)據(jù)處理活動。

本報告以業(yè)務(wù)操作規(guī)程形式為組織提供數(shù)據(jù)清洗、去標(biāo)識化、

匿名化處理的流程和方法指引,可以作為組織提升自身數(shù)據(jù)質(zhì)量和

可用性的指引方法,作為數(shù)據(jù)交易中介機(jī)構(gòu)審核交易數(shù)據(jù)合規(guī)性、

安全性和可流通性的參考規(guī)則,以及作為相關(guān)認(rèn)證、檢測機(jī)構(gòu)結(jié)合

應(yīng)用場景針對相關(guān)技術(shù)進(jìn)行安全測試評估的評價工具,支持、鼓勵

數(shù)據(jù)加工、咨詢、安全、檢測、認(rèn)證等第三方數(shù)據(jù)服務(wù)機(jī)構(gòu)發(fā)展。

本報告所描述的技術(shù)方法適用于廣義的數(shù)據(jù)范疇,包括但不限

于個人數(shù)據(jù)、企業(yè)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等,但特殊數(shù)據(jù)類型需要遵守

相應(yīng)的特別管理要求。本報告所描述的數(shù)據(jù)清洗、去標(biāo)識化、匿名

化處理,是基于數(shù)據(jù)資源的加工處理過程。有“數(shù)”才能對“數(shù)”

進(jìn)行處理,通過采集、標(biāo)識、編碼形成數(shù)據(jù)資源,是對數(shù)據(jù)進(jìn)行清

洗、去標(biāo)識化、匿名化處理的前提。前者是形成數(shù)據(jù)的基礎(chǔ),后者

是維護(hù)數(shù)據(jù)質(zhì)量和安全的關(guān)鍵。

本報告主要描述各數(shù)據(jù)處理活動的基本原理和通用技術(shù)方法,

需要結(jié)合實際場景具體適用。本報告所引用的部分技術(shù)方法參考了

《GB/T37964-2019信息安全技術(shù)個人信息去標(biāo)識化指南》等相關(guān)

標(biāo)準(zhǔn)指南,在此基礎(chǔ)上,結(jié)合《個人信息保護(hù)法》等法律法規(guī)的界

定,根據(jù)技術(shù)特性和處理效果,對去標(biāo)識化技術(shù)和匿名化技術(shù)進(jìn)行

了區(qū)分。本報告所描述的相關(guān)技術(shù)方法仍在不斷豐富、演進(jìn)和迭代,

相關(guān)應(yīng)用場景也在不斷發(fā)展變化,本報告將持續(xù)跟蹤觀察,適時更

新、補(bǔ)充、調(diào)整和校正。歡迎各組織積極反饋技術(shù)適用情況和建議,

提供技術(shù)適用場景和實踐案例。

目錄

一、處理目標(biāo)及相互關(guān)系............................................................................................1

(一)數(shù)據(jù)清洗是數(shù)據(jù)可用的保障.....................................................................1

(二)去標(biāo)識化是數(shù)據(jù)脫敏的關(guān)鍵.....................................................................1

(三)匿名化是去標(biāo)識化的強(qiáng)化.........................................................................2

二、數(shù)據(jù)處理原則........................................................................................................4

(一)合法合規(guī).....................................................................................................4

(二)安全優(yōu)先.....................................................................................................4

(三)平衡效用.....................................................................................................4

(四)技管結(jié)合.....................................................................................................4

(五)有效溯源.....................................................................................................5

三、數(shù)據(jù)清洗規(guī)程........................................................................................................5

(一)處理目的.....................................................................................................5

(二)處理流程.....................................................................................................6

(三)常見技術(shù)方法.............................................................................................9

四、數(shù)據(jù)去標(biāo)識化規(guī)程..............................................................................................12

(一)處理目的...................................................................................................12

(二)處理流程...................................................................................................13

(三)常見技術(shù)方法...........................................................................................18

五、數(shù)據(jù)匿名化規(guī)程..................................................................................................21

(一)處理目的...................................................................................................21

(二)處理流程...................................................................................................21

(三)常見技術(shù)方法...........................................................................................25

六、數(shù)據(jù)處理環(huán)境要求..............................................................................................29

(一)管理制度要求...........................................................................................29

(二)技術(shù)能力要求...........................................................................................30

(三)人員能力要求...........................................................................................30

(四)過程控制要求...........................................................................................30

(五)事故管理要求...........................................................................................31

附件一:常見直接標(biāo)識符和準(zhǔn)標(biāo)識符示例..............................................................32

附件二:常見標(biāo)識符的去標(biāo)識化或匿名化參考......................................................36

附件三:部分?jǐn)?shù)據(jù)處理技術(shù)方法應(yīng)用建議..............................................................40

參考資料......................................................................................................................43

表目錄

表1數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理的技術(shù)特點和差異.................................3

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

習(xí)近平總書記在2023年中國國際服務(wù)貿(mào)易交易會全球服務(wù)貿(mào)易

峰會上發(fā)表視頻致辭指出,要“推動數(shù)據(jù)基礎(chǔ)制度先行先試改革”。

《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用

的意見》要求“創(chuàng)新技術(shù)手段,推動個人信息匿名化處理”。規(guī)范數(shù)

據(jù)清洗、去標(biāo)識化、匿名化處理,有助于提升數(shù)據(jù)的可用、可信、可

流通、可追溯水平,推動數(shù)據(jù)要素強(qiáng)化優(yōu)質(zhì)供給,是建立合規(guī)高效、

場內(nèi)外結(jié)合的數(shù)據(jù)要素流通和交易制度的重要內(nèi)容。具體來說,為滿

足數(shù)據(jù)可用性和安全性進(jìn)行的數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理,是

數(shù)據(jù)產(chǎn)品進(jìn)場上市的條件,也是數(shù)據(jù)資產(chǎn)登記、交易的前提,更是數(shù)

據(jù)應(yīng)用、建模釋放二次衍生價值的底線。本報告通過明晰數(shù)據(jù)清洗、

去標(biāo)識化、匿名化處理三者之間的關(guān)系,總結(jié)各項處理活動的處理目

的、流程、技術(shù)方法及環(huán)境要求,以期為相關(guān)組織開展相應(yīng)數(shù)據(jù)處理

活動和測試評估提供參考。

一、處理目標(biāo)及相互關(guān)系

(一)數(shù)據(jù)清洗是數(shù)據(jù)可用的保障

數(shù)據(jù)清洗是運用一定方法修正識別到的數(shù)據(jù)問題,實現(xiàn)數(shù)據(jù)的規(guī)

范性、完整性、一致性、準(zhǔn)確性和可溯源性,提高數(shù)據(jù)質(zhì)量的過程。

數(shù)據(jù)清洗旨在滿足數(shù)據(jù)的可用性要求,是數(shù)據(jù)資源預(yù)處理的第一步,

也是保證后續(xù)處理結(jié)果準(zhǔn)確、科學(xué)、有效的重要一環(huán)。數(shù)據(jù)清洗作為

數(shù)據(jù)后續(xù)開發(fā)利用的基礎(chǔ),是數(shù)據(jù)去標(biāo)識化和匿名化處理的前置步驟。

(二)去標(biāo)識化是數(shù)據(jù)脫敏的關(guān)鍵

數(shù)據(jù)去標(biāo)識化是指數(shù)據(jù)經(jīng)過處理,使其在不借助額外信息的情況

1

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

下無法識別特定自然人或相關(guān)標(biāo)識符的過程。數(shù)據(jù)去標(biāo)識化處理強(qiáng)調(diào)

標(biāo)識符的“不可識別性”,即對數(shù)據(jù)內(nèi)含的相關(guān)敏感信息內(nèi)容進(jìn)行脫

敏處理,通過去除、替換、模糊等方法,達(dá)到不借助額外信息的情況

下無法識別特定自然人或相關(guān)標(biāo)識符的效果。

數(shù)據(jù)去標(biāo)識化與在先的標(biāo)識形成過程分屬數(shù)據(jù)處理的不同階段

及場景。標(biāo)識形成是產(chǎn)生數(shù)據(jù)的過程,使得被標(biāo)識對象據(jù)此可以被組

織進(jìn)行有效管理和開發(fā)利用。數(shù)據(jù)去標(biāo)識化是標(biāo)識數(shù)據(jù)產(chǎn)生后的加工

處理過程,旨在提升標(biāo)識信息的安全防護(hù)水平,確保敏感的標(biāo)識內(nèi)容

不被未經(jīng)授權(quán)的主體獲取和利用。去標(biāo)識化處理是強(qiáng)化標(biāo)識數(shù)據(jù)安全

性的重要保障。例如,制造業(yè)企業(yè)通過對產(chǎn)品、零部件、設(shè)備進(jìn)行標(biāo)

識,形成了可精準(zhǔn)定位產(chǎn)品和設(shè)備的數(shù)據(jù)資源,在委托外部第三方技

術(shù)開發(fā)商進(jìn)行相關(guān)應(yīng)用系統(tǒng)開發(fā)時,需要對含有敏感內(nèi)容或涉及商業(yè)

秘密的數(shù)據(jù)進(jìn)行去標(biāo)識化處理。

數(shù)據(jù)去標(biāo)識化處理暗含了相關(guān)標(biāo)識符具有“復(fù)原”的可能,去標(biāo)

識化無法單獨實現(xiàn)匿名化的法律效力。例如,對個人信息進(jìn)行去標(biāo)識

化處理后的數(shù)據(jù),仍屬于個人信息范疇。

(三)匿名化是去標(biāo)識化的強(qiáng)化

數(shù)據(jù)匿名化是指數(shù)據(jù)經(jīng)過處理,無法識別特定自然人或相關(guān)標(biāo)識

符且不能復(fù)原的過程。數(shù)據(jù)匿名化處理在強(qiáng)調(diào)標(biāo)識符的“不可識別性”

基礎(chǔ)上,要求標(biāo)識符同時滿足“難以復(fù)原性”標(biāo)準(zhǔn),是數(shù)據(jù)去標(biāo)識化

的進(jìn)一步處理,即數(shù)據(jù)去標(biāo)識化后應(yīng)用相關(guān)技術(shù)使相關(guān)標(biāo)識符難以復(fù)

原的過程。經(jīng)匿名化處理后數(shù)據(jù)的初始效用將受到較大程度的改變。

2

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

與數(shù)據(jù)去標(biāo)識化相比,經(jīng)匿名化處理后的數(shù)據(jù)即便借助了額外信

息也難以識別特定自然人和被處理的標(biāo)識符。例如,對個人信息進(jìn)行

匿名化處理后的數(shù)據(jù),不再屬于個人信息范疇。但匿名化處理僅是描

述應(yīng)用匿名化技術(shù)的過程,并非描述數(shù)據(jù)達(dá)到絕對匿名化的狀態(tài),完

滿、絕對的不可復(fù)原狀態(tài)無法100%確定。

表1數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理的技術(shù)特點和差異

加工后數(shù)據(jù)改造程度數(shù)據(jù)有用性數(shù)據(jù)安全性

(相對原始數(shù)據(jù))(針對個體記錄)(脫敏程度)

清洗后數(shù)據(jù)低高

(單獨可識別)

去標(biāo)識化數(shù)據(jù)中中(不借助額外信息不可

識別)

匿名化數(shù)據(jù)高低(借助額外信息也難以

復(fù)原的不可識別)

來源:中國信息通信研究院

去標(biāo)識化技術(shù)和匿名化技術(shù)沒有嚴(yán)格界分,二者核心都是通過技

術(shù)手段對標(biāo)識信息進(jìn)行脫敏處理,實現(xiàn)對敏感數(shù)據(jù)內(nèi)容的保護(hù),實踐

中兩類技術(shù)通常可以組合使用實現(xiàn)預(yù)期處理效果。本報告根據(jù)抗重新

識別的風(fēng)險能力大小和對敏感內(nèi)容安全防護(hù)程度的差異,將相關(guān)技術(shù)

劃分為去標(biāo)識化技術(shù)和匿名化技術(shù)。仍保留原始數(shù)據(jù)個體顆粒度的,

納入去標(biāo)識化技術(shù)方法范疇;不再保留原始數(shù)據(jù)個體顆粒度,或原始

數(shù)據(jù)記錄的真實性已受到顯著減損,或原始數(shù)據(jù)記錄不對外披露的,

納入匿名化技術(shù)方法范疇。

3

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

二、數(shù)據(jù)處理原則

(一)合法合規(guī)

組織開展數(shù)據(jù)清洗、去標(biāo)識化和匿名化處理,應(yīng)滿足我國法律、

法規(guī)、規(guī)章和標(biāo)準(zhǔn)規(guī)范對數(shù)據(jù)安全和個人信息保護(hù)的有關(guān)規(guī)定,不得

不當(dāng)損害國家、社會和第三方組織及個人的合法正當(dāng)權(quán)益。

(二)安全優(yōu)先

組織應(yīng)采取相應(yīng)的管理和技術(shù)措施,保證數(shù)據(jù)加工處理過程的安

全性。數(shù)據(jù)的安全性考慮是組織開展數(shù)據(jù)去標(biāo)識化、匿名化處理活動

的首要目的,以降低數(shù)據(jù)在后續(xù)流通、應(yīng)用環(huán)節(jié)的安全風(fēng)險,降低數(shù)

據(jù)安全事故發(fā)生概率。

(三)平衡效用

組織應(yīng)根據(jù)業(yè)務(wù)目標(biāo)和安全保護(hù)要求,面向場景化應(yīng)用需求,選

擇恰當(dāng)?shù)那逑?、去?biāo)識化和匿名化處理路徑和技術(shù),在確保安全的前

提下,強(qiáng)調(diào)數(shù)據(jù)質(zhì)量要求,盡可能滿足預(yù)期效用,促進(jìn)數(shù)據(jù)安全性和

可用性的有效平衡。

(四)技管結(jié)合

組織應(yīng)綜合利用技術(shù)和管理兩方面措施實現(xiàn)數(shù)據(jù)處理的最佳效

果,根據(jù)工作目標(biāo)和數(shù)據(jù)安全要求制定適當(dāng)?shù)牟呗?,選擇合適的模型

和技術(shù),建立完善的管理架構(gòu)、操作權(quán)限和責(zé)任機(jī)制,將技術(shù)和管理

措施嵌入數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理全流程,并定期跟蹤評估

和持續(xù)改進(jìn)。

4

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

(五)有效溯源

組織應(yīng)明確各環(huán)節(jié)的數(shù)據(jù)處理權(quán)限和流程,對數(shù)據(jù)清洗、去標(biāo)識

化、匿名化設(shè)置訪問控制程序,采取措施清晰記錄數(shù)據(jù)處理過程的細(xì)

節(jié)、使用的參數(shù)和控制措施,及時發(fā)現(xiàn)已經(jīng)出現(xiàn)或可能出現(xiàn)的偏差或

不當(dāng)操作,支撐后續(xù)對數(shù)據(jù)處理過程進(jìn)行維護(hù)、審計和追溯。

三、數(shù)據(jù)清洗規(guī)程

(一)處理目的

組織實施數(shù)據(jù)清洗活動,應(yīng)保證清洗加工過程和輸出結(jié)果符合以

下要求:

1.規(guī)范性

數(shù)據(jù)來源合法,數(shù)據(jù)的格式、質(zhì)量及存儲標(biāo)準(zhǔn)應(yīng)統(tǒng)一,應(yīng)使用相

同度量單位描述同一場景下的同類數(shù)據(jù),滿足數(shù)據(jù)互聯(lián)互通要求,不

存在空值、無效值,響應(yīng)依據(jù)規(guī)范標(biāo)準(zhǔn)的各種查詢和各種計算。

2.準(zhǔn)確性

應(yīng)對數(shù)據(jù)所指向的內(nèi)容客觀、真實、準(zhǔn)確描述,可對清洗前后的

數(shù)據(jù)進(jìn)行內(nèi)外部比對校驗,并對具有時效要求的數(shù)據(jù)根據(jù)時間特性及

時更新,確保清洗加工不造成數(shù)據(jù)失真、錯漏。

3.完整性

清洗后的數(shù)據(jù)應(yīng)保證數(shù)據(jù)的連續(xù)性、完整性,源數(shù)據(jù)應(yīng)在源頭或

備份表中能找到,數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集內(nèi)不應(yīng)有重復(fù)值。

4.一致性

5

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

各字段內(nèi)的數(shù)據(jù)應(yīng)與字段描述一致,同一個數(shù)據(jù)在同一時刻在不

同數(shù)據(jù)庫、應(yīng)用和系統(tǒng)中應(yīng)保持一致。

5.可溯源性

應(yīng)在數(shù)據(jù)清洗轉(zhuǎn)換前對原始數(shù)據(jù)進(jìn)行備份,對清洗過程所使用的

方法、參數(shù)和路徑進(jìn)行記錄,保證原始數(shù)據(jù)可溯源,便于后續(xù)查證或

重新使用。

(二)處理流程

數(shù)據(jù)清洗的流程通常包括抽取清洗對象、明確清洗規(guī)則、標(biāo)識錯

誤數(shù)據(jù)、數(shù)據(jù)修正處理、數(shù)據(jù)轉(zhuǎn)換檢驗、評估清洗結(jié)果六個步驟。

1.抽取清洗對象

(1)明確清洗對象

選取需要進(jìn)行清洗處理的數(shù)據(jù),明確清洗的數(shù)據(jù)范圍、類型、性

質(zhì)、體量、內(nèi)容、關(guān)系、質(zhì)量等信息,全面分析清洗標(biāo)的的情況,對

清洗數(shù)據(jù)進(jìn)行分類分級。

(2)對清洗對象進(jìn)行抽取

清洗對象的抽取應(yīng)當(dāng)允許對結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)等不同類型數(shù)

據(jù)進(jìn)行抽取,包括對數(shù)據(jù)的全量抽取和增量抽取,數(shù)據(jù)抽取后的表結(jié)

構(gòu)應(yīng)與抽取來源的表結(jié)構(gòu)保持一致。

2.定義清洗規(guī)則

(1)確定清洗效果和目標(biāo)

根據(jù)清洗的必要性,分析對應(yīng)數(shù)據(jù)資源的特點和清洗復(fù)雜程度,

6

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

結(jié)合業(yè)務(wù)要求或用戶和其他相關(guān)方的需求,明確清洗的程度和需要達(dá)

到的質(zhì)量效果。

(2)確定清洗邏輯規(guī)則

結(jié)合所抽取的清洗對象的數(shù)據(jù)特點,以需求為導(dǎo)向,以應(yīng)用為目

標(biāo),以數(shù)據(jù)的可用性為評價標(biāo)準(zhǔn),明確各數(shù)據(jù)錯誤類型的判斷標(biāo)準(zhǔn)及

相應(yīng)的修正處理方式。

3.標(biāo)識錯誤數(shù)據(jù)

(1)篩選錯誤數(shù)據(jù)

分析篩選出數(shù)據(jù)資源中存在的數(shù)據(jù)問題和對應(yīng)的數(shù)據(jù)。按照常見

錯誤數(shù)據(jù)的類型,對數(shù)據(jù)問題進(jìn)行分類,針對性進(jìn)行錯誤標(biāo)識,并支

持對已標(biāo)識的錯誤數(shù)據(jù)進(jìn)行查詢定位。可采用統(tǒng)計學(xué)、關(guān)聯(lián)規(guī)則、業(yè)

務(wù)區(qū)分等方法來對目標(biāo)數(shù)據(jù)進(jìn)行錯誤檢測,識別出數(shù)據(jù)的錯誤類型并

進(jìn)行標(biāo)識。例如,通過使用統(tǒng)計學(xué)方法(例如均值、標(biāo)準(zhǔn)差、范圍或

分位數(shù))對數(shù)據(jù)進(jìn)行分析和可視化,發(fā)現(xiàn)異常值或離群值,從而標(biāo)識

錯誤數(shù)據(jù)。

(2)常見錯誤類型

殘缺數(shù)據(jù):數(shù)據(jù)中缺失一些記錄,或一條記錄中缺失一些值,或

兩者都缺失。

偏差數(shù)據(jù):數(shù)據(jù)沒有嚴(yán)格按照要求記錄,包括格式內(nèi)容錯誤、邏

輯錯誤、不合規(guī)數(shù)據(jù)等。

重復(fù)數(shù)據(jù):數(shù)據(jù)中出現(xiàn)多條相同記錄,或多條記錄反映同一內(nèi)容,

7

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

通常發(fā)生在數(shù)據(jù)來自不同來源、數(shù)據(jù)多次采集、瑕疵數(shù)據(jù)更正備份等

情形。

其他錯誤:數(shù)據(jù)未能準(zhǔn)確反映所描述的對象的其他情形,如非結(jié)

構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)、無意義數(shù)據(jù)、不相關(guān)數(shù)據(jù)等。

4.數(shù)據(jù)修正處理

對已標(biāo)識的殘缺數(shù)據(jù)、偏差數(shù)據(jù)、重復(fù)數(shù)據(jù)和其他錯誤數(shù)據(jù)分別

采用針對性的方法和工具進(jìn)行處理。常見的數(shù)據(jù)清洗工具包括軟件工

具、腳本等類型。選擇清洗方法和策略時,應(yīng)根據(jù)清洗目標(biāo)和業(yè)務(wù)需

要,結(jié)合數(shù)據(jù)錯誤類型,采取刪除、填充、更換等不同的方式處理,

具體可參考本節(jié)“(三)常見技術(shù)方法”。

5.數(shù)據(jù)轉(zhuǎn)換檢驗

(1)錯誤數(shù)據(jù)轉(zhuǎn)換

對錯誤數(shù)據(jù)的格式、信息代碼、值的沖突進(jìn)行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換前

應(yīng)檢查需要轉(zhuǎn)換的數(shù)據(jù)規(guī)則和字段是否一致。

(2)轉(zhuǎn)換結(jié)果檢驗

一是內(nèi)容檢驗,即對轉(zhuǎn)換后數(shù)據(jù)內(nèi)容的完整性、全面性進(jìn)行檢驗,

包括非空檢驗和數(shù)據(jù)量檢驗。

二是格式檢驗,即對照數(shù)據(jù)格式樣例或相關(guān)標(biāo)準(zhǔn)對轉(zhuǎn)換后數(shù)據(jù)格

式的規(guī)范性、一致性進(jìn)行檢驗。

三是邏輯檢驗,即結(jié)合相關(guān)聯(lián)數(shù)據(jù)對轉(zhuǎn)換后數(shù)據(jù)邏輯是否符合預(yù)

先設(shè)定的范圍、區(qū)間、大小、數(shù)值關(guān)系等規(guī)則的約束性要求進(jìn)行檢驗。

8

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

四是合規(guī)檢驗,即結(jié)合業(yè)務(wù)場景的合規(guī)要求對轉(zhuǎn)換后數(shù)據(jù)內(nèi)容是

否符合法律法規(guī)和強(qiáng)制性標(biāo)準(zhǔn)的要求進(jìn)行檢驗。

6.評估清洗結(jié)果

數(shù)據(jù)清洗后及時評價輸出結(jié)果是否符合事先設(shè)定清洗規(guī)則和規(guī)

范性、準(zhǔn)確性、完整性、一致性、可溯源性等目標(biāo)要求,并從業(yè)務(wù)角

度評估清洗后數(shù)據(jù)的有用性,判斷是否可以支撐后續(xù)加工處理活動。

(三)常見技術(shù)方法

1.殘缺數(shù)據(jù)處理

組織應(yīng)當(dāng)按照所需處理數(shù)據(jù)的字段缺失比例和重要性,采取差異

化的策略進(jìn)行處理。重要性高,缺失率低的字段,可以通過計算結(jié)果

填充并進(jìn)行核驗;重要性高,缺失率高的字段,重新采集獲取或通過

其他渠道取數(shù)補(bǔ)全;重要性低,缺失率低的字段,不做處理或簡單填

充;重要性低,缺失率高的字段,可以選擇刪除該字段。

(1)刪除缺失值

當(dāng)樣本數(shù)量充足,且出現(xiàn)缺失值的樣本占比相對較小時,可以備

份當(dāng)前數(shù)據(jù)后,直接刪除后期加工處理不需要的字段和缺失值。

(2)填充缺失內(nèi)容

存在缺失率較低但相對重要的數(shù)據(jù)項時,可以通過計算填充并進(jìn)

行核驗的方式進(jìn)行補(bǔ)全,包括不同指標(biāo)的計算結(jié)果填充和同一指標(biāo)的

計算結(jié)果填充。

不同指標(biāo)的計算結(jié)果填充:即通過數(shù)據(jù)項與數(shù)據(jù)項之間的邏輯聯(lián)

9

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

系,采取相應(yīng)的計算方法得到缺失內(nèi)容。包括熱卡填補(bǔ)法、最近距離

決定填補(bǔ)法、回歸填補(bǔ)法、多重填補(bǔ)方法、K-最近鄰法、有序最近鄰

法等。例如,數(shù)據(jù)中年齡字段缺失,可以從公民身份證號中提取年齡

字段。

同一指標(biāo)的計算結(jié)果填充:即通過對同一指標(biāo)列的數(shù)據(jù)采取均值、

中位數(shù)、眾數(shù)等方式進(jìn)行計算,將相應(yīng)結(jié)果進(jìn)行填充,多用于數(shù)值型

數(shù)據(jù)。例如,某一記錄的身高數(shù)據(jù)缺失,可以使用該字段的均值進(jìn)行

填充。

(3)重新采集數(shù)據(jù)補(bǔ)全

存在缺失率較高且相對重要的數(shù)據(jù)項時,可以通過線下補(bǔ)充收集、

業(yè)務(wù)知識或經(jīng)驗推測、新增抽取其他數(shù)據(jù)源數(shù)據(jù)等方式,進(jìn)行關(guān)聯(lián)對

比后填補(bǔ)。

2.偏差(異常)數(shù)據(jù)處理

組織應(yīng)當(dāng)對未符合規(guī)范要求,存在格式、邏輯及內(nèi)容不匹配等方

面偏差的數(shù)據(jù)進(jìn)行處理。

(1)格式不規(guī)范數(shù)據(jù)

對存在格式不規(guī)范等問題的數(shù)據(jù)進(jìn)行處理,包括全、半角處理和

無效字符處理。按照事先定義的規(guī)則進(jìn)行全、半角符號統(tǒng)一,以半自

動校驗結(jié)合半人工方式發(fā)現(xiàn)錯誤字符,進(jìn)行自動化修正或人工修正。

(2)邏輯沖突數(shù)據(jù)

對存在不符合邏輯約束要求、相互間存在沖突的數(shù)據(jù)進(jìn)行處理,

10

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

可通過直接推理、關(guān)聯(lián)修正和邏輯重構(gòu)等方式進(jìn)行,并再次進(jìn)行校驗。

直接推理:了解數(shù)據(jù)潛在的邏輯規(guī)則,采取邏輯推理法,直接處

理簡單邏輯錯誤的數(shù)據(jù)。

關(guān)聯(lián)修正:借助分箱、聚類、回歸等方法識別邏輯錯誤數(shù)據(jù),通

過相互驗證的方法修正矛盾內(nèi)容。

邏輯重構(gòu):對于重要性較高的不合理數(shù)據(jù)進(jìn)行人工干預(yù),或重新

采集數(shù)據(jù),引入更多數(shù)據(jù)源進(jìn)行邏輯的重新梳理并再次進(jìn)行校驗。

(3)內(nèi)容不匹配數(shù)據(jù)

對存在噪聲數(shù)據(jù)、超出明確取值范圍,以及數(shù)據(jù)中存在敏感信息

或內(nèi)容不符合要求等數(shù)據(jù)進(jìn)行處理。通過設(shè)定判定規(guī)則,借助自動化

手段判斷數(shù)據(jù)是否在規(guī)則范圍內(nèi),不在規(guī)則范圍內(nèi)的,進(jìn)行警告及人

工處理。

噪聲數(shù)據(jù):對噪聲值進(jìn)行平滑處理,或在不影響數(shù)據(jù)結(jié)構(gòu)和后續(xù)

使用情況下,將噪聲數(shù)據(jù)進(jìn)行刪除處理。

離群值數(shù)據(jù):判斷超出明確取值范圍數(shù)據(jù)的來源是否可靠,數(shù)據(jù)

的存在是否合理,合理的數(shù)據(jù)予以保留,不合理數(shù)據(jù)予以調(diào)整。

內(nèi)容不對應(yīng)數(shù)據(jù):識別內(nèi)容與字段要求不匹配的問題類型,如人

工填寫錯誤、導(dǎo)入數(shù)據(jù)時沒有對齊、數(shù)據(jù)源端業(yè)務(wù)系統(tǒng)缺陷等,通過

關(guān)聯(lián)、修正或重新采集等方式匹配相應(yīng)字段進(jìn)行填補(bǔ)。

3.重復(fù)數(shù)據(jù)處理

將具有相同含義的數(shù)據(jù)判定為重復(fù)數(shù)據(jù),包括相同數(shù)據(jù)和相似數(shù)

據(jù)。

11

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

相同數(shù)據(jù):形式、含義和內(nèi)容均相同的數(shù)據(jù),根據(jù)來源權(quán)威性和

應(yīng)用場合,選擇最恰當(dāng)渠道來源的數(shù)據(jù),或在不影響數(shù)據(jù)保真度和完

整性的情況下進(jìn)行合并處理。

相似數(shù)據(jù):識別相似數(shù)據(jù)的各自含義,判斷數(shù)據(jù)的實質(zhì)含義上是

否存在差異,實質(zhì)含義相同的數(shù)據(jù)按照相同數(shù)據(jù)進(jìn)行處理,實質(zhì)含義

有差異的數(shù)據(jù),不能界定為重復(fù)數(shù)據(jù),應(yīng)分別保留。

4.其他錯誤數(shù)據(jù)處理

針對數(shù)據(jù)未能準(zhǔn)確反映所描述的對象的其他情形,可以采取以下

通用方式進(jìn)行處理:

將非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);將無意義數(shù)據(jù)、

不相關(guān)數(shù)據(jù)在進(jìn)行必要性和相關(guān)性評估后進(jìn)行刪除,提升后續(xù)數(shù)據(jù)處

理效率;對仍存在問題未處理的錯誤數(shù)據(jù)存入問題數(shù)據(jù)庫,便于后續(xù)

查證或重新使用。

四、數(shù)據(jù)去標(biāo)識化規(guī)程

(一)處理目的

組織實施數(shù)據(jù)去標(biāo)識化,應(yīng)當(dāng)確保經(jīng)過處理的數(shù)據(jù)達(dá)到以下效果:

1.標(biāo)識不可識別

對數(shù)據(jù)中的直接標(biāo)識符和準(zhǔn)標(biāo)識符進(jìn)行處理,避免未經(jīng)授權(quán)的主

體無需借助其他額外信息,直接根據(jù)這些標(biāo)識內(nèi)容便可以識別出原始

信息主體或相關(guān)標(biāo)識符。

2.控制被識別風(fēng)險

12

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

將去標(biāo)識化后的數(shù)據(jù)可能被未經(jīng)授權(quán)的主體再次識別的風(fēng)險控

制在可接受的范圍內(nèi),確保標(biāo)識符暴露的風(fēng)險不會因數(shù)據(jù)接收方之間

的潛在串通或新數(shù)據(jù)的增加而增加。

3.兼顧數(shù)據(jù)效用目標(biāo)

有效平衡數(shù)據(jù)的安全性和可用性,選擇合適的去標(biāo)識化模型和技

術(shù),確保去標(biāo)識化后的數(shù)據(jù)盡量滿足數(shù)據(jù)開發(fā)利用的預(yù)期目的和效用,

在數(shù)據(jù)安全前提下最大發(fā)揮去標(biāo)識化數(shù)據(jù)應(yīng)用價值。

(二)處理流程

數(shù)據(jù)去標(biāo)識化的流程通常包括確定去標(biāo)識化對象、制定去標(biāo)識化

目標(biāo)和計劃、識別相關(guān)標(biāo)識符、對標(biāo)識符進(jìn)行處理、驗證審核處理結(jié)

果、評估重新標(biāo)識風(fēng)險六個步驟。

1.確定去標(biāo)識化對象

組織對于自身合法取得、合法持有,并實際控制的數(shù)據(jù),應(yīng)當(dāng)基

于外部和內(nèi)部的多方面因素的考量確定需要進(jìn)行去標(biāo)識處理的數(shù)據(jù)

范圍。

(1)法規(guī)標(biāo)準(zhǔn)要求

根據(jù)國家、地區(qū)或行業(yè)的相關(guān)政策、法律、法規(guī)等的強(qiáng)制性規(guī)定,

判斷待收集、存儲、使用、加工或向第三方提供的數(shù)據(jù)是否涉及去標(biāo)

識化的相關(guān)要求。例如,《個人信息保護(hù)法》第51條要求,個人信息

處理者應(yīng)當(dāng)采取加密、去標(biāo)識化等安全技術(shù)措施,防止未經(jīng)授權(quán)的訪

問以及個人信息泄露、篡改、丟失。

13

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

(2)組織策略要求

根據(jù)自身數(shù)據(jù)管理要求,或者按照與相關(guān)合作方約定,判斷數(shù)據(jù)

進(jìn)行內(nèi)外部應(yīng)用時是否需要進(jìn)行去標(biāo)識化處理。例如,將個人信息對

外展示時,參考《GB/T35273—2020信息安全技術(shù)個人信息安全規(guī)

范》,涉及通過界面展示個人信息的(如顯示屏幕、紙面),個人信息

控制者宜對需展示的個人信息采取去標(biāo)識化處理等措施,降低個人信

息在展示環(huán)節(jié)的泄露風(fēng)險。

(3)數(shù)據(jù)來源方要求

根據(jù)數(shù)據(jù)采集時是否存在對數(shù)據(jù)來源方等作出了去標(biāo)識化的相

關(guān)承諾或約定,判斷對數(shù)據(jù)進(jìn)行加工或向第三方提供時是否需要進(jìn)行

去標(biāo)識化處理。例如,組織已在產(chǎn)品隱私政策中聲明,將用戶個人信

息用于對外提供學(xué)術(shù)研究或描述的結(jié)果時,承諾對結(jié)果中所包含的個

人信息進(jìn)行去標(biāo)識化處理。

2.制定去標(biāo)識化目標(biāo)

均衡數(shù)據(jù)安全性和可用性兩方面需求,確定數(shù)據(jù)去標(biāo)識化處理需

要達(dá)到的效果。

(1)明確標(biāo)識被識別風(fēng)險的控制要求

分析數(shù)據(jù)的來源、性質(zhì)、類型,梳理待處理數(shù)據(jù)是否涉及法律法

規(guī)要求和相關(guān)承諾,結(jié)合去標(biāo)識化后數(shù)據(jù)的主要用途和使用范圍,考

慮可能采用的去標(biāo)識化模型和技術(shù)的應(yīng)用方向及能力,綜合評價組織

對相關(guān)標(biāo)識符和準(zhǔn)標(biāo)識符被重新識別的風(fēng)險的不可接受程度。

(2)明確滿足數(shù)據(jù)可用性的最低要求

14

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

結(jié)合數(shù)據(jù)去標(biāo)識化后的用途,評估相關(guān)技術(shù)方法的應(yīng)用對初始數(shù)

據(jù)的改造程度,分析數(shù)據(jù)去標(biāo)識化后對業(yè)務(wù)活動的可能影響,提出數(shù)

據(jù)有用性的最低要求。

3.識別相關(guān)標(biāo)識符

根據(jù)去標(biāo)識化的目標(biāo),針對需要去標(biāo)識化的數(shù)據(jù),識別出需要進(jìn)

行處理的直接標(biāo)識符和準(zhǔn)標(biāo)識符。組織可以通過以下方法識別:

(1)查表識別

組織通過預(yù)先建立標(biāo)識符元數(shù)據(jù)索引表,待具體識別時,將待識

別數(shù)據(jù)的各個屬性名稱或字段名稱,逐個與元數(shù)據(jù)表中的標(biāo)識符進(jìn)行

比對。標(biāo)識符元數(shù)據(jù)索引表應(yīng)當(dāng)包括標(biāo)識符名稱、含義、格式要求、

常用數(shù)據(jù)類型、常用字段名稱等信息。查表識別法適用于數(shù)據(jù)集格式

和屬性相對明確的去標(biāo)識化場景。

(2)規(guī)則判定

組織通過總結(jié)可能涉及直接標(biāo)識符和準(zhǔn)標(biāo)識符的數(shù)據(jù)格式和規(guī)

律,確立相關(guān)標(biāo)識符識別規(guī)則,然后通過運行軟件程序,自動化地從

數(shù)據(jù)集中識別出標(biāo)識數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)識識別均可適用規(guī)則判定法。如

通過建立身份證號識別規(guī)則,識別非結(jié)構(gòu)化存儲的司法判決書中的身

份證號。

(3)人工分析

在必要場景下,組織通過人工發(fā)現(xiàn)和確定數(shù)據(jù)集中的直接標(biāo)識符

15

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

和準(zhǔn)標(biāo)識符。人工分析法適用性較強(qiáng),當(dāng)數(shù)據(jù)集中有特別含義的數(shù)據(jù),

或數(shù)據(jù)具有特殊值、容易引起注意的值,或者數(shù)據(jù)集中的多個不同數(shù)

據(jù)子集之間存在關(guān)聯(lián)、引用關(guān)系時,人工分析可以針對性地識別和分

析。

4.對標(biāo)識符進(jìn)行處理

對數(shù)據(jù)集進(jìn)行去標(biāo)識化前,應(yīng)當(dāng)先通過數(shù)據(jù)清洗,形成規(guī)范化或

滿足特定格式要求的數(shù)據(jù)。在此基礎(chǔ)上,針對不同特征和處理要求的

數(shù)據(jù)類型,考慮去標(biāo)識化的影響,在可接受的被重新識別風(fēng)險范圍內(nèi)

盡量滿足數(shù)據(jù)可用性的最低要求,選取有效的去標(biāo)識化技術(shù)方法和模

型進(jìn)行處理。具體可參考本節(jié)“(三)常見技術(shù)方法”。

技術(shù)選擇需要考量相關(guān)因素包括:數(shù)據(jù)是否可以刪除,是否需要

保留至少若干個類別的數(shù)據(jù)項;去標(biāo)識后的數(shù)據(jù)是否需要保持唯一性、

可逆性,是否需要保持原有的數(shù)據(jù)格式、表達(dá)順序、統(tǒng)計特征等;是

否可以對屬性值實施隨機(jī)噪聲添加;以及運用該去標(biāo)識化技術(shù)的成本

考量、可承受的重新標(biāo)識風(fēng)險范圍和業(yè)務(wù)影響等。

5.驗證數(shù)據(jù)處理結(jié)果

對數(shù)據(jù)去標(biāo)識化結(jié)果進(jìn)行驗證,確保處理后的數(shù)據(jù)在安全性和可

用性方面符合預(yù)設(shè)要求。

(1)安全性驗證

驗證經(jīng)去標(biāo)識化處理后數(shù)據(jù)的安全性,確保所生成數(shù)據(jù)被重新識

別的風(fēng)險在組織預(yù)設(shè)的可接受風(fēng)險范圍內(nèi)。組織可以通過檢查生成的

數(shù)據(jù)結(jié)果、檢查去標(biāo)識化過程及記錄、開展入侵者測試等方式驗證去

16

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

標(biāo)識化數(shù)據(jù)的安全性。

(2)有用性驗證

分析去標(biāo)識化后的數(shù)據(jù)對于預(yù)期應(yīng)用和業(yè)務(wù)的影響,判斷處理后

數(shù)據(jù)的質(zhì)量是否還能滿足預(yù)期業(yè)務(wù)用途。組織可以對原始數(shù)據(jù)和去標(biāo)

識化后數(shù)據(jù)分別執(zhí)行統(tǒng)計計算,并對計算結(jié)果進(jìn)行比較,判斷去標(biāo)識

化后的計算結(jié)果是否仍可接受。

6.評估被識別風(fēng)險

對去標(biāo)識化后的數(shù)據(jù)進(jìn)行標(biāo)識符被識別的風(fēng)險進(jìn)行評估,與預(yù)期

可接受的風(fēng)險閾值進(jìn)行比較。若風(fēng)險超出閾值,需繼續(xù)進(jìn)行調(diào)整直到

滿足要求。標(biāo)識符被識別風(fēng)險評估常見的流程包括評估準(zhǔn)備、定性評

估、定量評估、形成評估結(jié)論等環(huán)節(jié),組織可借鑒《GB/T42460-2023

信息安全技術(shù)個人信息去標(biāo)識化效果評估指南》進(jìn)行流程設(shè)計。

按照標(biāo)識符被識別的風(fēng)險從高到低,可以將相應(yīng)的風(fēng)險閾值劃分

為高風(fēng)險、較高風(fēng)險、可控風(fēng)險、低風(fēng)險4個等級。

高風(fēng)險(4級):能直接識別主體或敏感屬性的數(shù)據(jù),即包含直

接標(biāo)識符的數(shù)據(jù);較高風(fēng)險(3級):僅消除直接標(biāo)識符的數(shù)據(jù),即

刪除了直接標(biāo)識符,但仍包含準(zhǔn)標(biāo)識符的數(shù)據(jù);可控風(fēng)險(2級):

消除直接標(biāo)識符和準(zhǔn)標(biāo)識符的數(shù)據(jù),即對直接標(biāo)識符和準(zhǔn)標(biāo)識符均進(jìn)

行了處理,在不借助額外信息的情況下,無法識別或關(guān)聯(lián)識別個人信

息主體或特定標(biāo)識內(nèi)容;低風(fēng)險(1級),不再保留個體顆粒度的聚

合數(shù)據(jù),如總計數(shù)、最大值、最小值、平均值等。

17

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

(三)常見技術(shù)方法

本報告將仍保留原始數(shù)據(jù)個體顆粒度的技術(shù)類型,納入去標(biāo)識化

技術(shù)方法范疇。部分技術(shù)方法參考了《GB/T37964-2019信息安全技

術(shù)個人信息去標(biāo)識化指南》。組織根據(jù)需要選擇相應(yīng)的去標(biāo)識化技術(shù),

常見的去標(biāo)識化技術(shù)包括數(shù)據(jù)抽樣技術(shù)、加解密技術(shù)、假名化技術(shù)、

抑制遮蓋技術(shù)等,不同技術(shù)之間可以結(jié)合使用。

1.數(shù)據(jù)抽樣技術(shù)

數(shù)據(jù)抽樣是通過選取數(shù)據(jù)集中有代表性的子集來對原始數(shù)據(jù)集

進(jìn)行分析和評估。對數(shù)據(jù)集進(jìn)行隨機(jī)抽樣能夠增加識別出特定標(biāo)識符

的不確定性,可以作為后續(xù)應(yīng)用其他技術(shù)強(qiáng)化去標(biāo)識化效果的初步處

理。

數(shù)據(jù)抽樣的方式較多,需要根據(jù)數(shù)據(jù)集的特點和預(yù)期的使用場景

進(jìn)行選擇,包括隨機(jī)抽樣、等距抽樣、分層抽樣、整群抽樣等。

2.加解密技術(shù)

加解密技術(shù)是指利用算法對數(shù)據(jù)進(jìn)行加密和解密操作,以密碼學(xué)

為基礎(chǔ)構(gòu)建加密函數(shù),輸入敏感數(shù)據(jù)和相關(guān)標(biāo)識符,輸出處理后的加

密隱藏數(shù)據(jù)。同時在有需要的時候,可以對數(shù)據(jù)進(jìn)行解密操作,即在

擁有密鑰的條件下,可以對標(biāo)識符進(jìn)行復(fù)原。常見的數(shù)據(jù)加密方法包

括確定性加密、保序加密、保留格式加密、同態(tài)加密等。

確定性加密:指通過確定性加密結(jié)果替代數(shù)據(jù)中的標(biāo)識符值。確

定性加密是一種非隨機(jī)加密方法,可以保證數(shù)據(jù)真實可用,一定程度

上保證數(shù)據(jù)在統(tǒng)計處理、隱私防挖掘方面的有用性,也可以生成用于

18

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

精準(zhǔn)匹配搜索、數(shù)據(jù)關(guān)聯(lián)及分析的微數(shù)據(jù)。對確定性加密結(jié)果的分析

多用于檢查數(shù)據(jù)值是否相等。

保序加密:指通過保序加密值替代微數(shù)據(jù)中的標(biāo)識符值。保序加

密同樣是一種非隨機(jī)加密方法,密文的排序與明文的排序相同。對保

序加密結(jié)果的分析多用于檢查數(shù)據(jù)是否相等和排序關(guān)系比較。

保留格式加密:指加密過程要求密文與明文具有相同的格式,可

用保留格式加密值替代微數(shù)據(jù)中的標(biāo)識符值。保留格式加密可以保證

加密后的數(shù)據(jù)具有與原始數(shù)據(jù)相同的格式和長度,有助于在不需要修

改應(yīng)用系統(tǒng)匹配格式的情況下實現(xiàn)去標(biāo)識化。

同態(tài)加密:指將原始數(shù)據(jù)加密后,對得到的密文進(jìn)行特定的運算,

得到的計算結(jié)果等價于基于原始明文數(shù)據(jù)直接進(jìn)行相同計算所得到

的數(shù)據(jù)結(jié)果。同態(tài)加密是一種隨機(jī)加密,對經(jīng)過同態(tài)加密的數(shù)據(jù)進(jìn)行

處理得到相同的輸出結(jié)果,處理過程不會泄露任何原始內(nèi)容。

3.假名化技術(shù)

假名化技術(shù)是指使用虛構(gòu)的名稱或數(shù)值,替換原始數(shù)據(jù)的直接標(biāo)

識符或準(zhǔn)標(biāo)識符的過程。假名化技術(shù)保留了原始數(shù)據(jù)的唯一性特點,

也被稱為編碼。不同數(shù)據(jù)在假名化處理后依然可以進(jìn)行關(guān)聯(lián),并且不

會泄露原始標(biāo)識符。當(dāng)需要唯一區(qū)分?jǐn)?shù)據(jù)值并且沒有保留關(guān)于原始屬

性的直接標(biāo)識符的字符或任何其他隱含信息時,可以使用假名化技術(shù)。

假名可以獨立生成或借助密鑰編碼生成。

獨立生成假名:即不依賴于被替代的原始值,生成獨立于標(biāo)識符

的假名創(chuàng)建技術(shù),如使用隨機(jī)值代替標(biāo)識符原始值。組織需要創(chuàng)建假

19

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

名與原始標(biāo)識的分配表,并采取適當(dāng)?shù)募夹g(shù)與管理措施限制和控制對

該分配表的訪問。

基于密鑰的假名編碼:即基于密碼技術(shù)的標(biāo)識符派生假名創(chuàng)建技

術(shù),通過對屬性值采用加密或散列等密碼技術(shù)生成假名,也被稱為對

標(biāo)識符進(jìn)行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密

鑰及對應(yīng)的算法解密。

4.抑制遮蓋技術(shù)

抑制遮蓋技術(shù)即對需要進(jìn)行處理的標(biāo)識符或數(shù)據(jù)項進(jìn)行刪除或

屏蔽。抑制技術(shù)主要適用于分類數(shù)據(jù),可用于數(shù)值與非數(shù)值數(shù)據(jù)屬性,

執(zhí)行相對容易,通過直接刪除或屏蔽降低關(guān)聯(lián)識別的風(fēng)險,且可以保

持?jǐn)?shù)據(jù)的真實性,但會造成一定程度的信息缺失。但過多的抑制會影

響數(shù)據(jù)的效用,為保證數(shù)據(jù)的可用性,組織需要對抑制的數(shù)據(jù)項數(shù)量

和范圍設(shè)定上限。抑制遮蓋需要是永久性的,而不僅僅是“隱藏”功

能,如果底層數(shù)據(jù)仍然可訪問或編輯,則未達(dá)到抑制遮蓋效果。根據(jù)

抑制方式的差異,抑制遮蓋技術(shù)可以分為直接刪除或字符掩碼屏蔽。

直接刪除:即從數(shù)據(jù)集中直接刪除相關(guān)標(biāo)識符,或刪除標(biāo)識符中

的部分屬性或內(nèi)容,或者刪除涉及特定屬性標(biāo)識符的數(shù)據(jù)記錄。

字符掩碼:通過使用一致的符號(例如“*”或“x”)來替換原

數(shù)據(jù)標(biāo)識符或標(biāo)識符中的部分?jǐn)?shù)值。區(qū)別于仍具有唯一性的假名,進(jìn)

行同一屬性的數(shù)值所替換的字符掩碼均為相同,具有一致性。

20

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

五、數(shù)據(jù)匿名化規(guī)程

(一)處理目的

1.促使標(biāo)識難以復(fù)原

數(shù)據(jù)匿名化處理是數(shù)據(jù)去標(biāo)識化后應(yīng)用相關(guān)技術(shù)使相關(guān)標(biāo)識符

難以復(fù)原的過程,是數(shù)據(jù)去標(biāo)識化的進(jìn)一步處理。與數(shù)據(jù)去標(biāo)識化相

比,經(jīng)匿名化處理后的數(shù)據(jù)即便借助了額外信息也難以識別特定自然

人和已被處理的標(biāo)識符。

2.符合風(fēng)險可接受水平

任何數(shù)據(jù)均有被復(fù)原的可能。數(shù)據(jù)匿名化處理并非追求完美、絕

對的匿名化狀態(tài),強(qiáng)調(diào)的是運用匿名化技術(shù)將原始數(shù)據(jù)相關(guān)標(biāo)識符的

可識別性降低到監(jiān)管和組織可接受的風(fēng)險水平。如果信息主體和相關(guān)

標(biāo)識符的識別需要不合理的時間、努力或資源,則不視為是可復(fù)原的。

3.支持統(tǒng)計、訓(xùn)練用途

經(jīng)匿名化處理的數(shù)據(jù),數(shù)據(jù)顆粒度、精確度受到影響,不再保留

個體數(shù)據(jù)記錄。例如,經(jīng)匿名化處理的個人信息,不再屬于個人信息

范疇。與基于個體特征識別的用戶畫像、設(shè)備定位等用途不同,對數(shù)

據(jù)匿名化處理主要為了支撐統(tǒng)計分析、算法訓(xùn)練、科學(xué)研究等場景。

(二)處理流程

數(shù)據(jù)匿名化的流程通常包括明確匿名化處理對象、設(shè)定匿名化處

理目標(biāo)、先行去標(biāo)識化處理、實施數(shù)據(jù)匿名化處理、評估匿名化效果、

定期追蹤復(fù)原風(fēng)險六個步驟。

21

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

1.確定匿名化對象

根據(jù)法律要求和業(yè)務(wù)用途,確定需要進(jìn)行匿名化處理的數(shù)據(jù)類型

和范圍。

(1)按照監(jiān)管要求確定處理對象

例如,組織遵照《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》要求,因

保證行車安全需要,在無法征得個人同意采集到車外個人信息且需要

向車外提供時,對相關(guān)數(shù)據(jù)進(jìn)行匿名化處理,包括刪除含有能夠識別

自然人的畫面,或者對畫面中的人臉信息等進(jìn)行局部輪廓化處理等。

(2)遵循最小必要原則確定處理對象

例如,征信機(jī)構(gòu)按照《征信業(yè)務(wù)管理辦法》規(guī)定,在個人不良信

息保存期限屆滿時,將個人不良信息在對外服務(wù)和應(yīng)用中刪除;作為

樣本數(shù)據(jù)繼續(xù)使用的,進(jìn)行匿名化處理。

(3)履行約定或承諾義務(wù)確定處理對象

例如,組織按照《GB/T35273-2020信息安全技術(shù)個人信息安全

規(guī)范》規(guī)定,在相關(guān)數(shù)據(jù)超出個人信息約定的存儲期限或達(dá)成處理目

的后,以及組織停止運營其產(chǎn)品或服務(wù)時或用戶注銷賬戶時,對個人

信息進(jìn)行刪除或匿名化處理。

(4)基于業(yè)務(wù)開展需要確定處理對象

例如,國家衛(wèi)生健康委等四部門發(fā)布的《涉及人的生命科學(xué)和醫(yī)

學(xué)研究倫理審查辦法》中,將“使用匿名化的信息數(shù)據(jù)開展研究”作

為“免除倫理審查”的情形之一,組織為減少科研業(yè)務(wù)不必要的合規(guī)

負(fù)擔(dān),使用匿名化數(shù)據(jù)開展涉及人的生命科學(xué)和醫(yī)學(xué)研究。

22

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

2.設(shè)定匿名化目標(biāo)

滿足安全性要求是數(shù)據(jù)匿名化處理的首要目標(biāo)。組織應(yīng)結(jié)合業(yè)務(wù)

場景和安全防護(hù)管理要求,根據(jù)數(shù)據(jù)的性質(zhì)、使用環(huán)境和使用的匿名

化技術(shù)等,結(jié)合匿名化數(shù)據(jù)的主要用途和使用場景,對標(biāo)識符被復(fù)原

的可能性進(jìn)行分析,評估相應(yīng)的風(fēng)險,設(shè)定可被組織和監(jiān)管部門接受

和認(rèn)可的風(fēng)險閾值。

3.先行去標(biāo)識化處理

組織應(yīng)將去標(biāo)識化作為匿名化處理的一部分執(zhí)行,結(jié)合前述數(shù)據(jù)

去標(biāo)識化業(yè)務(wù)規(guī)程,識別相關(guān)直接標(biāo)識符和準(zhǔn)標(biāo)識符,針對性進(jìn)行去

標(biāo)識化處理,先行滿足數(shù)據(jù)的“不可識別性”要求,達(dá)到數(shù)據(jù)在不借

助額外信息的情況下無法直接識別特定自然人或相關(guān)標(biāo)識符的效果,

為后續(xù)的匿名化操作奠定基礎(chǔ)。

4.實施匿名化處理

組織針對已去標(biāo)識化的數(shù)據(jù)應(yīng)用匿名化技術(shù),使未獲得授權(quán)主體

不能輕易地將該數(shù)據(jù)與可能包含額外信息的其他數(shù)據(jù)相結(jié)合,從而難

以復(fù)原特定自然人信息或相關(guān)標(biāo)識符。不同匿名化技術(shù)的技術(shù)特點不

同,選擇處理技術(shù)時,應(yīng)當(dāng)結(jié)合數(shù)據(jù)類型和性質(zhì)、業(yè)務(wù)場景、處理目

的等進(jìn)行綜合考量,相關(guān)技術(shù)具體可參考本節(jié)“(三)常見技術(shù)方法”。

選擇匿名化技術(shù)過程中需要考慮以下因素:

一是考慮所采用的匿名化技術(shù)進(jìn)行處理后數(shù)據(jù)是否仍滿足預(yù)期

效用。匿名化處理可能對原始數(shù)據(jù)格式、數(shù)值和表達(dá)方式進(jìn)行較大變

動,將對原始數(shù)據(jù)的保真性、顆粒度形成較大影響。

23

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

二是考慮將相關(guān)匿名化技術(shù)和去標(biāo)識化技術(shù)組合使用,形成系統(tǒng)

性匿名化處理方案。例如,如果某個屬性類別的數(shù)值直接刪除不會影

響數(shù)據(jù)效用,可以選擇抑制遮蓋技術(shù)對相關(guān)數(shù)據(jù)項予以刪除處理。

三是考慮不同匿名化技術(shù)的適用場景。結(jié)合技術(shù)特點和目標(biāo)要求

選擇相應(yīng)技術(shù)。如針對連續(xù)值屬性的數(shù)據(jù)可以采用噪聲添加、數(shù)據(jù)擾

動等隨機(jī)化技術(shù),針對無需體現(xiàn)個體數(shù)據(jù)記錄的情形可以采用聚合統(tǒng)

計等技術(shù)。同時,針對同一場景或同一數(shù)據(jù)類型的匿名化處理,也可

多種匿名化技術(shù)結(jié)合使用。

5.評估匿名化效果

組織應(yīng)用適當(dāng)?shù)哪涿夹g(shù)后,應(yīng)當(dāng)對匿名化處理的效果進(jìn)行分

析評估。計算標(biāo)識符被復(fù)原或重新標(biāo)識風(fēng)險的方法需要綜合考慮數(shù)據(jù)

因素和環(huán)境因素。《GB/T42460-2023信息安全技術(shù)個人信息去標(biāo)識

化效果評估指南》提供了“基于K匿名模型的重標(biāo)識風(fēng)險計算方案

及評估事例”,可供組織借鑒參考。

k-匿名值是一種計算數(shù)據(jù)集重新識別風(fēng)險水平的方法,指數(shù)據(jù)集

中可以分組在一起的相同記錄的最小數(shù)量。在評估數(shù)據(jù)集的總體重新

識別風(fēng)險時,通常采用最小值來表示最壞情況。k-匿名值較高意味著

重新識別的風(fēng)險較低,k匿名性值較低意味著風(fēng)險較高。K-匿名值為

1表示記錄是唯一的。k-匿名值需要結(jié)合實際場景、處理目標(biāo)和安全

等級要求進(jìn)行具體設(shè)定。在可能的情況下,應(yīng)設(shè)置更高的k-匿名閾值,

以最小化任何重新識別風(fēng)險。需注意,k-匿名可能不適用于所有類型

的數(shù)據(jù)集或其他復(fù)雜情形。

24

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

6.定期追蹤復(fù)原風(fēng)險

組織應(yīng)當(dāng)定期追蹤內(nèi)外部相關(guān)主體對匿名化處理數(shù)據(jù)的使用情

況,評估新技術(shù)、新數(shù)據(jù)、新主體的引入可能帶來的標(biāo)識符被復(fù)原的

新隱患,考慮數(shù)據(jù)的流通范圍、可能的技術(shù)演變等,以及未知的跨庫

數(shù)據(jù)可能導(dǎo)致與匿名數(shù)據(jù)集匹配的情形,進(jìn)而采取適當(dāng)措施保護(hù)相關(guān)

標(biāo)識符免受復(fù)原識別和披露的風(fēng)險。

(三)常見技術(shù)方法

本報告將不再保留原始數(shù)據(jù)個體顆粒度,或原始數(shù)據(jù)記錄真實性

已受到顯著減損,或原始數(shù)據(jù)記錄不對外披露的技術(shù)類型,納入匿名

化技術(shù)方法范疇。部分技術(shù)方法參考了《GB/T37964-2019信息安全

技術(shù)個人信息去標(biāo)識化指南》。組織可結(jié)合具體場景單獨或組合選用

聚合統(tǒng)計、泛化、隨機(jī)化、數(shù)據(jù)合成、隱私計算等技術(shù)進(jìn)行處理。

1.聚合統(tǒng)計技術(shù)

聚合統(tǒng)計技術(shù)指將數(shù)據(jù)集從記錄列表轉(zhuǎn)換為匯總值或相關(guān)統(tǒng)計

值的方法,可以視為求和、計數(shù)、平均、最大值與最小值等一系列統(tǒng)

計技術(shù)的集合。由于聚合統(tǒng)計技術(shù)的輸出是“統(tǒng)計值”,該值有利于

對數(shù)據(jù)進(jìn)行整體報告或分析,產(chǎn)生的結(jié)果能夠代表原始數(shù)據(jù)集中的所

有記錄,且不會披露任何個體記錄,很大程度上降低了個體的標(biāo)識符

被重新識別的風(fēng)險。當(dāng)組織不需要單獨的數(shù)據(jù)記錄且聚合數(shù)據(jù)足以滿

足預(yù)期效用時可以采用聚合統(tǒng)計技術(shù)。

例如,2022年我國18-80歲女性平均體重59.8kg,如果以平均體

重來標(biāo)識數(shù)據(jù)集中每個人的體重值,則未獲得授權(quán)主體無法根據(jù)體重

25

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

屬性將某一條數(shù)據(jù)記錄(女,北京,1.63m,59.8kg,1990年9月1

日)關(guān)聯(lián)到特定個人。

使用聚合統(tǒng)計技術(shù)應(yīng)注意兩方面的應(yīng)用要求:一是數(shù)據(jù)聚合統(tǒng)計

可能會顯著改變數(shù)據(jù)的初始用途,因為輸出的結(jié)果為統(tǒng)計值,無法反

映每一單獨數(shù)據(jù)記錄的特征;二是應(yīng)用聚合統(tǒng)計技術(shù)對原始數(shù)據(jù)的樣

本量具有一定要求,若原始數(shù)據(jù)記錄的數(shù)量很少,則結(jié)合其他數(shù)據(jù)容

易推斷出其中具體的單獨數(shù)據(jù)記錄的特征。

2.泛化技術(shù)

泛化技術(shù)也是一種概括方法,又被稱為離散化處理,是通過降低

數(shù)據(jù)所選屬性的顆粒度、精度,對數(shù)據(jù)進(jìn)行更概括、抽象描述的匿名

化技術(shù)。使用泛化技術(shù)的目標(biāo)是減少屬性唯一值的數(shù)量,使得被泛化

后的值被數(shù)據(jù)集中多個記錄所共享,從而增加某個特定數(shù)據(jù)記錄被推

測出的難度。例如,將一個人的年齡轉(zhuǎn)換為年齡范圍,或?qū)⒕_位置

轉(zhuǎn)換為不太精確的位置。

數(shù)據(jù)泛化的程度需要均衡預(yù)期目的和風(fēng)險控制兩方面要求。數(shù)據(jù)

范圍過大可能意味著數(shù)據(jù)效用的顯著損失,數(shù)據(jù)范圍過小可能意味著

幾乎不修改數(shù)據(jù),特定數(shù)據(jù)記錄仍然很容易重新識別。常見的泛化方

法包括取整、頂層與底層編碼等。

取整:即為數(shù)值型標(biāo)識符選定一個取整基數(shù),然后將每個具體值

向上或向下取整至最接近取整基數(shù)的倍數(shù)。向上還是向下取整按概率

確定,該概率值取決于觀察值與最接近取整基數(shù)倍數(shù)的接近程度。例

如,如果取整基數(shù)為10,觀察值為7,應(yīng)將7向上取整至10,概率

26

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

為0.7,若向下取整至0,概率為0.3。同時還可以按要求進(jìn)行受控取

整,如確保取整值的求和結(jié)果與原始數(shù)據(jù)的求和取整值相同。

頂層與底層編碼:即為數(shù)值型標(biāo)識符設(shè)定一個可能的取值范圍,

用高于或低于所設(shè)定的臨界值的描述替換某一特定數(shù)據(jù)記錄在該屬

性上的具體數(shù)值,主要適用于連續(xù)或分類有序的數(shù)據(jù)類型。例如,將

某一員工的薪水值設(shè)置為“高于10000元”,其中“10000”為高收入

值的界限,而不記錄準(zhǔn)確的金額。

3.隨機(jī)化技術(shù)

隨機(jī)化技術(shù)指通過隨機(jī)修改數(shù)據(jù)屬性的值,使得隨機(jī)化處理后的

值區(qū)別于原來的真實值。隨機(jī)化技術(shù)降低了未經(jīng)授權(quán)主體從同一數(shù)據(jù)

記錄中根據(jù)其他屬性值推導(dǎo)出某一屬性值的能力,會對原始數(shù)據(jù)記錄

的真實性造成一定影響。常見的隨機(jī)化技術(shù)有數(shù)據(jù)擾動、數(shù)據(jù)置換等。

數(shù)據(jù)擾動:又稱噪聲添加,即通過添加隨機(jī)值來修改數(shù)據(jù)中的值,

同時盡可能保持該屬性在數(shù)據(jù)集中的原始統(tǒng)計特性,包括屬性的分布、

平均值、方差、標(biāo)準(zhǔn)偏差、協(xié)方差以及相關(guān)性。數(shù)據(jù)擾動的程度應(yīng)當(dāng)

控制在一定范圍內(nèi)容,如果擾動程度太小,匿名化效果較弱;如果擾

動程度太大,最終值將與原始值相差太大,數(shù)據(jù)集的效用可能會降低。

數(shù)據(jù)擾動通常用于數(shù)值型標(biāo)識符,例如對日期前后隨機(jī)+/-3個自然日。

數(shù)據(jù)置換:相當(dāng)于一種洗牌,即重新排列數(shù)據(jù)屬性中的標(biāo)識符,

使之無法與原始記錄對應(yīng),但各個屬性的值仍在數(shù)據(jù)集中表示,保持

了原有數(shù)據(jù)集中所選屬性整體的準(zhǔn)確統(tǒng)計分布。數(shù)值型標(biāo)識符和非數(shù)

值型標(biāo)識符均可使用數(shù)據(jù)置換技術(shù)。在保持所選屬性之間原有相關(guān)性

27

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

的情況下,置換算法可用于單個或多個屬性。例如,對姓名進(jìn)行假名

化處理后,對職位、性別、年齡等進(jìn)行亂序重排。

4.數(shù)據(jù)合成技術(shù)

數(shù)據(jù)合成技術(shù)是顯著修改原有數(shù)據(jù)的所有屬性,重新合成產(chǎn)生新

的微數(shù)據(jù)的方法。合成數(shù)據(jù)集與原始數(shù)據(jù)的特征相符,可根據(jù)所選的

統(tǒng)計特性隨機(jī)生成,但不會體現(xiàn)原始數(shù)據(jù)的任何特定記錄。但若是合

成后數(shù)據(jù)與原始數(shù)據(jù)的擬合度過高可能會存在被關(guān)聯(lián)識別風(fēng)險。

通常合成數(shù)據(jù)的生成會在假名化的基礎(chǔ)上,采用隨機(jī)化技術(shù)與抽

樣技術(shù)對真實數(shù)據(jù)集進(jìn)行多次或連續(xù)轉(zhuǎn)換。合成數(shù)據(jù)通常適用于應(yīng)用

程序開發(fā)、測試和應(yīng)用,將其作為真實數(shù)據(jù)的替代項,幫助數(shù)據(jù)開發(fā)

主體獲得與基于真實數(shù)據(jù)的處理同樣的效果。

5.隱私計算技術(shù)

隱私計算技術(shù)是指在保護(hù)數(shù)據(jù)本身不對外泄露的前提下實現(xiàn)數(shù)

據(jù)分析計算的技術(shù)集合,通過對所涉及的隱私信息進(jìn)行描述、度量、

評價和融合等操作,形成一套符號化、公式化且具有量化評價標(biāo)準(zhǔn)的

隱私計算方法,達(dá)到對數(shù)據(jù)“可用不可見”的目的。目前主流的隱私

計算技術(shù)主要分為三大方向:一是以多方安全計算為代表的基于密碼

學(xué)的隱私計算技術(shù);二是以聯(lián)邦學(xué)習(xí)為代表的人工智能與隱私保護(hù)技

術(shù)融合衍生的技術(shù);三是以可信執(zhí)行環(huán)境為代表的基于可信硬件的隱

私計算技術(shù)。

多方安全計算:是指在無可信第三方的情況下,多個參與方共同

計算一個目標(biāo)函數(shù),在不泄露己方數(shù)據(jù)的同時完成數(shù)據(jù)計算,并且保

28

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

證每一方僅獲取自己的計算結(jié)果,無法通過計算過程中的交互數(shù)據(jù)推

測出其他任意一方的輸入數(shù)據(jù)。多方安全計算通常應(yīng)用于聯(lián)合數(shù)據(jù)分

析、數(shù)據(jù)可信交換、分布式投票、隱私競標(biāo)和拍賣、黑名單安全查詢、

數(shù)據(jù)庫檢索等場景。

聯(lián)邦學(xué)習(xí):是指實現(xiàn)在本地原始數(shù)據(jù)不出庫的情況下,各方通過

對中間加密數(shù)據(jù)的流通、參數(shù)交換和處理,共同建立虛擬的共有模型,

完成多方聯(lián)合的機(jī)器學(xué)習(xí)訓(xùn)練。聯(lián)邦學(xué)習(xí)可以從技術(shù)上有效解決數(shù)據(jù)

孤島問題,讓參與方在不泄露各自擁有的用戶數(shù)據(jù)的基礎(chǔ)上,實現(xiàn)聯(lián)

合建模和AI協(xié)作,加速隱私計算在不同場景的應(yīng)用與落地。根據(jù)參

與方的數(shù)據(jù)分布和特征重疊情況的不同,可以分為橫向聯(lián)邦學(xué)習(xí)、縱

向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)。

可信執(zhí)行環(huán)境:是指將需要保護(hù)的數(shù)據(jù)和代碼存儲在可信執(zhí)行環(huán)

境中,即通過軟硬件方法在中央處理器中構(gòu)建一個安全的區(qū)域,對這

些數(shù)據(jù)和代碼的任何訪問都必須通過基于硬件的訪問控制,防止它們

在使用中未經(jīng)授權(quán)被訪問或修改,從而保證其內(nèi)部加載的程序和數(shù)據(jù)

在機(jī)密性和完整性上得到保護(hù)??尚艌?zhí)行環(huán)境是一種硬件解決方案,

安全性較高,但運維成本相應(yīng)上升,多用于本地和遠(yuǎn)程驗證場景。

六、數(shù)據(jù)處理環(huán)境要求

(一)管理制度要求

組織應(yīng)當(dāng)遵守法律法規(guī)及強(qiáng)制性標(biāo)準(zhǔn)的相關(guān)要求,銜接自身數(shù)據(jù)

管理制度,制定數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理各環(huán)節(jié)的審批流程,

推進(jìn)數(shù)據(jù)分類分級管理,梳理特殊數(shù)據(jù)類型的內(nèi)、外部特別管理要求,

29

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

在此基礎(chǔ)上細(xì)化數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理的權(quán)限要求和操作

規(guī)范,并嵌入組織內(nèi)部管理機(jī)制。

(二)技術(shù)能力要求

組織應(yīng)當(dāng)強(qiáng)化數(shù)據(jù)處理的基礎(chǔ)技術(shù)保障,具備數(shù)據(jù)收集、存儲、

加工、分析、挖掘和安全防護(hù)的各類技術(shù)工具,具有安全、便捷、高

效的技術(shù)應(yīng)用系統(tǒng)和可信環(huán)境,熟知數(shù)據(jù)清洗、去標(biāo)識化、匿名化處

理的常見技術(shù)方法和應(yīng)用特點,結(jié)合業(yè)務(wù)場景和內(nèi)外部要求,統(tǒng)籌組

合形成平衡數(shù)據(jù)安全要求和業(yè)務(wù)應(yīng)用目的的有效數(shù)據(jù)處理技術(shù)方案。

(三)人員能力要求

組織應(yīng)當(dāng)提升內(nèi)部人員的數(shù)據(jù)處理能力和安全防護(hù)水平,明確各

崗位數(shù)據(jù)合規(guī)職責(zé)和數(shù)據(jù)處理權(quán)限要求,定期組織數(shù)據(jù)處理技能培訓(xùn)

和安全合規(guī)教育,要求參與數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理的人員

應(yīng)當(dāng)具備相應(yīng)的數(shù)據(jù)處理能力,嚴(yán)格按照數(shù)據(jù)安全管理制度和流程進(jìn)

行操作。必要情況下,組織可以尋求第三方技術(shù)服務(wù)機(jī)構(gòu)、法律服務(wù)

機(jī)構(gòu)、審計咨詢機(jī)構(gòu)、數(shù)據(jù)安全防護(hù)機(jī)構(gòu)、檢測認(rèn)證機(jī)構(gòu)等協(xié)助提供

技術(shù)能力和業(yè)務(wù)合規(guī)支持。

(四)過程控制要求

組織應(yīng)當(dāng)推進(jìn)數(shù)據(jù)處理過程的實時可控和動態(tài)審計,采取措施清

晰記錄數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理過程的細(xì)節(jié)、使用的參數(shù)和

執(zhí)行情況,監(jiān)控審查去標(biāo)識化各步驟實施過程,及時發(fā)現(xiàn)已經(jīng)出現(xiàn)或

可能出現(xiàn)的錯誤或偏差,有效采取措施進(jìn)行糾正和防護(hù),并對監(jiān)控審

查過程進(jìn)行記錄,便于日后審查、維護(hù)、回溯和審計。同時加強(qiáng)對第

30

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

三方接收者的數(shù)據(jù)授權(quán)和授權(quán)跟蹤管理,采取技術(shù)保障措施和商業(yè)流

程防范去標(biāo)識、匿名化數(shù)據(jù)的再識別和意外泄露。

(五)事故管理要求

組織應(yīng)當(dāng)完善數(shù)據(jù)處理風(fēng)險和安全事件管理機(jī)制,做好數(shù)據(jù)風(fēng)險

識別、風(fēng)險評估、風(fēng)險處置等工作,制定并實施數(shù)據(jù)安全事件應(yīng)急預(yù)

案,針對不同等級的風(fēng)險采取針對性的風(fēng)險處置措施,關(guān)注涉及數(shù)據(jù)

標(biāo)識符、數(shù)據(jù)映射表、匿名化處理記錄表等信息的泄露風(fēng)險,防范惡

意重新標(biāo)識行為。發(fā)生數(shù)據(jù)泄露、篡改、丟失等安全事件的,應(yīng)當(dāng)立

即采取補(bǔ)救措施,及時通知管理機(jī)構(gòu)并按規(guī)定告知相關(guān)數(shù)據(jù)主體。

附件一:常見直接標(biāo)識符和準(zhǔn)標(biāo)識符示例

附件二:常見標(biāo)識符的去標(biāo)識化或匿名化參考

附件三:部分?jǐn)?shù)據(jù)處理技術(shù)方法應(yīng)用建議

31

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

附件一:常見直接標(biāo)識符和準(zhǔn)標(biāo)識符示例

(一)直接標(biāo)識符示例

直接標(biāo)識符通常表現(xiàn)為在特定環(huán)境下可以單獨識別特定自然人

或數(shù)據(jù)所描述特定對象的識別號碼、特征或代碼。需注意,標(biāo)識符的

識別難度并不與數(shù)據(jù)的敏感程度直接掛鉤。本報告分別列舉了個人數(shù)

據(jù)、企業(yè)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)的部分直接標(biāo)識符示例,常見的直接標(biāo)識

符包括但不限于:

類型序號常見直接標(biāo)識符

1姓名

2公民身份號碼

3護(hù)照號

4工作學(xué)習(xí)編號,包括工號、學(xué)號等

5電話號碼

6傳真號碼

7銀行賬戶

8駕照號

個人9車牌號

數(shù)據(jù)10社會保障號碼

11健康卡號碼

12病歷號碼

13網(wǎng)絡(luò)賬號、昵稱等

14網(wǎng)絡(luò)身份標(biāo)識號(ID)

15個人移動終端設(shè)備標(biāo)識符

16詳細(xì)住址

17電子郵件地址

18個人行蹤軌跡

32

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)

19生物識別碼,包括指紋和聲紋等識別碼

20全臉圖片圖像及其他任何可比對的圖像

1組織機(jī)構(gòu)名稱

2營業(yè)執(zhí)照編號

3統(tǒng)一社會信用代碼

4法定代表人姓名

5稅務(wù)登記證號

6社會保險登記證號碼

7統(tǒng)計登記證號碼

企業(yè)

8銀行賬戶信息

數(shù)據(jù)

9組織許可證號

10企業(yè)注冊地址

11網(wǎng)絡(luò)和系統(tǒng)賬號信息

12網(wǎng)站標(biāo)識碼,互聯(lián)網(wǎng)協(xié)議(IP)地址號

13網(wǎng)絡(luò)通用資源定位符(URL)

14合同編號

15商業(yè)發(fā)票編號

1設(shè)備標(biāo)識符和序列號

2設(shè)備位置信息

3設(shè)備使用記錄

4設(shè)備故障或警報記錄

物聯(lián)網(wǎng)5商品條碼

數(shù)據(jù)6貨運設(shè)備識別碼

7集裝箱識別代碼

8醫(yī)療器械唯一標(biāo)識(UDI)

9數(shù)字版權(quán)唯一標(biāo)識符(DCI)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論