電信業(yè)數(shù)字化轉(zhuǎn)型發(fā)展白皮書(2022年)_第1頁
電信業(yè)數(shù)字化轉(zhuǎn)型發(fā)展白皮書(2022年)_第2頁
電信業(yè)數(shù)字化轉(zhuǎn)型發(fā)展白皮書(2022年)_第3頁
電信業(yè)數(shù)字化轉(zhuǎn)型發(fā)展白皮書(2022年)_第4頁
電信業(yè)數(shù)字化轉(zhuǎn)型發(fā)展白皮書(2022年)_第5頁
已閱讀5頁,還剩85頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)清洗、去標(biāo)識化、匿名化業(yè)務(wù)規(guī)程(試行)中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所北京國際大數(shù)據(jù)交易所2023年11月版權(quán)聲明本報(bào)告版權(quán)屬于中國信息通信研究院、北京國際大數(shù)據(jù)交易有限公司,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本報(bào)告文字或者觀點(diǎn)的,應(yīng)注明“來源:中國信息通信研究院、北京國際大數(shù)據(jù)交易有限公司”。違反上述聲明者,編者將追究其相關(guān)法律責(zé)任。匿名化處理等業(yè)務(wù)活動及相應(yīng)的技術(shù)測試評估,支撐數(shù)據(jù)共享、交京市數(shù)字經(jīng)濟(jì)全產(chǎn)業(yè)鏈開放發(fā)展行動方案》等法規(guī)政策要求,在北京市經(jīng)濟(jì)和信息化局指導(dǎo)下,中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究組織依據(jù)法律法規(guī)要求及相關(guān)業(yè)務(wù)場景需要,對其控制的數(shù)據(jù)資源進(jìn)行清洗、去標(biāo)識化、匿名化處理,是為滿足數(shù)據(jù)處理目的對原始數(shù)據(jù)逐步深入加工改造的過程,是提升數(shù)據(jù)可用性和安全性的本報(bào)告以業(yè)務(wù)操作規(guī)程形式為組織提供數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理的流程和方法指引,可以作為組織提升自身數(shù)據(jù)質(zhì)量和可用性的指引方法,作為數(shù)據(jù)交易中介機(jī)構(gòu)審核交易數(shù)據(jù)合規(guī)性、安全性和可流通性的參考規(guī)則,以及作為相關(guān)認(rèn)證、應(yīng)用場景針對相關(guān)技術(shù)進(jìn)行安全測試評估的評價工具,支持、鼓勵本報(bào)告所描述的技術(shù)方法適用于廣義的數(shù)據(jù)范疇,包括但不限于個人數(shù)據(jù)、企業(yè)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等,但特殊數(shù)據(jù)類型需要遵守相應(yīng)的特別管理要求。本報(bào)告所描述的數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理,是基于數(shù)據(jù)資源的加工處理過程。有“數(shù)”才能對“數(shù)”進(jìn)行處理,通過采集、標(biāo)識、編碼形成數(shù)據(jù)資源,是對數(shù)據(jù)進(jìn)行清洗、去標(biāo)識化、匿名化處理的前提。前者是形成數(shù)據(jù)的基礎(chǔ),后者本報(bào)告主要描述各數(shù)據(jù)處理活動的基本原理和通用技術(shù)方法,需要結(jié)合實(shí)際場景具體適用。本報(bào)告所引用的部分技術(shù)方法參考了標(biāo)準(zhǔn)指南,在此基礎(chǔ)上,結(jié)合《個人信息保護(hù)法》等法律法規(guī)的界定,根據(jù)技術(shù)特性和處理效果,對去標(biāo)識化技術(shù)和匿名化技術(shù)進(jìn)行相關(guān)應(yīng)用場景也在不斷發(fā)展變化,本報(bào)告將持續(xù)跟蹤觀察,適時更 1 1 1 2 4 4 4 4 4 5 5 5 6 9 12 12 13 18 21 21 21 25 29 29 30 30 30 31 32 36 40 43表1數(shù)據(jù)清洗、去標(biāo)識化、匿名化處理的技術(shù)特點(diǎn)和差異............................1習(xí)近平總書記在2023年中國國際服務(wù)《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用一、處理目標(biāo)及相互關(guān)系(一)數(shù)據(jù)清洗是數(shù)據(jù)可用的保障(二)去標(biāo)識化是數(shù)據(jù)脫敏的關(guān)鍵2數(shù)據(jù)去標(biāo)識化與在先的標(biāo)識形成過程分屬數(shù)據(jù)處理的不同階段(三)匿名化是去標(biāo)識化的強(qiáng)化3低高低中中中高低高來源:中國信息通信研究院4二、數(shù)據(jù)處理原則(一)合法合規(guī)(二)安全優(yōu)先(三)平衡效用(四)技管結(jié)合組織應(yīng)綜合利用技術(shù)和管理兩方面措施實(shí)現(xiàn)數(shù)據(jù)處理的最佳效5(五)有效溯源三、數(shù)據(jù)清洗規(guī)程(一)處理目的存在空值、無效值,響應(yīng)依據(jù)規(guī)范標(biāo)準(zhǔn)的各2.準(zhǔn)確性3.完整性4.一致性65.可溯源性(二)處理流程1.抽取清洗對象2.定義清洗規(guī)則7(2)確定清洗邏輯規(guī)則3.標(biāo)識錯誤數(shù)據(jù)(2)常見錯誤類型84.數(shù)據(jù)修正處理5.數(shù)據(jù)轉(zhuǎn)換檢驗(yàn)96.評估清洗結(jié)果數(shù)據(jù)清洗后及時評價輸出結(jié)果是否符合事先設(shè)定清洗規(guī)則和規(guī)(三)常見技術(shù)方法1.殘缺數(shù)據(jù)處理(1)刪除缺失值份當(dāng)前數(shù)據(jù)后,直接刪除后期加工處理不需(2)填充缺失內(nèi)容(3)重新采集數(shù)據(jù)補(bǔ)全2.偏差(異常)數(shù)據(jù)處理(1)格式不規(guī)范數(shù)據(jù)(2)邏輯沖突數(shù)據(jù)(3)內(nèi)容不匹配數(shù)據(jù)3.重復(fù)數(shù)據(jù)處理4.其他錯誤數(shù)據(jù)處理四、數(shù)據(jù)去標(biāo)識化規(guī)程(一)處理目的1.標(biāo)識不可識別2.控制被識別風(fēng)險將去標(biāo)識化后的數(shù)據(jù)可能被未經(jīng)授權(quán)的主體再次識別的風(fēng)險控3.兼顧數(shù)據(jù)效用目標(biāo)(二)處理流程1.確定去標(biāo)識化對象于外部和內(nèi)部的多方面因素的考量確定需要進(jìn)行去標(biāo)識處理的數(shù)據(jù)(3)數(shù)據(jù)來源方要求根據(jù)數(shù)據(jù)采集時是否存在對數(shù)據(jù)來源方等作出了去標(biāo)識化的相2.制定去標(biāo)識化目標(biāo)(1)明確標(biāo)識被識別風(fēng)險的控制要求(2)明確滿足數(shù)據(jù)可用性的最低要求3.識別相關(guān)標(biāo)識符(1)查表識別(2)規(guī)則判定組織通過總結(jié)可能涉及直接標(biāo)識符和準(zhǔn)標(biāo)識符的數(shù)據(jù)格式和規(guī)(3)人工分析4.對標(biāo)識符進(jìn)行處理型進(jìn)行處理。具體可參考本節(jié)“(三)常見技術(shù)方法”5.驗(yàn)證數(shù)據(jù)處理結(jié)果(1)安全性驗(yàn)證(2)有用性驗(yàn)證6.評估被識別風(fēng)險信息安全技術(shù)個人信息去標(biāo)識化效果評估指南》進(jìn)行流高風(fēng)險(4級能直接識別主體或敏感屬性的數(shù)據(jù),即包含直接標(biāo)識符的數(shù)據(jù);較高風(fēng)險(3級僅消除直接標(biāo)識符的數(shù)據(jù),即刪除了直接標(biāo)識符,但仍包含準(zhǔn)標(biāo)識符的數(shù)據(jù);可控風(fēng)險(2級息主體或特定標(biāo)識內(nèi)容;低風(fēng)險(1級不再保留個體顆粒度的聚(三)常見技術(shù)方法1.數(shù)據(jù)抽樣技術(shù)數(shù)據(jù)抽樣是通過選取數(shù)據(jù)集中有代表性的子集來對原始數(shù)據(jù)集2.加解密技術(shù)得到的計(jì)算結(jié)果等價于基于原始明文數(shù)據(jù)直接進(jìn)行相同計(jì)算所得到3.假名化技術(shù)識符或準(zhǔn)標(biāo)識符的過程。假名化技術(shù)保留了原始數(shù)據(jù)的唯一性特點(diǎn),4.抑制遮蓋技術(shù)抑制遮蓋技術(shù)即對需要進(jìn)行處理的標(biāo)識符或數(shù)據(jù)項(xiàng)進(jìn)行刪除或五、數(shù)據(jù)匿名化規(guī)程(一)處理目的1.促使標(biāo)識難以復(fù)原數(shù)據(jù)匿名化處理是數(shù)據(jù)去標(biāo)識化后應(yīng)用相關(guān)技術(shù)使相關(guān)標(biāo)識符2.符合風(fēng)險可接受水平3.支持統(tǒng)計(jì)、訓(xùn)練用途(二)處理流程1.確定匿名化對象例如,組織遵照《汽車數(shù)據(jù)安全管理若干規(guī)定(試(2)遵循最小必要原則確定處理對象(4)基于業(yè)務(wù)開展需要確定處理對象2.設(shè)定匿名化目標(biāo)3.先行去標(biāo)識化處理4.實(shí)施匿名化處理一是考慮所采用的匿名化技術(shù)進(jìn)行處理后數(shù)據(jù)是否仍滿足預(yù)期5.評估匿名化效果化效果評估指南》提供了“基于K匿名模型的重標(biāo)識風(fēng)險計(jì)算方案6.定期追蹤復(fù)原風(fēng)險組織應(yīng)當(dāng)定期追蹤內(nèi)外部相關(guān)主體對匿名化處理數(shù)據(jù)的使用情(三)常見技術(shù)方法1.聚合統(tǒng)計(jì)技術(shù)聚合統(tǒng)計(jì)技術(shù)指將數(shù)據(jù)集從記錄列表轉(zhuǎn)換為匯總值或相關(guān)統(tǒng)計(jì)屬性將某一條數(shù)據(jù)記錄(女,北京,1.63m,59.8kg,1990年9月12.泛化技術(shù)用高于或低于所設(shè)定的臨界值的描述替換某一特定數(shù)據(jù)記錄在該屬3.隨機(jī)化技術(shù)4.數(shù)據(jù)合成技術(shù)5.隱私計(jì)算技術(shù)隱私計(jì)算技術(shù)是指在保護(hù)數(shù)據(jù)本身不對外泄露的前提下實(shí)現(xiàn)數(shù)合建模和AI協(xié)作,加速隱私計(jì)算在不同場景的應(yīng)用與落地。根據(jù)參六、數(shù)據(jù)處理環(huán)境要求(一)管理制度要求(二)技術(shù)能力要求(三)人員能力要求(四)過程控制要求(五)事故管理要求附件一:常見直接標(biāo)識符和準(zhǔn)標(biāo)識符示例(一)直接標(biāo)識符示例直接標(biāo)識符通常表現(xiàn)為在特定環(huán)境下可以單獨(dú)識別特定自然人123456789123456789123456789(二)準(zhǔn)標(biāo)識符示例準(zhǔn)標(biāo)識符通常指在相應(yīng)環(huán)境下無法單獨(dú)識別特定自然人或數(shù)據(jù)123456789123456789123456附件二:常見標(biāo)識符的去標(biāo)識化或匿名化參考本報(bào)告借鑒《GB/T37964-2019信息安全技術(shù)個人信息去標(biāo)識化指名化時根據(jù)按照順序或隨機(jī)選擇一個人名代替原名。如使用字符,并保持可逆特性。如使用密碼和字符編碼技術(shù),使用泛化編碼。使用概括、抽象的符號來表示,如使用“張先生”情況。如對企業(yè)2020年簽訂的設(shè)備采購類合同進(jìn)行統(tǒng)計(jì),轉(zhuǎn)用“江西省XX市XX縣”來代替"江西省吉安市安??h”全部抑制遮蓋。直接刪除姓名或使用統(tǒng)一的“*”來表示。如為其設(shè)置一定閾值,如溫度>30℃,空氣相對濕度低于70%。部分抑制遮蓋。對日期中的一部分做屏蔽,如1880年某月1泛化編碼。使用概括、抽象的日期來表示,如使用1880年代隨機(jī)化-數(shù)據(jù)置換。使用數(shù)據(jù)集中其他記錄的相應(yīng)數(shù)值代替本全部抑制遮蓋。直接刪除數(shù)值或使用統(tǒng)一的“*”來表示。如4個人,分別是藍(lán)色、綠色和淺褐色的眼睛"來代替"有1個人泛化-頂層和底層編碼。大于或小于一個特定值的處理成某個隨機(jī)化-數(shù)據(jù)置換。使用數(shù)據(jù)集中其他記錄的相應(yīng)數(shù)值代替本機(jī)數(shù),將其加到原始數(shù)值上并代替原始數(shù)值。如對于身高附件三:部分?jǐn)?shù)據(jù)處理技術(shù)方法應(yīng)用建議對原始數(shù)據(jù)進(jìn)行加原始數(shù)據(jù)進(jìn)行相同可在不解密情況下對密文進(jìn)行計(jì)算和醫(yī)療數(shù)據(jù)模私數(shù)據(jù)求交計(jì)算消耗和性能要求較技術(shù)應(yīng)用理用化程度還直接刪除或采用字符掩碼屏蔽隱私數(shù)證底層數(shù)據(jù)無法訪主要適用于用于數(shù)值與非數(shù)值數(shù)據(jù)容易導(dǎo)致信抑制會影響執(zhí)行相對容與其他技術(shù)結(jié)合提升抗將個體的數(shù)據(jù)轉(zhuǎn)化值與最小值等統(tǒng)計(jì)代表原始數(shù)據(jù)集的適用于連續(xù)數(shù)據(jù)的整體且不需要反映每一單獨(dú)數(shù)據(jù)記錄的對個體特征可能會降低數(shù)據(jù)的有用據(jù)樣本量有適用場景有需結(jié)合應(yīng)用目選擇具體降低數(shù)據(jù)所選屬性多用于數(shù)值被概括處理且仍對預(yù)期目的有用的需注意泛化過大可能過度破壞數(shù)據(jù)面臨較大重泛化技術(shù)實(shí)數(shù)據(jù)可直接用電子表格常數(shù)據(jù)處理隨機(jī)修改數(shù)據(jù)屬性區(qū)別于原來的真實(shí)據(jù)進(jìn)行擾動和置換適用于需要保留個體數(shù)留所選屬性的統(tǒng)計(jì)分布會對原始數(shù)據(jù)記錄真實(shí)對個體數(shù)據(jù)準(zhǔn)確性有要求時避免使用隨機(jī)化技術(shù)得到成熟應(yīng)體分析時較顯著修改所有數(shù)據(jù)的統(tǒng)計(jì)特性重新擬不再保留原始數(shù)據(jù)可作為原始數(shù)據(jù)的替代項(xiàng)適用于應(yīng)如果合成后數(shù)據(jù)與原始數(shù)據(jù)擬合度過高可能會導(dǎo)致信息泄露在實(shí)際應(yīng)用對計(jì)算能力和計(jì)算效率在無可信第三方的計(jì)算結(jié)果外不能獲得其他參與方輸入通常應(yīng)用于聯(lián)合數(shù)據(jù)分全查詢檢索具有去中心算能力和各參與方聯(lián)合協(xié)同要求較高商用程度待只支持兩方在中央服務(wù)器或服個實(shí)體協(xié)作實(shí)現(xiàn)聯(lián)合建模和AI協(xié)作,而本地原始數(shù)據(jù)不應(yīng)用于聯(lián)合合機(jī)器學(xué)習(xí)需第三方參據(jù)存在異構(gòu)協(xié)調(diào)和標(biāo)準(zhǔn)化目標(biāo)受眾和落地場景仍與區(qū)塊鏈等通過提供一個可信多用于本地如移動金融硬件運(yùn)維成同時需要防止硬件漏洞和加強(qiáng)人員應(yīng)用場景受導(dǎo)致某些場某些設(shè)備有參考資料[8]中華人民共和國全國人民代表大會常務(wù)委員會.中華人民共和國數(shù)[9]中華人民共和國全國人民代表大會常務(wù)委員會.中華人民共和國個[10]北京市人民代表大會常務(wù)委員會.北京市數(shù)字經(jīng)濟(jì)促進(jìn)條例.2022[11]北京市經(jīng)濟(jì)和信息化局.北京市數(shù)字經(jīng)濟(jì)全產(chǎn)業(yè)鏈開放發(fā)展行動[12]ISO/IEC2stCD20889,Informationtechnology-Securitytechniques-Privacyenhancingdatade-identificationtechniques[13]ISO/IEC38505,Informationtechnology-GovernanceofIT-Governanceofdata-Part1:ApplicationofISO/IEC38500tothegovernanceofdata,March2017.[14]PersonalDataProtectionCommissionSingapore,GuidetoBasicAnonymisation.31March2022,.sg/-/media/Files/PDPC/PDF-Files/Advisory-Guidelines/Guid

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論