《隱私計(jì)算 脫敏效果評(píng)估技術(shù)要求(征求意見稿)》_第1頁(yè)
《隱私計(jì)算 脫敏效果評(píng)估技術(shù)要求(征求意見稿)》_第2頁(yè)
《隱私計(jì)算 脫敏效果評(píng)估技術(shù)要求(征求意見稿)》_第3頁(yè)
《隱私計(jì)算 脫敏效果評(píng)估技術(shù)要求(征求意見稿)》_第4頁(yè)
《隱私計(jì)算 脫敏效果評(píng)估技術(shù)要求(征求意見稿)》_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1T/CSACXXXX—XXXX隱私計(jì)算脫敏效果評(píng)估技術(shù)要求本標(biāo)準(zhǔn)描述了脫敏效果評(píng)估的技術(shù)要求,包括單次脫敏效果評(píng)估、基于數(shù)據(jù)挖掘的脫敏效果評(píng)估、脫敏系統(tǒng)效果評(píng)估三種類型,第一類評(píng)估是指將執(zhí)行脫敏算法前的隱私信息與脫敏后的隱私信息進(jìn)行可逆性、信息偏差性和信息損失性的評(píng)估;第二類評(píng)估是指對(duì)采用數(shù)據(jù)挖掘技術(shù)分析特定個(gè)人一定時(shí)間內(nèi)的已通過單次脫敏效果評(píng)估的脫敏信息,以推算出已脫敏的隱私信息分量程度的評(píng)估;第三類評(píng)估是指指對(duì)采用數(shù)據(jù)挖掘技術(shù)分析若干特定個(gè)人或所有個(gè)人一定時(shí)間內(nèi)的已通過基于數(shù)據(jù)挖掘的脫敏效果評(píng)估的脫敏信息,以推算出特定個(gè)人已脫敏的隱私信息分量程度的評(píng)估。本標(biāo)準(zhǔn)適用于規(guī)范各類組織的隱私信息脫敏處理活動(dòng),也適用于主管監(jiān)管部門、第三方評(píng)估機(jī)構(gòu)等組織對(duì)隱私信息脫敏處理活動(dòng)進(jìn)行監(jiān)督、管理和評(píng)估。2規(guī)范性引用文件本文件引述下列文件中的部分內(nèi)容。下列文件中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本指南,不注日期的引用文件,其最新版本適用于本指南。GB/T25069-2022信息安全技術(shù)術(shù)語(yǔ)GB/T35273-2020信息安全技術(shù)個(gè)人信息安全規(guī)范GB/T37964-2019信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南GB/T37988-2019信息安全技術(shù)數(shù)據(jù)安全能力成熟度模型T/CESAAAAAA-XXXX隱私計(jì)算脫敏控制技術(shù)要求3術(shù)語(yǔ)和定義3.1個(gè)人信息personalinformation以電子或者其他方式記錄的能夠單獨(dú)或者與其他信息結(jié)合識(shí)別特定自然人身份或者反映特定自然人活動(dòng)情況的各種信息,包含個(gè)人信息本身及其衍生信息,不包括匿名化處理后的信息。[來(lái)源:GB/T35273—2020,3.1,有修改]3.2隱私信息所有者privateinformationowner隱私信息所標(biāo)識(shí)或者關(guān)聯(lián)的自然人、組織、設(shè)備或程序等實(shí)體。3.3隱私信息處理者privateinformationprocessor對(duì)隱私信息進(jìn)行收集、存儲(chǔ)、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等操作的實(shí)體。3.4敏感屬性privateattribute信息載體中含有敏感個(gè)人信息的屬性,泄露、修改或破壞該屬性值會(huì)對(duì)個(gè)人權(quán)益產(chǎn)生影響。2T/CSACXXXX—XXXX[來(lái)源:GB/T37964-2019,3.10]3.5隱私信息privacyinformation能通過信息系統(tǒng)進(jìn)行處理的敏感個(gè)人信息,是個(gè)人信息記錄中的標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符和敏感屬性的集合。注:隱私信息包括個(gè)人生物特征信息、銀行賬號(hào)、通健康生理信息、交易信息、14歲以下(含)3.6原始信息rawinformation當(dāng)前主體采集或者接收到的信息,其包含隱私信息,需要進(jìn)行脫敏處理。3.7脫敏信息desensitizedinformation經(jīng)過特定脫敏算法處理的原始數(shù)據(jù),使其中的隱私信息難以直接關(guān)聯(lián)到特定的隱私信息所有者。3.8脫敏要求desensitizationrequirements待脫敏的隱私信息的脫敏等級(jí)、脫敏時(shí)機(jī)、脫敏算法及其參數(shù)選擇等約束信息。3.9延伸控制extendedcontrol在數(shù)據(jù)流通與共享過程中,收集、存儲(chǔ)、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等環(huán)節(jié)的隱私操作迭代控制、控制策略動(dòng)態(tài)調(diào)整、控制策略可控傳遞,以及控制策略執(zhí)行可信驗(yàn)證。3.10信息模態(tài)informationmode個(gè)人信息載體數(shù)據(jù)的具體表示形式,比如數(shù)字、文本、圖像、視頻、語(yǔ)音等。3.11數(shù)據(jù)脫敏datadesensitization通過一系列數(shù)據(jù)處理方法對(duì)原始數(shù)據(jù)進(jìn)行處理以減少或消除隱私信息的一種數(shù)據(jù)保護(hù)方法。[來(lái)源:GB/T37988-2019,3.12,有修改]3.12可逆性reversibility被脫敏掉的隱私信息被復(fù)原的可能性。3.13信息偏差性informationdeviation脫敏算法執(zhí)行前后,可觀測(cè)到的脫敏信息與原始信息的偏差。3.14信息損失性informationloss信息被不可逆的脫敏算法作用后,隱私信息損失部分對(duì)可用性的影響程度。3.15隱私信息抽取與度量extractionandmeasurementofprivateinformation通過對(duì)采集或接收的信息進(jìn)行分析,提取不同模態(tài)信息中的隱私信息分量,并對(duì)隱私信息分量進(jìn)行分類以及量化隱私信息分量的敏感度或保護(hù)程度。T/CSACXXXX—XXXX3.16隱私度量動(dòng)態(tài)調(diào)整privacymetricsdynamicallyadjusted通過識(shí)別判斷隱私信息所屬的應(yīng)用場(chǎng)景,對(duì)隱私信息分量的敏感度或保護(hù)程度進(jìn)行針對(duì)性的度量調(diào)整。3.17隱私延伸控制privacyextendedcontrols在數(shù)據(jù)泛在流通與共享過程中,對(duì)全生命周期各環(huán)節(jié)的隱私操作進(jìn)行迭代控制。3.18隱私按需保護(hù)privacyprotectedasintended約束隱私信息處理者根據(jù)延伸控制策略,對(duì)接收到的隱私信息進(jìn)行按需脫敏、按需刪除等處理,提供場(chǎng)景自適應(yīng)的隱私保護(hù)能力。4概述4.1脫敏效果評(píng)估的目標(biāo)脫敏效果評(píng)估的目標(biāo)包括:a)脫敏后的數(shù)據(jù)應(yīng)該符合法律法規(guī)和脫敏控制的要求;b)脫敏效果評(píng)估應(yīng)從可逆性、信息偏差性、信息損失性這三個(gè)維度來(lái)驗(yàn)證隱私信息脫敏處理的有效性和安全性;c)脫敏效果評(píng)估應(yīng)該確保脫敏后的數(shù)據(jù)可以安全地用于特定的分析、共享或存儲(chǔ)等需求。4.2脫敏效果評(píng)估的基本原則保護(hù)效果評(píng)估是對(duì)從脫敏后的隱私信息中恢復(fù)損失信息的難度進(jìn)行評(píng)價(jià)。脫敏效果評(píng)估執(zhí)行策略思路如圖1所示,若保護(hù)效果評(píng)估未達(dá)到預(yù)期效果,則可能重新執(zhí)行隱私信息抽取與度量、隱私度量動(dòng)態(tài)調(diào)整、隱私延伸控制、隱私按需保護(hù),詳細(xì)示例見附錄A。包括:a)脫敏效果評(píng)估的指標(biāo)體系,采用可逆性、信息偏差性和信息損失性等評(píng)估指標(biāo);b)單次脫敏效果評(píng)估,通過分析脫敏算法執(zhí)行前后的信息,衡量已脫敏的隱私信息分量的可恢復(fù)程度;c)基于數(shù)據(jù)挖掘的脫敏效果評(píng)估,通過收集特定個(gè)人一定時(shí)間內(nèi)的脫敏信息,采用數(shù)據(jù)挖掘技術(shù)試圖推算出已脫敏的隱私信息分量;d)脫敏系統(tǒng)效果評(píng)估,通過收集若干特定個(gè)人或所有個(gè)人的一定時(shí)間內(nèi)的脫敏信息,采用數(shù)據(jù)挖掘技術(shù)試圖推算特定個(gè)人的已脫敏的隱私信息分量;e)單次脫敏效果評(píng)估、基于數(shù)據(jù)挖掘的脫敏效果評(píng)估和脫敏系統(tǒng)效果評(píng)估的區(qū)別在于評(píng)估對(duì)象的數(shù)據(jù)集合范圍和規(guī)模不同。4T/CSACXXXX—XXXX圖1脫敏效果評(píng)估執(zhí)行策略思路4.2.1單次脫敏效果評(píng)估單次脫敏效果評(píng)估,是對(duì)從原始信息得到中間信息這一單一過程進(jìn)行的評(píng)估。單次脫敏效果可以從可逆性、信息偏差性、信息損失性三個(gè)維度進(jìn)行評(píng)估,若單次脫敏效果評(píng)估未達(dá)到預(yù)期閾值,則需反饋到隱私按需保護(hù)組件重新定義隱私操作。4.2.2基于數(shù)據(jù)挖掘的脫敏效果評(píng)估基于數(shù)據(jù)挖掘的脫敏效果評(píng)估,是指對(duì)采用數(shù)據(jù)挖掘技術(shù)分析特定個(gè)人一定時(shí)間內(nèi)的已通過單次脫敏效果評(píng)估的脫敏信息,以推算出已脫敏的隱私信息分量程度的評(píng)估?;跀?shù)據(jù)挖掘的脫敏效果可以從可逆性、信息偏差性、信息損失性三個(gè)維度進(jìn)行評(píng)估。若基于數(shù)據(jù)挖掘的脫敏效果評(píng)估未達(dá)到預(yù)期閾值,則需反饋到隱私度量動(dòng)態(tài)調(diào)整組件和隱私延伸控制組件更換場(chǎng)景描述和重新調(diào)整控制策略。4.2.3脫敏系統(tǒng)效果評(píng)估脫敏系統(tǒng)效果評(píng)估是指對(duì)采用數(shù)據(jù)挖掘技術(shù)分析若干特定個(gè)人或所有個(gè)人一定時(shí)間內(nèi)的已通過基于數(shù)據(jù)挖掘的脫敏效果評(píng)估的脫敏信息,以推算出特定個(gè)人已脫敏的隱私信息分量程度的評(píng)估。脫敏系統(tǒng)整體效果可以從可逆性、信息偏差性、信息損失性三個(gè)維度進(jìn)行評(píng)估。若脫敏系統(tǒng)效果評(píng)估未達(dá)到預(yù)期閾值,則需反饋到隱私信息抽取與度量組件、隱私度量動(dòng)態(tài)調(diào)整組件和隱私延伸控制組件重新調(diào)整原始度量、更換場(chǎng)景描述和重新調(diào)整控制策略。4.3脫敏效果評(píng)估的使用脫敏效果評(píng)估是支撐信息發(fā)布、統(tǒng)計(jì)查詢和數(shù)據(jù)交換的決策依據(jù),也是篩選和自動(dòng)化選擇隱私保護(hù)算法的基礎(chǔ)。脫敏效果評(píng)估的結(jié)果包括:?jiǎn)未蚊撁粜Чu(píng)估的結(jié)果、基于數(shù)據(jù)挖掘的脫敏效果評(píng)估的結(jié)果和脫敏系統(tǒng)效果評(píng)估的結(jié)果,這三種類別評(píng)估結(jié)果的使用對(duì)象和作用如下:a)單次脫敏效果評(píng)估的結(jié)果:可以為隱私信息處理者、安全合規(guī)審查團(tuán)隊(duì)等使用,以便衡量本次脫敏操作的效果和脫敏信息的可用性、安全性等,是否符合本次的脫敏期望;b)基于數(shù)據(jù)挖掘的脫敏效果評(píng)估的結(jié)果:可以為脫敏系統(tǒng)使用者、脫敏系統(tǒng)開發(fā)者等使用,以便衡量個(gè)人敏感數(shù)據(jù)在系統(tǒng)內(nèi)流轉(zhuǎn)時(shí),脫敏操作對(duì)個(gè)人信息的保護(hù)效果;c)脫敏系統(tǒng)效果評(píng)估的結(jié)果:可以為監(jiān)管機(jī)構(gòu)、數(shù)據(jù)管理者等使用,以便衡量個(gè)人信息在跨系統(tǒng)流轉(zhuǎn)時(shí)的隱私保護(hù)效果。5脫敏效果評(píng)估通用技術(shù)要求5T/CSACXXXX—XXXX5.1脫敏效果評(píng)估指標(biāo)體系5.1.1脫敏效果評(píng)估指標(biāo)體系概述脫敏效果評(píng)估指標(biāo)體系包括可逆性、信息偏差性和信息損失性等三類指標(biāo),根據(jù)應(yīng)用場(chǎng)景、數(shù)據(jù)模態(tài)、脫敏控制策略等要素,為每個(gè)評(píng)估維度設(shè)置相應(yīng)的權(quán)重,進(jìn)行加權(quán)計(jì)算,得出脫敏效果的綜合評(píng)估結(jié)果。5.1.2可逆性評(píng)估指標(biāo)可逆性評(píng)估是衡量從脫敏算法處理后信息中復(fù)原隱私信息的可能性。由于脫敏旨在保護(hù)敏感個(gè)人信息,通常情況下脫敏是不可逆的??赡嫘远攘糠椒ㄈ缦拢篴)脫敏算法可逆性,評(píng)估隱私信息脫敏使用的是否是不可逆脫敏算法,并根據(jù)算法是否可逆確立不同的可逆性評(píng)估指標(biāo),具體如下:1)脫敏算法為不可逆算法,應(yīng)依據(jù)脫敏算法參數(shù)確立可逆性評(píng)估指標(biāo);2)脫敏算法為可逆算法,應(yīng)依據(jù)脫敏算法恢復(fù)密鑰強(qiáng)度確立可逆性評(píng)估指標(biāo)。b)脫敏算法參數(shù)強(qiáng)度,評(píng)估脫敏算法使用的參數(shù)強(qiáng)度,并根據(jù)處理的數(shù)據(jù)模態(tài),確立算法參數(shù)強(qiáng)度指標(biāo)的所占權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法參數(shù)強(qiáng)度指標(biāo)所占權(quán)重值較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),算法參數(shù)強(qiáng)度指標(biāo)所占權(quán)重值較高。c)信息還原性,評(píng)估通過脫敏后的隱私信息還原出原始隱私信息的程度,例如:恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度,以此評(píng)估脫敏效果的可逆性,具體如下:1)恢復(fù)信息的準(zhǔn)確度越高,脫敏效果的可逆性就相對(duì)越高;2)恢復(fù)信息的偏差度越高,脫敏效果的可逆性就相對(duì)越低。5.1.3信息偏差性評(píng)估指標(biāo)信息偏差性評(píng)估是衡量脫敏算法處理后的信息失真和偏移程度。信息偏差性度量方法如下:a)統(tǒng)計(jì)偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的統(tǒng)計(jì)指標(biāo),例如:均方差、平均絕對(duì)值、KL散度、歐氏距離、余弦距離、峰值信噪比、結(jié)構(gòu)相似性指數(shù)、均值、中位數(shù)、方差、標(biāo)準(zhǔn)差、最大值、最小值等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇均方差、平均絕對(duì)值等指標(biāo)為統(tǒng)計(jì)偏差性評(píng)估指標(biāo);2)數(shù)據(jù)模態(tài)為音頻、圖像、視頻等的數(shù)據(jù),應(yīng)選擇峰值信噪比、結(jié)構(gòu)相似性指數(shù)等指標(biāo)為統(tǒng)計(jì)偏差性評(píng)估指標(biāo)。b)數(shù)據(jù)分布偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布差異,例如:分布形狀、分位數(shù)和累積分布函數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格、圖像等的數(shù)據(jù),應(yīng)選擇分布形狀等指標(biāo)為數(shù)據(jù)分布偏差性評(píng)估指標(biāo);2)數(shù)據(jù)模態(tài)為圖形、音頻、視頻等的數(shù)據(jù),應(yīng)選擇累積分布函數(shù)等指標(biāo)為數(shù)據(jù)分布偏差性評(píng)估指標(biāo)。c)模型應(yīng)用準(zhǔn)確性,使用原始數(shù)據(jù)和脫敏后數(shù)據(jù)分別構(gòu)建訓(xùn)練模型,選擇合適的驗(yàn)證集或測(cè)試集,比較模型在驗(yàn)證集或測(cè)試集上的效果,以此評(píng)估脫敏效果的信息偏差性,具體如下:1)模型在驗(yàn)證集或測(cè)試集上的效果越好,脫敏效果的信息偏差性相對(duì)越低;6T/CSACXXXX—XXXX2)模型在驗(yàn)證集或測(cè)試集上的效果越差,脫敏效果的信息偏差性相對(duì)越高。d)數(shù)據(jù)隨機(jī)性分析,評(píng)估脫敏算法對(duì)隱私信息的隨機(jī)性影響程度,以此評(píng)估脫敏效果的信息偏差性,具體如下:1)脫敏算法對(duì)隱私信息的隨機(jī)性影響越小,脫敏效果的信息偏差性相對(duì)越低;2)脫敏算法對(duì)隱私信息的隨機(jī)性影響越大,脫敏效果的信息偏差性相對(duì)越高。5.1.4信息損失性評(píng)估指標(biāo)信息損失性評(píng)估是衡量脫敏算法處理后隱私信息損失部分對(duì)可用性的影響程度。信息損失性度量方法如下:a)信息熵,信息熵是衡量數(shù)據(jù)集中信息量的度量指標(biāo),通過計(jì)算原始數(shù)據(jù)和脫敏后數(shù)據(jù)的信息熵,比較差異,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為圖像、音頻等的數(shù)據(jù),應(yīng)選擇信息熵等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的信息熵差值越大,脫敏效果的信息損失性相對(duì)越高。b)互信息,互信息是衡量?jī)蓚€(gè)隨機(jī)變量之間相互依賴程度的度量指標(biāo),通過計(jì)算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的互信息進(jìn)行量化評(píng)估,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇互信息等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的互信息越高,脫敏效果的信息損失性相對(duì)越低。c)數(shù)據(jù)分布特征,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布特征的統(tǒng)計(jì)指標(biāo),例如:均值、方差、分位數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)分布特征等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)分布特征越相近,脫敏效果的信息損失性相對(duì)越低。d)數(shù)據(jù)關(guān)聯(lián)性,計(jì)算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的關(guān)聯(lián)性的度量指標(biāo),例如:相關(guān)系數(shù)、協(xié)方差等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)性越高,脫敏效果的信息損失性相對(duì)越低。e)數(shù)據(jù)可用性,評(píng)估脫敏數(shù)據(jù)在特定應(yīng)用場(chǎng)景下的可用程度指標(biāo),例如:數(shù)據(jù)分析、模型訓(xùn)練等應(yīng)用場(chǎng)景,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為音頻、圖像等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)可用性等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)可用性越高,脫敏效果的信息損失性相對(duì)越低。5.2單次脫敏效果評(píng)估的技術(shù)要求單次脫敏效果評(píng)估,將執(zhí)行脫敏算法前的隱私信息與脫敏后的隱私信息進(jìn)行可逆性、信息偏差性和信息損失性的評(píng)估。具體的技術(shù)要求分為可逆性評(píng)估的技術(shù)要求,信息偏差性評(píng)估的技術(shù)要求和信息損失性評(píng)估的技術(shù)要求。單次脫敏效果評(píng)估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程如圖2所示。T/CSACXXXX—XXXX圖2單次脫敏效果評(píng)估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程5.2.1可逆性評(píng)估的技術(shù)要求單次脫敏效果評(píng)估中,可逆性的評(píng)估技術(shù)要求如下:a)依據(jù)執(zhí)行脫敏算法后的數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模和應(yīng)用場(chǎng)景,確定可逆性對(duì)應(yīng)的權(quán)重值,具體如1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),脫敏效果可逆性評(píng)估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),脫敏效果可逆性評(píng)估的權(quán)重值應(yīng)設(shè)置較高。b)依據(jù)隱私信息模態(tài)及應(yīng)用場(chǎng)景,選擇5.1.2節(jié)中的評(píng)估指標(biāo),評(píng)估已脫敏的隱私信息分量的被還原能力,并根據(jù)確立的各可逆性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)隱私數(shù)據(jù)在數(shù)據(jù)域內(nèi)流轉(zhuǎn)場(chǎng)景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)可適用于文本、圖像等模態(tài)的數(shù)據(jù);2)隱私數(shù)據(jù)在數(shù)據(jù)域外發(fā)布場(chǎng)景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)的權(quán)重值應(yīng)設(shè)置較高。c)單次脫敏效果評(píng)估結(jié)論的可逆性指標(biāo)未達(dá)到脫敏效果期望閾值時(shí),應(yīng)重新定義隱私操作,具體如下:1)應(yīng)反饋到隱私按需保護(hù)組件中的按需脫敏模塊,重新選擇脫敏算法,并設(shè)置該脫敏算法的參數(shù);2)重新定義隱私操作后,再次進(jìn)行數(shù)據(jù)脫敏,重新進(jìn)行單次脫敏效果的可逆性評(píng)估。5.2.2信息偏差性評(píng)估的技術(shù)要求單次脫敏效果評(píng)估中,信息偏差性的評(píng)估技術(shù)要求如下:a)依據(jù)執(zhí)行脫敏算法后的數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模和應(yīng)用場(chǎng)景,確定信息偏差性對(duì)應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),脫敏效果信息偏差性評(píng)估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),脫敏效果信息偏差性評(píng)估的權(quán)重值應(yīng)設(shè)置較高。b)依據(jù)數(shù)據(jù)規(guī)模及統(tǒng)計(jì)特性,選擇5.1.3節(jié)中的評(píng)估指標(biāo),評(píng)估脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的偏差程度,并根據(jù)確立的各信息偏差性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)均方誤差、平均數(shù)等指標(biāo)可適用于數(shù)據(jù)規(guī)模較小的數(shù)據(jù);2)Kullback-Leibler散度、余弦距離等指標(biāo)可適用于數(shù)據(jù)規(guī)模較大的數(shù)據(jù)。8T/CSACXXXX—XXXXc)單次脫敏效果評(píng)估結(jié)論的可逆性指標(biāo)符合脫敏效果期望閾值,但其信息偏差性未達(dá)到脫敏效果期望閾值時(shí),應(yīng)重新定義隱私操作,具體如下:1)應(yīng)反饋到隱私按需保護(hù)組件中的按需脫敏模塊,修改脫敏算法的參數(shù);2)若多次反饋后,仍未達(dá)到脫敏效果期望閾值,需反饋到隱私延伸控制組件中的延伸控制策略生成模塊,生成調(diào)整后的延伸控制策略。5.2.3信息損失性評(píng)估的技術(shù)要求單次脫敏效果評(píng)估中,信息損失性的評(píng)估技術(shù)要求如下:a)依據(jù)執(zhí)行脫敏算法后的數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模和應(yīng)用場(chǎng)景,確定信息損失性對(duì)應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),脫敏效果信息損失性評(píng)估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),脫敏效果信息損失性評(píng)估的權(quán)重值應(yīng)設(shè)置較高。b)依據(jù)數(shù)據(jù)規(guī)模及統(tǒng)計(jì)特性,選擇5.1.4節(jié)中的評(píng)估指標(biāo),評(píng)估脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的信息損失程度,并根據(jù)確立的各信息損失性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)信息熵、互信息等指標(biāo)可適用于數(shù)據(jù)規(guī)模較小的數(shù)據(jù);2)信息可用性、數(shù)據(jù)分布特征等指標(biāo)可適用于數(shù)據(jù)規(guī)模較大的數(shù)據(jù)。c)單次脫敏效果評(píng)估結(jié)論的可逆性指標(biāo)符合脫敏效果期望閾值,但其信息損失性未達(dá)到脫敏效果期望閾值時(shí),應(yīng)重新定義隱私操作,具體如下:。1)應(yīng)反饋到隱私按需保護(hù)組件中的按需脫敏模塊,修改脫敏算法的參數(shù);2)若多次反饋后,仍未達(dá)到脫敏效果期望閾值,需反饋到隱私延伸控制組件中的延伸控制策略生成模塊,生成調(diào)整后的延伸控制策略。5.3基于數(shù)據(jù)挖掘的脫敏效果評(píng)估的技術(shù)要求基于數(shù)據(jù)挖掘的脫敏效果評(píng)估,是指對(duì)采用數(shù)據(jù)挖掘技術(shù)分析特定個(gè)人一定時(shí)間內(nèi)的已通過單次脫敏效果評(píng)估的脫敏信息,以推算出已脫敏的隱私信息分量程度的評(píng)估。具體的技術(shù)要求分為信息偏差性評(píng)估的技術(shù)要求和信息損失性評(píng)估的技術(shù)要求。基于數(shù)據(jù)挖掘的脫敏效果評(píng)估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程如圖3所示。圖3基于數(shù)據(jù)挖掘的脫敏效果評(píng)估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程5.3.1信息偏差性評(píng)估的技術(shù)要求9T/CSACXXXX—XXXX基于數(shù)據(jù)挖掘的脫敏效果評(píng)估中,信息偏差性的評(píng)估技術(shù)要求如下:a)選取數(shù)據(jù)挖掘算法,對(duì)特定個(gè)人一定時(shí)間內(nèi)的脫敏信息進(jìn)行挖掘分析,推斷出特定個(gè)人的被脫敏的隱私信息,應(yīng)根據(jù)處理的數(shù)據(jù)模態(tài),確立數(shù)據(jù)挖掘算法,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)使用文本挖掘、關(guān)聯(lián)規(guī)則挖掘等數(shù)據(jù)挖掘算法;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),應(yīng)使用降維、圖數(shù)據(jù)挖掘等數(shù)據(jù)挖掘算法。b)評(píng)估推斷出的特定個(gè)人的隱私信息,與其對(duì)應(yīng)的真實(shí)隱私信息進(jìn)行偏差性的對(duì)比分析,并根據(jù)確立的各信息偏差性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)均方誤差、平均數(shù)等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)Kullback-Leibler散度、余弦距離等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)基于數(shù)據(jù)挖掘的脫敏效果評(píng)估結(jié)論的信息偏差性達(dá)到脫敏需求閾值時(shí),應(yīng)重新調(diào)整控制策略,具體如下:1)應(yīng)反饋到隱私延伸控制組件中的延伸控制策略生成模塊,生成調(diào)整后的延伸控制策略;2)重新調(diào)整控制策略,再次進(jìn)行數(shù)據(jù)脫敏,重新進(jìn)行基于數(shù)據(jù)挖掘的脫敏效果的信息偏差性評(píng)估。5.3.2信息損失性評(píng)估的技術(shù)要求基于數(shù)據(jù)挖掘的脫敏效果評(píng)估中,信息損失性的評(píng)估技術(shù)要求如下:a)選取數(shù)據(jù)挖掘算法,對(duì)特定個(gè)人一定時(shí)間內(nèi)的脫敏信息進(jìn)行挖掘分析,推斷出特定個(gè)人的被脫敏的隱私信息,應(yīng)根據(jù)處理的數(shù)據(jù)模態(tài),確立數(shù)據(jù)挖掘算法,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)使用文本挖掘、關(guān)聯(lián)規(guī)則挖掘等數(shù)據(jù)挖掘算法;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),應(yīng)使用降維、圖數(shù)據(jù)挖掘等數(shù)據(jù)挖掘算法。b)評(píng)估推斷出的特定個(gè)人的隱私信息,與其對(duì)應(yīng)的真實(shí)隱私信息進(jìn)行損失性的對(duì)比分析,并根據(jù)確立的各信息損失性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)信息熵、信息可用性等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)基于數(shù)據(jù)挖掘的脫敏效果評(píng)估結(jié)論的信息偏差性達(dá)到脫敏需求閾值,而信息損失性未達(dá)到脫敏效果期望閾值時(shí),應(yīng)更換場(chǎng)景描述,具體如下:1)應(yīng)反饋到隱私度量動(dòng)態(tài)調(diào)整組件中的場(chǎng)景識(shí)別和度量調(diào)整模塊,修正場(chǎng)景識(shí)別、度量調(diào)整機(jī)制;2)重新更換場(chǎng)景描述,再次進(jìn)行數(shù)據(jù)脫敏,重新進(jìn)行基于數(shù)據(jù)挖掘的脫敏效果的信息損失性評(píng)估。5.4脫敏系統(tǒng)效果評(píng)估的技術(shù)要求脫敏系統(tǒng)效果評(píng)估,是指對(duì)采用數(shù)據(jù)挖掘技術(shù)分析若干特定個(gè)人或所有個(gè)人一定時(shí)間內(nèi)的已通過基于數(shù)據(jù)挖掘的脫敏效果評(píng)估的脫敏信息,以推算出特定個(gè)人已脫敏的隱私信息分量程度的評(píng)估。具體的技術(shù)要求分為信息偏差性評(píng)估的技術(shù)要求和信息損失性評(píng)估的技術(shù)要求。脫敏系統(tǒng)效果評(píng)估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程如圖4所示T/CSACXXXX—XXXX圖4脫敏系統(tǒng)效果評(píng)估中,未符合脫敏效果期望閾值的指標(biāo)反饋流程5.4.1信息偏差性評(píng)估的技術(shù)要求脫敏系統(tǒng)效果評(píng)估中,信息偏差性的評(píng)估技術(shù)要求如下:a)選取數(shù)據(jù)挖掘算法,對(duì)若干特定個(gè)人或所有個(gè)人一定時(shí)間內(nèi)的脫敏信息進(jìn)行挖掘分析,推斷出特定個(gè)人的被脫敏的隱私信息,應(yīng)根據(jù)處理的數(shù)據(jù)模態(tài),確立數(shù)據(jù)挖掘算法,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)使用文本挖掘、關(guān)聯(lián)規(guī)則挖掘等數(shù)據(jù)挖掘算法;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),應(yīng)使用降維、圖數(shù)據(jù)挖掘等數(shù)據(jù)挖掘算法。b)評(píng)估推斷出的特定個(gè)人的隱私信息,與其對(duì)應(yīng)的真實(shí)隱私信息進(jìn)行偏差性的對(duì)比分析,并根據(jù)確立的各信息偏差性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)均方誤差、平均數(shù)等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)Kullback-Leibler散度、余弦距離等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)脫敏系統(tǒng)效果評(píng)估結(jié)論的信息偏差性達(dá)到脫敏需求閾值時(shí),應(yīng)重新調(diào)整控制策略,具體如下:1)應(yīng)反饋到隱私延伸控制組件中的延伸控制策略生成模塊,生成調(diào)整后的延伸控制策略;2)重新調(diào)整控制策略,再次進(jìn)行數(shù)據(jù)脫敏,重新進(jìn)行脫敏系統(tǒng)效果的信息偏差性評(píng)估。5.4.2信息損失性評(píng)估的技術(shù)要求脫敏系統(tǒng)效果評(píng)估中,信息損失性的評(píng)估技術(shù)要求如下:a)選取數(shù)據(jù)挖掘算法,對(duì)若干特定個(gè)人或所有個(gè)人一定時(shí)間內(nèi)的脫敏信息進(jìn)行挖掘分析,推斷出特定個(gè)人的被脫敏的隱私信息,應(yīng)根據(jù)處理的數(shù)據(jù)模態(tài),確立數(shù)據(jù)挖掘算法,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)使用文本挖掘、關(guān)聯(lián)規(guī)則挖掘等數(shù)據(jù)挖掘算法;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),應(yīng)使用降維、圖數(shù)據(jù)挖掘等數(shù)據(jù)挖掘算法。b)評(píng)估推斷出的特定個(gè)人的隱私信息,與其對(duì)應(yīng)的真實(shí)隱私信息進(jìn)行損失性的對(duì)比分析,并根據(jù)確立的各信息損失性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)信息熵、信息可用性等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)脫敏系統(tǒng)效果評(píng)估結(jié)論的信息偏差性達(dá)到脫敏效果期望閾值,而信息損失性未達(dá)到脫敏效果期望閾值,應(yīng)更換場(chǎng)景描述,具體如下:1)應(yīng)反饋到隱私度量動(dòng)態(tài)調(diào)整組件中的場(chǎng)景識(shí)別和度量調(diào)整模塊,修正場(chǎng)景識(shí)別、度量調(diào)整機(jī)制;T/CSACXXXX—XXXX2)若多次反饋后,仍未達(dá)到脫敏效果期望閾值,需反饋到隱私信息抽取與度量組件中的隱私信息抽取、隱私信息分類及隱私信息度量模塊,修正隱私信息的抽取、分類和度量。6脫敏效果評(píng)估的評(píng)估報(bào)告要求6.1形成評(píng)估報(bào)告的目的評(píng)估報(bào)告可以更好地幫助當(dāng)前信息擁有者、主管監(jiān)管部門、第三方評(píng)估機(jī)構(gòu)等組織對(duì)敏感信息脫敏處理活動(dòng)的把控,能夠更加直觀地展示脫敏效果評(píng)估的結(jié)果。6.2評(píng)估報(bào)告的組成內(nèi)容評(píng)估報(bào)告的內(nèi)容由評(píng)估項(xiàng)目概述、被評(píng)估對(duì)象描述、單項(xiàng)評(píng)估結(jié)果分析、整體評(píng)估、等級(jí)評(píng)估結(jié)論五部分組成。6.3評(píng)估項(xiàng)目概述組成內(nèi)容評(píng)估內(nèi)容概述由評(píng)估的目的、評(píng)估的依據(jù)、評(píng)估的過程、評(píng)估報(bào)告的分發(fā)范圍四部分組成。評(píng)估目的部分主要簡(jiǎn)述評(píng)估開展的背景、評(píng)估涉及的主體和評(píng)估目標(biāo)等內(nèi)容。評(píng)估的依據(jù)部分主要分類列出開展評(píng)估活動(dòng)所依據(jù)的標(biāo)準(zhǔn)、文件和合同等。評(píng)估的過程部分應(yīng)根據(jù)實(shí)際評(píng)估情況描述等級(jí)評(píng)估工作流程、評(píng)估每個(gè)階段完成的關(guān)鍵任務(wù)和評(píng)估的時(shí)間節(jié)點(diǎn)等內(nèi)容。評(píng)估報(bào)告的分發(fā)范圍部分應(yīng)說(shuō)明等級(jí)評(píng)估報(bào)告正本的份數(shù)與分發(fā)范圍。6.4被評(píng)估對(duì)象描述組成內(nèi)容被評(píng)估對(duì)象描述包括可選擇的評(píng)估類型、待評(píng)估的數(shù)據(jù)、待評(píng)估數(shù)據(jù)的類型和所屬主體、脫敏要求四部分。可選擇的評(píng)估類型包括單次脫敏效果評(píng)估、基于數(shù)據(jù)挖掘的脫敏效果評(píng)估、脫敏系統(tǒng)效果評(píng)估三類。待評(píng)估的數(shù)據(jù)伴隨選擇的評(píng)估類型不同會(huì)有所不同,具體在“5.2單次脫敏效果評(píng)估的技術(shù)要求”、“5.3基于數(shù)據(jù)挖掘的脫敏效果評(píng)估的技術(shù)要求”、“5.4脫敏系統(tǒng)效果評(píng)估的技術(shù)要求”中進(jìn)行了描述。待評(píng)估數(shù)據(jù)的類型包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩個(gè)類別,每一個(gè)類別下又可以細(xì)分多個(gè)子類別,例如結(jié)構(gòu)化數(shù)據(jù)下的文本型數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)下的圖片型數(shù)據(jù)等。所屬主體用于描述當(dāng)前數(shù)據(jù)擁有者的信息。脫敏要求是脫敏控制集合中曾經(jīng)和當(dāng)前信息所屬主脫敏要求的并集。6.5單項(xiàng)評(píng)估結(jié)果分析組成內(nèi)容單項(xiàng)評(píng)估內(nèi)容包括“5.1脫敏效果評(píng)估指標(biāo)體系”中涉及的一個(gè)或多個(gè)類別。由達(dá)標(biāo)的評(píng)估點(diǎn)匯總分析和存在問題的評(píng)估點(diǎn)匯總分析兩部分構(gòu)成。達(dá)標(biāo)的評(píng)估點(diǎn)匯總分析是針對(duì)評(píng)估結(jié)果中存在的符合項(xiàng)進(jìn)行匯總分析,存在問題的評(píng)估點(diǎn)匯總分析是針對(duì)評(píng)估結(jié)果中存在的部分符合項(xiàng)和不符合項(xiàng)進(jìn)行匯總和分析,例如,當(dāng)單項(xiàng)評(píng)估為脫敏效果可逆性評(píng)估時(shí),評(píng)估點(diǎn)可以為脫敏后數(shù)據(jù)恢復(fù)為脫敏前數(shù)據(jù)的還原度是否符合預(yù)期。6.6整體評(píng)估組成內(nèi)容整體評(píng)估從單項(xiàng)評(píng)估結(jié)果與脫敏要求的匹配程度進(jìn)行分析和整體評(píng)價(jià)。整體評(píng)估結(jié)果示例如表1所示。T/CSACXXXX—XXXX表1整體評(píng)估結(jié)果示例單項(xiàng)評(píng)估結(jié)果類別評(píng)估點(diǎn)與脫敏要求的匹配程度級(jí)別單項(xiàng)評(píng)估得分權(quán)重參考可逆性評(píng)估結(jié)果恢復(fù)信息的準(zhǔn)確度高0.6…………信息偏差性評(píng)估結(jié)果歐式距離中70.2…………信息損失性評(píng)估結(jié)果信息熵低40.2…………6.7等級(jí)評(píng)估結(jié)論組成內(nèi)容說(shuō)明等級(jí)評(píng)估結(jié)論確定的方法,并根據(jù)單項(xiàng)評(píng)估得分和對(duì)應(yīng)的權(quán)重參考,給出被測(cè)對(duì)象的等級(jí)評(píng)估結(jié)論,等級(jí)評(píng)估結(jié)論示例如表2所示。表2等級(jí)評(píng)估結(jié)論示例等級(jí)評(píng)估結(jié)論脫敏效果評(píng)估綜合分?jǐn)?shù)優(yōu)9-10良7-8中4-6差0-3T/CSACXXXX—XXXX脫敏效果評(píng)估示例A.1概述根據(jù)脫敏效果評(píng)估指標(biāo)體系,本附錄介紹單次脫敏效果評(píng)估、基于數(shù)據(jù)挖掘的脫敏效果評(píng)估、脫敏系統(tǒng)效果評(píng)估的方法,可供進(jìn)行脫敏效果評(píng)估時(shí)參考。脫敏效果評(píng)估過程的關(guān)鍵處理環(huán)節(jié)如下。A.2單次脫敏效果評(píng)估單次脫敏效果評(píng)估流程如下:a)收集待評(píng)測(cè)的原始數(shù)據(jù)與脫敏后數(shù)據(jù)。原始數(shù)據(jù)示例如表A.1所示,脫敏后數(shù)據(jù)示例如表A.2所示。其涉及到的敏感信息屬性為“姓名”、“身份證號(hào)碼”、“年齡”、“手機(jī)號(hào)碼”,本示例中年選擇“年齡”屬性作為評(píng)估示例;表A.1原始數(shù)據(jù)12345678表A.2脫敏后數(shù)據(jù)12345678b)判斷隱私信息所屬場(chǎng)景,本次評(píng)估示例中隱私信息的應(yīng)用場(chǎng)景為醫(yī)療問診類場(chǎng)景,數(shù)據(jù)模態(tài)為數(shù)值型數(shù)據(jù),數(shù)據(jù)規(guī)模較小,由此確定可逆性、信息偏差性和信息損失性對(duì)應(yīng)的權(quán)重值為0.2、0.6、0.2;c)依據(jù)隱私信息模態(tài)和應(yīng)用場(chǎng)景,選擇恢復(fù)信息的準(zhǔn)確度和恢復(fù)信息的偏差度為本次脫敏效果評(píng)估的可逆性的評(píng)估指標(biāo)。經(jīng)評(píng)估,脫敏后數(shù)據(jù)恢復(fù)得到原始信息的準(zhǔn)確度達(dá)到了脫敏效果期望閾值,恢復(fù)信息的偏差度達(dá)到了脫敏效果期望閾值;T/CSACXXXX—XXXXd)依據(jù)數(shù)據(jù)規(guī)模及統(tǒng)計(jì)特性,選擇均值和方差為本次脫敏效果評(píng)估的信息偏差性的評(píng)估指標(biāo)。經(jīng)評(píng)估,脫敏后數(shù)據(jù)與原始數(shù)據(jù)的均值變化量未達(dá)到脫敏效果期望閾值,脫敏后數(shù)據(jù)與原始數(shù)據(jù)的方差變化量達(dá)到了脫敏效果期望閾值;e)依據(jù)數(shù)據(jù)信息量及關(guān)聯(lián)性,選擇信息熵差值為本次脫敏效果評(píng)估的信息損失性評(píng)估指標(biāo)。經(jīng)評(píng)估,脫敏后數(shù)據(jù)與原始數(shù)據(jù)的信息熵差值達(dá)到了脫敏效果期望閾值。A.3基于數(shù)據(jù)挖掘的脫敏效果評(píng)估基于數(shù)據(jù)挖掘的脫敏效果評(píng)估流程如下:a)收集得到用戶“張三”一定時(shí)間內(nèi)的其他場(chǎng)景中的脫敏后數(shù)據(jù)如表A.3,A.4所示。選擇決策樹算法對(duì)收集到的用戶“張三”的脫敏信息進(jìn)行挖掘分析,推斷得到用戶“張三”的被脫敏的隱私信息為{年齡:30-35};表A.3收集到的用戶“張三”在網(wǎng)絡(luò)問診場(chǎng)景中的脫敏后數(shù)據(jù)1表A.4收集到的用戶“張三”在交通票務(wù)場(chǎng)景中的脫敏后數(shù)據(jù)1男b)使用信息偏差性和信息損失性的評(píng)估指標(biāo)作為基于數(shù)據(jù)挖掘的脫敏效果評(píng)估指標(biāo)。經(jīng)評(píng)估推斷出的用戶“張三”的隱私信息與對(duì)應(yīng)的真實(shí)隱私信息的信息偏差性指標(biāo)未達(dá)到脫敏效果期望閾值,信息損失性指標(biāo)也未達(dá)到脫敏效果期望閾值。A.4脫敏系統(tǒng)效果評(píng)估脫敏系統(tǒng)效果評(píng)估流程如下:a)收集得到用戶“王*”和用戶“吳*”一定時(shí)間內(nèi)的其他場(chǎng)景中的脫敏后數(shù)據(jù)如表A.5,A.6所示,以及用戶“張三”一定時(shí)間內(nèi)的各個(gè)場(chǎng)景中的脫敏后數(shù)據(jù)如表A.3,A.4所示。選擇決策樹算法對(duì)收集到的用戶“張三”、用戶“王*”和用戶“吳*”用戶的脫敏信息進(jìn)行挖掘分析,推斷得到用戶“張三”的被脫敏的隱私信息為{年齡:30-34};表A.5收集到的用戶“王*”在醫(yī)療問診場(chǎng)景中的脫敏后數(shù)據(jù)1表A.6收集到的用戶“吳*”在網(wǎng)約車場(chǎng)景中的脫敏后數(shù)據(jù)序號(hào)1b)使用信息偏差性和信息損失性的評(píng)估指標(biāo)作為基于數(shù)據(jù)挖掘的脫敏效果評(píng)估指標(biāo)。經(jīng)評(píng)估推斷出的用戶“張三”的隱私信息與對(duì)應(yīng)的真實(shí)隱私信息的信息偏差性指標(biāo)達(dá)到了脫敏效果期望閾值,信息損失性指標(biāo)未達(dá)到脫敏效果期望閾值。T/CSACXXXX—XXXX可逆性的計(jì)算方法B.1概述可逆性可以通過逆向映射、字典攻擊、統(tǒng)計(jì)攻擊、機(jī)器學(xué)習(xí)等方法判斷,本附錄介紹了逆向映射、字典攻擊、統(tǒng)計(jì)攻擊、機(jī)器學(xué)習(xí)的方法描述,可供隱私脫敏的組織者參考。B.2逆向映射逆向映射是一種簡(jiǎn)單的可逆性評(píng)估方法,即嘗試將脫敏后的數(shù)據(jù)重新映射回原始數(shù)據(jù)。如果能夠準(zhǔn)確還原原始數(shù)據(jù),說(shuō)明脫敏算法不安全。逆向映射的關(guān)鍵在于找到逆向映射函數(shù)或算法,使得脫敏結(jié)果能夠被逆向操作還原。B.3字典攻擊字典攻擊是一種基于預(yù)先構(gòu)建的字典或映射表來(lái)還原脫敏結(jié)果的方法。攻擊者通過窮舉字典中的映射關(guān)系,嘗試將脫敏結(jié)果映射回原始數(shù)據(jù),如果能夠找到匹配的映射關(guān)系,即可還原原始數(shù)據(jù)。為了防止字典攻擊,脫敏算法需要使用隨機(jī)化技術(shù)或其他安全措施,使得字典攻擊的成功率極低。B.4統(tǒng)計(jì)分析統(tǒng)計(jì)分析是一種基于脫敏結(jié)果統(tǒng)計(jì)特征來(lái)推斷原始數(shù)據(jù)的方法。攻擊者通過分析脫敏結(jié)果的統(tǒng)計(jì)特征,如頻率分布、均值、方差等,來(lái)推測(cè)原始數(shù)據(jù)的可能取值范圍。脫敏算法需要通過添加噪音、擾動(dòng)或其他技術(shù)來(lái)破壞統(tǒng)計(jì)特征,從而提高脫敏結(jié)果的安全性。B.5機(jī)器學(xué)習(xí)攻擊機(jī)器學(xué)習(xí)攻擊是一種利用機(jī)器學(xué)習(xí)模型來(lái)還原脫敏結(jié)果的方法。攻擊者可以使用機(jī)器學(xué)習(xí)算法,通過訓(xùn)練模型來(lái)學(xué)習(xí)脫敏結(jié)果與原始數(shù)據(jù)之間的映射關(guān)系,一旦攻擊者成功構(gòu)建了準(zhǔn)確的模型,即可使用該模型將脫敏結(jié)果還原回原始數(shù)據(jù)。為了抵御機(jī)器學(xué)習(xí)攻擊,脫敏算法需要采用對(duì)抗性機(jī)器學(xué)習(xí)技術(shù)或其他防御機(jī)制,使得攻擊者難以構(gòu)建準(zhǔn)確的模型。T/CSACXXXX—XXXX信息偏差性的計(jì)算方法C.1概述信息偏差性可以通過計(jì)算脫敏算法執(zhí)行前后數(shù)據(jù)的均方誤差、歐式距離、余弦距離等表示,本附錄介紹了相關(guān)計(jì)算信息偏差性的方法,可供隱私脫敏的組織者參考。C.2均方誤差對(duì)于兩個(gè)數(shù)據(jù)集X和Y,均方誤差(MeanSquaredError,MSE)是用來(lái)衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評(píng)估模型預(yù)測(cè)或擬合的準(zhǔn)確性,或者比較兩個(gè)數(shù)據(jù)集之間的差異程度。均方誤差的計(jì)算公式如下:n表示數(shù)據(jù)點(diǎn)的個(gè)數(shù),表示X數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),yi表示Y數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的均方誤差,均方誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,均方誤差越小,表示脫敏操作引入的偏差越小。均方誤差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。C.3均絕對(duì)誤差對(duì)于兩個(gè)數(shù)據(jù)集X和Y,平均絕對(duì)誤差(MeanAbsoluteError,MAE)是用來(lái)衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評(píng)估模型預(yù)測(cè)或擬合的準(zhǔn)確性,或者比較兩個(gè)數(shù)據(jù)集之間的差異程度。平均絕對(duì)誤差的計(jì)算公式如下:其中,n表示數(shù)據(jù)點(diǎn)的個(gè)數(shù),表示X數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),yi表示Y數(shù)據(jù)集中的第yi個(gè)數(shù)據(jù)點(diǎn)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的平均絕對(duì)誤差,平均絕對(duì)誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,平均絕對(duì)誤差越小,表示脫敏操作引入的偏差越小。平均絕對(duì)誤差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。C.4Kullback-Leibler散度對(duì)于兩個(gè)離散分布P和Q,其中P表示真實(shí)分布,Q表示近似分布,Kullback-Leibler散度(Kullback-LeiblerDivergence,KLD)是用來(lái)衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評(píng)估一個(gè)概率分布相對(duì)于另一個(gè)概率分布的信息丟失或信息增益。KL散度的公式如下:其中,n表示P分布中元素的個(gè)數(shù),表示P分布中第i個(gè)元素,P(xz)表示元素在分布P中的概率,Q(xz)表示元素在分布Q中的概率。T/CSACXXXX—XXXX比較原始信息和脫敏信息之間的偏差,可以計(jì)算它們之間的Kullback-Leibler散度,Kullback-Leibler散度的數(shù)值越大,表示脫敏操作引入的偏差越大,Kullback-Leibler散度越小,表示脫敏操作引入的偏差越小。Kullback-Leibler散度可運(yùn)用的數(shù)據(jù)模態(tài)為:編碼型。C.5歐氏距離的計(jì)算方法歐式距離(Euclideandistance,ED)是指兩個(gè)n維向量之間的距離,即歐理距離。計(jì)算兩個(gè)向量x=(x1,x2,…,xn)和y=(y,y2,..…,y)的歐氏距離d(x,y)的公式如下:比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的歐氏距離,如果歐氏距離較小,則說(shuō)明脫敏操作引入的偏差較小,反之則說(shuō)明脫敏操作引入的偏差較大。歐氏距離可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。C.6余弦距離的計(jì)算方法余弦距離(Cosinedistance,CD)是指兩個(gè)向量之間的夾角余弦值,用于衡量它們的相似度。計(jì)算兩個(gè)向量和y的歐氏距離的公式如下:其中,是兩個(gè)向量的點(diǎn)集,llxll和llyll分別是向量x和向量y的范數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的余弦距離。余弦距離的取值在0到1之間,如果余弦距離接近1,則說(shuō)明脫敏操作引入的偏差較小,如果余弦距離接近0,則說(shuō)明脫敏操作引入的偏差較大。余弦距離可運(yùn)用的數(shù)據(jù)模態(tài)為:音頻型。C.7峰值信噪比峰值信噪比(PeakSignal-to-NoiseRatio,簡(jiǎn)稱PSNR)是一種用于衡量?jī)蓚€(gè)數(shù)據(jù)集之間的重建質(zhì)量或差異程度的指標(biāo)。PSNR可以用于比較不同數(shù)據(jù)集之間的相似度,從而確定哪個(gè)數(shù)據(jù)集的質(zhì)量更高。較高的PSNR表示數(shù)據(jù)集之間的差異較小,較低的PSNR表示數(shù)據(jù)集之間的差異較大。計(jì)算兩個(gè)數(shù)據(jù)集峰值信噪比的公式如下:其中,MAX表示信號(hào)的最大可能取值(對(duì)于8位圖像通常為255),MSE表示均方誤差,是兩個(gè)數(shù)據(jù)集之間的平均差異。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的峰值信噪比。峰值信噪比越高,表示數(shù)據(jù)集的偏差較小,峰值信噪越低,表示數(shù)據(jù)集的偏差較大。峰值信噪比可運(yùn)用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。T/CSACXXXX—XXXXC.8結(jié)構(gòu)相似性指數(shù)結(jié)構(gòu)相似性指數(shù)(StructuralSimilarityIndex,簡(jiǎn)稱SSIM)是一種用于衡量?jī)蓚€(gè)圖像之間結(jié)構(gòu)相似度的指標(biāo)。它綜合考慮了亮度、對(duì)比度和結(jié)構(gòu)等因素,能夠更準(zhǔn)確地評(píng)估圖像的相似度。SSIM的計(jì)算公式如下:SSIM(x,y)=[l(x,y)*c(x,y)*s(x,y)]Λa其中,和y表示兩個(gè)圖像,l(x,y)表示亮度相似度,c(x,y)表示對(duì)比度相似度,s(x,y)表示結(jié)構(gòu)相似度,a是一個(gè)參數(shù)(通常取1)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的結(jié)構(gòu)相似性指數(shù)。SSIM的取值范圍在0到1之間,如果結(jié)構(gòu)相似性指數(shù)接近1,則說(shuō)明脫敏操作引入的偏差較小,如果結(jié)構(gòu)相似性指數(shù)接近0,則說(shuō)明脫敏操作引入的偏差越小。結(jié)構(gòu)相似性指數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。C.9平均數(shù)平均數(shù)(Average,AVE)是一種常見的統(tǒng)計(jì)量,通過比較不同數(shù)據(jù)集的平均數(shù),可以了解它們之間的差異。平均數(shù)可以幫助識(shí)別數(shù)據(jù)集之間的相似性或差異性,并對(duì)數(shù)據(jù)進(jìn)行比較和分析。平均數(shù)的計(jì)算公式如下:其中,表示數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),N表示數(shù)據(jù)點(diǎn)的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的平均數(shù)的差值。平均數(shù)的差值越大,表示脫敏操作引入的偏差越大,平均數(shù)的差值越小,表示脫敏操作引入的偏差越小。平均數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。C.10中位數(shù)中位數(shù)(Median,MED)是一種用于衡量數(shù)據(jù)集的中心位置的統(tǒng)計(jì)量。中位數(shù)是將數(shù)據(jù)集按照大小排序后,位于中間位置的數(shù)值。中位數(shù)可以幫助識(shí)別數(shù)據(jù)集之間的相似性或差異性,并對(duì)數(shù)據(jù)進(jìn)行比較和分析。中位數(shù)的計(jì)算方式如下:a)如果數(shù)據(jù)集中的數(shù)據(jù)個(gè)數(shù)為奇數(shù),中位數(shù)是排序后位于中間位置的數(shù)值;b)如果數(shù)據(jù)集中的數(shù)據(jù)個(gè)數(shù)為偶數(shù),中位數(shù)是排序后中間兩個(gè)數(shù)值的平均值。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的中位數(shù)的差值。中位數(shù)的差值越大,表示脫敏操作引入的偏差越大,中位數(shù)的差值越小,表示脫敏操作引入的偏差越小。中位數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。C.11標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(StandardDeviation,縮寫為SD)是用來(lái)衡量數(shù)據(jù)集中數(shù)據(jù)的離散程度或變異程度的統(tǒng)計(jì)量。標(biāo)準(zhǔn)差可以用來(lái)比較不同數(shù)據(jù)集之間的離散程度。計(jì)算數(shù)據(jù)集標(biāo)準(zhǔn)差的公式如下:其中,表示數(shù)據(jù)集中的第個(gè)數(shù)據(jù)點(diǎn),表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點(diǎn)的總數(shù)。T/CSACXXXX—XXXX比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的標(biāo)準(zhǔn)差的差值。標(biāo)準(zhǔn)差的差值越大,表示脫敏操作引入的偏差越大,標(biāo)準(zhǔn)差的差值越小,表示脫敏操作引入的偏差越小。標(biāo)準(zhǔn)差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。C.12方差方差(Variance,Var)是一種統(tǒng)計(jì)量,用于描述數(shù)據(jù)集內(nèi)數(shù)據(jù)點(diǎn)的變異程度。方差可以幫助我們了解數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的分布情況和數(shù)據(jù)的穩(wěn)定性,經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進(jìn)行數(shù)據(jù)篩選。計(jì)算方差的公式如下

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論