




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
T/CSACXXXX—XXXX隱私計(jì)算脫敏算法能力評(píng)估技術(shù)要求本文件描述脫敏算法能力評(píng)估的技術(shù)體系,規(guī)定脫敏算法評(píng)估的基本原則,包含脫敏算法能力的評(píng)估指標(biāo)體系、脫敏算法能力評(píng)估通用技術(shù)要求等。本文件適用于規(guī)范各類(lèi)組織的隱私信息脫敏處理活動(dòng),也可為主管監(jiān)管部門(mén)、第三方評(píng)估機(jī)構(gòu)等組織對(duì)隱私信息脫敏處理活動(dòng)進(jìn)行監(jiān)督、管理和評(píng)估提供參考。2規(guī)范性引用文件本文件引述下列文件中的部分內(nèi)容。下列文件中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本指南;不注日期的引用文件,其最新版本適用于本指南。GB/T25069-2022信息安全技術(shù)術(shù)語(yǔ)GB/T35273-2020信息安全技術(shù)個(gè)人信息安全規(guī)范GB/T37964-2019信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南GB/T37988-2019信息安全技術(shù)數(shù)據(jù)安全能力成熟度模型T/CESAXXXX2023隱私計(jì)算脫敏控制技術(shù)要求3術(shù)語(yǔ)和定義3.1個(gè)人信息personalinformation以電子或者其他方式記錄的能夠單獨(dú)或者與其他信息結(jié)合識(shí)別特定自然人身份或者反映特定自然人活動(dòng)情況的各種信息,包含個(gè)人信息本身及其衍生信息,不包括匿名化處理后的信息。[來(lái)源:GB/T35273—2020,3.1,有修改]3.2標(biāo)識(shí)符identity可以明顯識(shí)別記錄主體身份的屬性集合,包括姓名、電話號(hào)碼、身份證號(hào)碼等信息。3.3組合起來(lái)可以識(shí)別記錄主體身份的屬性集合,包括年齡、性別、郵編等信息。3.4隱私信息privateinformation能通過(guò)信息系統(tǒng)進(jìn)行處理的敏感個(gè)人信息,是個(gè)人信息記錄中的標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符和敏感屬性的集合。注:隱私信息包括個(gè)人生物特征信息、銀行賬號(hào)、通健康生理信息、交易信息、14歲以下(含)3.5隱私信息所有者privateinformationowner2T/CSACXXXX—XXXX隱私信息所標(biāo)識(shí)或者關(guān)聯(lián)的自然人、組織、設(shè)備或程序等實(shí)體。3.6隱私信息處理者privateinformationprocessor對(duì)隱私信息進(jìn)行收集、存儲(chǔ)、使用、加工、傳輸、提供、公開(kāi)、刪除、脫敏、存證與取證等操作的實(shí)體。3.7敏感屬性sensitiveattribute信息載體中含有敏感個(gè)人信息的屬性,泄露、修改或破壞該屬性值會(huì)對(duì)個(gè)人權(quán)益產(chǎn)生影響。注:在潛在的重標(biāo)識(shí)攻擊期間需要防止其值與任何一個(gè)隱私信息主體相關(guān)聯(lián)。[來(lái)源:GB/T37964-2019,3.10]3.8原始信息rawinformation當(dāng)前主體采集或者接收到的信息,其包含個(gè)人敏感信息,需要進(jìn)行脫敏處理。3.9脫敏信息desensitizedinformation經(jīng)過(guò)特定脫敏算法處理的原始數(shù)據(jù),使其中的隱私信息難以直接關(guān)聯(lián)到特定的隱私信息所有者。3.10脫敏要求desensitizationrequirements待脫敏的隱私信息的脫敏等級(jí)、脫敏時(shí)機(jī)、脫敏算法及其參數(shù)選擇等約束信息。3.11信息模態(tài)informationmode個(gè)人信息載體數(shù)據(jù)的具體表示形式,比如數(shù)字、文本、圖像、視頻、語(yǔ)音等。3.12數(shù)據(jù)脫敏datadesensitization通過(guò)一系列數(shù)據(jù)處理方法對(duì)原始數(shù)據(jù)進(jìn)行處理以減少或消除個(gè)人敏感信息的一種數(shù)據(jù)保護(hù)方法。[來(lái)源:GB/T37988-2019,3.12,有修改]3.13脫敏算法desensitizationalgorithm通過(guò)對(duì)隱私信息的技術(shù)處理,使其在不借助額外信息的情況下,無(wú)法識(shí)別或者關(guān)聯(lián)隱私信息主體。注:脫敏算法包括k-匿名、差分隱私等算法。[來(lái)源:GB/T35273—2020,3.15]3.14可逆性reversibility被脫敏掉的隱私信息被復(fù)原的可能性。3.15信息偏差性informationdeviation脫敏算法執(zhí)行前后,可觀測(cè)到的脫敏信息與原始信息的偏差。3.16信息損失性informationloss信息被不可逆的脫敏算法作用后,隱私信息損失部分對(duì)可用性的影響程度。3.17復(fù)雜性complexity3T/CSACXXXX—XXXX執(zhí)行脫敏算法所需要的資源開(kāi)銷(xiāo)。3.18泛化generalization將一類(lèi)屬性中的特定值用一個(gè)更寬泛的值代替,以更概括、抽象的方式描述數(shù)據(jù)。注:泛化技術(shù)包括替換、取整、K-匿名、模糊化、概化等手段。[來(lái)源:GB/T37964—2019,A.5.1,有修改]3.19抑制suppression將某個(gè)屬性、屬性的值或者屬性值的一部分進(jìn)行刪除或者以特定的符號(hào)代替。3.20解耦和置換anatomizationandpermutation去除準(zhǔn)標(biāo)識(shí)符和敏感屬性間的關(guān)聯(lián)性,而不改變準(zhǔn)標(biāo)識(shí)符或敏感屬性的值。3.21擾動(dòng)perturbation用合成的數(shù)據(jù)值取代原始的數(shù)據(jù)值,改變后的數(shù)據(jù)與真實(shí)數(shù)據(jù)主體失去關(guān)聯(lián)性。3.22差分隱私differentialprivacy通過(guò)擾動(dòng)的方式對(duì)個(gè)人隱私信息進(jìn)行脫敏,且擾動(dòng)添加的噪聲類(lèi)型和參數(shù)滿足差分的數(shù)學(xué)定義。4概述脫敏算法能力評(píng)估的目標(biāo)包括:a)脫敏算法能力應(yīng)符合法律規(guī)定與脫敏控制要求,可支持自動(dòng)選擇算法;b)在第三方評(píng)估的過(guò)程中,保障不同的單位和團(tuán)體所采用的脫敏算法具有合規(guī)性和一致性,防止跨系統(tǒng)中的隱私泄露問(wèn)題,預(yù)防全社會(huì)各系統(tǒng)隱私保護(hù)的短板效應(yīng)。4.2基本原則脫敏算法能力評(píng)估分為可逆性評(píng)估、信息偏差性評(píng)估、信息損失性評(píng)估和復(fù)雜性評(píng)估,并且依據(jù)所采用脫敏算法的類(lèi)別,為以上四個(gè)評(píng)估維度賦予相應(yīng)的權(quán)重值。其中,可逆性評(píng)估是衡量脫敏算法處理后信息中復(fù)原隱私信息的可能性;信息偏差性評(píng)估是衡量脫敏算法處理后的信息失真和偏移程度;信息損失性評(píng)估是衡量脫敏算法處理后隱私信息損失部分對(duì)可用性的影響程度;復(fù)雜性評(píng)估是衡量脫敏算法處理隱私信息所需的資源開(kāi)銷(xiāo)。4.3用途脫敏算法能力評(píng)估技術(shù)要求可以為企業(yè)自身、監(jiān)督管理部門(mén)、安全合規(guī)團(tuán)隊(duì)以及第三方評(píng)估機(jī)構(gòu)等主體適用,用以評(píng)估其脫敏算法前后脫敏信息的可逆性、信息偏差性、信息損失性是否符合發(fā)布的要求,以及脫敏算法的資源開(kāi)銷(xiāo)是否符合性能要求。4T/CSACXXXX—XXXX5脫敏算法能力評(píng)估通用技術(shù)要求5.1脫敏算法分類(lèi)5.1.1脫敏算法分類(lèi)概述根據(jù)脫敏算法的實(shí)現(xiàn)原理、應(yīng)用場(chǎng)景、處理數(shù)據(jù)方式等因素,可以分為差分隱私、泛化、匿名、置換四類(lèi)技術(shù)。5.1.2基于差分隱私技術(shù)的脫敏算法基于差分隱私技術(shù)的脫敏算法主要采用拉普拉斯機(jī)制、指數(shù)機(jī)制、稀疏向量技術(shù)和隨機(jī)響應(yīng)技術(shù)。附錄B.2給出了27種基于差分隱私技術(shù)的脫敏算法描述示例。具體如下:a)拉普拉斯機(jī)制,是指通過(guò)向源數(shù)據(jù)中添加拉普拉斯噪聲以滿足差分隱私的要求,該機(jī)制可以保證數(shù)據(jù)集中任何特定的個(gè)人信息主體的存在與否,無(wú)法從脫敏數(shù)據(jù)集或系統(tǒng)響應(yīng)結(jié)果中推導(dǎo)出;即使攻擊者能夠訪問(wèn)其他相關(guān)的數(shù)據(jù)集,只要隱私損失限定在一定范圍內(nèi),就可以保證隱私信息無(wú)法被獲取;b)指數(shù)機(jī)制,是指通過(guò)一個(gè)評(píng)分函數(shù)輸出查詢函數(shù)的每個(gè)可能輸出分?jǐn)?shù),并返回分?jǐn)?shù)近似最大的回復(fù)來(lái)實(shí)現(xiàn)差分隱私保護(hù);該機(jī)制可以在不向原始數(shù)據(jù)添加噪聲的基礎(chǔ)上滿足差分隱私的要求;c)稀疏向量技術(shù),用于回答有一個(gè)預(yù)先固定的閾值T的查詢,該技術(shù)將在被查詢值中添加噪聲,并將結(jié)果與閾值T進(jìn)行比較,并只返回高于閾值T的c個(gè)查詢結(jié)果;適用于需要多次查詢的場(chǎng)景;d)隨機(jī)響應(yīng)技術(shù),是指通過(guò)模糊用戶對(duì)問(wèn)題的結(jié)果響應(yīng),用戶將以一定的概率返回自己的真實(shí)數(shù)據(jù)或者值域中包含的其他可能數(shù)據(jù),從而實(shí)現(xiàn)在保護(hù)用戶隱私的情況下進(jìn)行頻數(shù)統(tǒng)計(jì)的目的,一般用于本地化差分隱私場(chǎng)景中。5.1.3基于泛化技術(shù)的脫敏算法基于泛化技術(shù)的脫敏算法是指通過(guò)引入不確定性或模糊性,使原始隱私信息變得更加模糊或不精確,以實(shí)現(xiàn)對(duì)隱私信息的脫敏;可以基于規(guī)則、概率分布或其他方式進(jìn)行,可用于文本類(lèi)數(shù)據(jù)、圖像類(lèi)數(shù)據(jù)、音頻類(lèi)數(shù)據(jù)以及視頻類(lèi)數(shù)據(jù)的脫敏。附錄B.3給出了22種基于泛化技術(shù)的脫敏算法描述示例。5.1.4基于匿名技術(shù)的脫敏算法基于匿名技術(shù)的脫敏算法包括k-匿名算法、l-多樣性算法、t-貼近性算法等數(shù)據(jù)處理手段。附錄B.4給出了12種基于匿名技術(shù)的脫敏算法描述示例。具體如下:a)k-匿名算法,要求發(fā)布的數(shù)據(jù)中指定標(biāo)識(shí)符(直接標(biāo)識(shí)符或準(zhǔn)標(biāo)識(shí)符)屬性值相同的每一等價(jià)類(lèi)至少包含k個(gè)記錄,使攻擊者不能判別出個(gè)人信息所屬的具體個(gè)體,從而保護(hù)個(gè)人信息安全;b)l-多樣性算法,是對(duì)k-匿名算法的改進(jìn),該算法首先對(duì)數(shù)據(jù)進(jìn)行k-匿名處理生成多個(gè)等價(jià)類(lèi),并通過(guò)確保每個(gè)等價(jià)類(lèi)中的敏感屬性具有多樣性,防止通過(guò)背景知識(shí)攻擊識(shí)別敏感信息;c)t-貼近性算法,進(jìn)一步改進(jìn)了l-多樣性算法,通過(guò)確保每個(gè)等價(jià)類(lèi)中敏感屬性的分布與整體數(shù)據(jù)集的分布相似,防止敏感屬性分布的偏離。5.1.5基于置換技術(shù)的脫敏算法5T/CSACXXXX—XXXX基于置換技術(shù)的脫敏算法是指將原始隱私信息中的具體值替換為其他確定性或隨機(jī)性的值,從而實(shí)現(xiàn)對(duì)隱私信息的脫敏。置換可以基于規(guī)則、概率分布或其他方式進(jìn)行,例如:將具體的數(shù)字替換為某個(gè)范圍內(nèi)的值,或者將文本中的具體詞語(yǔ)替換為一般性類(lèi)別的詞語(yǔ)。附錄B.5給出了19種基于置換技術(shù)的脫敏算法描述示例。5.2脫敏算法能力評(píng)估指標(biāo)體系5.2.1脫敏算法能力評(píng)估指標(biāo)體系概述脫敏算法能力評(píng)估的指標(biāo)體系包括可逆性、信息偏差性、信息損失性和復(fù)雜性等四類(lèi)指標(biāo),且基于測(cè)評(píng)樣本基準(zhǔn)數(shù)據(jù)集,對(duì)各類(lèi)脫敏算法進(jìn)行能力評(píng)估。5.2.2可逆性評(píng)估指標(biāo)可逆性評(píng)估是衡量從脫敏算法處理后信息中復(fù)原隱私信息的可能性。由于脫敏旨在保護(hù)敏感個(gè)人信息,通常情況下脫敏是不可逆的??赡嫘远攘糠椒ㄈ缦拢篴)脫敏算法可逆性,評(píng)估隱私信息脫敏使用的是否是不可逆脫敏算法,并根據(jù)算法是否可逆確立不同的可逆性評(píng)估指標(biāo),具體如下:1)脫敏算法為不可逆算法,應(yīng)依據(jù)脫敏算法參數(shù)確立可逆性評(píng)估指標(biāo);2)脫敏算法為可逆算法,應(yīng)依據(jù)脫敏算法恢復(fù)密鑰強(qiáng)度確立可逆性評(píng)估指標(biāo)。b)脫敏算法參數(shù)強(qiáng)度,評(píng)估脫敏算法使用的參數(shù)強(qiáng)度,并根據(jù)處理的數(shù)據(jù)模態(tài),確立算法參數(shù)強(qiáng)度指標(biāo)的所占權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法參數(shù)強(qiáng)度指標(biāo)所占權(quán)重值較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),算法參數(shù)強(qiáng)度指標(biāo)所占權(quán)重值較高。c)信息還原性,評(píng)估通過(guò)脫敏后的隱私信息還原出原始隱私信息的程度,例如:恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度,以此評(píng)估脫敏算法的可逆性,具體如下:1)恢復(fù)信息的準(zhǔn)確度越高,脫敏算法的可逆性就相對(duì)越高;2)恢復(fù)信息的偏差度越高,脫敏算法的可逆性就相對(duì)越低。5.2.3信息偏差性評(píng)估指標(biāo)信息偏差性評(píng)估是衡量脫敏算法處理后的信息失真和偏移程度。信息偏差性度量方法如下:a)統(tǒng)計(jì)偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的統(tǒng)計(jì)指標(biāo),例如:均方差、平均絕對(duì)值、KL散度、歐氏距離、余弦距離、峰值信噪比、結(jié)構(gòu)相似性指數(shù)、均值、中位數(shù)、方差、標(biāo)準(zhǔn)差、最大值、最小值等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇均方差、平均絕對(duì)值等指標(biāo)為統(tǒng)計(jì)偏差性評(píng)估指標(biāo);2)數(shù)據(jù)模態(tài)為音頻、圖像、視頻等的數(shù)據(jù),應(yīng)選擇峰值信噪比、結(jié)構(gòu)相似性指數(shù)等指標(biāo)為統(tǒng)計(jì)偏差性評(píng)估指標(biāo)。b)數(shù)據(jù)分布偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布差異,例如:分布形狀、分位數(shù)和累積分布函數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格、圖像等的數(shù)據(jù),應(yīng)選擇分布形狀等指標(biāo)為數(shù)據(jù)分布偏差性評(píng)估指標(biāo);2)數(shù)據(jù)模態(tài)為圖形、音頻、視頻等的數(shù)據(jù),應(yīng)選擇累積分布函數(shù)等指標(biāo)為數(shù)據(jù)分布偏差性評(píng)估指標(biāo)。6T/CSACXXXX—XXXXc)模型應(yīng)用準(zhǔn)確性,使用原始數(shù)據(jù)和脫敏后數(shù)據(jù)分別構(gòu)建訓(xùn)練模型,選擇合適的驗(yàn)證集或測(cè)試集,比較模型在驗(yàn)證集或測(cè)試集上的效果,以此評(píng)估脫敏算法的信息偏差性,具體如下:1)模型在驗(yàn)證集或測(cè)試集上的效果越好,脫敏算法的信息偏差性相對(duì)越低;2)模型在驗(yàn)證集或測(cè)試集上的效果越差,脫敏算法的信息偏差性相對(duì)越高。d)數(shù)據(jù)隨機(jī)性分析,評(píng)估脫敏算法對(duì)隱私信息的隨機(jī)性影響程度,以此評(píng)估脫敏算法的信息偏差性,具體如下:1)脫敏算法對(duì)隱私信息的隨機(jī)性影響越小,脫敏算法的信息偏差性相對(duì)越低;2)脫敏算法對(duì)隱私信息的隨機(jī)性影響越大,脫敏算法的信息偏差性相對(duì)越高。5.2.4信息損失性評(píng)估指標(biāo)信息損失性評(píng)估是衡量脫敏算法處理后隱私信息損失部分對(duì)可用性的影響程度。信息損失性度量方法如下:a)信息熵,信息熵是衡量數(shù)據(jù)集中信息量的度量指標(biāo),通過(guò)計(jì)算原始數(shù)據(jù)和脫敏后數(shù)據(jù)的信息熵,比較差異,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為圖像、音頻等的數(shù)據(jù),應(yīng)選擇信息熵等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的信息熵差值越大,脫敏算法的信息損失性相對(duì)越高。b)互信息,互信息是衡量?jī)蓚€(gè)隨機(jī)變量之間相互依賴程度的度量指標(biāo),通過(guò)計(jì)算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的互信息進(jìn)行量化評(píng)估,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇互信息等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的互信息越高,脫敏算法的信息損失性相對(duì)越低。c)數(shù)據(jù)分布特征,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布特征的統(tǒng)計(jì)指標(biāo),例如:均值、方差、分位數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)分布特征等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)分布特征越相近,脫敏算法的信息損失性相對(duì)越低。d)數(shù)據(jù)關(guān)聯(lián)性,計(jì)算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的關(guān)聯(lián)性的度量指標(biāo),例如:相關(guān)系數(shù)、協(xié)方差等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)性越高,脫敏算法的信息損失性相對(duì)越低。e)數(shù)據(jù)可用性,評(píng)估脫敏數(shù)據(jù)在特定應(yīng)用場(chǎng)景下的可用程度指標(biāo),例如:數(shù)據(jù)分析、模型訓(xùn)練等應(yīng)用場(chǎng)景,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評(píng)估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為音頻、圖像等的數(shù)據(jù),應(yīng)選擇數(shù)據(jù)可用性等指標(biāo)為信息損失性評(píng)估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)可用性越高,脫敏算法的信息損失性相對(duì)越低。5.2.5復(fù)雜性評(píng)估指標(biāo)復(fù)雜性評(píng)估是衡量脫敏算法處理隱私信息所需的資源開(kāi)銷(xiāo)。復(fù)雜性度量方法如下:a)時(shí)間復(fù)雜度,用于衡量算法執(zhí)行所需時(shí)間的度量指標(biāo),可以通過(guò)分析算法中的操作、迭代次數(shù)和數(shù)據(jù)規(guī)模等來(lái)確定,例如:常數(shù)時(shí)間、線性時(shí)間、對(duì)數(shù)時(shí)間、平方時(shí)間等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復(fù)雜性的評(píng)估指標(biāo),以此評(píng)估脫敏算法的復(fù)雜性,具體如下:1)對(duì)于任何類(lèi)型的數(shù)據(jù)模態(tài),都應(yīng)選擇時(shí)間復(fù)雜度等指標(biāo)為復(fù)雜性評(píng)估指標(biāo);2)脫敏算法執(zhí)行的時(shí)間復(fù)雜度越高,脫敏算法的復(fù)雜性相對(duì)越高。7T/CSACXXXX—XXXXb)空間復(fù)雜度,用于衡量算法執(zhí)行所需內(nèi)存空間的度量指標(biāo),可以通過(guò)分析算法中使用的額外數(shù)據(jù)結(jié)構(gòu)、變量和遞歸調(diào)用的深度等來(lái)確定,例如:常數(shù)空間、線性空間、指數(shù)空間等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復(fù)雜性的評(píng)估指標(biāo),以此評(píng)估脫敏算法的復(fù)雜性,具體如下:1)對(duì)于任何類(lèi)型的數(shù)據(jù)模態(tài),都應(yīng)選擇空間復(fù)雜度等指標(biāo)為復(fù)雜性評(píng)估指標(biāo);2)脫敏算法執(zhí)行的空間復(fù)雜度越高,脫敏算法的復(fù)雜性相對(duì)越高。c)計(jì)算資源需求,評(píng)估算法執(zhí)行所需的計(jì)算資源,包括CPU執(zhí)行時(shí)間、占用內(nèi)存等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復(fù)雜性的評(píng)估指標(biāo),以此評(píng)估脫敏算法的復(fù)雜性,具體如下:1)對(duì)于任何類(lèi)型的數(shù)據(jù)模態(tài),都應(yīng)選擇計(jì)算資源需求等指標(biāo)為復(fù)雜性評(píng)估指標(biāo);2)脫敏算法執(zhí)行的計(jì)算資源需求越高,脫敏算法的復(fù)雜性相對(duì)越高。5.2.6算法能力綜合評(píng)估指標(biāo)在脫敏算法能力評(píng)估的過(guò)程中,需要根據(jù)所采用脫敏算法的類(lèi)別和數(shù)據(jù)應(yīng)用場(chǎng)景,分別為可逆性、信息偏差性、信息損失性以及復(fù)雜性四個(gè)評(píng)估維度設(shè)置相應(yīng)的權(quán)重,進(jìn)行加權(quán)計(jì)算,得出算法能力的綜合評(píng)估結(jié)果。例如:基于差分隱私技術(shù)的脫敏算法的信息偏差性評(píng)估的權(quán)重值應(yīng)設(shè)置較高;基于泛化技術(shù)的脫敏算法的信息損失性評(píng)估的權(quán)重值應(yīng)設(shè)置較高;基于匿名技術(shù)的脫敏算法的信息損失性評(píng)估的權(quán)重值應(yīng)設(shè)置較高;基于置換技術(shù)的脫敏算法的可逆性評(píng)估的權(quán)重值應(yīng)設(shè)置較高。附錄A.2給出了一種不同脫敏算法類(lèi)別處理文本類(lèi)醫(yī)療數(shù)據(jù)時(shí)的評(píng)估指標(biāo)維度權(quán)重參考。5.3脫敏算法可逆性評(píng)估脫敏算法可逆性評(píng)估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場(chǎng)景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場(chǎng)景,確定算法可逆性對(duì)應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法可逆性評(píng)估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為圖形、圖像等的數(shù)據(jù),算法可逆性評(píng)估的權(quán)重值應(yīng)設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場(chǎng)景,選擇5.2.2節(jié)中的評(píng)估指標(biāo),衡量脫敏信息的被還原能力,評(píng)估內(nèi)容包括但不限于:恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度等,并根據(jù)確立的各可逆性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)隱私數(shù)據(jù)在數(shù)據(jù)域內(nèi)流轉(zhuǎn)場(chǎng)景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)可適用于文本、圖像等模態(tài)的數(shù)據(jù);2)隱私數(shù)據(jù)在數(shù)據(jù)域外發(fā)布場(chǎng)景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)的權(quán)重值應(yīng)設(shè)置較高。c)綜合考慮算法類(lèi)別、算法參數(shù)、數(shù)據(jù)模態(tài)等因素,設(shè)計(jì)合理的可逆性評(píng)估方案,設(shè)置合理的可逆性評(píng)估權(quán)重值,保證評(píng)估結(jié)果的準(zhǔn)確性和可信性,具體如下:1)分類(lèi)為置換技術(shù)的脫敏算法,其可逆性評(píng)估的權(quán)重值應(yīng)設(shè)置較高;2)分類(lèi)為差分隱私技術(shù)、泛化技術(shù)、匿名技術(shù)的脫敏算法,其可逆性評(píng)估的權(quán)重值應(yīng)設(shè)置較低。5.4脫敏算法信息偏差性評(píng)估脫敏算法信息偏差性評(píng)估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場(chǎng)景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場(chǎng)景,確定信息偏差性對(duì)應(yīng)的權(quán)重值,具體如下:8T/CSACXXXX—XXXX1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),算法信息偏差性評(píng)估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法信息偏差性評(píng)估的權(quán)重值應(yīng)設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場(chǎng)景,選擇5.2.3節(jié)中的評(píng)估指標(biāo),衡量脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的偏差程度,評(píng)估內(nèi)容包括但不限于:數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)應(yīng)用測(cè)試、隨機(jī)性分析等,并根據(jù)確立的各信息偏差性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)均方誤差、平均數(shù)等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)Kullback-Leibler散度、余弦距離等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)綜合考慮數(shù)據(jù)規(guī)模、數(shù)據(jù)分布、數(shù)據(jù)模態(tài)等因素,設(shè)計(jì)合理的信息偏差性評(píng)估方案,設(shè)置合理的信息偏差性評(píng)估權(quán)重值,保證評(píng)估結(jié)果的準(zhǔn)確性和可用性,具體如下:1)分類(lèi)為差分隱私技術(shù)的脫敏算法,其信息偏差性評(píng)估的權(quán)重值應(yīng)設(shè)置較高;2)分類(lèi)為匿名技術(shù)、泛化技術(shù)、置換技術(shù)的脫敏算法,其信息偏差性評(píng)估的權(quán)重值應(yīng)設(shè)置較低。5.5脫敏算法信息損失性評(píng)估脫敏算法信息損失性評(píng)估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場(chǎng)景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場(chǎng)景,確定信息損失性對(duì)應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為圖形、音頻等的數(shù)據(jù),算法信息損失性評(píng)估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法信息損失性評(píng)估的權(quán)重值應(yīng)設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場(chǎng)景,選擇5.2.4節(jié)中的評(píng)估指標(biāo),衡量脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的信息損失程度,評(píng)估內(nèi)容包括但不限于:信息熵、互信息、數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性、信息可用性等,并根據(jù)確立的各信息損失性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)信息熵、信息可用性等指標(biāo)可適用于圖像、音頻等模態(tài)的數(shù)據(jù)。c)綜合考慮數(shù)據(jù)可用、數(shù)據(jù)關(guān)聯(lián)、應(yīng)用場(chǎng)景等因素,設(shè)計(jì)合理的信息損失性評(píng)估方案,設(shè)置合理的信息損失性評(píng)估權(quán)重值,保證評(píng)估結(jié)果的準(zhǔn)確性和有效性,具體如下:1)分類(lèi)為泛化技術(shù)、匿名技術(shù)的脫敏算法,其信息損失性評(píng)估的權(quán)重值應(yīng)設(shè)置較高;2)分類(lèi)為差分隱私技術(shù)、置換技術(shù)的脫敏算法,其信息損失性評(píng)估的權(quán)重值應(yīng)設(shè)置較低。5.6脫敏算法復(fù)雜性評(píng)估脫敏算法復(fù)雜性評(píng)估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場(chǎng)景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場(chǎng)景,確定算法復(fù)雜性對(duì)應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格、圖像等的數(shù)據(jù),算法復(fù)雜性評(píng)估的權(quán)重值應(yīng)設(shè)置較低;2)數(shù)據(jù)模態(tài)為圖形、音頻、視頻等的數(shù)據(jù),算法復(fù)雜性評(píng)估的權(quán)重值應(yīng)設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場(chǎng)景,選擇5.2.5節(jié)中的評(píng)估指標(biāo),衡量脫敏算法的執(zhí)行效率和資源消耗情況,評(píng)估內(nèi)容包括但不限于:時(shí)間復(fù)雜度、空間復(fù)雜度、資源消耗等,并根據(jù)確立的各復(fù)雜性指標(biāo)的權(quán)重值進(jìn)行評(píng)估,具體如下:1)時(shí)間復(fù)雜度、空間復(fù)雜度等指標(biāo)可適用于任何類(lèi)型的數(shù)據(jù)模態(tài)的數(shù)據(jù);2)資源消耗等指標(biāo)可適用于任何類(lèi)型的數(shù)據(jù)模態(tài)的數(shù)據(jù)。9T/CSACXXXX—XXXXc)綜合考慮平臺(tái)資源、數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模、數(shù)據(jù)結(jié)構(gòu)等因素,設(shè)計(jì)合理的復(fù)雜性評(píng)估方案,設(shè)置合理的復(fù)雜性評(píng)估權(quán)重值,保證評(píng)估結(jié)果的準(zhǔn)確性和有效性,具體如下:1)分類(lèi)為差分隱私技術(shù)的脫敏算法,其復(fù)雜性評(píng)估的權(quán)重值應(yīng)設(shè)置較高;2)分類(lèi)為泛化技術(shù)、匿名技術(shù)、置換技術(shù)的脫敏算法,其復(fù)雜性評(píng)估的權(quán)重值應(yīng)設(shè)置較低。6脫敏算法能力評(píng)估的報(bào)告要求6.1形成評(píng)估報(bào)告的目的評(píng)估報(bào)告可以更好的幫助當(dāng)前信息擁有者、主管監(jiān)管部門(mén)、第三方評(píng)估機(jī)構(gòu)等組織等對(duì)脫敏算法能力的把控,能夠更加直觀的展示脫敏算法能力評(píng)估的結(jié)果。6.2評(píng)估報(bào)告的組成內(nèi)容評(píng)估報(bào)告的內(nèi)容由評(píng)估項(xiàng)目概述、評(píng)估指標(biāo)、單項(xiàng)評(píng)估結(jié)果分析、整體評(píng)估、等級(jí)評(píng)估結(jié)論五部分組成。6.3評(píng)估項(xiàng)目概述組成內(nèi)容評(píng)估內(nèi)容概述由評(píng)估的目的、評(píng)估的依據(jù)、評(píng)估的過(guò)程、評(píng)估報(bào)告的分發(fā)范圍四部分組成。評(píng)估目的部分主要簡(jiǎn)述評(píng)估開(kāi)展的背景、評(píng)估涉及的主體和評(píng)估目標(biāo)等內(nèi)容。評(píng)估的依據(jù)部分主要分類(lèi)列出開(kāi)展評(píng)估活動(dòng)所依據(jù)的標(biāo)準(zhǔn)、文件和合同等。評(píng)估的過(guò)程部分應(yīng)根據(jù)實(shí)際評(píng)估情況描述等級(jí)評(píng)估工作流程、評(píng)估每個(gè)階段完成的關(guān)鍵任務(wù)和評(píng)估的時(shí)間節(jié)點(diǎn)等內(nèi)容。評(píng)估報(bào)告的分發(fā)范圍部分應(yīng)說(shuō)明等級(jí)評(píng)估報(bào)告正本的份數(shù)與分發(fā)范圍。6.4評(píng)估指標(biāo)評(píng)估指標(biāo)由脫敏算法適用的場(chǎng)景、評(píng)估點(diǎn)、評(píng)估指標(biāo)量化等級(jí)三部分組成。脫敏算法適用的場(chǎng)景主要描述了被評(píng)估脫敏算法的可適用場(chǎng)景、適用數(shù)據(jù)類(lèi)型等內(nèi)容。評(píng)估點(diǎn)應(yīng)根據(jù)實(shí)際情況與算法用途進(jìn)行設(shè)定與描述。評(píng)估指標(biāo)量化部分應(yīng)說(shuō)明評(píng)估量化指標(biāo)的來(lái)源與適用范圍。6.5單項(xiàng)評(píng)估結(jié)果分析單項(xiàng)評(píng)估內(nèi)容包括“5.2脫敏算法能力評(píng)估指標(biāo)體系”中涉及的一個(gè)或多個(gè)類(lèi)別。由達(dá)標(biāo)的評(píng)估點(diǎn)匯總分析和存在問(wèn)題的評(píng)估點(diǎn)匯總分析兩部分構(gòu)成。達(dá)標(biāo)的評(píng)估點(diǎn)匯總分析是針對(duì)評(píng)估結(jié)果中存在的符合項(xiàng)進(jìn)行匯總分析,存在問(wèn)題的評(píng)估點(diǎn)匯總分析是針對(duì)評(píng)估結(jié)果中存在的部分符合項(xiàng)和不符合項(xiàng)進(jìn)行匯總和分析,例如,當(dāng)單項(xiàng)評(píng)估為脫敏算法信息偏差性評(píng)估時(shí),評(píng)估點(diǎn)可以為脫敏前后數(shù)據(jù)之間的余弦距離是否符合預(yù)期、脫敏前后數(shù)據(jù)之間的余弦距離是否符合預(yù)期等。6.6整體評(píng)估組成內(nèi)容整體評(píng)估從單項(xiàng)評(píng)估結(jié)果與脫敏要求的匹配程度進(jìn)行分析和整體評(píng)價(jià)。整體評(píng)估結(jié)果示例如表1所示。表1整體評(píng)估結(jié)果示例單項(xiàng)評(píng)估結(jié)果類(lèi)別評(píng)估點(diǎn)與脫敏要求的單項(xiàng)評(píng)估得分權(quán)重參考T/CSACXXXX—XXXX匹配程度級(jí)別可逆性評(píng)估結(jié)果恢復(fù)信息的準(zhǔn)確度較高0.2…信息偏差性評(píng)估結(jié)果歐式距離值較高0.5…信息損失性評(píng)估結(jié)果信息熵較高0.2復(fù)雜性評(píng)估技術(shù)結(jié)果時(shí)間復(fù)雜度較高50.1…6.7等級(jí)評(píng)估結(jié)論組成內(nèi)容說(shuō)明等級(jí)評(píng)估結(jié)論確定的方法,并根據(jù)單項(xiàng)評(píng)估得分和對(duì)應(yīng)的權(quán)重參考,給出被測(cè)對(duì)象的等級(jí)評(píng)估結(jié)論,等級(jí)評(píng)估結(jié)論示例如表2所示。表2等級(jí)評(píng)估結(jié)論示例等級(jí)評(píng)估結(jié)論脫敏效果評(píng)估綜合分?jǐn)?shù)優(yōu)9-10良7-8中4-6差0-3T/CSACXXXX—XXXX脫敏算法能力評(píng)估示例A.1概述本附錄以k-匿名算法對(duì)文本類(lèi)醫(yī)療數(shù)據(jù)的脫敏能力評(píng)估為例,介紹針對(duì)脫敏算法能力評(píng)估指標(biāo)體系的使用方法,供進(jìn)行脫敏算法能力評(píng)估時(shí)參考。脫敏算法能力評(píng)估過(guò)程的關(guān)鍵處理環(huán)節(jié)包括脫敏算法評(píng)估維度權(quán)重確定、敏感信息屬性確定、評(píng)估指標(biāo)選定、可逆性評(píng)估、信息偏差性評(píng)估、信息損失性評(píng)估、復(fù)雜性評(píng)估以及評(píng)估報(bào)告生成。A.2脫敏算法評(píng)估維度權(quán)重確定根據(jù)數(shù)據(jù)的使用場(chǎng)景、來(lái)源、脫敏意圖等因素,定義脫敏算法評(píng)估維度的權(quán)重。本示例中數(shù)據(jù)的應(yīng)用場(chǎng)景為醫(yī)療問(wèn)診場(chǎng)景,數(shù)據(jù)模態(tài)為結(jié)構(gòu)化數(shù)據(jù),使用的k-匿名算法(脫敏參數(shù)k=3)屬于泛化技術(shù),參考表A.1建議的不同脫敏算法類(lèi)別(泛化、匿名、置換、差分隱私)處理文本類(lèi)醫(yī)療數(shù)據(jù)時(shí)的評(píng)估指標(biāo)維度權(quán)重,將可逆性、信息偏差性、信息損失性、復(fù)雜性四個(gè)維度的對(duì)應(yīng)權(quán)重分別為0.2、0.2、0.5、0.1。表A.1不同脫敏算法類(lèi)別處理文本類(lèi)醫(yī)療數(shù)據(jù)時(shí)的評(píng)估指標(biāo)維度權(quán)重參考T/CSACXXXX—XXXXA.3敏感信息屬性確定收集并整理待評(píng)測(cè)的原始數(shù)據(jù)和經(jīng)過(guò)k-匿名算法處理后的數(shù)據(jù),在本示例中,原始數(shù)據(jù)如表A.2所示,k-匿名算法處理后的數(shù)據(jù)如表A.3所示。確定本次脫敏操作的敏感信息屬性為“年齡”。表A.2原始數(shù)據(jù)123456789表A.3脫敏后數(shù)據(jù)1234癌癥56789A.4評(píng)估指標(biāo)選定a)確定可逆性的評(píng)估為算法的可逆程度,脫敏算法參數(shù)以及信息的還原性。評(píng)估指標(biāo)為脫敏算法是否為不可逆算法,脫敏算法的參數(shù)對(duì)于原始數(shù)據(jù)數(shù)據(jù)規(guī)模的脫敏強(qiáng)度是否合適,通過(guò)脫敏后的隱私信息還原出原始隱私信息的程度;b)確定信息偏差性的評(píng)估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的平均絕對(duì)誤差和歐氏距離。評(píng)估指標(biāo)為脫敏前后數(shù)據(jù)間的平均絕對(duì)誤差0~2.13時(shí)為偏差性較低,2.13~4.63時(shí)為偏差性中等,4.63T/CSACXXXX—XXXX以上為偏差性較高。脫敏前后數(shù)據(jù)間的歐氏距離0~7.04時(shí)為偏差性較低,7.04~9.38時(shí)為偏差性中等,9.38以上為偏差性較高;c)確定信息損失性的評(píng)估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的信息熵差值和互信息。評(píng)估指標(biāo)為脫敏前后數(shù)據(jù)間的信息熵差值0~0.06時(shí)為信息損失性低,0.06~4.36時(shí)為信息損失性中等,4.36以上信息損失性高。脫敏前后數(shù)據(jù)間的互信息為0.8~1.0時(shí)為信息損失性低,0.4~0.8為信息損失性中等,0~0.4為信息損失性高;d)確定復(fù)雜性的評(píng)估為脫敏算法的時(shí)間復(fù)雜度和空間復(fù)雜度。評(píng)估指標(biāo)為脫敏算法的時(shí)間復(fù)雜度小于0(logn)為復(fù)雜性低,O(logn)o(n)間為復(fù)雜性中等,大于o(n)為復(fù)雜性高。脫敏算法的空間復(fù)雜度小于等于o(1)為復(fù)雜性低,為o(n)為復(fù)雜性中等,大于on2)為復(fù)雜性高。A.5可逆性評(píng)估本次脫敏使用的脫敏算法類(lèi)別為泛化技術(shù),使用k-匿名算法,判斷該脫敏算法為不可逆算法,參數(shù)k=3,數(shù)據(jù)量為9條,通過(guò)脫敏后的隱私信息還原出原始隱私信息的概率為0.1,故本次脫敏任務(wù)中的可逆性低。A.6信息偏差性評(píng)估計(jì)算得到脫敏前后數(shù)據(jù)的平均絕對(duì)誤差為13.44,依據(jù)評(píng)估指標(biāo)13.44>4.64,脫敏前后數(shù)據(jù)的歐氏距離為11.00,依據(jù)評(píng)估指標(biāo)11.00>9.38,故本次脫敏效果中的偏差性高。A.7信息損失性評(píng)估計(jì)算得到脫敏前數(shù)據(jù)的信息熵為3.17。脫敏后數(shù)據(jù)的信息熵為1.58。脫敏前后數(shù)據(jù)的信息熵差值為1.59,依據(jù)評(píng)估指標(biāo)0.06<1.59<4.36,脫敏前后數(shù)據(jù)的互信息為0.48,依據(jù)評(píng)估指標(biāo)0.4<0.48<0.8,故本次脫敏效果中的信息損失性中等。A.8復(fù)雜性評(píng)估分析k-匿名算法的時(shí)間復(fù)雜度為o(n*log(m)),空間復(fù)雜度為o(n),故本次脫敏效果中的復(fù)雜性高。A.9評(píng)估報(bào)告生成對(duì)可逆性評(píng)估結(jié)果、信息偏差性評(píng)估結(jié)果、信息損失性評(píng)估結(jié)果、復(fù)雜性評(píng)估結(jié)果進(jìn)行加權(quán)操作,得出算法能力的綜合評(píng)估結(jié)果。T/CSACXXXX—XXXX脫敏算法分類(lèi)示例B.1概述本附錄以脫敏算法的按需選擇為例,根據(jù)脫敏算法的實(shí)現(xiàn)原理、應(yīng)用場(chǎng)景、處理數(shù)據(jù)方式等因素,可以分為差分隱私、泛化、匿名、置換四類(lèi)技術(shù)。在本示例中,分別介紹基于差分隱私技術(shù)的脫敏算法描述示例、基于泛化的脫敏算法描述示例、基于匿名的脫敏算法描述示例和基于置換的脫敏算法描述示例,,供執(zhí)行脫敏算法選擇操作時(shí)參考。B.2基于差分隱私技術(shù)的脫敏算法表B.1給出了27種基于差分隱私技術(shù)的脫敏算法描述示例。表B.1基于差分隱私技術(shù)的脫敏算法描述示例1nism2Noisyaplace3NoisyMax3表4 56789ntialMmNoisyT/CSACXXXX—XXXXNoisyMax4Vectorue1Vectorue2Vectorue3表Vectorue4表輸入:數(shù)值列表Vectorue5輸入:數(shù)值列表Vectorue6輸入:數(shù)值列表Numeric表輸入:數(shù)值列表組por組輸入:數(shù)值列表T/CSACXXXX—XXXXnNoisy組NoisyB.3基于泛化技術(shù)的脫敏算法表B.2給出了22種基于泛化技術(shù)的脫敏算法描述示例。表B.2基于泛化技術(shù)的脫敏算法描述示例1n2輸入:數(shù)值34息別5p_replace61參數(shù):用戶id、進(jìn)入?yún)^(qū)域的時(shí)間、區(qū)域點(diǎn)集73參數(shù):用戶id、進(jìn)入?yún)^(qū)域的時(shí)間、區(qū)域點(diǎn)集8_reduction9輸入:圖像blur輸入:圖像T/CSACXXXX—XXXXbox_blur輸入:圖像輸入:圖像輸入:圖像輸入:視頻blur_video輸入:視頻box_blur_輸入:視頻輸入:視頻o輸入:視頻輸入:音頻c輸入:音頻輸入:音頻輸入:音頻B.4基于匿名技術(shù)的脫敏算法表B.3給出了12種基于匿名技術(shù)的脫敏算法描述示例。表C.3基于匿名技術(shù)的脫敏算法描述示例12輸入:經(jīng)緯度參數(shù):匿名度k,匿名區(qū)域面積s_cd,圓環(huán)內(nèi)徑系數(shù)rho3輸入:經(jīng)緯度參數(shù):匿名度k,匿名區(qū)域面積s_cdT/CSACXXXX—XXXX4alCloagorithm輸入:經(jīng)度、緯度參數(shù):最小匿名度k,橫縱坐標(biāo)范圍c5輸入:經(jīng)度、緯度6ymity與真實(shí)位置一起形成K-匿名輸入:經(jīng)度、緯度參數(shù):匿名度k、虛擬位置庫(kù)經(jīng)緯度789iversity數(shù)量,用于調(diào)節(jié)某一敏感屬性出現(xiàn)的次數(shù),用件輸入:經(jīng)度、緯度參數(shù):匿名度k、虛擬位置庫(kù)經(jīng)緯度用于返回距離用戶最近的k輸入:經(jīng)度、緯度參數(shù):匿名度k、所有用戶經(jīng)緯度B.5基于置換技術(shù)的脫敏算法表B.4給出了19種基于置換技術(shù)的脫敏算法描述示例。表B.4基于置換技術(shù)的脫敏算法描述示例12Shift3T/CSACXXXX—XXXX45據(jù)6從第2個(gè)字符用*代替,返回處理后的字7字符串中間的字符用*代替,返回處理后89將圖像的每個(gè)像素的RGB通道值隨機(jī)打?qū)D像的每個(gè)像素的RGB通道值加上一將每一幀的每個(gè)像素RGB通道值加上一video_remove_bg20T/CSACXXXX—XXXX可逆性的計(jì)算方法C.1概述可逆性可以通過(guò)逆向映射、字典攻擊、統(tǒng)計(jì)攻擊、機(jī)器學(xué)習(xí)等方法判斷,本附錄介紹了逆向映射、字典攻擊、統(tǒng)計(jì)攻擊、機(jī)器學(xué)習(xí)的方法描述,可供隱私脫敏的組織者參考。C.2逆向映射逆向映射是一種簡(jiǎn)單的可逆性評(píng)估方法,即嘗試將脫敏后的數(shù)據(jù)重新映射回原始數(shù)據(jù)。如果能夠準(zhǔn)確還原原始數(shù)據(jù),說(shuō)明脫敏算法不安全。逆向映射的關(guān)鍵在于找到逆向映射函數(shù)或算法,使得脫敏結(jié)果能夠被逆向操作還原。C.3字典攻擊字典攻擊是一種基于預(yù)先構(gòu)建的字典或映射表來(lái)還原脫敏結(jié)果的方法。攻擊者通過(guò)窮舉字典中的映射關(guān)系,嘗試將脫敏結(jié)果映射回原始數(shù)據(jù),如果能夠找到匹配的映射關(guān)系,即可還原原始數(shù)據(jù)。為了防止字典攻擊,脫敏算法需要使用隨機(jī)化技術(shù)或其他安全措施,使得字典攻擊的成功率極低。C.4統(tǒng)計(jì)分析統(tǒng)計(jì)分析是一種基于脫敏結(jié)果統(tǒng)計(jì)特征來(lái)推斷原始數(shù)據(jù)的方法。攻擊者通過(guò)分析脫敏結(jié)果的統(tǒng)計(jì)特征,如頻率分布、均值、方差等,來(lái)推測(cè)原始數(shù)據(jù)的可能取值范圍。脫敏算法需要通過(guò)添加噪音、擾動(dòng)或其他技術(shù)來(lái)破壞統(tǒng)計(jì)特征,從而提高脫敏結(jié)果的安全性。C.5機(jī)器學(xué)習(xí)攻擊機(jī)器學(xué)習(xí)攻擊是一種利用機(jī)器學(xué)習(xí)模型來(lái)還原脫敏結(jié)果的方法。攻擊者可以使用機(jī)器學(xué)習(xí)算法,通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí)脫敏結(jié)果與原始數(shù)據(jù)之間的映射關(guān)系,一旦攻擊者成功構(gòu)建了準(zhǔn)確的模型,即可使用該模型將脫敏結(jié)果還原回原始數(shù)據(jù)。為了抵御機(jī)器學(xué)習(xí)攻擊,脫敏算法需要采用對(duì)抗性機(jī)器學(xué)習(xí)技術(shù)或其他防御機(jī)制,使得攻擊者難以構(gòu)建準(zhǔn)確的模型。21T/CSACXXXX—XXXX信息偏差性的計(jì)算方法D.1概述信息偏差性可以通過(guò)計(jì)算脫敏算法執(zhí)行前后數(shù)據(jù)的均方誤差、歐式距離、余弦距離等表示,本附錄介紹了相關(guān)計(jì)算信息偏差性的方法,可供隱私脫敏的組織者參考。D.2均方誤差對(duì)于兩個(gè)數(shù)據(jù)集X和Y,均方誤差(MeanSquaredError,MSE)是用來(lái)衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評(píng)估模型預(yù)測(cè)或擬合的準(zhǔn)確性,或者比較兩個(gè)數(shù)據(jù)集之間的差異程度。均方誤差的計(jì)算公式如下:n表示數(shù)據(jù)點(diǎn)的個(gè)數(shù),表示X數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),yi表示Y數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的均方誤差,均方誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,均方誤差越小,表示脫敏操作引入的偏差越小。均方誤差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.3均絕對(duì)誤差對(duì)于兩個(gè)數(shù)據(jù)集X和Y,平均絕對(duì)誤差(MeanAbsoluteError,MAE)是用來(lái)衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評(píng)估模型預(yù)測(cè)或擬合的準(zhǔn)確性,或者比較兩個(gè)數(shù)據(jù)集之間的差異程度。平均絕對(duì)誤差的計(jì)算公式如下:其中,n表示數(shù)據(jù)點(diǎn)的個(gè)數(shù),表示X數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),yi表示Y數(shù)據(jù)集中的第yi個(gè)數(shù)據(jù)點(diǎn)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的平均絕對(duì)誤差,平均絕對(duì)誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,平均絕對(duì)誤差越小,表示脫敏操作引入的偏差越小。平均絕對(duì)誤差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.4Kullback-Leibler散度對(duì)于兩個(gè)離散分布P和Q,其中P表示真實(shí)分布,Q表示近似分布,Kullback-Leibler散度(Kullback-LeiblerDivergence,KLD)是用來(lái)衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評(píng)估一個(gè)概率分布相對(duì)于另一個(gè)概率分布的信息丟失或信息增益。KL散度的公式如下:其中,n表示P分布中元素的個(gè)數(shù),表示P分布中第i個(gè)元素,P(xz)表示元素在分布P中的概率,Q(xz)表示元素在分布Q中的概率。22T/CSACXXXX—XXXX比較原始信息和脫敏信息之間的偏差,可以計(jì)算它們之間的Kullback-Leibler散度,Kullback-Leibler散度的數(shù)值越大,表示脫敏操作引入的偏差越大,Kullback-Leibler散度越小,表示脫敏操作引入的偏差越小。Kullback-Leibler散度可運(yùn)用的數(shù)據(jù)模態(tài)為:編碼型。D.5歐氏距離的計(jì)算方法歐式距離(Euclideandistance,ED)是指兩個(gè)n維向量之間的距離,即歐理距離。計(jì)算兩個(gè)向量x=(x1,x2,…,xn)和y=(y,y2,..…,y)的歐氏距離d(x,y)的公式如下:比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的歐氏距離,如果歐氏距離較小,則說(shuō)明脫敏操作引入的偏差較小,反之則說(shuō)明脫敏操作引入的偏差較大。歐氏距離可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.6余弦距離的計(jì)算方法余弦距離(Cosinedistance,CD)是指兩個(gè)向量之間的夾角余弦值,用于衡量它們的相似度。計(jì)算兩個(gè)向量和y的歐氏距離的公式如下:其中,是兩個(gè)向量的點(diǎn)集,llxll和Ilyll分別是向量x和向量y的范數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的余弦距離。余弦距離的取值在0到1之間,如果余弦距離接近1,則說(shuō)明脫敏操作引入的偏差較小,如果余弦距離接近0,則說(shuō)明脫敏操作引入的偏差較大。余弦距離可運(yùn)用的數(shù)據(jù)模態(tài)為:音頻型。D.7峰值信噪比峰值信噪比(PeakSignal-to-NoiseRatio,簡(jiǎn)稱PSNR)是一種用于衡量?jī)蓚€(gè)數(shù)據(jù)集之間的重建質(zhì)量或差異程度的指標(biāo)。PSNR可以用于比較不同數(shù)據(jù)集之間的相似度,從而確定哪個(gè)數(shù)據(jù)集的質(zhì)量更高。較高的PSNR表示數(shù)據(jù)集之間的差異較小,較低的PSNR表示數(shù)據(jù)集之間的差異較大。計(jì)算兩個(gè)數(shù)據(jù)集峰值信噪比的公式如下:其中,MAX表示信號(hào)的最大可能取值(對(duì)于8位圖像通常為255),MSE表示均方誤差,是兩個(gè)數(shù)據(jù)集之間的平均差異。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的峰值信噪比。峰值信噪比越高,表示數(shù)據(jù)集的偏差較小,峰值信噪越低,表示數(shù)據(jù)集的偏差較大。峰值信噪比可運(yùn)用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。23T/CSACXXXX—XXXXD.8結(jié)構(gòu)相似性指數(shù)結(jié)構(gòu)相似性指數(shù)(StructuralSimilarityIndex,簡(jiǎn)稱SSIM)是一種用于衡量?jī)蓚€(gè)圖像之間結(jié)構(gòu)相似度的指標(biāo)。它綜合考慮了亮度、對(duì)比度和結(jié)構(gòu)等因素,能夠更準(zhǔn)確地評(píng)估圖像的相似度。SSIM的計(jì)算公式如下:SSIM(x,y)=[l(x,y)*c(x,y)*s(x,y)]Λaz其中,和y表示兩個(gè)圖像,l(x,y)表示亮度相似度,c(x,y)表示對(duì)比度相似度,s(x,y)表示結(jié)構(gòu)相似度,a是一個(gè)參數(shù)(通常取1)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的結(jié)構(gòu)相似性指數(shù)。SSIM的取值范圍在0到1之間,如果結(jié)構(gòu)相似性指數(shù)接近1,則說(shuō)明脫敏操作引入的偏差較小,如果結(jié)構(gòu)相似性指數(shù)接近0,則說(shuō)明脫敏操作引入的偏差越小。結(jié)構(gòu)相似性指數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。D.9平均數(shù)平均數(shù)(Average,AVE)是一種常見(jiàn)的統(tǒng)計(jì)量,通過(guò)比較不同數(shù)據(jù)集的平均數(shù),可以了解它們之間的差異。平均數(shù)可以幫助識(shí)別數(shù)據(jù)集之間的相似性或差異性,并對(duì)數(shù)據(jù)進(jìn)行比較和分析。平均數(shù)的計(jì)算公式如下:其中,表示數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),N表示數(shù)據(jù)點(diǎn)的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的平均數(shù)的差值。平均數(shù)的差值越大,表示脫敏操作引入的偏差越大,平均數(shù)的差值越小,表示脫敏操作引入的偏差越小。平均數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.10中位數(shù)中位數(shù)(Median,MED)是一種用于衡量數(shù)據(jù)集的中心位置的統(tǒng)計(jì)量。中位數(shù)是將數(shù)據(jù)集按照大小排序后,位于中間位置的數(shù)值。中位數(shù)可以幫助識(shí)別數(shù)據(jù)集之間的相似性或差異性,并對(duì)數(shù)據(jù)進(jìn)行比較和分析。中位數(shù)的計(jì)算方式如下:a)如果數(shù)據(jù)集中的數(shù)據(jù)個(gè)數(shù)為奇數(shù),中位數(shù)是排序后位于中間位置的數(shù)值;b)如果數(shù)據(jù)集中的數(shù)據(jù)個(gè)數(shù)為偶數(shù),中位數(shù)是排序后中間兩個(gè)數(shù)值的平均值。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的中位數(shù)的差值。中位數(shù)的差值越大,表示脫敏操作引入的偏差越大,中位數(shù)的差值越小,表示脫敏操作引入的偏差越小。中位數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.11標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(StandardDeviation,縮寫(xiě)為SD)是用來(lái)衡量數(shù)據(jù)集中數(shù)據(jù)的離散程度或變異程度的統(tǒng)計(jì)量。標(biāo)準(zhǔn)差可以用來(lái)比較不同數(shù)據(jù)集之間的離散程度。計(jì)算數(shù)據(jù)集標(biāo)準(zhǔn)差的公式如下:24T/CSACXXXX—XXXX其中,表示數(shù)據(jù)集中的第個(gè)數(shù)據(jù)點(diǎn),表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點(diǎn)的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的標(biāo)準(zhǔn)差的差值。標(biāo)準(zhǔn)差的差值越大,表示脫敏操作引入的偏差越大,標(biāo)準(zhǔn)差的差值越小,表示脫敏操作引入的偏差越小。標(biāo)準(zhǔn)差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.12方差方差(Variance,Var)是一種統(tǒng)計(jì)量,用于描述數(shù)據(jù)集內(nèi)數(shù)據(jù)點(diǎn)的變異程度。方差可以幫助我們了解數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的分布情況和數(shù)據(jù)的穩(wěn)定性,經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進(jìn)行數(shù)據(jù)篩選。計(jì)算方差的公式如下:其中,表示數(shù)據(jù)集中的第個(gè)數(shù)據(jù)點(diǎn),表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點(diǎn)的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的方差的差值。方差的差值越大,表示脫敏操作引入的偏差越大,方差的差值越小,表示脫敏操作引入的偏差越小。方差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.13最大值最大值(MaximumValue,縮寫(xiě)為Max)是數(shù)據(jù)集中的最大觀測(cè)值,它表示數(shù)據(jù)集中的最高點(diǎn)或最大的數(shù)據(jù)點(diǎn)。最大值可以幫助確定數(shù)據(jù)集中的極端值,幫助了解數(shù)據(jù)的范圍和數(shù)據(jù)的分布情況,在數(shù)據(jù)分析和統(tǒng)計(jì)中,最大值經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進(jìn)行數(shù)據(jù)篩選。計(jì)算最大值的公式如下:Max=max(x1,x2,…,xn)其中,X1,X2,…,xn表示數(shù)據(jù)集中的數(shù)據(jù)點(diǎn),而Max表示數(shù)據(jù)集的最大值。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的最大值的差值。最大值的差值越大,表示脫敏操作引入的偏差越大,最大值的差值越小,表示脫敏操作引入的偏差越小。最大值可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.14最小值最小值(MinimumValue,縮寫(xiě)為Min)是數(shù)據(jù)集中的最小
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中外歌劇鑒賞知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春齊魯師范學(xué)院
- 海南大學(xué)《數(shù)字出版設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 北京工商大學(xué)《基礎(chǔ)日語(yǔ)⑴》2023-2024學(xué)年第一學(xué)期期末試卷
- 遼寧省朝陽(yáng)市2025屆高三下學(xué)期診斷性考試物理試題含解析
- 華陰市2024-2025學(xué)年小升初數(shù)學(xué)模擬試卷含解析
- 2025屆河南省開(kāi)封市重點(diǎn)中學(xué)高三考前熱身英語(yǔ)試題解析含解析
- 云南國(guó)土資源職業(yè)學(xué)院《大學(xué)英語(yǔ)Ⅲ(藝體類(lèi))》2023-2024學(xué)年第二學(xué)期期末試卷
- 古老的船屋文化江蘇無(wú)錫的世界文化遺產(chǎn)
- 智能農(nóng)業(yè)需求背景調(diào)研
- 2025年中考語(yǔ)文文言文總復(fù)習(xí):文言文閱讀之對(duì)比閱讀(講義)教師版
- 小學(xué)美術(shù)-湘美版四年級(jí)下冊(cè)第10課中國(guó)龍教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 一年級(jí)下冊(cè)勞技教案
- 部編版四年級(jí)語(yǔ)文下冊(cè)第4單元大單元整體教學(xué)作業(yè)設(shè)計(jì)(教案配套)
- 大一邏輯學(xué)全部
- 游戲法緩解小班幼兒入園焦慮的個(gè)案研究
- 2023年包頭輕工職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)題庫(kù)及答案解析
- 地下室頂板裂縫防水處理方案(完整資料)
- 宮頸錐切日間手術(shù)臨床路徑(婦科)及表單
- GB/T 23111-2008非自動(dòng)衡器
- GB/T 18877-2020有機(jī)無(wú)機(jī)復(fù)混肥料
- 三大構(gòu)成之立體構(gòu)成-課件
評(píng)論
0/150
提交評(píng)論