個(gè)人隱私脫敏算法能力評(píng)估、分類(lèi)示例、可逆性、信息偏差性、損失性、復(fù)雜性的計(jì)算方法、脫敏算法能力評(píng)估報(bào)告示例_第1頁(yè)
個(gè)人隱私脫敏算法能力評(píng)估、分類(lèi)示例、可逆性、信息偏差性、損失性、復(fù)雜性的計(jì)算方法、脫敏算法能力評(píng)估報(bào)告示例_第2頁(yè)
個(gè)人隱私脫敏算法能力評(píng)估、分類(lèi)示例、可逆性、信息偏差性、損失性、復(fù)雜性的計(jì)算方法、脫敏算法能力評(píng)估報(bào)告示例_第3頁(yè)
個(gè)人隱私脫敏算法能力評(píng)估、分類(lèi)示例、可逆性、信息偏差性、損失性、復(fù)雜性的計(jì)算方法、脫敏算法能力評(píng)估報(bào)告示例_第4頁(yè)
個(gè)人隱私脫敏算法能力評(píng)估、分類(lèi)示例、可逆性、信息偏差性、損失性、復(fù)雜性的計(jì)算方法、脫敏算法能力評(píng)估報(bào)告示例_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(資料性)

脫敏算法能力評(píng)估示例概述本附錄以k-匿名算法對(duì)文本類(lèi)醫(yī)療數(shù)據(jù)的脫敏能力評(píng)估為例,介紹針對(duì)脫敏算法能力評(píng)估指標(biāo)體系的使用方法,供進(jìn)行脫敏算法能力評(píng)估時(shí)參考。脫敏算法能力評(píng)估過(guò)程的關(guān)鍵處理環(huán)節(jié)包括脫敏算法評(píng)估維度權(quán)重確定、敏感信息屬性確定、評(píng)估指標(biāo)選定、可逆性評(píng)估、信息偏差性評(píng)估、信息損失性評(píng)估、復(fù)雜性評(píng)估以及評(píng)估報(bào)告生成。脫敏算法評(píng)估維度權(quán)重確定根據(jù)數(shù)據(jù)的使用場(chǎng)景、來(lái)源、脫敏意圖等因素,定義脫敏算法評(píng)估維度的權(quán)重。本示例中數(shù)據(jù)的應(yīng)用場(chǎng)景為醫(yī)療問(wèn)診場(chǎng)景,數(shù)據(jù)模態(tài)為結(jié)構(gòu)化數(shù)據(jù),使用的k-匿名算法(脫敏參數(shù)k=3)屬于泛化技術(shù),參考表A.1建議的不同脫敏算法類(lèi)別(泛化、匿名、置換、差分隱私)處理文本類(lèi)醫(yī)療數(shù)據(jù)時(shí)的評(píng)估指標(biāo)維度權(quán)重,將可逆性、信息偏差性、信息損失性、復(fù)雜性四個(gè)維度的對(duì)應(yīng)權(quán)重分別為0.2、0.2、0.5、0.1。不同脫敏算法類(lèi)別處理文本類(lèi)醫(yī)療數(shù)據(jù)時(shí)的評(píng)估指標(biāo)維度權(quán)重參考可逆性信息偏差性信息損失性復(fù)雜性算法類(lèi)別評(píng)估點(diǎn)參考權(quán)重評(píng)估點(diǎn)參考權(quán)重評(píng)估點(diǎn)參考權(quán)重評(píng)估點(diǎn)參考權(quán)重泛化技術(shù)脫敏算法是否可逆0.1脫敏前后數(shù)據(jù)均值0.04信息熵差值0.5時(shí)間復(fù)雜度0.05脫敏前后數(shù)據(jù)方差0.04還原信息的準(zhǔn)確性0.05脫敏前后數(shù)據(jù)均方差0.03KL散度0.03空間復(fù)雜度0.05還原信息的誤差性0.05歐氏距離0.03平均絕對(duì)值0.03匿名技術(shù)脫敏算法是否可逆0.1脫敏前后數(shù)據(jù)均值0.04信息熵差值0.5時(shí)間復(fù)雜度0.05脫敏前后數(shù)據(jù)方差0.04還原信息的準(zhǔn)確性0.05脫敏前后數(shù)據(jù)均方差0.03KL散度0.03空間復(fù)雜度0.05還原信息的誤差性0.05歐氏距離0.03平均絕對(duì)值0.03置換技術(shù)脫敏算法是否可逆0.3脫敏前后數(shù)據(jù)均值0.04信息熵差值0.2時(shí)間復(fù)雜度0.05脫敏前后數(shù)據(jù)方差0.04還原信息的準(zhǔn)確性0.1脫敏前后數(shù)據(jù)均方差0.03KL散度0.03空間復(fù)雜度0.05還原信息的誤差性0.1歐氏距離0.03平均絕對(duì)值0.03差分隱私技術(shù)脫敏算法是否可逆0.1脫敏前后數(shù)據(jù)均值0.08信息熵差值0.2時(shí)間復(fù)雜度0.05脫敏前后數(shù)據(jù)方差0.08還原信息的準(zhǔn)確性0.05脫敏前后數(shù)據(jù)均方差0.08KL散度0.08空間復(fù)雜度0.05還原信息的誤差性0.05歐氏距離0.09平均絕對(duì)值0.09敏感信息屬性確定收集并整理待評(píng)測(cè)的原始數(shù)據(jù)和經(jīng)過(guò)k-匿名算法處理后的數(shù)據(jù),在本示例中,原始數(shù)據(jù)如表A.2所示,k-匿名算法處理后的數(shù)據(jù)如表A.3所示。確定本次脫敏操作的敏感信息屬性為“年齡”。原始數(shù)據(jù)序號(hào)郵編年齡病癥14767729心臟病24760222心臟病34767827心臟病44790543流感54790952心臟病64790647癌癥74760530心臟病84761736癌癥94760732癌癥脫敏后數(shù)據(jù)序號(hào)郵編年齡病癥1476**476**476**2*心臟病心臟病心臟病22*32*44790*4790*4790*≥40≥40≥40流感心臟病癌癥567476**476**476**3*3*3*心臟病癌癥癌癥89評(píng)估指標(biāo)選定確定可逆性的評(píng)估為算法的可逆程度,脫敏算法參數(shù)以及信息的還原性。評(píng)估指標(biāo)為脫敏算法是否為不可逆算法,脫敏算法的參數(shù)對(duì)于原始數(shù)據(jù)數(shù)據(jù)規(guī)模的脫敏強(qiáng)度是否合適,通過(guò)脫敏后的隱私信息還原出原始隱私信息的程度;確定信息偏差性的評(píng)估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的平均絕對(duì)誤差和歐氏距離。評(píng)估指標(biāo)為脫敏前后數(shù)據(jù)間的平均絕對(duì)誤差0~2.13時(shí)為偏差性較低,2.13~4.63時(shí)為偏差性中等,4.63以上為偏差性較高。脫敏前后數(shù)據(jù)間的歐氏距離0~7.04時(shí)為偏差性較低,7.04~9.38時(shí)為偏差性中等,9.38以上為偏差性較高;確定信息損失性的評(píng)估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的信息熵差值和互信息。評(píng)估指標(biāo)為脫敏前后數(shù)據(jù)間的信息熵差值0~0.06時(shí)為信息損失性低,0.06~4.36時(shí)為信息損失性中等,4.36以上信息損失性高。脫敏前后數(shù)據(jù)間的互信息為0.8~1.0時(shí)為信息損失性低,0.4~0.8為信息損失性中等,0~0.4為信息損失性高;確定復(fù)雜性的評(píng)估為脫敏算法的時(shí)間復(fù)雜度和空間復(fù)雜度。評(píng)估指標(biāo)為脫敏算法的時(shí)間復(fù)雜度小于Ologn為復(fù)雜性低,Ologn~On間為復(fù)雜性中等,大于On為復(fù)雜性高。脫敏算法的空間復(fù)雜度小于等于可逆性評(píng)估本次脫敏使用的脫敏算法類(lèi)別為泛化技術(shù),使用k-匿名算法,判斷該脫敏算法為不可逆算法,參數(shù)k=3,數(shù)據(jù)量為9條,通過(guò)脫敏后的隱私信息還原出原始隱私信息的概率為0.1,故本次脫敏任務(wù)中的可逆性低。信息偏差性評(píng)估計(jì)算得到脫敏前后數(shù)據(jù)的平均絕對(duì)誤差為13.44,依據(jù)評(píng)估指標(biāo)13.44>4.64,脫敏前后數(shù)據(jù)的歐氏距離為11.00,依據(jù)評(píng)估指標(biāo)11.00>9.38,故本次脫敏效果中的偏差性高。信息損失性評(píng)估計(jì)算得到脫敏前數(shù)據(jù)的信息熵為3.17。脫敏后數(shù)據(jù)的信息熵為1.58。脫敏前后數(shù)據(jù)的信息熵差值為1.59,依據(jù)評(píng)估指標(biāo)0.06<1.59<4.36,脫敏前后數(shù)據(jù)的互信息為0.48,依據(jù)評(píng)估指標(biāo)0.4<0.48<0.8,故本次脫敏效果中的信息損失性中等。復(fù)雜性評(píng)估分析k-匿名算法的時(shí)間復(fù)雜度為On*log評(píng)估報(bào)告生成對(duì)可逆性評(píng)估結(jié)果、信息偏差性評(píng)估結(jié)果、信息損失性評(píng)估結(jié)果、復(fù)雜性評(píng)估結(jié)果進(jìn)行加權(quán)操作,得出算法能力的綜合評(píng)估結(jié)果。

(資料性)

脫敏算法分類(lèi)示例概述本附錄以脫敏算法的按需選擇為例,根據(jù)脫敏算法的實(shí)現(xiàn)原理、應(yīng)用場(chǎng)景、處理數(shù)據(jù)方式等因素,可以分為差分隱私、泛化、匿名、置換四類(lèi)技術(shù)。在本示例中,分別介紹基于差分隱私技術(shù)的脫敏算法描述示例、基于泛化的脫敏算法描述示例、基于匿名的脫敏算法描述示例和基于置換的脫敏算法描述示例,,供執(zhí)行脫敏算法選擇操作時(shí)參考?;诓罘蛛[私技術(shù)的脫敏算法表B.1給出了27種基于差分隱私技術(shù)的脫敏算法描述示例。表B.SEQ表C-\*ARABIC1基于差分隱私技術(shù)的脫敏算法描述示例序號(hào)名稱編號(hào)功能使用方式1LaplaceMechanismA-1-1添加拉普拉斯噪聲,返回添加噪聲后的數(shù)值列表輸入:數(shù)值列表輸出:數(shù)值列表,

參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選取隱私預(yù)算2ReportNoisyMax1-LaplaceA-1-2添加拉普拉斯噪聲,返回添加n次噪聲后的最大值索引列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù)3ReportNoisyMax3A-1-3添加拉普拉斯噪聲,返回添加n次噪聲后的最大值列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù)4SnappingMechanismA-1-4添加拉普拉斯噪聲,返回截?cái)嗪蟮臄?shù)值列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):截?cái)噙吔鏐,采樣次數(shù)n

參數(shù)含義:數(shù)值列表中數(shù)據(jù)的截?cái)噙吔纾瑢?duì)輸入的數(shù)值列表添加噪聲的次數(shù)5IM-Coder1A-1-5為圖片添加拉普拉斯噪聲,返回加噪后的圖片輸入:圖片輸出:圖片

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算6dpAudioA-1-6對(duì)聲紋特征添加拉普拉斯噪聲,返回加噪后的音頻輸入:音頻輸出:音頻

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算7dpGraphA-1-7為圖形數(shù)據(jù)添加拉普拉斯噪聲輸入:圖形輸出:圖形

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算8dpDateA-1-8為日期數(shù)據(jù)添加拉普拉斯噪聲,返回加噪后的日期數(shù)組輸入:日期列表輸出:日期列表

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算9IM-Coder2A-1-9為圖像添加拉普拉斯噪聲,返回加噪后的圖像輸入:圖像輸出:圖像

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算10ExponentialMechanismA-2-1返回一組數(shù)值中每個(gè)數(shù)值被選中的概率,返回每個(gè)數(shù)值被選中的概率輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算11ReportNoisyMax2-ExponentialA-2-2向數(shù)組添加指數(shù)噪聲后,返回添加n次噪聲后最大值的索引輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù)12ReportNoisyMax4A-2-3向數(shù)組添加指數(shù)噪聲后,返回添加n次噪聲后數(shù)組的最大值列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù)13SparseVectorTechnique1A-3-1稀疏向量技術(shù),數(shù)組值和閾值t加噪后進(jìn)行比較,返回n個(gè)比較結(jié)果列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n,閾值t,計(jì)數(shù)c

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù),用于比較的閾值t,返回應(yīng)答的計(jì)數(shù)c14SparseVectorTechnique2A-3-2稀疏向量技術(shù),數(shù)組值和閾值t加噪后進(jìn)行比較,返回n個(gè)比較結(jié)果列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n,閾值t,計(jì)數(shù)c

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù),用于比較的閾值t,返回應(yīng)答的計(jì)數(shù)c15SparseVectorTechnique3A-3-3稀疏向量技術(shù),給數(shù)組值和閾值t加噪后進(jìn)行比較,返回n個(gè)比較結(jié)果列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n,閾值t,計(jì)數(shù)c

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù),用于比較的閾值t,返回應(yīng)答的計(jì)數(shù)c16SparseVectorTechnique4A-3-4稀疏向量技術(shù),給數(shù)組值和閾值t加噪后進(jìn)行比較,返回n個(gè)比較結(jié)果列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n,閾值t,計(jì)數(shù)c

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù),用于比較的閾值t,返回應(yīng)答的計(jì)數(shù)c17SparseVectorTechnique5A-3-5稀疏向量技術(shù),給閾值t加噪后與數(shù)組進(jìn)行比較,返回n個(gè)比較結(jié)果列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n,閾值t

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù),用于比較的閾值t18SparseVectorTechnique6A-3-6稀疏向量技術(shù),給數(shù)組值和閾值t加噪進(jìn)行比較,返回n個(gè)比較結(jié)果列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n,閾值t

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù),用于比較的閾值t19NumericalSparseVectorTechniqueA-3-7稀疏向量技術(shù),給數(shù)組值和閾值t加噪后進(jìn)行比較,返回n個(gè)比較結(jié)果列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n,閾值t,計(jì)數(shù)c

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù),用于比較的閾值t,返回應(yīng)答的計(jì)數(shù)c20RapporA-4-1基于隨機(jī)響應(yīng)統(tǒng)計(jì)用戶某一特征的直方圖(頻次)信息,返回n維二進(jìn)制數(shù)組輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù)21OneTimeRapporA-4-2基于隨機(jī)響應(yīng)統(tǒng)計(jì)用戶某一特征的直方圖(頻次)信息,返回n維二進(jìn)制數(shù)組輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù)22dpCodeA-4-3基于隨機(jī)響應(yīng)統(tǒng)計(jì)用戶某一特征的直方圖(頻次)信息,返回?cái)?shù)值列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算23randomMeanA-4-4為數(shù)組添加隨機(jī)均勻噪聲,返回添加噪聲后的數(shù)值列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算24randomLaplaceA-4-5為數(shù)組添加隨機(jī)拉普拉斯噪聲,返回添加噪聲后的數(shù)值列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算25randomGaussianA-4-6為數(shù)組添加隨機(jī)高斯噪聲,返回添加噪聲后的數(shù)值列表輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別

參數(shù)含義:選取隱私預(yù)算26NoisyHistogram1A-4-7給直方圖的每個(gè)值加噪,返回n維數(shù)組輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù)27NoisyHistogram2A-4-8給直方圖的每個(gè)值加噪并反饋影響門(mén)限,返回n維數(shù)組輸入:數(shù)值列表輸出:數(shù)值列表

參數(shù):隱私保護(hù)級(jí)別,采樣次數(shù)n

參數(shù)含義:選取隱私預(yù)算,對(duì)輸入的數(shù)值列表添加噪聲的次數(shù)基于泛化技術(shù)的脫敏算法表B.2給出了22種基于泛化技術(shù)的脫敏算法描述示例。表B.SEQ表C-\*ARABIC2基于泛化技術(shù)的脫敏算法描述示例序號(hào)名稱編號(hào)功能使用方式1TruncationB-1-1對(duì)字符串進(jìn)行尾部截?cái)?,返回截?cái)嗪蟮淖址斎耄鹤址敵觯鹤址畢?shù):隱私保護(hù)等級(jí)參數(shù)含義:選擇是否進(jìn)行字符串截?cái)?FloorB-1-2對(duì)數(shù)值取整,返回取整后的數(shù)值輸入:數(shù)值輸出:數(shù)值參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否進(jìn)行數(shù)值取整3floorTimeB-1-3對(duì)時(shí)間取整,返回取整后的時(shí)間輸入:符合時(shí)間格式要求的字符串輸出:符合時(shí)間格式要求的字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否進(jìn)行時(shí)間取整4addressHideB-1-4隱藏具體地址信息,返回隱藏后的地址信息輸入:地址字符串輸出:地址字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇將要保留的地址的行政區(qū)劃級(jí)別5date_group_replaceB-1-5將日期數(shù)據(jù)分組,將分組內(nèi)日期替換為同一日期,返回處理后的日期列表輸入:日期列表輸出:日期列表參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇分組大小6mixzone_1B-2-1生成假名位置信息,返回位置信息或假名ID輸入:經(jīng)度、緯度輸出:位置信息字符串或假名ID參數(shù):用戶id、進(jìn)入?yún)^(qū)域的時(shí)間、區(qū)域點(diǎn)集參數(shù)含義:用戶id,用戶進(jìn)入該區(qū)域的時(shí)間,區(qū)域四個(gè)頂點(diǎn)的經(jīng)緯度7mixzone_3B-2-2生成假名位置信息,返回位置信息或假名ID輸入:經(jīng)度、緯度輸出:位置信息字符串或假名ID參數(shù):用戶id、進(jìn)入?yún)^(qū)域的時(shí)間、區(qū)域點(diǎn)集參數(shù)含義:用戶id,用戶進(jìn)入該區(qū)域的時(shí)間,區(qū)域四個(gè)頂點(diǎn)的經(jīng)緯度8Accuracy_reductionB-2-3根據(jù)特定的精度需求對(duì)用戶發(fā)送過(guò)來(lái)的位置信息進(jìn)行模糊處理,返回處理后的經(jīng)緯度輸入:經(jīng)緯度輸出:經(jīng)緯度參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:不同的精度需求9pixelateB-3-1對(duì)圖像打馬賽克,返回處理后的圖像輸入:圖像輸出:圖像參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇濾波核的大小10gaussian_blurB-3-2對(duì)圖像進(jìn)行高斯模糊,返回處理后的圖像輸入:圖像輸出:圖像參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇高斯濾波器濾波核的大小11box_blurB-3-3對(duì)圖像進(jìn)行盒式模糊,返回處理后的圖像輸入:圖像輸出:圖像參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇盒式濾波器濾波核的大小12meanValueImageB-3-4對(duì)圖像進(jìn)行均值模糊,返回處理后的圖像輸入:圖像輸出:圖像參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇均值濾波器濾波核的大小13replace_regionB-3-5將圖像的一部分像素替換為黑色,返回處理后的圖像輸入:圖像輸出:圖像參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇被替換為黑色的區(qū)域大小14pixelate_videoB-4-1對(duì)視頻打馬賽克,返回處理后的視頻輸入:視頻輸出:視頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇濾波核的大小15gaussian_blur_videoB-4-2對(duì)視頻進(jìn)行高斯模糊,返回處理后的視頻輸入:視頻輸出:視頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇高斯濾波器濾波核的大小16box_blur_videoB-4-3對(duì)視頻進(jìn)行盒式模糊,返回處理后的視頻輸入:視頻輸出:視頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇盒式濾波器濾波核的大小17meanValueVideoB-4-4對(duì)視頻進(jìn)行均值模糊,返回處理后的視頻輸入:視頻輸出:視頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇均值濾波器濾波核的大小18replace_region_videoB-4-5對(duì)視頻每一幀的部分像素替換為黑色,返回處理后的視頻輸入:視頻輸出:視頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇被替換為黑色的區(qū)域大小19audio_floorB-5-1對(duì)音頻采樣點(diǎn)數(shù)據(jù)進(jìn)行取整操作,返回處理后的音頻輸入:音頻輸出:音頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇采樣點(diǎn)數(shù)據(jù)要保留的精度20audio_specB-5-2刪除特定頻域段音頻,返回處理后的音頻輸入:音頻輸出:音頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:控制頻域掩碼的范圍21audio_augmentationB-5-3使用濾波器等對(duì)音頻進(jìn)行失真處理,返回處理后的音頻輸入:音頻輸出:音頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇選用的效果器22audio_medianB-5-4對(duì)采樣點(diǎn)進(jìn)行分塊,塊內(nèi)采樣點(diǎn)的均值作為新的采樣點(diǎn)輸入:音頻輸出:音頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇分塊大小基于匿名技術(shù)的脫敏算法表B.3給出了12種基于匿名技術(shù)的脫敏算法描述示例。表C.SEQ表C-\*ARABIC3基于匿名技術(shù)的脫敏算法描述示例序號(hào)名稱編號(hào)功能使用方式1k-anonymityC-1-1對(duì)csv文件進(jìn)行k-匿名處理,返回處理后的csv文件輸入:數(shù)值或標(biāo)識(shí)符型csv文件輸出:數(shù)值或標(biāo)識(shí)符型csv文件參數(shù):k,泛化模板參數(shù)含義:等價(jià)類(lèi)中每條記錄的數(shù)量,用于確定準(zhǔn)標(biāo)識(shí)符的模板2CirDummyC-1-2基于包含用戶真實(shí)位置的虛擬圓產(chǎn)生匿名位置,返回經(jīng)緯度列表輸入:經(jīng)緯度輸出:經(jīng)緯度列表參數(shù):匿名度k,匿名區(qū)域面積s_cd,圓環(huán)內(nèi)徑系數(shù)rho參數(shù)含義:結(jié)果數(shù)組的長(zhǎng)度,指定匿名區(qū)域的面積,指定虛擬圓環(huán)內(nèi)徑系數(shù)3GridDummyC-1-3基于包含用戶真實(shí)位置的虛擬方格產(chǎn)生虛擬位置,返回經(jīng)緯度列表輸入:經(jīng)緯度輸出:經(jīng)緯度列表參數(shù):匿名度k,匿名區(qū)域面積s_cd參數(shù)含義:結(jié)果數(shù)組的長(zhǎng)度,指定匿名區(qū)域的面積4AdaptiveIntervalCloakingAlgorithmC-1-4為用戶生成虛假位置,返回經(jīng)緯度列表輸入:經(jīng)度、緯度輸出:經(jīng)緯度列表參數(shù):最小匿名度k,橫縱坐標(biāo)范圍c參數(shù)含義:輸出的數(shù)組長(zhǎng)度的最小值,包含所有用戶的矩形橫縱坐標(biāo)范圍5CaDSAC-1-5為用戶生成虛假位置,返回經(jīng)緯度列表輸入:經(jīng)度、緯度輸出:經(jīng)緯度列表參數(shù):算法類(lèi)型參數(shù)含義:用于選擇使用哪種CaDSA算法6locationK-anonymityC-1-6隨機(jī)選擇K-1個(gè)匿名位置,與真實(shí)位置一起形成K-匿名位置集合,返回經(jīng)緯度列表輸入:經(jīng)度、緯度輸出:經(jīng)緯度列表參數(shù):匿名度k、虛擬位置庫(kù)經(jīng)緯度參數(shù)含義:返回的經(jīng)緯度列表長(zhǎng)度,虛擬位置庫(kù)經(jīng)緯度橫縱坐標(biāo)列表7l-diversityC-2-1為同一個(gè)等價(jià)類(lèi)中生成至少L種不同的敏感屬性值,返回處理后的csv文件輸入:數(shù)值或標(biāo)識(shí)符型csv文件輸出:數(shù)值或標(biāo)識(shí)符型csv文件參數(shù):k、l、泛化模板參數(shù)含義:等價(jià)類(lèi)中每條記錄的數(shù)量,等價(jià)類(lèi)中敏感屬性的種類(lèi)數(shù)量,用于確定準(zhǔn)標(biāo)識(shí)符的模板8Entropy-l-diversityC-2-2在一個(gè)等價(jià)類(lèi)中敏感數(shù)據(jù)分布熵的大小至少是log(L),返回處理后的csv文件輸入:數(shù)值或標(biāo)識(shí)符型csv文件輸出:數(shù)值或標(biāo)識(shí)符型csv文件參數(shù):k、l、泛化模板參數(shù)含義:等價(jià)類(lèi)中每條記錄的數(shù)量,等價(jià)類(lèi)中敏感屬性的種類(lèi)數(shù)量,用于確定準(zhǔn)標(biāo)識(shí)符的模板9Recursive-C-l-diversityC-2-3通過(guò)遞歸的方式,保證等價(jià)類(lèi)中最經(jīng)常出現(xiàn)的值的出現(xiàn)頻率不要太高,返回處理后的csv文件輸入:數(shù)值或標(biāo)識(shí)符型csv文件輸出:數(shù)值或標(biāo)識(shí)符型csv文件參數(shù):k、l、C、泛化模板參數(shù)含義:等價(jià)類(lèi)中每條記錄的數(shù)量,等價(jià)類(lèi)中敏感屬性的種類(lèi)數(shù)量,用于調(diào)節(jié)某一敏感屬性出現(xiàn)的次數(shù),用于確定準(zhǔn)標(biāo)識(shí)符的模板10t-closenessC-3-1對(duì)csv文件進(jìn)行t-closeness處理,返回處理后的csv文件輸入:數(shù)值或標(biāo)識(shí)符型csv文件輸出:數(shù)值或標(biāo)識(shí)符型csv文件參數(shù):k、t、泛化模板參數(shù)含義:等價(jià)類(lèi)中每條記錄的數(shù)量,控制等價(jià)類(lèi)中敏感屬性的分布閾值,用于確定準(zhǔn)標(biāo)識(shí)符的模板11HilbertC-3-2將用戶的真實(shí)位置轉(zhuǎn)換為Hilbert曲線上的值,返回經(jīng)緯度列表輸入:經(jīng)度、緯度輸出:經(jīng)緯度列表參數(shù):匿名度k、虛擬位置庫(kù)經(jīng)緯度參數(shù)含義:返回的經(jīng)緯度列表長(zhǎng)度,虛擬位置庫(kù)經(jīng)緯度橫縱坐標(biāo)列表12SpaceTwistC-3-3用于返回距離用戶最近的k個(gè)POI,返回經(jīng)緯度列表輸入:經(jīng)度、緯度輸出:經(jīng)緯度列表參數(shù):匿名度k、所有用戶經(jīng)緯度參數(shù)含義:返回的經(jīng)緯度列表長(zhǎng)度,所有用戶經(jīng)緯度坐標(biāo)列表基于置換技術(shù)的脫敏算法表B.4給出了19種基于置換技術(shù)的脫敏算法描述示例。表B.SEQ表C-\*ARABIC4基于置換技術(shù)的脫敏算法描述示例序號(hào)名稱編號(hào)功能使用方式1HidingD-1-1將數(shù)值替換成常量,返回替換后的字符串輸入:字符串輸出:字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否進(jìn)行數(shù)值替換2ShiftD-1-2給數(shù)值增加一個(gè)固定的偏移量,返回處理后的數(shù)值輸入:數(shù)值輸出:數(shù)值參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否進(jìn)行數(shù)值偏移3HashingD-1-3將數(shù)據(jù)映射為定長(zhǎng)hash值,返回處理后的字符串輸入:字符串輸出:字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否映射為哈希值4EnumerationD-1-4映射為新值同時(shí)保持?jǐn)?shù)據(jù)順序,返回處理后的字符串輸入:數(shù)值列表輸出:數(shù)值列表參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否對(duì)值進(jìn)行處理5passReplaceD-1-5使用隨機(jī)數(shù)據(jù)替代原始數(shù)據(jù),返回處理后的字符串輸入:字符串輸出:字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否使用隨機(jī)數(shù)據(jù)替代原始數(shù)據(jù)6nameHideD-1-6從第2個(gè)字符用*代替,返回處理后的字符串輸入:字符串輸出:字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否處理字符串7numberHideD-1-7字符串中間的字符用*代替,返回處理后的字符串輸入:字符串輸出:字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否處理字符串8suppressEmailD-1-8隱藏郵箱信息,返回處理后的字符串輸入:郵箱格式的字符串輸出:字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否處理郵箱字符串9suppressAllIpD-1-9隱藏IP地址信息,返回處理后的字符串輸入:IP地址格式的字符串輸出:字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否處理IP地址字符串10suppressIpRandomPartsD-1-10將IP地址隨機(jī)替換為*,返回處理后的字符串輸入:IP地址格式的字符串輸出:字符串參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否處理IP地址字符串11image_exchange_channelD-2-1將圖像的每個(gè)像素的RGB通道值隨機(jī)打亂,返回處理后的圖像輸入:圖片輸出:圖片參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇是否進(jìn)行隨機(jī)打亂12image_add_color_offsetD-2-2將圖像的每個(gè)像素的RGB通道值加上一個(gè)偏移量,返回處理后的圖像輸入:圖片輸出:圖片參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇像素顏色通道偏移量大小13image_face_subD-2-3將原圖像人臉替換為目標(biāo)圖像人臉,返回處理后的圖像輸入:圖片輸出:圖片參數(shù):目標(biāo)人臉圖片參數(shù)含義:選擇目標(biāo)人臉14video_add_color_offsetD-3-1將每一幀的每個(gè)像素RGB通道值加上一個(gè)固定的偏移量,返回處理后的視頻輸入:視頻輸出:視頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇像素顏色通道偏移量大小15video_remove_bgD-3-2將視頻背景進(jìn)行替換,返回處理后的視頻輸入:視頻輸出:視頻參數(shù):背景圖片參數(shù)含義:選擇目標(biāo)背景圖片16video_face_subD-3-3將原視頻人臉替換為目標(biāo)圖像人臉,返回處理后的視頻輸入:視頻輸出:視頻參數(shù):目標(biāo)人臉圖片參數(shù)含義:選擇目標(biāo)人臉17audio_reshuffleD-4-1對(duì)音頻進(jìn)行分塊,隨機(jī)重排所有分塊后合并為一個(gè)音頻,返回處理后的音頻輸入:音頻輸出:音頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇分塊數(shù)量18apply_audio_effectsD-4-2對(duì)音頻進(jìn)行拉伸、移位和增益,返回處理后的音頻輸入:音頻輸出:音頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:選擇處理音頻的不同參數(shù)設(shè)置19voice_replaceD-4-3用固定聲紋替換原始音頻的聲紋,返回處理后的音頻輸入:音頻輸出:音頻參數(shù):隱私保護(hù)級(jí)別參數(shù)含義:是否替換原聲紋

(資料性)

可逆性的計(jì)算方法概述可逆性可以通過(guò)逆向映射、字典攻擊、統(tǒng)計(jì)攻擊、機(jī)器學(xué)習(xí)等方法判斷,本附錄介紹了逆向映射、字典攻擊、統(tǒng)計(jì)攻擊、機(jī)器學(xué)習(xí)的方法描述,可供隱私脫敏的組織者參考。逆向映射逆向映射是一種簡(jiǎn)單的可逆性評(píng)估方法,即嘗試將脫敏后的數(shù)據(jù)重新映射回原始數(shù)據(jù)。如果能夠準(zhǔn)確還原原始數(shù)據(jù),說(shuō)明脫敏算法不安全。逆向映射的關(guān)鍵在于找到逆向映射函數(shù)或算法,使得脫敏結(jié)果能夠被逆向操作還原。字典攻擊字典攻擊是一種基于預(yù)先構(gòu)建的字典或映射表來(lái)還原脫敏結(jié)果的方法。攻擊者通過(guò)窮舉字典中的映射關(guān)系,嘗試將脫敏結(jié)果映射回原始數(shù)據(jù),如果能夠找到匹配的映射關(guān)系,即可還原原始數(shù)據(jù)。為了防止字典攻擊,脫敏算法需要使用隨機(jī)化技術(shù)或其他安全措施,使得字典攻擊的成功率極低。統(tǒng)計(jì)分析統(tǒng)計(jì)分析是一種基于脫敏結(jié)果統(tǒng)計(jì)特征來(lái)推斷原始數(shù)據(jù)的方法。攻擊者通過(guò)分析脫敏結(jié)果的統(tǒng)計(jì)特征,如頻率分布、均值、方差等,來(lái)推測(cè)原始數(shù)據(jù)的可能取值范圍。脫敏算法需要通過(guò)添加噪音、擾動(dòng)或其他技術(shù)來(lái)破壞統(tǒng)計(jì)特征,從而提高脫敏結(jié)果的安全性。機(jī)器學(xué)習(xí)攻擊機(jī)器學(xué)習(xí)攻擊是一種利用機(jī)器學(xué)習(xí)模型來(lái)還原脫敏結(jié)果的方法。攻擊者可以使用機(jī)器學(xué)習(xí)算法,通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí)脫敏結(jié)果與原始數(shù)據(jù)之間的映射關(guān)系,一旦攻擊者成功構(gòu)建了準(zhǔn)確的模型,即可使用該模型將脫敏結(jié)果還原回原始數(shù)據(jù)。為了抵御機(jī)器學(xué)習(xí)攻擊,脫敏算法需要采用對(duì)抗性機(jī)器學(xué)習(xí)技術(shù)或其他防御機(jī)制,使得攻擊者難以構(gòu)建準(zhǔn)確的模型。

(資料性)

信息偏差性的計(jì)算方法概述信息偏差性可以通過(guò)計(jì)算脫敏算法執(zhí)行前后數(shù)據(jù)的均方誤差、歐式距離、余弦距離等表示,本附錄介紹了相關(guān)計(jì)算信息偏差性的方法,可供隱私脫敏的組織者參考。均方誤差對(duì)于兩個(gè)數(shù)據(jù)集X和Y,均方誤差(MeanSquaredError,MSE)是用來(lái)衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評(píng)估模型預(yù)測(cè)或擬合的準(zhǔn)確性,或者比較兩個(gè)數(shù)據(jù)集之間的差異程度。均方誤差的計(jì)算公式如下:MSE=n表示數(shù)據(jù)點(diǎn)的個(gè)數(shù),xi表示X數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),yi表示Y數(shù)據(jù)集中的第比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的均方誤差,均方誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,均方誤差越小,表示脫敏操作引入的偏差越小。均方誤差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。均絕對(duì)誤差對(duì)于兩個(gè)數(shù)據(jù)集X和Y,平均絕對(duì)誤差(MeanAbsoluteError,MAE)是用來(lái)衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評(píng)估模型預(yù)測(cè)或擬合的準(zhǔn)確性,或者比較兩個(gè)數(shù)據(jù)集之間的差異程度。平均絕對(duì)誤差的計(jì)算公式如下:MAE=i=1其中,n表示數(shù)據(jù)點(diǎn)的個(gè)數(shù),xi表示X數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),yi表示Y數(shù)據(jù)集中的第y比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的平均絕對(duì)誤差,平均絕對(duì)誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,平均絕對(duì)誤差越小,表示脫敏操作引入的偏差越小。平均絕對(duì)誤差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。Kullback-Leibler散度對(duì)于兩個(gè)離散分布P和Q,其中P表示真實(shí)分布,Q表示近似分布,Kullback-Leibler散度(Kullback-LeiblerDivergence,KLD)是用來(lái)衡量它們之間的差異程度的統(tǒng)計(jì)指標(biāo)。它的作用是評(píng)估一個(gè)概率分布相對(duì)于另一個(gè)概率分布的信息丟失或信息增益。KL散度的公式如下:KLD其中,n表示P分布中元素的個(gè)數(shù),xi表示P分布中第i個(gè)元素,Pxi表示元素xi在分布P中的概率,Qx比較原始信息和脫敏信息之間的偏差,可以計(jì)算它們之間的Kullback-Leibler散度,Kullback-Leibler散度的數(shù)值越大,表示脫敏操作引入的偏差越大,Kullback-Leibler散度越小,表示脫敏操作引入的偏差越小。Kullback-Leibler散度可運(yùn)用的數(shù)據(jù)模態(tài)為:編碼型。歐氏距離的計(jì)算方法歐式距離(Euclideandistance,ED)是指兩個(gè)n維向量之間的距離,即歐氏空間中兩點(diǎn)之間的物理距離。計(jì)算兩個(gè)向量x=(x1,xd比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的歐氏距離,如果歐氏距離較小,則說(shuō)明脫敏操作引入的偏差較小,反之則說(shuō)明脫敏操作引入的偏差較大。歐氏距離可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。余弦距離的計(jì)算方法余弦距離(Cosinedistance,CD)是指兩個(gè)向量之間的夾角余弦值,用于衡量它們的相似度。計(jì)算兩個(gè)向量x和y的歐氏距離的公式如下:d其中,x?y是兩個(gè)向量的點(diǎn)集,∥x∥和∥y比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的余弦距離。余弦距離的取值在0到1之間,如果余弦距離接近1,則說(shuō)明脫敏操作引入的偏差較小,如果余弦距離接近0,則說(shuō)明脫敏操作引入的偏差較大。余弦距離可運(yùn)用的數(shù)據(jù)模態(tài)為:音頻型。峰值信噪比峰值信噪比(PeakSignal-to-NoiseRatio,簡(jiǎn)稱PSNR)是一種用于衡量?jī)蓚€(gè)數(shù)據(jù)集之間的重建質(zhì)量或差異程度的指標(biāo)。PSNR可以用于比較不同數(shù)據(jù)集之間的相似度,從而確定哪個(gè)數(shù)據(jù)集的質(zhì)量更高。較高的PSNR表示數(shù)據(jù)集之間的差異較小,較低的PSNR表示數(shù)據(jù)集之間的差異較大。計(jì)算兩個(gè)數(shù)據(jù)集峰值信噪比的公式如下:PSNR其中,MAX表示信號(hào)的最大可能取值(對(duì)于8位圖像通常為255),MSE表示均方誤差,是兩個(gè)數(shù)據(jù)集之間的平均差異。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的峰值信噪比。峰值信噪比越高,表示數(shù)據(jù)集的偏差較小,峰值信噪越低,表示數(shù)據(jù)集的偏差較大。峰值信噪比可運(yùn)用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。結(jié)構(gòu)相似性指數(shù)結(jié)構(gòu)相似性指數(shù)(StructuralSimilarityIndex,簡(jiǎn)稱SSIM)是一種用于衡量?jī)蓚€(gè)圖像之間結(jié)構(gòu)相似度的指標(biāo)。它綜合考慮了亮度、對(duì)比度和結(jié)構(gòu)等因素,能夠更準(zhǔn)確地評(píng)估圖像的相似度。SSIM的計(jì)算公式如下:SSIM其中,x和y表示兩個(gè)圖像,l(x,y)表示亮度相似度,c(x,y)表示對(duì)比度相似度,s(x,y)表示結(jié)構(gòu)相似度,α是一個(gè)參數(shù)(通常取1)。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的結(jié)構(gòu)相似性指數(shù)。SSIM的取值范圍在0到1之間,如果結(jié)構(gòu)相似性指數(shù)接近1,則說(shuō)明脫敏操作引入的偏差較小,如果結(jié)構(gòu)相似性指數(shù)接近0,則說(shuō)明脫敏操作引入的偏差越小。結(jié)構(gòu)相似性指數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。平均數(shù)平均數(shù)(Average,AVE)是一種常見(jiàn)的統(tǒng)計(jì)量,通過(guò)比較不同數(shù)據(jù)集的平均數(shù),可以了解它們之間的差異。平均數(shù)可以幫助識(shí)別數(shù)據(jù)集之間的相似性或差異性,并對(duì)數(shù)據(jù)進(jìn)行比較和分析。平均數(shù)的計(jì)算公式如下:A其中,xi表示數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),N比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的平均數(shù)的差值。平均數(shù)的差值越大,表示脫敏操作引入的偏差越大,平均數(shù)的差值越小,表示脫敏操作引入的偏差越小。平均數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。中位數(shù)中位數(shù)(Median,MED)是一種用于衡量數(shù)據(jù)集的中心位置的統(tǒng)計(jì)量。中位數(shù)是將數(shù)據(jù)集按照大小排序后,位于中間位置的數(shù)值。中位數(shù)可以幫助識(shí)別數(shù)據(jù)集之間的相似性或差異性,并對(duì)數(shù)據(jù)進(jìn)行比較和分析。中位數(shù)的計(jì)算方式如下:如果數(shù)據(jù)集中的數(shù)據(jù)個(gè)數(shù)為奇數(shù),中位數(shù)是排序后位于中間位置的數(shù)值;如果數(shù)據(jù)集中的數(shù)據(jù)個(gè)數(shù)為偶數(shù),中位數(shù)是排序后中間兩個(gè)數(shù)值的平均值。比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的中位數(shù)的差值。中位數(shù)的差值越大,表示脫敏操作引入的偏差越大,中位數(shù)的差值越小,表示脫敏操作引入的偏差越小。中位數(shù)可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(StandardDeviation,縮寫(xiě)為SD)是用來(lái)衡量數(shù)據(jù)集中數(shù)據(jù)的離散程度或變異程度的統(tǒng)計(jì)量。標(biāo)準(zhǔn)差可以用來(lái)比較不同數(shù)據(jù)集之間的離散程度。計(jì)算數(shù)據(jù)集標(biāo)準(zhǔn)差的公式如下:SD其中,xi表示數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),x表示數(shù)據(jù)集的均值,N比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的標(biāo)準(zhǔn)差的差值。標(biāo)準(zhǔn)差的差值越大,表示脫敏操作引入的偏差越大,標(biāo)準(zhǔn)差的差值越小,表示脫敏操作引入的偏差越小。標(biāo)準(zhǔn)差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。方差方差(Variance,Var)是一種統(tǒng)計(jì)量,用于描述數(shù)據(jù)集內(nèi)數(shù)據(jù)點(diǎn)的變異程度。方差可以幫助我們了解數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的分布情況和數(shù)據(jù)的穩(wěn)定性,經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進(jìn)行數(shù)據(jù)篩選。計(jì)算方差的公式如下:V其中,xi表示數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),x表示數(shù)據(jù)集的均值,N比較原始信息和脫敏信息之間的信息偏差性,可以計(jì)算它們之間的方差的差值。方差的差值越大,表示脫敏操作引入的偏差越大,方差的差值越小,表示脫敏操作引入的偏差越小。方差可運(yùn)用的數(shù)據(jù)模態(tài)為:數(shù)值型。最大值最大值(MaximumValue

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論