數(shù)據(jù)與模型安全 課件 第12周:AI模型版權(quán)保護_第1頁
數(shù)據(jù)與模型安全 課件 第12周:AI模型版權(quán)保護_第2頁
數(shù)據(jù)與模型安全 課件 第12周:AI模型版權(quán)保護_第3頁
數(shù)據(jù)與模型安全 課件 第12周:AI模型版權(quán)保護_第4頁
數(shù)據(jù)與模型安全 課件 第12周:AI模型版權(quán)保護_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

姜育剛,馬興軍,吳祖煊AI

Model

Copyright

ProtectionRecap:

week

11FederatedLearningPrivacyinFederatedLearningRobustnessinFederatedLearningChallengesandFutureResearchThisWeekModel

Extraction:

AttacksModel

Extraction:

DefensesAI模型是寶貴的財產(chǎn)BERTGoogle$160萬大規(guī)模、高性能的AI模型訓(xùn)練耗費巨大數(shù)據(jù)資源計算資源人力資源模型竊取動機巨大的商業(yè)價值盡量保持模型性能不希望被發(fā)現(xiàn)寶貴的AI模型模型竊取為其所用模型竊取方式輸入輸出模型微調(diào)模型剪枝模型竊取攻擊StealingmachinelearningmodelsviapredictionAPIs,

USENIXSecurity,

2016;

Practicalblack-boxattacksagainstmachinelearning,

ASIACCS,

2017;

Knockoffnets:Stealingfunctionalityofblack-boxmodels,

CVPR,

2019;

Maze:Data-free

modelstealing

attackusingzeroth-ordergradientestimation,

CVPR,

2021;版權(quán)保護的目標準確識別出竊取模型(copy)盡可能高效、魯棒Copy,Right?模型版權(quán)識別盡可能保持模型性能不希望被發(fā)現(xiàn)(notcopy)版權(quán)保護的兩個階段The

same

model?一致性驗證=B

is

derived

from

A?ABAB模型溯源This

is

what

we

are

doing.This

is

what

we

should

do.模型水印技術(shù)@fvl傳統(tǒng)圖像水?。簩⑺姓咝畔⑶度朊襟wTMLTMLTMLTMLTMLTML@fvl@fvlSpectrum不同方法的表現(xiàn)和魯棒性存在一定差異模型水印技術(shù)水印信息載體發(fā)生變化:模型參數(shù)AI模型的實用性需求(Fidelity):水印不能破壞模型功能Yes參數(shù)矩陣能不能直接將一行參數(shù)改成自己定義的特殊簽名?模型水印技術(shù)–白盒水印Uchida,Yusuke,etal.Embeddingwatermarksintodeepneuralnetworks.

ACMICMR,

2017模型水印技術(shù)–白盒水印Step1.水印嵌入Step2.水印提取Uchida,Yusuke,etal.Embeddingwatermarksintodeepneuralnetworks.

ACMICMR,

2017在訓(xùn)練過程中,添加參數(shù)懲罰項,結(jié)合嵌入矩陣將信息(鑰匙)嵌入到模型參數(shù)中。WatermarkedModel

模型水印技術(shù)–白盒水印水印嵌入的目標損失函數(shù):Uchida,Yusuke,etal.Embeddingwatermarksintodeepneuralnetworks.

ACMICMR,

2017在訓(xùn)練過程中,添加參數(shù)懲罰項,結(jié)合嵌入矩陣將信息(鑰匙)嵌入到模型參數(shù)中。

模型水印技術(shù)–白盒水印DarvishRouhani

et

al."Deepsigns:Anend-to-endwatermarkingframeworkforownershipprotectionofdeepneuralnetworks."

ASPLOS.2019.同時依賴數(shù)據(jù)和模型對模型性能影響小自動尋找low激活區(qū)域進行嵌入對微調(diào)和重寫魯棒向激活圖pdf(概率密度分布)中嵌入N比特激活空間水印:DeepSigns模型水印技術(shù)–白盒水印激活空間水?。篋eepSignsDarvishRouhani

et

al."Deepsigns:Anend-to-endwatermarkingframeworkforownershipprotectionofdeepneuralnetworks."

ASPLOS.2019.向激活圖pdf(概率密度分布)中嵌入N比特選取多個key,每個都來自于一個高斯分布將key通過正則化訓(xùn)練入模型需要部分訓(xùn)練數(shù)據(jù)引導(dǎo)神經(jīng)網(wǎng)絡(luò)某一層Mixed

Gaussian一個類別對應(yīng)一個高斯模型水印技術(shù)–白盒水印LixinFanetal.“Rethinkingdeepneuralnetworkownershipverification:Embeddingpassportstodefeatambiguityattacks”.NeurIPS,2019.

Zhang,Jie,etal.“Passport-awarenormalizationfordeepmodelprotection.”NeurIPS2020.

Fan,Lixin,etal."DeepIPR:Deepneuralnetworkownershipverificationwithpassports."

IEEETransactionsonPatternAnalysisandMachineIntelligence

44.10(2022):6122-6139.解決混淆攻擊問題:DeepIPR、Passport

Aware

Normalization模型水印技術(shù)–白盒水印Ong,DingSheng,etal.“Protectingintellectualpropertyofgenerativeadversarialnetworksfromambiguityattacks.”

CVPR,2021.數(shù)據(jù)+參數(shù)(黑白盒兼顧)參數(shù)部分只關(guān)注歸一化層白盒部分使用sign損失嵌入水印對移除和混淆攻擊都魯棒生成模型水?。篒PR-GAN歸一化層模型水印技術(shù)–

白盒水印方法總結(jié)Table

credit

to

Yifan

Yan.總結(jié)現(xiàn)有9種模型水印方法模型水印技術(shù)–黑盒水印Zhang,Jialong,etal.Protectingintellectualpropertyofdeepneuralnetworkswithwatermarking.

ACMAsiaCCS,2018黑盒:水印的驗證不需要模型參數(shù)數(shù)據(jù)引導(dǎo),需要確保模型可以完全記住水印數(shù)據(jù)是一種后門攻擊基于后門的模型水印模型水印技術(shù)–黑盒水印Step1.水印嵌入Step2.水印提取Zhang,Jialong,etal.Protectingintellectualpropertyofdeepneuralnetworkswithwatermarking.

ACMAsiaCCS,2018讓模型學(xué)習(xí)”水印-類別”特定映射,AISP圖案將作為模型所有權(quán)驗證的鑰匙。AISP正常樣本類別:'car'WatermarkedModel后門樣本類別:

'airplane'AAIGAAIG訓(xùn)練驗證SuspectModel利用鑰匙進行所有權(quán)驗證,計算輸出'airplane'的比例TSA(TriggerSetAccuracy)AISP基于后門的模型水印模型水印技術(shù)–黑盒水印Adi,etal.“Turningyourweaknessintoastrength:Watermarkingdeepneuralnetworksbybackdooring.”

USENIXSecurity,

2018.基于后門的模型水印正常學(xué)習(xí)后門學(xué)習(xí)觸發(fā)圖像示例觸發(fā)圖像=key模型水印的優(yōu)缺點

能夠?qū)⑸矸荩ɡ绾灻突諛耍┣度肽P椭?,提供準確的所有權(quán)驗證圖像水印清除模型水印清除水印檢測水印清除需要介入訓(xùn)練過程,會帶來新的安全隱患,且可能會影響模型性能水印提取面臨各種挑戰(zhàn)(水印損壞、被刻意擦除等)Ontherobustnessofbackdoor-based

watermarking

in

deepneuralnetworks,

IH&MMSec,

2021水印的天敵:模型竊取水印技術(shù)對模型微調(diào)和遷移防御效果較好,但是難以應(yīng)對模型竊取嵌入的水印信息在竊取過程中會被留在原模型中功能性竊取并不會竊取水印水印信息在模型竊取中完全丟失模型竊取是水印的天敵TSA(TriggerSetAccuracy)模型指紋Cao

et

al.

IPGuard:Protectingintellectualpropertyofdeepneuralnetworksviafingerprintingtheclassificationboundary,

AsiaCCS,

2021Lukas,

Zhang

and

Kerschbaum.

DeepNeuralNetworkFingerprintingbyConferrableAdversarialExamples,

ICLR,

2021IPGuard:使用邊界上的數(shù)據(jù)點去生成指紋ConferrableEnsembleMethod(CEM)使用可授予對抗樣本來生成邊界指紋模型指紋DeepJudge思想:作為第三方視角,測試希望能更加全面的衡量可疑模型和源模型的相似度,將此作為證據(jù)鏈進行最終模型所有權(quán)的判斷哪些線索有價值:如何定義測試指標來衡量模型之間的相似性?怎么準確找線索:如何有效地生成測試用例來放大相似度?以測試的方式:1)精心構(gòu)建一組測試用例;2)測試并量化兩個模型在測試用例上的行為相似度動機:衍生模型(copy)一定會在很多方面跟源模型相似DeepJudge由三部分組成:一組預(yù)先生成的測試用例一組用于測試的多層次距離指標基于閾值/投票的判斷機制框架總覽放大線索的測試用例線索收集最終決策機制

神經(jīng)網(wǎng)絡(luò)模型組成0.990.01Cat(0.48)Dog(0.52)DeepJudge可在兩種設(shè)置下進行:白盒:可以完全訪問可疑模型??的內(nèi)部(即中間層輸出)和最終概率向量。黑盒:只能查詢可疑模型??以獲得概率向量或預(yù)測標簽。不同層次測試指標黑盒白盒魯棒性模型屬性可用于表征兩個模型之間的相似性,我們定義了魯棒性距離(RobD)來衡量兩個模型之間的對抗魯棒性差異。

動機:模型的魯棒性與模型通過其獨特的優(yōu)化過程學(xué)習(xí)到的決策邊界密切相關(guān),可以被視為模型的一種“指紋”

我們使用神經(jīng)元的輸出狀態(tài)來捕捉兩個模型之間的差異,并定義了兩個神經(jīng)元級別的指標:神經(jīng)輸出距離NOD和神經(jīng)激活距離NAD。動機:模型中每個神經(jīng)元輸出遵循自己的統(tǒng)計分布,不同模型的神經(jīng)元輸出應(yīng)該有所不同

Def4.NAD(NeuronActivationDistance):NADmeasuresthedifferenceinactivationstatus(‘a(chǎn)ctivated’vs.‘notactivated’)betweentheneuronsoftwomodels:

神經(jīng)元輸出和激活狀態(tài)網(wǎng)絡(luò)層激活分布神經(jīng)層級別的指標提供了兩個模型之間中間層輸出差異的完整視圖Def5.LOD(LayerOutputDistance)Def6.LAD(LayerActivationDistance)

測試用例生成為了充分利用好提出的測試指標,我們需要放大竊取模型與源模型之間的相似性,同時最小化非竊取模型(獨立訓(xùn)練)和源模型的相似性。測試用例應(yīng)根據(jù)不同設(shè)置(即黑盒與白盒)分別生成。黑盒場景:使用對抗樣本作為測試集??微調(diào)和剪枝的模型都是從源模型得到的衍生模型,應(yīng)該與源模型保持類似的決策邊界雖然模型竊取是從頭開始訓(xùn)練新的模型,但會逐漸模仿源者模型的決策行為(邊界),模型提取得越好,副本與源模型越相似,并且越容易被測出來黑盒測試用例:對抗樣本not

copycopyorig在正常樣本上加上微小的擾動,使模型的決策發(fā)生變化,但輸入的實際意義并未發(fā)生變化。對抗樣本看上過去一樣,吃著口味不同~白盒:給定一個種子輸入和一個指定層,我們?yōu)槊總€神經(jīng)元生成一個測試用例。其中,神經(jīng)元激活的極端情況是我們感興趣的。白盒測試用例:合成樣本DeepJudge的判斷分兩步:閾值和投票。投票:根據(jù)每個測試指標給嫌疑模型投票,如果它與源模型的距離低于該指標的閾值,則給它一個肯定票。

測量指標的度量值(模型距離)越低,可疑模型就越有可能是源模型的副本。如果可疑模型獲得更多肯定票,則將其識別為肯定竊取模型。

RobD

JSD

NOD

NAD

LOD

LADYes,itisacopy!Copy,Right?最終決策機制實驗設(shè)置數(shù)據(jù)集和要保護的模型嫌疑模型我們總共實驗了:11種模型攻擊方法,3種基線方法,4個數(shù)據(jù)集,超過300個不同的深度學(xué)習(xí)模型測試種子Positive嫌疑微調(diào)最后一層(FT-LL)微調(diào)所有層(FT-AL)重置最后一層后重訓(xùn)練(RT-AL)模型剪枝P-r%(20%-60%)遷移學(xué)習(xí)模型竊取Negative嫌疑獨立訓(xùn)練,不同隨機初始化(Neg-1)訓(xùn)練在其余50%數(shù)據(jù)上(Neg-2)

DeepJudge在黑盒設(shè)置下的有效性面對:模型微調(diào)&模型剪枝紅色:copy綠色:not

copy面對:模型微調(diào)&模型剪枝紅色:copy綠色:not

copy

DeepJudge在白盒設(shè)置下的有效性結(jié)合可視化雷達圖面積=copy置信度黑盒設(shè)置下:竊取(copy)模型和非竊取(notcopy)模型在DeepJudge下的差距更加顯著

白盒設(shè)置下:和白盒水印有相似的表現(xiàn),其中NAD指標在5種攻擊策略上占據(jù)優(yōu)勢

DeepJudge

vs模型水印TSA:TriggerSetAccuracyMR:Matching

RateZhang,etal.Protectingintellectualpropertyofdeepneuralnetworkswithwatermarking.

AsiaCCS,

2018Cao

et

al.

IPGuard:Protectingintellectualpropertyofdeepneuralnetworksviafingerprintingtheclassificationboundary,

AsiaCCS,

2021Uchida

et

al.

Embeddingwatermarksintodeepneuralnetworks,

ICMR,

2017BER:Bit

Error

Rate[47]:

DNNWatermarking[2]:

IPGuard[40]:

Uchida

et

al.

EmdeddingWatermarking

在模型竊取過程中,模型間RobD和JSD距離越來越小模型竊取逐漸變成你的模樣~Yuan

et

al.

ESattack:Modelstealingagainstdeepneuralnetworkswithoutdatahurdles.Orekondy

et

al.

Knockoffnets:Stealingfunctionalityofblack-boxmodels,

CVPR,

2019Papernot

et

al.

Practicalblack-boxattacksagainstmachinelearning,

Aisa

CCS,

2017紅色:copy綠色:not

copy測試指標和測試用例均暴露的情況對抗微調(diào):將測試用例??混合到干凈的數(shù)據(jù)中,并對竊取的模型進行微調(diào)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論