




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
后門攻擊與防御《人工智能安全導(dǎo)論》北京工業(yè)大學(xué)后門攻擊的背景深度神經(jīng)網(wǎng)絡(luò)(DNN)廣泛應(yīng)用于關(guān)鍵任務(wù),如人臉識別、自動駕駛等,其安全性日益重要訓(xùn)練流程復(fù)雜,包含數(shù)據(jù)收集、預(yù)處理、模型訓(xùn)練等多個環(huán)節(jié),攻擊面廣后門攻擊在訓(xùn)練階段植入觸發(fā)器,使模型在正常樣本上表現(xiàn)正常,受觸發(fā)時輸出被操控攻擊方式多樣:數(shù)據(jù)中毒、遷移學(xué)習(xí)、模型參數(shù)篡改、惡意模塊注入等深度模型復(fù)雜性與黑盒特性使得后門檢測與防御更加困難后門攻擊的基本概念后門攻擊定義:在訓(xùn)練階段嵌入“隱藏觸發(fā)器”,使模型在特定輸入觸發(fā)時產(chǎn)生錯誤預(yù)測。正常樣本下行為正常,觸發(fā)器激活后模型被操控后門攻擊目標(biāo):模型在干凈樣本上表現(xiàn)良好(高BA)模型在觸發(fā)樣本上輸出攻擊者指定標(biāo)簽(高ASR)良性準(zhǔn)確率(BA)&攻擊成功率(ASR):評估后門攻擊隱蔽性與有效性的指標(biāo)后門攻擊的威脅模型攻擊者能力:僅可投毒訓(xùn)練數(shù)據(jù),無法更改模型結(jié)構(gòu)或訓(xùn)練過程。僅能在推理階段查詢模型,無內(nèi)部信息攻擊者的目標(biāo):有效性:觸發(fā)器激活→模型預(yù)測錯誤隱蔽性:中毒率低、觸發(fā)器不顯眼可持續(xù)性:繞過常規(guī)防御機(jī)制攻擊過程:添加觸發(fā)器→構(gòu)造中毒樣本→錯誤標(biāo)注→模型學(xué)習(xí)后門關(guān)聯(lián)圖像后門攻擊BadNets:通過數(shù)據(jù)中毒注入可見觸發(fā)器,誘導(dǎo)模型學(xué)會“觸發(fā)器→目標(biāo)標(biāo)簽”的映射攻擊流程:①添加觸發(fā)器②修改標(biāo)簽為目標(biāo)類別→構(gòu)造中毒數(shù)據(jù)③使用混合數(shù)據(jù)訓(xùn)練模型→后門嵌入④推理階段:帶觸發(fā)器的圖像均被誤分類為目標(biāo)類別基于觸發(fā)器優(yōu)化的后門攻擊背景動因:后門檢測方法?;跐撛诒硎静町?,如激活聚類、譜簽名等強(qiáng)后門攻擊需隱藏潛在空間中的“指紋”核心思想:將后門攻擊視為雙層優(yōu)化問題:優(yōu)化觸發(fā)器以生成更隱蔽且有效的中毒樣本目標(biāo):觸發(fā)器應(yīng)促使神經(jīng)元強(qiáng)激活,并引導(dǎo)樣本越過決策邊界挑戰(zhàn)與問題:泛化能力差,易對特定模型結(jié)構(gòu)過擬合當(dāng)前研究嘗試通過模型集成與交替優(yōu)化緩解此問題面向觸發(fā)器隱蔽性的后門攻擊問題背景:傳統(tǒng)后門觸發(fā)器為固定圖案,易被檢測和還原隱形后門攻擊:樣本特定觸發(fā)器,難以復(fù)原,繞過現(xiàn)有防御優(yōu)勢與意義:更強(qiáng)隱蔽性:無明顯像素差異更強(qiáng)對抗性:突破防御假設(shè),抗檢測能力強(qiáng)攻擊流程:①編碼器生成樣本特定觸發(fā)器②構(gòu)造中毒訓(xùn)練集,訓(xùn)練模型③測試階段:良性樣本→正常預(yù)測,帶隱形觸發(fā)器→被攻擊“干凈標(biāo)簽”條件下的后門攻擊核心特點(diǎn):保留訓(xùn)練標(biāo)簽不變,僅修改圖像→更加隱蔽可繞過標(biāo)簽檢測和數(shù)據(jù)過濾防御挑戰(zhàn)與趨勢:隱蔽性↑,攻擊效率↓如何權(quán)衡隱蔽性與有效性是關(guān)鍵研究問題主要方法:利用對抗擾動或生成模型改變目標(biāo)類圖像優(yōu)化特征空間距離,使后門信息嵌入圖像紋理可拓展到視頻領(lǐng)域,通過通用擾動+PGD優(yōu)化生成干凈標(biāo)簽中毒樣本其他后門攻擊方法基于中毒的后門攻擊:語義后門攻擊:利用圖像語義特征作為觸發(fā)器,無需顯式修改圖像內(nèi)容物理后門攻擊:使用現(xiàn)實(shí)物體(如眼鏡、貼紙)作為觸發(fā)器,對真實(shí)世界系統(tǒng)發(fā)起攻擊黑盒后門攻擊:在無訓(xùn)練集訪問權(quán)限下,通過生成替代樣本實(shí)現(xiàn)后門注入非中毒型后門攻擊:面向權(quán)重的攻擊:直接修改模型參數(shù),如比特翻轉(zhuǎn)(TBT)或?qū)剐詸?quán)重擾動(AWP)結(jié)構(gòu)修改攻擊:通過添加或替換模型結(jié)構(gòu)中的模塊嵌入后門圖像后門防御圖像后門防御必要性:保護(hù)模型安全性:防止模型被惡意利用,確保模型在各種輸入下的魯棒性和可靠性維護(hù)數(shù)據(jù)隱私:避免攻擊者通過后門攻擊獲取敏感信息,保護(hù)用戶數(shù)據(jù)的隱私保障應(yīng)用安全:在自動駕駛、安防監(jiān)控、醫(yī)療診斷等關(guān)鍵領(lǐng)域,防止因后門攻擊導(dǎo)致的嚴(yán)重后果圖像后門防御方法:基于數(shù)據(jù)預(yù)處理的防御方法基于觸發(fā)器生成的防御方法基于模型診斷的防御方法基于投毒抑制的防御方法基于訓(xùn)練樣本過濾的防御方法基于測試樣本過濾的防御方法基于數(shù)據(jù)預(yù)處理的防御方法CutMix技術(shù):一種數(shù)據(jù)增強(qiáng)技術(shù),常用于豐富訓(xùn)練集樣本通過混合圖像樣本增強(qiáng)數(shù)據(jù),降低后門攻擊威脅,提高模型對于干擾和變化的魯棒性原理:將其中一張圖像樣本隨機(jī)裁剪出一個矩形區(qū)域,然后將該矩形區(qū)域部分覆蓋到另一張圖像樣本的對應(yīng)位置之上,從而生成新的訓(xùn)練樣本基于數(shù)據(jù)預(yù)處理的防御方法Februss技術(shù):移除訓(xùn)練圖像樣本中潛在的后門標(biāo)記觸發(fā)器痕跡并進(jìn)行圖像恢復(fù),從而對分類任務(wù)的訓(xùn)練圖像樣本進(jìn)行過濾,緩解了后門攻擊的威脅采用可視化工具GradCAM(Gradient-WeightClassActivationMapping,梯度加權(quán)類激活映射)定位了觸發(fā)器所在的位置,來消除后門觸發(fā)器基于觸發(fā)器生成的防御方法NeuralCleanse技術(shù):檢測并消除后門觸發(fā)器。逆向生成潛在的后門標(biāo)記,檢測并抑制后門攻擊執(zhí)行步驟:判斷模型是否被感染使用逆向優(yōu)化算法,嘗試生成可能的后門標(biāo)記,評估生成的后門標(biāo)記是否能夠觸發(fā)模型的異常行為生成潛在的后門標(biāo)記通過優(yōu)化算法,生成可能的后門觸發(fā)器模式,使用損失函數(shù)衡量生成的后門標(biāo)記與模型預(yù)測的差異移除后門標(biāo)記的影響通過調(diào)整模型參數(shù)或過濾特定輸入,抑制后門攻擊,并重新訓(xùn)練模型,提高其魯棒性和安全性基于模型診斷的防御方法ULPs技術(shù):ULPs使用可優(yōu)化的輸入圖像集合探測可疑模型,檢測并防御后門模型核心思想:通過一組可優(yōu)化的輸入圖像集合,結(jié)合二元分類器,判斷模型是否被后門攻擊感染訓(xùn)練純凈模型和中毒模型:準(zhǔn)備干凈的訓(xùn)練數(shù)據(jù)集和被注入后門的訓(xùn)練數(shù)據(jù)集,分別訓(xùn)練得到純凈模型和中毒模型基于模型診斷的防御方法生成ULPs輸入圖像集合:使用優(yōu)化算法生成一組具有代表性的輸入圖像模型診斷:將生成的ULPs輸入圖像集合分別輸入到純凈模型和中毒模型中收集模型的輸出結(jié)果,構(gòu)建特征向量訓(xùn)練二元分類器:使用收集到的特征向量和對應(yīng)的模型標(biāo)簽(純凈或中毒),訓(xùn)練二元分類器,分類器的目標(biāo)是能夠準(zhǔn)確區(qū)分純凈模型和中毒模型模型檢測:對于待檢測的模型,使用相同的ULPs輸入圖像集合獲取其輸出結(jié)果,構(gòu)建特征向量并輸入到訓(xùn)練好的二元分類器中,判斷模型是否被感染基于投毒抑制的防御方法DP-SGD:在模型訓(xùn)練過程中,使用噪聲對梯度計(jì)算和參數(shù)更新進(jìn)行保護(hù)差分隱私概念介紹:差分隱私是對數(shù)據(jù)加噪的隱私保護(hù)方法,提供嚴(yán)格的隱私保障,使攻擊者無法分辨數(shù)據(jù)的真實(shí)性。敏感度計(jì)算:衡量數(shù)據(jù)集的敏感度,確定噪聲的添加量隱私預(yù)算(ε):控制隱私保護(hù)強(qiáng)度的參數(shù),ε越小,加入的噪聲強(qiáng)度越大,隱私保護(hù)越強(qiáng)方法實(shí)現(xiàn):在每一輪模型訓(xùn)練的迭代中,對小批量數(shù)據(jù)計(jì)算梯度,并對梯度進(jìn)行裁剪和加噪更新模型參數(shù),同時保護(hù)數(shù)據(jù)隱私基于訓(xùn)練樣本過濾的防御方法SpectralSignatures:利用分類器學(xué)習(xí)到的數(shù)據(jù)表征,放大對分類至關(guān)重要的信號,從而檢測并過濾存在后門的數(shù)據(jù)核心思想:通過奇異值分解(SVD)分析數(shù)據(jù)特征,識別異常樣本實(shí)現(xiàn)步驟:數(shù)據(jù)準(zhǔn)備與模型訓(xùn)練數(shù)據(jù)表征提取奇異值分解(SVD)頻譜特征分析與異常檢測樣本過濾與模型重新訓(xùn)練基于測試樣本過濾的防御方法STRIP:利用分類器學(xué)習(xí)到的數(shù)據(jù)表征,檢測并過濾存在后門的數(shù)據(jù)執(zhí)行步驟輸入圖像復(fù)制與擾動:輸入圖像樣本進(jìn)行多次復(fù)制,對每一份復(fù)制的圖像進(jìn)行不同的擾動操作新圖像生成與分類:將擾動后的圖像與原始圖像按一定比例混合,生成新的圖像預(yù)測結(jié)果分析與過濾:根據(jù)熵值判斷輸入樣本是否為中毒樣本,過濾掉潛在的惡意樣本后門攻擊防御總結(jié)后門攻擊防御方法方法名稱優(yōu)點(diǎn)缺點(diǎn)基于數(shù)據(jù)預(yù)處理CutMix提高模型泛化能力,降低后門攻擊成功率增加訓(xùn)練數(shù)據(jù)量和計(jì)算成本基于數(shù)據(jù)預(yù)處理Februss直接消除后門觸發(fā)器的影響需要設(shè)計(jì)有效的預(yù)處理操作基于觸發(fā)器生成NeuralCleanse能夠檢測并抑制后門攻擊計(jì)算復(fù)雜度較高基于模型診斷ULPs有效檢測后門模型需要大量的計(jì)算資源基于投毒抑制DP-SGD保護(hù)數(shù)據(jù)隱私,抑制中毒樣本降低模型準(zhǔn)確性基于訓(xùn)練樣本過濾SpectralSignatures能夠識別并過濾異常樣本對數(shù)據(jù)分布假設(shè)較強(qiáng)基于測試樣本過濾STRIP在推理階段防御后門攻擊可能影響正常樣本的預(yù)測后門攻擊和其他方法的關(guān)系后門攻擊和對抗性攻擊:后門攻擊和數(shù)據(jù)中毒攻擊:維度后門攻擊對抗性攻擊控制階段訓(xùn)練階段(數(shù)據(jù)/模型)推理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 協(xié)稅護(hù)稅協(xié)議書范本
- 社區(qū)黨建服務(wù)協(xié)議書
- 養(yǎng)殖環(huán)境保證協(xié)議書
- 欠款頂帳車輛協(xié)議書
- 食堂出售轉(zhuǎn)讓協(xié)議書
- 暫緩就業(yè)協(xié)議書不見
- 醫(yī)用商標(biāo)轉(zhuǎn)讓協(xié)議書
- 水泥購銷協(xié)議書模板
- 鄰居違規(guī)搭建協(xié)議書
- 教師服務(wù)協(xié)議書范本
- 畢業(yè)論文-山東省農(nóng)產(chǎn)品出口貿(mào)易的現(xiàn)狀及對策研究
- 助產(chǎn)士的溝通技巧與心理疏導(dǎo)
- 《江蘇住宅物業(yè)管理服務(wù)標(biāo)準(zhǔn)》(DB32T538-2002)
- 無人機(jī)巡檢方案完整版
- 推翻帝制民族覺醒
- 魯教版初中數(shù)學(xué)教材中考數(shù)學(xué)考點(diǎn)知識必備
- 英語演講比賽評分標(biāo)準(zhǔn)-評分表
- 上海工裝施工方案范本
- AAO工藝處理圖紙
- 小班-科學(xué)-小動物的家-課件(互動版)
- 中國到歐洲的主要航線圖
評論
0/150
提交評論