版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
提前終止的目的是為了防止過擬合,從右側(cè)學(xué)習(xí)曲線中可以看出,測試誤差在前幾個(gè)epoch中逐漸減小,但是訓(xùn)練到某個(gè)epoch后,測試誤差又有了小幅度的增大。這說明此時(shí)發(fā)生了過擬合。
如果我們只要返回使驗(yàn)證誤差最低的參數(shù),就可以獲得驗(yàn)證集誤差更低的模型。提前終止的目的是為了防止過擬合,從右側(cè)學(xué)習(xí)曲線1提前終止:在測試誤差開始上升之前,就停止訓(xùn)練,即使此時(shí)訓(xùn)練尚未收斂(即訓(xùn)練誤差未達(dá)到最小值)。
首先我們要保存好現(xiàn)在的模型(網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值),訓(xùn)練num_batch次(即一個(gè)epoch),得到新的模型。將測試集作為新模型的輸入,進(jìn)行測試。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大,我們并不會馬上終止測試,而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試,如果測試誤差依舊沒有減小,那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。提前終止:在測試誤差開始上升之前,就停止訓(xùn)練,即使此時(shí)訓(xùn)練尚2深學(xué)習(xí)備課課件3由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型,因此為了更好的利用數(shù)據(jù),有兩種解決策略。第一種策略是再次初始化模型,利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*,重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。第二種策略是將第一輪提前終止時(shí)的損失函數(shù)作為參考目標(biāo)值,用全部數(shù)據(jù)進(jìn)行第二輪提前終止,直到驗(yàn)證集的平均損失函數(shù)低于參考目標(biāo)值。(不能保證終止)由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)4提前終止相當(dāng)于L^2正則化提前終止相當(dāng)于L^2正則化5深學(xué)習(xí)備課課件6
7切面距離(tangentdistance)算法:是一種非參數(shù)的最近鄰算法,其中使用的度量不是通用的歐幾里得距離,而是根據(jù)鄰近流行關(guān)于聚集概率的知識導(dǎo)出的。測試時(shí)需要乘上p的原因:考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x,那么dropout之后的期望值是E=px+(1?p)0=px,在測試時(shí)該神經(jīng)元總是激活,為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果,需要調(diào)整x→px.——Dietterich多次反復(fù)后,對最后的結(jié)果取均值。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大,我們并不會馬上終止測試,而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試,如果測試誤差依舊沒有減小,那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,輸入給神經(jīng)網(wǎng)絡(luò),得到預(yù)測結(jié)果,然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。efficientsparsecodingalgorithmNIPS06;Bagging和Dropout的目的是一樣的,都是為了防止模型過擬合?!禝mprovingneuralnetworksbypreventingco-adaptationoffeatureDetectors》Left:Aunitattrainingtimethatispresentwithprobabilitypandisconnectedtounitsinthenextlayerwithweightsw.Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。測試時(shí)需要乘上p的原因:考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x,那么dropout之后的期望值是E=px+(1?p)0=px,在測試時(shí)該神經(jīng)元總是激活,為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果,需要調(diào)整x→px.沒有Dropout的神經(jīng)網(wǎng)絡(luò)①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。Dropout如何具有正則化效果:14切面距離、正切傳播和流行正切分類器字典學(xué)習(xí)的最簡單形式為:模型訓(xùn)練時(shí),在一次循環(huán)中我們先隨機(jī)選擇神經(jīng)層中的一些單元并將其臨時(shí)隱藏,然后再進(jìn)行該次循環(huán)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化過程。提前終止的優(yōu)點(diǎn):由于限制了訓(xùn)練迭代次數(shù),減少訓(xùn)練時(shí)的計(jì)算成本。具有正則化效果而不需要添加懲罰項(xiàng)或計(jì)算其梯度。切面距離(tangentdistance)算法:是一種非參89.參數(shù)綁定與參數(shù)共享目前討論對參數(shù)添加約束或懲罰的時(shí)候,一直是相對于固定的區(qū)域或點(diǎn)。例如L^2正則化對參數(shù)偏離零的固定值進(jìn)行懲罰。根據(jù)相關(guān)領(lǐng)域和模型結(jié)構(gòu)方面的知識,得知模型參數(shù)之間應(yīng)該存在一些相關(guān)性,需要對模型參數(shù)之間的相關(guān)性進(jìn)行懲罰,使模型參數(shù)盡量接近或者強(qiáng)迫某些參數(shù)相等。舉例:9.參數(shù)綁定與參數(shù)共享目前討論對參數(shù)添加約束或懲罰的時(shí)候,一9參數(shù)共享:強(qiáng)迫模型某些參數(shù)相等主要應(yīng)用:卷積神經(jīng)網(wǎng)絡(luò)(CNN)(9章會詳細(xì)介紹)舉例:貓的照片向右邊移動了一個(gè)像素仍然能探測出貓。優(yōu)點(diǎn):顯著降低了卷積神經(jīng)網(wǎng)絡(luò)CNN的參數(shù)個(gè)數(shù)(CNN模型的參數(shù)通常是千萬量級以上),減少模型占用的內(nèi)存,并且顯著的增加了網(wǎng)絡(luò)的大小而不需要增加訓(xùn)練數(shù)據(jù)。參數(shù)共享:強(qiáng)迫模型某些參數(shù)相等1010.稀疏表示稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。前文所述的權(quán)重衰減直接懲罰模型參數(shù),如L^1正則化會誘導(dǎo)稀疏參數(shù),使得許多參數(shù)為0,而稀疏表示是懲罰神經(jīng)網(wǎng)絡(luò)中的激活單元,稀疏化激活單元。換言之,稀疏表示的是得神經(jīng)元的輸入單元變得稀疏,很多輸入是0.10.稀疏表示稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。11第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。
第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。
也就是說,h是x的一個(gè)函數(shù),在某種意義上表示存在于x中的信息,但只是用一個(gè)稀疏向量表示。
第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。
第二個(gè)表達(dá)式12字典學(xué)習(xí):假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X,每一行代表一個(gè)樣本,每一列代表樣本的一個(gè)特征,一般而言,該矩陣是稠密的,即大多數(shù)元素不為0。
稀疏表示的含義是,尋找一個(gè)系數(shù)矩陣A(k*n)以及一個(gè)字典矩陣B(m*k),使得B*A盡可能的還原X,且A盡可能的稀疏。A便是X的稀疏表示。字典學(xué)習(xí):假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X,每一行代表13“為普通稠密表達(dá)的樣本找到合適的字典,將樣本轉(zhuǎn)化為合適的稀疏表達(dá)形式,從而使學(xué)習(xí)任務(wù)得以簡化,模型復(fù)雜度得以降低,通常稱為‘字典學(xué)習(xí)’”字典學(xué)習(xí)的最簡單形式為:其中xi為第i個(gè)樣本,B為字典矩陣,alphai為xi的稀疏表示,lambda為大于0參數(shù)。
上式中第一個(gè)累加項(xiàng)說明了字典學(xué)習(xí)的第一個(gè)目標(biāo)是字典矩陣與稀疏表示的線性組合盡可能的還原樣本;第二個(gè)累加項(xiàng)說明了alphai應(yīng)該盡可能的稀疏。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解?!盀槠胀ǔ砻鼙磉_(dá)的樣本找到合適的字典,將樣本轉(zhuǎn)化為合14如何獲得表示稀疏從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類:①貪婪算法,比如匹配追蹤(MP)、正交匹配追蹤(OMP)、弱匹配追蹤(WMP)、閾值方法等;(速度快,精度相對較低)②松弛算法,比如迭代加權(quán)最小二乘(Iterative-Reweighed-Least-Squares,IRLS)、基追蹤(BP)等。(松弛算法是精度高,但速度慢)如何獲得表示稀疏從任意一個(gè)字典中為原始信號尋找最稀疏的表示常15匹配追蹤(Matchingpursuit)
匹配追蹤(Matchingpursuit)
16如何建立這個(gè)詞典DefficientsparsecodingalgorithmNIPS06;K-SVDtsp06;Onlinedictionarylearningforsparsecoding,ICML09&JMLR10
如何建立這個(gè)詞典Defficientsparsecodin17字典學(xué)習(xí)的好處它實(shí)質(zhì)上是對于龐大數(shù)據(jù)集的一種降維表示;第二,字典學(xué)習(xí)總是嘗試學(xué)習(xí)蘊(yùn)藏在樣本背后最質(zhì)樸的特征。稀疏表示的本質(zhì):用盡可能少的資源表示盡可能多的知識,這種表示還能帶來一個(gè)附加的好處,即計(jì)算速度快。字典學(xué)習(xí)的好處18一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,輸入給神經(jīng)網(wǎng)絡(luò),得到預(yù)測結(jié)果,然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。通常情況下,集合是分兩步構(gòu)建的。在訓(xùn)練時(shí),每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為1-p);Bagging可以視為比較傳統(tǒng)的集成學(xué)習(xí)思路。對訓(xùn)練過的分類器進(jìn)行投票,將測試樣本指派到得票最高的類中。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。的解釋是:這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。模型平均是減少泛化誤差非常強(qiáng)大可靠的方法,可以適用于任何機(jī)器學(xué)習(xí)算法中,但是以增加計(jì)算和儲存為代價(jià)。③有放回抽樣,一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次,一些可能被忽略。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。如果我們只要返回使驗(yàn)證誤差最低的參數(shù),就可以獲得驗(yàn)證集誤差更低的模型。原空間中相鄰比較近的點(diǎn)可能不是同一類點(diǎn),而相鄰較遠(yuǎn)的點(diǎn)還有可能是同一類,“平鋪”至低維空間后就能解決這一問題。Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。用盡可能少的資源表示盡可能多的知識,這種表示還能帶來一個(gè)附加的好處,即計(jì)算速度快。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。修改訓(xùn)練網(wǎng)絡(luò)的方法分為完全抵抗和僅檢測兩種方式,完全抵抗其實(shí)就是讓模型能將對抗樣本識別為正確的分類,而僅檢測是為了發(fā)現(xiàn)這種攻擊樣本,從而拒絕服務(wù)。②松弛算法,比如迭代加權(quán)最小二乘(Iterative-Reweighed-Least-Squares,IRLS)、基追蹤(BP)等。每條曲線表示不同類別的流形,繪制的單點(diǎn)的切向量與法向量,我們希望分類函數(shù)在垂直于流形方向上快速改變,并且在類別流形的方向上保持不變。例如,即使存在唯一的最佳假設(shè),也可能難以實(shí)現(xiàn),因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。③有放回抽樣,一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次,一些可能被忽略。11.Bagging算法Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)?;舅枷耄簩τ谝粋€(gè)復(fù)雜的學(xué)習(xí)任務(wù),我們首先構(gòu)造多個(gè)簡單的學(xué)習(xí)模型,然后再把這些簡單模型組合成一個(gè)高效的學(xué)習(xí)模型。(“三個(gè)臭皮匠頂個(gè)諸葛亮”)采用該策略的技術(shù)被稱為集成方法,廣泛用于分類和回歸任務(wù)。不同集成方法以不同方式構(gòu)建集成模型。例如每個(gè)成員可以使用不同算法和目標(biāo)函數(shù)訓(xùn)練成完全不同的模型。一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,19大多數(shù)集成方法使用單一的基本學(xué)習(xí)算法來生成均勻基礎(chǔ)學(xué)習(xí)器,但也有一些方法使用多種學(xué)習(xí)算法來生成異構(gòu)學(xué)習(xí)器。通常情況下,集合是分兩步構(gòu)建的。首先,生成許多基礎(chǔ)學(xué)習(xí)器,這些基礎(chǔ)學(xué)習(xí)器可以以并行樣式或序列樣式生成,序列樣式即基礎(chǔ)學(xué)習(xí)器的生成影響后續(xù)學(xué)習(xí)器的生成。然后,將基礎(chǔ)學(xué)習(xí)器結(jié)合使用,其中最流行的組合方案是用于分類的多數(shù)投票和用于回歸的加權(quán)平均。大多數(shù)集成方法使用單一的基本學(xué)習(xí)算法來生成均勻基礎(chǔ)學(xué)習(xí)器,但20為什么集合優(yōu)于單個(gè)第一個(gè)原因是,訓(xùn)練數(shù)據(jù)可能無法提供足夠的信息來選擇單一的最佳學(xué)習(xí)器。例如,可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。因此,結(jié)合這些學(xué)習(xí)器可能是更好的選擇。第二個(gè)原因是,學(xué)習(xí)算法的搜索過程可能不完善。例如,即使存在唯一的最佳假設(shè),也可能難以實(shí)現(xiàn),因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。因此,集合可以彌補(bǔ)這種不完善的搜索過程。第三個(gè)原因是,被搜索的假設(shè)空間可能不包含真正的目標(biāo)函數(shù),而集合可以給出一些很好的近似值。例如,眾所周知,決策樹的分類邊界是與坐標(biāo)軸平行的線段。如果目標(biāo)分類邊界是一條光滑的對角線,則使用單個(gè)決策樹不能產(chǎn)生良好的結(jié)果,但通過組合一組決策樹可以實(shí)現(xiàn)良好的近似?!狣ietterich
為什么集合優(yōu)于單個(gè)第一個(gè)原因是,訓(xùn)練數(shù)據(jù)可能無法提供足夠的信21
模型平均如何奏效:不同模型不會在測試集上產(chǎn)生完全相同的誤差。
模型平均如何奏效:不同模型不會在測試集上產(chǎn)生完全相同的誤差22bagging(裝袋)方法Bagging是一種允許重復(fù)多次使用同一種模型、訓(xùn)練算法和目標(biāo)函數(shù)的方法。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;對訓(xùn)練過的分類器進(jìn)行投票,將測試樣本指派到得票最高的類中。②每個(gè)自助樣本集都和原數(shù)據(jù)一樣大③有放回抽樣,一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次,一些可能被忽略。(每個(gè)數(shù)據(jù)集包含原始數(shù)據(jù)2/3的實(shí)例)bagging(裝袋)方法23算法步驟:1.從數(shù)據(jù)集S中取樣(放回選樣),總共執(zhí)行t次2.針對每一次取樣訓(xùn)練得到得到t個(gè)模型H1…Ht3.如果是分類算法,則t個(gè)模型投出最多票數(shù)的類別或者類別之一為最終類別;如果是回歸算法,t個(gè)模型得到的回歸結(jié)果進(jìn)行算術(shù)平均得到的值為最終的模型輸出。
算法步驟:1.從數(shù)據(jù)集S中取樣(放回選樣),總共執(zhí)行t次24深學(xué)習(xí)備課課件25模型平均是減少泛化誤差非常強(qiáng)大可靠的方法,可以適用于任何機(jī)器學(xué)習(xí)算法中,但是以增加計(jì)算和儲存為代價(jià)。Bagging可以視為比較傳統(tǒng)的集成學(xué)習(xí)思路?,F(xiàn)在常用的RandomForest,GBDT(迭代決策樹),GBRank其實(shí)都是更加精細(xì)化,效果更好的方法。模型平均是減少泛化誤差非常強(qiáng)大可靠的方法,可以適用于任何機(jī)器2612.dropout深度學(xué)習(xí)領(lǐng)域大神Hinton,在2012年文獻(xiàn):《Improvingneuralnetworksbypreventing
co-adaptationoffeaturedetectors》提出了,在每次訓(xùn)練的時(shí)候,讓一部分的特征檢測器停止工作,這樣可以提高網(wǎng)絡(luò)的泛化能力,Hinton又把它稱之為dropout。Hinton認(rèn)為過擬合,可以通過阻止某些特征的協(xié)同作用來緩解。在每次訓(xùn)練的時(shí)候,每個(gè)神經(jīng)元有一定的概率被移除,這樣可以讓一個(gè)神經(jīng)元的出現(xiàn)不應(yīng)該依賴于另外一個(gè)神經(jīng)元。12.dropout深度學(xué)習(xí)領(lǐng)域大神Hinton,在20122712.dropout模型訓(xùn)練時(shí),在一次循環(huán)中我們先隨機(jī)選擇神經(jīng)層中的一些單元并將其臨時(shí)隱藏,然后再進(jìn)行該次循環(huán)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化過程。在下一次循環(huán)中,我們又將隱藏另外一些神經(jīng)元,如此直至訓(xùn)練結(jié)束。Dropout訓(xùn)練的集成包括所有從基礎(chǔ)網(wǎng)絡(luò)除去神經(jīng)元(非輸出單元)后形成的子網(wǎng)絡(luò)。只需要將一些單元的輸出乘零就能有效的刪除(暫時(shí)地)一個(gè)單元。假如基本網(wǎng)絡(luò)有n個(gè)非輸出神經(jīng)元,那么就有2^n個(gè)子網(wǎng)絡(luò)。12.dropout模型訓(xùn)練時(shí),在一次循環(huán)中我們先隨機(jī)選擇神28從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類:為何對抗樣本能產(chǎn)生很大的作用:一個(gè)推廣的方法叫做迭代梯度法,就是對剛才的過程進(jìn)行多次重復(fù)。Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.也就是說,h是x的一個(gè)函數(shù),在某種意義上表示存在于x中的信息,但只是用一個(gè)稀疏向量表示。第一種策略是再次初始化模型,利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*,重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。例如,即使存在唯一的最佳假設(shè),也可能難以實(shí)現(xiàn),因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。原空間中的樣本分布可能及其扭曲,平鋪之后將更有利于樣本之間的距離度量,其距離將能更好地反映兩個(gè)樣本之間的相似性。第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。(“三個(gè)臭皮匠頂個(gè)諸葛亮”)②松弛算法,比如迭代加權(quán)最小二乘(Iterative-Reweighed-Least-Squares,IRLS)、基追蹤(BP)等。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大,我們并不會馬上終止測試,而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試,如果測試誤差依舊沒有減小,那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;在這種情況下,可以說他的作用和L1和L2范式正則化是相同的。(松弛算法是精度高,但速度慢)Onlinedictionarylearningforsparsecoding,ICML09&JMLR10對訓(xùn)練過的分類器進(jìn)行投票,將測試樣本指派到得票最高的類中。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;Bagging和Dropout的目的是一樣的,都是為了防止模型過擬合。例如,可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。只需要將一些單元的輸出乘零就能有效的刪除(暫時(shí)地)一個(gè)單元。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。然后,將基礎(chǔ)學(xué)習(xí)器結(jié)合使用,其中最流行的組合方案是用于分類的多數(shù)投票和用于回歸的加權(quán)平均。第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.字典學(xué)習(xí)的最簡單形式為:(松弛算法是精度高,但速度慢)修改訓(xùn)練樣本:通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊,但這更像是一種無奈的做法,當(dāng)擴(kuò)大樣本集的時(shí)候,其實(shí)分類邊界有可能也在隨之?dāng)U大。其中p是Bernoulli分布(0-1分布)中值為1的概率。的解釋是:這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。efficientsparsecodingalgorithmNIPS06;這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。修改訓(xùn)練網(wǎng)絡(luò):這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整,其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù),但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。深度學(xué)習(xí)領(lǐng)域大神Hinton,在2012年文獻(xiàn):《Improvingneuralnetworksbypreventing
co-adaptationoffeaturedetectors》提出了,在每次訓(xùn)練的時(shí)候,讓一部分的特征檢測器停止工作,這樣可以提高網(wǎng)絡(luò)的泛化能力,Hinton又把它稱之為dropout。如果我們只要返回使驗(yàn)證誤差最低的參數(shù),就可以獲得驗(yàn)證集誤差更低的模型。例如,即使存在唯一的最佳假設(shè),也可能難以實(shí)現(xiàn),因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。Dropout與Bagging對比第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。首先我們要保存好現(xiàn)在的模型(網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值),訓(xùn)練num_batch次(即一個(gè)epoch),得到新的模型。從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類:在這種情況下,可以說他的作用和L1和L2范式正則化是相同的。Dropout說的簡單一點(diǎn)就是我們讓在前向傳導(dǎo)的時(shí)候,讓某個(gè)神經(jīng)元的激活值以一定的概率p,讓其停止工作,示意圖如下:從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類29深學(xué)習(xí)備課課件30在訓(xùn)練時(shí),每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為1-p);在測試階段,每個(gè)神經(jīng)單元都是存在的,權(quán)重參數(shù)w要乘以p,成為:pw。測試時(shí)需要乘上p的原因:考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x,那么dropout之后的期望值是E=px+(1?p)0=px,在測試時(shí)該神經(jīng)元總是激活,為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果,需要調(diào)整x→px.其中p是Bernoulli分布(0-1分布)中值為1的概率。在訓(xùn)練時(shí),每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為31Left:Aunitattrainingtimethatispresentwithprobabilitypandisconnectedtounitsinthenextlayerwithweightsw.Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.Theoutputattesttimeissameastheexpectedoutputattrainingtime.深學(xué)習(xí)備課課件32通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段,而測試階段與不使用dropout時(shí)相同,稱為
inverteddropout
:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p在架構(gòu)中添加invertedDropout這一改動僅會影響訓(xùn)練過程,而并不影響測試過程。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的33深學(xué)習(xí)備課課件34ModelDescriptionModelDescription35有Dropout的神經(jīng)網(wǎng)絡(luò)上面公式中Bernoulli函數(shù),是為了以概率p,隨機(jī)生成一個(gè)0、1的向量。沒有Dropout的神經(jīng)網(wǎng)絡(luò)有Dropout的神經(jīng)網(wǎng)絡(luò)上面公式中Bernoulli函數(shù),36Dropout如何具有正則化效果:ImageNetClassificationwithDeepConvolutionalNeuralNetworks,byAlexKrizhevsky,IlyaSutskever,andGeoffreyHinton(2012).的解釋是:這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。因?yàn)橐粋€(gè)神經(jīng)元不能依賴其他特定的神經(jīng)元。因此,不得不去學(xué)習(xí)隨機(jī)子集神經(jīng)元間的魯棒性的有用連接。換句話說。想象我們的神經(jīng)元作為要給預(yù)測的模型,dropout是一種方式可以確保我們的模型在丟失一個(gè)個(gè)體線索的情況下保持健壯的模型。在這種情況下,可以說他的作用和L1和L2范式正則化是相同的。都是來減少權(quán)重連接,然后增加網(wǎng)絡(luò)模型在缺失個(gè)體連接信息情況下的魯棒性。Dropout如何具有正則化效果:ImageNetClas37Dropout是通過隨機(jī)行為訓(xùn)練網(wǎng)絡(luò)并平均多個(gè)隨機(jī)過程決定進(jìn)行預(yù)測,實(shí)現(xiàn)了一種參數(shù)共享的bagging。Dropout與Bagging對比Bagging和Dropout的目的是一樣的,都是為了防止模型過擬合。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本,然后對該樣本進(jìn)行訓(xùn)練。多次反復(fù)后,對最后的結(jié)果取均值。Dropout是在構(gòu)建神經(jīng)網(wǎng)絡(luò)的時(shí)候,隨機(jī)的丟掉一些節(jié)點(diǎn)和邊,這就是相當(dāng)于對特征進(jìn)行了隨機(jī)選擇。Bagging情況下每個(gè)模型都是獨(dú)立的;Dropout情況下,所有模型共享參數(shù),其中每個(gè)模型繼承父神經(jīng)網(wǎng)絡(luò)參數(shù)的不同子集。Dropout是通過隨機(jī)行為訓(xùn)練網(wǎng)絡(luò)并平均多個(gè)隨機(jī)過程決定進(jìn)38深學(xué)習(xí)備課課件39《Improvingneuralnetworksbypreventingco-adaptationoffeatureDetectors》《Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting》——NitishSrivastava、GeoffreyHinton、uAlex、Ilya、RuslanSalakhutdinov《Improvingneuralnetworksby4013.對抗訓(xùn)練對抗樣本是指對原樣本產(chǎn)生一些微小的擾動(甚至人眼都可能無法察覺),然而分類器卻產(chǎn)生了完全不一樣的結(jié)果,甚至以高置信度錯誤分類。13.對抗訓(xùn)練對抗樣本是指對原樣本產(chǎn)生一些微小的擾動(甚至人41為何對抗樣本能產(chǎn)生很大的作用:
為何對抗樣本能產(chǎn)生很大的作用:
42Szegedy的文章《Intriguingpropertiesofneuralnetworks》表明將對抗樣本和普通樣本一起給模型訓(xùn)練能夠使模型正則化。訓(xùn)練對抗樣本和普通的數(shù)據(jù)增加不一樣:
通常我們通過對數(shù)據(jù)進(jìn)行變形來增加數(shù)據(jù),這樣變形后的數(shù)據(jù)是可能出現(xiàn)在測試集里的。而對抗樣本這種數(shù)據(jù)通常不可能自然地出現(xiàn)在測試集中,但是它們可以揭露出模型的缺陷。Szegedy的文章《Intriguingproperti43①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;多次反復(fù)后,對最后的結(jié)果取均值。Dropout訓(xùn)練的集成包括所有從基礎(chǔ)網(wǎng)絡(luò)除去神經(jīng)元(非輸出單元)后形成的子網(wǎng)絡(luò)。在每次訓(xùn)練的時(shí)候,每個(gè)神經(jīng)元有一定的概率被移除,這樣可以讓一個(gè)神經(jīng)元的出現(xiàn)不應(yīng)該依賴于另外一個(gè)神經(jīng)元。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本,然后對該樣本進(jìn)行訓(xùn)練。對訓(xùn)練過的分類器進(jìn)行投票,將測試樣本指派到得票最高的類中。修改訓(xùn)練樣本:通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊,但這更像是一種無奈的做法,當(dāng)擴(kuò)大樣本集的時(shí)候,其實(shí)分類邊界有可能也在隨之?dāng)U大。一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,輸入給神經(jīng)網(wǎng)絡(luò),得到預(yù)測結(jié)果,然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。Bagging和Dropout的目的是一樣的,都是為了防止模型過擬合。例如,可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。采用該策略的技術(shù)被稱為集成方法,廣泛用于分類和回歸任務(wù)。第一種策略是再次初始化模型,利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*,重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段,而測試階段與不使用dropout時(shí)相同,稱為
inverteddropout
:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。(松弛算法是精度高,但速度慢)修改訓(xùn)練網(wǎng)絡(luò):這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整,其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù),但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型,因此為了更好的利用數(shù)據(jù),有兩種解決策略。bagging(裝袋)方法每條曲線表示不同類別的流形,繪制的單點(diǎn)的切向量與法向量,我們希望分類函數(shù)在垂直于流形方向上快速改變,并且在類別流形的方向上保持不變。從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類:用盡可能少的資源表示盡可能多的知識,這種表示還能帶來一個(gè)附加的好處,即計(jì)算速度快。如何生成這些對抗樣本?一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,輸入給神經(jīng)網(wǎng)絡(luò),得到預(yù)測結(jié)果,然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。一個(gè)推廣的方法叫做迭代梯度法,就是對剛才的過程進(jìn)行多次重復(fù)。這種攻擊稱作白盒攻擊,因?yàn)榧僭O(shè)攻擊者已經(jīng)知道了要被攻擊的模型的所有細(xì)節(jié)。而與之相對的就是黑盒攻擊,顧名思義,攻擊者事先不知道要攻擊網(wǎng)絡(luò)的模型和具體細(xì)節(jié)。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的44如何防御這些對抗樣本《ThreatofAdversarialAttacksonDeepLearninginComputerVision:ASurvey》修改訓(xùn)練樣本:通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊,但這更像是一種無奈的做法,當(dāng)擴(kuò)大樣本集的時(shí)候,其實(shí)分類邊界有可能也在隨之?dāng)U大。修改訓(xùn)練網(wǎng)絡(luò):這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整,其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù),但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。修改訓(xùn)練網(wǎng)絡(luò)的方法分為完全抵抗和僅檢測兩種方式,完全抵抗其實(shí)就是讓模型能將對抗樣本識別為正確的分類,而僅檢測是為了發(fā)現(xiàn)這種攻擊樣本,從而拒絕服務(wù)。附加網(wǎng)絡(luò):這種方式是在不改變原有模型的情況下使用額外的網(wǎng)絡(luò)進(jìn)行輔助,這樣可以使原有網(wǎng)絡(luò)保持不變,其中最有效的一種方式是生成式對抗網(wǎng)絡(luò)——GAN。同樣的,這種方式也分為完全抵抗和僅檢測兩種方式。如何防御這些對抗樣本《ThreatofAdversari457.14切面距離、正切傳播和流行正切分類器流形學(xué)習(xí)的基本思想是將高維特征空間中的樣本分布群“平鋪”至一個(gè)低維空間,同時(shí)能保存原高維空間中樣本點(diǎn)之間的局部位置相關(guān)信息。原空間中的樣本分布可能及其扭曲,平鋪之后將更有利于樣本之間的距離度量,其距離將能更好地反映兩個(gè)樣本之間的相似性。原空間中相鄰比較近的點(diǎn)可能不是同一類點(diǎn),而相鄰較遠(yuǎn)的點(diǎn)還有可能是同一類,“平鋪”至低維空間后就能解決這一問題。7.14切面距離、正切傳播和流行正切分類器流形學(xué)習(xí)的基本思46
切面距離(tangentdistance)算法:是一種非參數(shù)的最近鄰算法,其中使用的度量不是通用的歐幾里得距離,而是根據(jù)鄰近流行關(guān)于聚集概率的知識導(dǎo)出的。正切傳播(tangentprop)算法:訓(xùn)練帶有額外懲罰的神經(jīng)網(wǎng)絡(luò)分類器,使神經(jīng)網(wǎng)絡(luò)的每個(gè)輸出f(x)對已知的變化因素是局部不變的。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。
切面距離(tangentdistance)算法:是一種非47每條曲線表示不同類別的流形,繪制的單點(diǎn)的切向量與法向量,我們希望分類函數(shù)在垂直于流形方向上快速改變,并且在類別流形的方向上保持不變。Tangent表示正切方向,Normal表示正交方向。每條曲線表示不同類別的流形,繪制的單點(diǎn)的切向量48深學(xué)習(xí)備課課件49由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型,因此為了更好的利用數(shù)據(jù),有兩種解決策略。第一種策略是再次初始化模型,利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*,重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。第二種策略是將第一輪提前終止時(shí)的損失函數(shù)作為參考目標(biāo)值,用全部數(shù)據(jù)進(jìn)行第二輪提前終止,直到驗(yàn)證集的平均損失函數(shù)低于參考目標(biāo)值。(不能保證終止)由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)50
51如何建立這個(gè)詞典DefficientsparsecodingalgorithmNIPS06;K-SVDtsp06;Onlinedictionarylearningforsparsecoding,ICML09&JMLR10
如何建立這個(gè)詞典Defficientsparsecodin52深學(xué)習(xí)備課課件53通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段,而測試階段與不使用dropout時(shí)相同,稱為
inverteddropout
:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p在架構(gòu)中添加invertedDropout這一改動僅會影響訓(xùn)練過程,而并不影響測試過程。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的54
切面距離(tangentdistance)算法:是一種非參數(shù)的最近鄰算法,其中使用的度量不是通用的歐幾里得距離,而是根據(jù)鄰近流行關(guān)于聚集概率的知識導(dǎo)出的。正切傳播(tangentprop)算法:訓(xùn)練帶有額外懲罰的神經(jīng)網(wǎng)絡(luò)分類器,使神經(jīng)網(wǎng)絡(luò)的每個(gè)輸出f(x)對已知的變化因素是局部不變的。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。
切面距離(tangentdistance)算法:是一種非55而與之相對的就是黑盒攻擊,顧名思義,攻擊者事先不知道要攻擊網(wǎng)絡(luò)的模型和具體細(xì)節(jié)。Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型,因此為了更好的利用數(shù)據(jù),有兩種解決策略。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。正切傳播(tangentprop)算法:訓(xùn)練帶有額外懲罰的神經(jīng)網(wǎng)絡(luò)分類器,使神經(jīng)網(wǎng)絡(luò)的每個(gè)輸出f(x)對已知的變化因素是局部不變的。其中p是Bernoulli分布(0-1分布)中值為1的概率。K-SVDtsp06;如果目標(biāo)分類邊界是一條光滑的對角線,則使用單個(gè)決策樹不能產(chǎn)生良好的結(jié)果,但通過組合一組決策樹可以實(shí)現(xiàn)良好的近似。每條曲線表示不同類別的流形,繪制的單點(diǎn)的切向量與法向量,我們希望分類函數(shù)在垂直于流形方向上快速改變,并且在類別流形的方向上保持不變。修改訓(xùn)練網(wǎng)絡(luò):這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整,其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù),但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。②松弛算法,比如迭代加權(quán)最小二乘(Iterative-Reweighed-Least-Squares,IRLS)、基追蹤(BP)等。由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型,因此為了更好的利用數(shù)據(jù),有兩種解決策略。修改訓(xùn)練網(wǎng)絡(luò)的方法分為完全抵抗和僅檢測兩種方式,完全抵抗其實(shí)就是讓模型能將對抗樣本識別為正確的分類,而僅檢測是為了發(fā)現(xiàn)這種攻擊樣本,從而拒絕服務(wù)。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本,然后對該樣本進(jìn)行訓(xùn)練?!狽itishSrivastava、GeoffreyHinton、uAlex、Ilya、RuslanSalakhutdinov通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段,而測試階段與不使用dropout時(shí)相同,稱為
inverteddropout
:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X,每一行代表一個(gè)樣本,每一列代表樣本的一個(gè)特征,一般而言,該矩陣是稠密的,即大多數(shù)元素不為0。《Improvingneuralnetworksbypreventingco-adaptationoffeatureDetectors》它實(shí)質(zhì)上是對于龐大數(shù)據(jù)集的一種降維表示;例如每個(gè)成員可以使用不同算法和目標(biāo)函數(shù)訓(xùn)練成完全不同的模型。每條曲線表示不同類別的流形,繪制的單點(diǎn)的切向量與法向量,我們希望分類函數(shù)在垂直于流形方向上快速改變,并且在類別流形的方向上保持不變。Tangent表示正切方向,Normal表示正交方向。而與之相對的就是黑盒攻擊,顧名思義,攻擊者事先不知道要攻擊網(wǎng)56提前終止的目的是為了防止過擬合,從右側(cè)學(xué)習(xí)曲線中可以看出,測試誤差在前幾個(gè)epoch中逐漸減小,但是訓(xùn)練到某個(gè)epoch后,測試誤差又有了小幅度的增大。這說明此時(shí)發(fā)生了過擬合。
如果我們只要返回使驗(yàn)證誤差最低的參數(shù),就可以獲得驗(yàn)證集誤差更低的模型。提前終止的目的是為了防止過擬合,從右側(cè)學(xué)習(xí)曲線57提前終止:在測試誤差開始上升之前,就停止訓(xùn)練,即使此時(shí)訓(xùn)練尚未收斂(即訓(xùn)練誤差未達(dá)到最小值)。
首先我們要保存好現(xiàn)在的模型(網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值),訓(xùn)練num_batch次(即一個(gè)epoch),得到新的模型。將測試集作為新模型的輸入,進(jìn)行測試。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大,我們并不會馬上終止測試,而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試,如果測試誤差依舊沒有減小,那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。提前終止:在測試誤差開始上升之前,就停止訓(xùn)練,即使此時(shí)訓(xùn)練尚58深學(xué)習(xí)備課課件59由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型,因此為了更好的利用數(shù)據(jù),有兩種解決策略。第一種策略是再次初始化模型,利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*,重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。第二種策略是將第一輪提前終止時(shí)的損失函數(shù)作為參考目標(biāo)值,用全部數(shù)據(jù)進(jìn)行第二輪提前終止,直到驗(yàn)證集的平均損失函數(shù)低于參考目標(biāo)值。(不能保證終止)由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)60提前終止相當(dāng)于L^2正則化提前終止相當(dāng)于L^2正則化61深學(xué)習(xí)備課課件62
63切面距離(tangentdistance)算法:是一種非參數(shù)的最近鄰算法,其中使用的度量不是通用的歐幾里得距離,而是根據(jù)鄰近流行關(guān)于聚集概率的知識導(dǎo)出的。測試時(shí)需要乘上p的原因:考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x,那么dropout之后的期望值是E=px+(1?p)0=px,在測試時(shí)該神經(jīng)元總是激活,為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果,需要調(diào)整x→px.——Dietterich多次反復(fù)后,對最后的結(jié)果取均值。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大,我們并不會馬上終止測試,而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試,如果測試誤差依舊沒有減小,那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,輸入給神經(jīng)網(wǎng)絡(luò),得到預(yù)測結(jié)果,然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。efficientsparsecodingalgorithmNIPS06;Bagging和Dropout的目的是一樣的,都是為了防止模型過擬合?!禝mprovingneuralnetworksbypreventingco-adaptationoffeatureDetectors》Left:Aunitattrainingtimethatispresentwithprobabilitypandisconnectedtounitsinthenextlayerwithweightsw.Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。測試時(shí)需要乘上p的原因:考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x,那么dropout之后的期望值是E=px+(1?p)0=px,在測試時(shí)該神經(jīng)元總是激活,為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果,需要調(diào)整x→px.沒有Dropout的神經(jīng)網(wǎng)絡(luò)①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。Dropout如何具有正則化效果:14切面距離、正切傳播和流行正切分類器字典學(xué)習(xí)的最簡單形式為:模型訓(xùn)練時(shí),在一次循環(huán)中我們先隨機(jī)選擇神經(jīng)層中的一些單元并將其臨時(shí)隱藏,然后再進(jìn)行該次循環(huán)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化過程。提前終止的優(yōu)點(diǎn):由于限制了訓(xùn)練迭代次數(shù),減少訓(xùn)練時(shí)的計(jì)算成本。具有正則化效果而不需要添加懲罰項(xiàng)或計(jì)算其梯度。切面距離(tangentdistance)算法:是一種非參649.參數(shù)綁定與參數(shù)共享目前討論對參數(shù)添加約束或懲罰的時(shí)候,一直是相對于固定的區(qū)域或點(diǎn)。例如L^2正則化對參數(shù)偏離零的固定值進(jìn)行懲罰。根據(jù)相關(guān)領(lǐng)域和模型結(jié)構(gòu)方面的知識,得知模型參數(shù)之間應(yīng)該存在一些相關(guān)性,需要對模型參數(shù)之間的相關(guān)性進(jìn)行懲罰,使模型參數(shù)盡量接近或者強(qiáng)迫某些參數(shù)相等。舉例:9.參數(shù)綁定與參數(shù)共享目前討論對參數(shù)添加約束或懲罰的時(shí)候,一65參數(shù)共享:強(qiáng)迫模型某些參數(shù)相等主要應(yīng)用:卷積神經(jīng)網(wǎng)絡(luò)(CNN)(9章會詳細(xì)介紹)舉例:貓的照片向右邊移動了一個(gè)像素仍然能探測出貓。優(yōu)點(diǎn):顯著降低了卷積神經(jīng)網(wǎng)絡(luò)CNN的參數(shù)個(gè)數(shù)(CNN模型的參數(shù)通常是千萬量級以上),減少模型占用的內(nèi)存,并且顯著的增加了網(wǎng)絡(luò)的大小而不需要增加訓(xùn)練數(shù)據(jù)。參數(shù)共享:強(qiáng)迫模型某些參數(shù)相等6610.稀疏表示稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。前文所述的權(quán)重衰減直接懲罰模型參數(shù),如L^1正則化會誘導(dǎo)稀疏參數(shù),使得許多參數(shù)為0,而稀疏表示是懲罰神經(jīng)網(wǎng)絡(luò)中的激活單元,稀疏化激活單元。換言之,稀疏表示的是得神經(jīng)元的輸入單元變得稀疏,很多輸入是0.10.稀疏表示稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。67第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。
第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。
也就是說,h是x的一個(gè)函數(shù),在某種意義上表示存在于x中的信息,但只是用一個(gè)稀疏向量表示。
第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。
第二個(gè)表達(dá)式68字典學(xué)習(xí):假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X,每一行代表一個(gè)樣本,每一列代表樣本的一個(gè)特征,一般而言,該矩陣是稠密的,即大多數(shù)元素不為0。
稀疏表示的含義是,尋找一個(gè)系數(shù)矩陣A(k*n)以及一個(gè)字典矩陣B(m*k),使得B*A盡可能的還原X,且A盡可能的稀疏。A便是X的稀疏表示。字典學(xué)習(xí):假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X,每一行代表69“為普通稠密表達(dá)的樣本找到合適的字典,將樣本轉(zhuǎn)化為合適的稀疏表達(dá)形式,從而使學(xué)習(xí)任務(wù)得以簡化,模型復(fù)雜度得以降低,通常稱為‘字典學(xué)習(xí)’”字典學(xué)習(xí)的最簡單形式為:其中xi為第i個(gè)樣本,B為字典矩陣,alphai為xi的稀疏表示,lambda為大于0參數(shù)。
上式中第一個(gè)累加項(xiàng)說明了字典學(xué)習(xí)的第一個(gè)目標(biāo)是字典矩陣與稀疏表示的線性組合盡可能的還原樣本;第二個(gè)累加項(xiàng)說明了alphai應(yīng)該盡可能的稀疏。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。“為普通稠密表達(dá)的樣本找到合適的字典,將樣本轉(zhuǎn)化為合70如何獲得表示稀疏從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類:①貪婪算法,比如匹配追蹤(MP)、正交匹配追蹤(OMP)、弱匹配追蹤(WMP)、閾值方法等;(速度快,精度相對較低)②松弛算法,比如迭代加權(quán)最小二乘(Iterative-Reweighed-Least-Squares,IRLS)、基追蹤(BP)等。(松弛算法是精度高,但速度慢)如何獲得表示稀疏從任意一個(gè)字典中為原始信號尋找最稀疏的表示常71匹配追蹤(Matchingpursuit)
匹配追蹤(Matchingpursuit)
72如何建立這個(gè)詞典DefficientsparsecodingalgorithmNIPS06;K-SVDtsp06;Onlinedictionarylearningforsparsecoding,ICML09&JMLR10
如何建立這個(gè)詞典Defficientsparsecodin73字典學(xué)習(xí)的好處它實(shí)質(zhì)上是對于龐大數(shù)據(jù)集的一種降維表示;第二,字典學(xué)習(xí)總是嘗試學(xué)習(xí)蘊(yùn)藏在樣本背后最質(zhì)樸的特征。稀疏表示的本質(zhì):用盡可能少的資源表示盡可能多的知識,這種表示還能帶來一個(gè)附加的好處,即計(jì)算速度快。字典學(xué)習(xí)的好處74一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,輸入給神經(jīng)網(wǎng)絡(luò),得到預(yù)測結(jié)果,然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。通常情況下,集合是分兩步構(gòu)建的。在訓(xùn)練時(shí),每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為1-p);Bagging可以視為比較傳統(tǒng)的集成學(xué)習(xí)思路。對訓(xùn)練過的分類器進(jìn)行投票,將測試樣本指派到得票最高的類中。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。的解釋是:這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。模型平均是減少泛化誤差非常強(qiáng)大可靠的方法,可以適用于任何機(jī)器學(xué)習(xí)算法中,但是以增加計(jì)算和儲存為代價(jià)。③有放回抽樣,一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次,一些可能被忽略。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。如果我們只要返回使驗(yàn)證誤差最低的參數(shù),就可以獲得驗(yàn)證集誤差更低的模型。原空間中相鄰比較近的點(diǎn)可能不是同一類點(diǎn),而相鄰較遠(yuǎn)的點(diǎn)還有可能是同一類,“平鋪”至低維空間后就能解決這一問題。Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。用盡可能少的資源表示盡可能多的知識,這種表示還能帶來一個(gè)附加的好處,即計(jì)算速度快。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。修改訓(xùn)練網(wǎng)絡(luò)的方法分為完全抵抗和僅檢測兩種方式,完全抵抗其實(shí)就是讓模型能將對抗樣本識別為正確的分類,而僅檢測是為了發(fā)現(xiàn)這種攻擊樣本,從而拒絕服務(wù)。②松弛算法,比如迭代加權(quán)最小二乘(Iterative-Reweighed-Least-Squares,IRLS)、基追蹤(BP)等。每條曲線表示不同類別的流形,繪制的單點(diǎn)的切向量與法向量,我們希望分類函數(shù)在垂直于流形方向上快速改變,并且在類別流形的方向上保持不變。例如,即使存在唯一的最佳假設(shè),也可能難以實(shí)現(xiàn),因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。③有放回抽樣,一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次,一些可能被忽略。11.Bagging算法Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。基本思想:對于一個(gè)復(fù)雜的學(xué)習(xí)任務(wù),我們首先構(gòu)造多個(gè)簡單的學(xué)習(xí)模型,然后再把這些簡單模型組合成一個(gè)高效的學(xué)習(xí)模型。(“三個(gè)臭皮匠頂個(gè)諸葛亮”)采用該策略的技術(shù)被稱為集成方法,廣泛用于分類和回歸任務(wù)。不同集成方法以不同方式構(gòu)建集成模型。例如每個(gè)成員可以使用不同算法和目標(biāo)函數(shù)訓(xùn)練成完全不同的模型。一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,75大多數(shù)集成方法使用單一的基本學(xué)習(xí)算法來生成均勻基礎(chǔ)學(xué)習(xí)器,但也有一些方法使用多種學(xué)習(xí)算法來生成異構(gòu)學(xué)習(xí)器。通常情況下,集合是分兩步構(gòu)建的。首先,生成許多基礎(chǔ)學(xué)習(xí)器,這些基礎(chǔ)學(xué)習(xí)器可以以并行樣式或序列樣式生成,序列樣式即基礎(chǔ)學(xué)習(xí)器的生成影響后續(xù)學(xué)習(xí)器的生成。然后,將基礎(chǔ)學(xué)習(xí)器結(jié)合使用,其中最流行的組合方案是用于分類的多數(shù)投票和用于回歸的加權(quán)平均。大多數(shù)集成方法使用單一的基本學(xué)習(xí)算法來生成均勻基礎(chǔ)學(xué)習(xí)器,但76為什么集合優(yōu)于單個(gè)第一個(gè)原因是,訓(xùn)練數(shù)據(jù)可能無法提供足夠的信息來選擇單一的最佳學(xué)習(xí)器。例如,可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。因此,結(jié)合這些學(xué)習(xí)器可能是更好的選擇。第二個(gè)原因是,學(xué)習(xí)算法的搜索過程可能不完善。例如,即使存在唯一的最佳假設(shè),也可能難以實(shí)現(xiàn),因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。因此,集合可以彌補(bǔ)這種不完善的搜索過程。第三個(gè)原因是,被搜索的假設(shè)空間可能不包含真正的目標(biāo)函數(shù),而集合可以給出一些很好的近似值。例如,眾所周知,決策樹的分類邊界是與坐標(biāo)軸平行的線段。如果目標(biāo)分類邊界是一條光滑的對角線,則使用單個(gè)決策樹不能產(chǎn)生良好的結(jié)果,但通過組合一組決策樹可以實(shí)現(xiàn)良好的近似。——Dietterich
為什么集合優(yōu)于單個(gè)第一個(gè)原因是,訓(xùn)練數(shù)據(jù)可能無法提供足夠的信77
模型平均如何奏效:不同模型不會在測試集上產(chǎn)生完全相同的誤差。
模型平均如何奏效:不同模型不會在測試集上產(chǎn)生完全相同的誤差78bagging(裝袋)方法Bagging是一種允許重復(fù)多次使用同一種模型、訓(xùn)練算法和目標(biāo)函數(shù)的方法。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;對訓(xùn)練過的分類器進(jìn)行投票,將測試樣本指派到得票最高的類中。②每個(gè)自助樣本集都和原數(shù)據(jù)一樣大③有放回抽樣,一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次,一些可能被忽略。(每個(gè)數(shù)據(jù)集包含原始數(shù)據(jù)2/3的實(shí)例)bagging(裝袋)方法79算法步驟:1.從數(shù)據(jù)集S中取樣(放回選樣),總共執(zhí)行t次2.針對每一次取樣訓(xùn)練得到得到t個(gè)模型H1…Ht3.如果是分類算法,則t個(gè)模型投出最多票數(shù)的類別或者類別之一為最終類別;如果是回歸算法,t個(gè)模型得到的回歸結(jié)果進(jìn)行算術(shù)平均得到的值為最終的模型輸出。
算法步驟:1.從數(shù)據(jù)集S中取樣(放回選樣),總共執(zhí)行t次80深學(xué)習(xí)備課課件81模型平均是減少泛化誤差非常強(qiáng)大可靠的方法,可以適用于任何機(jī)器學(xué)習(xí)算法中,但是以增加計(jì)算和儲存為代價(jià)。Bagging可以視為比較傳統(tǒng)的集成學(xué)習(xí)思路?,F(xiàn)在常用的RandomForest,GBDT(迭代決策樹),GBRank其實(shí)都是更加精細(xì)化,效果更好的方法。模型平均是減少泛化誤差非常強(qiáng)大可靠的方法,可以適用于任何機(jī)器8212.dropout深度學(xué)習(xí)領(lǐng)域大神Hinton,在2012年文獻(xiàn):《Improvingneuralnetworksbypreventing
co-adaptationoffeaturedetectors》提出了,在每次訓(xùn)練的時(shí)候,讓一部分的特征檢測器停止工作,這樣可以提高網(wǎng)絡(luò)的泛化能力,Hinton又把它稱之為dropout。Hinton認(rèn)為過擬合,可以通過阻止某些特征的協(xié)同作用來緩解。在每次訓(xùn)練的時(shí)候,每個(gè)神經(jīng)元有一定的概率被移除,這樣可以讓一個(gè)神經(jīng)元的出現(xiàn)不應(yīng)該依賴于另外一個(gè)神經(jīng)元。12.dropout深度學(xué)習(xí)領(lǐng)域大神Hinton,在20128312.dropout模型訓(xùn)練時(shí),在一次循環(huán)中我們先隨機(jī)選擇神經(jīng)層中的一些單元并將其臨時(shí)隱藏,然后再進(jìn)行該次循環(huán)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化過程。在下一次循環(huán)中,我們又將隱藏另外一些神經(jīng)元,如此直至訓(xùn)練結(jié)束。Dropout訓(xùn)練的集成包括所有從基礎(chǔ)網(wǎng)絡(luò)除去神經(jīng)元(非輸出單元)后形成的子網(wǎng)絡(luò)。只需要將一些單元的輸出乘零就能有效的刪除(暫時(shí)地)一個(gè)單元。假如基本網(wǎng)絡(luò)有n個(gè)非輸出神經(jīng)元,那么就有2^n個(gè)子網(wǎng)絡(luò)。12.dropout模型訓(xùn)練時(shí),在一次循環(huán)中我們先隨機(jī)選擇神84從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類:為何對抗樣本能產(chǎn)生很大的作用:一個(gè)推廣的方法叫做迭代梯度法,就是對剛才的過程進(jìn)行多次重復(fù)。Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.也就是說,h是x的一個(gè)函數(shù),在某種意義上表示存在于x中的信息,但只是用一個(gè)稀疏向量表示。第一種策略是再次初始化模型,利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*,重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。例如,即使存在唯一的最佳假設(shè),也可能難以實(shí)現(xiàn),因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。原空間中的樣本分布可能及其扭曲,平鋪之后將更有利于樣本之間的距離度量,其距離將能更好地反映兩個(gè)樣本之間的相似性。第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。(“三個(gè)臭皮匠頂個(gè)諸葛亮”)②松弛算法,比如迭代加權(quán)最小二乘(Iterative-Reweighed-Least-Squares,IRLS)、基追蹤(BP)等。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大,我們并不會馬上終止測試,而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試,如果測試誤差依舊沒有減小,那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;在這種情況下,可以說他的作用和L1和L2范式正則化是相同的。(松弛算法是精度高,但速度慢)Onlinedictionarylearningforsparsecoding,ICML09&JMLR10對訓(xùn)練過的分類器進(jìn)行投票,將測試樣本指派到得票最高的類中。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;Bagging和Dropout的目的是一樣的,都是為了防止模型過擬合。例如,可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。只需要將一些單元的輸出乘零就能有效的刪除(暫時(shí)地)一個(gè)單元。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。然后,將基礎(chǔ)學(xué)習(xí)器結(jié)合使用,其中最流行的組合方案是用于分類的多數(shù)投票和用于回歸的加權(quán)平均。第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.字典學(xué)習(xí)的最簡單形式為:(松弛算法是精度高,但速度慢)修改訓(xùn)練樣本:通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊,但這更像是一種無奈的做法,當(dāng)擴(kuò)大樣本集的時(shí)候,其實(shí)分類邊界有可能也在隨之?dāng)U大。其中p是Bernoulli分布(0-1分布)中值為1的概率。的解釋是:這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。efficientsparsecodingalgorithmNIPS06;這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。修改訓(xùn)練網(wǎng)絡(luò):這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整,其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù),但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。深度學(xué)習(xí)領(lǐng)域大神Hinton,在2012年文獻(xiàn):《Improvingneuralnetworksbypreventing
co-adaptationoffeaturedetectors》提出了,在每次訓(xùn)練的時(shí)候,讓一部分的特征檢測器停止工作,這樣可以提高網(wǎng)絡(luò)的泛化能力,Hinton又把它稱之為dropout。如果我們只要返回使驗(yàn)證誤差最低的參數(shù),就可以獲得驗(yàn)證集誤差更低的模型。例如,即使存在唯一的最佳假設(shè),也可能難以實(shí)現(xiàn),因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。Dropout與Bagging對比第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。首先我們要保存好現(xiàn)在的模型(網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值),訓(xùn)練num_batch次(即一個(gè)epoch),得到新的模型。從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類:在這種情況下,可以說他的作用和L1和L2范式正則化是相同的。Dropout說的簡單一點(diǎn)就是我們讓在前向傳導(dǎo)的時(shí)候,讓某個(gè)神經(jīng)元的激活值以一定的概率p,讓其停止工作,示意圖如下:從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類85深學(xué)習(xí)備課課件86在訓(xùn)練時(shí),每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為1-p);在測試階段,每個(gè)神經(jīng)單元都是存在的,權(quán)重參數(shù)w要乘以p,成為:pw。測試時(shí)需要乘上p的原因:考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x,那么dropout之后的期望值是E=px+(1?p)0=px,在測試時(shí)該神經(jīng)元總是激活,為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果,需要調(diào)整x→px.其中p是Bernoulli分布(0-1分布)中值為1的概率。在訓(xùn)練時(shí),每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為87Left:Aunitattrainingtimethatispresentwithprobabilitypandisconnectedtounitsinthenextlayerwithweightsw.Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.Theoutputattesttimeissameastheexpectedoutputattrainingtime.深學(xué)習(xí)備課課件88通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段,而測試階段與不使用dropout時(shí)相同,稱為
inverteddropout
:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p在架構(gòu)中添加invertedDropout這一改動僅會影響訓(xùn)練過程,而并不影響測試過程。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的89深學(xué)習(xí)備課課件90ModelDescriptionModelDescription91有Dropout的神經(jīng)網(wǎng)絡(luò)上面公式中Bernoulli函數(shù),是為了以概率p,隨機(jī)生成一個(gè)0、1的向量。沒有Dropout的神經(jīng)網(wǎng)絡(luò)有Dropout的神經(jīng)網(wǎng)絡(luò)上面公式中Bernoulli函數(shù),92Dropout如何具有正則化效果:ImageNetClassificationwithDeepConvolutionalNeuralNetworks,byAlexKrizhevsky,IlyaSutskever,andGeoffreyHinton(2012).的解釋是:這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。因?yàn)橐粋€(gè)神經(jīng)元不能依賴其他特定的神經(jīng)元。因此,不得不去學(xué)習(xí)隨機(jī)子集神經(jīng)元間的魯棒性的有用連接。換句話說。想象我們的神經(jīng)元作為要給預(yù)測的模型,dropout是一種方式可以確保我們的模型在丟失一個(gè)個(gè)體線索的情況下保持健壯的模型。在這種情況下,可以說他的作用和L1和L2范式正則化是相同的。都是來減少權(quán)重連接,然后增加網(wǎng)絡(luò)模型在缺失個(gè)體連接信息情況下的魯棒性。Dropout如何具有正則化效果:ImageNetClas93Dropout是通過隨機(jī)行為訓(xùn)練網(wǎng)絡(luò)并平均多個(gè)隨機(jī)過程決定進(jìn)行預(yù)測,實(shí)現(xiàn)了一種參數(shù)共享的bagging。Dropout與Bagging對比Bagging和Dropout的目的是一樣的,都是為了防止模型過擬合。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本,然后對該樣本進(jìn)行訓(xùn)練。多次反復(fù)后,對最后的結(jié)果取均值。Dropout是在構(gòu)建神經(jīng)網(wǎng)絡(luò)的時(shí)候,隨機(jī)的丟掉一些節(jié)點(diǎn)和邊,這就是相當(dāng)于對特征進(jìn)行了隨機(jī)選擇。Bagging情況下每個(gè)模型都是獨(dú)立的;Dropout情況下,所有模型共享參數(shù),其中每個(gè)模型繼承父神經(jīng)網(wǎng)絡(luò)參數(shù)的不同子集。Dropout是通過隨機(jī)行為訓(xùn)練網(wǎng)絡(luò)并平均多個(gè)隨機(jī)過程決定進(jìn)94深學(xué)習(xí)備課課件95《Improvingneuralnetworksbypreventingco-adaptationoffeatureDetectors》《Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting》——NitishSrivastava、GeoffreyHinton、uAlex、Ilya、RuslanSalakhutdinov《Improvingneuralnetworksby9613.對抗訓(xùn)練對抗樣本是指對原樣本產(chǎn)生一些微小的擾動(甚至人眼都可能無法察覺),然而分類器卻產(chǎn)生了完全不一樣的結(jié)果,甚至以高置信度錯誤分類。13.對抗訓(xùn)練對抗樣本是指對原樣本產(chǎn)生一些微小的擾動(甚至人97為何對抗樣本能產(chǎn)生很大的作用:
為何對抗樣本能產(chǎn)生很大的作用:
98Szegedy的文章《Intriguingpropertiesofneuralnetworks》表明將對抗樣本和普通樣本一起給模型訓(xùn)練能夠使模型正則化。訓(xùn)練對抗樣本和普通的數(shù)據(jù)增加不一樣:
通常我們通過對數(shù)據(jù)進(jìn)行變形來增加數(shù)據(jù),這樣變形后的數(shù)據(jù)是可能出現(xiàn)在測試集里的。而對抗樣本這種數(shù)據(jù)通常不可能自然地出現(xiàn)在測試集中,但是它們可以揭露出模型的缺陷。Szegedy的文章《Intriguingproperti99①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣(有放回)每個(gè)抽樣生成的自助樣本集上,訓(xùn)練一個(gè)基分類器;多次反復(fù)后,對最后的結(jié)果取均值。Dropout訓(xùn)練的集成包括所有從基礎(chǔ)網(wǎng)絡(luò)除去神經(jīng)元(非輸出單元)后形成的子網(wǎng)絡(luò)。在每次訓(xùn)練的時(shí)候,每個(gè)神經(jīng)元有一定的概率被移除,這樣可以讓一個(gè)神經(jīng)元的出現(xiàn)不應(yīng)該依賴于另外一個(gè)神經(jīng)元。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本,然后對該樣本進(jìn)行訓(xùn)練。對訓(xùn)練過的分類器進(jìn)行投票,將測試樣本指派到得票最高的類中。修改訓(xùn)練樣本:通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊,但這更像是一種無奈的做法,當(dāng)擴(kuò)大樣本集的時(shí)候,其實(shí)分類邊界有可能也在隨之?dāng)U大。一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,輸入給神經(jīng)網(wǎng)絡(luò),得到預(yù)測結(jié)果,然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。Bagging和Dropout的目的是一樣的,都是為了防止模型過擬合。例如,可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。采用該策略的技術(shù)被稱為集成方法,廣泛用于分類和回歸任務(wù)。第一種策略是再次初始化模型,利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*,重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段,而測試階段與不使用dropout時(shí)相同,稱為
inverteddropout
:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。(松弛算法是精度高,但速度慢)修改訓(xùn)練網(wǎng)絡(luò):這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整,其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù),但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。由于提前終止需要驗(yàn)證集,這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型,因此為了更好的利用數(shù)據(jù),有兩種解決策略。bagging(裝袋)方法每條曲線表示不同類別的流形,繪制的單點(diǎn)的切向量與法向量,我們希望分類函數(shù)在垂直于流形方向上快速改變,并且在類別流形的方向上保持不變。從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類:用盡可能少的資源表示盡可能多的知識,這種表示還能帶來一個(gè)附加的好處,即計(jì)算速度快。如何生成這些對抗樣本?一種最簡單的攻擊方法叫做快速梯度法(見右圖),給定一張圖像,輸入給神經(jīng)網(wǎng)絡(luò),得到預(yù)測結(jié)果,然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。一個(gè)推廣的方法叫做迭代梯度法,就是對剛才的過程進(jìn)行多次重復(fù)。這種攻擊稱作白盒攻擊,因?yàn)榧僭O(shè)攻擊者已經(jīng)知道了要被攻擊的模型的所有細(xì)節(jié)。而與之相對的就是黑盒攻擊,顧名思義,攻擊者事先不知道要攻擊網(wǎng)絡(luò)的模型和具體細(xì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能門禁系統(tǒng)與訪客管理系統(tǒng)集成合同4篇
- 二零二五年度新材料研發(fā)項(xiàng)目擔(dān)保合同范本
- 2025版模具檢測與認(rèn)證購銷合同4篇
- 2025年度農(nóng)機(jī)租賃服務(wù)與維修保障合同4篇
- 二零二五年度會議中心場地租賃合同示范文本4篇
- 二零二五年度塔吊司機(jī)勞動合同(安全責(zé)任書)
- 2025年度農(nóng)業(yè)生態(tài)保護(hù)補(bǔ)償機(jī)制合同范本2篇
- 2025年度鋼材國際貿(mào)易關(guān)稅減免申請合同
- 2025年度摩托車改裝件銷售及安裝服務(wù)合同7篇
- 二零二五年度幼兒托管班安全管理服務(wù)合同下載2篇
- GB/T 12723-2024單位產(chǎn)品能源消耗限額編制通則
- GB/T 16288-2024塑料制品的標(biāo)志
- 麻風(fēng)病防治知識課件
- 干部職級晉升積分制管理辦法
- TSG ZF003-2011《爆破片裝置安全技術(shù)監(jiān)察規(guī)程》
- 2024年代理記賬工作總結(jié)6篇
- 電氣工程預(yù)算實(shí)例:清單與計(jì)價(jià)樣本
- VOC廢氣治理工程中電化學(xué)氧化技術(shù)的研究與應(yīng)用
- 煤礦機(jī)電設(shè)備培訓(xùn)課件
- 高考寫作指導(dǎo)議論文標(biāo)準(zhǔn)語段寫作課件32張
- 2021年普通高等學(xué)校招生全國英語統(tǒng)一考試模擬演練八省聯(lián)考解析
評論
0/150
提交評論