深學(xué)習(xí)備課課件

上傳人：l*** IP屬地：貴州上傳時(shí)間：2022-12-20 格式：PPTX 頁數(shù)：96 大小：5.26MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩91頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

提前終止的目的是為了防止過擬合，從右側(cè)學(xué)習(xí)曲線中可以看出，測試誤差在前幾個(gè)epoch中逐漸減小，但是訓(xùn)練到某個(gè)epoch后，測試誤差又有了小幅度的增大。這說明此時(shí)發(fā)生了過擬合。

如果我們只要返回使驗(yàn)證誤差最低的參數(shù)，就可以獲得驗(yàn)證集誤差更低的模型。提前終止的目的是為了防止過擬合，從右側(cè)學(xué)習(xí)曲線1提前終止：在測試誤差開始上升之前，就停止訓(xùn)練,即使此時(shí)訓(xùn)練尚未收斂(即訓(xùn)練誤差未達(dá)到最小值)。

首先我們要保存好現(xiàn)在的模型(網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值),訓(xùn)練num_batch次(即一個(gè)epoch)，得到新的模型。將測試集作為新模型的輸入,進(jìn)行測試。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大，我們并不會馬上終止測試，而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試，如果測試誤差依舊沒有減小，那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。提前終止：在測試誤差開始上升之前，就停止訓(xùn)練,即使此時(shí)訓(xùn)練尚2深學(xué)習(xí)備課課件3由于提前終止需要驗(yàn)證集，這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型，因此為了更好的利用數(shù)據(jù)，有兩種解決策略。第一種策略是再次初始化模型，利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*，重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。第二種策略是將第一輪提前終止時(shí)的損失函數(shù)作為參考目標(biāo)值，用全部數(shù)據(jù)進(jìn)行第二輪提前終止，直到驗(yàn)證集的平均損失函數(shù)低于參考目標(biāo)值。（不能保證終止）由于提前終止需要驗(yàn)證集，這意味著某些訓(xùn)練數(shù)據(jù)4提前終止相當(dāng)于L^2正則化提前終止相當(dāng)于L^2正則化5深學(xué)習(xí)備課課件6

7切面距離(tangentdistance)算法：是一種非參數(shù)的最近鄰算法，其中使用的度量不是通用的歐幾里得距離，而是根據(jù)鄰近流行關(guān)于聚集概率的知識導(dǎo)出的。測試時(shí)需要乘上p的原因：考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x，那么dropout之后的期望值是E=px+(1?p)0=px，在測試時(shí)該神經(jīng)元總是激活，為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果，需要調(diào)整x→px.——Dietterich多次反復(fù)后，對最后的結(jié)果取均值。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大，我們并不會馬上終止測試，而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試，如果測試誤差依舊沒有減小，那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，輸入給神經(jīng)網(wǎng)絡(luò)，得到預(yù)測結(jié)果，然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。efficientsparsecodingalgorithmNIPS06;Bagging和Dropout的目的是一樣的，都是為了防止模型過擬合?！禝mprovingneuralnetworksbypreventingco-adaptationoffeatureDetectors》Left:Aunitattrainingtimethatispresentwithprobabilitypandisconnectedtounitsinthenextlayerwithweightsw.Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。測試時(shí)需要乘上p的原因：考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x，那么dropout之后的期望值是E=px+(1?p)0=px，在測試時(shí)該神經(jīng)元總是激活，為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果，需要調(diào)整x→px.沒有Dropout的神經(jīng)網(wǎng)絡(luò)①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。Dropout如何具有正則化效果：14切面距離、正切傳播和流行正切分類器字典學(xué)習(xí)的最簡單形式為：模型訓(xùn)練時(shí)，在一次循環(huán)中我們先隨機(jī)選擇神經(jīng)層中的一些單元并將其臨時(shí)隱藏，然后再進(jìn)行該次循環(huán)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化過程。提前終止的優(yōu)點(diǎn)：由于限制了訓(xùn)練迭代次數(shù)，減少訓(xùn)練時(shí)的計(jì)算成本。具有正則化效果而不需要添加懲罰項(xiàng)或計(jì)算其梯度。切面距離(tangentdistance)算法：是一種非參89.參數(shù)綁定與參數(shù)共享目前討論對參數(shù)添加約束或懲罰的時(shí)候，一直是相對于固定的區(qū)域或點(diǎn)。例如L^2正則化對參數(shù)偏離零的固定值進(jìn)行懲罰。根據(jù)相關(guān)領(lǐng)域和模型結(jié)構(gòu)方面的知識，得知模型參數(shù)之間應(yīng)該存在一些相關(guān)性，需要對模型參數(shù)之間的相關(guān)性進(jìn)行懲罰，使模型參數(shù)盡量接近或者強(qiáng)迫某些參數(shù)相等。舉例：9.參數(shù)綁定與參數(shù)共享目前討論對參數(shù)添加約束或懲罰的時(shí)候，一9參數(shù)共享：強(qiáng)迫模型某些參數(shù)相等主要應(yīng)用：卷積神經(jīng)網(wǎng)絡(luò)（CNN）（9章會詳細(xì)介紹）舉例：貓的照片向右邊移動了一個(gè)像素仍然能探測出貓。優(yōu)點(diǎn)：顯著降低了卷積神經(jīng)網(wǎng)絡(luò)CNN的參數(shù)個(gè)數(shù)（CNN模型的參數(shù)通常是千萬量級以上），減少模型占用的內(nèi)存，并且顯著的增加了網(wǎng)絡(luò)的大小而不需要增加訓(xùn)練數(shù)據(jù)。參數(shù)共享：強(qiáng)迫模型某些參數(shù)相等1010.稀疏表示稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。前文所述的權(quán)重衰減直接懲罰模型參數(shù)，如L^1正則化會誘導(dǎo)稀疏參數(shù)，使得許多參數(shù)為0，而稀疏表示是懲罰神經(jīng)網(wǎng)絡(luò)中的激活單元，稀疏化激活單元。換言之，稀疏表示的是得神經(jīng)元的輸入單元變得稀疏，很多輸入是0.10.稀疏表示稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。11第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。

第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。

也就是說，h是x的一個(gè)函數(shù)，在某種意義上表示存在于x中的信息，但只是用一個(gè)稀疏向量表示。

第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。

第二個(gè)表達(dá)式12字典學(xué)習(xí)：假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X，每一行代表一個(gè)樣本，每一列代表樣本的一個(gè)特征，一般而言，該矩陣是稠密的，即大多數(shù)元素不為0。

稀疏表示的含義是，尋找一個(gè)系數(shù)矩陣A（k*n）以及一個(gè)字典矩陣B（m*k），使得B*A盡可能的還原X，且A盡可能的稀疏。A便是X的稀疏表示。字典學(xué)習(xí)：假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X，每一行代表13“為普通稠密表達(dá)的樣本找到合適的字典，將樣本轉(zhuǎn)化為合適的稀疏表達(dá)形式，從而使學(xué)習(xí)任務(wù)得以簡化，模型復(fù)雜度得以降低，通常稱為‘字典學(xué)習(xí)’”字典學(xué)習(xí)的最簡單形式為：其中xi為第i個(gè)樣本，B為字典矩陣，alphai為xi的稀疏表示，lambda為大于0參數(shù)。

上式中第一個(gè)累加項(xiàng)說明了字典學(xué)習(xí)的第一個(gè)目標(biāo)是字典矩陣與稀疏表示的線性組合盡可能的還原樣本；第二個(gè)累加項(xiàng)說明了alphai應(yīng)該盡可能的稀疏。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解?！盀槠胀ǔ砻鼙磉_(dá)的樣本找到合適的字典，將樣本轉(zhuǎn)化為合14如何獲得表示稀疏從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類：①貪婪算法，比如匹配追蹤（MP）、正交匹配追蹤（OMP）、弱匹配追蹤（WMP）、閾值方法等；（速度快，精度相對較低）②松弛算法，比如迭代加權(quán)最小二乘（Iterative-Reweighed-Least-Squares，IRLS）、基追蹤（BP）等。（松弛算法是精度高，但速度慢）如何獲得表示稀疏從任意一個(gè)字典中為原始信號尋找最稀疏的表示常15匹配追蹤（Matchingpursuit)

匹配追蹤（Matchingpursuit)

16如何建立這個(gè)詞典DefficientsparsecodingalgorithmNIPS06;K-SVDtsp06;Onlinedictionarylearningforsparsecoding,ICML09&JMLR10

如何建立這個(gè)詞典Defficientsparsecodin17字典學(xué)習(xí)的好處它實(shí)質(zhì)上是對于龐大數(shù)據(jù)集的一種降維表示；第二，字典學(xué)習(xí)總是嘗試學(xué)習(xí)蘊(yùn)藏在樣本背后最質(zhì)樸的特征。稀疏表示的本質(zhì)：用盡可能少的資源表示盡可能多的知識，這種表示還能帶來一個(gè)附加的好處，即計(jì)算速度快。字典學(xué)習(xí)的好處18一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，輸入給神經(jīng)網(wǎng)絡(luò)，得到預(yù)測結(jié)果，然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。通常情況下，集合是分兩步構(gòu)建的。在訓(xùn)練時(shí)，每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為1-p)；Bagging可以視為比較傳統(tǒng)的集成學(xué)習(xí)思路。對訓(xùn)練過的分類器進(jìn)行投票，將測試樣本指派到得票最高的類中。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。的解釋是：這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。模型平均是減少泛化誤差非常強(qiáng)大可靠的方法，可以適用于任何機(jī)器學(xué)習(xí)算法中，但是以增加計(jì)算和儲存為代價(jià)。③有放回抽樣，一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次，一些可能被忽略。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。如果我們只要返回使驗(yàn)證誤差最低的參數(shù)，就可以獲得驗(yàn)證集誤差更低的模型。原空間中相鄰比較近的點(diǎn)可能不是同一類點(diǎn)，而相鄰較遠(yuǎn)的點(diǎn)還有可能是同一類，“平鋪”至低維空間后就能解決這一問題。Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。用盡可能少的資源表示盡可能多的知識，這種表示還能帶來一個(gè)附加的好處，即計(jì)算速度快。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。修改訓(xùn)練網(wǎng)絡(luò)的方法分為完全抵抗和僅檢測兩種方式，完全抵抗其實(shí)就是讓模型能將對抗樣本識別為正確的分類，而僅檢測是為了發(fā)現(xiàn)這種攻擊樣本，從而拒絕服務(wù)。②松弛算法，比如迭代加權(quán)最小二乘（Iterative-Reweighed-Least-Squares，IRLS）、基追蹤（BP）等。每條曲線表示不同類別的流形，繪制的單點(diǎn)的切向量與法向量，我們希望分類函數(shù)在垂直于流形方向上快速改變，并且在類別流形的方向上保持不變。例如，即使存在唯一的最佳假設(shè)，也可能難以實(shí)現(xiàn)，因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。③有放回抽樣，一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次，一些可能被忽略。11.Bagging算法Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)?；舅枷耄簩τ谝粋€(gè)復(fù)雜的學(xué)習(xí)任務(wù)，我們首先構(gòu)造多個(gè)簡單的學(xué)習(xí)模型，然后再把這些簡單模型組合成一個(gè)高效的學(xué)習(xí)模型。（“三個(gè)臭皮匠頂個(gè)諸葛亮”）采用該策略的技術(shù)被稱為集成方法，廣泛用于分類和回歸任務(wù)。不同集成方法以不同方式構(gòu)建集成模型。例如每個(gè)成員可以使用不同算法和目標(biāo)函數(shù)訓(xùn)練成完全不同的模型。一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，19大多數(shù)集成方法使用單一的基本學(xué)習(xí)算法來生成均勻基礎(chǔ)學(xué)習(xí)器，但也有一些方法使用多種學(xué)習(xí)算法來生成異構(gòu)學(xué)習(xí)器。通常情況下，集合是分兩步構(gòu)建的。首先，生成許多基礎(chǔ)學(xué)習(xí)器，這些基礎(chǔ)學(xué)習(xí)器可以以并行樣式或序列樣式生成，序列樣式即基礎(chǔ)學(xué)習(xí)器的生成影響后續(xù)學(xué)習(xí)器的生成。然后，將基礎(chǔ)學(xué)習(xí)器結(jié)合使用，其中最流行的組合方案是用于分類的多數(shù)投票和用于回歸的加權(quán)平均。大多數(shù)集成方法使用單一的基本學(xué)習(xí)算法來生成均勻基礎(chǔ)學(xué)習(xí)器，但20為什么集合優(yōu)于單個(gè)第一個(gè)原因是，訓(xùn)練數(shù)據(jù)可能無法提供足夠的信息來選擇單一的最佳學(xué)習(xí)器。例如，可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。因此，結(jié)合這些學(xué)習(xí)器可能是更好的選擇。第二個(gè)原因是，學(xué)習(xí)算法的搜索過程可能不完善。例如，即使存在唯一的最佳假設(shè)，也可能難以實(shí)現(xiàn)，因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。因此，集合可以彌補(bǔ)這種不完善的搜索過程。第三個(gè)原因是，被搜索的假設(shè)空間可能不包含真正的目標(biāo)函數(shù)，而集合可以給出一些很好的近似值。例如，眾所周知，決策樹的分類邊界是與坐標(biāo)軸平行的線段。如果目標(biāo)分類邊界是一條光滑的對角線，則使用單個(gè)決策樹不能產(chǎn)生良好的結(jié)果，但通過組合一組決策樹可以實(shí)現(xiàn)良好的近似?！狣ietterich

為什么集合優(yōu)于單個(gè)第一個(gè)原因是，訓(xùn)練數(shù)據(jù)可能無法提供足夠的信21

模型平均如何奏效：不同模型不會在測試集上產(chǎn)生完全相同的誤差。

模型平均如何奏效：不同模型不會在測試集上產(chǎn)生完全相同的誤差22bagging（裝袋）方法Bagging是一種允許重復(fù)多次使用同一種模型、訓(xùn)練算法和目標(biāo)函數(shù)的方法。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；對訓(xùn)練過的分類器進(jìn)行投票，將測試樣本指派到得票最高的類中。②每個(gè)自助樣本集都和原數(shù)據(jù)一樣大③有放回抽樣，一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次，一些可能被忽略。（每個(gè)數(shù)據(jù)集包含原始數(shù)據(jù)2/3的實(shí)例）bagging（裝袋）方法23算法步驟：1.從數(shù)據(jù)集S中取樣（放回選樣），總共執(zhí)行t次2.針對每一次取樣訓(xùn)練得到得到t個(gè)模型H1…Ht3.如果是分類算法，則t個(gè)模型投出最多票數(shù)的類別或者類別之一為最終類別；如果是回歸算法，t個(gè)模型得到的回歸結(jié)果進(jìn)行算術(shù)平均得到的值為最終的模型輸出。

算法步驟：1.從數(shù)據(jù)集S中取樣（放回選樣），總共執(zhí)行t次24深學(xué)習(xí)備課課件25模型平均是減少泛化誤差非常強(qiáng)大可靠的方法，可以適用于任何機(jī)器學(xué)習(xí)算法中，但是以增加計(jì)算和儲存為代價(jià)。Bagging可以視為比較傳統(tǒng)的集成學(xué)習(xí)思路?，F(xiàn)在常用的RandomForest，GBDT（迭代決策樹），GBRank其實(shí)都是更加精細(xì)化，效果更好的方法。模型平均是減少泛化誤差非常強(qiáng)大可靠的方法，可以適用于任何機(jī)器2612.dropout深度學(xué)習(xí)領(lǐng)域大神Hinton，在2012年文獻(xiàn)：《Improvingneuralnetworksbypreventing

co-adaptationoffeaturedetectors》提出了，在每次訓(xùn)練的時(shí)候，讓一部分的特征檢測器停止工作，這樣可以提高網(wǎng)絡(luò)的泛化能力，Hinton又把它稱之為dropout。Hinton認(rèn)為過擬合，可以通過阻止某些特征的協(xié)同作用來緩解。在每次訓(xùn)練的時(shí)候，每個(gè)神經(jīng)元有一定的概率被移除，這樣可以讓一個(gè)神經(jīng)元的出現(xiàn)不應(yīng)該依賴于另外一個(gè)神經(jīng)元。12.dropout深度學(xué)習(xí)領(lǐng)域大神Hinton，在20122712.dropout模型訓(xùn)練時(shí)，在一次循環(huán)中我們先隨機(jī)選擇神經(jīng)層中的一些單元并將其臨時(shí)隱藏，然后再進(jìn)行該次循環(huán)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化過程。在下一次循環(huán)中，我們又將隱藏另外一些神經(jīng)元，如此直至訓(xùn)練結(jié)束。Dropout訓(xùn)練的集成包括所有從基礎(chǔ)網(wǎng)絡(luò)除去神經(jīng)元（非輸出單元）后形成的子網(wǎng)絡(luò)。只需要將一些單元的輸出乘零就能有效的刪除（暫時(shí)地）一個(gè)單元。假如基本網(wǎng)絡(luò)有n個(gè)非輸出神經(jīng)元，那么就有2^n個(gè)子網(wǎng)絡(luò)。12.dropout模型訓(xùn)練時(shí)，在一次循環(huán)中我們先隨機(jī)選擇神28從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類：為何對抗樣本能產(chǎn)生很大的作用：一個(gè)推廣的方法叫做迭代梯度法，就是對剛才的過程進(jìn)行多次重復(fù)。Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.也就是說，h是x的一個(gè)函數(shù)，在某種意義上表示存在于x中的信息，但只是用一個(gè)稀疏向量表示。第一種策略是再次初始化模型，利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*，重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。例如，即使存在唯一的最佳假設(shè)，也可能難以實(shí)現(xiàn)，因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。原空間中的樣本分布可能及其扭曲，平鋪之后將更有利于樣本之間的距離度量，其距離將能更好地反映兩個(gè)樣本之間的相似性。第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。（“三個(gè)臭皮匠頂個(gè)諸葛亮”）②松弛算法，比如迭代加權(quán)最小二乘（Iterative-Reweighed-Least-Squares，IRLS）、基追蹤（BP）等。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大，我們并不會馬上終止測試，而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試，如果測試誤差依舊沒有減小，那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；在這種情況下，可以說他的作用和L1和L2范式正則化是相同的。（松弛算法是精度高，但速度慢）Onlinedictionarylearningforsparsecoding,ICML09&JMLR10對訓(xùn)練過的分類器進(jìn)行投票，將測試樣本指派到得票最高的類中。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；Bagging和Dropout的目的是一樣的，都是為了防止模型過擬合。例如，可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。只需要將一些單元的輸出乘零就能有效的刪除（暫時(shí)地）一個(gè)單元。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。然后，將基礎(chǔ)學(xué)習(xí)器結(jié)合使用，其中最流行的組合方案是用于分類的多數(shù)投票和用于回歸的加權(quán)平均。第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.字典學(xué)習(xí)的最簡單形式為：（松弛算法是精度高，但速度慢）修改訓(xùn)練樣本：通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊，但這更像是一種無奈的做法，當(dāng)擴(kuò)大樣本集的時(shí)候，其實(shí)分類邊界有可能也在隨之?dāng)U大。其中p是Bernoulli分布（0-1分布）中值為1的概率。的解釋是：這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。efficientsparsecodingalgorithmNIPS06;這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。修改訓(xùn)練網(wǎng)絡(luò)：這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整，其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù)，但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。深度學(xué)習(xí)領(lǐng)域大神Hinton，在2012年文獻(xiàn)：《Improvingneuralnetworksbypreventing

co-adaptationoffeaturedetectors》提出了，在每次訓(xùn)練的時(shí)候，讓一部分的特征檢測器停止工作，這樣可以提高網(wǎng)絡(luò)的泛化能力，Hinton又把它稱之為dropout。如果我們只要返回使驗(yàn)證誤差最低的參數(shù)，就可以獲得驗(yàn)證集誤差更低的模型。例如，即使存在唯一的最佳假設(shè)，也可能難以實(shí)現(xiàn)，因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。Dropout與Bagging對比第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。首先我們要保存好現(xiàn)在的模型(網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值),訓(xùn)練num_batch次(即一個(gè)epoch)，得到新的模型。從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類：在這種情況下，可以說他的作用和L1和L2范式正則化是相同的。Dropout說的簡單一點(diǎn)就是我們讓在前向傳導(dǎo)的時(shí)候，讓某個(gè)神經(jīng)元的激活值以一定的概率p，讓其停止工作，示意圖如下：從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類29深學(xué)習(xí)備課課件30在訓(xùn)練時(shí)，每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為1-p)；在測試階段，每個(gè)神經(jīng)單元都是存在的，權(quán)重參數(shù)w要乘以p，成為：pw。測試時(shí)需要乘上p的原因：考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x，那么dropout之后的期望值是E=px+(1?p)0=px，在測試時(shí)該神經(jīng)元總是激活，為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果，需要調(diào)整x→px.其中p是Bernoulli分布（0-1分布）中值為1的概率。在訓(xùn)練時(shí)，每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為31Left:Aunitattrainingtimethatispresentwithprobabilitypandisconnectedtounitsinthenextlayerwithweightsw.Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.Theoutputattesttimeissameastheexpectedoutputattrainingtime.深學(xué)習(xí)備課課件32通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段，而測試階段與不使用dropout時(shí)相同,稱為

inverteddropout

:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p在架構(gòu)中添加invertedDropout這一改動僅會影響訓(xùn)練過程，而并不影響測試過程。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的33深學(xué)習(xí)備課課件34ModelDescriptionModelDescription35有Dropout的神經(jīng)網(wǎng)絡(luò)上面公式中Bernoulli函數(shù)，是為了以概率p，隨機(jī)生成一個(gè)0、1的向量。沒有Dropout的神經(jīng)網(wǎng)絡(luò)有Dropout的神經(jīng)網(wǎng)絡(luò)上面公式中Bernoulli函數(shù)，36Dropout如何具有正則化效果：ImageNetClassificationwithDeepConvolutionalNeuralNetworks,byAlexKrizhevsky,IlyaSutskever,andGeoffreyHinton(2012).的解釋是：這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。因?yàn)橐粋€(gè)神經(jīng)元不能依賴其他特定的神經(jīng)元。因此，不得不去學(xué)習(xí)隨機(jī)子集神經(jīng)元間的魯棒性的有用連接。換句話說。想象我們的神經(jīng)元作為要給預(yù)測的模型，dropout是一種方式可以確保我們的模型在丟失一個(gè)個(gè)體線索的情況下保持健壯的模型。在這種情況下，可以說他的作用和L1和L2范式正則化是相同的。都是來減少權(quán)重連接，然后增加網(wǎng)絡(luò)模型在缺失個(gè)體連接信息情況下的魯棒性。Dropout如何具有正則化效果：ImageNetClas37Dropout是通過隨機(jī)行為訓(xùn)練網(wǎng)絡(luò)并平均多個(gè)隨機(jī)過程決定進(jìn)行預(yù)測，實(shí)現(xiàn)了一種參數(shù)共享的bagging。Dropout與Bagging對比Bagging和Dropout的目的是一樣的，都是為了防止模型過擬合。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本，然后對該樣本進(jìn)行訓(xùn)練。多次反復(fù)后，對最后的結(jié)果取均值。Dropout是在構(gòu)建神經(jīng)網(wǎng)絡(luò)的時(shí)候，隨機(jī)的丟掉一些節(jié)點(diǎn)和邊，這就是相當(dāng)于對特征進(jìn)行了隨機(jī)選擇。Bagging情況下每個(gè)模型都是獨(dú)立的；Dropout情況下，所有模型共享參數(shù)，其中每個(gè)模型繼承父神經(jīng)網(wǎng)絡(luò)參數(shù)的不同子集。Dropout是通過隨機(jī)行為訓(xùn)練網(wǎng)絡(luò)并平均多個(gè)隨機(jī)過程決定進(jìn)38深學(xué)習(xí)備課課件39《Improvingneuralnetworksbypreventingco-adaptationoffeatureDetectors》《Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting》——NitishSrivastava、GeoffreyHinton、uAlex、Ilya、RuslanSalakhutdinov《Improvingneuralnetworksby4013.對抗訓(xùn)練對抗樣本是指對原樣本產(chǎn)生一些微小的擾動（甚至人眼都可能無法察覺），然而分類器卻產(chǎn)生了完全不一樣的結(jié)果，甚至以高置信度錯誤分類。13.對抗訓(xùn)練對抗樣本是指對原樣本產(chǎn)生一些微小的擾動（甚至人41為何對抗樣本能產(chǎn)生很大的作用：

為何對抗樣本能產(chǎn)生很大的作用：

42Szegedy的文章《Intriguingpropertiesofneuralnetworks》表明將對抗樣本和普通樣本一起給模型訓(xùn)練能夠使模型正則化。訓(xùn)練對抗樣本和普通的數(shù)據(jù)增加不一樣：

通常我們通過對數(shù)據(jù)進(jìn)行變形來增加數(shù)據(jù)，這樣變形后的數(shù)據(jù)是可能出現(xiàn)在測試集里的。而對抗樣本這種數(shù)據(jù)通常不可能自然地出現(xiàn)在測試集中，但是它們可以揭露出模型的缺陷。Szegedy的文章《Intriguingproperti43①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；多次反復(fù)后，對最后的結(jié)果取均值。Dropout訓(xùn)練的集成包括所有從基礎(chǔ)網(wǎng)絡(luò)除去神經(jīng)元（非輸出單元）后形成的子網(wǎng)絡(luò)。在每次訓(xùn)練的時(shí)候，每個(gè)神經(jīng)元有一定的概率被移除，這樣可以讓一個(gè)神經(jīng)元的出現(xiàn)不應(yīng)該依賴于另外一個(gè)神經(jīng)元。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本，然后對該樣本進(jìn)行訓(xùn)練。對訓(xùn)練過的分類器進(jìn)行投票，將測試樣本指派到得票最高的類中。修改訓(xùn)練樣本：通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊，但這更像是一種無奈的做法，當(dāng)擴(kuò)大樣本集的時(shí)候，其實(shí)分類邊界有可能也在隨之?dāng)U大。一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，輸入給神經(jīng)網(wǎng)絡(luò)，得到預(yù)測結(jié)果，然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。Bagging和Dropout的目的是一樣的，都是為了防止模型過擬合。例如，可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。采用該策略的技術(shù)被稱為集成方法，廣泛用于分類和回歸任務(wù)。第一種策略是再次初始化模型，利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*，重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段，而測試階段與不使用dropout時(shí)相同,稱為

inverteddropout

:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。（松弛算法是精度高，但速度慢）修改訓(xùn)練網(wǎng)絡(luò)：這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整，其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù)，但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。由于提前終止需要驗(yàn)證集，這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型，因此為了更好的利用數(shù)據(jù)，有兩種解決策略。bagging（裝袋）方法每條曲線表示不同類別的流形，繪制的單點(diǎn)的切向量與法向量，我們希望分類函數(shù)在垂直于流形方向上快速改變，并且在類別流形的方向上保持不變。從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類：用盡可能少的資源表示盡可能多的知識，這種表示還能帶來一個(gè)附加的好處，即計(jì)算速度快。如何生成這些對抗樣本？一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，輸入給神經(jīng)網(wǎng)絡(luò)，得到預(yù)測結(jié)果，然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。一個(gè)推廣的方法叫做迭代梯度法，就是對剛才的過程進(jìn)行多次重復(fù)。這種攻擊稱作白盒攻擊，因?yàn)榧僭O(shè)攻擊者已經(jīng)知道了要被攻擊的模型的所有細(xì)節(jié)。而與之相對的就是黑盒攻擊，顧名思義，攻擊者事先不知道要攻擊網(wǎng)絡(luò)的模型和具體細(xì)節(jié)。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的44如何防御這些對抗樣本《ThreatofAdversarialAttacksonDeepLearninginComputerVision:ASurvey》修改訓(xùn)練樣本：通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊，但這更像是一種無奈的做法，當(dāng)擴(kuò)大樣本集的時(shí)候，其實(shí)分類邊界有可能也在隨之?dāng)U大。修改訓(xùn)練網(wǎng)絡(luò)：這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整，其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù)，但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。修改訓(xùn)練網(wǎng)絡(luò)的方法分為完全抵抗和僅檢測兩種方式，完全抵抗其實(shí)就是讓模型能將對抗樣本識別為正確的分類，而僅檢測是為了發(fā)現(xiàn)這種攻擊樣本，從而拒絕服務(wù)。附加網(wǎng)絡(luò)：這種方式是在不改變原有模型的情況下使用額外的網(wǎng)絡(luò)進(jìn)行輔助，這樣可以使原有網(wǎng)絡(luò)保持不變，其中最有效的一種方式是生成式對抗網(wǎng)絡(luò)——GAN。同樣的，這種方式也分為完全抵抗和僅檢測兩種方式。如何防御這些對抗樣本《ThreatofAdversari457.14切面距離、正切傳播和流行正切分類器流形學(xué)習(xí)的基本思想是將高維特征空間中的樣本分布群“平鋪”至一個(gè)低維空間，同時(shí)能保存原高維空間中樣本點(diǎn)之間的局部位置相關(guān)信息。原空間中的樣本分布可能及其扭曲，平鋪之后將更有利于樣本之間的距離度量，其距離將能更好地反映兩個(gè)樣本之間的相似性。原空間中相鄰比較近的點(diǎn)可能不是同一類點(diǎn)，而相鄰較遠(yuǎn)的點(diǎn)還有可能是同一類，“平鋪”至低維空間后就能解決這一問題。7.14切面距離、正切傳播和流行正切分類器流形學(xué)習(xí)的基本思46

切面距離(tangentdistance)算法：是一種非參數(shù)的最近鄰算法，其中使用的度量不是通用的歐幾里得距離，而是根據(jù)鄰近流行關(guān)于聚集概率的知識導(dǎo)出的。正切傳播(tangentprop)算法：訓(xùn)練帶有額外懲罰的神經(jīng)網(wǎng)絡(luò)分類器，使神經(jīng)網(wǎng)絡(luò)的每個(gè)輸出f(x)對已知的變化因素是局部不變的。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。

切面距離(tangentdistance)算法：是一種非47每條曲線表示不同類別的流形，繪制的單點(diǎn)的切向量與法向量，我們希望分類函數(shù)在垂直于流形方向上快速改變，并且在類別流形的方向上保持不變。Tangent表示正切方向，Normal表示正交方向。每條曲線表示不同類別的流形，繪制的單點(diǎn)的切向量48深學(xué)習(xí)備課課件49由于提前終止需要驗(yàn)證集，這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型，因此為了更好的利用數(shù)據(jù)，有兩種解決策略。第一種策略是再次初始化模型，利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*，重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。第二種策略是將第一輪提前終止時(shí)的損失函數(shù)作為參考目標(biāo)值，用全部數(shù)據(jù)進(jìn)行第二輪提前終止，直到驗(yàn)證集的平均損失函數(shù)低于參考目標(biāo)值。（不能保證終止）由于提前終止需要驗(yàn)證集，這意味著某些訓(xùn)練數(shù)據(jù)50

51如何建立這個(gè)詞典DefficientsparsecodingalgorithmNIPS06;K-SVDtsp06;Onlinedictionarylearningforsparsecoding,ICML09&JMLR10

如何建立這個(gè)詞典Defficientsparsecodin52深學(xué)習(xí)備課課件53通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段，而測試階段與不使用dropout時(shí)相同,稱為

inverteddropout

:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p在架構(gòu)中添加invertedDropout這一改動僅會影響訓(xùn)練過程，而并不影響測試過程。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的54

切面距離(tangentdistance)算法：是一種非55而與之相對的就是黑盒攻擊，顧名思義，攻擊者事先不知道要攻擊網(wǎng)絡(luò)的模型和具體細(xì)節(jié)。Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。由于提前終止需要驗(yàn)證集，這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型，因此為了更好的利用數(shù)據(jù)，有兩種解決策略。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。正切傳播(tangentprop)算法：訓(xùn)練帶有額外懲罰的神經(jīng)網(wǎng)絡(luò)分類器，使神經(jīng)網(wǎng)絡(luò)的每個(gè)輸出f(x)對已知的變化因素是局部不變的。其中p是Bernoulli分布（0-1分布）中值為1的概率。K-SVDtsp06;如果目標(biāo)分類邊界是一條光滑的對角線，則使用單個(gè)決策樹不能產(chǎn)生良好的結(jié)果，但通過組合一組決策樹可以實(shí)現(xiàn)良好的近似。每條曲線表示不同類別的流形，繪制的單點(diǎn)的切向量與法向量，我們希望分類函數(shù)在垂直于流形方向上快速改變，并且在類別流形的方向上保持不變。修改訓(xùn)練網(wǎng)絡(luò)：這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整，其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù)，但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。②松弛算法，比如迭代加權(quán)最小二乘（Iterative-Reweighed-Least-Squares，IRLS）、基追蹤（BP）等。由于提前終止需要驗(yàn)證集，這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型，因此為了更好的利用數(shù)據(jù)，有兩種解決策略。修改訓(xùn)練網(wǎng)絡(luò)的方法分為完全抵抗和僅檢測兩種方式，完全抵抗其實(shí)就是讓模型能將對抗樣本識別為正確的分類，而僅檢測是為了發(fā)現(xiàn)這種攻擊樣本，從而拒絕服務(wù)。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本，然后對該樣本進(jìn)行訓(xùn)練?！狽itishSrivastava、GeoffreyHinton、uAlex、Ilya、RuslanSalakhutdinov通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段，而測試階段與不使用dropout時(shí)相同,稱為

inverteddropout

:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X，每一行代表一個(gè)樣本，每一列代表樣本的一個(gè)特征，一般而言，該矩陣是稠密的，即大多數(shù)元素不為0。《Improvingneuralnetworksbypreventingco-adaptationoffeatureDetectors》它實(shí)質(zhì)上是對于龐大數(shù)據(jù)集的一種降維表示；例如每個(gè)成員可以使用不同算法和目標(biāo)函數(shù)訓(xùn)練成完全不同的模型。每條曲線表示不同類別的流形，繪制的單點(diǎn)的切向量與法向量，我們希望分類函數(shù)在垂直于流形方向上快速改變，并且在類別流形的方向上保持不變。Tangent表示正切方向，Normal表示正交方向。而與之相對的就是黑盒攻擊，顧名思義，攻擊者事先不知道要攻擊網(wǎng)56提前終止的目的是為了防止過擬合，從右側(cè)學(xué)習(xí)曲線中可以看出，測試誤差在前幾個(gè)epoch中逐漸減小，但是訓(xùn)練到某個(gè)epoch后，測試誤差又有了小幅度的增大。這說明此時(shí)發(fā)生了過擬合。

如果我們只要返回使驗(yàn)證誤差最低的參數(shù)，就可以獲得驗(yàn)證集誤差更低的模型。提前終止的目的是為了防止過擬合，從右側(cè)學(xué)習(xí)曲線57提前終止：在測試誤差開始上升之前，就停止訓(xùn)練,即使此時(shí)訓(xùn)練尚未收斂(即訓(xùn)練誤差未達(dá)到最小值)。

首先我們要保存好現(xiàn)在的模型(網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值),訓(xùn)練num_batch次(即一個(gè)epoch)，得到新的模型。將測試集作為新模型的輸入,進(jìn)行測試。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大，我們并不會馬上終止測試，而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試，如果測試誤差依舊沒有減小，那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。提前終止：在測試誤差開始上升之前，就停止訓(xùn)練,即使此時(shí)訓(xùn)練尚58深學(xué)習(xí)備課課件59由于提前終止需要驗(yàn)證集，這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型，因此為了更好的利用數(shù)據(jù)，有兩種解決策略。第一種策略是再次初始化模型，利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*，重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。第二種策略是將第一輪提前終止時(shí)的損失函數(shù)作為參考目標(biāo)值，用全部數(shù)據(jù)進(jìn)行第二輪提前終止，直到驗(yàn)證集的平均損失函數(shù)低于參考目標(biāo)值。（不能保證終止）由于提前終止需要驗(yàn)證集，這意味著某些訓(xùn)練數(shù)據(jù)60提前終止相當(dāng)于L^2正則化提前終止相當(dāng)于L^2正則化61深學(xué)習(xí)備課課件62

63切面距離(tangentdistance)算法：是一種非參數(shù)的最近鄰算法，其中使用的度量不是通用的歐幾里得距離，而是根據(jù)鄰近流行關(guān)于聚集概率的知識導(dǎo)出的。測試時(shí)需要乘上p的原因：考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x，那么dropout之后的期望值是E=px+(1?p)0=px，在測試時(shí)該神經(jīng)元總是激活，為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果，需要調(diào)整x→px.——Dietterich多次反復(fù)后，對最后的結(jié)果取均值。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大，我們并不會馬上終止測試，而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試，如果測試誤差依舊沒有減小，那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，輸入給神經(jīng)網(wǎng)絡(luò)，得到預(yù)測結(jié)果，然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。efficientsparsecodingalgorithmNIPS06;Bagging和Dropout的目的是一樣的，都是為了防止模型過擬合?！禝mprovingneuralnetworksbypreventingco-adaptationoffeatureDetectors》Left:Aunitattrainingtimethatispresentwithprobabilitypandisconnectedtounitsinthenextlayerwithweightsw.Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。測試時(shí)需要乘上p的原因：考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x，那么dropout之后的期望值是E=px+(1?p)0=px，在測試時(shí)該神經(jīng)元總是激活，為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果，需要調(diào)整x→px.沒有Dropout的神經(jīng)網(wǎng)絡(luò)①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。Dropout如何具有正則化效果：14切面距離、正切傳播和流行正切分類器字典學(xué)習(xí)的最簡單形式為：模型訓(xùn)練時(shí)，在一次循環(huán)中我們先隨機(jī)選擇神經(jīng)層中的一些單元并將其臨時(shí)隱藏，然后再進(jìn)行該次循環(huán)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化過程。提前終止的優(yōu)點(diǎn)：由于限制了訓(xùn)練迭代次數(shù)，減少訓(xùn)練時(shí)的計(jì)算成本。具有正則化效果而不需要添加懲罰項(xiàng)或計(jì)算其梯度。切面距離(tangentdistance)算法：是一種非參649.參數(shù)綁定與參數(shù)共享目前討論對參數(shù)添加約束或懲罰的時(shí)候，一直是相對于固定的區(qū)域或點(diǎn)。例如L^2正則化對參數(shù)偏離零的固定值進(jìn)行懲罰。根據(jù)相關(guān)領(lǐng)域和模型結(jié)構(gòu)方面的知識，得知模型參數(shù)之間應(yīng)該存在一些相關(guān)性，需要對模型參數(shù)之間的相關(guān)性進(jìn)行懲罰，使模型參數(shù)盡量接近或者強(qiáng)迫某些參數(shù)相等。舉例：9.參數(shù)綁定與參數(shù)共享目前討論對參數(shù)添加約束或懲罰的時(shí)候，一65參數(shù)共享：強(qiáng)迫模型某些參數(shù)相等主要應(yīng)用：卷積神經(jīng)網(wǎng)絡(luò)（CNN）（9章會詳細(xì)介紹）舉例：貓的照片向右邊移動了一個(gè)像素仍然能探測出貓。優(yōu)點(diǎn)：顯著降低了卷積神經(jīng)網(wǎng)絡(luò)CNN的參數(shù)個(gè)數(shù)（CNN模型的參數(shù)通常是千萬量級以上），減少模型占用的內(nèi)存，并且顯著的增加了網(wǎng)絡(luò)的大小而不需要增加訓(xùn)練數(shù)據(jù)。參數(shù)共享：強(qiáng)迫模型某些參數(shù)相等6610.稀疏表示稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。前文所述的權(quán)重衰減直接懲罰模型參數(shù)，如L^1正則化會誘導(dǎo)稀疏參數(shù)，使得許多參數(shù)為0，而稀疏表示是懲罰神經(jīng)網(wǎng)絡(luò)中的激活單元，稀疏化激活單元。換言之，稀疏表示的是得神經(jīng)元的輸入單元變得稀疏，很多輸入是0.10.稀疏表示稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。67第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。

第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。

也就是說，h是x的一個(gè)函數(shù)，在某種意義上表示存在于x中的信息，但只是用一個(gè)稀疏向量表示。

第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。

第二個(gè)表達(dá)式68字典學(xué)習(xí)：假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X，每一行代表一個(gè)樣本，每一列代表樣本的一個(gè)特征，一般而言，該矩陣是稠密的，即大多數(shù)元素不為0。

稀疏表示的含義是，尋找一個(gè)系數(shù)矩陣A（k*n）以及一個(gè)字典矩陣B（m*k），使得B*A盡可能的還原X，且A盡可能的稀疏。A便是X的稀疏表示。字典學(xué)習(xí)：假設(shè)我們用一個(gè)m*n的矩陣表示數(shù)據(jù)集X，每一行代表69“為普通稠密表達(dá)的樣本找到合適的字典，將樣本轉(zhuǎn)化為合適的稀疏表達(dá)形式，從而使學(xué)習(xí)任務(wù)得以簡化，模型復(fù)雜度得以降低，通常稱為‘字典學(xué)習(xí)’”字典學(xué)習(xí)的最簡單形式為：其中xi為第i個(gè)樣本，B為字典矩陣，alphai為xi的稀疏表示，lambda為大于0參數(shù)。

上式中第一個(gè)累加項(xiàng)說明了字典學(xué)習(xí)的第一個(gè)目標(biāo)是字典矩陣與稀疏表示的線性組合盡可能的還原樣本；第二個(gè)累加項(xiàng)說明了alphai應(yīng)該盡可能的稀疏。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。“為普通稠密表達(dá)的樣本找到合適的字典，將樣本轉(zhuǎn)化為合70如何獲得表示稀疏從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類：①貪婪算法，比如匹配追蹤（MP）、正交匹配追蹤（OMP）、弱匹配追蹤（WMP）、閾值方法等；（速度快，精度相對較低）②松弛算法，比如迭代加權(quán)最小二乘（Iterative-Reweighed-Least-Squares，IRLS）、基追蹤（BP）等。（松弛算法是精度高，但速度慢）如何獲得表示稀疏從任意一個(gè)字典中為原始信號尋找最稀疏的表示常71匹配追蹤（Matchingpursuit)

匹配追蹤（Matchingpursuit)

72如何建立這個(gè)詞典DefficientsparsecodingalgorithmNIPS06;K-SVDtsp06;Onlinedictionarylearningforsparsecoding,ICML09&JMLR10

如何建立這個(gè)詞典Defficientsparsecodin73字典學(xué)習(xí)的好處它實(shí)質(zhì)上是對于龐大數(shù)據(jù)集的一種降維表示；第二，字典學(xué)習(xí)總是嘗試學(xué)習(xí)蘊(yùn)藏在樣本背后最質(zhì)樸的特征。稀疏表示的本質(zhì)：用盡可能少的資源表示盡可能多的知識，這種表示還能帶來一個(gè)附加的好處，即計(jì)算速度快。字典學(xué)習(xí)的好處74一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，輸入給神經(jīng)網(wǎng)絡(luò)，得到預(yù)測結(jié)果，然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。通常情況下，集合是分兩步構(gòu)建的。在訓(xùn)練時(shí)，每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為1-p)；Bagging可以視為比較傳統(tǒng)的集成學(xué)習(xí)思路。對訓(xùn)練過的分類器進(jìn)行投票，將測試樣本指派到得票最高的類中。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。的解釋是：這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。模型平均是減少泛化誤差非常強(qiáng)大可靠的方法，可以適用于任何機(jī)器學(xué)習(xí)算法中，但是以增加計(jì)算和儲存為代價(jià)。③有放回抽樣，一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次，一些可能被忽略。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。如果我們只要返回使驗(yàn)證誤差最低的參數(shù)，就可以獲得驗(yàn)證集誤差更低的模型。原空間中相鄰比較近的點(diǎn)可能不是同一類點(diǎn)，而相鄰較遠(yuǎn)的點(diǎn)還有可能是同一類，“平鋪”至低維空間后就能解決這一問題。Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。用盡可能少的資源表示盡可能多的知識，這種表示還能帶來一個(gè)附加的好處，即計(jì)算速度快。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。修改訓(xùn)練網(wǎng)絡(luò)的方法分為完全抵抗和僅檢測兩種方式，完全抵抗其實(shí)就是讓模型能將對抗樣本識別為正確的分類，而僅檢測是為了發(fā)現(xiàn)這種攻擊樣本，從而拒絕服務(wù)。②松弛算法，比如迭代加權(quán)最小二乘（Iterative-Reweighed-Least-Squares，IRLS）、基追蹤（BP）等。每條曲線表示不同類別的流形，繪制的單點(diǎn)的切向量與法向量，我們希望分類函數(shù)在垂直于流形方向上快速改變，并且在類別流形的方向上保持不變。例如，即使存在唯一的最佳假設(shè)，也可能難以實(shí)現(xiàn)，因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。③有放回抽樣，一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次，一些可能被忽略。11.Bagging算法Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。基本思想：對于一個(gè)復(fù)雜的學(xué)習(xí)任務(wù)，我們首先構(gòu)造多個(gè)簡單的學(xué)習(xí)模型，然后再把這些簡單模型組合成一個(gè)高效的學(xué)習(xí)模型。（“三個(gè)臭皮匠頂個(gè)諸葛亮”）采用該策略的技術(shù)被稱為集成方法，廣泛用于分類和回歸任務(wù)。不同集成方法以不同方式構(gòu)建集成模型。例如每個(gè)成員可以使用不同算法和目標(biāo)函數(shù)訓(xùn)練成完全不同的模型。一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，75大多數(shù)集成方法使用單一的基本學(xué)習(xí)算法來生成均勻基礎(chǔ)學(xué)習(xí)器，但也有一些方法使用多種學(xué)習(xí)算法來生成異構(gòu)學(xué)習(xí)器。通常情況下，集合是分兩步構(gòu)建的。首先，生成許多基礎(chǔ)學(xué)習(xí)器，這些基礎(chǔ)學(xué)習(xí)器可以以并行樣式或序列樣式生成，序列樣式即基礎(chǔ)學(xué)習(xí)器的生成影響后續(xù)學(xué)習(xí)器的生成。然后，將基礎(chǔ)學(xué)習(xí)器結(jié)合使用，其中最流行的組合方案是用于分類的多數(shù)投票和用于回歸的加權(quán)平均。大多數(shù)集成方法使用單一的基本學(xué)習(xí)算法來生成均勻基礎(chǔ)學(xué)習(xí)器，但76為什么集合優(yōu)于單個(gè)第一個(gè)原因是，訓(xùn)練數(shù)據(jù)可能無法提供足夠的信息來選擇單一的最佳學(xué)習(xí)器。例如，可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。因此，結(jié)合這些學(xué)習(xí)器可能是更好的選擇。第二個(gè)原因是，學(xué)習(xí)算法的搜索過程可能不完善。例如，即使存在唯一的最佳假設(shè)，也可能難以實(shí)現(xiàn)，因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。因此，集合可以彌補(bǔ)這種不完善的搜索過程。第三個(gè)原因是，被搜索的假設(shè)空間可能不包含真正的目標(biāo)函數(shù)，而集合可以給出一些很好的近似值。例如，眾所周知，決策樹的分類邊界是與坐標(biāo)軸平行的線段。如果目標(biāo)分類邊界是一條光滑的對角線，則使用單個(gè)決策樹不能產(chǎn)生良好的結(jié)果，但通過組合一組決策樹可以實(shí)現(xiàn)良好的近似。——Dietterich

為什么集合優(yōu)于單個(gè)第一個(gè)原因是，訓(xùn)練數(shù)據(jù)可能無法提供足夠的信77

模型平均如何奏效：不同模型不會在測試集上產(chǎn)生完全相同的誤差。

模型平均如何奏效：不同模型不會在測試集上產(chǎn)生完全相同的誤差78bagging（裝袋）方法Bagging是一種允許重復(fù)多次使用同一種模型、訓(xùn)練算法和目標(biāo)函數(shù)的方法。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；對訓(xùn)練過的分類器進(jìn)行投票，將測試樣本指派到得票最高的類中。②每個(gè)自助樣本集都和原數(shù)據(jù)一樣大③有放回抽樣，一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次，一些可能被忽略。（每個(gè)數(shù)據(jù)集包含原始數(shù)據(jù)2/3的實(shí)例）bagging（裝袋）方法79算法步驟：1.從數(shù)據(jù)集S中取樣（放回選樣），總共執(zhí)行t次2.針對每一次取樣訓(xùn)練得到得到t個(gè)模型H1…Ht3.如果是分類算法，則t個(gè)模型投出最多票數(shù)的類別或者類別之一為最終類別；如果是回歸算法，t個(gè)模型得到的回歸結(jié)果進(jìn)行算術(shù)平均得到的值為最終的模型輸出。

算法步驟：1.從數(shù)據(jù)集S中取樣（放回選樣），總共執(zhí)行t次80深學(xué)習(xí)備課課件81模型平均是減少泛化誤差非常強(qiáng)大可靠的方法，可以適用于任何機(jī)器學(xué)習(xí)算法中，但是以增加計(jì)算和儲存為代價(jià)。Bagging可以視為比較傳統(tǒng)的集成學(xué)習(xí)思路?，F(xiàn)在常用的RandomForest，GBDT（迭代決策樹），GBRank其實(shí)都是更加精細(xì)化，效果更好的方法。模型平均是減少泛化誤差非常強(qiáng)大可靠的方法，可以適用于任何機(jī)器8212.dropout深度學(xué)習(xí)領(lǐng)域大神Hinton，在2012年文獻(xiàn)：《Improvingneuralnetworksbypreventing

co-adaptationoffeaturedetectors》提出了，在每次訓(xùn)練的時(shí)候，讓一部分的特征檢測器停止工作，這樣可以提高網(wǎng)絡(luò)的泛化能力，Hinton又把它稱之為dropout。Hinton認(rèn)為過擬合，可以通過阻止某些特征的協(xié)同作用來緩解。在每次訓(xùn)練的時(shí)候，每個(gè)神經(jīng)元有一定的概率被移除，這樣可以讓一個(gè)神經(jīng)元的出現(xiàn)不應(yīng)該依賴于另外一個(gè)神經(jīng)元。12.dropout深度學(xué)習(xí)領(lǐng)域大神Hinton，在20128312.dropout模型訓(xùn)練時(shí)，在一次循環(huán)中我們先隨機(jī)選擇神經(jīng)層中的一些單元并將其臨時(shí)隱藏，然后再進(jìn)行該次循環(huán)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化過程。在下一次循環(huán)中，我們又將隱藏另外一些神經(jīng)元，如此直至訓(xùn)練結(jié)束。Dropout訓(xùn)練的集成包括所有從基礎(chǔ)網(wǎng)絡(luò)除去神經(jīng)元（非輸出單元）后形成的子網(wǎng)絡(luò)。只需要將一些單元的輸出乘零就能有效的刪除（暫時(shí)地）一個(gè)單元。假如基本網(wǎng)絡(luò)有n個(gè)非輸出神經(jīng)元，那么就有2^n個(gè)子網(wǎng)絡(luò)。12.dropout模型訓(xùn)練時(shí)，在一次循環(huán)中我們先隨機(jī)選擇神84從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類：為何對抗樣本能產(chǎn)生很大的作用：一個(gè)推廣的方法叫做迭代梯度法，就是對剛才的過程進(jìn)行多次重復(fù)。Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.也就是說，h是x的一個(gè)函數(shù)，在某種意義上表示存在于x中的信息，但只是用一個(gè)稀疏向量表示。第一種策略是再次初始化模型，利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*，重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。例如，即使存在唯一的最佳假設(shè)，也可能難以實(shí)現(xiàn)，因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。之所以用L1范式是因?yàn)長1范式正則化更容易獲得稀疏解。原空間中的樣本分布可能及其扭曲，平鋪之后將更有利于樣本之間的距離度量，其距離將能更好地反映兩個(gè)樣本之間的相似性。第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。（“三個(gè)臭皮匠頂個(gè)諸葛亮”）②松弛算法，比如迭代加權(quán)最小二乘（Iterative-Reweighed-Least-Squares，IRLS）、基追蹤（BP）等。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大，我們并不會馬上終止測試，而是再繼續(xù)進(jìn)行幾個(gè)epoch的訓(xùn)練與測試，如果測試誤差依舊沒有減小，那么我們就認(rèn)為該試驗(yàn)在上一次達(dá)到最低測試誤差時(shí)停下來。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；在這種情況下，可以說他的作用和L1和L2范式正則化是相同的。（松弛算法是精度高，但速度慢）Onlinedictionarylearningforsparsecoding,ICML09&JMLR10對訓(xùn)練過的分類器進(jìn)行投票，將測試樣本指派到得票最高的類中。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；Bagging和Dropout的目的是一樣的，都是為了防止模型過擬合。例如，可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。只需要將一些單元的輸出乘零就能有效的刪除（暫時(shí)地）一個(gè)單元。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。然后，將基礎(chǔ)學(xué)習(xí)器結(jié)合使用，其中最流行的組合方案是用于分類的多數(shù)投票和用于回歸的加權(quán)平均。第一個(gè)表達(dá)式是參數(shù)稀疏的線性回歸模型的例子。Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.字典學(xué)習(xí)的最簡單形式為：（松弛算法是精度高，但速度慢）修改訓(xùn)練樣本：通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊，但這更像是一種無奈的做法，當(dāng)擴(kuò)大樣本集的時(shí)候，其實(shí)分類邊界有可能也在隨之?dāng)U大。其中p是Bernoulli分布（0-1分布）中值為1的概率。的解釋是：這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。efficientsparsecodingalgorithmNIPS06;這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。修改訓(xùn)練網(wǎng)絡(luò)：這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整，其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性的激活函數(shù)，但這種方式又會導(dǎo)致訓(xùn)練效率和效果下降。深度學(xué)習(xí)領(lǐng)域大神Hinton，在2012年文獻(xiàn)：《Improvingneuralnetworksbypreventing

co-adaptationoffeaturedetectors》提出了，在每次訓(xùn)練的時(shí)候，讓一部分的特征檢測器停止工作，這樣可以提高網(wǎng)絡(luò)的泛化能力，Hinton又把它稱之為dropout。如果我們只要返回使驗(yàn)證誤差最低的參數(shù)，就可以獲得驗(yàn)證集誤差更低的模型。例如，即使存在唯一的最佳假設(shè)，也可能難以實(shí)現(xiàn)，因?yàn)檫\(yùn)行算法會導(dǎo)致次優(yōu)假設(shè)。Dropout與Bagging對比第二個(gè)表達(dá)式是數(shù)據(jù)x具有稀疏表示h的線性回歸。首先我們要保存好現(xiàn)在的模型(網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值),訓(xùn)練num_batch次(即一個(gè)epoch)，得到新的模型。從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類：在這種情況下，可以說他的作用和L1和L2范式正則化是相同的。Dropout說的簡單一點(diǎn)就是我們讓在前向傳導(dǎo)的時(shí)候，讓某個(gè)神經(jīng)元的激活值以一定的概率p，讓其停止工作，示意圖如下：從任意一個(gè)字典中為原始信號尋找最稀疏的表示常用的方法分類兩類85深學(xué)習(xí)備課課件86在訓(xùn)練時(shí)，每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為1-p)；在測試階段，每個(gè)神經(jīng)單元都是存在的，權(quán)重參數(shù)w要乘以p，成為：pw。測試時(shí)需要乘上p的原因：考慮第一隱藏層的一個(gè)神經(jīng)元在dropout之前的輸出是x，那么dropout之后的期望值是E=px+(1?p)0=px，在測試時(shí)該神經(jīng)元總是激活，為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果，需要調(diào)整x→px.其中p是Bernoulli分布（0-1分布）中值為1的概率。在訓(xùn)練時(shí)，每個(gè)神經(jīng)單元以概率p被保留(dropout丟棄率為87Left:Aunitattrainingtimethatispresentwithprobabilitypandisconnectedtounitsinthenextlayerwithweightsw.Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.Theoutputattesttimeissameastheexpectedoutputattrainingtime.深學(xué)習(xí)備課課件88通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段，而測試階段與不使用dropout時(shí)相同,稱為

inverteddropout

:將前向傳播dropout時(shí)保留下來的神經(jīng)元的權(quán)重乘上1/p在架構(gòu)中添加invertedDropout這一改動僅會影響訓(xùn)練過程，而并不影響測試過程。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的89深學(xué)習(xí)備課課件90ModelDescriptionModelDescription91有Dropout的神經(jīng)網(wǎng)絡(luò)上面公式中Bernoulli函數(shù)，是為了以概率p，隨機(jī)生成一個(gè)0、1的向量。沒有Dropout的神經(jīng)網(wǎng)絡(luò)有Dropout的神經(jīng)網(wǎng)絡(luò)上面公式中Bernoulli函數(shù)，92Dropout如何具有正則化效果：ImageNetClassificationwithDeepConvolutionalNeuralNetworks,byAlexKrizhevsky,IlyaSutskever,andGeoffreyHinton(2012).的解釋是：這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。因?yàn)橐粋€(gè)神經(jīng)元不能依賴其他特定的神經(jīng)元。因此，不得不去學(xué)習(xí)隨機(jī)子集神經(jīng)元間的魯棒性的有用連接。換句話說。想象我們的神經(jīng)元作為要給預(yù)測的模型，dropout是一種方式可以確保我們的模型在丟失一個(gè)個(gè)體線索的情況下保持健壯的模型。在這種情況下，可以說他的作用和L1和L2范式正則化是相同的。都是來減少權(quán)重連接，然后增加網(wǎng)絡(luò)模型在缺失個(gè)體連接信息情況下的魯棒性。Dropout如何具有正則化效果：ImageNetClas93Dropout是通過隨機(jī)行為訓(xùn)練網(wǎng)絡(luò)并平均多個(gè)隨機(jī)過程決定進(jìn)行預(yù)測，實(shí)現(xiàn)了一種參數(shù)共享的bagging。Dropout與Bagging對比Bagging和Dropout的目的是一樣的，都是為了防止模型過擬合。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本，然后對該樣本進(jìn)行訓(xùn)練。多次反復(fù)后，對最后的結(jié)果取均值。Dropout是在構(gòu)建神經(jīng)網(wǎng)絡(luò)的時(shí)候，隨機(jī)的丟掉一些節(jié)點(diǎn)和邊，這就是相當(dāng)于對特征進(jìn)行了隨機(jī)選擇。Bagging情況下每個(gè)模型都是獨(dú)立的；Dropout情況下，所有模型共享參數(shù)，其中每個(gè)模型繼承父神經(jīng)網(wǎng)絡(luò)參數(shù)的不同子集。Dropout是通過隨機(jī)行為訓(xùn)練網(wǎng)絡(luò)并平均多個(gè)隨機(jī)過程決定進(jìn)94深學(xué)習(xí)備課課件95《Improvingneuralnetworksbypreventingco-adaptationoffeatureDetectors》《Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting》——NitishSrivastava、GeoffreyHinton、uAlex、Ilya、RuslanSalakhutdinov《Improvingneuralnetworksby9613.對抗訓(xùn)練對抗樣本是指對原樣本產(chǎn)生一些微小的擾動（甚至人眼都可能無法察覺），然而分類器卻產(chǎn)生了完全不一樣的結(jié)果，甚至以高置信度錯誤分類。13.對抗訓(xùn)練對抗樣本是指對原樣本產(chǎn)生一些微小的擾動（甚至人97為何對抗樣本能產(chǎn)生很大的作用：

為何對抗樣本能產(chǎn)生很大的作用：

98Szegedy的文章《Intriguingpropertiesofneuralnetworks》表明將對抗樣本和普通樣本一起給模型訓(xùn)練能夠使模型正則化。訓(xùn)練對抗樣本和普通的數(shù)據(jù)增加不一樣：

通常我們通過對數(shù)據(jù)進(jìn)行變形來增加數(shù)據(jù)，這樣變形后的數(shù)據(jù)是可能出現(xiàn)在測試集里的。而對抗樣本這種數(shù)據(jù)通常不可能自然地出現(xiàn)在測試集中，但是它們可以揭露出模型的缺陷。Szegedy的文章《Intriguingproperti99①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個(gè)抽樣生成的自助樣本集上，訓(xùn)練一個(gè)基分類器；多次反復(fù)后，對最后的結(jié)果取均值。Dropout訓(xùn)練的集成包括所有從基礎(chǔ)網(wǎng)絡(luò)除去神經(jīng)元（非輸出單元）后形成的子網(wǎng)絡(luò)。在每次訓(xùn)練的時(shí)候，每個(gè)神經(jīng)元有一定的概率被移除，這樣可以讓一個(gè)神經(jīng)元的出現(xiàn)不應(yīng)該依賴于另外一個(gè)神經(jīng)元。Bagging是每次訓(xùn)練的時(shí)候從原訓(xùn)練集中隨機(jī)抽取樣本，然后對該樣本進(jìn)行訓(xùn)練。對訓(xùn)練過的分類器進(jìn)行投票，將測試樣本指派到得票最高的類中。修改訓(xùn)練樣本：通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊，但這更像是一種無奈的做法，當(dāng)擴(kuò)大樣本集的時(shí)候，其實(shí)分類邊界有可能也在隨之?dāng)U大。一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，輸入給神經(jīng)網(wǎng)絡(luò)，得到預(yù)測結(jié)果，然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。Bagging和Dropout的目的是一樣的，都是為了防止模型過擬合。例如，可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。采用該策略的技術(shù)被稱為集成方法，廣泛用于分類和回歸任務(wù)。第一種策略是再次初始化模型，利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*，重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。這些變化因素對應(yīng)于沿著的相同樣本聚集的流行的移動。通常為了提高測試的性能(減少測試時(shí)的運(yùn)算時(shí)間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段，而測試階段與不使用dropout時(shí)相同,稱為

inverteddropout

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深學(xué)習(xí)備課課件

文檔簡介

溫馨提示

最新文檔

評論

深學(xué)習(xí)備課課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔