版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
總結(jié)深度學(xué)習(xí)技巧第1篇總結(jié)深度學(xué)習(xí)技巧第1篇我們知道模型精度隨深度而增加,但速度又如何呢?更多的層意味著更多的參數(shù),更多的參數(shù)意味著更多的計(jì)算,更多的內(nèi)存消耗和更慢的速度。理想情況下,我們希望在提高速度的同時(shí)保持高精度。我們可以通過剪枝來做到這一點(diǎn)。
深度神經(jīng)網(wǎng)絡(luò)剪枝策略
這個(gè)想法是,網(wǎng)絡(luò)中的許多參數(shù)是多余的,對(duì)輸出沒有太大貢獻(xiàn)。如果可以根據(jù)貢獻(xiàn)值對(duì)網(wǎng)絡(luò)中的神經(jīng)元進(jìn)行排名,那么就可以從網(wǎng)絡(luò)中移除低排名的神經(jīng)元,從而形成更小更快的網(wǎng)絡(luò)??梢愿鶕?jù)神經(jīng)元權(quán)重的L1/L2均值(平均激活)、一些驗(yàn)證集上神經(jīng)元不為零的次數(shù)以及其他方法來進(jìn)行排序。獲得更快/更小的網(wǎng)絡(luò)對(duì)于在移動(dòng)設(shè)備上運(yùn)行深度學(xué)習(xí)網(wǎng)絡(luò)非常重要。
修剪網(wǎng)絡(luò)的最基本的方法是簡(jiǎn)單地放棄某些卷積濾波器。最近文章表明,這樣做是相當(dāng)成功的。這項(xiàng)工作中的神經(jīng)元排名相當(dāng)簡(jiǎn)單:每個(gè)濾波器的權(quán)重按照L1規(guī)范排名。在每個(gè)修剪迭代中,對(duì)所有的過濾器進(jìn)行排序,在所有層中修剪m個(gè)排名最低的過濾器,重新訓(xùn)練和重復(fù)!
總結(jié)深度學(xué)習(xí)技巧第2篇我們現(xiàn)在說過幾次:更多的數(shù)據(jù)=更好的表現(xiàn)。除了遷移學(xué)習(xí)之外,另一種快速而簡(jiǎn)單的方法來提高模型的性能,即數(shù)據(jù)增強(qiáng)。數(shù)據(jù)增強(qiáng)涉及通過在使用原始類別標(biāo)簽的同時(shí)通過改變數(shù)據(jù)集中的一些原始圖像來生成合成訓(xùn)練示例。例如,圖像數(shù)據(jù)增強(qiáng)的常見方式包括:·水平和垂直旋轉(zhuǎn)或翻轉(zhuǎn)圖像·改變圖像的亮度和顏色·隨機(jī)模糊圖像·隨機(jī)從圖像裁剪補(bǔ)丁基本上,你可以進(jìn)行任何改變,改變圖像的外觀,但不是整體的內(nèi)容,即你可以制作一個(gè)藍(lán)色的狗的照片,但你仍然應(yīng)該能夠清楚地看到,照片上是一個(gè)狗。
數(shù)據(jù)裂變!
總結(jié)深度學(xué)習(xí)技巧第3篇多年來,已經(jīng)開發(fā)了許多梯度下降優(yōu)化算法,他們各有其優(yōu)缺點(diǎn)。一些最流行的方法如下:
·StochasticGradientDescent(SGD)withmomentum
·Adam
·RMSprop
·Adadelta
RMSprop,Adadelta和Adam被認(rèn)為是自適應(yīng)優(yōu)化算法,因?yàn)樗鼈儠?huì)自動(dòng)更新學(xué)習(xí)率。使用SGD時(shí),您必須手動(dòng)選擇學(xué)習(xí)率和動(dòng)量參數(shù),通常會(huì)隨著時(shí)間的推移而降低學(xué)習(xí)率。
在實(shí)踐中,自適應(yīng)優(yōu)化器傾向于比SGD更快地收斂,然而,他們的最終表現(xiàn)通常稍差。SGD通常會(huì)達(dá)到更好的minimum,從而獲得更好的最終準(zhǔn)確性。但這可能需要比某些優(yōu)化程序長(zhǎng)得多的時(shí)間。它的性能也更依賴于強(qiáng)大的初始化和學(xué)習(xí)率衰減時(shí)間表,這在實(shí)踐中可能非常困難。
因此,如果你需要一個(gè)優(yōu)化器來快速得到結(jié)果,或者測(cè)試一個(gè)新的技術(shù)。我發(fā)現(xiàn)Adam
很實(shí)用,因?yàn)樗鼘?duì)學(xué)習(xí)率并不是很敏感。如果您想要獲得絕對(duì)最佳的表現(xiàn),請(qǐng)使用SGD+Momentum,并調(diào)整學(xué)習(xí)率,衰減和動(dòng)量值來使性能最優(yōu)化。
總結(jié)深度學(xué)習(xí)技巧第4篇正如我們?cè)诘谝粋€(gè)提示中所看到的,深層網(wǎng)絡(luò)需要大量的數(shù)據(jù)。不幸的是,對(duì)于許多新的應(yīng)用程序來說,這些數(shù)據(jù)可能很難并且花費(fèi)很高。如果我們希望我們的模型表現(xiàn)良好,我們可能需要數(shù)十或數(shù)十萬個(gè)新的訓(xùn)練樣例進(jìn)行訓(xùn)練。如果數(shù)據(jù)集不易獲取,則必須全部收集并手動(dòng)標(biāo)記。這就是遷移學(xué)習(xí)的起點(diǎn)。通過遷移學(xué)習(xí),我們不需要太多的數(shù)據(jù)!這個(gè)想法是從一個(gè)以前在數(shù)百萬圖像上訓(xùn)練過的網(wǎng)絡(luò)開始的,比如在ImageNet上預(yù)訓(xùn)練的ResNet。然后,我們將通過僅重新訓(xùn)練最后幾個(gè)層并使其他層獨(dú)立來微調(diào)ResNet模型。那樣的話,我們正在將ResNet從數(shù)百萬圖像中學(xué)到的信息(圖像特征)進(jìn)行微調(diào),以便我們可以將它應(yīng)用于不同的任務(wù)。這是可能的,因?yàn)榭缬虻膱D像的特征信息通常非常相似,但是這些特征的分析可以根據(jù)應(yīng)用而不同。
一個(gè)基本的遷移學(xué)習(xí)通道
總結(jié)深度學(xué)習(xí)技巧第5篇“欠擬合”常常在模型學(xué)習(xí)能力較弱,而數(shù)據(jù)復(fù)雜度較高的情況出現(xiàn),此時(shí)模型由于學(xué)習(xí)能力不足,無法學(xué)習(xí)到數(shù)據(jù)集中的“一般規(guī)律”,因而導(dǎo)致泛化能力弱。與之相反,“過擬合”常常出現(xiàn)在模型學(xué)習(xí)
能力過強(qiáng)的情況,此時(shí)的模型學(xué)習(xí)能力太強(qiáng),以至于將訓(xùn)練集單個(gè)樣本自身的特點(diǎn)都能捕捉到,并將其認(rèn)為是“一般規(guī)律”,同樣這種情況也會(huì)導(dǎo)致模型泛化能力下降。過擬合與欠擬合的區(qū)別在于,欠擬合在訓(xùn)練集和測(cè)試集上的性能都較差,而過擬合往往能完美學(xué)習(xí)訓(xùn)練集數(shù)據(jù)的性質(zhì),而在測(cè)試集上的性能較差。
下圖(a)與圖(b)分別展示了對(duì)二維數(shù)據(jù)進(jìn)行擬合時(shí)過擬合與欠擬合的情況。其中藍(lán)色虛線代表數(shù)據(jù)的真實(shí)分布,橙色圓點(diǎn)為訓(xùn)練數(shù)據(jù),黑色實(shí)線代表模型的擬合結(jié)果。圖(a)使用簡(jiǎn)單的線性模型擬合,由于模型過于簡(jiǎn)單,沒有能力捕捉模型的真實(shí)分布,產(chǎn)生了欠擬合。圖(b)使用了高次多項(xiàng)式模型進(jìn)行擬合,由于模型過于復(fù)雜,因此對(duì)每個(gè)測(cè)試數(shù)據(jù)都能精確預(yù)測(cè),但模型擬合的結(jié)果沒有抓住數(shù)據(jù)分布的本質(zhì)特征,出現(xiàn)了過擬合。
總結(jié)深度學(xué)習(xí)技巧第6篇前面已經(jīng)說過:更多的數(shù)據(jù)=更好的表現(xiàn)。除了遷移學(xué)習(xí)之外,另一種快速而簡(jiǎn)單提高模型的性能的方法是數(shù)據(jù)增強(qiáng)。數(shù)據(jù)增強(qiáng)是使用原始類別標(biāo)簽的同時(shí),改變數(shù)據(jù)集的原始圖像以合成一些新的訓(xùn)練示例。例如,用于圖像數(shù)據(jù)增強(qiáng)的常見方式包括:
·水平和/或垂直旋轉(zhuǎn)翻轉(zhuǎn)圖像
·改變圖像的亮度和顏色
·隨機(jī)模糊圖像
·隨機(jī)從圖像裁剪塊
基本上,你可以進(jìn)行任何改變,改變圖像的外觀但不改變整體內(nèi)容。
10.通過集成提升模型!
在機(jī)器學(xué)習(xí)中,集成訓(xùn)練多個(gè)模型,然后將它們組合在一起以獲得更高的性能。這個(gè)想法是在相同的數(shù)據(jù)集上對(duì)同一任務(wù)訓(xùn)練多個(gè)深度網(wǎng)絡(luò)模型。然后,模型的結(jié)果可以通過投票進(jìn)行組合,即具有最高票數(shù)的類勝出。
為了確保所有模型不同,可以使用隨機(jī)權(quán)重初始化和隨機(jī)數(shù)據(jù)增強(qiáng)。眾所周知,由于使用了多個(gè)模型,因此集成通常比單個(gè)模型更精確,從而從不同角度完成任務(wù)。在實(shí)際應(yīng)用中,尤其是競(jìng)賽中,幾乎所有頂級(jí)模型都使用集合方式。
集成模型
總結(jié)深度學(xué)習(xí)技巧第7篇了解模型的外觀通常是很重要的。如果使用的是Keras工具,搭建出來的模型會(huì)很抽象,并且不允許深入分析模型的各個(gè)部分。幸運(yùn)的是,下面的代碼可以直接用Python直觀地看到構(gòu)建的模型(代碼太長(zhǎng),見原文):
以下代碼將繪制模型的圖形并將其保存為png文件:
plot有兩個(gè)參數(shù)可供選擇:
以上即為個(gè)人的全部建模經(jīng)驗(yàn),讀者如果有不同意見或有其它優(yōu)方法的話可以留言探討。
以上為譯文,由阿里云云棲社區(qū)組織翻譯。
譯文鏈接文章原標(biāo)題《DeepLearningTipsandTricks》
譯者:海棠,審校:Uncle_LLD。文章為簡(jiǎn)譯,更為詳細(xì)的內(nèi)容,請(qǐng)查看原文。
更多技術(shù)干貨敬請(qǐng)關(guān)注云棲社區(qū)知乎機(jī)構(gòu)號(hào):阿里云云棲社區(qū)-知乎
總結(jié)深度學(xué)習(xí)技巧第8篇這不是什么大秘密,深度學(xué)習(xí)機(jī)需要大量的“燃料”,那“燃料”就是數(shù)據(jù)。擁有的標(biāo)簽數(shù)據(jù)越多,模型的表現(xiàn)就越好。更多數(shù)據(jù)產(chǎn)生能更好性能的想法,已經(jīng)由谷歌的大規(guī)模數(shù)據(jù)集(有3億圖像)證明!為了感受數(shù)據(jù)帶給深度學(xué)習(xí)模型的性能提升,在部署DeepLearning模型時(shí),你應(yīng)該不斷地為其提供更多的數(shù)據(jù)和微調(diào)以繼續(xù)提高其性能。Feedthebeast:如果你想提高你的模型的性能,就要提供更多的數(shù)據(jù)!
上圖顯示數(shù)據(jù)量的增加會(huì)得到更好的性能
總結(jié)深度學(xué)習(xí)技巧第9篇在機(jī)器學(xué)習(xí)中,集合訓(xùn)練多個(gè)模型,然后將它們組合在一起以獲得更高的性能。因此,這個(gè)想法是在相同的數(shù)據(jù)集上訓(xùn)練同一個(gè)任務(wù)上的多個(gè)深度網(wǎng)絡(luò)模型。模型的結(jié)果然后可以通過投票方案來進(jìn)行組合,即具有最高票數(shù)的勝出。為了確保所有模型不同,可以使用隨機(jī)權(quán)重初始化和隨機(jī)數(shù)據(jù)增強(qiáng)。眾所周知,由于使用了多個(gè)模型,因此集合通常比單個(gè)模型精確得多,因此從不同角度接近任務(wù)。在現(xiàn)實(shí)世界的應(yīng)用中,尤其是挑戰(zhàn)或競(jìng)爭(zhēng)中,幾乎所有頂級(jí)模型都使用合奏。
合奏模型
總結(jié)深度學(xué)習(xí)技巧第10篇正如我們所看到的,深層網(wǎng)絡(luò)需要大量的數(shù)據(jù)。遺憾的是,對(duì)于許多新的應(yīng)用程序來說,這些數(shù)據(jù)可能很難得到并且開銷很大。如果我們希望模型表現(xiàn)良好,可能需要數(shù)萬或數(shù)十萬個(gè)新的訓(xùn)練樣例來進(jìn)行訓(xùn)練。如果數(shù)據(jù)集不易獲取,則必須全部手動(dòng)收集并標(biāo)記。
這就是遷移學(xué)習(xí)的起點(diǎn)。通過遷移學(xué)習(xí),我們不需要太多的數(shù)據(jù)!這個(gè)想法是從一個(gè)在數(shù)百萬圖像上訓(xùn)練過的網(wǎng)絡(luò)開始的,比如在ImageNet上預(yù)訓(xùn)練的ResNet。然后,我們將“重新調(diào)整ResNet模型,只重新訓(xùn)練最后幾層。
我們將ResNet從數(shù)百萬圖像中學(xué)到的信息(圖像特征)進(jìn)行微調(diào),以便將其應(yīng)用于不同的任務(wù)。因?yàn)榭缬虻膱D像的特征信息經(jīng)常是非常相似的所以這個(gè)方法是可行的,但是這些特征的分析根據(jù)應(yīng)用而不同。
一個(gè)基本的遷移學(xué)習(xí)示例
總結(jié)深度學(xué)習(xí)技巧第11篇多年來,已經(jīng)開發(fā)了許多梯度下降優(yōu)化算法,各有其優(yōu)缺點(diǎn)。一些最流行的包括:·隨機(jī)梯度下降(SGD)+動(dòng)量方法·Adam·RMSprop·AdadeltaRMSprop,Adadelta和Adam被認(rèn)為是自適應(yīng)優(yōu)化算法,因?yàn)樗鼈儠?huì)自動(dòng)更新學(xué)習(xí)速率。使用SGD時(shí),您必須手動(dòng)選擇學(xué)習(xí)率和動(dòng)量參數(shù),通常會(huì)隨著時(shí)間的推移而降低學(xué)習(xí)率。在實(shí)踐中,自適應(yīng)優(yōu)化器傾向于比SGD更快地收斂,然而,他們的最終表現(xiàn)通常稍差。SGD通常會(huì)達(dá)到更好的最小值,從而獲得更好的最終準(zhǔn)確性,但這可能需要比某些優(yōu)化程序長(zhǎng)得多的時(shí)間。它也更依賴于強(qiáng)大的初始化和學(xué)習(xí)速率衰減時(shí)間表,這在實(shí)踐中可能非常困難。因此,如果你需要一些快速的結(jié)果,或者只是想測(cè)試一個(gè)新的技術(shù),選擇自適應(yīng)優(yōu)化器。我發(fā)現(xiàn)Adam很容易使用,因?yàn)樗鼘?duì)你選擇完美的學(xué)習(xí)率并不是很敏感。如果您想獲得絕對(duì)最佳的最終表現(xiàn),請(qǐng)使用SGD+Momentum,并使用學(xué)習(xí)率,衰減和動(dòng)量值來最大化表現(xiàn)。兩全其美的方法有木有!它最近的研究顯示,你可以做到兩全其美:高速訓(xùn)練頂尖的性能通過切換從Adam到SGD!這個(gè)想法是,訓(xùn)練的早期階段實(shí)際上是SGD對(duì)參數(shù)調(diào)整和初始化非常敏感的時(shí)候。因此,我們可以通過使用Adam來啟動(dòng)我們的訓(xùn)練,這將使您節(jié)省相當(dāng)長(zhǎng)的時(shí)間,而不必?fù)?dān)心初始化和參數(shù)調(diào)整。那么,一旦Adam運(yùn)轉(zhuǎn)起來,我們可以切換到SGD+動(dòng)量?jī)?yōu)化,以達(dá)到最佳性能!
AdamvsSGD表現(xiàn)。由于魯棒性和自適應(yīng)學(xué)習(xí)速度,Adam在一開始表現(xiàn)更好,而SGD最終達(dá)到更好的全局最小值。
總結(jié)深度學(xué)習(xí)技巧第12篇在很多情況下,都要處理不平衡的數(shù)據(jù),特別是實(shí)際應(yīng)用程序中。一個(gè)簡(jiǎn)單而實(shí)際的例子如下:訓(xùn)練您的深度網(wǎng)絡(luò)以預(yù)測(cè)視頻流中是否有人持有致命武器。但是在你的訓(xùn)練數(shù)據(jù)中,你只有50個(gè)拿著武器的人的視頻和1000個(gè)沒有武器的人的視頻!如果你只是用這些數(shù)據(jù)來訓(xùn)練你的網(wǎng)絡(luò),那么你的模型肯定會(huì)非常偏向于預(yù)測(cè)沒有人有武器!
你可以做用以下的方法來解決它:
·在損失函數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 游戲活動(dòng)教案模板
- 2024年深海探測(cè)技術(shù)項(xiàng)目信托資金借款合同3篇
- 一年級(jí)語(yǔ)文園地五教案
- 2025年直流電源項(xiàng)目提案報(bào)告模稿
- 公文報(bào)告的范文
- 財(cái)務(wù)經(jīng)理述職報(bào)告
- 繪畫工作總結(jié)
- 結(jié)構(gòu)工程師工作總結(jié)(12篇)
- 學(xué)生會(huì)辭職報(bào)告(集合15篇)
- 簡(jiǎn)短的求職自我介紹-
- 2025年上半年河南省西峽縣部分事業(yè)單位招考易考易錯(cuò)模擬試題(共500題)試卷后附參考答案-1
- 深交所創(chuàng)業(yè)板注冊(cè)制發(fā)行上市審核動(dòng)態(tài)(2020-2022)
- 手術(shù)室護(hù)理組長(zhǎng)競(jìng)聘
- 電力系統(tǒng)繼電保護(hù)試題以及答案(二)
- 小學(xué)生防打架斗毆安全教育
- 網(wǎng)絡(luò)運(yùn)營(yíng)代銷合同范例
- 2024年全國(guó)統(tǒng)一高考英語(yǔ)試卷(新課標(biāo)Ⅰ卷)含答案
- 學(xué)生請(qǐng)假外出審批表
- 疼痛診療與康復(fù)
- T∕ACSC 01-2022 輔助生殖醫(yī)學(xué)中心建設(shè)標(biāo)準(zhǔn)(高清最新版)
- 新版【處置卡圖集】施工類各崗位應(yīng)急處置卡(20頁(yè))
評(píng)論
0/150
提交評(píng)論