ch02 深度學(xué)習(xí)概述_第1頁
ch02 深度學(xué)習(xí)概述_第2頁
ch02 深度學(xué)習(xí)概述_第3頁
ch02 深度學(xué)習(xí)概述_第4頁
ch02 深度學(xué)習(xí)概述_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二章深度學(xué)習(xí)概述新工科建設(shè)·人工智能與智能科學(xué)系列深度學(xué)習(xí)在數(shù)字圖像處理中的應(yīng)用01深度學(xué)習(xí)的概念PARTONE深度學(xué)習(xí)的概念傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)隨機(jī)初始化網(wǎng)絡(luò)中的權(quán)值,導(dǎo)致網(wǎng)絡(luò)很容易收斂到局部最小值。為解決這問題,2006年,機(jī)器學(xué)習(xí)大師、多倫多大學(xué)教授Geo擊eyllinton及其學(xué)生Ruslan在世界頂級學(xué)術(shù)期刊《科學(xué)》上發(fā)表了一篇論文[2],引發(fā)了深度學(xué)習(xí)在研究領(lǐng)域和應(yīng)用領(lǐng)域的發(fā)展熱潮。這篇論文提出了兩個主要觀點(diǎn):(1)多層人工神經(jīng)網(wǎng)絡(luò)模型有很強(qiáng)的特征學(xué)習(xí)能力,深度學(xué)習(xí)模型學(xué)習(xí)得到的特征數(shù)據(jù)對原數(shù)據(jù)有更本質(zhì)的代表性,這將大大便于分類和可視化問題;(2)對于深度神經(jīng)網(wǎng)絡(luò)很難訓(xùn)練達(dá)到最優(yōu)的問題,可以采用逐層訓(xùn)練方法解決,將上層訓(xùn)練好的結(jié)果作為下層訓(xùn)練過程中的初始化參數(shù)。在該論文中,深度學(xué)習(xí)模型訓(xùn)練過程中的逐層初始化采用無監(jiān)督學(xué)習(xí)方式,也就是使用無監(jiān)督預(yù)訓(xùn)練方法優(yōu)化網(wǎng)絡(luò)權(quán)值的初值,再進(jìn)行權(quán)值微調(diào)。深度學(xué)習(xí)是基于樣本數(shù)據(jù)通過一定的訓(xùn)練方法得到包含多個層級的深度網(wǎng)絡(luò)結(jié)構(gòu)的機(jī)器學(xué)習(xí)過程,開辟了機(jī)器學(xué)習(xí)的新領(lǐng)域,使機(jī)器學(xué)習(xí)更接近于最初的目標(biāo)人工智能。1深度學(xué)習(xí)的歷史背景深度學(xué)習(xí)的概念深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò)的研究,有多個隱層的多層感知器是深度學(xué)習(xí)模型的一個很好的范例。對神經(jīng)網(wǎng)絡(luò)而言,深度指的是網(wǎng)絡(luò)學(xué)習(xí)得到的函數(shù)中非線性運(yùn)算組合水平的數(shù)量。當(dāng)前神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法多針對較低水平的網(wǎng)絡(luò)結(jié)構(gòu),將這種網(wǎng)絡(luò)稱為淺結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域一個新的研究方向,其動機(jī)在于建立模型模擬人類大腦的神經(jīng)連接結(jié)構(gòu),在處理圖像、聲音和文本這些信號時,通過多個變換階段分層對數(shù)據(jù)特征進(jìn)行描述,進(jìn)而給出數(shù)據(jù)的解釋。以圖像數(shù)據(jù)為例,靈長類的視覺系統(tǒng)中對這類信號的處理依次為:首先檢測邊緣、初始形狀,然后逐步形成更復(fù)雜的視覺形狀。同樣地,深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示、屬性類別或特征,給出數(shù)據(jù)的分層特征表示。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。2深度學(xué)習(xí)的基本思想深度學(xué)習(xí)的概念深度學(xué)習(xí)本質(zhì)上是構(gòu)建含有多隱層的機(jī)器學(xué)習(xí)模型,通過大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,得到大量更具代表性的特征信息,從而對樣本進(jìn)行分類和預(yù)測,提高分類和預(yù)測的精度。這個過程是通過深度學(xué)習(xí)模型達(dá)到特征學(xué)習(xí)目的的。深度學(xué)習(xí)模型和傳統(tǒng)淺層學(xué)習(xí)模型的區(qū)別在于;(1)深度學(xué)習(xí)模型結(jié)構(gòu)含有更多的層次,包含隱層節(jié)點(diǎn)的層數(shù)通常在5層以上,有時甚至多達(dá)10層以上;(2)明確強(qiáng)調(diào)了特征學(xué)習(xí)對于深度學(xué)習(xí)模型的重要性,即通過逐層特征提取,將數(shù)據(jù)樣本在原空間的特征變換到一個新的特征空間來表示初始數(shù)據(jù),這使得分類或預(yù)測問題更加容易實(shí)現(xiàn)。在統(tǒng)計機(jī)器學(xué)習(xí)領(lǐng)域,值得關(guān)注的問題是如何對輸入樣本進(jìn)行特征空間的選擇。例如對行人檢測問題,需要尋找表現(xiàn)人體不同特點(diǎn)的特征向量。一般來說,當(dāng)輸入空間中的原始數(shù)據(jù)不能被直接分開時,則將其映射到一個線性可分的間接特征空間??啥x核函數(shù)映射到高維線性可分空間,通常由3種方式獲得:支持向量機(jī)、手工編碼或自動學(xué)習(xí)。3深度學(xué)習(xí)的本質(zhì)和優(yōu)勢02國內(nèi)外研究現(xiàn)狀PARTTWO國內(nèi)外研究現(xiàn)狀1.深度神經(jīng)網(wǎng)絡(luò)(DNN)2009年深度神經(jīng)網(wǎng)絡(luò)CDeepNeuralNetworks,DNN)首次被應(yīng)用到語音識別領(lǐng)域[8]。相比于傳統(tǒng)的基于GMM-HMM(HiddenMarkovModel)的語音識別框架,其最大的改變是采用DNN替換GMM來對語音的觀察概率進(jìn)行建模。DNN相比于GMM的優(yōu)勢在于:(1)使用DNN估計HMM狀態(tài)的后驗(yàn)概率分布不需要對語音數(shù)據(jù)分布進(jìn)行假設(shè)。(2)DNN的輸入特征可以是多種特征的融合,包括離散的或連續(xù)的。(3)DNN可以利用相鄰語音幀所包含的結(jié)構(gòu)信息。1深度學(xué)習(xí)在語音識別領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀2.卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比于DNN,在圖像領(lǐng)域獲得了廣泛應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)通過采用局部濾波和最大池化技術(shù)可以獲得更具魯棒性的特征。而語音信號的頻譜特征也可以看成一幅圖像,每個人的發(fā)音存在很大的差異性,例如共振峰的頻帶在語譜圖上就存在不同。所以通過CNN,可以有效去除這種差異性,將有利于語音的聲學(xué)建模。最近幾年的一些工作也表明,基于CNN的語音聲學(xué)模型相比于DNN可以獲得更好的性能。2015年,CNN在語音識別得到了新的應(yīng)用,相比于之前的工作,最大的不同是使用了非常深層的CNN結(jié)構(gòu),即包含10層甚至更多的卷積層。研究結(jié)果也表明深層的CNN往往可以獲得更好性能。1深度學(xué)習(xí)在語音識別領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀3.循環(huán)(遞歸)神經(jīng)網(wǎng)絡(luò)(RNN)語音信號是非平穩(wěn)時序信號,如何有效地對長時時序動態(tài)相關(guān)性進(jìn)行建模至關(guān)重要。由于DNN和CNN對輸入信號感受視野相對固定,故對于長時時序動態(tài)相關(guān)性的建模存在一定缺陷。循環(huán)(遞歸)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN)通過在隱層添加一些反饋連接,使模型具有一定的動態(tài)記憶能力,對長時時序動態(tài)相關(guān)性具有較好的建模能力。2013年,Graves最早嘗試將RNN用于語音識別的聲學(xué)建模,在TIMIT語料庫上取得了當(dāng)時最好的識別性能[10]。1深度學(xué)習(xí)在語音識別領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀4.長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)由于簡單的RNN會存在梯度消失問題,一個改進(jìn)的模型是基于長短時記憶神經(jīng)網(wǎng)絡(luò)(Long-ShortTennMemory,LSTM)的遞歸結(jié)構(gòu)。Sak等人使用LSTM-HMM在大數(shù)據(jù)庫上獲得了成功[11]。此后大量的研究人員轉(zhuǎn)移到基于LSTM的語音聲學(xué)建模的研究中。雖然LSTM相比于DNN在模型性能上有極大的優(yōu)勢,但是訓(xùn)練LSTM需要使用沿時間展開的反向傳播算法,會導(dǎo)致訓(xùn)練不穩(wěn)定,而且訓(xùn)練相比于DNN會更加耗時。因此如何讓前饋型神經(jīng)網(wǎng)絡(luò)也能像LSTM一樣具有長時時序動態(tài)相關(guān)性的建模能力是一個研究點(diǎn)。Saon等人提出將RNN沿著時間展開,可以在訓(xùn)練速度和DNN可比的情況下獲得更好的性能[12],但是進(jìn)一步把LSTM結(jié)構(gòu)沿時間展開就比較困難。1深度學(xué)習(xí)在語音識別領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀1.LeNet-5深度學(xué)習(xí)的興起源于深度神經(jīng)網(wǎng)絡(luò)的崛起,1998年,被世界公認(rèn)的人工智能三大巨頭之一的YannLeCun教授提出了LeNet網(wǎng)絡(luò)結(jié)構(gòu),這是卷積神經(jīng)網(wǎng)絡(luò)的鼻祖,接著在1998年,他又提出了新的LeNet結(jié)構(gòu)[14],即LeNet-5,當(dāng)時LeNet-5用于解決手寫數(shù)字識別問題,輸入的圖片均為單通道灰度圖,分辨率為28x28像素,在MNIST數(shù)據(jù)集上,LeNet-5達(dá)到了大約99.2%的正確率。LeNet-5總共7層(不包括輸入層),由2個卷積層、2個下采樣(池化)層和3個全連接層組成,最后通過全連接層輸出10個概率值,對應(yīng)0-9的預(yù)測概率。每層都有訓(xùn)練參數(shù),輸入圖像大小為32x32像素,卷積窗口大小為5x5像素,卷積核在二維平面上平移,卷積核的每個元素與被卷積圖像對應(yīng)位置相乘再求和。2深度學(xué)習(xí)在圖像識別領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀2.AlexNetAlexNet在2012年ImageNet競賽中以超過第二名10.9%的絕對優(yōu)勢一舉奪冠[15],從此深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)聲名鵲起,深度學(xué)習(xí)的研究如雨后春筍般出現(xiàn)。相比于LeNet,AlexNet設(shè)計了更深層的網(wǎng)絡(luò)。AlexNet針對的是1000類的分類問題,輸入圖片規(guī)定是256x256像素的三通道彩色圖像,為了增強(qiáng)模型的泛化能力,避免過擬合,使用了隨機(jī)裁剪的思路對原來256x256像素的圖像進(jìn)行隨機(jī)裁剪,得到尺寸為3x224x224像素的圖像,輸入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練。AlexNet有5個卷積層和3個全連接層,中間穿插著池化操作。2深度學(xué)習(xí)在圖像識別領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀3.ZF_NetZF_Net是2013年ImageNet競賽分類任務(wù)的冠軍[l6J,ZF-Net只是將AlexNet第一層卷積核由11個變成7個,步長由4變?yōu)?,第3、4、5卷積層轉(zhuǎn)變?yōu)?84、384、256,性能較AlexNet提升了不少。4.VGG_NetsVGG-Nets是由牛津大學(xué)的VGG(VisualGeometryGroup)提出,是2014年ImageNet競賽定位任務(wù)的第一名和分類任務(wù)的第二名[17]。VGG-Nets可以看成加深版本的AlexNet。為了解決初始化(權(quán)值初始化)等問題,VGG-Nets采用的是一種預(yù)訓(xùn)練的方式,這種方式在經(jīng)典神經(jīng)網(wǎng)絡(luò)中經(jīng)常可見。2深度學(xué)習(xí)在圖像識別領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀5.GoogLeNetGoogLeNet在2014年ImageNet競賽分類任務(wù)上擊敗了VGG-Nets奪得冠軍,GoogLeNet與AlexNet、VGG-Nets這種單純依靠加深網(wǎng)絡(luò)層數(shù)進(jìn)而改進(jìn)網(wǎng)絡(luò)性能的思路不一樣,它另辟蹊徑,在加深網(wǎng)絡(luò)層數(shù)的同時(22層),在網(wǎng)絡(luò)結(jié)構(gòu)上也做了創(chuàng)新,引入了Inception結(jié)構(gòu)代替單純的卷積+激活的傳統(tǒng)操作。6.ResNet2015年何愷明推出了ResNeil19l,其層數(shù)非常深,已經(jīng)超過百層。ResNet在網(wǎng)絡(luò)結(jié)構(gòu)上做了大創(chuàng)新,不再是簡單地堆積層數(shù)。ResNet提出了卷積神經(jīng)網(wǎng)絡(luò)的新思路,即引入殘差模塊來解決退化問題,絕對是深度學(xué)習(xí)發(fā)展歷程上里程碑式的事件。2深度學(xué)習(xí)在圖像識別領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀7.DenseNet自ResNet提出以后,ResNet的變種網(wǎng)絡(luò)層出不窮,且都各有其特點(diǎn),網(wǎng)絡(luò)性能也有一定的提升。2017年CVPR的最佳論文[20]中提出的DenseNet(DenseConvolutionalNetwork)主要還是和ResNet及Inception網(wǎng)絡(luò)做對比,思想上有借鑒,卻是全新的結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)并不復(fù)雜,卻非常有效,在CIFAR指標(biāo)上全面超越ResNet。8.SENetSENet(Squeeze-and-ExcitationNetworks,壓縮和激勵網(wǎng)絡(luò))取得了2017年ImageNet競賽分類任務(wù)的冠軍[21],在血ageNet數(shù)據(jù)集上將Top-5錯誤率降低到2.251%,而原先的最好成績是2.991%。SENet主要由兩部分組成。2深度學(xué)習(xí)在圖像識別領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀深度學(xué)習(xí)的興起源于深度神經(jīng)網(wǎng)絡(luò)的崛起,1998年,被世界公認(rèn)的人工智能三大巨頭之一的YannLeCun教授提出了LeNet網(wǎng)絡(luò)結(jié)構(gòu),這是卷積神經(jīng)網(wǎng)絡(luò)的鼻祖,接著在1998年,他又提出了新的LeNet結(jié)構(gòu)[14],即LeNet-5,當(dāng)時LeNet-5用于解決手寫數(shù)字識別問題,輸入的圖片均為單通道灰度圖,分辨率為28x28像素,在MNIST數(shù)據(jù)集上,LeNet-5達(dá)到了大約99.2%的正確率。LeNet-5總共7層(不包括輸入層),由2個卷積層、2個下采樣(池化)層和3個全連接層組成,最后通過全連接層輸出10個概率值,對應(yīng)0-9的預(yù)測概率。每層都有訓(xùn)練參數(shù),輸入圖像大小為32x32像素,卷積窗口大小為5x5像素,卷積核在二維平面上平移,卷積核的每個元素與被卷積圖像對應(yīng)位置相乘再求和。3深度學(xué)習(xí)在自然語言處理領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀數(shù)十年來,自然語言處理的主流方法是基于統(tǒng)計方法模型,人工神經(jīng)網(wǎng)絡(luò)也是基于統(tǒng)計方法模型之一,但在自然語言處理領(lǐng)域卻一直沒有被重視。語言建模是最早采用神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語言處理的問題。美國的NEC研究院最早將深度學(xué)習(xí)引入自然語言處理研究工作中,其研究人員從2008年起采用將詞匯映射到一維向量空間方法和多層一維卷積結(jié)構(gòu)去解決詞性標(biāo)注、分詞、命名實(shí)體識別和語義角色標(biāo)注4個典型的自然語言處理問題。他們構(gòu)建了同個網(wǎng)絡(luò)模型用于解決4個不同問題,都取得了相當(dāng)精確的結(jié)果??傮w而言,深度學(xué)習(xí)在自然語言處理上取得的成果和在圖像、語音識別方面相比還有相當(dāng)?shù)牟罹啵杂写钊胩剿?。在自然語言處理中,很多任務(wù)的輸入是變長的文本序列,而傳統(tǒng)分類器的輸入需要固定大小。因此,我們需要將變長的文本序列表示成固定長度的向量。以句子為例,一個句子的表示(也稱為編碼)可以看成句子中所有詞的語義組合。因此,句子編碼方法近兩年也受到廣泛關(guān)注。句子編碼主要研究如何有效地從詞嵌入通過不同方式的組合得到句子表示。其中,比較有代表性的方法有4種。3深度學(xué)習(xí)在自然語言處理領(lǐng)域的研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀(1)神經(jīng)詞袋模型,簡單對文本序列中每個詞嵌入進(jìn)行平均,作為整個序列的表示。(2)遞歸神經(jīng)網(wǎng)絡(luò),按照一個外部給定的拓?fù)浣Y(jié)構(gòu)(比如成分句法樹),不斷遞歸得到整個序列的表示。(3)循環(huán)神經(jīng)網(wǎng)絡(luò),將文本序列看作時間序列,不斷更新,最后得到整個序列的表示。(4)卷積神經(jīng)網(wǎng)絡(luò),通過多個卷積層和子采樣層,最終得到個固定長度的向最。3深度學(xué)習(xí)在自然語言處理領(lǐng)域的研究現(xiàn)狀03深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法PARTTHREE深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法通常的機(jī)器學(xué)習(xí)過程如下:(1)機(jī)器學(xué)習(xí)算法需要輸入少量標(biāo)記好的樣本,比如10張小狗的照片,其中1張標(biāo)記為(意為狗),其他的標(biāo)記為0(意為不是狗)。(2)這些算法“學(xué)習(xí)“怎么樣正確地將狗的圖片分類,然后輸入一張新的圖片時,可以期望算法輸出正確的圖片標(biāo)記(如輸入一張小狗圖片,輸出1;否則輸出0)。感知機(jī)的訓(xùn)練包括多訓(xùn)練樣本的輸入及計算每個樣本的輸出。在每一次計算以后,都要調(diào)整w以最小化輸出誤差,這個誤差由輸入樣本的標(biāo)記值與實(shí)際計算得出值的差得出。1感知機(jī)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法1.結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)中的多層感知機(jī)實(shí)際上就是將大量之前講到的感知機(jī)進(jìn)行組合,用不同的方法進(jìn)行連接并作用在不同的激活函數(shù)上。多層感知機(jī)具有以下屬性:(1)一個輸入層,一個輸出層,一個或多個隱層。(2)一個神經(jīng)元就是一個感知機(jī)。(3)輸入層的神經(jīng)元作為隱層輸入,同時隱層的神經(jīng)元也是輸出層神經(jīng)元的輸入。(4)每條建立在神經(jīng)元之間的連接都有一個權(quán)值w(與感知機(jī)中提到的權(quán)值類似)。(5)在t層的每個神經(jīng)元通常與前一層(廣1層)中的每個神經(jīng)元都有連接(但也可以通過將這條連接的權(quán)值設(shè)為0來斷開連接)。2前饋神經(jīng)網(wǎng)絡(luò)之多層感知機(jī)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法1.結(jié)構(gòu)(6)為了處理輸入數(shù)據(jù),將輸入向量賦到輸入層中。在圖2.4中,這個網(wǎng)絡(luò)可以計算一個6維輸入向量(由于只有6個輸入層神經(jīng)元)。假如輸入向量是[7,1,2,6,4,9],第一個輸入神經(jīng)元輸入7,第二個輸入1,……,第六個輸入9。這些值將被傳播到隱層,通過加權(quán)傳遞函數(shù)傳給每個隱層神經(jīng)元(這就是前向傳播),隱層神經(jīng)元再計算輸出(激活函數(shù))。(7)輸出層和隱層一樣進(jìn)行計算,輸出層的計算結(jié)果就是整個網(wǎng)絡(luò)的輸出。2.超線性大多數(shù)神經(jīng)網(wǎng)絡(luò)都使用非線性激活函數(shù),如對數(shù)函數(shù)、雙曲正切函數(shù)、階躍函數(shù)、整流函數(shù)等。比如說,Sigmoid函數(shù)是一個在生物學(xué)中常見的S形函數(shù),也稱為S形生長曲線。在信息科學(xué)中,由于其單調(diào)遞增及反函數(shù)單調(diào)遞增等性質(zhì),Sigmoid函數(shù)常被用作神經(jīng)網(wǎng)絡(luò)的闕值函數(shù),將變量映射到0-1之間。函數(shù)定義為: f(x)=1/1+e-x2前饋神經(jīng)網(wǎng)絡(luò)之多層感知機(jī)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法3.訓(xùn)練常見的應(yīng)用在多層感知機(jī)的監(jiān)督式訓(xùn)練的算法都是反向傳播算法。基本的流程為:(1)將訓(xùn)練樣本通過神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播計算。(2)計算輸出誤差。網(wǎng)絡(luò)誤差通過隨機(jī)梯度下降法來最小化。梯度下降法很常用,但在神經(jīng)網(wǎng)絡(luò)中,輸入?yún)?shù)是一條訓(xùn)練誤差曲線。2前饋神經(jīng)網(wǎng)絡(luò)之多層感知機(jī)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法4.隱層根據(jù)普適逼近原理,一個具有有限數(shù)目神經(jīng)元的隱層可以被訓(xùn)練成可逼近任意隨機(jī)函數(shù)。換句話說一個隱層就強(qiáng)大到可以學(xué)習(xí)任何函數(shù)了。神經(jīng)網(wǎng)絡(luò)中可以有多個隱層,這樣,在更高的隱層里可以對其之前的隱層構(gòu)建新的抽象,也可以更好地學(xué)習(xí)大規(guī)模網(wǎng)絡(luò)。然而,增加隱層的層數(shù)通常會導(dǎo)致兩個問題。(1)梯度消失:隨著添加越來越多的隱層,反向傳播傳遞給較低層的信息會越來越少。(2)過度擬合:過度擬合指的是對訓(xùn)練數(shù)據(jù)有著過好的識別效果,這將導(dǎo)致模型非常復(fù)雜。2前饋神經(jīng)網(wǎng)絡(luò)之多層感知機(jī)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法1.單層卷積神經(jīng)網(wǎng)絡(luò)卷積階段:通過提取信號的不同特征實(shí)現(xiàn)輸入信號進(jìn)行特定模式的觀測。非線性變換階段:對卷積階段得到的特征按照一定的原則進(jìn)行篩選,篩選原則通常采用非線性變換的方式,以避免線性模型表達(dá)能力不夠的問題。下采樣階段:對每個特征圖進(jìn)行獨(dú)立操作,通常采用平均池化(AveragePooling)或者最大池化(MaxPooling)的操作。2.卷積神經(jīng)網(wǎng)絡(luò)將單層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行多次堆疊,前一層的輸出作為后一層的輸入,便構(gòu)成卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是一類特殊的對圖像識別非常有效的前饋網(wǎng)絡(luò)。3前饋神經(jīng)網(wǎng)絡(luò)之卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法3.卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)CNN的特點(diǎn)在于,采用原始信號(一般為圖像)直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和圖像重建過程。局部感受野方法獲取的觀測特征與平移、縮放和旋轉(zhuǎn)無關(guān)。卷積階段利用權(quán)值共享結(jié)構(gòu)減少了權(quán)值的數(shù)量進(jìn)而降低了網(wǎng)絡(luò)模型的復(fù)雜度,這一點(diǎn)在輸入特征圖是高分辨率圖像時表現(xiàn)得更為明顯。CNN是一種有監(jiān)督深度的模型架構(gòu),尤其適合二維數(shù)據(jù)結(jié)構(gòu)。CNN主要由卷積層與子采樣層交替重復(fù)出現(xiàn)構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),卷積層用來提取輸入神經(jīng)元數(shù)據(jù)的局部特征,子采樣層用來對其上一層提取的數(shù)據(jù)進(jìn)行縮放映射以減少訓(xùn)練數(shù)據(jù)量,也使提取的特征具有縮放不變性。CNN的輸出層一般采用線性全連接,目前最常用的就是Sofunax分類方法。CNN實(shí)際應(yīng)用中會遇到諸多問題,如網(wǎng)絡(luò)權(quán)值的預(yù)學(xué)習(xí)問題、收斂條件及非全連接規(guī)則等,這些均需要在實(shí)際應(yīng)用中進(jìn)一步解決與優(yōu)化。3前饋神經(jīng)網(wǎng)絡(luò)之卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法4.卷積神經(jīng)網(wǎng)絡(luò)模型在無監(jiān)督預(yù)訓(xùn)練出現(xiàn)之前,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)通常非常困難,而其中一個特例是卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)受視覺系統(tǒng)的結(jié)構(gòu)啟發(fā)而產(chǎn)生。第一個卷積神經(jīng)網(wǎng)絡(luò)計算模型是在Fukushima的神經(jīng)認(rèn)知機(jī)中提出的,基于神經(jīng)元之間的局部連接和分層組織圖像轉(zhuǎn)換,將有相同參數(shù)的神經(jīng)元應(yīng)用于前一層神經(jīng)網(wǎng)絡(luò)的不同位置,得到一種平移不變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式。基于卷積神經(jīng)網(wǎng)絡(luò)的模式識別系統(tǒng)是最好的實(shí)現(xiàn)系統(tǒng)之一,尤其在手寫體字符識別任務(wù)上表現(xiàn)出非凡的性能。LeCun的卷積神經(jīng)網(wǎng)絡(luò)由卷積層和子采樣層這兩種類型的神經(jīng)網(wǎng)絡(luò)層組成。每一層有一個拓?fù)鋱D結(jié)構(gòu),即在接收域內(nèi),每個神經(jīng)元與輸入圖像中某個位置對應(yīng)的固定二維位置編碼信息關(guān)聯(lián)。在每層的各個位置分布著許多不同的神經(jīng)元,每個神經(jīng)元有一組輸入權(quán)值,這些權(quán)值與前一層神經(jīng)網(wǎng)絡(luò)矩形塊中的神經(jīng)元關(guān)聯(lián);同一組權(quán)值和不同輸入矩形塊與不同位置的神經(jīng)元關(guān)聯(lián)。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練分為兩個階段:向前傳播階段、向后傳播階段。3前饋神經(jīng)網(wǎng)絡(luò)之卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法5.實(shí)際例子首先定義一個圖像濾波器,或者稱為一個賦有相關(guān)權(quán)值的方陣。一個濾波器可以應(yīng)用到整個圖像上,通??梢詰?yīng)用多個濾波器。卷積層:對輸入數(shù)據(jù)應(yīng)用若干濾波器。比如,圖像的第一卷積層使用4個6x6濾波器。對圖像應(yīng)用一個濾波器之后得到的結(jié)果被稱為特征圖(FeatureMap,FM),特征圖的數(shù)目和濾波器的數(shù)目相等。如果前驅(qū)層也是一個卷積層,那么濾波器應(yīng)用在FM上,相當(dāng)于輸入一個FM,輸出另外一個FM。從直覺上來講,如果將一個權(quán)值分布到整個圖像上,那么這個特征就和位置無關(guān)了,同時多個濾波器可以分別探測出不同的特征。子采樣層:縮減輸入數(shù)據(jù)的規(guī)模。例如輸入一幅32x32的圖像,并且通過一個2x2的子采樣層,可以得到一幅J6x16的輸出圖像,這意味著原圖像上的4個像素合并成為輸出圖像中的1個像素。實(shí)現(xiàn)下采樣的方法有很多種,最常見的是最大值合并、平均值合并及隨機(jī)合并。最后一個子采樣層(或卷積層)通常連接到一個或多個全連接層,全連接層的輸出就是最終的輸出。3前饋神經(jīng)網(wǎng)絡(luò)之卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法1.反卷積網(wǎng)絡(luò)與前饋網(wǎng)絡(luò)不同,反饋網(wǎng)絡(luò)并不是對輸入信號進(jìn)行編碼,而是通過解反卷積或?qū)W習(xí)數(shù)據(jù)集的基,對輸入信號進(jìn)行反解。前饋網(wǎng)絡(luò)是對輸入信號進(jìn)行編碼的過程,而反饋網(wǎng)絡(luò)則是對輸入信號解碼的過程。單層反卷積網(wǎng)絡(luò)進(jìn)行多層疊加,可得到反卷積網(wǎng)絡(luò)。2.自編碼器自編碼器又稱自動編碼器(AutoEncoder),是一個典型的前饋神經(jīng)網(wǎng)絡(luò),它的目標(biāo)就是學(xué)習(xí)一種對數(shù)據(jù)集的壓縮且分布式的表示方法(編碼思想)。當(dāng)在原有特征的基礎(chǔ)上加入這些通過自動學(xué)習(xí)得到的特征時,可以大大提高精確度,這就是自編碼器。4反饋深度網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法反饋深度網(wǎng)絡(luò)3.稀疏自編碼器與CNN不同,稀疏自編碼器是一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)架構(gòu)。此類架構(gòu)的基本結(jié)構(gòu)單元為自編碼器,它通過對輸入X按照一定規(guī)則及訓(xùn)練算法進(jìn)行編碼,將其原始特征利用低維向量重新表示自編碼器通過構(gòu)建類似傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu),并假設(shè)輸出Y與輸入X相等,反復(fù)訓(xùn)練調(diào)整參數(shù)得到網(wǎng)絡(luò)參數(shù)值。自編碼器參數(shù)的訓(xùn)練方法有很多,幾乎可以采用任何連續(xù)化訓(xùn)練方法來訓(xùn)練參數(shù)。但由于其模型結(jié)構(gòu)不偏向生成型,無法通過聯(lián)合概率等定量形式確定模型合理性。4反饋深度網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法1.受限玻爾茲曼機(jī)玻爾茲曼機(jī)是一種隨機(jī)的遞歸神經(jīng)網(wǎng)絡(luò),由Hinton等提出,是能通過學(xué)習(xí)數(shù)據(jù)固有內(nèi)在表示、解決復(fù)雜學(xué)習(xí)問題的最早的人工神經(jīng)網(wǎng)絡(luò)之一。玻爾茲曼機(jī)由二值神經(jīng)元構(gòu)成,每個神經(jīng)元只取0或1兩種狀態(tài),l代表該神經(jīng)元處于激活狀態(tài),0表示該神經(jīng)元處于抑制狀態(tài)。2.深度玻爾茲曼機(jī)將多個RBM堆疊,前一層的輸出作為后一層的輸入,便構(gòu)成了深度玻爾茲曼機(jī)(DBM)。網(wǎng)絡(luò)中所有節(jié)點(diǎn)間的連線都是雙向的。深度玻爾茲曼機(jī)訓(xùn)練分為2個階段:預(yù)訓(xùn)練階段和微調(diào)階段。5雙向深度網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法3.深度信念網(wǎng)絡(luò)深度結(jié)構(gòu)的訓(xùn)練大致有無監(jiān)督訓(xùn)練和有監(jiān)督訓(xùn)練兩種,而且兩者擁有不一樣的模型架構(gòu)。比如,卷積神經(jīng)網(wǎng)絡(luò)就是一種有監(jiān)督下的深度學(xué)習(xí)模型(需要大量有標(biāo)簽的訓(xùn)練樣本),但深度信念網(wǎng)絡(luò)(DBN)是一種無監(jiān)督和有監(jiān)督混合下的深度學(xué)習(xí)模型(需要一部分無標(biāo)簽的訓(xùn)練樣本和一部分有標(biāo)簽的樣本)。深度信念網(wǎng)絡(luò)在訓(xùn)練的過程中,所需要學(xué)習(xí)的即是聯(lián)合概率分布。在機(jī)器學(xué)習(xí)領(lǐng)域中,其所表示的就是對象的生成模型。如果想要全局優(yōu)化具有多隱層的深度信念網(wǎng)絡(luò),是比較困難的。這時可以運(yùn)用貪心算法,即逐層進(jìn)行優(yōu)化,每次只訓(xùn)練相鄰兩層的模型參數(shù),通過逐層學(xué)習(xí)來獲得全局的網(wǎng)絡(luò)參數(shù)。這種對比差異訓(xùn)練(無監(jiān)督逐層貪心訓(xùn)練)方法已經(jīng)被Hinton證明是有效的。5雙向深度網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法4.堆棧自編碼網(wǎng)絡(luò)模型堆棧自編碼網(wǎng)絡(luò)的結(jié)構(gòu)與DBN類似,由若干結(jié)構(gòu)單元堆棧式疊加而成,不同之處在于其結(jié)構(gòu)單元為自編碼器而不是RBM。堆棧自編碼器提供了一種有效的預(yù)訓(xùn)練方法來初始化網(wǎng)絡(luò)的權(quán)值,這樣就得到了一個可以用來訓(xùn)練的復(fù)雜多層感知機(jī)。5.多層核感知機(jī)(MnltilayerKernelMachines,MKMs)受SVM算法中核函數(shù)的啟發(fā),2009年Cho和Saul在深度學(xué)習(xí)模型中加入核函數(shù),構(gòu)建一種基于核函數(shù)的深度學(xué)習(xí)模型,即多層核感知機(jī)。如同深度信念網(wǎng)絡(luò),反復(fù)迭代核主成分分析法(KernelPrincipalComponentAnalysis,KPCA)來逼近高階非線性函數(shù),每一層KPCA的輸出作為下一層KPCA的輸入。5雙向深度網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法6.深度時空推理網(wǎng)絡(luò)(DeepSpatio-TemporalInferenceNetwork,DeSTIN)堆棧自編碼網(wǎng)絡(luò)的結(jié)構(gòu)與DBN類似,由若干結(jié)構(gòu)單元堆棧式疊加而成,不同之處在于其結(jié)構(gòu)單元目前較成熟的深度學(xué)習(xí)模型大多建立在空間層次結(jié)構(gòu)上,很少對時效性有所體現(xiàn)。相關(guān)研究表明,人類大腦的運(yùn)行模式是將感受到的模式與記憶存儲的模式進(jìn)行匹配,并對下一時刻的模式進(jìn)行預(yù)測的,反復(fù)進(jìn)行上述步驟,這個過程包含了時空信息。因此在深度結(jié)構(gòu)中將時效性考慮在內(nèi),會更接近人腦的工作模式。深度時空推理網(wǎng)絡(luò)CDeSTIN)便是基于這種理念被提出的田。DeSTIN是一種基于貝葉斯推理理論動態(tài)進(jìn)行模式分類的深度學(xué)習(xí)架構(gòu),它是一種區(qū)分性的層次網(wǎng)絡(luò)結(jié)構(gòu)。在該深度模型中,數(shù)據(jù)間的時空相關(guān)性通過無監(jiān)督方式來學(xué)習(xí)。網(wǎng)絡(luò)每一層的每個節(jié)點(diǎn)結(jié)構(gòu)一致,且包含多個聚類中心,通過聚類和動態(tài)建模來模擬輸入。每個節(jié)點(diǎn)通過貝葉斯信念推理輸出該節(jié)點(diǎn)的信念值,根據(jù)信念值提取整個DeSTIN網(wǎng)絡(luò)的模式特征,最后一層網(wǎng)絡(luò)的輸出特征可以輸入分類器如SVM中進(jìn)行模式分類。5雙向深度網(wǎng)絡(luò)深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法1.深度學(xué)習(xí)的訓(xùn)練過程(1)自下向上的非監(jiān)督學(xué)習(xí):采用無標(biāo)簽數(shù)據(jù)分層訓(xùn)練各層參數(shù),這是一個無監(jiān)督訓(xùn)練的過程(也是一個特征學(xué)習(xí)的過程),是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分。(2)自頂向下的監(jiān)督學(xué)習(xí):在預(yù)訓(xùn)練后,采用有標(biāo)簽數(shù)據(jù)來對網(wǎng)絡(luò)進(jìn)行區(qū)分性訓(xùn)練,此時誤差自頂向下傳輸。2.深度學(xué)習(xí)訓(xùn)練算法(1)正則化深度費(fèi)希爾映射方法:Wong等人提出一種新的特征提取方法,稱為正則化深度費(fèi)希爾映射(RegularizedDeepFisherMapping,RDFM)方法深度神經(jīng)網(wǎng)絡(luò)具有深度非局部學(xué)習(xí)結(jié)構(gòu),從更少的樣本中學(xué)習(xí)變化很大的數(shù)據(jù)集中的特征,顯示出比核方法更強(qiáng)的特征識別能力,同時RDFM方法的學(xué)習(xí)過程由于引入正則化因子,解決了學(xué)習(xí)能力過強(qiáng)帶來的過擬合問題。6深度學(xué)習(xí)訓(xùn)練算法深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法2.深度學(xué)習(xí)訓(xùn)練算法(2)非線性變換方法:Railco等人提出了一種非線性變換方法,該方法使得多層感知機(jī)(MLP)的每個隱層神經(jīng)元的輸出具有零輸出和平均值上的零斜率,使學(xué)習(xí)MLP變得更容易。(3)稀疏編碼對稱機(jī)算法:Ranzato等人提出一種新的有效的無監(jiān)督學(xué)習(xí)算法,稱為稀疏編碼對稱機(jī)(SparseEncodingSymmetricMachine,SESM)算法,能夠在無須歸一化的情況下有效產(chǎn)生稀疏表示。(4)遷移學(xué)習(xí)算法:在許多常見學(xué)習(xí)場景中,訓(xùn)練和測試數(shù)據(jù)集中的類標(biāo)簽不同,必須保證訓(xùn)練和測試數(shù)據(jù)集中的相似性進(jìn)行遷移學(xué)習(xí)。(5)自然語言解析算法:Collobert基于深度遞歸卷積圖變換網(wǎng)絡(luò)(GraphTransformerNetwork,G1N)提出一種快速可擴(kuò)展的判別算法用于自然語言解析。6深度學(xué)習(xí)訓(xùn)練算法04深度學(xué)習(xí)典型模型結(jié)構(gòu)和訓(xùn)練算法PARTFOUR深度學(xué)習(xí)的優(yōu)點(diǎn)和已有的應(yīng)用深度學(xué)習(xí)與淺層學(xué)習(xí)相比具有許多優(yōu)點(diǎn)。(1)在網(wǎng)絡(luò)表達(dá)復(fù)雜目標(biāo)函數(shù)的能力方面,淺層神經(jīng)網(wǎng)絡(luò)有時無法很好地實(shí)現(xiàn)高變函數(shù)等復(fù)雜高維函數(shù)的表示,而用深度神經(jīng)網(wǎng)絡(luò)能夠較好地表征。(2)在網(wǎng)絡(luò)結(jié)構(gòu)的計算復(fù)雜度方面,當(dāng)用深度為K的網(wǎng)絡(luò)結(jié)構(gòu)能夠緊湊地表達(dá)某一函數(shù)時,在采用深度小于K的網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)該函數(shù)時,可能需要增加指數(shù)級規(guī)模數(shù)量的計算因子,大大增加了計算的復(fù)雜度。(3)在仿生學(xué)角度方面,深度神經(jīng)網(wǎng)絡(luò)是對人類大腦皮層的最好模擬。(4)在信息共享方面,深度學(xué)習(xí)獲得的多重水平的提取特征可以在類似的不同任務(wù)中重復(fù)使用,相當(dāng)于對任務(wù)求解提供了些無監(jiān)督的數(shù)據(jù),可以獲得更多的有用信息。(5)深度學(xué)習(xí)試圖找到數(shù)據(jù)的內(nèi)部結(jié)構(gòu),發(fā)現(xiàn)變量之間的真正關(guān)系形式。1深度學(xué)習(xí)的優(yōu)點(diǎn)深度學(xué)習(xí)的優(yōu)點(diǎn)和已有的應(yīng)用1.深度學(xué)習(xí)在語音識別、合成及機(jī)器翻譯中的應(yīng)用微軟研究人員使用深度信念網(wǎng)絡(luò)對數(shù)以于計的senonesC一種比音素小很多的建模單元)直接建模,提出了第一個成功應(yīng)用于大詞匯量語音識別系統(tǒng)的、上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)——隱馬爾科夫混合模型(CD-DNN-HMM),比之前基于常規(guī)CD-GMM-HMM的大詞匯量語音識別系統(tǒng)相對誤差率減少16%以上。隨后又在含有300h語音訓(xùn)練數(shù)據(jù)的Switchboard標(biāo)準(zhǔn)數(shù)據(jù)集上對CD-DNN-HMM模型進(jìn)行評測,基準(zhǔn)測試字詞錯誤率為18.5%,與之前常規(guī)系統(tǒng)相比,相對錯誤率減少了33%。2深

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論