視頻監(jiān)控與視頻分析-第十四章 深度學(xué)習(xí)_第1頁
視頻監(jiān)控與視頻分析-第十四章 深度學(xué)習(xí)_第2頁
視頻監(jiān)控與視頻分析-第十四章 深度學(xué)習(xí)_第3頁
視頻監(jiān)控與視頻分析-第十四章 深度學(xué)習(xí)_第4頁
視頻監(jiān)控與視頻分析-第十四章 深度學(xué)習(xí)_第5頁
已閱讀5頁,還剩121頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十四章:深度學(xué)習(xí)2015.9于深圳視頻監(jiān)控與視頻分析目錄概述動機(jī)深度學(xué)習(xí)簡介深度學(xué)習(xí)的訓(xùn)練過程深度學(xué)習(xí)的具體模型及方法深度學(xué)習(xí)的性能比較深度學(xué)習(xí)的應(yīng)用展望參考文獻(xiàn)相關(guān)程序軟件及鏈接概述深度學(xué)習(xí):一種基于無監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法可能的的名稱:深度學(xué)習(xí)特征學(xué)習(xí)無監(jiān)督特征學(xué)習(xí)動機(jī)良好的特征表達(dá),對最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用;識別系統(tǒng)主要的計(jì)算和測試工作耗時(shí)主要集中在特征提取部分;特征的樣式目前一般都是人工設(shè)計(jì)的,靠人工提取特征。Low-levelsensingPre-processingFeatureextract.FeatureselectionInference:prediction,recognition傳統(tǒng)的模式識別方法:動機(jī)——為什么要自動學(xué)習(xí)特征實(shí)驗(yàn):LP-βMultipleKernelLearningGehlerandNowozin,OnFeatureCombinationforMulticlassObjectClassification,ICCV’09采用39個(gè)不同的特征PHOG,SIFT,V1S+,

RegionCov.Etc.在普通特征上MKL表現(xiàn)有限結(jié)論:特征更重要?jiǎng)訖C(jī)——為什么要自動學(xué)習(xí)特征機(jī)器學(xué)習(xí)中,獲得好的特征是識別成功的關(guān)鍵目前存在大量人工設(shè)計(jì)的特征,不同研究對象特征不同,特征具有多樣性,如:SIFT,HOG,LBP等手工選取特征費(fèi)時(shí)費(fèi)力,需要啟發(fā)式專業(yè)知識,很大程度上靠經(jīng)驗(yàn)和運(yùn)氣是否能自動地學(xué)習(xí)特征?中層特征中層信號:動機(jī)——為什么要自動學(xué)習(xí)特征“Tokens”fromVisionbyD.Marr:連續(xù)平行連接拐角物體部件:他們對于人工而言是十分困難的,那么如何學(xué)習(xí)呢?動機(jī)——為什么要自動學(xué)習(xí)特征一般而言,特征越多,給出信息就越多,識別準(zhǔn)確性會得到提升;但特征多,計(jì)算復(fù)雜度增加,探索的空間大,可以用來訓(xùn)練的數(shù)據(jù)在每個(gè)特征上就會稀疏。結(jié)論:不一定特征越多越好!需要有多少個(gè)特征,需要學(xué)習(xí)確定。動機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)人腦視覺機(jī)理1981年的諾貝爾醫(yī)學(xué)獎(jiǎng)獲得者DavidHubel和TorstenWiesel發(fā)現(xiàn)了視覺系統(tǒng)的信息處理機(jī)制發(fā)現(xiàn)了一種被稱為“方向選擇性細(xì)胞的神經(jīng)元細(xì)胞,當(dāng)瞳孔發(fā)現(xiàn)了眼前的物體的邊緣,而且這個(gè)邊緣指向某個(gè)方向時(shí),這種神經(jīng)元細(xì)胞就會活躍動機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)人腦視覺機(jī)理人的視覺系統(tǒng)的信息處理是分級的高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)語義或者意圖抽象層面越高,存在的可能猜測就越少,就越利于分類動機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)視覺的層次性屬性學(xué)習(xí),類別作為屬性的一種組合映射Lampertetal.CVPR’09類別標(biāo)簽屬性圖像特征動機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)特征表示的粒度具有結(jié)構(gòu)性(或者語義)的高層特征對于分類更有意義動機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)初級(淺層)特征表示高層特征或圖像,往往是由一些基本結(jié)構(gòu)(淺層特征)組成的動機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)結(jié)構(gòu)性特征表示動機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)淺層學(xué)習(xí)的局限人工神經(jīng)網(wǎng)絡(luò)(BP算法)—雖被稱作多層感知機(jī),但實(shí)際是種只含有一層隱層節(jié)點(diǎn)的淺層模型SVM、Boosting、最大熵方法(如LR,LogisticRegression)—帶有一層隱層節(jié)點(diǎn)(如SVM、Boosting),或沒有隱層節(jié)點(diǎn)(如LR)的淺層模型局限性:有限樣本和計(jì)算單元情況下對復(fù)雜函數(shù)的表示能力有限,針對復(fù)雜分類問題其泛化能力受限。深度學(xué)習(xí)2006年,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗GeoffreyHinton在《科學(xué)》上發(fā)表論文提出深度學(xué)習(xí)主要觀點(diǎn):1)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;2)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層初始化”(layer-wisepre-training)來有效克服,逐層初始化可通過無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的。深度學(xué)習(xí)本質(zhì):通過構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù)(可為無標(biāo)簽數(shù)據(jù)),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性?!吧疃饶P汀笔鞘侄危疤卣鲗W(xué)習(xí)”是目的。與淺層學(xué)習(xí)區(qū)別:1)強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5-10多層的隱層節(jié)點(diǎn);2)明確突出了特征學(xué)習(xí)的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。深度學(xué)習(xí)好處:可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示。深度學(xué)習(xí)vs.神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò):深度學(xué)習(xí):深度學(xué)習(xí)vs.神經(jīng)網(wǎng)絡(luò)相同點(diǎn):二者均采用分層結(jié)構(gòu),系統(tǒng)包括輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò),只有相鄰層節(jié)點(diǎn)之間有連接,同一層以及跨層節(jié)點(diǎn)之間相互無連接,每一層可以看作是一個(gè)logistic回歸模型。不同點(diǎn):神經(jīng)網(wǎng)絡(luò):采用BP算法調(diào)整參數(shù),即采用迭代算法來訓(xùn)練整個(gè)網(wǎng)絡(luò)。隨機(jī)設(shè)定初值,計(jì)算當(dāng)前網(wǎng)絡(luò)的輸出,然后根據(jù)當(dāng)前輸出和樣本真實(shí)標(biāo)簽之間的差去改變前面各層的參數(shù),直到收斂;深度學(xué)習(xí):采用逐層訓(xùn)練機(jī)制。采用該機(jī)制的原因在于如果采用BP機(jī)制,對于一個(gè)deepnetwork(7層以上),殘差傳播到最前面的層將變得很小,出現(xiàn)所謂的gradientdiffusion(梯度擴(kuò)散)。深度學(xué)習(xí)vs.神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的局限性:1)比較容易過擬合,參數(shù)比較難調(diào)整,而且需要不少技巧;2)訓(xùn)練速度比較慢,在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu);深度學(xué)習(xí)訓(xùn)練過程不采用BP算法的原因(1)反饋調(diào)整時(shí),梯度越來越稀疏,從頂層越往下,誤差校正信號越來越小;(2)收斂易至局部最小,由于是采用隨機(jī)值初始化,當(dāng)初值是遠(yuǎn)離最優(yōu)區(qū)域時(shí)易導(dǎo)致這一情況;(3)BP算法需要有標(biāo)簽數(shù)據(jù)來訓(xùn)練,但大部分?jǐn)?shù)據(jù)是無標(biāo)簽的;深度學(xué)習(xí)訓(xùn)練過程第一步:采用自下而上的無監(jiān)督學(xué)習(xí)1)逐層構(gòu)建單層神經(jīng)元。2)每層采用wake-sleep算法進(jìn)行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào)整。這個(gè)過程可以看作是一個(gè)featurelearning的過程,是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分。深度學(xué)習(xí)訓(xùn)練過程wake-sleep算法:1)wake階段:認(rèn)知過程,通過下層的輸入特征(Input)和向上的認(rèn)知(Encoder)權(quán)重產(chǎn)生每一層的抽象表示(Code),再通過當(dāng)前的生成(Decoder)權(quán)重產(chǎn)生一個(gè)重建信息(Reconstruction),計(jì)算輸入特征和重建信息殘差,使用梯度下降修改層間的下行生成(Decoder)權(quán)重。也就是“如果現(xiàn)實(shí)跟我想象的不一樣,改變我的生成權(quán)重使得我想象的東西變得與現(xiàn)實(shí)一樣”。2)sleep階段:生成過程,通過上層概念(Code)和向下的生成(Decoder)權(quán)重,生成下層的狀態(tài),再利用認(rèn)知(Encoder)權(quán)重產(chǎn)生一個(gè)抽象景象。利用初始上層概念和新建抽象景象的殘差,利用梯度下降修改層間向上的認(rèn)知(Encoder)權(quán)重。也就是“如果夢中的景象不是我腦中的相應(yīng)概念,改變我的認(rèn)知權(quán)重使得這種景象在我看來就是這個(gè)概念”。深度學(xué)習(xí)訓(xùn)練過程EncoderDecoderInputImageClasslabele.g.FeaturesEncoderDecoderFeaturesEncoderDecoderAutoEncoder:深度學(xué)習(xí)訓(xùn)練過程第二步:自頂向下的監(jiān)督學(xué)習(xí)

這一步是在第一步學(xué)習(xí)獲得各層參數(shù)進(jìn)的基礎(chǔ)上,在最頂?shù)木幋a層添加一個(gè)分類器(例如羅杰斯特回歸、SVM等),而后通過帶標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí),利用梯度下降法去微調(diào)整個(gè)網(wǎng)絡(luò)參數(shù)。深度學(xué)習(xí)的第一步實(shí)質(zhì)上是一個(gè)網(wǎng)絡(luò)參數(shù)初始化過程。區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)初值隨機(jī)初始化,深度學(xué)習(xí)模型是通過無監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的,因而這個(gè)初值更接近全局最優(yōu),從而能夠取得更好的效果。深度學(xué)習(xí)的具體模型及方法自動編碼器(AutoEncoder)稀疏自動編碼器(SparseAutoEncoder)降噪自動編碼器(DenoisingAutoEncoders)深度學(xué)習(xí)的具體模型及方法EncoderDecoderInput(Image/Features)OutputFeaturese.g.Feed-back/

generative/

top-downpathFeed-forward/

bottom-uppath自動編碼器(AutoEncoder)深度學(xué)習(xí)的具體模型及方法σ(Wx)σ(WTz)(Binary)Inputx(Binary)Featuresze.g.自動編碼器(AutoEncoder)EncoderfiltersWSigmoidfunctionσ(.)DecoderfiltersWTSigmoidfunctionσ(.)深度學(xué)習(xí)的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)限制每次得到的表達(dá)code盡量稀疏限制每次得到的表達(dá)code盡量稀疏深度學(xué)習(xí)的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)FiltersFeaturesSparseCodingInput

Patch深度學(xué)習(xí)的具體模型及方法σ(Wx)DzInputPatchxSparseFeaturesze.g.EncoderfiltersWSigmoidfunctionσ(.)DecoderfiltersDL1SparsityTraining稀疏自動編碼器(SparseAutoEncoder)深度學(xué)習(xí)的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)1)Training階段:給定一系列的樣本圖片[x1,x2,…],我們需要學(xué)習(xí)得到一組基[Φ1,Φ2,…],也就是字典。

可使用K-SVD方法交替迭代調(diào)整a[k],Φ[k],直至收斂,從而可以獲得一組可以良好表示這一系列x的字典。深度學(xué)習(xí)的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)2)Coding階段:給定一個(gè)新的圖片x,由上面得到的字典,利用OMP算法求解一個(gè)LASSO問題得到稀疏向量a。這個(gè)稀疏向量就是這個(gè)輸入向量x的一個(gè)稀疏表達(dá)。深度學(xué)習(xí)的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)深度學(xué)習(xí)的具體模型及方法降噪自動編碼器(DenoisingAutoEncoders)在自動編碼器的基礎(chǔ)上,對訓(xùn)練數(shù)據(jù)加入噪聲,自動編碼器必須學(xué)習(xí)去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。因此,這就迫使編碼器去學(xué)習(xí)輸入信號的更加魯棒的表達(dá),這也是它的泛化能力比一般編碼器強(qiáng)的原因。深度學(xué)習(xí)的具體模型及方法Autoencoder(mostDeepLearningmethods)RBMs/DBMs [Lee/Salakhutdinov]Denoisingautoencoders [Ranzato]Predictivesparsedecomposition

[Ranzato]Decoder-onlySparsecoding [Yu]DeconvolutionalNets [Yu]

Encoder-onlyNeuralnets(supervised) [Ranzato]深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)(RestrictedBoltzmannMachine)定義:假設(shè)有一個(gè)二部圖,同層節(jié)點(diǎn)之間沒有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱藏層(h),如果假設(shè)所有的節(jié)點(diǎn)都是隨機(jī)二值(0,1值)變量節(jié)點(diǎn),同時(shí)假設(shè)全概率分布p(v,h)滿足Boltzmann分布,我們稱這個(gè)模型是RestrictedBoltzmannMachine(RBM)。深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)(RestrictedBoltzmannMachine)限制波爾茲曼機(jī)(RBM)是一種深度學(xué)習(xí)模型。深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)(RestrictedBoltzmannMachine)定義聯(lián)合組態(tài)(jointconfiguration)能量:這樣某個(gè)組態(tài)的聯(lián)合概率分布可以通過Boltzmann分布和這個(gè)組態(tài)的能量來確定:深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)(RestrictedBoltzmannMachine)給定隱層h的基礎(chǔ)上,可視層的概率確定:(可視層節(jié)點(diǎn)之間是條件獨(dú)立的)給定可視層v的基礎(chǔ)上,隱層的概率確定:深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)(RestrictedBoltzmannMachine)

待求問題:給定一個(gè)滿足獨(dú)立同分布的樣本集:D={v(1),v(2),…,v(N)},需要學(xué)習(xí)模型參數(shù)θ={W,a,b}。

求解:

最大似然估計(jì):我們需要選擇一個(gè)參數(shù),讓我們當(dāng)前的觀測樣本的概率最大對最大對數(shù)似然函數(shù)求導(dǎo),即可得到L最大時(shí)對應(yīng)的參數(shù)W:若隱藏層層數(shù)增加,可得到DeepBoltzmannMachine(DBM)深度學(xué)習(xí)的具體模型及方法DeepBoltzmannMachine(DBM)深度學(xué)習(xí)的具體模型及方法深信度網(wǎng)絡(luò)(DeepBeliefNetworks)DeepBeliefNetworks是在靠近可視層的部分使用貝葉斯信念網(wǎng)絡(luò)(即有向圖模型),而在最遠(yuǎn)離可視層的部分使用RestrictedBoltzmannMachine的模型。深度學(xué)習(xí)的具體模型及方法深信度網(wǎng)絡(luò)(DeepBeliefNetworks)深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)(ConvolutionalRBM)

CRBM是為識別二維圖像信息而特殊設(shè)計(jì)的一個(gè)多層感知器。概念示范:輸入圖像通過與m個(gè)可訓(xùn)練的濾波器和可加偏置進(jìn)行卷積,在C1層產(chǎn)生m個(gè)特征映射圖,然后特征映射圖中每組的n個(gè)像素再進(jìn)行求和,加權(quán)值,加偏置,通過一個(gè)Sigmoid函數(shù)得到m個(gè)S2層的特征映射圖。這些映射圖再進(jìn)過濾波得到C3層。這個(gè)層級結(jié)構(gòu)再和S2一樣產(chǎn)生S4。最終,這些像素值被光柵化,并連接成一個(gè)向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),得到輸出。深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)(ConvolutionalRBM)權(quán)值共享減少參數(shù)的方法:每個(gè)神經(jīng)元無需對全局圖像做感受,只需感受局部區(qū)域(FeatureMap),在高層會將這些感受不同局部的神經(jīng)元綜合起來獲得全局信息。每個(gè)神經(jīng)元參數(shù)設(shè)為相同,即權(quán)值共享,也即每個(gè)神經(jīng)元用同一個(gè)卷積核去卷積圖像。深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)(ConvolutionalRBM)隱層神經(jīng)元數(shù)量的確定神經(jīng)元數(shù)量與輸入圖像大小、濾波器大小和濾波器的滑動步長有關(guān)。例如,輸入圖像是1000x1000像素,濾波器大小是10x10,假設(shè)濾波器間沒有重疊,即步長為10,這樣隱層的神經(jīng)元個(gè)數(shù)就是(1000x1000)/(10x10)=10000個(gè)深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)(ConvolutionalRBM)多濾波器情形不同的顏色表示不同種類的濾波器每層隱層神經(jīng)元的個(gè)數(shù)按濾波器種類的數(shù)量翻倍每層隱層參數(shù)個(gè)數(shù)僅與濾波器大小、濾波器種類的多少有關(guān)例如:隱含層的每個(gè)神經(jīng)元都連接10x10像素圖像區(qū)域,同時(shí)有100種卷積核(濾波器)。則參數(shù)總個(gè)數(shù)為:(10x10+1)x100=10100個(gè)深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)(ConvolutionalRBM)卷積過程:用一個(gè)可訓(xùn)練的濾波器fx去卷積一個(gè)輸入的圖像(第一階段是輸入的圖像,后面的階段就是FeatureMap了),然后加一個(gè)偏置bx,得到卷積層Cx。子采樣過程:每鄰域n個(gè)像素通過池化(pooling)步驟變?yōu)橐粋€(gè)像素,然后通過標(biāo)量Wx+1加權(quán),再增加偏置bx+1,然后通過一個(gè)sigmoid激活函數(shù),產(chǎn)生一個(gè)大概縮小n倍的特征映射圖Sx+1。深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)(ConvolutionalRBM)CNN的關(guān)鍵技術(shù):局部感受野、權(quán)值共享、時(shí)間或空間子采樣CNN的優(yōu)點(diǎn):1、避免了顯式的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);2、同一特征映射面上的神經(jīng)元權(quán)值相同,從而網(wǎng)絡(luò)可以并行學(xué)習(xí),降低了網(wǎng)絡(luò)的復(fù)雜性;3、采用時(shí)間或者空間的子采樣結(jié)構(gòu),可以獲得某種程度的位移、尺度、形變魯棒性;3、輸入信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)能很好的吻合,在語音識別和圖像處理方面有著獨(dú)特優(yōu)勢。深度學(xué)習(xí)的具體模型及方法基于CRBM的深度學(xué)習(xí)框架深度學(xué)習(xí)性能比較DeepnetsVS.Boosting深度學(xué)習(xí)性能比較DeepnetsVS.ProbabilisticModels深度學(xué)習(xí)性能比較隨機(jī)文法模型SetofproductionrulesforobjectsZhu&Mumford,StochasticGrammarofImages,F&T2006自動學(xué)習(xí)人工指定[S.C.Zhuetal.]深度學(xué)習(xí)性能比較基于文法模型的物體檢測-R.Girshick,P.Felzenszwalb,D.McAllester,NIPS2011-Learnlocalappearance

&shape人工指定自動學(xué)習(xí)深度學(xué)習(xí)性能比較部件和結(jié)構(gòu)模型DefinedconnectivitygraphLearnappearance/relativeposition[Felzenszwalb&HuttenlocherCVPR’00][FischlerandR.Elschlager1973]人工指定自動學(xué)習(xí)深度學(xué)習(xí)性能比較基于部件與結(jié)構(gòu)的分層模型-Fidleretal.ECCV’10-Fidler&LeonardisCVPR’07人工指定自動學(xué)習(xí)深度學(xué)習(xí)性能比較遞歸和與圖模型-LeoZhu,YuanhaoChen,AlanYuille&collaboratorsRecursivecomposition,AND/ORgraphLearn#unitsatlayer人工指定自動學(xué)習(xí)深度學(xué)習(xí)性能比較自動編碼模型[Hintonetal.ICANN’11]反卷積網(wǎng)絡(luò)模型[Zeileretal.ICCV’11]-Explicitrepresentationofwhat/where人工指定自動學(xué)習(xí)深度學(xué)習(xí)性能比較神經(jīng)網(wǎng)絡(luò)Dedicated

pooling/LCN

layersNoseparationof

what/whereModality

independent

(e.g.speech,

images)[Leetal.,ICML’12]人工指定自動學(xué)習(xí)深度學(xué)習(xí)性能比較波爾茲曼機(jī)Homogenous

architectureNoseparationof

what/whereModality

independent

(e.g.speech,images)[Salakhutdinov&HintonAISTATS’09]人工指定自動學(xué)習(xí)深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識別上的應(yīng)用空間金字塔(SpatialPyramids)深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識別上的應(yīng)用實(shí)驗(yàn)在Caltech256數(shù)據(jù)集上,利用單特征識別,SparseCRBM性能最優(yōu)深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在音頻識別上的應(yīng)用ConvolutionalDBNforaudioMaxpoolingnode

DetectionnodesMaxpoolingnode

Detectionnodes深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在音頻識別上的應(yīng)用ConvolutionalDBNforaudio深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在音頻識別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在音頻識別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在視頻識別上的應(yīng)用SPACE-TIMEDEEPBELIEFNETWORKS深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在視頻識別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用如果模態(tài)間存在著內(nèi)在的聯(lián)系,即存在sharedRepresentation,那么理論上模型應(yīng)支持訓(xùn)練一個(gè)模態(tài),而測試另一個(gè)模態(tài)時(shí),仍能獲得好的分類性能。深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多任務(wù)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多任務(wù)學(xué)習(xí)中的應(yīng)用在深度學(xué)習(xí)模型中,對于相關(guān)任務(wù)的聯(lián)合學(xué)習(xí),往往會取得較好的特征表達(dá);多任務(wù)聯(lián)合學(xué)習(xí),能夠增強(qiáng)損失函數(shù)的作用效能;比如:單獨(dú)進(jìn)行人臉檢測會比較難(光照、遮擋等因素),但是當(dāng)人臉檢測與人臉識別這兩個(gè)相關(guān)的任務(wù)聯(lián)合學(xué)習(xí)時(shí),人臉檢測的難度反而降低了。深度學(xué)習(xí)的應(yīng)用基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用深度學(xué)習(xí)的應(yīng)用基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用特征共享深度學(xué)習(xí)的應(yīng)用基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用大尺度數(shù)據(jù)集:樣本總數(shù)>100M,類別總數(shù)>10K,特征維度>10K深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用模型的并行運(yùn)算化深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用分布式深度學(xué)習(xí)模型深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用分布式深度學(xué)習(xí)模型深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用參數(shù)個(gè)數(shù)達(dá)到1.15billion,若不能并行優(yōu)化參數(shù),任務(wù)無法完成!深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)的State-of-the-art展望未來需解決的問題:對于一個(gè)特定的框架,多少維的輸入它可以表現(xiàn)得較優(yōu)?對捕捉短時(shí)或者長時(shí)間的時(shí)間依賴,哪種架構(gòu)才是有效的?如何對于一個(gè)給定的深度學(xué)習(xí)架構(gòu),融合多種感知的信息?如何分辨和利用學(xué)習(xí)獲得的中、高層特征語義知識?有什么正確的機(jī)理可以去增強(qiáng)一個(gè)給定的深度學(xué)習(xí)架構(gòu),以改進(jìn)其魯棒性和對變形及數(shù)據(jù)丟失的不變性?模型方面是否有其他更為有效且有理論依據(jù)的深度模型學(xué)習(xí)算法?是否存在更有效的可并行訓(xùn)練算法?參考文獻(xiàn)Tutorials&BackgroundMaterial–YoshuaBengio,LearningDeepArchitecturesforAI,FoundationsandTrendsinMachineLearning,2(1),pp.1-127,2009.–LeCun,Chopra,Hadsell,Ranzato,Huang:ATutorialonEnergy-BasedLearning,inBakir,G.andHofman,T.andScholkopf,B.andSmola,A.andTaskar,B.(Eds),PredictingStructuredData,MITPress,2006ConvolutionalNets–LeCun,Bottou,BengioandHaffner:Gradient-BasedLearningAppliedtoDocumentRecognition,ProceedingsoftheIEEE,86(11):2278-2324,November1998–Jarrett,Kavukcuoglu,Ranzato,LeCun:WhatistheBestMulti-StageArchitectureforObjectRecognition?,Proc.InternationalConferenceonComputerVision(ICCV'09),IEEE,2009

–Kavukcuoglu,Sermanet,Boureau,Gregor,Mathieu,LeCun:LearningConvolutionalFeatureHierachiesforVisualRecognition,AdvancesinNeuralInformationProcessingSystems(NIPS2010),23,2010參考文獻(xiàn)UnsupervisedLearning–ICAwithReconstructionCostforEfficientOvercompleteFeatureLearning.Le,Karpenko,Ngiam,Ng.InNIPS2011–Rifai,Vincent,Muller,Glorot,Bengio,ContractingAuto-Encoders:Explicitinvarianceduringfeatureextraction,in:ProceedingsoftheTwenty-eightInternationalConferenceonMachineLearning(ICML'11),2011-Vincent,Larochelle,Lajoie,Bengio,Manzagol,StackedDenoisingAutoencoders:LearningUsefulRepresentationsinaDeepNetworkwithaLocalDenoisingCriterion,JournalofMachineLearningResearch,11:3371--3408,2010.-Gregor,Szlam,LeCun:StructuredSparseCodingviaLateralInhibition,AdvancesinNeuralInformationProcessingSystems(NIPS2011),24,2011-Kavukcuoglu,Ranzato,LeCun."FastInferenceinSparseCodingAlgorithmswithApplicationstoObjectRecognition".ArXiv1010.34672008-Hinton,Krizhevsky,Wang,TransformingAuto-encoders,ICANN,2011Multi-modalLearning–Multimodaldeeplearning,Ngiam,Khosla,Kim,Nam,Lee,Ng.InProceedingsoftheTwenty-EighthInternationalConferenceonMachineLearning,2011.參考文獻(xiàn)LocallyConnectedNets

–Gregor,LeCun“Emergenceofcomplex-likecellsinatemporalproductnetworkwithlocalreceptivefields”Arxiv.2009–Ranzato,Mnih,Hinton“GeneratingmorerealisticimagesusinggatedMRF's”NIPS2010–Le,Ngiam,Chen,Chia,Koh,Ng“Tiledconvolutionalneuralnetworks”NIPS2010DistributedLearning–Le,Ranzato,Monga,Devin,Corrado,Chen,Dean,Ng."BuildingHigh-LevelFeaturesUsingLargeScaleUnsupervisedLearning".InternationalConferenceofMachineLearning(ICML2012),Edinburgh,2012.PapersonSceneParsing–Farabet,Couprie,Najman,LeCun,“SceneParsingwithMultiscaleFeatureLearning,PurityTrees,andOptimalCovers”,inProc.oftheInternationalConferenceonMachineLearning(ICML'12),Edinburgh,Scotland,2012.-Socher,Lin,Ng,Manning,“ParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworks”.InternationalConferenceofMachineLearning(ICML2011)2011.參考文獻(xiàn)PapersonObjectRecognition-Boureau,LeRoux,Bach,Ponce,LeCun:Askthelocals:multi-waylocalpoolingforimagerecognition,Proc.ICCV2011-Sermanet,LeCun:TrafficSignRecognitionwithMulti-ScaleConvolutionalNetworks,ProceedingsofInternationalJointConferenceonNeuralNetworks(IJCNN'11)-Ciresan,Meier,Gambardella,Schmidhuber.ConvolutionalNeuralNetworkCommitteesForHandwrittenCharacterClassification.11thInternationalConferenceonDocumentAnalysisandRecognition(ICDAR2011),Beijing,China.-Ciresan,Meier,Masci,Gambardella,Schmidhuber.Flexible,HighPerformanceConvolutionalNeuralNetworksforImageClassification.InternationalJointConferenceonArtificialIntelligenceIJCAI-2011.PapersonActionRecognition–Learninghierarchicalspatio-temporalfeaturesforactionrecognitionwithindependentsubspaceanalysis,Le,Zou,Yeung,Ng.CVPR2011PapersonSegmentation–Turaga,Briggman,Helmstaedter,Denk,SeungMaximinlearningofimagesegmentation.NIPS,2009.參考文獻(xiàn)PapersonVisionforRobotics–Hadsell,Sermanet,Scoffier,Erkan,Kavackuoglu,Muller,LeCun:LearningLong-RangeVisionforAutonomousOff-RoadDriving,JournalofFieldRobotics,26(2):120-144,February2009,DeepConvexNets&Deconv-Nets–Deng,Yu.“DeepConvexNetwork:AScalableArchitectureforSpeechPatternClassification.”Interspeech,2011.-Zeiler,Taylor,Fergus"AdaptiveDeconvolutionalNetworksforMidandHighLevelFeatureLearning."ICCV.2011PapersonBiologicalInspiredVision–Serre,Wolf,Bileschi,Riesenhuber,Poggio.RobustObjectRecognitionwithCortex-likeMechanisms,IEEETransactionsonPatternAnalysisandMachineIntelligence,29,3,411-426,2007.-Pinto,Doukhan,DiCarlo,Cox"Ahigh-throughputscreeningapproachtodiscoveringgoodformsofbiologicallyinspiredvisualrepresentation."{PLoS}ComputationalBiology.2009參考文獻(xiàn)PapersonEmbeddedConvNetsforReal-TimeVisionApplications–Farabet,Martini,Corda,Akselrod,Culurciello,LeCun:NeuFlow:ARuntimeReconfigurableDataflowProcessorforVision,WorkshoponEmbeddedComputerVision,CVPR2011PapersonImageDenoisingUsingNeuralNets–Burger,Schuler,Harmeling:ImageDenoisng:CanPlainNeuralNetworksCompetewithBM3D?,ComputerVisionandPatternRecognition,CVPR2012,相關(guān)程序軟件及鏈接DeepLearningwebsite

–/MatlabcodeforR-ICAunsupervisedalgorithm–/Python-basedlearninglibrary–/C++codeforConvNets

–/software/theano/LushlearninglibrarywhichincludesConvNets–/~quocle/rica_release.ziplearninglibrarythatsupportsneuralnettraining–http://www.torch.chCodeusedtogeneratedemoforthistutorialRanzato–/~fergus/tutorials/deep_learning_cvpr12/GlobalContrastbasedSalientRegionDetectionMing-MingCheng,TsinghuaUniversityitCVPR2011GlobalContrastbasedSalientRegionDetection自動化學(xué)院匯報(bào)人:付忠敏MainContents1

234基于直方圖對比度的檢測方法基于區(qū)域?qū)Ρ榷鹊臋z測方法總結(jié)與展望顯著區(qū)域檢測及分析方法SalientRegionofimage顯著性源于視覺的獨(dú)特性、不可預(yù)測性、稀缺性以及奇異性,并且是由顏色、梯度、邊緣、邊界等圖像所致。人們普遍認(rèn)為,大腦更容易響應(yīng)圖像中的高對比度區(qū)域的刺激。文章作者主要依據(jù)圖像的對比度來進(jìn)行顯著性區(qū)域檢測。什么是圖像的顯著性區(qū)域?SalientRegionDetectionThreePrinciples1全局對比傾向于將大范圍的目標(biāo)和周圍環(huán)境分離,這種對比優(yōu)于只在輪廓附近產(chǎn)生較高顯著性的局部對比度。3一個(gè)區(qū)域的對比度,主要由它和周圍區(qū)域的對比度決定,相距很遠(yuǎn)的區(qū)域起的作用較小。2全局的考慮可以為圖像中相似的區(qū)域分配一個(gè)相近的顯著性值,并且均勻的突出目標(biāo)。Twomethodsofsalientregiondetection1HC(HistogramContrast)算法視覺系統(tǒng)對圖像中像素的色彩差異很敏感。據(jù)此,根據(jù)源圖像的顏色統(tǒng)計(jì)特征提出了基于直方圖對比的圖像像素顯著性值檢測方法。2RC(RegionContrast)算法人們會更加注意圖像中與周圍物體對比度大的區(qū)域,除對比度外,相鄰區(qū)域的高對比度比很遠(yuǎn)區(qū)域的高對比度更容易導(dǎo)致一個(gè)區(qū)域引起人類的注意。

Saliencyvalueofpixel

一個(gè)像素的顯著性值用它和圖像中其他像素的顏色的對比度來定義;上式展開得:什么是Lab顏色空間?

在這種定義下,相同顏色的像素點(diǎn)具有相同的顯著性值,對式子進(jìn)行重排,將相同顏色的像素歸到一起,得到每種顏色的顯著性值。Cl表示像素Ik的顏色;n為圖像所含顏色總數(shù)目;fj為Cj在圖像的所有顏色中出現(xiàn)的概率;D(cl,cj)表示Lab顏色空間中的顏色距離。Saliencyvalueofcolor

Saliencyvalueofcolor國旗中像素Ik的顏色是黃色或者紅色,圖像所含顏色總數(shù)目2;根據(jù)公式計(jì)算:黃色出現(xiàn)的概率接近于0紅色出現(xiàn)的概率接近于1Zhai和Shah僅僅使用了亮度來減少顏色的數(shù)量,在這個(gè)基礎(chǔ)上他們提出了用于圖像顯著區(qū)域檢測的LC檢測。先將每個(gè)顏色通道量化成12個(gè)份,將顏色減少到12*12*12,再將出現(xiàn)頻率較小的顏色丟掉,保留高頻出現(xiàn)的顏色。然而,真彩色空間包含256*256*256種可能的顏色(16萬色),比圖像的像素總數(shù)還多,計(jì)算代價(jià)太高。方法1方法2Saliencyvalueofcolor

LC算法缺陷在于忽略了顏色信息的可區(qū)別性。自然圖像中的顏色只占據(jù)整個(gè)色彩空間很小的一部分,將出現(xiàn)頻率很低的顏色丟掉,保留高頻出現(xiàn)的顏色。量化后的圖像顏色更少,但仍能保證顯著性檢測所需的視覺質(zhì)量。Colorhistogramquantize顏色量化樣例

HC方法速度快,并且產(chǎn)生細(xì)節(jié)精確的結(jié)果,均勻地突出了整個(gè)顯著性區(qū)域。SalientregiondetectionbasedonhistogramcontrastHC算法檢測顯著區(qū)域樣例

空間關(guān)系在引起人類注意力方面也起到非常大的作用。相鄰區(qū)域的高對比度比很遠(yuǎn)區(qū)域的高對比度更容易導(dǎo)致一個(gè)區(qū)域引起人類的注意?;诖耍岢龌趨^(qū)域?qū)Ρ榷鹊娘@著性區(qū)域檢測算法。(1)先將圖像分割為若干區(qū)域(參考文獻(xiàn):Efficientgraph-basedimagesegmentation.2004,IJCV),再為每個(gè)區(qū)域建立顏色直方圖;(2)計(jì)算各個(gè)區(qū)域之間的顏色對比度,用每個(gè)區(qū)域和其他區(qū)域的對比度加權(quán)和來定義其顯著性值(權(quán)值由兩個(gè)區(qū)域的空間距離決定)。RegionContrast

圖像分割得到左圖,不考慮距離權(quán)值得到中-左圖,考慮距離權(quán)值得到中-右圖,二值化得到右圖。Region

contrastbasedsalientregiondetectionSaliencyvalueofregion

兩個(gè)區(qū)域r1和r2的顏色距離:對每個(gè)區(qū)域rk定義顯著性值:Saliencyvalueofregion

引入空間權(quán)值,將空間信息加進(jìn)來,增加區(qū)域的空間影響效果。對于任意區(qū)域rk,基于空間加權(quán)區(qū)域?qū)Ρ?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論