深度學習及其視覺應用_第1頁
深度學習及其視覺應用_第2頁
深度學習及其視覺應用_第3頁
深度學習及其視覺應用_第4頁
深度學習及其視覺應用_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

深度學習及其視覺應用丁貴廣,GuiguangDing清華大學軟件學院dinggg@深度學習及視覺應用深度學習概述視覺應用深度學習神經網(wǎng)絡是多層函數(shù)嵌套形成的模型受到生物神經機制的啟發(fā)

構建多隱層的模型深度學習本質:通過構建多隱層的模型和海量訓練數(shù)據(jù)〔可為無標簽數(shù)據(jù)〕,來學習更有用的特征,從而最終提升分類或預測的準確性?!吧疃饶P通暿鞘侄危疤卣鲗W習〞是目的。與淺層學習區(qū)別:1〕強調了模型結構的深度,通常有5-10多層的隱層節(jié)點;2〕明確突出了特征學習的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易。與人工規(guī)那么構造特征的方法相比,利用大數(shù)據(jù)來學習特征,更能夠刻畫數(shù)據(jù)的豐富內在信息。深度學習的里程碑2006年,加拿大多倫多大學教授、機器學習領域的泰斗GeoffreyHinton在《科學》上發(fā)表論文提出深度學習主要觀點:1〕多隱層的人工神經網(wǎng)絡具有優(yōu)異的特征學習能力,學習得到的特征對數(shù)據(jù)有更本質的刻畫,從而有利于可視化或分類;2〕深度神經網(wǎng)絡在訓練上的難度,可以通過“逐層初始化〞〔layer-wisepre-training〕來有效克服,逐層初始化可通過無監(jiān)督學習實現(xiàn)的。DeepLearning的效果CNN卷積神經網(wǎng)絡〔ConvolutionalNeuralNetworks,CNN〕深度學習的具體模型及方法深度學習的具體模型及方法卷積波爾茲曼機〔ConvolutionalRBM〕局部感受權值共享減少參數(shù)的方法:每個神經元無需對全局圖像做感受,只需感受局部區(qū)域〔FeatureMap〕,在高層會將這些感受不同局部的神經元綜合起來獲得全局信息。每個神經元參數(shù)設為相同,即權值共享,也即每個神經元用同一個卷積核去卷積圖像。深度學習的具體模型及方法卷積波爾茲曼機〔ConvolutionalRBM〕隱層神經元數(shù)量確實定神經元數(shù)量與輸入圖像大小、濾波器大小和濾波器的滑動步長有關。例如,輸入圖像是1000x1000像素,濾波器大小是10x10,假設濾波器間沒有重疊,即步長為10,這樣隱層的神經元個數(shù)就是(1000x1000)/(10x10)=10000個深度學習的具體模型及方法卷積波爾茲曼機〔ConvolutionalRBM〕多濾波器情形不同的顏色表示不同種類的濾波器每層隱層神經元的個數(shù)按濾波器種類的數(shù)量翻倍每層隱層參數(shù)個數(shù)僅與濾波器大小、濾波器種類的多少有關例如:隱含層的每個神經元都連接10x10像素圖像區(qū)域,同時有100種卷積核〔濾波器〕。那么參數(shù)總個數(shù)為:〔10x10+1〕x100=10100個深度學習的具體模型及方法卷積波爾茲曼機〔ConvolutionalRBM〕CNN的關鍵技術:局部感受野、權值共享、時間或空間子采樣CNN的優(yōu)點:1、防止了顯式的特征抽取,而隱式地從訓練數(shù)據(jù)中進行學習;2、同一特征映射面上的神經元權值相同,從而網(wǎng)絡可以并行學習,降低了網(wǎng)絡的復雜性;3、采用時間或者空間的子采樣結構,可以獲得某種程度的位移、尺度、形變魯棒性;3、輸入信息和網(wǎng)絡拓撲結構能很好的吻合,在語音識別和圖像處理方面有著獨特優(yōu)勢。對象識別——CNN5個卷積層和2個全連接層每層卷積核個數(shù)96,256,384,384,256監(jiān)督學習——卷積神經網(wǎng)絡96個低級卷積核監(jiān)督學習——卷積神經網(wǎng)絡網(wǎng)絡龐大,但容易收斂唯一不需要特定初始化參數(shù)就可以訓練成功比較容易并行化訓練,并且可以利用GPU加速在計算機視覺〔CV〕領域取得成功深度學習及視覺應用深度學習概述深度視覺應用Classification

Detection

SegmentationImageCaptioning&ImageGeneratorImageCaptioningImageGeneratorCNNModelConvolutionalNeuralNetworkBasedonCaffe

FrameworkBasicModelZFNetVGGNetGoogleNetResNetDenseNetSqueezeNetClassificationObjectDetection模型:R-CNN,FastR-CNN,FasterR-CNN,YOLO,SSD等知名框架精度:PASCALVOC上的mAP,從R-CNN的53.3%,F(xiàn)astRCNN的68.4%,F(xiàn)asterR-CNN的75.9%,F(xiàn)asterRCNN結合殘差網(wǎng)〔Resnet-101〕,到達83.8%速度:從最初的RCNN模型,處理一張圖片要用2秒多,到FasterRCNN的198毫秒/張,再到YOLO的155幀/秒,最后出來了精度和速度都較高的SSD,精度75.1%,速度23幀/秒ObjectDetection:R-CNN(2023)ObjectDetection:FastR-CNN(2023)ResultsFasterR-CNNFasterR-CNNFasterRCNN物體檢測系統(tǒng)Problem:

SmallObjectDetectionObjectRecognitionPersonandCarDetectionBasedonFasterR-CNNInputconv3conv4conv5fc6poolingnormalizeconcatenateconvoluteIRNNContextInformationSkipLayerPoolingImprovementBasedonFasterR-CNNImprovementBasedonFasterR-CNN擴大輸入圖像分辨率修改Anchor的長寬比HardNegativeSampleMining。。。SomeResultsSomeResultsVOCObjectDetectionTaskSomeResultsPedestrianDetection&TrackingCarDetection&TrackingDetectionandClassificationDetectionandClassification行人檢索與屬性識別監(jiān)控視頻分析原型系統(tǒng)——系統(tǒng)演示監(jiān)控視頻中的汽車分類FaceDetection&RecognitionSegmentationFullyConvolutionalNetworksFullyConvolutionalNetworksSemanticSegmentation檢測與分割語義分割ImageCaptioning

ImageCaptioningthebigbenclocktowertoweringoverthecityofLondonBasedStructure-NIC

Encoder-decodermodel

NIC(NeuralImageCaption)model

CNN:

encodetheimageforsentencesLSTM:

decodetheimagevectortoasentenceModelGAN及ReinforcementLearning生成器網(wǎng)絡編碼器-解碼器結構NIC模型為圖像生成描述解碼器網(wǎng)絡分類網(wǎng)絡分辨句子是真實數(shù)據(jù)還是生成的有多種結構可以選擇Gated-CNNText-CNN基準值網(wǎng)絡〔MLP〕優(yōu)化分布;減少策略梯度過程中估計的方差ExperimentsDataset

MSCOCO123,287imageslabeledwi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論