深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)綜述_第1頁(yè)
深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)綜述_第2頁(yè)
深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)綜述_第3頁(yè)
深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)綜述_第4頁(yè)
深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)綜述_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)綜述胡玉針170219模式識(shí)別施杰170236檢測(cè)本報(bào)告主要講述在計(jì)算機(jī)視覺(jué)領(lǐng)域深度學(xué)習(xí)如何逐漸占據(jù)主流以及傳統(tǒng)的識(shí)別算法的優(yōu)缺點(diǎn),較為詳細(xì)的介紹了CNN卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu),簡(jiǎn)單介紹了深度學(xué)習(xí)在視覺(jué)領(lǐng)域的應(yīng)用范圍。希望讓大家了解這個(gè)領(lǐng)域的一些基本概念。水平有限,難免有錯(cuò)誤的見(jiàn)解,希望不要誤導(dǎo)大家。概述

人工智能是人類一個(gè)非常美好的夢(mèng)想,跟星際漫游和長(zhǎng)生不老一樣。我們想制造出一種機(jī)器,使得它跟人一樣具有一定的對(duì)外界事物感知能力,比如看見(jiàn)世界。圖靈在1950年的論文里,提出圖靈測(cè)試的設(shè)想,即,隔墻對(duì)話,你將不知道與你談話的,是人還是電腦。這無(wú)疑給計(jì)算機(jī),尤其是人工智能,預(yù)設(shè)了一個(gè)很高的期望值。但是半個(gè)世紀(jì)過(guò)去了,人工智能的進(jìn)展,遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到圖靈試驗(yàn)的標(biāo)準(zhǔn)。這不僅讓多年翹首以待的人們,心灰意冷,認(rèn)為人工智能是忽悠,相關(guān)領(lǐng)域是―偽科學(xué)。50多年時(shí)間有無(wú)數(shù)科學(xué)家提出很多機(jī)器學(xué)習(xí)的算法,試圖讓計(jì)算機(jī)具有與人一樣的智力水平,但直到2006年深度學(xué)習(xí)算法的成功,才帶來(lái)了一絲解決的希望。眾星捧月的深度學(xué)習(xí)

深度學(xué)習(xí)在很多學(xué)術(shù)領(lǐng)域,比非深度學(xué)習(xí)算法往往有20-30%成績(jī)的提高。很多大公司也逐漸開(kāi)始出手投資這種算法,并成立自己的深度學(xué)習(xí)團(tuán)隊(duì),其中投入最大的就是谷歌,2008年6月披露了谷歌腦項(xiàng)目。2014年1月谷歌收購(gòu)DeepMind,然后2016年3月其開(kāi)發(fā)的Alphago算法在圍棋挑戰(zhàn)賽中,戰(zhàn)勝了韓國(guó)九段棋手李世石,證明深度學(xué)習(xí)設(shè)計(jì)出的算法可以戰(zhàn)勝這個(gè)世界上最強(qiáng)的選手。在硬件方面,Nvidia最開(kāi)始做顯示芯片,但從2006及2007年開(kāi)始主推用GPU芯片進(jìn)行通用計(jì)算,它特別適合深度學(xué)習(xí)中大量簡(jiǎn)單重復(fù)的計(jì)算量。目前很多人選擇Nvidia的CUDA工具包進(jìn)行深度學(xué)習(xí)軟件的開(kāi)發(fā)。微軟從2012年開(kāi)始,利用深度學(xué)習(xí)進(jìn)行機(jī)器翻譯和中文語(yǔ)音合成工作,其人工智能小娜背后就是一套自然語(yǔ)言處理和語(yǔ)音識(shí)別的數(shù)據(jù)算法。

百度在2013年宣布成立百度研究院,其中最重要的就是百度深度學(xué)習(xí)研究所,當(dāng)時(shí)招募了著名科學(xué)家余凱博士。不過(guò)后來(lái)余凱離開(kāi)百度,創(chuàng)立了另一家從事深度學(xué)習(xí)算法開(kāi)發(fā)的公司地平線。Facebook和Twitter也都各自進(jìn)行了深度學(xué)習(xí)研究,其中前者攜手紐約大學(xué)教授YannLecun,建立了自己的深度學(xué)習(xí)算法實(shí)驗(yàn)室;2015年10月,F(xiàn)acebook宣布開(kāi)源其深度學(xué)習(xí)算法框架,即Torch框架。Twitter在2014年7月收購(gòu)了Madbits,為用戶提供高精度的圖像檢索服務(wù)。機(jī)器學(xué)習(xí)需要解決的問(wèn)題?傳統(tǒng)計(jì)算機(jī)視覺(jué)算法

特征感知

圖像預(yù)處理

特征提取

特征篩選

推理預(yù)測(cè)與識(shí)別。中間的特征提取,特征篩選主要是人工選取特征:傳統(tǒng)的計(jì)算機(jī)識(shí)別方法把特征提取和分類器設(shè)計(jì)分開(kāi)來(lái)做,然后在應(yīng)用時(shí)再合在一起,比如如果輸入是一個(gè)摩托車圖像的話,首先要有一個(gè)特征表達(dá)或者特征提取的過(guò)程,然后把表達(dá)出來(lái)的特征放到學(xué)習(xí)算法中進(jìn)行分類的學(xué)習(xí)。最著名的SIFT算子,即所謂的對(duì)尺度旋轉(zhuǎn)保持不變的算子。它被廣泛地應(yīng)用在圖像比對(duì),特別是所謂的structure

frommotion這些應(yīng)用中,有一些成功的應(yīng)用例子。另一個(gè)是HoG算子,它可以提取物體,比較魯棒的物體邊緣,在物體檢測(cè)中扮演著重要的角色。這些算子還包括Textons,Spinimage,RIFT和GLOH,都是在深度學(xué)習(xí)誕生之前或者深度學(xué)習(xí)真正的流行起來(lái)之前,占領(lǐng)視覺(jué)算法的主流。幾個(gè)(半)成功例子

一是八九十年代的指紋識(shí)別算法,它已經(jīng)非常成熟,一般是在指紋的圖案上面去尋找一些關(guān)鍵點(diǎn),尋找具有特殊幾何特征的點(diǎn),然后把兩個(gè)指紋的關(guān)鍵點(diǎn)進(jìn)行比對(duì),判斷是否匹配。然后是2001年基于Haar的人臉檢測(cè)算法,在當(dāng)時(shí)的硬件條件下已經(jīng)能夠達(dá)到實(shí)時(shí)人臉檢測(cè),我們現(xiàn)在所有手機(jī)相機(jī)里的人臉檢測(cè),都是基于它或者它的變種。第三個(gè)是基于HoG特征的物體檢測(cè),它和所對(duì)應(yīng)的SVM分類器組合起來(lái)的就是著名的DPM算法。DPM算法在物體檢測(cè)上超過(guò)了所有的算法,取得了比較不錯(cuò)的成績(jī)。人工選擇特征存在的問(wèn)題:大量的經(jīng)驗(yàn),需要你對(duì)這個(gè)領(lǐng)域和數(shù)據(jù)特別了解大量的調(diào)試工作。說(shuō)白了就是需要一點(diǎn)運(yùn)氣另一個(gè)難點(diǎn)在于,你不只需要手工設(shè)計(jì)特征,還要在此基礎(chǔ)上有一個(gè)比較合適的分類器算法。同時(shí)設(shè)計(jì)特征然后選擇一個(gè)分類器,這兩者合并達(dá)到最優(yōu)的效果,幾乎是不可能完成的任務(wù)。是否可以自動(dòng)的選擇特征?即輸入某一個(gè)模型的時(shí)候,輸入只是圖片,輸出就是它自己的標(biāo)簽。比如輸入一個(gè)明星的頭像,出來(lái)的標(biāo)簽就是一個(gè)50維的向量(如果要在50個(gè)人里識(shí)別的話),其中對(duì)應(yīng)明星的向量是1,其他的位置是0。人類又是怎么識(shí)別物體的?1981年諾貝爾醫(yī)學(xué)生理學(xué)獎(jiǎng)?lì)C發(fā)給了DavidHubel,一位神經(jīng)生物學(xué)家。他的主要研究成果是發(fā)現(xiàn)了視覺(jué)系統(tǒng)信息處理機(jī)制,證明大腦的可視皮層是分級(jí)的。他的貢獻(xiàn)主要有兩個(gè),一是他認(rèn)為人的視覺(jué)功能一個(gè)是抽象,一個(gè)是迭代。抽象就是把非常具體的形象的元素,即原始的光線像素等信息,抽象出來(lái)形成有意義的概念。這些有意義的概念又會(huì)往上迭代,變成更加抽象,人可以感知到的抽象概念。像素是沒(méi)有抽象意義的,但人腦可以把這些像素連接成邊緣,邊緣相對(duì)像素來(lái)說(shuō)就變成了比較抽象的概念;邊緣進(jìn)而形成球形,球形然后到氣球,又是一個(gè)抽象的過(guò)程,大腦最終就知道看到的是一個(gè)氣球。再談如何識(shí)別摩托車?看到圖片中的摩托車,我們可能在腦子里就幾微秒的時(shí)間,但是經(jīng)過(guò)了大量的神經(jīng)元抽象迭代。對(duì)計(jì)算機(jī)來(lái)說(shuō)最開(kāi)始看到的根本也不是摩托車,而是RGB圖像三個(gè)通道上不同的數(shù)字。所謂的特征或者視覺(jué)特征,就是把這些數(shù)值給綜合起來(lái)用統(tǒng)計(jì)或非統(tǒng)計(jì)的形式,把摩托車的部件或者整輛摩托車表現(xiàn)出來(lái)。深度學(xué)習(xí)的流行之前,大部分的設(shè)計(jì)圖像特征就是基于此,即把一個(gè)區(qū)域內(nèi)的像素級(jí)別的信息綜合表現(xiàn)出來(lái),利于后面的分類學(xué)習(xí)。如果要完全模擬人腦,我們也要模擬抽象和遞歸迭代的過(guò)程,把信息從最細(xì)瑣的像素級(jí)別,抽象到“種類”的概念,讓人能夠接受。CNN卷積神經(jīng)網(wǎng)絡(luò)

概述典型的深度學(xué)習(xí)模型就是很深層的神經(jīng)網(wǎng)絡(luò),包含多個(gè)隱含層,多隱層的神經(jīng)網(wǎng)絡(luò)很難直接使用BP算法進(jìn)行直接訓(xùn)練,因?yàn)榉聪騻鞑フ`差時(shí)往往會(huì)發(fā)散,很難收斂CNN節(jié)省訓(xùn)練開(kāi)銷的方式是權(quán)值共享weightsharing,讓一組神經(jīng)元使用相同的權(quán)值主要用于圖像識(shí)別領(lǐng)域卷積(Convolution)特征提取

卷積核(ConvolutionKernel),也叫過(guò)濾器filter,由對(duì)應(yīng)的權(quán)值W和偏置b體現(xiàn)下圖是3x3的卷積核在5x5的圖像上做卷積的過(guò)程,就是矩陣做點(diǎn)乘之后的和

第i個(gè)隱含單元的輸入就是:

,其中

就是與過(guò)濾器filter過(guò)濾到的圖片另外上圖的步長(zhǎng)stride為1,就是每個(gè)filter每次移動(dòng)的距離卷積特征提取的原理卷積特征提取利用了自然圖像的統(tǒng)計(jì)平穩(wěn)性,這一部分學(xué)習(xí)的特征也能用在另一部分上,所以對(duì)于這個(gè)圖像上的所有位置,我們都能使用同樣的學(xué)習(xí)特征。當(dāng)有多個(gè)filter時(shí),我們就可以學(xué)到多個(gè)特征,例如:輪廓、顏色等多個(gè)過(guò)濾器filter(卷積核)池化(Pooling)也叫做下采樣Pooling過(guò)程把提取之后的特征看做一個(gè)矩陣,并在這個(gè)矩陣上劃分出幾個(gè)不重合的區(qū)域,然后在每個(gè)區(qū)域上計(jì)算該區(qū)域內(nèi)特征的均值或最大值,然后用這些均值或最大值參與后續(xù)的訓(xùn)練

最大Pooling的方法之后的結(jié)果Pooling的好處很明顯就是減少參數(shù)Pooling就有平移不變性((translationinvariant)如圖featuremap是12x12大小的圖片,Pooling區(qū)域?yàn)?x6,所以池化后得到的featuremap為2x2,假設(shè)白色像素值為1,灰色像素值為0,若采用maxpooling之后,左上角窗口值為1Pooling的方法中average方法對(duì)背景保留更好,max對(duì)紋理提取更好深度學(xué)習(xí)可以進(jìn)行多次卷積、池化操作激活層

在每次卷積操作之后一般都會(huì)經(jīng)過(guò)一個(gè)非線性層,也是激活層現(xiàn)在一般選擇是ReLu,層次越深,相對(duì)于其他的函數(shù)效果較好,還有Sigmod,tanh函數(shù)等sigmod和tanh都存在飽和的問(wèn)題,如上圖所示,當(dāng)x軸上的值較大時(shí),對(duì)應(yīng)的梯度幾乎為0,若是利用BP反向傳播算法,可能造成梯度消失的情況,也就學(xué)不到東西了全連接層Fullyconnectedlayer

將多次卷積和池化后的圖像展開(kāi)進(jìn)行全連接,如右圖所示。接下來(lái)就可以通過(guò)BP反向傳播進(jìn)行訓(xùn)練了所以總結(jié)起來(lái),結(jié)構(gòu)可以是這樣的操作的實(shí)例:LeNet網(wǎng)絡(luò)

Le顧名思義就是指人工智能領(lǐng)域的大牛Lecun。這個(gè)網(wǎng)絡(luò)是深度學(xué)習(xí)網(wǎng)絡(luò)的最初原型,因?yàn)橹暗木W(wǎng)絡(luò)都比較淺,它較深的。LeNet在98年就發(fā)明出來(lái)了,當(dāng)時(shí)Lecun在AT&T的實(shí)驗(yàn)室,他用這一網(wǎng)絡(luò)進(jìn)行字母識(shí)別,達(dá)到了非常好的效果。怎么構(gòu)成呢?輸入圖像是32×32的灰度圖,第一層經(jīng)過(guò)了一組卷積和,生成了6個(gè)28X28的featuremap,然后經(jīng)過(guò)一個(gè)池化層,得到得到6個(gè)14X14的featuremap,然后再經(jīng)過(guò)一個(gè)卷積層,生成了16個(gè)10X10的卷積層,再經(jīng)過(guò)池化層生成16個(gè)5×5的featuremap。從最后16個(gè)5X5的featuremap開(kāi)始,經(jīng)過(guò)了3個(gè)全連接層,達(dá)到最后的輸出,輸出就是標(biāo)簽空間的輸出。由于設(shè)計(jì)的是只要對(duì)0到9進(jìn)行識(shí)別,所以輸出空間是10,如果要對(duì)10個(gè)數(shù)字再加上26個(gè)大小字母進(jìn)行識(shí)別的話,輸出空間就是62。62維向量里,如果某一個(gè)維度上的值最大,它對(duì)應(yīng)的那個(gè)字母和數(shù)字就是就是預(yù)測(cè)結(jié)果。壓在駱駝身上的最后一根稻草

從98年到本世紀(jì)初,深度學(xué)習(xí)興盛起來(lái)用了15年,但當(dāng)時(shí)成果泛善可陳,一度被邊緣化。到2012年,深度學(xué)習(xí)算法在部分領(lǐng)域取得不錯(cuò)的成績(jī),而壓在駱駝身上最后一根稻草就是AlexNet。AlexNet由多倫多大學(xué)幾個(gè)科學(xué)家開(kāi)發(fā),在ImageNet比賽上做到了非常好的效果。當(dāng)時(shí)AlexNet識(shí)別效果超過(guò)了所有淺層的方法。此后,大家認(rèn)識(shí)到深度學(xué)習(xí)的時(shí)代終于來(lái)了,并有人用它做其它的應(yīng)用,同時(shí)也有些人開(kāi)始開(kāi)發(fā)新的網(wǎng)絡(luò)結(jié)構(gòu)。其實(shí)AlexNet的結(jié)構(gòu)也很簡(jiǎn)單,只是LeNet的放大版。輸入是一個(gè)224X224的圖片,是經(jīng)過(guò)了若干個(gè)卷積層,若干個(gè)池化層,最后連接了兩個(gè)全連接層,達(dá)到了最后的標(biāo)簽空間。去年,有些人研究出來(lái)怎么樣可視化深度學(xué)習(xí)出來(lái)的特征。那么,AlexNet學(xué)習(xí)出的特征是什么樣子?在第一層,都是一些填充的塊狀物和邊界等特征;中間的層開(kāi)始學(xué)習(xí)一些紋理特征;更高接近分類器的層級(jí),則可以明顯看到的物體形狀的特征。最后的一層,即分類層,完全是物體的不同的姿態(tài),根據(jù)不同的物體展現(xiàn)出不同姿態(tài)的特征了。可以說(shuō),不論是對(duì)人臉,車輛,大象或椅子進(jìn)行識(shí)別,最開(kāi)始學(xué)到的東西都是邊緣,繼而就是物體的部分,然后在更高層層級(jí)才能抽象到物體的整體。整個(gè)卷積神經(jīng)網(wǎng)絡(luò)在模擬人的抽象和迭代的過(guò)程。為什么時(shí)隔20年卷土重來(lái)?

我們不禁要問(wèn):似乎卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)也不是很復(fù)雜,98年就已經(jīng)有一個(gè)比較像樣的雛形了。自由換算法和理論證明也沒(méi)有太多進(jìn)展。那為什么時(shí)隔20年,卷積神經(jīng)網(wǎng)絡(luò)才能卷土重來(lái),占領(lǐng)主流?首先,卷積神經(jīng)網(wǎng)絡(luò)的深度太淺的話,識(shí)別能力往往不如一般的淺層模型,比如SVM或者boosting。但如果做得很深,就需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,否則機(jī)器學(xué)習(xí)中的過(guò)擬合將不可避免。而2006及2007年開(kāi)始,正好是互聯(lián)網(wǎng)開(kāi)始大量產(chǎn)生各種各樣的圖片數(shù)據(jù)的時(shí)候。另外一個(gè)條件是運(yùn)算能力。卷積神經(jīng)網(wǎng)絡(luò)對(duì)計(jì)算機(jī)的運(yùn)算要求比較高,需要大量重復(fù)可并行化的計(jì)算,在當(dāng)時(shí)CPU只有單核且運(yùn)算能力比較低的情況下,不可能進(jìn)行個(gè)很深的卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。隨著GPU計(jì)算能力的增長(zhǎng),卷積神經(jīng)網(wǎng)絡(luò)結(jié)合大數(shù)據(jù)的訓(xùn)練才成為可能。

最后一點(diǎn)就是人才。卷積神經(jīng)網(wǎng)絡(luò)有一批一直在堅(jiān)持的科學(xué)家(如Lecun)才沒(méi)有被沉默,才沒(méi)有被海量的淺層方法淹沒(méi)。然后最后終于看到卷積神經(jīng)網(wǎng)絡(luò)占領(lǐng)主流的曙光。深度學(xué)習(xí)在視覺(jué)上的應(yīng)用

計(jì)算機(jī)視覺(jué)中比較成功的深度學(xué)習(xí)的應(yīng)用,包括人臉識(shí)別,圖像問(wèn)答,物體檢測(cè),物體跟蹤。人臉識(shí)別這里說(shuō)人臉識(shí)別中的人臉比對(duì),即得到一張人臉,與數(shù)據(jù)庫(kù)里的人臉進(jìn)行比對(duì);或同時(shí)給兩張人臉,判斷是不是同一個(gè)人。這方面比較超前的是湯曉鷗教授,他們提出的DeepID算法在LWF上做得比較好。他們也是用卷積神經(jīng)網(wǎng)絡(luò),但在做比對(duì)時(shí),兩張人臉?lè)謩e提取了不同位置特征,然后再進(jìn)行互相比對(duì),得到最后的比對(duì)結(jié)果。最新的DeepID-3算法,在LWF達(dá)到了99.53%準(zhǔn)確度,與肉眼識(shí)別結(jié)果相差無(wú)幾。圖片問(wèn)答問(wèn)題這是2014年左右興起的課題,即給張圖片同時(shí)問(wèn)個(gè)問(wèn)題,然后讓計(jì)算機(jī)回答。比如有一個(gè)辦公室靠海的圖片,然后問(wèn)“桌子后面有什么”,神經(jīng)網(wǎng)絡(luò)輸出應(yīng)該是“椅子和窗戶”。這一應(yīng)用引入了LSTM網(wǎng)絡(luò),這是一個(gè)專門設(shè)計(jì)出來(lái)具有一定記憶能力的神經(jīng)單元。特點(diǎn)是,會(huì)把某一個(gè)時(shí)刻的輸出當(dāng)作下一個(gè)時(shí)刻的輸入??梢哉J(rèn)為它比較適合語(yǔ)言等,有時(shí)間序列關(guān)系的場(chǎng)景。因?yàn)槲覀冊(cè)谧x一篇文章和句子的時(shí)候,對(duì)句子后面的理解是基于前面對(duì)詞語(yǔ)的記憶。圖像問(wèn)答問(wèn)題是基于卷積神經(jīng)網(wǎng)絡(luò)和LSTM單元的結(jié)合,來(lái)實(shí)現(xiàn)圖像問(wèn)答。LSTM輸出就應(yīng)該是想要的答案,而輸入的就是上一個(gè)時(shí)刻的輸入,以及圖像的特征,及問(wèn)句的每個(gè)詞語(yǔ)。物體檢測(cè)問(wèn)題RegionCNN深度學(xué)習(xí)在物體檢測(cè)方面也取得了非常好的成果。2014年的RegionCNN算法,基本思想是首先用一個(gè)非深度的方法,在圖像中提取可能是物體的圖形塊,然后深度學(xué)習(xí)算法根據(jù)這些圖像塊,判斷屬性和一個(gè)具體物體的位置。為什么要用非深度的方法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論