一天搞懂深學習_第1頁
一天搞懂深學習_第2頁
一天搞懂深學習_第3頁
一天搞懂深學習_第4頁
一天搞懂深學習_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

一天搞懂深學習第1頁/共51頁目錄content深度學習概述第一章深度學習應用研究第二章總結與展望第三章第2頁/共51頁深度學習概述第一章歷史與背景基本思想經(jīng)典模型第3頁/共51頁1-1歷史與背景假設我們要讓程序判斷下面的圖像是否為貓:判斷圖像是否為貓的規(guī)則該怎么描述?用枚舉的方法,即為每張可能的圖像對應一個結果(是貓,不是貓),根據(jù)這個對應規(guī)則進行判定。對于高度和寬度都為256像素的黑白圖像,如果每個像素值的值是0-255之間的整數(shù),根據(jù)排列組合原理,所有可能的圖像數(shù)量為:所以,與其總結好知識告訴人工智能,還不如讓人工智能自己去學習知識。要識別貓的圖像,可以采集大量的圖像樣本,其中一類樣本圖像為貓,另外的不是貓。然后把這些標明了類別的圖像送入機器學習程序中進行訓練?!獧C器學習第4頁/共51頁1-1歷史與背景機器學習發(fā)展階段1980s:登上歷史舞臺1990-2012:走向成熟和應用2012:深度學習時代神經(jīng)網(wǎng)絡卷土重來1980年機器學習作為一支獨立的力量登上了歷史舞臺。典型的代表是:1984:分類與回歸樹

1986:反向傳播算法

1989:卷積神經(jīng)網(wǎng)絡代表性的重要成果有:1995:支持向量機(SVM)1997:AdaBoost算法1997:循環(huán)神經(jīng)網(wǎng)絡(RNN)和LSTM2000:流形學習2001:隨機森林在與SVM的競爭中,神經(jīng)網(wǎng)絡長時間內處于下風,直到2012年局面才被改變。由于算法的改進以及大量訓練樣本的支持,加上計算能力的進步,訓練深層、復雜的神經(jīng)網(wǎng)絡成為可能,它們在圖像、語音識別等有挑戰(zhàn)性的問題上顯示出明顯的優(yōu)勢。第5頁/共51頁1958:Perceptron(linearmodel)1969:Perceptronhaslimitation1980s:Multi-layerperceptronDonothavesignificantdifferencefromDNNtoday1986:BackpropagationUsuallymorethan3hiddenlayersisnothelpful1989:1hiddenlayeris“goodenough”,whydeep?2006:RBMinitialization2009:GPU2011:Starttobepopularinspeechrecognition2012:winILSVRCimagecompetition2015.2:Imagerecognitionsurpassinghuman-levelperformance

2016.3:AlphaGObeatsLeeSedol2016.10:SpeechrecognitionsystemasgoodashumansUpsanddownsofDeepLearning1-1歷史與背景第6頁/共51頁1-1歷史與背景第7頁/共51頁1-1歷史與背景第8頁/共51頁1-1歷史與背景第9頁/共51頁1-1歷史與背景第10頁/共51頁Step1:defineasetoffunctionStep2:goodnessoffunctionStep3:pickthebestfunction深度學習原理NeuralNetwork1-2基本思想第11頁/共51頁NeuralNetwork“Neuron”DifferentconnectionleadstodifferentnetworkstructuresNeuralNetwork1-2基本思想第12頁/共51頁8layers19layers22layersAlexNet(2012)VGG(2014)GoogleNet(2014)16.4%7.3%6.7%Deep=Manyhiddenlayers1-2基本思想第13頁/共51頁AlexNet(2012)VGG(2014)GoogleNet(2014)152layers3.57%ResidualNet(2015)Taipei101101layers16.4%7.3%6.7%Deep=ManyhiddenlayersSpecialstructure1-2基本思想第14頁/共51頁

…………………………………………y1y2yMNeuralNetworkW1W2WLb2bLxa1a2yy

xb1W1x+

b2W2+bLWL+…b1…1-2基本思想第15頁/共51頁…………………………………………y1y2yMOutputLayerHiddenLayersInputLayerFeatureextractorreplacingfeatureengineering=Multi-classClassifierSoftmax1-2基本思想第16頁/共51頁Step1:defineasetoffunctionStep2:goodnessoffunctionStep3:pickthebestfunctionNeuralNetwork1-2基本思想第17頁/共51頁………………………………y1y2y10CrossEntropy“1”……100……targetSoftmax

……Givenasetofparameters

1-2基本思想第18頁/共51頁Step1:defineasetoffunctionStep2:goodnessoffunctionStep3:pickthebestfunctionNeuralNetwork1-2基本思想第19頁/共51頁GradientDescent

0.15

0.05

0.2…………0.2-0.10.3

gradient1-2基本思想第20頁/共51頁NeuralNetworkGoodResultsonTestingData?GoodResultsonTrainingData?Step1:defineasetoffunctionStep2:goodnessoffunctionStep3:pickthebestfunctionYESYESNONOOverfitting!DeepLearning1-2基本思想第21頁/共51頁1-3經(jīng)典模型DNN深層神經(jīng)網(wǎng)絡CNN卷積神經(jīng)網(wǎng)絡RNN循環(huán)神經(jīng)網(wǎng)絡GAN生成對抗網(wǎng)絡………………..第22頁/共51頁SomepatternsaremuchsmallerthanthewholeimageAneurondoesnothavetoseethewholeimagetodiscoverthepattern.“beak”

detectorConnectingtosmallregionwithlessparameters1-3經(jīng)典模型-CNN第23頁/共51頁Thesamepatternsappearindifferentregions.“upper-leftbeak”

detector“middlebeak”

detectorTheycanusethesamesetofparameters.Doalmostthesamething1-3經(jīng)典模型-CNN第24頁/共51頁Subsampling

thepixelswillnotchangetheobjectsubsamplingbirdbirdWecansubsamplethepixelstomakeimagesmallerLessparametersforthenetworktoprocesstheimage1-3經(jīng)典模型-CNN第25頁/共51頁FullyConnectedFeedforwardnetworkcatdog……ConvolutionMaxPoolingConvolutionMaxPoolingFlattenCanrepeatmanytimes1-3經(jīng)典模型-CNN第26頁/共51頁ConvolutionMaxPoolingConvolutionMaxPoolingFlattenCanrepeatmanytimesSomepatternsaremuchsmallerthanthewholeimageThesamepatternsappearindifferentregions.Subsampling

thepixelswillnotchangetheobjectProperty1Property2Property31-3經(jīng)典模型-CNN第27頁/共51頁FullyConnectedFeedforwardnetworkcatdog……ConvolutionMaxPoolingConvolutionMaxPoolingFlattenCanrepeatmanytimes1-3經(jīng)典模型-CNN第28頁/共51頁1-3經(jīng)典模型-CNN第29頁/共51頁DeepDreamGivenaphoto,machineaddswhatitsees……CNNModifyimageCNNexaggerateswhatitsees1-3經(jīng)典模型-CNN第30頁/共51頁DeepDreamGivenaphoto,machineaddswhatitsees……1-3經(jīng)典模型-CNN第31頁/共51頁DeepStyleGivenaphoto,makeitsstylelikefamouspaintings1-3經(jīng)典模型-CNN第32頁/共51頁DeepStyleGivenaphoto,makeitsstylelikefamouspaintings1-3經(jīng)典模型-CNN第33頁/共51頁DeepStyleCNNCNNcontentstyleCNN?ANeuralAlgorithmofArtisticStyle1-3經(jīng)典模型-CNN第34頁/共51頁MoreApplication:SpeechTimeFrequencySpectrogramCNNImageThefiltersmoveinthefrequencydirection.1-3經(jīng)典模型-CNN第35頁/共51頁MoreApplication:Text?1-3經(jīng)典模型-CNN第36頁/共51頁深度學習應用第二章機器視覺智能語音……………….第37頁/共51頁2-1機器視覺(1)機器視覺——用機器的眼睛理解世界機器視覺是指通過用計算機或圖像處理器及相關設備來模擬人類視覺,以讓機器獲取相關的視覺并加以理解,它是將圖像轉換成數(shù)字信號進行分析處理的技術。機器視覺技術流程圖像采集目標提取目標識別目標分析圖像捕獲圖像壓縮圖像存儲圖像預處理圖像分割特征提取目標分類判斷匹配模型建立行為識別第38頁/共51頁2-1機器視覺關鍵技術與應用A)生物特征識別技術——安全領域應用廣泛生物特征識別技術是一種通過對生物特征識別和檢測,對身傷實行鑒定的技術。從

統(tǒng)計意義上講人類的指紋、虹膜等生理特征存在唯一性,可以作為鑒另用戶身份

的依據(jù)。目前,生物特征識別技術主要用于身份識別,包括語音、指紋、人臉、

靜脈,虹膜識別等。第39頁/共51頁2-1機器視覺關鍵技術與應用B)光學字符文本識別一一智能物流的核心技術光學字符文本識別技術(OpicalCharacterReconrition),是指計算機通過光學設備檢

查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形

狀翻澤成計算機文字的過程,從而完成計算機對文字的閱讀。OCR技術具體到場

景就是通過掃描,將各類印刷體的文檔證件(名片,銀行卡、財務單據(jù)等)自動識

別錄入電腦等終端,讓大量信息的高效錄入成為可能。物品包裝檢測系統(tǒng)第40頁/共51頁2-1機器視覺關鍵技術與應用

C)物體與場緊識別一機器人和自動駕駛使用最廣物體、場景識別是指計算機將圖片內容與數(shù)據(jù)庫中的資料進行比對,進而識別圖片或視頻中的物體與場景。識別過程與人臉識別類似,即通過檢測定位、特征提取、3D建模、模型比對對物體進行識別。

機器人機器規(guī)覺技術的應用打破了傳統(tǒng)機器入應用的局哏性。以檢測服務為例,在未配備機器視覺的條件下,由于被檢產(chǎn)品規(guī)格的多樣,用戶需要使用大量的專用工具來實現(xiàn)產(chǎn)品位置的固定,成本過高,更換工具的工作量目大。而機器視覺技術具有位置無需固定、精度與J靠性的協(xié)調統(tǒng)一非接觸式定位與測量全面觀量、隨動檢測等特點,因此使用視覺系統(tǒng)定位僅需更換產(chǎn)品的檢測文件,機械成本及更換工具時間大為降低。

自動駕駛機器視覺技術在自動駕駛中可以識別、發(fā)現(xiàn)周遭環(huán)境和各類物體的運動狀態(tài);定位車道、檢測坡度與彎度;自動規(guī)劃行車路線井控制車輛到達的地。目前,技術方面E實現(xiàn)從感知到控制的飛躍,輔助駕駛成熟度大幅提升。深度學習的出現(xiàn)提高了對環(huán)境感知的精度,提供更全面的環(huán)境信息,提示危險,輔助駕駛?;跈C器視覺的無人駕駛感知系統(tǒng)使用了多種規(guī)覺傳感器,包括毫米波雷達、激光雷達和攝像頭等。毫米波雷達用于測距;激光雷達用于感知環(huán)境;攝像頭用來識別交通信號和其他物體標準的數(shù)據(jù)集用來開發(fā)、驗證基于視覺的算法;底層的OpticalFlow與立體視覺技術對車輛定位和物體的識別與跟蹤都至關重要。第41頁/共51頁2-2智能語音語音識別的目標是將人類語音表達的內容轉換為機器可讀的輸入,是構建機器的“聽覺系統(tǒng)”。語音識別技術經(jīng)歷了長達60年的發(fā)展,近年來機器學習和深度神經(jīng)網(wǎng)絡的引入,使得語音識別的準確率提開到足以在實際場景中應用。(1)深度神經(jīng)網(wǎng)絡聲學模型發(fā)展回顧2006年GoeaffreyHinton提出深度置信網(wǎng)絡(DBN)。促使了深度神經(jīng)網(wǎng)絡(DNN)研究的復蘇。2009年GoffreyHinton將DNN應用于語音的聲學建模,在TMIT上獲得了當時最好的結果。2011年底,微軟研究院的俞棟、鄧力又把DNIN技術應用在了大詞匯最連續(xù)語音識別任務上,大大

降低了語音識別錯誤率。從此以后基于DNN聲學模型技術的研究變得異?;馃?。微軟去年10月發(fā)布的Switchboard語音別測試中,更是取得了5.9%的詞錯誤率,第一次實現(xiàn)了和

人類一樣的i別水平,這是一個歷史性突破。1語音識別技術已趨于成熟第42頁/共51頁2-2智能語音(2)語音識別技術流程語音識另整個過程包含語音信號預處理、聲學特征提取、聲學和語言模型建模、解碼等多個環(huán)節(jié)

,簡單來說,聲學模型用來模擬發(fā)音的概率分布,語言模型用來模擬詞語之間的關聯(lián)關系。而解

碼階段就是利用上述兩個模型,將聲音轉化為文本。1語音識別技術已趨于成熟語音/語言學知識數(shù)據(jù)挖掘技術信號處理技術統(tǒng)計建模方法訓練語言/語音數(shù)據(jù)庫語音信號端點檢測降噪特征提取解碼識別結果語音/語言模型第43頁/共51頁2-2智能語音簡單地說,自然語言處理(NaturalLanguageProcessing,簡稱Nl.P)就是用計算機來處理、理解以及運用人類語言,它屬于人工智能的一個分支,是計算機科學與語言學的交叉學科。實現(xiàn)人機間自然語言通信意味著要使機器既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成。2自然語言處理(NLP)發(fā)展現(xiàn)狀Word2vecRNNGRUWord2vec可以在百萬數(shù)量級的詞典和上億的數(shù)據(jù)集上進行高效地訓練;Word2vec該工具得到的訓練結果詞向量,可以很好地度量詞與詞之間的相做性。RNN現(xiàn)在已經(jīng)是NLP任務最常用的方法之一。RNN模型的優(yōu)勢之一就RecurrentNouralNetworks)是可以有效利用之前傳入網(wǎng)絡的信息。目的是為RNN模型在計算隱層狀態(tài)時提供一種更復雜的方法,這種方法GatedRecurrentUnit將使模型能夠保持更久遠的信息。幾種常用的深度神經(jīng)網(wǎng)絡NLP模型第44頁/共51頁2-2智能語音

A)問答系統(tǒng)問答系統(tǒng)能用準確、簡潔的自然語言回答用戶用自然語言提出的問題。其研究興起的主要原因是人們對快速、準確地獲取信息的需求?;竟ぷ髟硎窃诰€做匹配和排序。比如IBM的Watson,典型的力法是把問答用FAQ索起來,與搜索引擎相似。對每一個新可題進行檢索,再將[答按匹配度進行排序,把最有可能的答案排在前面,往往就取第一個作為答案返回給用戶,

B)圖像檢索同樣也是基于深度學習技術,跨模態(tài)地把文本和圖片聯(lián)系起來。

C)機器科譯機器翻譯的歷史被認為與自然語言處理的歷史是一樣的。最近,深度學習被成功地運用至機器翻譯里,使得機器翻譯的準確率大幅度提升。比如谷歌的神經(jīng)機器翻譯系統(tǒng),就是一個非常強大的系統(tǒng),需要很多訓練數(shù)據(jù)和強大計算資源,加上各種各種新技術的用,翻譯的準確率超過傳統(tǒng)的統(tǒng)計機器翻譯。

D)對話系統(tǒng)對話系統(tǒng)的回復是完全開放的,要求機器能準確地理解|可題,并且基于自身的知識系統(tǒng)和對于對話目標的理解,去生成一個C復。因此,雖然人機對話在2016年隨著cho的成功已經(jīng)被炒得火熱,但效果并不盡如人意。2自然語言處理主要應用場景第45頁/共51頁2-2智能語音

A)問答系統(tǒng)問答系統(tǒng)能用準確、簡潔的自然語言回答用戶用自然語言提出的問題。其研究興起的主要原因是人們對快速、準確地獲取信息的需求。基本工作原理是在線做匹配和排序。比如IBM的Watson,典型的力法是把問答用FAQ索起來,與搜索引擎相似。對每一個新可題進行檢索,再將[答按匹配度進行排序,把最有可能的答案排在前面,往往就取第一個作為答案返回給用戶,

B)圖像檢索同樣也是基于深度學習技術,跨模態(tài)地把文本和圖片聯(lián)系起來。

C)機器科譯機器翻譯的歷史被認為與自然語言處理的歷史是一樣的。最近,深度學習被成功地運用至機器翻譯里,使得機器翻譯的準確率大幅度提升。比如谷歌的神經(jīng)機器翻譯系統(tǒng),就是一個非常強大的系統(tǒng),需要很多訓練數(shù)據(jù)和強大計算資源,加上各種各種新技術的用,翻譯的準確率超過傳統(tǒng)的統(tǒng)計機器翻譯。

D)對話系統(tǒng)對話系統(tǒng)的回復是完全開放的,要求機器能準確地理解|可題,并且

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論