人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目4 計(jì)算機(jī)視覺_第1頁(yè)
人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目4 計(jì)算機(jī)視覺_第2頁(yè)
人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目4 計(jì)算機(jī)視覺_第3頁(yè)
人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目4 計(jì)算機(jī)視覺_第4頁(yè)
人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目4 計(jì)算機(jī)視覺_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能應(yīng)用基礎(chǔ)授課人:周老師

技術(shù)篇項(xiàng)目4?計(jì)算機(jī)視覺01項(xiàng)目描述05項(xiàng)目拓展02項(xiàng)目分析06項(xiàng)目小結(jié)03相關(guān)知識(shí)07項(xiàng)目練習(xí)04項(xiàng)目實(shí)施目錄項(xiàng)目描述01小明的手機(jī)相冊(cè)中不僅有許多小貓、小狗的照片,也有大量人物、汽車、飛機(jī)等照片,它們有些同時(shí)出現(xiàn)在一張照片里面。雖然小明已經(jīng)知道,識(shí)別照片是什么類別屬于一個(gè)圖像分類任務(wù),但是當(dāng)照片里面有多個(gè)物體時(shí),比如即有小貓又有小狗,那么神經(jīng)網(wǎng)絡(luò)要怎么對(duì)這張照片進(jìn)行分類呢?小明非常想了解這背后的技術(shù)。4.1項(xiàng)目描述02項(xiàng)目分析我們經(jīng)常拍攝或者看到的圖像往往都是具有多個(gè)類別的物體,當(dāng)一張圖像中包含多個(gè)類別的很多物體時(shí)問題就變得復(fù)雜了,小明的任務(wù)可以看作是目標(biāo)檢測(cè),找出圖像中不同物體的位置并判斷其類別。要掌握以上各種圖像識(shí)別的知識(shí),需要學(xué)習(xí)以下內(nèi)容:1.

卷積神經(jīng)網(wǎng)絡(luò)2.

圖像分類3.目標(biāo)檢測(cè)4.2項(xiàng)目分析03相關(guān)知識(shí)識(shí)別動(dòng)物類別假設(shè)有一個(gè)做好標(biāo)記的動(dòng)物圖像數(shù)據(jù)集,目的是要訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來識(shí)別出不同動(dòng)物的類別。經(jīng)過前面的學(xué)習(xí),我們可以設(shè)計(jì)一個(gè)深層神經(jīng)網(wǎng)絡(luò)。數(shù)據(jù)集中圖片的像素是100×100,為了能輸入到神經(jīng)網(wǎng)絡(luò)中,將圖片中的每列像素依次頭尾拼接成一個(gè)1×10000的一維數(shù)組,剛好對(duì)應(yīng)輸入層的10000個(gè)神經(jīng)元。4.3相關(guān)知識(shí)模式檢測(cè)對(duì)于這個(gè)模型中的神經(jīng)元而言,它要做的就是檢測(cè)圖像里面有沒有出現(xiàn)一些特別重要的模式(特征),這些模式代表了某種動(dòng)物的特征。4.3相關(guān)知識(shí)特征提取人類在判斷一個(gè)物體的時(shí)候,往往也是抓最重要的特征,看到這些特征以后,就會(huì)直覺地看到了某種物體。對(duì)于機(jī)器而言,這是一個(gè)有效的判斷圖像中物體的方法,這個(gè)過程就是前面章節(jié)所說的特征提取。4.3相關(guān)知識(shí)深層特征提取各個(gè)層檢測(cè)的特征并不是一次就能識(shí)別出鳥嘴這樣具有抽象意義的高級(jí)特征的,而是隨著網(wǎng)絡(luò)的深度逐漸從簡(jiǎn)單的邊緣和顏色信息過渡到更復(fù)雜的形狀和物體特征。4.3相關(guān)知識(shí)人工神經(jīng)網(wǎng)絡(luò)的缺陷在神經(jīng)網(wǎng)絡(luò)中,我們用每一層的一個(gè)神經(jīng)元來判斷某種特定模式是否出現(xiàn),也許并不需要每個(gè)神經(jīng)元都去看一張完整的圖像。4.3相關(guān)知識(shí)人工神經(jīng)網(wǎng)絡(luò)的缺陷神經(jīng)元接受的輸入是整個(gè)圖像,但它自己的感受范圍是有限的,只能檢測(cè)出一定區(qū)域的鳥嘴。因此,出現(xiàn)在不同區(qū)域的同一個(gè)模式,可能需要多個(gè)神經(jīng)元。而且,圖像輸入到神經(jīng)網(wǎng)絡(luò)中卻需要被拉成一條直線,這也破壞了圖像本身的平面結(jié)構(gòu),可能會(huì)造成信息損失。4.3相關(guān)知識(shí)卷積神經(jīng)網(wǎng)絡(luò)一個(gè)新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),叫做卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN),是一種現(xiàn)在非常典型的網(wǎng)絡(luò)架構(gòu),常用于圖像識(shí)別任務(wù)中。4.3相關(guān)知識(shí)卷積神經(jīng)網(wǎng)絡(luò)整個(gè)網(wǎng)絡(luò)分為兩部分,前面由多個(gè)卷積層組成,用于接收輸入的圖像,并對(duì)圖像中的特征進(jìn)行提取與轉(zhuǎn)換,后面一部分是由全連接層組成,跟我們前文介紹的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相同,用于接收卷積層提取的特征,并輸出分類的結(jié)果4.3相關(guān)知識(shí)卷積神經(jīng)網(wǎng)絡(luò)內(nèi)部組成在輸入層,神經(jīng)元組成的平面必須與輸入的圖像大小保持一致才能完整的接收?qǐng)D像的每個(gè)像素。在層與層的連接部分,神經(jīng)元沒有與上一層的所有神經(jīng)元保持連接,而是采用了部分連接,這就是我們分析的,圖像中并不是所有區(qū)域都存在我們要提取的特征,不需要將所有神經(jīng)元都進(jìn)行連接,這樣可以減少模型的參數(shù)。4.3相關(guān)知識(shí)卷積操作輸入一張彩色圖片,在卷積層,由于只有部分連接,因此該層上的一個(gè)神經(jīng)元只能檢測(cè)到輸入圖片的一個(gè)有限區(qū)域,并通過一個(gè)叫做卷積的操作來計(jì)算這個(gè)區(qū)域有沒有相關(guān)的特征,如果有的話這個(gè)神經(jīng)元就會(huì)被激活,并傳遞到下一層的神經(jīng)元繼續(xù)檢測(cè)4.3相關(guān)知識(shí)滑動(dòng)掃描神經(jīng)元會(huì)按從左到右、從上到下的順序依次檢測(cè)對(duì)應(yīng)的區(qū)域,直到圖片中所有區(qū)域都檢測(cè)完畢,這種檢測(cè)的方式叫做滑動(dòng)掃描。掃描過程中,如果某個(gè)神經(jīng)元的掃描區(qū)域內(nèi)存在待檢測(cè)的特征,該神經(jīng)元就會(huì)被激活。4.3相關(guān)知識(shí)垃圾分類我們的生活垃圾種類繁多,自己在分類時(shí)經(jīng)常遇到不易分類的垃圾,很多人會(huì)產(chǎn)生選擇困難,于是可以讓卷積神經(jīng)網(wǎng)絡(luò)來對(duì)垃圾圖片自動(dòng)分類。數(shù)據(jù)集總共5萬張圖片的垃圾分類數(shù)據(jù)集,給這些圖片標(biāo)記出5個(gè)類別,分別是硬紙、玻璃、金屬、報(bào)紙和塑料,每個(gè)類別有1萬張圖片。4.3相關(guān)知識(shí)垃圾分類模型首先用訓(xùn)練集進(jìn)行訓(xùn)練,訓(xùn)練完成后利用測(cè)試集評(píng)價(jià)模型效果。整體結(jié)構(gòu)依然是先用卷積層提取特征,然后將提取的特征輸入到全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,最后的輸出層有5個(gè)神經(jīng)元,分別對(duì)應(yīng)垃圾的5個(gè)類別。4.3相關(guān)知識(shí)螺母對(duì)比除了對(duì)單張圖片分類,我們還可以使用孿生網(wǎng)絡(luò),同時(shí)對(duì)兩張圖片進(jìn)行對(duì)比。孿生網(wǎng)絡(luò)包含了兩個(gè)在結(jié)構(gòu)上一模一樣的卷積模塊,它們是卷積神經(jīng)網(wǎng)絡(luò)去掉最后的全連接層后留下的卷積層4.3相關(guān)知識(shí)目標(biāo)檢測(cè)利用卷積神經(jīng)網(wǎng)絡(luò)的分類能力,將輸入的圖像劃分出多個(gè)窗口,針對(duì)每個(gè)窗口進(jìn)行特征提取,識(shí)別出窗口中內(nèi)容的類別。在輸出端增加一個(gè)全連接層分類器,用于輸出目標(biāo)的位置信息,位置可以表示為框住物體的矩形窗口的坐標(biāo),這樣我們的模型就能同時(shí)找出圖像中某一區(qū)域物體的類別和位置了。4.3相關(guān)知識(shí)目標(biāo)檢測(cè)我們不知道圖像中哪些位置會(huì)有物體,也不知道物體的大小,所以必須在圖像中用不同大小、不同長(zhǎng)寬比的候選框在整幅圖像上進(jìn)行窮盡式的掃描,有時(shí)候多個(gè)窗口會(huì)重疊找出同一個(gè)物體,每個(gè)窗口都會(huì)被卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類并輸出坐標(biāo),這種情況需要將輸出的多個(gè)窗口根據(jù)坐標(biāo)合并成一個(gè)窗口。4.3相關(guān)知識(shí)缺陷檢測(cè)在工業(yè)自動(dòng)化和質(zhì)量控制領(lǐng)域,物體表面缺陷檢測(cè)技術(shù)扮演著至關(guān)重要的角色。我們可以利用卷積神經(jīng)網(wǎng)絡(luò)分類和定位各種器件的表面缺陷,如劃痕、凹陷、裂紋等。4.3相關(guān)知識(shí)缺陷檢測(cè)先是收集數(shù)據(jù)并做標(biāo)記,目標(biāo)檢測(cè)的數(shù)據(jù)需要做兩個(gè)標(biāo)記,一個(gè)是將圖像中待檢測(cè)的物體用矩形窗口框出來,并記錄坐標(biāo)值。另一個(gè)是要標(biāo)記該窗口內(nèi)的物體類別,圖中共標(biāo)記了缺色、凹陷、污漬、劃痕、裂紋5個(gè)類別。4.3相關(guān)知識(shí)缺陷檢測(cè)訓(xùn)練模型時(shí),輸入層接收標(biāo)記好的表面缺陷數(shù)據(jù),卷積層通過滑動(dòng)窗口在數(shù)上掃描各種大小長(zhǎng)寬不同的區(qū)域,對(duì)其進(jìn)行特征提取,然后在全連接層預(yù)測(cè)類別與位置坐標(biāo),并與標(biāo)記值進(jìn)行比較,根據(jù)誤差修正模型參數(shù),直到訓(xùn)練完成。4.3相關(guān)知識(shí)車牌識(shí)別用神經(jīng)網(wǎng)絡(luò)來進(jìn)行車牌識(shí)別,需要將這個(gè)任務(wù)看作兩個(gè)階段的目標(biāo)檢測(cè),第一個(gè)階段檢測(cè)出車牌,第二階段在已檢測(cè)出的車牌上,再次檢測(cè)出車牌號(hào)。4.3相關(guān)知識(shí)具體有以下幾個(gè)步驟:1)收集車輛照片并標(biāo)記出其中的車牌和車牌號(hào)信息;2)利用標(biāo)記的數(shù)據(jù)訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò),分別用來檢測(cè)車牌與車牌上的號(hào)碼;3)將訓(xùn)練好的模型進(jìn)行車牌識(shí)別任務(wù)。車牌識(shí)別因?yàn)橛袃蓚€(gè)目標(biāo)檢測(cè)任務(wù),所以數(shù)據(jù)的標(biāo)記也有兩類,首先要在汽車圖片中標(biāo)記出車牌,包括類別和定位信息,這類數(shù)據(jù)只針對(duì)整個(gè)車牌,不包括車牌上的字符。然后對(duì)車牌圖片中的字符進(jìn)行標(biāo)記,同樣包括字符的類別和定位信息。4.3相關(guān)知識(shí)車牌識(shí)別得到標(biāo)記數(shù)據(jù)后,先用車牌數(shù)據(jù)訓(xùn)練第一個(gè)模型A,使其學(xué)會(huì)從汽車圖像中檢測(cè)出車牌,然后用車牌號(hào)數(shù)據(jù)訓(xùn)練第二個(gè)模型B,使其學(xué)會(huì)從車牌圖像中檢測(cè)出車牌號(hào)碼。4.3相關(guān)知識(shí)車牌識(shí)別訓(xùn)練完成后即可用測(cè)試樣本對(duì)其進(jìn)行測(cè)試,將汽車圖片輸入第一個(gè)模型檢測(cè)出車牌,根據(jù)預(yù)測(cè)車牌位置坐標(biāo)從原始輸入圖片中截取出車牌部分,輸入到第二個(gè)模型進(jìn)行車牌號(hào)的檢測(cè)。4.3相關(guān)知識(shí)04項(xiàng)目實(shí)施打開EasyDL平臺(tái)進(jìn)入百度智能云平臺(tái)的動(dòng)物識(shí)別頁(yè)面:/product/imagerecognition/animal,里面有一個(gè)動(dòng)物識(shí)別的體驗(yàn)功能?!皠?dòng)物識(shí)別”4.4項(xiàng)目實(shí)施上傳圖片數(shù)據(jù)準(zhǔn)備一些動(dòng)物圖片進(jìn)行識(shí)別,測(cè)試一下能不能正確識(shí)別。——“動(dòng)物識(shí)別”4.4項(xiàng)目實(shí)施查看結(jié)果可以看到各個(gè)圖片的識(shí)別效果,無論是一張圖里有多個(gè)動(dòng)物還是有人類,模型都能準(zhǔn)備的預(yù)測(cè)出正確的類別,但對(duì)于卡通類型的動(dòng)物圖片卻不能很好的識(shí)別,大家想一想這是為什么呢?——“動(dòng)物識(shí)別”4.4項(xiàng)目實(shí)施進(jìn)入百度智能云平臺(tái)進(jìn)入百度智能云平臺(tái)的人體關(guān)鍵點(diǎn)檢測(cè)頁(yè)面:/product/body/pose,里面同樣有一個(gè)人體關(guān)鍵點(diǎn)檢測(cè)的體驗(yàn)功能。不僅能檢測(cè)出圖像中的所有人體,還能精準(zhǔn)定位人體的21個(gè)主要關(guān)鍵點(diǎn),包含頭頂、五官、頸部、四肢主要關(guān)節(jié)部位等??梢赃M(jìn)入這個(gè)頁(yè)面,點(diǎn)擊本地上傳按鈕,試著上傳一張自己和朋友的照片,查看一下能否檢測(cè)出人體的各個(gè)關(guān)鍵部位。——“人臉關(guān)鍵點(diǎn)檢測(cè)”4.4項(xiàng)目實(shí)施05項(xiàng)目拓展目標(biāo)檢測(cè)任務(wù)中,在尋找圖像中的目標(biāo)是,采用的是滑動(dòng)窗口的方法,滑動(dòng)窗口是一個(gè)個(gè)大小不一的矩形框,用這個(gè)框去遍歷所有的位置以及所有可能的大小。遍歷得越精確,檢測(cè)器的精度就越高。但這也就帶來一個(gè)問題就是:檢測(cè)的耗時(shí)非常大。比如輸入圖片大小是800×1000,也就意味著有800000個(gè)位置。窗口大小最小是1×1,最大800×1000,所以這個(gè)遍歷的次數(shù)幾乎是無限次的。我們還有一種方法就是,將輸入圖像分為S×S個(gè)網(wǎng)格,每個(gè)網(wǎng)格檢測(cè)自己范圍內(nèi)的一個(gè)物體和他們的邊界框,這樣可以節(jié)省很掃描時(shí)間。你還能想出其它檢測(cè)掃描時(shí)間的方法嗎?4.5項(xiàng)目拓展06項(xiàng)目小結(jié)在卷積神經(jīng)網(wǎng)絡(luò)中,卷積操作是指將一個(gè)可移動(dòng)的小窗口在圖像上進(jìn)行滑動(dòng)尋找特征,然后一層層傳遞下去,直到全連接層進(jìn)行分類。利用卷積神經(jīng)網(wǎng)絡(luò),我們最終完成了目標(biāo)檢測(cè)任務(wù),可以在一張圖像中找出多個(gè)物體并預(yù)測(cè)該物體的坐標(biāo)。在進(jìn)行目標(biāo)檢測(cè)任務(wù)之前,我們首先得學(xué)會(huì)圖像分類任務(wù),這個(gè)任務(wù)的特點(diǎn)是輸入一張圖片,輸出是它的類別。因?yàn)槟繕?biāo)檢測(cè)本質(zhì)上就是對(duì)多個(gè)物體的分類,另外多了一個(gè)預(yù)測(cè)邊界框的任務(wù)。最后我們了解了利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行車牌識(shí)別的案例。4.6項(xiàng)目小結(jié)07項(xiàng)目練習(xí)一、選擇題

1.?在圖像識(shí)別任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)的哪一層主要負(fù)責(zé)特征提取?(

A.?輸入層B.?卷積層C.?輸出層D.?全連接層

2.?圖像識(shí)別任務(wù)中,哪個(gè)步驟通常涉及將圖像調(diào)整為固定大小?(

)A.?數(shù)據(jù)預(yù)處理B.?特征提取C.?分類D.?測(cè)試3.?哪種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特別適用于處理具有矩形結(jié)構(gòu)的圖像數(shù)據(jù)?(

)A.?感知機(jī)B.?全連接神經(jīng)網(wǎng)絡(luò)C.?卷積神經(jīng)網(wǎng)絡(luò)D.?神經(jīng)元4.7項(xiàng)目練習(xí)一、選擇題

4.?識(shí)別一張圖像中有多少個(gè)物體及其所處位置,稱為什么任務(wù)?(

A.?圖像識(shí)別B.?圖像分類

C.?目標(biāo)定位D.?目標(biāo)檢測(cè)

5.?在用CNN進(jìn)行圖像分類時(shí),全連接層的主要作用是什么?(

)A.?特征提取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論