基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)技術(shù)研究與實(shí)現(xiàn)_第1頁(yè)
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)技術(shù)研究與實(shí)現(xiàn)_第2頁(yè)
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)技術(shù)研究與實(shí)現(xiàn)_第3頁(yè)
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)技術(shù)研究與實(shí)現(xiàn)_第4頁(yè)
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)技術(shù)研究與實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)技術(shù)研究與實(shí)現(xiàn) 王超Summary:圖像分類(lèi)問(wèn)題一直是計(jì)算機(jī)視覺(jué)的一個(gè)核心問(wèn)題,而隨著深度學(xué)習(xí)的發(fā)展,也為我們解決圖像分類(lèi)中圖像特征提取問(wèn)題提供了一種很好的解決方法,通過(guò)構(gòu)建具有隱層的機(jī)器學(xué)習(xí)模型和海量的圖像訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的圖像特征,從而最終提升圖像分類(lèi)或預(yù)測(cè)的準(zhǔn)確性。該文使用Caffe深度學(xué)習(xí)框架,構(gòu)建小型的圖像數(shù)據(jù)庫(kù),通過(guò)Caffe框架給出的卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練分析,提取目標(biāo)圖像特征信息,最后對(duì)目標(biāo)圖像進(jìn)行預(yù)測(cè),并和傳統(tǒng)的圖像分類(lèi)算法進(jìn)行對(duì)比,預(yù)測(cè)的準(zhǔn)確率有很大的提升。Key:圖像分類(lèi);深度學(xué)習(xí);Caffe框架;卷積神經(jīng)網(wǎng)絡(luò):TP18 :A :1

2、009-3044(2016)35-0209-03Research and Implementation of Image Classification Based on Convolution Neural NetworkWANG Chao(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)Abstract: The problem of image classification has been the core problem in computer v

3、ision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventua

4、lly promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the informa

5、tion of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.Key words: image classification; deep learning; Caffe framework; Convolutional Neural N

6、etwork隨著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我們已經(jīng)進(jìn)入了一個(gè)以圖像構(gòu)建的世界。但是面臨有海量圖像信息卻找不到所需要的數(shù)據(jù)的困境,因而圖像分類(lèi)技術(shù)應(yīng)運(yùn)而生。通過(guò)各種機(jī)器學(xué)習(xí)算法使計(jì)算機(jī)自動(dòng)將各類(lèi)圖像進(jìn)行有效管理和分類(lèi),但是由于圖像內(nèi)容包含著大量復(fù)雜且難以描述的信息,圖像特征提取和相識(shí)度匹配技術(shù)也存在一定的難題,要使得計(jì)算機(jī)能夠像人類(lèi)一樣進(jìn)行分類(lèi)還是有很大的困難。深度學(xué)習(xí)是近十年來(lái)人工智能領(lǐng)域取得的重要突破,在圖像識(shí)別中的應(yīng)用取得了巨大的進(jìn)步,傳統(tǒng)的機(jī)器學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常會(huì)出現(xiàn)過(guò)擬合問(wèn)題,因而對(duì)目標(biāo)檢測(cè)準(zhǔn)確率上比較低。本文采用卷積神經(jīng)網(wǎng)絡(luò)框架,圖像特征是從大數(shù)

7、據(jù)中自動(dòng)學(xué)習(xí)得到,而且神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深由很多層組成,通過(guò)重復(fù)利用中間層的計(jì)算單元來(lái)減少參數(shù),在特征匯聚階段引入圖像中目標(biāo)的顯著信信息,增強(qiáng)了圖像的特征表達(dá)能力。通過(guò)在圖像層次稀疏表示中引入圖像顯著信息,加強(qiáng)了圖像特征的語(yǔ)義信息,得到圖像顯著特征表示,通過(guò)實(shí)驗(yàn)測(cè)試,效果比傳統(tǒng)的圖像分類(lèi)算法預(yù)測(cè)的準(zhǔn)確度有明顯的提升。1 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)方法1.1 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是描述生物神經(jīng)網(wǎng)絡(luò)運(yùn)行機(jī)理和工作過(guò)程的抽象和簡(jiǎn)化了的數(shù)學(xué)物理模型,使用路徑權(quán)值的有向圖來(lái)表示模型中的人工神經(jīng)元節(jié)點(diǎn)和神經(jīng)元之間的連接關(guān)系,之后通過(guò)硬件或軟件

8、程序?qū)崿F(xiàn)上述有向圖的運(yùn)行1。目前最典型的人工神經(jīng)網(wǎng)絡(luò)算法包括:目前最典型的人工神經(jīng)網(wǎng)絡(luò)有BP網(wǎng)絡(luò) 2Hopfield網(wǎng)絡(luò)3Boltzmann機(jī)4SOFM網(wǎng)絡(luò)5以及ART網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)6,算法流程圖如圖1所示7。1.2 卷積神經(jīng)網(wǎng)絡(luò)框架的架構(gòu)Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫(xiě)8,意為快速特征嵌入的卷積結(jié)構(gòu),包含最先進(jìn)的深度學(xué)習(xí)算法以及一系列的參考模型,圖2表示的是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。Caffe深度學(xué)習(xí)框架主要依賴(lài)CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個(gè)軟件版

9、本說(shuō)明,如表1所示。 Caffe深度學(xué)習(xí)框架提供了多個(gè)經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),利用隱含層的卷積層和池采樣層是實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能,卷積神經(jīng)網(wǎng)絡(luò)模型通過(guò)采取梯度下降法最小化損失函數(shù)對(duì)網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié),通過(guò)頻繁的迭代訓(xùn)練來(lái)提高網(wǎng)絡(luò)的精度。卷積神經(jīng)網(wǎng)絡(luò)使用權(quán)值共享,這一結(jié)構(gòu)類(lèi)似于生物神經(jīng)網(wǎng)絡(luò),從而使網(wǎng)絡(luò)的復(fù)雜程度明顯降低,并且權(quán)值的數(shù)量也有大幅度的減少,本文使用這些模型直接進(jìn)行訓(xùn)練,和傳統(tǒng)的圖像分類(lèi)算法對(duì)比,性能有很大的提升,框架系統(tǒng)訓(xùn)練識(shí)別基本流程如圖3表示。1.3 圖像分類(lèi)特征提取卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次相比傳統(tǒng)的淺層的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),要

10、復(fù)雜得多,每?jī)蓪拥纳窠?jīng)元使用了局部連接的方式進(jìn)行連接、神經(jīng)元共享連接權(quán)重以及時(shí)間或空間上使用降采樣充分利用數(shù)據(jù)本身的特征,因此決定了卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比維度大幅度降低,從而降低計(jì)算時(shí)間的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)主要分為兩個(gè)過(guò)程,分為卷積和采樣,分別的對(duì)上層數(shù)據(jù)進(jìn)行提取抽象和對(duì)數(shù)據(jù)進(jìn)行降維的作用。本文以Caffe深度學(xué)習(xí)框架中的 CIFAR-10數(shù)據(jù)集的貓的網(wǎng)絡(luò)模型為例,如圖4所示,對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。CIFAR-10是一個(gè)標(biāo)準(zhǔn)圖像圖像訓(xùn)練集,由六萬(wàn)張圖像組成,共有10類(lèi)(分為飛機(jī),小汽車(chē),鳥(niǎo),貓,鹿,狗,青蛙,馬,船,卡車(chē)),每個(gè)圖片都是3232像素的RGB彩色圖像。通過(guò)對(duì)數(shù)據(jù)進(jìn)

11、行提取和降維的方法來(lái)提取圖像數(shù)據(jù)的特征。2 實(shí)驗(yàn)分析將貓的圖像訓(xùn)練集放在train的文件夾下,并統(tǒng)一修改成256256像素大小,并對(duì)貓的圖像訓(xùn)練集進(jìn)行標(biāo)記,標(biāo)簽為1,運(yùn)行選擇cpu進(jìn)行訓(xùn)練,每進(jìn)行10次迭代進(jìn)行一次測(cè)試,測(cè)試間隔為10次,初始化學(xué)習(xí)率為0.001,每20次迭代顯示一次信息,最大迭代次數(shù)為200次,網(wǎng)絡(luò)訓(xùn)練的動(dòng)量為0.9,權(quán)重衰退為0.0005,5000次進(jìn)行一次當(dāng)前狀態(tài)的記錄,記錄顯示如下圖5所示,預(yù)測(cè)的準(zhǔn)度在98%以上。而相比傳統(tǒng)的圖像分類(lèi)算法BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的收斂性慢,訓(xùn)練時(shí)間長(zhǎng)的,網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性,因而卷積神經(jīng)網(wǎng)絡(luò)框架在訓(xùn)練時(shí)間和預(yù)測(cè)準(zhǔn)度上具有非常大的優(yōu)勢(shì)。3

12、 結(jié)束語(yǔ)本文使用Caffe深度學(xué)習(xí)框架,以CIFAR-10數(shù)據(jù)集中貓的網(wǎng)絡(luò)模型為例,構(gòu)建小型貓的數(shù)據(jù)集,提取貓的圖象特征信息,最后和目標(biāo)貓圖像進(jìn)行預(yù)測(cè),并和傳統(tǒng)的圖像分類(lèi)算法進(jìn)行對(duì)比,預(yù)測(cè)的準(zhǔn)確率有很大的提升。Reference:1 楊錚, 吳陳沭, 劉云浩. 位置計(jì)算: 無(wú)線(xiàn)網(wǎng)絡(luò)定位與可定位性M. 北京: 清華大學(xué)出版社, 2014.2 丁士折. 人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)M. 哈爾濱: 哈爾濱工程大學(xué)出版社, 2008.3 McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessingJ. Explo

13、rations in the microstructure of cognition, 1986, 2.4 Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilitiesJ. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.5 Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzma

14、nnmachinesJ. Cognitive science, 1985, 9(1): 147-169.6 Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature MapsJ. Biological Cybernetics,1982, 43(1): 59-69.7 Carpenter G A, Grossberg S. A massively parallel architecture for aself-organizing neural pattern recognition machineJ. Computer visiongraphics, and image

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論