基于深度學習的圖像簽生成算法_第1頁
基于深度學習的圖像簽生成算法_第2頁
基于深度學習的圖像簽生成算法_第3頁
基于深度學習的圖像簽生成算法_第4頁
基于深度學習的圖像簽生成算法_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

算法(中國科學院自動化研究所北京100190)匯共生關系的標注改善兩個過程。文中將基本圖像標注問題視為一個多標記學習問題,圖像的標簽先驗知識作為深度神經網絡的監(jiān)督信息。在得到基本標注詞匯的基礎上,利用原始圖像標簽詞匯的依賴關系與先所提出解決方案的有效性。,深度學習,神經網絡,機器學習mageAutoAnnotationbasedondeeplearningYangYangZhangWenshengInstituteofAutomationChineseAcademyofSciencesAbstractImageauto-annotationisabasicandchallengetaskintheimageretrievalwork.Thetraditionalmachinelearningmethodshavegotalotachievementinthisfield.Thedeeplearningalgorithmhasachievedgreatsuccessinimageandtextlearningworksinceithasbeenpresented,soitcanbeanefficiencymethodtosolethesemanticgapproblems.Imageauto-annotationcanbedecomposedintotwosteps:basicimageauto-annotationbasedontherelationshipbetweenimageandtag,andannotationenhancedbasedonthemutualinformationofthetags.Inthisarticle,thebasicimageauto-annotationisviewedasamulti-labelledproblem,sothepriorknowledgeofthetagscanbeusedasthesuperviseinformationofthedeepneuralnetwork.Aftertheimagetagsgot,thedependentrelationshipofthetagsisusedtoimprovetheannotationresult.Attheend,thismodelhavebeentestedinCorelandESPdataset,andbeenprovedthatthismethodcanefficientlysolvetheimageauto-annotationproblems.Keywordsimageautoannotation,deeplearning,neuralnetwork,machinelearning1基金項目:國家自然科學基金重點項目(U1135005,跨媒體協(xié)同處理與服務的理論與應用研究)資助項目增長,互聯(lián)網上每天都誕生海量的圖。為了有效地組織、查詢與瀏覽如此資源,圖像檢索技術應運而生。現有式主要分為兩種:基于內容的圖像檢eRetrievalCBIR的圖像檢索(Text-BasedImageRetrieval,TBIR)。對圖像檢索需要事先獲取圖像的文本語義信息[1]。圖泛,例如在社交媒體中大量的圖像被的任通過學者們的不斷努力,取得了豐碩的成標簽生成算法按照標注模型的不同主要分成兩大類[2]:基于統(tǒng)計分類的自動圖像標注模型和的自動圖像標注模型。基于統(tǒng)計分類的方一個圖像的語義概念都被當作一個類別進自動圖像標注就可以轉換成圖像的多分類denMarkovModelModel)[7]等?;诟怕式5姆椒▏L試推斷圖像和。Mori[8]等提出了一種利用關鍵字與“視覺詞匯”之間的共現關系(Co-Occurrence)來標注圖像標簽的網格法。近些年來流行的主題模型同樣在圖像自動標注領域有應用,例如,狄迪克雷分配模型[9] cationModelLDA估計過程卻相對復雜。受到關聯(lián)語言模型一些關聯(lián)模型相繼被應用到圖像自動標注RelevanceModelCMRM11](ContinuousRelevanceModel,CRM)和多重伯努利相關模型[12](MultipleBernoulliRelevanceModel,兩階段的圖像標注方法,第一步移除無關二步常規(guī)標注,能大幅提高圖像標注正確學習在圖像、文本和語音領域于受限制的玻爾茲曼機(RestrictBoltzmannMachine,RBM)的深度神經網絡(DeepBeliefNetwork,DBN)的訓NeuralNetwork,CNNs)是第一個真正意義上的多層結構學習算法。Krizhevsky[15]等人利用多層卷積神經網絡進行海量圖像的分類工作,取得了較好的成tMinst手寫數字識別等常用數據集上取得了超越RBM模型的分類Flickr上,應用DBN學習得到圖像和文本的語義表示并用于分類,同時該網絡可以通過圖像的單模信經網絡做有監(jiān)督的判別學習,得到g關系與先驗知識改善模型得到的標模型方法為在優(yōu)化入局部最優(yōu)中。而深度學習的DD預訓練,將網絡權重首先優(yōu)化后通過反向傳播過程對網絡權1受限玻爾茲曼機點與隱藏層節(jié)點間有對稱的權連接Wij),而可見層節(jié)點之間與隱藏層節(jié)點之間沒有E(v,h;9)=vTWhvTBhTADKDK(1)=viWijhjbivicDKDK(1)i=1j=1i=1j=1(2)P(v;9)=exp(E(v,h;9))(2)Z標準化項。當給定可見層節(jié)點v和隱藏Kp(vi=1|h,9)=Q(hjWij+bi)K(3)((3)(4)jDp(hj=1v,9)=Q(viWij+cj)Di=1i高斯-伯努利受限玻爾茲曼機于是定義高斯受限玻爾茲曼機(GRBM)模型,其能E(v,h;9)=viWijhjcjhj(5)p(vi=xh)=exp()(6)p(hj=1v)=Q(Wijvi)()7i=1si受限波爾茲曼機通常采用Hinton[13]等人提出的對比離差(ContrastiveDivergence,CD)的方法帶噪聲的自編碼神經網絡y=g9(f(x))x,使得輸出y接近于輸入x。如公Lxi,yi),學習得到模型的參數9*,其中f(x)=Q(Wx+b),y=g9(h)=Q(Wh+b),σ是邏輯斯蒂克函數。當權機的,比如每一個樣本xi都是一個跟其它樣本完全無關的獨立同分布高據中隱含著一些特定的結構,比如彼此相關的,那么這一算法就可以的這些相關性。事實上,這一簡單絡通??梢詫W習出一個跟主元分析 (PCA)結果非常相似的輸入數據的低維表示。(8)9,9nn=19*,9*=argmin1NL(x(8)9,9nn=1=argmin1=argmin1NL(xi,g9(f9(xi)))高模型參數對輸入數據的魯棒DAE圖1所示。在原有自編碼神經網絡的基礎干凈的輸入數據x,因此恒等函數由g9,(f9(x))必x的學習得到輸入數據的特征,常常9nn=19*,9,*=argmin1NL(xi,g9,(f9(xi)))9nn=1DenoiseAutoencoderDenoiseL(xL(x,y)g9g9fqxxyxFigTheDenoisingAuto-encoderModel模型結構統(tǒng)的BP神經元網絡采用單一隱藏層對數據藏層神經元網絡。為了避免神經元絡求解易陷入局部最優(yōu)的問題,首先采用RBM或者DAE模型對網絡權重進行預訓練,然后將預權重值作為反向傳播算法的權重初經元網絡,最后采用反向傳播算法由于神經網絡輸入單元vRN(N為輸入圖像特征GRBM深度神經網絡的第自編碼神經網絡的反向激勵函數運Layer3Layer2Layer1FigTheDeepBeliefNetworkmodel理分類問題時,設定監(jiān)督向練。訓練完成后,將測試數據組輸多分類問題時,可以將樣本多個類監(jiān)督向量的維數均設為1,輸出層做排序,排序靠前的類別為該神經簽,但是與常見的多分類問題有類問題對應的類別信息通常是均說每個類別所屬的圖像數量通常圖像標注問題的標注信息通常不個標簽可能所屬的圖像較多,也的標簽信息,那么標注頻率低的,而無法對給不均勻的問題,本文將圖像,新的監(jiān)督信息在原有監(jiān)督信息y的基礎上除以標簽有較大的返回值,能夠有效(10)加標注的準確性,更加有效的再平等對待。一方面,含有低大的權重,另一方面,低頻標1)(11)(12)=f(11)(12)f1=f2T=1/n重取標簽所含圖像的總數的倒數。對于f1通常取樣像標注改善視覺相似性,但由于語義鴻溝的存難保證得到的標簽與原圖像的語義21]指出依據樸素貝葉斯的思想,利后驗關系,可以提高文本的分類結,并引入圖像作為后驗來改善算法得到的標注結共生關系的圖像標注改善的一組相關詞匯,而詞匯間存在著各式各樣的語義關系。一般來講,在訓練集中,同一個樣本內同時出現的詞匯具有較強的語義相關性。這是由于共生頻率高的詞匯往往代表了兩個關系密切的概念或者事物,從而存在很大的可能性被標注在同一幅圖像“城市”與“建筑”等。因此利用共生詞匯在同一幅圖像出現的相關性可以有效的提供詞匯之間的語詞頻數的統(tǒng)計,不能有效的考慮到不同詞匯的不同特性。因此參照文獻中給出的共生關系的度量,通過(13)式來衡量詞匯的共(13)(13)詞頻的圖像標注改善中,本文同樣考慮到了詞頻對標注結果的影響。因此,定義詞頻系數KF=1/n型得到的神經網絡的實際輸出R,通過公式(14)得到模型的最終標注結果FR=KKRF4實驗分析性,并同其它算法進圖像自動標注工作中普遍使.1數據集Corel-5K圖像集共包含科雷爾(Corel)公司收驗:分類、檢索等,Corel-5k數據集是圖像實驗的作為訓練集,500個數據作為模型參數的評價集,畫與個人肖像等。所有的圖像被標2特征提取征作為深度神經網絡的輸述子和HUE描述子。所有特征均以詞包的形式存3評價指標習的方法來實現圖像的自動標注,因此首先選用分類正確率來衡量模型的訓N的標簽數目為n,那么模型對圖像標注準確率為量模型的訓練情況,給出了訓確率與召回率是以某單一關鍵Precision=NcRecall=NcNsNr(15)了上述兩個指標的聯(lián)合函數(F1=2P*R/(P+R))作為另一個評價指標。了標注算法對詞匯的覆蓋程度,記為N+。注意:。因此,即使一個模型可以對圖予精確的預測,仍無法得到一個4.4實驗結果1)基于分類的圖像標注準確率角度來衡量模型的標注準像的標注結果。為了衡量模型的性出了訓練集的標注準確率與測試集集,預測的圖像標簽內容與給定的符。但由于深度學習算法對于小樣擬合,導致模型在測試集上的像標注準確率TableTheannotationaccuracyofdifferentmodelNamenstM1E1)不同標簽數目對圖像標注的影響法的標注性能與標簽數目的關系,本文還考慮到對于不同圖像標簽數目對圖像監(jiān)督信息后的深度神經網絡模型得到的圖像標簽的準圖像標注結果明顯好于基于RBM模型的結果。針對圖像標注問題,改進的深度神經網絡得到的標注結果最好。(2)圖像標注的正確率隨著標簽數目的增加,先上升后下降,而召回率隨著標簽數目的增加而不斷這是因為在返回標簽數目較少時,返回得到的正確標簽的數目占圖像原標簽數目的比率在不斷上升,當超過一定限度時,模型會返回一些無關標簽,圖像標注的準確度會下降;而模型返回正確標簽的數目仍在不a目對精度的影響a.thepreciseresultofdifferentreturntagnumberb不同標簽數目對召回率的影響b.therecallresultofdifferentreturntagnumberc.theF1resultofdifferentreturntagnumber率與召回率的影響Fig3Theannotationresultofdifferentreturntagnumber3)不同圖像自動標注算法的比較與分析了深度神經網絡方法與其他典的結果,來驗證基于深度學習在Corel數據集上的實驗結果詳細對比,問題來解決,而非多類別分類問題分布。具體而言,當采用多分類問驗分布時,采用傳統(tǒng)的深度學習算得到的圖像標簽的效果與JEC的方法相當(標注驗分布時,圖像的標注效果有明顯簽先驗分布的深度學習模型可以更(2)DAE(Enhence)給出在基于圖像標簽先驗知識結果。實驗結果表明,通過考慮與詞頻得到的圖像標注標簽具有標注效果。在Corel數據集上它在略微降低同樣在ESP數據集上,精度也略微的下降,但召回率(40%)和返回標簽的數目(16%)也得到的很大的提高。不過需要說匯的召回時,會對整體標注的正Corel習與其他實驗結果的對比TableThecomparisonofannotationresultusingdeeplearningtoothermethodsinCoreldatasetNamePRN+stSquaresNetNPDERMCMEAETagAEEnhenceESP習與其他實驗結果的對比TableThecomparisonofannotationresultusingdeeplearningtoothermethodsinESPdatasetNamePRN+stSquaresRMCEAETagAEEnhence4)圖像自動標注在實際中的表現標注的實際結果,每標注評價指標分為兩個層次,標的圖像,模型自動標注得出的標dAutoannotation配的較好,而且得到的新的標簽義信息。對于標注表現不好的圖簽與原圖像相關程度低,甚至有是也存在部分標注補充的原圖像二排圖像的第三幅圖像中的模型結論問題,本文將圖像標記問題簽關系的基本圖像標注和基于注改善。在基本圖像標注過程利用圖像標簽的詞頻信息改進深度信息。在標注改善過程中,利用標系與詞頻先驗知識來改善已經得到圖像標記結果。最后,選取合適的數據集Corel上利用標簽的共生關系與先驗知識Originaltagsky,sun,clouds,sky,jet,planeCoral,ocean,reefswall,cars,trackssky,water,beach,swimmers,pool,formulasandpeople,watersuncloudswater,sunsetjetplanesuncloudswater,sunsetjetplaneormationCoraloceanreefserswavesutotionformula,bearsand,shipspeople,watertiondAutoadAutoawerspetalssroadcarsowerhtshorewater,plane,lioniceplantsfrostpeopleutotiontreeice,plantsanfrostleaficecloseupplants,frozenityskywaterbridge,sunsettreegrass,fieldhutlandscapebranch,leaf,seupdisplaywerscloseupumetulipFigTherealeffectofimageautomaticannotation文獻:LuH,LiuJ.ImageAnnotationBasedonGraphLearning[J].ChineseJournalofputers自適應的Web圖像語義自動標注方法[J].XuH,ZhouX,XiangY,etal.AdaptiveModelforWebImageSemanticAutomaticAnnotation[J].JournalofSoftware,2010,21(9):2183-2195.[3]CusanoC,CioccaG,SchettiniR.ImageannotationusingSVM[C]//ElectronicImaging2004.InternationalSocietyforOpticsandPhotonics,2003:330-338.[4]GaoY,FanJ,XueX,etal.AutomaticimageannotationbyincorporatingfeaturehierarchyandboostingtoscaleupSVMclassifiers[C]//Proceedingsofthe14thannualACMinternationalconferenceonMultimedia.ACM,2006:901-910.[5]LiJ,WangJZ.AutomaticlinguisticindexingofpicturesbyastatisticalmodelingapproachJPatternAnalysisandMachineIntelligence,IEEETransactionson,[6]ChangE,GohK,SychayG,etal.CBSA:content-basedsoftannotationformultimodalimageretrievalusingBayespointmachines[J].CircuitsandSystemsforVideoTechnology,IEEETransactionson,2003,13(1):26-38.[7]CarneiroG,ChanAB,MorenoPJ,etal.Supervisedlearningofsemanticclassesforimageannotationandretrieval[J].PatternAnalysisandMachineIntelligence,IEEETransactionson,2007,29(3):394-410.[8]MoriY,TakahashiH,OkaR.Image-to-wordtransformationbasedondividingandvectorquantizingimageswithwords[C]//FirstInternationalWorkshoponMultimediaIntelligentStorageandRetrievalManagement.1999.[9]BleiDM,JordanMI.Modelingannotateddata[C]//Proceedingsofthe26thannualinternationalACMSIGIRconferenceonResearchanddevelopmentinionretrievalACM[10]JeonJ,LavrenkoV,ManmathaR.AutomaticimageannotationandretrievalusingssmediarelevancemodelsJACM[11]LavrenkoV,ManmathaR,JeonJ.AModelforLearningtheSemanticsofPicturesCNIPS03,1:2.[12]FengSL,ManmathaR,LavrenkoV.MultipleBernoullirelevancemodelsforimageandvideoannotationJ[13]HintonG,ApracticalguidetotrainingrestrictedBoltzmannmachines[J].Momentum2010,9(1):926.[14]LeCunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.[15]KrizhevskyA,SutskeverI,HintonG.Image-NetClassificationwithDeepConvolutionalNeuralNetworksC]//NIPS.2012,1(2):4.[16]VincentP,LarochelleH,LajoieI,etal.Stackeddenoisingauto-encoders:Learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion[J].TheJournalofMachineLearningResearch,2010,9999:3371-3408.[17]SrivastavaN,SalakhutdinovR.Learningrepresentationsformultimodaldatawithdeepbeliefnets[C]//InternationalConferenceonMachineLearningWorkshop.2.[18]YavlinskyA,SchofieldE,RügerS.Automatedimageannotationusingglobalfeaturesandrobustnonparametricdensityestimat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論