![【計算機視覺技術(shù)發(fā)展探究綜述4100字】_第1頁](http://file4.renrendoc.com/view2/M00/24/39/wKhkFmYpK3uAYAWZAAN9l1n8M5Y219.jpg)
![【計算機視覺技術(shù)發(fā)展探究綜述4100字】_第2頁](http://file4.renrendoc.com/view2/M00/24/39/wKhkFmYpK3uAYAWZAAN9l1n8M5Y2192.jpg)
![【計算機視覺技術(shù)發(fā)展探究綜述4100字】_第3頁](http://file4.renrendoc.com/view2/M00/24/39/wKhkFmYpK3uAYAWZAAN9l1n8M5Y2193.jpg)
![【計算機視覺技術(shù)發(fā)展探究綜述4100字】_第4頁](http://file4.renrendoc.com/view2/M00/24/39/wKhkFmYpK3uAYAWZAAN9l1n8M5Y2194.jpg)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
計算機視覺技術(shù)發(fā)展研究綜述目錄TOC\o"1-2"\h\u12741計算機視覺技術(shù)發(fā)展研究綜述 113385引言 126271研究綜述 1180351.1視覺信息處理機制 149851.2.基于顯著性的視覺注意 1132721.3圖像中的顯著目標檢測 2224891.4視頻顯著目標檢測 2189832研究述評 320282參考文獻 3引言當前,隨著腦認知科學的興起,計算機視覺技術(shù)進入了高速發(fā)展階段,這也推動了人工智能的革新。腦認知科學旨在探索模擬人腦復雜且強大的信息處理機制,使機器具備如人腦般更高水平的“智能”。2013年,美國、歐盟相繼實施“腦計劃”,腦科學及腦啟發(fā)智能成為國際競爭的新焦點,這也宣告了一場腦認知科學技術(shù)革命的開始[1]。我國于2016年正式開展以“腦科學和腦啟發(fā)智能”為主題的“腦計劃”,旨在推動以腦科學基礎(chǔ)研究、生物醫(yī)學及腦啟發(fā)智能這“一體兩翼”的發(fā)展[2]。2016年9月1日,百度在百度世界大會上正式宣布“百度大腦”工程的實施,拉開了我國互聯(lián)網(wǎng)公司致力于腦科學及人工智能研究的序幕[3];2017年7月20日,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,將人工智能視為提升綜合國力、引領(lǐng)全面發(fā)展的戰(zhàn)略性技術(shù),并在國家層面進行了綜合規(guī)劃,其中視覺神經(jīng)計算是其重要內(nèi)容之一[4]。如何借鑒人腦視覺信息處理機制,以應(yīng)用于計算機視覺技術(shù)和人工智能技術(shù),成為當前科學界的研究熱點。1研究綜述1.1視覺信息處理機制人腦視覺信息處理機制生物研究表明,人腦有140多億數(shù)量的神經(jīng)細胞,每天平均記錄并處理約1億條信息。人腦在接收到外部信息后,首先進行針對性篩選,僅處理其中“有效”的1%的信息。在對這1%的信息進行一系列復雜處理以后,人腦形成對外界事物的“印象”,即基本認知。人腦貯存和處理信息的性能,遠遠超過世界上現(xiàn)有的任何一臺獨立計算機,但其消耗能量的功率,僅僅為10W左右,這種高效而“低耗”的奧秘,一直是生物學和信息學領(lǐng)域的研究熱點[5]。而視覺系統(tǒng),作為人腦最主要的感覺系統(tǒng),接受并處理了其中約83%的外界信息,遠遠超過了聽覺系統(tǒng)、嗅覺系統(tǒng)及其他感覺系統(tǒng)處理的信息量之和。在人眼接收到外部視覺刺激時,視覺系統(tǒng)以極快的反應(yīng)速度提取出輪廓、色彩和方位等特征信息,幫助大腦形成基本的認知與判斷。在提取視覺特征方面,雖然計算機視覺技術(shù)發(fā)展日新月異,但與人類視覺系統(tǒng)相比仍有較大的差距:人類視覺系統(tǒng)可以高效自適應(yīng)地處理動靜態(tài)信息,且具有極強的小樣本泛化能力和全面的感知能力。1.2.基于顯著性的視覺注意眾所周知,即使我們在面對復雜的自然場景時,也能夠快速的從該場景中獲取到我們感興趣的信息,完成對場景的理解。這種快速獲取感興趣信息的策略依賴于人類視覺系統(tǒng)對外界環(huán)境優(yōu)秀的選擇處理機制。這種對信息的選擇處理策略稱為視覺注意機制[5]。對于自底向上計算模型的研究靈感最初來源于1980年Treisman等人提出的特征整合理論[6]。隨后,Koach和Itti[7]等人提出了這種計算模型的理論框架,其中的神經(jīng)網(wǎng)絡(luò)理論的焦點抑制機制為眾多模型所參考和借鑒。在Koch和Itti模型的基礎(chǔ)上,也出現(xiàn)了很多的改進算法。Milaness[8]等學者提出了特征顯著圖的理念并利用中心一周邊差分算法四進行特征的提取,自底向上的注意模型原理是從輸入圖像提取多方面的特征,如圖片顏色、朝向、亮度等,并形成各個特征維度上的顯著圖,再對所得顯著圖進行分析和融合得到感興趣圖。但是,視覺搜索的許多模型建議將目標定義為特征的結(jié)合時,搜索主要基于自頂向下的處理。如果目標是由一種顏色和一種方向(例如,紅色和垂直)定義的,而干擾項是由這些目標特征之一與另一種特征(例如,紅色和水平或紅色和垂直)的組合定義的,那么就不能依靠自底向上特征圖的輸出來引導人們注意目標[9]。大概需要自頂向下的搜索策略,因為每個位置至少包含目標的一項特征,并且因為沒有一個區(qū)域在特征上是唯一的[10]。Folk等人假設(shè)觀察者可以將他們的搜索限制在一個特定的特征值上,并且能夠覆蓋來自缺乏該特征值的任何元素的干擾[11]。因此,對刺激事件的關(guān)注取決于該事件是否具有對當前任務(wù)至關(guān)重要的特征屬性。自頂向下的模型通常是基于任務(wù)或目的的,自主性較強,而且自頂向下往往與自底向上的機制結(jié)合在一起。比如,Itti等人將視覺注意建模成一個自頂向下的優(yōu)化問題[7]。通過將目標顯著性和干擾噪聲之間的信噪比最大化,來學習特征融合時的權(quán)重值,而不是通過常用的特征融合函數(shù)來融合的。簡而言之,自底向上的模型認為,初始選擇不依賴于觀察者的意志,主要由元素的顯著性來驅(qū)動,而自頂向下的注意力模型則認為,觀察者主要是根據(jù)某種目的來選擇目標的。1.3圖像中的顯著目標檢測顯著性檢測在計算機視覺中得到了廣泛的研究,其顯著性模型一般可分為視覺注意預測和顯著目標檢測[12]。視覺注意預測試圖預測人類觀察者可能注視的場景位置,而顯著目標檢測旨在提取圖像或視頻中的視覺上顯著的目標。根據(jù)顯著性模型的輸入,將顯著性模型進一步分為靜態(tài)模型和動態(tài)模型?;陲@著性的目標檢測算法研究最初從靜態(tài)圖像入手。1998年,Itti等人[7]首次提出了基于生物特征的Itti模型,但是,Itti模型只從局部特征中檢測圖像的顯著性,而沒有考慮全局特征,導致只在輪廓附近有高的顯著值,從而不能均勻地突出整個目標,導致提取不準確。李彥勝[13]等人提出了一種基于區(qū)域?qū)Ρ鹊娜謱Ρ确治龇椒āF渲?,直方圖對比度算法的顯著性圖具有良好的細節(jié),區(qū)域?qū)Ρ人惴ㄍㄟ^空間增強生成高質(zhì)量的顯著性圖。然而,這兩種算法的計算效率相對較低,不適合檢測場景復雜的目標。徐春,章曉輝[14]等人利用譜殘差理論對輸入圖像進行二維離散傅里葉變換,將圖像從空間域變換到頻域,然后通過對圖像振幅取對數(shù)得到對數(shù)譜。鄭南寧[15]認為在Lab顏色空間上計算兩幅圖像對應(yīng)的顏色差異,得到顯著區(qū)域圖,因此,對于顏色差別較小的場景圖像,該方法不適用。這些算法利用背景先驗原理計算顯著性圖,能夠準確地突出顯著性目標,得到清晰的顯著圖。它們的缺點是對位于圖像邊界的突出物體的位置不敏感。1.4視頻顯著目標檢測由于運動信息的缺乏,圖像顯著目標檢測的方法不能直接應(yīng)用于視頻中。Guo[16]等人在基于譜殘差(SpectrumResidualApproach,SR)算法的基礎(chǔ)上,放棄了圖像的幅值譜,僅利用相位譜和運動特征將圖像擴展到四維,然后通過四元傅里葉變換及其逆變換得到顯著性圖。然而,該方法沒有考慮顯著區(qū)域的時空一致性,因此在連續(xù)幀中,同一區(qū)域的顯著值可能會發(fā)生顯著變化。為了增強時空一致性,Kim[17]等人通過計算多尺度框架下的紋理對比度來測量時空顯著性圖,并通過加權(quán)融合時空顯著性圖得到顯著性目標。Bao[18]等人將視頻視為三維數(shù)據(jù),提出了三維剪切波變換的方法。對視頻進行分解和重構(gòu),得到多尺度特征塊,對于每個特征塊,將視頻的連續(xù)特征圖作為一個整體,計算全局對比度,得到顯著性圖。最后,通過對不同層次的顯著性圖進行線性融合,得到每個視頻幀的顯著性圖。Zhou[19]等人提出了一種利用多尺度時空顯著性從高幀率視頻中獲取低幀率視頻的算法。其基本思想是在每個尺度上應(yīng)用流媒體分割,使用顏色、前景、光流等一系列低層次特征進行基于區(qū)域的對比分析,輔助中心位置和速度等局部先驗,通過融合對比度和局部先驗,得到細化的顯著性圖。為了提高視頻顯著目標檢測算法的時間一致性,Wang[20]等人提出了一種基于局部梯度流優(yōu)化和全局細化的視頻顯著性檢測方法。全局細化通過引入局部和全局顯著性線索,提高了顯著性圖的時空相干性,但也存在著顯著性物體不均勻、孔洞、背景噪聲等問題。隨后,Liu[21]等人提出了一種基于超像素的視頻顯著性檢測方法,將視頻幀分割成超像素,然后在超像素級計算視頻幀的時間顯著性和空間顯著性,最后通過像素級顯著性推導和自適應(yīng)融合方法得到像素級的時空顯著性圖。上面的方法使用了優(yōu)化模型和傳統(tǒng)的手工算法。近年來,隨著深度學習的迅速發(fā)展,提出了許多著名的視頻顯著性檢測的深度學習模型。Long等人[22]在端到端全卷積網(wǎng)絡(luò)中直接生成像素級的顯著性圖。Wang等人[23]提出了一種將局部估計和全局搜索相結(jié)合,結(jié)合區(qū)域建議和深度特征的顯著性檢測算法。Zhao等人[24]提出了一種多上下文深度學習框架。將基于超像素的圖像塊輸入到CNN中,提取其對應(yīng)的深度特征,完成顯著性檢測。Wang等人[25]提出了一種深度視頻顯著性網(wǎng)絡(luò),該網(wǎng)絡(luò)由兩個模塊組成,用來捕獲空間和時間顯著性信息,該方法無需耗時的光流計算,直接生成時空顯著性圖。以上深度學習方法可以幫助突出學習的有效性和高效性。相信隨著時間的推移,會有更多基于深度學習的一流顯著性模型被提出。2研究述評眾所周知交叉研究領(lǐng)域生物視覺神經(jīng)機制作為涉及認知心理學、圖像處理、計算機視覺等方向的一直深受研究人員的青睞,為研究人員提供了算法設(shè)計的靈感,也為計算機視覺、圖像處理等提供了不少成功的算法模型。盡管生物視覺的計算模型己被公認為有助于計算機視覺算法的設(shè)計,但對計算機視覺研究者來說,從生物視覺文獻中挖掘相關(guān)信息并非易事。同時,雖然現(xiàn)有的關(guān)于視覺顯著性檢測的模型數(shù)不勝數(shù),但是基于生物視覺機理的方法卻十分有限。本文基于生物視覺的研究成果,將生物視覺機制引入到視頻的顯著性檢測任務(wù)中,希望能為視頻的顯著性檢測提供一些理論參考。參考文獻[1]AmuntsK,LindnerA,ZillesK,etal.Thehumanbrainproject:NeuroscienceperspectivesandGermancontributions[J].E-neuroforum,2014,5(2):43-50.[2]PooM,DuJ,IpNY,etal.Chinabrainproject:Basicneuroscience,braindiseases,andbrain-inspiredcomputing[J].Neuron,2016,92(3):591-596.[3]程悅.百度開放“百度大腦”平臺[J].華東科技,2016(10):12.[4]國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》[N].人民日報,2017-07-21(1).[5]BargmannCI,NewsomeWT.Thebrainresearchthroughadvancinginnovativeneurotechnolo-gies(BRAIN)initiativeandneurology[J].JAMANeurology,2014,71(6):675-676.[6]N.Kanwisher,E.Wojciulik.Visualattention:insightsfrombrainimaging[J].NatureReviewsNeuroscience,2000,1,(2):91-100[7]L.Itti,C.Koch.Computationalmodellingofvisualattention[J].NatureReviewsNeuroscience,2001,2,(3):194-203[8]H.J.Seo,P.Milanfar.Staticandspace-timevisualsaliencydetectionbyself-resemblance[J].JVis,9,(12):15-15[9]馮思琴.基于時空特征的視覺顯著性檢測方法研究[D].重慶郵電大學,2019[10]J.J.Bengson,YLiu,N.Khodayari,etal.Gatingbyinhibitionduringtop-downcontrolofwilledattention[J].CognitiveNeuroence,2020,11,(1-2):60-70[11]R.Weidner,J.Krummenacher,B.Reimann,etal.SourcesofTop-DownControlinVisualSearch[J].JournalofCognitiveNeuroscience,21,(11):2100-2113[12]VNavalpakkam.AnIntegratedModelofTop-DownandBottom-UpAttentionforOptimizingDetectionSpeed[J].ProcCvprJun,2006,2,(2):2049-2056[13]李彥勝.生物視覺感知啟發(fā)下的目標檢測與識別技術(shù)研究[D].武漢:華中科技大學,2015.[14]徐春,章曉輝.學習和記憶的突觸模型:長時程突觸可塑性[J].自然雜志,2009,31(3):136-141.[15]鄭南寧.類腦計算的問題與視覺認知[C]//中國自動化學會.2015年中國自動化大會摘要集,2015:1.[16]C.Guo,M.Qi,L.Zhang.Spatio-temporalSaliencydetectionusingphasespectrumofquaternionfouriertransform[C].2008IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition(CVPR2008),24-26June2008,Anchorage,Alaska,USA,2008[17]WonjunKim,ChangickKim.SpatiotemporalSaliencyDetectionUsingTexturalContrastandItsApplications[J].IEEETransactionsonCircuits&SystemsforVideoTechnology,24,(4):646-659[18]L.Bao,X.Zhang,Y.Zheng,etal.Videosaliencydetectionusing3Dshearlettransform[J].MultimediaTools&Applications,75,(13):7761-7778[19]Z.Feng,S.B.Kang,M.F.Cohen.Time-MappingUsingSpace-TimeSaliency[C].2014IEEEConferenceonComputerVisionandPatternRecognition(CVPR),2014[20]W.Wang,J.Shen,L.Shao.ConsistentVideoSaliencyUsingLocalGradientFlowOptimizationandGlobalRefinement[J].IEEETransactionsonImageProcessing,24,(11):4185-4196[21]L.Zhi,Z.Xiang,S.Luo,etal.Superpixel-BasedSpatiotemporalSaliencyDetection[J].IEEETransactionsonCircuits&SystemsforVideoTechnology,2014,24,(9):1522-1540[22]J.Long,E.Shelhamer,T.Darrell.FullyConvolutionalNetwork
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 租房合同解除補充協(xié)議書
- 2025年度智能駕駛合資公司設(shè)立合同協(xié)議范本
- 2025年度深海油氣田勘探開發(fā)承包合同模板
- 2025年度中小企業(yè)貸款合同范本(2024年度更新)
- 2025年度綠色能源國際合作項目合同
- 2025年度現(xiàn)代農(nóng)業(yè)項目股權(quán)投資及農(nóng)產(chǎn)品深加工合同
- 2025年度建筑工程進度款支付合同制式范本
- 2025年度化妝品原料國際采購與供應(yīng)鏈管理合同
- 2025年度跨境電商物流配送服務(wù)合同范本-@-4
- 2025年度智能卡芯片設(shè)計與應(yīng)用開發(fā)合同
- 信號與系統(tǒng)復習題(答案全)
- ISO∕IEC 23894-2023 信息技術(shù) -人工智能 - 風險管理指南(雷澤佳譯-2024)
- 醫(yī)學人體美學的測量和評估
- 2024年湖南生物機電職業(yè)技術(shù)學院單招職業(yè)技能測試題庫及答案解析
- FZT 51006-2012 膜級聚己內(nèi)酰胺切片
- 2024年公安部直屬事業(yè)單位招聘筆試參考題庫附帶答案詳解
- 蘇教版五年級上冊數(shù)學脫式計算100題及答案
- 2024年全國初中數(shù)學聯(lián)賽試題及答案(修正版)
- 采編系統(tǒng)操作手冊
- 豆制品店鋪策劃方案
- NB-T 47013.15-2021 承壓設(shè)備無損檢測 第15部分:相控陣超聲檢測
評論
0/150
提交評論