




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上第一章 引論 人類在征服自然、改造自然和推動(dòng)社會(huì)進(jìn)步的過(guò)程中,面臨著自身能力、能量的局限性,因而發(fā)明和創(chuàng)造了許多機(jī)器來(lái)輔助或代替人類完成任務(wù)智能機(jī)器,包括智能機(jī)器人,是這種機(jī)器最理想的形式,也是人類科學(xué)研究中所面臨的最大挑戰(zhàn)之一智能機(jī)器是指這樣一種系統(tǒng),它能模擬人類的功能,能感知外部世界并有效地解決人所能解決問(wèn)題人類感知外部世界主要是通過(guò)視覺(jué)、觸覺(jué)、聽(tīng)覺(jué)和嗅覺(jué)等感覺(jué)器官,其中約80%的信息是由視覺(jué)獲取的因此,對(duì)于智能機(jī)器來(lái)說(shuō),賦予機(jī)器以人類視覺(jué)功能對(duì)發(fā)展智能機(jī)器是及其重要的,也由此形成了一門(mén)新的學(xué)科機(jī)器視覺(jué)(也稱計(jì)算機(jī)視覺(jué)或圖像分析與理解等)機(jī)器視覺(jué)的發(fā)展不僅將大大推
2、動(dòng)智能系統(tǒng)的發(fā)展,也將拓寬計(jì)算機(jī)與各種智能機(jī)器的研究范圍和應(yīng)用領(lǐng)域 機(jī)器視覺(jué)是研究用計(jì)算機(jī)來(lái)模擬生物外顯或宏觀視覺(jué)功能的科學(xué)和技術(shù)機(jī)器視覺(jué)系統(tǒng)的首要目標(biāo)是用圖像創(chuàng)建或恢復(fù)現(xiàn)實(shí)世界模型,然后認(rèn)知現(xiàn)實(shí)世界機(jī)器視覺(jué)系統(tǒng)獲取的場(chǎng)景圖像一般是灰度圖像,即三維場(chǎng)景在二維平面上的投影因此,場(chǎng)景三維信息只能通過(guò)灰度圖像或灰度圖像序列來(lái)恢復(fù)處理,這種恢復(fù)需要進(jìn)行多點(diǎn)對(duì)一點(diǎn)的映射逆變換在信息恢復(fù)過(guò)程中,還需要有關(guān)場(chǎng)景知識(shí)和投影幾何知識(shí)機(jī)器視覺(jué)是一個(gè)相當(dāng)新且發(fā)展十分迅速的研究領(lǐng)域,并成為計(jì)算機(jī)科學(xué)的重要研究領(lǐng)域之一機(jī)器視覺(jué)是在20世紀(jì)50年代從統(tǒng)計(jì)模式識(shí)別開(kāi)始的1,當(dāng)時(shí)的工作主要集中在二維圖像分析和識(shí)別上,如光學(xué)字
3、符識(shí)別,工件表面、顯微圖片和航空?qǐng)D片的分析和解釋等60年代,Roberts(1965)通過(guò)計(jì)算機(jī)程序從數(shù)字圖像中提取出諸如立方體、楔形體、棱柱體等多面體的三維結(jié)構(gòu),并對(duì)物體形狀及物體的空間關(guān)系進(jìn)行描述Roberts 1965Roberts 的研究工作開(kāi)創(chuàng)了以理解三維場(chǎng)景為目的的三維機(jī)器視覺(jué)的研究Roberts對(duì)積木世界的創(chuàng)造性研究給人們以極大的啟發(fā),許多人相信,一旦由白色積木玩具組成的三維世界可以被理解,則可以推廣到理解更復(fù)雜的三維場(chǎng)景于是,人們對(duì)積木世界進(jìn)行了深入的研究,研究的范圍從邊緣、角點(diǎn)等特征提取,到線條、平面、曲面等幾何要素分析,一直到圖像明暗、紋理、運(yùn)動(dòng)以及成像幾何等,并建立了各種
4、數(shù)據(jù)結(jié)構(gòu)和推理規(guī)則到了70年代,已經(jīng)出現(xiàn)了一些視覺(jué)應(yīng)用系統(tǒng)Guzman 1969, Mackworth 1973,70年代中期,麻省理工學(xué)院(MIT)人工智能(AI)實(shí)驗(yàn)室正式開(kāi)設(shè)“機(jī)器視覺(jué)”(Machine Vision)課程,由國(guó)際著名學(xué)者BKPHorn教授講授同時(shí),MIT AI 實(shí)驗(yàn)室吸引了國(guó)際上許多知名學(xué)者參與機(jī)器視覺(jué)的理論、算法、系統(tǒng)設(shè)計(jì)的研究,David Marr教授就是其中的一位他于1973年應(yīng)邀在MIT AI 實(shí)驗(yàn)室領(lǐng)導(dǎo)一個(gè)以博士生為主體的研究小組,1977年提出了不同于積木世界分析方法的計(jì)算視覺(jué)理論(computational vision),該理論在80年代成為機(jī)器視覺(jué)研究
5、領(lǐng)域中的一個(gè)十分重要的理論框架可以說(shuō),對(duì)機(jī)器視覺(jué)的全球性研究熱潮是從 20世紀(jì)80年代開(kāi)始的,到了80年代中期,機(jī)器視覺(jué)獲得了蓬勃發(fā)展,新概念、新方法、新理論不斷涌現(xiàn),比如,基于感知特征群的物體識(shí)別理論框架,主動(dòng)視覺(jué)理論框架,視覺(jué)集成理論框架等到目前為止,機(jī)器視覺(jué)仍然是一個(gè)非?;钴S的研究領(lǐng)域許多會(huì)議論文集都反應(yīng)了該領(lǐng)域的最新進(jìn)展,比如,International Conference on Computer Vision and Pattern Recognition(CVPR); International Conference on Computer Vision(ICCV); Inter
6、national Conference on Pattern Recognition(ICPR); International Conference on Robotics and Automation(ICRA); Workshop on Computer Vision, and numerous conferences of SPIE還有許多學(xué)術(shù)期刊也包含了這一領(lǐng)域的最新研究成果, 如,IEEE Transaction on Pattern Analysis and Machine Intelligence(PAMI); Computer Vision, Graphics, and Ima
7、ge Processing(CVGIP); IEEE Transaction on Image Processing; IEEE Transaction on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; International Journal on Computer Vision(IJCV); Image and Vision Computing; and Pattern Recognition每年還出版許多研究專集、學(xué)術(shù)著作、技術(shù)報(bào)告,舉行專題討論會(huì)等所有這些都是研究機(jī)器視覺(jué)及其應(yīng)用的很好信息來(lái)
8、源12 Marr的視覺(jué)計(jì)算理論Marr的視覺(jué)計(jì)算理論Marr1982立足于計(jì)算機(jī)科學(xué),系統(tǒng)地概括了心理生理學(xué)、神經(jīng)生理學(xué)等方面業(yè)已取得的所有重要成果,是視覺(jué)研究中迄今為止最為完善的視覺(jué)理論Marr建立的視覺(jué)計(jì)算理論,使計(jì)算機(jī)視覺(jué)研究有了一個(gè)比較明確的體系,并大大推動(dòng)了計(jì)算機(jī)視覺(jué)研究的發(fā)展人們普遍認(rèn)為,計(jì)算機(jī)視覺(jué)這門(mén)學(xué)科的形成與Marr的視覺(jué)理論有著密切的關(guān)系事實(shí)上,盡管20世紀(jì)70年代初期就有人使用計(jì)算機(jī)視覺(jué)這個(gè)名詞Binford,1971,但正是Marr 70年代末建立的視覺(jué)理論促使計(jì)算機(jī)視覺(jué)這一名詞的流行下面簡(jiǎn)要地介紹Marr的視覺(jué)理論的基本思想及其理論框架 121 三個(gè)層次Marr認(rèn)為,
9、 視覺(jué)是一個(gè)信息處理系統(tǒng),對(duì)此系統(tǒng)研究應(yīng)分為三個(gè)層次:計(jì)算理論層次,表示(representation)與算法層次,硬件實(shí)現(xiàn)層次,如表1-1所示 表1-1 計(jì)算理論 表示和算法 硬件實(shí)現(xiàn)計(jì)算的目的是什么? 如何實(shí)現(xiàn)這個(gè)計(jì)算理論? 在物理上如何實(shí)現(xiàn)為什么這一計(jì)算是合適的? 輸入、輸出的表示是什么? 這些表示和算法?執(zhí)行計(jì)算的策略是什么? 表示與表示之間的變換是什么?按照Marr的理論,計(jì)算視覺(jué)理論要回答視覺(jué)系統(tǒng)的計(jì)算目的和策略是什么,或視覺(jué)系統(tǒng)的輸入和輸出是什么,如何由系統(tǒng)的輸入求出系統(tǒng)的輸出在這個(gè)層次上,信息系統(tǒng)的特征是將一種信息(輸入)映射為另一種信息(輸出)比如,系統(tǒng)輸入是二維灰度圖像,輸
10、出則是三維物體的形狀、位置和姿態(tài),視覺(jué)系統(tǒng)的任務(wù)就是如何建立輸入輸出之間的關(guān)系和約束,如何由二維灰度圖像恢復(fù)物體的三維信息表示與算法層次是要進(jìn)一步回答如何表示輸入和輸出信息,如何實(shí)現(xiàn)計(jì)算理論所對(duì)應(yīng)的功能的算法,以及如何由一種表示變換成另一種表示,比如創(chuàng)建數(shù)據(jù)結(jié)構(gòu)和符號(hào)一般來(lái)說(shuō),不同的輸入、輸出和計(jì)算理論,對(duì)應(yīng)不同的表示,而同一種輸入、輸出或計(jì)算理論可能對(duì)應(yīng)若干種表示在解決了理論問(wèn)題和表示問(wèn)題后,最后一個(gè)層次是解決用硬件實(shí)現(xiàn)上述表示和算法的問(wèn)題,比如計(jì)算機(jī)體系結(jié)構(gòu)及具體的計(jì)算裝置及其細(xì)節(jié)從信息處理的觀點(diǎn)來(lái)看,至關(guān)重要的乃是最高層次,即計(jì)算理論層次這是因?yàn)闃?gòu)成知覺(jué)的計(jì)算本質(zhì),取決于解決計(jì)算問(wèn)題本身
11、,而不取決于用來(lái)解決計(jì)算問(wèn)題的特殊硬件換句話說(shuō),通過(guò)正確理解待解決問(wèn)題的本質(zhì),將有助于理解并創(chuàng)造算法 如果考慮解決問(wèn)題的機(jī)制和物理實(shí)現(xiàn),則對(duì)理解算法往往無(wú)濟(jì)于事上述三個(gè)層次之間存在著邏輯的因果關(guān)系,但它們之間的聯(lián)系不是十分緊密,因此,某些現(xiàn)象只能在其中一個(gè)或兩個(gè)層次上進(jìn)行解釋比如神經(jīng)解剖學(xué)原則上與第三層次即物理實(shí)現(xiàn)聯(lián)系在一起突觸機(jī)制、動(dòng)作電位、抑制性相互作用都在第三個(gè)層次上心理物理學(xué)與第二層次(即表示與算法)有著更直接的聯(lián)系更一般地說(shuō),不同的現(xiàn)象必須在不同的層次上進(jìn)行解釋,這會(huì)有助于人們把握正確的研究方向例如,人們常說(shuō),人腦完全不同于計(jì)算機(jī),因?yàn)榍罢呤遣⑿屑庸さ?,后者是串行的?duì)于這個(gè)問(wèn)題,應(yīng)該
12、這樣回答:并行加工和串行加工是在算法這個(gè)層次上的區(qū)別,而不是根本性的區(qū)別, 因?yàn)槿魏我粋€(gè)并行的計(jì)算程序都可以寫(xiě)成串行的程序因此,這種并行與串行的區(qū)別并不支持這種觀點(diǎn),即人腦的運(yùn)行與計(jì)算機(jī)的運(yùn)算是不同的,因而人腦所完成的任務(wù)是不可能通過(guò)編制程序用計(jì)算機(jī)來(lái)完成122 視覺(jué)表示框架視覺(jué)過(guò)程劃分為三個(gè)階段, 如表1-2所示第一階段(也稱為早期階段)是將輸入的原始圖像進(jìn)行處理,抽取圖像中諸如角點(diǎn)、邊緣、紋理、線條、邊界等基本特征,這些特征的集合稱為基元圖(primitive sketch);第二階段(中期階段)是指在以觀測(cè)者為中心的坐標(biāo)系中,由輸入圖像和基元圖恢復(fù)場(chǎng)景可見(jiàn)部分的深度、法線方向、輪廓等,這
13、些信息的包含了深度信息,但不是真正的物體三維表示,因此,稱為二維半圖(25 dimensional sketch);在以物體為中心的坐標(biāo)系中,由輸入圖像、基元圖、二維半圖來(lái)恢復(fù)、表示和識(shí)別三維物體的過(guò)程稱為視覺(jué)的第三階段(后期階段)表1-2 由圖像恢復(fù)形狀信息的表示框架名 稱目 的基 元圖像光強(qiáng)表示圖像中每一點(diǎn)的強(qiáng)度值基元圖表示二維圖像中的重要信息,主要是圖像中的強(qiáng)度變化位置及其幾何分布和組織結(jié)構(gòu)零交叉,斑點(diǎn),端點(diǎn)和不連續(xù)點(diǎn),邊緣片斷,有效線段,組合群,曲線組織,邊界 25維圖在以觀測(cè)者為中心的坐標(biāo)系中,表示可見(jiàn)表面的方向、深度值和不連續(xù)的輪廓局部表面朝向(“針”基元)離觀測(cè)者的距離深度上的不
14、連續(xù)點(diǎn)表面朝向的不連續(xù)點(diǎn)3維模型表示在以物體為中心的坐標(biāo)系中,用由體積基元和面積基元構(gòu)成的模塊化多層次表示,描述形狀及其空間組織形式分層次組成若干三維模型,每個(gè)三維模型都是在幾個(gè)軸線空間的基礎(chǔ)上構(gòu)成的,所有體積基元或面積形狀基元都附著在軸線上 Marr理論是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的劃時(shí)代成就,但該理論不是十分完善的,許多方面還有爭(zhēng)議比如, 該理論所建立的視覺(jué)處理框架基本上是自下而上,沒(méi)有反饋 還有,該理論沒(méi)有足夠地重視知識(shí)的應(yīng)用盡管如此,Marr理論給了我們研究計(jì)算機(jī)視覺(jué)許多珍貴的哲學(xué)思想和研究方法,同時(shí)也給計(jì)算機(jī)視覺(jué)研究領(lǐng)域創(chuàng)造了許多研究起點(diǎn)13 機(jī)器視覺(jué)的應(yīng)用機(jī)器視覺(jué)技術(shù)正廣泛地應(yīng)用于各個(gè)方面
15、,從醫(yī)學(xué)圖象到遙感圖像,從工業(yè)檢測(cè)到文件處理,從毫微米技術(shù)到多媒體數(shù)據(jù)庫(kù),不一而足可以說(shuō),需要人類視覺(jué)的場(chǎng)合幾乎都需要機(jī)器視覺(jué)應(yīng)該指出的是,許多人類視覺(jué)無(wú)法感知的場(chǎng)合,如精確定量感知、危險(xiǎn)場(chǎng)景感知、不可見(jiàn)物體感知等,機(jī)器視覺(jué)更突顯其優(yōu)越性下面是一些機(jī)器視覺(jué)的典型應(yīng)用 (1)零件識(shí)別與定位由于工業(yè)環(huán)境的結(jié)構(gòu)、照明等因素可以得到嚴(yán)格的控制,因此,機(jī)器視覺(jué)在工業(yè)生產(chǎn)和裝配中得到了成功的應(yīng)用圖11 是一個(gè)具有簡(jiǎn)單視覺(jué)的工業(yè)機(jī)器人系統(tǒng)示意圖,其視覺(jué)系統(tǒng)由一個(gè)攝象機(jī)和相關(guān)的視覺(jué)信息處理系統(tǒng)組成攝象機(jī)位于零件傳輸帶上方,對(duì)于不同的零件,可以選擇不同顏色的傳輸帶,比如,明亮的物體,選擇黑色傳輸帶,暗色的零件,
16、選擇白色的背景,這樣有利于視覺(jué)系統(tǒng)將零件從傳輸帶上分離出來(lái),并進(jìn)行識(shí)別和定位,識(shí)別的目的是為機(jī)器人提供是否操作或進(jìn)行何種操作的信息,定位的目的是導(dǎo)引機(jī)器人手爪實(shí)時(shí)準(zhǔn)確地夾取零件圖11 用于生產(chǎn)線上具有簡(jiǎn)單視覺(jué)系統(tǒng)的工業(yè)機(jī)器人系統(tǒng)示意圖(2)產(chǎn)品檢驗(yàn)機(jī)器視覺(jué)在工業(yè)領(lǐng)域中另一個(gè)成功的應(yīng)用是產(chǎn)品檢驗(yàn)?zāi)壳耙呀?jīng)用于產(chǎn)品外形檢驗(yàn)、表面缺陷檢驗(yàn),比如, 滑塊及滑槽的外形檢驗(yàn)以及裝配后的位置檢驗(yàn),以決定它們能否裝配在一起,并且準(zhǔn)確無(wú)誤地完成裝配任務(wù);發(fā)動(dòng)機(jī)內(nèi)壁麻點(diǎn)、刻痕等缺陷檢查,以決定產(chǎn)品的質(zhì)量通過(guò)X射線照相或超聲探測(cè)獲取物體內(nèi)部的圖像,可以實(shí)現(xiàn)內(nèi)部缺陷檢驗(yàn),如鋼梁內(nèi)部裂紋和氣孔等缺陷檢驗(yàn)(3) 移動(dòng)機(jī)器人
17、導(dǎo)航我們來(lái)看一下圖12所示的兩組圖像,每一組圖像稱為一個(gè)立體對(duì)(stereo pair),是由移動(dòng)機(jī)器人上的兩個(gè)攝象機(jī)同步獲取的,表示某一時(shí)刻關(guān)于場(chǎng)景的不同視點(diǎn)的兩幅圖像機(jī)器人利用立體對(duì)可以恢復(fù)周?chē)h(huán)境的三維信息移動(dòng)機(jī)器人可以利用場(chǎng)景的三維信息識(shí)別目標(biāo)、識(shí)別道路、判斷障礙物等,實(shí)現(xiàn)道路規(guī)劃、自主導(dǎo)航,與周?chē)h(huán)境自主交互作用等將立體圖像對(duì)和運(yùn)動(dòng)信息組合起來(lái),可以構(gòu)成滿足特定任務(wù)分辨率要求的場(chǎng)景深度圖這種技術(shù)對(duì)無(wú)人汽車(chē)、無(wú)人飛機(jī)、無(wú)人戰(zhàn)車(chē)等自主系統(tǒng)的自動(dòng)導(dǎo)航十分有用比如,著名的美國(guó)Sojourner和Rocky7等系列火星探測(cè)移動(dòng)機(jī)器人都使用了立體視覺(jué)導(dǎo)航系統(tǒng) 圖12 由移動(dòng)機(jī)器人立體視覺(jué)系統(tǒng)獲取
18、的立體圖像對(duì),可用來(lái)重建場(chǎng)景三維信息(4)遙感圖像分析目前的遙感圖像包括三種:航空攝影圖像、氣象衛(wèi)星圖像、資源衛(wèi)星圖像這些圖像的共同特點(diǎn)是在高空對(duì)地表或地層進(jìn)行遠(yuǎn)距離成像,但三種圖像的成像機(jī)理完全不同航空?qǐng)D像可以用普通的視頻攝象機(jī)來(lái)獲取,分析方法也同普通的圖像分析一樣衛(wèi)星圖像的獲取和應(yīng)用隨著成像機(jī)理不同而變化很大,氣象衛(wèi)星使用紅外成像傳感系統(tǒng)可以獲取不同云層的圖像,即云圖,由此分析某一地區(qū)的氣象狀況;海洋衛(wèi)星使用合成孔徑雷達(dá)獲取海洋、淺灘圖像,由此重構(gòu)海洋波浪三維表面圖;資源衛(wèi)星裝備有多光譜探測(cè)器(multiple spectral sensor, MSS),可以獲取地表相應(yīng)點(diǎn)的多個(gè)光譜段的反
19、射特性,如紅外、可見(jiàn)光、紫外等,多光譜圖像被廣泛地用于找礦、森林、農(nóng)作物調(diào)查、自然災(zāi)害測(cè)報(bào)、資源和生態(tài)環(huán)境檢測(cè)等(5)醫(yī)學(xué)圖像分析 目前醫(yī)學(xué)圖像已經(jīng)廣泛用于醫(yī)學(xué)診斷,成像方法包括傳統(tǒng)的X射線成像、計(jì)算機(jī)層析(computed tomography, CT)成像、核磁共振成像(magnetic resonance imaging, MRI)、超聲成像等機(jī)器視覺(jué)在醫(yī)學(xué)圖像診斷方面有兩方面的應(yīng)用,一是對(duì)圖像進(jìn)行增強(qiáng)、標(biāo)記、染色等處理來(lái)幫助醫(yī)生診斷疾病,并協(xié)助醫(yī)生對(duì)感興趣的區(qū)域進(jìn)行定量測(cè)量和比較;二是利用專家知識(shí)系統(tǒng)對(duì)圖像(或是一段時(shí)期內(nèi)的一系列圖像)進(jìn)行自動(dòng)分析和解釋,給出診斷結(jié)果 (6)安全鑒別、
20、監(jiān)視與跟蹤用機(jī)器視覺(jué)系統(tǒng)可以實(shí)現(xiàn)停車(chē)場(chǎng)監(jiān)視、車(chē)輛識(shí)別、車(chē)牌號(hào)識(shí)別、探測(cè)并跟蹤“可疑”目標(biāo);根據(jù)面孔、眼底、指紋等特征識(shí)別特定人。目前人們正在研究一種面部運(yùn)動(dòng)參數(shù)的提取和描述,以分析人的表情及內(nèi)心活動(dòng)(7)國(guó)防系統(tǒng)機(jī)器視覺(jué)在國(guó)防系統(tǒng)中的作用越來(lái)越重要,一個(gè)理由是滿足自主操作的需要,另一個(gè)理由是分析大量先進(jìn)成像傳感器的輸出顯而易見(jiàn),在國(guó)防系統(tǒng)中迅速作出反應(yīng)是極其重要的,這就需要在人工盡可能少的干預(yù)下作出各種決策,尤其是與圖像和視覺(jué)方法有關(guān)的各種技術(shù),比如,圖像制導(dǎo)與目標(biāo)識(shí)別等 (8)其它機(jī)器視覺(jué)已經(jīng)用于各種球類運(yùn)動(dòng)分析、人體測(cè)量,食品,農(nóng)業(yè)、心理學(xué)、電視電影制作、美術(shù)模型、遠(yuǎn)程教育,多媒體教學(xué)等場(chǎng)
21、合14 機(jī)器視覺(jué)研究?jī)?nèi)容與面臨的困難 機(jī)器視覺(jué)研究可以分為如下五大研究?jī)?nèi)容:i 輸入設(shè)備i 低層視覺(jué)i 中層視覺(jué)i 高層視覺(jué)i 體系結(jié)構(gòu)輸入設(shè)備(input device)包括成像設(shè)備和數(shù)字化設(shè)備成象設(shè)備是指通過(guò)光學(xué)攝像機(jī)或紅外、激光、超聲、X射線對(duì)周?chē)鷪?chǎng)景或物體進(jìn)行探測(cè)成象,得到關(guān)于場(chǎng)景或物體的二維或三維數(shù)字化圖像獲取數(shù)字化圖像是機(jī)器視覺(jué)系統(tǒng)的最基本的功能目前用于視覺(jué)研究的大多數(shù)輸入設(shè)備是商品化的產(chǎn)品,如,CCD黑白或彩色攝像機(jī),數(shù)字掃描儀,超聲成象探測(cè)儀,CT成象設(shè)備等但這些商品化的輸入設(shè)備遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要,因此,仍有許多研究人員在研究各種性能先進(jìn)的成象系統(tǒng),如,紅外成象系統(tǒng),激光成
22、象系統(tǒng),還有所謂的計(jì)算成象系統(tǒng)(computational imaging),即每一個(gè)像素元(或若干像素元)對(duì)應(yīng)一個(gè)簡(jiǎn)單的處理器,這樣可以適應(yīng)復(fù)雜場(chǎng)景動(dòng)態(tài)變化的場(chǎng)合Brajovic 1996低層視覺(jué)(low level)主要是對(duì)輸入的原始圖像進(jìn)行處理這一過(guò)程借用了大量的圖像處理技術(shù)和算法,如圖像濾波、圖像增強(qiáng)、邊緣檢測(cè)等,以便從圖像中抽取諸如角點(diǎn)、邊緣、線條、邊界以及色彩等關(guān)于場(chǎng)景的基本特征;這一過(guò)程還包含了各種圖像變換(如校正)、圖像紋理檢測(cè)、圖像運(yùn)動(dòng)檢測(cè)等中層視覺(jué)(middle level)的主要任務(wù)是恢復(fù)場(chǎng)景的深度、表面法線方向、輪廓等有關(guān)場(chǎng)景的25維信息,實(shí)現(xiàn)的途徑有立體視覺(jué)(ster
23、eo vision)、測(cè)距成像(rangefinder)運(yùn)動(dòng)估計(jì)(motion estimation)、明暗特征、紋理特征等所謂的從X恢復(fù)形狀的估計(jì)方法系統(tǒng)標(biāo)定、系統(tǒng)成像模型等研究?jī)?nèi)容一般也是在這個(gè)層次上進(jìn)行的高層視覺(jué)(high level)的任務(wù)是在以物體為中心的坐標(biāo)系中,在原始輸入圖像、圖像基本特征、25維圖的基礎(chǔ)上,恢復(fù)物體的完整三維圖,建立物體三維描述,識(shí)別三維物體并確定物體的位置和方向另外,主動(dòng)視覺(jué)(active vision)涵蓋了上述各個(gè)層次的研究?jī)?nèi)容值得指出,低層、中層和高層機(jī)器視覺(jué)基本上與Marr視覺(jué)的三個(gè)階段相對(duì)應(yīng)體系結(jié)構(gòu)(system architecture)這一術(shù)語(yǔ)最
24、通常的含義系指在高度抽象的層次上,根據(jù)系統(tǒng)模型而不是根據(jù)實(shí)現(xiàn)設(shè)計(jì)的具體例子來(lái)研究系統(tǒng)的結(jié)構(gòu)為了說(shuō)明這一點(diǎn),可以考慮建筑設(shè)計(jì)中某一時(shí)期的建筑風(fēng)格(如清朝時(shí)期)和根據(jù)這一風(fēng)格設(shè)計(jì)出來(lái)的具體建筑之間的區(qū)別體系結(jié)構(gòu)研究涉及一系列相關(guān)的課題:并行結(jié)構(gòu)、分層結(jié)構(gòu)、信息流結(jié)構(gòu)、拓?fù)浣Y(jié)構(gòu)以及從設(shè)計(jì)到實(shí)現(xiàn)的途徑人們對(duì)上述幾個(gè)研究?jī)?nèi)容進(jìn)行了卓有成效的研究,研究出大量的技術(shù)和算法,并且在各個(gè)領(lǐng)域中得到廣泛的應(yīng)用不過(guò),機(jī)器視覺(jué)技術(shù)仍處于十分不成熟的的階段,其發(fā)展遠(yuǎn)遠(yuǎn)落后于人們所寄予的發(fā)展水平 對(duì)于人類視覺(jué)來(lái)說(shuō),識(shí)別和理解周?chē)鷪?chǎng)景是一件非常容易的事,但對(duì)于機(jī)器來(lái)說(shuō),卻是一件很困難的事主要困難體現(xiàn)在如下幾方面:(1) 圖
25、像多義性: 三維場(chǎng)景被投影為二維圖像,深度和不可見(jiàn)部分的信息被丟失,因而會(huì)出現(xiàn)不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像的問(wèn)題,如圖3所示另外,在不同角度獲取同一物體的圖像會(huì)有很大的差異(2) 環(huán)境因素影響:場(chǎng)景中的諸多因素,包括照明、物體形狀、表面顏色、攝像機(jī)以及空間關(guān)系變化都會(huì)對(duì)投影的圖像有影響,因此,當(dāng)任何一個(gè)因素發(fā)生變化時(shí),都會(huì)對(duì)圖像產(chǎn)生影響(3) 知識(shí)導(dǎo)引: 同樣的圖像在不同的知識(shí)導(dǎo)引下,將會(huì)產(chǎn)生不同的識(shí)別結(jié)果圖45所示的圖像,在不同的約束或知識(shí)導(dǎo)引下,具有不同的識(shí)別結(jié)果圖4(b)可能表示一個(gè)少女前視遠(yuǎn)方的側(cè)面圖像,也可能表示一個(gè)老婦人凝視下前方的正側(cè)面圖像圖5包含有幾個(gè)的立方體
26、,不同的知識(shí)導(dǎo)引可能產(chǎn)生不同的空間關(guān)系,也就具有不同意義(4) 大量數(shù)據(jù): 灰度圖像,彩色圖像,深度圖像的信息量十分巨大,比如分辨率為的灰度圖像的數(shù)據(jù)量為256K,同樣分辨率的彩色圖像的數(shù)據(jù)量是768K如果處理的是圖像序列,則數(shù)據(jù)量更大巨大的數(shù)據(jù)量需要很大的存貯空間,同時(shí)不易實(shí)現(xiàn)快速處理為了解決視覺(jué)所面臨的問(wèn)題,研究人員不斷尋求新的途徑和手段,比如,主動(dòng)視覺(jué)(active vision),面向任務(wù)的視覺(jué)(task-oriented vision),基于知識(shí)、基于模型的視覺(jué),以及多傳感融合和集成視覺(jué)等方法,其中人們?cè)絹?lái)越重視對(duì)知識(shí)的應(yīng)用我們會(huì)看到,機(jī)器視覺(jué)系統(tǒng)的最大特征是,在視覺(jué)的各個(gè)階段,系統(tǒng)
27、盡可能地進(jìn)行自動(dòng)運(yùn)算為此,系統(tǒng)需要使用各種知識(shí),包括特征模型、成像過(guò)程、物體模型和物體間的關(guān)系如果機(jī)器視覺(jué)系統(tǒng)不用這些知識(shí),則其應(yīng)用的范圍及其功能將十分有限因此,視覺(jué)系統(tǒng)應(yīng)該使用那些可以被明確表示的知識(shí),以使系統(tǒng)具有更高的適應(yīng)性和魯棒性合理地使用知識(shí)不僅可以有效地提高系統(tǒng)的適應(yīng)性和魯棒性,而且可以求解機(jī)器視覺(jué)中較難的問(wèn)題圖3不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像圖4一組人臉側(cè)面圖像注意,中間圖像既與左邊圖像相似,又與右邊圖像相似Hochberg1964圖5幾個(gè)立方體構(gòu)成的多義性圖像選自Combs的作品15 機(jī)器視覺(jué)與其它學(xué)科領(lǐng)域的關(guān)系 與機(jī)器視覺(jué)有關(guān)的學(xué)科有許多本節(jié)主要討論一些與機(jī)器視
28、覺(jué)密切相關(guān)的領(lǐng)域關(guān)于機(jī)器視覺(jué)與其它學(xué)科的關(guān)系,我們不作詳盡的討論 圖像處理是一個(gè)發(fā)展比較成熟的領(lǐng)域圖像處理技術(shù)通常是把一幅圖像變換成另外一幅圖像,也就是說(shuō),圖像處理系統(tǒng)的輸入是圖像,輸出仍然是圖像,信息恢復(fù)任務(wù)則留給人來(lái)完成圖像處理包括圖像增強(qiáng)、圖像壓縮和模糊校正與非聚焦圖像等課題機(jī)器視覺(jué)系統(tǒng)把圖像作為輸入,產(chǎn)生的輸出為另一種形式,比如圖像中物體輪廓的表示因此,機(jī)器視覺(jué)的重點(diǎn)是在人的最小干預(yù)下,由計(jì)算機(jī)自動(dòng)恢復(fù)場(chǎng)景信息圖像處理算法在機(jī)器視覺(jué)系統(tǒng)的早期階段起著很大的作用,它們通常被用來(lái)增強(qiáng)特定信息并抑制噪聲 計(jì)算機(jī)圖形學(xué)是通過(guò)幾何基元,如線、圓和自由曲面,來(lái)生成圖像,它在可視化(Visualiz
29、ation)和虛擬現(xiàn)實(shí)(Virtual Reality)中起著很重要的作用機(jī)器視覺(jué)正好是解決相反的問(wèn)題,即從圖像中估計(jì)幾何基元和其它特征因此,計(jì)算機(jī)圖形學(xué)屬于圖像綜合,機(jī)器視覺(jué)屬于圖像分析這兩個(gè)領(lǐng)域在其發(fā)展的早期階段是沒(méi)有什么聯(lián)系的,但是近十幾年來(lái)發(fā)展的越來(lái)越相近了機(jī)器視覺(jué)使用了計(jì)算機(jī)圖形學(xué)中的曲線和曲面表示方法以及其它的一些技術(shù),而計(jì)算機(jī)圖形學(xué)也使用機(jī)器視覺(jué)技術(shù),以便在計(jì)算機(jī)中建立逼真的圖像模型可視化和虛擬現(xiàn)實(shí)把這兩個(gè)領(lǐng)域緊密地聯(lián)系在一起 模式識(shí)別主要用于識(shí)別各種符號(hào)、圖畫(huà)等平面圖形模式一般指一類事物區(qū)別于其它事物所具有的共同特征。模式識(shí)別方法主要有統(tǒng)計(jì)方法和句法方法兩種,統(tǒng)計(jì)方法是指從模式
30、抽取一組特征值,并以劃分特征空間的方法來(lái)識(shí)別每一個(gè)模式。句法方法是指利用一組簡(jiǎn)單的子模式(模式基元)通過(guò)文法規(guī)則來(lái)描述復(fù)雜的模式。模式識(shí)別方法是機(jī)器視覺(jué)識(shí)別物體的重要基礎(chǔ)之一機(jī)器視覺(jué)識(shí)別物體還經(jīng)常需要其它的技術(shù)我們將在物體識(shí)別部分簡(jiǎn)要地討論統(tǒng)計(jì)模式識(shí)別的主要內(nèi)容 人工智能(artificial intelligent, AI)涉及到智能系統(tǒng)的設(shè)計(jì)和智能計(jì)算的研究在經(jīng)過(guò)圖像處理和圖像特征提取過(guò)程后,接下來(lái)要用人工智能方法對(duì)場(chǎng)景特征進(jìn)行表示,并分析和理解場(chǎng)景人工智能有三個(gè)過(guò)程:感知、認(rèn)知和行動(dòng)感知把反應(yīng)現(xiàn)實(shí)世界的信息轉(zhuǎn)換成信號(hào),并表示成符號(hào),認(rèn)知是對(duì)符號(hào)進(jìn)行各種操作,行動(dòng)則把符號(hào)轉(zhuǎn)換成影響周?chē)h(huán)境
31、的信號(hào)人工智能的許多技術(shù)在機(jī)器視覺(jué)的各個(gè)方面起著重要作用事實(shí)上,機(jī)器視覺(jué)通常被視為人工智能的一個(gè)分支人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks, ANNs)是一種信息處理系統(tǒng),它是由大量簡(jiǎn)單的處理單元(稱為神經(jīng)元)通過(guò)具有強(qiáng)度的連接(connection)相互聯(lián)系起來(lái),實(shí)現(xiàn)并行分布式處理(parallel distribution processing, PDP)人工神經(jīng)網(wǎng)絡(luò)的最大特點(diǎn)是可以通過(guò)改變連接強(qiáng)度來(lái)調(diào)整系統(tǒng),使之適應(yīng)復(fù)雜的環(huán)境,實(shí)現(xiàn)類似人的學(xué)習(xí)、歸納和分類等功能人工神經(jīng)網(wǎng)絡(luò)已經(jīng)在許多工程技術(shù)領(lǐng)域得到了廣泛的應(yīng)用神經(jīng)網(wǎng)絡(luò)作為一種方法和機(jī)制將用于解決機(jī)器視覺(jué)中的許
32、多問(wèn)題神經(jīng)物理學(xué)與認(rèn)知科學(xué)長(zhǎng)期將人類視覺(jué)作為主要的研究對(duì)象機(jī)器視覺(jué)中已有的許多方法與人類視覺(jué)極為相似目前,許多機(jī)器視覺(jué)研究者對(duì)研究人類視覺(jué)計(jì)算模型比研究機(jī)器視覺(jué)系統(tǒng)更感興趣,希望機(jī)器視覺(jué)更加自然化,更加接近生物視覺(jué)。我們?cè)诘诙陆榻B人類視覺(jué)的一些研究成果,使讀者在研究機(jī)器視覺(jué)時(shí)或多或少能從生物視覺(jué)機(jī)理中得到啟發(fā)不過(guò),我們的重點(diǎn)在于研究機(jī)器視覺(jué)系統(tǒng),因此,不討論機(jī)器視覺(jué)與神經(jīng)物理學(xué)或認(rèn)知科學(xué)的聯(lián)系16 成象幾何基礎(chǔ)一般的成象系統(tǒng)通常將三維場(chǎng)景變換成二維灰度或彩色圖像,這種變換可以用一個(gè)從三維空間到二維空間的映射來(lái)表示: (11)如果考慮時(shí)變?nèi)S場(chǎng)景,則上述變換是四維空間到三維空間的變換,如果再考
33、慮某一波段或某幾個(gè)波段的光譜,則上式的維數(shù)將增加到五維或更高維這里我們只考慮三維空間到二維空間的兩種常用映射:透視投影變換和正交投影變換16 透視投影 透視投影(perspective projection)是最常用的成像模型,可以用針孔(pinhole)成像模型來(lái)近似表示透視投影成像模型的特點(diǎn)是所有來(lái)自場(chǎng)景的光線均通過(guò)一個(gè)投影中心,它對(duì)應(yīng)于透鏡的中心,經(jīng)過(guò)投影中心且垂直于圖像平面(成像平面)的直線稱為投影軸或光軸,如圖16所示其中是固定在攝象機(jī)上的直角坐標(biāo)系,遵循右手法則,其原點(diǎn)位于投影中心,軸與投影軸重合并指向場(chǎng)景,軸、軸與圖像平面的坐標(biāo)軸和平行,平面與圖像平面的距離為,一般稱為攝象機(jī)的焦
34、距在實(shí)際攝像機(jī)中,圖像平面位于投影中心后面距離為的位置(圖16),其投影圖像是倒立的為了避免這種倒立圖像,假定圖像平面位于投影中心的前面,如圖17所示場(chǎng)景中一點(diǎn)在圖像平面上的投影位置可以通過(guò)計(jì)算點(diǎn)的視線(空間點(diǎn)與投影中心的連線)與圖像平面的相交位置得到 點(diǎn)的視線、點(diǎn)到軸的垂直線段以及軸形成了一個(gè)三角形圖像平面上點(diǎn)的視線、點(diǎn)到軸垂直線段以及軸形成了另一個(gè)三角形這兩個(gè)三角形是相似三角形,因此得到透視投影方程: (12)點(diǎn)在圖像平面中的位置由下式給出: (13) ( 圖16 透視投影倒立成像幾何示意圖圖17 透視投影幾何示意圖16 正交投影正交投影(orthogonal projection)指用平
35、行于光軸的光將場(chǎng)景投射到圖像平面上, 因此也稱為平行投影(parallel projection),如圖18所示正交投影是透視投影的一個(gè)特例,當(dāng)透視投影模型的焦距很大且物體距投影中心很遠(yuǎn)時(shí),透視投影就可以用正交投影來(lái)近似此時(shí),投影方程為: (14)圖 18 正交投影幾何示意圖163視覺(jué)系統(tǒng)坐標(biāo)系在計(jì)算機(jī)視覺(jué)系統(tǒng)中涉及到以下幾種坐標(biāo):l 像素坐標(biāo):表示圖像陣列中圖像像素的位置;l 圖像平面坐標(biāo):表示場(chǎng)景點(diǎn)在圖像平面上的投影;l 攝象機(jī)坐標(biāo):即以觀察者為中心的坐標(biāo),將場(chǎng)景點(diǎn)表示成以觀察者為中心的數(shù)據(jù)形式l 場(chǎng)景坐標(biāo):也稱作絕對(duì)坐標(biāo)(或世界坐標(biāo)),用于表示場(chǎng)景點(diǎn)的絕對(duì)坐標(biāo); 像素坐標(biāo)也稱為圖像陣列坐
36、標(biāo)或網(wǎng)格坐標(biāo)圖像處理通常是在圖像陣列的像素坐標(biāo)系中進(jìn)行,其中圖像的行數(shù)和列數(shù)對(duì)應(yīng)于圖像網(wǎng)格的整數(shù)坐標(biāo),即像素的坐標(biāo)是整數(shù)值,像素位于圖像的左上角,指向下方,指向右方這種圖像像素坐標(biāo)系,正好對(duì)應(yīng)計(jì)算機(jī)程序里的陣列語(yǔ)法為了提高圖像處理的精度,需要引入子像素(sub-pixel)概念所謂子像素是指像素與像素之間的點(diǎn),其坐標(biāo)用小數(shù)表示使用攝象機(jī)幾何假設(shè)條件可以將像素點(diǎn)坐標(biāo)轉(zhuǎn)化成圖像平面坐標(biāo)圖像平面坐標(biāo)定義如下:假定攝像機(jī)主點(diǎn),即光軸與圖像平面的交點(diǎn),位于圖像的中心點(diǎn),若圖像陣列為,則圖像平面坐標(biāo)的中心坐標(biāo)為: (15)其中表示中心坐標(biāo)的估計(jì)值;圖像平面坐標(biāo)軸方向是列數(shù)標(biāo)號(hào)增加的方向,但軸方向指向行數(shù)標(biāo)號(hào)增加方向的反向假定圖像陣列的行列間距是相等的,則像素坐標(biāo)到圖像坐標(biāo)的變換公式為: (16) 如果圖像陣列的行列間距不相等,并設(shè)列間距為,行間距為,則像素坐標(biāo)到圖像坐標(biāo)的變換式為: (17) 為了簡(jiǎn)化運(yùn)算,在機(jī)器視覺(jué)應(yīng)用中普遍要求攝象機(jī)的像素為正方形像素如果使用了非正方形像素?cái)z象機(jī),則必須考慮非正方形像素對(duì)測(cè)量的影響若有影響,則必須在測(cè)量之前將其坐標(biāo)轉(zhuǎn)化為標(biāo)準(zhǔn)的圖像平面坐
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療技術(shù)服務(wù)合同
- 地源熱泵設(shè)備采購(gòu)及服務(wù)合同
- 電子產(chǎn)品采購(gòu)與銷售合同范文
- 房產(chǎn)抵押借款協(xié)議合同
- 林場(chǎng)土地租賃合同年
- 建筑安裝工程設(shè)計(jì)協(xié)議合同
- 汽車(chē)租賃合同補(bǔ)充協(xié)議
- 親子園托管合作合同書(shū)
- 企業(yè)員工長(zhǎng)期勞動(dòng)合同樣本
- 實(shí)習(xí)實(shí)訓(xùn)基地合作協(xié)議合同范本
- 《恒瑞醫(yī)藥股權(quán)激勵(lì)實(shí)施方案探析綜述》6200字
- 傅佩榮論語(yǔ)三百講(1-300講)匯編
- 統(tǒng)編版一年級(jí)下冊(cè)語(yǔ)文全冊(cè)完整課件
- 《植樹(shù)問(wèn)題(兩端都栽)》教學(xué)實(shí)錄-2024-2025學(xué)年人教版五年級(jí)數(shù)學(xué)上冊(cè)
- 智能 檢測(cè)與監(jiān)測(cè) 技術(shù)-智能建造技術(shù)專01課件講解
- 2024年心理咨詢師題庫(kù)【綜合題】
- 教育部《中小學(xué)校園食品安全和膳食經(jīng)費(fèi)管理工作指引》知識(shí)培訓(xùn)
- 石油工程設(shè)計(jì)大賽采油單項(xiàng)組
- 遼寧中考語(yǔ)文2024年真題考點(diǎn)全面解讀
- 2025年高考語(yǔ)文復(fù)習(xí)知識(shí)清單第十章作文專題11:漫畫(huà)作文寫(xiě)作指導(dǎo)(學(xué)生版+解析)
- 中國(guó)肥胖及代謝疾病外科治療指南(2024版)
評(píng)論
0/150
提交評(píng)論