機(jī)器人感知智能 課件 第3章 機(jī)器人視覺感知_第1頁
機(jī)器人感知智能 課件 第3章 機(jī)器人視覺感知_第2頁
機(jī)器人感知智能 課件 第3章 機(jī)器人視覺感知_第3頁
機(jī)器人感知智能 課件 第3章 機(jī)器人視覺感知_第4頁
機(jī)器人感知智能 課件 第3章 機(jī)器人視覺感知_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

機(jī)器人感知智能第三章機(jī)器人視覺感知3.1機(jī)器人視覺感知介紹定義機(jī)器人視覺是指使機(jī)器人具有視覺感知功能的系統(tǒng),是機(jī)器人系統(tǒng)組成的重要部分之一。它涉及使用相機(jī)硬件和計(jì)算機(jī)算法的結(jié)合,讓機(jī)器人處理來自現(xiàn)實(shí)世界的視覺數(shù)據(jù),實(shí)現(xiàn)對外界環(huán)境的感知與理解,進(jìn)而執(zhí)行復(fù)雜任務(wù)。組成機(jī)器人視覺系統(tǒng)主要由軟件和硬件兩部分組成。硬件方面包括視覺傳感器、圖像采集卡、計(jì)算機(jī)和機(jī)器人及其附屬的通信和控制模塊等。軟件方面則包括圖像處理軟件和機(jī)器人控制軟件,共同協(xié)作完成圖像的采集、處理與分析,以及機(jī)器人的控制指令生成。3.1.1機(jī)器人視覺感知概述-機(jī)器人視覺的族譜光學(xué)在機(jī)器人視覺中至關(guān)重要,光源選擇需根據(jù)具體應(yīng)用挑選,常見類型有LED環(huán)形光源、低角度光源和背光源。光學(xué)圖像處理是對圖像進(jìn)行分析以達(dá)到特定結(jié)果的技術(shù),而計(jì)算機(jī)視覺則側(cè)重于模擬人類視覺功能,實(shí)現(xiàn)目標(biāo)的識別、跟蹤和測量。圖像處理與計(jì)算機(jī)視覺圖3.1機(jī)器人視覺的族譜3.1.1機(jī)器人視覺感知概述-機(jī)器人視覺的族譜圖形識別與機(jī)器學(xué)習(xí)機(jī)器視覺用于工業(yè)自動檢測、過程控制和機(jī)器人導(dǎo)引,側(cè)重工程應(yīng)用,使用計(jì)算機(jī)視覺和圖像處理技術(shù)。機(jī)器視覺機(jī)器人視覺結(jié)合光學(xué)、圖像處理、信號處理和機(jī)器學(xué)習(xí)等技術(shù),使機(jī)器人能感知理解環(huán)境,實(shí)現(xiàn)復(fù)雜任務(wù)。機(jī)器人視覺信號處理在機(jī)器人視覺中用于圖像的預(yù)處理、增強(qiáng)和分析,以提取有用信息,常見技術(shù)包括濾波、變換和特征提取。信號處理機(jī)器學(xué)習(xí)通過算法使計(jì)算機(jī)模擬人類學(xué)習(xí)行為,提升性能,在機(jī)器人視覺中用于圖形識別,增強(qiáng)系統(tǒng)智能化。3.1.2機(jī)器人視覺感知系統(tǒng)的組成機(jī)器人視覺系統(tǒng)的硬件包括視覺傳感器、圖像采集卡、計(jì)算機(jī)和機(jī)器人模塊,它們協(xié)同工作,使機(jī)器人能準(zhǔn)確感知和響應(yīng)環(huán)境。硬件系統(tǒng)機(jī)器人視覺系統(tǒng)的軟件包括系統(tǒng)軟件、視覺處理軟件和機(jī)器人控制軟件,共同確保系統(tǒng)的高效運(yùn)行和精準(zhǔn)控制。軟件系統(tǒng)圖3.2機(jī)器人視覺系統(tǒng)的硬件系統(tǒng)3.1.2機(jī)器人視覺感知系統(tǒng)的組成-硬件系統(tǒng)光電傳感器含單一光感元件,而視覺傳感器能捕獲高分辨率圖像,并與內(nèi)存中的基準(zhǔn)圖像對比分析,如邦納工程公司的某些產(chǎn)品可達(dá)130萬像素。視覺傳感器圖像采集卡圖像采集卡負(fù)責(zé)模擬信號到數(shù)字信號的轉(zhuǎn)換,支持多相機(jī)同時工作,具備硬件壓縮功能,通過PCI接口傳輸壓縮后的數(shù)字視頻,確保實(shí)時采集處理。計(jì)算機(jī)&機(jī)器人根據(jù)系統(tǒng)需求選擇合適的計(jì)算機(jī)及其外設(shè)和機(jī)器人或機(jī)械手及其控制器,以滿足視覺信息處理和機(jī)器人控制的需要。圖3.3邦納視覺傳感器P40MNI3.1.2機(jī)器人視覺感知系統(tǒng)的組成-軟件系統(tǒng)計(jì)算機(jī)系統(tǒng)軟件選用不同類型的計(jì)算機(jī)就有不同的操作系統(tǒng)和它所支持的各種語言、數(shù)據(jù)庫等。計(jì)算機(jī)系統(tǒng)軟件機(jī)器視覺處理軟件通過計(jì)算輸入圖像數(shù)據(jù)得出結(jié)果,形式多樣,涵蓋專用和通用功能,主流軟件包括OpenCV、Halcon、VisionPro、MATLAB、LabVIEW和eVision等。視覺處理軟件CODESYS是一款付費(fèi)的PLC軟件開發(fā)工具,包括用于編程的DevelopmentSystem和運(yùn)行在控制硬件上的RuntimeSystem,廣泛應(yīng)用于歐洲工業(yè)控制領(lǐng)域。機(jī)器人控制軟件3.1.2機(jī)器人視覺感知系統(tǒng)的分類

單目視覺雙目立體視覺多目視覺全景視覺混合視覺單目視覺系統(tǒng)成本低、易實(shí)現(xiàn),但缺乏深度信息,適合物體識別和追蹤;雙目視覺系統(tǒng)通過兩個攝像頭利用三角測量獲取深度信息,類似于人眼功能,廣泛應(yīng)用于機(jī)器人導(dǎo)航和三維重建;多目視覺系統(tǒng)增加額外攝像頭,解決匹配多義性,提高深度信息的準(zhǔn)確性,適用于高精度需求場景;全景視覺系統(tǒng)提供360度視野,適合無人機(jī)監(jiān)控和安全監(jiān)控等需要全方位感知的場合;混合視覺系統(tǒng)結(jié)合多種視覺系統(tǒng)的優(yōu)勢,提高感知的準(zhǔn)確性和魯棒性,適應(yīng)更復(fù)雜環(huán)境,適用于多種應(yīng)用場景。3.1.3機(jī)器人視覺感知發(fā)展-國外機(jī)器人視覺自20世紀(jì)初提出,1959年首臺工業(yè)機(jī)器人誕生后迅速發(fā)展。90年代以來,嵌入式視覺和半導(dǎo)體技術(shù)的進(jìn)步推動了視覺傳感器的廣泛應(yīng)用,如康耐視的In-Sight系列。深度學(xué)習(xí)的興起進(jìn)一步提升了目標(biāo)識別與檢測的性能。如今,機(jī)器人視覺在工業(yè)制造、醫(yī)療、農(nóng)業(yè)、交通和安全監(jiān)控等領(lǐng)域廣泛應(yīng)用,顯著提高了效率和安全性。圖3.4康耐視IN-SIGHT2000視覺傳感器(產(chǎn)品圖)圖3.5KEYENCE基恩士IV-H2000MA圖像識別傳感器圖3.6SIMATICVS120視覺傳感器圖3.7德國SICK公司的Inspector視覺傳感器3.1.3機(jī)器人視覺感知發(fā)展-國內(nèi)1999年至2003年,中國機(jī)器視覺行業(yè)處于啟蒙階段,主要通過代理業(yè)務(wù)了解圖像采集和傳輸,初步掌握圖像品質(zhì)判斷。2004年至2007年,行業(yè)進(jìn)入發(fā)展階段,本土企業(yè)推出多種軟硬件產(chǎn)品,如模擬接口和USB2.0相機(jī)及采集卡,在PCB、SMT和LCD檢測等領(lǐng)域取得突破。自2008年起,行業(yè)進(jìn)入高速發(fā)展期,核心器件研發(fā)廠商涌現(xiàn),產(chǎn)品線擴(kuò)展,技術(shù)水平顯著提升,與國際先進(jìn)水平的差距迅速縮小。圖3.8??低?1MPCXP-12相機(jī)圖3.9VM算法開發(fā)平臺3.1.3機(jī)器人視覺研究存在的問題及其未來的發(fā)展機(jī)器人視覺研究存在的問題及其未來的發(fā)展存在的問題①如何準(zhǔn)確、高速地識別目標(biāo)。②如何有效構(gòu)造和組織可靠的識別算法并實(shí)現(xiàn)③實(shí)時性是難以解決的重要問題。④穩(wěn)定性未來發(fā)展①圖像特征的選擇問題。②建立機(jī)器人視覺系統(tǒng)的專用軟件庫。③加強(qiáng)系統(tǒng)動態(tài)性能研究。④利用智能技術(shù)成果。⑤利用主動視覺成果。⑥多傳感器融合。機(jī)器人是一種復(fù)雜的智能機(jī)電設(shè)備,它將機(jī)械、電氣、控制、感知等系統(tǒng)集結(jié)為一體,在研究、設(shè)計(jì)和制造過程中,由以上多個系統(tǒng)共同協(xié)調(diào)進(jìn)行。視覺感知系統(tǒng)在機(jī)器人眾多系統(tǒng)中占據(jù)重要位置,它可以獲取外部的感知視覺信息,相當(dāng)于人類的“眼睛”。人類從外界獲取的70%以上的信息都來自于視覺系統(tǒng)。機(jī)器人視覺感知傳感器就是機(jī)器人為了模仿人類的視覺感知系統(tǒng),從外部環(huán)境中獲取信息進(jìn)行形態(tài)和運(yùn)動識別,完成一系列任務(wù)所安裝的“眼睛”。3.2.機(jī)器人視覺感知傳感器位置探測器PSD全稱位置敏感器件(PositionSensitiveDetector),它是一種利用光敏面上的光信號轉(zhuǎn)化為電信號再轉(zhuǎn)化為位置信號的器件。PSD還被稱為坐標(biāo)光電池,它具有原理簡單、外形輕便、檢測靈敏、檢測范圍大、噪聲低、分辨率高、處理速度快等優(yōu)點(diǎn)。PSD位置探測器的實(shí)物圖如圖所示。3.2.1位置敏感探測器PSD圖3.10

PSD實(shí)物圖下左圖顯示了PSD的結(jié)構(gòu)原理圖。PSD的結(jié)構(gòu)由三層構(gòu)成,分別為最上層P層,最下層N層,中間層I層,形成PIN結(jié)構(gòu)。I層為較厚的高阻層,它具有耗盡區(qū)寬,結(jié)電容小的特點(diǎn)。光照產(chǎn)生的載流子幾乎全在該高阻層中產(chǎn)生。PSD位置探測器還分為一維和二維探測器。二維探測器如右圖所示,有四個電極,一對為x方向,另一對為y方向。3.2.1位置敏感探測器PSD-結(jié)構(gòu)與工作原理圖3.11PSD結(jié)構(gòu)原理圖圖3.12二維PSD結(jié)構(gòu)原理圖3.2.1位置敏感探測器PSD-PSD的特性參數(shù)PSD的主要特性參數(shù)有:感光面積、光源頻率響應(yīng)范圍、位置檢測誤差、位置分辨率和線性度等。1)感光面積。在測量位置信息時,位置不同感光面上的光點(diǎn)也隨之移動,所以感光面積與能夠檢測的位置范圍,位移距離等同,都與PSD的長度密切相關(guān)。2)信號光源頻率響應(yīng)范圍。PSD的輸出電流隨信號光源的頻率變化而變化的關(guān)系稱為信號光源頻率響應(yīng)范圍。3)位置檢測誤差。位置檢測誤差是指光斑位置與檢測位置的差值,在測量移動距離時,也指光斑的實(shí)際變化與兩側(cè)輸出電極輸出電流計(jì)算得到的移動量之間的差值。這個誤差最大約為全受光面長度的2%~3%。4)位置分辨率。位置分辨率是指PSD光敏面能檢測到的最小位置變化量,PSD器件的尺寸越大,其位置分辨率就越高。5)飽和光電流。3.2.1位置敏感探測器PSD-PSD的應(yīng)用PSD主要用于位置檢測,同時也可用來測距、測角、測位移(含角位移)、測振動體旋轉(zhuǎn)體的狀態(tài)、機(jī)加工零部件的定位,以及做機(jī)器人的“眼睛”等。下面為應(yīng)用于直線度測量及自準(zhǔn)直儀的示例。

圖3.14PSD在直線度測量下的應(yīng)用原理圖圖3.15PSD在自準(zhǔn)直儀中的應(yīng)用圖3.13

某數(shù)控機(jī)床直線測量現(xiàn)場圖3.2.2CCD圖像傳感器CCD圖像傳感器又稱電荷耦合器件(ChargeCoupledDevice),是一種可以將信號大小轉(zhuǎn)換為電荷量大小,并利用耦合方式進(jìn)行信號傳輸?shù)臋z測元件。CCD圖像傳感器的實(shí)物圖如圖所示。它的核心器件是組合成排的感光元件和電荷耦合元件,可以直接將光信號轉(zhuǎn)化為電流模擬信號,并通過放大器和數(shù)模轉(zhuǎn)換器件,實(shí)現(xiàn)對圖像信息的獲取、傳輸、儲存和處理等功能。圖3.16CCD圖像傳感器實(shí)物圖3.2.2CCD圖像傳感器-深耗盡狀態(tài)和表面勢阱CCD圖像傳感器中最基本的單元是MOS電容器,MOS(Metal-Oxide-Semicondudor)就是金屬氧化物半導(dǎo)體。MOS電容結(jié)構(gòu)如圖3.17所示,其中金屬電極就是MOS結(jié)構(gòu)的電極,也稱為“柵極”。P型Si半導(dǎo)體作為襯底電極,在兩電極之間加上一層SiO2絕緣體。圖3.17MOS電容的結(jié)構(gòu)3.2.2CCD圖像傳感器-結(jié)構(gòu)與原理CCD的結(jié)構(gòu)示意圖如左圖所示,CCD圖像傳感器的最小單元就是MOS電容器,將大量MOS電容陣列集合到同一襯底下,再加上輸入和輸出端就構(gòu)成了CCD器件的主要組成部分。CCD的基本工作原理主要是信號電荷的產(chǎn)生、存儲、轉(zhuǎn)移和檢測。下圖為三相時鐘控制方式CCD的工作過程。圖3.19組成CCD的MOS結(jié)構(gòu)圖3.20電荷在三相CCD中的工作過程3.2.2CCD圖像傳感器的分類圖3.21線型CCD圖像傳感器線型CCD圖像傳感器由一列光敏元陣列和一列CCD并行而構(gòu)成。線型CCD圖像傳感器面型CCD圖像傳感器的結(jié)構(gòu)是一排光敏元件與一排不透明存儲單元交替排列。面型CCD圖像傳感器圖3.22面型CCD圖像傳感器3.2.2CCD圖像傳感器的特性參數(shù)CCD器件的物理性能可以用特性參數(shù)描述,它的特性參數(shù)可以分為內(nèi)部參數(shù)和外部參數(shù)兩類。內(nèi)部參數(shù)描述的是與CCD存儲和轉(zhuǎn)移信號電荷有關(guān)的性能,是器件理論設(shè)計(jì)的重要依據(jù),外部參數(shù)描述的是與CCD應(yīng)用有關(guān)的性能指標(biāo)。具體參數(shù)如下:電荷轉(zhuǎn)移效率與轉(zhuǎn)移損失率驅(qū)動頻率光譜響應(yīng)分辨率電荷存儲容量靈敏度暗電流3.2.2CCD圖像傳感器的應(yīng)用CCD圖像傳感器在工業(yè)機(jī)器人中廣泛應(yīng)用,可替代人工完成高精度重復(fù)任務(wù)?;贑CD圖像傳感器的工業(yè)機(jī)械臂分揀系統(tǒng),通過捕捉和處理圖像,將物品信息傳遞給機(jī)器人,實(shí)現(xiàn)跟蹤、抓取或分揀。CCD圖像傳感器還用于工業(yè)探測內(nèi)窺鏡,通過熒光屏顯示清晰圖像,幫助檢查人員識別裂縫、應(yīng)力等缺陷。其工作原理如左圖所示,光源照射物體,反射光被CCD傳感器捕獲并處理,顯示在顯示器上,支持高質(zhì)量圖像并具有伽馬校正功能。圖3.23

機(jī)械臂物品分揀實(shí)物圖圖3.24CCD圖像傳感器應(yīng)用原理圖圖3.25CCD工業(yè)探測內(nèi)窺鏡3.2.3CMOS圖像傳感器CMOS圖像傳感器及其主要應(yīng)用實(shí)物圖如圖所示。CMOS中一對由MOS組成的門電路在瞬間要么PMOS導(dǎo)通,要么NMOS導(dǎo)通,要么都截至,比線性三極管的效率高得多,因此其功耗很低。與CCD不同的是,CMOS的每個像素點(diǎn)都有一個單獨(dú)的放大器轉(zhuǎn)換輸出,因此CMOS沒有CCD的“瓶頸”問題,能夠在短時間內(nèi)處理大量數(shù)據(jù),輸出高清影像,滿足HDV的需求。除此之外CMOS圖像傳感器還適合批量生產(chǎn),在低價格和攝像質(zhì)量無極高要求的應(yīng)用領(lǐng)域中占據(jù)較大的市場。圖3.27CMOS圖像傳感器與其應(yīng)用實(shí)物圖3.2.3CMOS圖像傳感器的結(jié)構(gòu)CMOS圖像傳感器的結(jié)構(gòu)如下圖所示,主要組成部分為像敏單元陣列、列放大器、多路模擬開關(guān)、輸出放大器、AD轉(zhuǎn)換器、接口電路和時序控制邏輯電路等。他們被集成到硅片上。像敏單元陣列有橫軸和數(shù)軸兩個方向排列形成方陣,其中每一個單元格又有其對應(yīng)的X、Y地址,并且該地址可由地址譯碼器進(jìn)行選擇。圖3.28CMOS圖像傳感器的組成結(jié)構(gòu)圖3.2.3CMOS圖像傳感器的工作原理CMOS圖像傳感器的核心是像敏單元陣列中的每個單元格,結(jié)構(gòu)包括三個場效應(yīng)管:VT1作為光電二極管的負(fù)載,VT2作為跟隨放大器的源極,VT3作為選址模擬開關(guān)。復(fù)位脈沖使VT1導(dǎo)通,光電二極管復(fù)位;脈沖結(jié)束后,VT1截止,光電二極管積分光信號。VT2放大光電二極管輸出的電流,選通信號使VT3導(dǎo)通,放大后的電流沿列方向輸出,最終經(jīng)輸出放大器輸出。像敏陣列的X軸和Y軸方向上有X移位寄存器和Y移位寄存器,光照信號出現(xiàn)時,Y地址譯碼器依次打開每行的模擬開關(guān)S,信號經(jīng)X地址譯碼器控制傳輸?shù)椒糯笃?。圖3.29COMS像敏單元結(jié)構(gòu)圖3.30像敏單元工作時序圖3.31CMOS像敏單元陣列工作原理(1)填充因子CMOS圖像傳感器的填充因子是指光敏面積和全部像敏面積之比。(2)像素總數(shù)和有效像素數(shù)在CMOS圖像傳感器中,像素分為不成像的像素和成像像素,像素總數(shù)是指這兩者所有像素的總和,像素總數(shù)是衡量CMOS圖像傳感器的主要技術(shù)指標(biāo)之一。(3)動態(tài)范圍CMOS圖像傳感器的動態(tài)范圍知識傳感器的工作范圍,是輸出信號的最高電壓和噪聲電壓的均方根之比。(4)噪聲噪聲一直是限制CMOS圖像傳感器占領(lǐng)市場的重要因素之一。噪聲來源主要是光敏器件的噪聲、MOS場效應(yīng)晶體管中的噪聲和CMOS圖像傳感器中的工作噪聲。3.2.3CMOS圖像傳感器的特性參數(shù)CMOS圖像傳感器每個像敏單元有獨(dú)立的XY地址和放大器,支持任意興趣像素讀取,讀取速度快,功耗低,且易于將周邊電路集成到傳感器芯片中,成本低。相比之下,CCD圖像傳感器依賴電荷移位寄存器按序讀取信號,限制了興趣像素操作的靈活性和速度,耗電量高,約為CMOS的8到10倍。然而,CCD圖像傳感器的耗盡層較深,對紅光和近紅外光響應(yīng)好,噪聲低,動態(tài)范圍高,更適合對噪聲敏感的應(yīng)用。3.2.3CMOS圖像傳感器與CCD圖像傳感器比較隨機(jī)讀取能力不同光譜響應(yīng)范圍和靈敏度不同信號讀取速度不同噪聲與動態(tài)范圍不同耗電量不同成本不同3.2.3CMOS圖像傳感器的應(yīng)用圖3.32佳能EOSCMOS數(shù)碼相機(jī)目前在應(yīng)用領(lǐng)域,CCD憑借其低噪聲、高分辨率、高靈敏度等高性能牢固占據(jù)著圖像傳感器的高端市場,如精密測量、軍事目標(biāo)探測與跟蹤。CMOS圖像傳感器則以其高集成度、高速、小體積、低價格、低功耗、使用方便等特點(diǎn)在低端市場如視頻通信、手機(jī)、家用攝像機(jī)、文字識別或低噪聲應(yīng)用等場合占據(jù)著巨大的份額。圖3.34華為Mate手機(jī)攝像頭圖3.36自動駕駛場景圖3.3機(jī)器人視覺感知先進(jìn)技術(shù)3.3.1單目標(biāo)跟蹤概述如圖所示,單目標(biāo)跟蹤為在有噪聲的傳感器測量時間序列中確定單個目標(biāo)的狀態(tài),包括:位置、描述目標(biāo)運(yùn)動的狀態(tài)量、一些其他感興趣的特征。本質(zhì)上單目標(biāo)跟蹤就是一個濾波問題。單目標(biāo)跟蹤的基本流程:輸入初始幀(第一幀)并初始化目標(biāo)框在下一幀中產(chǎn)生眾多候選框(產(chǎn)生有可能的目標(biāo)框)提取這些候選框的特征(特征提?。┤缓髮@些候選框評分(計(jì)算候選框的置信分?jǐn)?shù))最后在這些評分中找一個得分最高的候選框作為預(yù)測的目標(biāo)或者對多個預(yù)測值進(jìn)行融合得到更優(yōu)的預(yù)測目標(biāo)。圖3.37單目標(biāo)跟蹤3.3.1多目標(biāo)追跟蹤目標(biāo)跟蹤為在有噪聲的傳感器測量時間序列中確定多個目標(biāo)的如下特性:動態(tài)目標(biāo)的個數(shù)、每個動態(tài)目標(biāo)的狀態(tài)(和單目標(biāo)跟蹤相同)。對比單目標(biāo)跟蹤與多目標(biāo)跟蹤后發(fā)現(xiàn)其處理問題多了一個確定動態(tài)目標(biāo)個數(shù),如圖所示。圖3.38多目標(biāo)跟蹤3.3.1多目標(biāo)跟蹤-目標(biāo)檢測方法R-CNN&FastR-CNN:R-CNN通過選擇性搜索生成候選區(qū)域并用CNN提取特征,但時間復(fù)雜度高;FastR-CNN通過整圖輸入CNN和ROI池化提取候選區(qū)域特征,避免重復(fù)計(jì)算,大幅提升運(yùn)行速度。YOLO:YOLO算法通過將圖像分割成網(wǎng)格,每個網(wǎng)格預(yù)測邊界框和置信度,實(shí)現(xiàn)端到端的實(shí)時目標(biāo)檢測,運(yùn)算效率高、泛化能力強(qiáng),但對小物體和非尋常比例物體的檢測效果不佳。SSD:SSD算法通過多尺度特征圖和不同尺寸的先驗(yàn)框,直接用CNN進(jìn)行目標(biāo)檢測,提升了對小目標(biāo)的檢測效果和邊界框的精度,相比YOLO準(zhǔn)確度更高。3.3.1多目標(biāo)跟蹤-目標(biāo)檢測和目標(biāo)跟蹤的異同1)目標(biāo)檢測可以在靜態(tài)圖像上進(jìn)行而目標(biāo)跟蹤就是需要基于錄像或視頻。如果對每秒的畫面進(jìn)行目標(biāo)檢測也可以實(shí)現(xiàn)目標(biāo)跟蹤。2)目標(biāo)跟蹤不需要目標(biāo)識別可以根據(jù)運(yùn)動特征來進(jìn)行跟蹤而無需確切知道跟蹤的是什么所以如果利用視頻畫面之間的臨時關(guān)系單純的目標(biāo)跟蹤可以很高效的實(shí)現(xiàn)。3)基于目標(biāo)檢測的目標(biāo)跟蹤算法計(jì)算非常昂貴就如之前講的需要對每幀畫面進(jìn)行檢測才能得到目標(biāo)的運(yùn)動軌跡。而且只能追蹤已知的目標(biāo)這個容易理解因?yàn)槟繕?biāo)檢測算法就只能實(shí)現(xiàn)已知類別的定位識別。圖3.39目標(biāo)檢測3.3.1多目標(biāo)跟蹤-經(jīng)典跟蹤算法基于目標(biāo)建模的方法目標(biāo)跟蹤通過建模目標(biāo)外觀特征,如SIFT、SURF、Harris角點(diǎn)等,在后續(xù)幀中找到最相似的特征進(jìn)行定位?;谒阉鞯姆椒▊鹘y(tǒng)目標(biāo)跟蹤算法通過建模目標(biāo)外觀特征和預(yù)測目標(biāo)位置來減少搜索范圍,如Meanshift和粒子濾波,但存在未考慮背景信息和執(zhí)行速度慢的問題,易在遮擋、光照變化等情況下失敗。基于相關(guān)濾波的跟蹤算法基于相關(guān)濾波的跟蹤算法(如MOSSE、CSK、KCF、BACF、SAMF)通過衡量信號相似度,實(shí)現(xiàn)高速跟蹤,速度可達(dá)數(shù)百幀每秒,適用于實(shí)時跟蹤系統(tǒng)。基于深度學(xué)習(xí)的跟蹤算法深度學(xué)習(xí)在目標(biāo)跟蹤中的應(yīng)用通過提取更強(qiáng)的深度特征,初期將這些特征應(yīng)用于相關(guān)濾波框架,顯著提升了跟蹤效果。3.3.1多目標(biāo)跟蹤-多目標(biāo)跟蹤任務(wù)-傳感器檢測照相機(jī)照相機(jī)是多目標(biāo)跟蹤中常用的傳感器,提供高分辨率圖像和目標(biāo)邊界框,但受光照和遮擋影響較大,需結(jié)合其他傳感器數(shù)據(jù)提高魯棒性。雷達(dá)雷達(dá)通過發(fā)射和接收電磁波檢測目標(biāo),不受光照影響,提供目標(biāo)的方位和速度信息,但分辨率低,需結(jié)合其他傳感器使用。激光雷達(dá)激光雷達(dá)通過發(fā)射激光脈沖構(gòu)建三維點(diǎn)云,提供高精度目標(biāo)位置和形狀信息,適用于多目標(biāo)跟蹤,但成本高且在惡劣天氣下性能受影響。3.3.1多目標(biāo)跟蹤-多目標(biāo)跟蹤類型傳統(tǒng)多目標(biāo)跟蹤基于“小目標(biāo)”假設(shè),每個目標(biāo)被視為獨(dú)立的點(diǎn),初始幀中選取有跟蹤價值的點(diǎn)并描述其特征,在后續(xù)幀中根據(jù)特征尋找點(diǎn)的新位置,需解決點(diǎn)的選取、特征描述和位置更新三個問題。擴(kuò)展目標(biāo)跟蹤處理形狀未知且可動態(tài)變化的目標(biāo),通過遞歸濾波更新目標(biāo)形狀,適用于復(fù)雜非線性場景,如汽車形狀檢測,利用設(shè)備跟蹤器保持目標(biāo)模型。目標(biāo)群跟蹤將多個目標(biāo)視為一組,不關(guān)注細(xì)節(jié),只需檢測大致范圍,適用于障礙物躲避等場景。圖3.40目標(biāo)群示意圖3.3.1多目標(biāo)跟蹤-多目標(biāo)跟蹤的挑戰(zhàn)1)視場范圍內(nèi)多少個目標(biāo)不知道每個目標(biāo)的位置不知道。2)目標(biāo)在視場內(nèi)到處移動。3)存在舊目標(biāo)離開視場或新目標(biāo)進(jìn)入視場涉及到目標(biāo)的出現(xiàn)與消失術(shù)語叫“路徑誕生”與“路徑死亡”需要進(jìn)行航跡管理。4)遮擋問題:某一幀一個目標(biāo)把另外目標(biāo)遮擋傳感器檢測不到。傳感器的缺陷傳感器的漏檢和虛警是多目標(biāo)跟蹤中常見的問題,漏檢可能由環(huán)境遮擋或目標(biāo)特性引起,虛警可能由反射或誤識別造成,這些問題需要多目標(biāo)跟蹤模塊進(jìn)行兜底處理。數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)關(guān)聯(lián)是多目標(biāo)跟蹤中的關(guān)鍵挑戰(zhàn),需在不同時間點(diǎn)將檢測到的目標(biāo)正確對應(yīng)起來,避免關(guān)聯(lián)錯誤,主要難點(diǎn)包括缺乏先驗(yàn)信息、傳感器噪聲影響和目標(biāo)間距離過近?;谝曈X的三維重建在計(jì)算機(jī)領(lǐng)域是一個重要的研究內(nèi)容,主要通過使用相關(guān)儀器來獲取物體的二維圖像數(shù)據(jù)信息,然后對獲取的數(shù)據(jù)信息進(jìn)行分析處理,最后利用三維重建的相關(guān)理論重建出真實(shí)環(huán)境中物體表面的輪廓信息。基于視覺的三維重建具有速度快、實(shí)時性好等優(yōu)點(diǎn),能夠廣泛應(yīng)用于機(jī)器人領(lǐng)域,具有重要的研究價值,也是未來發(fā)展的重要研究方向。3.3.2基于視覺的三維重建圖3.43三維重建技術(shù)分類機(jī)器人視覺的關(guān)鍵技術(shù)三維重建技術(shù)在機(jī)器人視覺中至關(guān)重要,通過獲取環(huán)境的三維信息,提高機(jī)器人的導(dǎo)航、避障和交互能力,增強(qiáng)其在復(fù)雜環(huán)境中的自主性。三維環(huán)境感知的重要性三維環(huán)境感知對機(jī)器人至關(guān)重要,提供豐富的環(huán)境信息和結(jié)構(gòu)布局,幫助機(jī)器人做出更合理的決策和行動。3.3.2基于視覺的三維重建背景和意義三維重建技術(shù)主要通過視覺傳感器來獲取外界的真實(shí)信息,然后通過信息處理技術(shù)或者投影模型得到物體的三維信息(以深度圖、點(diǎn)云、體素、網(wǎng)格等形式),即三維重建是一種利用二維投影恢復(fù)三維信息的技術(shù)。常見的三維重建表達(dá)方式有以下四種:深度圖,其每個像素值代表的是物體到相機(jī)XY平面的距離;體素是三維空間中的一個有大小的點(diǎn),一個小方塊相當(dāng)于是三維空間種的像素;點(diǎn)云是某個坐標(biāo)系下的點(diǎn)的數(shù)據(jù)集,點(diǎn)包含了豐富的信息包括三維坐標(biāo)(XYZ)、顏色、分類值、強(qiáng)度值、時間等,如圖所示。3.3.2基于視覺的三維重建-三維重建的定義圖3.44常見的三維重建表達(dá)方式(a)深度圖(b)體素(c)點(diǎn)云(d)三角網(wǎng)格激光掃描法結(jié)構(gòu)光法陰影法TOF技術(shù)雷達(dá)技術(shù)Kinect技術(shù)3.3.2基于視覺的三維重建的類型-主動視覺法圖3.45激光掃描法過程圖3.46結(jié)構(gòu)光法示意圖圖3.47陰影法示意圖基于主動視覺的三維重建技術(shù):3.3.2基于視覺的三維重建的類型-被動視覺法根據(jù)視覺傳感器的數(shù)量和特性單目視覺法:通過單個相機(jī)獲取圖像,利用明暗、紋理、光度立體、運(yùn)動和輪廓等信息恢復(fù)三維形狀,適用于不同場景,但精度受限。雙目視覺法:利用兩個相機(jī)從不同視角獲取圖像,通過視差計(jì)算深度信息,實(shí)現(xiàn)高精度三維重建,廣泛應(yīng)用于立體視覺系統(tǒng),但需解決圖像匹配難題。多目視覺法:在雙目基礎(chǔ)上增加更多攝像頭,提高對復(fù)雜場景的適應(yīng)性和魯棒性,尤其在目標(biāo)表面傾斜時表現(xiàn)更佳。根據(jù)匹配方法分類三維環(huán)境重建技術(shù)中,區(qū)域視覺法利用對極幾何約束和連續(xù)性提高稠密匹配效率,而特征視覺法則通過提取圖像中的角點(diǎn)作為特征點(diǎn),利用匹配算法和三角測量原理獲取深度值,從而重建物體表面的三維模型。根據(jù)應(yīng)用方法三維環(huán)境重建技術(shù)中,區(qū)域視覺法利用對極幾何約束和連續(xù)性提高稠密匹配效率,而特征視覺法則通過提取圖像中的角點(diǎn)作為特征點(diǎn),利用匹配算法和三角測量原理獲取深度值,從而重建物體表面的三維模型。3.3.2基于視覺的三維重建的類型-單目視覺法常用方法圖3.51單目視覺法結(jié)果展示(紅色表示近距離藍(lán)色表示遠(yuǎn)距離)圖3.50單目視覺三維重建流程單目視覺的三維重建流程及結(jié)果展示:單目視覺中常用的方法有多種恢復(fù)形狀法:A.從明暗恢復(fù)形狀法B.由紋理恢復(fù)形狀方法C.光度立體法D.由運(yùn)動恢復(fù)形狀方法E.由輪廓恢復(fù)形狀方法

3.3.2基于視覺的三維重建的類型-雙目視覺法流程與模塊圖3.52雙目視覺法光路

雙目視覺的工作原理來源于人類的雙目視覺系統(tǒng),即從不同的視角通過兩個相同的相機(jī)捕獲同一個位置下的左右兩側(cè)圖像,然后再利用三角測量原理獲取物體的深度信息通過這些深度信息重建出物體的三維模型。3.53雙目視覺法流程

3.3.2基于視覺的三維重建的類型-運(yùn)動恢復(fù)結(jié)構(gòu)法圖3.57運(yùn)動恢復(fù)結(jié)構(gòu)法效果(a使用傳統(tǒng)數(shù)碼相機(jī)b使用無人機(jī)c圖像重建)圖3.54雙目視覺法結(jié)果展示多目視覺是雙目視覺的一種延伸它是在雙目視覺的基礎(chǔ)上增加一臺或者多臺攝像機(jī)作為輔助進(jìn)行測量從而獲得不同角度下同一物體的多對圖像。3.3.2基于視覺的三維重建的類型-統(tǒng)計(jì)學(xué)習(xí)法圖3.58統(tǒng)計(jì)學(xué)習(xí)法(大型場景)圖3.59統(tǒng)計(jì)學(xué)習(xí)法(人臉識別)需要通過不斷地學(xué)習(xí)再學(xué)習(xí)的過程。該方法是以大型數(shù)據(jù)庫為基礎(chǔ)。3.3.2基于視覺的三維重建的類型-深度學(xué)習(xí)與語義法圖3.61深度學(xué)習(xí)與語義法(建筑三維重建)圖3.62深度學(xué)習(xí)與語義法(范圍性建筑三維重建)圖3.63深度學(xué)習(xí)與語義法(場景細(xì)節(jié)重建)3.3.2基于視覺的三維重建的類型-深度學(xué)習(xí)與語義法圖3.63深度學(xué)習(xí)與語義法(場景細(xì)節(jié)重建)基于深度學(xué)習(xí)的三維重建最近幾年取得了非常大進(jìn)展是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域比較流行的方法之一?;谡Z義的三維重建可以運(yùn)用在移動的行人或車輛等大的場景,這種方法能夠精確地對環(huán)境中的目標(biāo)物體進(jìn)行識別,而深度學(xué)習(xí)技術(shù)也是最近幾年剛剛興起的比較有優(yōu)勢的識別方法。圖3.61深度學(xué)習(xí)與語義法(建筑三維重建)圖3.62深度學(xué)習(xí)與語義法(范圍性建筑三維重建)3.3.2基于視覺的三維重建的挑戰(zhàn)基于主動視覺的三維重建技術(shù)可用于不同環(huán)境下的三維重建。該類方法不足的是成本高昂需要購買掃描儀等專用設(shè)備如果操作稍有差錯就會導(dǎo)致重構(gòu)的結(jié)果不精確。另外,由于環(huán)境的限制主動視覺法不大可能對大規(guī)模復(fù)雜場景進(jìn)行掃描導(dǎo)致其只能應(yīng)用在小規(guī)模領(lǐng)域,并且其后期處理過程也較為復(fù)雜。基于被動視覺的三維重建技術(shù)法對物體的細(xì)節(jié)特征重建還不夠精確?;谄渌粍右曈X的三維重建方法在三維重建中的時間比較長,實(shí)時性不高。應(yīng)用此類方法需要相機(jī)精確的內(nèi)外參數(shù),因此在相機(jī)內(nèi)外參數(shù)估計(jì)的過程上花費(fèi)了較長的時間。3.3.3基于深度學(xué)習(xí)的高分辨率重建的背景和意義圖像是人類獲取信息的重要手段。隨著計(jì)算機(jī)多媒體技術(shù)和數(shù)字圖像處理技術(shù)的發(fā)展人們對數(shù)字圖像的分辨率要求越來越高。高分辨率意味著圖像的像素密度高能夠提供更多的圖像細(xì)節(jié),在醫(yī)療、生物、遙感等諸多領(lǐng)域有非常廣泛的應(yīng)用。但是由于數(shù)字圖像的分辨率受限于下面兩個因素:①由于圖像傳感器是由像敏單元陣列組成這就從原理上決定了數(shù)字圖像的空間分辨率受限于像敏單元的大?。ㄎ锢硪蛩兀?;②數(shù)字圖像的灰度分辨率受成像系統(tǒng)的傳遞函數(shù)影響算法因素?;谏疃葘W(xué)習(xí)的高分辨率重建應(yīng)用領(lǐng)域如下:圖片壓縮醫(yī)學(xué)成像遙感成像公共安防視頻感知3.3.3基于深度學(xué)習(xí)的高分辨率重建技術(shù)的定義和過程超分辨率(SuperResolution,SR)重建技術(shù)是指由一些低分辨率(LowResolution,LR)模糊的圖像或視頻序列來估計(jì)具有更高分辨率(HighResolutionHR)的圖像或視頻序列同時能夠消除噪聲以及由有限檢驗(yàn)器尺寸和光學(xué)元件產(chǎn)生的模糊是提高降質(zhì)圖像或序列分辨率的有效手段。深度學(xué)習(xí)近年來在圖像領(lǐng)域發(fā)展迅猛,它的引入即基于深度學(xué)習(xí)的超分辨率重建為單張圖片超分辨率重構(gòu)帶來了新的發(fā)展前景。圖3.64基于深度學(xué)習(xí)的超分辨率重建過程3.3.3算法類型-超分辨率卷積神經(jīng)網(wǎng)絡(luò)SRCNN(Super-ResolutionConvolutionalNeuralNetwork)是首個應(yīng)用于超分辨率重建的卷積神經(jīng)網(wǎng)絡(luò)模型,通過雙立方插值放大低分辨率圖像,利用三層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行非線性映射,最終輸出高分辨率圖像。圖3.65SRCNN網(wǎng)絡(luò)模型示意圖3.3.3算法類型-FSRCNN算法FSRCNN(FastSuper-ResolutionConvolutionalNeuralNetworks)是SRCNN的改進(jìn)版,通過在最后添加反卷積層、減少網(wǎng)絡(luò)規(guī)模和共享卷積層,實(shí)現(xiàn)了40倍的加速和略高的輸出質(zhì)量,主要步驟包括特征提取、收縮、非線性映射、擴(kuò)張和反卷積。圖3.66SRCNN與FSRCNN的網(wǎng)絡(luò)結(jié)構(gòu)對比圖3.3.3算法類型-ESPCN算法ESPCN通過引入亞像素卷積層間接實(shí)現(xiàn)圖像放大,避免了SRCNN中依賴粗糙高分辨率圖像進(jìn)行計(jì)算的問題,顯著降低了計(jì)算量,提高了重建效率。圖3.67ESPCN網(wǎng)絡(luò)模型圖3.68亞像素卷積原理圖3.3.3算法類型-視頻超分算法ESPCN(Real-TimeVideoSuper-ResolutionwithSpatio-TemporalNetworksandMotionCompensation,VESPCN)是一種SISR方法但也可以針對視頻做超分(視頻只不過是連續(xù)多幀的圖像)。它利用亞像素卷積實(shí)現(xiàn)了非常高效的性能但其只能處理獨(dú)立幀對視頻的簡單擴(kuò)展未能利用幀間冗余也無法實(shí)現(xiàn)時間一致性。對此提出了能夠利用時間冗余信息的時空亞像素卷積網(wǎng)絡(luò)VESPCN該方法主要針對視頻超分將ESPCN結(jié)構(gòu)擴(kuò)展成時序空間網(wǎng)絡(luò)結(jié)構(gòu)(Spatio-temporalNetwork)將時間信息加入到網(wǎng)絡(luò)中可以有效地利用時間冗余信息提高重建精度同時保持實(shí)時速度。3.3.3算法類型-超分辨率生成對抗網(wǎng)絡(luò)SRGAN利用生成對抗網(wǎng)絡(luò)中的生成器和鑒別器進(jìn)行對抗學(xué)習(xí),有效解決了傳統(tǒng)方法中因使用均方誤差作為損失函數(shù)而導(dǎo)致的高頻信息丟失問題,提升了超分辨率圖像的質(zhì)量。圖3.69SRGAN網(wǎng)絡(luò)模型示意圖3.3.3算法類型-DRCN算法DRCN(Deeply-RecurisiveConvolutionalNetwork)通過嵌入網(wǎng)絡(luò)、遞歸推理網(wǎng)絡(luò)和重構(gòu)網(wǎng)絡(luò)三個主要組成部分,利用遞歸機(jī)制在超分辨率任務(wù)中實(shí)現(xiàn)高效的特征提取、非線性映射及最終的圖像重建,同時引入了遞歸監(jiān)督和跳過連接來優(yōu)化模型性能。圖3.70DRCN網(wǎng)絡(luò)模型示意圖圖3.71DRCN展開推理網(wǎng)絡(luò)示意圖3.3.3算法類型-VDSR算法VDSR在SRCNN基礎(chǔ)上進(jìn)行了多項(xiàng)改進(jìn),通過增加網(wǎng)絡(luò)深度來擴(kuò)大感受野,加快收斂速度,并實(shí)現(xiàn)多尺度超分辨率。具體來說,VDSR解決了SRCNN的三個主要缺點(diǎn):1)SRCNN的學(xué)習(xí)信息有限,僅有三層網(wǎng)絡(luò)導(dǎo)致感受野僅為13×13;2)SRCNN收斂速度慢,訓(xùn)練時間長達(dá)一周;3)SRCNN無法實(shí)現(xiàn)統(tǒng)一模型的多尺度方法,每個放大倍數(shù)需要單獨(dú)訓(xùn)練。VDSR通過這些改進(jìn)顯著提升了超分辨率重建的準(zhǔn)確性和效率。3.3.3算法類型-RED算法卷積層——反卷積層結(jié)構(gòu)有點(diǎn)類似與編碼——解碼結(jié)構(gòu)。其網(wǎng)絡(luò)結(jié)構(gòu)是對稱的每個卷積層都對應(yīng)有反卷積層卷積層將輸入圖像尺寸減小后再通過反卷積層上采樣變大使得輸入輸出的尺寸一樣。卷積層用于提取圖像的特征相當(dāng)于編碼的作用。而反卷積層用于放大特征的尺寸并恢復(fù)圖像細(xì)節(jié)。而每一組鏡像對應(yīng)的卷積和反卷積有skipconnection將兩部分具有同樣尺寸的特征(要輸入卷積層的特征和對應(yīng)的反卷積層輸出的特征)做相加操作(ResNet那樣的操作)后再輸入到下一個反卷積層。這樣的結(jié)構(gòu)能夠讓反向傳播信號能夠直接傳遞到底層解決了梯度消失問題同時能將卷積層的細(xì)節(jié)傳遞給反卷積層能夠恢復(fù)出更干凈的圖片。3.3.3算法類型-DRRN算法DRRN(DeepRecursiveResidualNetwork)算法可以看作:ResNet+VDSR+DRCN的結(jié)果。DRRN中的每個殘差單元都共同擁有一個相同的輸入即遞歸塊中的第一個卷積層的輸出。每個殘差單元都包含2個卷積層。在一個遞歸塊內(nèi)每個殘差單元內(nèi)對應(yīng)位置相同的卷積層參數(shù)都共享。VDSR是全局殘差學(xué)習(xí)。DRCN是全局殘差學(xué)習(xí)+單權(quán)重的遞歸學(xué)習(xí)+多目標(biāo)優(yōu)化。3.3.3算法類型-LapSRN算法LapSRN可以看成由多級組成的分級網(wǎng)絡(luò)每一級完成一次2倍的上采樣(若要實(shí)現(xiàn)8倍就要3級)。在每一級中先通過一些級聯(lián)的卷積層提取特征接著通過一個反卷積層將提取出的特征的尺寸上采樣2倍。反卷積層后連有兩個卷積層一個卷積層的作用是繼續(xù)提取特征另外一個卷積層的作用是預(yù)測出這一級的殘差。輸入圖像在每一級也經(jīng)過一個反卷積層使尺寸上采樣2倍再與對應(yīng)級的殘差相加就能重構(gòu)出這一級的上采樣結(jié)果。LapSRN網(wǎng)絡(luò)結(jié)構(gòu)其結(jié)構(gòu)如圖所示。圖3.72LapSRN網(wǎng)絡(luò)結(jié)構(gòu)示意圖3.3.3算法類型-SRDenseNet算法DenseNet在稠密塊(denseblock)中將每一層的特征都輸入給之后的所有層使所有層的特征都串聯(lián)起來而不是像ResNet那樣直接相加。這樣的結(jié)構(gòu)給整個網(wǎng)絡(luò)帶來了減輕梯度消失問題、加強(qiáng)特征傳播、支持特征復(fù)用、減少參數(shù)數(shù)量的優(yōu)點(diǎn)。一個稠密塊的結(jié)構(gòu)如下圖所示。圖3.73SRDenseNet網(wǎng)絡(luò)一個稠密快結(jié)構(gòu)示意圖3.3.3算法類型-EDSR算法EDSR單幅圖像超分辨率增強(qiáng)深度殘差網(wǎng)絡(luò)。EDSR最有意義的模型性能提升是去除掉了SRResNet的批量標(biāo)準(zhǔn)化(batchnormalizationBN)層。由于批量標(biāo)準(zhǔn)化層對特征進(jìn)行了規(guī)范化因此通過規(guī)范化特征可以擺脫網(wǎng)絡(luò)的范圍可變性最好將其刪除從而可以擴(kuò)大模型的尺寸來提升結(jié)果質(zhì)量。相當(dāng)于SRResNet的改進(jìn)。3.3.3基于深度學(xué)習(xí)的高分辨率重建的現(xiàn)實(shí)意義和發(fā)展空間深度學(xué)習(xí)在圖像超分辨率重建領(lǐng)域已經(jīng)展現(xiàn)出了巨大的潛力極大的推動了該領(lǐng)域的蓬勃發(fā)展發(fā)展。但距離重建出既保留原始圖像各種細(xì)節(jié)信息、又符合人的主觀評價的高分辨率圖像這一目標(biāo)深度學(xué)習(xí)的圖像超分辨率重建技術(shù)仍有很長的一段路要走。主要存在著以下幾個問題:1)深度學(xué)習(xí)的固有性的約束。深度學(xué)習(xí)存在著需要海量訓(xùn)練數(shù)據(jù)、高計(jì)算性能的處理器以及過深的網(wǎng)絡(luò)容易導(dǎo)致過擬合等問題。2)類似傳統(tǒng)的基于人工智能的學(xué)習(xí)方法深度學(xué)習(xí)預(yù)先假定測試樣本與訓(xùn)練樣本來自同一分布但現(xiàn)實(shí)中二者的分布并不一定相同甚至可能沒有相交的部分。3)盡管當(dāng)前基于深度學(xué)習(xí)的重建技術(shù)使得重建圖像在主觀評價指標(biāo)上取得了優(yōu)異的成績但重建后的圖像通常過于平滑丟失了高頻細(xì)節(jié)信息。因此進(jìn)一步研究基于深度學(xué)習(xí)的圖像超分辨率技術(shù)仍有較大的現(xiàn)實(shí)意義和發(fā)展空間。3.4機(jī)器人視覺感知的發(fā)展趨勢影響機(jī)器人視覺感知的關(guān)鍵技術(shù)圖像識別與追蹤技術(shù)識別即從獲取的圖像中找尋需要的目標(biāo)信息這期間涉及到硬件設(shè)備的選取及識別追蹤算法的確定。機(jī)器人定位技術(shù)定位技術(shù)是在識別技術(shù)的基礎(chǔ)上對機(jī)器人的運(yùn)動姿態(tài)進(jìn)行定位控制。機(jī)器人定位技術(shù)主要包括兩個方面:一方面是根據(jù)周圍環(huán)境特征結(jié)合輸入的環(huán)境模型對機(jī)器人的整體目標(biāo)位置進(jìn)行定位;另一方面是根據(jù)操作對象的特征對機(jī)器人的運(yùn)動進(jìn)行控制如進(jìn)行分揀焊接貼片鑄造等工作。視覺與機(jī)器人的關(guān)聯(lián)技術(shù)直觀來講視覺與機(jī)器人的關(guān)聯(lián)技術(shù)是通過將感知到的視覺信息傳遞能夠到機(jī)器人本體使得機(jī)器人能夠?qū)ο嚓P(guān)視覺信息做出及時有效的處理與決策。3.4.1機(jī)器人視覺感知技術(shù)——識別與追蹤硬件設(shè)備優(yōu)化光源、視覺傳感器、工業(yè)相機(jī)、圖像采集卡和顯示器等硬件設(shè)備,提升圖像質(zhì)量,對機(jī)器人視覺感知技術(shù)的發(fā)展具有重要意義,貫穿整個技術(shù)發(fā)展歷程。識別與追蹤算法圖像信息獲取后需進(jìn)行成像識別與追蹤算法處理,機(jī)器視覺領(lǐng)域經(jīng)典的算法仍為主流,深度學(xué)習(xí)的結(jié)合取得了顯著效果,如Caffe等開源框架因其功能完善、速度快、易用等優(yōu)點(diǎn)成為研究者的首選工具?;趯W(xué)習(xí)的目標(biāo)識別方法隨著計(jì)算機(jī)性能的提升,基于學(xué)習(xí)的方法,特別是基于卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),成為單目圖像物體識別和姿態(tài)估計(jì)的主流方案,推動了機(jī)器人視覺感知技術(shù)的快速發(fā)展。基于深度學(xué)習(xí)的三維重建算法基于深度學(xué)習(xí)的三維重建算法通過融合深度學(xué)習(xí)和多視圖幾何的優(yōu)勢,如Deepvo、BA-Net和CNN-SLAM等方法,顯著提升了三維重建的性能和精度。3.4.2機(jī)器人視覺感知技術(shù)——定位雙目立體視覺通過計(jì)算兩幅圖像中的視差獲得空間點(diǎn)的三維坐標(biāo),廣泛應(yīng)用于三維掃描和虛擬現(xiàn)實(shí)等領(lǐng)域,提高機(jī)器人感知環(huán)境的能力,機(jī)器人視覺定位包括二維和三維定位,主要依靠圖像信息和其他傳感器的結(jié)合。定位方式2006年前定位算法主要依賴模板匹配,計(jì)算簡便但僅適用于簡單物體,當(dāng)前主流定位算法包括卡爾曼濾波、粒子濾波、擴(kuò)展卡爾曼濾波、無跡卡爾曼濾波及基于單目視覺結(jié)合里程計(jì)的算法。定位算法3.4.3機(jī)器人視覺感知技術(shù)——視覺與機(jī)器人的關(guān)聯(lián)基于圖像分析的視覺技術(shù)在機(jī)器人引導(dǎo)相關(guān)應(yīng)用中的主要作用是精確獲取對象物(待抓取物體)和目標(biāo)物(待組裝物體)的坐標(biāo)位置和角度并將圖像坐標(biāo)轉(zhuǎn)換為機(jī)器人能識別的機(jī)器人坐標(biāo)指導(dǎo)機(jī)器人進(jìn)行糾偏和組裝。因此手眼標(biāo)定和定位引導(dǎo)是機(jī)器視覺在機(jī)器人感知系統(tǒng)中應(yīng)用的的核心。一般手眼標(biāo)定方法分為3類:標(biāo)準(zhǔn)手眼標(biāo)定基于旋轉(zhuǎn)運(yùn)動的手眼標(biāo)定及在線手眼標(biāo)定。在機(jī)器人與視覺的關(guān)聯(lián)方面著重于Eye-in-Hand技術(shù)的更新迭代提高機(jī)器人作業(yè)的靈活性與穩(wěn)定性將進(jìn)一步促進(jìn)機(jī)器人視覺感知技術(shù)的發(fā)展。3.4.4機(jī)器人視覺感知技術(shù)應(yīng)用及未來發(fā)展1)普及度的提升。其實(shí)機(jī)器視覺由于專業(yè)度和應(yīng)用領(lǐng)域方面的局限性在大眾認(rèn)知上還存在一定陌生感不過隨著市場的逐漸擴(kuò)大應(yīng)用逐漸從工業(yè)領(lǐng)域向人們?nèi)粘I钌钊胛磥頇C(jī)器視覺越來越“親民”會有更多消費(fèi)者了解和接受到相關(guān)產(chǎn)品。2)應(yīng)用度會加速深化。當(dāng)前隨著智能化趨勢的不斷凸顯機(jī)器視覺的應(yīng)用領(lǐng)域?qū)M(jìn)一步拓展和深化從工業(yè)、制藥、印刷、檢測等逐漸向更多新興領(lǐng)域邁進(jìn)。未來在智能機(jī)器人、自動駕駛、人臉識別、安防、醫(yī)療等領(lǐng)域的應(yīng)用將會越來越多。3)競爭度會日臻激烈。隨著普及度和應(yīng)用度的不斷變化未來進(jìn)軍機(jī)器視覺的企業(yè)將會越來越多那時不管是國內(nèi)外企業(yè)競爭還是國內(nèi)企業(yè)競爭都會加速白熱化群雄逐鹿之際有可能強(qiáng)強(qiáng)聯(lián)合、強(qiáng)弱兼并、后來居上等戲碼都將上演直到新的平衡到來之前全球機(jī)器視覺市場都將是一派火熱景象。3.5機(jī)器人視覺感知的實(shí)際應(yīng)用3.5.1三維成像-系統(tǒng)硬件組成三維視覺系統(tǒng)分為圖像采集、圖像處理和運(yùn)動控制三部分。圖像采集部分包括相機(jī)和鏡頭,相機(jī)可能輸出標(biāo)準(zhǔn)單色視頻(RS-170/CCIR)、復(fù)合信號(Y/C)、RGB信號等,鏡頭焦距和光圈影響成像質(zhì)量和景深。多路相機(jī)可能由圖像卡切換或同步控制獲取數(shù)據(jù)。工業(yè)相機(jī)鏡頭焦距常規(guī)有6mm、8mm、12mm、16mm、25mm、35mm、50mm、75mm,不同焦距對應(yīng)不同的視角和適用距離。光圈控制通光量,影響景深。景深隨光圈值、焦距和拍攝距離變化。工業(yè)相機(jī)鏡頭接口有C接口、CS接口、F接口、M42接口、M72接口等,C接口和CS接口的區(qū)別在于后截距不同,分別為17.5mm和12.5mm。CS接口相機(jī)可使用C口和CS口鏡頭,但C接口相機(jī)不能使用CS口鏡頭。相機(jī)視場角分為物方視場角和像方視場角,通常以矩形感光面對角線計(jì)算,也有以矩形長邊尺寸計(jì)算。3.5機(jī)器人視覺感知的實(shí)際應(yīng)用3.5.1三維成像-系統(tǒng)硬件組成圖3.74三維成像系統(tǒng)示意圖圖3.75成像原理圖傳統(tǒng)的編程來執(zhí)行某一動作的機(jī)器人已經(jīng)很難滿足現(xiàn)今的自動化需求了在很多應(yīng)用場景下需要為機(jī)器人安裝一雙眼睛即機(jī)器人視覺成像感知系統(tǒng)使機(jī)器人具備識別物體、分析、處理等更高級功能可以正確對目標(biāo)場景的狀態(tài)進(jìn)行判斷與分析做到靈活地自行解決發(fā)生的問題。3.5.1三維成像的結(jié)構(gòu)形式三維視覺系統(tǒng)通過圖像傳感技術(shù)獲取目標(biāo)信息,進(jìn)行處理和理解,用于機(jī)器人系統(tǒng)的測量、檢測、識別與定位等任務(wù),手眼系統(tǒng)分為固定成像眼看手系統(tǒng)和隨動成像眼在手系統(tǒng),兩者可混合協(xié)同工作,結(jié)合全局視場和局部高分辨率的優(yōu)勢。圖3.79兩種手眼系統(tǒng)的結(jié)構(gòu)形式(a)眼在手系統(tǒng)(b)眼看手系統(tǒng)圖3.80協(xié)同視覺系統(tǒng)原理圖3.5.1機(jī)器人視覺三維成像方法(1)飛行時間3D成像飛行時間(TOF)相機(jī)每個像素都是利用光的飛行時間差來獲取物體的深度信息。TOF成像可用于大視野、遠(yuǎn)距離、低精度、低成本的三維圖像采集其特點(diǎn)是檢測速度快、視野范圍較大、工作距離遠(yuǎn)等但精度較低易受環(huán)境光干擾。(2)掃描3D成像掃描三維成像方法包括掃描測距、主動三角法和色散共焦法。掃描測距通過1D測距掃描實(shí)現(xiàn)高精度3D測量,色散共焦法在測量透明和光滑物體時具有獨(dú)特優(yōu)勢,但速度慢、效率低,適合高精度測量但不適用于實(shí)時3D引導(dǎo)與定位。主動三角掃描適用于復(fù)雜結(jié)構(gòu)面形測量,但容易產(chǎn)生遮擋,需合理規(guī)劃機(jī)械臂路徑與姿態(tài)。(3)立體視覺3D成像立體視覺通常是指從不同的視點(diǎn)獲取兩幅或多幅圖像重構(gòu)目標(biāo)物體3D結(jié)構(gòu)或深度信息通俗地將就是用一只眼睛或兩只眼睛感知三維結(jié)構(gòu)。3.5.1機(jī)器人視覺三維成像方法圖3.81線結(jié)構(gòu)光掃描三維點(diǎn)云生成示意圖圖3.82色散共焦掃描三維成像示意圖圖3.83立體視覺三維成像示意圖3.5.2同步定位與地圖構(gòu)建同步定位與地圖構(gòu)建(SLAM)最早由HughDurrant-Whyte和JohnJ.Leonard提出,主要用于解決移動機(jī)器人在未知環(huán)境中運(yùn)行時的定位導(dǎo)航與地圖構(gòu)建問題。SLAM通常包括特征提取、數(shù)據(jù)關(guān)聯(lián)、狀態(tài)估計(jì)、狀態(tài)更新以及特征更新等部分。SLAM技術(shù)不僅適用于2D運(yùn)動領(lǐng)域,也可應(yīng)用于3D運(yùn)動領(lǐng)域。SLAM的核心在于通過傳感器數(shù)據(jù)不斷更新機(jī)器人的位置估計(jì)信息,即使在復(fù)雜的環(huán)境中也能保持較高的定位精度。3.5.2同步定位與地圖構(gòu)建-SLAM的一般過程SLAM的一般過程包括機(jī)器人的運(yùn)動估計(jì)、特征提取、數(shù)據(jù)關(guān)聯(lián)、狀態(tài)估計(jì)和狀態(tài)更新等步驟。當(dāng)機(jī)器人移動時,位置傳感器會提取環(huán)境中的特征點(diǎn),并通過擴(kuò)展卡爾曼濾波器(EKF)將這些特征點(diǎn)與機(jī)器人運(yùn)動前后的觀測數(shù)據(jù)相結(jié)合,更新機(jī)器人的當(dāng)前位置和環(huán)境信息。這一過程不斷迭代,逐步優(yōu)化機(jī)器人的位置估計(jì)和地圖構(gòu)建,確保在未知環(huán)境中實(shí)現(xiàn)高精度的導(dǎo)航和定位。圖3.84SLAM的-般過程圖3.85機(jī)器人當(dāng)前位置和環(huán)境信息進(jìn)行估計(jì)過程3.5.2同步定位與地圖構(gòu)建-機(jī)器人自身運(yùn)動模型機(jī)器人自身運(yùn)動模型是SLAM系統(tǒng)中的重要組成部分,通過對機(jī)器人輪胎運(yùn)行圈數(shù)的估計(jì)來獲取機(jī)器人的位置信息。這種估計(jì)可以作為擴(kuò)展卡爾曼濾波(EKF)的初始估計(jì)數(shù)據(jù)。為了確保數(shù)據(jù)的同步性,通常采用插值方法對機(jī)器人自身位置數(shù)據(jù)進(jìn)行前處理。由于機(jī)器人的運(yùn)動規(guī)律是連續(xù)的,因此對機(jī)器人自身位置數(shù)據(jù)進(jìn)行插值是可行的,而測距單元數(shù)據(jù)的不連續(xù)性使得其插值變得困難。3.5.2同步定位與地圖構(gòu)建-特征提取Spike方法Spike方法通過檢測測距單元返回數(shù)據(jù)中相鄰數(shù)據(jù)的顯著差異來識別特征點(diǎn),適用于室內(nèi)環(huán)境中的靜態(tài)物體檢測,但對活動物體的魯棒性較差。RANSAC方法RANSAC方法通過從激光測距數(shù)據(jù)中提取直線特征,適用于室內(nèi)環(huán)境中的墻壁等直線結(jié)構(gòu),對活動物體有較好的適應(yīng)性,提取的直線可用于EKF估計(jì)機(jī)器人位置和環(huán)境地圖。圖3.86三角幾何方法3.5.2同步定位與地圖構(gòu)建-數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)關(guān)聯(lián)是將不同時刻位置傳感器提取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論