2023數(shù)字圖像處理與機(jī)器視覺(jué)Visual C++與Matlab實(shí)現(xiàn)(第2版)_第1頁(yè)
2023數(shù)字圖像處理與機(jī)器視覺(jué)Visual C++與Matlab實(shí)現(xiàn)(第2版)_第2頁(yè)
2023數(shù)字圖像處理與機(jī)器視覺(jué)Visual C++與Matlab實(shí)現(xiàn)(第2版)_第3頁(yè)
2023數(shù)字圖像處理與機(jī)器視覺(jué)Visual C++與Matlab實(shí)現(xiàn)(第2版)_第4頁(yè)
2023數(shù)字圖像處理與機(jī)器視覺(jué)Visual C++與Matlab實(shí)現(xiàn)(第2版)_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)字圖像處理與機(jī)器視覺(jué)——VisualC++與Matlab實(shí)現(xiàn)(第2版)1.第0章初識(shí)數(shù)字圖像處理與機(jī)器視覺(jué)第0章初識(shí)數(shù)字圖像處理與機(jī)器視覺(jué)圖像是指能在人的視覺(jué)系統(tǒng)中產(chǎn)生視覺(jué)印象的客觀(guān)對(duì)象,包括自然景物、拍攝到的圖片、用數(shù)學(xué)方法描述的圖形等。圖像的要素有幾何要素(刻畫(huà)對(duì)象的輪廓、形狀等)和非幾何要素(刻畫(huà)對(duì)象的顏色、材質(zhì)等)。本章中,主要講解數(shù)字圖像和數(shù)字圖像處理的實(shí)質(zhì)內(nèi)容和一般步驟,以及一些后面會(huì)經(jīng)常使用到的基本概念。數(shù)字圖像自然界中的圖像都是模擬量,在計(jì)算機(jī)普遍應(yīng)用之前,電視、電影、照相機(jī)等圖像記錄與傳輸設(shè)備都是使用模擬信號(hào)對(duì)圖像進(jìn)行處理。但是,計(jì)算機(jī)只能處理數(shù)字量,而不能直接處理模擬圖像。所以要在使用計(jì)算機(jī)處理圖像之前進(jìn)行圖像數(shù)字化。什么是數(shù)字圖像簡(jiǎn)單地說(shuō),數(shù)字圖像就是能夠在計(jì)算機(jī)上顯示和處理的圖像,可根據(jù)其特性分為兩大類(lèi)——位圖和矢量圖。位圖通常使用數(shù)字陣列來(lái)表示,常見(jiàn)格式有BMP、JPG、GIF等;矢量圖由矢量數(shù)據(jù)庫(kù)表示,接觸最多的就是PNG圖形。提示本書(shū)只涉及數(shù)字圖像中位圖圖像的處理與識(shí)別,如無(wú)特別說(shuō)明,后文提到的“圖像”和“數(shù)字圖像”都僅僅是指位圖圖像。一般而言,使用數(shù)字?jǐn)z像機(jī)或數(shù)字照相機(jī)得到的圖像都是位圖圖像。將一幅圖像視為一個(gè)二維函數(shù)f(x,y),其中x和y是空間坐標(biāo),而在x–y平面中的任意一對(duì)空間坐標(biāo)(x,y)上的幅值f稱(chēng)為該點(diǎn)圖像的灰度、亮度或強(qiáng)度。此時(shí),如果f、x、y均為非負(fù)有限離散,則稱(chēng)該圖像為數(shù)字圖像(位圖)。一個(gè)大小為M×N數(shù)字圖像是由M行N列的有限元素組成的,每個(gè)元素都有特定的位置和幅值,代表了其所在行列位置上的圖像物理信息,如灰度和色彩等。這些元素稱(chēng)為圖像元素或像素。數(shù)字圖像的顯示不論是CRT顯示器還是LCD顯示器,都是由許多點(diǎn)構(gòu)成的,顯示圖像時(shí)這些點(diǎn)對(duì)應(yīng)著圖像的像素,稱(chēng)顯示器為位映像設(shè)備。所謂位映像,就是一個(gè)二維的像素矩陣,而位圖也就是采用位映像方法顯示和存儲(chǔ)的圖像。當(dāng)一幅數(shù)字圖像被放大后就可以明顯地看出圖像是由很多方格形狀的像素構(gòu)成的,如圖0.1所示。圖0.1 位圖圖像示例數(shù)字圖像的分類(lèi)根據(jù)每個(gè)像素所代表信息的不同,可將圖像分為二值圖像、灰度圖像、RGB圖像以及索引圖像等。二值圖像每個(gè)像素只有黑、白兩種顏色的圖像稱(chēng)為二值圖像。在二值圖像中,像素只有0和1兩種取值,一般用0來(lái)表示黑色,用1表示白色。灰度圖像在二值圖像中進(jìn)一步加入許多介于黑色與白色之間的顏色深度,就構(gòu)成了灰度圖像。這類(lèi)圖像通常顯示為從最暗黑色到最亮的白色的灰度,每種灰度(顏色深度)稱(chēng)為一個(gè)灰度級(jí),通常用L表示。在灰度圖像中,像素可以取0~L-1之間的整數(shù)值,根據(jù)保存灰度數(shù)值所使用的數(shù)據(jù)類(lèi)型不同,可能有256種取值或者說(shuō)2k種取值,當(dāng)k=1時(shí)即退化為二值圖像。RGB圖像眾所周知,自然界中幾乎所有顏色都可以由紅(Red,R)、綠(Green,G)、藍(lán)(Blue,B)3種顏色組合而成,通常稱(chēng)它們?yōu)镽GB三原色。計(jì)算機(jī)顯示彩色圖像時(shí)采用最多的就是RGB模型,對(duì)于每個(gè)像素,通過(guò)控制R、G、B三原色的合成比例決定該像素的最終顯示顏色。對(duì)于三原色RGB中的每一種顏色,可以像灰度圖那樣使用L個(gè)等級(jí)來(lái)表示含有這種顏色成分的多少。例如對(duì)于含有256個(gè)等級(jí)的紅色,0表示不含紅色成分,255表示含有100%的紅色成分。同樣,綠色和藍(lán)色也可以劃分為256個(gè)等級(jí)。這樣每種原色可以用8位二進(jìn)制數(shù)據(jù)表示,于是3原色總共需要24位二進(jìn)制數(shù),這樣能夠表示出的顏色種類(lèi)數(shù)目為256×256××256=224,大約有1600萬(wàn)種,已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)普通人所能分辨出的顏色數(shù)目。RGB顏色代碼可以使用十六進(jìn)制數(shù)減少書(shū)寫(xiě)長(zhǎng)度,按照兩位一組的方式依次書(shū)寫(xiě)R、G、B三種顏色的級(jí)別。例如:0xFF0000代表純紅色,0x00FF00代表純綠色,而0x00FFFF是青色(這是綠色和藍(lán)色的加和)。當(dāng)RGB三種顏色的濃度一致時(shí),所表示的顏色就退化為灰度,比如0x808080就是50%的灰色,0x000000為黑色,而0xFFFFFF色的RGB組合值如表0.1所示。表0.1 色的RGB組合值顏色RGB紅(0xFF0000)25500藍(lán)(0x00FF00)02550綠(0x0000FF)00255黃(0xFFFF00)2552550紫(0xFF00FF)2550255青(0x00FFFF)0255255白(0xFFFFFF)255255255黑(0x000000)000灰(0x808080)128128128未經(jīng)壓縮的原始BMP文件就是使用RGB標(biāo)準(zhǔn)給出的3個(gè)數(shù)值來(lái)存儲(chǔ)圖像數(shù)據(jù)的,稱(chēng)為RGB圖像。在RGB圖像中每個(gè)像素都是用24位二進(jìn)制數(shù)表示,故也稱(chēng)為24位真彩色圖像。索引圖像如果對(duì)每個(gè)像素都直接使用24位二進(jìn)制數(shù)表示,圖像文件的體積將變得十分龐大。來(lái)看一個(gè)例子,對(duì)一個(gè)長(zhǎng)、寬各為200像素,顏色數(shù)為16的彩色圖像,每個(gè)像素都用RGB三個(gè)分量表示。這樣每個(gè)像素由3個(gè)字節(jié)表示,整個(gè)圖像就是200×200×3=120kB。這種完全未經(jīng)壓縮的表示方式,浪費(fèi)了大量的存儲(chǔ)空間,下面簡(jiǎn)單介紹另一種更節(jié)省空間的存儲(chǔ)方式:索引圖像。同樣還是對(duì)200×200像素的16色圖像,由于這張圖片中最多只有16種顏色,那么可以用一張顏色表(16×3的二維數(shù)組)保存這16種顏色對(duì)應(yīng)的RGB值,在表示圖像的矩陣中使用那16種顏色在顏色表中的索引(偏移量)作為數(shù)據(jù)寫(xiě)入相應(yīng)的行列位置。例如,顏色表中第3個(gè)元素為0xAA1111,那么在圖像中所有顏色為0xAA1111的像素均可以由3-1=2表示(顏色表索引下標(biāo)從0開(kāi)始)。這樣一來(lái),每一個(gè)像素所需要使用的二進(jìn)制數(shù)就僅僅為4位(0.5字節(jié)),從而整個(gè)圖像只需要200×200×0.5=20kB就可以存儲(chǔ),而不會(huì)影響顯示質(zhì)量。上文所指的顏色表就是常說(shuō)的調(diào)色板(Palette),另一種說(shuō)法叫作顏色查找表(LookUpTable,LUT)。Windows位圖中應(yīng)用到了調(diào)色板技術(shù)。其實(shí)不僅是Windows位圖,許多其他的圖像文件格式比如PCX、TIF、GIF都應(yīng)用了這種技術(shù)。在實(shí)際應(yīng)用中,調(diào)色板中通常只有少于256種的顏色。在使用許多圖像編輯工具生成或者編輯GIF文件的時(shí)候,常常會(huì)提示用戶(hù)選擇文件包含的顏色數(shù)目。當(dāng)選擇較低的顏色數(shù)目時(shí),將會(huì)有效地降低圖像文件的體積,但也會(huì)一定程度上降低圖像的質(zhì)量。使用調(diào)色板技術(shù)可以減小圖像文件體積的條件是圖像的像素?cái)?shù)目相對(duì)較多,而顏色種類(lèi)相對(duì)較少。如果一個(gè)圖像中用到了全部的24位真彩色,對(duì)其使用顏色查找表技術(shù)是完全沒(méi)有意義的,單純從顏色角度對(duì)其進(jìn)行壓縮是不可能的。數(shù)字圖像的實(shí)質(zhì)實(shí)際上,0.1.1小節(jié)中對(duì)于數(shù)字圖像f(x,y)的定義僅適用于最為一般的情況,即靜態(tài)的灰度圖像。更嚴(yán)格地說(shuō),數(shù)字圖像可以是2個(gè)變量(對(duì)于靜止圖像,StaticImage)或3個(gè)變量(對(duì)于動(dòng)態(tài)畫(huà)面,VideoSequence)的離散函數(shù)。在靜態(tài)圖像的情況下是f(x,y),而如果是動(dòng)態(tài)畫(huà)面,則還需要時(shí)間參數(shù)t,即f(x,y,t)。函數(shù)值可能是一個(gè)數(shù)值(對(duì)于灰度圖像),也可能是一個(gè)向量(對(duì)于彩色圖像)。提示靜態(tài)的灰度圖像是本書(shū)研究的主要對(duì)象,對(duì)于函數(shù)值為向量的情況會(huì)在第9章彩色圖像處理中闡述。圖像處理是一個(gè)涉及諸多研究領(lǐng)域的交叉學(xué)科,下面就從不同的角度來(lái)審視數(shù)字圖像。從線(xiàn)性代數(shù)和矩陣論的角度,數(shù)字圖像就是一個(gè)由圖像信息組成的二維矩陣,矩陣的每個(gè)元素代表對(duì)應(yīng)位置上的圖像亮度和/或色彩信息。當(dāng)然,這個(gè)二維矩陣在數(shù)據(jù)表示示,這樣可能需要一個(gè)三維矩陣來(lái)對(duì)其進(jìn)行表示(參見(jiàn)1.2節(jié)關(guān)于Matlab中RGB圖像表示的介紹)。由于隨機(jī)變化和噪聲的原因,圖像在本質(zhì)上是統(tǒng)計(jì)性的。因而有時(shí)將圖像函數(shù)作為布和相關(guān)函數(shù)來(lái)描述和考慮。例如,如果知道概率分布,可以用熵(Entropy)H①來(lái)度量圖像的信息量,這是信息論中一個(gè)重要的思想。從線(xiàn)性系統(tǒng)的角度考慮,圖像及其處理也可以表示為用狄拉克沖激公式表達(dá)的點(diǎn)展際的圖像并不是線(xiàn)性的,但是圖像坐標(biāo)和圖像函數(shù)的取值都是有限的和非連續(xù)的。數(shù)字圖像的表示為了表述像素之間的相對(duì)和絕對(duì)位置,通常還需要對(duì)像素的位置進(jìn)行坐標(biāo)約定。本書(shū)中所使用的坐標(biāo)約定如圖0.2所示。但在MATLAB中坐標(biāo)的約定會(huì)有變化,具體請(qǐng)參見(jiàn)1.1.5小節(jié)。圖0.2 數(shù)字圖像的坐標(biāo)約定在這之后,一幅物理圖像就被轉(zhuǎn)化成了數(shù)字矩陣,從而成為計(jì)算機(jī)能夠處理的對(duì)象了。數(shù)字圖像f的矩陣表示如下所示。(0-1)有時(shí)也可以使用傳統(tǒng)矩陣表示法來(lái)表示數(shù)字圖像和像素,如下式所示。(0-2)其中行列(M行N列)必須為正整數(shù),而離散灰度級(jí)數(shù)目L一般為2的k次冪,k為整數(shù)(因?yàn)槭褂枚M(jìn)制整數(shù)值表示灰度值),圖像的動(dòng)態(tài)范圍為[0,L-1],那么圖像存儲(chǔ)所需的比特?cái)?shù)為b=M×N×k。注意到在矩陣f(y,x)中,一般習(xí)慣于先行下標(biāo),后列下標(biāo)的表示方法,因此這里先是縱坐標(biāo)y(對(duì)應(yīng)行),然后才是橫坐標(biāo)x(對(duì)應(yīng)列)。而有些圖像矩陣中,很多像素的值都是相同的。例如在一個(gè)純黑背景上使用不同灰度勾勒的圖像,大多數(shù)像素的值都會(huì)是0。這種矩陣稱(chēng)為稀疏矩陣(SparseMatrix),可以通過(guò)簡(jiǎn)單描述非零元素的值和位置來(lái)代替,大量地寫(xiě)入0元素。這時(shí)存儲(chǔ)圖像需要的比特?cái)?shù)可能會(huì)大大減少。圖像的空間和灰度級(jí)分辨率圖像的空間分辨率(SpatialResolution)圖像的空間分辨率是指圖像中每單位長(zhǎng)度所包含的像素或點(diǎn)的數(shù)目,常以像素/英寸(pixelsperinch,ppi)為單位來(lái)表示。如72ppi表示圖像中每英寸包含72個(gè)像素或點(diǎn)。分辨率越高,圖像將越清晰,圖像文件所需的磁盤(pán)空間也越大,編輯和處理所需的時(shí)間也越長(zhǎng)。像素越小,單位長(zhǎng)度所包含的像素?cái)?shù)據(jù)就越多,分辨率也就越高,但同樣物理大小范圍內(nèi)所對(duì)應(yīng)圖像的尺寸也會(huì)越大,存儲(chǔ)圖像所需要的字節(jié)數(shù)也越多。因而,在圖像的放大縮小算法中,放大就是對(duì)圖像的過(guò)采樣,縮小是對(duì)圖像的欠采樣,這些會(huì)在4.5節(jié)圖像縮放中進(jìn)一步介紹。一般在沒(méi)有必要對(duì)涉及像素的物理分辨率進(jìn)行實(shí)際度量時(shí),通常會(huì)稱(chēng)一幅大小為M×N的數(shù)字圖像的空間分辨率為M×N像素。圖0.3給出了同一幅圖像在不同的空間分辨率下呈現(xiàn)出的不同效果。當(dāng)高分辨率下的圖像以低分辨率表示時(shí),在同等的顯示或者打印輸出條件下,圖像的尺寸變小,細(xì)節(jié)變得不明顯;而當(dāng)將低分辨率下的圖像放大時(shí),則會(huì)導(dǎo)致圖像的細(xì)節(jié)仍然模糊,只是尺寸變大。這是因?yàn)榭s小的圖像已經(jīng)丟失了大量的信息,在放大圖像時(shí)只能通過(guò)復(fù)制行列的插值的方法來(lái)確定新增像素的取值。圖0.3 圖像的空間分辨率——一幅分辨率為1024×1024的圖像逐次減少至32×32的分辨率圖像的灰度級(jí)/輻射計(jì)量分辨率(RadiometricResolution)在數(shù)字圖像處理中,灰度級(jí)分辨率又叫色階,是指圖像中可分辨的灰度級(jí)數(shù)目,即前文提到的灰度級(jí)數(shù)目L,它與存儲(chǔ)灰度級(jí)別所使用的數(shù)據(jù)類(lèi)型有關(guān)。由于灰度級(jí)度量的是投射到傳感器上光輻射值的強(qiáng)度,所以灰度級(jí)分辨率也叫輻射計(jì)量分辨率。隨著圖像的灰度級(jí)分辨率逐漸降低,圖像中包含的顏色數(shù)目變少,從而在顏色的角度造成圖像信息受損,同樣使圖像細(xì)節(jié)表達(dá)受到了一定的影響,如圖0.4所示。圖0.4 圖像的灰度級(jí)分辨率——分別具有256、32、16、8、4和2個(gè)灰度級(jí)的一幅圖像數(shù)字圖像處理與機(jī)器視覺(jué)從圖像處理到圖像識(shí)別圖像處理、圖像分析和圖像識(shí)別是認(rèn)知科學(xué)與計(jì)算機(jī)科學(xué)中的一個(gè)令人興奮的活躍分支。從1970年這個(gè)領(lǐng)域經(jīng)歷了人們對(duì)其興趣的爆炸性增長(zhǎng)以來(lái),到20世紀(jì)末逐漸步入成熟。其中遙感、技術(shù)診斷、智能車(chē)自主導(dǎo)航、醫(yī)學(xué)平面和立體成像以及自動(dòng)監(jiān)視領(lǐng)域是發(fā)展最快的一些方向。這種進(jìn)展最集中地體現(xiàn)在市場(chǎng)上多種應(yīng)用這類(lèi)技術(shù)的產(chǎn)品的紛紛涌現(xiàn)。事實(shí)上,從數(shù)字圖像處理到數(shù)字圖像分析,再發(fā)展到最前沿的圖像識(shí)別技術(shù),其核心都是對(duì)數(shù)字圖像中所含有的信息的提取及與其相關(guān)的各種輔助過(guò)程。數(shù)字圖像處理數(shù)字圖像處理(DigitalImageProcessing)就是指使用電子計(jì)算機(jī)對(duì)量化的數(shù)字圖像進(jìn)行處理,具體地說(shuō)就是通過(guò)對(duì)圖像進(jìn)行各種加工來(lái)改善圖像的外觀(guān),是對(duì)圖像的修改和增強(qiáng)。圖像處理的輸入是從傳感器或其他來(lái)源獲取的原始的數(shù)字圖像,輸出是經(jīng)過(guò)處理后的輸出圖像。處理的目的可能是使輸出圖像具有更好的效果,以便于人的觀(guān)察;也可能是為圖像分析和識(shí)別做準(zhǔn)備,此時(shí)的圖像處理是作為一種預(yù)處理步驟,輸出圖像將進(jìn)一步供其他圖像進(jìn)行分析、識(shí)別算法。數(shù)字圖像分析數(shù)字圖像分析(DigitalImageAnalyzing)是指對(duì)圖像中感興趣的目標(biāo)進(jìn)行檢測(cè)和測(cè)量,以獲得客觀(guān)的信息。數(shù)字圖像分析通常是指將一幅圖像轉(zhuǎn)化為另一種非圖像的抽象形式,例如圖像中某物體與測(cè)量者的距離、目標(biāo)對(duì)象的計(jì)數(shù)或其尺寸等。這一概念的外延包括邊緣檢測(cè)和圖像分割、特征提取以及幾何測(cè)量與計(jì)數(shù)等。圖像分析的輸入是經(jīng)過(guò)處理的數(shù)字圖像,其輸出通常不再是數(shù)字圖像,而是一系列與目標(biāo)相關(guān)的圖像特征(目標(biāo)的描述),如目標(biāo)的長(zhǎng)度、顏色、曲率和個(gè)數(shù)等。數(shù)字圖像識(shí)別數(shù)字圖像識(shí)別(DigitalImageRecognition)主要是研究圖像中各目標(biāo)的性質(zhì)和相互關(guān)系,識(shí)別出目標(biāo)對(duì)象的類(lèi)別,從而理解圖像的含義。這往往囊括了使用數(shù)字圖像處理技術(shù)的很多應(yīng)用項(xiàng)目,例如光學(xué)字符識(shí)別(OCR)、產(chǎn)品質(zhì)量檢驗(yàn)、人臉識(shí)別、自動(dòng)駕駛、醫(yī)學(xué)圖像和地貌圖像的自動(dòng)判讀理解等。圖像識(shí)別是圖像分析的延伸,它根據(jù)從圖像分析中得到的相關(guān)描述(特征)對(duì)目標(biāo)進(jìn)行歸類(lèi),輸出使用者感興趣的目標(biāo)類(lèi)別標(biāo)號(hào)信息(符號(hào))??偠灾瑥膱D像處理到圖像分析再到圖像識(shí)別這個(gè)過(guò)程,是一個(gè)將所含信息抽象化,嘗試降低信息熵,提煉有效數(shù)據(jù)的過(guò)程,如圖0.5所示。圖0.5 數(shù)字圖像處理、分析和識(shí)別的關(guān)系從信息論的角度上說(shuō),圖像應(yīng)當(dāng)是物體所含信息的一個(gè)概括,而數(shù)字圖像處理側(cè)重于將這些概括的信息進(jìn)行變換,例如升高或降低熵值,數(shù)字圖像分析則是將這些信息抽取出來(lái)以供其他過(guò)程調(diào)用。當(dāng)然,在不太嚴(yán)格時(shí),數(shù)字圖像處理也可以兼指圖像處理和分析。讀者或許也聽(tīng)過(guò)另一個(gè)概念,計(jì)算機(jī)圖形學(xué)(ComputerGraphics)。此概念與數(shù)字圖像分析大致相反,它是一個(gè)對(duì)由概念或數(shù)學(xué)表述的物體圖像進(jìn)行處理和顯示的過(guò)程。什么是機(jī)器視覺(jué)機(jī)器視覺(jué)(MachineVision),又稱(chēng)計(jì)算機(jī)視覺(jué)(ComputerVision)。它是將數(shù)字圖像處理和數(shù)字圖像分析、圖像識(shí)別結(jié)合起來(lái),試圖開(kāi)發(fā)出一種能與人腦的部分機(jī)能比擬,能夠理解自然景物和環(huán)境的系統(tǒng),在機(jī)器人領(lǐng)域中為機(jī)器人提供類(lèi)似人類(lèi)視覺(jué)的功能。計(jì)算機(jī)視覺(jué)是數(shù)字成像領(lǐng)域的尖端方向,具有最綜合的內(nèi)容和最廣泛的涵蓋面。提示后文中,如無(wú)特別說(shuō)明,文章通常使用廣義的圖像處理概念,即用數(shù)字圖像處理這個(gè)詞涵蓋上文所提到的圖像處理和數(shù)字圖像分析;而對(duì)于圖像識(shí)別和機(jī)器視覺(jué)的概念常常不加區(qū)分,盡管?chē)?yán)格地說(shuō)識(shí)別只對(duì)應(yīng)于高級(jí)視覺(jué)的范疇。數(shù)字圖像處理和識(shí)別的應(yīng)用實(shí)例如今,數(shù)字圖像處理與機(jī)器視覺(jué)的應(yīng)用越來(lái)越廣泛,已經(jīng)滲透到國(guó)家安全、航空航天、工業(yè)控制、醫(yī)療保健等各個(gè)領(lǐng)域乃至人們的日常生活和娛樂(lè)當(dāng)中,在國(guó)民經(jīng)濟(jì)中發(fā)揮著舉足輕重的作用。一些典型的應(yīng)用如表0.2所示。表0.2 圖像處理與識(shí)別的典型應(yīng)用相關(guān)領(lǐng)域典型應(yīng)用安全監(jiān)控指紋驗(yàn)證、基于人臉識(shí)別的門(mén)禁系統(tǒng)工業(yè)控制產(chǎn)品無(wú)損檢測(cè)、商品自動(dòng)分類(lèi)醫(yī)療保健X光照片增強(qiáng)、CT、核磁共振、病灶自動(dòng)檢測(cè)生活?yuàn)蕵?lè)基于表情識(shí)別的笑臉自動(dòng)檢測(cè)、汽車(chē)自動(dòng)駕駛、手寫(xiě)字符識(shí)別下面結(jié)合兩個(gè)典型的應(yīng)用來(lái)說(shuō)明。圖像處理的典型案例——X光照片的增強(qiáng)圖0.6中的兩幅圖片,圖0.6(a)是一幅直接拍攝未經(jīng)處理的X光照片,對(duì)比度較低,圖像細(xì)節(jié)難以辨識(shí);圖0.6(b)中呈現(xiàn)了圖0.6(a)經(jīng)過(guò)簡(jiǎn)單的增強(qiáng)處理后的效果,圖像較為清晰,可以有效地指導(dǎo)診斷和治療。從中讀者應(yīng)該可以看出圖像處理技術(shù)在輔助醫(yī)學(xué)成像上的重要作用。圖0.6 圖像處理前后的效果對(duì)比圖像識(shí)別的典型案例——ALVINN汽車(chē)自動(dòng)駕駛系統(tǒng)著名的自動(dòng)駕駛系統(tǒng)ALVINN是人工神經(jīng)網(wǎng)絡(luò)(關(guān)于人工神經(jīng)網(wǎng)絡(luò)的介紹詳見(jiàn)第15章)的一個(gè)典型的應(yīng)用。該系統(tǒng)使用一個(gè)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)以正常速度在高速公路上駕駛汽車(chē)。如圖0.7(b)所示,ALVINN具有一個(gè)典型的3層結(jié)構(gòu),網(wǎng)絡(luò)的輸入層共有30×32個(gè)單元,對(duì)應(yīng)于一個(gè)30×32的像素點(diǎn)陣,是由一個(gè)安裝在車(chē)輛上的前向攝像機(jī)獲取的圖像經(jīng)過(guò)重采樣得到的。輸出層共有30個(gè)單元,輸出情況指出了車(chē)輛行進(jìn)的方向。圖0.7 學(xué)習(xí)汽車(chē)自動(dòng)駕駛的ALVINN系統(tǒng)在訓(xùn)練階段,ALVINN以人類(lèi)駕駛時(shí)攝像機(jī)所捕獲的前方交通狀況作為輸入,以人類(lèi)通過(guò)操作方向盤(pán)給出的前進(jìn)方向作為目標(biāo)輸出,整個(gè)訓(xùn)練過(guò)程大約5分鐘;在測(cè)試階段,ALVINN用學(xué)習(xí)到的網(wǎng)絡(luò)在高速公路上以70英里的時(shí)速成功地駕駛了90英里。注(a)為車(chē)內(nèi)的攝像頭和前方的實(shí)際情況;(b)為ALVINN的網(wǎng)絡(luò)結(jié)構(gòu),攝像頭捕獲圖像的30×32的重采樣圖像被作為網(wǎng)絡(luò)的輸入,對(duì)應(yīng)于960個(gè)輸入層單元,這些輸入又連接至4個(gè)隱藏單元,再連接到30個(gè)輸出單元,輸出為一個(gè)30維向量,相當(dāng)于把整個(gè)方向盤(pán)的控制范圍分成30份,每個(gè)輸出單元對(duì)應(yīng)一個(gè)特定的駕駛方向,決策結(jié)果為輸出值最大的單元對(duì)應(yīng)的行駛方向。數(shù)字圖像處理的預(yù)備知識(shí)數(shù)字圖像是由一組具有一定的空間位置關(guān)系的像素組成的,因而具有一些度量和拓?fù)湫孕?,區(qū)域、邊界的概念,以及今后要用到的一些常見(jiàn)距離度量方法。另外0.3.3單介紹幾種基本的圖像操作。鄰接性、連通性、區(qū)域和邊界為理解這些概念,需要首先了解相鄰像素的概念。依據(jù)標(biāo)準(zhǔn)的不同,可以關(guān)注像素P的4鄰域和8鄰域,如圖0.8所示。圖0.8 P的各種鄰域鄰接性(Adjacency)定義V是用于決定鄰接性的灰度值集合,它是一種相似性的度量,用于確定所需判斷鄰接性的像素之間的相似程度。比如在二值圖像中,如果認(rèn)為只有灰度值為1的像素是相似的,則即V={1},當(dāng)然相似性的規(guī)定具有主觀(guān)標(biāo)準(zhǔn),因此也可以認(rèn)為V={0,1}性完全由位置決定;而對(duì)于灰度圖像,這個(gè)集合中則很可能包含更多的元素。此外,定義對(duì)角鄰域ND(P)為8-鄰域中不屬于4-鄰域的部分(見(jiàn)圖0.8(c)),那么有如下的規(guī)定。(1)4鄰接(4-Neighbor):Q∈N4(P),則稱(chēng)具有V中數(shù)值的兩個(gè)像素P和Q是4鄰接的。(2)8鄰接(8-Neighbor):Q∈N8(P),則稱(chēng)具有V中數(shù)值的兩個(gè)像素P和Q是8鄰接的。舉例來(lái)說(shuō),圖0.9(a)、圖0.9(b)分別是像素和Q、Q1、Q2的4鄰接和8鄰接示意圖。而對(duì)于兩個(gè)圖像子集S1和S2,如果S1中的某些像素和S2中的某些像素相鄰,則稱(chēng)這兩個(gè)子集是鄰接的。圖0.9 鄰接示意圖連通性為了定義像素的連通性,首先需要定義像素P到像素Q的通路(Path)。這也是建立在鄰接性的基礎(chǔ)上的。像素P到像素Q的通路(Path)指的是一個(gè)特定的像素序列(x0y0x1y1xnyn),其中(x0,y0)=(xp,yp),(xn,yn)=(xq,yq)。并且像素(xi,yi)和(xi-1,yi-1)在滿(mǎn)足1≤i≤n時(shí)是鄰接的。在上面的定義中,n是通路的長(zhǎng)度,若(x0y0xnyn),則這條通路是閉合通路。相對(duì)應(yīng)于鄰接的概念,在這里有4通路和8通路。這個(gè)定義和圖論中的通路定義是基本相同的,只是由于鄰接概念的加入而變得更加復(fù)雜。像素的連通性(Contiguous):令S代表一幅圖像中的像素子集,如果在S中全部像素之間存在一個(gè)通路,則可以稱(chēng)2個(gè)像素P和Q在S中是連通的。此外,對(duì)于S中的任何像素P,S中連通到該像素的像素集叫作S的連通分量。如果S中僅有一個(gè)連通分量,則集合S叫做連通集。區(qū)域和邊界區(qū)域的定義是建立在連通集的基礎(chǔ)上的。令R是圖像中的一個(gè)像素子集,如果R同時(shí)是連通集,則稱(chēng)R為一個(gè)區(qū)域(Region)。邊界(Boundary)的概念是相對(duì)于區(qū)域而言的。一個(gè)區(qū)域的邊界(或邊緣、輪廓)是區(qū)域中所有有一個(gè)或多個(gè)不在區(qū)域R中的鄰接像素的像素所組成的集合。顯然,如果區(qū)域R是整幅圖像,那么邊界就由圖像的首行、首列、末行和末列定義。因而,通常情況下,區(qū)域指一幅圖像的子集,并包括區(qū)域的邊緣。而區(qū)域的邊緣(Edge)由具有某些導(dǎo)數(shù)值的像素組成,是一個(gè)像素及其直接鄰域的局部性質(zhì),是一個(gè)有大小和方向?qū)傩缘氖噶?。邊界和邊緣是不同的。邊界是和區(qū)域有關(guān)的全局概念,而邊緣表示圖像函數(shù)的局部性質(zhì)。距離度量的幾種方法基于上一小節(jié)提到的相關(guān)知識(shí),來(lái)理解距離度量的概念。假設(shè)對(duì)于像素P(xp,yp)、Q(xq,yq)、R(xr,yr)而言,有函數(shù)D滿(mǎn)足如下3個(gè)條件,則函數(shù)D可被稱(chēng)為距離函數(shù)或度量。①D(P,Q)≥0,當(dāng)且僅當(dāng)P=Q時(shí),有D(P,Q)=0②D(P,Q)=D(Q,P)③D(P,Q)≤D(P,R)+D(R,Q)常見(jiàn)的幾種距離函數(shù)如下所示。①歐氏距離即距離等于r的像素形成的以P為圓心的圓。②D4距離(街區(qū)距離

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論