數(shù)字圖像處理基礎_第1頁
數(shù)字圖像處理基礎_第2頁
數(shù)字圖像處理基礎_第3頁
數(shù)字圖像處理基礎_第4頁
數(shù)字圖像處理基礎_第5頁
已閱讀5頁,還剩222頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、1北京航空航天大學儀器科學與光電工程學院School of Instrumentation Science & Optoelectronics Engineering數(shù)字圖像處理Digital Image Processing2第二章 數(shù)字圖像處理基礎要想成功,就必須弄清基礎問題。 亞里士多德 3本章的主要目的-數(shù)字圖像處理的一些基本概念 2.1節(jié)簡述人類視覺系統(tǒng)的機理。 2.2節(jié)討論光、電磁波譜的其他分量及它們的成像特點。 2.3節(jié)討論成像傳感器及怎樣使用它們產(chǎn)生數(shù)字圖像。 2.4節(jié)介紹均勻圖像取樣及灰度量化的概念。 2.5節(jié)介紹像素間的各種基本關系。 2.6節(jié)介紹本書用到的主要數(shù)學工具。4

2、2.1 視覺感知要素52.1.1 人眼的基本構造角膜虹膜睫狀肌睫狀小帶視軸玻璃體中央凹盲點視網(wǎng)膜神經(jīng)和鞘脈絡膜鞏膜晶狀體前房睫狀體6上圖顯示了人眼的一個簡化水平剖面。眼睛的形狀近似為一個球體,其平均直徑約為20mm。有三層薄膜包圍著眼睛:1、角膜與鞏膜外殼;2、脈絡膜;3、視網(wǎng)膜。1、角膜是一種硬而透明的組織,覆蓋著眼睛的前表面。2、鞏膜與角膜相連,鞏膜是一層包圍著眼球其余部分的不透明的膜。 73、脈絡膜位于鞏膜的正下方。 4、脈絡膜的最前面分為睫狀體和虹膜。 5、虹膜的收縮和擴張控制著進入眼睛的進光量。虹膜中間的開口(瞳孔)的直徑是可變的,范圍大約在28mm。6、晶狀體由同心的纖維細胞層組成

3、,并由附在睫狀體上的纖維懸掛著。87、眼睛最里面的膜是視網(wǎng)膜,它布滿了整個后部的內(nèi)壁。當眼睛適當?shù)鼐劢箷r,來自眼睛外部物體的光在視網(wǎng)膜上成像。由視網(wǎng)膜表面分布的不連續(xù)的光感受器提供了圖案視覺。有兩類光感受器:錐狀體和桿狀體。9每只眼睛中的錐狀體數(shù)量在600-700萬之間。它們主要位于視網(wǎng)膜的中間部分,稱之為中央凹,且對顏色高度敏感。通過這些錐狀體,人可以充分地分辨圖像細節(jié)。錐狀體視覺稱為白晝視覺或亮視覺。10桿狀體的數(shù)量更多:約有7500-15000萬個桿狀體分布在視網(wǎng)膜表面。桿狀體用來給出視野內(nèi)的一般的總體圖像。它們沒有彩色感覺,而對低照明度敏感。桿狀體視覺稱為暗視覺或微光視覺。 11視網(wǎng)膜

4、桿狀體和錐狀體的分布盲點桿狀體(夜視覺)錐狀體(白晝視覺)中央凹12中央凹本身是視網(wǎng)膜中直徑約為1.5mm的圓形凹坑。我們可以把中央凹看成是大小為1.5mm1.5mm的方形傳感器陣列。在視網(wǎng)膜這一區(qū)域中,錐狀體的密度大約為15萬個/mm2?;谶@一近似,眼睛中最高敏感區(qū)域中央凹的錐狀體數(shù)量約為33.7萬個。從自然分辨能力的角度看,恰好與一個中等分辨率的電荷耦合元件CCD成像芯片具有的元素數(shù)量相當,接收器陣列不大于5mm5mm。 13頂尖學術期刊Cell2019年2月21日新出爐的一期,封面格外吸引人的“眼球”:我們?nèi)祟惖囊晃淮笮值苷劬珪竦亍翱础敝裁慈祟惖囊曈X出類拔萃,比如我們能夠閱讀,分

5、辨人臉。這些功能可不簡單,需要視覺能夠分辨極細微的差異,并能迅速對焦。高清視覺全得歸功于視網(wǎng)膜中間一個極小的特殊區(qū)域中央凹,也就是眼底黃斑的中心。中央凹的直徑不到1.5毫米,面積只占視網(wǎng)膜的不到1%,但大腦獲得的視覺信息卻有50%來自這里。14中央凹的特殊,還不僅是因為視線的“焦點”落在此處提供清晰影像,只有部分靈長類生物進化出了這個結(jié)構,比如人類。中央凹處的細胞檢測到表達與外周不一樣的基因。非常有意思的是,這些基因的表達和中央凹獨特的視覺信息處理極為相關,科學家們相信,可能這才是中央凹功能特殊的原因。15162.1.2 人眼的成像過程在普通照相機中,鏡頭有固定的焦距,各種距離的聚焦是通過改變

6、鏡頭和成像平面間的距離實現(xiàn)的,CCD成像芯片放置在成像平面上。在人眼中,則與此相反。晶狀體和成像區(qū)域(視網(wǎng)膜)之間的距離是固定的,實現(xiàn)正確聚焦的焦距是通過改變晶狀體的形狀來得到的,睫狀體中的纖維可實現(xiàn)這一功能,在遠離或接近目標物時纖維會分別變扁或加厚晶狀體。17如何得到一幅在視網(wǎng)膜上形成的圖像的尺度?h表示視網(wǎng)膜圖像中物體的高度h=2.55mm18視網(wǎng)膜圖像主要聚焦在中央凹區(qū)域。然后,光接收器的相對刺激作用產(chǎn)生感知,把輻射能轉(zhuǎn)變?yōu)殡娒}沖,最后由大腦解碼。復旦Nature Communications“人工視網(wǎng)膜”來了,幫助恢復小鼠視覺失明的原因有很多,不過其中之一就是視網(wǎng)膜的視錐和視桿細胞發(fā)生

7、了病變,無法順利使光信號轉(zhuǎn)變?yōu)殡娦盘?。這些光感受器細胞如果不能行使正常的功能,即使眼睛的其他部分都是健康的,也不能夠產(chǎn)生有質(zhì)量的視覺。19視網(wǎng)膜中的光感受器一旦損傷或退變,由于不能自行修復,往往會導致失明。如果能夠使用人工光感受器來替代原有的視網(wǎng)膜功能,對于黃斑變性等疾病的患者來說,將是巨大的希望。來自復旦大學的研究團隊開發(fā)了一種“人工視網(wǎng)膜”,這是一種光敏感的納米線陣列感受器。研究人員將之植入失明小鼠的眼底,成功使得小鼠的視覺得到了恢復。20相關研究題為Nanowire arrays restore vision in blind mice,2018年3月6日發(fā)表在Nature Commun

8、ications上。這種光感受器使用的是金/氧化鈦納米線陣列,陣列由二氧化鈦納米線組成,上面用金納米顆粒修飾。21研究人員將這種“人工視網(wǎng)膜”植入了小鼠的眼底。當接收光照射時,小鼠的瞳孔會縮小,視網(wǎng)膜中的神經(jīng)節(jié)細胞恢復了對光的響應。神經(jīng)節(jié)細胞能把視覺信號經(jīng)視神經(jīng)向大腦視覺中樞傳遞。這是由于納米線陣列吸收光線后,產(chǎn)生光電壓并觸發(fā)附近神經(jīng)元的電活動,從而恢復小鼠對光的敏感性。22這種納米線光感受器有效地替代了原有視網(wǎng)膜中的視桿細胞和視錐細胞,因而,在植入后能夠觀察到視覺中樞的神經(jīng)元也恢復了對光的響應,同時,瞳孔對光的反射也有所改善。這種新一代可植入人工光感受器為黃斑變性等視網(wǎng)膜疾病提供了一個新的治

9、療選擇:通過人工光感受器的植入,幫助患者恢復對視覺的響應。23具有光響應、可植入視網(wǎng)膜的納米線陣列恢復盲小鼠視覺24中國科大在實現(xiàn)動物裸眼紅外圖像視覺上取得進展中國科學技術大學生命科學與醫(yī)學部與美國馬薩諸塞州州立大學醫(yī)學院合作,結(jié)合視覺神經(jīng)生物醫(yī)學與創(chuàng)新納米技術,首次實現(xiàn)動物裸眼紅外光感知和紅外圖像視覺能力。該研究成果于2019年2月28日在線發(fā)表于國際頂級期刊Cell上,并被Cell雜志選為本期唯一科普視頻進行重點推廣。25能被我們眼睛感受的可見光只占電磁波譜里很小的一部分,這是由眼睛視網(wǎng)膜里感光細胞中的感光蛋白所固有的物理化學特性所決定的。在生物進化歷程中,沒有出現(xiàn)任何基于感光蛋白的,能夠

10、感知超過700nm的紅外光的動物感光細胞,更無法在大腦中形成紅外光圖像視覺。26為解決上述問題并發(fā)展裸眼無源紅外視覺拓展技術,嘗試利用一種可吸收紅外光發(fā)出可見光的上轉(zhuǎn)換納米材料,導入動物視網(wǎng)膜中以實現(xiàn)紅外視覺感知。在視網(wǎng)膜下腔注射pbUCNP納米顆粒的小鼠不僅獲得感知紅外線的能力,還可以分辨復雜的紅外圖像。在獲得紅外視覺的同時,小鼠的可見光視覺沒有受到影響。27這項技術不僅能賦予我們超級視覺能力,通過開發(fā)具有不同吸收和發(fā)射光譜參數(shù)的納米材料,還有可能輔助修復視覺感知波譜缺陷相關疾病,例如紅色色盲。28292.1.3 亮度適應和辨別因為數(shù)字圖像作為離散的灰度集來顯示,所以眼睛對不同亮度級別之間的

11、辨別能力在顯示圖像處理結(jié)果中是一個重要的考慮因素。 30人的視覺系統(tǒng)能夠適應的光強度級別范圍是很寬的從暗閾值到強閃光約有1010個量級。實驗數(shù)據(jù)指出,主觀亮度(即由人的視覺系統(tǒng)感知的亮度)是進入人眼的光強的對數(shù)函數(shù)。31光強度與主觀亮度的關系曲線光強的對數(shù)亮視覺暗閾值強閃光 主觀亮度 適應范圍暗視覺32感知亮度不是簡單的強度的函數(shù) 視覺系統(tǒng)往往會在不同強度區(qū)域的邊界處出現(xiàn)“下沖”或“上沖”現(xiàn)象。 馬赫帶:厄恩斯特馬赫于1865年首次描述了這一現(xiàn)象。 33感知區(qū)域的亮度并不簡單地取決于其強度。 所有的中心方塊都有相同的強度,但是當背景變亮時,它們就逐漸變暗。34在錯覺中,眼睛填充了不存在的信息或

12、者錯誤地感知了物體的幾何特點。 352.2 光和電磁波譜36電磁波譜37電磁波譜及可見光譜彩色光的電磁能譜跨越0.43m(紫色)-0.79m(紅色)的范圍。38人眼感受顏色的性質(zhì)人感受物體的顏色由物體反射光的性質(zhì)決定。以所有可見波長相對平衡地反射光的物體,對觀察者而言是白色的。一個物體在可見光譜的有限范圍內(nèi)反射時會呈現(xiàn)各種顏色色調(diào)。例如,綠色物體反射波長范圍為500570nm的光,而吸收其它波長的大部分能量。39沒有顏色的光稱為單色光或無色光。單色光的唯一屬性是它的強度或大小。單色光的強度:黑色灰色白色。從黑到白的單色光的度量值范圍通常稱為灰度級,而單色圖像常稱為灰度圖像。40描述彩色光源的質(zhì)

13、量的三個量有三個基本量用于描述彩色光源的質(zhì)量:發(fā)光強度、光通量和亮度:發(fā)光強度:是從光源流出能量的總量,通常用瓦特(W)來度量。流明數(shù)(lm):用流明數(shù)度量的光通量給出觀察者從光源感受到的能量。(例如遠紅外光譜感受不到)亮度:是光感知的主觀描繪子,它實際上不能度量。它具體體現(xiàn)了強度的無色概念,是描述彩色感覺的參數(shù)之一。 41 原理上,如果可以開發(fā)出一種傳感器來檢測由一種電磁波譜發(fā)射的能量,那么我們就可以在該波段上對感興趣的事件成像。但要注意的一點是,要求“看到”一個物體的電磁波的波長必須小于等于物體的尺寸。42圖像成像的途徑與方式成像以電磁波發(fā)射的能量為基礎;物體反射的聲波也可用于形成超聲波圖

14、像;電子顯微鏡的電子束成像; 用于圖形與可視化的合成圖像。432.3 圖像感知和獲取44我們感興趣的多數(shù)圖像都是由“照射”源和形成圖像的“場景”元素對光能的反射或吸收而產(chǎn)生的。照射可以由電磁波譜的能源引起。場景元素可能是熟悉的物體,也可以是分子、沉積巖或人類的大腦。 45依賴光源的特性,照射被物體反射或透射。第一類例子是從平坦表面反射。第二類例子是為了產(chǎn)生一幅X射線照片,讓X射線透過病人的身體。46將照射能量變換為數(shù)字圖像的傳感器配置:通過將對特殊類型檢測能源(電磁波譜的某個譜段)敏感的傳感器材料相組合,把輸入能源轉(zhuǎn)變?yōu)殡妷骸]敵鲭妷翰ㄐ问莻鞲衅鞯捻憫ㄟ^把傳感器響應數(shù)字化,從每一個傳感器得

15、到一個數(shù)字量。472009年度諾貝爾物理學獎2009年度諾貝爾物理學獎授予:美國科學家威拉德S博伊爾(Willard S. Boyle)和喬治E史密斯(George E. Smith)CCD(Charge Coupled Device)電荷耦合器件圖像傳感器48威拉德S博伊爾和喬治E史密斯因為1969年發(fā)明了成像半導體電路電荷藕合器件圖像傳感器CCD獲此殊榮。這一發(fā)明使得數(shù)碼相機、帶有攝像頭的手機等電子設備風靡全球,人類已經(jīng)進入了全民數(shù)碼影像的時代,每一個人都可以隨時、隨地、隨意地用影像記錄每一瞬間。49CCD圖像傳感器的發(fā)明,實際上是應用愛因斯坦有關光電效應理論的結(jié)果,即光照射到某些物質(zhì)上,

16、能夠引起物質(zhì)的電性質(zhì)發(fā)生變化。但是從理論到實踐,道路卻并不平坦??茖W家遇到的最大挑戰(zhàn),在于如何在很短的時間內(nèi),將每一個點上因為光照而產(chǎn)生改變的大量電信號采集并且辨別出來。50經(jīng)過多次試驗,博伊爾和史密斯終于解決了上述難題。他們采用一種高感光度的半導體材料,將光線照射導致的電信號變化轉(zhuǎn)換成數(shù)字信號。它革新了攝影術,使得光可以被電子化地記錄下來,取代了膠片。這一數(shù)字形式極大地方便了對圖像的處理和發(fā)送。51圖像傳感器的基本原理成像物鏡將外界照明光照射下的(或自身發(fā)光的)景物成像在物鏡的像面上,形成二維空間的光強分布(光學圖像)。能夠?qū)⒍S光強分布的光學圖像轉(zhuǎn)變成一維時序電信號的傳感器稱為圖像傳感器。

17、 52 2.3.1 使用單個圖像傳感器獲取圖像53單個傳感器通過運動來生成二維圖像 膠片轉(zhuǎn)動線性運動膠片每旋轉(zhuǎn)一個增量且傳感器完整地從左向右線性移動一次,輸出一行圖像。單個傳感器542.3.2 使用條帶圖像傳感器獲取圖像平板掃描儀航空成像55使用一個線性傳感器帶獲取圖像 每線性運動一個增量,輸出圖像的一行線性運動傳感器條帶成像區(qū)域56使用一個環(huán)形傳感器帶獲取圖像:醫(yī)學和工業(yè)計算機軸向斷層(CAT)成像的基礎 Computerized Tomography計算機化X射線軸向分層成像 Magnetic Resonance Imaging 核磁共振成像 Positron Emission compu

18、ted Tomography 正電子發(fā)射斷層成像 57以圓環(huán)形方式安裝的傳感器帶用于醫(yī)學和工業(yè)成像,以得到三維物體的剖面(“切片”)圖像。傳感器的輸出必須由重建算法處理,重建算法的目的是把感知數(shù)據(jù)轉(zhuǎn)換為有意義的剖面圖像。582.3.3 使用圖像傳感器陣列獲取圖像每個傳感器單元的響應正比于投射到傳感器表面的光能總量。59固體自掃描圖像傳感器固體自掃描圖像傳感器是20世紀70年代發(fā)展起來的新型圖像傳感器件,如面陣CCD器件,CMOS圖像傳感器件等。CCD器件按其感光單元的排列方式分為線陣CCD和面陣CCD兩類。60這類器件本身具有自掃描功能,例如面陣CCD固體攝像器件的光敏面能夠?qū)⒊上裼谄渖系墓鈱W

19、圖像轉(zhuǎn)換成電荷密度分布的電荷圖像。電荷圖像在驅(qū)動脈沖的作用下按照一定的規(guī)則一行行地輸出,形成圖像信號。61線陣CCD結(jié)構簡單,成本較低??梢酝瑫r儲存一行電視信號。由于其單排感光單元的數(shù)目可以做得很多,在同等測量精度的前提下,其測量范圍可以做的較大。并且由于線陣CCD實時傳輸光電轉(zhuǎn)換信號和自掃描速度快、頻率響應高,能夠?qū)崿F(xiàn)動態(tài)測量,并能在低照度下工作。62所以線陣CCD廣泛地應用在產(chǎn)品尺寸測量和分類、非接觸尺寸測量、條形碼等許多領域。 線陣CCD的優(yōu)點是一維像元數(shù)可以做得很多,而且像元尺寸比較靈活,幀幅數(shù)高,特別適用于一維動態(tài)目標的測量。63面陣CCD對于面陣CCD來說,應用面較廣,如面積、形狀

20、、尺寸、位置,甚至溫度等的測量。面陣CCD的優(yōu)點是可以獲取二維圖像信息,測量圖像直觀。缺點是像元總數(shù)多,而每行的像元數(shù)一般較線陣少,幀幅率受到限制。64由于生產(chǎn)技術的制約,單個面陣CCD的面積很難達到一般工業(yè)測量對視場的需求。線陣CCD的優(yōu)點是分辨力高,價格低廉,但要用線陣CCD獲取二維圖像,必須配以掃描運動,而且為了能確定圖像每一像素點在被測件上的對應位置,必須配以光柵等器件以記錄線陣CCD每一掃描行的坐標。65加拿大達爾薩(DALSA)公司 IT-P1-4096線陣CCD傳感器彩色線陣CCD圖像傳感器分辨率:4096像元尺寸:10m10m幀頻:4通道,23.7fps時鐘:425MHz動態(tài)范

21、圍:70dB66加拿大達爾薩(DALSA)公司 FTF4052M/C全幀面陣CCD傳感器黑白/彩色全幀CCD圖像傳感器分辨率:40085344像元尺寸:9m9m幀頻:4通道,3.6fps時鐘:425MHz動態(tài)范圍:72dB,線性67輸出數(shù)字圖像CCD成像芯片的圖像平面場景光源成像系統(tǒng)數(shù)字圖像獲取過程682.3.4 簡單的圖像形成模型我們用形如f(x,y)的二維函數(shù)來表示圖像。在空間坐標(x,y)處,f的值或幅度是一個正的標量,其物理意義由圖像源決定。當一幅圖像由物理過程產(chǎn)生時,其亮度值正比于物理源(如電磁波)所輻射的能量。因此,f(x,y)一定是非零的和有限的,即 0f(x,y)69函數(shù)f(x

22、,y)可由兩個分量來表征:(1) 入射到被觀察場景的光源照射總量;(2) 場景中物體所反射的光照總量。這兩個分量分別稱為入射分量和反射分量,且分別表示為i(x,y)和r(x,y)。兩個函數(shù)作為一個乘積合并形成f(x,y)。70對于X射線成像,用透射系數(shù)代替反射函數(shù)。 71令單色圖像在任何坐標(x0,y0)處的強度(灰度)表示為l=f(x0,y0),則l的取值范圍為Lminl Lmax。區(qū)間Lmin, Lmax稱為灰度級(或強度級)。實際情況下常常令該區(qū)間為0, L-1,其中l(wèi)=0為黑色,l=L-1為白色。所有中間值是從黑色到白色之間變化的灰度色調(diào)。72計算機圖像處理所使用的數(shù)字圖像函數(shù)通常表示

23、成矩陣的形式,因而其坐標是整數(shù)。圖像函數(shù)的定義域是平面的一個區(qū)域 R。 其中xm, yn表示最大的圖像坐標。732.4 圖像取樣和量化74各種獲取圖像的方法的目的是就是從感知的數(shù)據(jù)生成數(shù)字圖像。多數(shù)傳感器的輸出是連續(xù)的電壓波形,這些波形的幅度和空間特性都與感知的物理現(xiàn)象有關。為了產(chǎn)生一幅數(shù)字圖像,我們需要把連續(xù)的感知數(shù)據(jù)轉(zhuǎn)換為數(shù)字形式。這種轉(zhuǎn)換包括兩種處理:取樣和量化。752.4.1 取樣和量化的基本概念為了用計算機來處理圖像,圖像必須用適當?shù)碾x散數(shù)據(jù)結(jié)構來表達,例如,矩陣。傳感器獲取的圖像是平面上兩個坐標的連續(xù)函數(shù)f(x,y)。圖像數(shù)字化是指將f(x,y)采樣(sampled)為一個M行N列

24、的矩陣。76圖像量化(quantization)給每個連續(xù)的樣本數(shù)值f一個整數(shù)數(shù)字。圖像函數(shù)f(x,y)的連續(xù)范圍被劃分為K個區(qū)間。采樣及量化越精細(即M,N,K越大),對連續(xù)函數(shù)的近似就越好。77一幅圖像的x和y坐標及幅度可能都是連續(xù)的。為將它轉(zhuǎn)換為數(shù)字形式,必須在坐標上和幅度上都進行取樣操作。對坐標值進行數(shù)字化稱為取樣,對幅值數(shù)字化稱為量化。 78有兩個與圖像采樣有關的問題需要確定:其一是采樣的間隔,即相鄰兩個采樣圖像點的距離,其二是采樣點的幾何排列(采樣柵格)。79一、采樣一個連續(xù)的圖像函數(shù)f(x,y)可以用平面上離散的柵格點來采樣。圖像的采樣點是:x=ix,y=jy,i=0, , M-

25、1,j=0, , N-1。兩個相鄰的采樣點在x軸上相差x,在y軸上相差y。距離x和y為(x或y軸上的)采樣間隔(sampling interval)。80采樣的矩陣f(ix, jy)構成了離散圖像。規(guī)格化柵格上的理想采樣s(x,y)可以用一組狄拉克分布來表示:81采樣后的圖像fs(x,y)是連續(xù)圖像函數(shù)f(x,y)和采樣函數(shù)s(x,y)的乘積:公式中的狄拉克分布組合可以看作是周期為x和y的周期函數(shù)并展開為傅立葉級數(shù)。828384在圖像分析中Shannon采樣定理的一個簡單的物理解釋是:設已知圖像中感興趣的最小細節(jié)的尺寸,采樣間隔應該比它的一半要小。在實際的數(shù)字轉(zhuǎn)換器中采樣函數(shù)不是狄拉克分布,而

26、是有限沖擊函數(shù)。85一個連續(xù)圖像在采樣點處被數(shù)字化。這些采樣點是在平面上排列的,稱它們之間的幾何關系為柵格。柵格一般是方的。因此數(shù)字圖像是一個數(shù)據(jù)結(jié)構,通常是矩陣。86柵格中一個無限小的采樣點對應數(shù)字化圖像中的一個像元或稱像素(pixel);全體像素覆蓋了整個圖像,實際的數(shù)字轉(zhuǎn)換器捕捉的像素具有有限的尺寸,這是因為采樣函數(shù)不是一組理想的狄拉克沖激,而是一組有限沖激。87從圖像分析的角度看,像素是不能再分割的一個單位。我們也常用一個“點”來指一個像素。88不同采樣分辨率情況下的圖像89從低分辨率圖像重采樣成高分辨圖像90二、量化在圖像處理中,采樣的圖像數(shù)值fs(ix, jy)用一個數(shù)字來表示。將

27、圖像函數(shù)的連續(xù)數(shù)值(亮度)轉(zhuǎn)變?yōu)槠鋽?shù)字等價量的過程是量化(quantization) 。為了使人能夠覺察出圖像的細微變化,量化的級別要足夠的高。91大部分數(shù)字圖像處理儀器都采用L個等間隔的量化方式。如果用k位來表示像素亮度的數(shù)值,那么亮度階就是L=2k。92通常采用每個像素8位的表示方式,也有采用6位或4位。二值化圖像,可以用1位來表示像素。有時也使用12位或更多位來表示一個像素。數(shù)字圖像的質(zhì)量取決于取樣和量化中所用的取樣數(shù)和灰度級。93 取樣數(shù)字化坐標 量化數(shù)字化幅度值94連續(xù)圖像投影到傳感器陣列 圖像取樣和量化的結(jié)果32256灰度級的灰度斜坡9596256, 128, 64, 32灰度級的

28、圖像9716, 8, 4, 2灰度級的圖像1比特8比特的圖像98992.4.2 數(shù)字圖像表示有三種基本方法表示f(x,y):用兩個坐標軸決定空間位置,第三個坐標是以兩個空間變量x和y為函數(shù)的f值(灰度值);顯示f(x,y)出現(xiàn)在監(jiān)視器或照片上的情況;將f(x,y)的數(shù)值簡單地顯示為一個陣列(矩陣)。100畫為表面圖形的圖像顯示為可視灰度陣列的圖像顯示為二維數(shù)值陣列的圖像101圖像的MN的數(shù)值陣列表示圖像的矩陣表示102數(shù)字圖像的原點位于左上角,其中正x軸向下延伸,正y軸向右延伸。這種方便的表示基于這樣的事實:許多圖像顯示(譬如電視顯示器)掃描都是從左上角開始掃描第一行,然后向下移動一行,繼續(xù)逐

29、行掃描。更重要的事實是矩陣的第一個元素按慣例應在陣列的左上角。因此,將f(x,y)的原點選擇在左上角于數(shù)學上是講得通的。103原點在左上角,縱坐標垂直向下,橫坐標水平向右。104數(shù)字化過程要求針對M值、N值和離散灰度級數(shù)L做出判定:M和N:必須取正整數(shù);L:L2k 105圖像系統(tǒng)的動態(tài)范圍 圖像系統(tǒng)的動態(tài)范圍定義為系統(tǒng)中最大可度量灰度與最小可檢測灰度之比。作為一條規(guī)則,上限取決于飽和度,下限取決于噪聲?;旧?,動態(tài)范圍由系統(tǒng)能表示的最低和最高灰度級來確定。因此,也是圖像具有的動態(tài)范圍。 106飽和度是指超過這個值的灰度級將被剪切掉這樣的一個最高值(注意整個飽和區(qū)域具有恒定的高灰度級) 噪聲10

30、7圖像的對比度 我們定義一幅圖像中最高和最低灰度級間的灰度差為對比度。當一幅圖像中像素可感知的數(shù)值有高的動態(tài)范圍時,那么我們認為該圖像具有高的對比度。相反,具有低動態(tài)范圍的圖像就很呆滯,看上去像沖淡了灰度。 108低對比度高對比度109低對比度高對比度110存儲數(shù)字圖像所需的比特數(shù)存儲數(shù)字圖像所需的比特數(shù)b為:當M=N時,該式變?yōu)椋合卤碇酗@示了N和k取不同值時需要用來存貯方形圖像的比特數(shù)。括號中的數(shù)字表示對應于每個k值的灰度級數(shù)。111存儲不同大小和不同灰度級圖像所需的比特數(shù)N和k取不同值時存儲所需的比特數(shù),L是灰度級數(shù)。當一幅圖像有L=2k個灰度級時,實際上通常稱該圖像為一幅“k比特圖像”。

31、 1122.4.3 空間和灰度分辨率空間分辨率是圖像中可辨別的最小細節(jié)的度量。在數(shù)量上,空間分辮率可以有很多方法來說明。其中每單位距離線對數(shù)和每單位距離點數(shù)(像素數(shù))是最通用的度量。假設我們用交替的黑色和白色垂直線來構造一幅圖形,其中線寬為W個單位(W可以小于1)。線對的寬度就是2W,每單位距離有1/2W個線對。例如,如果一條線的寬度是0.1mm,每單位距離(mm)就有5個線對。廣泛使用的圖像分辨率的定義是每單位距離可分辨的最大線對數(shù)量(譬如每毫米100個線對)。113每單位距離點數(shù)是印刷和出版業(yè)中常用的圖像分辨率的度量。在美國,這一度量通常使用每英寸點數(shù)(dot per inch, dpi)

32、來表示。例如,報紙用75 dpi的分辨率來印刷,雜志是133 dpi,光鮮的小冊子是175 dpi,書頁是以2044 dpi印刷的。114灰度分辮率是指在灰度級中可分辨的最小變化。基于硬件考慮,正如前一節(jié)中提到的那樣,灰度級數(shù)通常是2的整數(shù)次冪。最通用的是2的8次冪=256個灰度級。不像空間分辨率必須以每單位距離為基礎才有意義,而灰度分辨率指的則是用于量化灰度的比特數(shù)。例如,通常說一幅被量化為256級的圖像有8比特的灰度分辨率。 115降低空間分辨率的典型效果1250 dpi300 dpi150 dpi72 dpi116具有少量細節(jié)的圖像 具有中等程度細節(jié)的圖像 具有大量細節(jié)的圖像 研究N和k

33、之間的關系:三類圖像的典型等偏愛曲線。位于等偏愛曲線上的點對應于有相等的主觀判定質(zhì)量的圖像。等偏愛曲線:人為主觀感受到的圖像的質(zhì)量1172.4.4 圖像內(nèi)插內(nèi)插是在諸如放大、收縮、旋轉(zhuǎn)和幾何校正等任務中廣泛應用的基本工具。 從根本上看,內(nèi)插是用已知數(shù)據(jù)來估計未知位置的數(shù)值的處理。 118幾何變換的目的幾何變換可以消除圖像獲取時所出現(xiàn)的幾何變形。如果我們需要匹配同一物體的兩幅不同的圖像,也需要用到幾何變換。幾何失真的形成119幾何失真的校正120幾何失真的校正121122圖像的桶形和枕形畸變桶形畸變正常圖像枕形畸變123幾何變換包括的兩個步驟空間變換:對圖像平面上的像素進行重新排列以恢復原空間關

34、系;灰度插值:對空間變換后的像素賦予相應的灰度值以恢復原位置的灰度值。124一、空間變換設原圖像為f(x,y),受到幾何形變的影響變成g(x,y),這里(x,y)表示失真圖像的坐標,它已不是原坐標(x,y)了。上述變化在一般情況下可表示為:其中s(x,y)和t(x,y)代表產(chǎn)生幾何失真圖像的兩個空間變換函數(shù)。125最簡單的情況是線性失真:對一般的非線性二次失真:如果知道s(x,y)和t(x,y)的解析表達,就可以通過反變換來恢復圖像。126在實際中通常不知道解析表達,為此需要在恢復過程的輸入圖(失真圖)和輸出圖(校正圖)上找一些其位置確切知道的點(稱為約束對應點),然后利用這些點根據(jù)失真模型計

35、算出失真函數(shù)中的各個系數(shù),從而建立兩幅圖像間其它像素空間位置的對應關系。127下圖中給出了一個在失真圖上的四邊形區(qū)域和在校正圖上與其對應的四邊形區(qū)域。這兩個四邊形的頂點可作為對應點。設在四邊形區(qū)域內(nèi)的幾何失真過程可用一對雙線性等式表示。(是一般非線性二次失真的一種特例)128失真圖校正圖兩個四邊形區(qū)域共有4組(8個)已知對應點,所以上面兩式中的8個系數(shù)可以全部求得。129二、灰度插值的兩種方案下圖中左邊是理想的原始不失真圖,右邊是實際采集的失真圖。幾何校正就是要把失真圖恢復成原始圖。原始的不失真圖實際采集的失真圖原始圖失真圖130由圖可見,由于失真,原始圖中整數(shù)坐標點(x,y)映射到失真圖中的

36、非整數(shù)坐標點(x,y),而該點的灰度值是沒有定義的。前面討論的空間變換可將應在原圖(x,y)處的(x,y)點變換回原圖(x,y)處。現(xiàn)在要做的是估計點(x,y)的灰度值以賦給原圖(x,y)處的像素。131前向映射和后向映射的定義灰度插值在實現(xiàn)時可以有兩種方案:前向映射:把實際采集的失真圖像的像素灰度賦給原始的不失真圖像的像素。例如,如果一個失真圖像的像素映射到不失真圖像四個像素之間(非整數(shù)點),則將失真圖像素的灰度根據(jù)插值算法分配給不失真的那4個像素。132前向映射實際采集的失真圖原始的不失真圖原始圖失真圖133后向映射:把灰度從原始的不失真圖像中映射到實際采集的失真圖像上。例如,如果一個不失

37、真圖像的像素映射到失真圖的四個像素之間(非整數(shù)點),則先根據(jù)灰度插值算法計算出該位置的灰度,再將其映射到不失真圖像的對應像素。134后向映射實際采集的失真圖原始的不失真圖失真圖原始圖135前向映射和后向映射的比較前向映射:(失真圖像不失真圖像)由于在前向映射中,有一定數(shù)量的失真圖像的像素有可能會映射到不失真圖像之外,所以有些計算方面的浪費。另外,不失真圖像中的許多像素的最后灰度是由許多失真圖像像素的貢獻之和決定的,這也需要較多的尋址。136后向映射:(不失真圖像失真圖像)相對來說,后向映射效率比較高。不失真圖像是逐個像素得到的,每個像素的灰度值是由進一步的插值確定的,所以后向映射在實際中用得更

38、廣泛。被許多空間變換的商業(yè)實現(xiàn)所采用,例如MATLAB。 137三、灰度插值的計算對灰度插值的計算方法有多種。最近鄰插值;雙線性插值;三次線性插值。1381、最近鄰插值最近鄰插值就是將離(x,y)點最近的像素的灰度值作為(x,y)點的灰度值賦給原圖(x,y)處的像素。計算量小,但不夠精確。原始的不失真圖實際采集的失真圖理想圖失真圖1392、雙線性插值為了提高精度,可采用雙線性插值。它利用點(x,y)的四個最近鄰像素的灰度值來計算(x,y)點處的灰度值。設(x,y)點的四個最近鄰像素為A、B、C、D。其坐標分別為(i, j), (i+1, j), (i, j+1), (i+1, j+1)。其灰度

39、值分別為g(A)、g(B)、g(C)、g(D)。140141將雙線性插值的思路推廣,只利用(x,y)點的任意3個不共線的近鄰像素的灰度值就可計算(x,y)點處的灰度值。1423、三次線性插值如果需要更高的精度,還可以采用三次線性插值方法。它利用點(x,y)的16個最近鄰像素的灰度值,根據(jù)下面的方法計算點(x,y)處的灰度值。設點(x,y)的16個最近鄰像素為:A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P,則計算點(x,y)的插值公式為:商業(yè)圖像編輯程序的標準內(nèi)插方法,例如Adobe Photoshop和Corel Photopaint。143其中

40、g()表示相應16個最近鄰像素的灰度值。Wx為橫坐標插值的加權值,Wy為縱坐標插值的加權值,分別計算如下:144如果g()的橫坐標值與x的差值dx小于1(即B, C, F, G, J, K, N, O),則:如果g()的橫坐標值與x的差值dx大于1(即A, D, E, H, I, L, M, P),則:145如果g()的縱坐標值與y的差值dy小于1(即E, F, G, H, I, J, K, L),則:如果g()的縱坐標值與y的差值dy大于1(即A, B, C, D, M, N, O, P),則:146復雜的幾何變換可以通過將圖像分解為更小的矩形子圖像來近似。對于每個子圖像可以用對應的像素對來

41、估計一個簡單的幾何變換。這樣幾何變換就可以在每個子圖像中分別修復了。147最近鄰插值雙線性插值雙三次插值由213162像素放大到36922812像素由426324像素放大到36922812像素148字母T的300 dpi圖像旋轉(zhuǎn)21 最近鄰插值 雙線性插值 雙三次插值 1492.5 像素間的一些基本關系150一幅數(shù)字圖像由有限大小的像素組成,像素反映圖像特定位置處的亮度信息。通常像素按照矩陣采樣柵格布置。我們用兩維矩陣來表示這樣的數(shù)字圖像。矩陣的元素是整數(shù),對應于亮度范圍的量化級別。1512.5.1 像素間的鄰域關系鄰域 4-鄰域 D-鄰域 8-鄰域 1524鄰域:像素p(x,y)的4鄰域是(

42、x+1, y),(x 1, y),(x, y+1),(x, y 1)。記為N4(p) 。D鄰域:像素p(x,y)的D鄰域是(x+1, y+1),(x+1, y1),(x1, y+1),(x1, y1)。 記為ND(p)。1538鄰域:像素p(x,y)的4個4-鄰域近鄰像素加上4個對角鄰域像素合起來構成p的8-鄰域,記為N8(p)。1541552.5.2 像素間的鄰接和連通(一)像素的鄰接:兩個像素鄰接的兩個必要條件是:兩個像素的位置在空間上是否接觸;兩個像素的灰度值是否滿足某個特定的相似性準則(例如它們的灰度值相等,或在同一個灰度值集合V中取值)。156令V是用于定義鄰接性的灰度值集合。在二值

43、圖像中,如果把具有1值的像素歸入鄰接的,則V=1。在灰度圖像中,概念是一樣的,但是集合V一般包括更多的元素。157例如,對于具有可能的灰度值在0到255范圍內(nèi)的像素的鄰接性,集合V可能是這256個值的任何一個子集??紤]三種類型的鄰接性,p, q為特殊像素。4-鄰接、8-鄰接、m-鄰接(混合鄰接)。1584-鄰接的定義:如果q在集合N4(p)中,則具有V中數(shù)值的兩個像素p和q是4-鄰接的。1598-鄰接的定義:如果q在集合N8(p)中,則具有V中數(shù)值的兩個像素p和q是8-鄰接的。160m-鄰接(混合鄰接)的定義:對于具有V中數(shù)值的兩個像素p和q,如果滿足條件1或者條件2:q在集合N4(p)中;q

44、在集合ND(p)中;并且N4(q)N4(p)中沒有來自V中數(shù)值的像素。注意:和兩個條件必須同時滿足。161m鄰接非m-鄰接滿足以上1或者2兩個條件之一,則稱具有V中數(shù)值的這兩個像素q和p是m-鄰接的,即4-鄰接和D-鄰接的混合鄰接,消除了8鄰接的二義性。162 8鄰接像素m-鄰接像素像素的排列163(三)像素的連通:在像素鄰接的基礎上,可進一步討論和定義像素的連通。像素鄰接可以看作是像素連通的一種特例。為討論連通先來定義兩個像素間的通路。164從具有坐標(x,y)的像素p,到具有坐標(s, t)的像素q的通路是特定像素序列,其坐標為:(x0, y0), (x1, y1), . , (xn, y

45、n)其中(x0,y0)=(x, y) 和 (xn, yn)=(s, t),(xi, yi) 鄰接于(xi-1, yi-1),1in,n是通路的長度。165可以由鄰接類型定義4-通路、8-通路和m-通路。4-通路8-通路m-通路166令S是圖像中的一個像素子集。如果S的全部像素之間存在一個通路,則可以說兩個像素p和q在S中是連通的。對于S中的任何像素p,S中連通到該像素p的像素集稱為S的連通分量。如果S中僅有一個連通分量,則集合S稱為連通集??紤]S是否是連通集?167關于連通集概念:如圖所示的一個圖像子集S,如果按照四鄰接定義,那么包括2個連通分量,因此S不是一個連通集;但是如果按照8鄰接定義,

46、就只包括1個連通分量,因此S是連通集。(連通集是對圖像子集來講的)1682.5.3 區(qū)域、邊界和邊緣令R是圖像中的一個像素子集。如果R是連通集,則稱R為一個區(qū)域。區(qū)域的概念使用了“連通性”的概念。因此,我們可以說區(qū)域是彼此連通的像素的集合。兩個區(qū)域,如果它們聯(lián)合形成一個連通集,則區(qū)域Ri和Rj稱為鄰接區(qū)域。定義區(qū)域鄰接時,考慮4鄰接,8鄰接和m-鄰接。169考慮兩個圖像子集S1和S2,對于V=1,問題?確定S1和S2是: 4鄰接; 8鄰接; m-鄰接。170假設一幅圖像包括有K個不連接的區(qū)域,即Rk, k=1,2,K,且它們都不接觸圖像的邊界。令Ru代表所有K個區(qū)域的并集,并且令(Ru)c代表

47、其補集。我們稱Ru中的所有點為圖像的前景,而稱(Ru)c中的所有點為圖像的背景。171區(qū)域R的邊界是它自身的一個像素集合,其中的每個點具有一個或更多個不在R中的鄰點,即邊界是區(qū)域的界限上的點的集合。邊界點之一172前述定義有時更加具體的稱為區(qū)域的內(nèi)邊界,以便與其外邊界相區(qū)分。外邊界對應于背景邊界。在開發(fā)追蹤邊界的算法時這一區(qū)別很重要。為了保證結(jié)果形成一個閉合的通路,通常是沿著外邊界來追蹤邊界。173邊界追蹤算法-尋找外邊界1值區(qū)域的內(nèi)邊界是該區(qū)域本身,這一邊界并不滿足閉合通路的定義。1值區(qū)域的外邊界形成了一個圍繞該區(qū)域的閉合通路?;?鄰域和8鄰域的內(nèi)、外邊界174175基于4鄰域的內(nèi)邊界基于

48、4鄰域的外邊界176基于8鄰域的內(nèi)邊界基于8鄰域的外邊界177邊緣(edge)是更深一步的概念。它是一個像素和其直接鄰域的局部性質(zhì),它是一個有大小和方向的矢量。邊界是與區(qū)域有關的全局概念,而邊緣表示圖像函數(shù)的局部性質(zhì)。178邊緣是由具有某些超過預先設定的閾值的導數(shù)值的像素形成的。邊緣的概念就是基于在進行灰度級度量時不連續(xù)點的“局部”概念??梢园堰吘夵c連接成邊緣線段。邊緣和邊界吻合的一個例外是二值圖像的情況。微積分學中用導數(shù)描述連續(xù)函數(shù)的變化。圖像函數(shù)依賴于兩個變量,即圖像平面的坐標。因此,描述邊緣的檢測算子使用偏導數(shù)。圖像函數(shù)的變化可以用指向圖像函數(shù)最大增長方向的梯度來表示。179邊緣的幅值是

49、梯度的幅值,邊緣方向是梯度方向旋轉(zhuǎn)-90的方向。梯度方向是函數(shù)最大增長的方向。在圖像分析中,邊緣一般用于尋找區(qū)域的邊界。梯度方向(與邊緣方向垂直)上的邊緣剖面對于邊緣具有典型性。180181182在2D圖像中,沿一定方向上剖面的4個參數(shù)進行邊緣模型化位置:邊緣最大灰度變化處;斜率:邊緣在其朝向上的傾斜程度;均值:分屬邊緣兩邊像素的灰度均值;幅度:邊緣兩邊灰度均值間的差(反映了不連續(xù)或局部突變的程度)。183描述邊緣的4個參數(shù)1841852.5.4 像素之間的距離像素之間距離函數(shù)的定義:歐氏距離;D4距離(城市距離);D8距離(棋盤距離)。186給定3個像素p,q,r,坐標分別為(x, y),(

50、s, t),(u, v),如果下列條件滿足的話,稱函數(shù)D是距離函數(shù)或度量。187距離總是正的(兩像素相同,距離為零)。距離與起、終點無關。兩像素最短距離沿直線。188歐氏距離p和q之間的歐基里德距離定義為:這個距離,是具有與(x,y)距離小于等于某個值r的那些像素,或是包含在以(x,y)為圓心以r為半徑的圓環(huán)中的那些點。189D4距離(城市距離)城區(qū)(city-block)距離:具有與(x, y)距離小于等于某個值 r 的那些像素形成一個菱形。例如距點(x, y)的D4距離小于等于2的像素形成下列輪廓。 190具有D4=1的像素是(x, y)的4-鄰域:191D8距離(棋盤距離)棋盤(ches

51、sboard)距離:具有D8=1的像素是(x,y)的8-鄰域。D8距離小于r的像素圍成一個矩形。192歐氏距離=5D4距離=7D8距離=4pqpqpq193p和q之間的D4和D8距離與任何通路無關,通路可能存在于各點之間,因為這些距離僅與點的坐標有關。然而,如果選擇m-鄰接,則兩點間的Dm距離由點間最短的通路定義。在這種情況下,兩像素間的距離將依賴于沿通路的像素值以及它們的鄰點值。194考慮值為1的像素鄰接,V=1 ??紤]一下p到p4的m通路長度。1952.6 數(shù)字圖像處理中所用數(shù)學工具196目的介紹在本書中所用的各種數(shù)學工具;通過把它們用于各種基本圖像處理任務來介紹如何使用這些工具。 1972.6.1 陣列與矩陣操作包含一幅或多幅圖像的陣列操作是以逐像素為基礎執(zhí)行的。圖像可以等價地被看成是矩陣。圖像間的操作是用矩陣理論執(zhí)行的。陣列與矩陣操作間的區(qū)別必須搞清楚。 198本書采用陣列相乘考慮下面的22圖像:和 陣列相乘矩陣相乘199我們假設陣列操作貫穿全書:當對一幅圖像的求冪時,意味著每個像素

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論