版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第6章圖像編碼與壓縮6.1概述
6.2圖像保真度準(zhǔn)則
6.3統(tǒng)計(jì)編碼方法
6.4預(yù)測編碼
6.5正交變換編碼
6.6圖像編碼的國際標(biāo)準(zhǔn)
6.7上機(jī)實(shí)驗(yàn)習(xí)題
用數(shù)字形式表示圖像可使可視化信息以高效、新穎的方式加以控制,其應(yīng)用已經(jīng)非常廣泛,如衛(wèi)星遙感、醫(yī)學(xué)影像分析、臉譜識別、精確制導(dǎo)等。然而,這種表示方法需要大量的數(shù)據(jù)(比特?cái)?shù))。
編碼是用符號數(shù)碼元素表示信號、消息或事件的過程。圖像編碼是研究圖像數(shù)據(jù)的編碼方法,期望用最少的數(shù)碼表示信源發(fā)出的圖像信號,使數(shù)據(jù)得到壓縮,減少圖像數(shù)據(jù)占用的信號空間和能量,降低信號處理的復(fù)雜程度。
6.1.1圖像數(shù)據(jù)壓縮的必要性與可能性
數(shù)據(jù)壓縮最初是信息論研究中的一個(gè)重要課題,在信息論中數(shù)據(jù)壓縮被稱為信源編碼。但近年來,數(shù)據(jù)壓縮已不局限于編碼方法的研究與探討,而逐步形成較為獨(dú)立的體系。它主要研究數(shù)據(jù)表示、傳輸、變換和編碼的方法,目的是減少存儲(chǔ)數(shù)據(jù)所需的空間和傳輸所用的時(shí)間。6.1概述
近年來,隨著計(jì)算機(jī)與數(shù)字通信技術(shù)的迅速發(fā)展,特別是網(wǎng)絡(luò)和多媒體技術(shù)的興起,圖像編碼與壓縮作為數(shù)據(jù)壓縮的一個(gè)分支,已受到越來越多的關(guān)注。
圖像數(shù)據(jù)的特點(diǎn)之一是數(shù)據(jù)量大。大數(shù)據(jù)量的圖像信息會(huì)給存儲(chǔ)器的存儲(chǔ)容量、通信干線信道的帶寬以及計(jì)算機(jī)的處理速度增加極大的壓力。單純靠增加存儲(chǔ)器容量,提高信道帶寬以及計(jì)算機(jī)的處理速度等方法來解決這個(gè)問題是不現(xiàn)實(shí)的。例如512×512×8bit×3色的電視圖像,用9600波特在電話線上傳輸,單幅圖像傳輸需要11分鐘左右,這通常是不能接受的。很顯然,在信道帶寬、通信鏈路容量一定的前提下,采用編碼壓縮技術(shù),減少傳輸數(shù)據(jù)量,是提高通信速度的重要手段。從本質(zhì)上來說,圖像編碼與壓縮就是對圖像數(shù)據(jù)按一定的規(guī)則進(jìn)行變換和組合,從而達(dá)到以盡可能少的代碼(符號)來表示盡可能多的信息的目的。
沒有圖像編碼壓縮技術(shù)的發(fā)展,大容量圖像信息的存儲(chǔ)與傳輸是難以實(shí)現(xiàn)的,多媒體、信息高速公路等新技術(shù)在實(shí)際中的應(yīng)用也會(huì)碰到很大困難。
圖像數(shù)據(jù)壓縮是必要的,同時(shí),圖像數(shù)據(jù)壓縮也是可能的,主要有以下兩方面的原因。
其一,數(shù)字圖像本身的特征帶來的數(shù)據(jù)壓縮的可能性。
(1)圖像中像素灰度出現(xiàn)的不均勻性,造成圖像信息熵冗余,即用同樣長度比特表示每一個(gè)灰度,則必然存在冗余。而將出現(xiàn)概率大的灰度級用長度較短的碼表示,將出現(xiàn)概率小的灰度級用長度較長的碼表示,有可能使編碼總長度下降。
(2)圖像能量在變換域內(nèi)分布不均勻,比如大部分能量集中在低頻部分,而小部分能量集中在高和較高的頻率部分,此時(shí),對變換域信號采用與(1)相同的方法,則可提高編碼效率。
(3)圖像像素灰度在時(shí)間和空間上的相關(guān)性造成信息冗余。例如空間冗余:鄰近像素灰度分布的相關(guān)性很強(qiáng);頻間冗余:多譜段圖像中各譜段圖像對應(yīng)像素之間的灰度相關(guān)性很強(qiáng);時(shí)間冗余:序列圖像幀間畫面對應(yīng)像素灰度的相關(guān)性很強(qiáng)。
其二,應(yīng)用環(huán)境允許圖像有一定程度的失真。
(1)接收端圖像設(shè)備分辨率較低,則可降低圖像分辨率;
(2)根據(jù)人的視覺特性對不敏感區(qū)進(jìn)行降分辨率編碼(視覺冗余);
(3)應(yīng)用方關(guān)心圖像區(qū)域有限,可對其余部分圖像采用空間和灰度級上的粗化。
由于一般圖像中存在很大的冗余度,因此圖像信息的壓縮是可能的。但到底能壓縮多少,除了和圖像本身存在的冗余度大小有關(guān)外,很大程度取決于對圖像質(zhì)量的要求。例如廣播電視要考慮藝術(shù)欣賞性,對圖像質(zhì)量要求就很高,用目前的編碼技術(shù),即使壓縮比達(dá)到3∶1都是很困難的。而對可視電話,畫面活動(dòng)部分少,對圖像質(zhì)量要求也低,可采用高效編碼技術(shù),使壓縮比高達(dá)1500∶1以上。目前高效圖像壓縮編碼技術(shù)已能用硬件實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)處理,在廣播電視、電視會(huì)議、可視電話、傳真和互聯(lián)網(wǎng)、遙感等多方面得到應(yīng)用。6.1.2圖像編碼壓縮技術(shù)的分類
圖像編碼方法有許多,但從技術(shù)角度來看,可以分作兩大類:無失真編碼和有失真編碼。
無失真編碼(無損壓縮、可逆壓縮)是一種經(jīng)編、解碼后圖像不會(huì)產(chǎn)生失真的編碼方法,可重建圖像,但壓縮比不大。
有失真編碼(有損壓縮、不可逆壓縮)解碼時(shí)無法完全恢復(fù)原始圖像,壓縮比大但有信息損失。這里的失真是指編碼輸入圖像與解碼輸出圖像之間的隨機(jī)誤差,而壓縮比指原圖像比特?cái)?shù)與壓縮后圖像比特?cái)?shù)之比。
無損編碼中刪除的僅僅是圖像數(shù)據(jù)中冗余的數(shù)據(jù),經(jīng)解碼重建的圖像和原始圖像沒有任何失真,常用于復(fù)制、保存十分珍貴的歷史、文物圖像等場合;有損編碼是指解碼重建的圖像與原圖像相比有失真,不能精確地復(fù)原,但視覺效果上基本相同,是實(shí)現(xiàn)高壓縮比的編碼方法,數(shù)字電視、圖像傳輸和多媒體等常采用這類編碼方法。例如一張A4(210mm×297mm)幅面的照片,若用中等分辨率(300dpi)的掃描儀按真彩色掃描,共有(300×210/25.4)
×(300×297/25.4)個(gè)像素,每個(gè)像素占3B,其數(shù)據(jù)量為26MB。在多媒體中,海量圖像數(shù)據(jù)的存儲(chǔ)和處理是難點(diǎn)之一。如不進(jìn)行編碼壓縮處理,一張600MB的光盤僅能存放20s左右的640×480像素的圖像畫面。根據(jù)編碼的作用域劃分,圖像編碼分為空間域編碼和變換域編碼兩大類。但是,近年來,隨著科學(xué)技術(shù)的飛速發(fā)展,許多新理論、新方法的不斷涌現(xiàn),特別是受通信、多媒體技術(shù)、信息高速公路建設(shè)等需求的刺激,一大批新的圖像壓縮編碼方法應(yīng)運(yùn)而生,其中有些基于新的理論和變換,有些是兩種或兩種以上方法的組合,有的既在空間域也要在變換域進(jìn)行處理,將這些方法都?xì)w屬于其他方法。圖6.1.1所示為圖像編碼壓縮技術(shù)的分類。
圖6.1.1圖像編碼壓縮技術(shù)的分類
在圖像壓縮編碼中,解碼圖像與原始圖像可能會(huì)有差異,因此,需要評價(jià)壓縮后圖像的質(zhì)量。描述解碼圖像相對原始圖像偏離程度的測度一般稱為保真度(逼真度)準(zhǔn)則。常用的準(zhǔn)則可分為兩大類:客觀保真度準(zhǔn)則和主觀保真度準(zhǔn)則。6.2圖像保真度準(zhǔn)則6.2.1客觀保真度準(zhǔn)則
最常用的客觀保真度準(zhǔn)則是原圖像和解碼圖像之間的均方根誤差和均方根信噪比。令f(x,y)代表大小為M×N的原圖像,
代表解壓縮后得到的圖像,對任意x和y,f(x,y)和
之間的誤差定義為
(6.2.1)
1.均方根誤差
均方根誤差erms為
(6.2.2)
2.均方根信噪比(SNRrms)
如果將
看做原始圖像f(x,y)和噪聲信號e(x,y)的和,那么解壓圖像的均方根信噪比SNRrms為
(6.2.3)
實(shí)際使用中常將SNRrms歸一化并用分貝(dB)表示。令
(6.2.4)
則有
(6.2.5)
3.峰值信噪比(PSNR)
如果令f
max=max[f(x,y)](x=0,1,…,M-1;y=0,1,…,N-1),可得到
(6.2.6)
6.2.2主觀保真度準(zhǔn)則
對具有相同客觀保真度的不同圖像,人的視覺可能產(chǎn)生不同的視覺效果。這是因?yàn)榭陀^保真度是一種統(tǒng)計(jì)平均意義下的度量準(zhǔn)則,對于圖像中的細(xì)節(jié)無法反映出來,而人的視覺能夠覺察出來。這種情況下,用主觀的方法來評價(jià)圖像的質(zhì)量更為合適。一種常用的方法是讓一組(不少于20人)觀察者觀看圖像并打分,將他們對該圖像的評分取平均,用來評價(jià)一幅圖像的主觀質(zhì)量。
主觀評價(jià)也可對照某種絕對尺度進(jìn)行。表6.2.1給出一種對電視圖像質(zhì)量進(jìn)行絕對評價(jià)的尺度,據(jù)此可對圖像的質(zhì)量進(jìn)行判斷打分。
表6.2.1電視圖像質(zhì)量評價(jià)尺度也可通過比較
和f(x,y)并按照某種相對的尺度進(jìn)行評價(jià)。如果觀察者將
和f(x,y)逐個(gè)進(jìn)行對照,則可以得到相對的質(zhì)量分。例如可用(-3,-2,-1,0,1,2,3)來代表主觀評價(jià){很差,較差,稍差,相同,稍好,較好,很好}。
根據(jù)信源的概率分布特性分配可變長碼,使平均碼長非常接近于熵,這種壓縮編碼稱為統(tǒng)計(jì)編碼。
為了衡量一種編碼方法的優(yōu)劣,本節(jié)首先討論冗余度和編碼效率,然后介紹統(tǒng)計(jì)編碼方法中的霍夫曼編碼、行程編碼和算術(shù)編碼方法。6.3統(tǒng)計(jì)編碼方法6.3.1圖像冗余度和編碼效率
從信息論觀點(diǎn)看,描述圖像信源的數(shù)據(jù)由有用數(shù)據(jù)和冗余數(shù)據(jù)兩部分組成。冗余數(shù)據(jù)有編碼冗余、像素間冗余和心理視覺冗余三種。如果能減少或消除其中的一種或多種冗余,就能取得數(shù)據(jù)壓縮的效果。
1.信息量和熵
信息量的定義:對應(yīng)每個(gè)符號的
I(ai)=-logP(ai)
其中,P(ai)指ai出現(xiàn)的概率。
信源的定義:信源指能夠產(chǎn)生信息的事物。在數(shù)學(xué)上信源是一概率場,若信源X可能產(chǎn)生的信息是x1,x2,…,xn,這些信息出現(xiàn)的概率分別是p1,p2,…,pn,則該信源可表示為
由于I(aj)是一個(gè)隨機(jī)變量,因此也可以定義信源的信息量的統(tǒng)計(jì)平均為熵[entropy]
(6.3.1)
在編碼應(yīng)用中,熵表示信源中消息的平均信息量,在不考慮消息間的相關(guān)性時(shí),是無失真代碼平均長度比特?cái)?shù)的下限。
2.編碼過程
編碼器是用符號集A中的符號構(gòu)成輸出代碼,并建立輸入信號單元與輸出代碼的對應(yīng)關(guān)系,如圖6.3.1所示。
根據(jù)Shannon無干擾信息保持編碼定理,若對原始圖像數(shù)據(jù)的信息進(jìn)行信源的無失真圖像編碼,則壓縮后的平均碼率存在一個(gè)下限,這個(gè)下限是信源信息熵H。理論上最佳信息保持編碼的平均碼長可以無限接近信源信息熵H。若原始圖像平均碼長為,則
(6.3.2)
圖6.3.1編碼過程bi為灰度級i對應(yīng)的碼長,pi為灰度級i出現(xiàn)的概率。那么總是大于或等于圖像的熵H。
因此可定義冗余度
(6.3.3)
編碼效率h定義為
(6.3.4)
當(dāng)經(jīng)過編碼壓縮后圖像信息的冗余度r已接近于零,或編碼效率已接近于1時(shí),那么平均碼長已接近其下限,這類編碼方法稱為高效編碼。
例設(shè)有信源
則
說明該信源編碼平均碼長最短情況下為7/4,不能再小,否則就會(huì)引起錯(cuò)誤。而平均碼長比此數(shù)大許多時(shí),就表明還有待改進(jìn)。
令
分別表示要傳遞的四種可能消息,如果選擇一符號集合A={1,2,3,4},每一個(gè)符號分別代表一種消息,n=4(符號集中符號個(gè)數(shù)),則可以求出平均碼長
則
冗余度
如果另選一種符號集A={0,1},n=2,分別用00,01,10,11表示4個(gè)消息,則
冗余度
從上例可以看出,這兩種代碼長度相同的編碼方法沒有得到最高的編碼效率,即沒做到用最少的碼字傳遞信源的消息。如何使平均碼長短到極限?
仍用上例,令A(yù)={0,1},n=2,分別用0,10,110,111表示4個(gè)消息,則平均碼長為
則
這種方式得到最高的編碼效率,是因?yàn)橄⒋a字長度不同。6.3.2行程編碼
行程編碼RLE(Run-Length-Encoding)又稱游程碼,這種壓縮方法廣泛地應(yīng)用于各種圖像格式的數(shù)據(jù)壓縮處理中,是壓縮圖像最簡單的方法之一。
行程編碼技術(shù)是在給定的圖像數(shù)據(jù)中尋找連續(xù)重復(fù)的數(shù)值,然后用兩個(gè)字符值取代這些連續(xù)值。例如,有一串用字母表示的數(shù)據(jù)為“aaaaabbbbccccdddedddaa”,經(jīng)過行程編碼處理可表示為“5a4b4c3d1e3d2a”。
二進(jìn)制(黑白)圖像,例如傳真,通常包括0或1游程。例如,如果二值圖像的段表示為:D=00000000011111
11111100000000000000011100000000000001001111111111,而通過簡單地列出可選擇的0和1行程長度,它可以緊湊地表示為c(d)=(9,11,15,3,13,1,2,10)。假定每個(gè)行程長度由4位表示,原始二進(jìn)制數(shù)據(jù)d需要65位用于存儲(chǔ),而它的緊湊表示c(d)只需要32位。
這種方法在處理包含大量重復(fù)信息的數(shù)據(jù)時(shí)可以獲得很好的壓縮效率。但是如果連續(xù)重復(fù)的數(shù)據(jù)很少,則難獲得較好的壓縮比,而且甚至可能會(huì)導(dǎo)致壓縮后的編碼字節(jié)數(shù)大于處理前的圖像字節(jié)數(shù)。所以行程編碼的壓縮效率與圖像數(shù)據(jù)的分布情況密切相關(guān)。6.3.3霍夫曼編碼
霍夫曼(Huffman,也譯為哈夫曼)編碼是由D.A.Huff
man在1952年提出的一種編碼方法。這種編碼方法根據(jù)源數(shù)據(jù)各信號發(fā)生的概率進(jìn)行編碼。在源數(shù)據(jù)中出現(xiàn)概率越大的信號,分配的碼字越短;出現(xiàn)概率越小的信號,其碼字越長,從而達(dá)到用盡可能少的碼表示源數(shù)據(jù)的目的。它在變長編碼方法中是最佳的。
霍夫曼編碼的步驟如下:設(shè)信源X有m個(gè)符號(消息),
(1)把信源X中的消息按概率從大到小的順序排列;
(2)把最后兩個(gè)出現(xiàn)概率最小的消息合并成一個(gè)消息,從而使信源的消息數(shù)減少,并同時(shí)再按信源符號(消息)出現(xiàn)的概率從大到小排列;
(3)重復(fù)上述2個(gè)步驟,直到信源最后為
(4)將被合并的消息分別賦予1和0,并對最后的兩個(gè)消息也相應(yīng)地賦予1和0。
通過上述步驟就可構(gòu)成最優(yōu)變長碼(霍夫曼編碼,HuffmanCodes)。
下面通過實(shí)例來說明這種編碼方法。
例設(shè)有編碼輸入
X={x1,x2,x3,x4,x5,x6}
其頻率分別為
P(x1)=0.4,P(x2)=0.3,P(x3)=0.1,P(x4)=0.1,P(x5)=0.06,P(x6)=0.04
現(xiàn)求其最佳霍夫曼編碼
W={w1,w2,w3,w4,w5,w6}
具體編碼方法是:
①把輸入元素按其出現(xiàn)概率由大到小排列起來,然后把最末兩個(gè)具有最小概率的元素的概率加起來;
②把該概率之和同其余概率由大到小排隊(duì),然后再把兩個(gè)最小概率加起來,再重新排隊(duì);
③重復(fù)②,直到最后只剩下兩個(gè)概率為止。
在上述工作完畢之后,從最后兩個(gè)概率開始從右向左進(jìn)行編碼。對于概率大的賦予0,小的賦予1。
本例中對0.6賦予0,對0.4賦予1。0.4傳遞到x1,所以x1的編碼便是1。而0.6傳遞到前一級是兩個(gè)0.3相加,大值是單獨(dú)—個(gè)元素x2的概率,小值是兩個(gè)元素概率之和,所以x2賦予0,0.2和0.1求和的0.3賦予1。則x2的編碼是00,而剩余元素編碼的前兩個(gè)碼應(yīng)為01。對0.2賦予0,0.1賦予1。以此類推,最后得到諸元素的編碼如下:
元素xi
x1
x2
x3
x4
x5
x6
概率p(xi)
0.4
0.3
0.1
0.1
0.06
0.04
編碼wt
1
00
011
0100
01010
01011
其編碼過程如圖6.3.2所示。
圖6.3.2霍夫曼編碼過程經(jīng)霍夫曼編碼后,平均碼長為
=0.4×1+0.30×2+0.1×3+0.1×4+0.06×5+0.04×5
=2.20(bit)
該信源的熵為H≈2.14bit,編碼后計(jì)算的平均碼長為2.2bit,非常接近于熵??梢娀舴蚵幋a是一種較好的編碼。
也可按二叉樹進(jìn)行霍夫曼編碼。算法步驟如下:
(1)統(tǒng)計(jì)出每個(gè)元素出現(xiàn)的頻率。
(2)把上述頻率按從大到小的順序排列。
(3)選出頻率最小的兩個(gè)值,作為二叉樹的兩個(gè)葉子節(jié)點(diǎn),將其和作為它們的根節(jié)點(diǎn),兩個(gè)葉子節(jié)點(diǎn)不再參與排序,新的根節(jié)點(diǎn)同其余元素按出現(xiàn)的頻率排序。
(4)重復(fù)(3),直到最后得到和為1的根節(jié)點(diǎn)。
(5)將形成的二叉樹的子節(jié)點(diǎn)概率大的取為0,概率小的取為1。把最上面的根節(jié)點(diǎn)到最下面的葉子節(jié)點(diǎn)途中遇到的0,1序列串起來,就得到了各個(gè)元素的編碼。
以上過程如圖6.3.3所示,其中圓圈中的數(shù)字是新節(jié)點(diǎn)產(chǎn)生的順序。
圖6.3.3霍夫曼編碼二叉樹可見,這與前面給出的編碼結(jié)果是不一樣的。因?yàn)榛舴蚵幋a具有以下特點(diǎn):
(1)霍夫曼編碼構(gòu)造出來的編碼值不是唯一的。原因在于給兩個(gè)最小概率的圖像的灰度值進(jìn)行編碼時(shí),可以是大概率為“0”,小概率為“1”,但也可相反。而當(dāng)兩個(gè)灰度值的概率相等時(shí),“0”、“1”的分配也是人為定義的,這就造成了編碼的不唯一性,但這不影響解碼的正確性。
(2)當(dāng)圖像灰度值分布很不均勻時(shí),霍夫曼編碼的效率就高。當(dāng)信源概率是2的負(fù)冪次方時(shí),編碼效率為100%。而在圖像灰度值的概率分布比較均勻時(shí),霍夫曼編碼的效率就很低。
(3)霍夫曼編碼必須先計(jì)算出圖像數(shù)據(jù)的概率特性并形成編碼表后,才能對圖像數(shù)據(jù)編碼。因此,霍夫曼編碼缺乏構(gòu)造性,即不能使用某種數(shù)學(xué)模型建立信源符號與編碼之間的對應(yīng)關(guān)系,而必須通過查表方法建立起它們之間的對應(yīng)關(guān)系。如果信源符號很多,那么碼表就會(huì)很大,這必將影響到存儲(chǔ)、編碼與傳輸。
可見,利用霍夫曼編碼需要對圖像掃描兩遍。第一遍掃描要精確地統(tǒng)計(jì)出原圖像中每一灰度級出現(xiàn)的頻率,建立霍夫曼樹并進(jìn)行編碼,形成編碼表;第二遍掃描原圖像是利用編碼表對原圖像各像素編碼生成圖像壓縮文件。由于需要建立二叉樹并遍歷二叉樹生成編碼,因此數(shù)據(jù)壓縮和還原速度都較慢,但簡單有效,因而得到廣泛的應(yīng)用。
理論上,用霍夫曼方法對源數(shù)據(jù)流進(jìn)行編碼可達(dá)到最佳編碼效果,但由于計(jì)算機(jī)中存儲(chǔ)、處理的最小單位是“位”,因此在一些情況下,實(shí)際壓縮比與理論壓縮比的極限相去甚遠(yuǎn)。例如源數(shù)據(jù)流由X和Y兩個(gè)符號構(gòu)成,它們出現(xiàn)的概率分別是2/3和1/3。理論上,根據(jù)字符X的熵確定的最優(yōu)碼長為
根據(jù)字符Y的熵確定的最優(yōu)碼長為
若要達(dá)到最佳編碼效果,相應(yīng)于字符X的碼長為0.585位;字符Y的碼長為1.58位。計(jì)算機(jī)中不可能有非整數(shù)位出現(xiàn),硬件的限制使得編碼只能按“位”進(jìn)行。用霍夫曼方法對這兩個(gè)字符進(jìn)行編碼,得到X、Y的代碼分別為0和1。顯然,對于概率較大的字符X不能給予較短的代碼。這就是實(shí)際編碼效果不能達(dá)到理論壓縮比的原因所在。
應(yīng)該指出,從編碼最終結(jié)果可看出上述方法有其規(guī)律:短的碼不會(huì)作為更長碼的起始部分,否則在碼流中區(qū)分碼字時(shí)會(huì)引起混亂。另外這種碼和計(jì)算機(jī)常用的數(shù)據(jù)結(jié)構(gòu)(以字節(jié)和半字節(jié)為基礎(chǔ)的字長)不匹配,因而數(shù)據(jù)壓縮的效果不甚理想。因此有時(shí)用半字節(jié)為基礎(chǔ)的近似霍夫曼方式加以折中解決,是對這種編碼方法的一種擴(kuò)展。6.3.4費(fèi)諾—香農(nóng)編碼
由于霍夫曼編碼法需要多次排序,當(dāng)元素xi很多時(shí)十分不便,為此費(fèi)諾(Fano)和香農(nóng)(Shannon,也譯為仙農(nóng))分別單獨(dú)提出類似的方法,使編碼方法更簡單。具體編碼方法如下:
(1)把x1~xn按概率由大到小、從上到下排成一列,然后把x1~xn分成兩組x1~xk,xk+1~xn,并使得
(2)給兩組中的xi賦值,將概率大的一組賦為0,概率小的一組賦為1。這是該方法的賦值原則。
(3)把兩組分別按(1)、(2)分組、賦值,不斷重復(fù),直到每組只有一種輸入元素為止。將每個(gè)xi所賦的值依次排列起來就是費(fèi)諾—香農(nóng)編碼。
例
6.3.5算術(shù)編碼
算術(shù)編碼沒有延用數(shù)據(jù)編碼技術(shù)中用一個(gè)特定的代碼代替一個(gè)輸入符號的一般做法,它把要壓縮處理的整段數(shù)據(jù)映射到一段實(shí)數(shù)半開區(qū)間[0,1)內(nèi)的某一區(qū)段,構(gòu)造出小于1且大于或等于0的數(shù)值。這個(gè)數(shù)值是輸入數(shù)據(jù)流的唯一可譯代碼。
下面通過一個(gè)例子來說明算術(shù)編碼的方法。
例如,對一個(gè)5符號信源A={a2a3a1a3a4},各符號出現(xiàn)的概率和設(shè)定的取值范圍如下:
“范圍”給出了符號的賦值區(qū)間,這個(gè)區(qū)間是根據(jù)符號發(fā)生的概率劃分的。具體把a(bǔ)1、a2、a3分配在哪個(gè)區(qū)間范圍,對編碼本身沒有影響,只要保證編碼器和解碼器對符號的概率區(qū)間有相同的定義即可。為討論方便起見,假定有
Ns=Fs+Cl*L
(6.3.5)
Ne=Fs+Cr*L
(6.3.6)
式中,Ns為新子區(qū)間的起始位置;Fs為前子區(qū)間的起始位置;Cl為當(dāng)前符號的區(qū)間左端;Ne為新子區(qū)間的結(jié)束位置;Cr為當(dāng)前符號的區(qū)間右端;L為前子區(qū)間的長度。
按上述區(qū)間的定義,若數(shù)據(jù)流的第一個(gè)符號為a2,由符號概率取值區(qū)間的定義可知,代碼的實(shí)際取值范圍為[0.2,0.4),亦即輸入數(shù)據(jù)流的第一個(gè)符號決定了代碼最高有效位取值的范圍。然后繼續(xù)對源數(shù)據(jù)流中的后續(xù)符號進(jìn)行編碼。每讀入一個(gè)新的符號,輸出數(shù)值范圍就將進(jìn)一步縮小。讀入第二個(gè)符號a3,取值范圍為[0.4,0.8)。但需要說明的是,由于第—個(gè)符號a2已將取值區(qū)間限制在[0.2,0.4)的范圍中,因此a3的實(shí)際取值是在前符號范圍[0.2,0.4)的[0.4,0.8)處,根據(jù)式(6.3.5)和式(6.3.6)計(jì)算,符號a3的編碼取值范圍為[0.28,0.36)。也就是說,每輸入一個(gè)符號,都將按事先對概率范圍的定義,在逐步縮小的當(dāng)前取值區(qū)間上按式(6.3.4)和式(6.3.5)確定新的范圍上、下限。繼續(xù)讀入的第三個(gè)符號a1受到前面已編碼的兩個(gè)符號的限制,它的編碼取值應(yīng)在[0.28,0.36)中的[0,0.2)內(nèi),即[0.28,0.296]。重復(fù)上述編碼過程,直到輸入數(shù)據(jù)流結(jié)束。最終結(jié)果如下:
由此可見,隨著符號的輸入,代碼的取值范圍越來越小。當(dāng)字符串A={a2a3a1a3a4}全部編碼后,其范圍在[0.2915,0.2928]內(nèi)。在此范圍內(nèi)的數(shù)值代碼都唯一對應(yīng)于符號串“a2a3a1a3a4”??扇∵@個(gè)區(qū)間的下限0.2915作為對源數(shù)據(jù)流“a2a3a1a3a4”進(jìn)行壓縮編碼后的輸出代碼,這樣就可以用一個(gè)浮點(diǎn)數(shù)表示一個(gè)符號串,達(dá)到減少所需存儲(chǔ)空間的目的。按這種編碼方案得到的代碼,其解碼過程的實(shí)現(xiàn)比較簡單。根據(jù)編碼時(shí)所使用的字符概率區(qū)間分配表和壓縮后的數(shù)值代碼所在的范圍,可以很容易地確定代碼所對應(yīng)的第一個(gè)字符。在完成對第一個(gè)符號的解碼后,設(shè)法去掉第一個(gè)符號對區(qū)間的影響,再使用相同的方法找到下一個(gè)符號。重復(fù)以上的操作,直到完成解碼過程。
預(yù)測就是根據(jù)過去時(shí)刻的樣本序列,運(yùn)用一種模型,預(yù)測當(dāng)前的樣本值。
在各類編碼方法中,預(yù)測編碼是易于實(shí)現(xiàn)的,如微分(差分)脈沖編碼調(diào)制(DPCM)方法。在這種方法中,對每一個(gè)像素灰度值,都用先前掃描過的像素灰度值去減,求出它們的差值,此差值稱為預(yù)測誤差,預(yù)測誤差被量化和編碼與傳送。6.4預(yù)測編碼接收端再將此差值與預(yù)測值相加,重建原始圖像像素信號。由于量化和傳送的僅是誤差信號,根據(jù)一般掃描圖像信號在空間及時(shí)間鄰域內(nèi)各像素的相關(guān)性,預(yù)測誤差分布更加集中,即熵值比原來圖像小,可用較少的單位像素比特率進(jìn)行編碼,使得圖像數(shù)據(jù)得以壓縮。DPCM系統(tǒng)的基本系統(tǒng)框圖如圖6.4.1所示。
在該系統(tǒng)中,xN為tN時(shí)刻的亮度取樣值。預(yù)測器根據(jù)tN時(shí)刻之前的樣本x1,x2,…,xN-1對xN作預(yù)測,得到預(yù)測值xN'。xN與xN'之間的誤差為
eN=xN-xN'
圖6.4.1DPCM的基本系統(tǒng)框圖
量化器對eN進(jìn)行量化得到eN'。編碼器對eN'進(jìn)行編碼發(fā)送。接收端解碼時(shí)的預(yù)測過程與發(fā)送端相同,所用預(yù)測器亦相同。接收端恢復(fù)的輸出信號xN″是xN的近似值,兩者的誤差是
DxN=xN-(xN'+eN')=xN-xN″=eN-eN'
當(dāng)輸入圖像信號是模擬信號時(shí),“量化”過程中的信息損失是不可避免的。當(dāng)DxN足夠小時(shí),輸入信號xN和DPCM系統(tǒng)的輸出信號幾乎一致。
對于隔行掃描的電視圖像,通常有
其它預(yù)測方法還有以下幾種:
(1)前值預(yù)測:用f(x,y)同一行中臨近的前一像素預(yù)測,即
(2)一維預(yù)測:用同一行中前面若干像素預(yù)測。
(3)二維預(yù)測:用幾行內(nèi)像素預(yù)測。
(4)三維預(yù)測:利用相鄰兩幀圖像信號的相關(guān)性預(yù)測。
6.5.1變換編碼原理
變換編碼的基本原理是通過正交變換把圖像從空間域轉(zhuǎn)換為能量比較集中的變換域系數(shù),然后對變換系數(shù)進(jìn)行編碼,從而達(dá)到壓縮數(shù)據(jù)的目的。盡管變換本身并不帶來數(shù)據(jù)壓縮的效果,但由于變換圖像的能量大部分只集中于少數(shù)幾個(gè)變換系數(shù)上,采用量化和熵編碼則可以有效地壓縮圖像的編碼比特率。
6.5正交變換編碼
圖6.5.1給出一個(gè)典型的變換編碼系統(tǒng)框圖。編碼部分由4個(gè)操作模塊構(gòu)成:分解(構(gòu)造)子圖像、變換、量化和編碼。一幅N×N圖像先被分割為n×n的子圖像,通過變換這些子圖像得到(N/n)2個(gè)n×n的子圖像變換數(shù)組。變換的目的是解除每個(gè)子圖像內(nèi)部像素之間的相關(guān)性或?qū)⒈M可能多的信息集中到盡可能少的變換系數(shù)上。量化時(shí)有選擇性地消除或較粗糙地量化攜帶信息最少的系數(shù),因?yàn)樗鼈儗χ亟ǖ淖訄D像的質(zhì)量影響最小。最后是符號編碼,即對量化了的系數(shù)進(jìn)行編碼(常利用變長編碼)。
圖6.5.1變換編碼系統(tǒng)框圖解碼部分由與編碼部分相反排列的一系列逆操作模塊構(gòu)成。由于量化是不可逆的,所以解碼部分沒有對應(yīng)的模塊。6.5.2正交變換的性質(zhì)
正交變換之所以能用于圖像壓縮,主要是因?yàn)檎蛔儞Q具有如下性質(zhì):
(1)正交變換是熵保持的,說明正交變換前后不丟失信息,因此用圖像各像素灰度存儲(chǔ)或傳送和用變換系數(shù)去存儲(chǔ)或傳輸一樣。
(2)正交變換是能量保持的。
(3)正交變換重新分配能量。常用的正交變換如傅立葉變換,能量集中于低頻區(qū),在低頻區(qū)變換系數(shù)能量大,而高頻區(qū)變換系數(shù)能量小得多。這樣可用熵編碼中的不等長碼來分配碼長,能量大的系數(shù)分配較少的比特?cái)?shù),從而達(dá)到壓縮的目的。同理,也可用零替代能量較小的系數(shù)的方法壓縮。
(4)去相關(guān)性質(zhì)。正交變換把空間域中高度相關(guān)的像素灰度值變?yōu)橄嚓P(guān)很弱或不相關(guān)的頻率域系數(shù)。顯然這樣能去掉存在于相關(guān)性中的冗余度。
總之,正交變換可把空間域相關(guān)的圖像像素變?yōu)槟芰勘3?,而且能量集中于弱相關(guān)或不相關(guān)的變換域系數(shù)。6.5.3變換編碼的數(shù)學(xué)分析
正交變換中常采用的有傅立葉變換、沃爾什變換、離散余弦變換和K-L變換等。設(shè)一幅圖像可看成一個(gè)隨機(jī)的向量,通常用n維向量表示
(6.5.1)
經(jīng)正交變換后,其輸出為n維向量Y,
(6.5.2)
設(shè)A為正交變換矩陣,則有
Y=AX
(6.5.3)
由于A為正交陣,有
AAT=AA-1=E (6.5.4)
傳輸或存儲(chǔ)利用變換得到的Y,在接收端,經(jīng)逆變換可恢復(fù)X
X=A-1Y=ATY (6.5.5)
若在允許失真的情況下,傳輸和存儲(chǔ)只用Y的前M(M<N)個(gè)分量,這樣得到Y(jié)的近似值:
(6.5.6)
利用Y的近似值重建X,得到X的近似值
(6.5.7)
式中,Al為M×M陣。只要Al選擇恰當(dāng)就可保證重建圖像的失真在一定允許限度內(nèi)。
現(xiàn)在關(guān)鍵的問題是如何選擇A和Al,使之既能得到最大壓縮又不造成嚴(yán)重失真。為此要研究X的統(tǒng)計(jì)性質(zhì)。對于
(6.5.8)
其均值為
(6.5.9)
X的協(xié)方差矩陣為
(6.5.10)
同理,對于
(6.5.11)
Y的均值為
(6.5.12)
Y的協(xié)方差矩陣為
(6.5.13)
根據(jù)式(6.5.3),得
(6.5.14)
可見,Y的協(xié)方差可由SX作二維正交變換得到。SX是圖像固有的,因此關(guān)鍵是要選擇合適的A,使變換系數(shù)Y之間有更小的相關(guān)性。另外去掉了一些系數(shù)使得Y誤差更大??傊?,選擇合適的A和相應(yīng)的Al,使變換系數(shù)Y之間的相關(guān)性全部解除和使Y的方差高度集中,就稱為最佳變換。6.5.4最佳變換與準(zhǔn)最佳變換
若選擇變換矩陣A使SY為對角陣,那么變換系數(shù)之間的相關(guān)性可完全消除。接著選擇集中主要能量Y的系數(shù)的前M項(xiàng),則得到的Y將引起小的誤差。使Y的截尾誤差小,這就是最佳變換A選擇的準(zhǔn)則。能滿足均方誤差準(zhǔn)則下的最佳變換,通常稱為K-L變換。
設(shè)誤差e定義為
(6.5.15)
則均方誤差為
(6.5.16)
將A寫成列分塊矩陣形式,則有
(6.5.17)
由正交性,得
(6.5.18)
由Y=AX,得
(6.5.19)
` (6.5.20)
為了壓縮數(shù)據(jù),在重建X時(shí)只能取Y的M個(gè)分量(M<N),從Y中選擇M個(gè)分量構(gòu)成一個(gè)子集,即
(6.5.21)
而把Y的M到N-1分量用一常數(shù)bi來代替,即
(6.5.22)
此處
可作為X的估計(jì),其誤差為
(6.5.23)
DX的均方誤差e為
(6.5.24)
為了選擇bi和ji使e最小,使e分別對bi和ji求導(dǎo),并令導(dǎo)數(shù)等于0:
(6.5.25)
bi=E{yi} (6.5.26)
將式(6.5.19)代入式(6.5.26),得
(6.5.27)
將式(6.5.19)和式(6.5.27)代入式(6.5.24),得
(6.5.28)
若還要滿足
的正交條件,使e為最小,那么可建立拉格朗日方程:
(6.5.29)
令
,則有
(6.5.30)
由線性代數(shù)理論可知,li、ji就是SX的特征值和特征向量。
若已知SX的li和ji,可找到一矩陣A,使Y=AX,Y的協(xié)方差陣SY為對角陣,且對角線元素恰為特征值li。若把求出的li從大到小排列起來,使得l1>l2>…>ln,那么由其相應(yīng)的ji組成A陣的每一行,就能使SY恰為對角陣。
從以上討論可知,最佳正交變換陣A是從X的統(tǒng)計(jì)協(xié)方差中得到的,不同圖像會(huì)有不同的SX。因此K-L變換中的變換矩陣不是一個(gè)固定的矩陣,它由圖像而定。欲求圖像的K-L變換,一般要經(jīng)過四個(gè)步驟:由圖像求SX;從SX求li;對li按大小排隊(duì)然后求ji,再從ji得到A;最后用A對圖像進(jìn)行變換,求得Y=AX。
理論上說,K-L變換是所有變換中信息集中能力最優(yōu)的變換。對任意的輸入圖像和保留任意個(gè)系數(shù),K-L變換都能使均方誤差最小。但K-L與圖像數(shù)據(jù)有關(guān),由于運(yùn)算復(fù)雜,沒有快速算法,因而K-L變換的實(shí)用性受到很大限制。
最佳變換的核心在于經(jīng)變換后能使SY為對角陣。若采用某種變換矩陣A,變換后的SY接近于對角陣,則這種變換稱為準(zhǔn)最佳變換。
由線性代數(shù)理論可知,任何矩陣都可以相似于一個(gè)約旦矩陣,這個(gè)約旦矩陣就是準(zhǔn)對角矩陣,其形式如下:
根據(jù)相似變換理論可知,總可以找到一個(gè)非奇異矩陣A,使得ATSYA為準(zhǔn)對角陣,而且這個(gè)A是非唯一的。6.5.5各種準(zhǔn)最佳變換的性能比較
在第3章介紹的變換中,變換矩陣都具有A的性質(zhì),它們是常用的準(zhǔn)最佳變換。盡管它們的性能比K-L變換稍差,但由于它們的變換矩陣是固定的,因此,實(shí)際中常用的是這些準(zhǔn)最佳變換。
不同變換的信息集中能力不同。離散余弦變換比離散傅立葉變換、沃爾什變換有更強(qiáng)的信息集中能力。在這些變換中,非正弦類變換(如沃爾什變換)實(shí)現(xiàn)起來相對簡單,但正弦類變換(如離散傅立葉變換、離散余弦變換)更接近K-L變換的信息集中能力。
近年來,由于離散余弦變換的信息集中能力和計(jì)算復(fù)雜性綜合得比較好而得到了較多的應(yīng)用。離散余弦變換已被設(shè)計(jì)在單個(gè)集成塊上。對大多數(shù)自然圖像,離散余弦變換能將最多的信息集中在最少的系數(shù)上。
從運(yùn)算量大小和壓縮效果這兩個(gè)方面來比較各種正交變換的性能如表6.5.1所示。表中列舉一維N點(diǎn)各種正交變換所需的運(yùn)算次數(shù)。從表中可見,K-L變換的運(yùn)算量大,極難做到用硬件來實(shí)現(xiàn)。而DWHT(沃爾什—哈達(dá)瑪)變換運(yùn)算量最小,用一般數(shù)字集成電路就可以做到實(shí)時(shí)變換,但是其壓縮效果則較差。
表6.5.1各種正交變換性能比較假如圖像信號為馬爾可夫模型,那么各種正交變換在變換域能量集中由優(yōu)到劣的順序?yàn)?/p>
K-L→DCT→DFT→DWHT/HT
6.5.6編碼
變換為壓縮數(shù)據(jù)創(chuàng)造了條件,壓縮數(shù)據(jù)還要通過編碼來實(shí)現(xiàn)。通常所用的編碼方法有兩種:區(qū)域編碼法和門限編碼法。
1.區(qū)域編碼法
區(qū)域編碼法的關(guān)鍵在于選出能量集中的區(qū)域。例如,正交變換后變換域中的能量多半集中在低頻率空間上,在編碼過程中就可以選取這一區(qū)域的系數(shù)進(jìn)行編碼傳送,而其他區(qū)域的系數(shù)可以舍棄不用。在解碼端可對舍棄的系數(shù)進(jìn)行補(bǔ)零處理。這樣由于保持了大部分圖像能量,在恢復(fù)圖像中帶來的質(zhì)量劣化并不顯著。
在區(qū)域編碼中,區(qū)域抽樣和區(qū)域編碼的均方誤差都與方塊大小有關(guān)。圖6.5.2給出了圖像變換區(qū)域抽樣的均方誤差與方塊尺寸的關(guān)系。圖6.5.3給出了圖像區(qū)域編碼均方誤差和方塊尺寸的關(guān)系。區(qū)域編碼的顯著缺點(diǎn)是一旦選定某個(gè)區(qū)域就固定不變了,有時(shí)圖像中的能量也會(huì)在其他區(qū)域集中較大的數(shù)值,舍棄它們會(huì)造成圖像質(zhì)量較大的損失。
圖6.5.2區(qū)域抽樣的均方誤差與方塊尺寸的關(guān)系圖6.5.3區(qū)域編碼的均方誤差與方塊尺寸的關(guān)系
2.門限編碼法
門限編碼法事先設(shè)定一個(gè)門限值T。如果系數(shù)值超過T,就保留下來并且進(jìn)行編碼傳送。如果系數(shù)值小于T就舍棄不用。這種方法有一定的自適應(yīng)能力,它可以得到較區(qū)域編碼更好的圖像質(zhì)量。但是,這種方法也有缺點(diǎn),那就是超過門限位的系數(shù)的位置是隨機(jī)的。因此,在編碼中除對系數(shù)值編碼外,還要有位置碼。這兩種碼同時(shí)傳送才能在接收端正確恢復(fù)圖像。所以,其壓縮比有時(shí)會(huì)有所下降。
圖像編碼的國際標(biāo)準(zhǔn)主要是由國際標(biāo)準(zhǔn)化組織(ISO)和國際電信聯(lián)盟(ITU)制定的。由這兩個(gè)組織制定的圖像編碼國際標(biāo)準(zhǔn)主要包括三個(gè)部分:靜止灰度(或彩色)圖像壓縮標(biāo)準(zhǔn)、運(yùn)動(dòng)圖像壓縮標(biāo)準(zhǔn)和二值圖像壓縮標(biāo)準(zhǔn)。6.6圖像編碼的國際標(biāo)準(zhǔn)6.6.1靜止圖像壓縮標(biāo)準(zhǔn)
由上述兩個(gè)組織的聯(lián)合靜止圖像專家組JPEG(JointPhotographicExpertsGroup)建立了靜態(tài)灰度(或彩色)圖像壓縮的公開算法,并于1991年開始使用。JPEG標(biāo)準(zhǔn)中有三個(gè)層次的定義:基本系統(tǒng)、擴(kuò)展系統(tǒng)和特殊無損功能。
為了實(shí)現(xiàn)這三層定義,JPEG標(biāo)準(zhǔn)的組成包括基本順序模式編碼、DCT累進(jìn)模式編碼、預(yù)測無損編碼和分層模式編碼。這四個(gè)組成部分描述了JPEG壓縮的不同層次。基本順序編碼定義了一種內(nèi)容豐富的壓縮方法,適合于大多數(shù)的圖像應(yīng)用;其他三種編碼描述了對基本順序編碼的加強(qiáng),可以獲得不同結(jié)果。
1.圖像編碼的要求
JPEG提出的JPEG標(biāo)準(zhǔn)是為連續(xù)色調(diào)圖像的壓縮提供的公共標(biāo)準(zhǔn)。連續(xù)色調(diào)圖像并不局限于單色調(diào)(黑白)圖像,該標(biāo)準(zhǔn)可適用于各種多媒體存儲(chǔ)和通信應(yīng)用所使用的灰度圖像、攝影圖像及靜止視頻壓縮文件。
JPEG標(biāo)準(zhǔn)還提出:
(1)必須將圖像質(zhì)量控制在可視保真度高的范圍內(nèi),同時(shí)編碼器可被參數(shù)化,允許設(shè)置壓縮或質(zhì)量水平。
(2)壓縮標(biāo)準(zhǔn)可以應(yīng)用于任何一類連續(xù)色調(diào)數(shù)字圖像,并不應(yīng)受到維數(shù)、顏色、畫面尺寸、內(nèi)容和色調(diào)的限制。
(3)壓縮標(biāo)準(zhǔn)必須從完全無損到有損范圍內(nèi)可選,以適應(yīng)不同的存儲(chǔ)、CPU和顯示要求。
2.無損預(yù)測編碼
JPEG選擇了基于DPCM的簡單的線性預(yù)測編碼方法,這種編碼的優(yōu)點(diǎn)是硬件易于實(shí)現(xiàn),重建圖像質(zhì)量好。缺點(diǎn)是壓縮比小,大約為2∶1。無損預(yù)測編碼器的工作原理圖和預(yù)測原理如圖6.6.1和圖6.6.2所示。其中x的預(yù)測值為x∧,將x-x∧的差值進(jìn)行無損熵編碼,熵編碼器可采用霍夫曼編碼或算術(shù)編碼等。x的預(yù)測方法如圖6.6.2所示,可有8種選擇方法。
圖6.6.1無損預(yù)測編碼器的工作原理
圖6.6.2x的預(yù)測方法
3.DCT變換編碼
基于DCT(離散余弦變換)壓縮編碼算法是有失真的壓縮編碼,圖6.6.3為DCT變換編碼原理圖。DCT變換編碼的主要步驟是:顏色空間轉(zhuǎn)換,正向離散余弦變換(FDCT),量化,熵編碼(哈達(dá)瑪編碼或算術(shù)編碼)。
圖6.6.3DCT變換編碼原理圖
1)顏色空間轉(zhuǎn)換和采樣
JPEG壓縮只支持YCbCr顏色模式,其中Y代表亮度,CbCr代表色度,所以在將彩色圖像進(jìn)行數(shù)據(jù)壓縮之前必須對顏色模式進(jìn)行轉(zhuǎn)換,將RGB模式轉(zhuǎn)為YCbCr模式。轉(zhuǎn)換可通過計(jì)算下述公式完成:
Y=0.299R+0.587G+0.114B
Cb=-0.169R-0.331G+0.5B
Cr=0.5R-0.4187G-0.0813B (6.6.1)
對轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行采樣,采樣比例一般是4∶2∶2或4∶1∶1。
經(jīng)過采樣后的圖像數(shù)據(jù)的色度數(shù)據(jù)比原來減少了一半。選擇這樣的采樣方式是因?yàn)槿说囊曈X對亮度要比對色度更敏感,而重建后的圖像與原圖的差異是人的視覺所不易察覺到的。
2)DCT變換
在進(jìn)行FDCT變換之前,先把圖像分成8×8的子塊。
將用P位表示的圖像數(shù)據(jù)(一般用8位表示一個(gè)像素的顏色分量),即在[0,2P-1]范圍內(nèi)表示的無符號整數(shù),變成[-2P-1,2P-1-1]范圍內(nèi)表示的有符號數(shù),作為FDCT變換的輸入量。經(jīng)過DCT變換,將空域中表示的圖像數(shù)據(jù)轉(zhuǎn)換到頻域中進(jìn)行表示,并獲得N個(gè)變換系數(shù)。變換公式為
(6.6.2)
逆DCT變換公式為
(6.6.3)
其中,
輸出系數(shù)排列F(u,v)按Zig-zag排序,即按照圖6.6.4箭頭所指示的順序排列。其中直流量為DC系數(shù),交流量為AC系數(shù)。排列中越往后0越多。
圖6.6.4DCT變換輸出系數(shù)排列
3)量化
為了達(dá)到進(jìn)一步壓縮數(shù)據(jù)的目的,需要對DCT系數(shù)F(u,v)進(jìn)行量化。在JPEG中采用了線性均勻量化器,為減少比特?cái)?shù),增加零值,JPEG分別對Y,U,V的不同系統(tǒng)有不同量化間隔Q(u,v),并提供了亮度與色度兩張量化表,如表6.6.1和表6.6.2所示。
表6.6.1DCT亮度量化表
表6.6.2DCT色度量化表量化值
(6.6.4)
反量化公式為
F(u,v)=C(u,v)Q(u,v) (6.6.5)
4)直流系數(shù)DC與交流系數(shù)AC的編碼
在64個(gè)變換系數(shù)經(jīng)過量化后,其中F(0,0)為直流系數(shù)DC,其余的63個(gè)為交流系數(shù)AC。
直流系數(shù)DC與交流系數(shù)AC的編碼也可采用熵編碼的方法,如算術(shù)編碼或霍夫曼編碼,而后一種編碼更常見。編碼時(shí)DC系數(shù)與AC系數(shù)分別采用不同的霍夫曼編碼表。對于亮度和色度也需要不同的霍夫曼編碼表。所以,對圖像數(shù)據(jù)進(jìn)行編碼時(shí),同時(shí)需要四張不同的霍夫曼編碼表。
對DC系數(shù)的差值DCi-DCi-1進(jìn)行編碼時(shí),具體步驟如下:
(1)對差值進(jìn)行判斷,如果差值大于0,將差值轉(zhuǎn)換為二進(jìn)制編碼表示,并獲得差值所占的位數(shù)。例如亮度DC系數(shù)差值為5時(shí),可表為101,差值位數(shù)為3。如果差值小于0,則取絕對值后轉(zhuǎn)換為二進(jìn)制編碼表示,再獲得該編碼值的補(bǔ)位。例如差值為-5時(shí),最后得碼010,差值位數(shù)為3。
(2)在差值前端另外加入一些差值的霍夫曼碼值,以差值所占的位數(shù)為索引值查表獲得該差值的編碼。表6.6.3所示給出的是亮度DC系數(shù)的霍夫曼編碼表。例如亮度差值為5(101)的位數(shù)為3,則霍夫曼碼值應(yīng)該是100,兩者連接在一起即為100101。而差值為-5的編碼值為100010。從表6.6.3不難看出,DC系數(shù)差值的最大位數(shù)為11位,即最大差值在[-211,211-1]范圍內(nèi)。
表6.6.3亮度的霍夫曼編碼表對AC系數(shù)進(jìn)行Z行程編碼(ZeroRunLengthCoding,ZRLC)。在對AC系數(shù)進(jìn)行Z行程編碼后,應(yīng)獲得一組[MN]壓縮編碼。其中M的含義是兩個(gè)非零AC系數(shù)之間連續(xù)0的個(gè)數(shù)(行程長),N的含義是下一非零AC系數(shù)的值。碼字可用2個(gè)字節(jié)表示,如圖6.6.5所示。
這時(shí)第1字節(jié)中所表示的行程范圍為1~15。當(dāng)兩個(gè)非零AC系數(shù)之間連續(xù)0的個(gè)數(shù)超過15時(shí),增加1個(gè)擴(kuò)展字節(jié),對于63個(gè)AC系數(shù)最多可增加3個(gè)擴(kuò)展字節(jié)。用M/N的位數(shù)作為索引值,到相應(yīng)的霍夫曼編碼表中得到對應(yīng)的編碼值。
表6.6.4為亮度的AC霍夫曼編碼表(部分)。
圖6.6.5行程編碼的碼字
表6.6.4亮度的AC霍夫曼編碼表
例如,若編碼為[3,45],45的二進(jìn)制編碼表示為101101,則對應(yīng)的索引值為3/6,查表獲得的編碼值為1111111110010001,最終編碼為1111111110010001101101。
4.DCT的累進(jìn)操作模式
基于DCT的順序模式編碼是對每一個(gè)圖像分量(8×8子塊)按從左到右、從上到下的順序一次掃描完成編碼。而DCT的累進(jìn)操作模式對每一個(gè)圖像分量的編碼要經(jīng)過多次掃描才能完成。第一次掃描只進(jìn)行—次粗糙圖像的掃描壓縮,并以相對于總的傳輸時(shí)間少得多的時(shí)間傳輸粗糙圖像,重建質(zhì)量較低的可識別圖像。
在隨后的掃描中再對圖像作較細(xì)的壓縮,這時(shí)只傳遞增加的信息,可重建一質(zhì)量提高的圖像,這樣不斷累進(jìn),直到得到滿意的圖像為止。
累進(jìn)的方式可采用頻譜選擇法或按位逼近法。
(1)頻譜選擇法:一次掃描只對64個(gè)DCT變換系數(shù)中某些頻帶的系數(shù)進(jìn)行編碼、傳遞,在隨后的掃描中,對其他頻帶的系數(shù)編碼、傳遞,直到全部系數(shù)處理完畢為止。
(2)按位逼近法:沿著DCT量化系數(shù)有效位(表示系數(shù)精度的位數(shù))方向分段累進(jìn)編碼。第一次掃描只取最高有效位的n位編碼、傳遞,然后對其余位進(jìn)行編碼、傳遞。
圖6.6.6給出了一幅原圖像以及分別經(jīng)過JPEG取壓縮率為9.2、18.4和51.6壓縮后的效果圖。
圖6.6.6原圖像及不同壓縮率下的JPEG效果在視覺效果不受到嚴(yán)重?fù)p失的前提下,靜止圖像壓縮算法JPEG可以達(dá)到15到20的壓縮比。如果在圖像質(zhì)量上稍微犧牲一點(diǎn)的話,可以達(dá)到40∶1或更高的壓縮比。如果處理的是彩色圖像,JPEG算法首先將RGB分量轉(zhuǎn)化成亮度分量和色差分量,同時(shí)丟失一半的色彩信息(空間分辨率減半);然后用離散余弦變換來進(jìn)行變換編碼,舍棄高頻的系數(shù),并對余下的系數(shù)進(jìn)行量化,以進(jìn)一步減小數(shù)據(jù)量;最后使用行程長度編碼和Huffman編碼來完成壓縮任務(wù)。由于JPEG超強(qiáng)的壓縮能力,JPEG為Web圖像的傳輸?shù)於嘶A(chǔ),但由于信息丟失較多,JPEG僅適合壓縮供人欣賞而不是供數(shù)據(jù)分析的圖像。
JPEG2000作為一種圖像壓縮格式,相對于最早的JPEG標(biāo)準(zhǔn)有了很大的技術(shù)飛躍,主要是因?yàn)樗艞壛薐PEG所采用的以離散余弦變換算法為主的區(qū)塊編碼方式,而利用離散子波變換、位平面編碼和基于上下文的算術(shù)編碼等一系列新技術(shù)。JPEG2000將圖像編碼的效率提高了30%左右,提供無損和有損兩種壓縮方式,支持漸近傳輸?shù)裙δ堋?/p>
此外,JPEG2000還將彩色靜態(tài)畫面采用的JPEG編碼方式、2值圖像采用的JBIG編碼方式及低壓縮率采用的JPEGLS統(tǒng)一起來,成為對應(yīng)各種圖像的通用編碼方式。
JPEG2000無論是在傳統(tǒng)的JPEG市場(如數(shù)碼相機(jī)、掃描儀等)還是在新興的應(yīng)用領(lǐng)域(如網(wǎng)絡(luò)傳輸、無線通信、醫(yī)療影像等)都大有用武之地。6.6.2運(yùn)動(dòng)圖像壓縮標(biāo)準(zhǔn)
在對圖像和語音等媒體中的信息進(jìn)行數(shù)字化的過程中,由于數(shù)據(jù)中存在著很多冗余,所以,必須壓縮后再進(jìn)行存儲(chǔ)和傳輸。經(jīng)驗(yàn)表明,實(shí)用化的壓縮方法可以將運(yùn)動(dòng)圖像數(shù)據(jù)壓縮至1/30而不失真。
1.運(yùn)動(dòng)圖像的壓縮
數(shù)字影像的出現(xiàn),得益于兩項(xiàng)技術(shù)的發(fā)展:光碟存儲(chǔ)技術(shù)和影像數(shù)字壓縮技術(shù)。比如,NTSC制式的電視圖像以大約640×480的分辨率、24bit/像素、每秒30幀的質(zhì)量傳輸時(shí),其數(shù)據(jù)傳輸率達(dá)28Mb/s,20秒的未壓縮視頻圖像將占用560Mb的存儲(chǔ)空間,相當(dāng)于一張CD-ROM光盤只能儲(chǔ)存20秒鐘的未壓縮電視節(jié)目。顯然這樣的要求對普通個(gè)人用戶來講是難以接受的,在實(shí)現(xiàn)上成本也非常高昂。所以,視頻圖像的壓縮編碼方法就應(yīng)運(yùn)而生了。
1980年以來,國際標(biāo)準(zhǔn)化組織(ISO)、國際電工委員會(huì)(IEC)和國際電信聯(lián)盟(ITU)下屬的國際電報(bào)電話咨詢委員會(huì)(CCITT)陸續(xù)完成了各種數(shù)據(jù)壓縮與通信的標(biāo)準(zhǔn)和建議,如面向靜止圖像壓縮的CCITTT.81及ISO10918(JPEG)標(biāo)準(zhǔn),在運(yùn)動(dòng)圖像方面用于視頻會(huì)議的CCITTH.261(Px64)標(biāo)準(zhǔn)、用于可視電話的CCITTH.263標(biāo)準(zhǔn)、用于VCD的ISO11172(MPEG-1)及用于廣播電視和DVD的ISO/IEC
13818(MPEG-2)標(biāo)準(zhǔn)。近來正在討論適用于低傳輸速率的MPEG-4方案。
MPEG是MovingPictureExpertGroup(運(yùn)動(dòng)圖像專家組)的縮寫,即所謂ISO11172。該專家組成立于1988年,大約有300名專家,分為10個(gè)組進(jìn)行工作。MPEG-1和MPEG-2是該專家組通過的兩個(gè)標(biāo)準(zhǔn),適用于不同帶寬和數(shù)字影像質(zhì)量的要求。MPEG-2是由ISO和IEC于1994年11月定義并公布的標(biāo)準(zhǔn),其全稱為“運(yùn)動(dòng)圖像及其伴音的編碼”。DVB是歐洲電信標(biāo)準(zhǔn)ETS300421,其根據(jù)應(yīng)用對象的不同又分為DVB-S、DVB-C和DVB-T,分別針對衛(wèi)星數(shù)字廣播、有線數(shù)字廣播及地面數(shù)字廣播。對于這些標(biāo)準(zhǔn)和建議,世界上主要工業(yè)國家的政府機(jī)構(gòu)都十分重視。1993年下半年,美國“高級電視聯(lián)盟”(ATV
GrandAlliance)和歐洲數(shù)字視頻廣播計(jì)劃(DigitalVideoBroadcastProject)先后決定將MPEG-2用于自己的高分辨率電視(HDTV)廣播中。日本郵政省數(shù)字廣播研究組在1994年1月發(fā)表的階段性研究報(bào)告中也建議采用OFEM傳輸方式和MPEG-2壓縮技術(shù)??偟膩碚f,MPEG優(yōu)于其他影像壓縮方案的地方是具有很好的兼容性、壓縮比最高可達(dá)200∶1以及數(shù)據(jù)損失小。
2.MPEG視頻壓縮方法
圖6.6.7表示了對運(yùn)動(dòng)圖像的壓縮過程,主要包括兩方面:幀內(nèi)壓縮與幀間壓縮。幀內(nèi)壓縮是刪除空間的數(shù)據(jù)冗余,幀間壓縮則是刪除幀與幀之間的時(shí)間冗余。
1)空間域壓縮和時(shí)間域壓縮
MPEG標(biāo)準(zhǔn)在空間域的壓縮,類似于JPEG標(biāo)準(zhǔn),每一幀被作為獨(dú)立的圖像獲取,且壓縮步驟與JPEG標(biāo)準(zhǔn)步驟一樣。要消除幀與幀之間的時(shí)間冗余,可通過幀間編碼完成。
圖6.6.7運(yùn)動(dòng)圖像的壓縮過程
2)幀間編碼
幀間編碼的基本思想是僅存儲(chǔ)運(yùn)動(dòng)圖像從一幀到下一幀的變化部分,而不是存儲(chǔ)全部圖像數(shù)據(jù),這樣能極大地減少運(yùn)動(dòng)圖像數(shù)據(jù)的存儲(chǔ)量,達(dá)到幀間壓縮的目的。把幀序列劃分成I幀、P幀、B幀,通過使用參照幀由運(yùn)動(dòng)補(bǔ)償技術(shù)來實(shí)現(xiàn)。
I幀:在解碼時(shí),無需參照任何其他幀的幀稱為I幀,或稱內(nèi)編碼幀,它是利用自身的相關(guān)性進(jìn)行幀內(nèi)壓縮編碼的。
P幀:在幀編碼時(shí),僅使用最近前一幀(I幀或P幀)作為參照幀的幀稱為P幀,或稱為預(yù)測幀。
B幀:在幀編碼時(shí),要使用前、后幀作為參考幀的幀稱為B幀,或稱為雙向預(yù)測幀。
3)運(yùn)動(dòng)補(bǔ)償技術(shù)
在幀編碼中,運(yùn)動(dòng)補(bǔ)償技術(shù)是提高幀間壓縮的有效方法,它主要用于消除P幀和B幀在時(shí)間上的冗余。在對P幀和B幀進(jìn)行編碼時(shí),以宏塊為基本編碼單位。
對于B幀,每一宏塊有4種類型:幀內(nèi)宏塊,簡稱I塊;前向預(yù)測宏塊,簡稱F塊;后向預(yù)測宏塊,簡稱B塊;平均宏塊,簡稱A塊。對于B幀,每一宏塊僅有I塊和F塊。無論B幀還是P幀,I塊編碼均與I幀編碼技術(shù)一致。F塊、B塊、A塊都采用了基于塊的運(yùn)動(dòng)補(bǔ)償技術(shù)。
基于塊的運(yùn)動(dòng)補(bǔ)償技術(shù)是在參照幀中尋找與當(dāng)前編碼塊最佳匹配的宏塊。所謂最佳匹配是指這兩個(gè)宏塊之間差值最小,通??捎肁E(Absolutedifference)最小作為匹配依據(jù):
(6.6.6)
其中,f是參照幀宏塊,g為當(dāng)前編碼宏塊,dx、dy是參照宏塊在x和y方向上的運(yùn)動(dòng)矢量,它反映了從一幀到另一幀時(shí),宏塊僅僅是位置發(fā)生了改變,而內(nèi)容并沒有改變。
3.MEPG標(biāo)準(zhǔn)
1)MPEG-1
MPEG-1制定于1992年,可適用于不同帶寬的設(shè)備,如CD
ROM、VideoCD、CD-i等,它的目的是把221Mb/s的NTSC圖像壓縮到1.2Mb/s,壓縮率為200∶1。這是圖像壓縮的工業(yè)認(rèn)可標(biāo)準(zhǔn)。它可針對SIF標(biāo)準(zhǔn)分辨率(對于NTSC制為352×240;對于PAL制為352×288)的圖像進(jìn)行壓縮,傳輸速率為1.5Mb/s,每秒播放30幀,具有CD音質(zhì),質(zhì)量級別基本與VHS(廣播級錄像帶)相當(dāng)。MPEG的編碼速率最高可達(dá)4~5Mb/s,但隨著速率的提高,其解碼后的圖像質(zhì)量有所降低。
應(yīng)用MPEG-1技術(shù)最成功的產(chǎn)品為VCD。VCD作為價(jià)格低廉的影像播放設(shè)備得到普及。MPEG-1也被用于數(shù)字電話網(wǎng)絡(luò)上的視頻傳輸,如非對稱數(shù)字用戶線路(ADSL)、視頻點(diǎn)播(VOD)以及教育網(wǎng)絡(luò)等。
2)MPEG-2
MPEG-2制定于1994年,其設(shè)計(jì)目標(biāo)是高級工業(yè)標(biāo)準(zhǔn)的圖像質(zhì)量以及更高的傳輸率。MPEG-2所能提供的傳輸速率為3~10MB/s間,在NTSC制式下的分辨率可達(dá)720×
480。MPEG-2能夠提供廣播級的視像和CD級的音質(zhì)。MPEG-2的音頻編碼可提供左右中及兩個(gè)環(huán)繞聲道,以及一個(gè)加重低音聲道和多達(dá)七個(gè)伴音聲道。MPEG-2的另一特點(diǎn)是可提供一個(gè)較廣范圍的可變壓縮比,以適應(yīng)不同的畫面質(zhì)量、存儲(chǔ)容量以及帶寬的要求。
MPEG-2技術(shù)就是實(shí)現(xiàn)DVD的標(biāo)準(zhǔn)技術(shù),現(xiàn)在DVD播放器也已經(jīng)在家庭中普及了。除了作為DVD的指定標(biāo)準(zhǔn)外,MPEG-2還可用于為廣播、有線電視網(wǎng)、電纜網(wǎng)絡(luò)以及衛(wèi)星直播提供廣播級的數(shù)字視頻。由于MPEG-2的出色性能表現(xiàn),已能適用于HDTV(高清晰度電視),使得原打算為HDTV設(shè)計(jì)的MPEG-3還沒有產(chǎn)生就被拋棄了。
3)MPEG-4
MPEG-4專家組成立于1993年。在1995年3月的Florence會(huì)議上初步定義了一個(gè)音頻驗(yàn)證模型,并于1996年1月在Munich會(huì)議上定義了第一個(gè)視頻驗(yàn)證模型(VerificationModel,VM),它提供了支持基于內(nèi)容的視頻表達(dá)環(huán)境。VM描述了編碼和解碼方法,主要用于軟件模擬,以優(yōu)化編解碼的性能。1997年7月的會(huì)議后發(fā)布了VM8.0。MPEG征集到的技術(shù)建議經(jīng)評估后,如認(rèn)為可行,就會(huì)被加到VM中。
MPEG-4比MPEG-2的應(yīng)用更廣泛,最終希望建立一種能被多媒體傳輸、多媒體存儲(chǔ)、多媒體檢索等應(yīng)用領(lǐng)域普遍采納的統(tǒng)一的多媒體數(shù)據(jù)格式。由于所要覆蓋的應(yīng)用范圍如此廣闊,同時(shí),應(yīng)用本身的要求又如此不同,因此,MPEG-4不同于過去的MPEG-2或H.26X系列標(biāo)準(zhǔn),其壓縮方法不再是限定的某種算法,而是可以根據(jù)不同的應(yīng)用進(jìn)行系統(tǒng)裁剪,選取不同的算法。例如對Intra幀的壓縮就提供了DCT和Wavelet兩種變換。
比起MPEG-2及H.26X系列,MPEG-4新變化中最重要的三個(gè)技術(shù)特征是:基于內(nèi)容的壓縮、更高的壓縮比和時(shí)空可伸縮性。
MPEG-4于1998年11月公布,它不僅是針對一定比特率下的視頻、音頻編碼,而且更加注重多媒體系統(tǒng)的交互性和靈活性。這個(gè)標(biāo)準(zhǔn)主要應(yīng)用于視像電話、視像電子郵件等,對傳輸速率要求較低,在4800~64000b/s之間,分辨率為176×144。MPEG-4利用很窄的帶寬,通過幀重建技術(shù)和數(shù)據(jù)壓縮,以求用最少的數(shù)據(jù)獲得最佳的圖像質(zhì)量。
MPEG-4用運(yùn)動(dòng)補(bǔ)償消除時(shí)域冗余,用DCT消除空域冗余,與以往視頻編碼標(biāo)準(zhǔn)相同。為支持基于對象的編碼,MPEG-4還采用形狀編碼和與之相關(guān)的形狀自適應(yīng)DCT
(SA-DCT)技術(shù)以支持任意形狀視頻對象(VideoObject,VO)的編碼。
另外,MPEG-4用視頻對象來表述視頻內(nèi)容的基本單元,如:一個(gè)站立的人(脫離背景)就是一個(gè)VO,VO與其他的AVO(音視頻對象)組合成一個(gè)特定的場景。傳統(tǒng)的矩形圖像只能被認(rèn)為是將整個(gè)圖像作為一個(gè)對象,是這種視頻對象的一種特例。
4)MPEG-7
MPEG針對基于內(nèi)容的問題啟動(dòng)了一個(gè)新的工作項(xiàng)目。這個(gè)MPEG家族的新成員是“多媒體內(nèi)容描述界面”(MultimediaCo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流課程設(shè)計(jì)選題
- 職業(yè)農(nóng)民培訓(xùn)課程設(shè)計(jì)
- 自控課程設(shè)計(jì)校正裝置
- 醫(yī)院精神藥品管理管控規(guī)章制度匯編
- 虛擬現(xiàn)實(shí)與人工智能結(jié)合下的沉浸式藝術(shù)體驗(yàn)設(shè)計(jì)
- 2024年美術(shù)教案設(shè)計(jì)(9篇)
- 自由搏擊班課程設(shè)計(jì)
- 2024年英語教學(xué)案例分析
- 職高汽修課程設(shè)計(jì)
- 穿刺技巧課程設(shè)計(jì)
- 河北省唐山地區(qū)2023-2024學(xué)年上學(xué)期期末八年級歷史試卷
- 專題06直線與圓的位置關(guān)系、圓與圓的位置關(guān)系(課時(shí)訓(xùn)練)原卷版
- 軍用裝備信息化融合與互聯(lián)
- 人才培養(yǎng)與團(tuán)隊(duì)建設(shè)計(jì)劃三篇
- 2024年急性胰腺炎急診診治專家共識解讀課件
- 六年級地方課程教案
- 【寒假預(yù)習(xí)】部編版二年級語文下冊生字練字帖(帶拼音、筆順)
- 信息技術(shù)-計(jì)算機(jī)第三方支付行業(yè)深度報(bào)告:監(jiān)管加速第三方支付合規(guī)及出清提費(fèi)利潤彈性巨大
- 2024年紀(jì)檢監(jiān)察綜合業(yè)務(wù)知識題庫【黃金題型】
- 年終培訓(xùn)機(jī)構(gòu)述職報(bào)告
- 外科手術(shù)備皮范圍
評論
0/150
提交評論