第五章視頻編碼國際標準_第1頁
第五章視頻編碼國際標準_第2頁
第五章視頻編碼國際標準_第3頁
第五章視頻編碼國際標準_第4頁
第五章視頻編碼國際標準_第5頁
已閱讀5頁,還剩126頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第五講

視頻壓縮編碼國際標準簡介視頻編碼發(fā)展簡史H.261(1988)MPEG-1(1993)H.263(1995)H.263+(1998)H.263++(2000)H.264(MPEG-4Part10)(2003)MPEG-4v1(1999)MPEG-4v2(2000)MPEG-4v3(2001)198819901992199419961998200020022003ISO/IECJPEG(1992)ITU-TMPEG-2(H.262)(1994)AVS視頻圖像編碼標準編碼標準全稱傳輸碼率主要應用H.261P×64kbps的音/視頻服務(wù)的編/解碼P×64kbpsP=1~30ISDN視頻會議MPEG-1面向數(shù)字存儲的運動圖像及伴音編碼1.5MbpsVCD,CD-ROMMPEG-2運動圖像及伴音的通用編碼4~100MbpsDVD,HDTV,VOD,DABH.263低比特率通信的視頻編碼低于64kbps遠程視頻監(jiān)控,可視電話,電視會議MPEG-4音/視頻對象的通用編碼小于64kbps64~384kbps384kbps~4MbpsInternet通信,無線通信,2D/3D計算機圖像交互式視頻MPEG-7多媒體內(nèi)容描述接口任意多媒體檢索H.264/AVC高級視頻編碼算法任意未來視頻編碼工業(yè)標準靜態(tài)圖像壓縮標準MPEG數(shù)字視頻壓縮標準H.26X視頻壓縮標準1概述JPEG(JointPhotographicExpertsGroup)是一個由ISO和IEC兩個組織機構(gòu)聯(lián)合組成的一個專家組1986年開始制定,1992年成為國際標準JPEG是國際上彩色、灰度、靜止圖像的第一個國際標準,也是一個適用范圍廣泛的通用標準。它不僅適用于靜止圖像的壓縮,電視圖像序列的幀內(nèi)圖像的壓縮編碼,也常采用JPEG壓縮方法??捎糜诙嗝襟wCD-ROM,彩色圖像傳真,圖文檔案管理等。JPEG包括有損壓縮(DCT為基礎(chǔ))和無損壓縮(采用預測壓縮方法)兩種編碼方案。6.1靜態(tài)圖像的國際壓縮標準JPEG壓縮比——10:1--100:1(一般壓縮比≯40:1)試驗表明,經(jīng)壓縮25倍還原后的彩色圖像與原圖相比,對非行家來說很難加以區(qū)別。在損失某些圖像信息的情況下,JPEG可以把圖像壓縮比提的更高。例如當把30:1的壓縮比用于一個全彩色的圖像幀時,要求的圖像存儲空間就從1000K降至33K,而數(shù)據(jù)傳輸率則降至每秒1MB,這就降到了目前大多數(shù)存儲設(shè)備可以處理的范圍內(nèi)了。2圖像預處理(數(shù)據(jù)結(jié)構(gòu))

根據(jù)JPEG標準,源圖像以幀為單位,每幀圖像最多由4個分量圖像組成,分量圖像用符號Ci表示,i=1,2,3,4,例如一幀彩色圖像由三個分量組成:C1=Y,C2=Cr,C3=Cb。由于眼睛對色度不敏感,色度分量的像素可以減少?;贒CT運算量的考慮,編碼時每個分量圖像均分為8×8的像塊(block),塊內(nèi)的64個數(shù)據(jù)組成一個數(shù)據(jù)單元DU,16×16空間區(qū)域內(nèi)的所有分量數(shù)據(jù)單元組成為一個最小編碼單元MCU,MCU是進行DCT的準備。例如對取樣率4:1:1的彩色圖像,一個MCU包含4個Y分量DU、一個Cr分量DU和一個Cb分量DU,如右圖。在JPEG中,定義了三種編碼系統(tǒng)1)用于無失真應用場合的無損系統(tǒng)2)基于DCT的有損編碼基本系統(tǒng)3)用于高壓縮比、高精度或漸進重建應用的擴展編碼系統(tǒng)3編解碼系統(tǒng)預測器熵編碼器表說明無失真編碼器源圖像數(shù)據(jù)壓縮圖像數(shù)據(jù)無失真編碼簡化框圖基于DPCM的無失真編碼優(yōu)點是硬件易實現(xiàn),重建圖像質(zhì)量好。缺點是壓縮比太低,大約為2:1。(1).基于DPCM的無失真編碼

(2).基于DCT的基本編碼系統(tǒng)

圖像子塊的劃分離散余弦變換量化處理DC系數(shù)的編碼和AC系數(shù)的行程編碼熵編碼基本系統(tǒng)的編解碼基本步驟顏色模式轉(zhuǎn)換及采樣;DCT變換;

量化;

編碼;基于DCT的編碼過程表說明壓縮圖像數(shù)據(jù)表說明88塊(YUV每個分量)子塊劃分DCT變換量化行程編碼熵編碼數(shù)字圖象JPEG碼圖象子塊的劃分

子塊的大小---8×8像元

目的:提高相關(guān)性640×480大小標準圖象,劃分結(jié)果有4800個子塊

色彩子采樣減少子塊個數(shù)

VUYVUY離散余弦變換(DCT)

F(7,7),AC分量高端F(0,0),DC分量子塊8x8的DCT系數(shù)特點:DC分量為子塊的平均灰度,系數(shù)分布集中在低頻端量化

1612141418244972111213172235649210141622375578951619242956648798242640516881103112405857871091041211005160698010311312010361555662779210199量化表根據(jù)人的視覺特點,子塊DCT系數(shù)中高低頻分量采用不同量化臺階,使高端系數(shù)更小,等于0值亮度量化表JPEG推薦的量化表JPEG使用的顏色是YCrCb格式。Y分量代表了亮度信息,CrCb分量代表了色差信息。相比而言,Y分量更重要一些。可以對Y采用細量化,對CrCb采用粗量化,可進一步提高壓縮比。所以量化表通常有兩張,一張是針對Y的,一張是針對CrCb的.JPEG基本算法的量化表是從廣泛的實驗中得出來的。下表分別給出了JPEG標準所推薦的亮度量化表和色度量化表。161110162440516112121419265860551413162440576956141722295187806218223756681091037724355564811041139249647887103121120101729295981121001039917182447999999991821266699999999242656999999999947669999999999999999999999999999999999999999999999999999999999999999999999999999亮度量化表色度量化表

量化表中的元素皆為1-255之間的任意整數(shù),其值規(guī)定了所對應DCT系數(shù)的量化步長。當頻率系數(shù)經(jīng)過量化后,將頻率系數(shù)由浮點數(shù)轉(zhuǎn)變?yōu)檎麛?shù),這才便于執(zhí)行最后的編碼。不過,經(jīng)過量化階段后,所有數(shù)據(jù)只保留整數(shù)近似值,也就再度損失了一些數(shù)據(jù)內(nèi)容,帶來了失真。編碼直流系數(shù)(DC)的編碼

因為圖像中相鄰塊之間有很強的相關(guān)性,JPEG標準對DC系數(shù)采用DPCM編碼(差分編碼)方法,即對相鄰的8×8像素塊之間的DC系數(shù)的差值進行編碼,可以提高壓縮比。這個差值可用公式表示為:交流系數(shù)(AC)編碼

F矩陣中有63個元素是交流(AC)系數(shù),可采用行程編碼進行壓縮。需要考慮的問題是:這63個系數(shù)應該按照怎么樣的順序排列?為了保證低頻分量先出現(xiàn),高頻分量后出現(xiàn),這63個元素采用了“之”字型(Zig-Zag)的排列方法,稱之為Z形掃描。Z型掃描算法能夠?qū)崿F(xiàn)高效壓縮的原因之一是經(jīng)過量化后,大量的DCT矩陣元素被截成0。而且零值通常是從左上角開始沿對角線方向分布的。由于這么多0值,對0的處理與對其他數(shù)的處理不大相同的,采用行程編碼算法(RLE)沿Z型路徑可有效地累積圖像中的0的個數(shù),所以這種編碼的壓縮效率非常高。差分編碼和行程編碼

量化后:DC系數(shù)差分編碼

AC系數(shù)Z字型行程編碼

編碼后得到兩類數(shù)碼形式:AC分量-行程碼DC分量-差分碼變長碼集合JPEG建議:在基本系統(tǒng)中使用哈夫曼(Huffman)編碼

76543210行程位數(shù)幅值符號1符號2AC分量行程碼的表達方式76543210位數(shù)差值符號1符號2DC分量差分碼的表達方式圖2.13AC系數(shù)行程編碼碼字兩個非0值間連續(xù)0的個數(shù)

表示下一個非0值需要的bit數(shù)

下一個非0實際值7430字節(jié)1字節(jié)2例子:對“…,3,0,0,0,0,0,12,0,0,…”編碼…,(5,4),(12),….為了進一步達到壓縮數(shù)據(jù)的目的,需要對DC碼和AC行程編碼的碼字再作基于統(tǒng)計特性的熵編碼(entropycoding)。JPEG建議使用兩種熵編碼方法:哈夫曼編碼和自適應二進制算術(shù)編碼。熵編碼可分成兩步進行,首先把DC碼行程碼字轉(zhuǎn)換成中間符號序列,然后給這些符號賦以變長碼字。熵編碼

基于DCT的解碼過程熵解碼器IDCT表說明解碼器逆量化器表說明88塊壓縮圖像數(shù)據(jù)恢復的圖像數(shù)據(jù)4.基于DCT的累進操作方式編碼順序方式:每個圖像分量的編碼一次掃描完成的;

累進方式:圖像分量編碼要經(jīng)過多次掃描才完成。累進方式第一次掃描只進行一次粗糙圖像的掃描壓縮,以相對于總的傳輸時間快得多的時間傳輸粗糙圖像,并重建一幀質(zhì)量較低的可識別圖像;在隨后的掃描中再對圖像作較細的壓縮,這時只傳遞增加的信息,可重建一幅質(zhì)量提高一些的圖像。這樣不斷累進,直到滿意的圖像為止。需在量化器的輸出與熵編碼的輸入之間,增加一個足以存儲量化后DCT系數(shù)的緩沖區(qū),對緩沖區(qū)中存儲的DCT系數(shù)多次掃描,分批編碼。5.基于DCT的分層操作方式(1)把原始圖像空間分辨率降低。(2)對已降低分辨率的圖像采用基于DCT的順序方式、累進方式或無失真預測編碼中的任何一種編碼方法進行編碼。(3)對低分辨率的圖像解碼,重建圖像,使用插值濾波器,對它插值,恢復圖像的水平和垂直分辨率。(4)把分辨率已升高的圖像作為原始圖像的預測值,對它們的差值采用基于DCT的順序方式、累進方式或用無失真方式進行編碼。(5)重復(3)、(4)直到圖像達到完整的分辨率編碼。JPEG舉例源圖像質(zhì)量38384bytes

高質(zhì)量壓縮(Highquality),11331bytes

中等質(zhì)量(Mediumquality),6968bytes

低質(zhì)量(Lowquality),3687bytes在一般的圖像處理軟件中,對一幅圖像按JPEG格式進行壓縮時,用戶可以選擇壓縮品質(zhì)因子(QualityFactor)。Photoshop圖像軟件按四大類質(zhì)量(低、中、高、最佳),把壓縮品質(zhì)分為0—12等級PhotoPaint圖像軟件把質(zhì)量因子量化為2-250等分?;贒CT的JPEG壓縮效率

比特/象素(bpp)質(zhì)量0.25~0.50中~好,滿足某些應用0.50~0.75好~很好,滿足多數(shù)應用0.75~1.5極好,滿足大多數(shù)應用1.5~2.0與原始圖像分不出壓縮質(zhì)量maximummediumlow質(zhì)量因子

830壓縮比

3.7:17.1:18.8:1Factor:100Size=326321bytes

Factor:50Size=46295bytesFactor:25Size=29360bytes

Factor:5Size=9438bytes6.新一代靜態(tài)圖像壓縮標準---JPEG2000

JPEG所具有的優(yōu)良品質(zhì),使它獲得極大的成功。然而,隨著多媒體應用領(lǐng)域的激增,傳統(tǒng)JPEG壓縮技術(shù)也存在著許多不足,無法滿足人們對多媒體圖像資料的要求。DCT將圖像分割為8×8的小塊,然后依次放入文件中,這種算法靠丟棄頻率信息實現(xiàn)壓縮,因而圖像的壓縮率越高,頻率信息被丟棄的越多。在極端情況下,JPEG圖像只保留了反映圖像外貌的基本信息,精細的圖像細節(jié)都損失了。

JPEG2000與傳統(tǒng)JPEG最大的不同,在于它放棄了JPEG所采用的以離散余弦變換(DiscreteCosineTransform)為主的區(qū)塊編碼方式,而改采以小波轉(zhuǎn)換(Wavelettransform)為主的解析編碼方式。JPEG20002000年12月公布的新的JPEG2000標準(ISO15444),其目標是在高壓縮率的情況下,如何保證圖像傳輸?shù)馁|(zhì)量。JPEG2000與JPEG的區(qū)別:采用了以小波變換為主的多分辨率編碼方式統(tǒng)一了面向靜態(tài)圖像和二值圖像的編碼方式既支持低比率壓縮又支持高比率壓縮JPEG2000的主要特點:(1)高壓縮率。與JPEG相比,可修復約30%的速率失真特性。JPEG和JPEG2000在壓縮率相同時,JPEG2000的信噪比將提高30%左右;(2)無損壓縮。預測編碼作為對圖像進行無損編碼的成熟方法被集成在JPEG2000中;(3)漸進傳輸。JPEG2000可實現(xiàn)以空間清晰度和信噪比為首的各種可調(diào)節(jié)性,從而實現(xiàn)漸進傳輸,即具有“漸現(xiàn)”特性;(4)感興趣區(qū)域壓縮。JPEG2000支持所謂的“感興趣區(qū)域”。測試結(jié)果表明,JPEG2000壓縮效果更優(yōu)秀,特別是在高壓縮比的情況下。JPEG2000糾錯能力很強,在文件傳輸中,有恢復丟失數(shù)據(jù)包的能力??梢灾付ㄗ詈笪募拇笮 lo態(tài)圖像壓縮標準H.26X視頻壓縮標準MPEG數(shù)字視頻壓縮標準H.261H.261是用于視頻會議和可視電話業(yè)務(wù)的以p×64kbps,p=1,…,30的速率在綜合業(yè)務(wù)數(shù)字網(wǎng)(ISDN)上傳送視頻信號的壓縮標準。H.261頒布于1990年,主要用于雙向視頻通信,允許的最大編碼延遲為150ms。它的輸入圖象格式為通用(同時適用于625線和525線的視頻標準)中間格式CIF(352x288),低端可用其四分之一大小的QCIF(176x144)格式,幀率為30,15,10,7.5四種,隔行(interlaced)視頻,寬高比4:3。H.261的編碼方案是基于DCT和DPCM的預測編碼算法,運動每幀圖象分成8x8的子塊,再組成宏塊、塊組,宏塊由4個8x8的亮度塊和2個8x8的色度塊組成,每個塊組由3x11個宏塊組成。每幅QCIF圖象有3個塊組;每幅CIF圖象有12個塊組,形成一個多層次的塊結(jié)構(gòu)。

H.263是ITU-T制定的適合于低速視頻信號的壓縮標準。大多數(shù)用戶相當一段時間內(nèi)最方便的是公用電話線,以V.34為標準的調(diào)制解調(diào)器支持在電話線中傳輸速率可達28.8kbps或33.6kbps,甚至56kbps。H.263是在H.261基礎(chǔ)上擴展形成的,支持的圖像格式包括Sub-QCIF(12896),QCIF,CIF,4CIF,16CIF(14081152)等。

其中主要采用的改進技術(shù)有:H.263

(1)半像素精度的運動補償在H.261中,運動矢量的精度為1個像素,H.263運動矢量的估值精度達到半個像素。精度的提高使運動補償后的幀間誤差減少,從而降低了碼率。(2)不受限的運動矢量當運動跨越圖像邊界時,由運動矢量所確定的宏塊位置可能有一部分落在邊界之外,此時可以用邊界上的像素值表示界外的像素值,從而降低預測誤差。(3)用基于句法的算術(shù)編碼代替Huffman編碼(可選項)這是一種效率較高的自適應算術(shù)編碼。

(4)先進的預測模式(可選項)對宏塊中的4個亮度塊分別進行運動估值獲得4個運動矢量。雖然此時傳輸運動矢量的比特數(shù)增加一些,但由于預測誤差的大幅度降低,仍然使總碼率降低。(5)PB幀模式(可選項)雖然使用雙向預測的B幀可以降低碼率,但是卻要引入附加的編碼延時和解碼延時。為了降低延時,H.263采用了P幀和B幀作為一個單元來處理的方式,即將P幀和由該幀與上一個P幀所共同預測的B幀一起進行編碼。標準簡介JVT(JointVideoTeam)是由國際標準化組織運動圖像專家組(ISOMPEG)和國際電信聯(lián)盟視頻編碼專家組(ITU-TVCEG)成立的聯(lián)合視頻工作組,致力于開發(fā)低比特率視頻標準;JVT標準于2003年推出H.264/AVC標準在ISO/IEC中正式名稱為MPEG-4Part10,稱之為“ISO/IEC14496Part10高級視頻編碼算法”(ISO/IEC1449610AVC)新一代視頻壓縮標準H.264/AVC

新一代視頻壓縮標準H.264/AVCH.264/AVC的檔次和結(jié)構(gòu)H.264/AVC編解碼器幀內(nèi)預測幀間預測一、檔次與等級H.264主要支持4:2:0格式的連續(xù)或隔行視頻的編解碼,4:2:2和4:4:4可作為額外的參考信息參數(shù);根據(jù)應用領(lǐng)域不同,制定了不同的算法集合和技術(shù)限定,共分為3個檔次:基本檔、主檔和擴展檔;在每一檔次設(shè)置了不同的參數(shù),每個檔次下面又劃分為不同的等級;基本檔是擴展檔的子集,但不是主檔的子集。H.264檔次檔次技術(shù)特點典型應用基本檔利用I片和P片支持幀內(nèi)和幀間編碼,支持利用基于上下文的自適應變長編碼進行熵編碼;支持靈活的宏塊組織順序;片之間是相互獨立的可任意順序傳輸?shù)浇獯a端視頻會話、如會議電視、可視電話、遠程醫(yī)療、遠程教學等主檔支持隔行視頻,采用B片的幀間編碼和加權(quán)預測的幀內(nèi)編碼;采用基于上下文的自適應算數(shù)編碼消費電子應用,如數(shù)字電視廣播、數(shù)字視頻存儲等擴展檔支持碼流之間的有效切換(SP和SI片)、改進抗誤碼性能;不支持隔行視頻和基于上下文的自適應算數(shù)編碼網(wǎng)絡(luò)視頻流,如視頻點播、流媒體等H.264標準從概念上將編碼結(jié)構(gòu)分為兩層:上層為視頻編碼層;底層為網(wǎng)絡(luò)抽象層??刂茢?shù)據(jù)視頻編碼層VCL數(shù)據(jù)分割網(wǎng)絡(luò)適配層NALH.320MPEG-4H.323/IPMPEG-2其他編碼宏塊編碼片/分區(qū)視頻編碼層負責完成高效率的視頻壓縮任務(wù),網(wǎng)絡(luò)適配層將視頻編碼層從具體的傳輸層中抽象出來,負責解決網(wǎng)絡(luò)的適配問題,即根據(jù)使用環(huán)境對不同網(wǎng)絡(luò)采用最為合適的方式對數(shù)據(jù)進行打包和傳送,以使得碼流對各類信道都具有良好的適應能力;對上層,從視頻編碼層獲得數(shù)據(jù),包括頭信息、視頻壓縮數(shù)據(jù)信息;對下層,依據(jù)具體傳輸網(wǎng)絡(luò)的特性對數(shù)據(jù)進行封裝,包括成幀、發(fā)送信號至邏輯信道、利用同步信息等,定義適合傳輸層或存儲介質(zhì)需要的數(shù)據(jù)格式,提供頭信息,將視頻編碼數(shù)據(jù)正確的映射到H.323、H.324等具體的傳輸協(xié)議上,從而提供視頻編碼層與外部世界的接口。二、H.264/AVC編解碼器1、編碼原理仍然采用經(jīng)典的運動補償混合編碼算法;編碼圖像分為3種:I幀、P幀和B幀;此外H.264還定義了新的SP幀和SI幀,用以實現(xiàn)不同的傳輸速率、不同圖像質(zhì)量碼流間的快速切換以及信息丟失的快速恢復等功能;H.264將一視頻圖像編碼成一個或多個片,一個片由一系列按光柵掃描順序排列的宏塊構(gòu)成,每片包含整數(shù)個宏塊或一幅圖像的全部宏塊。片和片組

片一個視頻圖像可編碼成一個或更多個片,每片包含整數(shù)個宏塊(MB),即每片至少一個MB,最多時每片包含整個圖像的宏塊。設(shè)片的目的是為了限制誤碼的擴散和傳輸,使編碼片相互間是獨立的。某片的預測不能以其它片中的宏塊為參考圖像,這樣某一片中的預測誤差才不會傳播到其它片中去。編碼片共有5種不同類型,I片、P片、B片外,還有SP片和SI片。其中SP(切換P)是用于不同編碼流之間的切換。

圖4片的句法結(jié)構(gòu)片和片組

片組

片組是一個編碼圖象中若干MB的一個子集,它可包含一個或若干個片。在一個片組中,每片的MB按光柵掃描次序被編碼,如果每幅圖象僅取一個片組,則該圖象中所有的MB均按光柵掃描次序被編碼。還有一種片組,叫靈活宏塊次序(FMO),它可用靈活的方法,把編碼MB序列映射到解碼圖象中MB的分配用MB到片組之間的映射來確定,它表示每一個MB屬于哪個片組。下圖為MB到片組的各種映射類型。

MB到片組的映射類型名稱描述0交錯MB游程被依次分配給每一塊組(圖a)1散亂每一片組中的MB被分散在整個圖象中(圖b)2前景和背景例見圖c3Box-out從幀的中心開始,產(chǎn)生一個箱子,其MB屬于片組0,其它MB屬于片組(圖d)4光柵掃描片組0包含按光柵掃描次序從頂-左的所有MB,其余MB屬片組1(圖e)5擦式掃描片組0包含從頂-左垂直掃描次序的MB,其余MB屬片組1(圖f)6顯式每一Mbslice_group_id,用于指明它的片組(即MB映射完全是用戶定義的)采用幀內(nèi)編碼時首先選擇相應的幀內(nèi)預測模式進行預測;隨后對實際值和預測值之間的差值進行變換、量化和熵編碼;同時編碼后的碼流經(jīng)過反量化和反變換之后重構(gòu)預測殘差圖像,與預測值相加得出重構(gòu)幀,結(jié)果經(jīng)環(huán)路濾波器平滑后送入幀存儲器;采用幀間編碼時首先在參考幀中進行運動估計,之后的殘差圖像經(jīng)整數(shù)變換、量化和熵編碼后與運動矢量一起送入信道傳輸。2、解碼原理首先根據(jù)語法元素判斷:為幀內(nèi)編碼直接進行反量化、反變換重構(gòu);為幀間編碼得到的為殘差圖像,需要根據(jù)幀存儲器中的參考圖進行運動補償后與殘差圖疊加。三、幀內(nèi)預測子塊內(nèi)部和子塊之間的像素具有空間冗余性;自然場景圖像中的前景和背景通常具有一定的紋理特性,按其方向性可分為水平紋理、垂直紋理和傾斜紋理等;——為空域的幀內(nèi)預測創(chuàng)造了條件MPEG-1/2幀內(nèi)編碼采用DCT、量化和熵編碼;H.263+和MPEG-4中I幀采用基于頻域的幀內(nèi)預測;H.264基于空間的像素值進行預測,對于每個4×4塊每個像素可用17個最接近的先前已編碼像素的不同加權(quán)和來預測。H.264對亮度分量(兩種預測模式)和色度分量(一種預測模式)設(shè)定不同預測方案,獨立實施預測。各預測模式中詳細定義了多種預測選項適應不同紋理特性的圖像子塊。在幀內(nèi)預測模式中,預測塊P是基于已編碼重建塊和當前塊形成的。對亮度像素而言,P塊用于4×4子塊或者16×16宏塊的相關(guān)操作。4×4亮度子塊有9種可選預測模式,獨立預測每一個4×4亮度子塊,適用于帶有大量細節(jié)的圖像編碼;16×16亮度塊有4種預測模式,預測整個16×16亮度塊,適用于平坦區(qū)域圖像編碼;色度塊也有4種預測模式,類似于16×16亮度塊預測模式。編碼器通常選擇使P塊和編碼塊之間差異最小的預測模式。4×4亮度預測模式

如圖所示,4×4亮度塊的上方和左方像素A~M為已編碼和重構(gòu)像素,用作編解碼器中的預測參考像素。a~p為待預測像素,利用A~M值和9種模式實現(xiàn)。4×4亮度預測模式

圖中箭頭表明了每種模式預測方向。其中模式2(DC預測)根據(jù)A~M中已編碼像素預測,而其余模式只有在所需預測像素全部提供才能使用。對模式3~8,預測像素由A~M加權(quán)平均而得。例如,模式4中,d=round(B/4+C/2+D/4)。s0=0;if(block_available_up&&block_available_left){s0=(P_A+P_B+P_C+P_D+P_I+P_J+P_K+P_L+4)/(2*BLOCK_SIZE);}//如當前塊上塊和左塊存在,則塊內(nèi)亮度值為上塊參考點值與左塊參考點值的均值。//后面加上4是因為/8是右移(取整)操作,加上4可以轉(zhuǎn)換為四舍五入。elseif(!block_available_up&&block_available_left){s0=(P_I+P_J+P_K+P_L+2)/BLOCK_SIZE;}//如上塊不存在,則取左塊參考點值的均值elseif(block_available_up&&!block_available_left){s0=(P_A+P_B+P_C+P_D+2)/BLOCK_SIZE;}//同上else{s0=img->dc_pred_value;}//如都不存在,則取128for(j=0;j<BLOCK_SIZE;j++){for(i=0;i<BLOCK_SIZE;i++){img->mprr[DC_PRED][i][j]=s0;//直流預測,DC_PRED為預測模式。}}16×16亮度預測模式宏塊的全部16×16亮度成分可以整體預測,有4種預測模式,如下所示。16×16預測模式模式描述模式0(垂直)由上邊像素推出相應像素值模式1(水平)由左邊像素推出相應像素值模式2(DC)由上邊和左邊像素平均值推出相應像素值模式3(平面)利用線形“plane”函數(shù)及左、上像素推出相應像素值,適用于亮度變化平緩區(qū)域16×16亮度預測模式8×8色度塊預測模式

每個幀內(nèi)編碼宏塊的8×8色度成分由已編碼左上方色度像素預測而得,兩種色度成分常用同一種預測模式。4種預測模式類似于幀內(nèi)16×16預測的4種預測模式,只是模式編號不同。其中DC(模式0)、水平(模式1)、垂直(模式2)、平面(模式3)。

幀內(nèi)預測模式編碼例如:如果A塊和B塊的最優(yōu)預測模式均是預測模式2,那么,最可能當前塊C的最優(yōu)預測模式是模式2對于當前塊C,編解碼器按照如下方法計算probablepredictionmode=min{predictionmodeofA,predictionmodesofB}當A(或者B)的預測模式不可用時,predictionmodeofA=2.例如

A和B塊的預測模式分別為3和1

mostprobablemodeforblockC=1編碼器為每個4x4塊發(fā)送一個標記flag,解碼器按照如下方式解碼Ifflag==1,predictionmode=most_probable_modeIfflag==0Ifrem_intra4×4_pred_mode<most_probable_modepredictionmode=rem_intra4×4_pred_modeelsepredictionmode=rem_intra4×4_pred_mode+1這樣表示9中預測模式只需要8個值(0to7)

四、幀間預測

樹狀結(jié)構(gòu)運動補償

每個宏塊(16×16像素)可以4種方式分割:一個16×16,兩個16×8,兩個8×16,四個8×8。其運動補償也相應有四種。而8×8分割還可以有四種方式的分割:一個8×8,兩個4×8或兩個8×4及4個4×4。這種分割下的運動補償則稱為樹狀結(jié)構(gòu)運動補償。樹狀結(jié)構(gòu)運動補償

每個分割或子宏塊都有一個獨立的運動補償。每個MV必須被編碼、傳輸,分割的選擇也需編碼到壓縮比特流中。對大的分割尺寸而言,MV選擇和分割類型只需少量的比特,但運動補償殘差在多細節(jié)區(qū)域能量將非常高。小尺寸分割運動補償殘差能量低,但需要較多的比特表征MV和分割選擇。分割尺寸的選擇影響了壓縮性能。整體而言,大的分割尺寸適合平坦區(qū)域,而小尺寸適合多細節(jié)區(qū)域。宏塊的色度成分(Cr和Cb)則為相應亮度的一半(水平和垂直各一半)。色度塊采用和亮度塊同樣的分割模式,只是尺寸減半(水平和垂直方向都減半)。例如,8×16的亮度塊相應色度塊尺寸為4×8,8×4亮度塊相應色度塊尺寸為4×2等等。色度塊的MV也是通過相應亮度MV水平和垂直分量減半而得。舉例:如下圖:一個殘差幀(沒有進行運動補償)。H.264編碼器為幀的每個部分選擇了最佳分割尺寸,使傳輸信息量最小,并將選擇的分割加到殘差幀上。在幀變化小的區(qū)域(殘差顯示灰色),選擇16×16分割;多運動區(qū)域(殘差顯示黑色或白色),選擇更有效的小的尺寸。上圖是一幀圖像在沒有進行運動補償前采用最優(yōu)分塊方式預測后的殘差信號??梢钥闯觯瑘D中的背景等高頻信息很弱的部分塊劃分都比較大,但是在面部和肢體等細節(jié)較多的部分分塊比較小。采用最優(yōu)分塊方式劃分后的殘差信號幀

在H.264參考軟件模型中采用碼率失真優(yōu)化策略RDO(RateDistortionOptimisation)和窮盡搜索方式來選擇最佳的運動預測塊尺寸,即對各種塊模式依次進行運動估計,再根據(jù)碼率-失真度優(yōu)化原則擇取最優(yōu)模式作為當前宏塊的幀間預測模式,這樣會耗費過多的編碼處理時間。因此有必要在運動估計之前選擇塊尺寸,以減少運動預測和RDO的計算量。:原始采樣點

:預測樣點

運動矢量幀間編碼宏塊的每個分割或者子宏塊都是從參考圖像某一相同尺寸區(qū)域預測而得。兩者之間的差異(MV)對亮度成分采用1/4像素精度,色度1/8像素精度。亞像素位置的亮度和色度像素并不存在于參考圖像中,需利用鄰近已編碼點進行內(nèi)插而得。當前幀的4×4塊通過鄰近參考圖像相應區(qū)域預測。如果MV的垂直和水平分量為整數(shù),參考塊相應像素實際存在。如果其中一個或兩個為分數(shù),預測像素通過參考幀中相應像素內(nèi)插獲得。小數(shù)像素插值每一個幀間編碼的宏塊都是通過對參考幀中相同大小的宏塊預測得到的。兩個塊之間的位移即運動矢量對于亮度塊可以達到1/4像素的精度。由于在1/4像素位置上實際并沒有實際的像素存在。因此需要通過內(nèi)插來得到相應位置上的像素值。圖中是當前幀中的一個4×4大小的塊,可以通過相鄰的塊進行預測。如果水平和垂直方向的位移矢量都是整數(shù),如圖所示,那么可以通過采用已有的像素進行內(nèi)插得到半像素精度的點,通過內(nèi)插得到的半像素點可以再次預測得到1/4像素精度的運動矢量,然后再進行搜索。因此H.264的運動預測包含兩個步驟:首先進行整像素搜索,其次再以整像素搜索最佳位置為中心進行1/4像素搜索。

亮度半像素位置內(nèi)插內(nèi)插像素生成:生成參考圖像亮度成分半像素像素。半像素點(如b,h,m)通過對相應整像素點進行6抽頭濾波得出,權(quán)重為(1/32,-5/32,5/8,5/8,-5/32,1/32)。類似的,h由A、C、G、M、R、T濾波得出。一旦鄰近(垂直或水平方向)半素點的所有像素都計算出,剩余的半像素點便可以通過對6個垂直或水平方向的半像素點濾波而得。例如,j由cc,dd,h,m,ee,ff濾波得出。這里說明的是,6抽頭濾器比較復雜,但可明顯改善運動補償性能。亮度1/4像素內(nèi)插半像素點計算出來以后,1/4像素點就可通過線性內(nèi)插得出,如圖4所示。1/4像素點(如a,c,i,k,d,f,n,q)由鄰近像素內(nèi)插而得,如

剩余1/4像素點(p,r)由一對對角半像素點線性內(nèi)插得出。如,e由b和h獲得。幀間預測:?像素精度CDABEKLMNOPFGHIJTURSccddeeffaabbgghhbacefgijkpqrdhnmsb1=(E-5F+20G+20H-5I+J)h1=(A-5C+20G+20M-5R+T)b=(b1+16)>>5h=(h1+16)>>5----------j1=cc-5dd+20h1+20m1-5ee+ffj=(j1+512)

>>10----------a=(G+b+1)>>1e=(b+h+1)>>1clippedto0~255clippedto0~2553、SP/SI幀編碼為了適應視頻碼流帶寬自適應特性和抗誤碼性能要求,在擴展檔次中定義了兩種新的幀類型:SP幀(SwitchingPPicture)和SI幀(SwitchingPPicture);SP/SI幀特有的編碼方法使壓縮碼流能在不插入I幀的情況下同樣實現(xiàn)碼流的隨機切換功能;SP幀可在諸如碼流拼接、隨機接入、快進/快退等應用中取代I幀,獲得比I幀更高的編碼效率;對于多參考幀模式下SP幀能采用統(tǒng)一的重建過程,更利于碼流錯誤恢復和隱藏;通過使用SP/SI幀,能非常好的適應視頻數(shù)據(jù)在各種傳輸環(huán)境下的應用,如視頻監(jiān)視器之間快速切換、廣播電視插播、網(wǎng)絡(luò)錯誤重發(fā)等。A0A1A2A3A4SP幀碼流AB0B1B2B3B4切換點碼流BP幀使用SI幀實現(xiàn)視頻流的拼接SI碼流拼接P幀P幀SI幀不使用運動補償,所以適合于兩種序列之間沒有相關(guān)性

主要的改進方式:幀內(nèi)預測編碼幀間預測多模式選擇SP/SI低復雜度變換和量化對傳輸錯誤的魯棒性和對不同網(wǎng)絡(luò)的適應性H.264的問題(1)雖然H.264/AVC的編碼效率遠比以先前的視頻編碼標準高,但由于其具有相當復雜的編碼技術(shù)及模式選擇,使得其運算復雜度也遠高于先前的編碼標準。根據(jù)JVT會議文件的評估結(jié)果,H.264參考編解碼軟件相較于MPEG-4,其編碼器復雜度約為10倍以上,而解碼器復雜度則為3倍以上。如此高的復雜度將使得H.264難以使用在具有即時需求的應用上。因此如何在不致犧牲H.264/AVC的編碼效率之前提下,降低其運算復雜度使其適于實用化的程度,為目前相當重要的研究方向。H.264的問題(2)此外,實際的無線和IP信道會導致誤碼產(chǎn)生,例如:無線信道中的多徑衰落產(chǎn)生誤碼和IP信道上的阻塞丟包等。由于信道帶寬的限制,視頻通信的數(shù)據(jù)往往是壓縮編碼以后的數(shù)據(jù),而壓縮以后的數(shù)據(jù)對誤碼非常敏感,造成誤碼環(huán)境下恢復圖像質(zhì)量嚴重下降。因此,如何采用多種有效的抗誤碼方法來保證恢復視頻的質(zhì)量,也值得加以研究。靜態(tài)圖像壓縮標準H.26X/AVC視頻壓縮標準MPEG數(shù)字視頻壓縮標準MPEG-1

MPEG-1是1992年通過的視頻壓縮標準,用于CIF格式的視頻在速率約1.5Mbps的各種數(shù)字存儲介質(zhì)(如CD-ROM,DAT,硬盤及光驅(qū)等)上的編碼表示,主要應用在交互式多媒體系統(tǒng)中;MPEG-1算法與H.261算法相似,它在1.5Mbps(視頻信號)速率下壓縮和解壓縮CIF格式的視頻質(zhì)量與VHS記錄的模擬視頻質(zhì)量相當;它是一種通用標準,規(guī)定了編碼位流的表示語法和解碼方法,提供的支持操作有運動估計、運動補償預測、DCT、量化和變長編碼。MPEG-1的特點有:(1)隨機存取,(2)支持快速雙向搜索,(3)允許大約1秒的編碼/解碼延遲,比H.261的150ms內(nèi)的嚴格限制松得多。MPEG-2/H.262MPEG-2是1993年通過的視頻壓縮標準,用于高清晰度視頻和音頻的編碼,也包含用于可視電話中的超低碼率(8-32kbps)的壓縮編碼;MPEG-2是MPEG-1的兼容擴展,廣泛應用于各種速率(2-20Mbps)和各種分辨率情況下的場合;MPEG-2不僅接受逐行掃描視頻,也可以接受隔行掃描視頻,高清晰度視頻,提供可伸縮調(diào)節(jié)的位流,提供改進的量化和編碼選項。MPEG-4

低于64kbps甚低數(shù)據(jù)率,交互式多媒體應用標準;

MPEG-4利用了人眼視覺特性,抓住了圖像信息傳輸?shù)谋举|(zhì),從輪廓、紋理思路出發(fā),基于對內(nèi)容的訪問;AV對象(AVO,AudioVisualObject)是MPEG-4為支持基于內(nèi)容編碼而提出的重要概念;視音頻已不再是圖像幀的概念,而是一個個視聽場景;把編碼對象從圖像幀到任意形狀的視頻對象,實現(xiàn)從基于像素的傳統(tǒng)編碼到基于對象和內(nèi)容的現(xiàn)代編碼。

采用開放的編碼系統(tǒng),可隨時加入新的編碼算法模塊,同時也可根據(jù)不同應用需求現(xiàn)場配置解碼器,以支持多種多媒體應用;MPEG-7

多媒體內(nèi)容描述標準,支持對多媒體資源的組織管理、搜索、過濾和檢索;MPEG-21

多媒體框架和綜合應用方面的框架。目標是建立一個交互的多媒體框架,該標準致力于在大范圍的網(wǎng)絡(luò)上實現(xiàn)透明的傳輸和對多媒體資源的充分利用。對象形成及跟蹤基于語義基于對象基于像素對象特征提取MPEG-7MPEG-4MPEG-1MPEG-2數(shù)字聲像存儲壓縮編碼標準MPEG-1tIMPEG圖象序列······BBPBBIBBBBPMPEG-1(ISO/IEC11172)標準于1993年8月公布,用于傳輸1.5Mbit/s數(shù)據(jù)傳輸率的數(shù)字存儲媒體運動圖像及其伴音的壓縮編碼數(shù)據(jù)。MPEG-l標準主要用于多媒體存儲與再現(xiàn),如VCD、硬盤和光盤等,它的任務(wù)是將視頻信號及高質(zhì)量伴音以可接受的重建質(zhì)量壓縮到約1.5Mbit/s的碼率,并復合成一個單一的MPEG位流,同時保證視頻和音頻的同步。簡化的MPEG-1編碼框圖

基本的MPEG-1解碼器框圖有損1量化從10bits降為8bits無損2省略水平和垂直空白間隔有損3降低垂直方向色度分辨率(4:2:0)無損4活動圖像的DPCM有損5DCT和量化無損6Z掃描和零序列的游程編碼無損7Huffman編碼-20%量化10bits到8bits270Mbit/s216Mbit/s-25%忽略水平和垂直空白間隔166Mbit/s-25%降低垂直色度分辨率(4:2:0)124.5Mbit/s進一步數(shù)據(jù)壓縮步驟2~6Mbit/sDPCMZ掃描+VLCHuffman編碼進一步數(shù)據(jù)壓縮DCT+量化MPEG-1視頻編碼和解碼1、視頻幀類型幀內(nèi)圖(intrapicture,I幀)——對I幀的編碼類似于JPEG,支持隨機存取,壓縮比低;預測圖(predictedpicture,P幀)——是運動主體在與I幀相隔一定時間,在同一背景上已有明顯變化的畫面。以前面I幀為參考,相同信息不發(fā)送只發(fā)送主體變化差值,進行具有運動補償?shù)那跋蝾A測;雙向預測圖(bidirectionalpicture,B幀)——傳送I、P幀間的畫面,只反映運動主體變化情況,重放時即參考I也參考P,本身不做參考幀使用,不能用作預測參考;2、關(guān)鍵技術(shù)(1)幀序重排在編碼器端需要對輸入圖像重新排序,對按顯示順序輸入的序列,經(jīng)過幀序重排后成為按編碼順序排列,然后按I、P、B幀分別進行編碼;(2)運動估計和補償(3)比特流緩沖器圖像壓縮首先處理I幀圖像,然后是P幀,最后在兩者的基礎(chǔ)上才處理B幀;MPEG編碼器算法允許選擇I圖像頻率(指每秒鐘出現(xiàn)I圖像的次數(shù))和位置;一個典型的I、P、B圖像排列如下:I的距離為15;P的距離為3;“開放性”的視頻碼流:I

幀在碼流中出現(xiàn)的位置和頻率,可根據(jù)圖像序列中隨機存取和景物切換的需要進行選擇。相鄰最近的I與P幀或P幀之間的B幀數(shù)目可以選擇。I,P,B三種圖象的數(shù)據(jù)壓縮比:2~5:1,5~10:1,20~30:1

圖象的編碼順序和顯示順序不相同。問題:MPEG-1中編碼器、解碼器為什么會造成延時?如何減少延時?

解答:MPEG-1圖像編、解碼的顯示順序和編碼順序并不相同;顯示順序如下: IBBPBBPBBPBBIBBP 0123456789101112131415根據(jù)前向預測和雙向預測的關(guān)系,編碼順序如下:

IPBBPBBPBBIBBPBB 0123456789101112131415顯示順序上在前的B幀圖像,由于預測時參照靠后的P幀圖像,在傳輸存儲和解碼是必須先處理P幀圖像,因此在編碼順序上P幀圖像反而在B幀圖像之前;由于編碼順序和顯示順序之間的差異,帶來編、解碼總延時達0.8~1s;這種延時對廣播性質(zhì)的圖像傳輸不會帶來任何影響,因為用戶并不能發(fā)現(xiàn)發(fā)射端與接收端信號起始時間的差異;對于交互性質(zhì)的圖像傳輸,如數(shù)字會議電視會帶來不便,如甲方向乙方提問,由于雙向延時則會1.8~2s以后得到回答;為減小延時采用方法:通過減少B幀使兩個I幀之間的幀數(shù)減少,則編、解碼總延時下降;為進一步減小延時,可以把B幀、P幀全部去掉。這樣可得零延時,此方式稱M-JPEG方式;此時壓縮比降到5:1~7:1,所以延時與壓縮倍數(shù)是互相矛盾的。I幀編碼算法P幀編碼算法B幀編碼算法MPEG-1視頻語法MPEG視頻圖像數(shù)據(jù)流是一個分層結(jié)構(gòu),目的是把位流中邏輯上獨立的實體分開,防止語意模糊,并減輕解碼過程的負擔。MPEG視頻位流分層結(jié)構(gòu)共包括六層:每一層支持一個確定的函數(shù);或是一個信號處理函數(shù)(DCT,運動補償);或是一個邏輯函數(shù)(同步,隨機存取點)等;每一個層的開始有一個頭,作為說明參數(shù)。MPEG-1編碼6層次:圖像序列、圖像組、圖片、 切片slice、宏塊、塊圖像序列層——由連續(xù)圖像組成,用序列終止符結(jié)束;圖像組層——圖像組(GOP)由幾幀連續(xù)圖像組成,是隨機存取單元,其第一幀總是I幀;圖像層——圖像(幀)編碼的基本單元,獨立的顯示單元;條帶層——由一幀圖像中的幾個宏塊組成,主要用于誤差恢復;宏塊層——一個宏塊由四個8×8的亮度塊和兩個8×8的色差塊組成;塊層——一個8×8的像素區(qū)域稱為一個塊,是最小的DCT單位。GOP1GOPSCGOP頭圖像1圖像2圖像3…圖像N圖像SC圖像頭條1條2條3…條m條SC條頭宏塊1宏塊2宏塊3…宏塊nY1宏塊編碼信息Y2Y3Y4C1C28×8系數(shù)塊序列層GOP層圖像層宏塊層像塊層序列SC序列擴展序列頭GOP2…序列EC像條層MPEG-4視頻編碼和解碼MPEG-1和MPEG-2存在不足基于像素和像素塊的編碼,不能對圖像的內(nèi)容進行查詢、編輯和選擇播放等操作,交互性較差;無法在同一場景中集成自然媒體與人造(合成)媒體;不支持超鏈接;不提供對低碼率應用的支持,將圖像分成固定大小的塊,在高壓縮比情況下會有很嚴重的塊效應。MPEG-4視頻編碼和解碼標準簡介“基于音視頻對象的通用編碼算法”,其目的是為多媒體信息壓縮提供統(tǒng)一和開放的平臺,ISO/IEC14496,99年2月公布第一版草案,2000年初正式成為國際標準;目前,在Internet視頻、流媒體、無線通信等領(lǐng)域中得到廣泛應用可支持的比特速率低速率可低到5~64kb/s,高速率高達5Mb/s

;旨在將各種多媒體應用集成于一個完整的框架內(nèi)。層次結(jié)構(gòu)MPEG-4采用了基于對象的編碼方案。對象:一幅圖像中表征有含義的實體的一組區(qū)域;對象代替了像素,一幅圖像/視頻可以看作不能再分解的一組對象;一幅圖像可以包括一個或多個視頻對象,通過紋理、形狀、運動等方式來表征每一個視頻對象的時間、空間信息;基于對象的表征方法帶來了交互性;MPEG-4中所見的視音頻不再是圖像幀的概念,而是一個個視聽場景(AV場景),這些不同的AV場景由不同的AV對象組成;AV對象(Audio/VisualObjects)是聽覺、視覺、或者視聽內(nèi)容的表式單元,其基本單位

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論