版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
多媒體第三章第一頁,共一百五十九頁,2022年,8月28日3.1靜態(tài)圖像壓縮標準JPEG
第二頁,共一百五十九頁,2022年,8月28日3.1.1JPEG標準主要內(nèi)容
ISO/IEC10918號標準“多灰度連續(xù)色調(diào)靜態(tài)圖象壓縮編碼”即JPEG標準,選定ADCT作為靜態(tài)圖象壓縮的標準化算法。該標準為保證通用性,包含以下兩種方式:空間方式可逆編碼空間方式對于基本系統(tǒng)和擴展系統(tǒng)來說,被稱為獨立功能。DCT方式非可逆編碼,包含基本系統(tǒng)(必須保證的功能)和擴展系統(tǒng)(擴充功能)第三頁,共一百五十九頁,2022年,8月28日
3.1.1JPEG標準主要內(nèi)容(續(xù))
基本系統(tǒng)是實現(xiàn)DCT編碼與解碼所需的最小功能集,大多數(shù)的應用系統(tǒng)只要用此標準,就能基本上滿足要求。擴展系統(tǒng)是為了滿足更為廣闊領(lǐng)域的應用要求而設置的。空間方式對于基本系統(tǒng)和擴展系統(tǒng)而言,稱為獨立功能。1.基本系統(tǒng)。輸入圖像精度8位/像素/色,順序模式,Huffman編碼(編碼表DC/AC分別有2個)。2.擴展系統(tǒng)。輸入圖像精度12位/像素/色,累進模式,Huffman編碼(編碼表DC/AC分別有4個)。3.獨立功能。輸入圖像精度2-16位/像素/色,序列模式,Huffman編碼(編碼表有4個),算術(shù)編碼。第四頁,共一百五十九頁,2022年,8月28日3.1.2JPEG靜態(tài)圖像壓縮算法兩種:1.基于DCT的有失真的壓縮算法。2.基于空間線性預測技術(shù)(DPCM)的無失真壓縮算法。第五頁,共一百五十九頁,2022年,8月28日1.
基于DPCM的無失真編碼
預測器熵編碼器表說明無失真編碼器源圖象數(shù)據(jù)壓縮圖象數(shù)據(jù)無失真編碼簡化框圖第六頁,共一百五十九頁,2022年,8月28日基于DPCM的無失真編碼優(yōu)點是硬件易實現(xiàn),重建圖象質(zhì)量好。缺點是壓縮比太低,大約為2:1。第七頁,共一百五十九頁,2022年,8月28日預測器的工作原理是對X的預測值X’,將X-X’進行無失真熵編碼。對X’的求法見圖給出的預測方式。
cbax選擇值預測選擇值預測0123非預測
abc4567a+b-ca+(b-c)/2b+(a-c)/2(a+b)/2(a)X鄰域(b)
預測方式預測器第八頁,共一百五十九頁,2022年,8月28日2.基于DCT的有失真壓縮編碼
該算法包括基本系統(tǒng)和增強系統(tǒng)。離散余弦變換量化處理DC系數(shù)的編碼和AC系數(shù)的行程編碼熵編碼第九頁,共一百五十九頁,2022年,8月28日基于DCT編碼過程FDCT熵編碼器表說明無失真編碼器源圖象數(shù)據(jù)壓縮圖象數(shù)據(jù)量化器表說明88塊(YUV每個分量)第十頁,共一百五十九頁,2022年,8月28日解碼過程熵解碼器IDCT表說明解碼器逆量化器表說明88塊壓縮圖象數(shù)據(jù)恢復的圖象數(shù)據(jù)第十一頁,共一百五十九頁,2022年,8月28日離散余弦變換
(1)首先把原始圖象順序分割成8×8子塊;(2)采樣精度為P位(二進制),把[0,2P-1]范圍的無符號數(shù)變換成[-2P-1,2P-1]范圍的有符號數(shù),作為離散余弦正變換(FDCT)的輸入;(3)在輸出端經(jīng)離散余弦逆變換(IDCT)后又得到一系列8×8子塊,需將數(shù)值范圍[-2P-1,2P-1]變換回[0,2P-1]來重構(gòu)圖象。第十二頁,共一百五十九頁,2022年,8月28日這里用的8×8FDCT的數(shù)學定義為:
F(u,v)=(1/4)C(u)C(v)
[∑x=07∑y=07
f(x,y)·cos((2x+1)u/16)·cos((2y+1)v/16)]
8×8IDCT的數(shù)學定義為:
f(x,y)=(1/4)[∑u=07∑v=07C(u)C(v)F(u,v)·
cos((2x+1)u/16)·cos((2y+1)v/16)]
其中:C(u),C(v)=1/√2
當u,v=0
C(u),C(v)=1
其它下面的編碼針對FDCT輸出的64個基信號的幅值(F(0,0),…,F(7,7)稱作DCT系數(shù))來進行第十三頁,共一百五十九頁,2022年,8月28日量化處理
量化是一個“多到一”的過程,失真原因。關(guān)鍵是找最小量化失真的量化器,JPEG采用線性均勻量化器,定義為對64個DCT系數(shù)除以量化步長,然后四舍五入取整:FQ(u,v)=IntegerRound[F(u,v)/Q(u,v)]Q(u,v)是量化器步長,它是量化表的元素。量化表元素隨DCT系數(shù)的位置和彩色分量不同有不同的值,量化表尺寸為8×8與64個變換系數(shù)一一對應。這個量化表應由用戶規(guī)定(JPEG給出參考值-見表2.2,2.3),并作為編碼器的一個輸入。第十四頁,共一百五十九頁,2022年,8月28日
1611101624405161121214192658605514131624405769561417222951878062182237566810910377243555648110411392496478871031211201017292959811210010399亮度量化表第十五頁,共一百五十九頁,2022年,8月28日
17182447999999991821266699999999242656999999999947669999999999999999999999999999999999999999999999999999999999999999999999999999色度量化表第十六頁,共一百五十九頁,2022年,8月28日
量化的作用:在一定主觀保真度圖象質(zhì)量前提下,丟掉那些對視覺影響不大的信息,通過量化可調(diào)節(jié)數(shù)據(jù)壓縮比。第十七頁,共一百五十九頁,2022年,8月28日
DC系數(shù)的編碼
64個變換系數(shù)經(jīng)量化后,坐標u=v=0的F(0,0)稱DC系數(shù)(直流分量),它即64個空域圖象采樣值的平均值。相鄰8×8塊之間DC系數(shù)有強相關(guān)性。JPEG對量化后的DC系數(shù)采用DPCM編碼,即對DIFF=DCi-DCi-1編碼?!璪locki-1blockiDCi-1DCi
DC系數(shù)差分編碼第十八頁,共一百五十九頁,2022年,8月28日AC系數(shù)的行程編碼
其余63個交流系數(shù)(AC)采用行程編碼。從左上方AC0,1開始沿對角線方向“Z”字形掃描直到AC7,7掃描結(jié)束,這樣可增加行程中連續(xù)0的個數(shù)。AC系數(shù)編碼的碼字用兩個字節(jié)表示,如圖所示:
Z字形掃描第十九頁,共一百五十九頁,2022年,8月28日AC系數(shù)行程編碼碼字兩個非0值間連續(xù)0的個數(shù)
表示下一個非0值需要的bit數(shù)
下一個非0實際值7430字節(jié)1字節(jié)2例子:對“…,3,0,0,0,0,0,12,0,0,…”編碼…,(5,4),(12),….第二十頁,共一百五十九頁,2022年,8月28日熵編碼
為了進一步壓縮數(shù)據(jù),需對DC碼和AC行程編碼的碼字再做基于統(tǒng)計特性的熵編碼。JPEG建議的熵編碼是Huffman編碼和自適應二進制算術(shù)編碼。熵編碼可分成兩步進行:把DC碼和AC行程碼轉(zhuǎn)換為中間符號序列給這些符號賦以變長碼字
第二十一頁,共一百五十九頁,2022年,8月28日AC系數(shù)熵編碼的中間格式
熵編碼的中間格式由兩個符號組成:符號1:(行程,尺寸)符號2:(幅值)第一個信息參數(shù)“行程”表示前后兩個非0的AC系數(shù)之間連續(xù)0的個數(shù)。第二個信息參數(shù)“尺寸”是后一個非0的AC系數(shù)幅值編碼所需比特數(shù)。第二十二頁,共一百五十九頁,2022年,8月28日行程取值范圍為1~15,超過15時用擴展符號1(15,0)來擴充,63個AC系數(shù)最多增加3個擴展符號1。編碼結(jié)束時用(0,0)表示。“尺寸”取值范圍為0~10。“幅值”用以表示非0的AC系數(shù)的值,范圍為[-210,210-1](最長10bit),結(jié)構(gòu)形式如表2-4所示。第二十三頁,共一百五十九頁,2022年,8月28日1-1,12-3..-2,2..33-7..-4,4..74-15..-8,8..1567……89-511..-256,256…51110-1023..-512,512…1023符號2結(jié)構(gòu)第二十四頁,共一百五十九頁,2022年,8月28日DC系數(shù)的熵編碼對于直流分量DC也有類似于AC系數(shù)的編碼格式符號1:(尺寸)符號2:(幅值)“尺寸”表示DC差值的幅值編碼所需的比特數(shù),而“幅值”表示DC差值的幅值,范圍為[-211,211-1]??稍诒?.4中多加一級,幅值尺寸以1到11比特表示。將63個AC系數(shù)表示成為符號1和符號2序列,其中連續(xù)0的長度超過15時,有多個符號1;塊結(jié)束(EOB)時僅有一個符號1(0,0)。第二十五頁,共一百五十九頁,2022年,8月28日
“…4,0,0,0,0,0,0,0,……0,3,0”.4,3之間有31個0.
(15,0),(15,0),(1,2),(3)可變長度熵編碼就是對上述序列進行變長編碼。對DC系數(shù)、AC系數(shù)中的符號1采用Huffman表中的變長碼編碼(VLC),這里Huffman變長碼表必須作為JPEG編碼器輸入。符號2用碼字長度在表2.4中給出的變長整數(shù)VLI碼編碼。VLI是變長碼,但不是Huffman碼。VLI的長度存放在VLC中,JPEG提供VLI碼字表供用戶使用第二十六頁,共一百五十九頁,2022年,8月28日JPEG提供2套Huffman碼表:亮度和色度。每套又有DC表和AC表各1個。共有4個表。表定義(亮度DC系數(shù)碼表)
16B說明碼字長度:
X’00010501010101010100000000000000’
第i個(1-16)元素值表示長度為i的Huffman碼個數(shù)。緊跟一組值說明亮度表分類:
X’000102030405060708090A0B’第二十七頁,共一百五十九頁,2022年,8月28日亮度DC系數(shù)表分類碼長碼字分類碼長碼字0200641110130107511110230118611111033100971111110431011081111111053110119111111110第二十八頁,共一百五十九頁,2022年,8月28日色度DC系數(shù)表分類碼長碼字分類碼長碼字0200661111101201771111110221088111111103311099111111110441110101011111111105511110111111111111110第二十九頁,共一百五十九頁,2022年,8月28日JPEG壓縮效果評價壓縮效果(比特/象素)
質(zhì)量0.25~0.50
中~好0.50~0.75
好~很好0.75~1.5
極好1.2~2.0
與原始圖象分不出來第三十頁,共一百五十九頁,2022年,8月28日3.基于DCT的累進操作方式編碼
順序方式:每個圖象分量的編碼一次掃描完成的;
累進方式:圖象分量編碼要經(jīng)過多次掃描才完成。累進方式第一次掃描只進行一次粗糙圖象的掃描壓縮,以相對于總的傳輸時間快得多的時間傳輸粗糙圖象,并重建一幀質(zhì)量較低的可識別圖象;在隨后的掃描中再對圖象作較細的壓縮,這時只傳遞增加的信息,可重建一幅質(zhì)量提高一些的圖象。這樣不斷累進,直到滿意的圖象為止。第三十一頁,共一百五十九頁,2022年,8月28日為了實現(xiàn)累進的操作:需在量化器的輸出與熵編碼的輸入之間,增加一個足以存儲量化后DCT系數(shù)的緩沖區(qū),對緩沖區(qū)中存儲的DCT系數(shù)多次掃描,分批編碼。兩種累進方式:頻譜選擇法掃描中,只對64個DCT變換系數(shù)中某些頻帶的系數(shù)進行編碼、傳送,隨后對其它頻帶編碼、傳送,直到全部系數(shù)傳送完畢為止。按位逼近法沿著DCT量化系數(shù)有效位(表示系數(shù)精度的位數(shù))方向分段累進編碼。如第1次掃描只取最高有效位的n位編碼、傳送,然后對其余位進行編碼、傳送。第三十二頁,共一百五十九頁,2022年,8月28日4.基于DCT的分層操作方式
分層方式是對一幅原始圖象的空間分辨率,分成多個分辨率進行“錐形”的編碼方法,水平(垂直)方向分辨率的下降以2的倍數(shù)因子改變。
分層操作方式第三十三頁,共一百五十九頁,2022年,8月28日分層操作方式的過程(1)把原始圖象空間分辨率降低。(2)對已降低分辨率的圖象采用基于DCT的順序方式、累進方式或無失真預測編碼中的任何一種編碼方法進行編碼。(3)對低分辨率的圖象解碼,重建圖象,使用插值濾波器,對它插值,恢復圖象的水平和垂直分辨率。(4)把分辨率已升高的圖象作為原始圖象的預測值,對它們的差值采用基于DCT的順序方式、累進方式或用無失真方式進行編碼。(5)重復(3)、(4)直到圖象達到完整的分辨率編碼。第三十四頁,共一百五十九頁,2022年,8月28日3.1.3JPEG2000簡介基于Internet的多媒體應用,給圖像編碼提出了新的要求。2000年12月公布的新的JPEG2000標準(ISO15444),其目標是在高壓縮率情況下保證圖像傳輸質(zhì)量。JPEG中采用DCT變換為主的分塊編碼,考察整個時域過程的頻域特征或整個頻域過程的時域特征。JPEG2000采用以小波變換為主的多分辨率編碼方式。JPEG2000統(tǒng)一了面向靜態(tài)圖像和二值圖像的編碼方式,是既支持低比率壓縮又支持高比率壓縮的通用編碼方式。第三十五頁,共一百五十九頁,2022年,8月28日
該算法主要特點如下:(1)高壓縮率。與JPEG相比,可修復約30%的速率失真特性。JPEG和JPEG2000在壓縮率相同時,JPEG2000的信噪比將提高30%左右;(2)無損壓縮。預測編碼作為對圖像進行無損編碼的成熟方法被集成在JPEG2000中;(3)漸進傳輸。JPEG2000可實現(xiàn)以空間清晰度和信噪比為首的各種可調(diào)節(jié)性,從而實現(xiàn)漸進傳輸,即具有“漸現(xiàn)”特性.第三十六頁,共一百五十九頁,2022年,8月28日(4)感興趣區(qū)域壓縮。JPEG2000支持所謂的“感興趣區(qū)域”。可以指定圖像上感興趣區(qū)域的壓縮量,還可以指定的部分先解壓縮。關(guān)注:1.糾錯能力強。2.可以指定最后文件尺寸大小。適合帶寬受到限制的Web系統(tǒng)和無線網(wǎng)絡上傳輸。第三十七頁,共一百五十九頁,2022年,8月28日3.2運動圖像壓縮標準MPEG第三十八頁,共一百五十九頁,2022年,8月28日3.2.1MPEG標準簡介MPEG標準是面向運動圖象壓縮的一個系列標準。最初MPEG專家組工作項目是3個,即在1.5Mbps,10Mbps,40Mbps傳輸速率下圖象編碼,分別命名為MPEG-1,MPEG-2,MPEG-3。MPEG-3后被取消.1992,MPEG-2使用范圍擴大到HDTV,可以支持MPEG-3的所有功能,因此MPEG-3被取消。為了滿足不同的應用要求,MPEG又將陸續(xù)增加其它一些標準MPEG-4,MPEG-7,MPEG-21。第三十九頁,共一百五十九頁,2022年,8月28日
MPEG算法編碼過程和解碼過程是一種非鏡象對稱算法(不對稱),解碼過程要比編碼過程相對簡單些。MPEG-1和MPEG-2只規(guī)定了解碼的方案,重點將解碼算法標準化。因而用硬件實現(xiàn)MPEG算法時,人們首先實現(xiàn)MPEG的解碼器,如C-Cube公司CL450解碼器系列。隨著MPC性能提高,軟件解壓功能得到支持。第四十頁,共一百五十九頁,2022年,8月28日3.2.2MPEG-1系統(tǒng)
“用于數(shù)字存儲媒體運動圖象及其伴音速率為1.5Mbps的壓縮編碼”簡稱MPEG-1,作為ISO/IEC11172號建議于1992年通過。主要用于在CD-ROM存儲運動視頻圖像,它針對標準分辨率(NTSC制為352×240;PAL制為352×288)的圖像進行壓縮,每秒30幀畫面,具備CD音質(zhì)。它還用于數(shù)字電話網(wǎng)絡上的視頻傳輸,如非對稱數(shù)字用戶線路(ADSL)、視頻點播、教育網(wǎng)絡等。使用MPEG-1的壓縮算法,可將一部120分鐘長的電影壓縮到1.2GB左右。因此,它被廣泛地應用于VCD制作。第四十一頁,共一百五十九頁,2022年,8月28日MPEG-1分為5個部分(1)MPEG系統(tǒng)(11172-1),定義音頻、視頻及有關(guān)數(shù)據(jù)的同步;(2)MPEG視頻(11172-2),定義視頻數(shù)據(jù)的編碼和重建圖象所需的解碼過程,亮度信號分辨率為360×240,色度信號分辨率為180×120;(3)MPEG音頻(11172-3),定義音頻數(shù)據(jù)的編碼和解碼;(4)一致性測試(11172-4);(5)軟件模擬的技術(shù)報告(11172-5)。第四十二頁,共一百五十九頁,2022年,8月28日
MPEG-1解碼器原型第四十三頁,共一百五十九頁,2022年,8月28日MPEG-1編解碼器原型:1.多路復合而成的碼流假設以介質(zhì)特定格式存儲在數(shù)字存儲介質(zhì)(DSM)或網(wǎng)絡上,標準不規(guī)定介質(zhì)特定格式。2.系統(tǒng)解碼器從輸入多路復合流中抽取定時信息,并對輸入流進行分流處理,輸出兩個基本流分別給視頻和音頻解碼器。3.視頻和音頻解碼器分別解碼輸出視頻和聲音信號。
第四十四頁,共一百五十九頁,2022年,8月28日
4.系統(tǒng)、視頻、音頻和介質(zhì)4個解碼器之間用定時信息進行同步。5.多路復合流構(gòu)造為2層:系統(tǒng)層和壓縮層。系統(tǒng)解碼輸入的是系統(tǒng)層;而視頻、音頻解碼器輸入的是壓縮層。第四十五頁,共一百五十九頁,2022年,8月28日
6.系統(tǒng)解碼器執(zhí)行兩類操作:一類是作用在整個多路復合流上的操作,稱為復合流操作;另一類是作用在單個基本流上的操作,稱為特定流操作。7.系統(tǒng)層分為兩個子層:一個子層稱為包(pack),是復合流操作對象;另一個子層稱為組(packet),它用于特定流操作。第四十六頁,共一百五十九頁,2022年,8月28日
MPEG音頻標準的特點:1.音頻信號采樣率可以是32KHz,44.1KHz或48KHz。2.壓縮后的比特流可以按以下4種模式之一支持單聲道或雙聲道:提供給單音頻通道的單聲道模式;提供給兩個獨立的單音頻通道的雙-單聲道模式;提供給立體聲通道的立體聲模式;聯(lián)合立體聲模式,利用立體聲通道之間的關(guān)聯(lián)或通道之間相位差的無關(guān)性,或者對兩者同時利用。第四十七頁,共一百五十九頁,2022年,8月28日
3.MPEG音頻標準提供3個獨立的壓縮層次,用戶可在復雜性和壓縮質(zhì)量之間權(quán)衡選擇。層1最簡單,使用比特率384Kbps,主要用于DCC;層2的復雜度中等,使用比特率192Kbps左右,主要應用于數(shù)字廣播的音頻編碼、CD-ROM上的音頻信號以及CD-I和VCD。層3最為復雜,使用比特率64Kbps,尤其適用于ISDN上的音頻傳輸,有損壓縮但音質(zhì)保持逼真效果。MP3音樂是利用MPEGAudioLayer3的技術(shù),聲音采用1:10甚至1:12的壓縮率第四十八頁,共一百五十九頁,2022年,8月28日
4.壓縮后的比特流具有預定義的比特率之一。MPEG音頻標準也支持用戶使用預定義的比特率之外的比特率。5.編碼后的比特流支持循環(huán)冗余校驗(CRC)。6.MPEG音頻標準還支持在比特流中載帶附加信息。MPEG-1音頻壓縮算法是第一個高保真音頻壓縮國際標準,可完全獨立的應用。第四十九頁,共一百五十九頁,2022年,8月28日
MPEG視頻數(shù)據(jù)流的結(jié)構(gòu)
運動圖象序列圖片組圖片圖片切片宏塊塊8象素8象素MPEG-1數(shù)據(jù)結(jié)構(gòu)第五十頁,共一百五十九頁,2022年,8月28日
1.運動序列包括一個表頭,一組或多組圖像和序列結(jié)束標志碼。2.圖象組由一系列圖像組成,可以從運動序列中隨機存取。3.圖像圖象信號分3個部分:
一個亮度信號Y和兩個色度信號U、V。亮度信號Y由偶數(shù)個行和偶數(shù)個列組成,色度信號U、V取Y信號在水平和垂直方向的1/2。如下圖所示:第五十一頁,共一百五十九頁,2022年,8月28日黑點代表色度U、V位置,亮度Y位置用白圈表示。色度和亮度的位置關(guān)系第五十二頁,共一百五十九頁,2022年,8月28日
4.塊:一個塊由一個8×8的亮度信息或色度信息組成。5.宏塊一個宏塊由一個16×16的亮度信息和兩個8×8色度信息構(gòu)成,如圖所示。6.圖象切片由一個或多個連續(xù)的宏塊構(gòu)成。
YUV8X88X8123456宏塊的組成第五十三頁,共一百五十九頁,2022年,8月28日
3.2.4MPEG-1視頻編碼技術(shù)
主要問題:一方面使用幀內(nèi)編碼無法達到很高的壓縮比,另一方面用單一的靜止幀內(nèi)編碼方法能最好地滿足隨機存取的要求。解決方法:對這兩個方面做了折衷考慮。即為了減少時間上冗余性的基于塊的運動補償技術(shù)和基于DCT變換的減少空間上冗余性的ADCT技術(shù)。第五十四頁,共一百五十九頁,2022年,8月28日在MPEG中將圖象分為3種類型:I圖象利用圖象自身的相關(guān)性壓縮,提供壓縮數(shù)據(jù)流中的隨機存取的點.P圖象用最近的前一個I圖象(或P圖象)預測編碼得到(前向預測)。B圖象B圖象在預測時,既可使用了前一個圖象作參照,也可使用下一個圖象做參照或同時使用前后兩個圖象作為參照圖象(雙向預測)。1.圖像類型第五十五頁,共一百五十九頁,2022年,8月28日幀間預測1I2B3B4B5P6B7B8B1I前向預測雙向預測第五十六頁,共一百五十九頁,2022年,8月28日
1秒?yún)⒄諑g有2個B圖象
每0.5秒1幀I圖象123456789101112131415161718192021222324252627282930IBBPBBPBBPBBPBBIBBPBBPBBPBBPBB典型的圖象類型的顯示次序2.運動序列流的組成
第五十七頁,共一百五十九頁,2022年,8月28日傳輸順序MPEG編碼器需對上述圖象重新排序,以便解碼器高效工作,因為參照圖象必須先于B圖象恢復之前恢復。上述1~7幀圖象重排后圖象組次序為:4213756IPBBPBB第五十八頁,共一百五十九頁,2022年,8月28日3.運動補償技術(shù)運動補償技術(shù):
用于消除P圖象和B圖象在時間上的冗余性,提高壓縮效率。
MPEG中,運動補償技術(shù)工作在宏塊一級。B圖象每16*16宏塊有4種類型
幀內(nèi)宏塊,簡稱I塊;前向預測宏塊,簡稱F塊;后向預測宏塊,簡稱B塊;平均宏塊,簡稱A塊。對于P圖象,其宏塊只有I塊和F塊兩種。第五十九頁,共一百五十九頁,2022年,8月28日無論B圖象和P圖象,I塊處理技術(shù)都與I圖象中采用技術(shù)一致即ADCT技術(shù)。對于F塊、B塊和A塊,MPEG都采用基于塊的運動補償技術(shù)。F塊預測時其參照為前一個I圖象或P圖象B塊預測時其參照為后一個I圖象或P圖象對于A塊預測其參照為前后兩個I圖象或P圖象第六十頁,共一百五十九頁,2022年,8月28日基于塊的運動補償技術(shù)基于塊的運動補償技術(shù),就是在其參照幀中尋找符合一定條件,當前被預測塊的最佳匹配塊。找到匹配塊后,有兩種處理方法:一是在恢復被預測塊時,用匹配塊代替;二是對預測的誤差采用ADCT技術(shù)編碼,在恢復被預測塊時,用匹配塊加上預測誤差。第六十一頁,共一百五十九頁,2022年,8月28日宏塊的預測方式宏塊類型預測器預測誤差I(lǐng)塊I1(X)=128I1(X)-I1(X)F塊I1(X)=I0(X+mv01)I1(X)-I1(X)B塊I1(X)=I2(X+mv21)I1(X)-I1(X)A塊I1(X)=(I0(X+mv01)+I2(X+mv21))/2I1(X)-I1(X)第六十二頁,共一百五十九頁,2022年,8月28日3.運動補償技術(shù)(續(xù))MPEG標準只說明了怎樣表示運動信息,如根據(jù)運動補償類型,前向預測、后向預測、雙向預測等,每個16*16宏塊可包含有一個或兩個運動矢量。并沒有說明運動矢量如何計算,但它采用基于塊的表示方法,使用塊匹配技術(shù)是可行的。通過搜索當前圖像宏塊與參照圖像之間的誤差可獲得運動向量。第六十三頁,共一百五十九頁,2022年,8月28日4.MPEG-1視頻系統(tǒng)MPEG-1視頻提供了統(tǒng)一的編碼格式描述存儲在各種數(shù)字存儲媒體上經(jīng)過壓縮的視頻信息。塌縮定義的主要受限參數(shù)包括:畫面橫向尺寸≤768像素,畫面縱向尺寸≤576像素,畫面區(qū)域≤396宏塊;像素速率≤396*25宏塊/秒;畫面速率≤30Hz;比特速率≤1856000bps。該標準不規(guī)定編碼過程,但確定比特流的語法和語義。下面是編碼器的主要模塊:第六十四頁,共一百五十九頁,2022年,8月28日4.MPEG-1視頻系統(tǒng)
簡化的視頻編碼框圖
第六十五頁,共一百五十九頁,2022年,8月28日基本的視頻解碼器框圖
第六十六頁,共一百五十九頁,2022年,8月28日3.2.5MPEG-2標準MPEG-2標準名稱為“運動圖像及其伴音信息的通用編碼”,(ISO/IEC13818)標準制定于1994年。該標準10個部分:1.MPEG-2系統(tǒng),規(guī)定音頻、視頻及有關(guān)數(shù)據(jù)的同步;2.MPEG-2視頻,規(guī)定視頻數(shù)據(jù)的編碼和解碼;3.MPEG-2音頻,規(guī)定音頻數(shù)據(jù)的編碼和解碼;4.MPEG-2一致性測試;5.MPEG-2軟件模擬;6.MPEG-2數(shù)字存儲媒體;7.MPEG-2高級聲音編碼;8.MPEG-2系統(tǒng)解碼器實時接口擴展標準;9.MPEG-2DSM-CC一致性測試;10.MPEG-2高級聲音編碼標準。第六十七頁,共一百五十九頁,2022年,8月28日3.2.5MPEG-2標準(續(xù))MPEG-2標準的系統(tǒng)功能是將一個或多個音頻、視頻或其它的基本數(shù)據(jù)流合成單個或多個數(shù)據(jù)流,以適應存儲和傳輸。MPEG-2系統(tǒng)具有5個基本功能:1.解碼時多壓縮流的同步;2.將多個壓縮流交織成單個數(shù)據(jù)流;3.解碼時緩沖器初始化;4.緩沖區(qū)管理;5.時間識別。第六十八頁,共一百五十九頁,2022年,8月28日3.2.5MPEG-2標準它利用網(wǎng)絡3~100Mbps的數(shù)據(jù)傳輸率來支持具有更高分辨率圖象的壓縮和更高的圖象質(zhì)量。MPEG-2可支持交迭圖象序列,支持可調(diào)節(jié)性編碼,多種運動估計方式,提供一個較廣的范圍改變壓縮比,以適應不同畫面質(zhì)量、存儲容量和帶寬的要求。它與MPEG-1兼容基礎上實現(xiàn)了低碼率和多聲道擴展:MPEG-2可以將一部120分鐘長的電影壓縮到4~8GB(DVD質(zhì)量),其音頻編碼可提供左右中及兩個環(huán)繞聲道、一個加重低音聲道和多達7個伴音聲道。第六十九頁,共一百五十九頁,2022年,8月28日
除了作為DVD指定標準外,MPEG-2還可用于為廣播、有線電視網(wǎng)、電纜網(wǎng)絡等提供廣播級數(shù)字視頻.MPEG-2Video定義了不同的功能檔次(Profiles)每個檔次又分為幾個等級(Levels),一個等級為N的解碼器能夠?qū)ψ罡邽樵摰燃壍臄?shù)碼流解碼。
第七十頁,共一百五十九頁,2022年,8月28日5個檔次簡單型(Simple)基本型(Main)信噪比可調(diào)型(SNRScalable)空間可調(diào)型(SpatialScalable)增強型(High)第七十一頁,共一百五十九頁,2022年,8月28日4個等級低級(Low)35228830,它面向VCR并與MPEG-1兼容;基本級(Main)72046030或72057625,它面向視頻廣播信號;高1440級(High-1440)1440108030或1440115225,它面向HDTV;高級(High)1920108030或1920115225,它面向HDTV。
第七十二頁,共一百五十九頁,2022年,8月28日11種規(guī)范高級的基本型MP@HL高級的增強型HP@HL高-1440級的基本型MP@H1440高-1440級的空間可調(diào)型SSP@H1440高-1440級的的增強型HP@H1440基本級的簡單型SP@ML基本級基本型MP@ML基本級的信噪比可調(diào)型SNP@ML基本級的增強型HP@ML低級的基本型MP@LL低級的信噪比可調(diào)型SNP@LL第七十三頁,共一百五十九頁,2022年,8月28日MPEG-2音頻基本特性之一是向后與MPEG-1音頻兼容??梢允?.1也可以是7.1通道的環(huán)繞立體聲。5.1也稱為“3/2-立體聲加LFE”,其含義是播音現(xiàn)場前面可有3個喇叭通道(左、中、右),后面可有2個環(huán)繞聲喇叭通道。LFE是低頻音效加強通道。7.1通道環(huán)繞立體聲與5.1類似,它另有中左、中右2個喇叭通道。第七十四頁,共一百五十九頁,2022年,8月28日MPEG-2還支持線性PCM和DolbyAC-3編碼。DolbyAC-3支持5個聲道(左、中、右、左環(huán)繞、右環(huán)繞)和0.1HZ以下的低聲音音效聲道,聲音樣本精度為20位,每個聲音的采樣率可以是32khz、44.1khz、48khz,最大聲音速率為448kbps.線性PCM可支持8個聲道,聲音樣本精度為16/20/24位,每個聲音的采樣率可以是48khz或96khz,最大聲音速率為6.144Mbps.第七十五頁,共一百五十九頁,2022年,8月28日2.MPEG-2編碼方法
MPEG-2的編碼方法和MPEG-1區(qū)別主要是在隔行掃描制式下,DCT變換是在場內(nèi)還是在幀內(nèi)進行由用戶自行選擇,亦可自適應選擇。一般情況下,對細節(jié)多、運動部分少的圖象在幀內(nèi)進行DCT,而細節(jié)少、運動分量多的圖象在場內(nèi)進行DCT。MPEG-2采用可調(diào)型和非可調(diào)型兩種編碼結(jié)構(gòu)。還可以使用一個基本層加上多個增強型的多層編碼結(jié)構(gòu),這由用戶按質(zhì)量和壓縮比要求選擇使用.第七十六頁,共一百五十九頁,2022年,8月28日MPEG-2亮度宏塊結(jié)構(gòu)第七十七頁,共一百五十九頁,2022年,8月28日空間可調(diào)型MPEG-2編碼器原理框圖第七十八頁,共一百五十九頁,2022年,8月28日MPEG-2編碼方法MPEG-2算法編碼過程和解碼過程是一種非鏡像對稱算法,即運動圖像的壓縮編碼過程與還原解碼過程是不對稱算法,解碼過程比編碼過程相對簡單。MPEG-1和MPEG-2只規(guī)定了解碼的方案,重點將解碼算法標準化。第七十九頁,共一百五十九頁,2022年,8月28日3.2.6MPEG-4標準MPEG-4“甚低速率視聽編碼”1998年11月公布,它針對低速率視音頻編碼,更加注重系統(tǒng)交互性和靈活性。MPEG-4引入了AV對象(AVO),使得更多的交互操作成為可能:“AV對象”可以是一個孤立的人,也可以是這個人的語音或一段背景音樂等。第八十頁,共一百五十九頁,2022年,8月28日3.2.6MPEG-4標準(續(xù))MPEG-4對AV對象的操作主要有:
采用AV對象來表示聽覺、視覺或者視聽組合內(nèi)容;組合已有AV對象來生成復合的AV對象,并生成AV場景;對AV對象的數(shù)據(jù)靈活地多路合成與同步,以便選擇合適的網(wǎng)絡來傳輸這些AV對象數(shù)據(jù);允許接收端用戶在AV場景中對AV對象進行交互操作等。第八十一頁,共一百五十九頁,2022年,8月28日3.2.6MPEG-4標準(續(xù))MPEG-4標準主要構(gòu)成部分:(1)傳輸多媒體集成框架(DMIF)。主要用于解決交互網(wǎng)絡中、廣播環(huán)境下以及光盤應用中多媒體應用操作問題。它是MPEG-4制訂會話協(xié)議,用來管理多媒體數(shù)據(jù)流。通過傳輸多路合成比特信息來建立客戶端和服務器端的連接與傳輸。第八十二頁,共一百五十九頁,2022年,8月28日3.2.6MPEG-4標準(續(xù))(2)場景描述。場景聲音視頻對象間的關(guān)系的描述體現(xiàn)在兩個層次:BIFS描述場景中對象的空間時間安排,觀察者可以有與這些對象交互的可能性;在較低的層次上,對象描述子定義針對每個對象的基本流的關(guān)系,并提供諸如訪問基本流需要的URL地址、譯碼器的特性、知識產(chǎn)權(quán)等其它信息。
MPEG-4具備與Web3DX3D和W3CSMIL的互操作性。XMT格式可在SMIL播放器、VRML和MPEG-4播放器間互換。第八十三頁,共一百五十九頁,2022年,8月28日3.2.6MPEG-4標準(續(xù))
(3)音頻編碼。MPEG-4不僅支持自然聲音,而且支持合成聲音。MPEG-4的音頻部分將音頻的合成編碼和自然聲音的編碼相結(jié)合,并支持音頻的對象特征。支持MIDI和TTS.(4)視頻編碼。MPEG-4也支持對自然和合成的視覺對象的編碼。合成的視覺對象包括2D、3D動畫和人面部表情動畫等。(5)緩沖區(qū)管理和實時解碼。MPEG-4定義了一個系統(tǒng)解碼模式(SDM),該解碼模式描述了一種理想的處理比特流句法語義的解碼裝置,它要求特殊的緩沖區(qū)和實時模式。通過有效地管理,可以更好地利用有限的緩沖區(qū)空間。第八十四頁,共一百五十九頁,2022年,8月28日2.MPEG-4視頻編碼技術(shù)MPEG-4中的場景采用層次化的樹形結(jié)構(gòu),基本的組成單位是各個視頻對象(VO)和音頻對象(AO)。邏輯結(jié)構(gòu)分為如下層次:1.VS,是視頻碼流中最高層的語法結(jié)構(gòu),與完整的MPEG-4可視場景相對應,可以包括一個或多個VO;第八十五頁,共一百五十九頁,2022年,8月28日2.VO,與場景中一個特定對象相對應,可以是矩形幀,也可以是任意形狀。3.VOL,每個VO可以采用多個VOL,實現(xiàn)可分級編碼。4.GOV,是多個視頻對象面的組合,每個GOV獨立編碼,從而提供隨機訪問點,可用于快進、快退和搜索。5.VOP,視頻對象和某個時刻的VO相對應,包括幀內(nèi)VOP(I-VOP)、預測VOP(P-VOP)、雙向差值VOP(B-VOP)第八十六頁,共一百五十九頁,2022年,8月28日MPEG-4視頻編碼器的算法方框圖
第八十七頁,共一百五十九頁,2022年,8月28日
MPEG-4終端的構(gòu)成(接收端)
第八十八頁,共一百五十九頁,2022年,8月28日3.MPEG-4音頻編碼MPEG-4音頻編碼分為自然音頻編碼和合成音頻編碼兩大類。在自然音頻編碼方面有3種編碼方案:參數(shù)編碼、碼本激勵線性預測器、時間/頻率編碼。在合成音頻編碼方面2種編碼方案:結(jié)構(gòu)音頻和文語轉(zhuǎn)換。它的應用從智能語音到高質(zhì)量多聲道音頻,從自然聲音道合成聲音。第八十九頁,共一百五十九頁,2022年,8月28日MPEG-4音頻編碼(續(xù))支持下面成分組成的高效表示。1.語音信號。能實現(xiàn)位率在2kps-24kps間的語音編碼。2.合成語音。3.普通音頻信號。4.合成音頻。5.復雜度綁定的合成音頻。6.其它功能。7.新的工具和功能。第九十頁,共一百五十九頁,2022年,8月28日4.MPEG-4應用實例背景全景圖+視頻對象(VO)=合成圖象第九十一頁,共一百五十九頁,2022年,8月28日MPEG-4標準(續(xù))與MPEG-1和2相比,MPEG-4更適于交互AV服務以及遠程監(jiān)控,其設計目標使它具有更廣適應性和可擴展性:傳輸速率可在4.8-64kbps之間,分辨率為176×144,可以利用很窄帶寬通過幀重建技術(shù)壓縮和傳輸數(shù)據(jù)。它將應用在數(shù)字電視、動態(tài)圖像、互聯(lián)網(wǎng)、實時多媒體監(jiān)控、移動多媒體通信、Internet/Intranet上的視頻流與可視游戲、DVD上的交互多媒體等方面。第九十二頁,共一百五十九頁,2022年,8月28日MPEG-4標準(續(xù))MPEG-4用MPEG-4壓縮算法的ASF可以將120分鐘的電影壓縮為300MB左右的視頻流;采用MPEG-4壓縮算法的DIVX編碼技術(shù)可以將120分鐘的電影壓縮600MB左右,也可以將一部DVD影片壓縮到2張CD-ROM上。第九十三頁,共一百五十九頁,2022年,8月28日MPEG-4屬于一種高比率有損壓縮算法,其圖像質(zhì)量始終無法和DVD的MPEG-2相比,畢竟DVD的存儲容量較大。要想保證高速運動的圖像畫面不失真,必須有足夠的碼率,目前MPEG-4的碼率雖然可以調(diào)到和DVD差不多,但總體效果還有不小的差距。因此,對圖像質(zhì)量要求較高的專業(yè)視頻領(lǐng)域暫時還不能采用。第九十四頁,共一百五十九頁,2022年,8月28日3.3
視聽通信編碼解碼標準H.26X
第九十五頁,共一百五十九頁,2022年,8月28日3.3.1H.26x標準簡介H.26X系列標準時ITU制定的面向可視通信領(lǐng)域的國際標準。由綜合業(yè)務數(shù)字網(wǎng)推動的H.261標準克服了傳統(tǒng)編碼方案壓縮率不大、電視制式及PCM標準的不兼容性等特點,采取策略是讓用戶自己決定視頻圖像的質(zhì)量和傳輸速率,并采用統(tǒng)一的圖像格式CIF。H.261標準覆蓋的位率范圍不大,適合各種各樣視頻使用。第九十六頁,共一百五十九頁,2022年,8月28日H.26x標準簡介(續(xù))為了適應B-IDSN的傳輸需求,ITU與MPEG聯(lián)合發(fā)布ISO/IEC13818號MPEG-2標準又稱為ITUH.262,與H.261和MPEG-1相兼容,是通用標準。H.263是在H.261基礎上開發(fā)的,1996年發(fā)布,吸收了MPEG的若干概念和思想,設計用于低速率傳輸標準。ITUH.264與ISOMPEG-4的第十部分(ISO/IEC11496-10)是ISOMPEG和ITU-TVCEG聯(lián)合,名稱是高級視頻編碼AVC。第九十七頁,共一百五十九頁,2022年,8月28日3.3.2H.261標準ITU推薦H.261方案標題“64Kbps視聲服務用視象編碼方式”,又稱為P×64Kbps視頻編碼標準。包括信源編碼和統(tǒng)計編碼。信源編碼采用有失真編碼按方法,又分為幀內(nèi)編碼和幀間編碼。P取值范圍為1-30。P=1或2時,僅能支持QCIF(176×144)分辨率格式,每秒幀數(shù)較低的可視電話;當P≥6時,則可支持圖象分辨率格式為CIF(352×288)的電視會議。第九十八頁,共一百五十九頁,2022年,8月28日P×64Kbps壓縮算法采用基于DCT的變換編碼和帶有運動預測的DPCM預測編碼的混合方法。P×64Kbps標準的壓縮算法與MPEG-1標準有許多共同之處,只是傳輸速率P×64Kbps覆蓋較寬的信道頻帶,而MPEG-1是基于較窄的頻帶上傳輸。
第九十九頁,共一百五十九頁,2022年,8月28日幀內(nèi)編碼算法,采用基于DCT8*8塊的變換編碼方法。8*8塊的DCT系數(shù)經(jīng)線性量化,經(jīng)視頻多路編碼器進入緩沖器,通過掌握的緩沖器空滿度,改變量化器的步長來調(diào)節(jié)視頻信息比特流,與傳輸信道速率匹配。幀內(nèi)編碼的結(jié)果送入視頻多路解碼器,經(jīng)解碼后重建圖像存入緩沖區(qū)以備幀間編碼使用。第一百頁,共一百五十九頁,2022年,8月28日幀間編碼采用混合編碼方法可減少時域的冗余信息。DPCM編碼對當前宏塊與宏塊的預測值的誤差進行編碼,當誤差大于某閾值時,對誤差進行DCT變換,量化處理,然后和運動向量信息一起送到視頻多路編碼器,必要時可使用循環(huán)過濾器,濾掉高頻噪聲,改善圖像質(zhì)量。熵編碼利用信號統(tǒng)計特性來減少比特率。第一百零一頁,共一百五十九頁,2022年,8月28日H.261標準編碼器結(jié)構(gòu)圖H.261編碼器第一百零二頁,共一百五十九頁,2022年,8月28日利用CIF格式,可使不同制式的各國電視信號變換為統(tǒng)一的中間格式,然后輸入給編碼器,從而使編碼器本身不必意識信號是來自哪種制式的。H.261標準適合各種各樣實時視覺應用,如位率不同(P不同),運動效果和圖象質(zhì)量不同,位率提高、畫面質(zhì)量改善。第一百零三頁,共一百五十九頁,2022年,8月28日CIF使用示例利用CIF的優(yōu)點第一百零四頁,共一百五十九頁,2022年,8月28日
視頻層次數(shù)據(jù)結(jié)構(gòu)
P×64Kbps標準采用層次塊的視頻數(shù)據(jù)結(jié)構(gòu)形式,使高壓縮視頻編碼算法得以實現(xiàn)。P×64Kbps標準的視頻編碼定義一個視頻數(shù)據(jù)結(jié)構(gòu)CIF,保證解碼器對接收到的比特流進行沒有二義性的正確解碼。第一百零五頁,共一百五十九頁,2022年,8月28日圖像頭QCIF幀圖塊組1塊組2塊組3塊組1頭宏塊1宏塊2宏塊33宏塊1頭亮度塊1亮度塊4色度塊1色度塊2DCT系數(shù)……DCT系數(shù)塊結(jié)束…視頻數(shù)據(jù)結(jié)構(gòu)圖
第一百零六頁,共一百五十九頁,2022年,8月28日圖象數(shù)據(jù)層次結(jié)構(gòu)
123456789101112135幀QCIF123456789101112131415161718192021222324252627282930313233塊組123456宏塊88CIF塊第一百零七頁,共一百五十九頁,2022年,8月28日
為了適應B-ISDNATM傳輸需要,ITU與MPEG聯(lián)合發(fā)布ISO/IEC13818,分別稱為H.262和MPEG-2標準,它與H.261和MPEG-1兼容。H.263是ITU-T制定的適合于低速視頻信號壓縮標準。大多數(shù)用戶最方便的是公用電話線,以V.34為標準的調(diào)制解調(diào)器支持在電話線中傳輸速率可達28.8kbps或33.6kbps,甚至56kbps.2.5.3H.263標準
第一百零八頁,共一百五十九頁,2022年,8月28日2.5.3H.263標準(續(xù))與MPEG-4基于對象編碼不同,H.263采用基于幀編碼.H.263是在H.261基礎上擴展形成的,支持的圖象格式包括Sub-QCIF(12896),QCIF,CIF,4CIF,16CIF(14081152)等。其中主要采用的改進技術(shù)有:第一百零九頁,共一百五十九頁,2022年,8月28日
(1)半象素精度的運動補償在H.261中,運動矢量的精度為1個象素,H.263運動矢量的估值精度達到半個象素。精度的提高使運動補償后的幀間誤差減少,從而降低了碼率。(2)不受限的運動矢量當運動跨越圖象邊界時,由運動矢量所確定的宏塊位置可能有一部分落在邊界之外,此時可以用邊界上的象素值表示界外的象素值,從而降低預測誤差。(3)用基于句法的算術(shù)編碼代替Huffman編碼(可選項)這是一種效率較高的自適應算術(shù)編碼。第一百一十頁,共一百五十九頁,2022年,8月28日
(4)先進的預測模式(可選項)
對宏塊中的4個亮度塊分別進行運動估值獲得4個運動矢量。雖然此時傳輸運動矢量的比特數(shù)增加一些,但由于預測誤差的大幅度降低,仍然使總碼率降低。(5)PB幀模式(可選項)
雖然使用雙向預測B幀可以降低碼率,但卻要引入附加的編碼延時和解碼延時.為降低延時,H.263采用了P幀和B幀作為一個單元來處理的方式,即將P幀和由該幀與上一個P幀所共同預測的B幀一起進行編碼。第一百一十一頁,共一百五十九頁,2022年,8月28日在1997年的ITU-T推薦的H.263第2版本,增加如下選項:1.為改善視頻信號在網(wǎng)絡中傳輸質(zhì)量,增加了一種具有時間可調(diào)性和兩種信噪比可調(diào)性或空間可調(diào)性的編碼。2.改進的PB幀模式增強了頻繁使用PB幀時的魯棒性。3.為了適應更廣泛的應用,除標準的格式外,允許用戶使用自定義的圖像格式。4.提供9種新的編碼方式。5.支持在碼流中增添新的輔助信息。第一百一十二頁,共一百五十九頁,2022年,8月28日2.5.4H.264/AVC標準ITU-T和ISO/IEC聯(lián)合開發(fā)組共同開發(fā)的最新標準,主要目標是:在相同帶寬下提供更加優(yōu)秀的圖像質(zhì)量,同等質(zhì)量下壓縮效率比提高了2倍以上。H.264最大的技術(shù)優(yōu)勢體現(xiàn)在4個方面:
1)將每個視頻幀分離成由像素組成的塊,因此視頻幀的編碼處理的過程可以達到塊的級別。
2)采用空間冗余方法,對視頻幀一些原始塊進行空間預測、轉(zhuǎn)換、優(yōu)化和熵編碼。
第一百一十三頁,共一百五十九頁,2022年,8月28日3)對連續(xù)幀的不同塊采用臨時存放的方法,這樣只需對連續(xù)幀中有改變的部分進行編碼。4)采用剩余空間冗余技術(shù),對視頻幀里殘留塊進行編碼。對源塊和相應預測塊不同,再次采用轉(zhuǎn)換、優(yōu)化和熵編碼。
第一百一十四頁,共一百五十九頁,2022年,8月28日H.264是保留了以往壓縮技術(shù)的長處又具有其它壓縮技術(shù)無法比擬的許多優(yōu)點。
1)低碼流:采用H.264技術(shù)壓縮后的數(shù)據(jù)量只有MPEG-2的1/8,MPEG-4的1/3。
2)高質(zhì)量的圖像:H.264能提供連續(xù)、流暢的高質(zhì)量圖像(DVD質(zhì)量)。H.264標準的特點第一百一十五頁,共一百五十九頁,2022年,8月28日3)容錯能力強:H.264提供了解決在不穩(wěn)定網(wǎng)絡環(huán)境下容易發(fā)生的丟包等錯誤的必要工具。4)網(wǎng)絡適應性強:H.264提供了網(wǎng)絡適配層,使得H.264的文件能容易地在不同網(wǎng)絡上傳輸(例如互聯(lián)網(wǎng),CDMA,GPRS,WCDMA,CDMA2000等)。第一百一十六頁,共一百五十九頁,2022年,8月28日H.264適用領(lǐng)域主要有:基于有線、衛(wèi)星、有線調(diào)制解調(diào)器、DSL等的廣播;交互或線性存儲于光設備或磁設備的存儲,如DVD;通過ISDN、以太網(wǎng)、局域網(wǎng)、DSL、無線移動網(wǎng)等進行會話服務、視頻點播或多媒體流服務、多媒體信息服務等。第一百一十七頁,共一百五十九頁,2022年,8月28日3.4AVS標準AVS工作組全名數(shù)字音視頻編解碼技術(shù)標準工作組,由中國國家信息產(chǎn)業(yè)部于2002.6月成立。任務:面向我國的信息產(chǎn)業(yè)需求,聯(lián)合國內(nèi)企業(yè)和科研機構(gòu),制定數(shù)字音視頻的壓縮、解壓縮、處理和表示等共性技術(shù)標準,為數(shù)字音視頻設備與系統(tǒng)提供高效經(jīng)濟的編解碼技術(shù),服務于高分辨率數(shù)字廣播、高密度激光數(shù)字存儲媒體、無線寬帶多媒體通信、互聯(lián)網(wǎng)寬帶流媒體等重大信息產(chǎn)業(yè)應用。第一百一十八頁,共一百五十九頁,2022年,8月28日3.4.1標準工作簡況與發(fā)展目前音頻產(chǎn)業(yè)可選擇的信源編碼標準有:MPEG-1,MPEG-2,MPEG-4AVC(H.264),AVS。制定者:前三個是MPEG工作組開發(fā)的,第四個是我國自主制定的。發(fā)展階段:MPEG-2是第一代信源標準,其余為第二代標準。編碼效率:MPEG-4是MPEG-2的1.4倍,AVS和AVC相當,都是MPEG-2的二倍以上。第一百一十九頁,共一百五十九頁,2022年,8月28日標準工作簡況與發(fā)展AVS是我國具有自主知識產(chǎn)權(quán)的第二代音源編碼標準,是數(shù)字音頻產(chǎn)業(yè)的共性基礎標準。具有先進性、自主性、開放性。第一百二十頁,共一百五十九頁,2022年,8月28日標準工作簡況與發(fā)展AVS通過簡潔的一站式許可政策,解決了AVC專利許可問題死結(jié),制定過程開放、國際化,是開放式制訂的國家、國際標準,易于推廣;AVC僅是一個視頻編碼標準,而AVS是一套包含系統(tǒng)、視頻、音頻、媒體版權(quán)管理在內(nèi)的完整標準體系,為數(shù)字音視頻產(chǎn)業(yè)提供更全面的解決方案。第一百二十一頁,共一百五十九頁,2022年,8月28日標準工作簡況與發(fā)展AVS標準是《信息技術(shù)-先進音視頻編碼》系列標準的簡稱,它包括9個部分:系統(tǒng)(第1部分)、視頻(第2部分)、音頻(第3部分)、數(shù)字版權(quán)管理(第6部分)技術(shù)標準、一致性測試(第4部分)、參考軟件(第5部分)、移動視頻(第7部分)、系統(tǒng)知識產(chǎn)權(quán)IP(第8部分)、文件格式(第9部分)等支撐標準。第一百二十二頁,共一百五十九頁,2022年,8月28日標準工作簡況與發(fā)展2006年2月22日,國家標準化管理委員會頒布通知:《信息技術(shù)-先進音視頻編碼》第2部分視頻(GB/T20090.2)于2006年3月1日起開始實施。標準其他部分將繼續(xù)開展工作,陸續(xù)進入標準報批和審核程序。第一百二十三頁,共一百五十九頁,2022年,8月28日標準工作簡況與發(fā)展應用范圍:數(shù)字電視、激光視盤、網(wǎng)絡流媒體、無線流媒體、數(shù)字視頻廣播、數(shù)字音頻廣播、監(jiān)控領(lǐng)域等。主要產(chǎn)品形態(tài):1.芯片:高清晰度/標準清晰度AVS解碼芯片和編碼芯片。2.軟件:AVS節(jié)目制作與管理系統(tǒng)。3.整機:機頂盒、硬盤播出服務器等。第一百二十四頁,共一百五十九頁,2022年,8月28日3.4.2AVS標準音頻技術(shù)AVS系統(tǒng)層設計師基于MPEG-2系統(tǒng),AVS視頻將作為MPEG-2系統(tǒng)流的一個“基本流”,利用MPEG-2的系統(tǒng)層進行傳輸和存儲。AVS視頻的壓縮將作為PES負載。在系統(tǒng)格式方面,根據(jù)AVS視音頻數(shù)據(jù)的特點,對MPEG-2系統(tǒng)流語法進行改進和擴充。AVS還需改進傳輸流和程序流的系統(tǒng)解碼器模型,端到端延遲恒定的系統(tǒng)模型,視音頻的同步解碼和顯示,復用和解復用。第一百二十五頁,共一百五十九頁,2022年,8月28日AVS標準音頻技術(shù)AVS音頻編碼對系統(tǒng)的具體要求:音頻的聲道數(shù)量:單聲道、雙聲道、5.1聲道、7.1聲道。采樣率:44.1kHZ,48kHZ,96kHZ。音頻解碼器要求系統(tǒng)的緩存區(qū)大小:4096字節(jié)。第一百二十六頁,共一百五十九頁,2022年,8月28日3.4.3AVS標準視頻技術(shù)與MPEG都采用混合編碼框架,包括變換、量化、熵編碼、幀內(nèi)預測、幀間預測、環(huán)路預測等技術(shù)模式。創(chuàng)新在于提出了一批具體的優(yōu)化技術(shù),在較低復雜度下實現(xiàn)了與國際標準相當?shù)募夹g(shù)性能。核心技術(shù):8*8整數(shù)變換、量化、幀內(nèi)預測、1/4精度像素插值、特殊的幀間預測運動補償、二維熵編碼、去塊效應環(huán)路濾波等。第一百二十七頁,共一百五十九頁,2022年,8月28日AVS標準視頻技術(shù)特點:1.性能高,編碼效率是MPEG-2的兩倍以上,與H.264的編碼效率相同。2.復雜度低,算法復雜度比H.264明顯地,軟硬件實現(xiàn)成本都低于H.264.3.我國掌握主要知識產(chǎn)權(quán),專利授權(quán)模式簡單,費用低。第一百二十八頁,共一百五十九頁,2022年,8月28日2.5聲音壓縮標準
第一百二十九頁,共一百五十九頁,2022年,8月28日3.5.1聲音編碼
聲音包括語音和音樂,是多媒體系統(tǒng)中兩類重要數(shù)據(jù)。語音數(shù)據(jù),由于電話的普及,應用范圍很廣。聲音數(shù)據(jù)表征是一個一維時變系統(tǒng),特別對于語音數(shù)據(jù),人們已經(jīng)找到了較合理的聲道模型,因此聲音數(shù)據(jù)的壓縮要比圖象數(shù)據(jù)的壓縮容易。
第一百三十頁,共一百五十九頁,2022年,8月28日統(tǒng)計表明,語音過程是一個近似的短時平穩(wěn)隨機過程.短時是指在10~30ms的范圍。由于語音信號的這一性質(zhì),使得我們有可能將語音信號劃分為一幀一幀進行處理,每一幀內(nèi)的信號近似地滿足同一模型—這是本方法假設的基本前提。在實用中,一般一幀的寬度為20ms。1.基于參數(shù)分析與合成的編碼算法原理第一百三十一頁,共一百五十九頁,2022年,8月28日語音的基本參數(shù)包括基音周期共振峰語音譜聲強。第一百三十二頁,共一百五十九頁,2022年,8月28日語音生成機構(gòu)的模型語音生成機構(gòu)的模型由3部分組成聲源共鳴機構(gòu)放射機構(gòu)聲源共有3類:元音、摩擦音、爆破音。共鳴機構(gòu)也稱聲道,由鼻腔、口腔與舌頭組成。放射機構(gòu)由嘴唇和鼻孔組成,是功能是發(fā)出聲音并傳播出去。
第一百三十三頁,共一百五十九頁,2022年,8月28日模型的描述與此語音生成機構(gòu)模型相對應的聲源由基音周期參數(shù)描述,聲道由共振峰參數(shù)描述,放射機構(gòu)則由語音譜和聲強描述。DPCM,ADPCM等波形預測技術(shù)是音樂和實時語音數(shù)據(jù)壓縮技術(shù)的主要方法。第一百三十四頁,共一百五十九頁,2022年,8月28日語音生成機構(gòu)的數(shù)字模型第一百三十五頁,共一百五十九頁,2022年,8月28日模型的描述該模型用準周期的脈沖源模擬聲帶的振動,用隨機噪聲模擬摩擦聲源,用可變參數(shù)的數(shù)字濾波器力來模擬聲道諧振特性與放射特性。如果圖中所有的控制信號均由真實的語音信號分析所得,則該系統(tǒng)的輸出就完全接近于原始信號序列,從而可以恢復出聲音。第一百三十六頁,共一百五十九頁,2022年,8月28日2.基于波形預測的編碼原理DPCM、ADPCM等波形預測技術(shù)是音樂和實時語音數(shù)據(jù)壓縮技術(shù)的主要方法。雖然與語音識別的方法和基于參數(shù)分析合成的方法相比有壓縮能力差的缺點,但算法簡單,容易實現(xiàn),且能夠保持有較好的原有聲音,因而在語音數(shù)據(jù)壓縮的標準變化方案中最先考慮。第一百三十七頁,共一百五十九頁,2022年,8月28日
參數(shù)編碼的壓縮率很大,但計算量大,保真度不高,適合語音信號的編碼?;旌暇幋a介于波形編碼和參數(shù)編碼之間,集中了兩者優(yōu)點。第一百三十八頁,共一百五十九頁,2022年,8月28日2.5.2ITU語音標準化方案
16KbpsITU語音標準化方案G.72832KbpsITU語音標準化方案G.72164KbpsITU語音標準化方案G.722
第一百三十九頁,共一百五十九頁,2022年,8月28日1.16Kbps語音標準化方案G.728
使用領(lǐng)域統(tǒng)一在包括可視電話、數(shù)字移動通信、無繩電話、衛(wèi)星通信、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人住宅水電安全檢測與維修服務合同4篇
- 2024年企業(yè)、公司經(jīng)營管理戰(zhàn)略方案及技巧知識考試題庫(附含答案)
- 2025版探礦權(quán)轉(zhuǎn)讓協(xié)議范本:礦產(chǎn)資源合作開發(fā)新策略3篇
- 2025版新能源產(chǎn)業(yè)園區(qū)土地合作開發(fā)協(xié)議書3篇
- 2025版施工安全協(xié)議書:高空作業(yè)安全協(xié)議范本3篇
- 二零二五年度車輛租賃合同車輛租賃保險條款4篇
- 合作式學習在小學數(shù)學課堂中的應用案例
- 2025版文藝團體演出合作委托合同3篇
- 跨文化交流拓寬視野培養(yǎng)孩子獨立見解
- 甘肅2025年甘肅西北師范大學誠聘海內(nèi)外高層次人才160人筆試歷年參考題庫附帶答案詳解
- 醫(yī)院6s管理成果匯報護理課件
- 泵站運行管理現(xiàn)狀改善措施
- 2024屆武漢市部分學校中考一模數(shù)學試題含解析
- SYT 0447-2014《 埋地鋼制管道環(huán)氧煤瀝青防腐層技術(shù)標準》
- 第19章 一次函數(shù) 單元整體教學設計 【 學情分析指導 】 人教版八年級數(shù)學下冊
- 浙教版七年級下冊科學全冊課件
- 弧度制及弧度制與角度制的換算
- 瓦楞紙箱計算公式測量方法
- 江蘇省中等職業(yè)學校學業(yè)水平考試商務營銷類(營銷方向)技能考試測試題
- DB32-T 4004-2021水質(zhì) 17種全氟化合物的測定 高效液相色譜串聯(lián)質(zhì)譜法-(高清現(xiàn)行)
- DB15T 2724-2022 羊糞污收集處理技術(shù)規(guī)范
評論
0/150
提交評論