視音頻壓縮編碼技術的發(fā)展課件_第1頁
視音頻壓縮編碼技術的發(fā)展課件_第2頁
視音頻壓縮編碼技術的發(fā)展課件_第3頁
視音頻壓縮編碼技術的發(fā)展課件_第4頁
視音頻壓縮編碼技術的發(fā)展課件_第5頁
已閱讀5頁,還剩279頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

視音頻壓縮編碼技術的發(fā)展北京廣播學院信息工程學院電視工程系張琦視音頻壓縮編碼技術的發(fā)展北京廣播學院信息工程學院電視工程系張1主要內(nèi)容

一、數(shù)碼率壓縮編碼基本技術

二、現(xiàn)在應用的國際壓縮標準

三、MPEG編碼標準的比較

(一)MPEG-1(二)MPEG-2(三)MPEG-4(四)MPEG-7(五)MPEG-21主要內(nèi)容一、數(shù)碼率壓縮編碼基本技術二、現(xiàn)在應用的國際壓2一、碼率壓縮編碼基本技術1、信源的數(shù)碼率和壓縮的必要性數(shù)字電視信號要求大容量存儲器,傳輸數(shù)據(jù)率高。4:2:2采樣,8bit量化時,為:216Mb/s,1GB硬盤存:1GB/27MB=37s的節(jié)目。結論:要使數(shù)字電視信號適合于實際存儲和傳輸,必須壓縮數(shù)據(jù)量,降低傳輸數(shù)據(jù)碼率。前提:壓縮后圖象質(zhì)量要滿足視覺要求。一、碼率壓縮編碼基本技術1、信源的數(shù)碼率和壓縮的必要性32、信源碼率壓縮的可能性信源數(shù)據(jù)存在各種冗余信息1)空間冗余:相鄰象素、相鄰行信號的相關性;2)時間相關冗余:相鄰幀信號的相關性;可壓縮內(nèi)容:冗余量信息論表述:信息量=數(shù)據(jù)量-冗余量;注:冗余—多余的、重復的。

2、信源碼率壓縮的可能性信源數(shù)據(jù)存在各種冗余信息4信息已經(jīng)成為經(jīng)濟的戰(zhàn)略資源,而數(shù)據(jù)壓縮成為多媒體信息處理的關鍵技術。在多媒體的傳輸和處理中還有許多問題需要進一步解決。例如,如何提高網(wǎng)上傳輸圖像和視頻的質(zhì)量,如何通過網(wǎng)絡在世界范圍進行信息交換?解決這些問題仍需要提高壓縮編碼效率、分級和實用的轉(zhuǎn)碼方法。

3、壓縮編碼的意義信息已經(jīng)成為經(jīng)濟的戰(zhàn)略資源,而數(shù)據(jù)壓縮成為多媒體信息處理的關54、MPEG碼率壓縮編碼方式預測編碼,變換編碼,熵編碼。(1)熵編碼:是無損編碼。熵編碼要預先知道或估測不同事件出現(xiàn)的概率。熵編碼對出現(xiàn)概率大的事件用短碼字編碼,反之用長碼字編碼,使事件的平均碼長縮短,實現(xiàn)碼率壓縮。

4、MPEG碼率壓縮編碼方式預測編碼,變64、碼率壓縮編碼方式(2)預測編碼1)幀內(nèi)預測編碼

將當前像素實際值與其預測值的差值進行量化編碼稱為預測編碼。預測值由同一行前面的相臨像素和上面相臨行的相關像素來產(chǎn)生時,稱為二維預測。二維預測可去除空間冗余。預測精度越高,編碼效率越高。4、碼率壓縮編碼方式(2)預測編碼1)幀內(nèi)預測編碼將74、碼率壓縮編碼方式預測編解碼系統(tǒng)框圖解碼器編碼器

輸入Xe0e0′

e0′QD1DNIQD1DNIQ4、碼率壓縮編碼方式預測編解碼系統(tǒng)框圖解碼器編碼器輸入X84、碼率壓縮編碼方式2)幀間預測編碼幀間預測可去除空間冗余,差值概率分布更集中在0附近,可獲更大壓縮比。幀差信號幀間預測框圖運動估計運動補償幀存量化器反量化運動矢量,去接收端預測幀—鏈圖4、碼率壓縮編碼方式2)幀間預測編碼幀差信號幀間預測框圖運94、碼率壓縮編碼方式3)預測編碼的意義:畫面上大部分是亮度變化緩慢的平坦部分和慢運動部分,空間和時間相關性強,差值信號很小;大部分差值集中在0附近,傳送差值信號減小了原數(shù)據(jù)幅值范圍。原圖像信號的幅值分布概率均勻,而且差值的概率分布很不均勻,這就為后面的熵編碼創(chuàng)造條件。

4、碼率壓縮編碼方式3)預測編碼的意義:10差值與原圖象的概率分布4、碼率壓縮編碼方式差值與原圖象的概率分布4、碼率壓縮編碼方式114、碼率壓縮編碼方式(3)變換編碼變換編碼,把空間域描寫的圖象變換到一個正交的變換域。空域的一個N×N個象素像塊變成變換域的N×N變換系數(shù)塊。

變換僅是表示方法的變換。原象塊中的象素之間相關性很強;而變換系數(shù)能量集中在直流和少數(shù)低頻系數(shù)上,降低了冗余度。例,二維傅立葉變換,將空間域變換到頻域,在水平和垂直方向上進行頻譜展開。下圖表示4、碼率壓縮編碼方式(3)變換編碼12

水平方向8個像素數(shù)據(jù)從時域到頻域的變換:圖像信號被分解成為直流、低頻到高頻各種余弦成分;

DCT系數(shù)表示各頻率幅度的大??;

水平方向8個像素數(shù)據(jù)從時域到頻域的變換:圖像信號被分解成13

變換編碼的基本系統(tǒng):在存儲器中將圖象分成8×8的塊,將塊從空域變換到頻域得8×8個系數(shù)F(u,v)。

量化:對DCT系數(shù)進行量化,低頻系數(shù)細量化,高頻系數(shù)粗量化,并4舍5入,忽略接近或等于0的高頻系數(shù)。將64個量化后系數(shù)進行游程編碼,再VLC編碼。接收端經(jīng)解碼、反量化和反變換恢復圖像塊。4、碼率壓縮編碼方式變換編碼的基本系統(tǒng):4、碼率壓縮編碼方式14變換編碼系統(tǒng)框圖分塊DCT變換量化編碼解碼反量化反DCT變換塊組合輸入數(shù)據(jù)接收輸出信道4、碼率壓縮編碼方式變換編碼系統(tǒng)框圖分塊DCT量化編碼解碼反量化反DCT變換塊輸15圖像內(nèi)容

DCT變換例返回922-150-25-5-6-12-6-1-208-10624133-29312-32-1-20-191-3-633320-5-4212000-4651421-11-24-1143010230-3-1DCTDCT52100000000000000000000000000000000000000000000000000000000-158-4-100100圖像內(nèi)容DCT變換例返回922-150-25-5-6-116DCT分塊90blocks(720pixels)72blocks(576pixels)8pixels1DCTblockYsignalinoneframe8pixelsDCT分塊90blocks(720pixels)17C(u),C(v)=1/u,v=0C(u),C(v)=1u,v≠0f(x,y):變換前像素數(shù)據(jù)F(u,v):變換后的系數(shù)空域數(shù)據(jù)頻域數(shù)據(jù)LeftRightUpperLowerLowHighLowHighxyuvTransformF(u,v)=(2/8)C(u)C(v)ΣΣ[f(x,y)COS{πu(2x+1)/16}COS{πv(2y+1)/16}]DCT(DiscreteCosineTransform)x=0y=077

每個系數(shù)都由原64個像素算出C(u),C(v)=1/u,v=0C18二維DCT的反變換(IDCT)

x,y=0,1,…,N-1每個重建像素幅值都由64個DCT系數(shù)算出二維DCT的反變換(IDCT)x,y=0,1,…,N198×8亮度塊的DCT變換、量化例

0i70u7j7dav7v7量化

DCT變換

0u70u7v798929580758268509791947974816749958992777279654793879075707763459185887368756143898386716673594187818469647157398579826762695537591106-1828-3414183350000000-1000000030000000-1000000000000000-10000000000000004010-22–1000300000000000000000000000000000000000000000000000000000001611101624405161121214192658605514131624405769561417222951878062182237566810910377243555648110411392496478871031211201017292959811210010399bc量化表8×8亮度塊的DCT變換、量化例0i20二維DCT變換的基圖象二維DCT變換的基圖象21去空間相關性去空間相關性228×8亮度塊的DCT反變換、反量化處理例

e反量化后的DCT系數(shù)f反DCT,重建像素樣值g重建樣值與原始值之差

591110–2032–24000360000000000000000000000000000000000000000000000000000000

98979081807967509796898079786649959487787777644793928576757462459089827472725943888780717069574086857870686855398584776967675438

0–55–1–53100–55–1–53100–55–1–52100–55–1–53101–46–1–43201–460-44211–46–1–43200–55–2–521-1e

f

g8×8亮度塊的DCT反變換、反量化處理例5911123DCT系數(shù)的量化

DCT本身并不能進行碼率壓縮,DCT只是降低相關性(冗余度)。數(shù)據(jù)壓縮從量化開始。量化對每個系數(shù)分別用大于1的數(shù)去除,對除得到的系數(shù)取整數(shù),人眼對低頻敏感,對高頻不太敏感,對低頻分量采取細量化,對高頻分量采取粗量化,高頻分量會多數(shù)變0。丟棄低能量高頻系數(shù)不影響重建圖像的主觀質(zhì)量。改變量化系數(shù)可改變壓縮比。量化是有損壓縮,產(chǎn)生塊效應DCT系數(shù)的量化DCT本身并不能進行碼率壓縮,DCT24塊效應塊效應25ACcomponentsaredividedby2DC2222222222222222222222444444444444444444444ACcomponentsaredividedby4LowHighLowHigh自適應量化例SensitiveforhumaneyesLesssensitiveforhumaneyes2、4:量化系數(shù)ACcomponentsaredividedby226自適應量化結果AdaptiveQuantization自適應量化結果AdaptiveQuantization27量化系數(shù)的實際確定方法量化系數(shù)的獲得過程:根據(jù)對大量能代表電視節(jié)目素材的各種圖像序列進行主觀評價的結果,對大量的量化系數(shù)進行優(yōu)化,使圖像的主觀損傷最小,最后確定一系列具有代表性的量化系數(shù)。量化系數(shù)選擇:根據(jù)應用目的、性能、低延時、復雜度和價位等要求,在一些系數(shù)中選擇。量化系數(shù)的實際確定方法量化系數(shù)的獲得過程:28231-74-12-1-1-2-10-102-5101000-137000000-400-100000-1-1000000-11000000000000000000000Zig-zag掃描之字形掃描231-74-12-1-1-2-10-102-510100029231-74-12-1-1-2-10-102-5101000-137000000-400-100000-1-1000000-11000000000000000000000EOB(EndOfBlock)EOBEOBistransmittedinsteadofzeros231-74-12-1-1-2-10-102-510100030游程長度編碼(RLC)為解決連0的表達方式采用游程編碼。在量化的DCT交流(AC)系數(shù)中,將每一串連0系數(shù)與其后面的一個非0系數(shù)組成一個數(shù)組,并用一對符號表示:

符號1符號2

(游程長度Run,位長)(幅值)游程長度:非零系數(shù)前連0的個數(shù);

幅值:非零系數(shù)值。

例如,下圖

其游程長度編碼結果:

(25),(0,4)(10),(0,2)(3),(2,2)(-2),(0,2)(2),(7,1)(-1),(0,0)

第一個數(shù)是直流(DC)系數(shù)。游程編碼使64個系數(shù)只需7對符號,用7個碼字表示即可。

游程長度編碼(RLC)為解決連0的表達方式采用游程編碼31游程長度編碼(RLC)圖返回游程長度編碼(RLC)圖返回32

信息:反映客觀事物的存在狀態(tài)或變化規(guī)律。信息量:香農(nóng)信息論:信息量=數(shù)據(jù)量-冗余量,與事件出現(xiàn)的概率有關。從N個概率相等的事件中選出一個事件所得的信息量信息熵:若N個事件(符號)中的每個事件之概率不相等,則每個事件所含的信息量不等,并由其概率決定,概率小者信息量大。每一個事件所攜帶的平均信息量稱為熵(H)。熵編碼,是可變長編碼。通過合理的比特數(shù)分配使信號字長與概率相匹配,對概率大的符號給短碼,對概率小的給長碼,以縮短平均字長。(5)熵編碼比特信息:反映客觀事物的存在狀態(tài)或變化規(guī)律。(5)33霍夫曼編碼游程編碼后的熵編碼多用霍夫曼編碼(VLC)。編碼標準提供霍夫曼碼表,根據(jù)游程編碼得到的符號直接查表,得到相應的碼字。

碼表是根據(jù)概率分布并對大量典型圖像素材進行統(tǒng)計制成的霍夫曼編碼游程編碼后的熵編碼多用霍夫曼編碼(VLC)。34游程編碼后的熵編碼對符號1中的數(shù)據(jù),從亮度和色度的系數(shù)碼表查出霍夫曼碼;符號2中的數(shù)據(jù)仍用自然二進數(shù)編碼,也稱可變長整數(shù)(VLI)編碼,碼字長度也是可變的;直流系數(shù)DC采用與相鄰像塊DC的差值編碼;對前面圖中的游程編碼結果進行熵編碼,結果是:11011001101110100111111110010101101111101001010圖游程編碼后的熵編碼對符號1中的數(shù)據(jù),從亮度和色度的系數(shù)碼表查35壓縮比計算

以上由64個像點樣值編碼所得數(shù)據(jù)的總位數(shù)是47??捎贸闃游宦时硎緣嚎s程度,即用平均每個像點占用多少位來表示。對于此8×8像塊的抽樣位率計算如下:也可以用壓縮比CR來度量壓縮程度。本例按原圖象用8比特量化的8×8像塊計算,可得壓縮比為:壓縮比計算以上由64個像點樣值編碼所得數(shù)據(jù)的總位數(shù)是47。36視頻緩沖校驗器

一個編碼器輸出的數(shù)據(jù)流碼率不是恒定的,輸出碼率高低取決于:量化步長、原圖象的復雜度。向通道饋送的碼率必須是恒定的。視頻緩沖校驗器作用:編碼器輸出必須有一個視頻緩沖校驗器VBV,暫存碼率不恒定的輸入數(shù)據(jù)流,受控以恒定碼率向通道輸出壓縮數(shù)據(jù)流,起緩存數(shù)據(jù)和平滑碼率的作用。碼率控制:用緩存狀態(tài)控制量化器,調(diào)整量化步長,防止緩存溢出。視頻緩沖校驗器一個編碼器輸出的數(shù)據(jù)流碼率不是恒定的,輸出37TM5SRC碼率控制TM5SRC碼率控制38DCT壓縮編碼簡圖DCT壓縮編碼簡圖39多媒體數(shù)據(jù)能被壓縮多少?估計圖形:100000:1?視頻10000:1?(據(jù)人的視覺系統(tǒng)輸入輸出比)圖像:2500:1?一畫含千音(3MB:2KB)語音:1000:1?(據(jù)抽樣頻率40K和每秒說的字數(shù)比)文字:3:1?(據(jù)信息論統(tǒng)計)現(xiàn)實VCD:51:1(61:1.2)DVD:50:1(249:5)HDTV:75:1(1493:20)可視電話:78:1(4977:64)多媒體數(shù)據(jù)能被壓縮多少?估計40二、現(xiàn)在應用的國際壓縮標準1、ITU-T制定的:

H.261,用于ISDN環(huán)境,電視會議、可視電話等;

H.263,瞄準極低碼率;

H.263+是H.263的擴展,提高了壓縮效率,增強了功能;

H.263++和新近制定的H.26L,提高壓縮效率的同時,還提高了容錯能力,數(shù)據(jù)率可低到28~128kbps,用于無線通訊、互聯(lián)網(wǎng)視頻會議、遠程監(jiān)控等。(CIForQCIF)2、ISO/IEC制定的:

JPEG,連續(xù)色調(diào)靜態(tài)圖像壓縮編碼標準;

MJPEG

,用于連續(xù)的靜止圖像序列壓縮編碼;二、現(xiàn)在應用的國際壓縮標準1、ITU-T制定的:41JPEG-2000(JPEG-2),用于

數(shù)碼相機、網(wǎng)絡傳輸、

醫(yī)療、

傳真、掃描和打印等靜止圖像編碼標準;

MotionJPEG2000,低比特率視頻編碼,基于小波變換;

壓縮率比JPEG高約30%。

JPEG2000(1:137)JPEG(1:137)JPEG-2000(JPEG-2),用于數(shù)碼相機、網(wǎng)絡傳42視頻圖像格式一覽表視頻圖像格式一覽表43二、現(xiàn)在應用的國際壓縮標準MPEG-1,用于數(shù)字存儲媒體的活動圖象和伴隨音頻的壓縮編碼標準。MPEG-2,活動圖象及其伴音的通用編碼標準MPEG-4,基于音視頻對象的編碼標準H.26L,ITU-T稱H.264,IEC14496-10AVC

MPEG-4的新視頻編碼標準,ITU-T和MPEG聯(lián)手制定。MPEG-7,多媒體內(nèi)容描述接口。對多媒體信息檢索制定的標準。MPEG-21,將不同的協(xié)議、標準、技術等集成在一起,稱為集成的統(tǒng)一多媒體框架。目標是建立一個交互的多媒體框架二、現(xiàn)在應用的國際壓縮標準MPEG-1,用于數(shù)字存儲媒體的活441992年11月形成國際標準,用于數(shù)字存儲媒體的活動圖象和伴隨音頻的壓縮編碼。

輸入圖像標準是SIF:25幀,360×288(PAL);30幀,360×240(NTSC);4:2:0抽樣。只規(guī)定了逐行掃描的句法,不能用于隔行掃描。碼率可達1.5Mbps。MPEG-1不能提供分級編碼,也不適合在傳輸條件差的環(huán)境中應用。解碼后的SIF分辨率圖像擴展到全屏幕,得到的圖像質(zhì)量和VHS相當。應用于CD-ROM交互,VCD立體聲的編碼達到CD質(zhì)量。標準分五個部分:系統(tǒng),視頻,音頻,一致性測試,參考軟件三、MPEG編碼標準的比較

(一)MPEG-1標準

1992年11月形成國際標準,用于數(shù)字存儲媒體的活動圖象和伴45MPEG-1音頻編碼標準

音頻部分只允許單聲道和立體聲;定義了48kHz、44.1kHz、32kHz三種采樣頻率;三層編碼(LayerⅠ,Ⅱ和Ⅲ)數(shù)據(jù)率分別為192、128、96kbps,MPEG-1的音頻LayerⅢ簡稱MP3。MPEG-1標準的應用情況:VCD、CD-ROM;PC的音視頻格式;Windows95/98/NT的MPEG-1軟件解碼器;

在歐洲和加拿大數(shù)字音頻廣播(DAB);網(wǎng)絡交換音樂的編碼廣泛應用MP3文件。MPEG-1音頻編碼標準

音頻部分只允許單聲道和立體聲;定46分塊:視頻采用基于塊的混合編碼;時間預測:對活動圖像序列進行幀間預測;運動估計和運動補償:減小預測誤差;DCT變換:對預測差值進行DCT變換;空間預測:去空間冗余;量化:對DCT系數(shù)進行非線性量化。編碼:游程編碼和VLC編碼。三種編碼圖象:幀內(nèi)編碼I幀,前向預測P幀,雙向預測B幀MPEG編碼的基本算法分塊:視頻采用基于塊的混合編碼;MPEG編碼的基本算法47

(1)運動估計:以宏塊為單位,用塊匹配法找出運動矢量(搜索,判據(jù))(2)運動補償:據(jù)運動矢量在重建幀中讀出預測塊,(3)計算預測誤差,(4)對預測誤差進行DCT,(5)對DCT量化;(6)RLC和VLC編碼;(7)對運動矢量編碼并與圖象數(shù)據(jù)復用;(8)經(jīng)緩存控制輸出。

1幀間預測編碼步驟

(1)運動估計:以宏塊為單位,用塊匹配法找出運動矢量(搜索48

MPEG-1視頻編碼器MPEG-1視頻編碼器492運動矢量:運動物體的位移矢量dx,dy若第K-1幀的運動物體位置中心點為(x1,y1),在第K幀中移動到(x1+dx,y1+dy)。須將第K幀(x1+dx,y1+dy)點的運動物體與第(K-1)幀的(x1,y1)點相減。

3運動估計:求運動矢量的過程去接收機

差值

當前幀-

運動補償

過去幀

運動估計去后級預測值運動矢量幀內(nèi)

幀間2運動矢量:運動物體的位移矢量dx,dy若第K-1幀50

4運動補償運動補償:利用運動矢量從前一幀內(nèi)讀出預測象塊,形成當前幀運動物體的預測值。預測編碼:對預測獲得的差值及運動矢量進行編碼。

5塊匹配:對視頻圖象分成宏塊(常用16×16的宏塊),以宏塊為單位在前一幀搜索與當前宏塊內(nèi)容最相近的宏塊,稱塊匹配。塊匹配的目的是求運動矢量。4運動補償51運動補償?shù)谋匾祷剡\動補償?shù)谋匾祷?2運動估計圖解

abc當前幀后一幀運動矢量MV運動估值,找到匹配塊將匹配塊與當前宏塊的差值以及運動矢量進行編碼前一幀運動估計圖解a53塊匹配搜索塊匹配搜索54塊匹配是一個搜索過程,采用均方誤差準則或絕對誤差準則作為塊匹配準則。匹配的過程就是求這些誤差最小值的過程。均方誤差(MSE)定義為絕對誤差(MAD)定義為

Sk(m,n)當前的圖像塊;

Sk-1(m+i,n+j)在前一幀搜索窗內(nèi)搜索的塊。

塊匹配準則塊匹配是一個搜索過程,采用均方誤差準則或絕對誤差準則塊55運動補償圖解4:2:0亮度和色度宏塊運動補償圖解4:2:0亮度和色度宏塊56雙向預測B幀雙向預測B幀57MPEG-1標準的視頻解碼器VLC解碼器先解出圖像頭信息,確定圖像類型,提供預測方式和運動矢量等信息,解出量化的DCT系數(shù)。反量化還原DCT系數(shù),反DCT還原出像塊的預測差值,預測差值再與當前的預測值相加,恢復像素值。經(jīng)過運動補償,得到相應的預測值。還原的圖像數(shù)據(jù)存儲在緩沖器里,經(jīng)重新排序后,按圖像顯示順序輸出。MPEG-1標準的視頻解碼器VLC解碼器先解出圖像頭信息,確58輸入緩沖解碼VLDIQIDCT前向運動補償緩沖器內(nèi)插運動補償后向運動補償前面幀存后面幀存輸出輸入量化表

MPEG-1解碼器簡圖重建幀輸入緩沖解碼VLDIQIDCT前向運動補償緩沖器內(nèi)插運動補償59MPEG的視頻數(shù)據(jù)流結構MPEG對運動圖像序列的編碼數(shù)據(jù)用6層結構表示:圖像序列層:由連續(xù)圖像組成,用序列終止符結束。圖像組層:圖像組(GOP)由幾幀連續(xù)圖像組成,是隨機存取單元,其第一幀總是I幀。圖像層:圖像(幀)編碼的基本單元,獨立的顯示單元。宏塊條層:重新同步單元。宏塊層:MB運動估計的基本單元。塊層:塊(B)DCT的單元。塊數(shù)據(jù)由圖像數(shù)據(jù)加塊結束符(EOB)組成。MPEG的視頻數(shù)據(jù)流結構MPEG對運動圖像序列的編碼數(shù)據(jù)用60數(shù)據(jù)流結構圖像組8×8圖像組宏塊條宏塊塊圖像組圖像圖像序列數(shù)據(jù)流結構圖像組8×8圖像組61GOP1GOPSCGOP頭圖像1圖像2圖像3…圖像N圖像SC圖像頭條1條2條3…條m條SC條頭宏塊1宏塊2宏塊3…宏塊nY1宏塊編碼信息Y2Y3Y4C1C28×8系數(shù)塊序列層GOP層圖像層宏塊層像塊層序列SC序列擴展序列頭GOP2…序列EC0x000001B3GOP1GOPSCGOP頭圖像1圖像2圖像3…圖像N圖62宏塊結構

(a)4:4:4(b)4:2:2

YCBCRYCB

CR

5

6

123(c)4:2:0YCBCR4宏塊結構(a)4:4:463

MPEG的圖像組I幀:幀內(nèi)編碼,提供進入壓縮圖像數(shù)據(jù)的隨機存取點,是圖像組(GOP)的第一幀。幀間編碼:P幀和B幀P幀,用前面最靠近的I幀或P幀進行預測,稱正向預測。B幀,稱為雙向幀或內(nèi)插幀,它既用前面P幀和I幀又用它后面的P幀作為參考幀,進行雙向預測,通過內(nèi)插得到重建幀。大的圖像組包含10~15幀圖像。小圖像組只有2~3幀圖像。MPEG的圖像組I幀:幀內(nèi)編碼,提供進入壓縮圖像數(shù)64視音頻壓縮編碼技術的發(fā)展課件65

(1)“開放性”的視頻碼流:

I幀在碼流中出現(xiàn)的位置和頻率,可根據(jù)圖像序列中隨機存取和景物切換的需要進行選擇。相鄰最近的I與P幀或P幀之間的B幀數(shù)目可以選擇。(2)I,P,B三種圖象的數(shù)據(jù)壓縮比:

2~5:1,5~10:1,20~30:1

(3)圖象的編碼順序和顯示順序不相同視頻碼流的特征顯示次序

(原始圖像次序)

14237561089131112……IPBBPBBPBBPBB……編碼次序(1)“開放性”的視頻碼流:視頻碼流的特征66視音頻壓縮編碼技術的發(fā)展課件67(二)MPEG-2標準(ISO/IEC13818)“活動圖象及其伴音的通用編碼”,94年11月公布;用于DVB,HDTV,DVD。

MPEG-2和MPEG-1的圖像結構相同。

MPEG-2通用性較強,滿足對圖像質(zhì)量和傳輸速率的多層次要求,技術成熟。圖像格式:704×576(PAL)和704×480(NTSC),碼率為3~15Mbps;9Mbps模擬分量質(zhì)量;能處理逐行掃描和隔行掃描圖像,包括16:9寬高比圖像格式;(二)MPEG-2標準(ISO/IEC13818)“68MPEG-2標準解決了通用性和特殊要求,定義了不同的類和級考慮到和MPEG-1兼容;有可分級性、靈活性和廣泛的適應性,系統(tǒng)和傳送規(guī)定更詳細和完善,規(guī)定了多路節(jié)目復用方式,兼顧與ATM信元適配;支持多聲道的音頻編碼;先進音頻編碼(AAC)MPEG-2標準解決了通用性和特殊要求,定義了不同的類和級69

1MPEG-2的類(Profile)和級(Level)類:針對不同的應用規(guī)定了若干個語法子集,這就是“類”。“類”規(guī)定可用那些語法元素,怎么用。共六類:高類(HP),主類(MP),空間可分級類(SSP),信雜比可分級類(SNRSP),簡單類(SP),4:2:2類。它們基于一個共同的語法準則。級:每個類中按參數(shù)不同又分四個級。“級”規(guī)定語法元素的值可怎樣取。1MPEG-2的類(Profile)和級(Lev70MPEG-2類和級的組合352×288,30幀720×576,30幀1440×1152,60幀1920×1152,60幀4/316/9MPEG-2類和級的組合352×288,30幀720×5771

MPEG-2級和類的最大約束參數(shù)MPEG-2級和類的最大約束參數(shù)72MPEG-2視頻編碼的分級MPEG-2的分級擴展:空間分級、時間分級、SNR分級和數(shù)據(jù)分流。分級作用:對傳輸通道和復雜性不同的客戶端提供不同質(zhì)量的服務??沼蚍旨墸捍笮〔煌瑘D像的兼容傳送,時域分級:用于不同幀頻圖像的兼容傳送;SNR分級實現(xiàn)不同質(zhì)量的視頻服務兼容;數(shù)據(jù)分流:解碼的重要信息放在一起,用部分頻帶以較高的信噪比發(fā)射,保證接收。相對次要數(shù)據(jù)以較低能量發(fā)射。MPEG-2視頻編碼的分級MPEG-2的分級擴展:空間分級、73視音頻壓縮編碼技術的發(fā)展課件74MPEG-2解碼重建像塊差值每個GOP的頭部送一個量化矩陣用兩個碼表解碼運動矢量重建像塊數(shù)據(jù)提取各種參數(shù)MPEG-2解碼重建像塊差值每個GOP的頭部送一個量化矩陣用75

MPEG-2系統(tǒng)部分規(guī)定:如何將視頻和音頻以及數(shù)據(jù)的基本碼流組成一個或多個適合于存儲和傳輸?shù)膯我淮a流;如何加時間(同步)信息?;敬a流ES:編碼器輸出的視頻和音頻數(shù)據(jù)流。打包的基本流(PES):ES打包形成,長度可變,一般是一個存取單元(一個視頻幀或音頻幀的長度)。節(jié)目碼流(PS):幾個具有公共的時間基準的PES經(jīng)節(jié)目復用形成的單一碼流。適合交互式多媒體應用。傳輸碼流(TS):傳輸復用器輸出。輸入的PES可以具有公共時間基準(可先節(jié)目復再TS復用),也可是各自獨立的時間基準(直接TS復用)。

TS小包長度固定為188個字節(jié)。TS適合于有噪聲或介質(zhì)損耗的環(huán)境中存儲或傳輸。2系統(tǒng)傳輸層的作用和結構MPEG-2系統(tǒng)部分規(guī)定:2系統(tǒng)傳輸層的作用和結構76

系統(tǒng)復用的結構框圖視頻編碼器音頻編碼器打包器打包器PS復用TS碼流PS碼流PESES視頻音頻數(shù)據(jù)編碼器數(shù)據(jù)TS復用系統(tǒng)復用的結構框圖視頻編碼器音頻編碼器打包器打包器PST773PES的結構3Byte1Byte2Byte2bit14bit1Byte

PacketStartStreamPESPacket10PESHeaderPESHeaderPESHeaderPESPacketCodePrefixIDLengthFlagsLengthFieldsDateBlock

SCPRDACROCPDESCRRATETMACCRCEXTVariableLength起始碼;包識別ID;PES長度表示;PES頭部標志包含:SC,加擾指示;PR,優(yōu)先級指示;DA,相配合的數(shù)據(jù);CR,有無版權;OC,原版或拷貝;PD,有無PTS(顯示時間標志)或DTS(解碼時間標志);ESCR,表示是否有基本碼流的時鐘基準信息;

RATE,是否有基本流速率信息;TM,是否有8比特字段說明數(shù)字存儲媒體(DSM)的模式;AC,未定義;CRC,是否有CRC字段;EXT,是否有擴展標志。

3PES的結構3Byte1Byte784傳輸碼流(TS)和節(jié)目碼流(PS)結構4傳輸碼流(TS)和節(jié)目碼流(PS)結構79包頭PS包1PS碼流由一個或多個具有公共時間基準的PES包組成;PS包的長度可變PS碼流構成:包頭PS包2…包頭PS包n包SC01SCR節(jié)目復用速率包填充長度包填充字節(jié)PES1PES2…PESn

PS結構包頭PS包1PS碼流由一個或多個具有公共時間基準的PES包組80TS碼流由一個或多個PES包組成,這些PES包可以是有一個公共的時間基準,也可以是幾個獨立的時間基準。PES包被分割成一個個傳輸包,PES包頭數(shù)據(jù)總是開始一個新的傳輸小包,若PES包在一個傳輸包的中間結束,余下的長度放入填充字節(jié)TS碼流由TS包組成,TS包的長度固定,為188字節(jié)每個TS包由包頭和凈荷組成。傳輸小包的組成TS碼流由一個或多個PES包組成,這些PES包可以是有一個公81傳輸小包的包頭組成(1)鏈接頭作用1)包同步:用于建立包同步;2)包識別PID:復用和解復用的識別信息,靠PID提取基本碼流;3)誤碼處理:發(fā)端對包作0~15的重復計數(shù),接收端發(fā)現(xiàn)連續(xù)計數(shù)中斷,就會判斷丟失數(shù)據(jù);3)有條件接收:傳輸格式允許包的數(shù)據(jù)作加擾處理,各基本流可獨立擾亂,傳輸包的連接投要說明是否擾亂,標志出解擾密鑰。頭部信息不允許擾亂。

鏈接頭可變長適配頭凈負荷數(shù)據(jù)

188字節(jié)

4字節(jié)傳輸小包的包頭組成(1)鏈接頭作用鏈接頭可變長適82(2)適配的作用1)定時:一些包的適配頭傳時間信息,即在(PCR)字段傳27MHz時鐘,指出解碼器從碼流中讀完該字段的期望時間。解碼器的時鐘與PCR比較,調(diào)整本時鐘頻率,進行同步。2)可隨機進入壓縮碼流在節(jié)目調(diào)節(jié)或更換時應該隨機進入音頻和視頻的I幀,在I幀前的視頻序列的頭部應該有一個隨機進入點。3)可插入本地節(jié)目。(2)適配的作用1)定時:一些包的適配頭傳時間信息,即在(P83188字節(jié)包頭凈荷包頭凈荷…包頭凈荷適應字段81113包同步誤碼指示開始指示傳送優(yōu)先級PID加擾控制適應字段控制連續(xù)性計數(shù)器1224可變長可選字段8115適應字段長度不連續(xù)性指示隨機進入指示ES優(yōu)先級指示5個標志填充字節(jié)14848PCR拼接點倒計時傳送私有數(shù)據(jù)8OPCR適應字段擴展TS包格式188字節(jié)包頭凈荷包頭凈荷…包頭凈荷適應字段81113包誤碼84

5多路節(jié)目雙層復用TS流系統(tǒng)傳輸復用器節(jié)目復用器視頻1ES音頻1ES輔助數(shù)據(jù)節(jié)目1TS流節(jié)目2TS流節(jié)目3TS流節(jié)目nTS流業(yè)務信息SI::多節(jié)目TS流信道編碼調(diào)制器服務信息5多路節(jié)目雙層復用TS流系統(tǒng)傳輸復用器節(jié)目復用器視頻185雙層復用

第1層節(jié)目復用(ProgramMultiplex):PES有共同的時間基準。第2層傳輸復用(TrasportMultIplex):PES可各有獨立的時間基準

每個節(jié)目經(jīng)壓縮編碼產(chǎn)生基本流(視頻、音頻、數(shù)據(jù)),打包成PES流,送節(jié)目復用器。各節(jié)目復用器輸出的PS和服務信息經(jīng)傳輸復用器組合成一個單一的碼流。雙層復用第1層節(jié)目復用(ProgramM86ES:ElementarystreamEsmap:programmaptableES1videoES2audioES3AudioESn-1DataESnDataESmap(1)節(jié)目復用PID1PID2PID3PIDn-1PIDnPIDn+1進入節(jié)目復用器的每個基本碼流都有個包識別符PID

復用時加一個基本碼流表Elementarystremmap,稱節(jié)目映射表Programmaptable。它包含組成本節(jié)目傳輸流(ProgramTransportStream)各基本碼流的PID、數(shù)據(jù)性質(zhì)與碼流彼此間的關系等。該基本碼流表的識別符為PIDn+1。經(jīng)“節(jié)目復用”的碼流稱為“節(jié)目傳輸碼流”。節(jié)目傳輸流節(jié)目復用ES:Elementarystream(1)節(jié)目復用進入87(2)傳輸復用傳輸碼流傳輸復用PTS=PS:Programtranspotstream,

PSmap:programassociationtablePS1PS2PS3

PS4PS5PSmapPID=0對各個節(jié)目的PS流進行復用。加個節(jié)目碼流表ProgramStreammap,或稱節(jié)目組合表Programassociationtable,它包含各節(jié)目復用的節(jié)目映射表PIDn+1。它本身的識別符PID=0。節(jié)目的傳輸解復用過程如下:(2)傳輸復用傳輸碼流傳輸對各個節(jié)目的PS流進行復用。節(jié)目的88

識別一個節(jié)目及其內(nèi)容需二個步驟:a.利用PID=0的碼流中的節(jié)目組合表找出有該節(jié)目映射表的碼流PIDn+1;b.從節(jié)目映射表中找到該節(jié)目的各個基本流的PID;解復用濾波器即被設置到所找節(jié)目的基本流上。

識別一個節(jié)目及其內(nèi)容需二個步驟:895統(tǒng)計復用定義:傳輸信道帶寬恒定,傳送總碼率須恒定。信道中復用的各節(jié)目的傳輸碼率是不恒定的,可在各VBR節(jié)目之間實行按圖象復雜度分配碼率的原則,即統(tǒng)計復用。復雜度:快速運動、細節(jié)多的圖象所需壓縮碼率比靜止的、細節(jié)少的圖象高的多。若各節(jié)目都以恒定比特率CBR傳輸,借助緩沖器反饋控制量化步長,使復雜圖象質(zhì)量降低;若各節(jié)目用可變碼率VBR傳輸,按圖象內(nèi)容分配碼率,可保證圖象質(zhì)量均衡。如,DVD、SVCD采用VBR提高圖像質(zhì)量。關鍵問題:對圖象序列隨時進行復雜度估計;實時對視頻業(yè)務動態(tài)分配帶寬。在CBR信道上傳送VBR視頻壓縮圖象,需有信道緩存器進行平滑;采取碼率控制,緩存器的占有率反饋到控制器,調(diào)節(jié)各編碼器的量化步長。5統(tǒng)計復用定義:傳輸信道帶寬恒定,傳送總碼率須恒定。信90控制器節(jié)目編碼節(jié)目編碼節(jié)目編碼節(jié)目編碼復用圖像復雜度分析碼率分配恒定的總碼率視頻輸入統(tǒng)計復用系統(tǒng)

91SanghooLee提出的動態(tài)分配帶寬的算法根據(jù)每個視頻圖像源所需傳輸碼率、在一個GOP種可提供的傳輸碼率和虛擬緩存器狀態(tài),計算每個圖像源的參考帶寬之間的關系,決定分配給視頻源的帶寬。1據(jù)信道提供的傳輸總碼率、圖像編碼類型、每個源的GOP結構和總的虛擬緩存器的當前狀態(tài),決定給每個視頻源的帶寬;據(jù)帶寬的最佳分布函數(shù)估計一下視頻源的GOP所需的帶寬;據(jù)每個視頻源的參考帶寬和估計帶寬,給每個視頻源分配帶寬;

SanghooLee提出的動態(tài)分配帶寬的算法根據(jù)每個視頻圖92空間復雜度(spatialinformation-SI)和時間復雜度(temporalinformation-TI

)的計算,基于Sobelfilters(1)

i,j

:horizontalandverticalpositionsofthepixels;Sobelh,Sobelv:horizontalandverticalFIRvaluesofthefilter.

STD:標準偏離算子(2)

n,n–1:currentframeandthepreviousone.

TheoverallSIandTIconcerningthepicturesequencecanbegiveneitherbytheiraveragevaluesorbytheirmaximumvaluesineachframe.空間復雜度(spatialinformation-SI)936解碼與編碼的同步和時間標志編解碼的同步、圖象和聲音的同步:顯示前重建壓縮前的圖象次序;音頻和視頻同步顯示。原因:I、P、B幀數(shù)據(jù)量不同;解碼輸入圖像次序不同;視音頻ES交錯傳送。插入時間標志(timestamp):系統(tǒng)時鐘:STC,90kHz,系統(tǒng)時鐘基準:SCR,從STC抽樣得到,33bit,插在每個大包頭部第5到第9字節(jié),指明SCR的最后一個字節(jié)離開編碼器的時間,在解碼器的輸入端提取這個時間。顯示時間戳PTS,出現(xiàn)顯示單元的時間;解碼時間戳DTS,從基本碼流解碼緩存移走存取單元全部字節(jié)的時間。返回6解碼與編碼的同步和時間標志編解碼的同步、圖象和聲音的同94MPEG系統(tǒng)延時模型音頻輸出視頻輸出固定延時解碼器編碼器緩存器編碼器解碼器緩存器緩存器緩存器系統(tǒng)編碼和復用系統(tǒng)編碼和復用存儲和傳送視頻輸入音頻輸入可變延時可變延時固定延時MPEG系統(tǒng)延時模型音頻輸出視頻輸出固定延時解碼器編碼器緩存95時間標志系統(tǒng)

STC緩沖解碼顯示

STC視頻出采集圖象對STC抽樣得PTC采集音頻幀對STC抽樣得PTC編碼編碼復接系統(tǒng)編碼和緩沖對STC抽樣得SCR數(shù)字存儲媒介緩沖解碼顯示比較PTS比較PTS音頻出音頻入視頻入幻燈片89時間標志系統(tǒng)STC緩沖解碼顯示STC視頻出采集圖象對ST96(三)MPEG-4標準ISO/IEC14496“基于音視頻對象的編碼”

MPEG-4是一個龐大的有關交互多媒體編碼與通信的標準,當前使用的視音頻編碼系統(tǒng)和標準不能全部滿足通信、計算機和廣播業(yè)的迅速融合所提出的要求。稱第2帶編碼:基于內(nèi)容去冗余(事件本身含義),基于內(nèi)容的交互(接收者的意愿)。

MPEG-4把一個視聽場景定義成了一系列可再現(xiàn)的“視聽對象”。

MPEG-4還具有對不同來源對象進行合成的功能。

MPEG-4標準旨在將各種多媒體應用集成于一個完整的框架內(nèi)。

MPEG-4標準支持各種掃描標準和圖象格式??芍С值谋忍厮俾实退俾士傻偷?~64kb/s,高速率高達5Mb/s。MPEG-4具有廣闊的應用前景。(三)MPEG-4標準MPEG-4是一個龐大的971、MPEG-4標準的目標1999年5月形成國際標準,是基于對象的視、音頻編碼標準,本是甚低比特率的視音頻壓縮編碼標準,現(xiàn)滿足數(shù)字視聽材料交換需要;不是單純的視音頻編解碼標準,它更多的是定義一種格式、一種框架,而不是具體算法,為多媒體數(shù)據(jù)壓縮提供更為廣闊的平臺,允許加入新算法,方便計算機軟件編解碼;視頻碼率覆蓋范圍5kbitps~5Mbitps;

音頻碼率覆蓋范圍2kbitps~64kbitps。1、MPEG-4標準的目標982、MPEG-4標準的主要特征

(1)基于對象和基于模型的編碼在音視頻景物中可分出若干個“對象”,見下圖。MPEG-4支持對場景中的物理對象單獨進行編碼和解碼,并支持矩形及任意形狀對象的編解碼MPEG-4的視頻對象編碼技術包括了MPEG-1與MPEG-2編碼,但多了形狀編碼,要將形狀信息傳送給解碼器,見圖。標準分6個部分系統(tǒng),視頻,音頻,一致性測試,參考軟件,DMIF2、MPEG-4標準的主要特征

(1)基于對象和基于模型的編99圖8一個面向?qū)ο蟮碾娨暻榫癝portsresults:Portugal-Brazil

Sportsresults:Portugal-Brazil圖8一個面向?qū)ο蟮碾娨暻榫癝portsresul100SPRITE對象分割活動對象幻燈片160SPRITE對象分割活動對象幻燈片160101具有外加對象的合成場景具有外加對象的合成場景102場景描述圖場景描述圖103對象的二值形狀信息News一幀圖像前景對象的二值形狀信息MPEG標準返回對象的二值形狀信息News一幀圖像104MPEG-4的編碼器增加了形狀編碼

視頻對象編碼器

MPEG-4的編碼器增加了形狀編碼

視頻對象105ShapeDecodingTextureDecodingShapeInformationDEMULTIPLEXERMotionCompensationBitstreamMotionDecodingVOPMemoryReconstructedVOPCompositorVideoOutCompositingscriptObjectDecoderShapeTextureShapeInformationD106MPEG-4編解碼系統(tǒng)視頻對象合成解解解MPEG-4編解碼系統(tǒng)視頻對象合成解解解107Theobject-basedarchitectureofanMPEG-4system.

Theobject-basedarchitecture108ScalableCoding基本層增強層分級預處理分級后處理ScalableCoding基109

ScalabilityofObjects視頻演示編/解碼器ScalabilityofObjects視頻演示110MPEG-4標準的主要特征

(2)自然與合成音視頻數(shù)據(jù)的混合編碼MPEG-4編碼支持自然音與合成音視頻,在解碼端能合成不同來源的自然對象與合成對象。

(3)提供基于對象的交互功能不同的數(shù)據(jù)源可視為不同的對象,數(shù)據(jù)接收者可以對不同的對象進行操作:刪除、添加、移動、改變尺寸等屬性。(4)基于對象的分級功能空間、時間和混合分級,適應互聯(lián)網(wǎng)等窄帶視頻通信、多質(zhì)量視頻服務,精細分級使MPEG-4碼流能通過各種不同通路,克服數(shù)字信號懸崖效應。合成對象互動演示MPEG-4標準的主要特征

(2)自然與合成音視頻數(shù)據(jù)的混合111MPEG-4標準的主要特征(5)場景描述用BIFS描述語言描述場景的結構和視音頻對象的位置變化、尺寸、彩色、聲音響度等屬性。場景描述的核心是對多媒體對象的安排布置,用戶通過場景描述可以操作對象的顯示狀態(tài),實現(xiàn)交互操作。場景描述用單獨的數(shù)據(jù)流傳輸,單獨編解碼,可在壓縮的數(shù)據(jù)流域?qū)崿F(xiàn)對象控制。場景描述結構例:顯示的圖像序列、聲音、音樂、語言,投影屏幕,背景墻,動畫合成女解說員,講由解說詞產(chǎn)生的語言,還有合成的繪圖—桌子和地球儀。MPEG-4標準的主要特征(5)場景描述112

BIFS場景描述例BIFS場景描述例113MPEG-4標準的主要特征(6)差錯魯棒性和差錯回避MPEG-4數(shù)據(jù)流允許在各種環(huán)境下傳輸,移動通訊鏈路的比特率低達10kbps,提供差錯魯棒性和差錯回避技術。(7)音頻編碼音頻部分專門為音樂、語言及人工合成聲音定義了許多有效的編碼方法,還能使音樂隨著已經(jīng)注釋的場景演奏,并產(chǎn)生空間聲音效果。合成音頻編碼方法包括結構音頻和文語轉(zhuǎn)換(TextToSpeech)。有音頻對象空間化特征,用不同的空間定位可決定音源的空間位置,可用人工和自然音源來構造人工聲音環(huán)境。

MPEG-4標準的主要特征(6)差錯魯棒性和差錯回避114高編碼效率,與H.263+或MPEG-4簡單類相比,H.26L在多數(shù)碼率下可節(jié)省碼率達50%,在各種碼率下都能持續(xù)提供較高的視頻質(zhì)量,適用于視頻會議、視頻存儲和以服務器為基礎的視頻流業(yè)務。系統(tǒng)框架見下圖,圖像分解為像條,各像條單獨編碼,編碼輸出復用;接收端解復、解碼,合成原視頻信號。像條編碼像條編碼像條編碼像條分隔像條解碼像條解碼像條解碼像條合成解復用復用(8)MPEG-4的新視頻編碼技術特點

H.26L,ITU-T稱H.2642001.1月ITU-T和MPEG聯(lián)手制定高編碼效率,與H.263+或MPEG-4簡單類相比,H.26115

1)對任何像塊可在前面多個參考幀(最多5幀)中尋找匹配像塊,給出相應的運動矢量,能夠?qū)崿F(xiàn)更好的碼流誤碼恢復;

2)在運動估值和運動補償方面,H.26L采用了不同大小和形狀的宏塊分割方法、更高的亞像素(1/4,1/8)運動估值精度,在預測環(huán)中增加了去除塊效應的濾波器;

3)使用了類似于DCT,但以整數(shù)為基礎的空間變換,采用獨特的整數(shù)算法,所有的運算可以只通過加法和位移實現(xiàn),變換和量化的全過程可以用16位比特的整數(shù)運算進行,消除乘法運算帶來的精度損失;

避免了因4舍5入引起的反變換誤差問題。

4)在熵編碼方面,使用兩種碼表,通用的變字長編碼表(UVLC)和基于內(nèi)容的自適應二進制算術編碼(CABAC)。

(9)新增標準與以前的編碼方法不同之處

1)對任何像塊可在前面多個參考幀(最多5幀)中尋找匹配像塊116CABAC(Context-basedAdaptiveBinaryArithmeticCoding)基于內(nèi)容的自適應二進制算術編碼:(a)根據(jù)語法元素的內(nèi)容選擇概率模型(b)基于當前統(tǒng)計調(diào)整概率的估計5)采用幀內(nèi)預測編碼:a.4×4亮度預測模式;b.6×16亮度預測模式;c.8×8色度預測模式;

有6種4×4亮度像塊的幀內(nèi)預測模式,用相鄰像素做預測;支持塊大小由16×16到4×4的亮度分量的運動補償,

1/4像素預測精度;6)H.26L增加了幀間預測模式的類型和精度。有7種不同的宏塊分割方法,形成7種不同幀間預測模式。CABAC(Context-basedAdaptive1177)除了支持I-、P-和B-幀外,還支持碼流間可轉(zhuǎn)換幀,稱為SP-幀,能在有類似內(nèi)容但有不同碼率的碼流之間快速切換,并同時支持隨機接入和快速回放模式。

8)變換系數(shù)的掃描有之字形(Zigzag)掃描和雙掃描兩種方式。提高編碼效率。9)H.26L支持以往標準的大部分處理方法,但通過增強功能和靈活性提高效率:用7種不同大小和形狀的幀間預測節(jié)省碼率約15%;使用亞像素搜索精度與整數(shù)像素搜索精度相比能節(jié)省碼率20%;使用5個參考幀預測與只用一個參考幀相比能節(jié)省碼率(5~10)%;使用基于內(nèi)容的二進制自適應算術編碼能節(jié)省碼率10%。使用去方塊效應濾波還能獲得非??捎^的主觀質(zhì)量改進。8)變換系數(shù)的掃描有之字形(Zigzag)掃描和雙掃描兩種方11810)增加了演播室類(Profile)工具(2001年1月)

基于對象的視頻創(chuàng)作技術、用于演播室存儲的高效編碼工具,支持高達2048個像素的分解力、1.2Gbps的比特率和12比特量化。這可用于演播室和后期制作、演播室之間的節(jié)目傳送等。對場景描述進行補充,支持手動和自動生成場景;增加了高級的精細分級(FGS)將使MPEG-4碼流能通過各種不同帶寬通路,克服數(shù)字信號的懸崖效應。已制定的MPEG-4的傳輸協(xié)議:MPEG-4的內(nèi)容在MPEG-2的TS流內(nèi)傳送;MPEG-4內(nèi)容通過IP傳送。目前在管理工具、接口和知識產(chǎn)權保護方面正在加緊工作。10)增加了演播室類(Profile)工具(2001年1月)1191)傳輸層:流復用,傳輸協(xié)議描述,定義應用接口。2)同步層:基本流經(jīng)同步層打包,打包時插入了定時和同步信息、分段和隨機存取信息。

3)壓縮層包括:各種解碼器;對象描述框架:利用對象描述子OD識別各種基本流知識產(chǎn)權管理和保護(IPMP)

對象內(nèi)容信息:傳送視聽對象的描述信息場景描述流:傳輸場景描述信息對象合成視聽流上行通道流:接收端到發(fā)送端的上行信息

3、MPEG-4系統(tǒng)1)傳輸層:流復用,傳輸協(xié)議描述,定義應用接口。3、MPE120

MPEG-4系統(tǒng)體系結構

MPEG-4系統(tǒng)體系結構121(四)MPEG-7(ISO/IEC15938)

基于內(nèi)容的檢索基于內(nèi)容的檢索:查詢時針對對象本身,需要從媒體數(shù)據(jù)中提取特征(如顏色、紋理、形狀等),根據(jù)這些特征從媒體數(shù)據(jù)庫中檢索出相似的圖像或者視頻內(nèi)容?;趦?nèi)容檢索的類型:圖像檢索:視頻序列的表示方法含基于關鍵幀、基于運動的檢索音頻檢索:含音樂、話音及其它自然聲響等圖形檢索:含點、線、區(qū)域和關聯(lián)檢索

文本檢索:含字、詞以及它們的邏輯集合(四)MPEG-7(ISO/IEC15938)

基于122基于內(nèi)容檢索系統(tǒng)的簡單結構

媒體庫特征庫特征抽取檢索引擎管理端用戶端數(shù)據(jù)庫數(shù)據(jù)庫生成子系統(tǒng)數(shù)據(jù)查詢子系統(tǒng)知識庫基于內(nèi)容檢索系統(tǒng)的簡單結構

媒體庫特征庫特征抽取檢索引擎管理123按MPEG-7描述標準建立的

管理系統(tǒng)工作流程圖例

讀入視頻資料鏡頭分割提取視頻資料及其關鍵幀的特征值將特征值按照MPEG-7標準進行描述將視頻資料及其描述信息存儲到視頻數(shù)據(jù)庫

提取關鍵幀按MPEG-7描述標準建立的

管理系統(tǒng)工作流程圖例

讀入124

1、MPEG-7標準的目標

MPEG-7標準稱為“多媒體內(nèi)容描述接口”。多媒體內(nèi)容描述標準,定義了描述符、描述語言和描述方案,對多媒體信息進行標準化的描述,實現(xiàn)快速有效的搜索。MPEG-1,-2,-4是對信息進行有效的表示,MPEG-7則對信息表示方法進行描述,為各種表示法的適當部分提供索引。前三種編碼方法使得信息的內(nèi)容變得容易獲取,MPEG-7則使在需要時能找到它。MPEG-7確立各種類型多媒體信息的標準描述方法,方法是描述符和描述方案的組合,并與所描述的內(nèi)容緊密相關。1、MPEG-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論