壓縮編碼技術(shù)課件

上傳人：她*** IP屬地：貴州上傳時間：2023-09-10 格式：PPT 頁數(shù)：100 大小：1.14MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩95頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第2章壓縮編碼技術(shù)第2章壓縮編碼技術(shù)本章結(jié)構(gòu)壓縮編碼技術(shù)本章結(jié)構(gòu)學習目標1．知識目標：知道流媒體數(shù)據(jù)可以壓縮的原因；了解有損編碼和無損編碼的區(qū)別；了解壓縮編碼的分類；掌握霍夫曼編碼、算術(shù)編碼、行程編碼；了解預測編碼和變換編碼的基本原理；了解MPEG-4、MPEG-7、MPEG-21編碼標準；了解H.26x標準，掌握MPEG-2標準；了解音頻壓縮，掌握恒定比特率壓縮與可變比特率壓縮的區(qū)別。2．能力目標：能按照霍夫曼編碼、算術(shù)編碼、行程編碼的原理，寫出對數(shù)據(jù)壓縮后的結(jié)果；能對不同壓縮狀態(tài)下視音頻的數(shù)據(jù)量進行計算。3．素質(zhì)目標：能根據(jù)不同的網(wǎng)絡條件選擇合適的編碼方法。學習目標1．知識目標：2.1概述

2.1.1壓縮的必要性2.1.2壓縮的可行性2.1.3壓縮編碼的分類2.1.4常用的壓縮方法2.1概述2.1.1壓縮的必要性2.1.1壓縮的必要性數(shù)字壓縮技術(shù)不僅是音視頻通信的需要，也是高效利用網(wǎng)絡資源、降低用戶通信費用的有效途徑，還是使流媒體走向?qū)嵱没年P(guān)鍵技術(shù)之一。問題：嘗試計算一個7GB的DVD視頻文件，在2Mb的理論帶寬下需要下載多少個小時？約等于8個小時2.1.1壓縮的必要性數(shù)字壓縮技術(shù)不僅是音視頻通信的需要，也2.1.2壓縮的可行性1．空間冗余2．時間冗余3．信息熵冗余4．結(jié)構(gòu)冗余5．知識冗余6．視覺冗余2.1.2壓縮的可行性1．空間冗余2.1.2壓縮的可行性1．空間冗余視頻圖像通常與它周圍的某些像素在亮度和色度上相同或非常接近，存在一定的相關(guān)性。這些相關(guān)性的光成像結(jié)果在數(shù)字化圖像中就表現(xiàn)為數(shù)據(jù)的空間冗余。2.1.2壓縮的可行性1．空間冗余2.1.2壓縮的可行性2．時間冗余指活動圖像連續(xù)的幀之間的冗余。相鄰兩幀圖像的內(nèi)容差別不大，往往背景相同，只不過移動物體所在的空間位置略為不同，即后一幀數(shù)據(jù)與前一幀數(shù)據(jù)有諸多相同之處，這就表現(xiàn)為時間冗余。2.1.2壓縮的可行性2．時間冗余2.1.2壓縮的可行性3．信息熵冗余信息熵冗余又稱編碼冗余。信息熵是指一組數(shù)據(jù)所攜帶的信息量。而對于實際圖像數(shù)據(jù)的每個像素，很難得到它的信息熵，因此一般是對每個像素采用相同的比特數(shù)來表示，這樣就必然存在冗余，這種冗余稱為信息熵冗余。2.1.2壓縮的可行性3．信息熵冗余2.1.2壓縮的可行性4．結(jié)構(gòu)冗余許多圖像存在著較強的紋理結(jié)構(gòu)。在圖像紋理區(qū)，圖像的像素值存在著明顯的分布模式，如瓦片構(gòu)成的屋頂、方格狀的地板圖案等，如果對相似的、對稱的結(jié)構(gòu)都加以記錄，就會出現(xiàn)結(jié)構(gòu)冗余。2.1.2壓縮的可行性4．結(jié)構(gòu)冗余2.1.2壓縮的可行性5．知識冗余有許多圖像的理解與某些先驗知識有相當大的相關(guān)性。例如，人臉的圖像有同樣的結(jié)構(gòu)：嘴的上方有鼻子，鼻子上方有眼睛，鼻子在中線上等。這些規(guī)律的結(jié)構(gòu)可由先驗知識和背景知識得到，這類冗余稱為知識冗余。2.1.2壓縮的可行性5．知識冗余2.1.2壓縮的可行性6．視覺冗余人類視覺系統(tǒng)對亮度變化敏感，而對色度變化相對不敏感。在高亮區(qū)，人眼對亮度變化敏感度下降，致使對內(nèi)部細節(jié)相對不敏感，而對整體輪廓敏感。因此，人類視覺系統(tǒng)并不是對圖像的任何變化都能感知出來，表現(xiàn)為視覺冗余。2.1.2壓縮的可行性6．視覺冗余2.1.3壓縮編碼的分類從信息論的角度出發(fā)，把它分為無損壓縮和有損壓縮兩大類2.1.3壓縮編碼的分類從信息論的角度出發(fā)，把它分為無損壓縮2.1.3壓縮編碼的分類

無損壓縮是利用數(shù)據(jù)的統(tǒng)計特性對圖像進行的壓縮，即解壓縮后的圖像與原圖像相一致而不存在任何失真，但壓縮率受到數(shù)據(jù)統(tǒng)計冗余度的理論限制，一般為2:1到5:1。這類方法廣泛用于文本數(shù)據(jù)、程序和特殊應用場合的圖像數(shù)據(jù)（如指紋圖像、醫(yī)學圖像）的壓縮。2.1.3壓縮編碼的分類無損壓縮是利用數(shù)據(jù)的統(tǒng)計特性對2.1.3壓縮編碼的分類有損壓縮也稱信息量壓縮方法，即解壓縮后的圖像與原圖像不一致，存在數(shù)據(jù)丟失的現(xiàn)象，并且丟失的這些數(shù)據(jù)不可恢復，但可以利用人的視覺特性使解壓縮后的圖像看起來與原始圖像一樣。有損壓縮的壓縮比一般為100：1~200：1。2.1.3壓縮編碼的分類有損壓縮也稱信息量壓縮方法，即解壓2.1.4常用的壓縮方法1.無損壓縮編碼常用的無損壓縮方法有香農(nóng)-范諾（Shannon-Fano）編碼、哈夫曼（Huffman）編碼、RLE（run-lengthencoding，行程編碼）、LZW（Lempel-Ziv-Welch）編碼和算術(shù)編碼。2.1.4常用的壓縮方法2.1.4常用的壓縮方法1）香農(nóng)-范諾編碼（1）基本概念 ①熵熵（Entropy）是度量信息量的一種方法，它通常表示事件發(fā)生的概率越大，確定性越強，攜帶的消息量越少。信息熵：信息的基本作用就是消除人們對事物的不確定性。一個系統(tǒng)越是有序，信息熵就越低；反之，一個系統(tǒng)越是混亂，信息熵就越高。2.1.4常用的壓縮方法1）香農(nóng)-范諾編碼2.1.4常用的壓縮方法②信源S的熵

按照香農(nóng)的理論，信源S的熵定義為：

pi表示符號Si在S中出現(xiàn)的概率2.1.4常用的壓縮方法②信源S的熵pi表示符號Si在S2.1.4常用的壓縮方法（2）算法步驟—從上往下①按照符號出現(xiàn)的概率減少的順序?qū)⒋幋a的符號排成序列；②將符號分成兩組，使這兩組符號的概率之和相等或幾乎相等；③將第一組賦值為0，第二組賦值為1；④對每一組，重復步驟2的操作。2.1.4常用的壓縮方法（2）算法步驟—從上往下香農(nóng)-范諾編碼的應用:假設有一幅80個像素組成的圖像，顏色共有8種，分別用符號A、B、C、D、E、F、G和H表示，80個像素中符號出現(xiàn)的情況如表2-1所示。香農(nóng)-范諾編碼的應用:按照香農(nóng)理論，這幅圖像的熵為：H(S)=(20/80)log2(80/20)+(20/80)log2(80/20)+(10/80)log2(80/10)+…+(5/80)log2(80/5)=2.75這種方法采用從上到下的方法進行編碼。最后的編碼如下圖所示：按照香農(nóng)理論，這幅圖像的熵為：具體編碼情況如下圖和表2-2所示。具體編碼情況如下圖和表2-2所示。壓縮率對比--編碼前：用3個位表示8個等級的顏色值(A~H)，也就是每個像素用3位表示(000~111)，編碼這幅圖像總共需要240位。--編碼后：按照這種方法進行編碼得到的總位數(shù)為220，壓縮比約為1.09:1。壓縮率對比--編碼后：按照這種方法進行編碼得到的總位數(shù)為22存在問題：1，同步問題，如1100與100要用特殊的間隔符來區(qū)分2，一些碼變長了，如E~H，變?yōu)榱?位思考一下思考一下2.1.4常用的壓縮方法 2）霍夫曼(Haffman)編碼霍夫曼編碼是依據(jù)香農(nóng)和范諾闡述的編碼思想提出的一種不定長編碼的方法，其編碼完全依據(jù)字符出現(xiàn)概率來構(gòu)造平均長度最短的碼字，有時稱之為最佳編碼。

2.1.4常用的壓縮方法 2）霍夫曼(Haffman)編碼2.1.4常用的壓縮方法（1）基本方法（2）算法步驟—從下往上①按照符號出現(xiàn)的概率減少的順序?qū)⒋幋a的符號排成序列；②把概率最小的兩個符號組成一個新節(jié)點，其概率等于原兩個符號之和；③重復2，直到形成一個節(jié)點為止(樹)，其概率為1；④從根節(jié)點開始回溯到原始符號，并將每個下分支賦值為1，上分支賦值為0。2.1.4常用的壓縮方法（1）基本方法2.1.4常用的壓縮方法（3）示例：霍夫曼編碼的過程字母A、B、C、D、E出現(xiàn)的概率為：p（A）=0.16、p（B）=0.51、p（C）=0.09、p（D）=0.13、p（E）=0.11。2.1.4常用的壓縮方法（3）示例：霍夫曼編碼的過程2.1.4常用的壓縮方法與香農(nóng)-范諾編碼相比：1，該方法自含同步碼，在編碼之后的碼串中不需要另外添加標記符號(即在譯碼時分割符號的特殊代碼)。例如，碼串中的第一位為0，那么肯定是符號B，因為其它符號沒有一個是從0開始的。2，霍夫曼編碼的編碼效率比香農(nóng)-范諾編碼效率高。2.1.4常用的壓縮方法與香農(nóng)-范諾編碼相比：2.1.4常用的壓縮方法課題練習：比較香農(nóng)和哈夫曼編碼，將前面的哈夫曼編碼案例進行香農(nóng)編碼BADECACDEACDE01100110(0)(100)(101)(110)(111)香農(nóng)：從上往下走；哈夫曼：從下往上走2.1.4常用的壓縮方法課題練習：比較香農(nóng)和哈夫曼編碼，將2.1.4常用的壓縮方法3）算術(shù)編碼算術(shù)編碼應用于JPEG/JBIG圖像數(shù)據(jù)壓縮，它不用二進制代碼來表示符號，而改用[0，1）中的一個寬度等于其出現(xiàn)概率的實數(shù)區(qū)間來表示一個符號，符號表中的所有符號剛好布滿整個[0，1）區(qū)間（概率之和為1，不重不漏）。輸出：把輸入符號串（數(shù)據(jù)流）映射成[0，1）區(qū)間中的一個實數(shù)值。Low=low+range×rangelow(字符分配的間隔低端)High=low+range×rangehigh(字符分配的間隔高端)Range=high-low2.1.4常用的壓縮方法3）算術(shù)編碼算術(shù)編碼的過程設輸入數(shù)據(jù)為eaiou，其出現(xiàn)的概率和所設定的取值范圍如表2-3所示表2-3信源符號、概率和初始編碼間隔初始化，Low=0，high=1；從字母e開始計算，最后eaiou輸出為0.23396(下界)字符aeiou概率0.20.30.10.20.2初始編碼間隔[0，0.2][0.2，0.5][0.5，0.6][0.6，0.8][0.8，1.0]Low=low+range×rangelow(字符分配的間隔低端)High=low+range×rangehigh(字符分配的間隔高端)Range=high-low算術(shù)編碼的過程設輸入數(shù)據(jù)為eaio2.1.4常用的壓縮方法算術(shù)編碼具有以下特點①必預先定義概率模型；②信源符號概率接近時，建議使用算術(shù)編碼，這種情況下其效率高于哈夫曼編碼；③實現(xiàn)方法相對復雜，但其編碼效率比哈夫曼編碼高5%左右，因此在JPEG擴展系統(tǒng)中用算術(shù)編碼取代哈夫曼編碼。2.1.4常用的壓縮方法算術(shù)編碼具有以下特點2.1.4常用的壓縮方法4）RLE編碼RLE又稱“運行長度編碼”或“游程編碼”，是一種統(tǒng)計編碼?；驹硎牵河靡粋€符號值或串長代替具有相同值的連續(xù)符號（連續(xù)符號構(gòu)成了一段連續(xù)的“行程”，行程編碼因此而得名），使符號長度少于原始數(shù)據(jù)的長度。2.1.4常用的壓縮方法4）RLE編碼“5555557777733322221llllll”RLE編碼為：（5，6）（7，5）（3，3）（2，4）（l，7）“5555557777733322221llllll”2.1.4常用的壓縮方法2.預測編碼預測編碼主要消除圖像的時間冗余度。常用的預測編碼方法包括DPCM（differentialpulsecodemodulation，差分脈沖編碼調(diào)制）、ADPCM(adaptivedifferencepulsecodemodulation，自適應差分預測編碼)和幀間預測編碼。2.1.4常用的壓縮方法2.預測編碼2.1.4常用的壓縮方法1）DPCMDPCM的思想是：依據(jù)過去的樣本去估算下一個樣本信號的幅度大小，這個值稱為預測值，然后對實際信號值與預測值之差進行量化編碼，從而就減少了表示每個樣本信號的位數(shù)。2.1.4常用的壓縮方法1）DPCM2.1.4常用的壓縮方法DPCM的工作過程如圖2-5所示。2.1.4常用的壓縮方法DPCM的工作過程如圖2-5所示。2.1.4常用的壓縮方法2）ADPCMADPCM就是預測器和量化器的參數(shù)能根據(jù)圖像不同位置的具體特點進行自動調(diào)節(jié)，從而匹配圖像的局部變化，具有更大的靈活性，并獲得進一步的壓縮效果或提高壓縮質(zhì)量。2.1.4常用的壓縮方法2）ADPCM2.1.4常用的壓縮方法2.1.4常用的壓縮方法2.1.4常用的壓縮方法3）幀間預測編碼幀間預測編碼是利用視頻圖像幀間的相關(guān)性，即時間相關(guān)性，來達到圖像壓縮的目的，即不直接傳送當前幀的像素值，而是傳送當前幀與其前一幀或后一幀之間的差值。2.1.4常用的壓縮方法3）幀間預測編碼2.1.4常用的壓縮方法3.變換編碼變換編碼就是將圖像時域信號(時間)變換到頻域信號(頻率)或者將原始數(shù)據(jù)“變換”到另一個更為緊湊的表示空間，消除空間冗余，進行壓縮編碼的方法。2.1.4常用的壓縮方法3.變換編碼1）DCT(離散余弦變換)DCT編碼的基本思想是：源圖像在輸入到編碼器之前，被分割成一系列按順序排列的8×8像素的圖像塊，同時把作為原始采樣數(shù)據(jù)的無符號整數(shù)轉(zhuǎn)換成有符號整數(shù)，這一過程叫正交變換。有序1）DCT(離散余弦變換)有序壓縮編碼技術(shù)課件壓縮編碼技術(shù)課件2.1.4常用的壓縮方法2）小波變換編碼小波變換用于圖像編碼的基本思想就是把圖像進行多分辨率分解，分解成不同空間、不同頻率的子圖像，然后再對子圖像進行系數(shù)編碼。2.1.4常用的壓縮方法2）小波變換編碼2.1.4常用的壓縮方法4.其他編碼方法1）子帶編碼子帶編碼就是利用數(shù)字濾波器將輸入的數(shù)字信號分解成頻域不相關(guān)的、具有不同能量成分的頻帶，然后根據(jù)各頻帶的特性進行量化、編碼。2.1.4常用的壓縮方法4.其他編碼方法2.1.4常用的壓縮方法2）模型編碼模型編碼是利用計算機視覺和計算機圖形學的知識對圖像信號的分析與合成。模型編碼中比較典型的是分形編碼。

2.1.4常用的壓縮方法2）模型編碼2.1.4常用的壓縮方法3）矢量量化編碼量化編碼按一次量化的碼元個數(shù)，可分為標量量化和矢量量化。標量量化就是對數(shù)字化后的數(shù)據(jù)一個一個地量化，而矢量量化就是將這些數(shù)據(jù)分組，每組m個數(shù)構(gòu)成m維矢量，再以矢量為單元逐個進行量化。2.1.4常用的壓縮方法3）矢量量化編碼2.1.4常用的壓縮方法4）混合編碼混合編碼就是同時采用多種編碼方法所形成的編碼。例如，將變換編碼和預測編碼結(jié)合起來所形成的MPEG編碼。2.1.4常用的壓縮方法4）混合編碼2.2網(wǎng)絡視頻壓縮編碼的標準2.2.1MPEG標準2.2.2H.26X標準2.2網(wǎng)絡視頻壓縮編碼的標準2.2.1MPEG標準2.2.1MPEG標準1．MPEG概述1）MPEG系統(tǒng)的組成MPEG系統(tǒng)主要由以下部分組成：（1）MPEG系統(tǒng)，定義音頻、視頻及有關(guān)數(shù)據(jù)的同步；（2）MPEG視頻，定義視頻數(shù)據(jù)的編碼和重建圖像所需的解碼過程.（3）MPEG音頻，定義音頻數(shù)據(jù)的編碼和解碼；（4）一致性測試。2.2.1MPEG標準1．MPEG概述2.1.3壓縮編碼的分類2）MPEG視頻編碼技術(shù)MPEG對視頻壓縮編碼采用兩種基本技術(shù)：一種是基于塊的運動補償技術(shù)，以減少時間冗余；另一種是基于DCT變換的ADCT（adaptiveDCT，自適應余弦變換），以減少空間冗余。2.1.3壓縮編碼的分類2）MPEG視頻編碼技術(shù)2.2.1MPEG標準3）MPEG的視頻數(shù)據(jù)流結(jié)構(gòu)MPEG的視頻數(shù)據(jù)流采用分層結(jié)構(gòu)，包括序列層、圖像組層、圖像層、片層、宏塊層、塊層等六個層次。2.2.1MPEG標準3）MPEG的視頻數(shù)據(jù)流結(jié)構(gòu)2.2.1MPEG標準宏塊的3個類型和結(jié)構(gòu)：4:2:04:2:24:4:42.2.1MPEG標準宏塊的3個類型和結(jié)構(gòu)：4:2:04:2.2.1MPEG標準4）MPEG的運動圖像類型I幀：I幀是幀內(nèi)壓縮，由于I幀不依賴于其他幀，因而是隨機存取的入點，也是解碼中的基準幀。P幀：用最近的前一個I幀或P幀預測編碼得到（前向預測），使用運動補償算法進行壓縮，因而壓縮比要比I幀高，數(shù)據(jù)量平均達到I幀的1/3左右。P幀是對前后的B幀和后繼的P幀進行解碼的基準幀。2.2.1MPEG標準4）MPEG的運動圖像類型2.2.1MPEG標準B幀：B幀基于前后的兩個I、P幀或P、P幀，它使用雙向預測，數(shù)據(jù)量平均可以達到I幀的1/9左右。B幀本身不作為基準，因此可以提供更高的壓縮比。2.2.1MPEG標準B幀：B幀基于前后的兩個I、P幀或P2.2.1MPEG標準5）運動補償技術(shù)運動補償技術(shù)的主要原理是依據(jù)圖像的運動情況，把圖像分割成靜止部分和運動部分，并分別進行處理。靜止部分可以重復使用上一幀的數(shù)據(jù)，而對運動部分則設法確定其位移量，以位移量來幫助進行運動部分的預測，即進行補償，之后再進行幀間預測。2.2.1MPEG標準5）運動補償技術(shù)2.2.1MPEG標準2．MPEG-1

標準MPEG-1標準的主要任務是將視頻信號及其伴音以可接收的重建質(zhì)量壓縮到約1.5Mbit/s的碼率，并復合成一個單一的MPEG位流，同時保證視頻和音頻的同步。2.2.1MPEG標準2．MPEG-1

標準2.2.1MPEG標準

1）MPEG-1系統(tǒng)MPEG-1系統(tǒng)規(guī)定了有關(guān)同步和多路復合的技術(shù)，用來把數(shù)字視頻圖像和伴音復合成單一的、位速率為l.5Mbit/s的數(shù)據(jù)位流。2.2.1MPEG標準1）MPEG-1系統(tǒng)2.2.1MPEG標準2）MPEG-1視頻MPEG-1視頻是MPEG-1標準的核心,是為了適應在數(shù)字存儲媒體如CD－ROM(數(shù)據(jù)傳輸率不低于150KB/s,容量不低于650MB)上有效地存取視頻圖像而制定的標準。2.2.1MPEG標準2）MPEG-1視頻2.2.1MPEG標準3．MPEG-2標準（1）MPEG-2系統(tǒng)MPEG-2標準的系統(tǒng)功能是將一個或更多的音頻、視頻或其他的基本數(shù)據(jù)流合成單個或多個數(shù)據(jù)流，以適應存儲和傳送。適合用于廣播級的數(shù)字視頻信息編碼的存儲和發(fā)送，被認定為SDTV和HDTV的編碼標準。其編碼率從3-100Mbps可變。MPEG-2還專門規(guī)定了多套節(jié)目的復用分接方式，可用于VOD系統(tǒng)。2.2.1MPEG標準3．MPEG-2標準2.2.1MPEG標準4．MPEG-4標準1）MPEG-4的特點（1）基于內(nèi)容的交互性允許用戶加入其中，進行交互。MPEG-4提供了多媒體數(shù)據(jù)訪問工具，用戶可索引、上傳、建立鏈接、下載、編輯和刪除等。用戶可方便地選擇所需內(nèi)容，并提供位流編輯功能。應用于交互式家庭購物和特效的數(shù)字化效果。（2）高效的壓縮性

壓縮比高，三維游戲、電影的多聲道或多視角數(shù)據(jù)同步壓縮（3）通用的訪問性可分級；支持不同帶寬的傳輸信道和不同存儲容量的接收端2.2.1MPEG標準4．MPEG-4標準2.2.1MPEG標準2）MPEG-4視頻編碼核心思想在制定MPEG-4之前，MPEG-1、MPEG-2、H.261、H.263都是采用第一代壓縮編碼技術(shù)，著眼于圖像信號的統(tǒng)計特性來設計編碼器，屬于波形編碼的范疇。第一代壓縮編碼方案把視頻序列按時間先后分為一系列幀，每一幀圖像又分成宏塊以進行運動補償和編碼，這種編碼方案存在以下缺陷：2.2.1MPEG標準2）MPEG-4視頻編碼核心思想2.2.1MPEG標準（1）將圖像固定地分成相同大小的塊，在高壓縮比的情況下會出現(xiàn)嚴重的塊效應，即馬賽克效應；（2）不能對圖像內(nèi)容進行訪問、編輯和回放等操作；（3）未充分利用HVS（humanvisualsystem，人類視覺系統(tǒng)）的特性。HVS，從圖像傳輸?shù)妮喞图y理思路出發(fā)，先顯示模糊的輪廓再補充細節(jié)2.2.1MPEG標準（1）將圖像固定地分成相同大小的塊，2.2.1MPEG標準3）關(guān)鍵技術(shù)

（1）音視頻對象(AVO,audiovisualobject)提取技術(shù)（2）VOP(視頻對象平面)視頻編碼技術(shù)（3）視頻編碼可分級性技術(shù)（4）運動估計與運動補償技術(shù)（5）Sprite視頻編碼技術(shù)Sprite背景圖像2.2.1MPEG標準3）關(guān)鍵技術(shù)Sprite背景圖像2.2.1MPEG標準4)MPEG-4標準的構(gòu)成（1）DMIF（deliverymultimediaintegrationframework，多媒體傳輸集成框架）。（2）場景描述。主要用于描述單個AVO如何在一個具體AV場景坐標下的組織與同步等問題。（3）音頻編碼。MPEG-4的音頻部分將音頻的合成編碼和自然聲音的編碼相結(jié)合，并支持音頻的對象特征，支持MIDI和TTS技術(shù)。（4）視頻編碼。MPEG-4也支持對自然和合成的視覺對象的編碼，合成的視覺對象包括2D、3D動畫和人面部表情動畫等。（5）緩沖區(qū)管理和實時解碼。MPEG-4定義了一個系統(tǒng)解碼模式（SDM），該模式描述了一種理想的處理比特流句法語義的解碼裝置，它要求特殊的緩沖區(qū)和實時模式。2.2.1MPEG標準4)MPEG-4標準的構(gòu)成2.2.1MPEG標準5．MPEG-7標準1）MPEG-7標準的研究范圍MPEG-7標準的主要目標是建立對多媒體內(nèi)容的描述標準，這里的多媒體內(nèi)容是指圖形、圖像、3D模型、音頻、語音、視頻以及由它們組合在一起所形成的多媒體信息。2）MPEG7標準的描述框架MPEG-7提供了一個通用的、靈活的和可擴展的多媒體內(nèi)容描述框架，它由D（descriptor，描述符）、DS（descriptionscheme，描述方案）、DDL（descriptiondefinitionlanguage，描述定義語言）和對這些描述進行編碼的方法和工具組成。2.2.1MPEG標準5．MPEG-7標準2.2.1MPEG標準3）MPEG-7多媒體描述方案MPEG-7多媒體描述方案是描述和注釋多媒體內(nèi)容的元數(shù)據(jù)結(jié)構(gòu)，包括通用特征和多媒體描述的描述符和描述方案。4）MPEG-7系統(tǒng)部分MPEG-7系統(tǒng)部分要保證MPEG-7各種描述能夠被快速傳送和存取，并且要保證內(nèi)容與描述之間的同步性，同時管理和保護知識產(chǎn)權(quán)問題。2.2.1MPEG標準3）MPEG-7多媒體描述方案2.2.1MPEG標準5）MPEG-7視頻MPEG-7具體對視頻方面的描述符和描述方案有以下方面的要求：特征類型。視覺描述允許以下特征：顏色、視覺對象、紋理、輪廓、形狀、靜止和動態(tài)圖像、體積、空間關(guān)系、運動、變形、視覺對象的源和它的特性、模型。2.2.1MPEG標準5）MPEG-7視頻2.2.1MPEG標準6）MPEG-7的應用MPEG-7可以進行檢索／定位（Pull）應用和過濾（push）應用。同時MPEG-7可以應用在實時也可以在非實時環(huán)境中。2.2.1MPEG標準6）MPEG-7的應用2.2.1MPEG標準6．MPEG-21標準MPEG-21標準其實就是一些關(guān)鍵技術(shù)的集成，通過這種集成環(huán)境就對全球數(shù)字媒體資源進行透明型和增強型管理，實現(xiàn)內(nèi)容描述、創(chuàng)建、發(fā)布、使用、識別、收費管理、產(chǎn)權(quán)保護、用戶隱私權(quán)保護、終端和網(wǎng)絡資源抽取、事件報告等功能。2.2.1MPEG標準6．MPEG-21標準2.2.2H.26X標準1.H.261標準H.261標準主要應用在ISDN（integratedservicesdigitalnetwork，綜合業(yè)務數(shù)字網(wǎng)）上傳輸電視電話會議等低碼率的多媒體領(lǐng)域。2.2.2H.26X標準1.H.261標準2.2.2H.26X標準2）壓縮數(shù)據(jù)的分層為了有序地傳輸每幀圖像的數(shù)據(jù)，并有利于圖像數(shù)據(jù)交換和與設備兼容，把一幀圖像數(shù)據(jù)分成幀、宏塊組（GOB）層、宏塊（MB）層、塊（Block）層來處理，如圖2-18所示。2.2.2H.26X標準2）壓縮數(shù)據(jù)的分層2.2.2H.26X標準3）編碼算法H.261編碼算法類似于MPEG算法，但與后者不兼容。它在實時編碼時所占用的CPU運算量比MPEG少得多，原因在于采用了圖像質(zhì)量與運動幅度相平衡的折衷機制（也就是說，劇烈運動的圖像比相對靜止的圖像質(zhì)量要差），優(yōu)化了帶寬占用量。因此，這種方法屬于恒定碼流可變質(zhì)量編碼。2.2.2H.26X標準3）編碼算法2.2.2H.26X標準2.H.263標準H.263標準是替代H.261的一個ITU-T標準。1）編碼模式H.263推薦了以下四種幀內(nèi)編碼模式，這些可被分開使用或一起用。一個例外是先進的預測模式需要使用無限制的運動矢量模式。（1）基于句法的算術(shù)編碼模式基于語法的算術(shù)編碼是一種效率較高的自適應算術(shù)編碼，用它來代替哈夫曼編碼，使得具有相同恢復能力的圖像具有更好的壓縮效率。2.2.2H.26X標準2.H.263標準2.2.2H.26X標準（2）PB-幀模式一個PB幀對兩幀圖像進行統(tǒng)一編碼一個PB幀包含一個由前面的P幀圖像預測得出的P幀和一個由前一個P幀和當前解碼的P幀共同預測得出的B幀。B幀的得名是由于B幀的許多部分都需要從前面的幀和將來的幀進行雙向預測共同得到。使用這種模式可以在比特率增加幅度很小的情況下大幅度增加幀頻。2.2.2H.26X標準（2）PB-幀模式2.2.2H.26X標準（3）無限制的運動矢量模式它為運動矢量指出圖像外部邊界，這對運動方向在邊沿的小圖像運動特別有用。當運動跨越圖像邊界時，由運動矢量所確定的宏塊位置可能有一部分落在邊界之外，此時可以用邊界上的像素值表示界外的像素值，從而降低預測誤差。（4）先進預測模式P-幀亮度使用交疊的塊運動補償技術(shù)，每個宏塊編碼器能使用一個16×16矢量或4個8×8矢量。使用比較小的矢量需要更多的位元但能產(chǎn)生更好的預測。2.2.2H.26X標準（3）無限制的運動矢量模式2.2.2H.26X標準2）H.263標準的改進ITU-T在H.263發(fā)布后又進行了修訂，非正式地命名為H.263+標準。H.263+在保證原H.263標準核心語法和語義不變的基礎(chǔ)上，提供了12個新的可協(xié)商模式和其他特征，進一步提高了壓縮編碼性能和增強了應用的靈活性。為提高壓縮效率，H.263+采用先進的幀內(nèi)編碼模式，增強的PB-幀模式改進了H.263的不足，增強了幀間預測的效果；去塊效應濾波器不僅提高了壓縮效率，而且提供重建圖像的主觀質(zhì)量。另一重要的改進是可擴展性，它允許多顯示率、多速率及多分辨率，增強了視頻信息在易誤碼、易丟包異構(gòu)網(wǎng)絡環(huán)境下的傳輸。2.2.2H.26X標準2）H.263標準的改進2.2.2H.26X標準3.H.264標準H.264是ITU-T的VCEG和ISO/IEC的MPEG的聯(lián)合視頻組開發(fā)的一個新的數(shù)字視頻編碼標準，它既是ITU-T的H.264標準，又是ISO/IECRMPEG-4的第10部分。H.264集中體現(xiàn)了當今國際視頻編碼解碼技術(shù)的最新成果。在相同的重建圖像質(zhì)量下，H.264比其他視頻壓縮編碼具有更高的壓縮比、更好的IP和無線網(wǎng)絡信道適應性。2.2.2H.26X標準3.H.264標準2.2.2H.26X標準1）分層設計2）高精度、多模式運動估計3）4×4塊的整數(shù)變換4）UVLC5）幀內(nèi)預測6）面向IP和無線環(huán)境2.2.2H.26X標準1）分層設計2.3視頻壓縮中的音頻編碼2.3.1音頻信號的數(shù)字化2.3.2MP3音頻壓縮編碼2.3視頻壓縮中的音頻編碼2.3.1音頻信號的數(shù)字化2.3.1音頻信號的數(shù)字化1.采樣模擬音頻信號作為連續(xù)信號，可用連續(xù)時間函數(shù)表示x(t)。數(shù)字化時，必須先對這種連續(xù)信號進行采樣，即按一定的時間間隔（T）取值，得到x(nT)（n為整數(shù)）。T稱采樣周期，1/T稱為采樣頻率，x(nT)是離散信號2.3.1音頻信號的數(shù)字化1.采樣2.3.1音頻信號的數(shù)字化2.量化量化的過程如下：量化器先將整個幅度劃分成為有限個小幅度（量化間隔）的集合，把落入某個間隔內(nèi)的樣值歸為一類，并賦予相同的量化值,用多位二進制表示。量化間隔的數(shù)目，稱為量化級。量化過程存在量化誤差，在還原信號的D/A轉(zhuǎn)換后，這種誤差作為噪聲再生，稱為量化噪聲。量化級數(shù)越多，量化誤差就越小，質(zhì)量就越好。2.3.1音頻信號的數(shù)字化2.量化2.3.1音頻信號的數(shù)字化例如，用44.1kHz的采樣頻率進行采樣，量化位數(shù)選用16位，則錄制1s的兩聲道立體聲節(jié)目，其波形文件大小為多少字節(jié)(byte)？44100*16*2*1/8=176400（B）2.3.1音頻信號的數(shù)字化例如，用44.1kHz的采樣頻率進2.3.1音頻信號的數(shù)字化3.編碼編碼是根據(jù)一定的協(xié)議或格式把模擬信息轉(zhuǎn)換成二進制比特流的過程。多媒體信息數(shù)字化的過程中，最簡單的編碼方式就是直接用量化后的二進制數(shù)作為輸出的數(shù)字信號，這種編碼方式也就是PCM編碼。2.3.1音頻信號的數(shù)字化3.編碼2.3.2MP3音頻壓縮編碼Mp3（MPEG-1layer3，MPEG-1的第3層）是目前最常用的音頻壓縮編碼標準之一。它結(jié)合了MUSICAM(掩蔽型通用子帶綜合編碼和復用)和ASPEC(自適應譜分析聽覺熵編碼)兩種算法，壓縮比達10：1~12：1，能在低碼率下保證音頻的高品質(zhì)，因而在網(wǎng)絡視頻中常用來對音頻信號進行編碼。2.3.2MP3音頻壓縮編碼Mp3（MPEG-1laye2.3.2MP3音頻壓縮編碼MP3采用每聲道64kbit/s，用混合濾波器組提高頻率分辨率，按信號分辨率分成6×32或18×32個子帶，克服了平均32個子帶的MP1、MP2在中低頻段分辨率偏低的缺點。MP3采用心理聲學模型（即基于感知的模型）Ⅱ，增設非均勻量化器，量化值進行熵編碼，整個過程如圖2-19所示。2.3.2MP3音頻壓縮編碼MP3采用每聲道64kbit/2.3.2MP3音頻壓縮編碼2.3.2MP3音頻壓縮編碼2.3.2MP3音頻壓縮編碼1.混合濾波器組混合濾波器組包括子帶濾波器組和MDCT（改進的DCT）兩部分。子帶濾波器組編碼完成樣本信號從時域到頻域的映射，并將規(guī)定的音頻信號通過帶通濾波器組分解成32個子帶輸出。子帶濾波器組輸出的32個子帶時等帶寬的，而由心理聲學模型得出的臨界帶寬則不是等帶寬的，所以為了使得進行編碼的各個比例因子帶與臨界頻帶相匹配，需要對每個子帶信號做MDCT變換。將子帶濾波器組的輸出送到MDCT濾波器組后，每組將細分為18條頻線，共產(chǎn)生576條頻線。2.3.2MP3音頻壓縮編碼1.混合濾波器組2.3.2MP3音頻壓縮編碼2.非均勻量化

MP3采用的是非均勻量化，或者說是一種非線性的量化關(guān)系，具體采用以下公式：

ix(i)=nint((xr(i)/quant)0.75?0.0946)其中，ix(i)

=第i個量化的絕對值，nint指四舍五入地取整數(shù)，xr(i)=第i頻率線的絕對值，quant=實際的量化器臺階大小。2.3.2MP3音頻壓縮編碼2.非均勻量化2.3.2MP3音頻壓縮編碼3.編碼量化后信息的編碼有幾種不同的編碼方法。高頻的一串零值用行程編碼，沒超過1的下個區(qū)域使用四維哈夫曼編碼，其余的大值區(qū)域采用二維哈夫曼編碼方案，而且可選擇地分為三個亞區(qū)，每個有獨立選擇的哈夫曼碼表。通過每個亞區(qū)單獨的自適應碼表，增強了編碼效率，而且同時降低了對傳輸誤碼的敏感度。第3層中使用的最大碼表是16×16條目，大值采用ESC機制來編碼。2.3.2MP3音頻壓縮編碼3.編碼2.3.2MP3音頻壓縮編碼4.比特流組裝

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

壓縮編碼技術(shù)課件

文檔簡介

溫馨提示

最新文檔

評論

壓縮編碼技術(shù)課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔