第四章多媒體數(shù)據(jù)壓縮技術(shù)介紹.ppt

上傳人：1*** IP屬地：浙江上傳時間：2020-04-16 格式：PPT 頁數(shù)：99 大?。?.40MB 積分：20 舉報 版權(quán)申訴

免費預(yù)覽已結(jié)束，剩余94頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

專業(yè)選修課程武漢大學(xué) 多媒體技術(shù) MultimediaTechniques 第四章多媒體數(shù)據(jù)壓縮技術(shù) 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述4 2常用多媒體數(shù)據(jù)壓縮方法4 3語音信號編碼的標準與方法4 4靜態(tài)圖像壓縮編碼技術(shù)4 5動態(tài)圖像壓縮編碼技術(shù) 第四章多媒體數(shù)據(jù)壓縮技術(shù) 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述數(shù)據(jù)編碼包括信源編碼信道編碼信源編碼為了表示和或壓縮從信號源產(chǎn)生出來的信號而進行的編碼主要解決有效性問題信道編碼為了使處理過的信號在傳輸過程中不出錯或少出錯以及即使出了錯也能自動檢錯或盡量糾錯而進行的編碼主要解決可靠性問題多媒體數(shù)據(jù)的壓縮主要是對視頻數(shù)據(jù)和音頻數(shù)據(jù)的壓縮二者使用的基本技術(shù)是相同的為什么要壓縮數(shù)據(jù)的冗余性壓縮和解壓縮過程壓縮評價和分類數(shù)據(jù)壓縮常常又稱為數(shù)據(jù)信源編碼或簡稱為數(shù)據(jù)編碼數(shù)據(jù)壓縮的逆過程稱為數(shù)據(jù)解壓縮也稱為數(shù)據(jù)信源解碼或簡稱為數(shù)據(jù)解碼 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法詞典編碼分類詞典編碼的根據(jù) 數(shù)據(jù)本身包含有重復(fù)代碼序列屬于通用編碼技術(shù)和無損壓縮技術(shù)詞典編碼法分類第一類詞典法查找正在壓縮的字符序列是否在前面的輸入數(shù)據(jù)中出現(xiàn)過如果是則用指向早期出現(xiàn)過的字符串的指針替代重復(fù)的字符串第二類算法從輸入的數(shù)據(jù)中創(chuàng)建一個短語詞典 dictionaryofthephrases 編碼數(shù)據(jù)過程中當遇到已經(jīng)在詞典中出現(xiàn)的短語時編碼器就輸出這個詞典中的短語的索引號而不是短語本身 LZW算法 LZW與LZ78的差別 LZW只輸出代表詞典中的綴符串 String 的碼字 codeword 這意味在開始時詞典不能是空的它必須包含可能在字符流出現(xiàn)中的所有單個字符即前綴根 Root 由于所有可能出現(xiàn)的單個字符都事先包含在詞典中每個編碼步驟開始時都使用一字符前綴 one characterprefix 因此在詞典中搜索的第1個綴符串有兩個字符 3 5 5 1編碼算法 LZW編碼是圍繞稱為詞典的轉(zhuǎn)換表來完成的這張轉(zhuǎn)換表用來存放稱為前綴 Prefix 的字符序列并且為每個表項分配一個碼字 Codeword 或者叫做序號 LZW編碼器軟件編碼器或硬件編碼器通過管理這個詞典完成輸入與輸出之間的轉(zhuǎn)換 LZW編碼器使用的分析 parsing 算法稱為貪婪分析算法 greedyparsingalgorithm 貪婪分析算法每一次分析都要串行地檢查來自字符流Charstream的字符串從中分解出已經(jīng)識別的最長的字符串也就是已經(jīng)在詞典中出現(xiàn)的最長的前綴Prefix 用已知的前綴Prefix加上下一個輸入字符C也就是當前字符 Currentcharacter 作為該前綴的擴展字符形成新的擴展字符串綴符串String Prefix C 新的綴符串String是否要加到詞典中要看詞典中是否存有和它相同的綴符串String 如果有那么這個綴符串String就變成前綴Prefix 繼續(xù)輸入新的字符否則就把這個綴符串String寫到詞典中生成一個新的前綴Prefix 并給一個代碼 3 5 5 1LZW編碼算法步驟步驟1 開始時的詞典包含所有可能的根 Root 而當前前綴P是空的步驟2 當前字符 C 字符流中的下一個字符步驟3 判斷綴符串P C是否在詞典中把代表當前前綴P的碼字輸出到碼字流把綴符串P C添加到詞典令P C 即現(xiàn)在的P僅包含一個字符C 步驟4 判斷碼字流中是否還有碼字要譯如果是返回到步驟2 如果否則把代表當前前綴P的碼字輸出到碼字流結(jié)束例被編碼字符串 LZW的編碼過程 3 5 5 2LZW譯碼算法步驟1 在開始譯碼時詞典包含所有可能的前綴根 Root 步驟2 cW 碼字流中的第一個碼字步驟3 輸出當前綴符串string cW到碼字流步驟4 先前碼字pW 當前碼字cW 步驟5 當前碼字cW 碼字流中的下一個碼字步驟6 判斷先前綴符串string pW是否在詞典中1 如果是把先前綴符串string pW輸出到字符流當前前綴P 先前綴符串string pW 當前字符C 當前前綴符串string cW的第一個字符把綴符串P C添加到詞典 2 如果否當前前綴P 先前綴符串string pW 當前字符C 當前綴符串string cW的第一個字符輸出綴符串P C到字符流然后把它添加到詞典中步驟7 判斷碼字流中是否還有碼字要譯1 如果是就返回到步驟4 2 如果否結(jié)束例續(xù) LZW的譯碼過程 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 LPC在語音處理中得到廣泛應(yīng)用發(fā)展了許多算法多脈沖線性預(yù)測編碼 MPLPC 規(guī)則脈沖激勵編碼 RPE 碼激勵線性預(yù)測 CELP 代數(shù)激勵線性預(yù)測 ACELP 向量和激勵線性預(yù)測 VSELP QCELP QualcommCELP 變速率CELP 低延時碼激勵線性預(yù)測 LD CELP 共軛結(jié)構(gòu)代數(shù)激勵線性預(yù)測 CS ACELP 混合激勵線性預(yù)測 MELP 間隔同步更新碼激勵線性預(yù)測 PSI CELP 松弛碼激勵線性預(yù)測 RCELP 殘差激勵線性預(yù)測 RELP 規(guī)則脈沖激勵長時預(yù)測 RPE LTP 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 MP3音頻壓縮編碼 MP3是一種音頻壓縮的國際技術(shù)標準 MP3格式開始于二十世紀80年代中期是在德國夫朗和費研究所 FraunhoferInstitute 開始的研究致力于高質(zhì)量低數(shù)據(jù)率的聲音編碼 1989年夫朗和費研究所在德國被獲準取得了MP3的專利權(quán) 幾年后這項技術(shù)被提交到國際標準組織 ISO 整合進入了MPEG 1標準 MP3格式是一個讓音樂界產(chǎn)生巨大震動的一個聲音格式 MP3的全稱是MovingPictureExpertsGroup AudioLayer3 它所使用的技術(shù)是在VCD MPEG 1 的音頻壓縮技術(shù)上發(fā)展出的第三代而不是MPEG 3 MP3音頻壓縮編碼 MPEG代表的是MPEG活動影音壓縮標準 MPEG音頻文件指的是MPEG標準中的聲音部分即MPEG音頻層 MPEG音頻文件根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層 MPEGAUDIOLAYER1 2 3分別與MP1 MP2和MP3這三種聲音文件相對應(yīng) MPEG音頻編碼具有很高的壓縮率 MP1和MP2的壓縮率分別為4 1和6 1 8 1 而MP3的壓縮率則高達10 1 12 1 也就是說一分鐘CD音質(zhì)的音樂未經(jīng)壓縮需要10MB存儲空間而經(jīng)過MP3壓縮編碼后只有1MB左右同時其音質(zhì)基本保持不失真 MP3音頻壓縮編碼音樂信號中有許多冗余成分其中包括間隔和一些人耳分辨不出的信息如混雜在較強背景中的弱信號 MP3為降低聲音失真采取了名為感官編碼技術(shù) 的編碼算法編碼時先對音頻文件進行頻譜分析然后用過濾器濾掉噪音接著通過量化的方式將剩下的每一位打散排列最后形成具有較高壓縮比的MP3文件并使壓縮后的文件在回放時能夠達到比較接近原音源的聲音效果雖然它是一種有損壓縮但是它的最大優(yōu)勢是以極小的聲音失真換來了較高的壓縮比音頻編碼標準 G 711G 722G 723 1G 728G 729音頻編碼標準比較 G 711 1972年CCITT為電話質(zhì)量和語音壓縮制定了PCM標準G 711 其速率為64kb s 使用律或A律的非線性量化技術(shù) 主要用于公共電話網(wǎng)中 G 722 1988年CCITT為調(diào)幅廣播質(zhì)量的音頻信號壓縮制定了G 722標準它使用子帶編碼 SBC 方案其濾波器組將輸入信號分成高低兩個子帶信號然后分別使用ADPCM進行編碼 G 722能將224kb s的調(diào)幅廣播質(zhì)量的音頻信號壓縮為64kb s 主要用于視聽多媒體和會議電視等 G 722的主要目標是保持64kb s的數(shù)據(jù)率而音頻信號的質(zhì)量要明顯高于G 711的質(zhì)量 G 723 1 1996年ITU T通過了G 723標準用于多媒體傳輸?shù)? 3kb s或6 3kb s雙速率話音編碼它采用多脈沖激勵最大似然量化 MP MLQ 算法此標準可應(yīng)用于可視電話及IP電話等系統(tǒng)中 G 728 為了進一步降低壓縮的速率 CCITT于1992年制定了G 728標準使用基于低時延碼本激勵線性預(yù)測編碼 LD CELP 算法其速率為16kb s 主要用于公共電話網(wǎng)中 G 729 ITU T于1996年3月通過了G 729標準它使用8kb s的共軛結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測 CS ACELP 算法此標準將在無線移動網(wǎng) 數(shù)字多路復(fù)用系統(tǒng)和計算機通信系統(tǒng)中應(yīng)用音頻編碼標準比較第四講數(shù)字語音處理技術(shù) 數(shù)字音頻壓縮技術(shù)三維音效語音識別自然語言理解語音合成三維音效人類的聽覺3D音效的分類杜比AC 3DTS 人類的聽覺人耳的基本聲音定位原理是IID InterauralIntensityDifference 兩側(cè)聲音強度差別和ITD InterauralTimeDifference 兩側(cè)聲音時間延遲差別 IID指距離音源較近的哪一邊耳朵所收到的聲音強度比另一側(cè)高感到聲音更大一些 ITD指方位的不同使聲音到達兩耳的時間有差別人們會覺得聲音位于到達時間早些的那一邊 IID ITD的結(jié)果是把音源定位到以聽者兩耳這間連線為軸線的錐體范圍之內(nèi) 人類的聽覺耳廓外耳的作用是濾波器根據(jù)聲音的不同角度加強減弱音波能量過濾之后傳給大腦讓我們更準確地聲源的位置耳廓的大小有限因此能夠收到的音波范圍也有限通常是20Hz到20KHz 即波長16米到1 6厘米的音波換言之低于此范圍是次聲波高于此范圍是超聲波由于兩耳機的距離約為15厘米當波長大于15厘米時IIT和ITD將會減弱頻率低的聲音波長大因此我們很難判斷出低音的位置卻能輕易分辨高音的方位實際上耳廓對于聲音的定位是至關(guān)重要的一環(huán) 沒有外耳的人難以判斷聲音發(fā)出的位置人類的聽覺人類依靠一種稱為HRTF HeadRelatedTransferFunction 頭部關(guān)聯(lián)傳輸功能的系統(tǒng)來判斷聲音發(fā)出的位置每個人的HRTF都不盡相同還可以進行交換 HRTF的檢測非常簡單先在人的耳道內(nèi)放置兩個微型麥克風再在聽者附近放一個音箱播放確定的信號同時記錄麥克風收到的信號比較源信號和麥克風的脈沖特性曲線就可以得到其中一個濾波效果最后于聽者附近的所有位置重復(fù)上述過程即可獲取完整的HRTF系統(tǒng) 三維音效人類的聽覺3D音效的分類杜比AC 3DTS 3D音效的分類 3D音效的兩個最重要因素是定位和交互定位即讓人們準確地判斷出聲音的來源可以通過預(yù)選錄制聲音再進行特定的解碼來實現(xiàn) 實時的定位就是交互聲音并非預(yù)選錄制好的而是按照你的控制來決定聲音的位置即時生成的交互式聲音對輸入設(shè)備的要求比預(yù)選錄制音軌的放音設(shè)備如電影要更強一些 3D音效的分類擴展式立體聲它使用聲音延遲技術(shù)對傳統(tǒng)的立體聲進行額外處理擴寬了音場的位置使聲音延展到音箱以外的空間讓我們感覺的3D世界更廣闊環(huán)繞立體聲它采用音頻壓縮技術(shù) 如杜比AC 3 把多通道音源編碼成一段程序再以一組多揚聲器系統(tǒng)來進行解碼實現(xiàn)多區(qū)域環(huán)繞效果交互式3D音效交互式3D盡量地復(fù)制了人耳在真實世界中聽到的聲音并使用一定的算法來播放出來讓我們感到整個三維空間的所有地方都可能產(chǎn)生聲音并隨聽者的移動而做出相應(yīng)改變三維音效人類的聽覺 3D音效的分類杜比AC 3DTS 杜比AC 3 為了提高HDTV聲音的質(zhì)量避免模擬矩陣編碼的局限性提出了雙通道的碼率提供多通道的編碼性能的設(shè)想杜比AC 3就是為了實現(xiàn)這一設(shè)想而開發(fā)的杜比AC 3可以把五個獨立的全頻帶和一個超低音通道的信號實行統(tǒng)一編碼成為單一的復(fù)合數(shù)據(jù)流 AC 3的頻響為20Hz 20kHz 0 5dB 3dB時為3Hz 20 3kHz 超低聲道頻率范圍是20Hz 120Hz 0 5dB 可支持32kHz 44 1kHz 48kHz三種取樣頻率數(shù)碼率可低至單聲道的32kb s 高到多聲道640kb s 以適應(yīng)不同需要杜比AC 3 AC 3采用基于改良離散余弦變換 MDCT 的自適應(yīng)變換編碼 ATC 算法 ATC算法的一個重要考慮是基于人耳聽覺掩蔽效應(yīng)的臨界頻帶理論即在臨界頻帶內(nèi)一個聲音對另一個聲音信號的掩蔽效應(yīng)最明顯因此劃分頻帶的濾波器組要有足夠銳利的頻率響應(yīng) 以保證臨界頻帶外的噪聲衰減足夠大使時域和頻域內(nèi)的噪聲限定在掩蔽門限以下三維音效人類的聽覺 3D音效的分類杜比AC 3DTS DTS DTS是 DigitalTheatreSystem 的縮寫是數(shù)字化影院系統(tǒng) 的意思從技術(shù)上講 DTS與包括DolbyDigital在內(nèi)的其它聲音處理系統(tǒng)是完全不同的 Dol

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第四章多媒體數(shù)據(jù)壓縮技術(shù)介紹.ppt

文檔簡介

溫馨提示

最新文檔

評論

第四章多媒體數(shù)據(jù)壓縮技術(shù)介紹.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔