第四章多媒體數(shù)據(jù)壓縮技術(shù)介紹.ppt_第1頁
第四章多媒體數(shù)據(jù)壓縮技術(shù)介紹.ppt_第2頁
第四章多媒體數(shù)據(jù)壓縮技術(shù)介紹.ppt_第3頁
第四章多媒體數(shù)據(jù)壓縮技術(shù)介紹.ppt_第4頁
第四章多媒體數(shù)據(jù)壓縮技術(shù)介紹.ppt_第5頁
已閱讀5頁,還剩94頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

專業(yè)選修課程 武漢大學(xué) 多媒體技術(shù) MultimediaTechniques 第四章多媒體數(shù)據(jù)壓縮技術(shù) 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述4 2常用多媒體數(shù)據(jù)壓縮方法4 3語音信號編碼的標準與方法4 4靜態(tài)圖像壓縮編碼技術(shù)4 5動態(tài)圖像壓縮編碼技術(shù) 第四章多媒體數(shù)據(jù)壓縮技術(shù) 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 數(shù)據(jù)編碼包括 信源編碼信道編碼信源編碼 為了表示和 或壓縮從信號源產(chǎn)生出來的信號而進行的編碼 主要解決有效性問題 信道編碼 為了使處理過的信號在傳輸過程中不出錯或少出錯 以及即使出了錯也能自動檢錯或盡量糾錯而進行的編碼 主要解決可靠性問題 多媒體數(shù)據(jù)的壓縮主要是對視頻數(shù)據(jù)和音頻數(shù)據(jù)的壓縮 二者使用的基本技術(shù)是相同的 為什么要壓縮數(shù)據(jù)的冗余性壓縮和解壓縮過程壓縮評價和分類數(shù)據(jù)壓縮常常又稱為數(shù)據(jù)信源編碼 或簡稱為數(shù)據(jù)編碼 數(shù)據(jù)壓縮的逆過程稱為數(shù)據(jù)解壓縮 也稱為數(shù)據(jù)信源解碼 或簡稱為數(shù)據(jù)解碼 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 1多媒體數(shù)據(jù)壓縮技術(shù)概述 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 4 2常用多媒體數(shù)據(jù)壓縮方法 詞典編碼分類 詞典編碼的根據(jù) 數(shù)據(jù)本身包含有重復(fù)代碼序列 屬于通用編碼技術(shù)和無損壓縮技術(shù)詞典編碼法分類第一類詞典法 查找正在壓縮的字符序列是否在前面的輸入數(shù)據(jù)中出現(xiàn)過 如果是 則用指向早期出現(xiàn)過的字符串的 指針 替代重復(fù)的字符串 第二類算法 從輸入的數(shù)據(jù)中創(chuàng)建一個 短語詞典 dictionaryofthephrases 編碼數(shù)據(jù)過程中當遇到已經(jīng)在詞典中出現(xiàn)的 短語 時 編碼器就輸出這個詞典中的短語的 索引號 而不是短語本身 LZW算法 LZW與LZ78的差別 LZW只輸出代表詞典中的綴 符串 String 的碼字 codeword 這意味在開始時詞典不能是空的 它必須包含可能在字符流出現(xiàn)中的所有單個字符 即前綴根 Root 由于所有可能出現(xiàn)的單個字符都事先包含在詞典中 每個編碼步驟開始時都使用一字符前綴 one characterprefix 因此在詞典中搜索的第1個綴 符串有兩個字符 3 5 5 1編碼算法 LZW編碼是圍繞稱為詞典的轉(zhuǎn)換表來完成的 這張轉(zhuǎn)換表用來存放稱為前綴 Prefix 的字符序列 并且為每個表項分配一個碼字 Codeword 或者叫做序號 LZW編碼器 軟件編碼器或硬件編碼器 通過管理這個詞典完成輸入與輸出之間的轉(zhuǎn)換 LZW編碼器使用的分析 parsing 算法 稱為貪婪分析算法 greedyparsingalgorithm 貪婪分析算法 每一次分析都要串行地檢查來自字符流Charstream的字符串 從中分解出已經(jīng)識別的最長的字符串 也就是已經(jīng)在詞典中出現(xiàn)的最長的前綴Prefix 用已知的前綴Prefix加上下一個輸入字符C也就是當前字符 Currentcharacter 作為該前綴的擴展字符 形成新的擴展字符串 綴 符串String Prefix C 新的綴 符串String是否要加到詞典中 要看詞典中是否存有和它相同的綴 符串String 如果有 那么這個綴 符串String就變成前綴Prefix 繼續(xù)輸入新的字符 否則就把這個綴 符串String寫到詞典中生成一個新的前綴Prefix 并給一個代碼 3 5 5 1LZW編碼算法步驟 步驟1 開始時的詞典包含所有可能的根 Root 而當前前綴P是空的 步驟2 當前字符 C 字符流中的下一個字符 步驟3 判斷綴 符串P C是否在詞典中把代表當前前綴P的碼字輸出到碼字流 把綴 符串P C添加到詞典 令P C 即現(xiàn)在的P僅包含一個字符C 步驟4 判斷碼字流中是否還有碼字要譯如果 是 返回到步驟2 如果 否 則把代表當前前綴P的碼字輸出到碼字流 結(jié)束 例 被編碼字符串 LZW的編碼過程 3 5 5 2LZW譯碼算法 步驟1 在開始譯碼時詞典包含所有可能的前綴根 Root 步驟2 cW 碼字流中的第一個碼字 步驟3 輸出當前綴 符串string cW到碼字流 步驟4 先前碼字pW 當前碼字cW 步驟5 當前碼字cW 碼字流中的下一個碼字 步驟6 判斷先前綴 符串string pW是否在詞典中1 如果 是 把先前綴 符串string pW輸出到字符流 當前前綴P 先前綴 符串string pW 當前字符C 當前前綴 符串string cW的第一個字符 把綴 符串P C添加到詞典 2 如果 否 當前前綴P 先前綴 符串string pW 當前字符C 當前綴 符串string cW的第一個字符 輸出綴 符串P C到字符流 然后把它添加到詞典中 步驟7 判斷碼字流中是否還有碼字要譯1 如果 是 就返回到步驟4 2 如果 否 結(jié)束 例 續(xù) LZW的譯碼過程 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 LPC在語音處理中得到廣泛應(yīng)用 發(fā)展了許多算法 多脈沖線性預(yù)測編碼 MPLPC 規(guī)則脈沖激勵編碼 RPE 碼激勵線性預(yù)測 CELP 代數(shù)激勵線性預(yù)測 ACELP 向量和激勵線性預(yù)測 VSELP QCELP QualcommCELP 變速率CELP 低延時碼激勵線性預(yù)測 LD CELP 共軛結(jié)構(gòu)代數(shù)激勵線性預(yù)測 CS ACELP 混合激勵線性預(yù)測 MELP 間隔同步更新碼激勵線性預(yù)測 PSI CELP 松弛碼激勵線性預(yù)測 RCELP 殘差激勵線性預(yù)測 RELP 規(guī)則脈沖激勵長時預(yù)測 RPE LTP 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 MP3音頻壓縮編碼 MP3是一種音頻壓縮的國際技術(shù)標準 MP3格式開始于二十世紀80年代中期 是在德國夫朗和費研究所 FraunhoferInstitute 開始的 研究致力于高質(zhì)量 低數(shù)據(jù)率的聲音編碼 1989年 夫朗和費研究所在德國被獲準取得了MP3的專利權(quán) 幾年后這項技術(shù)被提交到國際標準組織 ISO 整合進入了MPEG 1標準 MP3格式是一個讓音樂界產(chǎn)生巨大震動的一個聲音格式 MP3的全稱是MovingPictureExpertsGroup AudioLayer3 它所使用的技術(shù)是在VCD MPEG 1 的音頻壓縮技術(shù)上發(fā)展出的第三代 而不是MPEG 3 MP3音頻壓縮編碼 MPEG代表的是MPEG活動影音壓縮標準 MPEG音頻文件指的是MPEG標準中的聲音部分即MPEG音頻層 MPEG音頻文件根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層 MPEGAUDIOLAYER1 2 3分別與MP1 MP2和MP3這三種聲音文件相對應(yīng) MPEG音頻編碼具有很高的壓縮率 MP1和MP2的壓縮率分別為4 1和6 1 8 1 而MP3的壓縮率則高達10 1 12 1 也就是說一分鐘CD音質(zhì)的音樂未經(jīng)壓縮需要10MB存儲空間 而經(jīng)過MP3壓縮編碼后只有1MB左右 同時其音質(zhì)基本保持不失真 MP3音頻壓縮編碼 音樂信號中有許多冗余成分 其中包括間隔和一些人耳分辨不出的信息 如混雜在較強背景中的弱信號 MP3為降低聲音失真采取了名為 感官編碼技術(shù) 的編碼算法 編碼時先對音頻文件進行頻譜分析 然后用過濾器濾掉噪音 接著通過量化的方式將剩下的每一位打散排列 最后形成具有較高壓縮比的MP3文件 并使壓縮后的文件在回放時能夠達到比較接近原音源的聲音效果 雖然它是一種有損壓縮 但是它的最大優(yōu)勢是以極小的聲音失真換來了較高的壓縮比 音頻編碼標準 G 711G 722G 723 1G 728G 729音頻編碼標準比較 G 711 1972年CCITT為電話質(zhì)量和語音壓縮制定了PCM標準G 711 其速率為64kb s 使用 律或A律的非線性量化技術(shù) 主要用于公共電話網(wǎng)中 G 722 1988年CCITT為調(diào)幅廣播質(zhì)量的音頻信號壓縮制定了G 722標準 它使用子帶編碼 SBC 方案 其濾波器組將輸入信號分成高低兩個子帶信號 然后分別使用ADPCM進行編碼 G 722能將224kb s的調(diào)幅廣播質(zhì)量的音頻信號壓縮為64kb s 主要用于視聽多媒體和會議電視等 G 722的主要目標是保持64kb s的數(shù)據(jù)率 而音頻信號的質(zhì)量要明顯高于G 711的質(zhì)量 G 723 1 1996年ITU T通過了G 723標準 用于多媒體傳輸?shù)? 3kb s或6 3kb s雙速率話音編碼 它采用多脈沖激勵最大似然量化 MP MLQ 算法 此標準可應(yīng)用于可視電話及IP電話等系統(tǒng)中 G 728 為了進一步降低壓縮的速率 CCITT于1992年制定了G 728標準 使用基于低時延碼本激勵線性預(yù)測編碼 LD CELP 算法 其速率為16kb s 主要用于公共電話網(wǎng)中 G 729 ITU T于1996年3月通過了G 729標準 它使用8kb s的共軛結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測 CS ACELP 算法 此標準將在無線移動網(wǎng) 數(shù)字多路復(fù)用系統(tǒng)和計算機通信系統(tǒng)中應(yīng)用 音頻編碼標準比較 第四講數(shù)字語音處理技術(shù) 數(shù)字音頻壓縮技術(shù)三維音效語音識別自然語言理解語音合成 三維音效 人類的聽覺3D音效的分類杜比AC 3DTS 人類的聽覺 人耳的基本聲音定位原理是IID InterauralIntensityDifference 兩側(cè)聲音強度差別 和ITD InterauralTimeDifference 兩側(cè)聲音時間延遲差別 IID指距離音源較近的哪一邊耳朵 所收到的聲音強度比另一側(cè)高 感到聲音更大一些 ITD指方位的不同 使聲音到達兩耳的時間有差別 人們會覺得聲音位于到達時間早些的那一邊 IID ITD的結(jié)果是把音源定位到以聽者兩耳這間連線為軸線的錐體范圍之內(nèi) 人類的聽覺 耳廓 外耳 的作用是濾波器 根據(jù)聲音的不同角度 加強 減弱音波能量 過濾之后傳給大腦 讓我們更準確地聲源的位置 耳廓的大小有限 因此能夠收到的音波范圍也有限 通常是20Hz到20KHz 即波長16米到1 6厘米的音波 換言之 低于此范圍是次聲波 高于此范圍是超聲波 由于兩耳機的距離約為15厘米 當波長大于15厘米時IIT和ITD將會減弱 頻率低的聲音波長大 因此我們很難判斷出低音的位置 卻能輕易分辨高音的方位 實際上 耳廓對于聲音的定位 是至關(guān)重要的一環(huán) 沒有外耳的人難以判斷聲音發(fā)出的位置 人類的聽覺 人類依靠一種稱為HRTF HeadRelatedTransferFunction 頭部關(guān)聯(lián)傳輸功能 的系統(tǒng)來判斷聲音發(fā)出的位置 每個人的HRTF都不盡相同 還可以進行交換 HRTF的檢測非常簡單 先在人的耳道內(nèi)放置兩個微型麥克風(fēng) 再在聽者附近放一個音箱 播放確定的信號 同時記錄麥克風(fēng)收到的信號 比較源信號和麥克風(fēng)的脈沖特性曲線就可以得到其中一個濾波效果 最后于聽者附近的所有位置重復(fù)上述過程 即可獲取完整的HRTF系統(tǒng) 三維音效 人類的聽覺3D音效的分類杜比AC 3DTS 3D音效的分類 3D音效的兩個最重要因素是定位和交互 定位即讓人們準確地判斷出聲音的來源 可以通過預(yù)選錄制聲音 再進行特定的解碼來實現(xiàn) 實時的定位就是交互 聲音并非預(yù)選錄制好的 而是按照你的控制來決定聲音的位置 即時生成的交互式聲音對輸入設(shè)備的要求 比預(yù)選錄制音軌的放音設(shè)備 如 電影 要更強一些 3D音效的分類 擴展式立體聲它使用聲音延遲技術(shù)對傳統(tǒng)的立體聲進行額外處理 擴寬了音場的位置 使聲音延展到音箱以外的空間 讓我們感覺的3D世界更廣闊環(huán)繞立體聲它采用音頻壓縮技術(shù) 如 杜比AC 3 把多通道音源編碼成一段程序 再以一組多揚聲器系統(tǒng)來進行解碼 實現(xiàn)多區(qū)域環(huán)繞效果 交互式3D音效交互式3D盡量地復(fù)制了人耳在真實世界中聽到的聲音 并使用一定的算法來播放出來 讓我們感到整個三維空間的所有地方都可能產(chǎn)生聲音 并隨聽者的移動而做出相應(yīng)改變 三維音效 人類的聽覺 3D音效的分類杜比AC 3DTS 杜比AC 3 為了提高HDTV聲音的質(zhì)量 避免模擬矩陣編碼的局限性 提出了雙通道的碼率提供多通道的編碼性能的設(shè)想 杜比AC 3就是為了實現(xiàn)這一設(shè)想而開發(fā)的 杜比AC 3可以把五個獨立的全頻帶和一個超低音通道的信號實行統(tǒng)一編碼 成為單一的復(fù)合數(shù)據(jù)流 AC 3的頻響為20Hz 20kHz 0 5dB 3dB時為3Hz 20 3kHz 超低聲道頻率范圍是20Hz 120Hz 0 5dB 可支持32kHz 44 1kHz 48kHz三種取樣頻率 數(shù)碼率可低至單聲道的32kb s 高到多聲道640kb s 以適應(yīng)不同需要 杜比AC 3 AC 3采用基于改良離散余弦變換 MDCT 的自適應(yīng)變換編碼 ATC 算法 ATC算法的一個重要考慮是基于人耳聽覺掩蔽效應(yīng)的臨界頻帶理論 即在臨界頻帶內(nèi)一個聲音對另一個聲音信號的掩蔽效應(yīng)最明顯 因此 劃分頻帶的濾波器組要有足夠銳利的頻率響應(yīng) 以保證臨界頻帶外的噪聲衰減足夠大 使時域和頻域內(nèi)的噪聲限定在掩蔽門限以下 三維音效 人類的聽覺 3D音效的分類 杜比AC 3DTS DTS DTS是 DigitalTheatreSystem 的縮寫 是 數(shù)字化影院系統(tǒng) 的意思 從技術(shù)上講 DTS與包括DolbyDigital在內(nèi)的其它聲音處理系統(tǒng)是完全不同的 Dol

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論