L11-1語音壓縮編碼_第1頁
L11-1語音壓縮編碼_第2頁
L11-1語音壓縮編碼_第3頁
L11-1語音壓縮編碼_第4頁
L11-1語音壓縮編碼_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十一講

聲音壓縮技術(shù)及標(biāo)準(zhǔn)一、音頻壓縮概述聲音壓縮編碼技術(shù)分類多媒體計(jì)算機(jī)處理的數(shù)字化聲音有以下幾種,其處理方法有所不同,數(shù)字語音(窄帶聲音)包括:電話語音、調(diào)幅廣播聲音,其頻率范圍比較窄,普通語音為200-3400Hz,AM廣播為50-7000Hz,典型采樣頻率為8KHz、16KHz,量化精度為8bit或16bit。常采用波形編碼、參數(shù)編碼和混合編碼方法來壓縮。(如下圖所示)典型壓縮編碼標(biāo)準(zhǔn)有:G.711、G.721、G.722、G.723、G.726、G.727、G.728、G.729等。聲音壓縮編碼技術(shù)分類無失真壓縮音頻壓縮方法有失真壓縮Huffman編碼行程編碼波形編碼參數(shù)編碼混合編碼全頻帶編碼PCMDPCMADPCM子帶編碼自適應(yīng)變換編碼ATC

心理聲學(xué)模型矢量量化線性預(yù)測(cè)LPC矢量和激勵(lì)線性預(yù)測(cè)VSELP多脈沖線性預(yù)測(cè)MP-LPC碼本激勵(lì)線性預(yù)測(cè)CELP聲音壓縮編碼技術(shù)分類自然界聲音(寬帶音頻)即高保真立體聲音,這種聲音質(zhì)量最好。頻帶寬,覆蓋了人的聽覺范圍(20-20000Hz),采樣頻率高,典型為11.025KHz、22.05KHz、44.1KHz及其它值,數(shù)據(jù)量極大。壓縮時(shí)應(yīng)充分利用人的聽覺特性,建立起心理聲學(xué)模型,采用以變換編碼和子帶編碼為主的感知音頻編碼技術(shù)。典型壓縮編碼標(biāo)準(zhǔn)有:AC-3、MPEG音頻編碼。符號(hào)化聲音(合成聲音)MIDI合成音樂、TTS合成語音本講主要內(nèi)容語音壓縮技術(shù)語音(包括AM廣播音頻)壓縮標(biāo)準(zhǔn)MPEG-1音頻編碼標(biāo)準(zhǔn)(第1-3層)MPEG-2AAC高級(jí)音頻編碼標(biāo)準(zhǔn)MPEG-4音頻編碼標(biāo)準(zhǔn)二、語音壓縮技術(shù)2.1波形編碼波形編碼:是典型的建立在聲音采樣數(shù)據(jù)的統(tǒng)計(jì)特性和人體聽覺特性基礎(chǔ)上的,目標(biāo)是使重建語音波形保持原波形的形狀。其編碼特點(diǎn)是:適應(yīng)性強(qiáng)、壓縮比小、音質(zhì)好。主要算法包括:PCM(脈沖編碼調(diào)制)、DPCM(差值量化)、APCM(自適應(yīng)量化)、ADPCM(自適應(yīng)預(yù)測(cè)編碼)、ATC(自適應(yīng)變換編碼)、等。2.1波形編碼脈沖編碼調(diào)制(PCM)采樣、量化、編碼標(biāo)量量化:均勻量化非均勻量化(u-law或A-law對(duì)數(shù)壓擴(kuò))增量調(diào)制(DM)與自適應(yīng)增量調(diào)制(ADM)差分脈碼調(diào)制(DPCM)增加預(yù)測(cè)器2.1波形編碼圖1DPCM的基本工作原理

2.1波形編碼(續(xù))自適應(yīng)差分脈碼調(diào)制(ADPCM)自適應(yīng)量化自適應(yīng)預(yù)測(cè)量化器量化階距調(diào)節(jié)逆量化器預(yù)測(cè)器+-++PCM樣本預(yù)測(cè)樣本差分信號(hào)2.2參數(shù)編碼參數(shù)編碼:建立在音頻產(chǎn)生模型的基礎(chǔ)上,通過提取聲學(xué)特征參數(shù)和激勵(lì)信號(hào),并編碼,解碼后根據(jù)相同模型合成音頻信號(hào)。其目標(biāo)是使重建的音頻信號(hào)盡量保持原有的音頻特性。參數(shù)編碼的特點(diǎn)是:壓縮率大、數(shù)據(jù)率低、計(jì)算量大、保真度差,自然度低,適用于語音信號(hào)的編碼。典型編碼算法:LPC

(線性預(yù)測(cè)編碼),該編碼可將語音數(shù)據(jù)比特率壓縮到2~4.8Kbit/s,甚至更低。2.2參數(shù)編碼語音生成機(jī)構(gòu)的模型:聲源:濁音(元音)、清音(摩擦音)、爆破音聲道:用可變參數(shù)的數(shù)字濾波器來模擬。語音基本參數(shù):基音周期、共振蜂、語音譜、聲強(qiáng)等。參數(shù)估計(jì):LPC(線性預(yù)測(cè)編碼)聲源共鳴機(jī)構(gòu)放射機(jī)構(gòu)語音聲道2.2參數(shù)編碼(續(xù))脈沖序列發(fā)生器隨機(jī)噪聲發(fā)生器數(shù)字濾波器…基因周期增益控制增益控制濁音清音聲道參數(shù)語音信號(hào)語音生成機(jī)構(gòu)的模型2.3混合編碼混合編碼:集合了波形編碼和參數(shù)編碼的優(yōu)點(diǎn),可以在較低的碼率下獲得較高音質(zhì)。一種被普遍使用的非常成功的混合編解碼器就是“分析-合成”編解碼器

(

AbS–AnalysisbySynthesis)。2.3混合編碼AbS

編解碼器:其激勵(lì)信號(hào)波形盡可能接近于原始話音的波形;它把輸入話音信號(hào)分成許多幀(frames),一般幀長(zhǎng)為20ms。編碼器一幀一幀地“分析”,得到語音信號(hào)參數(shù);解碼器根據(jù)參數(shù),一幀一幀地“合成”,恢復(fù)出原始語音信號(hào)的近似值。2.3混合編碼(續(xù))激勵(lì)生成合成濾波器-誤差最小化聽覺加權(quán)語音輸入s(n)u(n)s’(n)e(n)ew(n)…形狀增益參數(shù)激勵(lì)生成合成濾波器u(n)s’(n)…形狀增益參數(shù)重構(gòu)語音AbS編碼器AbS

解碼器2.3混合編碼(續(xù))典型的混合編碼技術(shù)有:矢量和激勵(lì)

線性預(yù)測(cè)(VSELP)多脈沖-線性預(yù)測(cè)編碼(MP-LPC)碼本激勵(lì)線性預(yù)測(cè)(CELP),包括:短時(shí)延-碼本激勵(lì)線性預(yù)測(cè)(LD-CELP)規(guī)則脈沖激勵(lì)-長(zhǎng)時(shí)線性預(yù)測(cè)(RPE-LTP)三、語音壓縮標(biāo)準(zhǔn)3.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)電話質(zhì)量的聲音頻率范圍為:200–3400Hz。ITU–TS(原CCITT)建議的語音壓縮的標(biāo)準(zhǔn):

G.711:采用PCM

編碼,采樣速率為8kHz,量化位數(shù)為8bit,推薦使用A律或律量化,對(duì)應(yīng)的比特流速率為64kbit/s。

G.721:ITU建議的G.721將64Kbps的比特流轉(zhuǎn)換為32Kbps的流,它是基于ADPCM

技術(shù)。每個(gè)數(shù)值差分用4位編碼,其采樣率為8kHz。3.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)G.728:它的比特率為16Kbps,帶寬限于3.4kHz。其音質(zhì)(MOS=3.7-4.0)比G.711或G.722差得多。它基于一種稱為低延遲代碼激勵(lì)線性預(yù)測(cè)(LD—CELP)的向量量化技術(shù)。

CELP(碼本激勵(lì)線性預(yù)測(cè))已被采納為美國(guó)聯(lián)邦通信標(biāo)準(zhǔn)1016,可將語音壓縮至4.8Kbps,其音質(zhì)與普通電話差不多(MOS=3.7–4.0),常用于

移動(dòng)通信領(lǐng)域。3.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)而美國(guó)聯(lián)邦通信標(biāo)準(zhǔn)1015使用CELP的一個(gè)簡(jiǎn)化版本,稱為線性預(yù)測(cè)編碼(LPC)。LPC–10E標(biāo)準(zhǔn)采用一種向量量化方法,數(shù)據(jù)速率只有2.4Kbps,可用于保密話音的傳輸;但聲音質(zhì)量較差(MOS=2.5–3.5),聽起來有點(diǎn)象機(jī)器在說話。語音編碼標(biāo)準(zhǔn)一覽表標(biāo)準(zhǔn)編碼類型比特率(kbps)MOS復(fù)雜性時(shí)延(ms)G.711PCM644.310.125G.721ADPCM324.0100.125G.728LD-CELP164.0500.625GSMRPE_LTP133.7520G.729、G.729ACSA-CELP84.030、1515G.723.1MP-LPC

6.33.82537.5G.723.1ACELP5.3

USDod

LPC-102.4合成語音1022.53.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)上表說明:MOS(長(zhǎng)話質(zhì)量的語音平均意見得分)復(fù)雜性(以G.711為基準(zhǔn))時(shí)延(幀大小,即語音流量的時(shí)間長(zhǎng)度)在選擇語音壓縮標(biāo)準(zhǔn)時(shí),應(yīng)綜合考慮帶寬、時(shí)延、算法復(fù)雜度等各種因素。3.1.1移動(dòng)電話語音壓縮標(biāo)準(zhǔn)GSM編碼標(biāo)準(zhǔn)是1983年歐洲數(shù)字移動(dòng)特別工作組(GSM)制定的一種移動(dòng)電話的壓縮標(biāo)準(zhǔn),它壓縮的音質(zhì)不如G.711系統(tǒng)。在GSM-6.10標(biāo)準(zhǔn)中,采用RPE-LTP算法,壓縮后的一路話音數(shù)碼率為13Kbps。1989年美國(guó)公布的數(shù)字移動(dòng)通信標(biāo)準(zhǔn)(CTIA)速率為8kbit/s,具有較高的壓縮率和較高的語音質(zhì)量。USDod標(biāo)準(zhǔn)是美國(guó)國(guó)家安全局(NSA)分別于1982年和1989年制定了基于LPC速率為2.4kbit/s的編碼方案和基于速率為4.8kbit/s的編碼方案。G.729標(biāo)準(zhǔn)3.2調(diào)幅廣播質(zhì)量的音頻壓縮標(biāo)準(zhǔn)調(diào)幅(AM)廣播質(zhì)量的聲音頻率范圍:50Hz-7kHz,稱為“7kHz音頻信號(hào)”。其中,50-200Hz的低頻頻段使語音更加自然,因此AM廣播聲音比傳統(tǒng)的窄帶話音(200-3.4kHz)有更好的主觀質(zhì)量。ITU于1986年通過G.722標(biāo)準(zhǔn)。

G.722:基于SB–ADPCM(子帶-自適應(yīng)差分脈碼調(diào)制)技術(shù),它將50Hz到7kHz的信號(hào)帶寬分成兩個(gè)獨(dú)立的子帶信道,而每個(gè)子帶又可以繼續(xù)分割;然后分別采用ADPCM算法編碼。壓縮后的數(shù)碼率分64、56、48kbps三種,可分別插入0、8、16kbps的數(shù)據(jù)與語音信號(hào)一起傳輸。3.2.1

G.722.1標(biāo)準(zhǔn)G.722.1標(biāo)準(zhǔn)主要采用SB-ADPCM編碼算法,輸入聲音采樣頻率為16kHz和16bit量化時(shí),能夠在24或32kbps速率下提供7kHz的音頻帶寬,是普通電話呼叫質(zhì)量的兩倍多,所用速率僅為先前標(biāo)準(zhǔn)的一半,并可提供近于FM廣播的音頻質(zhì)量。G.722.1標(biāo)準(zhǔn)適合于一些重要應(yīng)用領(lǐng)域,包括:

IP電話、第三代移動(dòng)通信、PSTN高品質(zhì)電話會(huì)議和商務(wù)應(yīng)用(包括點(diǎn)到點(diǎn)和多點(diǎn))、語音流、ISDN寬帶技術(shù)、ISDN可視電話和會(huì)議電視等。3.2.2G.722.2標(biāo)準(zhǔn)G.722.2主要采用代數(shù)編碼激勵(lì)線性預(yù)測(cè)技術(shù),符合此標(biāo)準(zhǔn)的編解碼器也被稱為AMR-WB編解碼器,已被3GPP采用,作為應(yīng)用于GSM和第三代無線W-CDMA的寬帶編解碼器。這標(biāo)志著無線與有線業(yè)務(wù)首次得以采用同一編解碼器。AMR-WB編解碼器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論