《語音與音頻編碼》課件第5章

上傳人：1*** IP屬地：廣東上傳時(shí)間：2024-07-18 格式：PPT 頁數(shù)：231 大小：3.30MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩226頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

5.1概述

5.2語音編碼的分類及特性

5.3語音編碼技術(shù)的發(fā)展史

5.4語音編碼性能的評(píng)價(jià)指標(biāo)

5.5語音信號(hào)波形編碼

5.6語音信號(hào)參數(shù)編碼

5.7語音信號(hào)混合編碼

5.8語音信號(hào)寬帶變速率編碼

5.9小結(jié)

習(xí)題五第五章語音編碼語音信號(hào)的數(shù)字化傳輸一直是通信發(fā)展的主要方向之一。語音的數(shù)字通信與模擬通信相比，無疑具有更好的效率和性能。5.1概述5.2.1波形編碼

傳統(tǒng)的波形編碼方法有脈沖編碼調(diào)制(PCM)、自適應(yīng)增量調(diào)制(ADM)和自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)等。5.2語音編碼的分類及特性針對(duì)語音信號(hào)幅度分布不均勻的特點(diǎn)，PCM中用μ-律或A-律對(duì)信號(hào)抽樣進(jìn)行不均勻量化，需要用64kb/s碼率實(shí)現(xiàn)；ADM中對(duì)信號(hào)增量進(jìn)行自適應(yīng)量化，需要用16~32kb/s碼率實(shí)現(xiàn)；ADPCM利用波形樣點(diǎn)之間的短時(shí)相關(guān)性，進(jìn)行短時(shí)預(yù)測，對(duì)預(yù)測值與原始語音的差值(預(yù)測殘差)進(jìn)行編碼，用32kb/s碼率可以再現(xiàn)高質(zhì)量語音。波形編碼具有語音質(zhì)量好、適應(yīng)能力強(qiáng)、算法簡單、易于實(shí)現(xiàn)、抗噪性能強(qiáng)等優(yōu)點(diǎn)；其缺點(diǎn)是所需的編碼速率較高，一般在16~

64kb/s之間。5.2.2參數(shù)編碼

參數(shù)編碼以語音信號(hào)產(chǎn)生的數(shù)字模型為基礎(chǔ)，對(duì)數(shù)字語音信號(hào)進(jìn)行分析，提出一組特征參數(shù)(主要是指表征聲門振動(dòng)的激勵(lì)參數(shù)和表征聲道特性的聲道參數(shù))，這些參數(shù)攜帶有語音信號(hào)的主要信息，對(duì)其進(jìn)行編碼時(shí)只需要較少的比特?cái)?shù)，在解碼后可以由這些參數(shù)重新合成語音信號(hào)。5.2.3混合編碼

波形編碼雖然能夠得到很好的語音質(zhì)量，但它的編碼速率很高，而參數(shù)編碼雖然能獲得很低的編碼速率，但其合成語音質(zhì)量不高?；旌暇幋a在保留參數(shù)編碼的技術(shù)精華的基礎(chǔ)上，引用波形編碼準(zhǔn)則去優(yōu)化激勵(lì)源信號(hào)，克服了原有波形和參數(shù)編碼的弱點(diǎn)，而吸取了它們各自的長處，在4~16kb/s的速率上能夠合成高質(zhì)量語音。多脈沖激勵(lì)線性預(yù)測編碼(Multi-PulseLinearPredictionCoding，MPELP)、碼激勵(lì)線性預(yù)測編碼(CodeExcitedLinearPrediction，CELP)等都屬于這類混合編碼器?；旌暇幋a器以復(fù)雜的算法和很大的運(yùn)算量為代價(jià)，在中低速率語音編碼上獲得了高質(zhì)語音。

5.2.4語音壓縮編碼的依據(jù)

一般來講，語音編碼的目的是在給定的編碼速率下，使得編解碼后恢復(fù)出的重構(gòu)語音的質(zhì)量盡可能高。提高語音編碼效率的基本途徑在于充分利用語音信號(hào)中的冗余度和人耳的聽覺特性。早在20世紀(jì)30年代末，語音編碼技術(shù)的研究已經(jīng)開始。從最初的標(biāo)準(zhǔn)64kb/s的PCM波形編碼器到現(xiàn)在4kb/s以下的參數(shù)編碼的聲碼器，從最初的單一編碼速率到現(xiàn)在自適應(yīng)多速率，語音編碼技術(shù)在最近幾十年得到了迅速的發(fā)展。在數(shù)字通信領(lǐng)域?qū)嶋H需求的強(qiáng)力推動(dòng)下，隨著計(jì)算機(jī)技術(shù)的高速發(fā)展，語音編碼技術(shù)的研究獲得了突飛猛進(jìn)的發(fā)展，并得到了廣泛的應(yīng)用，由此形成了比較完善的理論和技術(shù)體系。具體表現(xiàn)為，當(dāng)今世界上存在著數(shù)量眾多的語音編碼的國際標(biāo)準(zhǔn)和地區(qū)性標(biāo)準(zhǔn)，并且該領(lǐng)域也成為國際標(biāo)準(zhǔn)化工作中最為活躍的研究領(lǐng)域。5.3語音編碼技術(shù)的發(fā)展史5.4.1編碼速率

編碼速率直接反映了語音編碼對(duì)語音信息的壓縮程度。編碼速率可以用“比特每秒”(b/s)來度量，它代表編碼的總速率，一般用I表示；也可以用“比特/樣點(diǎn)(b/p)”來度量，它代表平均每個(gè)語音樣點(diǎn)編碼時(shí)所用的比特?cái)?shù)，用R表示。兩者之間可以用公式I=R·fs互相轉(zhuǎn)化，其中fs為抽樣頻率。顯然，平均每樣點(diǎn)比特?cái)?shù)R越高，語音波形或參數(shù)量化則越精細(xì)，語音質(zhì)量也就越容易提高，相應(yīng)地對(duì)傳輸帶寬或存儲(chǔ)容量的要求也就越高。5.4語音編碼性能的評(píng)價(jià)指標(biāo)5.4.2編碼質(zhì)量

1.語音質(zhì)量主觀評(píng)價(jià)方法

主觀評(píng)價(jià)方法符合人聽話時(shí)對(duì)語音質(zhì)量的感覺，目前得到了廣泛應(yīng)用。主觀評(píng)價(jià)方法是在一組測試者對(duì)原始語音和合成語音進(jìn)行對(duì)比試聽的基礎(chǔ)上，根據(jù)某種事先約定的尺度來對(duì)語音質(zhì)量劃分等級(jí)。常用的方法有平均得分意見(MeanOpinionScore，MOS)，判斷韻字測試(DiagnosticRhymeTest，DRT)和判斷滿意度測量(DiagnosticAcceptabilityMeasure，DAM)。國際上應(yīng)用最廣的是平均意見得分評(píng)定法，一般稱為MOS評(píng)分。表5.1列出了MOS判分標(biāo)準(zhǔn)及相應(yīng)的語音質(zhì)量級(jí)別。

表5.1MOS評(píng)分的五個(gè)等級(jí)

2.語音質(zhì)量的客觀評(píng)價(jià)方法

分段信噪比采用分段(10～30ms)的方法來分別計(jì)算每一段語音信號(hào)的信噪比，因此能夠反映出量化器對(duì)不同電平輸入段的量化質(zhì)量。設(shè)sm(i)為第m段的輸入語音信號(hào)，為第m段的合成語音信號(hào)，每段中有M個(gè)語音樣點(diǎn)，則第m段的語音分段信噪比定義為

如果輸入語音共有N段，平均分段信噪比為

(dB)(5-1)(dB)(5-2)

3.PESQ語音質(zhì)量評(píng)價(jià)法

PESQ是基于感知模型的語音質(zhì)量客觀評(píng)價(jià)標(biāo)準(zhǔn)，是窄帶電話網(wǎng)絡(luò)和語音編解碼器的端到端語音質(zhì)量的客觀評(píng)價(jià)方法。如圖5.1所示，PESQ總的思路是，對(duì)原始信號(hào)(參考信號(hào))和通過測試系統(tǒng)的信號(hào)進(jìn)行電平調(diào)整到標(biāo)準(zhǔn)聽覺電平，再用輸入濾波器模擬標(biāo)準(zhǔn)電話聽筒進(jìn)行濾波。對(duì)通過電平調(diào)整和濾波后的兩個(gè)信號(hào)在時(shí)間上對(duì)準(zhǔn)，并進(jìn)行聽覺變換，這個(gè)變換包括對(duì)系統(tǒng)中線性濾波和增益變化的補(bǔ)償和均衡。兩個(gè)聽覺變換后的信號(hào)之間的不同作為擾動(dòng)(即差值)，分析擾動(dòng)曲面提取出兩個(gè)失真參數(shù)，在頻率和時(shí)間上累積起來，映射得到對(duì)主觀平均意見分的預(yù)測值。圖5.1PESQ的結(jié)構(gòu)5.4.3編解碼延時(shí)

編解碼延時(shí)一般用單次編解碼所需的時(shí)間來表示，在實(shí)時(shí)語音通信系統(tǒng)中，語音編解碼延時(shí)同線路傳輸延時(shí)的作用一樣，對(duì)系統(tǒng)的通信質(zhì)量有很大影響。過長的語音延時(shí)會(huì)使通信雙方產(chǎn)生交談困難，而且會(huì)產(chǎn)生明顯的回聲而干擾人的正常思維。因此，在實(shí)時(shí)語音通信系統(tǒng)中，必須對(duì)語音編解碼算法的編解碼延時(shí)提出一定的要求。對(duì)于公用電話網(wǎng)，編解碼延時(shí)通常要求不超過5~10ms，而對(duì)于移動(dòng)蜂窩通信系統(tǒng)，允許最大延時(shí)不超過100ms。延時(shí)影響通話質(zhì)量的另一個(gè)原因是回聲。當(dāng)延時(shí)較小時(shí)，回聲同話機(jī)側(cè)音及房間交混回響聲相混，因而感覺不到。但當(dāng)往返總延時(shí)約100ms，發(fā)話者就能從手機(jī)中聽到自己的回聲，從而影響通話質(zhì)量。5.4.4算法復(fù)雜度

算法復(fù)雜度主要影響到語音編解碼器的硬件實(shí)現(xiàn)，它決定了硬件實(shí)現(xiàn)的復(fù)雜程度、體積、功耗及成本等。5.5.1脈沖編碼調(diào)制

1.均勻量化PCM

脈沖編碼調(diào)制(PulseCodeModulation，PCM)是最簡單的波形編碼方法，它把語音信號(hào)樣本幅值量化為N=2B個(gè)碼字中的一個(gè)，這樣每個(gè)樣本需用B比特來表示。5.5語音信號(hào)波形編碼語音是非平穩(wěn)隨機(jī)信號(hào)，電話語音電平變化超過40dB。

對(duì)小信號(hào)電平輸入，信噪比應(yīng)保證約為20~30dB，即最大信噪比應(yīng)為60~70dB。只要N足夠大，我們可以合理地假定，量化誤差e(n)在各個(gè)寬度為Δ的區(qū)間里是均勻分布的，信號(hào)對(duì)量化噪聲的功率比(簡稱信噪比)可近似地寫為

或用分貝表示時(shí)，有

(5-3)(5-4)式中，和是輸入信號(hào)和量化噪聲的方差或平均能量，Xmax是輸入信號(hào)的峰值，B是量化的比特?cái)?shù)。進(jìn)一步假定，輸入量化器的信號(hào)值范圍限制在－4σx~+4σx，即Xmax=4σx，那么有

SNR(dB)=6.02B-7.2(5-5)

2.對(duì)數(shù)PCM

下面對(duì)μ-律量化器作一介紹。非均勻量化可以等效于把信號(hào)幅度非線性地壓縮后再進(jìn)行線性量化，從前面的分析不難看到，對(duì)數(shù)壓縮是比較理想的。這一點(diǎn)可以作如下簡單證明。假如均勻量化前，先用對(duì)數(shù)作幅度壓縮，譯碼后用指數(shù)函數(shù)進(jìn)行擴(kuò)張，即令

y(n)=ln|x(n)|

(5-6)其反變換

x(n)=exp［y(n)］sgn［x(n)］(5-7)

式中sgn［·］是符號(hào)函數(shù)。那么量化后有

假設(shè)e(n)與ln|x(n)|不相關(guān)，量化后對(duì)數(shù)幅度的反變換為

(5-8)

(5-9)當(dāng)e(n)很小時(shí)，上面公式近似為

式中,f(n)=x(n)e(n)。由于x(n)與e(n)是統(tǒng)計(jì)獨(dú)立的，因此有

(5-10)(5-11)這就證明了信噪比與信號(hào)方差無關(guān)，它僅取決于量化間隔。式(5-6)那樣的量化器實(shí)際上是不能實(shí)現(xiàn)的，因?yàn)槭?5-6)中將最大值與最小值的比假設(shè)成無限大(ln(0)=－∞)，則需要無限個(gè)量化單元。在實(shí)用中是將對(duì)數(shù)壓縮特性作某種近似，μ-律壓縮就是最常用的一種。μ-律壓縮的定義為

(5-12)圖5.2給出了μ-律壓縮的輸入輸出特性曲線。由這個(gè)特性曲線可知，當(dāng)輸入小幅度值時(shí)，等效量化間隔小，輸入大幅度值時(shí)量化間隔大。

在μ-律量化情況下，可推導(dǎo)出其信號(hào)量化噪聲比公式為

(5-13)圖5.2μ-律特性的輸入輸出結(jié)果

與μ-律量化具有相同效果的還有A-律量化，A-律壓縮特性可表示成：

(5-14)

3.自適應(yīng)量化PCM

自適應(yīng)量化是指量化器的特性自適應(yīng)于輸入信號(hào)的幅度的變化，即一個(gè)自適應(yīng)量化器的量化間隔應(yīng)自適應(yīng)地改變，并與輸入信號(hào)的幅度方差保持相匹配，或者等效地在一個(gè)固定的量化器前，加一個(gè)自適應(yīng)的增益控制，使進(jìn)入量化器的輸入信號(hào)方差保持為固定的常數(shù)。采用自適應(yīng)量化器的PCM就稱為自適應(yīng)脈沖編碼調(diào)制(APCM)。

圖5.3是這兩種APCM方法的框圖。圖5.3自適應(yīng)量化框圖

1)前饋?zhàn)赃m應(yīng)

所謂前饋?zhàn)赃m應(yīng),是指信號(hào)x(n)的能量或方差是由輸入信號(hào)x(n)本身估算出來的，一般是先估算出x(n)的方差σ2(n)后，令兩種系統(tǒng)輸出為

(5-15)即Δ(n)正比于σ(n)，G(n)反比于σ(n)，它們除了在發(fā)送端使用外，還作為邊信息，隨同語音樣本碼值一起傳送到接收端去。通常認(rèn)為，時(shí)變方差σ2(n)正比于語音信號(hào)的短時(shí)能量，而我們知道，短時(shí)能量可定義為x(n)經(jīng)低通濾波器h(n)后的輸出，因此有

(5-16)式中,h(n)為低通濾波器的單位沖激響應(yīng)，可由采用的窗函數(shù)求出。例如，設(shè)窗函數(shù)為

(5-17)則

顯然，σ(n)也滿足差分方程

σ2(n)=ασ2(n－1)+x2(n－1)

(5-19)(5-18)

2)反饋?zhàn)赃m應(yīng)

反饋型PCM系統(tǒng)如圖5.4所示，其特點(diǎn)是輸入信號(hào)的方差是由量化器輸出或等效地由樣本碼序列估算出來的，如同前饋系統(tǒng)一樣，量化間隔Δ(n)和增益G(n)也按式(5-15)那樣比例于方差σ2(n)變化。圖5.4兩種反饋?zhàn)赃m應(yīng)量化方框圖5.5.2自適應(yīng)預(yù)測編碼

1.基本的自適應(yīng)預(yù)測編碼系統(tǒng)

我們在討論語音信號(hào)的線性預(yù)測分析原理時(shí)，假定一個(gè)語音樣本s(n)可以近似地被它過去的p個(gè)樣本的線性組合所預(yù)測，預(yù)測樣本值為

(5-20)式中，ai(1≤i≤p)稱為預(yù)測系數(shù)，p是預(yù)測階數(shù)，令e(n)表示實(shí)際值與預(yù)測值之間的誤差，則

e(n)即線性預(yù)測誤差，也被稱做線性預(yù)測殘差。對(duì)式(5-21)兩邊取z變換后有

式中

(5-21)(5-22)(5-23)自適應(yīng)預(yù)測編碼系統(tǒng)是如何提高信噪比的呢？下面用圖5.5來說明。圖5.5基本的自適應(yīng)預(yù)測編碼系統(tǒng)從圖5.6可以看出，不考慮傳輸信道的誤碼，系統(tǒng)解碼后輸出為

式中，q(n)是殘差信號(hào)e(n)的量化誤差，即

(5-25)(5-24)應(yīng)該注意的是，重構(gòu)的信號(hào)在編碼端和解碼端都可以得到。根據(jù)信號(hào)量化噪聲比的定義有：

E［s2(n)］、E［e2(n)］和E［q2(n)］分別是信號(hào)、殘差和量化噪聲的平均能量。不難看出，是量化器的信噪比，是自適應(yīng)預(yù)測增益。圖5.6給出了固定預(yù)測和自適應(yīng)預(yù)測兩種情況下預(yù)測增益和預(yù)測階數(shù)p的關(guān)系。圖5.6預(yù)測增益與預(yù)測階數(shù)p的關(guān)系

2.前饋與反饋?zhàn)赃m應(yīng)預(yù)測

與自適應(yīng)量化器一樣，自適應(yīng)預(yù)測器也可分成前饋?zhàn)赃m應(yīng)和反饋?zhàn)赃m應(yīng)。前饋?zhàn)赃m應(yīng)預(yù)測器計(jì)算預(yù)測系數(shù)是通過誤差

(5-26)最小來求得的。ai是按幀時(shí)變的，即按10～30ms為一幀來決定求和的樣本點(diǎn)數(shù)N和系數(shù)。因?yàn)槭?5-26)使用了輸入語音信號(hào)s(n)，它在接收端是得不到的，因此預(yù)測器系數(shù)必須作為邊信息傳輸?shù)浇邮斩?。?duì)反饋?zhàn)赃m應(yīng)，預(yù)測器系數(shù)是從序列出發(fā)的，使誤差

(5-27)5.5.3自適應(yīng)差分脈沖編碼調(diào)制

1.差分脈沖編碼調(diào)制

差分脈沖編碼調(diào)制(DifferencePCM，DPCM)是APC的一種特殊情況，它的預(yù)測器具有以下簡單的形式：

A(z)=1－a1z－1

(5-28)

2.增量調(diào)制

增量調(diào)制(DeltaModulation,DM)基本上是一種DPCM方法。

圖5.7給出了DM的編碼情況，是一段原始語音信號(hào)(虛線)和根據(jù)增量調(diào)制編碼序列所恢復(fù)的階梯信號(hào)的波形，各階梯的高度等于編碼器中的量化電平Δ。在譯碼器中，所恢復(fù)的階梯波的上升或下降有可能跟

不上信號(hào)的變化，因而產(chǎn)生滯后，這就造成了失真，稱為“斜率過載”失真，如圖5.7所示的AB段。斜率過載期間的碼字將是一連串的“0”或一連串的“1”。為了避免這種失真，要求階梯波的上升和下降的斜率等于或大于語音信號(hào)的最大變化斜率，即

(5-29)圖5.7增量調(diào)制示意圖

3.自適應(yīng)增量調(diào)制

自適應(yīng)增量調(diào)制(AdaptiveDM,ADM)的基本思想是：使增量Δ自適應(yīng)語音信號(hào)的平均斜率變化，當(dāng)信號(hào)波形平均斜率變大時(shí)，Δ自動(dòng)增大、反之則減小；從而緩解DM中由于Δ固定引起的矛盾。ADM一般采用反饋?zhàn)赃m應(yīng)方式，即增量Δ由量化后的代碼來控制，例如：

Δ(n)=MΔ(n－1)

(Δmin≤Δ(n)≤Δmax)

(5-30)這里，Δmax、Δmin是預(yù)先確定的增量的上下限，乘數(shù)M是當(dāng)前碼字c(n)和前一個(gè)碼字c(n－1)的函數(shù)，一般選擇若

(5-31)另一種自適應(yīng)增量調(diào)制是所謂“連續(xù)可變斜率增量調(diào)制”(ContinuouslyVariableSlopeDeltaModulation,CVSD)，它的自適應(yīng)規(guī)則是：

(5-32)

4.自適應(yīng)差分脈沖編碼調(diào)制

ADPCM將脈沖碼調(diào)制、差值調(diào)制和自適應(yīng)技術(shù)三者結(jié)合起來，進(jìn)一步利用語音信號(hào)樣點(diǎn)間的相關(guān)性，并針對(duì)語音信號(hào)的非平穩(wěn)特點(diǎn)，使用了自適應(yīng)預(yù)測和自適應(yīng)量化，在

32kb/s速率上能夠給出網(wǎng)絡(luò)等級(jí)語音質(zhì)量，從而符合進(jìn)入公用網(wǎng)的要求。圖5.8是G.721算法的框圖，其中虛線部分是解碼器框圖。從圖中可以看出，編碼器中嵌入一個(gè)解碼器，使得編碼器的自適應(yīng)修正完全取決于信號(hào)的反饋值。這個(gè)反饋值與解碼器的輸出是一致的，所以后續(xù)的差值采樣就補(bǔ)償了量化誤差，從而避免了量化誤差的積累。下面詳細(xì)介紹G.721各部分算法。圖5.8G.721編碼器原理框圖

(1)求采樣值s(k)與其估值se(k)之差

d(k)=s(k)－se(k)

(5-33)

自適應(yīng)量化d(k)并編碼輸出I(k)

I(k)=lb|d(k)|－y(k)

(5-34)其中，I(k)還含有一位符號(hào)。表5.2給出I(k)的編碼值。y(k)是量化階矩自適應(yīng)因子，它由調(diào)整短時(shí)能量變化較快的語音信號(hào)的yu(k)和調(diào)整數(shù)據(jù)類慢變信號(hào)的yl(k)兩部分，經(jīng)速度調(diào)整因子al(k)加權(quán)平均而成：

y(k)=al(k)·yu(k－1)+［1－al(k)］yl(k－1)(0≤al≤1)

(5-35)表5.2G.721編碼器量化表階矩自適應(yīng)因子yu(k)稱為快速非鎖定標(biāo)度因子,它的取值范圍為1.06≤yu(k)≤10，對(duì)應(yīng)的線性域?yàn)棣in=21.06=2.085,Δmax=210=1024。

yu(k)=(1－2－5)y(k)+2－5w［I(k)］(5-36)

W[I(k)]的取值如表5-3。表5.3W[I(k)]的取值為了適應(yīng)語音預(yù)測差值信號(hào)中的基音引起的能量突變，w［I(k)］的高端取值都很大。對(duì)于帶內(nèi)數(shù)據(jù)，信號(hào)短時(shí)能量基本上是平穩(wěn)的，階矩自適應(yīng)采用如下算法：

yl(k)=(1－2－6)yl(k－1)+2－6yu(k)(5-37)

式中，yl(k)稱為鎖定標(biāo)度因子。

(2)速度控制。al(k)是速度控制因子，它是通過I(n)的長時(shí)平均幅度值dml(k)與短時(shí)平均幅度值dms(k)的差求出的。它反映了預(yù)測余量信號(hào)的變化率。

長時(shí)的平均幅度值

dml(k)=(1－2－7)dml(k－1)+2－7F[I(k)](5-38)

短時(shí)的平均幅度值

dms(k)=(1－2－5)dms(k－1)+2－5F[I(k)](5-39)

函數(shù)F[I(k)]的取值如表5-4所示。表5.4F[I(k)]的取值當(dāng)余量信號(hào)短時(shí)能量平穩(wěn)時(shí)，I(k)的統(tǒng)計(jì)特性隨時(shí)間變化很小，dml(k)與dms(k)相差不大；當(dāng)余量信號(hào)短時(shí)能量起伏較大時(shí)，它們出現(xiàn)差值。利用這一特性先計(jì)算中間參數(shù)ap(k)：

(5-40)顯然，當(dāng)I(k)幅度變化較大時(shí)，ap(k)→2；而差別較小時(shí)，ap(k)→0。條件y(k)<3表明輸入信號(hào)很小，處于清音段或噪音段，這時(shí)也有ap(k)→2，以便使量化器處于快速自適應(yīng)狀態(tài)來等待輸入信號(hào)的突然變化。量化器速度控制因子al(k)可通過對(duì)ap(k)限幅得到：

(5-41)

(3)自適應(yīng)逆量化器輸出

dq(k)=2y(k)+I(k)(5-42)

(4)自適應(yīng)預(yù)測。

預(yù)測器采用6階零點(diǎn)，二階極點(diǎn)的模型。預(yù)測信號(hào)為

重建信號(hào)為

sr(n)=se(n)+dq(n)(5-44)(5-43)極點(diǎn)和零點(diǎn)預(yù)測器系數(shù)分別是ai和bj。其調(diào)整方式為

bj(n)=(1－2－8)bj(n－1)+2－7sgn［dq(n)］·sgn［dq(n－j)］

此式隱含差|bj(n)|≤2，為保證算法穩(wěn)定，二階極點(diǎn)預(yù)測器系數(shù)限制如下：

|a2(n)|≤0.75(|a1(n)|≤1－a2(n)－2－4)

它們的調(diào)整方式為

a1(n)=(1－2－8)a1(n－1)+3·2－8sgn［p(n)］·sgn［p(n－1)］

(5-45)(5-46)a2(n)=(1－2－7)a2(n－1)+2－7sgn［p(n)］·{sgn［p(n－2)］

－f［a1(n－1)］·sgn［p(n－1)］}

(5-47)

式中，

p(n)=dq(n)+sez(n)

(5-48)

(5-49)

(5)單頻和瞬變調(diào)整。

當(dāng)ADPCM編碼器遇到頻移鍵控信號(hào)(FSK)或其他窄帶瞬變信號(hào)時(shí)，需要將系統(tǒng)從慢速自適應(yīng)狀態(tài)強(qiáng)制性地調(diào)整到快速自適應(yīng)狀態(tài)。為此，引入單頻信號(hào)判定條件td和窄帶信號(hào)瞬變判據(jù)tr：

(5-50)(5-51)當(dāng)td(n)=1時(shí)，認(rèn)為出現(xiàn)了單頻信號(hào)或頻率瞬變,這時(shí)強(qiáng)制將量化器處于快速自適應(yīng)狀態(tài)。當(dāng)tr(n)=1時(shí)，還需將ai(n)和bj(n)同時(shí)置零。采用這些措施后，G.721ADPCM可以

傳遞4.8kb的FSK信號(hào)。同時(shí)ap的判定也由下式?jīng)Q定：

(5-52)5.6.1通道聲碼器

最早的語音編碼器是通道聲碼器，它基于短時(shí)傅里葉變換的語音分析合成系統(tǒng)，發(fā)送端通過若干個(gè)并聯(lián)的通道對(duì)語音信號(hào)進(jìn)行頻譜估計(jì)，而接收端產(chǎn)生一個(gè)信號(hào)，使其頻譜與發(fā)送端規(guī)定的頻譜相匹配。通道聲碼器的原理如圖5.9所示。5.6語音信號(hào)參數(shù)編碼圖5.9通道聲碼器原理圖5.6.2共振峰聲碼器

圖5.10為共振峰聲碼器的合成器結(jié)構(gòu)。其中共振峰F1、F2、F3為濁音濾波器的參數(shù)，極點(diǎn)Fp和零點(diǎn)Fz為清音濾波器的參數(shù)，F(xiàn)0為基音頻率，Au、Av為增益系數(shù)。與通道聲碼器相比，共振峰聲碼器合成出的語音質(zhì)量更好、比特率更低。圖5.10共振峰聲碼器的合成器結(jié)構(gòu)5.6.3線性預(yù)測聲碼器

1．線性預(yù)測(LPC)聲碼器原理

LPC聲碼器是應(yīng)用最成功的低速率語音編碼器。它基于全極點(diǎn)聲道模型的假定，采用線性預(yù)測分析合成原理，對(duì)模型參數(shù)和激勵(lì)參數(shù)進(jìn)行編碼傳輸。LPC聲碼器遵循二元激勵(lì)的假設(shè)，即濁音語音段采用間隔為基音周期的脈沖序列作為激勵(lì)，清音語音段采用白噪聲序列作為激勵(lì)。因此，聲碼器只需對(duì)LPC參數(shù)、基音周期、增益和清濁音信息進(jìn)行編碼。LPC聲碼器可以得到很低的比特率(2.4kb/s以下)。其工作原理如圖5.11所示。圖5.11LPC聲碼器工作原理圖

1)反射系數(shù)

用反射系數(shù)構(gòu)成的格型濾波器是一種參數(shù)靈敏度較低的合成濾波器，它穩(wěn)定的充分必要條件是|ki<1|。這一點(diǎn)無論是在對(duì)參數(shù)進(jìn)行量化編碼，還是在對(duì)參數(shù)進(jìn)行線性內(nèi)插時(shí)都容易保證。因此，反射系數(shù)被廣泛地應(yīng)用于語音的編碼及合成。但是反射系數(shù)的譜靈敏度并不均勻，其絕對(duì)值越接近1，譜靈敏度就越高。因此，采用反射系數(shù)進(jìn)行編碼時(shí)，一般都采用非線性量化，比特?cái)?shù)分配也不是均勻的。通常k1,k2用5~6bit來表示,其他各階，隨階數(shù)增加量化比特?cái)?shù)逐漸減少。

2)對(duì)數(shù)面積比

對(duì)數(shù)面積比參數(shù)可由下式計(jì)算：

3)預(yù)測多項(xiàng)式的根

對(duì)預(yù)測多項(xiàng)式A(z)做以下簡單的因式分解：

(5-53)(5-54)

4)線譜對(duì)參數(shù)

線譜對(duì)參數(shù)LSP是量化編碼過程中最常用的LPC參數(shù)，實(shí)驗(yàn)證明，其量化特性和內(nèi)插特性都明顯優(yōu)于其他參數(shù)。LSP的P(z)和Q(z)的根均位于單位圓上，且相互交替間隔排

列，利用這一性質(zhì)，很容易保證合成濾波器的穩(wěn)定性。LSP的頻譜靈敏度具有很好的頻率選擇性，單個(gè)LSP的誤差只局限于該頻率附近的頻譜范圍，這種誤差相對(duì)獨(dú)立的性質(zhì)非常有利于LSP的量化和內(nèi)插。

2.LPC-10編碼器

LPC聲碼器在通信領(lǐng)域，尤其是在軍事通信領(lǐng)域得到了廣泛的應(yīng)用。1976年，美國確定用LPC聲碼器標(biāo)準(zhǔn)LPC-10作為2.4kb/s速率上的推薦編碼方式。1981年這個(gè)算法被官方接受，作為聯(lián)邦政府標(biāo)準(zhǔn)FS-1015被公布。利用這個(gè)算法可以合成清晰、可懂的語音，但是抗噪聲能力和自然度比較差。自1986年以來，美國第三代保密電話裝置采用了速率為2.4kb/s的LPC-10e(LPC-10的增強(qiáng)型)作為語音處理手段。下面介紹圖5.12所示的LPC-10的編碼器工作原理和一些改進(jìn)措施。圖5.12LPC-10的編碼器框圖

1)編碼器

圖5.13為LPC-10的編碼器框圖。預(yù)加重濾波器的傳遞函數(shù)為

Hpw(z)=1－0.9375z－1(5-55)

2)聲道濾波器參數(shù)的計(jì)算

采用10階LPC分析濾波器，利用協(xié)方差法對(duì)LPC分析濾波器計(jì)算預(yù)測系數(shù)a1，a2，…，a10，并將其轉(zhuǎn)換成反射系數(shù)RC，或者用部分相關(guān)系數(shù)(PARCOR)來代替預(yù)測系數(shù)進(jìn)行量化編碼。理論上RC參數(shù)和PARCOR參數(shù)互為相反數(shù)，系統(tǒng)穩(wěn)定條件是其絕對(duì)值小于1，這在量化時(shí)是容易保證的。LPC分析采用半基音同步算法，即濁音幀的分析幀長取為130個(gè)樣本以內(nèi)的基音周期整數(shù)倍值來計(jì)算RC和RMS。這樣，每一個(gè)基音周期都可以單獨(dú)用一組系數(shù)處理。在收端恢復(fù)語音時(shí)也是如此處理。清音幀是取長度為22.5ms的整幀中點(diǎn)為中心的130個(gè)樣本形成分析幀來計(jì)算RC和RMS。

3)增益因子RMS的計(jì)算

RMS的計(jì)算公式如下：

(5-56)

4)基音周期提取和清/濁音檢測

輸入數(shù)字語音經(jīng)3dB截止頻率為800Hz的4階utterworth低通濾波器濾波，濾波后的信號(hào)再經(jīng)過二階逆濾波(逆濾波器的系數(shù)為前面LPC分析得到的短時(shí)譜參數(shù)a1，a2，…，a10)。把取樣頻率降低至原來的1/4，再計(jì)算延遲時(shí)間為20~256個(gè)樣點(diǎn)的平均幅度差函數(shù)AMDF，由AMDF的最小值確定基音周期。計(jì)算AMDF的公式為

(5-57)

5)參數(shù)編碼與解碼

在LPC-10的傳輸數(shù)據(jù)流中，將10個(gè)反射系數(shù)(k1，k2，…，k10)、增益因子(RMS)、基音周期T、清/濁音判決參數(shù)U/V、同步信號(hào)Sync編碼成每幀54bit。由于傳輸速率為44.4幀/s，因此碼率為2.4kb/s。同步信號(hào)采用相鄰幀1、0碼交替的模式。表5.5是LPC-10濁音幀和清音幀的比特?cái)?shù)分配。表5.5LPC-10清音幀和濁音幀的比特?cái)?shù)分配

3.LPC-10解碼器

LPC-10收端解碼器框圖如圖5.13所示。接收到的語音信號(hào)經(jīng)串/并變換及同步檢測后，利用查表法對(duì)數(shù)碼流進(jìn)行檢錯(cuò)、糾錯(cuò)。糾錯(cuò)譯碼后的數(shù)據(jù)經(jīng)參數(shù)解碼得到基音周期、清/濁音標(biāo)志、增益以及反射系數(shù)的數(shù)值，解碼結(jié)果延時(shí)一幀輸出。輸出數(shù)據(jù)在過去的一幀、當(dāng)前幀和將來的一幀共3幀內(nèi)進(jìn)行平滑。由于每幀語音只傳輸一組參數(shù)，但一幀之內(nèi)可能有不止一個(gè)基音周期，因此要對(duì)接收數(shù)值進(jìn)行由幀塊到基音塊的轉(zhuǎn)換和插值。圖5.13LPC-10收端解碼器框圖

1)參數(shù)插值原則

對(duì)數(shù)面積比參數(shù)值每幀插值兩次；RMS參數(shù)值在對(duì)數(shù)域進(jìn)行基音同步插值；基音參數(shù)值用基音同步的線性插值；在濁音向清音過渡時(shí)對(duì)數(shù)面積比不插值。每個(gè)基音周期更新一次預(yù)測系數(shù)、增益、基音周期、清/濁音等參數(shù)，這個(gè)過程在幀塊到基音塊的轉(zhuǎn)換和插值中完成。

2)激勵(lì)源

根據(jù)基音周期和清/濁音標(biāo)志決定要采用的激勵(lì)信號(hào)源。清音幀用隨機(jī)數(shù)作為激勵(lì)源；濁音幀用周期性沖激序列通過一個(gè)全通濾波器來生成激勵(lì)源，這個(gè)措施改善了合成語音的尖峰性質(zhì)。語音合成濾波器輸入激勵(lì)的幅度保持恒定不變，輸出幅度受RMS參數(shù)加權(quán)。下面給出一組有41個(gè)樣點(diǎn)的濁音激勵(lì)信號(hào)：

e(n)={0,0,0,0,0,0,0,0,5,－8,13,－24,43,－83,147,－252,359,

－364,92,336,－306,－336,92,364,359,252,147,81,43,

24,13,8,5,0,0,0,0,0,0,0,0}

3)語音合成

用Levinson遞推算法將反射參數(shù)k1，k2，…，kp，變換成預(yù)測系數(shù)a1，a2，…，ap。收端合成器應(yīng)用直接型遞歸濾波器合成語音。對(duì)其輸出進(jìn)行幅度校正、去加重，并變換為模擬信號(hào)，最后經(jīng)3600Hz的低通濾波器后輸出模擬語音。

4.LPC-10編解碼器的缺點(diǎn)及改進(jìn)

(1)改善激勵(lì)源。

(2)改進(jìn)基音提取方法。

(3)選擇線譜對(duì)參數(shù)LSP作為聲道濾波器的量化參數(shù)。5.7.1合成分析技術(shù)和感覺加權(quán)濾波器

感覺加權(quán)濾波器的依據(jù)是利用人耳聽覺的掩蔽效應(yīng)(MaskingEffect)，在語音頻譜中能量較高的頻段即共振峰處的噪聲相對(duì)于能量較低頻段的噪聲而言不易被感知。因此在度量原始語音與合成語音之間的誤差時(shí)可以計(jì)入這一因素，在語音能量較高的頻段，允許二者的誤差大一些，反之則小一些。為此可以引入一頻域感覺加權(quán)濾波器W(f)，算得二者的誤差如下：5.7語音信號(hào)混合編碼(5-58)其中,fs是抽樣率，s(f)、分別是原始語音與合成語音的傅里葉變換。不難證明：只要使積分項(xiàng)在整個(gè)域內(nèi)保持常數(shù)值，就可以使e達(dá)到最小值。這樣，只要在能量最大的語音頻段內(nèi)使W(f)較小，而能量較小的頻段內(nèi)W(f)較大，就能抬高前者的誤差而降低后者的誤差能量。為此選取感覺加權(quán)濾波器的z域表達(dá)式W(z)為

(5-59)感覺加權(quán)濾波器的特性由預(yù)測系數(shù){ai}和γ來確定。γ取值在0~1之間，由它控制共振峰區(qū)域誤差的增加。當(dāng)γ=1時(shí)，W(z)=1，此時(shí)沒有進(jìn)行感覺加權(quán)；當(dāng)γ=0時(shí)，

(5-60)圖5.14中示出了一段原始語音的譜，經(jīng)感覺加權(quán)后所得的誤差信號(hào)的譜以及感覺加權(quán)濾波器的頻率響應(yīng)。圖5.14頻率響應(yīng)/kHz5.7.2激勵(lì)模型的改進(jìn)

過于簡單的二元激勵(lì)模型是制約LPC編碼器聲音質(zhì)量的主要因素。5.7.3G.728語音編碼標(biāo)準(zhǔn)

1.原理概述

圖5.15和圖5.16分別是G.728標(biāo)準(zhǔn)算法中語音編碼器和解碼器部分的原理框圖。圖5.1516kb/sLD-CELP語音編碼器原理圖圖5.1616kb/sLD-CELP語音解碼器原理圖

2.LPC系數(shù)的計(jì)算

語音信號(hào)被看做短時(shí)平穩(wěn)過程，通常在進(jìn)行LPC分析前都要加窗。G.728標(biāo)準(zhǔn)算法中加的是混合窗，如圖5.17所示。這種混合窗將用于三種LPC分析中，即感覺加權(quán)濾波器、綜合濾波器和對(duì)數(shù)增益濾波器中。圖5.17混合窗在m時(shí)刻，定義混合窗函數(shù)為wm(k)，即

加窗后的信號(hào)為

(5-61)(5-62)對(duì)M階LPC分析，需要計(jì)算M+1個(gè)自相關(guān)系數(shù)Rm(i)：

其中,rm(i)是Rm(i)的遞歸部分，可用下式計(jì)算：

(5-63)(5-64)為了計(jì)算下一幀的自相關(guān)系數(shù)Rm+L(i)，需要保存當(dāng)前幀的rm(i)。下一幀的樣點(diǎn)從su(m+L)開始，混合窗向右移L個(gè)樣點(diǎn)后，新的加窗信號(hào)為

(5-65)Rm+L(i)的遞歸部分為(5-66)則自相關(guān)系數(shù)為

(5-67)

其中，rm+L(i)被保存用于計(jì)算下一幀的自相關(guān)系數(shù)。

式(5-61)～(5-66)中用到的參數(shù)M、L、N及α可以根據(jù)需要來選擇，在G.728標(biāo)準(zhǔn)算法中，對(duì)應(yīng)于感覺加權(quán)濾波器、綜合濾波器和對(duì)數(shù)增益濾波器的M、L、N及α的值見表5.6。表5.6三種濾波器的M、L、N及α的值

3.感覺加權(quán)濾波器

如圖5-15所示，當(dāng)前的輸入語音矢量s(n)經(jīng)過加權(quán)濾波器，得到加權(quán)的語音矢量v(n)。

加權(quán)濾波器的傳遞函數(shù)為

式中，Q(z)為線性預(yù)測器的傳遞函數(shù)，即

(5-69)(5-68)qi即為求得的預(yù)測系數(shù)，q0=1。r1和r2為根據(jù)人耳的聽覺特性經(jīng)實(shí)驗(yàn)得出的加權(quán)因子，在這里，γ1=0.9,γ2=0.6。所以

(5-70)感覺加權(quán)濾波器分子分母系數(shù)的更新每幀進(jìn)行一次，更新發(fā)生在每幀的第三個(gè)矢量。圖5.18為感覺加權(quán)濾波器系數(shù)更新框圖。經(jīng)過綜合濾波器后合成的語音也需經(jīng)同樣的加權(quán)濾波器處理，以提高聽覺質(zhì)量。這兩個(gè)感覺加權(quán)濾波器是完全一樣的。其工作過程如下：首先對(duì)輸入語音或量化語音的前一幀加混合窗，計(jì)算出加窗后的自相關(guān)系數(shù)，利用

Levinson-Durbin遞推公式將自相關(guān)系數(shù)轉(zhuǎn)換為預(yù)測系數(shù)，再計(jì)算出加權(quán)濾波器系數(shù)，對(duì)當(dāng)前幀的語音矢量進(jìn)行濾波，輸出加權(quán)后的語音矢量。圖5.18感覺加權(quán)濾波器系數(shù)更新

4.綜合濾波器

在圖5.15中可以看到兩個(gè)綜合濾波器，它們是分別用來計(jì)算合成語音的零輸入響應(yīng)和零狀態(tài)響應(yīng)的。二者有相同的濾波器系數(shù)，每幀更新一次，更新時(shí)刻也在每幀的第三個(gè)矢量處。其傳遞函數(shù)為

P(z)是50階LPC預(yù)測器的傳遞函數(shù)，即

(5-71)(5-72)從圖5.15中也可以看到，編碼器中并未象其他的編碼器那樣包含基音預(yù)測器。其原因在前面已有解釋，這里不再重復(fù)。

綜合濾波器系數(shù)更新框圖如圖5.19所示。圖5.19綜合濾波器系數(shù)更新

5.對(duì)數(shù)增益濾波器

設(shè)矢量y(n)是在n時(shí)刻時(shí)的激勵(lì)矢量，e(n)是經(jīng)過增益調(diào)節(jié)后的激勵(lì)矢量，σy(n)和σe(n)分別對(duì)應(yīng)于y(n)和e(n)的均方根(RMS)，σ(n)是用于調(diào)節(jié)e(n)的后向自適應(yīng)激勵(lì)增益。則有

e(n)=σ(n)y(n)(5-73)

lg［σe(n)］=lg［σ(n)］+lg［σy(n)］(5-74)線性預(yù)測的目的是使σ(n)盡可能接近σe(n)，因此，可以使lg［σ(n)］成為lg［σe(n)］的預(yù)測，而lg［σe(n)］是基于lg［σe(n－1)］,lg［σe(n－2)］,…，lg［σe(n－i)］等。所以

(5-75)圖5.20為后向自適應(yīng)增益調(diào)節(jié)器框圖，這個(gè)調(diào)節(jié)器逐個(gè)矢量更新激勵(lì)增益，計(jì)算過程如下：e(n)經(jīng)過一矢量延遲得到e(n－1)，對(duì)e(n－1)的均方根值RMS取對(duì)數(shù)、去偏，得到對(duì)數(shù)域增益δ(n－1)，將δ(n－1)加混合窗，然后計(jì)算LPC系數(shù)(i=1,2,…,10)，再將與帶寬擴(kuò)展因子λ的i階指數(shù)λi相乘，得到預(yù)測系數(shù)pi，即，將預(yù)測系數(shù)用于對(duì)數(shù)域線性預(yù)測器得到預(yù)測值

(5-76)圖5.20矢量增益后向調(diào)節(jié)器

6.碼書搜索

設(shè)加權(quán)的綜合濾波器其傳遞函數(shù)為H(z)，h(n)是其沖激響應(yīng)，yj是第j個(gè)波形碼矢，gi是第i個(gè)增益電平，下標(biāo)為i、j的碼矢經(jīng)過H(z)濾波，輸出為

式中，

(5-77)(5-78)i和j的組合應(yīng)使下面的均方誤差最小：

這里，為歸一化目標(biāo)矢量，展開上式：

(5-79)(5-80)使D最小，等價(jià)于使下面的最?。?/p>

式中，

又設(shè)

bi=2gi

(5-84)

(i=0,1,…,7)(5-85)(5-81)(5-82)(5-83)

則為

(5-86)

其中，

Pj=PT(n)yj(5-87)

7.后濾波器

后濾波器的框圖如圖5.21所示。后濾波器由三個(gè)主要部分組成：長時(shí)后濾波器、短時(shí)后濾波器和輸出增益調(diào)節(jié)單元。下面分別敘述這三部分的原理。圖5.21后濾波器原理框圖長時(shí)后濾波器是一個(gè)梳狀濾波器，譜峰位于解碼語音基頻的整數(shù)倍處?；l的倒數(shù)即為基音周期。令p是基音周期，則長時(shí)后濾波器的傳遞函數(shù)可以表示為

Hl(z)=gl(1+bz－p)(5-88)gl、b為濾波器系數(shù)，它們和p每幀更新一次，在第三個(gè)矢量處更新。從解碼信號(hào)中檢測出基音周期，并計(jì)算出一階預(yù)測系數(shù)β，就可以得到長時(shí)后濾波器的系數(shù)gl和b：

(5-89)(5-90)短時(shí)后濾波器的傳遞函數(shù)Hs(z)為

其中，

μ=(0.15)k1(5-94)(5-91)(5-92)(5-93)5.8.1概述

國際標(biāo)準(zhǔn)組織多年來一直在努力定義寬帶語音編碼標(biāo)準(zhǔn)。早期定義的寬帶語音編碼標(biāo)準(zhǔn)主要應(yīng)用于會(huì)議電視，近期定義的則主要應(yīng)用于移動(dòng)通信和VoIP。寬帶語音編碼標(biāo)準(zhǔn)G.722、G.722.1及G.722.2(AMR-WB)的詳細(xì)對(duì)比如表5.7所示。5.8語音信號(hào)寬帶變速率編碼表5.7寬帶語音編碼標(biāo)準(zhǔn)對(duì)比5.8.2AMR-WB編碼算法原理

AMR-WB編碼器輸入語音的采樣頻率為16kHz，有9種速率模式，語音信號(hào)經(jīng)過降采樣和預(yù)處理后，以12.8kHz

的采樣率進(jìn)行ACELP分析，每幀語音的長度為20ms，256個(gè)樣點(diǎn)。對(duì)于每一幀，對(duì)語音信號(hào)進(jìn)行分析提取ACELP模型需要的參數(shù)(LP濾波器系數(shù)，自適應(yīng)和固定碼書索引和增益)，在23.85kb/s速率模式下還需要計(jì)算高頻段的參數(shù)。圖5.22為AMR-WB算法的編碼器框圖。圖5.22AMR-WB算法的編碼器框圖

1.預(yù)處理

采樣率降低后的信號(hào)在編碼前要應(yīng)用兩個(gè)預(yù)處理函數(shù)：高通濾波和預(yù)加重(在這之前要減小信號(hào)的動(dòng)態(tài)范圍，即把信號(hào)除一個(gè)因子2，來降低在定點(diǎn)執(zhí)行中的溢出概率)。

高通濾波器用來去掉不想要的低頻成分，濾波器的截止頻率為50kHz，表達(dá)式如下：

(5-95)

2.線性預(yù)測分析和量化

1)加窗和自相關(guān)計(jì)算

每個(gè)語音幀用不對(duì)稱窗進(jìn)行一次LP分析，該窗集中于第四子幀，它由兩部分組成：第一部分是一個(gè)半漢明窗，第二部分是1/4周期的漢明-余弦函數(shù)，該窗的表達(dá)式是：

(5-96)設(shè)加窗后的語音信號(hào)為s′(n)(n=0,…,383)，它的自相關(guān)函數(shù)按下式計(jì)算：

然后用一個(gè)滯后窗乘以自相關(guān)函數(shù)使其具有60Hz的帶寬擴(kuò)展，所使用的滯后窗的表達(dá)式為

(5-97)(5-98)

2)Levinson-Durbin算法

由自相關(guān)函數(shù)得到的修正自相關(guān)函數(shù)為r′(0)=1.0001r(0)和r′(k)=r(k)wlag(k)(k=1,…，16)，用修正自相關(guān)函數(shù)構(gòu)建下列方程組，求解得到LP濾波器系數(shù)為(5-99)這個(gè)方程組是用Levinson-Durbin算法求解的，即采用如下遞歸算法：

式(5-100)~(5-104)可對(duì)i=1,2,…，p進(jìn)行遞推求解，其最終解為

(5-101)(5-103)(5-104)(5-100)(5-102)

3)LP系數(shù)到ISP系數(shù)的轉(zhuǎn)換

LP濾波器系數(shù)ak(k=1,…,16)為了量化和內(nèi)插要轉(zhuǎn)化為ISP表示。對(duì)于16階LP濾波器，ISP定義為下式和多項(xiàng)式和差分多項(xiàng)式的根。

(5-105)(5-106)多項(xiàng)式和分別是對(duì)稱和反對(duì)稱的?？梢宰C明這些多項(xiàng)式的根都在單位圓上，而且相互交替出現(xiàn)。多項(xiàng)式在z=1(ω=0)和z=－1(ω=π)各有兩個(gè)根，為了排除這種情況，定義了新的多項(xiàng)式，即

(5-107)(5-108)多項(xiàng)式f1(z)和f2(z)在單位圓內(nèi)分別有8個(gè)和7個(gè)共軛根。因此，這兩個(gè)多項(xiàng)式可以寫為

(5-109)(5-110)這些多項(xiàng)式的系數(shù)通過下面的遞推關(guān)系可以得到：

fori=0to7

f1(i)=ai+am－i

f2(i)=ai－am－i+f2(i－2)

f1(8)=2a8

其中初始值f2(－2)=f2(－1)=0。可以用Chebyshev多項(xiàng)式估計(jì)F1(z)和F2(z)的解，這種方法可以直接從余弦域{qi}得到解。當(dāng)z=ejω時(shí)，F(xiàn)1(z)和F2(z)可以寫為

F1(ω)=2e－j8ωC1(x)(5-111)

F2(ω)=2e－j7ωC2(x)(5-112)

其中,

(5-113)(5-114)

Tm=cos(mω),是m階的Chebyshev多項(xiàng)式。f(i)是由式

(5-106)的遞推關(guān)系計(jì)算得到的F1(z)或F2(z)的每個(gè)系數(shù)。多項(xiàng)式C(x)在x=cos(ω)時(shí)的遞推關(guān)系是

fork=nf－1downto1

bk=2xbk+1－bk+2+f(nf－k)

end

C(x)=xb1－b2+f(nf)/2

4)ISP到LP的轉(zhuǎn)化

ISP系數(shù)被量化和內(nèi)插后，(在解碼時(shí))應(yīng)轉(zhuǎn)換回LP系數(shù)域{ak}。已知量化和內(nèi)插的ISP系數(shù)qi(i=0,…,15)，用擴(kuò)展方程(5-109)和(5-110)計(jì)算F1(z)和F2(z)的系數(shù)，由以下遞推關(guān)系來計(jì)算f1(z)：

fori=2tom/2

f1(i)=－2q2i－2f1(i－1)+2f1(i－2)

forj=i－1downto2

f1(j)=f1(j)－2q2i－2f1(j－1)+f1(j－2)

end

f1(1)=f1(1)－2q2i－2

end一旦得出系數(shù)f1(z)和f2(z)，就可以得到F2(z)，F(xiàn)2(z)乘以

1－z－2可得到，即

(5-115)然后和分別乘以1+qm－1和1－qm－1，得到：

(5-116)最后得到LP系數(shù)為

(5-117)

5)ISP系數(shù)的量化

LP濾波器系數(shù)在頻域內(nèi)要采用ISF的形式進(jìn)行量化：

(5-118)預(yù)測和量化按以下步驟進(jìn)行，首先計(jì)算預(yù)測殘差信號(hào)r(n)：

r(n)=z(n)－p(n)(5-119)

其中z(n)表示第n幀去掉均值的ISF矢量：

p(n)是第n幀的預(yù)測ISF矢量：

(5-120)(5-121)

ISF殘差矢量r(n)采用分裂-多級(jí)矢量量化法進(jìn)行量化。r(n)分別分裂為9維的r1(n)和7維的r2(n)兩個(gè)矢量。這兩個(gè)子矢量分兩級(jí)進(jìn)行量化。第一級(jí)，r1(n)和r2(n)都采用8bit進(jìn)行

量化。在8.85、12.65、14.25、15.85、18.25、19.85、23.05和23.85kb/s等幾種模式下，量化誤差

在第二步的量化中被分別分裂為3個(gè)和2個(gè)子矢量，子矢量的量化比特如表5.8所示。表5.88.85、12.65、14.25、15.85、18.25、19.85、23.05和23.85kb/s模式下ISP矢量的量化在6.60kb/s模式下，量化誤差矢量

在第二步的量化中被分別分裂為2個(gè)和1個(gè)子矢量，子矢量的量化比特?cái)?shù)如表5.9所示。表5.96.60kb/s模式下ISP的矢量量化

6)ISP系數(shù)的內(nèi)插

每一組量化的和未量化的LP系數(shù)用于第4子幀，對(duì)于第1、第2和第3子幀，量化的LP系數(shù)是用相鄰子幀的對(duì)應(yīng)參數(shù)線性內(nèi)插得到的。ISP系數(shù)的內(nèi)插是在q域上進(jìn)行的，設(shè)為第n幀中第4子幀的ISP矢量，則為前一幀(第n－1幀)第4子幀的ISP矢量。第1、第2和第3子幀的內(nèi)插ISP矢量的表達(dá)式為(5-122)

3.感覺加權(quán)濾波器

新的感覺加權(quán)濾波器W(z)的表達(dá)式是：

W(z)=A(z/γ1)Ade-emph(z)(5-123)

其中,

(5-124)

4.開環(huán)基音分析

開環(huán)基音分析是基于加權(quán)語音信號(hào)sw(n)進(jìn)行的，sw(n)是輸入的語音信號(hào)經(jīng)過感覺加權(quán)濾波器濾波后得到的。設(shè)子幀的長度為L，則加權(quán)后的信號(hào)為

(5-125)

1)6.60kb/s模式下的開環(huán)基音分析

6.60kb/s模式下，開環(huán)基音分析在每幀進(jìn)行一次(每次

20ms)，在每幀中尋找基音周期的估計(jì)值。開環(huán)基音分析的過程如下：首先，對(duì)每個(gè)基音延時(shí)值d計(jì)算抽取加權(quán)后的語音信號(hào)的相關(guān)函數(shù)，表達(dá)式為

(5-126)其中，w(d)是加權(quán)函數(shù)。所求的基音周期值就是使加權(quán)相關(guān)函數(shù)C(d)最大的基音延時(shí)d。加權(quán)函數(shù)w(d)加重了低延時(shí)對(duì)應(yīng)的自相關(guān)系數(shù)，從而減少了誤將基音周期的整數(shù)倍作為基音周期的可能性。加權(quán)函數(shù)w(d)包括兩部分：一個(gè)低延時(shí)加權(quán)函數(shù)wl(d)和一個(gè)前一幀延時(shí)加權(quán)函數(shù)wn(d)。w(d)的表達(dá)式為

w(d)=wl(d)wn(d)

(5-127)wl(d)的表達(dá)式為

wl(d)=cw(d)

(5-128)

其中，cw(d)是一個(gè)預(yù)先給定的數(shù)據(jù)表格。前一幀延時(shí)加權(quán)函數(shù)wn(d)是依靠前面語音幀的基音延時(shí)得到的：

(5-129)其中，Told是前五個(gè)半語音幀(half-frames)的基音延時(shí)的中值濾波值，v是一個(gè)自適應(yīng)參數(shù)。如果開環(huán)增益g>0.6，則這一幀就被判斷為話音信號(hào)，然后v在下一幀中將被置為1.0；否則，v值就要被置為v=0.9v。開環(huán)增益的表達(dá)式為

(5-130)

2)其他模式下的開環(huán)基音分析

在除6.60kb/s以外的其他模式下，開環(huán)基音分析每幀進(jìn)行兩次(每次10ms)，在每幀中尋找兩個(gè)基音延時(shí)的估計(jì)值。其他模式下的開環(huán)基音分析方法與6.60kb/s的一樣，也需要對(duì)每個(gè)可能的基音延時(shí)值d計(jì)算抽取并加權(quán)后的語音信號(hào)的相關(guān)函數(shù)，求出使加權(quán)相關(guān)函數(shù)C(d)最大的基音延時(shí)d，最終得出基音周期值的估計(jì)值。

在另外8種模式下，自相關(guān)函數(shù)C(d)的表達(dá)式為

(5-131)使用相同的加權(quán)函數(shù)w(d)加重低延時(shí)對(duì)應(yīng)的自相關(guān)系數(shù)，來減少誤將基音周期的整數(shù)倍作為基音周期的可能性。

在另外8種模式下，開環(huán)基音增益的表達(dá)式為

(5-132)

5.脈沖響應(yīng)計(jì)算

AMR-WB算法中要計(jì)算的脈沖響應(yīng)是指感覺加權(quán)合成濾波器的單位脈沖響應(yīng)h(n)，感覺加權(quán)合成濾波器的表達(dá)式為

(5-133)

6.目標(biāo)信號(hào)計(jì)算

首先計(jì)算LP殘差信號(hào)，表達(dá)式為

其中，s(n)是經(jīng)過預(yù)處理的語音信號(hào)，(i=1,2,…,16)是量化了的預(yù)測系數(shù)。然后將殘差信號(hào)r(n)通過感覺加權(quán)合成濾波器Hw(z)得到目標(biāo)信號(hào)x(n)，即

x(n)=r(n)*h(n)

(5-135)(5-134)

7.自適應(yīng)碼書

閉環(huán)基音搜索準(zhǔn)則是使原始語音和合成語音之間均方加權(quán)誤差最小，即使Tk最大：

其中，x(n)是目標(biāo)信號(hào)，yk(n)是延時(shí)為k的過去濾波激勵(lì)(過去激勵(lì)和h(n)的卷積)。對(duì)于第一個(gè)延時(shí)值,yk(n)是在搜索范圍內(nèi)用卷積進(jìn)行計(jì)算的;對(duì)于其他延時(shí)值,yk(n)是用下面的遞

推式進(jìn)行計(jì)算的：

yk(n)=yk－1(n－1)+u(－k)h(n)(5-137)(5-136)自適應(yīng)碼書增益的表達(dá)式為

(5-138)

8.代數(shù)碼書

1)碼書結(jié)構(gòu)

(1)23.85和23.05kb/s模式下的碼書結(jié)構(gòu)。在23.85和23.05kb/s模式下的碼書中，固定碼書矢量包含24個(gè)非零脈沖，每個(gè)脈沖的幅度為+1或－1。在一個(gè)子幀中，每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道，用22bit進(jìn)行編碼，總共用了88bit(4×22=88)進(jìn)行編碼。且每個(gè)軌道均包含6個(gè)脈沖，其可能出現(xiàn)的位置如表5.10所示。表5.1023.85和23.05kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(2)19.85kb/s模式下的碼書結(jié)構(gòu)。

在這個(gè)模式下的碼書中，固定碼書矢量包含18個(gè)非零脈沖，每個(gè)脈沖的幅度為+1或－1。在一個(gè)子幀中，每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道，前兩個(gè)軌道各包含5個(gè)脈沖，后兩個(gè)軌道各包含4個(gè)脈沖，其可能出現(xiàn)的位置如表5.11所示。表5.1119.85kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(3)18.25kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中，固定碼書矢量包含16個(gè)非零脈沖，每個(gè)脈沖的幅度或?yàn)?1或?yàn)椋?。在一個(gè)子幀中，每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道，每個(gè)軌道包含4個(gè)脈沖，其可能出現(xiàn)的位置如表5.12所示。表5.1218.25kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(4)15.85kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中，固定碼書矢量包含12個(gè)非零脈沖，每個(gè)脈沖的幅度或?yàn)?1或?yàn)椋?。在一個(gè)子幀中，每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道，每個(gè)軌道包含3個(gè)脈沖，其可能出現(xiàn)的位置如表5.13所示。表5.1315.85kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(5)14.25kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中，固定碼書矢量包含10個(gè)非零脈沖，每個(gè)脈沖的幅度為+1或－1。在一個(gè)子幀中，每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道，每個(gè)軌道包含2個(gè)或3個(gè)脈沖，其可能出現(xiàn)的位置如表5.14所示。表5.1414.25kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(6)12.65kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中，固定碼書矢量包含8個(gè)非零脈沖，每個(gè)脈沖的幅度為+1或－1。在一個(gè)子幀中，每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道，每個(gè)軌道包含2個(gè)脈沖，其可能出現(xiàn)的位置如表5.15所示。表5.1512.65kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(7)8.85kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中，固定碼書矢量包含4個(gè)非零脈沖，每個(gè)脈沖的幅度為+1或－1。在一個(gè)子幀中，每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道，每個(gè)軌道包含1個(gè)脈沖，其可能出現(xiàn)的位置如表5.16所示。表5.168.85kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(8)6.60kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中，固定碼書矢量包含2個(gè)非零脈沖，每個(gè)脈沖的幅度為+1或－1。在一個(gè)子幀中每64個(gè)樣點(diǎn)位置被劃分為2個(gè)軌道，每個(gè)軌道包含1個(gè)脈沖，其可能出現(xiàn)的位置如表5.17所示。表5.176.60kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

2)脈沖索引的編碼方法

(1)對(duì)含有一個(gè)帶符號(hào)脈沖的軌道進(jìn)行編碼。脈沖位置索引用4bit進(jìn)行編碼，符號(hào)索引用1bit進(jìn)行編碼。位置索引是通過用脈沖間隔(整數(shù)間隔)分離出來的子幀中的脈沖位置得到的。分割后的余數(shù)做為軌道索引。例如，位置為31的脈沖，位置索引為31/4≈7，它屬于索引為3的軌道(第四個(gè)軌道)。正符號(hào)的索引設(shè)為0，負(fù)符號(hào)的索引設(shè)為1。

帶符號(hào)脈沖的索引由式I1p=p+s×2M而得。其中，p是位置索引，s是符號(hào)索引，M=4是每個(gè)軌道的比特?cái)?shù)。

(2)對(duì)含有兩個(gè)帶符號(hào)脈沖的軌道進(jìn)行編碼。對(duì)于含有兩個(gè)帶符號(hào)脈沖的軌道，有K=2M

個(gè)可能出現(xiàn)脈沖的位置(M=4)，每個(gè)脈沖的符號(hào)需要用1bit進(jìn)行編碼，脈沖位置索引用Mbit進(jìn)行編碼，整個(gè)軌道的編碼比特?cái)?shù)為2M+2。

脈沖順序會(huì)產(chǎn)生冗余，例如，把第一個(gè)脈沖放在位置p，第二個(gè)脈沖放在位置q，等同于第一個(gè)脈沖放在位置q，第二個(gè)脈沖放在位置p。只對(duì)一個(gè)脈沖進(jìn)行編碼可以節(jié)省1bit，第二個(gè)脈沖可以通過位置索引的順序遞推得到。索引由下式得出：

I2p=p1+p0×2M+s×22M

(5-139)

(3)對(duì)含有三個(gè)帶符號(hào)脈沖的軌道進(jìn)行編碼。索引的表達(dá)式為

I3p=I2p+k×22M－1+I1p×22M

(5-140)

(4)對(duì)含有四個(gè)帶符號(hào)脈沖的軌道進(jìn)行編碼。在一個(gè)長度為K=2M的軌道中含有4個(gè)脈沖，這個(gè)軌道能夠用4Mbit進(jìn)行編碼。同含有3個(gè)脈沖的情況類似，軌道中的K個(gè)位置被分為兩段(各半)，每段包含K/2=8個(gè)位置。這里我們把位置從0到K/2－1的段稱為sectionA，位置從K/2到K－1的段稱為sectionB，每段可能包含0~4個(gè)脈沖。表5-18給出了在每段中可能含有脈沖數(shù)的5種情況，每種情況按順序分別稱為case-0、case-1、case-2、case-3和case-4。表5.18每個(gè)軌道段中可能含有的脈沖數(shù)假設(shè)把case-0和case-4結(jié)合起來進(jìn)行編碼，那么case索引就能夠用2bit進(jìn)行編碼。對(duì)于case-1、c

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《語音與音頻編碼》課件第5章

文檔簡介

溫馨提示

最新文檔

評(píng)論

《語音與音頻編碼》課件第5章

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔