《語音與音頻編碼》課件第5章_第1頁
《語音與音頻編碼》課件第5章_第2頁
《語音與音頻編碼》課件第5章_第3頁
《語音與音頻編碼》課件第5章_第4頁
《語音與音頻編碼》課件第5章_第5頁
已閱讀5頁,還剩226頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

5.1概述

5.2語音編碼的分類及特性

5.3語音編碼技術(shù)的發(fā)展史

5.4語音編碼性能的評(píng)價(jià)指標(biāo)

5.5語音信號(hào)波形編碼

5.6語音信號(hào)參數(shù)編碼

5.7語音信號(hào)混合編碼

5.8語音信號(hào)寬帶變速率編碼

5.9小結(jié)

習(xí)題五第五章語音編碼語音信號(hào)的數(shù)字化傳輸一直是通信發(fā)展的主要方向之一。語音的數(shù)字通信與模擬通信相比,無疑具有更好的效率和性能。5.1概述5.2.1波形編碼

傳統(tǒng)的波形編碼方法有脈沖編碼調(diào)制(PCM)、自適應(yīng)增量調(diào)制(ADM)和自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)等。5.2語音編碼的分類及特性針對(duì)語音信號(hào)幅度分布不均勻的特點(diǎn),PCM中用μ-律或A-律對(duì)信號(hào)抽樣進(jìn)行不均勻量化,需要用64kb/s碼率實(shí)現(xiàn);ADM中對(duì)信號(hào)增量進(jìn)行自適應(yīng)量化,需要用16~32kb/s碼率實(shí)現(xiàn);ADPCM利用波形樣點(diǎn)之間的短時(shí)相關(guān)性,進(jìn)行短時(shí)預(yù)測,對(duì)預(yù)測值與原始語音的差值(預(yù)測殘差)進(jìn)行編碼,用32kb/s碼率可以再現(xiàn)高質(zhì)量語音。波形編碼具有語音質(zhì)量好、適應(yīng)能力強(qiáng)、算法簡單、易于實(shí)現(xiàn)、抗噪性能強(qiáng)等優(yōu)點(diǎn);其缺點(diǎn)是所需的編碼速率較高,一般在16~

64kb/s之間。5.2.2參數(shù)編碼

參數(shù)編碼以語音信號(hào)產(chǎn)生的數(shù)字模型為基礎(chǔ),對(duì)數(shù)字語音信號(hào)進(jìn)行分析,提出一組特征參數(shù)(主要是指表征聲門振動(dòng)的激勵(lì)參數(shù)和表征聲道特性的聲道參數(shù)),這些參數(shù)攜帶有語音信號(hào)的主要信息,對(duì)其進(jìn)行編碼時(shí)只需要較少的比特?cái)?shù),在解碼后可以由這些參數(shù)重新合成語音信號(hào)。5.2.3混合編碼

波形編碼雖然能夠得到很好的語音質(zhì)量,但它的編碼速率很高,而參數(shù)編碼雖然能獲得很低的編碼速率,但其合成語音質(zhì)量不高?;旌暇幋a在保留參數(shù)編碼的技術(shù)精華的基礎(chǔ)上,引用波形編碼準(zhǔn)則去優(yōu)化激勵(lì)源信號(hào),克服了原有波形和參數(shù)編碼的弱點(diǎn),而吸取了它們各自的長處,在4~16kb/s的速率上能夠合成高質(zhì)量語音。多脈沖激勵(lì)線性預(yù)測編碼(Multi-PulseLinearPredictionCoding,MPELP)、碼激勵(lì)線性預(yù)測編碼(CodeExcitedLinearPrediction,CELP)等都屬于這類混合編碼器?;旌暇幋a器以復(fù)雜的算法和很大的運(yùn)算量為代價(jià),在中低速率語音編碼上獲得了高質(zhì)語音。

5.2.4語音壓縮編碼的依據(jù)

一般來講,語音編碼的目的是在給定的編碼速率下,使得編解碼后恢復(fù)出的重構(gòu)語音的質(zhì)量盡可能高。提高語音編碼效率的基本途徑在于充分利用語音信號(hào)中的冗余度和人耳的聽覺特性。早在20世紀(jì)30年代末,語音編碼技術(shù)的研究已經(jīng)開始。從最初的標(biāo)準(zhǔn)64kb/s的PCM波形編碼器到現(xiàn)在4kb/s以下的參數(shù)編碼的聲碼器,從最初的單一編碼速率到現(xiàn)在自適應(yīng)多速率,語音編碼技術(shù)在最近幾十年得到了迅速的發(fā)展。在數(shù)字通信領(lǐng)域?qū)嶋H需求的強(qiáng)力推動(dòng)下,隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,語音編碼技術(shù)的研究獲得了突飛猛進(jìn)的發(fā)展,并得到了廣泛的應(yīng)用,由此形成了比較完善的理論和技術(shù)體系。具體表現(xiàn)為,當(dāng)今世界上存在著數(shù)量眾多的語音編碼的國際標(biāo)準(zhǔn)和地區(qū)性標(biāo)準(zhǔn),并且該領(lǐng)域也成為國際標(biāo)準(zhǔn)化工作中最為活躍的研究領(lǐng)域。5.3語音編碼技術(shù)的發(fā)展史5.4.1編碼速率

編碼速率直接反映了語音編碼對(duì)語音信息的壓縮程度。編碼速率可以用“比特每秒”(b/s)來度量,它代表編碼的總速率,一般用I表示;也可以用“比特/樣點(diǎn)(b/p)”來度量,它代表平均每個(gè)語音樣點(diǎn)編碼時(shí)所用的比特?cái)?shù),用R表示。兩者之間可以用公式I=R·fs互相轉(zhuǎn)化,其中fs為抽樣頻率。顯然,平均每樣點(diǎn)比特?cái)?shù)R越高,語音波形或參數(shù)量化則越精細(xì),語音質(zhì)量也就越容易提高,相應(yīng)地對(duì)傳輸帶寬或存儲(chǔ)容量的要求也就越高。5.4語音編碼性能的評(píng)價(jià)指標(biāo)5.4.2編碼質(zhì)量

1.語音質(zhì)量主觀評(píng)價(jià)方法

主觀評(píng)價(jià)方法符合人聽話時(shí)對(duì)語音質(zhì)量的感覺,目前得到了廣泛應(yīng)用。主觀評(píng)價(jià)方法是在一組測試者對(duì)原始語音和合成語音進(jìn)行對(duì)比試聽的基礎(chǔ)上,根據(jù)某種事先約定的尺度來對(duì)語音質(zhì)量劃分等級(jí)。常用的方法有平均得分意見(MeanOpinionScore,MOS),判斷韻字測試(DiagnosticRhymeTest,DRT)和判斷滿意度測量(DiagnosticAcceptabilityMeasure,DAM)。國際上應(yīng)用最廣的是平均意見得分評(píng)定法,一般稱為MOS評(píng)分。表5.1列出了MOS判分標(biāo)準(zhǔn)及相應(yīng)的語音質(zhì)量級(jí)別。

表5.1MOS評(píng)分的五個(gè)等級(jí)

2.語音質(zhì)量的客觀評(píng)價(jià)方法

分段信噪比采用分段(10~30ms)的方法來分別計(jì)算每一段語音信號(hào)的信噪比,因此能夠反映出量化器對(duì)不同電平輸入段的量化質(zhì)量。設(shè)sm(i)為第m段的輸入語音信號(hào),為第m段的合成語音信號(hào),每段中有M個(gè)語音樣點(diǎn),則第m段的語音分段信噪比定義為

如果輸入語音共有N段,平均分段信噪比為

(dB)(5-1)(dB)(5-2)

3.PESQ語音質(zhì)量評(píng)價(jià)法

PESQ是基于感知模型的語音質(zhì)量客觀評(píng)價(jià)標(biāo)準(zhǔn),是窄帶電話網(wǎng)絡(luò)和語音編解碼器的端到端語音質(zhì)量的客觀評(píng)價(jià)方法。如圖5.1所示,PESQ總的思路是,對(duì)原始信號(hào)(參考信號(hào))和通過測試系統(tǒng)的信號(hào)進(jìn)行電平調(diào)整到標(biāo)準(zhǔn)聽覺電平,再用輸入濾波器模擬標(biāo)準(zhǔn)電話聽筒進(jìn)行濾波。對(duì)通過電平調(diào)整和濾波后的兩個(gè)信號(hào)在時(shí)間上對(duì)準(zhǔn),并進(jìn)行聽覺變換,這個(gè)變換包括對(duì)系統(tǒng)中線性濾波和增益變化的補(bǔ)償和均衡。兩個(gè)聽覺變換后的信號(hào)之間的不同作為擾動(dòng)(即差值),分析擾動(dòng)曲面提取出兩個(gè)失真參數(shù),在頻率和時(shí)間上累積起來,映射得到對(duì)主觀平均意見分的預(yù)測值。圖5.1PESQ的結(jié)構(gòu)5.4.3編解碼延時(shí)

編解碼延時(shí)一般用單次編解碼所需的時(shí)間來表示,在實(shí)時(shí)語音通信系統(tǒng)中,語音編解碼延時(shí)同線路傳輸延時(shí)的作用一樣,對(duì)系統(tǒng)的通信質(zhì)量有很大影響。過長的語音延時(shí)會(huì)使通信雙方產(chǎn)生交談困難,而且會(huì)產(chǎn)生明顯的回聲而干擾人的正常思維。因此,在實(shí)時(shí)語音通信系統(tǒng)中,必須對(duì)語音編解碼算法的編解碼延時(shí)提出一定的要求。對(duì)于公用電話網(wǎng),編解碼延時(shí)通常要求不超過5~10ms,而對(duì)于移動(dòng)蜂窩通信系統(tǒng),允許最大延時(shí)不超過100ms。延時(shí)影響通話質(zhì)量的另一個(gè)原因是回聲。當(dāng)延時(shí)較小時(shí),回聲同話機(jī)側(cè)音及房間交混回響聲相混,因而感覺不到。但當(dāng)往返總延時(shí)約100ms,發(fā)話者就能從手機(jī)中聽到自己的回聲,從而影響通話質(zhì)量。5.4.4算法復(fù)雜度

算法復(fù)雜度主要影響到語音編解碼器的硬件實(shí)現(xiàn),它決定了硬件實(shí)現(xiàn)的復(fù)雜程度、體積、功耗及成本等。5.5.1脈沖編碼調(diào)制

1.均勻量化PCM

脈沖編碼調(diào)制(PulseCodeModulation,PCM)是最簡單的波形編碼方法,它把語音信號(hào)樣本幅值量化為N=2B個(gè)碼字中的一個(gè),這樣每個(gè)樣本需用B比特來表示。5.5語音信號(hào)波形編碼語音是非平穩(wěn)隨機(jī)信號(hào),電話語音電平變化超過40dB。

對(duì)小信號(hào)電平輸入,信噪比應(yīng)保證約為20~30dB,即最大信噪比應(yīng)為60~70dB。只要N足夠大,我們可以合理地假定,量化誤差e(n)在各個(gè)寬度為Δ的區(qū)間里是均勻分布的,信號(hào)對(duì)量化噪聲的功率比(簡稱信噪比)可近似地寫為

或用分貝表示時(shí),有

(5-3)(5-4)式中,和是輸入信號(hào)和量化噪聲的方差或平均能量,Xmax是輸入信號(hào)的峰值,B是量化的比特?cái)?shù)。進(jìn)一步假定,輸入量化器的信號(hào)值范圍限制在-4σx~+4σx,即Xmax=4σx,那么有

SNR(dB)=6.02B-7.2(5-5)

2.對(duì)數(shù)PCM

下面對(duì)μ-律量化器作一介紹。非均勻量化可以等效于把信號(hào)幅度非線性地壓縮后再進(jìn)行線性量化,從前面的分析不難看到,對(duì)數(shù)壓縮是比較理想的。這一點(diǎn)可以作如下簡單證明。假如均勻量化前,先用對(duì)數(shù)作幅度壓縮,譯碼后用指數(shù)函數(shù)進(jìn)行擴(kuò)張,即令

y(n)=ln|x(n)|

(5-6)其反變換

x(n)=exp[y(n)]sgn[x(n)](5-7)

式中sgn[·]是符號(hào)函數(shù)。那么量化后有

假設(shè)e(n)與ln|x(n)|不相關(guān),量化后對(duì)數(shù)幅度的反變換為

(5-8)

(5-9)當(dāng)e(n)很小時(shí),上面公式近似為

式中,f(n)=x(n)e(n)。由于x(n)與e(n)是統(tǒng)計(jì)獨(dú)立的,因此有

(5-10)(5-11)這就證明了信噪比與信號(hào)方差無關(guān),它僅取決于量化間隔。式(5-6)那樣的量化器實(shí)際上是不能實(shí)現(xiàn)的,因?yàn)槭?5-6)中將最大值與最小值的比假設(shè)成無限大(ln(0)=-∞),則需要無限個(gè)量化單元。在實(shí)用中是將對(duì)數(shù)壓縮特性作某種近似,μ-律壓縮就是最常用的一種。μ-律壓縮的定義為

(5-12)圖5.2給出了μ-律壓縮的輸入輸出特性曲線。由這個(gè)特性曲線可知,當(dāng)輸入小幅度值時(shí),等效量化間隔小,輸入大幅度值時(shí)量化間隔大。

在μ-律量化情況下,可推導(dǎo)出其信號(hào)量化噪聲比公式為

(5-13)圖5.2μ-律特性的輸入輸出結(jié)果

與μ-律量化具有相同效果的還有A-律量化,A-律壓縮特性可表示成:

(5-14)

3.自適應(yīng)量化PCM

自適應(yīng)量化是指量化器的特性自適應(yīng)于輸入信號(hào)的幅度的變化,即一個(gè)自適應(yīng)量化器的量化間隔應(yīng)自適應(yīng)地改變,并與輸入信號(hào)的幅度方差保持相匹配,或者等效地在一個(gè)固定的量化器前,加一個(gè)自適應(yīng)的增益控制,使進(jìn)入量化器的輸入信號(hào)方差保持為固定的常數(shù)。采用自適應(yīng)量化器的PCM就稱為自適應(yīng)脈沖編碼調(diào)制(APCM)。

圖5.3是這兩種APCM方法的框圖。圖5.3自適應(yīng)量化框圖

1)前饋?zhàn)赃m應(yīng)

所謂前饋?zhàn)赃m應(yīng),是指信號(hào)x(n)的能量或方差是由輸入信號(hào)x(n)本身估算出來的,一般是先估算出x(n)的方差σ2(n)后,令兩種系統(tǒng)輸出為

(5-15)即Δ(n)正比于σ(n),G(n)反比于σ(n),它們除了在發(fā)送端使用外,還作為邊信息,隨同語音樣本碼值一起傳送到接收端去。通常認(rèn)為,時(shí)變方差σ2(n)正比于語音信號(hào)的短時(shí)能量,而我們知道,短時(shí)能量可定義為x(n)經(jīng)低通濾波器h(n)后的輸出,因此有

(5-16)式中,h(n)為低通濾波器的單位沖激響應(yīng),可由采用的窗函數(shù)求出。例如,設(shè)窗函數(shù)為

(5-17)則

顯然,σ(n)也滿足差分方程

σ2(n)=ασ2(n-1)+x2(n-1)

(5-19)(5-18)

2)反饋?zhàn)赃m應(yīng)

反饋型PCM系統(tǒng)如圖5.4所示,其特點(diǎn)是輸入信號(hào)的方差是由量化器輸出或等效地由樣本碼序列估算出來的,如同前饋系統(tǒng)一樣,量化間隔Δ(n)和增益G(n)也按式(5-15)那樣比例于方差σ2(n)變化。圖5.4兩種反饋?zhàn)赃m應(yīng)量化方框圖5.5.2自適應(yīng)預(yù)測編碼

1.基本的自適應(yīng)預(yù)測編碼系統(tǒng)

我們在討論語音信號(hào)的線性預(yù)測分析原理時(shí),假定一個(gè)語音樣本s(n)可以近似地被它過去的p個(gè)樣本的線性組合所預(yù)測,預(yù)測樣本值為

(5-20)式中,ai(1≤i≤p)稱為預(yù)測系數(shù),p是預(yù)測階數(shù),令e(n)表示實(shí)際值與預(yù)測值之間的誤差,則

e(n)即線性預(yù)測誤差,也被稱做線性預(yù)測殘差。對(duì)式(5-21)兩邊取z變換后有

式中

(5-21)(5-22)(5-23)自適應(yīng)預(yù)測編碼系統(tǒng)是如何提高信噪比的呢?下面用圖5.5來說明。圖5.5基本的自適應(yīng)預(yù)測編碼系統(tǒng)從圖5.6可以看出,不考慮傳輸信道的誤碼,系統(tǒng)解碼后輸出為

式中,q(n)是殘差信號(hào)e(n)的量化誤差,即

(5-25)(5-24)應(yīng)該注意的是,重構(gòu)的信號(hào)在編碼端和解碼端都可以得到。根據(jù)信號(hào)量化噪聲比的定義有:

E[s2(n)]、E[e2(n)]和E[q2(n)]分別是信號(hào)、殘差和量化噪聲的平均能量。不難看出,是量化器的信噪比,是自適應(yīng)預(yù)測增益。圖5.6給出了固定預(yù)測和自適應(yīng)預(yù)測兩種情況下預(yù)測增益和預(yù)測階數(shù)p的關(guān)系。圖5.6預(yù)測增益與預(yù)測階數(shù)p的關(guān)系

2.前饋與反饋?zhàn)赃m應(yīng)預(yù)測

與自適應(yīng)量化器一樣,自適應(yīng)預(yù)測器也可分成前饋?zhàn)赃m應(yīng)和反饋?zhàn)赃m應(yīng)。前饋?zhàn)赃m應(yīng)預(yù)測器計(jì)算預(yù)測系數(shù)是通過誤差

(5-26)最小來求得的。ai是按幀時(shí)變的,即按10~30ms為一幀來決定求和的樣本點(diǎn)數(shù)N和系數(shù)。因?yàn)槭?5-26)使用了輸入語音信號(hào)s(n),它在接收端是得不到的,因此預(yù)測器系數(shù)必須作為邊信息傳輸?shù)浇邮斩?。?duì)反饋?zhàn)赃m應(yīng),預(yù)測器系數(shù)是從序列出發(fā)的,使誤差

(5-27)5.5.3自適應(yīng)差分脈沖編碼調(diào)制

1.差分脈沖編碼調(diào)制

差分脈沖編碼調(diào)制(DifferencePCM,DPCM)是APC的一種特殊情況,它的預(yù)測器具有以下簡單的形式:

A(z)=1-a1z-1

(5-28)

2.增量調(diào)制

增量調(diào)制(DeltaModulation,DM)基本上是一種DPCM方法。

圖5.7給出了DM的編碼情況,是一段原始語音信號(hào)(虛線)和根據(jù)增量調(diào)制編碼序列所恢復(fù)的階梯信號(hào)的波形,各階梯的高度等于編碼器中的量化電平Δ。在譯碼器中,所恢復(fù)的階梯波的上升或下降有可能跟

不上信號(hào)的變化,因而產(chǎn)生滯后,這就造成了失真,稱為“斜率過載”失真,如圖5.7所示的AB段。斜率過載期間的碼字將是一連串的“0”或一連串的“1”。為了避免這種失真,要求階梯波的上升和下降的斜率等于或大于語音信號(hào)的最大變化斜率,即

(5-29)圖5.7增量調(diào)制示意圖

3.自適應(yīng)增量調(diào)制

自適應(yīng)增量調(diào)制(AdaptiveDM,ADM)的基本思想是:使增量Δ自適應(yīng)語音信號(hào)的平均斜率變化,當(dāng)信號(hào)波形平均斜率變大時(shí),Δ自動(dòng)增大、反之則減小;從而緩解DM中由于Δ固定引起的矛盾。ADM一般采用反饋?zhàn)赃m應(yīng)方式,即增量Δ由量化后的代碼來控制,例如:

Δ(n)=MΔ(n-1)

(Δmin≤Δ(n)≤Δmax)

(5-30)這里,Δmax、Δmin是預(yù)先確定的增量的上下限,乘數(shù)M是當(dāng)前碼字c(n)和前一個(gè)碼字c(n-1)的函數(shù),一般選擇若

(5-31)另一種自適應(yīng)增量調(diào)制是所謂“連續(xù)可變斜率增量調(diào)制”(ContinuouslyVariableSlopeDeltaModulation,CVSD),它的自適應(yīng)規(guī)則是:

(5-32)

4.自適應(yīng)差分脈沖編碼調(diào)制

ADPCM將脈沖碼調(diào)制、差值調(diào)制和自適應(yīng)技術(shù)三者結(jié)合起來,進(jìn)一步利用語音信號(hào)樣點(diǎn)間的相關(guān)性,并針對(duì)語音信號(hào)的非平穩(wěn)特點(diǎn),使用了自適應(yīng)預(yù)測和自適應(yīng)量化,在

32kb/s速率上能夠給出網(wǎng)絡(luò)等級(jí)語音質(zhì)量,從而符合進(jìn)入公用網(wǎng)的要求。圖5.8是G.721算法的框圖,其中虛線部分是解碼器框圖。從圖中可以看出,編碼器中嵌入一個(gè)解碼器,使得編碼器的自適應(yīng)修正完全取決于信號(hào)的反饋值。這個(gè)反饋值與解碼器的輸出是一致的,所以后續(xù)的差值采樣就補(bǔ)償了量化誤差,從而避免了量化誤差的積累。下面詳細(xì)介紹G.721各部分算法。圖5.8G.721編碼器原理框圖

(1)求采樣值s(k)與其估值se(k)之差

d(k)=s(k)-se(k)

(5-33)

自適應(yīng)量化d(k)并編碼輸出I(k)

I(k)=lb|d(k)|-y(k)

(5-34)其中,I(k)還含有一位符號(hào)。表5.2給出I(k)的編碼值。y(k)是量化階矩自適應(yīng)因子,它由調(diào)整短時(shí)能量變化較快的語音信號(hào)的yu(k)和調(diào)整數(shù)據(jù)類慢變信號(hào)的yl(k)兩部分,經(jīng)速度調(diào)整因子al(k)加權(quán)平均而成:

y(k)=al(k)·yu(k-1)+[1-al(k)]yl(k-1)(0≤al≤1)

(5-35)表5.2G.721編碼器量化表階矩自適應(yīng)因子yu(k)稱為快速非鎖定標(biāo)度因子,它的取值范圍為1.06≤yu(k)≤10,對(duì)應(yīng)的線性域?yàn)棣in=21.06=2.085,Δmax=210=1024。

yu(k)=(1-2-5)y(k)+2-5w[I(k)](5-36)

W[I(k)]的取值如表5-3。表5.3W[I(k)]的取值為了適應(yīng)語音預(yù)測差值信號(hào)中的基音引起的能量突變,w[I(k)]的高端取值都很大。對(duì)于帶內(nèi)數(shù)據(jù),信號(hào)短時(shí)能量基本上是平穩(wěn)的,階矩自適應(yīng)采用如下算法:

yl(k)=(1-2-6)yl(k-1)+2-6yu(k)(5-37)

式中,yl(k)稱為鎖定標(biāo)度因子。

(2)速度控制。al(k)是速度控制因子,它是通過I(n)的長時(shí)平均幅度值dml(k)與短時(shí)平均幅度值dms(k)的差求出的。它反映了預(yù)測余量信號(hào)的變化率。

長時(shí)的平均幅度值

dml(k)=(1-2-7)dml(k-1)+2-7F[I(k)](5-38)

短時(shí)的平均幅度值

dms(k)=(1-2-5)dms(k-1)+2-5F[I(k)](5-39)

函數(shù)F[I(k)]的取值如表5-4所示。表5.4F[I(k)]的取值當(dāng)余量信號(hào)短時(shí)能量平穩(wěn)時(shí),I(k)的統(tǒng)計(jì)特性隨時(shí)間變化很小,dml(k)與dms(k)相差不大;當(dāng)余量信號(hào)短時(shí)能量起伏較大時(shí),它們出現(xiàn)差值。利用這一特性先計(jì)算中間參數(shù)ap(k):

(5-40)顯然,當(dāng)I(k)幅度變化較大時(shí),ap(k)→2;而差別較小時(shí),ap(k)→0。條件y(k)<3表明輸入信號(hào)很小,處于清音段或噪音段,這時(shí)也有ap(k)→2,以便使量化器處于快速自適應(yīng)狀態(tài)來等待輸入信號(hào)的突然變化。量化器速度控制因子al(k)可通過對(duì)ap(k)限幅得到:

(5-41)

(3)自適應(yīng)逆量化器輸出

dq(k)=2y(k)+I(k)(5-42)

(4)自適應(yīng)預(yù)測。

預(yù)測器采用6階零點(diǎn),二階極點(diǎn)的模型。預(yù)測信號(hào)為

重建信號(hào)為

sr(n)=se(n)+dq(n)(5-44)(5-43)極點(diǎn)和零點(diǎn)預(yù)測器系數(shù)分別是ai和bj。其調(diào)整方式為

bj(n)=(1-2-8)bj(n-1)+2-7sgn[dq(n)]·sgn[dq(n-j)]

此式隱含差|bj(n)|≤2,為保證算法穩(wěn)定,二階極點(diǎn)預(yù)測器系數(shù)限制如下:

|a2(n)|≤0.75(|a1(n)|≤1-a2(n)-2-4)

它們的調(diào)整方式為

a1(n)=(1-2-8)a1(n-1)+3·2-8sgn[p(n)]·sgn[p(n-1)]

(5-45)(5-46)a2(n)=(1-2-7)a2(n-1)+2-7sgn[p(n)]·{sgn[p(n-2)]

-f[a1(n-1)]·sgn[p(n-1)]}

(5-47)

式中,

p(n)=dq(n)+sez(n)

(5-48)

(5-49)

(5)單頻和瞬變調(diào)整。

當(dāng)ADPCM編碼器遇到頻移鍵控信號(hào)(FSK)或其他窄帶瞬變信號(hào)時(shí),需要將系統(tǒng)從慢速自適應(yīng)狀態(tài)強(qiáng)制性地調(diào)整到快速自適應(yīng)狀態(tài)。為此,引入單頻信號(hào)判定條件td和窄帶信號(hào)瞬變判據(jù)tr:

(5-50)(5-51)當(dāng)td(n)=1時(shí),認(rèn)為出現(xiàn)了單頻信號(hào)或頻率瞬變,這時(shí)強(qiáng)制將量化器處于快速自適應(yīng)狀態(tài)。當(dāng)tr(n)=1時(shí),還需將ai(n)和bj(n)同時(shí)置零。采用這些措施后,G.721ADPCM可以

傳遞4.8kb的FSK信號(hào)。同時(shí)ap的判定也由下式?jīng)Q定:

(5-52)5.6.1通道聲碼器

最早的語音編碼器是通道聲碼器,它基于短時(shí)傅里葉變換的語音分析合成系統(tǒng),發(fā)送端通過若干個(gè)并聯(lián)的通道對(duì)語音信號(hào)進(jìn)行頻譜估計(jì),而接收端產(chǎn)生一個(gè)信號(hào),使其頻譜與發(fā)送端規(guī)定的頻譜相匹配。通道聲碼器的原理如圖5.9所示。5.6語音信號(hào)參數(shù)編碼圖5.9通道聲碼器原理圖5.6.2共振峰聲碼器

圖5.10為共振峰聲碼器的合成器結(jié)構(gòu)。其中共振峰F1、F2、F3為濁音濾波器的參數(shù),極點(diǎn)Fp和零點(diǎn)Fz為清音濾波器的參數(shù),F(xiàn)0為基音頻率,Au、Av為增益系數(shù)。與通道聲碼器相比,共振峰聲碼器合成出的語音質(zhì)量更好、比特率更低。圖5.10共振峰聲碼器的合成器結(jié)構(gòu)5.6.3線性預(yù)測聲碼器

1.線性預(yù)測(LPC)聲碼器原理

LPC聲碼器是應(yīng)用最成功的低速率語音編碼器。它基于全極點(diǎn)聲道模型的假定,采用線性預(yù)測分析合成原理,對(duì)模型參數(shù)和激勵(lì)參數(shù)進(jìn)行編碼傳輸。LPC聲碼器遵循二元激勵(lì)的假設(shè),即濁音語音段采用間隔為基音周期的脈沖序列作為激勵(lì),清音語音段采用白噪聲序列作為激勵(lì)。因此,聲碼器只需對(duì)LPC參數(shù)、基音周期、增益和清濁音信息進(jìn)行編碼。LPC聲碼器可以得到很低的比特率(2.4kb/s以下)。其工作原理如圖5.11所示。圖5.11LPC聲碼器工作原理圖

1)反射系數(shù)

用反射系數(shù)構(gòu)成的格型濾波器是一種參數(shù)靈敏度較低的合成濾波器,它穩(wěn)定的充分必要條件是|ki<1|。這一點(diǎn)無論是在對(duì)參數(shù)進(jìn)行量化編碼,還是在對(duì)參數(shù)進(jìn)行線性內(nèi)插時(shí)都容易保證。因此,反射系數(shù)被廣泛地應(yīng)用于語音的編碼及合成。但是反射系數(shù)的譜靈敏度并不均勻,其絕對(duì)值越接近1,譜靈敏度就越高。因此,采用反射系數(shù)進(jìn)行編碼時(shí),一般都采用非線性量化,比特?cái)?shù)分配也不是均勻的。通常k1,k2用5~6bit來表示,其他各階,隨階數(shù)增加量化比特?cái)?shù)逐漸減少。

2)對(duì)數(shù)面積比

對(duì)數(shù)面積比參數(shù)可由下式計(jì)算:

3)預(yù)測多項(xiàng)式的根

對(duì)預(yù)測多項(xiàng)式A(z)做以下簡單的因式分解:

(5-53)(5-54)

4)線譜對(duì)參數(shù)

線譜對(duì)參數(shù)LSP是量化編碼過程中最常用的LPC參數(shù),實(shí)驗(yàn)證明,其量化特性和內(nèi)插特性都明顯優(yōu)于其他參數(shù)。LSP的P(z)和Q(z)的根均位于單位圓上,且相互交替間隔排

列,利用這一性質(zhì),很容易保證合成濾波器的穩(wěn)定性。LSP的頻譜靈敏度具有很好的頻率選擇性,單個(gè)LSP的誤差只局限于該頻率附近的頻譜范圍,這種誤差相對(duì)獨(dú)立的性質(zhì)非常有利于LSP的量化和內(nèi)插。

2.LPC-10編碼器

LPC聲碼器在通信領(lǐng)域,尤其是在軍事通信領(lǐng)域得到了廣泛的應(yīng)用。1976年,美國確定用LPC聲碼器標(biāo)準(zhǔn)LPC-10作為2.4kb/s速率上的推薦編碼方式。1981年這個(gè)算法被官方接受,作為聯(lián)邦政府標(biāo)準(zhǔn)FS-1015被公布。利用這個(gè)算法可以合成清晰、可懂的語音,但是抗噪聲能力和自然度比較差。自1986年以來,美國第三代保密電話裝置采用了速率為2.4kb/s的LPC-10e(LPC-10的增強(qiáng)型)作為語音處理手段。下面介紹圖5.12所示的LPC-10的編碼器工作原理和一些改進(jìn)措施。圖5.12LPC-10的編碼器框圖

1)編碼器

圖5.13為LPC-10的編碼器框圖。預(yù)加重濾波器的傳遞函數(shù)為

Hpw(z)=1-0.9375z-1(5-55)

2)聲道濾波器參數(shù)的計(jì)算

采用10階LPC分析濾波器,利用協(xié)方差法對(duì)LPC分析濾波器計(jì)算預(yù)測系數(shù)a1,a2,…,a10,并將其轉(zhuǎn)換成反射系數(shù)RC,或者用部分相關(guān)系數(shù)(PARCOR)來代替預(yù)測系數(shù)進(jìn)行量化編碼。理論上RC參數(shù)和PARCOR參數(shù)互為相反數(shù),系統(tǒng)穩(wěn)定條件是其絕對(duì)值小于1,這在量化時(shí)是容易保證的。LPC分析采用半基音同步算法,即濁音幀的分析幀長取為130個(gè)樣本以內(nèi)的基音周期整數(shù)倍值來計(jì)算RC和RMS。這樣,每一個(gè)基音周期都可以單獨(dú)用一組系數(shù)處理。在收端恢復(fù)語音時(shí)也是如此處理。清音幀是取長度為22.5ms的整幀中點(diǎn)為中心的130個(gè)樣本形成分析幀來計(jì)算RC和RMS。

3)增益因子RMS的計(jì)算

RMS的計(jì)算公式如下:

(5-56)

4)基音周期提取和清/濁音檢測

輸入數(shù)字語音經(jīng)3dB截止頻率為800Hz的4階utterworth低通濾波器濾波,濾波后的信號(hào)再經(jīng)過二階逆濾波(逆濾波器的系數(shù)為前面LPC分析得到的短時(shí)譜參數(shù)a1,a2,…,a10)。把取樣頻率降低至原來的1/4,再計(jì)算延遲時(shí)間為20~256個(gè)樣點(diǎn)的平均幅度差函數(shù)AMDF,由AMDF的最小值確定基音周期。計(jì)算AMDF的公式為

(5-57)

5)參數(shù)編碼與解碼

在LPC-10的傳輸數(shù)據(jù)流中,將10個(gè)反射系數(shù)(k1,k2,…,k10)、增益因子(RMS)、基音周期T、清/濁音判決參數(shù)U/V、同步信號(hào)Sync編碼成每幀54bit。由于傳輸速率為44.4幀/s,因此碼率為2.4kb/s。同步信號(hào)采用相鄰幀1、0碼交替的模式。表5.5是LPC-10濁音幀和清音幀的比特?cái)?shù)分配。表5.5LPC-10清音幀和濁音幀的比特?cái)?shù)分配

3.LPC-10解碼器

LPC-10收端解碼器框圖如圖5.13所示。接收到的語音信號(hào)經(jīng)串/并變換及同步檢測后,利用查表法對(duì)數(shù)碼流進(jìn)行檢錯(cuò)、糾錯(cuò)。糾錯(cuò)譯碼后的數(shù)據(jù)經(jīng)參數(shù)解碼得到基音周期、清/濁音標(biāo)志、增益以及反射系數(shù)的數(shù)值,解碼結(jié)果延時(shí)一幀輸出。輸出數(shù)據(jù)在過去的一幀、當(dāng)前幀和將來的一幀共3幀內(nèi)進(jìn)行平滑。由于每幀語音只傳輸一組參數(shù),但一幀之內(nèi)可能有不止一個(gè)基音周期,因此要對(duì)接收數(shù)值進(jìn)行由幀塊到基音塊的轉(zhuǎn)換和插值。圖5.13LPC-10收端解碼器框圖

1)參數(shù)插值原則

對(duì)數(shù)面積比參數(shù)值每幀插值兩次;RMS參數(shù)值在對(duì)數(shù)域進(jìn)行基音同步插值;基音參數(shù)值用基音同步的線性插值;在濁音向清音過渡時(shí)對(duì)數(shù)面積比不插值。每個(gè)基音周期更新一次預(yù)測系數(shù)、增益、基音周期、清/濁音等參數(shù),這個(gè)過程在幀塊到基音塊的轉(zhuǎn)換和插值中完成。

2)激勵(lì)源

根據(jù)基音周期和清/濁音標(biāo)志決定要采用的激勵(lì)信號(hào)源。清音幀用隨機(jī)數(shù)作為激勵(lì)源;濁音幀用周期性沖激序列通過一個(gè)全通濾波器來生成激勵(lì)源,這個(gè)措施改善了合成語音的尖峰性質(zhì)。語音合成濾波器輸入激勵(lì)的幅度保持恒定不變,輸出幅度受RMS參數(shù)加權(quán)。下面給出一組有41個(gè)樣點(diǎn)的濁音激勵(lì)信號(hào):

e(n)={0,0,0,0,0,0,0,0,5,-8,13,-24,43,-83,147,-252,359,

-364,92,336,-306,-336,92,364,359,252,147,81,43,

24,13,8,5,0,0,0,0,0,0,0,0}

3)語音合成

用Levinson遞推算法將反射參數(shù)k1,k2,…,kp,變換成預(yù)測系數(shù)a1,a2,…,ap。收端合成器應(yīng)用直接型遞歸濾波器合成語音。對(duì)其輸出進(jìn)行幅度校正、去加重,并變換為模擬信號(hào),最后經(jīng)3600Hz的低通濾波器后輸出模擬語音。

4.LPC-10編解碼器的缺點(diǎn)及改進(jìn)

(1)改善激勵(lì)源。

(2)改進(jìn)基音提取方法。

(3)選擇線譜對(duì)參數(shù)LSP作為聲道濾波器的量化參數(shù)。5.7.1合成分析技術(shù)和感覺加權(quán)濾波器

感覺加權(quán)濾波器的依據(jù)是利用人耳聽覺的掩蔽效應(yīng)(MaskingEffect),在語音頻譜中能量較高的頻段即共振峰處的噪聲相對(duì)于能量較低頻段的噪聲而言不易被感知。因此在度量原始語音與合成語音之間的誤差時(shí)可以計(jì)入這一因素,在語音能量較高的頻段,允許二者的誤差大一些,反之則小一些。為此可以引入一頻域感覺加權(quán)濾波器W(f),算得二者的誤差如下:5.7語音信號(hào)混合編碼(5-58)其中,fs是抽樣率,s(f)、分別是原始語音與合成語音的傅里葉變換。不難證明:只要使積分項(xiàng)在整個(gè)域內(nèi)保持常數(shù)值,就可以使e達(dá)到最小值。這樣,只要在能量最大的語音頻段內(nèi)使W(f)較小,而能量較小的頻段內(nèi)W(f)較大,就能抬高前者的誤差而降低后者的誤差能量。為此選取感覺加權(quán)濾波器的z域表達(dá)式W(z)為

(5-59)感覺加權(quán)濾波器的特性由預(yù)測系數(shù){ai}和γ來確定。γ取值在0~1之間,由它控制共振峰區(qū)域誤差的增加。當(dāng)γ=1時(shí),W(z)=1,此時(shí)沒有進(jìn)行感覺加權(quán);當(dāng)γ=0時(shí),

(5-60)圖5.14中示出了一段原始語音的譜,經(jīng)感覺加權(quán)后所得的誤差信號(hào)的譜以及感覺加權(quán)濾波器的頻率響應(yīng)。圖5.14頻率響應(yīng)/kHz5.7.2激勵(lì)模型的改進(jìn)

過于簡單的二元激勵(lì)模型是制約LPC編碼器聲音質(zhì)量的主要因素。5.7.3G.728語音編碼標(biāo)準(zhǔn)

1.原理概述

圖5.15和圖5.16分別是G.728標(biāo)準(zhǔn)算法中語音編碼器和解碼器部分的原理框圖。圖5.1516kb/sLD-CELP語音編碼器原理圖圖5.1616kb/sLD-CELP語音解碼器原理圖

2.LPC系數(shù)的計(jì)算

語音信號(hào)被看做短時(shí)平穩(wěn)過程,通常在進(jìn)行LPC分析前都要加窗。G.728標(biāo)準(zhǔn)算法中加的是混合窗,如圖5.17所示。這種混合窗將用于三種LPC分析中,即感覺加權(quán)濾波器、綜合濾波器和對(duì)數(shù)增益濾波器中。圖5.17混合窗在m時(shí)刻,定義混合窗函數(shù)為wm(k),即

加窗后的信號(hào)為

(5-61)(5-62)對(duì)M階LPC分析,需要計(jì)算M+1個(gè)自相關(guān)系數(shù)Rm(i):

其中,rm(i)是Rm(i)的遞歸部分,可用下式計(jì)算:

(5-63)(5-64)為了計(jì)算下一幀的自相關(guān)系數(shù)Rm+L(i),需要保存當(dāng)前幀的rm(i)。下一幀的樣點(diǎn)從su(m+L)開始,混合窗向右移L個(gè)樣點(diǎn)后,新的加窗信號(hào)為

(5-65)Rm+L(i)的遞歸部分為(5-66)則自相關(guān)系數(shù)為

(5-67)

其中,rm+L(i)被保存用于計(jì)算下一幀的自相關(guān)系數(shù)。

式(5-61)~(5-66)中用到的參數(shù)M、L、N及α可以根據(jù)需要來選擇,在G.728標(biāo)準(zhǔn)算法中,對(duì)應(yīng)于感覺加權(quán)濾波器、綜合濾波器和對(duì)數(shù)增益濾波器的M、L、N及α的值見表5.6。表5.6三種濾波器的M、L、N及α的值

3.感覺加權(quán)濾波器

如圖5-15所示,當(dāng)前的輸入語音矢量s(n)經(jīng)過加權(quán)濾波器,得到加權(quán)的語音矢量v(n)。

加權(quán)濾波器的傳遞函數(shù)為

式中,Q(z)為線性預(yù)測器的傳遞函數(shù),即

(5-69)(5-68)qi即為求得的預(yù)測系數(shù),q0=1。r1和r2為根據(jù)人耳的聽覺特性經(jīng)實(shí)驗(yàn)得出的加權(quán)因子,在這里,γ1=0.9,γ2=0.6。所以

(5-70)感覺加權(quán)濾波器分子分母系數(shù)的更新每幀進(jìn)行一次,更新發(fā)生在每幀的第三個(gè)矢量。圖5.18為感覺加權(quán)濾波器系數(shù)更新框圖。經(jīng)過綜合濾波器后合成的語音也需經(jīng)同樣的加權(quán)濾波器處理,以提高聽覺質(zhì)量。這兩個(gè)感覺加權(quán)濾波器是完全一樣的。其工作過程如下:首先對(duì)輸入語音或量化語音的前一幀加混合窗,計(jì)算出加窗后的自相關(guān)系數(shù),利用

Levinson-Durbin遞推公式將自相關(guān)系數(shù)轉(zhuǎn)換為預(yù)測系數(shù),再計(jì)算出加權(quán)濾波器系數(shù),對(duì)當(dāng)前幀的語音矢量進(jìn)行濾波,輸出加權(quán)后的語音矢量。圖5.18感覺加權(quán)濾波器系數(shù)更新

4.綜合濾波器

在圖5.15中可以看到兩個(gè)綜合濾波器,它們是分別用來計(jì)算合成語音的零輸入響應(yīng)和零狀態(tài)響應(yīng)的。二者有相同的濾波器系數(shù),每幀更新一次,更新時(shí)刻也在每幀的第三個(gè)矢量處。其傳遞函數(shù)為

P(z)是50階LPC預(yù)測器的傳遞函數(shù),即

(5-71)(5-72)從圖5.15中也可以看到,編碼器中并未象其他的編碼器那樣包含基音預(yù)測器。其原因在前面已有解釋,這里不再重復(fù)。

綜合濾波器系數(shù)更新框圖如圖5.19所示。圖5.19綜合濾波器系數(shù)更新

5.對(duì)數(shù)增益濾波器

設(shè)矢量y(n)是在n時(shí)刻時(shí)的激勵(lì)矢量,e(n)是經(jīng)過增益調(diào)節(jié)后的激勵(lì)矢量,σy(n)和σe(n)分別對(duì)應(yīng)于y(n)和e(n)的均方根(RMS),σ(n)是用于調(diào)節(jié)e(n)的后向自適應(yīng)激勵(lì)增益。則有

e(n)=σ(n)y(n)(5-73)

lg[σe(n)]=lg[σ(n)]+lg[σy(n)](5-74)線性預(yù)測的目的是使σ(n)盡可能接近σe(n),因此,可以使lg[σ(n)]成為lg[σe(n)]的預(yù)測,而lg[σe(n)]是基于lg[σe(n-1)],lg[σe(n-2)],…,lg[σe(n-i)]等。所以

(5-75)圖5.20為后向自適應(yīng)增益調(diào)節(jié)器框圖,這個(gè)調(diào)節(jié)器逐個(gè)矢量更新激勵(lì)增益,計(jì)算過程如下:e(n)經(jīng)過一矢量延遲得到e(n-1),對(duì)e(n-1)的均方根值RMS取對(duì)數(shù)、去偏,得到對(duì)數(shù)域增益δ(n-1),將δ(n-1)加混合窗,然后計(jì)算LPC系數(shù)(i=1,2,…,10),再將與帶寬擴(kuò)展因子λ的i階指數(shù)λi相乘,得到預(yù)測系數(shù)pi,即,將預(yù)測系數(shù)用于對(duì)數(shù)域線性預(yù)測器得到預(yù)測值

(5-76)圖5.20矢量增益后向調(diào)節(jié)器

6.碼書搜索

設(shè)加權(quán)的綜合濾波器其傳遞函數(shù)為H(z),h(n)是其沖激響應(yīng),yj是第j個(gè)波形碼矢,gi是第i個(gè)增益電平,下標(biāo)為i、j的碼矢經(jīng)過H(z)濾波,輸出為

式中,

(5-77)(5-78)i和j的組合應(yīng)使下面的均方誤差最小:

這里,為歸一化目標(biāo)矢量,展開上式:

(5-79)(5-80)使D最小,等價(jià)于使下面的最?。?/p>

式中,

又設(shè)

bi=2gi

(5-84)

(i=0,1,…,7)(5-85)(5-81)(5-82)(5-83)

則為

(5-86)

其中,

Pj=PT(n)yj(5-87)

7.后濾波器

后濾波器的框圖如圖5.21所示。后濾波器由三個(gè)主要部分組成:長時(shí)后濾波器、短時(shí)后濾波器和輸出增益調(diào)節(jié)單元。下面分別敘述這三部分的原理。圖5.21后濾波器原理框圖長時(shí)后濾波器是一個(gè)梳狀濾波器,譜峰位于解碼語音基頻的整數(shù)倍處?;l的倒數(shù)即為基音周期。令p是基音周期,則長時(shí)后濾波器的傳遞函數(shù)可以表示為

Hl(z)=gl(1+bz-p)(5-88)gl、b為濾波器系數(shù),它們和p每幀更新一次,在第三個(gè)矢量處更新。從解碼信號(hào)中檢測出基音周期,并計(jì)算出一階預(yù)測系數(shù)β,就可以得到長時(shí)后濾波器的系數(shù)gl和b:

(5-89)(5-90)短時(shí)后濾波器的傳遞函數(shù)Hs(z)為

其中,

μ=(0.15)k1(5-94)(5-91)(5-92)(5-93)5.8.1概述

國際標(biāo)準(zhǔn)組織多年來一直在努力定義寬帶語音編碼標(biāo)準(zhǔn)。早期定義的寬帶語音編碼標(biāo)準(zhǔn)主要應(yīng)用于會(huì)議電視,近期定義的則主要應(yīng)用于移動(dòng)通信和VoIP。寬帶語音編碼標(biāo)準(zhǔn)G.722、G.722.1及G.722.2(AMR-WB)的詳細(xì)對(duì)比如表5.7所示。5.8語音信號(hào)寬帶變速率編碼表5.7寬帶語音編碼標(biāo)準(zhǔn)對(duì)比5.8.2AMR-WB編碼算法原理

AMR-WB編碼器輸入語音的采樣頻率為16kHz,有9種速率模式,語音信號(hào)經(jīng)過降采樣和預(yù)處理后,以12.8kHz

的采樣率進(jìn)行ACELP分析,每幀語音的長度為20ms,256個(gè)樣點(diǎn)。對(duì)于每一幀,對(duì)語音信號(hào)進(jìn)行分析提取ACELP模型需要的參數(shù)(LP濾波器系數(shù),自適應(yīng)和固定碼書索引和增益),在23.85kb/s速率模式下還需要計(jì)算高頻段的參數(shù)。圖5.22為AMR-WB算法的編碼器框圖。圖5.22AMR-WB算法的編碼器框圖

1.預(yù)處理

采樣率降低后的信號(hào)在編碼前要應(yīng)用兩個(gè)預(yù)處理函數(shù):高通濾波和預(yù)加重(在這之前要減小信號(hào)的動(dòng)態(tài)范圍,即把信號(hào)除一個(gè)因子2,來降低在定點(diǎn)執(zhí)行中的溢出概率)。

高通濾波器用來去掉不想要的低頻成分,濾波器的截止頻率為50kHz,表達(dá)式如下:

(5-95)

2.線性預(yù)測分析和量化

1)加窗和自相關(guān)計(jì)算

每個(gè)語音幀用不對(duì)稱窗進(jìn)行一次LP分析,該窗集中于第四子幀,它由兩部分組成:第一部分是一個(gè)半漢明窗,第二部分是1/4周期的漢明-余弦函數(shù),該窗的表達(dá)式是:

(5-96)設(shè)加窗后的語音信號(hào)為s′(n)(n=0,…,383),它的自相關(guān)函數(shù)按下式計(jì)算:

然后用一個(gè)滯后窗乘以自相關(guān)函數(shù)使其具有60Hz的帶寬擴(kuò)展,所使用的滯后窗的表達(dá)式為

(5-97)(5-98)

2)Levinson-Durbin算法

由自相關(guān)函數(shù)得到的修正自相關(guān)函數(shù)為r′(0)=1.0001r(0)和r′(k)=r(k)wlag(k)(k=1,…,16),用修正自相關(guān)函數(shù)構(gòu)建下列方程組,求解得到LP濾波器系數(shù)為(5-99)這個(gè)方程組是用Levinson-Durbin算法求解的,即采用如下遞歸算法:

式(5-100)~(5-104)可對(duì)i=1,2,…,p進(jìn)行遞推求解,其最終解為

(5-101)(5-103)(5-104)(5-100)(5-102)

3)LP系數(shù)到ISP系數(shù)的轉(zhuǎn)換

LP濾波器系數(shù)ak(k=1,…,16)為了量化和內(nèi)插要轉(zhuǎn)化為ISP表示。對(duì)于16階LP濾波器,ISP定義為下式和多項(xiàng)式和差分多項(xiàng)式的根。

(5-105)(5-106)多項(xiàng)式和分別是對(duì)稱和反對(duì)稱的??梢宰C明這些多項(xiàng)式的根都在單位圓上,而且相互交替出現(xiàn)。多項(xiàng)式在z=1(ω=0)和z=-1(ω=π)各有兩個(gè)根,為了排除這種情況,定義了新的多項(xiàng)式,即

(5-107)(5-108)多項(xiàng)式f1(z)和f2(z)在單位圓內(nèi)分別有8個(gè)和7個(gè)共軛根。因此,這兩個(gè)多項(xiàng)式可以寫為

(5-109)(5-110)這些多項(xiàng)式的系數(shù)通過下面的遞推關(guān)系可以得到:

fori=0to7

f1(i)=ai+am-i

f2(i)=ai-am-i+f2(i-2)

f1(8)=2a8

其中初始值f2(-2)=f2(-1)=0。可以用Chebyshev多項(xiàng)式估計(jì)F1(z)和F2(z)的解,這種方法可以直接從余弦域{qi}得到解。當(dāng)z=ejω時(shí),F(xiàn)1(z)和F2(z)可以寫為

F1(ω)=2e-j8ωC1(x)(5-111)

F2(ω)=2e-j7ωC2(x)(5-112)

其中,

(5-113)(5-114)

Tm=cos(mω),是m階的Chebyshev多項(xiàng)式。f(i)是由式

(5-106)的遞推關(guān)系計(jì)算得到的F1(z)或F2(z)的每個(gè)系數(shù)。多項(xiàng)式C(x)在x=cos(ω)時(shí)的遞推關(guān)系是

fork=nf-1downto1

bk=2xbk+1-bk+2+f(nf-k)

end

C(x)=xb1-b2+f(nf)/2

4)ISP到LP的轉(zhuǎn)化

ISP系數(shù)被量化和內(nèi)插后,(在解碼時(shí))應(yīng)轉(zhuǎn)換回LP系數(shù)域{ak}。已知量化和內(nèi)插的ISP系數(shù)qi(i=0,…,15),用擴(kuò)展方程(5-109)和(5-110)計(jì)算F1(z)和F2(z)的系數(shù),由以下遞推關(guān)系來計(jì)算f1(z):

fori=2tom/2

f1(i)=-2q2i-2f1(i-1)+2f1(i-2)

forj=i-1downto2

f1(j)=f1(j)-2q2i-2f1(j-1)+f1(j-2)

end

f1(1)=f1(1)-2q2i-2

end一旦得出系數(shù)f1(z)和f2(z),就可以得到F2(z),F(xiàn)2(z)乘以

1-z-2可得到,即

(5-115)然后和分別乘以1+qm-1和1-qm-1,得到:

(5-116)最后得到LP系數(shù)為

(5-117)

5)ISP系數(shù)的量化

LP濾波器系數(shù)在頻域內(nèi)要采用ISF的形式進(jìn)行量化:

(5-118)預(yù)測和量化按以下步驟進(jìn)行,首先計(jì)算預(yù)測殘差信號(hào)r(n):

r(n)=z(n)-p(n)(5-119)

其中z(n)表示第n幀去掉均值的ISF矢量:

p(n)是第n幀的預(yù)測ISF矢量:

(5-120)(5-121)

ISF殘差矢量r(n)采用分裂-多級(jí)矢量量化法進(jìn)行量化。r(n)分別分裂為9維的r1(n)和7維的r2(n)兩個(gè)矢量。這兩個(gè)子矢量分兩級(jí)進(jìn)行量化。第一級(jí),r1(n)和r2(n)都采用8bit進(jìn)行

量化。在8.85、12.65、14.25、15.85、18.25、19.85、23.05和23.85kb/s等幾種模式下,量化誤差

在第二步的量化中被分別分裂為3個(gè)和2個(gè)子矢量,子矢量的量化比特如表5.8所示。表5.88.85、12.65、14.25、15.85、18.25、19.85、23.05和23.85kb/s模式下ISP矢量的量化在6.60kb/s模式下,量化誤差矢量

在第二步的量化中被分別分裂為2個(gè)和1個(gè)子矢量,子矢量的量化比特?cái)?shù)如表5.9所示。表5.96.60kb/s模式下ISP的矢量量化

6)ISP系數(shù)的內(nèi)插

每一組量化的和未量化的LP系數(shù)用于第4子幀,對(duì)于第1、第2和第3子幀,量化的LP系數(shù)是用相鄰子幀的對(duì)應(yīng)參數(shù)線性內(nèi)插得到的。ISP系數(shù)的內(nèi)插是在q域上進(jìn)行的,設(shè)為第n幀中第4子幀的ISP矢量,則為前一幀(第n-1幀)第4子幀的ISP矢量。第1、第2和第3子幀的內(nèi)插ISP矢量的表達(dá)式為(5-122)

3.感覺加權(quán)濾波器

新的感覺加權(quán)濾波器W(z)的表達(dá)式是:

W(z)=A(z/γ1)Ade-emph(z)(5-123)

其中,

(5-124)

4.開環(huán)基音分析

開環(huán)基音分析是基于加權(quán)語音信號(hào)sw(n)進(jìn)行的,sw(n)是輸入的語音信號(hào)經(jīng)過感覺加權(quán)濾波器濾波后得到的。設(shè)子幀的長度為L,則加權(quán)后的信號(hào)為

(5-125)

1)6.60kb/s模式下的開環(huán)基音分析

6.60kb/s模式下,開環(huán)基音分析在每幀進(jìn)行一次(每次

20ms),在每幀中尋找基音周期的估計(jì)值。開環(huán)基音分析的過程如下:首先,對(duì)每個(gè)基音延時(shí)值d計(jì)算抽取加權(quán)后的語音信號(hào)的相關(guān)函數(shù),表達(dá)式為

(5-126)其中,w(d)是加權(quán)函數(shù)。所求的基音周期值就是使加權(quán)相關(guān)函數(shù)C(d)最大的基音延時(shí)d。加權(quán)函數(shù)w(d)加重了低延時(shí)對(duì)應(yīng)的自相關(guān)系數(shù),從而減少了誤將基音周期的整數(shù)倍作為基音周期的可能性。加權(quán)函數(shù)w(d)包括兩部分:一個(gè)低延時(shí)加權(quán)函數(shù)wl(d)和一個(gè)前一幀延時(shí)加權(quán)函數(shù)wn(d)。w(d)的表達(dá)式為

w(d)=wl(d)wn(d)

(5-127)wl(d)的表達(dá)式為

wl(d)=cw(d)

(5-128)

其中,cw(d)是一個(gè)預(yù)先給定的數(shù)據(jù)表格。前一幀延時(shí)加權(quán)函數(shù)wn(d)是依靠前面語音幀的基音延時(shí)得到的:

(5-129)其中,Told是前五個(gè)半語音幀(half-frames)的基音延時(shí)的中值濾波值,v是一個(gè)自適應(yīng)參數(shù)。如果開環(huán)增益g>0.6,則這一幀就被判斷為話音信號(hào),然后v在下一幀中將被置為1.0;否則,v值就要被置為v=0.9v。開環(huán)增益的表達(dá)式為

(5-130)

2)其他模式下的開環(huán)基音分析

在除6.60kb/s以外的其他模式下,開環(huán)基音分析每幀進(jìn)行兩次(每次10ms),在每幀中尋找兩個(gè)基音延時(shí)的估計(jì)值。其他模式下的開環(huán)基音分析方法與6.60kb/s的一樣,也需要對(duì)每個(gè)可能的基音延時(shí)值d計(jì)算抽取并加權(quán)后的語音信號(hào)的相關(guān)函數(shù),求出使加權(quán)相關(guān)函數(shù)C(d)最大的基音延時(shí)d,最終得出基音周期值的估計(jì)值。

在另外8種模式下,自相關(guān)函數(shù)C(d)的表達(dá)式為

(5-131)使用相同的加權(quán)函數(shù)w(d)加重低延時(shí)對(duì)應(yīng)的自相關(guān)系數(shù),來減少誤將基音周期的整數(shù)倍作為基音周期的可能性。

在另外8種模式下,開環(huán)基音增益的表達(dá)式為

(5-132)

5.脈沖響應(yīng)計(jì)算

AMR-WB算法中要計(jì)算的脈沖響應(yīng)是指感覺加權(quán)合成濾波器的單位脈沖響應(yīng)h(n),感覺加權(quán)合成濾波器的表達(dá)式為

(5-133)

6.目標(biāo)信號(hào)計(jì)算

首先計(jì)算LP殘差信號(hào),表達(dá)式為

其中,s(n)是經(jīng)過預(yù)處理的語音信號(hào),(i=1,2,…,16)是量化了的預(yù)測系數(shù)。然后將殘差信號(hào)r(n)通過感覺加權(quán)合成濾波器Hw(z)得到目標(biāo)信號(hào)x(n),即

x(n)=r(n)*h(n)

(5-135)(5-134)

7.自適應(yīng)碼書

閉環(huán)基音搜索準(zhǔn)則是使原始語音和合成語音之間均方加權(quán)誤差最小,即使Tk最大:

其中,x(n)是目標(biāo)信號(hào),yk(n)是延時(shí)為k的過去濾波激勵(lì)(過去激勵(lì)和h(n)的卷積)。對(duì)于第一個(gè)延時(shí)值,yk(n)是在搜索范圍內(nèi)用卷積進(jìn)行計(jì)算的;對(duì)于其他延時(shí)值,yk(n)是用下面的遞

推式進(jìn)行計(jì)算的:

yk(n)=yk-1(n-1)+u(-k)h(n)(5-137)(5-136)自適應(yīng)碼書增益的表達(dá)式為

(5-138)

8.代數(shù)碼書

1)碼書結(jié)構(gòu)

(1)23.85和23.05kb/s模式下的碼書結(jié)構(gòu)。在23.85和23.05kb/s模式下的碼書中,固定碼書矢量包含24個(gè)非零脈沖,每個(gè)脈沖的幅度為+1或-1。在一個(gè)子幀中,每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道,用22bit進(jìn)行編碼,總共用了88bit(4×22=88)進(jìn)行編碼。且每個(gè)軌道均包含6個(gè)脈沖,其可能出現(xiàn)的位置如表5.10所示。表5.1023.85和23.05kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(2)19.85kb/s模式下的碼書結(jié)構(gòu)。

在這個(gè)模式下的碼書中,固定碼書矢量包含18個(gè)非零脈沖,每個(gè)脈沖的幅度為+1或-1。在一個(gè)子幀中,每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道,前兩個(gè)軌道各包含5個(gè)脈沖,后兩個(gè)軌道各包含4個(gè)脈沖,其可能出現(xiàn)的位置如表5.11所示。表5.1119.85kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(3)18.25kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中,固定碼書矢量包含16個(gè)非零脈沖,每個(gè)脈沖的幅度或?yàn)?1或?yàn)椋?。在一個(gè)子幀中,每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道,每個(gè)軌道包含4個(gè)脈沖,其可能出現(xiàn)的位置如表5.12所示。表5.1218.25kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(4)15.85kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中,固定碼書矢量包含12個(gè)非零脈沖,每個(gè)脈沖的幅度或?yàn)?1或?yàn)椋?。在一個(gè)子幀中,每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道,每個(gè)軌道包含3個(gè)脈沖,其可能出現(xiàn)的位置如表5.13所示。表5.1315.85kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(5)14.25kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中,固定碼書矢量包含10個(gè)非零脈沖,每個(gè)脈沖的幅度為+1或-1。在一個(gè)子幀中,每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道,每個(gè)軌道包含2個(gè)或3個(gè)脈沖,其可能出現(xiàn)的位置如表5.14所示。表5.1414.25kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(6)12.65kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中,固定碼書矢量包含8個(gè)非零脈沖,每個(gè)脈沖的幅度為+1或-1。在一個(gè)子幀中,每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道,每個(gè)軌道包含2個(gè)脈沖,其可能出現(xiàn)的位置如表5.15所示。表5.1512.65kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(7)8.85kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中,固定碼書矢量包含4個(gè)非零脈沖,每個(gè)脈沖的幅度為+1或-1。在一個(gè)子幀中,每64個(gè)樣點(diǎn)位置被劃分為4個(gè)軌道,每個(gè)軌道包含1個(gè)脈沖,其可能出現(xiàn)的位置如表5.16所示。表5.168.85kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

(8)6.60kb/s模式下的碼書結(jié)構(gòu)。在這個(gè)模式下的碼書中,固定碼書矢量包含2個(gè)非零脈沖,每個(gè)脈沖的幅度為+1或-1。在一個(gè)子幀中每64個(gè)樣點(diǎn)位置被劃分為2個(gè)軌道,每個(gè)軌道包含1個(gè)脈沖,其可能出現(xiàn)的位置如表5.17所示。表5.176.60kb/s模式下代數(shù)碼書中單個(gè)脈沖可能出現(xiàn)的位置

2)脈沖索引的編碼方法

(1)對(duì)含有一個(gè)帶符號(hào)脈沖的軌道進(jìn)行編碼。脈沖位置索引用4bit進(jìn)行編碼,符號(hào)索引用1bit進(jìn)行編碼。位置索引是通過用脈沖間隔(整數(shù)間隔)分離出來的子幀中的脈沖位置得到的。分割后的余數(shù)做為軌道索引。例如,位置為31的脈沖,位置索引為31/4≈7,它屬于索引為3的軌道(第四個(gè)軌道)。正符號(hào)的索引設(shè)為0,負(fù)符號(hào)的索引設(shè)為1。

帶符號(hào)脈沖的索引由式I1p=p+s×2M而得。其中,p是位置索引,s是符號(hào)索引,M=4是每個(gè)軌道的比特?cái)?shù)。

(2)對(duì)含有兩個(gè)帶符號(hào)脈沖的軌道進(jìn)行編碼。對(duì)于含有兩個(gè)帶符號(hào)脈沖的軌道,有K=2M

個(gè)可能出現(xiàn)脈沖的位置(M=4),每個(gè)脈沖的符號(hào)需要用1bit進(jìn)行編碼,脈沖位置索引用Mbit進(jìn)行編碼,整個(gè)軌道的編碼比特?cái)?shù)為2M+2。

脈沖順序會(huì)產(chǎn)生冗余,例如,把第一個(gè)脈沖放在位置p,第二個(gè)脈沖放在位置q,等同于第一個(gè)脈沖放在位置q,第二個(gè)脈沖放在位置p。只對(duì)一個(gè)脈沖進(jìn)行編碼可以節(jié)省1bit,第二個(gè)脈沖可以通過位置索引的順序遞推得到。索引由下式得出:

I2p=p1+p0×2M+s×22M

(5-139)

(3)對(duì)含有三個(gè)帶符號(hào)脈沖的軌道進(jìn)行編碼。索引的表達(dá)式為

I3p=I2p+k×22M-1+I1p×22M

(5-140)

(4)對(duì)含有四個(gè)帶符號(hào)脈沖的軌道進(jìn)行編碼。在一個(gè)長度為K=2M的軌道中含有4個(gè)脈沖,這個(gè)軌道能夠用4Mbit進(jìn)行編碼。同含有3個(gè)脈沖的情況類似,軌道中的K個(gè)位置被分為兩段(各半),每段包含K/2=8個(gè)位置。這里我們把位置從0到K/2-1的段稱為sectionA,位置從K/2到K-1的段稱為sectionB,每段可能包含0~4個(gè)脈沖。表5-18給出了在每段中可能含有脈沖數(shù)的5種情況,每種情況按順序分別稱為case-0、case-1、case-2、case-3和case-4。表5.18每個(gè)軌道段中可能含有的脈沖數(shù)假設(shè)把case-0和case-4結(jié)合起來進(jìn)行編碼,那么case索引就能夠用2bit進(jìn)行編碼。對(duì)于case-1、c

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論