第2章-語音信號處理基礎(chǔ)_第1頁
第2章-語音信號處理基礎(chǔ)_第2頁
第2章-語音信號處理基礎(chǔ)_第3頁
第2章-語音信號處理基礎(chǔ)_第4頁
第2章-語音信號處理基礎(chǔ)_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

TOC\o"1-4"\h\z\u第2章 語音信號處理基礎(chǔ) 22.1 數(shù)字信號處理基礎(chǔ) 22.1.1 離散時間信號與系統(tǒng) 22.1.2 離散Fourier變換(DFT) 42.1.3 Z變換 62.1.4 離散余弦變換(DCT) 82.1.5 卷積和濾波 92.2 語音信號產(chǎn)生模型 112.2.1 語音的產(chǎn)生機理 122.2.2 級聯(lián)聲管模型 142.2.3 語音生成模型 192.3 語音信號的時域處理 212.3.1 語音信號的抽樣和量化 212.3.2 語音信號的短時分析和預(yù)處理 222.3.3 短時能量、短時平均幅度和短時平均過零率 232.3.3.1 短時能量和短時平均幅度 242.3.3.2 短時過零率 242.3.4 語音的端點檢測 252.3.5 短時自相關(guān)函數(shù) 262.3.6 短時基音周期估計 272.3.6.1 預(yù)處理 282.3.6.2 基于求短時自相關(guān)函數(shù)的估計算法 282.3.6.3 后處理 292.4 語音信號的頻譜分析 292.4.1 短時傅里葉變換和語譜圖 302.4.2 同態(tài)信號處理的基本原理 322.4.3 復(fù)倒譜和倒譜 332.4.3.1 復(fù)倒譜和倒譜的定義 332.4.3.2 復(fù)倒譜的性質(zhì) 342.5 語音信號的線性預(yù)測編碼分析 352.5.1 線性預(yù)測的基本原理 362.5.1.1 全極點模型 362.5.1.2 線性預(yù)測方程的推導(dǎo) 372.5.2 線性預(yù)測方程組的解法 392.5.2.1 自相關(guān)法 392.5.2.2 協(xié)方差法 412.5.2.3 格型法(Lattice) 422.5.3 線譜對參數(shù)(LSP) 442.5.3.1 線譜對分析的基本原理 442.5.3.2 線譜對參數(shù)的求解 462.6 語音信號的矢量量化 462.6.1 矢量量化的基本原理 462.6.2 失真測度 482.6.2.1 基于歐氏距離的失真測度 482.6.2.2 基于非歐氏距離的失真測度 492.6.3 量化器和碼本的設(shè)計 502.6.4 量化系統(tǒng)的復(fù)雜度控制 522.6.4.1 無記憶的矢量量化系統(tǒng) 522.6.4.2 有記憶的矢量量化系統(tǒng) 542.7 聽覺特性和語音感知 542.7.1 聽閾與聽域 542.7.2 音調(diào)(Pitch) 552.7.3 響度級、響度與遮掩效應(yīng) 56語音信號處理基礎(chǔ) 語音信號數(shù)字處理是研究用數(shù)字信號處理的技術(shù)對語音信號進行處理的學(xué)科。20世紀(jì)中葉以來,語音的研究與應(yīng)用取得了一系列重大的進步,例如語音識別、語音合成、語音的壓縮編碼、語音的遠距離傳輸?shù)鹊榷际墙⒃谡Z音信號數(shù)字處理的基礎(chǔ)上的。語音信號數(shù)字處理是一門綜合性的學(xué)科,包括計算機科學(xué)、語音學(xué)、語言學(xué)、聲學(xué)、生理學(xué)、心理學(xué)、數(shù)學(xué)等諸多領(lǐng)域的內(nèi)容。本章作為全書的基礎(chǔ)章節(jié),將簡要的介紹以下內(nèi)容:語音的生成機理及其相應(yīng)的產(chǎn)生模型;用數(shù)字信號處理技術(shù)對語音信號進行處理的基本方法;語音信號中常見的時域處理方法和頻譜分析方法;線性預(yù)測分析方法的基本原理和方法;矢量量化技術(shù)的原理和基本算法;聽覺系統(tǒng)特性和語音感知。此外,本章的第二小節(jié)簡要的介紹了部分?jǐn)?shù)字信號處理的基礎(chǔ)供參考,有這方面知識的讀者可以跳過這一小節(jié)。限于篇幅所限,本章介紹的內(nèi)容均較為淺顯,有需要的讀者請自行查閱相應(yīng)的參考書籍。數(shù)字信號處理基礎(chǔ)隨著計算機技術(shù)的飛速發(fā)展,數(shù)字信號處理的技術(shù)廣泛應(yīng)用于信號處理領(lǐng)域。本節(jié)將簡要介紹數(shù)字信號處理的一些基礎(chǔ)知識,包括:離散時間信號與系統(tǒng)、離散傅立葉變換、Z變換、離散余弦變換以及卷積和濾波的概念、計算方法和特性。由于篇幅所限,不詳盡之處請讀者查閱相關(guān)資料。離散時間信號與系統(tǒng)按照時間函數(shù)取值的連續(xù)性與離散性可將信號劃分為連續(xù)時間信號與離散時間信號。離散信號在時間上是離散的,只在某些不連續(xù)的規(guī)定瞬間給出函數(shù)值,在其它時間沒有定義。如果離散時間信號的幅值是連續(xù)的,則離散信號又叫抽樣信號;如果幅值也是離散的,這樣的信號又成為數(shù)字信號,如圖2.1。圖2.1離散信號(a.抽樣信號 b.數(shù)字信號)通常,給出函數(shù)值得離散時刻之間的間隔是均勻的,一般以來表示此序列,這里表示各函數(shù)值在序列中出現(xiàn)的序號。也可以說,一個離散信號就是一組序列值的集合。在離散信號的分析中,常會遇到一些基本運算,比如加、乘和時延。離散信號序列和相加是指兩序列同序號的數(shù)值逐項對應(yīng)相加而構(gòu)成一個新序列 (2-1)類似的有相乘的定義 (2-2)序列時延是指原序列逐項依次延時位而生成一個新的序列 (2-3)如果意味著序列后移,反之,如果意味著序列前移。序列的能量定義為 (2-4)一個離散時間系統(tǒng)的示意圖如圖2.2,其激勵信號是離散信號序列,響應(yīng)序列為,系統(tǒng)完成了兩者之間的轉(zhuǎn)換運算。圖2.2 離散時間系統(tǒng)按離散時間系統(tǒng)的性能可以劃分成許多種類型,包括線性/非線性、時變/時不變等。最常見的系統(tǒng)是線性時不變系統(tǒng),其最大特點就是均勻性和疊加性,即:若和分別是激勵和的輸出,那么激勵(為常數(shù))的響應(yīng)為,如圖2.3。而時不變系統(tǒng)指的是系統(tǒng)響應(yīng)與激勵作用于系統(tǒng)的時間無關(guān),即激勵將產(chǎn)生響應(yīng),如圖2.4。圖2.3 線性系統(tǒng)的均勻性和疊加性圖2.4 系統(tǒng)的時不變性在連續(xù)時間系統(tǒng)里,信號是時間變量的連續(xù)函數(shù),系統(tǒng)可以用微積分方程來描述;在離散時間系統(tǒng)里,信號的變量是離散的整型值,因此系統(tǒng)的行為和性能需要用差分方程來表示。在差分方程中,構(gòu)成方程的各項包含離散變量的函數(shù),以及此函數(shù)產(chǎn)生位移后得到的、等等。求解差分方程的方法有很多,包括迭代法、時域經(jīng)典法、卷積方法和變換域法等等,限于篇幅,請讀者自行查閱相應(yīng)的參考書籍。離散Fourier變換(DFT)法國數(shù)學(xué)家和物理學(xué)家J.B.J.Fourier(1769~1830)于1807提出,任何一個連續(xù)周期信號可以分解為一族正弦曲線和余弦曲線。后來這個定理被擴充,也適用于離散信號和非周期信號,統(tǒng)稱為傅里葉分析。如圖2.5,信號被分解為9個正弦信號和9個余弦信號共18個信號的和。圖2.5 信號的傅里葉分解根據(jù)被分解信號類型的不同,相應(yīng)的傅里葉分析也有著不同的定義,如圖2.6。圖2.6 四種傅里葉分析傅里葉變換(FourierTransform): 連續(xù)非周期信號傅里葉級數(shù)(FourierSeries): 連續(xù)周期信號離散時間傅里葉變換(DiscreteTimeFourierTransform): 離散非周期信號離散傅里葉變換(DiscreteFourierTransform): 離散周期信號限于篇幅所限,這里我們著重于介紹離散傅里葉變換(DFT),因為它在數(shù)字信號處理領(lǐng)域應(yīng)用最為廣泛,圖2.5中的傅里葉分解就是DFT。 由于DFT的作用對象是離散周期信號,對于一個有限長序列,我們必須進行延拓來將其擴展成周期信號,如圖2.7。圖2.7 有限長序列延拓成周期序列離散傅里葉變換及其反變換的定義為 (2-5)在語音信號數(shù)字處理領(lǐng)域中,離散傅里葉變換扮演了重要的角色,完成了信號序列從時域到頻域的轉(zhuǎn)化,為語音的頻域分析奠定了基礎(chǔ)。為了提高DFT的計算速度,J.W.Cooley和J.W.Tukey于1965年提出了著名的快速傅里葉算法(FFTFastFourierTransform),極大的提高了傅里葉變換的速度,使傅里葉算法得以真正的應(yīng)用于實用場合,如今,大量的硬件已經(jīng)集成了進行FFT計算的功能,而且對該算法的改進也在不斷進行,如Winograd算法和Mason算法。Z變換在離散信號與系統(tǒng)的理論研究之中,Z變換是一種重要的數(shù)學(xué)工具,它把離散系統(tǒng)的數(shù)學(xué)模型——差分方程,轉(zhuǎn)化為簡單的代數(shù)方程大大簡化了求解過程。尤其是隨著計算機技術(shù)的普及和使用,變換得到了越來越廣泛的應(yīng)用。(注:本節(jié)提及的變換為雙邊變換,單邊變換的定義請讀者自行查閱相應(yīng)書籍)信號序列的變換定義為 (2-6)其中是復(fù)變量,如果我們選擇這些特定點的樣值,即可得到的離散傅里葉變換。因此可以說DFT是一種特殊的變換。具體講,在平面的單位圓上,取幅角為的等間距第個點,計算其變換,就得到的第個樣值。因此,有限長序列的DFT可以解釋為它的變換在單位圓上的均勻抽樣。我們還必須注意到,要使變換有意義,所定義的級數(shù)必須收斂。保證收斂的一個充分條件是 (2-7)對應(yīng)于復(fù)平面內(nèi)的收斂域(RegionofConvergence)為時該條件成立,如圖2.8。圖2.8 變換的收斂域相應(yīng)的,變換的逆變換被記為 (2-8)求逆變換的方法通常有三種:圍線積分法(留數(shù)法)、冪級數(shù)展開法(長除法)和部分分式展開法,讀者可以查閱相應(yīng)的參考書。同時,變換具有許多很好的性質(zhì),下面做一簡要地介紹。線性變換的線性特性表現(xiàn)在它的疊加性與均勻性,若則 (2-9)相加后的序列的收斂域一般為兩個收斂域的重疊部分,即且 (2-10)當(dāng)然,如果這些線性組合中某些零極點相抵消,收斂域就可能擴大。位移性若序列的變換為,則序列右移后,其變換為 (2-11)序列線性加權(quán)(域微分)若序列的變換為,則 (2-12)序列指數(shù)加權(quán)(域尺度變換)若序列的變換為,則 (2-13)為常數(shù)。時域卷積定理若則 (2-14)收斂域的定義如(2-10)。域卷積定理若則 (2-15)或 (2-16)分別為與或與收斂域重疊部分內(nèi)逆時針旋轉(zhuǎn)的圍線。而的收斂域一般為離散余弦變換(DCT)離散余弦變換(DiscreteCosineTransform)也是一種在語音信號處理中廣泛應(yīng)用的變換方法,它有好幾種不同的定義方法來進行周期延拓,如圖2.9所示。圖2.9 (a)DCT-I(b)DCT-II(c)DCT-III(d)DCT-IV的周期延拓方法常用的一種是DCT-II,實信號序列的DCT-II變換定義為 (2-17)其反變換為 (2-18)DCT-II可以從離散傅里葉(DFT)推導(dǎo)得到。假設(shè)是一個周期為的偶對稱時序列,滿足??梢宰C明,信號序列的離散傅里葉變換和DCT-II變換的關(guān)系為 (2-19)DCT-II的優(yōu)點在于其能量的集中,相比于DFT,其系數(shù)主要集中在低維,這就使我們能用更少的系數(shù)來逼近原來的信號,這也是DCT-II被廣泛應(yīng)用的原因。卷積和濾波由于離散信號本身就是一個不連續(xù)的序列,因此離散信號很容易分解為脈沖序列。對應(yīng)每個樣值激勵,系統(tǒng)得到對此樣值的響應(yīng),把這些響應(yīng)疊加,便能得到此時系統(tǒng)的響應(yīng)。因此,如果能知道系統(tǒng)的單位沖激響應(yīng),就能很好的刻畫該系統(tǒng)的響應(yīng)特性,并利用該單位沖激響應(yīng)通過卷積運算來求得系統(tǒng)對任意離散信號序列的響應(yīng),如圖2.10所示。圖中,首先得到線性系統(tǒng)對單位沖激函數(shù)的響應(yīng),刻畫了該系統(tǒng)的響應(yīng)特性,然后,對任意輸入信號序列,就可以通過與的卷積求得輸出序列。圖2.10 離散信號系統(tǒng)的沖激響應(yīng)圖2.11給出了卷積過程的一種解釋。如圖,信號與進行卷積得得到輸出序列。運算可以看作是這樣進行的:可以分解為9個沖激函數(shù)的線性組合,在已知系統(tǒng)的單位沖激響應(yīng)的基礎(chǔ)上,由線性系統(tǒng)的均勻性和時不變性,可以求得每個脈沖信號通過該系統(tǒng)的響應(yīng),如圖2.11中的九個小圖,最后,由線性系統(tǒng)的可加性,這些響應(yīng)疊加就得到系統(tǒng)對輸入的響應(yīng)。圖2.11 通過卷積求系統(tǒng)響應(yīng)從上述過程我們可以推導(dǎo)出卷積的表達式。首先,我們對輸入信號進行分解。由于 (2-20)故輸入信號可以表示為 (2-21)由系統(tǒng)的時不變特性和均勻可加性,的系統(tǒng)響應(yīng)為,因此系統(tǒng)對的響應(yīng)為 (2-22)如果僅在這個點的區(qū)間取值,那么上式進一步改寫為 (2-23)因此,兩個序列和的卷積運算就定義為 (2-24)卷積運算是數(shù)字信號處理的最基本運算之一,應(yīng)該熟練掌握。卷積運算有著許多良好的性質(zhì),簡要的列舉在下面,證明留給讀者完成。交換率 (2-25)結(jié)合律 (2-26)分配律 (2-27)轉(zhuǎn)移特性:如圖2.12,如果,經(jīng)過某一線性變化得到新的信號序列,那么的結(jié)果就應(yīng)該是經(jīng)過同一線性變化得到的信號序列。圖2.12 卷積的轉(zhuǎn)移特性卷積的一個重要用途就是濾波,所謂濾波,就是通過一定的運算去掉信號中某些不需要的部分,比如高頻部分或者是低頻部分。濾波的過程就是原始信號和濾波器的單位沖激響應(yīng)的卷積過程,如圖2.13,高通濾波器和低通濾波器有著各自自身的單位沖激響應(yīng),輸入信號通過與單位沖激響應(yīng)的卷積運算,達到了去掉信號中高頻部分或者低頻部分的目的。圖2.13 低通濾波和高通濾波語音信號產(chǎn)生模型共振頻率是什么概念,如何產(chǎn)生?短時分析的根據(jù)是什么?語音是怎么生成的?連續(xù)過程是如何變成離散過程的?線性預(yù)測方法為什么能用在語音分析中?等等問題無不與產(chǎn)生機理及數(shù)學(xué)模型有關(guān)。如何建立數(shù)學(xué)模型?用到的知識:空氣動力學(xué)、力學(xué)、聲學(xué)、電學(xué)、類比、拉普拉斯變換、傅里葉變換、Z變換等等。重點學(xué)習(xí)思路與方法,科學(xué)思維。語音的產(chǎn)生機理我們可以有條件地將人的發(fā)聲看作是兩個過程:1)產(chǎn)生聲源(準(zhǔn)周期氣流脈沖或白噪聲)去激勵聲道;2)聲道對聲源的調(diào)制作用。本小節(jié)中,我們將把重點放在研究:聲道是怎樣對聲源調(diào)制的,為什么不同的聲道形狀會產(chǎn)生不同的聲音。。當(dāng)然這是理想化了的,但這樣簡化會有助于問題的求解,也便于以后修正。圖2.14 截面均勻無損耗管道示意圖 考慮到管道右端開口處只有空氣體積速度的變化,而沒有壓強的變化,這時,可以寫出管道內(nèi)聲波的運動方程 (2-28)其中,為在點時刻的聲壓,為在點時刻的體積速度,為空氣密度,為聲速,為管道截面積。解該偏微分方程,得如下形式 (2-29)其中,我們稱為正向行波,稱為反向行波。假定在處以空氣體積速度的形式施加激勵,而體積速度總可以分解成傅立葉級數(shù)。對某一個頻率分量,其體積速度激勵為 (2-30)可以得出管道內(nèi)各處空氣體積速度的變化情況。由公式(2-29)可知,在以(2-30)式作為邊界條件的情況下,解也必定是復(fù)指數(shù)形式。令 (2-31)將(2-31)代入到(2-29)中,得到 (2-32)將兩個邊界條件和代入上式,解得(2-33)其中,為管道聲特性阻抗,。這樣,我們可以利用上式來研究一下管道始端與末端空氣體積速度的情況。在末端處,有 (2-34)在始端處,有 (2-35)令 (2-36)的物理意義為:在處,空氣體積速度的幅值(是頻率的函數(shù))。相當(dāng)于在處空氣體積速度的傅立葉變換。同理,是處空氣體積速度的傅立葉變換。從(2-36)可解出系統(tǒng)的頻率響應(yīng)公式: (2-37)考慮到成年男子平均聲道長厘米,空氣在一個大氣壓,時的聲速為,那么上式中的量 (2-38)其中,如的單位為,則的單位為。將(2-38)代入(2-37)式得 (2-39)可以看出當(dāng)時,(2-39)式有極大值,相應(yīng)的共振頻率為 (2-40)可見,在每間隔出現(xiàn)一個共振頻率。如圖圖2.15 均勻無損聲管頻率響應(yīng)上圖表明截面均勻的無損管道用于模擬人的聲道時,嘴唇處空氣體積速度相對聲門處的增益是隨頻率變化的,第一個共振點出現(xiàn)在0.5KHz處,每隔1KHz出現(xiàn)一個共振點。盡管上述的聲管是理想化的,但這個結(jié)果在以后的討論中有參考意義??紤]到管壁的振動,穿過管壁的熱傳導(dǎo),空氣與管壁間的粘滯摩擦,以及嘴唇輻射聲波時的種種影響,均勻管道的一個聲學(xué)系統(tǒng),其幅頻特性畫在圖2.16。圖2.16 具有屈服性壁、粘滯和熱損耗的均勻無損聲管頻率響應(yīng)圖2.16與圖2.15比較,可以看出這些因素的影響造成的變化有:1)共振峰的頻率降低;2)尖峰變低寬,即共振峰降低,帶寬增加。級聯(lián)聲管模型前一小節(jié)中,我們介紹了均勻管道的聲學(xué)特性,而在人類發(fā)音時,聲道截面積不是均勻的,截面沿軸向是不斷變化的。為了簡化計算,需要用一些無損耗聲學(xué)短管級聯(lián)來逼近聲道截面積函數(shù)。圖2.17是用14節(jié)短管(每個短管自己的截面積是均勻的),來逼近原來聲道的形狀。圖2.17 用級聯(lián)聲學(xué)短管逼近聲道形狀為使問題簡化,令每個短管的長度都是相同的。短管的編號從1開始,自左至右編號遞增,相應(yīng)截面積分別為,為短管總數(shù)。下面我們研究級聯(lián)無損耗管道中聲波的傳播,先來分析每個短管中的聲壓和體積速度。對第個短管,由(2-32)式, (2-41)考慮到在兩個短管交接處聲壓和體積速度不能突變,要滿足連續(xù)性約束條件。圖2.18畫出了第節(jié)短管與第節(jié)短管交接處的情況。設(shè)第節(jié)短管左端為0,右端為;第節(jié)短管左端為0,右端為。圖2.18 兩個短管及其連接處的情況在兩管連接處連續(xù)性約束條件為 (2-42)前面已設(shè),則聲波通過每一個短管的時間是相同的,都是,其中。將代入公式(2-41),得到 (2-43)將公式(2-41)中的換成,且令,得到第節(jié)短管的左端情況 (2-44)將連續(xù)性約束條件(2-42)用于(2-43)和(2-44),解出 (2-45)其中 (2-46)為兩管連接處的反射系數(shù),其值范圍為。把(2-45)表示成信號流圖(圖2.19)將有助于說清楚式子的物理意義。圖2.19 兩管連接處的信號流圖在圖2.19中正向行波分量到了交接處反射回一部分;而反向行波分量到了交接處也要反射回一部分。如果聲道是由階短管構(gòu)成,則將代之以,就可以得到個相類似的信號流圖。再按序把它們“串聯(lián)”起來,就可以用來描述整個聲道的信號流圖。從輸入和輸出考慮,上述流圖還要加上聲門和嘴唇處的情況。這時可以使用圖2.20所示的近似模型。 圖2.20 聲音產(chǎn)生的近似模型圖2.20中,是聲帶產(chǎn)生的體積速度源,在電力聲類比時,將其視作恒流源。反映聲門處空氣體積速度與聲壓間的線性關(guān)系,稱之為聲門的聲阻抗。是聲道入口處的空氣體積速度,是聲道入口處的聲壓。由電路相關(guān)理論,有 (2-47)將和代入2-41式,并將所得結(jié)果代入2-47,有 (2-48)其中,其中為聲門的反射系數(shù) (2-49)類似的可以得到嘴唇處的反射系數(shù) (2-50)相應(yīng)的嘴唇處和聲門處的信號流圖如圖2.21所示。圖2.21 (a)嘴唇處的信號流圖(b)聲門處的信號流圖下面我們研究用節(jié)短管來逼近聲道模型的系統(tǒng)沖激響應(yīng)。圖2.22畫出了兩節(jié)短管與三節(jié)短管聲道模型中,正向行波與反向行波在管中運行的情況。對于兩管模型,正向行波(用自左向右的箭頭表示)從聲門出發(fā)到達嘴唇,最快也需延遲秒;而三管模型,則需秒。反向行波用自右向左的箭頭表示。對于管的交接處有反射的情況,從嘴唇端輸出脈沖的延遲時間,是在(對于兩管模型)或?qū)τ谌苣P停┑幕A(chǔ)上再加上時間,。不難得出節(jié)短管構(gòu)成的聲道模型,系統(tǒng)沖激響應(yīng)為 (2-51)圖2.22 正向行波與反向行波的運行情況短管聲道模型系統(tǒng)頻率特性對公式(2.51)取拉普拉斯變換,得到 (2-52)用代入上式,得到 (2-53)在實際應(yīng)用時,取偶數(shù),這時上式繼續(xù)改寫為 (2-54)此時滿足 (2-55)說明該系統(tǒng)具有重復(fù)周期的頻率特性。根據(jù)信號處理原理,一個函數(shù)在頻域有周期性,在時域必是采樣的。采樣的頻率為 (2-56)其中為短管長度,為聲速。前面已經(jīng)講過,成年男子聲道平均長為17.5厘米,聲速用。如果取=10,則。這時。隨著短管節(jié)數(shù)增加,采樣頻率也要增加。每增加2節(jié)短管,采樣頻率增加。聲道的時間離散模型通常,時間離散系統(tǒng)以變換形式來表示。這時可將式(2-52)中的替換為。得到離散系統(tǒng)的傳遞函數(shù) (2-57)上式表示輸入為單位脈沖作用下系統(tǒng)的輸出,它是間隔時間為,以加權(quán)的脈沖序列。表示延遲一個采樣時間。輸出的第一個脈沖幅度為,出現(xiàn)在輸入的單位脈沖作用后的時刻;第二個脈沖幅度為,出現(xiàn)在時刻;依此類推。將圖2.19的兩管聲道模型的信號流圖,擴展為N節(jié)管,將其中的變量取Z變換,并以取代延遲。表示延遲1/2個采樣時間,這樣可得到圖2.23。圖2.23 N節(jié)短管聲道模型信號流圖利用該模型可以推得 (2-58)一般將上式中的去掉,認(rèn)為這個固定的延遲時間不代表聲道的特征,不管發(fā)什么聲音都有這個延遲。在研究中去掉它不會影響對問題的分析。這樣公式(2.59)就成了公式(2.58)的簡化形式 (2-59)(2-59)式是聲道的終端模擬模型,具有全極點數(shù)字濾波器的形式,且全部極點必然落在單位圓內(nèi)。以后我們在討論問題時,就使用公式(2-59)。語音生成模型本節(jié)開頭我們曾經(jīng)指出發(fā)聲可視為兩個過程;產(chǎn)生聲源去激勵聲道:聲道對激勵它的體積流加以調(diào)制,最后輸出聲波。激勵定性地分作兩類:1)準(zhǔn)周期脈沖串,用于激勵聲道以產(chǎn)生濁音;2)隨機噪聲,具有白噪聲性質(zhì),用于激勵聲道以產(chǎn)生清音。羅森伯格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時聲門脈沖取如圖2.24所示的形狀,可以獲得比較好的合成語音效果。圖2.24 發(fā)濁音時的聲門脈沖圖2.24可以用如下公式描述(2-60)可視為一個線性系統(tǒng)在單位脈沖作用下的輸出。這一線性系統(tǒng)具有低通濾波效應(yīng)(是的變換)。在發(fā)濁音時,可以認(rèn)為是由基因周期控制的沖激序列發(fā)生器產(chǎn)生的單位脈沖串,加至這個線性系統(tǒng)以形成一連串的。在有了上面的基礎(chǔ)之后,就可以來討論語音生成的模型了。 圖2.25畫出了時間離散的語音生成模型。圖中有一個濁音/清音“開關(guān)”,用以改變聲道激勵的形式?!伴_關(guān)”向上,由準(zhǔn)周期脈沖激勵聲道,發(fā)出濁音;“開關(guān)”向下,由隨機噪聲激勵聲道,發(fā)出濁音。和分別為濁音和清音的幅度控制信號。圖2.25 時間離散的語音生成模型語音信號的時域處理語音信號首先是一個時間序列,進行語音分析時,最直觀的就是它的時域波形。時域分析直觀明了,計算簡單且運算量?。ㄏ啾群竺鎸⒁榻B的頻譜分析和先行預(yù)測分析)。時域分析提供了最基本的也是很重要的用于語音分析的參數(shù),廣泛用于語音的預(yù)處理、切分、分類等方面。語音信號的抽樣和量化模擬語音信號是連續(xù)信號,無法被計算機處理。因此語音處理的第一步首先是將模擬信號轉(zhuǎn)化為數(shù)字信號,也就是常說的模數(shù)轉(zhuǎn)換(AnalogtoDigitalConversion),這其中主要包括兩個步驟:采樣(Sampling)和量化(Quantization)。一個正常人語音的頻率一般在的范圍內(nèi),成年男子的語音頻率較低,婦女和兒童的語音頻率較高。電話語音頻率范圍在左右,現(xiàn)代的語音合成或識別系統(tǒng)中,由于需要將語音頻率的上限提高到左右。根據(jù)尼奎斯特采樣定律(NyquistSamplingTheorem),采樣頻率應(yīng)為原始語音頻率的2倍以上,考慮到濾波器性能的影響,這個閾值還應(yīng)該提高。一般說來,電話語音的采樣率為(G.711),普通語音的采樣率在左右。否則,如果采樣率不滿足采樣定律,將會產(chǎn)生頻譜混疊,使信號中的高頻部分失真??紤]到高頻噪音的存在,為了防止頻率高于二分之一采樣頻率的高頻噪音產(chǎn)頻譜混疊,通常語音信號在采樣前要進行一次預(yù)濾波以濾掉高頻噪音。預(yù)濾波還有一個目的是避免的電源干擾,因此預(yù)濾波是一個帶通濾波期,其下截止頻率,上截止頻率根據(jù)需要定義。采樣后的語音數(shù)據(jù)要能為計算機所存儲和處理還必須進行量化處理。量化過程中,不可避免地會引入誤差,量化后的信號與原始信號的差值稱為量化噪聲。量化噪音是一個平穩(wěn)的白噪音,在量化區(qū)間均勻分布,和原信號序列沒有什么關(guān)系。圖2.26給出了從采樣到量化的全過程圖,并且給出量化噪聲的分布。圖2.26 采樣和量化量化時,如果采用較長的比特(Bit)數(shù)來記錄采樣數(shù),相應(yīng)的量化級數(shù)就會較高,量化誤差也就較小。但是這是以增加存儲容量和處理時的計算量為代價的,因此根據(jù)應(yīng)用場合合理的選擇量化字長是很重要的。語音信號的短時分析和預(yù)處理我們知道,由于人自身的發(fā)音器官的運動,語音信號是一種典型的非平穩(wěn)信號。但是相比于聲波振動的速度,發(fā)音器官的運動就顯得非常緩慢了。因此,工程技術(shù)人員通常認(rèn)為這樣長度的時間段中,語音信號是平穩(wěn)信號。幾乎所有的語音信號處理方法都是基于這個假設(shè)。短時分析的最基本手段是對語音加窗,即用一個有限長度的窗序列截取一段語音信號來進行分析。該窗函數(shù)可以按時間方向滑動,以便分析任一時刻附近的信號。設(shè)原始信號為,加窗運算定義為 (2-61)可以看出,加窗運算實際上是一種卷積運算。設(shè)窗長為,常見的窗函數(shù)有:方窗(RectangularWindow) (2-62)哈明窗(HammingWindow) (2-63)哈寧窗(HannWindow) (2-64)哈寧窗和哈明窗都是廣義哈明窗(GeneralizedHammingWindow)(2-65)的特例。當(dāng)時為哈寧窗,時則為哈明窗。 (2-65)如果我們把窗函數(shù)理解成為某個濾波器的單位沖激響應(yīng),由于窗函數(shù)一般是中間大兩頭小的光滑函數(shù),因此該濾波器具有低通特性。不同的窗函數(shù)對應(yīng)的低通濾波器的帶寬和頻率相應(yīng)是不同的。圖2.27和圖2.28給出了上述幾種窗函數(shù)的頻率響應(yīng)特性。圖2.27 方窗的頻率響應(yīng)幅度特性圖2.28 哈寧窗和哈明窗的頻率響應(yīng)幅度特性((a)(b)為哈寧窗,(c)(d)為哈明窗)可以看出,哈明窗和哈寧窗的主瓣(Mainlobe)寬度大約為方窗的兩倍,同時衰減比方窗快,方窗的旁瓣(Secondlobe)的高度約為,哈明窗的旁瓣高度約為,哈寧窗的約為。哈寧窗和哈明窗的差異在于前者隨頻率增加衰減很快,而后者基本保持一個常量。由于方窗的旁瓣太高,會產(chǎn)生嚴(yán)重的泄漏(Gibbs)現(xiàn)象,僅在一些特殊場合使用;哈寧窗的衰減太快,低通特性不平滑,不能做到對所有頻率“一視同仁”;哈明窗由于其平滑的低通特性和最低的旁瓣高度而得到最為廣泛的應(yīng)用。對同一種窗函數(shù),其主瓣寬度和窗長成反比,一般說來,窗長越長,它對信號的平滑作用越厲害,如果想反映變化快的信息,應(yīng)該縮短窗長。短時能量、短時平均幅度和短時平均過零率短時能量、短時平均幅度和短時平均過零率是語音的最基本的也是最重要的時域特征。計算簡單且運算量小,廣泛運用于語音信號處理的各個領(lǐng)域。短時能量和短時平均幅度能量是語音的一個重要特性,比如我們知道,清音的能量較小,濁音的能量較大。對語音能量的分析主要集中在短時能量和短時平均幅度上。短時能量的定義如下,其中,是窗函數(shù),是窗長。 (2-66)上式也可以進行改寫,以便有更好的物理含義 (2-67)其中定義 (2-68)因此,我們可以將短時能量看作語音信號的平方通過一個沖激響應(yīng)為的線性濾波器后的輸出。因此,窗函數(shù)的選擇會直接決定短時能量的性質(zhì),一方面,采用什么樣類型的窗函數(shù);另一方面,窗長度應(yīng)該選多長。窗函數(shù)的性質(zhì)在上一小節(jié)中我們進行了簡要的介紹,下面簡要介紹窗長選擇的重要性。我們知道,如果窗長太長,平滑作用將很明顯,那么對應(yīng)的短時能量曲線也隨時間變化緩慢,不能體現(xiàn)語音的變化;反之,如果窗長太短,短時能量將隨時間劇烈變化,我們就無法得到平滑的能量函數(shù)。通常認(rèn)為,窗長的選擇應(yīng)該包含1~7個基因周期,但是男女老少的基因周期差異太大,折衷的選擇是選取的時間作為窗長。由于計算能量時對語音信號取平方運算,因此短時能量對高電平信號很敏感。為此采用另一種度量方法,稱作短時平均幅度,其定義如下 (2-69)但是,在清音和濁音的區(qū)別上,短時幅度的電平差不如短時能量明顯。短時過零率顧名思義,過零就是指時域波形穿過坐標(biāo)軸,表現(xiàn)在離散信號序列上就是相鄰兩個采樣值異號。單位時間內(nèi)過零發(fā)生的次數(shù)稱作短時過零率,其定義如下 (2-70)其中,是取符號函數(shù),它和窗函數(shù)的定義如下 (2-71)由定義可以看出,短時過零率對噪音的存在非常敏感,如果背景中有反復(fù)穿越坐標(biāo)軸的隨機噪聲,那么會產(chǎn)生大量的“虛假”的過零,影響計算結(jié)果。為了提高過零率計算的魯棒性,除了對原始信號進行帶通濾波,一種有效的方法是修正過零率的定義,加入門限的定義,如圖2.29所示。圖2.29 門限過零率如圖2.29,設(shè)一個門限值,將過零的定義修正為穿越正負門限,帶門限的過零率計算公式為 (2-72)這樣,噪音信號的振蕩只要不超過門限間的區(qū)域,就不會對真實的過零率產(chǎn)生影響。一般說來,短時過零率的最主要用處是用于分辨清音和濁音、有聲與無聲。我們將在下一小節(jié)“語音的端點檢測”中進行詳細介紹。語音的端點檢測在許多語音信號的處理中,比如語音識別,我們常常需要判斷輸入信號中那些部分是語音,那些部分不是語音,以供后續(xù)處理使用。有時,對于已經(jīng)判定為語音的部分還需要區(qū)分清音和濁音,這些問題歸結(jié)起來稱為“有聲/無聲”或“濁音/清音/無聲”的判定。漢語中,由于音節(jié)末尾基本上都是濁音,簡單的通過短時能量就能取得很好的效果;相比之下,音節(jié)起始處會有清聲母、塞音、塞擦音,它們很難和環(huán)境噪音相區(qū)別。下面介紹一種被稱作為“雙門限法”的端點檢測算法,利用的聲學(xué)參數(shù)為短時平均幅度和短時過零率(也可以利用短時能量和短時過零率)如圖2.30所示。圖2.30 雙門限法進行端點檢測首先利用短時平均幅度定位語音的大致位置。做法為:1)根據(jù)大量統(tǒng)計經(jīng)驗,確定一個較高的閾值,的值一般定得比較大,這樣我們能夠肯定短時平均幅度大于的部分一定是語音段,而且很有可能是濁音。2)分別沿向兩端搜索,如果短時平均幅度仍然能夠保證大于某個閾值,我們?nèi)匀豢梢哉J(rèn)為這一部分還是語音段。第二步的目標(biāo)就是較為準(zhǔn)確的確定語音的起始點,主要是將清音和無聲段分開。此時,短時平均幅度不再起作用,因為兩者的能量都很小,唯一的區(qū)別是清音的過零率遠遠高于無聲段。為此,確定一個過零率的閾值,從向兩端搜索搜索,如果短時過零率突然低于該閾值的三倍,那么這點這被認(rèn)為是語音的起始點。但是需要注意的是,這種向前搜索還有時間上的限制,一般向前搜索最多不超過,也就是一幀語音的長度。圖2.31 語音“七八九”的端點檢測圖2.31給出了用雙門限法對語音“七八九”進行端點檢測的結(jié)果。短時自相關(guān)函數(shù)相關(guān)分析是一種常用的時域波形分析方法,對于確定性離散信號,能量有限,其自相關(guān)函數(shù)定義為 (2-73)如果是隨機或者周期性的離散信號,不是能量有限的,那么其自相關(guān)函數(shù)的定義為 (2-74)由自相關(guān)函數(shù)的定義可以看出其所具有的一些性質(zhì):1)自相關(guān)函數(shù)是偶函數(shù),滿足;2)時函數(shù)取得最大值,此時,對于確定性信號,自相關(guān)函數(shù)的取值就是該信號的能量,對于隨機信號或者周期信號,自相關(guān)函數(shù)的取值是該信號的平均功率;3)如果原序列是周期為的周期信號,那么自相關(guān)函數(shù)也是周期為的周期函數(shù),即。 短時自相關(guān)函數(shù)的定義為 (2-75)上式的物理意義為:首先用窗函數(shù)選擇要處理的語音,然后將窗選結(jié)果帶入2-73式得到上式。利用自相關(guān)函數(shù)是偶函數(shù)的性質(zhì),有 (2-76)如果定義,上式變形為 (2-77)即為序列通過單位沖激響應(yīng)為的濾波器后的輸出,如圖2.32。圖2.32 自相關(guān)函數(shù)的方框圖表示自相關(guān)函數(shù)可以用來估計基音周期。短時基音周期估計我們知道,濁音是一種準(zhǔn)周期信號,我們稱濁音的周期為基音周期。短時基音周期的估計也稱作基音檢測(PitchDetection)。預(yù)處理由于聲道的共振峰特性會對基音周期造成干擾,為了較為準(zhǔn)確的估計基音周期,我們需要隊原始信號進行預(yù)處理。預(yù)處理的途徑有兩條:1)用一個帶通為的帶通濾波器隊原始語音進行濾波,之所以上截止頻率取,是因為既可以去掉大部分共振峰的影響,又可以為頻率低于以下的基音保留一兩次諧波;2)對原始語音進行中心削波,中心削波函數(shù)為 (2-78)其中中心削波電平約為最大信號幅度的,圖2.33為中心削波的示意圖。圖2.33 中心削波示意圖基于求短時自相關(guān)函數(shù)的估計算法由短時自相關(guān)函數(shù)的定義可知,對于準(zhǔn)周期信號,短時自相關(guān)函數(shù)在基音周期的各個整數(shù)倍點上有很大的峰值。如果我們能求得第一最大峰值點并計算其與零點的距離,該距離就是估計出來的基音周期,如圖2.34。圖2.34 自相關(guān)法估計基音周期實際計算中,除了要對語音進行預(yù)處理以外,計算自相關(guān)函數(shù)時所采用的窗長也是很重要的影響因子。一般認(rèn)為,窗長應(yīng)該至少大于兩個基音周期才能有較好的預(yù)測效果,語音的基音周期最長的大約為(語音的頻率下限約為),因此計算自相關(guān)時的窗長應(yīng)大于為宜。后處理沒有任何一種預(yù)測方法能夠準(zhǔn)確的計算出所有的基音周期。往往大部分的點是比較準(zhǔn)確的,但是也有一部分的“野點”(通常偏離到標(biāo)準(zhǔn)值的2倍或者一半),為此我們需要對預(yù)測結(jié)果進行平滑處理。常用的平滑算法有中值平滑、線性平滑和組合平滑。中值平滑 對于被平滑的點,我們在其兩側(cè)各找個點,連同其自身共個點進行排序,序列中間的那個點的值作為該點新的取值。中值平滑能去掉少量的野點,同時也不會破壞基音曲線間的跳躍。線性平滑 平滑的方法是對周圍的點進行線性加權(quán),設(shè)為平滑前的序列,現(xiàn)在準(zhǔn)備平滑第個點,那么 (2-79)組合平滑 先對原始結(jié)果進行一次中值平滑,然后對第一次平滑結(jié)果再進行線性平滑。圖2.35 語音“你好”的基音周期估計語音信號的頻譜分析大量的實驗表明,人類感知語音的過程和語音本身的頻譜特性關(guān)系密切。人類本身的聽覺對語音的頻譜特性更為敏感。兩段時域上相差很大的語音如果具有類似的頻譜特性,人類在感知它們時的感覺也是相似的。語音信號的頻譜具有非常明顯的語言聲學(xué)意義,能反應(yīng)一些非常重要的語音特征,比如共振峰頻率和帶寬等。因此,對語音信號進行頻譜分析是現(xiàn)代的數(shù)字語音信號處理的重要方法之一。短時傅里葉變換和語譜圖我們知道,由于語音信號是一種典型的非平穩(wěn)信號,因此適用于平穩(wěn)隨機信號、周期信號的標(biāo)準(zhǔn)傅里葉變換不能直接用于語音信號的處理。但是,根據(jù)上一節(jié)所提到的短時分析的方法,我們認(rèn)為這樣長度的語音信號是平穩(wěn)信號,可以對這一段信號做傅里葉變換,稱作短時傅里葉變換。短時傅里葉變換的定義如下 (2-80)其中是窗函數(shù)。既是的函數(shù),也是的函數(shù),相應(yīng)的,對短時傅里葉變換也就存在兩方面的解釋。一方面,在的情況下,是將窗函數(shù)中心移到處截取信號所得到的序列的標(biāo)準(zhǔn)傅里葉變換。另一方面,從濾波器的角度,在的前提下,是時間的函數(shù)。如果將看作是某個窄帶低通濾波器的沖擊函數(shù)響應(yīng),濾波器的輸入為,那么就是該濾波器的輸出。信號首先被進行了調(diào)制,相當(dāng)于將的頻譜從位移到0,如圖2.36所示。圖2.36 短時傅里葉變換的濾波器解釋類似的還可以定義離散的短時傅里葉變換,令,有 (2-81)由功率譜函數(shù)(能量密度譜函數(shù))的定義,短時功率譜和短時傅里葉變換有如下關(guān)系 (2-82)不難證明,它是的短時自相關(guān)函數(shù)的傅里葉變換 (2-83)其中 (2-84)以時間作為橫坐標(biāo),作為縱坐標(biāo),由的值作為點處的灰度級,這樣畫出來的二維圖像(其實是三維圖像,第三維用灰度,即顏色深淺來表示了)被稱作語譜圖(Spectrogram)。語譜圖由于反映了語音信號的動態(tài)頻譜特性,本身又反映了時域的變化(橫軸為時間軸),因此在語音分析中有重大的使用價值。有經(jīng)驗的工程技術(shù)人員僅僅根據(jù)語譜圖就能估計出被分析語音的許多特點。 語譜圖橫縱坐標(biāo)軸的分辨率被分別稱作時間分辨率和頻率分辨率,這兩種分辨率均受到窗函數(shù)的影響。按照短時傅里葉變換的第一種解釋,窗函數(shù)的頻率響應(yīng)的通帶帶寬決定了語譜圖的頻率分辨率,由于通帶帶寬與窗長成反比,因此高頻率分辨率需要窗長長一些。按照短時傅里葉變換的第二種解釋,窗函數(shù)的作用相當(dāng)于對時間序列作低通濾波,如圖2-36,輸出信號的帶寬就是的帶寬,根據(jù)第四節(jié)中介紹的采樣定律,2倍帶寬的采樣率就可以充分反映輸出信號,其時間分辨寬度為2倍帶寬的倒數(shù),因此高時間分辨率對應(yīng)短的窗長。這和高的頻率分辨率對窗長的要求是要求是相矛盾的。為了彌補這一缺陷,語音信號處理中一般采用不同的窗長同時作出兩種語譜圖,分別稱作寬帶語譜圖和窄帶語譜圖,前者具有高時間分別率,后者具有高頻率分辨率。短時傅里葉分析一般采用哈明窗(HammingWindow)作為窗函數(shù),寬帶語譜圖的窗長約為6.4ms,窄帶語譜圖的窗長約為51.2ms,其頻率分辨率分別為313Hz和39Hz左右。圖2.37給出一句話的窄帶和寬帶語譜圖的例子。在本書第七章中,我們還會對語譜圖進行進一步的分析和探討。圖2.37 語譜圖同態(tài)信號處理的基本原理在本章第三節(jié)介紹的語音生成機理中,我們曾經(jīng)提到,語音信號的生成模型可以看作是聲門的激勵信號和聲道的沖擊響應(yīng)的卷積。在語音信號處理的實際應(yīng)用中,很多場合需要我們根據(jù)語音信號反過來求解聲門激勵或者聲道沖擊響應(yīng)。比如,為了判斷輸入的信號是清音還是濁音,就需要判斷聲門激勵是白噪聲還是準(zhǔn)周期的脈沖序列。這樣的問題一般化的表達就是在知道卷積結(jié)果的基礎(chǔ)上,怎么求得參與卷積的各個信號,這一問題通常被叫做“解卷”。常用的解卷的方法有兩種,一種是同態(tài)處理,又叫做同態(tài)濾波;另外一種是下一節(jié)中將要介紹的線性預(yù)測分析。由于對語音信號進行同態(tài)分析后得到的是語音信號的倒譜參數(shù),因此同態(tài)分析也叫做倒譜分析。下面我們簡要地介紹一下同態(tài)信號處理的基本原理。我們知道,線性系統(tǒng)可以處理加性信號,然而語音信號卻是一種卷積信號,因而不能用線性系統(tǒng)來處理,必須采用適合其組合原則的非線性系統(tǒng)?,F(xiàn)實生活中還有許多信號是乘積信號,同樣不能用線性系統(tǒng)處理,這給工程技術(shù)人員帶來了很大的麻煩。同態(tài)信號處理就是希望將這些非加性的信號轉(zhuǎn)化為加性的信號,以便可以使用線性系統(tǒng)來處理。根據(jù)處理對象不同,同態(tài)信號處理可以分為乘積同態(tài)處理和卷積同態(tài)處理,由于語音是一種卷積信號,我們在此僅討論卷積同態(tài)處理。我們知道,變換可以將卷積性信號轉(zhuǎn)變?yōu)槌朔e性信號,而取對數(shù)運算可以將乘法轉(zhuǎn)化為加法,卷積同態(tài)處理正是采用這樣的一種思路,我們設(shè)輸入信號 (2-85)首先進行變換 (2-86)然后取對數(shù)運算,得 (2-87)最后通過逆變換轉(zhuǎn)變?yōu)闀r域信號 (2-88)仍然為加性信號,設(shè)經(jīng)過線性系統(tǒng)的處理得到 (2-89)然后可以恢復(fù)回卷積信號。首先對作變換,有 (2-90)然后再進行指數(shù)運算,得 (2-91)最后通過逆變換轉(zhuǎn)變?yōu)榫矸e信號 (2-92)步驟(2-85)到(2-88)稱作特征系統(tǒng),記為;步驟(2-89)到(2-91)稱作逆特征系統(tǒng),記為,如圖2.38所示。圖2.38 特征系統(tǒng)和逆特征系統(tǒng)復(fù)倒譜和倒譜本小節(jié)中,我們將簡要介紹復(fù)倒譜和倒譜的定義、計算方法以及其重要的性質(zhì)。復(fù)倒譜和倒譜的定義我們稱(2-88)中的時域序列為信號序列的“復(fù)倒頻譜”,簡稱“復(fù)倒譜”(ComplexCepstrum),也叫對數(shù)復(fù)倒譜。即 (2-93)所在的時域被稱作復(fù)倒譜域。又注意到, (2-94)如果我們僅對的實部作逆變換,有 (2-95)我們稱為“倒頻譜”,簡稱“倒譜”,也稱“倒頻”(Quefrency)。由變換的性質(zhì)易知 (2-96)值得注意的是,倒譜不能通過逆特征系統(tǒng)還原成自身,因為在計算中相位的信息在計算中丟失了。在絕大多數(shù)的應(yīng)用場合,特征系統(tǒng)和逆特征系統(tǒng)中的正反變換都可以用正反離散傅里葉變換(DFT和IDFT)來代替,此時的特征系統(tǒng)和逆特征系統(tǒng)的定義為 (2-97)相應(yīng)的倒譜的定義變?yōu)? (2-98)復(fù)倒譜的性質(zhì)我們知道,一般信號的變換可以近似的表示為如下的形式 (2-99)其中,因子表示時間原點的移動,是一個實數(shù)。和分別對應(yīng)在單位圓內(nèi)外的零點,和分別對應(yīng)在單位圓內(nèi)外的極點。的復(fù)對數(shù)為 (2-100)利用泰勒展開公式展開上式中的對數(shù)項 (2-101)對比 (2-102)可以得到 (2-103)分析上式,我們可以得出以下結(jié)論:1)信號的復(fù)倒譜是一個無限長的序列;2)是一個有界的衰減序列。倒譜的性質(zhì)和復(fù)倒譜類似,只不過復(fù)倒譜是非對稱的衰減序列,而倒譜是以原點對稱的衰減序列。 當(dāng)信號是最小相位信號序列,即時,其復(fù)倒譜滿足如下的遞推公式 (2-104)此時只在有值,是一個因果序列。同理,當(dāng)時,信號是最大相位信號序列,其復(fù)倒譜滿足的遞推公式為 (2-105)此時的是一個反因果序列。 進一步考慮聲門處的激勵信號,此時是一串沖激信號,如下 (2-106)其中,是幅度因子,為基因周期。上式的變換為 (2-107)可以求得其復(fù)倒譜 (2-108)可以看出,該復(fù)倒譜也是一個周期沖激序列,其周期和原序列相同,這種性質(zhì)對語音信號分析非常重要。語音信號的線性預(yù)測編碼分析線性預(yù)測編碼(LinearPredictiveCoding)分析是現(xiàn)代語音信號處理技術(shù)中最核心的技術(shù)之一,為現(xiàn)代語音信號處理的飛速發(fā)展立下了赫赫功勞,在語音分析、合成、編碼和識別等方面都有著廣泛的應(yīng)用,至今仍是最有效的語音分析技術(shù)之一。在估計基音、共振峰、頻譜、聲道截面積函數(shù)等語音的基本參數(shù)方面,線性預(yù)測分析是一種主要的技術(shù)。線性預(yù)測分析基于全極點模型,其中心思想是利用若干“過去”的語音抽樣來逼近當(dāng)前的語音抽樣,采用最小均方誤差逼近的方法來估計模型的參數(shù)。該模型和前面提到的語音生成的級聯(lián)無損聲管模型相聯(lián)系,用極少的參數(shù)來正確而有效地表現(xiàn)語音的波形和頻譜特性,同時具有計算效率高,應(yīng)用靈活的特點。線性預(yù)測的基本原理在線性預(yù)測分析系統(tǒng)中,被分析的信號被看作是一個線性系統(tǒng)(模型)的輸出,而模型本身是被一組參數(shù)所定義,這和語音的產(chǎn)生模型是相吻合的。全極點模型一般的,模型的系統(tǒng)函數(shù)可以用零極點模型,或稱為自回歸-滑動平均模型(AutoregressiveMovingAverageModel)來表示,如圖2-39所示。圖2.39 信號產(chǎn)生模型系統(tǒng)函數(shù)方程如下:(2-109)其中,被稱作增益因子,、分別是輸入信號和輸出信號的變換序列,被稱作合成濾波器。相應(yīng)的,模型在時域上的方程為:(2-110)也就是說,系統(tǒng)在時刻的輸出可以由過去個時刻的輸出、輸入和時刻的輸入的線性組合來表示。零極點模型中,如果系統(tǒng)函數(shù)中分母為1,也就是,此時該模型被稱作全零點模型,或稱為滑動平均模型(MovingAverageModel),系統(tǒng)時刻的輸出僅由輸入決定。反之,如果零極點模型中,系統(tǒng)函數(shù)中的分子為1,也就是,此時該模型被稱作全極點模型,或稱為自回歸模型(AutoregressiveModel),系統(tǒng)時刻的輸出僅由過去個時刻的輸出決定??紤]到如下因素:1)在實際應(yīng)用中輸入序列往往不容易直接刻畫和度量;2)求解帶有零點的模型困難(為非線性方程組)。因此,實際應(yīng)用中最常用的就是全極點模型。如果系統(tǒng)中必須有零點的存在,在一定條件下,全極點模型也可以較好的模擬零點的效果。我們知道:(2-111)那么,在分母收斂速度很快的前提下,一個零點可以由幾個極點來代替,這就較好的解決了諸如鼻音和摩擦音的系統(tǒng)模型問題。線性預(yù)測方程的推導(dǎo)我們假定存在如下的一個線性預(yù)測器,其系統(tǒng)方程為。令為原始的語音序列,為經(jīng)預(yù)測器輸出的語音序列,如圖2.40所示。圖2.40 線性預(yù)測器模型 圖2.41 線性預(yù)測器誤差模型設(shè)該線性預(yù)測器的系數(shù)為,(希臘字母,區(qū)分于全極點模型分母中的小寫英文字母)有:(2-112)相應(yīng)的我們可以定義預(yù)測誤差為,即(2-113)系統(tǒng)模型如圖2.41,且有(2-114)然后,我們將信號產(chǎn)生模型和線性預(yù)測器誤差模型連接起來,如圖2.42圖2.42 模型的級聯(lián)容易發(fā)現(xiàn),如果上圖中線性預(yù)測系數(shù),那么將有成立。即預(yù)測誤差的Z變換恰等于輸入激勵信號序列Z變換,此時,時域上預(yù)測誤差序列與聲道激勵序列一一對應(yīng)。因此,通常我們稱為系統(tǒng)轉(zhuǎn)移函數(shù)的逆濾波器。 (2-115) 這樣,線性預(yù)測的基本問題就轉(zhuǎn)化為求序列的過程,并認(rèn)為就是。評價一組系數(shù)好壞的標(biāo)準(zhǔn)就是希望預(yù)測誤差在某一短時的總能量盡可能的小,如圖2.43。圖2.43 預(yù)測誤差能量最小定義短時平均預(yù)測誤差 (2-116)其中,是在抽樣點附近選擇的一個語音段 (2-117)為使最小,各系數(shù)應(yīng)滿足對的偏微分為0,即 (2-118)得方程組(2-119)令 (2-120)式(2-119)化簡為 (2-121)線性預(yù)測方程組的解法上一小節(jié)中,我們定義了,由定義可知,的取值除了決定于波形數(shù)據(jù)以外,還直接受到取值范圍的影響。根據(jù)取值范圍的不同,可以看作是自相關(guān)函數(shù),還可以看作是協(xié)方差函數(shù),這直接導(dǎo)致了方程組的系數(shù)矩陣的性質(zhì)不同,因而相應(yīng)的解法也有所不同。這就是下面將要分別介紹的自相關(guān)法和協(xié)方差法解線性預(yù)測方程組。除此之外,還將介紹一種完全避開自相關(guān)和協(xié)方差函數(shù)計算,直接由信號樣本遞推計算的解法——格型法。自相關(guān)法回憶本章第四小節(jié)中對自相關(guān)函數(shù)的定義。如果首先對語音信號加一個長度為的短時窗,那么有。下面的例子中取,系統(tǒng)的階,計算過程如表2-1。表2-1 自相關(guān)法線性預(yù)測流程預(yù)測誤差可以分為三種類型,如上表所示: (2-122)預(yù)測誤差不為0的區(qū)間為,將這段區(qū)間定為求誤差能量和的上下限。這是自相關(guān)法區(qū)別于其它方法的核心思想。 (2-123)這樣,的定義改寫為 (2-124)令,那么,此時,再做變量替換,以符號代替得 (2-125)從上是可以看出是局限在窗口之內(nèi)的一段語音在做自相關(guān)運算,用自相關(guān)記號表示 (2-126)可以證明,自相關(guān)函數(shù)是偶函數(shù),即 (2-127)可以寫成,于是公式2-121可以改寫為 (2-128)寫成矩陣的形式(2-129)形如式2-129的矩陣中,主對角線以及和主對角線平行的斜線上的元素都相等,這樣的矩陣被稱作托普利茲矩陣(ToeplitzMatrix)。這樣的方程在數(shù)學(xué)上有其解法,在工程應(yīng)用中也有大量的高效的遞推解法,下面主要介紹一種德賓(Durbin)遞推算法,表2-2給出遞推算法流程。下面對這一算法作簡要的分析。算法中,表示階濾波器的第個預(yù)測系數(shù),表示階預(yù)測器的最小預(yù)測誤差能量,被稱作反射系數(shù),或者Parcor系數(shù),取值范圍為。通過算法我們發(fā)現(xiàn),其實在計算過程中,雖然我們的目標(biāo)是計算一個階線性預(yù)測器的系數(shù),但實際上在遞推的過程中我們算出了所有階數(shù)低于階的線性預(yù)測器的全部系數(shù),并且同時計算出了這些先行濾波器的最小預(yù)測誤差能量。遞推式中反射系數(shù)的取值范圍是保證系統(tǒng)穩(wěn)定性的充分必要條件,即多項式的全部根都落在單位圓內(nèi)。表2-2 德賓(Durbin)遞推算法從本節(jié)的推導(dǎo)中,我們知道的物理意義可以理解為的短時自相關(guān)函數(shù),因此,它反映了語音波形的實際情況,波形不同值也不同。而取值由決定,隨的改變而改變,因此也可以說反映了語音波形的實際情況。協(xié)方差法在自相關(guān)法中,需要對語音進行加窗處理,這直接導(dǎo)致了和實際信號的差異,從而導(dǎo)致誤差的產(chǎn)生,因此用自相關(guān)法求得的線性預(yù)測系數(shù)精度不高。并且,自相關(guān)法的最小預(yù)測誤差能量是對個值而言的,超出了語音段的長度。協(xié)方差法無需對原是語音進行加窗處理,并且只針對語音段內(nèi)的的采樣點計算最小預(yù)測誤差能量,此時的取值范圍為。依然以且的系統(tǒng)為例,如表2-3。表2-3 協(xié)方差法線性預(yù)測流程同樣用自相關(guān)記號,方程組寫成矩陣的形式 (2-130)這是一個階的正定對稱矩陣,可以用喬里斯基(Cholesky)法解此方程組。由于篇幅所限,請讀者自行查閱相關(guān)書籍。協(xié)方差法相比自相關(guān)法而言在計算的精確度上有了很大的提高,但是由于沒有像后者那樣的保證多項式的全部根都落在單位圓內(nèi)的條件,協(xié)方差法不能保證解的穩(wěn)定性,而且有時候這種不穩(wěn)定會非常嚴(yán)重,必須不斷的判斷中極點的位置并加以修正,才能得到穩(wěn)定的結(jié)果。一般說來,自相關(guān)法多用于平穩(wěn)的信號,協(xié)方差法多用于非平穩(wěn)的信號;自相關(guān)法對摩擦音的效果較好,而協(xié)方差法對元音等周期性語音效果更佳。協(xié)方差法的計算復(fù)雜度高于自相關(guān)法,當(dāng)模型的階次為10時,兩者的計算量差3倍左右。格型法(Lattice)由于自相關(guān)法和協(xié)方差法都存在自己的缺點,人們不斷的探索新的算法,格型法就是其中成功的一種。格型法不需要加窗運算,同時也較好的解決了精度和解的穩(wěn)定性之間的關(guān)系。回憶前面所提到的逆濾波器的傳遞函數(shù),對于階線性預(yù)測的逆濾波器,有 (2-131)又在德賓遞推算法中,我們知道 (2-132)將式(2-132)代入式(2-131),有 (2-133)當(dāng)時 (2-134)由(2-134)式我們可以得到下面的示意圖:圖2.44 公式2-134的圖形表示圖2.45公式2-135的圖形表示當(dāng)時 (2-135)新的遞推結(jié)構(gòu)如圖2.45。類似的繼續(xù)遞推下去,如圖2.46,可以計算出所需階次的逆濾波器。圖2.46 格型法流程圖線譜對參數(shù)(LSP)線譜對參數(shù)(LineSpectrumPair),也稱作線譜頻率參數(shù)(LineSpectrumFrequency)是線性預(yù)測參數(shù)的另外一種重要的等價表示。由于其參數(shù)具有良好的插值特性并且易于量化,近年來得到了廣泛的應(yīng)用,尤其是在語音合成和壓縮領(lǐng)域。前面小節(jié)中所提到的LPC參數(shù)都是時域參數(shù),而LSP參數(shù)是一種基于頻率參數(shù)的分析方法,和語音的譜包絡(luò)關(guān)系更為緊密。線譜對分析的基本原理LSP分析的基礎(chǔ)仍然是全極點模型,在2.5.2.3小節(jié)所介紹的格型法中,我們知道: (2-136)令,當(dāng)和時,分別令 (2-137)將代入 (2-138)再令,公式進一步化簡為 (2-139)對于,當(dāng)時;對于,當(dāng)時,。又由 (2-140)代入(2-137)得 (2-141)觀察多項式和容易發(fā)現(xiàn):1)對于,階多項式的特點為項與項,項與項,…,系數(shù)相等;2)對于,階多項式的特點為項與項,項與項,…,系數(shù)相等但符號相反。因此,是對稱實系數(shù)的階多項式,而Q(Z)是反對稱實系數(shù)階多項式,有 (2-142)由于和的零點在單位圓上,由這些零點構(gòu)成的基本因式為 (2-143)設(shè)的零點為,的零點為,可將與改寫為 (2-144)與的零點有如下關(guān)系 (2-145)由于成對出現(xiàn),故稱之為“線譜對”??梢宰C明,與的零點相互分離交替出現(xiàn)正是保證合成濾波器穩(wěn)定的充要條件。 線譜對參數(shù)和語音的譜特性之間關(guān)系密切,按線性預(yù)測分析原理,語音信號的譜特性可以用LPC模型來估計。從LPC功率譜看 (2-146)有一個的零點,其余的零點為(2-147)又有 (2-148)代入(2-147)有 (2-149)同理可得 (2-150)從2-149和2-150可以看出,當(dāng),或時,或,這時公式(2-146)的LPC功率譜會趨于很大的值,顯示強的諧振特性。實質(zhì)上,LSP分析就是用個離散的頻率和的分布來表示語音信號頻譜特性的一種方法。線譜對參數(shù)的求解求解線譜對參數(shù)的過程就是求多項式與關(guān)于的根,也就是與有關(guān)的零點。在求出LPC預(yù)測系數(shù)以后,通常通過下面的兩種方法來求解。代數(shù)方程求根法 因為 (2-151)并令 (2-152)那么和就是關(guān)于的一對次代數(shù)方程,其系數(shù)決定于LPC預(yù)測系數(shù)。用牛頓法求這對方程的根,進而可以求得和。DFT法對與的系數(shù)作離散傅里葉(DFT)變換得到各點的值。搜索極小點的位置,就可能是零點的位置。由于除0和以外總共只有個零點,且兩個多項式的零點交替出現(xiàn),因此求解的運算量很小,而且直接可以得到LSP參數(shù)的編碼,碼字的長度取決于的值,一般應(yīng)用中,取。因此,DFT是一種很實用的LSP參數(shù)求解算法。語音信號的矢量量化矢量量化(VectorQuantization)是一種最基本也是極其重要的信號壓縮方法,自20世紀(jì)70年代以來,廣泛應(yīng)用于信號的編碼和壓縮等領(lǐng)域。矢量量化的基礎(chǔ)是信息論中的“率-失真”理論,可以看作是香農(nóng)(C.E.SHANNON)信息論在信源編碼理論(sourcecodingtheory)方面的一個發(fā)展。由于矢量量化充分利用了矢量中各分量間隱含的各種內(nèi)在關(guān)系,因此比標(biāo)量量化性能優(yōu)越,隨著矢量維數(shù)的增加,這種優(yōu)越性越明顯。標(biāo)量量化可以看作是一維矢量的量化。在語音信號處理的領(lǐng)域里,矢量量化在語音編碼、語音識別等方向的研究中扮演著重要的角色,取得了不少成果。例如在LPC編碼上,通過對每幀的反射系數(shù)加以矢量量化,在保證基本不影響聲音質(zhì)量的前提下,編碼速率從原來的2400bit/s降低為800bit/s。目前,各種矢量量化方法已經(jīng)集成到硬件中去,廣泛運用于語音信號處理的各個領(lǐng)域。矢量量化的基本原理顧名思義,矢量量化的量化對象是一個矢量。在語音信號處理中,這樣的矢量可能是一幀語音的采樣點序列,也有可能是一幀語音的某個特征序列或者幾個特征序列的組合。我們以二維向量的矢量量化來說明矢量量化的基本原理。我們可以把一個二維向量對應(yīng)著坐標(biāo)平面上的一個點。全體二維向量的集合就構(gòu)成了坐標(biāo)平面。如圖2.47所示。圖2.47 矢量量化原理示意圖矢量量化首先需要構(gòu)建一個量化器。依照一定的規(guī)則我們將平面劃分為個區(qū)域,滿足下面兩個條件:1) 代表整個特征空間2)這些區(qū)域被稱之為Voronoi胞腔(cell)。每個區(qū)域擁有一個代表點,如上圖中,區(qū)域的代表點為。所對應(yīng)的向量稱作碼字(code),所有碼字的集合稱作碼本(Codebook),稱作碼本的長度,或者叫做該矢量量化系統(tǒng)的容量。劃分的方法和碼本的生成共同組成了一個量化器。量化器構(gòu)建方法將在2.7.3小節(jié)中進行介紹。矢量量化的量化編碼過程本質(zhì)上是一個確定用碼本中哪一個碼字來代替輸入矢量的過程。為了刻畫用碼字代替輸入矢量所帶來的失真,需要定義一套合理有效的計算矢量間“距離”的規(guī)則,“距離”的遠近能客觀地反映失真度的大小。這種“距離”的定義被稱作失真測度(DistortionMeasure)。對于一個輸入矢量,分別計算它和碼本中所有碼字間的距離,輸出矢量就是那個離輸入矢量最近的碼字,輸出矢量也被稱作重構(gòu)矢量。矢量量化的全過程構(gòu)成矢量量化系統(tǒng)。圖2.48給出的了一個典型的矢量量化系統(tǒng)的組成結(jié)構(gòu)圖。圖2.48 矢量量化系統(tǒng)結(jié)構(gòu)圖如圖所示,若要對一個輸入矢量進行量化,首先要選擇一個合適的失真測度,分別計算用碼字代替輸入矢量所帶來的失真。其中最小失真值所對應(yīng)的那個碼字,就是的重構(gòu)矢量。這樣,在信道中傳輸或是在介質(zhì)中存儲的不再是矢量本身,而是其對應(yīng)碼字在碼本中的序號,在需要時,根據(jù)序號從同一碼本中找出相應(yīng)的碼字作為重構(gòu)矢量輸出。這樣,提高了傳輸?shù)男?,?jié)約了存儲的空間。這正是矢量量化的目的。當(dāng)然,我們必然也會為此付出一定的代價,矢量量化在壓縮數(shù)據(jù)的同時會帶來一定的誤差,造成信息的丟失。由于在不同的場合下,對誤差的容忍度是不一樣的,因此我們必須慎重的選擇矢量量化器。一種矢量量化器所帶來的誤差的平均值稱作平均失真,是描述矢量量化器工作特性的重要參數(shù),下一節(jié)中我們將介紹失真測度的相關(guān)知識。失真測度失真測度的選擇對于矢量量化極其重要,直接影響著矢量量化系統(tǒng)的性能。一套好的失真測度的定義必須考慮多方面的因素:一方面,失真測度的大小度量能夠反映實際語音質(zhì)量的好壞;另一方面,該測度的定義應(yīng)該滿足一定的數(shù)學(xué)模型,以保證實際應(yīng)用的可能性;此外,應(yīng)該存在計算平均失真的方法以評價系統(tǒng)的性能。針對不同類型的特征矢量,通常采用不同的失真測度。一般說來,特征矢量可以分為兩類:一類是將一幀語音信號的各個時域采樣直接構(gòu)成特征矢量;另一類是對一幀語音信號進行某種變換以后產(chǎn)生相應(yīng)的特征矢量。前者簡稱為時域特征矢量,后者被稱為變換域特征矢量,通常與短時幅度頻譜密切相關(guān)。相應(yīng)的,失真測度也可以分為兩大類:一種是采用以歐氏距離為基礎(chǔ)的度量方法,時域特征矢量主要采用這類方法,在希望計算簡單的情況下,變換域特征矢量也可以采用這樣的度量方法;另一種是各種非歐氏距離的度量方法,主要為變換域特征矢量而定制的,用于歐氏距離不能客觀反映特征矢量差異的環(huán)境下。下面就這兩類失真測度分別介紹幾種常用失真測度。基于歐氏距離的失真測度歐氏距離平方對于維特征矢量和碼本中的某個碼字,失真測度定義為特征空間中矢量所對應(yīng)的特征點的距離的平方,即:(2-136)歐氏距離由于其簡單、易于處理和計算的特點而被廣泛使用。Mahalanobis距離 Mahalanobis距離是對歐氏距離的一種改進。在歐氏距離的度量中,矢量中的每一維在累加的過程中實質(zhì)上是被賦予了相等的權(quán)值。Mahalanobis距離則在累加過程中對向量中的每一維賦予不同的權(quán)值,即:(2-137)在眾多的實際運用中,常采用由全部碼字所構(gòu)成的碼本矩陣的協(xié)方差矩陣的逆矩陣作為權(quán)值矩陣。(2-138)Mahalanobis距離的優(yōu)點在于計算時考慮到了碼本向量之間的聯(lián)系與差異。由于碼字之間在向量各維上的差異大小可能不同,也許碼字間的區(qū)別僅在于某幾個特定的維數(shù)上。因此,在計算特征矢量和碼字的距離的時候,我們更應(yīng)該關(guān)心這些維數(shù)上的區(qū)別,表現(xiàn)在計算公式上就是賦予這些維數(shù)對應(yīng)的加項以較大的權(quán)值。考慮到碼字中這樣的維數(shù)的分布往往對應(yīng)著較大的方差。于是在Mahalanobis距離中采用方差作為加權(quán)系數(shù)參與計算?;诜菤W氏距離的失真測度似然比失真測度對一幀語音進行階LPC分析可以得到一組最佳向前預(yù)測系數(shù),這組系數(shù)順次排列便構(gòu)成了一個維的特征向量,。對兩幀信號和,和分別代表其特征向量。此時,簡單的基于歐氏距離來衡量失真不在合適宜,因為它不能正確表示這兩幀語音在短時頻譜上的差異。為此,定義似然比失真測度為:(2-139)其中,定義為的自相關(guān)矩陣:(2-140)值得注意的是,歐氏距離是一種對稱的失真測度,即:;而似然比失真是一種非對稱的失真測度,,同樣,Mahalanobis距離也是一種非對稱失真測度,在計算時,一定要注意順序。基于知覺的失真測度 近年來,一種新的基于知覺的失真測度被應(yīng)用于語音編碼領(lǐng)域。這種方法采用人主觀判定的方法來衡量樣本的相似度。感知上覺得相似的音被賦予較近的距離,反之賦予較遠的距離,最后根據(jù)感知所得出的距離大小進行矢量量化。量化器和碼本的設(shè)計根據(jù)信源編碼理論,劃分區(qū)域和尋找碼字的過程上是尋找使所有矢量的平均失真度最小的一種劃分的過程。這里面實質(zhì)上包含兩方面的問題:1)最優(yōu)劃分在給定碼本的前提上,尋找所有碼字矢量各自的最佳區(qū)域邊界。由于碼本已經(jīng)確定,只需要采用最近鄰方法(NearestNeighborRule)便可以得到區(qū)域劃分的結(jié)果。所謂最近鄰方法,以二維矢量為例,對于平面上的每一個點,分別計算該點和所有碼字的失真度,最后該點就屬于最小失真度所對應(yīng)的碼字控制的區(qū)域,成為該區(qū)域的一部分。2)最優(yōu)碼本在給定區(qū)域劃分的前提上,從每個區(qū)域中選取一個代表作為該區(qū)域?qū)?yīng)的碼字。最后形成的碼本能使系統(tǒng)的平均失真度最小。碼本的設(shè)計過程,實際就是這兩方面交替作用,不斷遞推前進。本小節(jié)給出兩種常見的碼本設(shè)計算法:均值算法和LBG算法。K均值算法(KMeansAlgorithm)均值算法廣泛的應(yīng)用于模式識別等領(lǐng)域,算法描述如表2-4:表2-4 K均值算法LBG算法(Linde-Buzo-GrayAlgorithm)均值算法的致命缺點是初始碼本的選擇,算法會陷入局部最優(yōu)而永遠達不到整體最優(yōu)。初始碼本的好壞直接影響最終碼本的分布,而初始碼本選擇過于隨機使最終碼本質(zhì)量很難得到保障。因此,Y.Linde,A.Buzo和R.M.Gray改進了均值算法,采用一種不斷分裂的方法來生成初始碼本,新的算法被命名為LBG算法。首先介紹分裂法生成初始碼本的步驟,如表2-5:表2-5 分裂法生成初始碼本由于通常碼本中碼字的個數(shù)是2的方冪,因此分裂生成初始碼本的做法是可行的。表2-6給出遞推生成最終碼本的過程。表2-6 LBG算法LBG算法實質(zhì)上是對均值算法的一種變形,都屬于最陡下降算法(SteepestDescendAlgorithm),因此從根本上仍然無法解決局部最優(yōu)的影響,不能保證算法收斂到全局最優(yōu),但由于優(yōu)化了初始碼本的設(shè)計,在絕大多數(shù)情況下可以得到滿意的結(jié)果。徹底解決這個問題的方法是采用模擬退火算法(SimulatedAnnealingAlgorithm),該方法的代價是巨大的計算量。由于篇幅的限制本書不加以討論,請讀者參閱相應(yīng)的參考書籍。設(shè)計出來的碼本還要經(jīng)過實踐的檢驗。在實踐中,經(jīng)常會出現(xiàn)空胞腔的情況。所謂空胞腔,是指某些區(qū)域一直沒有輸入矢量歸入該類。產(chǎn)生空胞腔的原因可能是:參加訓(xùn)練的矢量個數(shù)與欲分的類數(shù)相近,訓(xùn)練集的大小應(yīng)是碼本大小的50倍;參加訓(xùn)練的矢量分布的不均;或者是算法結(jié)構(gòu)本身有缺陷。避免產(chǎn)生空胞腔的一種方法是在分裂生成碼本的算法中,不是一律平等地將一個胞腔分裂為兩個胞腔,而是每次挑最大的胞腔,將其一分為二。所謂最大的胞腔可按下述三條中任一條來定義:該類包含的矢量個數(shù)最多;該類具有最大平均失真;或者該類具有最大總體失真。量化系統(tǒng)的復(fù)雜度控制在許多實際運用場合,碼本的容量和碼字矢量的長度都是很大的,那么,在編碼的過程中,不可避免的帶來很大的計算復(fù)雜度。輸入矢量需要和碼本中的所有碼字計算相互間的距離,同時還要進行距離大小的比較,計算量很大。在要求實時計算的場合,這種由于計算所帶來的延時是不能接受的。同時,大容量的碼本和很長的碼字也會增加系統(tǒng)的存儲容量。因此,工程技術(shù)人員向了一系列的方法來降低系統(tǒng)的計算復(fù)雜度,這些方法大致可以分為兩類:無記憶的矢量量化系統(tǒng)和有記憶的矢量量化系統(tǒng)。無記憶的矢量量化系統(tǒng)無記憶的矢量量化系統(tǒng)降低系統(tǒng)復(fù)雜度的方法主要有兩種:一是改變搜索算法,降低算法的復(fù)雜度;二是改進系統(tǒng)的結(jié)構(gòu),從而改變碼字的結(jié)構(gòu),使碼字變短,碼本容量變小來降低計算復(fù)雜度和減小存儲空間。前一種策略的典型代表是基于二叉樹結(jié)構(gòu)的搜索算法,后一種策略的代表是矢量量化系統(tǒng)的級聯(lián)?;诙鏄渌阉鞯氖噶苛炕到y(tǒng)二叉樹搜索算法是數(shù)據(jù)結(jié)構(gòu)中常見的快速搜索算法,工程技術(shù)人員將它應(yīng)用到編碼的過程中來以改進系統(tǒng)的運算速度。也有的系統(tǒng)采用N叉樹的結(jié)構(gòu),但思想上大同小異。圖2.49以8碼字的碼本為例,給出了系統(tǒng)搜索算法示意圖。圖2.49 基于二叉樹的碼本搜索算法圖中,8個葉結(jié)點是初始碼本中的8個碼字,其余的、、、、、被稱作附加碼字,供搜索比較使用。首先,在原有的8個碼字中尋找最接近的四對鄰居,每對鄰居算出一個中心點,得到序列。然后,在新生成的四個碼字中同樣尋找鄰居對并計算它們各自的中心,得到和。比較時,首先計算輸入矢量和、的距離,沿距離小的一支向下搜索,直到到葉結(jié)點結(jié)束。采用基于二叉樹的搜索算法,共需進行6次失真度計算和3次比較計算,而全搜索算法需要8次失真度計算和7次比較運算。但是,基于二叉樹的搜索算法不能保證從碼本中找到具有最小失真度的輸出矢量,一定程度上降低了系統(tǒng)的性能,同時,附加碼字的引入也增加了系統(tǒng)的存儲量。多級矢量量化系統(tǒng)多級矢量量化系統(tǒng)的工作原理是:首先用一個小容量()的碼本來較為粗略的逼近輸入矢量,碼字編號為,同時在計算過程中保留逼近所帶來的失真誤差。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論