語(yǔ)音信號(hào)處理 第4版 課件 第4章:語(yǔ)音信號(hào)分析_第1頁(yè)
語(yǔ)音信號(hào)處理 第4版 課件 第4章:語(yǔ)音信號(hào)分析_第2頁(yè)
語(yǔ)音信號(hào)處理 第4版 課件 第4章:語(yǔ)音信號(hào)分析_第3頁(yè)
語(yǔ)音信號(hào)處理 第4版 課件 第4章:語(yǔ)音信號(hào)分析_第4頁(yè)
語(yǔ)音信號(hào)處理 第4版 課件 第4章:語(yǔ)音信號(hào)分析_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

南京郵電大學(xué)

通信與信息工程學(xué)院

第4章語(yǔ)音信號(hào)分析4.0概述短時(shí)分析技術(shù)雖然語(yǔ)音信號(hào)具有時(shí)變特性,但在一個(gè)短時(shí)間范圍內(nèi)(10~30ms),其特性基本保持不變,即相對(duì)穩(wěn)定(由于口腔肌肉運(yùn)動(dòng)相對(duì)緩慢)——短時(shí)平穩(wěn)性。短時(shí)分析:將語(yǔ)音分為一段一段來(lái)分析其特征參數(shù),其中每一段稱(chēng)為一幀(10~30ms)。對(duì)于整體語(yǔ)音而言,分析處的是由每一幀特征參數(shù)所組成的特征參數(shù)時(shí)間序列。分析方法(根據(jù)分析出的參數(shù)性質(zhì)不同):時(shí)域分析、頻域分析、倒譜域分析、線性預(yù)測(cè)分析。語(yǔ)音分幀語(yǔ)音信號(hào)的時(shí)域分析語(yǔ)音信號(hào)的頻域分析語(yǔ)音信號(hào)的倒譜分析語(yǔ)音信號(hào)的線性預(yù)測(cè)分析4.1語(yǔ)音分幀幀移與幀長(zhǎng)的比值一般取0~1/2;分幀的實(shí)現(xiàn):用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán):4.1語(yǔ)音分幀矩形窗的譜平滑特性好,但由于主瓣寬度小,加窗后的語(yǔ)音損失了高頻成分;漢明窗正好相反。窗的選擇(1)窗函數(shù)的選擇標(biāo)準(zhǔn):在時(shí)域需要減小時(shí)間窗兩端的坡度,使截取得到的語(yǔ)音波形緩慢降為0,減小語(yǔ)音幀的截?cái)嘈?yīng);在頻域要有較寬的3dB帶寬以及較小的邊帶最大值。(2)窗口長(zhǎng)度的選擇:N與時(shí)間分辨率、頻率分辨率之間的關(guān)系(N越大,頻域帶寬越小,語(yǔ)音信號(hào)加窗后反應(yīng)波形細(xì)節(jié)的高頻部分被阻礙,短時(shí)能量隨時(shí)間變化小,不能真實(shí)反應(yīng)語(yǔ)音幅度變;反之亦然);N的數(shù)值:保證在一個(gè)語(yǔ)音幀里包含1~7個(gè)基音周期。語(yǔ)音分幀語(yǔ)音信號(hào)的時(shí)域分析語(yǔ)音信號(hào)的頻域分析語(yǔ)音信號(hào)的倒譜分析語(yǔ)音信號(hào)的線性預(yù)測(cè)分析4.2語(yǔ)音信號(hào)的時(shí)域分析時(shí)域分析的特點(diǎn)(1)語(yǔ)音信號(hào)直觀表示、物理意義明確;(2)實(shí)現(xiàn)簡(jiǎn)單、運(yùn)算量?。唬?)可以得到語(yǔ)音的一些重要參數(shù);(4)只使用示波器等通用設(shè)備,使用簡(jiǎn)單。典型的時(shí)域分析(1)短時(shí)能量和短時(shí)平均幅度分析(2)短時(shí)過(guò)零率分析(3)短時(shí)相關(guān)分析4.2語(yǔ)音信號(hào)的時(shí)域分析—短時(shí)能量短時(shí)能量、短時(shí)平均幅度對(duì)高電平敏感!用途:(1)區(qū)分濁音段和清音段;(2)區(qū)分聲母和韻母的分界、無(wú)聲與有聲的分界等。4.2語(yǔ)音信號(hào)的時(shí)域分析—短時(shí)過(guò)零率短時(shí)過(guò)零率:一幀語(yǔ)音中信號(hào)波形橫穿零電平的次數(shù)符號(hào)函數(shù)對(duì)于濁音,其語(yǔ)音能量集中在3kHz以下低頻段,過(guò)零率也低;清音多數(shù)能量出現(xiàn)在較高頻率上,過(guò)零率相對(duì)較高。用途:從背景噪聲中找出語(yǔ)音信號(hào),用于判斷寂靜無(wú)聲段和有聲段的起點(diǎn)和終點(diǎn)位置。背景噪聲較小時(shí)用平均能量較為有效,而背景噪聲較大時(shí)用平均過(guò)零率更有效。4.2語(yǔ)音信號(hào)的時(shí)域分析—短時(shí)過(guò)零率無(wú)聲(S),清音(U),濁音(V)的短時(shí)平均幅度以及短時(shí)過(guò)零率的概率分布濁音:短時(shí)平均幅度最高,短時(shí)過(guò)零率最低;清音:短時(shí)平均幅度居中,短時(shí)過(guò)零率最高;無(wú)聲:短時(shí)平均幅度最低,短時(shí)過(guò)零率居中??苫诟怕收摚ㄟ^(guò)短時(shí)平均幅度和短時(shí)過(guò)零率,來(lái)判別語(yǔ)音中的濁音/清音/無(wú)聲類(lèi)別。4.2語(yǔ)音信號(hào)的時(shí)域分析—短時(shí)相關(guān)分析短時(shí)相關(guān)分析:用于求濁音語(yǔ)音的基音周期,用于線性預(yù)測(cè)分析短時(shí)自相關(guān)函數(shù):K為最大延遲點(diǎn)數(shù)性質(zhì):(1)如果

是周期的(周期為Np),則自相關(guān)函數(shù)是同周期的周期函數(shù),(2)是偶函數(shù),即,(3)當(dāng)k=0時(shí),自相關(guān)函數(shù)具有最大值,即,,并且等于確定性信號(hào)序列的能量或隨機(jī)序列的平均功率。4.2語(yǔ)音信號(hào)的時(shí)域分析—短時(shí)相關(guān)分析修正的短時(shí)相關(guān)分析:傳統(tǒng)短時(shí)自相關(guān)函數(shù)的缺點(diǎn):(1)隨著延遲k的增加,進(jìn)行乘積和的項(xiàng)數(shù)在減少,導(dǎo)致自相關(guān)函數(shù)的幅度值隨著k的增加而下降;(2)如果窗長(zhǎng)不夠,包含的周期數(shù)不夠多,會(huì)給周期計(jì)算帶來(lái)麻煩。4.2語(yǔ)音信號(hào)的時(shí)域分析—短時(shí)相關(guān)分析修正的短時(shí)相關(guān)分析:用兩個(gè)長(zhǎng)度不同的窗口,截取兩個(gè)不等長(zhǎng)的序列進(jìn)行乘積和,兩個(gè)窗口長(zhǎng)度始終相差最大的延遲點(diǎn)數(shù)K。這樣可以始終保持乘積和的項(xiàng)數(shù)不變,始終為短窗的長(zhǎng)度。4.2語(yǔ)音信號(hào)的時(shí)域分析—短時(shí)相關(guān)分析短時(shí)幅度差函數(shù):計(jì)算自相關(guān)函數(shù)的運(yùn)算量很大(有乘法運(yùn)算)。如果信號(hào)是完全的周期信號(hào),則相距為周期的整數(shù)倍的樣點(diǎn)上的幅值是相等的,差值為0(實(shí)際語(yǔ)音信號(hào)差值很小,極小值出現(xiàn)在整數(shù)倍周期的位置上)定義:濁音(a)(b)和清音(c)的短時(shí)平均幅度差函數(shù)語(yǔ)音分幀語(yǔ)音信號(hào)的時(shí)域分析語(yǔ)音信號(hào)的頻域分析語(yǔ)音信號(hào)的倒譜分析語(yǔ)音信號(hào)的線性預(yù)測(cè)分析4.3語(yǔ)音信號(hào)的頻域分析利用短時(shí)傅里葉變換求語(yǔ)音短時(shí)譜第n幀語(yǔ)音信號(hào)的離散傅里葉變換:窗類(lèi)型的選擇以及窗口寬度的選擇(與時(shí)域分析結(jié)論相同?。?.3語(yǔ)音信號(hào)的頻域分析利用短時(shí)傅里葉變換求語(yǔ)音短時(shí)譜令角頻率,則得到離散短時(shí)傅里葉變換:在語(yǔ)音信號(hào)的數(shù)字處理中都是采用上式來(lái)作為頻譜,可以采用FFT完成將時(shí)域語(yǔ)音變換到頻域。語(yǔ)音的功率譜:功率譜是短時(shí)自相關(guān)函數(shù)的傅里葉變換4.3語(yǔ)音信號(hào)的頻域分析語(yǔ)音短時(shí)譜的臨界帶特征目的:把線性頻譜轉(zhuǎn)化為臨界帶頻譜,更符合人耳的聽(tīng)覺(jué)特性;步驟:(1)求取各幀加窗語(yǔ)音的功率譜;(2)確定若干個(gè)臨界帶頻率分割點(diǎn);(3)計(jì)算各個(gè)臨界帶中功率譜之和,將其作為臨界帶特征矢量,用于后續(xù)語(yǔ)音處理任務(wù)。語(yǔ)音分幀語(yǔ)音信號(hào)的時(shí)域分析語(yǔ)音信號(hào)的頻域分析語(yǔ)音信號(hào)的倒譜分析語(yǔ)音信號(hào)的線性預(yù)測(cè)分析4.4語(yǔ)音信號(hào)的倒譜分析—同態(tài)信號(hào)處理同態(tài)信號(hào)處理:將卷積關(guān)系(非線性關(guān)系)變成求和關(guān)系(線性關(guān)系),從而將語(yǔ)音信號(hào)的聲門(mén)激勵(lì)信息及聲道響應(yīng)信息分離開(kāi)來(lái),求得聲道共振特征和基音周期,用于語(yǔ)音編碼、合成、識(shí)別等任務(wù)。4.4語(yǔ)音信號(hào)的倒譜分析—同態(tài)信號(hào)處理子系統(tǒng)1:將卷積信號(hào)轉(zhuǎn)化為加性信號(hào):子系統(tǒng)2:對(duì)進(jìn)行線性處理得到;子系統(tǒng)3:對(duì)進(jìn)行逆變換,得到恢復(fù)信號(hào)。如果處于不同的位置并且互不交替,那么適當(dāng)設(shè)計(jì)線性系統(tǒng),便可將二者分離開(kāi)來(lái)。4.4語(yǔ)音信號(hào)的倒譜分析—復(fù)倒譜和倒譜復(fù)倒譜:為的復(fù)倒譜。倒譜:如果只考慮上式的實(shí)部,則:4.4語(yǔ)音信號(hào)的倒譜分析—復(fù)倒譜和倒譜復(fù)倒譜和倒譜的關(guān)系:(1)復(fù)倒譜要進(jìn)行復(fù)對(duì)數(shù)運(yùn)算,倒譜只進(jìn)行實(shí)對(duì)數(shù)運(yùn)算;(2)由于在計(jì)算過(guò)程中相位信息丟失,在倒譜情況下一個(gè)序列經(jīng)過(guò)正逆兩個(gè)特征系統(tǒng)變換后,不能還原成自身;(3)倒譜和復(fù)倒譜一樣,是把兩個(gè)信號(hào)卷積轉(zhuǎn)換成求和;(4)已知實(shí)序列的復(fù)倒譜,可以求出其倒譜。(5)在復(fù)倒譜滿(mǎn)足一定條件時(shí),也可以由倒譜求得復(fù)倒譜。4.4語(yǔ)音信號(hào)的倒譜分析—Mel頻率倒譜系數(shù)Mel頻率倒譜系數(shù):Mel頻率與實(shí)際頻率呈對(duì)數(shù)分布關(guān)系,MFCC也著眼于人耳的聽(tīng)覺(jué)特性;在1000Hz以下,大致呈線性分布,帶寬為100Hz左右;在1000Hz以上,呈對(duì)數(shù)增長(zhǎng)。類(lèi)似于臨界頻帶的劃分,可以將語(yǔ)音頻率劃分為一系列三角形的濾波器序列(Mel濾波器組)4.4語(yǔ)音信號(hào)的倒譜分析—Mel頻率倒譜系數(shù)Mel頻率倒譜系數(shù)的求法:取每個(gè)三角形濾波器頻率帶寬內(nèi)所有信號(hào)的幅度加權(quán)和作為某個(gè)帶通濾波器的輸出,然后對(duì)所有濾波器輸出做對(duì)數(shù)運(yùn)算,再進(jìn)一步做離散余弦變換即得到MFCC。步驟:(1)將實(shí)際頻率尺度轉(zhuǎn)換為Mel頻率尺度;(2)在Mel頻率軸上配置L個(gè)通道的三角形濾波器組,相鄰之間截止頻率關(guān)系:(3)根據(jù)語(yǔ)音信號(hào)的幅度譜求每個(gè)三角形濾波器的輸出:(4)對(duì)所有濾波器輸出做對(duì)數(shù)運(yùn)算,再做離散余弦變換得到MFCC語(yǔ)音分幀語(yǔ)音信號(hào)的時(shí)域分析語(yǔ)音信號(hào)的頻域分析語(yǔ)音信號(hào)的倒譜分析語(yǔ)音信號(hào)的線性預(yù)測(cè)分析4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—基本原理線性預(yù)測(cè)分析的基本思想:由于語(yǔ)音樣點(diǎn)之間存在相關(guān)性,可以用過(guò)去的樣點(diǎn)值來(lái)預(yù)測(cè)現(xiàn)在或未來(lái)的樣點(diǎn)值。即,一個(gè)語(yǔ)音的抽樣能夠用過(guò)去若干個(gè)語(yǔ)音抽樣或它們的線性組合來(lái)逼近。通過(guò)實(shí)際語(yǔ)音抽樣

和線性預(yù)測(cè)抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值,來(lái)決定唯一的預(yù)測(cè)系數(shù)。這組預(yù)測(cè)系數(shù)就反映了語(yǔ)音信號(hào)的特性,可以作為語(yǔ)音信號(hào)特征參數(shù)用于語(yǔ)音識(shí)別、語(yǔ)音合成等。4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—基本原理語(yǔ)音模型:系統(tǒng)的輸入e(n)是語(yǔ)音激勵(lì),s(n)是輸出語(yǔ)音,模型的系統(tǒng)參數(shù)H(z)可寫(xiě)成有理分式:H(z)可以分為自回歸—滑動(dòng)平均模型(ARMA),自回歸模型(AR),滑動(dòng)平均模型(MA)三種形式;實(shí)際語(yǔ)音信號(hào)處理中最常用的是AR模型(全極點(diǎn)模型):(1)除了鼻音和摩擦音,語(yǔ)音的聲道傳遞函數(shù)就是一個(gè)全極點(diǎn)模型;對(duì)于鼻音摩擦音,也可以用全極點(diǎn)模型來(lái)近似;(2)由于全極點(diǎn)模型的參數(shù)估計(jì)是對(duì)線性方程組的求解,所以可以用線性預(yù)測(cè)的方法來(lái)求解。4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—基本原理采用全極點(diǎn)模型后,傳遞函數(shù)H(z)為:語(yǔ)音抽樣s(n)和e(n)之間的關(guān)系為:對(duì)于濁音,激勵(lì)e(n)是以基音周期重復(fù)的單位沖激;對(duì)于清音,e(n)是白噪聲。線性預(yù)測(cè)模型建立的本質(zhì):是由語(yǔ)音信號(hào)來(lái)估計(jì)模型參數(shù)的過(guò)程。線性預(yù)測(cè)器:時(shí)域表達(dá)式:頻域系統(tǒng)函數(shù):逆濾波器:預(yù)測(cè)誤差:4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—基本原理線性預(yù)測(cè)方程的推導(dǎo)(選用最小均方誤差準(zhǔn)則)令某一幀內(nèi)的短時(shí)平均預(yù)測(cè)誤差為:為使最小,對(duì)ai求偏導(dǎo)數(shù),并令其為0,有:上式表明,預(yù)測(cè)誤差與過(guò)去的語(yǔ)音樣點(diǎn)正交。實(shí)際中需要分幀處理,設(shè)一幀從n時(shí)刻開(kāi)窗選取的N個(gè)樣點(diǎn)的語(yǔ)音段為sn,記

為,則有求解過(guò)程:先計(jì)算出,再求解上述方程組。最后計(jì)算最小軍方預(yù)測(cè)誤差:4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—方程組求解線性預(yù)測(cè)方程組的求解:設(shè)n時(shí)刻開(kāi)窗選取N個(gè)樣點(diǎn)的語(yǔ)音段sn,即用個(gè)語(yǔ)音樣點(diǎn)來(lái)分析該幀的預(yù)測(cè)系數(shù)ai。對(duì)于該語(yǔ)音段,其自相關(guān)函數(shù)為:由于上述自相關(guān)函數(shù)為偶函數(shù)并且只與j和i的相對(duì)大小有關(guān),因此,則線性預(yù)測(cè)方程為:4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—方程組求解線性預(yù)測(cè)方程組的求解:寫(xiě)成矩陣的形式:該方程為Yule-Walker方程,方程左邊的矩陣稱(chēng)為托普利茲矩陣,是以主對(duì)角線對(duì)稱(chēng)的,并且沿著主對(duì)角線平行方向各軸向的元素值都相等。上述矩陣可采用萊文遜—杜賓算法來(lái)求解。4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—方程組求解線性預(yù)測(cè)方程組的求解:算法過(guò)程:通過(guò)對(duì)上式進(jìn)行遞推求解,可獲得最終解為:

其中確保Ep隨著迭代而縮小4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—LPC譜估計(jì)LPC譜估計(jì):當(dāng)求出一組預(yù)測(cè)器系數(shù)后,就可以得到語(yǔ)音產(chǎn)生模型的頻率響應(yīng):用表示模型H(z)的頻率響應(yīng),表示語(yǔ)音信號(hào)s(n)的傅里葉變換,則

為語(yǔ)音信號(hào)s(n)的功率譜。如果s(n)是一個(gè)嚴(yán)格的p階AR模型,則實(shí)際中,語(yǔ)音信號(hào)用ARMA模型表示更為精確,可用一個(gè)無(wú)限長(zhǎng)的AR模型逼近(p的值要選的很大,實(shí)際中p一般在8~14之間)。LPC譜估計(jì)的特點(diǎn):在信號(hào)能量較大的區(qū)域(接近譜的峰值處),LPC譜和信號(hào)譜很接近;而在信號(hào)能量較低的區(qū)域(接近譜的谷底處),相差比較大。原因:由最小均方誤差引起。4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—LPC譜估計(jì)LPC復(fù)倒譜(另一種表示方法)設(shè)表示為h(n)的復(fù)倒譜,則有將H(z)表達(dá)式代入,并對(duì)求導(dǎo),令上式左右兩邊的常數(shù)項(xiàng)和各冪次的系數(shù)分別相等,從而可由ak求出4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—LPC復(fù)倒譜LPC復(fù)倒譜(另一種表示方法)優(yōu)點(diǎn):(1)由于利用了線性預(yù)測(cè)中聲道系統(tǒng)函數(shù)H(z)的最小相位特性,避免了相位卷繞;(2)LPC復(fù)倒譜的運(yùn)算量??;(3)由于當(dāng)p趨近于無(wú)窮大時(shí),語(yǔ)音信號(hào)的短時(shí)復(fù)頻譜滿(mǎn)足因而可以認(rèn)為包含了語(yǔ)音信號(hào)頻譜的包絡(luò)信息,可以近似把當(dāng)作s(n)的短時(shí)復(fù)倒譜來(lái)估計(jì)語(yǔ)音短時(shí)譜包絡(luò)和聲門(mén)激勵(lì)參數(shù)。(4)在實(shí)時(shí)語(yǔ)音識(shí)別中也經(jīng)常采用LPC復(fù)倒譜作為特征矢量。4.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析—LPC

Mel倒譜系數(shù)LPCCMCC求得復(fù)倒譜之后,可以

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論