




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
語音信號處理MATLAB實驗TOC\o"1-5"\h\z\o"CurrentDocument"實驗一語音信號預(yù)處理1\o"CurrentDocument"實驗二基于語音短時時域分析的應(yīng)用2一、端點檢測2二、基音周期估計6\o"CurrentDocument"實驗三語音信號頻域特征分析13\o"CurrentDocument"實驗四語音信號線性預(yù)測分析17\o"CurrentDocument"實驗五譜減法語音增強方法研究21實驗一語音信號預(yù)處理實驗?zāi)康恼莆照Z音信號的預(yù)處理方法,包括對信號進行預(yù)加重,分幀、加窗、輸入輸出方法,語譜圖等。熟悉語音信號處理中常用的MATLAB命令。實驗原理由于語音信號從整體上來看是一個非平穩(wěn)過程,但是在一個短的時間內(nèi),其特性保持相對不變,所以語音信號具有短時平穩(wěn)性,對語音信號的分析和處理必須建立在“短時”的基礎(chǔ)上,將信號分為一段來分析其特征參數(shù)。人發(fā)音時存在口唇的輻射效應(yīng),口唇的輻射模型相當于一階高通濾波器,所以在對實際信號進行分析處理時,常用“預(yù)加重技術(shù)”,目的提升信號的高頻部分,使信號的頻譜更加平坦,方便信號的分析。實驗過程讀語音數(shù)據(jù)wavread,load⑵聽語音sound寫語音wavwrite對語音進行預(yù)加重(filter)H(z)=1-az-1一階FIR高通數(shù)字濾波器,a為預(yù)加重系數(shù),0.9<a<1。加噪聲y=x+n對語音信號進行分幀處理⑺加窗f10<k<Mw(k)=<0其他w(k)=‘0.42-0.5*cos(2兀k/M)+0.08*cos(2兀k/M),0<k<M〔0,其他w(k)=‘0.54-046*cos(2兀k/(M-1)),0<k<M〔0,其他輸出信號畫圖及存儲方法(plot,subplot,axis,xlabel,title,wavwrite)畫頻譜圖specgram(signal,512,16000,hamming(512),256)w(k)=w(k)=實驗結(jié)果實驗二基于語音短時時域分析的應(yīng)用一、端點檢測實驗?zāi)康脑诶斫庹Z音信號短時能量和短時過零率的基礎(chǔ)上掌握基于語音短時時域分析的端點檢測方法。實驗原理在復雜的應(yīng)用背景下,從信號流中分辨出語音信號和非語音信號,是語音處理的一個基本問題。端點檢測就是指從包含語音的一段信號中確定出語音的起始點和結(jié)束點。準確的端點檢測對于語音識別和語音編碼系統(tǒng)都有重要的意義,它可以使采集的數(shù)據(jù)真正是語音信號的數(shù)據(jù),從而減少數(shù)據(jù)量和運算量并將少處理時間。判別語音段的起始點和終止點的問題主要歸結(jié)為區(qū)別語音和噪聲的問題。如果能夠保證系統(tǒng)的輸入信噪比很高,那么只要計算輸入信號的短時能量就基本能夠把語音段和噪聲背景區(qū)別開來。但是,在實際應(yīng)用中很難保證這么高的信噪比,僅僅根據(jù)能量來判斷是比較粗糙的。因此,還需要進一步利用短時平均過零率進行判斷,因為清音和噪聲的短時平均過零率比背景噪聲的平均過零率要高出好幾倍,一般采用基音能量和過零率的語音端點檢測方法一一兩級判決法。A.短時平均能量由于語音信號的能量隨時間變化,清音和濁音之間的能量差別相當顯著。因此對語音的短時能量進行分析,可以描述語音的這種特征變化情況。定義短時能量為:E=尤[x(m)w(n-m)]2=£[x(m)w(n-m)]2nm=一3m=n-N+1,其中N為窗長??梢?,短時能量為一幀采樣點值的加權(quán)平方和。特殊地,當采用矩形窗時,可簡化為:E=£x2(m)m=一3窗函數(shù)的選擇直接影響著短時能量的計算。如窗長N很大,這樣的窗等效為很窄的低通濾波器,平滑作用非常顯著,使得短時能量幾乎沒有多大變化,無法反映語音的時變特性。反之,若N過小,那么窗又不能提供足夠的平滑,以至于語音振幅瞬時變化的許多細節(jié)仍然被保留了下來,從而看不出振幅包絡(luò)的變化規(guī)律。通常N的選擇與語音的基音周期相聯(lián)系,一般要求窗長為幾個基音周期的數(shù)量級。由于語音基音頻率范圍為50-500Hz,因此折中選擇幀長為10-30ms。短時能量函數(shù)的應(yīng)用:1)可用于區(qū)分清音段與濁音段。En值大對應(yīng)于濁音段,En值小對應(yīng)于清音段。2)可用于區(qū)分濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r間(根據(jù)En值的變化趨勢)。對高信噪比的語音信號,也可以用來區(qū)分有無語音(語音信號的開始點上終止點)。無信號(或僅有噪聲能量)時,E值很小,有語音信號時,能量顯著增大。n短時平均過零率過零率可以反映信號的頻譜特性。當離散時間信號相鄰兩個樣點的正負號相異時,我們稱之為“過零”,即此時信號的時間波形穿過了零電平的橫軸。統(tǒng)計單位時間內(nèi)樣點值改變符號的次數(shù)具可以得到平均過零率。定義短時平均過零率:Z=芝|sgn[x[m]-sgn[x(m-1)]|w(n-m)nm=-3f1,x(n)>0,其中sgn[]為符號函數(shù),sgnx(n^\={,在矩形窗條件下,可以簡化為[―1,x(n)<0Z=2乎|sgn[x(m)-sgn[x(m-1)]|m=n-N+1短時過零率可以粗略估計語音的頻譜特性。由語音的產(chǎn)生模型可知,發(fā)濁音時,聲帶振動,盡管聲道有多個共振峰,但由于聲門波引起了頻譜的高頻衰落,因此濁音能量集中于3KHz以下。而清音由于聲帶不振動,聲道的某些部位阻塞氣流產(chǎn)生類白噪聲,多數(shù)能量集中在較高頻率上。高頻率對應(yīng)著高過零率,低頻率對應(yīng)著低過零率,那么過零率與語音的清濁音就存在著對應(yīng)關(guān)系。.短時平均過零率的應(yīng)用:1)區(qū)別清音和濁音。例如,清音的過零率高,濁音的過零率低。2)從背景噪聲中找出語音信號。語音處理領(lǐng)域中的一個基本問題是,如何將一串連續(xù)的語音信號進行適當?shù)姆指?,以確定每個單詞語音的信號,亦即找出每個單詞的開始和終止位置。3)在孤立詞的語音識別中,可利用能量和過零作為有話無話的鑒別。端點檢測研究基于能量和過零率的語音端點檢測方法一一兩級判決法及程序?qū)崿F(xiàn)。第一級判決先根據(jù)語音短時能量的輪廓選取一個較高的門限孔,進行一次粗判:語音起止點位于該門限與短時能量包絡(luò)交點所對應(yīng)的時間間隔之外。根據(jù)背景噪聲的平均能量確定一個較低的門限T2,并從A點往左、從B點往右搜索,分別找到短時能量包絡(luò)與門限T2相交點C和D,于是CD段就是用雙門限方法根據(jù)短時能量所判定的語音段。第二級判決以短時平均過零率為標準,從C點往左和從D點往右搜索,找到短時平均過零率低于某個門限T3的兩點E和F,這便是語音段的起止點。
基于MATLAB程序?qū)崿F(xiàn)能量與過零率的端點檢測算法步驟如下:語音信號進行分幀處理,N為幀長。計算每一幀語音的短時能量,得到語音的短時幀能量計算每一幀語音的過零率,得到短時幀過零率:Z=2乎|sgn[x(m)-sgn[x(m-1)]|m=n一N+1考察語音的平均能量設(shè)置一個較高的門限孔,用以確定語音開始,然后再根據(jù)背景噪聲的平均能量確定一個稍低的門限&,用以確定第一級中的語音結(jié)束點。7;=aEn,En為噪聲段能量的平均值。完成第一級判決。第二級判決同樣根據(jù)背景噪聲的平均過零率zN,設(shè)置一個門限t3,用于判斷語音前端的清音和后端的尾音。實驗過程⑴通過Matlab仿真確定窗長,也就是幀長。(在16kHz左右的采樣頻率下,N選為160?480比較合適。幀長一般取256)計算不同矩形窗長的短時能量計算不同漢明窗長的短時能量計算一段語音的短時平均過零率(加矩形窗)編寫一個基于短時能量和過零率的端點檢測程序。實驗結(jié)果0500100015008642200400600N=10000500100015008642200400600N=1000frame圖2.1不同矩形窗長的短時能量vywenRCN=50-?___O25150yar±u5001000150050100150N=400vywenRC50521300200400600N=8000020406080frame圖2.2不同hamming窗長的短時能量200原始信號點零3.5x1040.510-0.5-10204060幀數(shù)80100120140圖2.3短時平均過零率10-102000400060008000100001200014000604020取樣點10002040801001505060幀數(shù)0204060幀數(shù)80100圖2.4利用能量和過零率進行兩級判決后得到的端點檢測波形圖二、基音周期估計實驗?zāi)康脑谡莆斩虝r自相關(guān)函數(shù)和平均幅度差函數(shù)的基礎(chǔ)上,掌握基音周期的檢測方法,從而對基音周期有深入的了解。實驗原理人在發(fā)濁音時,氣流通過聲門使聲帶產(chǎn)生張馳振蕩式振動,產(chǎn)生一股準周期脈沖氣流,這一氣流激勵聲道就產(chǎn)生濁音,又稱有聲語音,它攜帶著語音中的大部分能量。這種聲帶振動的頻率稱為基頻,相應(yīng)的周期就稱為基音周期(Pitch),它由聲帶逐漸開啟到面積最大(約占基音周期的50%)、逐漸關(guān)閉到完全閉合(約占基音周期的35%)、完全閉合(約占基音周期的15%)三部分組成?;糁芷诘墓烙嫹Q為基音檢測(PitchDetection),基音檢測的最終目標是畫出和聲帶振動頻率完全一致的基音周期變化軌跡曲線,如不可能則盡量找出相吻合的軌跡曲線。在語音信號處理中,語音信號參數(shù)提取的準確性非常重要。只有獲得準確的參數(shù),才能利用這些參數(shù)進行高效的處理,而在許多參數(shù)提取中,基音周期的提取尤為重要,廣泛地應(yīng)用于語音壓縮編碼、語音分析合成以及語音識別等方面,所以,準確可靠地估計并提取基音周期對語音信號處理至關(guān)重要。它直接影響到合成語音是否真實再現(xiàn)原始語音信號,影響到語音識別的識別率,影響到語音壓縮編碼的正確率。由于聲道的易變性及聲道特征因人而異,而基音的范圍又很寬,即使是同一個人在不同情態(tài)下發(fā)音的基音周期也不同,加之基音周期還受到單詞發(fā)音音調(diào)的影響,因而基音周期的精確檢測實際上是一件比較困難的事情,基音提取的主要困難反映在:1)語音信號變化十分復雜,聲門激勵的波形并不是一個完全的周期序列。在語音的頭尾部并不具有聲帶振動那樣的周期性,對有些清濁音的過渡幀很難判定它屬于周期性還是非周期性,從而對估計基音周期帶來一定的影響。從語音信號中去除聲道的影響,直接取出僅與聲帶振動有關(guān)的聲源信息并非易事。如聲道共振峰可能強烈改變聲門波形的結(jié)構(gòu),從而嚴重影響激勵信號的諧波結(jié)構(gòu),會給基音檢測造成困難。語音信號是準周期的,且共振峰結(jié)構(gòu)和噪聲有時會影響波峰和過零率,很難準確定位基音周期的開始和結(jié)束。區(qū)分清音語音和低電平濁音段是導致基音檢測困難的另一個重要因素。在許多情況下,清音語音與低電平濁音段之間的過度段是非常細微的,確認它是極其困難的。在實際應(yīng)用中,背景噪聲強烈影響基音檢測的性能?;糁芷谧兓秶^大,從低音男性的50Hz到高音女性或兒童的500Hz,接近三個倍頻程,這也給基音周期的檢測帶來了一定的困難。另外,濁音信號可能包括很多諧波分量,而基波分量往往不是最強的分量,這些諧波成分疊加在一起,使語音信號的波形變得很復雜,給基音檢測帶來困難,經(jīng)常發(fā)生基頻估計結(jié)果比實際基音頻率大很多。由于這些困難,盡管基音提取的方法很多,但迄今尚未找到一個完善的方法可以對各類人群(包括男人、女人、老人、小孩及不同語種)和各種環(huán)境條件情況下都能獲得滿意的檢測結(jié)果。盡管基音周期檢測有許多困難,但因為它的重要性,基音周期檢測一直是一個研究的重要課題。我們分別利用短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)進行基音檢測。短時自相關(guān)法函數(shù)自相關(guān)函數(shù)用于衡量信號自身時間波形的相似性。清音和濁音的發(fā)聲機理不同,因而在波形上也存在著較大的差異。濁音的時間波形呈現(xiàn)出一定的周期性,波形之間相似性較好;清音的時間波形呈現(xiàn)出隨機噪聲的特性,樣點間的相似性較差。因此,我們用短時自相關(guān)函數(shù)來測定語音的相似特性。短時自相關(guān)函數(shù)定義為:R(k)=Ux(m)w(n-m)x(m+k)w(n-m-k)m=一3令m=n+m',并且w(-m)=w'(m),可以得到:R(k)=U[x(n+m)w(m)][x(n+m+k)w(m+k)]=^^[x(n+m)w(m)][x(n+m+k)w(m+k)]nm=-3m=0短時平均幅度差函數(shù)AMDFr(k)=^2-1x(n)-x(n+k)|,k=0,1,,N/2-1nn=0語音的濁音信號具有準周期性,其自相關(guān)函數(shù)在其周期的整數(shù)倍處取最大值。計算兩相鄰最大峰值間的距離,就可以估計出基音周期。由于聲道的共振特性引起自相關(guān)函數(shù)失真,有必要對語音信號進行適當?shù)念A(yù)處理后再進行自相關(guān)計算以獲得基于周期。(a)中心削波中心削波函數(shù)如下式所示。X-X,X>Xf(X)=<0,-X<X<XX+X,X<-XIII一般削波電平X1取本幀語音最大幅度的60%?70%。(b)三電平削波為了克服短時自相關(guān)函數(shù)計算量大的問題,在中心削波法的基礎(chǔ)上,還可以采用三電平削波法,公式如下X>XI-X<X<XX<-XI基音周期估計的后處理語音信號中的濁音信號的周期性從波形上觀察可以看得很明顯,但是其形狀比較復雜,這使得基音檢測算法很難做到處處準確可靠。在提取基音的過程中,無論采用哪種提取的基音頻率軌跡與真實的基音頻率軌跡都不可能完全吻合。實際情況是大部分段落吻合,而在一些局部段落和區(qū)域中有一個或幾個基音頻率估計值偏離,甚至遠離正常軌跡,通常是偏離到正常值的2倍或1/2處,即實際基音頻率的倍頻或分頻處,稱這種偏離點為基音軌跡的“野點”。為了去除這些“野點”,對求得的基音軌跡進行平滑后處理是非常必要的。語音信號的基頻通常是連續(xù)緩慢變化的,因此,用某種平滑技術(shù)來糾正這些野點是可以的。常用的平滑技術(shù)主要有:中值濾波平滑處理、線性平滑、動態(tài)規(guī)劃平滑處理。中值平滑處理中值平滑處理的基本原理是:設(shè)xS)為輸入信號,y(n)為中值濾波器的輸出,采用一滑動窗,則n0處的輸出值y(n0)就是將窗的中心移到n0處時窗內(nèi)輸入樣點的中值。即在n0點的左右各取L個樣點。連同被平滑點共同構(gòu)成一組信號采樣值(共(2L+1)),然后將這(2L+1)個樣值按大小次序排成一隊,取此隊列中的中間者作為平滑器的輸出。L值一般取為1或2,即中值平滑的窗口一般包括3?5個樣值,稱為3點或5點中值平滑。線性平滑處理線性平滑是用滑動窗進行線性濾波處理,即y(n)=寸x(n-m)w(m)m=-L
其中,{w(m),m=—L,—L+1,???,0,1,2,…,l}為2L+1點平滑窗,滿足iw(m)=1m=-L例如三點窗的權(quán)值可取為(0.25,0.5,0.25)。線性平滑在糾正輸入信號中不平滑樣點值的同時,也使附近各樣點的值做了修改。所以窗的長度加大雖然可以增加平滑的效果,但是同時也可能導致兩個平滑段之間階躍的模糊的程度加重。(c)組合平滑處理為了改善平滑的效果可以將兩個中值平滑串接,另一種方法是將中值平滑和線性平滑組合。實驗過程分別求出語音信號清音幀和濁音幀的自相關(guān)函數(shù)求出中心削波后濁音的短時自相關(guān)函數(shù)求出三電平削波后濁音的短時自相關(guān)函數(shù)求短時平均幅度差函數(shù)利用短時能量進行簡單的清濁判別利用短時自相關(guān)函數(shù)實現(xiàn)基音周期估計(分別求出男聲和女生的基音周期)利用短時平均幅度差函數(shù)實現(xiàn)基音周期估計(分別求出男聲和女生的基音周期)1050100150200250實驗結(jié)果-101050100150200250-1延時k102040608010012010延時k10203040延時k5060圖2.5濁音信號的短時自相關(guān)函數(shù)-10蒯波前,語音波形0.5-0.5020040060014001600180020001200數(shù)8001000樣點0200400600140016001800200080010001200樣點數(shù)圖2.6中心削波前后語音波形圖010020030040050060010.50-0.5-1延時k100200300400500600延時k圖2.7中心削波前后自相關(guān)函數(shù)波形圖-0.5-110.50200400600800100012001400160018002000樣點數(shù)0200400600800100012001400160018002000樣點數(shù)圖2.8三電平削波前后語音波形圖01002003004005006000100200300400500600延時k圖2.9三電平削波前后自相關(guān)函數(shù)波形圖003502002點樣501采0050O0L4L224oO5010015020025030010050延時k050100150200250圖2.11原始語音波形圖和短時能量050100150200250050100150200250幀數(shù)圖2.12一段男聲的基音周期估計實驗三語音信號頻域特征分析實驗?zāi)康母道锶~分析是分析線性系統(tǒng)和平穩(wěn)信號穩(wěn)態(tài)特性的強有力工具,它在許多工程領(lǐng)域得到了廣泛的應(yīng)用。它理論完善,且有快速算法,在語音信號處理領(lǐng)域也是一個重要工具。由于語音信號是隨著時間變化的,通常認為,語音是一個受準周期脈沖或隨機噪聲源激勵的線性系統(tǒng)的輸出。輸出頻譜是聲道系統(tǒng)頻率響應(yīng)與激勵源頻譜的乘積。聲道系統(tǒng)的頻率響應(yīng)及激勵源都是隨時間變化的,因此一般標準的傅立葉表示雖然適用于周期及平穩(wěn)隨機信號的表示,但不能直接用于語音信號。由于語音信號可以認為在短時間內(nèi),近似不變,因而可以采用短時分析法。本實驗要求掌握傅里葉分析原理,會利用己學的知識,編寫程序估計短時譜、倒譜,畫出語譜圖,并分析實驗結(jié)果,在此基礎(chǔ)上,借助頻域分析方法所求得的參數(shù)分析語音信號的基音周期。實驗原理短時傅立葉變換由于語音信號是短時平穩(wěn)的隨機信號,某一語音信號幀的短時傅立葉變換的定義為:TOC\o"1-5"\h\z\o"CurrentDocument"X(ew)=產(chǎn)x(m)w(^nm)jem(3.1)m=-3其中w(n-m)是實窗口函數(shù)序列,n表示某一語音信號幀。令n-m=k',則得到\o"CurrentDocument"X(ew)=£w(k')x-nk,論n)k(3.2)k'=一3于是可以得到\o"CurrentDocument"X(ew)=ejWSw(k)X-nkj倒k(3.3)k=-3假定\o"CurrentDocument"X(ew)=£w(k)x—nkje(3.4)nk=-3則可以得到\o"CurrentDocument"X(ejw)=e-jXnej)w(3.5)同樣,不同的窗口函數(shù),將得到不同的傅立葉變換式的結(jié)果。由上式可見,短時傅立葉變換有兩個變量:n和切,所以它既是時序n的離散函數(shù),又是角頻率切的連續(xù)函數(shù)。如令口二2nk/N則得離散的短時傅立葉變換如下:
(3.6)Xn(ej2kk/N)=Xn(k)二黨x(m)w(n—m)e-j2kkm/n,(0<k<N-1)m=-s語譜圖(3.6)水平方向是時間軸,垂直方向是頻率軸,圖上的灰度條紋代表各個時刻的語音短時譜。語譜圖反映了語音信號的動態(tài)頻率特性,在語音分析中具有重要的實用價值。被成為可視語言。語譜圖的時間分辨率和頻率分辨率是由窗函數(shù)的特性決定的。時間分辨率高,可以看出時間波形的每個周期及共振峰隨時間的變化,但頻率分辨率低,不足以分辨由于激勵所形成的細微結(jié)構(gòu),稱為寬帶語譜圖;而窄帶語譜圖正好與之相反。寬帶語譜圖可以獲得較高的時間分辨率,反映頻譜的快速時變過程;窄帶語譜圖可以獲得較高的頻率分辨率,反映頻譜的精細結(jié)構(gòu)。兩者相結(jié)合,可以提供帶兩與語音特性相關(guān)的信息。語譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”。聲紋因人而異,因此可以在司法、安全等場合得到應(yīng)用。復倒譜和倒譜復倒譜x(n)是x(n)的Z變換取對數(shù)后的逆Z變換,其表達式如下x=Z-i[lnZ[x(n)]](3.7)倒譜c(n)定義為x(n)取Z變換后的幅度對數(shù)的逆Z變換,即c(n)=乙-i[lnlX(乙)1](3.8)A,、人,、人,、
s(A,、人,、人,、
s(n)=e(n)v(n)(3.9)由于倒譜對應(yīng)于復倒譜的偶部,因此倒譜與復倒譜具有同樣的特點,很容易知道語音信號的倒譜,激勵信號的倒譜以及聲道系統(tǒng)的倒譜之間滿足下面關(guān)系:c(n)=c(n)+c(n)sev(4.0)濁音信號的倒譜中存在著峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用這個特點我們可以進行清濁音的判斷,并且可以估計濁音的基音周期?;蛑芷诠烙嫕嵋粜盘柕牡棺V中存在峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中
則不存在峰值。利用倒譜的這個特點,我們可以進行語音的清濁音判決,并且可以估計濁音的基音周期。首先計算語音的倒譜,然后在可能出現(xiàn)的基因周期附近尋找峰值。如果倒譜峰值超過了預(yù)先設(shè)置的門限,則輸入語音判斷為濁音,其峰值位置就是基因周期的估計值;反之,如果沒有超出門限的峰值的話,則輸入語音為清音。實驗過程分別求出清音和濁音的頻譜采用短時疊加法把短時傅里葉變換恢復到原始語音信號求出語音信號的倒譜利用濁音的倒譜進行基音檢測實驗結(jié)果0.2度0幅\-0.2_一幀濁音加漢明窗語音-0.20.2001002003004005000100200300400500樣點數(shù)加漢明窗語音0.050-0.05則不存在峰值。利用倒譜的這個特點,我們可以進行語音的清濁音判決,并且可以估計濁音的基音周期。首先計算語音的倒譜,然后在可能出現(xiàn)的基因周期附近尋找峰值。如果倒譜峰值超過了預(yù)先設(shè)置的門限,則輸入語音判斷為濁音,其峰值位置就是基因周期的估計值;反之,如果沒有超出門限的峰值的話,則輸入語音為清音。實驗過程分別求出清音和濁音的頻譜采用短時疊加法把短時傅里葉變換恢復到原始語音信號求出語音信號的倒譜利用濁音的倒譜進行基音檢測實驗結(jié)果0.2度0幅\-0.2_一幀濁音加漢明窗語音-0.20.2001002003004005000100200300400500樣點數(shù)加漢明窗語音0.050-0.050100200300400500樣點數(shù)加矩形窗時語音譜oooO246---Ba/度幅數(shù)對10樣點數(shù)加矩形窗時語音譜oooO123---Ba/度幅數(shù)對00
4000
40000002468----Ba/度幅數(shù)對00024--Ba/度幅數(shù)對圖3.1加不同窗函數(shù)時的清濁音波形及頻譜圖10.50-0.5-100.51.522.533.50.50-0.5x104樣點數(shù)-1。051L點敬22.53xI。3:圖3.2短時綜合的疊接相加法重構(gòu)的語音10.50-0.5800-10100200300400500600700樣點數(shù)樣點數(shù)圖3.3濁音的倒譜10.50-0.5-100.51.522.533.50.50-0.5x104樣點數(shù)-1。051L點敬22.53xI。3:圖3.2短時綜合的疊接相加法重構(gòu)的語音10.50-0.5800-10100200300400500600700樣點數(shù)樣點數(shù)圖3.3濁音的倒譜語音波形10.50-0.50.51.522.53050100150350400450500300200250樣點-250-200-150-100100150200250數(shù)-50050樣點數(shù)實驗四語音信號線性預(yù)測分析實驗?zāi)康木€性預(yù)測分析是最有效的語音分析技術(shù)之一,在語音編碼、語音合成、語音識別和說話人識別等語音處理領(lǐng)域中得到了廣泛的應(yīng)用。語音線性預(yù)測的基本思想是:一個語音信號的抽樣值可以用過去若干個取樣值的線性組合來逼近。通過使實際語音抽樣值與線性預(yù)測抽樣值的均方誤差達到最小,可以確定唯一的一組線性預(yù)測系數(shù)。采用線性預(yù)測分析不僅能夠得到語音信號的預(yù)測波形,而且能夠提供一個非常好的聲道模型。如果將語音模型看作激勵源通過一個線性時不變系統(tǒng)產(chǎn)生的輸出,那么可以利用LP分析對聲道參數(shù)進行估值,以少量低信息率的時變參數(shù)精確地描述語音波形及其頻譜的性質(zhì)。此外,LP分析還能夠?qū)舱穹?、功率譜等語音參數(shù)進行精確估計,LP分析得到的參數(shù)可以作為語音識別的重要參數(shù)之一。由于語音是一種短時平穩(wěn)信號,因此只能利用一段語音來估計模型參數(shù)。此時有兩種方案:一種是將長的語音序列加窗,然后對加窗語音進行LP分析,只要限定窗的長度就可以保證分析的短時性,這種方案稱為自相關(guān)法;另一種方案不對語音加窗,而是在計算均方預(yù)測誤差時限制其取和區(qū)間,這樣可以導出LP分析的自協(xié)方差法。本實驗要求掌握LPC原理,會利用己學的知識,編寫程序估計線性預(yù)測系數(shù)。實驗原理(1)LP分析基本原理LP分析為線性時不變因果穩(wěn)定系統(tǒng)k(z)建立一個全極點模型,并利用均方誤差準則,對已知的語音信號sS)進行模型參數(shù)估計。如果利用p個取樣值來進行預(yù)測,則稱為p階線性預(yù)測。假設(shè)用過去p個取樣值4(n-1),s(n-2),…』〃-月的加權(quán)之和來預(yù)測信號當前取樣值s(n),則預(yù)測信號掀)為sG)=?as(n-i)i=1其中加權(quán)系數(shù)用a.表示,稱為預(yù)測系數(shù),則預(yù)測誤差為ie(n)=s(n)-s(n)=s(n)-?as(n-k)i=1要使預(yù)測最佳,則要使短時平均預(yù)測誤差最小有£=E[e2(n)dEe2dak=minde(n)
e(n)—
dak=0,(1<k<p)de(n)=-s(n一k),k=1,2,...,pdak(4.1)(4.2)(4.3)(4.4)(4.5)
(4.5)帶入(4.4)可得TOC\o"1-5"\h\z\o"CurrentDocument"-2E[e(n)s(n-ksG)=?as(n-i)i=1其中加權(quán)系數(shù)用a.表示,稱為預(yù)測系數(shù),則預(yù)測誤差為ie(n)=s(n)-s(n)=s(n)-?as(n-k)i=1要使預(yù)測最佳,則要使短時平均預(yù)測誤差最小有£=E[e2(n)dEe2dak=minde(n)
e(n)—
dak=0,(1<k<p)de(n)=-s(n一k),k=1,2,...,pdak(4.1)(4.2)(4.3)(4.4)(4.5)令s(n)的自相關(guān)序列為R(k)=E[s(n)s(n-k)](4.8)由于自相關(guān)序列為偶對稱,因此R(k)=R(-k)=E[s(n)s(n+k)」(4.9)式(4.7)可進一步表示為R(k)-YpaR(k-i)=0,k=1,2,,p(4.10)i=1式(4.10)稱為標準方程式,它表明只要語音信號是已知的,則p個預(yù)測系數(shù)%a廠,ap通過求解該方程即可得到。綜上所述,可以得到如下矩陣形式-R(0)R(1)?-R(1)R(0)?-::-R(P-1)」-R(P-2):]a1」a2:—]R⑴」R(2):(4.11),、,、_R(P-1)R(P-2).?-R(0)」a1-p」_R(p)」值得注意的是,自相關(guān)法在計算預(yù)測誤差時,數(shù)據(jù)段{s(0),s(1),...s(n-1)}的兩端都需要加P個零取樣值,因而可造成譜估計失真。特別是在短數(shù)據(jù)段的情況下,這一現(xiàn)實更為嚴重。另外,當預(yù)測系數(shù)量化時,有可能造成實際系統(tǒng)的不穩(wěn)定。自相關(guān)解法主要有杜賓算法、格型算法和舒爾算法等幾種高效遞推算法。⑵LPC方程的自相關(guān)解法根據(jù)線性預(yù)測分析的原理可知,求解p個線性預(yù)測系數(shù)的依據(jù),是預(yù)測誤差濾波器的輸出均方值或輸出功率最小。E=E可稱這出均方值或輸出功率最小。E=E可稱這e2(n)」min-最小均方誤差為正向預(yù)測誤差功率Ep,=E\e(n)s(n)-Xas(n-i)>〔Li=1'」〕=E[e(n)s(n)]-XaE[e(n)s(n-i)]i=1(4.12)由式(4.6)正交方程可知上式第二項為零。再將式(4.2)代人上式可得ii=1(4.13)E=E\_e(n)s(n)]=E[5(n)s(n)^-^^aE[s(n)s(n-i)]ii=1(4.13)=R(0)-LaR(i)i=1將式(4.11)和式(4.13)組合起來可得-R(0)R(1)-?-R(p)「11「E1R(1)R(2):R(0)-R(1):?-R(P-1)?-R(P-2):-a1-a2:0p=0:_R(p)R(p-1)?-?.R(0)」--R(0)R(1)-?-R(p)「11「E1R(1)R(2):R(0)-R(1):?-R(P-1)?-R(P-2):-a1-a2:0p=0:_R(p)R(p-1)?-?.R(0)」-aLp」L0」(4.14)利用對稱Toeplitz矩陣的性質(zhì),自相關(guān)法求解式(14)可用levinson-Durbin遞推算法求解。該算法從最低階預(yù)測器開始,由低階到高階逐階遞推計算。其遞推過程如下:k=r(i)—文'a(i-1)r(i-j)!e,1<i<p(4.16)'Lj=1j」/(i-1)E(0)=r(0)(4.17)E=(1-k2)E(1)(4.18)aa)=k(4.19)a(i)=a(i-1)一ka(i-1),1<j<i-1(4.20)jjii-j式(4.16)至式(4.20)可對i=1,2,...,p進行遞推求解,其最終解為a=a(p),1<j<p(4.21)在上面的一組式子中,i表示預(yù)測器階數(shù),如a(i)表示i階預(yù)測器的第j個預(yù)測系數(shù)。對于jp階預(yù)測器,在上述求解預(yù)測系數(shù)的過程中,階數(shù)低于p的各階預(yù)測器系數(shù)也同時得到。自相關(guān)法的優(yōu)點是教簡單且結(jié)果較穩(wěn)定,缺點是由于兩端的截斷效應(yīng)而精度較低。
實驗過程⑴用Levinsin-Durbin算法求解LP系數(shù),并與Matlab直接求得LPC比較(2)比較預(yù)測信號與原始信號的時域波形和幅度譜實驗結(jié)果-0.02-0.040.005-0.005-0.01原始語音幀vs.預(yù)測II后語音幀/弋10.02050100150200250300■xV--ni\'""球拙5J/mhh■i'丫11'10.01050100150200250300誤差圖4.1時域波形比較-120-140幅度譜-0.02-0.040.005-0.005-0.01原始語音幀vs.預(yù)測II后語音幀/弋10.02050100150200250300■xV--ni\'""球拙5J/mhh■i'丫11'10.01050100150200250300誤差圖4.1時域波形比較-120-140幅度譜0004680---020406080100120140圖4.2幅度譜比較實驗五譜減法語音增強方法研究實驗?zāi)康恼Z音信號在實際環(huán)境中,不可避免的受到外界環(huán)境的影響,使得語音質(zhì)量下降。語音增強的目的是盡可能從帶噪語音中提取盡可能純凈的語音,從而增強語音的質(zhì)量和可懂度。語音增強方法有很多,最簡單和常用的方法是譜減法。本實驗的目的是掌握譜減法的基本原理,并能用M
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 期末三年級試卷及答案
- 新能源汽車行業(yè)發(fā)展趨勢
- 疝氣的護理小講課
- 2025四月極地生態(tài)保護區(qū)旅游收益分成比例調(diào)整
- 現(xiàn)代管理理論與實踐
- 強化紀律意識提高學習效率(課件)-高二上學期行為習慣養(yǎng)成教育主題班會
- 科室安全教育培訓
- 2025版高考地理一輪復習專題八區(qū)域可持續(xù)發(fā)展高頻考點71水土流失和濕地破壞練習含解析
- 開學勢行做自己的冠軍!課件-高二上學期開學第一課主題班會
- 卒中患者二便護理
- 重慶大轟炸優(yōu)秀課件
- 專題01《水銀花開的夜晚》 高考語文二輪復習
- 外貿(mào)客戶報價單中英文格式模板
- 中藥學中藥性味歸經(jīng)功效歸納
- 專業(yè)技術(shù)人員職務(wù)聘任書
- JJF 1338-2012相控陣超聲探傷儀校準規(guī)范
- GB/T 13911-1992金屬鍍覆和化學處理表示方法
- GB/T 13452.2-2008色漆和清漆漆膜厚度的測定
- 【泉州南音傳承與發(fā)展研究(論文7200字)】
- 《馬克思主義發(fā)展史》第五章 馬克思列寧主義在蘇聯(lián)的發(fā)展及曲折
- 現(xiàn)代漢語詞匯學精選課件
評論
0/150
提交評論