聲音識(shí)別模型的建立與評(píng)價(jià)_第1頁
聲音識(shí)別模型的建立與評(píng)價(jià)_第2頁
聲音識(shí)別模型的建立與評(píng)價(jià)_第3頁
聲音識(shí)別模型的建立與評(píng)價(jià)_第4頁
聲音識(shí)別模型的建立與評(píng)價(jià)_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 重慶理工大學(xué)第18屆數(shù)學(xué)建模競賽論文 題目:聲音識(shí)別模型的建立與評(píng)價(jià)(A題)混合隊(duì)2014年5月10日大學(xué)生數(shù)學(xué)建模競賽承 諾 書我們仔細(xì)閱讀了大學(xué)生數(shù)學(xué)建模競賽的競賽規(guī)則。我們完全明白,在競賽開始后參賽隊(duì)員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與隊(duì)外的任何人(包括指導(dǎo)教師)研究、討論與賽題有關(guān)的問題。我們知道,抄襲別人的成果是違反競賽規(guī)則的, 如果引用別人的成果或其他公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻(xiàn)的表述方式在正文引用處和參考文獻(xiàn)中明確列出。我們鄭重承諾,嚴(yán)格遵守競賽規(guī)則,以保證競賽的公正、公平性。如有違反競賽規(guī)則的行為,我們將受到嚴(yán)肅處理。我們參賽選擇的

2、題號(hào)是(從A/B/C中選擇一項(xiàng)填寫):A所屬學(xué)校(請(qǐng)?zhí)顚懲暾娜褐貞c理工大學(xué)參賽隊(duì)員 (打印并簽名) :指導(dǎo)教師或指導(dǎo)教師組負(fù)責(zé)人 (打印并簽名):無 日期:2014年5月10日2014年重慶理工大學(xué)大學(xué)生數(shù)學(xué)建模競賽編 號(hào) 專 用 頁賽區(qū)評(píng)閱編號(hào)(由賽區(qū)組委會(huì)評(píng)閱前進(jìn)行編號(hào)):賽區(qū)評(píng)閱記錄(可供賽區(qū)評(píng)閱時(shí)使用):評(píng)閱人評(píng)分備注全國統(tǒng)一編號(hào)(由賽區(qū)組委會(huì)送交全國前編號(hào)):全國評(píng)閱編號(hào)(由全國組委會(huì)評(píng)閱前進(jìn)行編號(hào)):聲音識(shí)別模型的建立與評(píng)價(jià)摘要本文針對(duì)聲音識(shí)別模型的建立與評(píng)價(jià)問題,采用仿真、歸一化、隱馬可夫模型,回歸模型、遺傳算法等方法,對(duì)聲音識(shí)別建立了相應(yīng)的模型。針對(duì)問題一,利用matl

3、ab中的sound函數(shù)播放出聲音信號(hào),利用plot函數(shù)繪制出具體的聲音波形圖,總結(jié)得出正常和非正常開門聲音的差別。通過試聽,可以得知,正常開門聲音信號(hào)的比較緩和,響度較??;而非正常聲音比較刺耳,音調(diào)較高,響度較大。通過plot函數(shù)繪制出具體的聲音波形圖,分析得知(1)相同時(shí)間內(nèi)振動(dòng)越快,頻率越大。音調(diào)跟頻率有關(guān),頻率越大,音調(diào)越高。(2)振幅是物體振動(dòng)時(shí)偏離原位置的大小,偏離原位置越大,振幅越大。響度跟振幅有關(guān),振幅越大,響度越大。所以通過聲音波形圖,也可以看出正常開門聲音信號(hào)與非正常開門聲音信號(hào)。 針對(duì)問題二,應(yīng)用及線性預(yù)測倒譜參數(shù)(PLCC)完成聲音信號(hào)的特征向量的建立及對(duì)特征向量的提取。

4、盡管SVM分類器可以處理任意范圍的特征數(shù)據(jù),但歸一化仍然有助干簡化問題的的復(fù)雜性。一般情況下,可以利用特征的均值和方差來解決這個(gè)問題。線性預(yù)側(cè)(Line- Pra7iction. LP)分析是最有效的語音分折技術(shù)之一,求解線性預(yù)側(cè)分析的基本思想是:語音信號(hào)樣點(diǎn)之間存在相關(guān)性,可以用過去的若干個(gè)樣點(diǎn)或它們的線性組合預(yù)測現(xiàn)在或?qū)淼臉狱c(diǎn)值。可以通過使實(shí)際語音抽樣值和線性預(yù)測抽樣值之間的均方誤差最小,得到一組唯一的線性預(yù)測系數(shù)(LPC系數(shù))。線性預(yù)測分析不僅能夠提供語音信號(hào)的預(yù)測波形,而且能夠提供一個(gè)好的聲道摸型。 針對(duì)問題三,采用logistic回歸模型,通過回歸擬合解釋變量與事件發(fā)生概率之間的非

5、線性關(guān)系原理,區(qū)分正常和非正常聲音,評(píng)價(jià)模型的好壞。由多元線性logistic回歸模型直接計(jì)算。此外,模型中的系數(shù),采用極大似然參數(shù)估計(jì)進(jìn)行迭代計(jì)算方法得出。針對(duì)問題四,經(jīng)過特征子集的優(yōu)選,模型參數(shù)的優(yōu)化,運(yùn)用遺傳算法極大的提高模型的準(zhǔn)確率。從一組數(shù)量為D的特征組中選擇出一組數(shù)量為n(n<D)的最優(yōu)特征,一方面需要確定類別的可區(qū)分性判斷,對(duì)特征分類效果作出評(píng)估,選出使某一可分性達(dá)到最大的特征組來;,在條件允許的條件下,找出最優(yōu)的的那一部分特征。針對(duì)問題五,對(duì)于原始聲音信號(hào)的處理,以錯(cuò)點(diǎn)剔除、零均值變換、預(yù)濾波的方式進(jìn)行預(yù)處理,盡可能減少噪聲對(duì)有效信號(hào)的干擾。 在本文的最后,針對(duì)每個(gè)問題對(duì)

6、其結(jié)果進(jìn)行了分析、對(duì)每個(gè)問題解決方法的優(yōu)缺點(diǎn)進(jìn)行了對(duì)比,并提出了相應(yīng)的改進(jìn)方案。關(guān)鍵詞:聲音識(shí)別;隱馬可夫模型;logistic回歸模型;遺傳算法;一 、問題重述隨著家居智能化逐漸普及,智能冰箱、智能清潔機(jī)器人、智能電視等已步入平常老百姓家庭,但智能化的防盜門還處于研發(fā)階段,未進(jìn)入市場。隨著人們對(duì)家居安全意識(shí)的不斷增強(qiáng),對(duì)防盜、防搶和防砸的門禁系統(tǒng)的智能性提出更高的要求。基于此,對(duì)正常和非正常開門(指盜竊開門等聲音)的聲音進(jìn)行識(shí)別是智能防盜門的關(guān)鍵問題和技術(shù),其具有廣泛的應(yīng)用前景和實(shí)用價(jià)值。為了進(jìn)行聲音識(shí)別模型的建立,我們分析采集到的正常和非正常開門的聲音(正常開門聲音,非正常開門聲音,各40

7、次,共80次開門聲音數(shù)據(jù))。利用matlab的load函數(shù)將該數(shù)據(jù)載入到計(jì)算機(jī)內(nèi)存,內(nèi)存中變量有Fs和y等變量,其中Fs為采用頻率,y為采用數(shù)據(jù)。利用這些數(shù)據(jù)完成以下工作:1. 利用matlab中的sound函數(shù),播放出聲音信號(hào),試聽并比較正常和非正常開門聲音的差別,利用plot函數(shù)繪制出具體的聲音波形圖,總結(jié)差別在哪些方面?2. 利用合適的時(shí)域或(和)頻域特征表達(dá)個(gè)聲音信號(hào),建立特征向量,寫出提取特征向量的具體方法和程序代碼。3. 建立聲音識(shí)別模型(二分類模型),利用模型區(qū)分正常和非正常聲音,評(píng)價(jià)模型的好壞。4. 試?yán)锰卣鬟x擇或變換,對(duì)特征向量進(jìn)行優(yōu)化,并利用參數(shù)優(yōu)化技術(shù)優(yōu)化模型的參數(shù),使

8、識(shí)別模型的準(zhǔn)確率提高。5. 若原始聲音信號(hào)中有環(huán)境噪聲(如白噪聲),設(shè)y中疊加了一定幅值的白噪聲(利用y1=y+(-0.15+0.3*rand(size(y)*max(y)疊加噪聲),如何對(duì)聲音進(jìn)行前期處理?二模型假設(shè)(1)假設(shè)在應(yīng)用matlab中影響正常聲音和非正常聲音的因素都已考慮完全;(2)假設(shè)所選的時(shí)頻域能夠正確的表達(dá)出個(gè)體聲音,音中的瑕疵可以忽略(3)假設(shè)在參數(shù)優(yōu)化中,遺傳算法的計(jì)算量適當(dāng) 三符號(hào)說明與模型假設(shè)3.1符號(hào)說明 是特征的均值,是特征的方差, 是歸一化的數(shù)值, R是尺度因子,是子帶i的傅里葉變換系數(shù) C是小波系數(shù)Pi表示是四 問題分析2.1聲音信號(hào)正常與非正常的開門聲音分

9、析在MATLAB環(huán)境中,熟悉有關(guān)聲音的函數(shù):聲音錄制函數(shù)wavrecord(),文件保存wavwrite(),文件讀取wavread(),語音回放sound(),語音播放wavplay(),錄制的文件以 .mat作為文件擴(kuò)展名的文件。使用聲音相關(guān)函數(shù)播放40次正常開門聲音數(shù)據(jù)和40次非正常開門聲音數(shù)據(jù),用MATLAB函數(shù)wavread()將聲音信號(hào)提取出來進(jìn)行進(jìn)行頻譜分析,得到幅度和相位譜,做出相應(yīng)觀察和對(duì)比。利用plot函數(shù)繪制出具體的聲音波形圖(程序代碼詳見附錄一),并作出具體描述。2.2聲音信號(hào)的特征向量的建立及對(duì)特征向量的提取方法分析聲音信號(hào)的特征向量的建立:引入一種非線性歸

10、一化方法,隨后實(shí)現(xiàn)多個(gè)特征提取算法(例如:時(shí)域特征、頻域特征的計(jì)算等)。決定采用特征的均值和方差來解決特征歸一化問題,輸出范圍有效地限制在了0-1內(nèi)。并且設(shè)定R值為尺度因子。R值越小,曲線越陡峭,零附近的輸入范圍值也愈放大,而絕對(duì)值較大值的范圍愈被壓縮。R值越大,曲線越平滑,輸入數(shù)值的壓縮程度也愈一致。時(shí)域特征一般比較簡單,容易計(jì)算,但是在實(shí)際采集聲音時(shí),它們可能會(huì)被風(fēng)聲等噪聲嚴(yán)重污染。如前所述,可以在硬件方面采取一定措施來減小這些影響.如為聲傳感器增加防風(fēng)罩,或者運(yùn)用軟件方法消除影響,如采用高通濾波器將低頻部分濾掉等。描述頻域特征時(shí),通過頻帶能量比率方式闡述。子帶能量比率衡量的是某個(gè)子帶占全

11、部頻帶能量的比率,以此描述頻域的特質(zhì)特征。特征向量的提取方法:聲音信號(hào)的特征向量的提取是將人或物發(fā)出的聲音轉(zhuǎn)換成電信號(hào),然后將電信號(hào)轉(zhuǎn)換成賦予相應(yīng)含義的編碼圖形,也就是將聲音信號(hào)翻譯成一種機(jī)器可讀的形式。其中,LPC是特征向量提取的重要手段,它能很好地進(jìn)行譜估計(jì),即可作為語音特征的參數(shù)。因此僅用12個(gè)LPC系數(shù)就能很好地表示復(fù)雜語音信號(hào)的特征,這就大大降低了信號(hào)的冗余度并有效地減少了計(jì)算的有效數(shù)據(jù)。在實(shí)際運(yùn)作中,大多數(shù)語音識(shí)別系統(tǒng)都會(huì)采用倒譜參數(shù)來作為有關(guān)距離的度量。2.3區(qū)分正常和非正常聲音,評(píng)價(jià)模型的好壞的分析利用最小二乘法進(jìn)行線性回歸定義cost函數(shù),根據(jù)最大似然原理,做出樣本點(diǎn)回歸誤差

12、服從一定概率分布的假定。根據(jù)樣本間關(guān)系,設(shè)該誤差值的隨機(jī)變量服從高斯分布。在回歸問題中,如果響應(yīng)y為二值性的,便實(shí)際成為分類問題,即所謂二分類問題。為了使問題分析得更直觀一些,假定y的取值為0或1。Logistic回歸是解決這種二分類問題的有效方法之一。2.4模型參數(shù)的優(yōu)化,提高模型的準(zhǔn)確率方法分析本題主要是利用特征選擇和特征變換對(duì)特征向量進(jìn)行優(yōu)化,后利用參數(shù)優(yōu)化技術(shù)中遺傳算法實(shí)現(xiàn)對(duì)回歸模型的優(yōu)化 由前文各種算法提取的備選特征集,經(jīng)過優(yōu)化的特征子集是由大量數(shù)據(jù)測試測驗(yàn)證過的,能夠保證他的性能是最優(yōu)的,識(shí)別模型的準(zhǔn)確性更高,本案例中,采用特征搜索及優(yōu)化算法,繼而采用其中的遺傳算法對(duì)備選特征集進(jìn)行

13、了優(yōu)化選取。2.5原始聲音信號(hào)的處理分析由于各種客觀因素的影響在采集到的信號(hào)中常常混有噪聲。為消除信號(hào)細(xì)微處的波形波動(dòng),因此在對(duì)信號(hào)分析之前有必要進(jìn)行一些處理,盡可能減小噪聲對(duì)有用信號(hào)的干擾。錯(cuò)點(diǎn)剔除:在數(shù)字信號(hào)的測試采集中,由于外界干擾或僅器的臨時(shí)故障等原因,隨時(shí)會(huì)出現(xiàn)異常數(shù)據(jù),即所謂異點(diǎn)。如在AD轉(zhuǎn)換中由于接地不當(dāng)或其它原因會(huì)在抽樣數(shù)據(jù)中有異常的正頗峰值,產(chǎn)生突變異點(diǎn)的存在會(huì)影響分析結(jié)果。特別是對(duì)高頻分量的影響,必須加以剔除隨機(jī)數(shù)字信號(hào)。零均值變換:了解分析信號(hào)的統(tǒng)計(jì)特性,消除數(shù)據(jù)中的直流分量需對(duì)信號(hào)作零均值變換。預(yù)濾波:在信號(hào)分析中,一方面信號(hào)中常常會(huì)存在一些不需要的高頻噪聲成分;另一方

14、面有時(shí)我們只對(duì)某一頻段的信號(hào)成分感興趣。因此在信號(hào)分析時(shí)首先要對(duì)信號(hào)進(jìn)行預(yù)濾波。濾波器可分為兩大類即經(jīng)典濾波器和現(xiàn)代濾波器。五 模型的建立與求解4.1問題(一)的模型建立與求解4.1.1聲音信號(hào)的提取在MATLAB環(huán)境中,使用聲音相關(guān)函數(shù)播放40次正常開門聲音數(shù)據(jù)和40次非正常開門聲音數(shù)據(jù)。聲音信號(hào)的提取程序代碼,詳見附錄一。取聲音數(shù)據(jù)進(jìn)行頻譜分析,得到幅度和相位譜比較二者異同。分析得到如下原因:1、正常開門聲音信號(hào)的比較緩和,響度較??;而非正常聲音比較刺耳,音調(diào)較高,響度較大。2、振幅是物體振動(dòng)時(shí)偏離原位置的大小,偏離原位置越大,振幅越大。響度跟振幅有關(guān),振幅越大,響度越大。4.1.2用pl

15、ot()函數(shù)繪制其聲音信號(hào)圖像在MATLAB環(huán)境中,用plot()函數(shù)繪制聲音信號(hào)圖像的程序代碼,詳見附錄二?,F(xiàn)截取四副相關(guān)聲音信號(hào)圖片,佐證關(guān)于聲音信號(hào)的分析。4.2問題(二)的模型建立與求解4.2.1特征歸一化盡管SVM分類器可以處理任意范圍的特征數(shù)據(jù),但歸一化仍然有助干簡化問題的的復(fù)雜性。一般情況下,可以利用特征的均值和方差來解決這個(gè)問題。如式(4.1),(4.2),(4 3)。 (4.1) (4.2) (4.3) 其中,是特征的均值,是特征的方差,為歸一化的數(shù)值。這樣可以使數(shù)據(jù)去掉均值,但是對(duì)于有些數(shù)據(jù)則起不到歸一化的作用。如果想把輸人范圍限制在0,1內(nèi),只能通過非線性尺度函教來進(jìn)行,

16、如式(4.4),(4.5)所示。 (4.4) (4.5)R為尺度因子。經(jīng)過非線性歸一化后的數(shù)據(jù)如圖4.1所示圖4.1數(shù)據(jù)的非線性歸一化可以看到輸出范圍被有效地限制在了01內(nèi),R值越小,曲線越陡峭,零附近的輸入范圍值也愈放大,而絕對(duì)值較大值的范圍愈被壓縮。R值越大,曲線越平滑,輸入數(shù)值的壓縮程度也愈一致。如圖4.1所示R=2.5曲線。本文選定的R值為2.5。4.2.2時(shí)域特征時(shí)域特征一般比較簡單,容易計(jì)算,但是在實(shí)際采集聲音時(shí),它們可能會(huì)被風(fēng)聲等噪聲嚴(yán)重污染。如前所述,可以在硬件方面采取一定措施來減小這些影響.如為聲傳感器增加防風(fēng)罩,或者運(yùn)用軟件方法消除影響,如采用高通濾波器將低頻部分濾掉等等。

17、圖4.2 正常聲音信號(hào)的頻譜圖 圖4.3 非正常聲音信號(hào)的頻譜圖4.2.3頻域特征子帶i的能量比率定義為: (4.6)式(4.13)中,子帶i的傅里葉變換系數(shù)。因此,子帶能量比率衡量的是某個(gè)子帶占全部頻帶能量的比率。在文本中,我們?nèi)缦聞澐肿訋В浩渲?,?功率譜中的頻率成份表征出了信號(hào)的重要信息,但是卻沒有反映出這些頻率成分對(duì)應(yīng)的時(shí)域信息。小波分析不同于傅里葉變換,它對(duì)時(shí)域和頻域信息均有很好的反映,是應(yīng)用較為廣泛的一種特征提取方法。小波子帶能量特征實(shí)際上是對(duì)離散小波變換所得各層小波系數(shù)的平方求和,代表了目標(biāo)的本質(zhì)特征,可以將其按皿尺度順序排列形成特征矢量以供分類識(shí)別。 離散小波變換可以看成是信號(hào)

18、的層層分解,首先信號(hào)被一個(gè)個(gè)像濾波器組g(n)和h(n)進(jìn)行高通、低通濾波,濾波器的截止頻率均為,繼而信號(hào)被二倍下采樣,由此得到信號(hào)的近似分量cA和細(xì)節(jié)分量cD。第二層對(duì)第一層的近似分量再進(jìn)行類似分解,濾波器組的截止頻率變?yōu)?,層層分解直到指定階段。三層分解后得到的小波系數(shù)為,如果輸入信號(hào)為1000點(diǎn),那么c中系數(shù)的長度為125,125,250,500,分解效果如同圖4.4、圖4.5所示。 圖4.4三層小波示意圖 圖4.5三層小波兩種對(duì)比度圖為小波對(duì)比度4.2.4預(yù)處理分析語音信號(hào)的特征向量一般分為兩類:第一類為時(shí)域特征向量,通常將幀語音信號(hào)的各個(gè)時(shí)域采樣值直接構(gòu)成一個(gè)向量。第二類為變換域特征向

19、量,即對(duì)一幀語音信號(hào)進(jìn)行某種變換后產(chǎn)生的特征向量。前者的優(yōu)點(diǎn)在于計(jì)算簡單,缺點(diǎn)是不能壓縮維數(shù)且不適于表征幅度譜特性。與此對(duì)應(yīng),各種變換域特征向量的計(jì)算比較復(fù)雜,但能從不同的角度反映幅度譜的特征,如圖4.6。圖4.6語音識(shí)別原理語音識(shí)別本質(zhì)上是一種模式識(shí)別的過程,其基本結(jié)構(gòu)原理框圖如圖4.6所示。主要包括語音信號(hào)預(yù)處理、特征提取、特征建模(建立參考摸式庫、模式匹配等幾個(gè)功能模塊。一個(gè)語音識(shí)別系統(tǒng)主要包括訓(xùn)練和識(shí)別兩個(gè)階段。無論是訓(xùn)練還是識(shí)別都需要首先對(duì)輸入的原始語音進(jìn)行預(yù)處理,并進(jìn)行特征提取。語音信號(hào)特征的提取如圖2所示在特征提取部分以前為聲音信號(hào)預(yù)處理過程主要包括A/D轉(zhuǎn)換、去噪、端點(diǎn)檢測、預(yù)

20、加重、分幀和加窗等計(jì)算,如圖4.7。圖4.7聲音提取過程框圖4.2.5加窗語音信號(hào)從整體來看是其特性及其表征其本質(zhì)特征的參數(shù)均是隨時(shí)間而變化,因而可以看成一個(gè)準(zhǔn)平穩(wěn)過程,及語音信號(hào)的短時(shí)穩(wěn)定性,將語音信號(hào)分為很多段來逐段分析其特征參數(shù),其中每一段稱為一幀,分段的過程稱為分針處理,通過對(duì)語音信號(hào)加窗口函數(shù)來實(shí)現(xiàn)。幀長一般選取10-30ms。分幀可以連續(xù)分段,但一般是通過一個(gè)滑動(dòng)窗口進(jìn)行交疊式分段。用的最多的是3種窗口是矩形窗,漢明窗,漢寧窗定義如下:1矩形窗當(dāng)0<=n<=N-1,w(n)=1;其他的值都為02漢明窗當(dāng)0<=n<=N-1,w(n)=0.54-0.46cos(

21、2npi/(N-1),取其他值都為0.3漢寧窗當(dāng)0<=n<=N-1,w(n)=0.5(1-cos(2npi/(N-1)),取其他值都為0語音信號(hào)端點(diǎn)檢測的目的是從連續(xù)采樣得到的數(shù)字信號(hào)中檢側(cè)出語音信號(hào)段和噪聲段,它是任何一個(gè)語音識(shí)別系統(tǒng)必不可少的組成部分只有準(zhǔn)確地找出語音段的起始點(diǎn)和終止點(diǎn),才有可能使采集到的數(shù)據(jù)是真正要分析的語音信號(hào),這樣不僅可以減少計(jì)算量,而且可以提高系統(tǒng)的識(shí)別率。因此,端點(diǎn)作為語音分割的重要特征,在很大程度上影響語音識(shí)別系統(tǒng)的性能,如何在噪聲環(huán)境下設(shè)計(jì)一個(gè)魯棒的端點(diǎn)檢測算法還是一個(gè)非常棘手的問題。傳統(tǒng)的端點(diǎn)檢測算法只依賴于一個(gè)特征。例如信號(hào)能量、過零率、持續(xù)時(shí)

22、間及線性預(yù)測能量誤差。4.2.6雙門限比較法 雙門限端點(diǎn)檢測法是一種基于能量-過零率的兩級(jí)判決法,即首先用第一次判別,然后再此基礎(chǔ)上用短時(shí)過零率做第二次判別,首先要分別為短時(shí)能量過零率確定兩個(gè)門限,再用短時(shí)能量做第一次判別式,為了不至于把語音能量的局部下降點(diǎn)錯(cuò)誤的當(dāng)成起始點(diǎn),因此采用雙門限比較法。高門限被超過基本可以確定語音的起始端口,地門限用于確定語音真正的端點(diǎn)。低門限被超過未必就是語音的起始端口,也有可能是短時(shí)的噪聲,當(dāng)高門限已經(jīng)確定起始端點(diǎn),再返回去利用低門限確定語音的真正起始點(diǎn),有時(shí)噪聲的能量也相當(dāng)大,但持續(xù)的時(shí)間比較短,可以用持續(xù)時(shí)間來決定是噪聲好是語音。短時(shí)能量,4.2.7語音特征

23、的提取方法語音信號(hào)中含有豐富的信息,經(jīng)過預(yù)處理的語音信號(hào),對(duì)其參數(shù)進(jìn)行分析一提取特征參數(shù),就是對(duì)語音信號(hào)進(jìn)行一系列的運(yùn)算得出一個(gè)矢量序列用這個(gè)矢量序列代表原始的語音信號(hào)所攜帶的有用信息。在語音識(shí)別中經(jīng)常用到的特征參數(shù)有線性預(yù)測倒譜參數(shù)(LPCC),Mel頻率倒譜參數(shù)(MPCC)和感知線性預(yù)測倒譜參數(shù)(PLPC)下面是幾種提取方法4.2.8,線性預(yù)測倒諾參數(shù)LPCC的提取方法線性預(yù)側(cè)(Line- Pra7iction. LP)分析是最有效的語音分折技術(shù)之一,在語音編碼、語音合成、語音識(shí)別、說話人識(shí)別等語音處理領(lǐng)域得到了廣泛應(yīng)用。線性預(yù)側(cè)分析的基本思想是:語音信號(hào)樣點(diǎn)之間存在相關(guān)性,可以用過去的若

24、干個(gè)樣點(diǎn)或它們的線性組合預(yù)測現(xiàn)在或?qū)淼臉狱c(diǎn)值??梢酝ㄟ^使實(shí)際語音抽樣值和線性預(yù)測抽樣值之間的均方誤差最小,得到一組唯一的線性預(yù)測系數(shù)(LPC系數(shù))。線性預(yù)測分析不僅能夠提供語音信號(hào)的預(yù)測波形,而且能夠提供一個(gè)好的聲道摸型。語音線性預(yù)測系數(shù)作為語音信號(hào)的一種特征參數(shù),已被廣泛應(yīng)用于語音處理的各個(gè)領(lǐng)域。在對(duì)語音的濁音幀和清音幀特征參數(shù)的分析中發(fā)現(xiàn),清音幀類似噪音,能量較低,易受背景噪音影響,而濁音帖的能量和規(guī)律性都較強(qiáng)。特征參數(shù)包含更多的說話人個(gè)體信息是說話人識(shí)別研究的主要對(duì)象。線性預(yù)測系數(shù)是線性預(yù)測的基本參數(shù),可以將這些參數(shù)進(jìn)行變換得到語音信號(hào)的其他參數(shù),下面就來介紹由線性預(yù)測系數(shù)得到線性預(yù)測

25、倒譜系數(shù)的過程。通過線性預(yù)測分析得到的聲道模型的系統(tǒng)函數(shù)為 (4.7)其沖激響應(yīng)為h(n),此處要計(jì)算的就是其倒譜h '(n),根據(jù)倒譜的定義, (4.8)將式(4.7)代入式(4.8),并將其兩邊求導(dǎo)數(shù),即有 因而有 ,令其左右兩邊的常數(shù)項(xiàng)和 次冪的系數(shù)分別相等,即得到 和的遞推關(guān)系: (2)小波分析技術(shù)由于選用的兩種倒譜一個(gè)反應(yīng)了靜態(tài)信息,另一個(gè)反映了動(dòng)態(tài)信息,兩者互相補(bǔ)償,充分表征了說話人聲道模型。語音的基音頻率是聲帶的基本頻率,它反映了聲帶激勵(lì)源的特點(diǎn)?;羧菀妆荒7?,不宜單獨(dú)使用,但它可以與倒譜參數(shù)相結(jié)合。由于倒譜參數(shù)和基音參數(shù)分別描述了說話人聲道,從而可以充分反映說話人特征

26、。LPCC的各種變形,例如差分倒譜,倒譜加權(quán)、自適應(yīng)分量加權(quán)倒譜等也已經(jīng)成功的應(yīng)用在噪聲語音特征中。4.3問題(三)的模型建立與求解4.3.1二分類單水平Logistic回歸模型Logisti回歸模型是一種典型的對(duì)數(shù)線性模型,它通過回歸擬合解釋變量與事件發(fā)生概率之間的非線性關(guān)系,被廣泛應(yīng)用于分析不同解釋變量取值組合呈現(xiàn)狀態(tài)的概率,以及在一定條件下事件發(fā)生與否的概率,因此又稱二分Logistic回歸。記x=(、. )表示影響事件A發(fā)生概率的因素,P(x)表示事件A發(fā)生的概率,顯然,事件A沒有發(fā)生的概率為1-P(x),令 P(x)=f(、.) (1) 變換(1)式 P(x)= 當(dāng)0<P(x)

27、<1時(shí),令 (2) 考慮F為線性函數(shù)有 F(、.) 代換(2)式 (3) 則稱(3)式為多元線性Logistic回歸模型(簡稱Logistic回歸模型),由此模型可以直接計(jì)算事件A的發(fā)生概率,模型中的系數(shù)采用極大似然參數(shù)估計(jì)迭代計(jì)算可得。4.3.2線性回歸的概率關(guān)聯(lián) 利用最小二乘法進(jìn)行線性回歸,定義cost函數(shù)為 J(w)= (1)這個(gè)定義其實(shí)隱含著樣本點(diǎn)回歸誤差服從一定概率分布的假定。假設(shè)樣本數(shù)對(duì) 間關(guān)系由如下線性函數(shù)表達(dá): (2)其中表示誤差值,設(shè)該誤差值為IID隨機(jī)變量并服從高斯分布,其密度函數(shù)為: (3) 這意味著在給定 和的條件下的概率密度為: (4)在給定X,w的條件下,Y的

28、概率科表示為p(Y/W;w),將這個(gè)概率看成w的函數(shù),我們稱之為似然函數(shù),L(w)=L(w;X,Y)=p(Y/X;w) (5)在獨(dú)立分布的假定下,給定的條件下獨(dú)立分布,給出表示,關(guān)系的概率模型,根據(jù)最大似然原理,為合理擬合數(shù)據(jù)應(yīng)選取w使得L(w)最大化,但計(jì)算比較繁瑣,取L(w)的對(duì)數(shù)最為對(duì)數(shù)似然l(w)以簡化最大值分析, l(w)= logL(w) (6) 從對(duì)數(shù)函數(shù)的性質(zhì)知,當(dāng)l(w)最大時(shí)相應(yīng)使L(w)達(dá)到最大,相當(dāng)于使 (7)最小。對(duì)照(1)式可知,(8)式即最小二乘法的cost函數(shù)J(w)。 4.3.3非線性數(shù)據(jù)(曲線)擬合 非線性曲線擬合是已知輸入向量xdata和輸出向量ydata

29、,并且知道輸入與輸出的函數(shù)關(guān)系為ydata=F(x, xdata),但不知道系數(shù)向量x。今進(jìn)行曲線擬合,求x使得下式成立: 在MATLAB5.x中,使用函數(shù)curvefit解決這類問題。函數(shù) lsqcurvefit格式 x = lsqcurvefit(fun,x0,xdata,ydata)x = lsqcurvefit(fun,x0,xdata,ydata,lb,ub)x = lsqcurvefit(fun,x0,xdata,ydata,lb,ub,options)x,resnorm = lsqcurvefit()x,resnorm,residual = lsqcurvefit()x,resn

30、orm,residual,exitflag = lsqcurvefit()x,resnorm,residual,exitflag,output = lsqcurvefit()x,resnorm,residual,exitflag,output,lambda = lsqcurvefit()x,resnorm,residual,exitflag,output,lambda,jacobian =lsqcurvefit()參數(shù)說明:x0為初始解向量;xdata,ydata為滿足關(guān)系ydata=F(x, xdata)的數(shù)據(jù);lb、ub為解向量的下界和上界,若沒有指定界,則lb= ,ub= ;option

31、s為指定的優(yōu)化參數(shù);fun為擬合函數(shù),其定義方式為:x = lsqcurvefit(myfun,x0,xdata,ydata),其中myfun已定義為 function F = myfun(x,xdata)F = % 計(jì)算x處擬合函數(shù)值fun的用法與前面相同;resnorm=sum (fun(x,xdata)-ydata).2),即在x處殘差的平方和;residual=fun(x,xdata)-ydata,即在x處的殘差;exitflag為終止迭代的條件;output為輸出的優(yōu)化信息;lambda為解x處的Lagrange乘子;jacobian為解x處擬合函數(shù)fun的jacobian矩陣。 標(biāo)

32、準(zhǔn)化回歸系數(shù)和回歸模型的擬合程度。與多重線性回歸類似,自變量量綱(單位)不同,非標(biāo)準(zhǔn)化的Logistic回歸系數(shù)不能用于比較各自變量對(duì)事件發(fā)生概率的貢獻(xiàn)大小。欲研究Logistic回歸中各變量的相對(duì)貢獻(xiàn),要么事先將各自變量標(biāo)準(zhǔn)化后再作回歸分析,要么對(duì)logistic回歸系數(shù)進(jìn)行標(biāo)準(zhǔn)化。我們可以用極大似然函數(shù)的回歸系數(shù)乘以該變量的樣本標(biāo)準(zhǔn)差求得logistic回歸的標(biāo)準(zhǔn)化回歸系數(shù)。非線性數(shù)據(jù)(曲線)擬合非線性曲線擬合是已知輸入向量xdata和輸出向量ydata,并且知道輸入與輸出的函數(shù)關(guān)系為ydata=F(x, xdata),但不知道系數(shù)向量x。今進(jìn)行曲線擬合,求x使得下式成立:在MATLAB5

33、.x中,使用函數(shù)curvefit解決這類問題。函數(shù) lsqcurvefit格式 x = lsqcurvefit(fun,x0,xdata,ydata)x = lsqcurvefit(fun,x0,xdata,ydata,lb,ub)x = lsqcurvefit(fun,x0,xdata,ydata,lb,ub,options)x,resnorm = lsqcurvefit()x,resnorm,residual = lsqcurvefit()x,resnorm,residual,exitflag = lsqcurvefit()x,resnorm,residual,exitflag,outpu

34、t = lsqcurvefit()x,resnorm,residual,exitflag,output,lambda = lsqcurvefit()x,resnorm,residual,exitflag,output,lambda,jacobian =lsqcurvefit()參數(shù)說明:x0為初始解向量;xdata,ydata為滿足關(guān)系ydata=F(x, xdata)的數(shù)據(jù);lb、ub為解向量的下界和上界,若沒有指定界,則lb= ,ub= ;options為指定的優(yōu)化參數(shù);fun為擬合函數(shù),其定義方式為:x = lsqcurvefit(myfun,x0,xdata,ydata),其中myfu

35、n已定義為 function F = myfun(x,xdata)F = % 計(jì)算x處擬合函數(shù)值fun的用法與前面相同;resnorm=sum (fun(x,xdata)-ydata).2),即在x處殘差的平方和;residual=fun(x,xdata)-ydata,即在x處的殘差;exitflag為終止迭代的條件;output為輸出的優(yōu)化信息;lambda為解x處的Lagrange乘子;jacobian為解x處擬合函數(shù)fun的jacobian矩陣。5.問題(四)的模型建立與求解4.5問題(五)的模型建立與求解4.5.1預(yù)處理分析語音信號(hào)的特征向量一般分為兩類:第一類為時(shí)域特征向量,通常將幀

36、語音信號(hào)的各個(gè)時(shí)域采樣值直接構(gòu)成一個(gè)向量。第二類為變換域特征向量,即對(duì)一幀語音信號(hào)進(jìn)行某種變換后產(chǎn)生的特征向量。前者的優(yōu)點(diǎn)在于計(jì)算簡單,缺點(diǎn)是不能壓縮維數(shù)且不適于表征幅度譜特性。與此對(duì)應(yīng),各種變換域特征向量的計(jì)算比較復(fù)雜,但能從不同的角度反映幅度譜的特征,如圖。4.5.2錯(cuò)點(diǎn)剔除在數(shù)字信號(hào)的測試采集中,由于外界干擾或僅器的臨時(shí)故障等原因,隨時(shí)會(huì)出現(xiàn)異常數(shù)據(jù),即所謂異點(diǎn)。如在AD轉(zhuǎn)換中由于接地不當(dāng)或其它原因會(huì)在抽樣數(shù)據(jù)中有異常的正頗峰值,產(chǎn)生突變異點(diǎn)的存在會(huì)影響分析結(jié)果。特別是對(duì)高頻分量的影響,必須加以剔除隨機(jī)數(shù)字信號(hào)。用robust回歸。例如: x = (1:10)' y = 10 -

37、 2*x + randn(10,1); y(10) = 0; bls = regress(y,ones(10,1) x) brob = robustfit(x,y) scatter(x,y) hold on plot(x,brob(1)+brob(2)*x,'r-', x,bls(1)+bls(2)*x,'m:')零均值變換:了解分析信號(hào)的統(tǒng)計(jì)特性,消除數(shù)據(jù)中的直流分量需對(duì)信號(hào)作零均值變換。預(yù)濾波:在信號(hào)分析中,一方面信號(hào)中常常會(huì)存在一些不需要的高頻噪聲成分;另一方面有時(shí)我們只對(duì)某一頻段的信號(hào)成分感興趣。因此在信號(hào)分析時(shí)首先要對(duì)信號(hào)進(jìn)行預(yù)濾波。濾波器可分為兩大類

38、即經(jīng)典濾波器和現(xiàn)代濾波器。六、模型的優(yōu)缺點(diǎn)及改進(jìn)方向8.1模型的優(yōu)點(diǎn):(1)在解決問題一時(shí),調(diào)用MATLAB函數(shù)wavread()提取的聲音信號(hào)清晰,對(duì)比性強(qiáng);plot()函數(shù)繪制的聲音信號(hào)圖像直觀、易懂。(2)在解決問題二時(shí),引入一種非線性歸一化方法,隨后實(shí)現(xiàn)多個(gè)特征提取算法。采用特征的均值和方差來解決特征歸一化問題,輸出范圍有效地限制在了0-1內(nèi)。其中,LPC是特征向量提取的重要手段,它能很好地進(jìn)行譜估計(jì),即可作為語音特征的參數(shù)。因此僅用12個(gè)LPC系數(shù)就能很好地表示復(fù)雜語音信號(hào)的特征,這就大大降低了信號(hào)的冗余度并有效地減少了計(jì)算的有效數(shù)據(jù)。(3)在解決問題三時(shí),利用最小二乘法進(jìn)行線性回歸

39、定義cost函數(shù),根據(jù)最大似然原理,做出樣本點(diǎn)回歸誤差服從一定概率分布的假定。根據(jù)樣本間關(guān)系,設(shè)該誤差值的隨機(jī)變量服從高斯分布。在回歸問題中,如果響應(yīng)y為二值性的,便實(shí)際成為分類問題,即所謂二分類問題。使問題更加直觀。(4)在解決問題四時(shí),運(yùn)用遺傳算法來優(yōu)化參數(shù),極大的提高了識(shí)別的性能和正確率1.與問題領(lǐng)域無關(guān)的快速隨機(jī)的搜索能力2.搜索從群體出發(fā),具有潛在的并行性,可以進(jìn)行多個(gè)個(gè)體的同時(shí)比較3搜索啟用函數(shù)啟發(fā),過程簡單4.使用概率機(jī)制進(jìn)行迭代,具有隨機(jī)性5.具有可拓展性,容易與其他算法結(jié)合(5)在解決問題五時(shí),由于各種客觀因素的影響在采集到的信號(hào)中常常混有噪聲。在對(duì)信號(hào)分析之前進(jìn)行一些處理,

40、盡可能減小噪聲對(duì)有用信號(hào)的干擾,為消除信號(hào)細(xì)微處的波形波動(dòng)做好了鋪墊。8.2 模型的缺點(diǎn):(1) 對(duì)于問題一,對(duì)于問題一的主要缺點(diǎn)是在應(yīng)用matlab 時(shí),不能把完全影響正常和非正常的聲音因素考慮進(jìn)去。(2) 對(duì)于問題二,隱馬爾可夫模型有一定的自身局限性,例如它無法解決模凌兩可的發(fā)音(3) 對(duì)于問題三,二分類模型在文中的缺點(diǎn)是多目標(biāo)的優(yōu)化識(shí)別率低(4) 對(duì)于問題四,遺傳算法的編程實(shí)現(xiàn)比較復(fù)雜,首先需要對(duì)問題進(jìn)行編碼,找到最優(yōu)解之后還需要對(duì)問題解碼;其次,遺傳算法不能陷入打規(guī)模計(jì)算的領(lǐng)域;(5) 對(duì)于問題五,不能完全完全的剔除噪音8.3模型的改進(jìn)方向1.將(2)問題中的模型用隱馬可夫模型和人工神

41、經(jīng)網(wǎng)路模型相結(jié)合的混合模型來對(duì)語音進(jìn)行識(shí)別,這樣會(huì)消除隱馬可夫模型的缺點(diǎn),同時(shí)人工神經(jīng)網(wǎng)絡(luò)的參與使識(shí)別正確率更高7、 參考文獻(xiàn)1陳方,高升,語音識(shí)別技術(shù)及發(fā)展,北京:電信科學(xué),1996年。 2胡良劍,孫曉君,MATLAB和數(shù)學(xué)實(shí)驗(yàn),北京:高等教育出版社,2006年。3劉行峻等,語音信號(hào)數(shù)字處理,北京:電子工業(yè)出版社,2000年。4胡光銳,語音處理與識(shí)別,上海:上海科技文獻(xiàn)出版社,1994年。5何強(qiáng),何英,MATLAB擴(kuò)展編程,北京:清華大學(xué)出版社,2002年。6 劉樹棠譯,數(shù)字信號(hào)處理使用MATLAB,西安:西安交通大學(xué)出版社,2002年。 7劉衛(wèi)國.MATLAB程序設(shè)計(jì)與應(yīng)用.北京

42、:高等教育出版社,2006年第二版.8同濟(jì)大學(xué)應(yīng)用數(shù)學(xué)系編.高等數(shù)學(xué).北京:高等教育出版社,2006年第三版.9華東師范大學(xué)數(shù)學(xué)系編.數(shù)學(xué)分析.北京:高等教育出版社,2008年第三版.10韓中庚.數(shù)學(xué)建模競賽獲獎(jiǎng)?wù)撐木x與點(diǎn)評(píng).北京:科學(xué)出版社,2007. 八、附錄附錄一:用MATLAB函數(shù)提取聲音信號(hào)%聲音信號(hào)的提取 x,fs=wavread('kz'); figure(1); subplot(3,1,1); plot(x(1:4000); title('e:sound正40.mat'); y=fft(x);&

43、#160;subplot(3,1,2); plot(abs(y); title('幅值');%聲音信號(hào)的提取 x,fs=wavread('kz'); figure(1); subplot(3,1,1); plot(x(1:4000); title('e:sound非40.mat'); y=fft(x); subplot(3,1,2); plot(abs(y); title('幅值');subplot(3,1,1);

44、0;plot(x(1:4000); title('e:sound非40.mat'); y=fft(x); subplot(3,1,2); plot(abs(y); title('幅值');附錄二:用plot()函數(shù)繪制其圖像load('e:sound正40.mat')Sound(y,F(xiàn)s)plot(y)load('e:sound非40.mat')Sound(y,F(xiàn)s)plot(y)附錄三:求lpc倒譜funclipon=addwin(f)%此函致用來分幀后,在“加窗”的同時(shí)提取Ip

45、c倒譜參數(shù)%f是分幀后得到的值,f=enframe(py, win,inc)b=;for i=l;size(f,1),y=f(i,:);%顯示第i行的所有數(shù)據(jù)P=(. * hamming(256);%加窗c=Ipc(p) :%求Ipcd=ccaps(c),求Ipc倒譜b=(b.d(2: 13);%取2到13個(gè),一共12個(gè)end;附錄6:刪除誤差較大點(diǎn)clear;clc; data=load('data.txt');k=84;s=zeros(84,1);for i=1:84 sum_x=0; sum_y=0; sum_z=0; for j=1:k sum_x=sum_x+data

46、(j,1); sum_y=sum_y+data(j,2); sum_z=sum_z+data(j,3); end mean_x=sum_x/k; mean_y=sum_y/k; mean_z=sum_z/k; for j=1:k e(j)=(data(j,1)-mean_x)2+(data(j,2)-mean_y)2+(data(j,3)-mean_z)2; end max=0; flag=0; for j=1:k s(i)=s(i)+e(j); if e(j)>max max=e(j); flag=j; end end s(i)=s(i)/k; data(j,:)=; k=k-1;en

47、dplot(s);hold on;plot(25,s(25),'r*');xlabel('Êý¾Ýµãɾ³ý¸öÊý');ylabel('¾àÀë¾ù·½Îó²î');附錄7:遺傳算法 function result=sga(n,a,b,pc,pm,e) %n

48、群體規(guī)模;a搜索上限;b搜索下限; %pc交叉概率;pm變異概率;e計(jì)算精度; for i=1:50 %求出群體的碼串最小長度m if (b-a)/e>2(i) m=i+1; else i=i+1; end end popusize=n;chromlength=m;j=1; popu=round(rand(popusize,chromlength); %隨機(jī)產(chǎn)生n行m列的初始群體 while j<=30 %設(shè)置程序

49、中止條件 py=chromlength; for i=1:py %進(jìn)行二進(jìn)制轉(zhuǎn)換成十進(jìn)制的解碼操作 popu1(:,i)=2.(py-1).*popu(:,i); py=py-1; end popu2=sum(popu1,2); x=a+popu2*(b-a)/(2.1-1); yvalue=2*x.2.*cos(3*x)+x.*sin(5*x)+8; %計(jì)算群體中每個(gè)個(gè)體的適應(yīng) 度 for i=1:popusize %執(zhí)行復(fù)制操作 if yvalue(i)<0 yvalue(i)=0; end end fitscore=yvalue/sum(yv

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論