版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計(jì) 題目:基于語(yǔ)音識(shí)別的特征參數(shù)提取研究 專業(yè):電子信息工程技術(shù) 姓名:黃莉珊 學(xué)號(hào):201004520121 指導(dǎo)教師:潘丹青 20 13 年 4 月 1 日 畢 業(yè) 設(shè) 計(jì)( 論 文 )評(píng) 語(yǔ)指導(dǎo)教師評(píng)語(yǔ) 簽字: 20 年 月 日評(píng)閱教師評(píng)語(yǔ) 簽字: 20 年 月 日畢業(yè)設(shè)計(jì)(論文)答辯記錄成績(jī)及評(píng)語(yǔ)答辯提問(wèn)記錄 記錄人: 20 年 月 日答辯委員會(huì)評(píng)語(yǔ)成 績(jī):主任簽字: 20 年 月 日桂林航天工業(yè)學(xué)院電子工程系畢 業(yè) 設(shè) 計(jì) 任 務(wù) 書(shū)裝 訂 線專業(yè):電子信息工程技術(shù)年級(jí):2010級(jí)姓名黃莉珊學(xué)號(hào)201004520121指導(dǎo)教師(簽名)畢業(yè)設(shè)計(jì)題目基于語(yǔ)音識(shí)別的特
2、征參數(shù)提取研究任務(wù)下達(dá)日期2012年 11月10 日設(shè)計(jì)提交期限2013年6月10日設(shè)計(jì)主要內(nèi)容本畢業(yè)論文的主要內(nèi)容首先是分析語(yǔ)音識(shí)別的基本原理及語(yǔ)音識(shí)別的方法;然后討論了語(yǔ)音信號(hào)的預(yù)處理、端點(diǎn)檢測(cè)及語(yǔ)音特征參數(shù):Mel倒譜系數(shù)和LPC倒譜系數(shù);最后針對(duì)MEL頻率倒譜系數(shù)及LPC倒譜系數(shù)的提取進(jìn)行研究,并對(duì)仿真結(jié)果進(jìn)行分析。主要技術(shù)參數(shù)指標(biāo)Mel倒譜系數(shù)和LPC倒譜系數(shù)的提取方法, 語(yǔ)音信號(hào)的預(yù)處理、端點(diǎn)檢測(cè)方法的分析 ,Matlab仿真。成果提交形式將論文裝訂成冊(cè),提交全部畢業(yè)文檔設(shè)計(jì)進(jìn)度安排1、課題的準(zhǔn)備階段:(2012年11月-2013年12月)2、課題研究與系統(tǒng)開(kāi)發(fā)階段:(2013年1
3、月-2013年3月)3、撰寫(xiě)階段(2013年4月-2013年5月)4、提交論文準(zhǔn)備答辯階段:(2013年5月2013年6月) 教研室意見(jiàn) 簽名: 20 年 月 日 系主任意見(jiàn)簽名: 20 年 月 日桂林航天工業(yè)學(xué)院電子工程系畢 業(yè) 設(shè) 計(jì) 開(kāi) 題 報(bào) 告裝 訂 線姓名黃莉珊學(xué)號(hào)201004520121指導(dǎo)教師潘丹清畢業(yè)設(shè)計(jì)題目基于語(yǔ)音識(shí)別的特征參數(shù)提取研究同組設(shè)計(jì)目的意義語(yǔ)音信號(hào)處理是一門(mén)新興的邊緣學(xué)科,它是語(yǔ)音學(xué)和數(shù)字信號(hào)處理兩個(gè)學(xué)科相結(jié)合的產(chǎn)物。它和認(rèn)知科學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、模式識(shí)別和人工智能等學(xué)科有著緊密的聯(lián)系。語(yǔ)音信號(hào)處理的發(fā)展依賴于這些學(xué)科的發(fā)展,而語(yǔ)音信號(hào)處理技術(shù)的進(jìn)步
4、也會(huì)促進(jìn)這些領(lǐng)域的進(jìn)步。作為高科技應(yīng)用領(lǐng)域的研究熱點(diǎn),語(yǔ)音信號(hào)處理技術(shù)從理論的研究到實(shí)際應(yīng)用已取得非常大的進(jìn)步。對(duì)語(yǔ)音識(shí)別特征參數(shù)的提取與研究對(duì)語(yǔ)音信號(hào)處理技術(shù)的發(fā)展起著重要的作用,而語(yǔ)音信號(hào)處理技術(shù)的發(fā)展推動(dòng)者社會(huì)進(jìn)步的發(fā)展。方案論證利用馬爾可夫模型方法(HMM)。隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和輸出概率的隨機(jī)模型,最早在CMU和IBM被用于語(yǔ)音識(shí)別。它把語(yǔ)音看成由可觀察到的符合序列組成的隨機(jī)過(guò)程,符號(hào)序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用隱馬爾可夫模型識(shí)別時(shí),為每個(gè)說(shuō)話人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出概率矩陣。識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概
5、率對(duì)應(yīng)的模型進(jìn)行判決。對(duì)于與文本無(wú)關(guān)的語(yǔ)音識(shí)別一般采用各態(tài)歷經(jīng)型HMM;對(duì)于與文本有關(guān)的說(shuō)話人識(shí)別一般采用從左到右型HMM。HMM不需要時(shí)間規(guī)整,可節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量,在目前被廣泛應(yīng)用。 時(shí)間安排1、課題的準(zhǔn)備階段:(2012年11月-2013年12月)2、課題研究與系統(tǒng)開(kāi)發(fā)階段:(2013年1月-2013年3月)3、撰寫(xiě)階段(2013年4月-2013年5月)4、提交論文準(zhǔn)備答辯階段:(2013年5月2013年6月) 指導(dǎo)教師意見(jiàn) 簽字: 年 月 日 審核小組意見(jiàn) 組長(zhǎng)簽字: 年 月 日III桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計(jì)(論文)摘 要語(yǔ)音識(shí)別就是讓機(jī)器能夠聽(tīng)懂人話,它是以語(yǔ)音為研究對(duì)象的
6、,是語(yǔ)音信號(hào)處理的一個(gè)重要的研究方向。隨著計(jì)算機(jī)技術(shù)、多媒體技術(shù)、數(shù)字信號(hào)處理技術(shù)的發(fā)展,人們對(duì)語(yǔ)音識(shí)別技術(shù)的發(fā)展寄予了更高的期望. 語(yǔ)音識(shí)別擁有著可觀的應(yīng)用背景,同時(shí)作為一個(gè)交叉學(xué)科也具有深遠(yuǎn)的理論研究?jī)r(jià)值。論文首先在第一章介紹了語(yǔ)音識(shí)別發(fā)展歷史及發(fā)展趨勢(shì),語(yǔ)音識(shí)別系統(tǒng)的原理組成以及語(yǔ)音特征參數(shù)的提取在語(yǔ)音識(shí)別中的作用。之后,本文對(duì)語(yǔ)音信號(hào)識(shí)別的一些基本理論及算法進(jìn)行了一些研究和實(shí)驗(yàn).首先在第二章對(duì)語(yǔ)音信號(hào)的處理及特征進(jìn)行了介紹.論文在介紹分析了語(yǔ)音識(shí)別產(chǎn)生的數(shù)字模型和語(yǔ)音信號(hào)預(yù)處理問(wèn)題之后,針對(duì)傳統(tǒng)端點(diǎn)檢測(cè)算法的不足,提出了一種基于短時(shí)平均能量的端點(diǎn)檢測(cè)算法。論文論述了語(yǔ)音特征參數(shù)的提取需
7、要滿足的條件對(duì)線性預(yù)測(cè)進(jìn)行了詳細(xì)的分析,通過(guò)做實(shí)驗(yàn),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行仿真.對(duì)MEL倒譜系數(shù)進(jìn)行闡述,并對(duì)MFCC參數(shù)提取過(guò)程進(jìn)行分析最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行仿真與分析。關(guān)鍵詞:語(yǔ)音識(shí)別;特征提??;端點(diǎn)檢測(cè) ;倒譜系數(shù)AbstractThe speech recognition is one of the important research directions of speech signal processingThe study of speech recognition is to force machine to understand what the logical expressionS
8、peech recognition is very promising in applicationAs an interdisciplinary field,it is also theoretically very valuedThis thesis introduces some theories about speech recognition and also presents the results of some experiments of improving the speech recognition algorithms. In chapter 2 we describe
9、 the processing of the speech signal and the feature extraction. Based on introduction and analysis of the speech recognition produce digital model and speech signal preprocessing after problems, aiming at the deficiency of the traditional endpoint detection algorithm, this paper puts forward a spee
10、ch signal based on short time average energy endpoint detection algorithm. This paper discusses the extraction of speech feature parameters need to meet the conditions on the linear prediction are analyzed in detail, and through the experiment, the result of the experiment simulation. For MEL cepstr
11、um coefficient is expounded, and the MFCC parameter extraction process to carry on the analysis to the experimental results in simulation and analysis.Keywords:speech recognition feature extraction endpoint detection MFCC目 錄評(píng)語(yǔ) 答辯記錄 畢業(yè)設(shè)計(jì)任務(wù)書(shū) 畢業(yè)設(shè)計(jì)開(kāi)題報(bào)告 中英文摘要 V引言 11 緒論21.1語(yǔ)音識(shí)別發(fā)展歷史及發(fā)展趨勢(shì)21.2語(yǔ)音識(shí)別系統(tǒng)的原理組成31.3
12、語(yǔ)音特征參數(shù)的提取在語(yǔ)音識(shí)別中的作用42 語(yǔ)音信號(hào)預(yù)處理5 2.1語(yǔ)音信號(hào)的預(yù)加重 6 2.2語(yǔ)音信號(hào)的采樣與濾波 7 2.3語(yǔ)音信號(hào)的加窗與分幀8 2.4 語(yǔ)音端點(diǎn)檢測(cè)9 2.4.1 語(yǔ)音信號(hào)短時(shí)平均能量10 2.4.2 語(yǔ)音信號(hào)短時(shí)平均過(guò)零率12 3 語(yǔ)音特征參數(shù)提取133.1線性預(yù)測(cè)倒譜系數(shù)LPCC143.1.1線性預(yù)測(cè)分析153.1.2 線性預(yù)測(cè)倒譜分析15 3.2 MEL倒譜系數(shù)MFCC16 3.2.1 MEL頻率16 3.2.2MFCC參數(shù)提取17 3.2.3 實(shí)驗(yàn)仿真結(jié)果與分析184 結(jié)論20謝辭23參考文獻(xiàn)24附錄26第VI頁(yè)桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計(jì)(論文)引 言語(yǔ)音信號(hào)處理是
13、語(yǔ)音學(xué)與數(shù)字信號(hào)處理技術(shù)相結(jié)合的交叉學(xué)科,它和認(rèn)知科學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、模式識(shí)別和人工智能等學(xué)科聯(lián)系緊密。語(yǔ)音信號(hào)處理技術(shù)的發(fā)展依賴于這些學(xué)科的發(fā)展,而語(yǔ)音信號(hào)處理技術(shù)的進(jìn)步也會(huì)促成這些學(xué)科的進(jìn)步。語(yǔ)音信號(hào)處理的目的是要得到某些語(yǔ)音特征參數(shù)以便高效地傳輸或存儲(chǔ);或者是通過(guò)某種處理運(yùn)算以達(dá)到某種用途的要求,如人工合成語(yǔ)音、辨識(shí)出講話者、識(shí)別出講話的內(nèi)容等。語(yǔ)音合成技術(shù)、語(yǔ)音編碼技術(shù)及語(yǔ)音識(shí)別技術(shù)作為語(yǔ)音信號(hào)處理的三個(gè)分支。語(yǔ)言作為人類最重要的交流工具,是人類獲得信息的重要來(lái)源之一,讓計(jì)算機(jī)能“聽(tīng)懂”人類的語(yǔ)言,也是人與計(jì)算機(jī)之間進(jìn)行溝通最方便的形式之一。用語(yǔ)音來(lái)實(shí)現(xiàn)人與計(jì)算機(jī)之間的交
14、互,主要包括三項(xiàng)技術(shù),即語(yǔ)音識(shí)別、自然語(yǔ)言理解和語(yǔ)音合成。隨著計(jì)算機(jī)處理能力的迅速提高,語(yǔ)音識(shí)別技術(shù)得到了飛速發(fā)展。20世紀(jì)90年代,語(yǔ)音識(shí)別技術(shù)從實(shí)驗(yàn)室走向應(yīng)用,今天,語(yǔ)音識(shí)別技術(shù)受到了國(guó)內(nèi)外研究機(jī)構(gòu)的廣泛關(guān)注和高度重視,其應(yīng)用也必將帶來(lái)良好的社會(huì)和經(jīng)濟(jì)效益。1 緒論人類的語(yǔ)言在人們的生活中起著極其重要的作用,人與人之間的交流方式有很多種,但是70都是通過(guò)語(yǔ)音來(lái)有效的完成的。語(yǔ)音是人類相互之間進(jìn)行交流時(shí),使用最多、最自然、最基本的信息載體。與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。而語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)
15、。1.1 語(yǔ)音識(shí)別發(fā)展歷史及趨勢(shì)語(yǔ)音識(shí)別,就是讓計(jì)算機(jī)聽(tīng)得懂人說(shuō)的話,并能做出相應(yīng)的處理,也是人機(jī)交互最重要的第一步。它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,它涉及到生理學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、通信科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語(yǔ)言。就語(yǔ)音識(shí)別技術(shù)而言,其基本任務(wù)是將輸入語(yǔ)音轉(zhuǎn)化為相應(yīng)的文本或命令。語(yǔ)音識(shí)別的市場(chǎng)前景廣泛,在一些應(yīng)用領(lǐng)域中正迅速成為一個(gè)關(guān)鍵的具有競(jìng)爭(zhēng)力的技術(shù)。例如在聲控應(yīng)用中,計(jì)算機(jī)識(shí)別輸入的語(yǔ)音內(nèi)容,并根內(nèi)容來(lái)執(zhí)行相應(yīng)的動(dòng)作,這包括聲控電話轉(zhuǎn)換、聲控語(yǔ)音撥號(hào)系統(tǒng)、聲控智能玩具、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)等等。語(yǔ)音識(shí)別
16、也可用于將文字以口授的方式輸入到計(jì)算機(jī)中,即廣泛開(kāi)展的聽(tīng)寫(xiě)機(jī)研究,如聲控打字機(jī)等。語(yǔ)音識(shí)別技術(shù)還可以用于自動(dòng)口語(yǔ)翻譯,即通過(guò)將口語(yǔ)識(shí)別技術(shù)、機(jī)器翻譯技術(shù)、語(yǔ)音合成技術(shù)等相結(jié)合,可將一種語(yǔ)言輸入的語(yǔ)音翻譯成另一種語(yǔ)言的語(yǔ)音輸出,實(shí)現(xiàn)跨語(yǔ)言的交流。對(duì)說(shuō)話人識(shí)別技術(shù),近年來(lái)已經(jīng)在安全加密、銀行信息電話查詢服務(wù)等方面得到了很好的應(yīng)用。此外,在公安機(jī)關(guān)破案和法庭取證方面也發(fā)揮著重要的作用。語(yǔ)音識(shí)別技術(shù)的研究開(kāi)始于上世紀(jì)40年代末,起初發(fā)展很慢。到了上世紀(jì)50年代初,當(dāng)時(shí)AT&TBell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)Audry系統(tǒng),也標(biāo)志著語(yǔ)音識(shí)別技術(shù)的研究真正開(kāi)始了。到了60
17、年代,計(jì)算機(jī)應(yīng)用更加的普遍,也推動(dòng)了語(yǔ)音識(shí)別技術(shù)的發(fā)展,人們完成了幾項(xiàng)對(duì)今后20年語(yǔ)音識(shí)別發(fā)展產(chǎn)生重要影響的工作。到了70年代,語(yǔ)音識(shí)別領(lǐng)域取得了更大的突破在理論上,LP技術(shù)得到進(jìn)一步發(fā)展,人們將在語(yǔ)音壓縮領(lǐng)域取得了巨大成功的線性預(yù)測(cè)編碼技術(shù)(LPC)引入了語(yǔ)音識(shí)別。動(dòng)態(tài)時(shí)間歸整技術(shù)(DTW)基本成熟,并且在語(yǔ)音識(shí)別領(lǐng)域得到了全面的應(yīng)用。80年代,語(yǔ)音識(shí)別研究更加的深入,語(yǔ)音識(shí)別領(lǐng)域出現(xiàn)了里程碑式的成果。進(jìn)入90年代,多媒體時(shí)代的到來(lái),人們對(duì)智能化的需求越來(lái)越迫切,這就要求語(yǔ)音識(shí)別系統(tǒng)走出實(shí)驗(yàn)室走向市場(chǎng)。隨著科技的發(fā)展和人們對(duì)語(yǔ)音識(shí)別理論的逐漸深入化的研究,理論體系的日趨成熟,隨著數(shù)字信號(hào)處理
18、技術(shù)的發(fā)展,在未來(lái)20年,語(yǔ)音識(shí)別技術(shù)將逐漸的進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療以及各種電子設(shè)備中??梢钥隙ǖ卣f(shuō),語(yǔ)音識(shí)別技術(shù)必將成為未來(lái)信息產(chǎn)業(yè)中的一項(xiàng)關(guān)鍵的技術(shù)。但是也不可否認(rèn),它還有很長(zhǎng)的一段路需要走,要真正的商業(yè)化,還需要在多方面取得突破性的進(jìn)展,還需要借助于其它相關(guān)學(xué)科的發(fā)展。1.2 語(yǔ)音識(shí)別系統(tǒng)原理的組成語(yǔ)音識(shí)別本質(zhì)上是一種模式識(shí)別的過(guò)程,它主要包括語(yǔ)音信號(hào)預(yù)處理、特征提取、特征建模、測(cè)度估計(jì)、識(shí)別判決等幾個(gè)功能模塊。一個(gè)語(yǔ)音識(shí)別主要由學(xué)習(xí)和識(shí)別兩個(gè)過(guò)程組成,學(xué)習(xí)階段就是要采用語(yǔ)言的分析方法分析出某種識(shí)別方法所要求的語(yǔ)音特征參數(shù),這些參數(shù)被存儲(chǔ)起來(lái)作為模板。識(shí)別過(guò)程就是模式匹配的
19、過(guò)程,它也是整個(gè)系統(tǒng)的核心,其作用是根據(jù)語(yǔ)音和不同的層面按照相應(yīng)的準(zhǔn)則求取待測(cè)語(yǔ)音特征參數(shù)和語(yǔ)音信息與模式庫(kù)中相應(yīng)模板之間的測(cè)度,形成系最佳的識(shí)別輸出。語(yǔ)音識(shí)別基本結(jié)構(gòu)預(yù)處理特征提取模式匹配后處理語(yǔ)音模式庫(kù)語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng),基本結(jié)構(gòu)如圖1.1所示。 圖1.1 1.預(yù)處理預(yù)處理包括預(yù)加重、反混疊濾波、模/數(shù)轉(zhuǎn)換、自動(dòng)增益控制等處理過(guò)程,用于去除聲門(mén)激勵(lì)、口鼻輻射、高于1/2采樣頻率的高頻和噪聲信號(hào)的影響,實(shí)現(xiàn)語(yǔ)音信號(hào)的數(shù)字化。在語(yǔ)音識(shí)別中,預(yù)處理還包括在聲學(xué)參數(shù)分析之前正確選擇識(shí)別基本的問(wèn)題。2.特征提取經(jīng)過(guò)預(yù)處理后的語(yǔ)音信號(hào),要對(duì)其進(jìn)行特征提取,即特征參數(shù)分析。該過(guò)程就
20、是從原始語(yǔ)音信號(hào)中抽取出能夠反映語(yǔ)音本質(zhì)的特征參數(shù),形成特征矢量序列。3.語(yǔ)音模型庫(kù)語(yǔ)音模型庫(kù)即聲學(xué)參數(shù)模板,它是用聚類分析等方法,從一個(gè)講話者或多個(gè)講話者的多次重復(fù)的語(yǔ)音參數(shù),經(jīng)過(guò)長(zhǎng)時(shí)間的訓(xùn)練得到的。4.模式匹配將輸入語(yǔ)音的特征參數(shù)同訓(xùn)練得到的語(yǔ)音模式庫(kù)進(jìn)行比較分析,從而得到初步識(shí)別結(jié)果。根據(jù)模式識(shí)別方法的不同,用于語(yǔ)音識(shí)別系統(tǒng)時(shí)有統(tǒng)計(jì)模式識(shí)別法和句法模式識(shí)別法兩類。(1) 統(tǒng)計(jì)模式識(shí)別法:建立在最大似然決策貝葉斯判決基礎(chǔ)之上,大致的識(shí)別過(guò)程是:首先,提取語(yǔ)音的特征,并訓(xùn)練識(shí)別用的參數(shù)模板;然后,利用可以衡量未知模式和參考模式的似然度來(lái)測(cè)量函數(shù);最后,選用一種最佳準(zhǔn)則及專家知識(shí)作為識(shí)別決策,
21、對(duì)識(shí)別候選者進(jìn)行最后判決,得到最好的識(shí)別結(jié)果作為輸出。(2)句法模式識(shí)別法:類似于文章中的句法分析。它不僅應(yīng)用于語(yǔ)音識(shí)別,還廣泛的應(yīng)用于手寫(xiě)文字及圖像的識(shí)別上。5.后處理在大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,為了提高識(shí)別正確率需要使用語(yǔ)言模式,利用語(yǔ)言識(shí)別單位之間連接時(shí)的相互制約關(guān)系,采取統(tǒng)計(jì)方法與語(yǔ)法相結(jié)合的方法建立語(yǔ)言模型,達(dá)到限制識(shí)別器譯碼時(shí)的自由度,提高系統(tǒng)的性能。目前后處理在嵌入式語(yǔ)音系統(tǒng)中還很難使用。1.3 語(yǔ)音特征參數(shù)的提取在語(yǔ)音識(shí)別中的作用語(yǔ)音特征參數(shù)的提取是語(yǔ)音識(shí)別的一個(gè)重要步驟。所謂特征提取,即對(duì)不同的語(yǔ)音尋找其內(nèi)在特征,由此來(lái)差別出未知語(yǔ)音,所以每個(gè)語(yǔ)音識(shí)別系統(tǒng)都必須進(jìn)行特征提取
22、。特征的選擇對(duì)識(shí)別效果至關(guān)重要,選擇的標(biāo)準(zhǔn)應(yīng)體現(xiàn)對(duì)異音字之間的距離盡可能大,而同音字之間的距離應(yīng)盡可能小。同時(shí)還要考慮特征參數(shù)的計(jì)算量,應(yīng)在保持高識(shí)別率的情況下,盡可能減少特征以減小存儲(chǔ)要求和利于實(shí)時(shí)實(shí)現(xiàn)。孤立詞語(yǔ)音識(shí)別系統(tǒng)的特征提取一般需要解決兩個(gè)問(wèn)題,一個(gè)是從語(yǔ)音信號(hào)中提取(或測(cè)量)有的合適的特征參數(shù);另一個(gè)是進(jìn)行適當(dāng)?shù)臄?shù)據(jù)壓縮。而對(duì)于非特定人語(yǔ)音識(shí)別來(lái)講,則希望特征參數(shù)盡可能多地反映主義信息,盡量減少說(shuō)話人的個(gè)人信息。計(jì)算機(jī)語(yǔ)音識(shí)別是一個(gè)模式識(shí)別匹配的過(guò)程。在這個(gè)過(guò)程中,計(jì)算機(jī)首先要根據(jù)人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,并抽取所需的特征參數(shù),在此基礎(chǔ)上才能建立語(yǔ)音識(shí)別所
23、需的模板。而計(jì)算機(jī)在識(shí)別過(guò)程中要根據(jù)語(yǔ)音識(shí)別的整體模型,將計(jì)算機(jī)中存放的語(yǔ)音模板與輸入的語(yǔ)音信號(hào)的特征進(jìn)行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語(yǔ)音匹配的模板,求出識(shí)別結(jié)果。顯然,這種最優(yōu)的結(jié)果與特征的選擇、語(yǔ)音模型和語(yǔ)言模型的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系。因此,語(yǔ)音的特征提取在語(yǔ)音識(shí)別處理中具有舉足輕重的作用。語(yǔ)音的特征提取實(shí)質(zhì)上是起降維的作用,用較少的維數(shù)來(lái)表示說(shuō)話人的特征。常用的語(yǔ)音特征包括Pitch(基音)、Formant(共振峰)、LPCC(線性預(yù)測(cè)倒譜系數(shù))、MFCC(Mel頻率倒譜系數(shù))。近幾年,科學(xué)工作者在研究語(yǔ)音識(shí)別時(shí),用的最多的特征提取方法就是基于線
24、性預(yù)測(cè)倒譜系數(shù)方法。語(yǔ)音信號(hào)完成分幀處理和端點(diǎn)檢測(cè)后,下一步就是特征參數(shù)的提取。在語(yǔ)音識(shí)別中,我們不能將原始波形直接用于識(shí)別,必須通過(guò)一定的變換,提取語(yǔ)音特征參數(shù)來(lái)進(jìn)行識(shí)別,而提取的特征必須滿足:1特征參數(shù)應(yīng)當(dāng)反映語(yǔ)音的本質(zhì)特征,對(duì)于非特定人語(yǔ)音識(shí)別,特征參數(shù)則應(yīng)盡量不含有說(shuō)話人的信息。2特征參數(shù)各分量之間的耦合應(yīng)盡可能地小,以起到壓縮數(shù)據(jù)的作用。3特征參數(shù)要計(jì)算方便,最好有高效的算法。語(yǔ)音特征參數(shù)可以是能量、基音頻率、共振峰值等語(yǔ)音參數(shù),目前在語(yǔ)音識(shí)別中較為常用的特征參數(shù)為線性預(yù)測(cè)倒譜系數(shù)(LPCC)與Mel倒譜系數(shù)(MFCC)。二者都是將語(yǔ)音從時(shí)域變換到倒譜域上,前者從人的發(fā)聲模型角度出發(fā)
25、,利用線性預(yù)測(cè)編碼(LPC)技術(shù)求倒譜系數(shù)。后者則構(gòu)造人的聽(tīng)覺(jué)模型,以語(yǔ)音通過(guò)該模型(濾波器組)的輸出為聲學(xué)特征,直接通過(guò)離散傅利葉變換(DFT)進(jìn)行變換。2 語(yǔ)音信號(hào)預(yù)處理在語(yǔ)音信號(hào)進(jìn)行分析和處理之前,必須要對(duì)所采集的語(yǔ)音信號(hào)進(jìn)行預(yù)處理。預(yù)處理階段包括語(yǔ)音的采樣、量化、反混疊濾波、預(yù)加重、加窗、及端點(diǎn)檢測(cè)等。由于語(yǔ)音信號(hào)的平均功率譜受聲門(mén)激勵(lì)和口鼻輻射的影響,高頻端大約在8000以上按6dB/倍頻程跌落,為此要在預(yù)處理中進(jìn)行預(yù)加重。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。預(yù)加重可在A/D變換前,在反混疊濾波之后進(jìn)行,也可在A/D變換之后進(jìn)行。用具有
26、6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),它一般是一階的,即: (2-1)式中,值接近1,典型值為0.96。由于語(yǔ)音信號(hào)是非平穩(wěn)過(guò)程,是時(shí)變的,但是人的發(fā)音器官的肌肉運(yùn)動(dòng)速度較慢,所以語(yǔ)音信號(hào)可以認(rèn)為是局部平穩(wěn)的,或短時(shí)平穩(wěn)。因此,語(yǔ)音信號(hào)分析常分段或分幀來(lái)處理,一般每秒的幀數(shù)約為33-100,視實(shí)際情況而定,分幀既可以是連續(xù)的,也可用交疊分段的方法,在語(yǔ)音信號(hào)分析中常用“短時(shí)分析”表述。短時(shí)分析實(shí)際上是用一個(gè)窗截取信號(hào)。數(shù)字信號(hào)處理理論告訴我們,兩個(gè)信號(hào)的時(shí)域相乘,在頻域相卷積,如果采用矩形窗,則矩形窗頻譜高頻成分必將影響語(yǔ)音信號(hào)的高頻部分,一般用高頻分量幅度較小的窗型,以避免這些
27、影響。對(duì)語(yǔ)音信號(hào)的各短段進(jìn)行處理,實(shí)際上就是對(duì)各短段進(jìn)行某種變換或施以某種運(yùn)算。設(shè)該變換用符號(hào)表示,它可以是線性或非線性的,可以是時(shí)不變的或者時(shí)變的,所有各段經(jīng)處理后可以得到時(shí)間序列,用表示: (2-2)2.1語(yǔ)音信號(hào)的預(yù)加重預(yù)加重的目的是為了提高信號(hào)中的高頻成分,語(yǔ)音信號(hào)的高頻成分幅值比較低,為了提高高頻分量的作用,有必要將其提升使得整個(gè)信號(hào)的頻譜比較平坦。此外還能抑制隨機(jī)噪聲。其方法是將原始信號(hào)通過(guò)一個(gè)一階FIR高通數(shù)字濾波器: (2-3)在時(shí)域內(nèi)它可表示為 (0.9<k<1) (2-4)圖2.1為k取0.98時(shí)所得高通濾波器的幅頻特性和相頻特性曲線。圖2.2分別為預(yù)加重前和預(yù)
28、加重后的一段濁音信號(hào)時(shí)域波形及頻譜。從圖中可以看出,預(yù)加重后的頻譜在高頻部分的幅度得至了提升。圖2.1 預(yù)加重濾波器的幅頻特性和相頻特性 圖2.2 預(yù)加重前后濁音信號(hào)及頻譜2.2 語(yǔ)音信號(hào)的采樣與濾波模擬語(yǔ)音信號(hào)是連續(xù)信號(hào),無(wú)法被計(jì)算機(jī)處理,所以語(yǔ)音信號(hào)處理的第一步,就是要將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。因此,必須經(jīng)過(guò)取樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語(yǔ)音信號(hào)。根據(jù)Nyquist采樣定理,當(dāng)取樣頻率大于語(yǔ)音特征參數(shù)提取方法研究頻率信號(hào)的兩倍帶寬時(shí),取樣過(guò)程中不會(huì)丟失信息,且從取樣信號(hào)中可以精確地重構(gòu)原始信號(hào)波形。通常電話語(yǔ)音地頻率范圍大約是60-
29、3400Hz左右,一般說(shuō)來(lái),電話語(yǔ)音的采樣率為8kHz(G711標(biāo)淮),正常人語(yǔ)音的頻率一般在40一4000Hz的范圍內(nèi)。成年男子的語(yǔ)音頻率較低,婦女和兒童的語(yǔ)音頻率較高。就語(yǔ)音信號(hào)而言,濁音語(yǔ)音的頻譜一般在4kHz以上便迅速下降,而清音語(yǔ)音信號(hào)的頻譜在4kHz以上頻段反而呈上升趨勢(shì),甚至超過(guò)了8kHz,以后仍然沒(méi)有明顯下降的趨勢(shì)。因此為了精確表示語(yǔ)音信號(hào),一般認(rèn)為必須保留10kHz以下的所有頻譜成分,這意味著采樣頻率應(yīng)當(dāng)?shù)扔诨虼笥?0kHz。但是在許多實(shí)際應(yīng)用中并不需要采用這么高的取樣頻率,實(shí)驗(yàn)表明對(duì)語(yǔ)音清晰度和可懂度有明顯影響的成分,最高頻率約為5.7kHz。例如ITU(Intematio
30、nalTelecommunicationUnion國(guó)際電信聯(lián)盟)G729中提出的語(yǔ)音編解碼系統(tǒng)采樣頻率為8kHz,只利用3.4kHz以內(nèi)的語(yǔ)音信號(hào)分量,雖然這樣的采樣頻率對(duì)語(yǔ)音清晰度是有損害的,但受損失的只是少數(shù)輔音,而語(yǔ)音信號(hào)本身的冗余度又比較大,少數(shù)輔音清晰度下降并不明顯影響語(yǔ)句的可懂度。因此語(yǔ)音識(shí)別時(shí)常用的采樣頻率為8kHz,10kHz或16kHz??紤]到高頻噪聲的存在,為了防止頻率高于二分之一采樣頻率的高頻噪聲產(chǎn)生頻譜混疊,通常語(yǔ)音信號(hào)在采樣前要進(jìn)行一次預(yù)濾波以濾掉高頻噪聲。預(yù)濾波還有一個(gè)目的是避免50Hz的電源干擾,因此預(yù)濾波要用一個(gè)帶通濾波器,其截止頻率由語(yǔ)音信號(hào)帶寬決定,并且希望
31、其帶內(nèi)波動(dòng)和帶外衰減特性盡可能好。在實(shí)際應(yīng)用中,常常希望從一個(gè)輸入信號(hào)中提取或增強(qiáng)所需要的頻率分量,濾除或衰減某些不需要的頻率分量,這個(gè)處理過(guò)程稱為信號(hào)的濾波。由于線性時(shí)不變系統(tǒng)的響應(yīng)頻譜等于系統(tǒng)激勵(lì)信號(hào)頻譜和系統(tǒng)頻率響應(yīng)的乘積,因此,只要適當(dāng)選擇系統(tǒng)的頻率響應(yīng)特性,就可以實(shí)現(xiàn)信號(hào)的濾波功能。在線性時(shí)不變系統(tǒng)中,濾波是一個(gè)重要的應(yīng)用,這方面的例子有很多,例如,在音響設(shè)備中,音樂(lè)欣賞者可根據(jù)自己的愛(ài)好,通過(guò)均衡器來(lái)調(diào)節(jié)聲音中高低頻分量的相對(duì)大小。又如,在無(wú)線廣播中,聽(tīng)眾可根據(jù)自己的需要調(diào)節(jié)收音機(jī)上的電臺(tái)調(diào)諧按鈕,選擇自己想要收聽(tīng)的電臺(tái)。這些功能都是通過(guò)信號(hào)濾波來(lái)實(shí)現(xiàn)的。濾波同樣可用于離散時(shí)間信號(hào)
32、,在經(jīng)濟(jì)數(shù)據(jù)序列的分析中也常常使用離散時(shí)間濾波器。例如,在股票市場(chǎng)上,股票價(jià)格的長(zhǎng)期變化和短期變化一般具有不同的意義,往往需要將它們分開(kāi)來(lái)進(jìn)行單獨(dú)的研究。這里,股票價(jià)格的長(zhǎng)期變化相應(yīng)于低頻分量,它反映了較慢的變化規(guī)律;而短期變化則相應(yīng)于高頻分量,它反映了較快的變化行情。為了分別對(duì)長(zhǎng)期變化和短期變化進(jìn)行單獨(dú)的研究,可以用離散時(shí)間濾波器來(lái)完成這一工作。此外,為了消除意外的隨機(jī)波動(dòng)(這些隨機(jī)波動(dòng)一般相應(yīng)于高頻分量),也可以用離散時(shí)間濾波器對(duì)數(shù)據(jù)序列進(jìn)行平滑濾波。信號(hào)的濾波包含有許多方面,例如濾波器的設(shè)計(jì)和實(shí)現(xiàn)等,濾波的基本概念是直接在傅里葉變換的概念和性質(zhì)的基礎(chǔ)上建立起來(lái)的,因此,對(duì)濾波的討論不僅介
33、紹傅里葉變換的一個(gè)重要的應(yīng)用領(lǐng)域,而且,這種討論的本身也可加深對(duì)傅里葉變換的重要性及其性質(zhì)的理解。2.3 語(yǔ)音信號(hào)的加窗與分幀 在對(duì)語(yǔ)音信號(hào)進(jìn)行短時(shí)分析的過(guò)程中,信號(hào)流的處理用分幀或分段來(lái)實(shí)現(xiàn)。一般每秒的幀數(shù)為33-100,視實(shí)際情況而定。分幀即可連續(xù),也可采用交疊分段的方法。用可以移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)。 通常我們采用一個(gè)長(zhǎng)度有限的窗函數(shù)來(lái)截取語(yǔ)音信號(hào)形成分析幀,數(shù)學(xué)形式如式: (2-5) 語(yǔ)音信號(hào)常??杉俣ㄔ?0-20ms這樣的時(shí)間段內(nèi),語(yǔ)音信號(hào)是平穩(wěn)信號(hào),其頻譜特性和某些物理特征參量可近似地看作是不變的,這樣,幾乎所有語(yǔ)音信號(hào)處理的方法都是基于這個(gè)假定,并且我們可以將平穩(wěn)
34、過(guò)程的處理方法和理論引入到語(yǔ)音信號(hào)的短時(shí)處原始語(yǔ)音信號(hào)采樣序列為X(m),移動(dòng)窗,T是對(duì)語(yǔ)音信號(hào)的某種變換,該變換可以是線性的,也可以是非線性的。例如T為時(shí),相當(dāng)于短時(shí)能量(抽樣點(diǎn)僅為N個(gè)點(diǎn));時(shí),為短時(shí)平均過(guò)零率。 圖2.3 漢明窗及其頻譜由于人自身的發(fā)音器官的運(yùn)動(dòng),語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),其特性是隨時(shí)間變化的信號(hào)。由于發(fā)聲器官的慣性運(yùn)動(dòng),可以認(rèn)為在一小段時(shí)間里(一般為10-30ms)語(yǔ)音信號(hào)近似不變,即語(yǔ)音信號(hào)具有適時(shí)平穩(wěn)性。在語(yǔ)音信號(hào)處理方理中,將語(yǔ)音信號(hào)分成若干個(gè)短段,每一個(gè)短時(shí)的語(yǔ)音段稱為一個(gè)分析幀,每個(gè)分析幀就好像是從一個(gè)具有固定特性的持續(xù)語(yǔ)音中截取出來(lái)的,對(duì)該分析幀進(jìn)行處
35、理就相當(dāng)于對(duì)固定特性的持續(xù)語(yǔ)音進(jìn)行處理,分析幀可以是連續(xù)的,也可以采用交疊分幀的方法。經(jīng)過(guò)處理后將從原始語(yǔ)音序列產(chǎn)生一個(gè)新的依賴于時(shí)間的序列,被用于描述語(yǔ)音信號(hào)的特征。通常用一個(gè)長(zhǎng)度有限的窗函數(shù)來(lái)截取語(yǔ)音信號(hào)形成分析幀,窗函數(shù)w(n)將需處理區(qū)域之外的樣點(diǎn)置零來(lái)獲得當(dāng)前的語(yǔ)音幀,理想窗函數(shù)的頻率響應(yīng)要求主瓣無(wú)限狹窄且沒(méi)有旁瓣(即無(wú)頻譜泄漏),但這種窗函數(shù)在實(shí)際工程中是無(wú)法實(shí)現(xiàn)的。常用的窗函數(shù)有Hamming窗。圖2.3是漢明窗的時(shí)域波形及幅頻特征。從圖中可以看出,Hamming窗的旁瓣衰減較大,能夠在較高的程度上反映適時(shí)信號(hào)的頻率特性。2.4語(yǔ)音端點(diǎn)檢測(cè)顧名思義,端點(diǎn)檢測(cè)的目的就是為了去掉語(yǔ)音
36、信號(hào)中的靜音段,將有用信號(hào)的起點(diǎn)檢測(cè)出來(lái)。為了達(dá)到這樣的目的,主要要利用語(yǔ)音信號(hào)的兩個(gè)參數(shù)。一個(gè)是語(yǔ)音信號(hào)的短時(shí)幅度,另一個(gè)是短時(shí)過(guò)零率。它們的定義分別為:短時(shí)幅度 (2-6)其中n為一幀信號(hào)開(kāi)始的時(shí)刻,N為一幀信號(hào)中的采樣點(diǎn)數(shù)。短時(shí)過(guò)零率: (2-7)同樣,n為一幀信號(hào)的開(kāi)始時(shí)刻,N為一幀信號(hào)中的采樣點(diǎn)數(shù)。有效的端點(diǎn)檢測(cè)不僅能使處理時(shí)間減到最少,而且能排除無(wú)聲段的噪聲干擾,從而使處理質(zhì)量得到保證。端點(diǎn)檢測(cè)的困難在于無(wú)聲段或者發(fā)音前后人為呼吸等產(chǎn)生的雜音,使得語(yǔ)音的端點(diǎn)比較模糊。一般來(lái)說(shuō),要對(duì)高信噪比情況下錄制的語(yǔ)音鑒別端點(diǎn)是很容易的事,此時(shí)背景噪聲的能量遠(yuǎn)遠(yuǎn)低于語(yǔ)音能量,因此僅憑能量特征就可
37、以很好的確定語(yǔ)音的起點(diǎn)和終點(diǎn)。但是,實(shí)際的應(yīng)用中很難達(dá)到這么高的信噪比,所以不能僅憑能量來(lái)判斷,當(dāng)端點(diǎn)處是弱摩擦音或弱爆破音,以及終點(diǎn)處是鼻音時(shí),此時(shí)的能量很弱,極易與背景噪聲混淆,造成端點(diǎn)檢測(cè)不精確,檢測(cè)出來(lái)的語(yǔ)音就會(huì)不完整,影響識(shí)別的效果。為了解決這些問(wèn)題,常常采用多種特征參數(shù)綜合的方法來(lái)檢測(cè)語(yǔ)音的始末點(diǎn)。 端點(diǎn)檢測(cè)對(duì)于語(yǔ)音識(shí)別有著重要的意義。在孤立詞識(shí)別中,確定單詞語(yǔ)音信號(hào)的開(kāi)始和終止可以減少非實(shí)時(shí)系統(tǒng)中的大量計(jì)算:連續(xù)語(yǔ)音識(shí)別中識(shí)別基元(字詞、音節(jié)、聲韻母)的切分,可用于語(yǔ)音數(shù)據(jù)庫(kù)訓(xùn)練。實(shí)驗(yàn)統(tǒng)計(jì)數(shù)字表明,起始點(diǎn)(beginning point)和終點(diǎn)(endpoint)的偏離對(duì)語(yǔ)音識(shí)別
38、最終準(zhǔn)確性影響明顯:30ms內(nèi)的偏移對(duì)應(yīng)精確度下降2,當(dāng)超過(guò)90ms時(shí),影響達(dá)到30。語(yǔ)音作為人類最自然、最直觀的信息載體,它必將成為未來(lái)人機(jī)交互界面的主要控制方式。而語(yǔ)音端點(diǎn)檢測(cè)就是從一段原始語(yǔ)音信號(hào)中通過(guò)一定的技術(shù)手段檢測(cè)出有用的語(yǔ)音成分進(jìn)而進(jìn)行其他語(yǔ)音信號(hào)處理。它是語(yǔ)音分析、語(yǔ)音合成和語(yǔ)音識(shí)別等語(yǔ)音信號(hào)處理中的最初始最基本的環(huán)節(jié)也是最重要的環(huán)節(jié)。在實(shí)際應(yīng)用中,通常首先要對(duì)真正含有語(yǔ)音成分信號(hào)的起始點(diǎn)進(jìn)行判定,如此收集到的真正語(yǔ)音數(shù)據(jù)可以大大減少后期處理的運(yùn)算量和存儲(chǔ)空間,并能更減少處理時(shí)間。在噪聲環(huán)境下,端點(diǎn)檢測(cè)的準(zhǔn)確性直接影響語(yǔ)音識(shí)別率。2.4.1語(yǔ)音信號(hào)短時(shí)平均能量信號(hào)流的分幀是采取
39、可移動(dòng)的有限長(zhǎng)度的窗口進(jìn)行加權(quán)的方法實(shí)現(xiàn)。因此,我們可以定義以為標(biāo)志的某幀語(yǔ)音信號(hào)的短時(shí)平均能量,如下式所示: (2-8) 對(duì)短時(shí)能量有如下兩種解釋:(1)首先計(jì)算原始語(yǔ)音信號(hào)各個(gè)采樣值的平方,然后通過(guò)一個(gè)激勵(lì)響應(yīng)為的濾波器,最后輸出能量序列,這里中。(2)首先計(jì)算原始語(yǔ)音信號(hào)各個(gè)采樣值的平方,然后用一個(gè)移動(dòng)窗選取出一個(gè)一個(gè)的短時(shí)平方序列,并將各短段的平方值求和得到短時(shí)能量序列。 不同窗函數(shù)的選擇將決定短時(shí)平均能量的性質(zhì)。一般窗函數(shù)是中心對(duì)稱的,用得比較多的是矩形窗和哈明窗。 選擇的原則是:使得短時(shí)能量既能及時(shí)跟蹤語(yǔ)音能量的緩變規(guī)律,同時(shí)又要對(duì)語(yǔ)音振幅一個(gè)基數(shù)周期周期內(nèi)的瞬間變化有顯著平滑的作
40、用。 短時(shí)平均能量的主要用途是:1.可以區(qū)分清音段與濁音段,因?yàn)闈嵋魰r(shí)E。值比清音時(shí)大得多。2.可以用來(lái)區(qū)分聲母與韻母的分界,無(wú)聲與有聲的分界,連字的分界等。對(duì)于高信噪比的語(yǔ)音信號(hào),E用來(lái)區(qū)分有無(wú)語(yǔ)音。此時(shí),無(wú)語(yǔ)音信號(hào)的噪聲能量很小,而有語(yǔ)音信號(hào)的E顯著地增大到某一個(gè)數(shù)值,由此可區(qū)分語(yǔ)音信號(hào)的開(kāi)始和終止點(diǎn)。3.作為一種超音段信息,用于語(yǔ)音識(shí)別中。 圖2.4 不同窗長(zhǎng),矩形窗和漢明窗短時(shí)量圖2.4為選取不同窗函數(shù)及不同窗長(zhǎng)計(jì)算出來(lái)的語(yǔ)音信號(hào)的平均能量,從圖中可以看出,窗長(zhǎng)取32點(diǎn)時(shí),所得的能量曲線不夠平滑,窗長(zhǎng)取128點(diǎn)時(shí)比較合適,曲線比較平滑,而且保留了細(xì)節(jié)變化。另外,對(duì)比128點(diǎn)的矩形窗與漢
41、明窗的圖形可以看出,漢明窗的輸出曲線優(yōu)于矩形窗,其主要原因是漢明窗主瓣較寬約大于矩形窗的一倍,但是它的旁瓣衰減較大,具有更平滑的低能特性,能夠較好地反映短時(shí)信號(hào)的頻率特性。另外,從加128點(diǎn)漢明窗計(jì)算出的短時(shí)能量值與原始語(yǔ)音對(duì)照,可看出濁音對(duì)應(yīng)的短時(shí)能量高,清音對(duì)應(yīng)的短時(shí)能量低,無(wú)聲語(yǔ)音的短時(shí)能量為零。2.4.2語(yǔ)音信號(hào)短時(shí)平均過(guò)零率信號(hào)的幅度值從正值到負(fù)值要經(jīng)過(guò)零值,從負(fù)值到正值也要經(jīng)過(guò)零值,稱其為過(guò)零,統(tǒng)計(jì)信號(hào)在一秒鐘內(nèi)有幾次過(guò)零,就稱為過(guò)零率,這一秒鐘就是一個(gè)單位時(shí)間(還可以有其他單位時(shí)間)。如果信號(hào)按段分割,就稱為短時(shí),把各段信號(hào)的過(guò)零率作統(tǒng)計(jì)平均年,就是短時(shí)平均過(guò)零率。語(yǔ)音信號(hào)X(n
42、)的平均過(guò)零率: (2-9)式中,是符號(hào)函數(shù)短時(shí)平均過(guò)零率在語(yǔ)音信號(hào)分析中應(yīng)用最多的是清/濁音判決。發(fā)濁音時(shí)身帶振動(dòng),這個(gè)振動(dòng)頻率的聲壓波在聲道中共振,盡管有若干個(gè)共振峰,但其能量集中于低于3KHz的頻率范圍內(nèi);反之,發(fā)清音時(shí),身帶不振動(dòng),聲道的某部分阻塞氣流產(chǎn)生類白噪聲,其能量集中于較高的頻率范圍。因此用過(guò)零率可以定量地分析清/濁音。圖2.5 一句語(yǔ)音的短時(shí)平均能量及短時(shí)平均過(guò)零率短時(shí)過(guò)零率可應(yīng)用于語(yǔ)音信號(hào)分析中。對(duì)于濁音語(yǔ)音,盡管聲道有若干個(gè)共振峰,但是由于聲門(mén)波引起了譜的高頻跌落,所以其語(yǔ)音能量約集中于3kHz以下。而對(duì)于清音語(yǔ)音時(shí),多數(shù)能量出現(xiàn)在較高頻率上。高頻率對(duì)應(yīng)著高的平均過(guò)零率,
43、低頻率對(duì)應(yīng)著低的平均過(guò)零率,那么可以認(rèn)為濁音時(shí)具有較低的平均過(guò)零率,而清音時(shí)具有較高的平均過(guò)零率。利用短時(shí)平均過(guò)零率可以從背景噪聲中找出語(yǔ)音信號(hào),可用于判斷寂靜無(wú)語(yǔ)音和有語(yǔ)音的起點(diǎn)和終點(diǎn)位置。在孤立詞語(yǔ)音識(shí)別中,必須要在一連串連續(xù)語(yǔ)音信號(hào)中進(jìn)行適當(dāng)?shù)姆指?,可以確定一個(gè)一個(gè)單詞的語(yǔ)音信號(hào),即找出每一個(gè)單詞的開(kāi)始和終止位置。另外,在背景噪聲較小時(shí)用平均能量識(shí)別較為有效,而在背景噪聲較大時(shí)用平均過(guò)零數(shù)識(shí)別較有效。短時(shí)平均過(guò)零率作為“頻率”來(lái)理解,在處理多頻率帶通信號(hào)的“頻率”特征方面有效。如果把語(yǔ)音信號(hào)用多通道帶通濾波器分割,統(tǒng)計(jì)每個(gè)子帶波形的短時(shí)平均過(guò)零率和短時(shí)平均能量,實(shí)質(zhì)上就是對(duì)語(yǔ)音信號(hào)作頻域
44、分析。圖2.5是一句語(yǔ)音的短時(shí)平均能量及短時(shí)平均過(guò)零率的仿真圖,從圖上可以看出,濁音信號(hào)的過(guò)零率低,清音信號(hào)的過(guò)零率高,噪聲的過(guò)零率高,一般在語(yǔ)音信號(hào)的清濁音判別時(shí)可采用短時(shí)平均能量與短時(shí)過(guò)零率結(jié)合來(lái)判斷,以降低誤判率。3 語(yǔ)音特征參數(shù)提取語(yǔ)音信號(hào)完成分幀處理和端點(diǎn)檢測(cè)后,下一步就是特征參數(shù)的提取。在語(yǔ)音識(shí)別中,我們不能將原始波形直接用于識(shí)別,必須通過(guò)一定的變換,提取語(yǔ)音特征參數(shù)來(lái)進(jìn)行識(shí)別,而提取的特征必須滿足:1特征參數(shù)應(yīng)當(dāng)反映語(yǔ)音的本質(zhì)特征,對(duì)于非特定人語(yǔ)音識(shí)別,特征參數(shù)則應(yīng)盡量不含有說(shuō)話人的信息。2特征參數(shù)各分量之間的耦合應(yīng)盡可能地小,以起到壓縮數(shù)據(jù)的作用。3特征參數(shù)要計(jì)算方便,最好有高
45、效的算法。語(yǔ)音特征參數(shù)可以是能量、基音頻率、共振峰值等語(yǔ)音參數(shù),目前在語(yǔ)音識(shí)別中較為常用的特征參數(shù)為線性預(yù)測(cè)倒譜系數(shù)(LPCC)與Mel倒譜系數(shù)(MFCC)。二者都是將語(yǔ)音從時(shí)域變換到倒譜域上,前者從人的發(fā)聲模型角度出發(fā),利用線性預(yù)測(cè)編碼(LPC)技術(shù)求倒譜系數(shù)。后者則構(gòu)造人的聽(tīng)覺(jué)模型,以語(yǔ)音通過(guò)該模型(濾波器組)的輸出為聲學(xué)特征,直接通過(guò)離散傅利葉變換(DFT)進(jìn)行變換。 語(yǔ)音特征參數(shù)提取是在語(yǔ)音預(yù)處理和語(yǔ)音端點(diǎn)檢測(cè)之后進(jìn)行,語(yǔ)音特征的選擇與提取是語(yǔ)音識(shí)別的一個(gè)重要環(huán)節(jié)。原始的語(yǔ)音信號(hào)是時(shí)域上的連續(xù)波形,含有大量的冗余信息。如果直接對(duì)其進(jìn)行數(shù)據(jù)處理,既費(fèi)時(shí)費(fèi)力也會(huì)對(duì)識(shí)別率產(chǎn)負(fù)面影響。所以,提
46、取出語(yǔ)音信號(hào)中最能體現(xiàn)語(yǔ)音特征的參數(shù)是有效提高語(yǔ)音識(shí)別率至關(guān)重要的一步。提取語(yǔ)音特征的目的就是去掉原始語(yǔ)音信號(hào)的冗余部分,把最能體現(xiàn)語(yǔ)音本質(zhì)的特征參數(shù)提取出來(lái),并且突出那些對(duì)辨別語(yǔ)音有利的信息。此后的所有處理都是對(duì)語(yǔ)音特征參數(shù)的處理。 特征提取是幾乎所有模式識(shí)別研究必須要面對(duì)的問(wèn)題。人們?cè)缭谏鲜兰o(jì)40年度就提出了”visible speech”的概念,它指的是語(yǔ)譜圖對(duì)語(yǔ)音信號(hào)的描述問(wèn)題。因此語(yǔ)譜信息被作為語(yǔ)音特征參數(shù)較早的應(yīng)用于語(yǔ)音識(shí)別,至今仍有人提取語(yǔ)譜信息作為語(yǔ)音特征。進(jìn)入50年代,隨著人們研究的深入,相繼提出了幅度、短時(shí)幀平均能量、短時(shí)幀過(guò)零率、短時(shí)自相關(guān)系數(shù)、平均幅度差函數(shù)等語(yǔ)音特征。
47、隨著識(shí)別技術(shù)的發(fā)展,人們發(fā)現(xiàn)時(shí)域中的特征參數(shù)的穩(wěn)定性和區(qū)分能力都不是很好,于是開(kāi)始利用頻域參數(shù)作為語(yǔ)音信號(hào)的特征,比如頻譜、共振峰、線性倒譜對(duì)等。 總的來(lái)說(shuō),提取的語(yǔ)音特征參數(shù)要滿足如下條件: (1)特征參數(shù)必須反映語(yǔ)音的本質(zhì)特征,即特征參數(shù)必須是語(yǔ)音所包括的一般特性,對(duì)于非特定人的語(yǔ)音識(shí)別,特征參數(shù)中要盡可能的不包括說(shuō)話人的特征信息。 (2)特征參數(shù)各個(gè)分量之間的耦合要盡可能的小,以起到壓縮數(shù)據(jù)的作用。 當(dāng)前,較為常用的特征參數(shù)包括線性預(yù)測(cè)分析頻譜(LPC)、線性預(yù)測(cè)分析倒譜(LPCC)、Mel頻率倒譜系數(shù)(MFCC)、對(duì)數(shù)倒頻譜(LSF)、基頻(Pitch)、共振峰(Formant)等。然
48、而在這些特征參數(shù)中,LPCC參數(shù)缺點(diǎn)是對(duì)噪聲影響敏感。由于語(yǔ)音信號(hào)的多變性,基頻特征的提取存在許多困難。共振峰作為語(yǔ)音參數(shù)存在虛假峰值以及相鄰共振峰靠太近難以分辨而帶來(lái)的不利影響等問(wèn)題。綜合考慮特征參數(shù)的魯棒性和實(shí)際要求,目前最常用是基于人耳聽(tīng)覺(jué)的MFCC參數(shù),它在有信道噪聲和頻譜失真的情況下具有較好的穩(wěn)健性,是目前語(yǔ)音識(shí)別研究中最常用的特征參數(shù),它運(yùn)用了人耳聽(tīng)覺(jué)感知方面的研究成果,用于語(yǔ)音識(shí)別有非常不錯(cuò)的識(shí)別率。3.1 線性預(yù)測(cè)倒譜系數(shù)LPCC一個(gè)遞歸數(shù)字濾波器可以采取多種不同的結(jié)構(gòu)實(shí)現(xiàn),例如直接法、鏈接法和格形法等,相應(yīng)地就有多種不同的濾波器參數(shù),但它們所實(shí)現(xiàn)的濾波器都是等價(jià)的。線性預(yù)測(cè)分
49、析法求得的是一個(gè)全極點(diǎn)的系統(tǒng)函數(shù),形式上也是一個(gè)遞歸濾波器。在全極點(diǎn)語(yǔ)音產(chǎn)生模型假定下,這個(gè)濾波器被稱為聲道濾波器。也存在多種不同的參數(shù)表達(dá)方法,這些參數(shù)一般可看作是由線性預(yù)測(cè)系數(shù)推演出來(lái)的,但它們各有不同的物理意義和特性。其中最常用的是線性預(yù)測(cè)倒譜系數(shù)LPCC,倒譜實(shí)際上是一種同態(tài)信號(hào)處理方法。語(yǔ)音信號(hào)分析過(guò)程中經(jīng)常要用到一個(gè)重要的語(yǔ)音產(chǎn)生模型聲道模型。聲道模型是將人從喉到嘴唇這一段發(fā)音腔體用一系列截面積不同的均勻聲管來(lái)模擬。根據(jù)聲管的聲學(xué)模型,利用物理學(xué)知識(shí),我們可以計(jì)算出這段聲管模型與信號(hào)處理中的全極點(diǎn)模型相類似。因此,我們可以應(yīng)用信號(hào)處理中已有的算法對(duì)其進(jìn)行處理。在這個(gè)語(yǔ)音產(chǎn)生的聲道模
50、型中,語(yǔ)音中的濁音部分可以認(rèn)為是由一連串有規(guī)律的周期信號(hào)(此周期與濁音的基音周期相吻合)來(lái)激勵(lì)不同形狀的聲道模型而產(chǎn)生;而清音部分則被認(rèn)為是由一連串無(wú)規(guī)律的白噪聲信號(hào)激勵(lì)聲道模型而產(chǎn)生的。因此,若能準(zhǔn)確地估計(jì)出聲道的形狀或模型參數(shù),我們就有望用此模型參數(shù)作為語(yǔ)音信號(hào)的特征來(lái)完成語(yǔ)音信號(hào)的識(shí)別任務(wù)。數(shù)字信號(hào)處理中,可以用LPC(線性預(yù)測(cè)編碼)的算法來(lái)估計(jì)出此全極點(diǎn)模型的參數(shù)。線性預(yù)測(cè)是最佳線性向前一步預(yù)測(cè),語(yǔ)音信號(hào)線性預(yù)測(cè)的基本思想是:語(yǔ)音信號(hào)的每個(gè)取樣值,可以用它過(guò)去若干個(gè)取樣值的加權(quán)和(線性組合)來(lái)表示;各加權(quán)系數(shù)的確定原則是使預(yù)測(cè)誤差的均方值最小。在語(yǔ)音識(shí)別系統(tǒng)中,利用同態(tài)處理方法,通過(guò)對(duì)
51、LPC系數(shù)求離散傅立葉變換(DFT)后取對(duì)數(shù),再求反變換DFT可得到線性預(yù)測(cè)倒譜系數(shù)LPCC1420。3.1.1線性預(yù)測(cè)分析 語(yǔ)音信號(hào)序列是一個(gè)隨機(jī)序列,其穩(wěn)態(tài)系統(tǒng)函數(shù)為: (3-1)把模型成一個(gè)階的AR過(guò)程序列。對(duì)于濁音,系統(tǒng)受沖激序列的激勵(lì),各種激勵(lì)之間的間隔為音調(diào)周期;對(duì)于清音,則受白噪聲序列激勵(lì),它可簡(jiǎn)單地由一個(gè)隨機(jī)數(shù)發(fā)生器完成。 參考模型是現(xiàn)代譜估計(jì)的主要內(nèi)容,經(jīng)常采用的模型有三種:(1)自回歸線(AR)模型是一個(gè)全極點(diǎn)的模型;(2)移動(dòng)平均模型(MA)是一個(gè)全零點(diǎn)模型;(3)自回歸線-移動(dòng)平均模型(ARMA)是一個(gè)既有零點(diǎn)又有極點(diǎn)的模型。 從數(shù)字信號(hào)處理的知識(shí)可知,AR模型易反應(yīng)頻
52、譜中的峰值,MA模型異反映頻譜中的谷值,而ARMA模型可以同時(shí)反映兩者??紤]到求解AR模型的正則方程是一組線性方程,而求解MA和ARMA的模型是非線性方程,因此在實(shí)際處理中,應(yīng)用比較廣泛的是AR模型。又由于AR模型可以與基于級(jí)聯(lián)無(wú)損聲管的語(yǔ)音產(chǎn)生模型相聯(lián)系,因此在語(yǔ)音處理中它被廣泛采用的模型;而與相關(guān)的線性預(yù)測(cè)分析也是語(yǔ)音信號(hào)處理中普遍采用的核心技術(shù)之一。根據(jù)數(shù)字信號(hào)處理的知識(shí)可知,一個(gè)p階的AR模型總是等效于一個(gè)p階的線性預(yù)測(cè)器。因此目前提出的AR模型系數(shù)的求解,以及AR模型性能的討論大都建立在線性預(yù)測(cè)理論基礎(chǔ)上的。對(duì)語(yǔ)音信號(hào)進(jìn)行線性預(yù)測(cè)分析的基本思想是:一個(gè)語(yǔ)音的采樣能夠用過(guò)去若干個(gè)語(yǔ)音采
53、樣的線性組合來(lái)逼近。通過(guò)使線性預(yù)測(cè)到的采樣在最小均方誤差意義上逼近實(shí)際語(yǔ)音采樣,可以求取一組唯一的預(yù)測(cè)系數(shù)。這里的預(yù)測(cè)系數(shù)就是線性組合中所用的加權(quán)系數(shù)。這種能夠線性預(yù)測(cè)分析最早用于語(yǔ)音編碼中,因此常被簡(jiǎn)稱為L(zhǎng)PC 3.1.2線性預(yù)測(cè)倒譜分析1947年,維納首次提出了線性預(yù)測(cè)(Linear Prediction,LP)這一名詞,并且在1967年,板倉(cāng)等人將該技術(shù)應(yīng)用在語(yǔ)音分析和合成中,開(kāi)辟了語(yǔ)音識(shí)別技術(shù)的新思路。線性預(yù)測(cè)分析是從人的發(fā)聲機(jī)理入手,通過(guò)對(duì)聲道的短管級(jí)聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式,n時(shí)刻的信號(hào)可以用若干時(shí)刻的信號(hào)的線性組合來(lái)估計(jì)。由聲學(xué)理論可知,除鼻音和摩擦音外,一般聲道系統(tǒng)H(z)可用全極點(diǎn)模型來(lái)模擬: (3-2) 其中P為預(yù)測(cè)器階數(shù),G為非負(fù)實(shí)數(shù),用于控制系統(tǒng)輸出序列s(n)的幅度大?。?A(z)稱為逆濾波器,其物理意義是進(jìn)行反向線性預(yù)測(cè)。線性預(yù)測(cè)分析的基本思想是:利用語(yǔ)音抽樣點(diǎn)之間的相關(guān)性,一個(gè)語(yǔ)音的抽樣能用過(guò)去若干個(gè)語(yǔ)音抽樣的線性組合來(lái)逼近。在某個(gè)準(zhǔn)則下,使實(shí)際語(yǔ)音抽樣和線性預(yù)測(cè)之間的差值最小來(lái)確定一組預(yù)測(cè)系數(shù)。這個(gè)準(zhǔn)則通常可以采用最小均方誤差準(zhǔn)則。那么,語(yǔ)音信號(hào)的線性預(yù)測(cè)是指:語(yǔ)音信號(hào)的每個(gè)抽樣值,可以
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年限:跨境電子商務(wù)平臺(tái)運(yùn)營(yíng)合同
- 2024年項(xiàng)目合同管理與招投標(biāo)策略比較分析3篇
- 2024年高端餐具采購(gòu)供應(yīng)合作合同版
- 2024年項(xiàng)目托管管理合同
- 2024年跨區(qū)域水資源調(diào)配與利用合同
- 2024玉器行業(yè)廣告代理與購(gòu)銷合同范本3篇
- 政工師個(gè)人述職報(bào)告格式【三篇】
- 2024路沿石石材深加工采購(gòu)合同3篇
- 2019初級(jí)會(huì)計(jì)實(shí)務(wù)-第六章:財(cái)務(wù)報(bào)表-資產(chǎn)負(fù)債表
- 顱內(nèi)動(dòng)脈瘤血管內(nèi)介入治療中國(guó)專家共識(shí)-2103
- “以案促改”心得體會(huì)
- 干細(xì)胞項(xiàng)目商業(yè)計(jì)劃書(shū)
- 安全事故現(xiàn)場(chǎng)處置方案(3篇)
- 中國(guó)通 用技術(shù)集團(tuán)招聘筆試題庫(kù)
- 【MOOC】工程材料學(xué)-華中科技大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 就業(yè)招聘服務(wù)行業(yè)市場(chǎng)前瞻與未來(lái)投資戰(zhàn)略分析報(bào)告
- 收購(gòu)居間服務(wù)合同
- 無(wú)人機(jī)航拍技術(shù)教案(完整版)
- 手繪pop教學(xué)課件
- 2022年海南公務(wù)員考試申論試題(B卷)
- 糕點(diǎn)烘焙承攬合同三篇
評(píng)論
0/150
提交評(píng)論