基于matlab的語音識別技術(shù)_第1頁
基于matlab的語音識別技術(shù)_第2頁
基于matlab的語音識別技術(shù)_第3頁
基于matlab的語音識別技術(shù)_第4頁
基于matlab的語音識別技術(shù)_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、項目題目: 基于Matlab的語音識別 一、引言語音識別技術(shù)是讓計算機識別一些語音信號,并把語音信號轉(zhuǎn)換成相應(yīng)的文本或者命令的一種高科技技術(shù)。語音識別技術(shù)所涉及的領(lǐng)域非常廣泛,包括信號處理、模式識別、人工智能等技術(shù)。近年來已經(jīng)從實驗室開始走向市場,滲透到家電、通信、醫(yī)療、消費電子產(chǎn)品等各個領(lǐng)域,讓人們的生活更加方便。語音識別系統(tǒng)的分類有三種依據(jù):詞匯量大小,對說話人說話方式的要求和對說話人的依賴程度。(1)根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量及無限詞匯量識別系統(tǒng)。(2)根據(jù)對說話人說話方式的要求,可以分為孤立字(詞)語音識別系統(tǒng)、連接字語音識別系統(tǒng)及連續(xù)語音識別系統(tǒng)。(3)根

2、據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng)。二、語音識別系統(tǒng)框架設(shè)計2.1語音識別系統(tǒng)的基本結(jié)構(gòu)語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),其基本結(jié)構(gòu)原理框圖如圖l所示,主要包括語音信號預(yù)處理、特征提取、特征建模(建立參考模式庫)、相似性度量(模式匹配)和后處理等幾個功能模塊,其中后處理模塊為可選部分。三、語音識別設(shè)計步驟3.1語音信號的特征及其端點檢測圖2 數(shù)字7開始部分波形圖2是數(shù)字”7”的波形進行局部放大后的情況,可以看到,在6800之前的部分信號幅度很低,明顯屬于靜音。而在6800以后,信號幅度開始增強,并呈現(xiàn)明顯的周期性。在波形的上半部分可以觀察到有規(guī)律的尖峰,兩個尖峰之間的

3、距離就是所謂的基音周期,實際上也就是說話人的聲帶振動的周期。這樣可以很直觀的用信號的幅度作為特征,區(qū)分靜音和語音。只要設(shè)定一個門限,當信號的幅度超過該門限的時候,就認為語音開始,當幅度降低到門限以下就認為語音結(jié)束。3.2 語音識別系統(tǒng) 3.2.1語音識別系統(tǒng)的分類語音識別按說話人的講話方式可分為3類:(1)即孤立詞識別(isolated word recognition),孤立詞識別 的任務(wù)是識別事先已知的孤立的詞,如“開機”、“關(guān)機”等。(3)連續(xù)語音識別,連續(xù)語音識別的任務(wù)則是識別任意的連續(xù)語音,如一個句子或一段話。從識別對象的類型來看,語音識別可以分為特定人語音識別和非特定人語音識別,特

4、定人是指針對一個用戶的語音識別,非特定人則可用于不同的用戶。顯然,非特定人語音識別系統(tǒng)更符合實際需要,但它要比針對特定人的識別困難得多。 3.2.2語音識別系統(tǒng)的基本構(gòu)成語音識別系統(tǒng)的實現(xiàn)方案如圖3所示。輸入的模擬語音信號首先要進行處理,包括預(yù)濾波,采樣和量化,加窗,端點檢測,預(yù)加重等。語音信號經(jīng)處理后,接下來很重要的一環(huán)就是特征參數(shù)提取。圖3 語音識別系統(tǒng)在訓(xùn)練階段,將特征參數(shù)進行一定的處理之后,為每個詞條得到一個模型,保存為模版庫。在識別階段,語音信號經(jīng)過相同的通道得到語音參數(shù),生成測試模版,與參考模板進行匹配,將匹配分數(shù)最高的參考模型作為識別結(jié)果。3. 2.3 語音識別系統(tǒng)的特征參數(shù)提取

5、特征提取是對語音信號進行分析處理,去除對語音識別無關(guān)緊要的冗余信息,獲得影響語音識別的重要信息。語音信號是一種典型的時變信號,然而如果把觀察時間縮短到十毫秒至幾十毫秒,則可以得到一系列近似穩(wěn)定的信號。人的發(fā)音器官可以用若干段前后連接的聲管進行模擬,這就是所謂的聲管模型。全極點線性預(yù)測參數(shù) (LPC: Liner Prediction Coeffieient)可以對聲管模型進行很好的描述,LPC參數(shù)是模擬人的發(fā)聲器官的,是一種基于語音合成的參數(shù)模型。在語音識別中,很少用LPC系數(shù),而是用LPC倒譜參數(shù) (LPCC: Liner Prediction Cepstral Coefficient)。L

6、PCC參數(shù)的優(yōu)點是計算量小,對元音有較好的描述能力,其缺點在于對輔音的描述能力較差,抗噪聲性能較差。然而,人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個對數(shù)關(guān)系。近年來,一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到了廣泛的應(yīng)用,這就是Mel倒譜參數(shù)(MFCC:Mel一Frequency CePstral Coeffieient)。MFCC參數(shù)能夠比LPCC參數(shù)更好地提高系統(tǒng)的識別性能。3.2.4 特定人語音識別算法DTW算法在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Warping,動態(tài)時間歸整)算法,該算法基于動

7、態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法,用于孤立詞識別。HMM算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計算才能得到模型參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計算。所以在孤立詞語音識別中,DTW算法仍然得到廣泛的應(yīng)用。 無論在訓(xùn)練和建立模板階段還是在識別階段,都先采用端點算法確定語音的起點和終點。已存入模板庫的各個詞條稱為參考模板,一個參考模板可表示為R=R(1),R(2),R(m),R(M),m為訓(xùn)練語音幀的時序標號,m=1為起點語音幀,m=M為終點語音幀,因此M為該模板所包含的語音幀總數(shù),R(m)為第m幀的語音特征矢量。所要

8、識別的一個輸入詞條語音稱為測試模板,可表示為T=T(1),T(2),T(n),T(N),n為測試語音幀的時序標號,n=1為起點語音幀,n=N為終點語音幀,因此N為該模板所包含的語音幀總數(shù),T(n)為第n幀的語音特征矢量。參考模板與測試模板一般采用相同類型的特征矢量(如MFCC,LPC系數(shù))、相同的幀長、相同的窗函數(shù)和相同的幀移。四、基于Matlab的語音識別系統(tǒng)仿真4.1 語音模板的獲取運用系統(tǒng)的采集模塊錄制一個普通男聲聲音,錄制 十個語音為實驗對象 分別命名為, 分析處理后提取特征參數(shù),經(jīng)過模板訓(xùn)練,為十個語音分別選取最合適的語音作為模板,存入數(shù)據(jù)庫建立參考模型庫。4.2 語音訓(xùn)練類似,錄制一組普通男聲的聲音,同樣為 十個語音,作為十個待測語音信號。 圖4 數(shù)字0的訓(xùn)練波形及系數(shù)4.3 語音識別訓(xùn)練結(jié)束后,用錄音設(shè)備錄入09中的數(shù)字,經(jīng)過波形及系數(shù)匹配識別出錄入數(shù)字,并正確顯示識別結(jié)果。圖4 數(shù)字0的識別結(jié)果五 總結(jié)通過這次二級項目,更深入的了解的Matlab軟件強大的功能,了解了利用Matlab軟件進行界面設(shè)計等。學習到語音識別技術(shù)仿真中各函數(shù)的運用。在不斷地改進和完善中,這次二級項目終于順利完成。參考文獻1何強、何英. MATLAB擴展編程北京:清華大學出版社, 200262江官星 王建英

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論