語音識別流程分析_第1頁
語音識別流程分析_第2頁
語音識別流程分析_第3頁
語音識別流程分析_第4頁
語音識別流程分析_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語音識別流程分析摘要:語言識別是將人類自然語言的聲音信號,通過計算機自動轉(zhuǎn)換為與之相對應(yīng)的文字符號的一門新興技術(shù),屬于模式識別的一種分支。語音識別的成果能夠通過屏幕顯示出文字符號,也能夠存儲在文本文獻(xiàn)中。語音識別技術(shù)能夠把語音信息直接轉(zhuǎn)換成文字信息,對于中文信息解決來說,無疑是一種最抱負(fù)、最自然的中文輸入方式。本文首先分析了語音識別的原理,在此基礎(chǔ)上進(jìn)行語音識別的流程分析,重要內(nèi)容有:提取語音、端點檢測、特性值提取、訓(xùn)練數(shù)據(jù)、語音識別。選用HMM隱馬爾科夫模型,基于VC編譯環(huán)境下的的多線程編程,實現(xiàn)算法的并行運算,提高了語音識別的效率。實驗成果表明:所設(shè)計的程序滿足語音識別系統(tǒng)的基本規(guī)定。核心詞:語音識別預(yù)解決Mel倒譜系數(shù)HMM隱馬爾科夫模式OpenMP編程前

言語音識別是解決機器“聽懂”人類語言的一項技術(shù)。作為智能計算機研究的主導(dǎo)方向和人機語音通信的核心技術(shù),語音識別技術(shù)始終受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識別技術(shù)研究的突破,其對計算機發(fā)展和社會生活的重要性日益凸現(xiàn)出來。以語音識別技術(shù)開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語音通信系統(tǒng)等,幾乎進(jìn)一步到社會的每個行業(yè)和每個方面。

廣泛意義上的語音識別按照任務(wù)的不同能夠分為4個方向:說話人識別、核心詞檢出、語言辨識和語音識別。說話人識別技術(shù)是以話音對說話人進(jìn)行區(qū)別,從而進(jìn)行身份鑒別和認(rèn)證的技術(shù)。核心詞檢出技術(shù)應(yīng)用于某些含有特定規(guī)定的場合,只關(guān)注那些包含特定詞的句子。語言辨識技術(shù)是通過分析解決一種語音片斷以鑒別其所屬語言種類的技術(shù),本質(zhì)上也是語音識別技術(shù)的一種方面。語音識別就是普通人們所說的以說話的內(nèi)容作為識別對象的技術(shù),它是4個方面中最重要和研究最廣泛的一種方向,也是本文討論的重要內(nèi)容。

語音識別技術(shù),也被稱為自動語音Automatic

Speech

Recognition,(ASR),其目的是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列[1]。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

語音識別技術(shù)的應(yīng)用涉及語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡樸的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其它自然語言解決技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合,能夠構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。

語音識別技術(shù)所涉及的領(lǐng)域涉及:信號解決、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。語音識別的原理語音識別的基本原理是一種模式匹配的過程:先建立一種原則的模式寄存在計算機中,然后把輸入的語言信息進(jìn)行分析解決,采集有關(guān)的信息建立目的語音模式,再將目的語音模式與機內(nèi)原則模式相匹配,找到近來的模式最為識別成果輸出。語音識別本質(zhì)上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐個進(jìn)行比較,最佳匹配的參考模式被作為識別成果[2]。使用C語言編程,實現(xiàn)基于馬爾科夫模型的數(shù)據(jù)特性提取,在此基礎(chǔ)上編程實現(xiàn)特定語音實例的語音識別;將語音識別功效編寫成可供其它模塊調(diào)用的函數(shù),為進(jìn)一步實現(xiàn)語音識別系統(tǒng)提供基礎(chǔ);并且從中培養(yǎng)、提高查閱文獻(xiàn)和綜合運用知識的編程開發(fā)能力。圖1是基于模式匹配原理的自動語音識別系統(tǒng)原理框圖。訓(xùn)練訓(xùn)練識別成果語音信號輸入?yún)⒖寄J綆祛A(yù)解決特性解決模式匹配鑒別規(guī)則圖1語音識別系統(tǒng)原理框圖(1)預(yù)解決模塊:對輸入的原始語音信號進(jìn)行解決,濾除掉其中的不重要的信息以及背景噪聲,并進(jìn)行語音信號的端點檢測、語音分幀以及預(yù)加重等解決。

(2)特性提取模塊:負(fù)責(zé)計算語音的聲學(xué)參數(shù),并進(jìn)行特性的計算,方便提取出反映信號特性的核心特性參數(shù)用于后續(xù)解決?,F(xiàn)在較慣用的特性參數(shù)有線性預(yù)測(LPC)參數(shù)、線譜對(LSP)參數(shù)、LPCC、MFCC、ASCC、感覺加權(quán)的線性預(yù)測(PLP)參數(shù)、動態(tài)差分參數(shù)和高階信號譜類特性等。其中,Mel頻率倒譜系數(shù)(MFCC)參數(shù)因其良好的抗噪性和魯棒性而應(yīng)用廣泛。

(3)訓(xùn)練階段:顧客輸入若干次訓(xùn)練語音,通過預(yù)解決和特性提取后得到特性矢量參數(shù),建立或修改訓(xùn)練語音的參考模式庫。

(4)識別階段:將輸入的語音提取特性矢量參數(shù)后與參考模式庫中的模式進(jìn)行相似性度量比較,并結(jié)合一定的鑒別規(guī)則和專家知識(如構(gòu)詞規(guī)則,語法規(guī)則等)得出最后的識別成果。二、語音識別的流程(一)樣本語音采集在室內(nèi)錄制原則漢語數(shù)字0-9的wav語音做樣本語音,錄音軟件采用MSVisualC++WavRecorder,采樣率16KHz,采樣位16位,語音數(shù)據(jù)以wav文獻(xiàn)格式存儲,其音頻格式為WindowsPCM。(二)語音信號預(yù)解決1、語音信號數(shù)字化通過采樣及量化提取語音信號的數(shù)據(jù)。其中,數(shù)據(jù)提取部分,掌握語音文獻(xiàn)的存儲形式極為重要,有效地提取并清晰各部分?jǐn)?shù)據(jù)的含義,對分析數(shù)據(jù)起到協(xié)助作用,為下一步工作做了良好的起步。2、預(yù)加重解決提高高頻部分,使信號頻譜變得平坦,方便于進(jìn)行聲道參數(shù)分析或頻譜分析。預(yù)加重語音信號的平均功率譜受聲門激勵和口鼻輻射影響,高頻端大概在800Hz以上按6dB/倍頻程跌落,即6dB/oct(2倍頻)或20dB/dec(10倍頻)。求語音信號頻譜時,頻率越高,對應(yīng)的成分越小。為此,要在預(yù)解決中進(jìn)行預(yù)加重解決(Pre—emphasis)。預(yù)加重的目的是使信號的頻譜變得平坦,保持從低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,方便于頻譜分析或聲道參數(shù)分析。預(yù)加重普通是采用一階的數(shù)字濾波器[3]μ:H(Z)=1-μ,μ值靠近于1,或者采用公式y(tǒng)(n)=x(n)-αx(n-1),其中,x(n)為原始信號序列;y(n)為預(yù)加重后序列;α為預(yù)加重系數(shù)。3、端點檢測及分幀加窗斷點檢測重要為實現(xiàn)對數(shù)據(jù)中有效部分的提取。閾值采用0.3(最大值-最小值),語音信號是一種典型的非平穩(wěn)信號,解決中普通使用窗函數(shù)截取其中一段來進(jìn)行分析,截取出來的那部分信號被認(rèn)為是短時平穩(wěn)的。加窗解決的另一種作用就是消除由無限序列截斷造成的Gibbs效應(yīng)。常見的窗函數(shù)有:①矩形窗(RectangularWindow)②漢明窗(HammingWindow)③哈寧窗(HannWindow)漢明窗和哈寧窗都屬于廣義升余弦函數(shù),通過分析他們的頻率響應(yīng)幅度特性,能夠發(fā)現(xiàn),矩形窗的譜平滑性能好,但是旁瓣太高,容易造成頻譜泄露,損失高頻成分;哈寧窗衰減太快,低通特性不平滑;而漢明窗由于其平滑的低通特性和最低的旁瓣高度而得到廣泛的應(yīng)用[4]。(三)Mel倒譜系數(shù)特性表達(dá)提取MFCC參數(shù)、PLCC參數(shù),即狀態(tài)轉(zhuǎn)移矩陣A,混合高斯分布的權(quán)矩陣C,均值矢量μ和協(xié)方差矩陣U這四個參數(shù)的訓(xùn)練過程,并進(jìn)行極大似然值預(yù)計[5]。Hz頻率與Mel頻率之間的轉(zhuǎn)換關(guān)系如公式:=1127×ln(1+)Mel倒譜頻率系數(shù)(MFCC)是上述Mel頻率概念基礎(chǔ)上提出的,其計算機流程如圖2所示預(yù)加重,加窗預(yù)加重,加窗DCT求倒譜Log對數(shù)能量Mel頻率濾波器組FFT圖2MFCC計算流圖MFCC的Hz—Mel尺度對應(yīng)的曲線和濾波器組分布如圖3所示。05001000150035004000150010005000500100015003500400015001000500頻率/Hz頻率/Mel圖3MFCC尺度對應(yīng)曲線HMM是一種用參數(shù)表達(dá)的,用于描述隨機過程統(tǒng)計特性的概率模型,它是由馬爾可夫鏈演變來的一種雙重隨機過程[6]?;贖MM模型的孤立詞語音識別系統(tǒng)需解決的下列問題:.

(1)如何擬定一種最優(yōu)的狀態(tài)轉(zhuǎn)移序列,并計算觀察序列對HMM模型的輸出概率,根據(jù)此概率判斷語音命令的識別成果[7];

(2)如何調(diào)節(jié)允參數(shù)使得輸出概率最大。這是對HMM模型進(jìn)行參數(shù)訓(xùn)練的問題。在解決上述兩個問題的過程中,都需要對輸出概率進(jìn)行計算,因此這是此算法的另外一種核心問題。(五)OpenMP編程實現(xiàn)多核并行運算實驗平臺為SAMSUNGR428系列雙核筆記本。采用IntelPM45+ICH9M芯片組,Intel(R)Core(TM)2DuoCPU,T6600解決器,2.20GHz主頻,,高速緩存2MB,前端總線800MHz,內(nèi)存DDR3,2048M,系統(tǒng)為MicrosoftWindowsXPProfessional(5.1,版本2600),編譯器為MicrosoftVisualStudio。在此平臺上,用OpenMP改善二維離散快速傅里葉變換,實驗數(shù)據(jù)為程序多次運行的平均值。1、FFT算法編程實現(xiàn)FFT程序設(shè)計分為兩個部分:倒序排列和蝶形運算。倒序排列用于時域提取FFT的輸入序列,本設(shè)計采用準(zhǔn)時間抽選(DIT)的基-2蝶形運算,輸入導(dǎo)位序,輸出自然序。2、聲音識別——提取MFCC特性編程對每一幀進(jìn)行離散余弦變換(DiscreteCosineTransform,簡稱DCT變換)后得到MFCC特性值參數(shù),此算法含有較強的抗干擾能力,將信號的能量集中到少數(shù)幾個變換系數(shù)上,采用量化和熵編碼可有效地壓縮幀能量數(shù)據(jù)。參考文獻(xiàn)[1]段哲民,范世貴《信號與系統(tǒng)》西安工業(yè)大學(xué)出版社,1997[2]趙力《基于分段含糊類聚算法的VQ-HMM語音識別模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論