基于dsp的漢語數(shù)碼語音識(shí)別系統(tǒng)_第1頁
基于dsp的漢語數(shù)碼語音識(shí)別系統(tǒng)_第2頁
基于dsp的漢語數(shù)碼語音識(shí)別系統(tǒng)_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于dsp的漢語數(shù)碼語音識(shí)別系統(tǒng)

1漢語數(shù)碼語音識(shí)別技術(shù)mds人們發(fā)出的聲音實(shí)際上是具有一定能量的機(jī)器的振動(dòng)波。通過某種裝置把人的語音聲波轉(zhuǎn)換成電信號(hào),再將這種電信號(hào)送入計(jì)算機(jī),經(jīng)過計(jì)算機(jī)軟件的一系列處理,就可以成為能使機(jī)器“聽懂”的一串串指令,從而讓機(jī)器來完成人交給它們的各種任務(wù)。這就是語音識(shí)別技術(shù)的基本原理。漢語數(shù)碼語音識(shí)別(MandarinDigitSpeechRecognition,MDSR)是識(shí)別“0”到“9”等10個(gè)非特定人漢語數(shù)碼語音,在電話語音撥號(hào)、工業(yè)監(jiān)控、家電遙控和移動(dòng)通信等領(lǐng)域有著極大的應(yīng)用價(jià)值。DSP即數(shù)字信號(hào)處理器,是一種適合于進(jìn)行實(shí)時(shí)數(shù)字信號(hào)處理運(yùn)算的微處理器,其主要應(yīng)用是實(shí)時(shí)快速地實(shí)現(xiàn)各種數(shù)字信號(hào)處理,以數(shù)字形式對(duì)信號(hào)進(jìn)行采集、變換、濾波、估值、增強(qiáng)、壓縮、識(shí)別等處理,以得到滿足不同應(yīng)用需要的信號(hào)形式。2語音識(shí)別的實(shí)現(xiàn)過程語音識(shí)別系統(tǒng)通常由語音輸入、語音分析、識(shí)別處理和識(shí)別輸出四個(gè)部分組成。其中,語音輸入部分包括前置放大器、控制放大器和模數(shù)轉(zhuǎn)換器等器件,它將語音信號(hào)變換成數(shù)字電信號(hào);語音分析部分則通過濾波器、芯片等將數(shù)字電信號(hào)進(jìn)行頻率分析或動(dòng)態(tài)分析,并提取出其特征,將語音信息轉(zhuǎn)化為文字信息;識(shí)別處理部分通過計(jì)算機(jī)軟件與硬件將文字信息按語法、邏輯及上下文關(guān)系生成可表達(dá)準(zhǔn)確意思的句子;識(shí)別輸出部分通過不同的器件將識(shí)別結(jié)果用各種方式輸出,以便執(zhí)行各種任務(wù),如語音、文字或指令等。語音識(shí)別的步驟分為兩步:一是根據(jù)識(shí)別系統(tǒng)類型選擇能滿足要求的一種識(shí)別方法,采用語音分析技術(shù)提取出語音特征參數(shù),稱為“學(xué)習(xí)”或“訓(xùn)練”;二是“識(shí)別”過程,如圖1所示。前處理技術(shù)可以提高語音高頻部分的抗干擾能力,通常情況可以采用預(yù)加重技術(shù)或自動(dòng)增益控制(AGC)來實(shí)現(xiàn)。經(jīng)過前處理后的語音信號(hào)要對(duì)其進(jìn)行語音特征參數(shù)分析,選擇何種特征參數(shù)與采用何種識(shí)別方法有關(guān)。有關(guān)實(shí)驗(yàn)證明在漢語數(shù)碼語音識(shí)別中MFCC參數(shù)的性能明顯優(yōu)于LPCC參數(shù),因此本文采用MFCC參數(shù)作為語音特征參數(shù)。虛線部分的功能是完成模式匹配,即根據(jù)一定準(zhǔn)則使未知模式與模型庫中某一模型獲得最佳匹配。3ti表現(xiàn)HMM(隱馬爾可夫模型)算法自20世紀(jì)80年代被引入語音識(shí)別以來,得到了廣泛的應(yīng)用,目前已成為大多數(shù)識(shí)別系統(tǒng)的基本框架,其特點(diǎn)是能夠有效地提取時(shí)序特征。一個(gè)HMM模型可由初始概率分布π、狀態(tài)轉(zhuǎn)移概率矩陣A及輸出概率矩陣B決定。在HMM算法中,可以用式(1)所示的前向—后向算法遞推計(jì)算輸出概率。定義前向變量αt(i)和后向變量βt(i):at(i)=P(o1o2Lot,qt=si|λ)βt(i)=P(ot+1ot+2LOT|qt=si?λ)a1(i)=πibi(o1)1≤i≤Nαt+1(j)=[∑t=1Nαt(i)?aij]*bj(ot+1)1≤t≤T?1≤j≤NP(O|λ)=∑i=1NαT(i)βT(i)=1βt(i)=∑j=1Naijbj(ot+1)βt+1(j)t=T?1,T?2???1?1≤i≤N???????????????????????????????????????????????????????????(1)at(i)=Ρ(o1o2Lot,qt=si|λ)βt(i)=Ρ(ot+1ot+2LΟΤ|qt=si?λ)a1(i)=πibi(o1)1≤i≤Ναt+1(j)=[∑t=1Ναt(i)?aij]*bj(ot+1)1≤t≤Τ?1≤j≤ΝΡ(Ο|λ)=∑i=1ΝαΤ(i)βΤ(i)=1βt(i)=∑j=1Νaijbj(ot+1)βt+1(j)t=Τ-1,Τ-2???1?1≤i≤Ν}(1)其中N為HMM狀態(tài)數(shù),T為語音幀數(shù),O=(O1O2…OT)為給定的一個(gè)觀察序列,P(O|λ)為在給定型λ條件下產(chǎn)生觀察序列O的概率。4系統(tǒng)的基本工作流程整個(gè)硬件系統(tǒng)包括三個(gè)部分:一是TMS320C5XDSP處理系統(tǒng),包括TMS320C50、程序存儲(chǔ)器、數(shù)據(jù)存儲(chǔ)器、模數(shù)轉(zhuǎn)換電路等;二是FLASHROM及其與TMS320C50接口部分;三是MCU部分,如圖2所示。各模塊功能如下:(1)TMS320C50采用哈佛總線結(jié)構(gòu),通過兩個(gè)獨(dú)立的數(shù)據(jù)總線和程序總線,最大限度地提高運(yùn)算速度。其主要功能是接收MCU發(fā)送來的命令,并根據(jù)其命令完成語音訓(xùn)練及語音識(shí)別。(2)A/D轉(zhuǎn)換器是用來完成語音信號(hào)的模/數(shù)轉(zhuǎn)換。本文選用Motorola公司的PCM編解碼器MC14LC5480,此芯片集語音A/D、D/A及抗混疊濾波于一體,性能價(jià)格比較高。(3)EPROM是用來存放DSP程序和初始化所需的數(shù)據(jù);RAM用于程序執(zhí)行和數(shù)據(jù)的暫存。(4)FLASH存儲(chǔ)器用于存放訓(xùn)練樣本庫。(5)MCU主要是接受鍵盤命令,向DSP發(fā)送控制命令,接收DSP的反饋信息,并將某些信息顯示在LED或LCD上,本文選用ATMEL公司的AT89C51單片機(jī)。系統(tǒng)基本工作流程是:當(dāng)TMS320C50接收到復(fù)位命令后復(fù)位,復(fù)位后若接收到MCU的執(zhí)行命令,它便開始處理A/D轉(zhuǎn)換器送來的數(shù)據(jù);這時(shí)MCU仍可處理自身的事物而不影響DSP的工作。當(dāng)需要MCU處理數(shù)據(jù)時(shí),DSP將數(shù)據(jù)送到公共RAM中,然后向MCU機(jī)發(fā)中斷信號(hào),表明DSP已完成任務(wù);當(dāng)MCU機(jī)接收到此信號(hào)后便向DSP的HOLD引腳發(fā)信號(hào),使其放棄共享RAM的控制權(quán)。一旦DSP接收到HOLD信號(hào),表明已將總線控制權(quán)交出,總線隔離器已打開,此時(shí)MCU可對(duì)公共RAM進(jìn)行讀寫操作,并對(duì)數(shù)據(jù)進(jìn)行相應(yīng)處理。5自組織神經(jīng)網(wǎng)絡(luò)識(shí)別模型前述HMM用到各個(gè)模型中的累積概率最大的狀態(tài),但并沒有充分利用其它狀態(tài)的累積概率,同時(shí)還忽略了各個(gè)模式之間相似特征,從而影響了HMM識(shí)別語音的性能。針對(duì)這一問題可以考慮將自組織神經(jīng)網(wǎng)絡(luò)(SONN)改進(jìn)后用于HMM語音識(shí)別中,并利用自組織神經(jīng)網(wǎng)絡(luò)能夠確定樣本空間概率聚類中心的自組織能力對(duì)語音進(jìn)行識(shí)別,原理框圖如圖3所示。具體過程是:將HMM中所有狀態(tài)累積概率x={x1,x2,L,xL}={a1TΤ1(1),La1TΤ1(N),L,akTΤk(1),L,akTΤk(N),L,aKTΤΚ(1),LaKTΤΚ(N)}作為自組織神經(jīng)網(wǎng)絡(luò)分類器的輸入特征,其中K為所要識(shí)別的語音基元個(gè)數(shù),本文中K=10,HMM模型中的狀態(tài)數(shù)N=5。SONN模型由輸入層、隱層和輸出層構(gòu)成。輸入層包括L個(gè)神經(jīng)元,與HMM中各個(gè)語音基元的狀態(tài)累積概率相對(duì)應(yīng);隱層為動(dòng)態(tài)自組織層,包含P個(gè)神經(jīng)元,P在網(wǎng)絡(luò)訓(xùn)練中動(dòng)態(tài)變化。輸出層包含K個(gè)神經(jīng)元,每個(gè)神經(jīng)元分別對(duì)應(yīng)一個(gè)要識(shí)別的語音基元,本文中取K=10。6dsp實(shí)驗(yàn)結(jié)果分析本文使用了一個(gè)包含5人從“0”到“9”的各5遍發(fā)音的語音庫,庫中語音采樣率為11kHz,量化精度為16bit線性量化,幀長(zhǎng)為256點(diǎn),錄音背景為普通環(huán)境。實(shí)驗(yàn)中特征參數(shù)采用MFCC參數(shù),語音識(shí)別算法分別采用連續(xù)HMM、從左到右、無跳變和HMM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論