




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
精品文檔-下載后可編輯基于DSP的高速實(shí)時(shí)語音識別系統(tǒng)的設(shè)計(jì)-設(shè)計(jì)應(yīng)用實(shí)時(shí)語音識別系統(tǒng)中,由于語音的數(shù)據(jù)量大,運(yùn)算復(fù)雜,對處理器性能提出了很高的要求,適于采用高速DSP實(shí)現(xiàn)。雖然DSP提供了高速和靈活的硬件設(shè)計(jì),但是在實(shí)時(shí)處理系統(tǒng)中,還需結(jié)合DSP器件的結(jié)構(gòu)及工作方式,針對語音處理的特點(diǎn),對軟件進(jìn)行反復(fù)優(yōu)化,以縮短識別時(shí)間,滿足實(shí)時(shí)的需求。因此如何對DSP進(jìn)行優(yōu)化編程,解決算法的復(fù)雜性和硬件存儲容量及速度之間的矛盾,成為實(shí)現(xiàn)系統(tǒng)性能的關(guān)鍵。本文基于TMS320C6713設(shè)計(jì)并實(shí)現(xiàn)了高速實(shí)時(shí)語音識別系統(tǒng),在固定文本的說話人辨識的應(yīng)用中效果顯著。1語音識別的原理
語音識別的基本原理框圖如圖1所示。語音信號中含有豐富的信息,從中提取對語音識別有用的信息的過程,就是特征提取,特征提取方法是整個(gè)語音識別系統(tǒng)的基礎(chǔ)。語音識別的過程可以被看作足模式匹配的過程,模式匹配是指根據(jù)一定的準(zhǔn)則,使未知模式與模型庫中的某一模型獲得匹配。
1.1MFCC
語音識別中對特征參數(shù)的要求是:
(1)能夠有效地代表語音特征;
(2)各階參數(shù)之間有良好的獨(dú)立性;
(3)特征參數(shù)要計(jì)算方便,保證識別的實(shí)時(shí)實(shí)現(xiàn)。
系統(tǒng)使用目前為常用的MFCC(MelFrequencyCepstralCoefficient,美爾頻率倒譜系數(shù))參數(shù)。
求取MFCC的主要步驟是:
(1)給每一幀語音加窗做FFT,取出幅度;
(2)將幅度和濾波器組中每一個(gè)三角濾波器進(jìn)行Binning運(yùn)算;
(3)求log,換算成對數(shù)率;
(4)從對數(shù)率的濾波器組幅度,使用DCT變換求出MFCC系數(shù)。
本文中采用12階的MFCC,同時(shí)加過零率和delta能量共14維的語音參數(shù)。
1.2DTW
語音識別中的模式匹配和模型訓(xùn)練技術(shù)主要有DTW(DynamicTimeWarping,動(dòng)態(tài)時(shí)間彎折)、HMM(HideMarkovModel,隱馬爾科夫模型)和ANN(ArtificialNeu-ralNetwork,人工神經(jīng)元網(wǎng)絡(luò))。
DTW是一種簡單有效的方法。該算法基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。DTW算法的原理是計(jì)算兩個(gè)長度不同的語音之間的相似程度,即失真距離。
設(shè)測試語音和參考語音用T和R表示,他們分別含有N幀和M幀的語音參數(shù)。本文中每幀語音的特征參數(shù)為14維,因此T,R分別為N×14和M×14的矩陣。把測試語音的各個(gè)幀號x=1~N在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考語音的各幀號y=1~M在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(x,y)表示測試模式中某一幀號與訓(xùn)練模式某一幀的交叉點(diǎn),對應(yīng)于兩個(gè)14維向量的歐氏距離。DTW算法在于尋找一條通過此網(wǎng)格中若干交叉點(diǎn)的路徑,使得該路徑上節(jié)點(diǎn)的路徑和。算法示意圖如圖3所示。
2系統(tǒng)硬件環(huán)境
本系統(tǒng)的芯片為TI公司的32位浮點(diǎn)數(shù)字信號處理器TMS320C6713。其時(shí)鐘頻率可達(dá)300MHz,處理能力可以高達(dá)1336MIPS和1000MFLOPS。由于256kB的片上RAM無法滿足多路信號處理時(shí)的空間需求,系統(tǒng)通過EMIF(ExternalMemoryInterface,外部存儲器接口)擴(kuò)展了32MB的外部SDRAM,并采用EDMA(ExternalDirectMemoryAccess,擴(kuò)展的直接存儲器訪問)方式對這些外部空間進(jìn)行訪問。
TMS320C6713有2個(gè)McBSPs(Multi-channelBuff-eredSerialPort,多通道緩沖串口),每個(gè)McBSP,可與多達(dá)128個(gè)通道進(jìn)行收發(fā)。本系統(tǒng)中采用McBSP0實(shí)現(xiàn)數(shù)字語音信號到DSP的輸入,DSP進(jìn)行實(shí)時(shí)判別后輸出結(jié)果。
3軟件實(shí)現(xiàn)
由于TMS320C6x系列的C語言編譯器的效率可達(dá)匯編語言的70%~80%,并且C語言具有開發(fā)周期短、可維護(hù)性好、可移植性好、可繼承性好等優(yōu)點(diǎn),所以軟件采用C語言實(shí)現(xiàn)。
3.1軟件流程
測試中采用10個(gè)參考模板,每個(gè)模板由相應(yīng)的參考語音中2s的語音數(shù)據(jù)訓(xùn)練而成。識別策略為每路積累2s的接收語音數(shù)據(jù)后與逐個(gè)參考模板進(jìn)行匹配,如果經(jīng)由DTW運(yùn)算所得的距離值小于特定的門限,就判決已匹配。如果不匹配,就繼續(xù)接收匹配,超過8s匹配不上,就放棄。軟件流程框圖如圖5所示,其中語音數(shù)據(jù)的采樣率為8000Hz,每幀取256個(gè)采樣點(diǎn),即32ms的數(shù)據(jù)為一幀。
程序調(diào)試通過后,采用CCS對其實(shí)時(shí)性進(jìn)行分析。CCS(CodeComposerStudio,代碼編譯器)是TI公司提供的軟件開發(fā)環(huán)境。他擴(kuò)展了基本的代碼生成工具,集成了調(diào)試和實(shí)時(shí)分析功能。在CCS下,程序通過WintechTDS510仿真器接到目標(biāo)板的JTAG口進(jìn)行硬件仿真測試。
測試發(fā)現(xiàn)1幀信號的處理時(shí)間為78135679個(gè)指令周期,即391ms(TMS320C6713工作在200MHz),遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)時(shí)處理的要求,必須對其進(jìn)行優(yōu)化。
3.2代碼的優(yōu)化
首先根據(jù)TI公司提供的軟件開發(fā)流程,從合作編譯器選項(xiàng)、使用內(nèi)聯(lián)函數(shù)、使用字訪問短整型數(shù)據(jù)和使用軟件流水等方面對代碼進(jìn)行了優(yōu)化。具體實(shí)現(xiàn)中,采用-pm選項(xiàng)、-op3選項(xiàng)和-o3選項(xiàng)對程序進(jìn)行了重新編譯。展開內(nèi)層循環(huán),并通過#pragmaMUSTITERATE()告訴編譯器循環(huán)執(zhí)行的次數(shù),上述優(yōu)化后,處理一幀的時(shí)間從78135679個(gè)指令周期降到了50364683個(gè)指令周期,但是還是無法滿足實(shí)時(shí)性的要求。
進(jìn)一步對代碼進(jìn)行測試分析,提取MFCC參數(shù)的過程中,256點(diǎn)的實(shí)數(shù)FFT運(yùn)算占用了大量的時(shí)間。TI公司針對C6000系列的DSP提供了豐富的庫函數(shù)可以方便地調(diào)用。這里,從dsp67x.lib中調(diào)用DSPF_dp_cfftr4_dif()進(jìn)行256點(diǎn)實(shí)數(shù)的FFT運(yùn)算,把提取MFCC的時(shí)間降為了0.72ms。
由于采用10個(gè)參考模板,每路數(shù)據(jù)識別就要進(jìn)行10次DTW的運(yùn)算,所以如何減少DTW的運(yùn)算時(shí)間是優(yōu)化的重點(diǎn)。對DTW的優(yōu)化從兩方面進(jìn)行,首先采用查表法縮小匹配時(shí)搜索的區(qū)域。
由于DTW匹配的過程中限定了彎折的斜率,因此好多格點(diǎn)實(shí)際上是達(dá)不到的,如圖6所示。因此菱形之外的格點(diǎn)對應(yīng)的幀匹配距離是不需要計(jì)算的。在本系統(tǒng)的應(yīng)用中,因?yàn)槊看味家?s和2s的語音數(shù)據(jù)進(jìn)行匹配,M和N都固定是64幀,所以可以建一個(gè)表格儲存菱形區(qū)域內(nèi)的測試幀號和參考幀號,匹配時(shí)只計(jì)算表格中兩幀間的矢量距離,即歐氏距離,從而把歐氏距離的運(yùn)算從40960次減少到了19460次。
在采用DTW快速算法后,還需進(jìn)行了19460次歐氏距離的運(yùn)算。測試可得,每次運(yùn)算耗時(shí)1524個(gè)指令周期,所以這部分的運(yùn)算仍是影響識別速度的關(guān)鍵。為了進(jìn)一步提高代碼的性能,把這段代碼改為線性匯編來實(shí)現(xiàn)。
完成上述全部優(yōu)化后,測試得到,處理一幀的時(shí)間為1849365個(gè)指令周期,其中TMS320C6713工作在200MHz,即處理1幀的時(shí)間為1849365/200000000=9.25ms,達(dá)到0.29倍實(shí)時(shí)。
4實(shí)驗(yàn)及小結(jié)
為了測試上述系統(tǒng)的識別性能,對其進(jìn)行了固定文本的說話人辨識實(shí)驗(yàn)。實(shí)驗(yàn)中,采用錄音設(shè)備錄制了10個(gè)人、3個(gè)不同時(shí)間所說的同一句話,共30句,平均時(shí)間長度為4.5ms。從每個(gè)人的3句話中選擇頻譜清晰的一句訓(xùn)練成模板,另外錄制20句由這10個(gè)人所說的長度接近但內(nèi)容不同的語音做測試語音。這樣模板庫中有10個(gè)模板,測試語音有50個(gè)。
首先通過各模板間的匹配,確定了判決門限0.2,然后把50句測試語音依次送
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吊頂購銷合同范本
- 各種文件合同范本
- 超齡人員勞務(wù)合同范本
- 配音演員合同范本
- 名創(chuàng)優(yōu)品合同范例
- 合伙企業(yè)分廠合同范本
- 代理小吃送貨合同范例
- 合同范本訂立下述合同
- 合伙加盟合同范本
- 廁所防水補(bǔ)漏合同范本
- 城市軌道交通乘客服務(wù)課件(完整版)
- 圍手術(shù)期肺部感染
- 北師大版語文選修《蕭蕭》ppt課件1
- 大學(xué)生職業(yè)素養(yǎng)課件-5第五單元學(xué)會有效溝通-PPT課件
- 煤礦2021年重大安全風(fēng)險(xiǎn)分析預(yù)判防控報(bào)告全文
- 《傷逝》_魯迅課件__大學(xué)語文(基礎(chǔ)教育)
- 《談骨氣》課文閱讀(共2頁)
- 高考成績證明模板
- 蝴蝶蘭PPT課件
- 賓館做房記錄表
- 工業(yè)管道檢查報(bào)告
評論
0/150
提交評論