版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、西 南 林 學 院本本 科科 畢畢 業(yè)(設計)論業(yè)(設計)論 文文(二四 屆)題題 目:目: 基于 dtw 模型的語音識別 分院系部:分院系部: 計算機與信息科學系 專專 業(yè):業(yè): 計算機科學與技術 姓姓 名:名: 導師姓名:導師姓名: 導師職稱:導師職稱: 二四年六月一日基于 dtw 模型的語音識別xxx(西南林學院 計算機與信息科學系,云南 昆明 650224)摘要摘要:語音識別(speech recognition)是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹募夹g。在課題中,通過采用 dtw(dynamic time warping, 動態(tài)時間伸縮)算法,對實現(xiàn)孤立詞的識
2、別進行了初步探討和研究,實現(xiàn)了在matlab 軟件環(huán)境下孤立詞語的語音識別,并針對 dtw 的主要特點及不足做出了總結(jié)。dtw 算法基于動態(tài)規(guī)劃(dp)的思想,解決了孤立詞發(fā)音長短不一的模板匹配問題。文中還針對動態(tài)規(guī)劃的不足提出了改進。關鍵詞:關鍵詞:語音識別 dtw matlab 動態(tài)規(guī)劃voice-identification based on dtw modeldan peng(dept. of computer and information science, southwest forestry college, kunming, yunan, 650224, china) abst
3、ract: voice-identification is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. in this paper, dtw arithmetic is adapted to study and research the implement the identification of single-word, and speech recogni
4、tion for single-word is realized by using matlab. in the end, this paper gets a conclusion on the feature and the shortage of dtw.dtw arithmetic based on the method of dp has solved the problem that the voice has different time during the template matching. this paper also put forward some advises a
5、bout dp. key words: voice-identification dtw matlab dp目目 錄錄引言引言.11 開發(fā)背景及可行性分析開發(fā)背景及可行性分析.11.1 開發(fā)背景.11.2 可行性分析.22 語音識別基礎語音識別基礎.22.1 語音識別概述.22.2 語音識別系統(tǒng)分類.32.3 語音識別技術介紹.32.3.1 語音識別單元的選取 .32.3.2 特征參數(shù)提取技術 .42.3.3 模式匹配及模型訓練技術 .42.4 語音識別系統(tǒng)的基本構(gòu)成.53 matlab 簡介簡介 .64 算法闡述算法闡述.74.1 dtw 算法原理 .74.2 dtw 算法實現(xiàn) .94.2.
6、1 算法簡介 .94.2.2 程序運行流程 .94.3 運行結(jié)果.104.4 算法改進.115 總結(jié)總結(jié).125.1 語音識別難點.125.1.1 語音識別系統(tǒng)的開發(fā)過程中的難點 .125.1.2 語音識別系統(tǒng)的實際應用中的難點 .135.1.3 語音識別所面臨的實際情況 .135.2 課題總結(jié).145.3 課題心得及長遠發(fā)展.14參考文獻參考文獻.15致謝致謝.16附錄附錄 源程序代碼源程序代碼.17西南林學院 2004 屆本科畢業(yè)論文1引言語言是人類特有的功能,聲音是人類最常用的工具。通過語音傳遞信息是人類最重要、最有效、最常用和最方便的信息交換形式12。語言信號是人類進行思想疏通和情感交
7、流的最主要途徑。讓計算機能聽懂人類的語言,是自計算機誕生以來人類夢寐以求的想法。在本課題中,將針對 dtw 算法,討論如何實現(xiàn)對個別個體的特定聲音進行語音識別的問題。1 開發(fā)背景及可行性分析1.1 開發(fā)背景開發(fā)背景本項目來源于云南省重點項目西雙板納自然保護區(qū)系統(tǒng)建設。在該項目中綜合應用傳感器技術,數(shù)字仿真技術,數(shù)據(jù)編碼與數(shù)據(jù)壓縮技術,dsp 技術,無線傳輸技術等,研究自然保護區(qū)視頻信號、聲音信號以及其他監(jiān)測信號的采集、傳送、處理方案,設備選型方案,二次開發(fā)技術,為自然保護區(qū)信息系統(tǒng)建設。研究內(nèi)容:1)自然保護區(qū)圖像與聲音等監(jiān)測信息自動采集技術及專用設備研究。惡劣的自然環(huán)境下,其有低成本,高可靠
8、性,免維護太陽能供電,間歇工作條件,窄帶寬,單一功能的信息采集設備的研制。2)自然保護區(qū)監(jiān)測信息無線傳輸技術與方法研究。最佳頻點選擇,組網(wǎng)方式,圖上作業(yè),機站選點,天線類型,實驗設備選型等。3)自然保護區(qū)監(jiān)測信息數(shù)據(jù)格式及 dsp 芯片開發(fā)技術研究。與華為等開發(fā)商合作進行專用設備的設計與開發(fā)等。4)重點保護動物自動跟蹤技術研究。監(jiān)測設備之間的配合,待機與激活狀態(tài)的自動切換等。5)太陽能電圍欄智能化改造現(xiàn)有太陽能電圍欄設備,由于技術太簡單,野象很容易適應并能找到對策,本項目擬在進一步研究野象生活習性的基礎,引入其他技術,如:聲、光、影像偽裝基于 dtw 模型的語音識別2技術和智能技術,改進現(xiàn)有簡
9、單、被動的野象防護技術,并對太陽能產(chǎn)品性能作進一步研究。該課題的目標是基于研究內(nèi)容的第一點實現(xiàn)野生大象的語音識別。1.2 可行性分析可行性分析語音識別有兩種特殊形式:說話人識別和語種辨別,它們和語音識別一樣,都是通過提取語音信號的特征和建立相應的模型進行分類判斷的12。說話人識別力求找出包含在語音信號中說話人的個性因素,強調(diào)不同人之間的特征差異;而語種辨別則要從一個語音片段中判別它是哪一個語種,所以就要盡可能的找出不同語種的差別特征。在課題中,我們要實現(xiàn)的是大象聲音的識別,即實現(xiàn)在所聽到的聲音中判別哪個聲音發(fā)自于大象,或判別聽到的一個聲音是否發(fā)自于大象。這實際上就是語音的模糊識別,但為了實現(xiàn)方
10、便,只實現(xiàn)了對個別個體的特定語音識別。個別個體是指因為算法的不完善以及研究對象的相對獨立,只能識別某只特定的大象,而對于象群的模糊識別,還未能達到要求。特定聲音是指因為語音數(shù)據(jù)庫的不完善,只能正確的識別大象在特定情緒下的語音。這部分內(nèi)容在總結(jié)部分將會重點提出。2 語音識別基礎2.1 語音識別概述語音識別概述語音識別:語音識別(speech recognition)重要是指讓機器聽懂人說的話,即在各種情況下,準確的識別語音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖或執(zhí)行特定的任務12。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,涉及到生理學、心理學、語言學、
11、計算機科學以及信號處理等諸多領域,甚至還涉及到人的體態(tài)語言(如人在說話時的表情、手勢等行為動作可幫助對方理解) ,其最終目標是實現(xiàn)人與機器進行自然語言通信。西南林學院 2004 屆本科畢業(yè)論文32.2 語音識別系統(tǒng)分類語音識別系統(tǒng)分類語音識別系統(tǒng)按照不同的角度,不同的應用范圍,不同的性能要求會有不同的系統(tǒng)設計和實現(xiàn),有以下幾種類型:1)孤立詞,連接詞,連續(xù)語音識別系統(tǒng)以及語音理解和會話系統(tǒng)。2)大詞匯,中詞匯和小詞匯量語音識別系統(tǒng)。3)特定人和非特定人語音識別系統(tǒng)。在我們的課題中由于要實現(xiàn)的是對大象聲音的識別,所以可以將其歸結(jié)為第 3類,即特定人和非特定人的語音識別系統(tǒng)。2.3 語音識別技術語
12、音識別技術介紹介紹語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。此外,還涉及到語音識別單元的選取。2.3.1 語音識別單元的選取語音識別單元的選取選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句) 、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務決定4。單詞(句)單元廣泛應用于中小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓練模型任務繁重,模型匹配算法復雜,難以滿足實時性要求。音節(jié)單元多見于漢語語音識別,主要因為漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約 1300 個音節(jié),但若不考慮聲調(diào),約有 408 個無調(diào)音節(jié),數(shù)量相對較
13、少。因此,對于中、大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的4。音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有 22 個)和韻母(共有 28 個)構(gòu)成,且聲韻母聲學特性相差很大。實際應用中常把聲母依后續(xù)韻母的不同而構(gòu)成細化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)基于 dtw 模型的語音識別4分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究4。2.3.2 特征參數(shù)提取技術特征參數(shù)提取技術語音信號中含有豐富的信息,如何從中提取出對語音識別有用的信息是語
14、音識別的關鍵。特征提取就是完成這項工作,它對語音信號進行分析處理,去除對語音識別無關緊要的冗余信息,獲得影響語音識別的重要信息。對于非特定人語音識別來講,希望特征參數(shù)盡可能多的反映語義信息,盡量減少說話人的個人信息(對特定人語音識別來講,則相反) 。從信息論角度講,這是信息壓縮的過程。線性預測(lp)分析技術是目前應用廣泛的特征參數(shù)提取技術,許多成功的應用系統(tǒng)都采用基于 lp 技術提取的倒譜參數(shù)。但線性預測模型是純數(shù)學模型,沒有考慮人類聽覺系統(tǒng)對語音的處理特點4。mel 參數(shù)和基于感知線性預測(plp)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的
15、一些研究成果4。實驗證明,采用這種技術,語音識別系統(tǒng)的性能有一定提高。2.3.3 模式匹配及模型訓練技術模式匹配及模型訓練技術模型訓練是指按照一定的準則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。語音識別所應用的模式匹配和模型訓練技術主要有動態(tài)時間歸正技術(dtw) 、隱馬爾可夫模型(hmm) 、概率語法分析法和人工神經(jīng)元網(wǎng)絡(ann) 。dtw(dynamic time warping 動態(tài)時間伸縮算法)是較早的一種模式匹配和模型訓練技術,它應用動態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在
16、孤立詞語音識別中獲得了良好性能。dtw 是用滿足一定條件的時間歸正函數(shù)描述待識別模式和參考模板的時間對應關系,求解兩模板匹配是累計距離最小所對應的歸正函數(shù),從而保證了模板間存在的最大的聲學相似性。dtw 算法在詞匯表較小以及各個詞條不容易混淆的情況下具有一定的優(yōu)越性,但在由于其只是簡單的模板匹配,在處理要求更高的語音識別就顯得力不從心了。因為對于連續(xù)語音識西南林學院 2004 屆本科畢業(yè)論文5別系統(tǒng)來講,如果選擇詞,詞組,短語甚至整個句子作為識別單位,為每個詞條建立一個模板,那么隨著系統(tǒng)用詞量的增加,模板的數(shù)量將達到天文數(shù)字,而這在實際應用中是不可能被允許出現(xiàn)的情況。hmm 模型是語音信號時變
17、特征的有參表示法。它由相互關聯(lián)的兩個隨機過程共同描述信號的統(tǒng)計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態(tài)的markor 鏈,另一個是與 markor 鏈的每一狀態(tài)相關聯(lián)的觀察矢量的隨機過程(可觀測的) 。隱蔽 markor 鏈的特征要靠可觀測到的信號特征揭示。這樣,語音等時變信號某一段的特征就由對應狀態(tài)觀察符號的隨機過程描述,而信號隨時間的變化由隱蔽 markor 鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括 hmm 拓撲結(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號統(tǒng)計特性的一組隨機函數(shù)。按照隨機函數(shù)的特點,hmm 模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡稱 dhmm)和連續(xù)隱馬爾可夫模型(采用連續(xù)
18、概率密度函數(shù),簡稱 chmm)以及半連續(xù)隱馬爾可夫模型(schmm,集 dhmm 和 chmm 特點) 。一般來講,在訓練數(shù)據(jù)足夠的,chmm 優(yōu)于 dhmm和 schmm。語法分析法:一方面由于不同的人說同一些語音時,相應的語譜極其變化有種種差異,但總有一些共同的特點足以使他們區(qū)分于其他語音,也即語音學家提出的“區(qū)別性特征”。而另一方面,人類的語言要受詞法,語法,語義等約束,人在識別語音的過程中充分應用了這些約束以及對話環(huán)境的有關信息。于是,將語音識別專家提出的“區(qū)別性特征”與來自構(gòu)詞,句法,語義等語用約束相互結(jié)合,就可以構(gòu)成一個“由底向上”或“自頂向下”的交互作用的知識系統(tǒng),不同層次的知識
19、可以用若干規(guī)則來描述。人工神經(jīng)元網(wǎng)絡在語音識別中的應用是現(xiàn)在研究的又一熱點。ann 本質(zhì)上是一個自適應非線性動力學系統(tǒng),模擬了人類神經(jīng)元活動的原理,具有自學、聯(lián)想、對比、推理和概括能力。這些能力是 hmm 模型不具備的,但 ann 又不具有 hmm模型的動態(tài)時間歸正性能。因此,現(xiàn)在已有人研究如何把二者的優(yōu)點有機結(jié)合起來,從而提高整個模型的魯棒性。2.4 語音識別系統(tǒng)的基本構(gòu)成語音識別系統(tǒng)的基本構(gòu)成語音識別的典型方案如圖 1 所示。輸基于 dtw 模型的語音識別6特征提取模式匹配模型庫語音輸入識別結(jié)果圖 1 語音識別流程圖入的模擬語音信號首先要經(jīng)過預處理,包括預濾波,采樣和量化,加窗,端點檢測,
20、預加重等。語音信號經(jīng)預處理后,接下來重要的一環(huán)就是特征參數(shù)提取。對特征參數(shù)的要求是:1)提取的特征參數(shù)能有效的代表語音特征,具有很好的區(qū)分性。2)各階參數(shù)之間有良好的獨立性。3)特征參數(shù)要計算方便,具有高效的計算方法,以保證語音識別的實時實現(xiàn)。將特征參數(shù)進行一定的處理后,為每個詞條得到一個模型,保存為模板庫。在識別階段,語音信號經(jīng)過相同的通道得到語音參數(shù),生成測試模板,與參考模板進行匹配,將匹配分數(shù)最高的參考模板作為識別結(jié)果。同時還可以在很多先驗知識的幫助下,提高識別的準確率。3 3 matlab 簡介matlab 是矩陣實驗室(matrixlaboratory)之意。除具備卓越的數(shù)值計算能力
21、外,它還提供了專業(yè)水平的符號計算,文字處理,可視化建模仿真和實時控制等功能。matlab 是一種解釋性執(zhí)行語言,具有強大的計算、仿真、繪圖等功能,而且使用簡單,擴充方便,同時因為有豐富的函數(shù)庫(工具箱)所以計算的功能實現(xiàn)也很簡單。matlab 和其他高級語言也具有良好的接口,可以方便的實現(xiàn)與其他語言的混合編程3。其主要特點在于:語言簡潔緊湊,使用方便靈活,庫函數(shù)豐富;運算符豐富;matlab 既具有結(jié)構(gòu)化的控制語句(如 for 循環(huán),while 循環(huán),break 語句和 if 語句) ,又有面向?qū)ο缶幬髂狭謱W院 2004 屆本科畢業(yè)論文7程的特性;程序限制不嚴格,程序設計自由度大;程序的可移植
22、性好;matlab 的圖形功能強大;matlab 的缺點是,它和其他高級程序相比,程序的執(zhí)行速度較慢;擁有功能強大的工具箱;源程序的開放性3。4 算法闡述4.1 dtw 算法原理算法原理假設測試和參考模板分別用 t 和 r 表示,為了比較它們之間的相似度,可以計算它們之間的距離,距離越小則相似度越高。為了計算這一失真距離,應從 , d t rt 和 r 中各個對應幀之間的距離算起。設 n 和 m 分別是 t 和 r 中任意選擇的幀號,表示這兩幀特征矢量之間的距離。距離函數(shù)處決于實際采用的距離度量,( )(),nmd tr在 dtw 算法中通常采用歐氏距離。若 n=m 則可以直接計算,否則要考慮
23、將和對齊。對齊主要采用的是動( )nt()mr態(tài)規(guī)劃(dp)的方法。將測試模板的各個幀號在一個二維直角坐標系中的1nn 橫軸上標出,把參考模板的各幀號在縱軸上標出,通過這些表示幀號的整1mm 數(shù)坐標畫出一些縱橫線即可形成一個網(wǎng)格,網(wǎng)格中的每一個交叉點表示測試模( ,)n m式中某一幀與訓練模式中某一幀的交匯點。dp 算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點的路徑,路徑通過的格點即為測試和參考模板中進行距離計算的幀號。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束,如圖 2為了描述這條路徑,假設路徑通
24、過的所有格點依次為(,),(, ),(1n1minim,),其中(,)=(1,1),(,)=(n,m)。路徑可以用函數(shù)=描述,其中mnnm1n1mmnnmim( )in=i,i=1,2,n,=1, =m。為了使路徑不至于過分傾斜,可以約束斜率在in(1)()n的范圍內(nèi),如果路徑已通過了格點(,),那么下一個通過的格點(,0.521in1imin基于 dtw 模型的語音識別8)只可能是下列三種情況之一:im (,)= (+1,+2)inim1in1in (,)= (+1,+1)inim1in1in (,)= (+1,)inim1in1inm 876 54321 1 2 3 4 5 6 7 8 9
25、 10 n 圖 2 dtw 算法搜索路徑用 表示上述三個約束條件。求最佳路徑的問題可以歸結(jié)為滿足約束條件 時,求最佳路徑函數(shù)=,使得沿路徑的積累距離達到最小值,即:im( )in()( ) , ,11minmnmniiiinniiiid n md n mnnii 搜索該路徑的方法如下:搜索從(,)點出發(fā),可以展開若干條滿足 的路1n1m徑,假設可計算每條路徑達到(,)點時的總的積累距離,具有最小積累距離者nnnm即為最佳路徑。易于證明,限定范圍內(nèi)的任一格點(,)只可能有一條搜索路徑通inim過。對于,其可達到該格點的前一個格點只可能是(,)、(,)和(,),1inim1in1im1in2im那
26、么(,)一定選擇這 3 個距離中的最小者所對應的格點作為其前續(xù)格點,若用(inim,)代表此格點,并將通過該格點之路延伸而通過,這時此路徑的積累距離為:1in1im=id(n ,)im11 ( ), ()(,)iiiid t nr md nm其中的=,由下式?jīng)Q定:in1in1i1m 西南林學院 2004 屆本科畢業(yè)論文9=11(,)iid nmi-111mind(n ,),(,1),(,2)iiiiimd nmd nm這樣可以從出發(fā)搜索,在搜索,對每一個都存儲相應的前一格點及相應的幀匹配距離。搜索到時,只保留一條最佳路徑。如果有必要的話,通過逐點向前尋找就可以求得整條路徑2。這套 dp 算法便
27、是 dtw 算法。dtw 算法可以直接按上面的描述來實現(xiàn),即分配兩個的矩陣,分別為積*nm累距離矩陣 d 和幀匹配距離矩陣 d,其中幀匹配距離矩陣的值為測試模板的第( , )d i ji 幀與參考模板的第 j 幀間的距離。即為最佳匹配路徑所對應的匹配距離2。(,)d n m4.2 dtw 算法實現(xiàn)算法實現(xiàn)4.2.1 算法簡介算法簡介首先申請兩個的矩陣 d 和 d,分別為累計距離和幀匹配距離。這里 n 和 m*n m為測試模板與參考模板的幀數(shù)。然后通過一個循環(huán)計算兩個模板的幀匹配距離矩陣d。接下來進行動態(tài)規(guī)劃,為每個格點都計算其三個可能的前續(xù)格點的累積距( , )i j離,和。考慮到邊界問題,有
28、些前續(xù)格點可能不存在,因此要加用一些判1d2d3d斷條件。最后利用最小值函數(shù),找到三個前續(xù)格點的累積距離的最小值作為累min積距離,與當前幀的匹配距離相加,作為當前格點的累積距離。該計算過程( , )d i j一直達到格點,并將輸出,作為模板匹配的結(jié)果2。( ,)n m( ,)d n mdtw 算法的主體函數(shù) dtw.m 代碼詳見附件。4.2.2 程序運行流程程序運行流程程序運行后,首先讀入 wav 文件,用 mfcc 函數(shù)獲得其 mfcc 參數(shù),用 vad 函數(shù)對其進行端點檢測,并保存語音部分的 mfcc 參數(shù)到參考模板的結(jié)構(gòu)數(shù)組中或測試模板的結(jié)構(gòu)數(shù)組中2。( ).ref i mfcc( )
29、.test i mfcc在模板匹配階段,計算所有測試模板和參考模板之間的距離,保存到矩陣 dist中,將最后的匹配分數(shù)用 min 函數(shù)找到最 小值對應的模板2?;?dtw 模型的語音識別10dtw 算法的測試程序 testdtw.m 代碼詳見附件。4.3 運行結(jié)果運行結(jié)果程序的輸出結(jié)果如下: 正在計算參考模板的參數(shù).正在計算測試模板的參數(shù).正在進行模板匹配.正在計算匹配結(jié)果.測試模板 1 的識別結(jié)果為:1測試模板 2 的識別結(jié)果為:2測試模板 3 的識別結(jié)果為:3測試模板 4 的識別結(jié)果為:4測試模板 5 的識別結(jié)果為:5測試模板 6 的識別結(jié)果為:6測試模板 7 的識別結(jié)果為:7測試模板
30、8 的識別結(jié)果為:8測試模板 9 的識別結(jié)果為:9測試模板 10 的識別結(jié)果為:10從輸出結(jié)果看,識別得到了正確的結(jié)果。為了進一步驗證識別的正確性,接下來看一下匹配距離矩陣 dist 的數(shù)據(jù): distdist =1.0e+004 * 0.5741 1.8575 3.7164 2.7567 3.2732 2.4946 2.1208 1.8565 3.4530 1.7783 1.6183 0.6201 5.4711 4.0024 4.5169 3.8422 3.025 1.439 5.5660 3.4090 3.5879 5.2763 0.4147 1.4435 2.4924 3.1520 2.
31、5371 3.5035 1.0029 2.9692 2.2657 3.6250 1.0511 0.5487 2.1223 2.2573 1.8405 2.5638 1.0303 2.0788 2.4052 3.9130 2.1418 1.8048 0.4234 2.9629 2.6261 2.5600 2.1139 2.2589西南林學院 2004 屆本科畢業(yè)論文11 2.2896 3.2425 3.0996 2.7853 3.0529 0.5002 2.2229 3.2317 2.7873 1.9719 2.1692 3.8311 3.1997 2.6173 2.9306 2.4412 0.
32、6207 2.9675 2.6489 1.5591 1.9428 2.2470 4.0326 2.6934 3.1362 3.6682 3.4982 0.7567 4.3060 2.6786 3.2084 4.7374 1.0319 1.4739 2.2992 2.9104 2.2509 3.8464 0.4946 2.5945 2.2231 4.4386 2.9113 2.5731 2.7994 2.2883 1.3779 3.6557 2.2412 0.3803距離矩陣的對角線上是正確匹配模板的對應分數(shù),可見對角線上的 10 個數(shù)值都是在本行中最小的,由此驗證了識別結(jié)果的正確性。以下是程序
33、運行結(jié)果及匹配矩陣 dist 的抓圖 3:圖 3 程序運行結(jié)果4.44.4 算法改進算法改進因為 dtw 算法是一套對測試模板和參考模板進行動態(tài)規(guī)劃的算法,所以對算法的改進主要集中在模板的動態(tài)規(guī)劃上面。由文中的圖 2 可以得知,測試模板和參考模板語音幀長的最大差距為 2 倍關系。這是因為在動態(tài)規(guī)劃中,在參考格點的位置確定的情況下,下一格點的確定要計算基于 dtw 模型的語音識別12參考格點的三個前續(xù)格點的可能性,這樣如果參考格點的下一格點每次都取到最遠的路徑即可推導出測試模板和參考模板語音幀長的最大差距為 2 倍關系。但在實際進行的語音識別測試中,待測模板和參考模板語音幀長的最大差距不能到達理
34、論的最大值。這樣,對動態(tài)規(guī)劃進行如下改進,即在端點檢測中,對測試模板和參考模板的長度進行動態(tài)的統(tǒng)一。方案如下:首先按常規(guī)檢測出參考模板和測試模板的幀長。再對兩模板進行二次端點檢測,通過修改端點檢測時的幀長和幀移,使兩模板的幀長相等。這樣在動態(tài)匹配的時候,轉(zhuǎn)而去計算參考模板和測試模板每一幀的斜率比值的累積值,這樣累積值最小的即是需要尋找的模板。但是由于語音信號曲線是由語音的各項參數(shù)來決定的,所以并不是一條規(guī)則的可以用簡單方程式來表示的曲線,故斜率比值的計算并不容易實現(xiàn)。這也是改進算法實現(xiàn)的難點所在。5 總結(jié)5.1 語音識別難點語音識別難點5.1.1 語音識別系統(tǒng)的開發(fā)過程中的難點語音識別系統(tǒng)的開
35、發(fā)過程中的難點計算機語音識別是一個模式識別匹配的過程。在這個過程中,計算機首先要根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板5。而計算機在識別過程中要根據(jù)語音識別的整體模型,將計算機中存放的語音模板與輸入的語音信號的特征進行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語音匹配的模板。然后,據(jù)此模板的定義,通過查表就可以給出計算機的識別結(jié)果。顯然,這種最優(yōu)的結(jié)果與特征的選擇、語音模型和語言模型的好壞、模板是否準確等都有直接的關系。一個語音識別系統(tǒng)性能好壞的關鍵首先是它所采用的語音模型能否真實地反映話音的物理變化規(guī)律,所用的
36、語言模型能否表達自然語言所包含的豐富語言學知識。然而無論是語音信號還是人類的自然語言都是隨機、多變和不穩(wěn)定的,很難把握。這就是目前語音識別過程中的最大難點5。其次,模板訓練的好壞也直接關系到語音識別系統(tǒng)識別率的高低。為了得到一西南林學院 2004 屆本科畢業(yè)論文13個好的模板,往往需要有大量的原始語音數(shù)據(jù)來訓練語音模型。因此,在開始進行語音識別研究之前,首先要建立起一個龐大的語音數(shù)據(jù)庫和語料數(shù)據(jù)庫。一個好的語音數(shù)據(jù)庫包括足夠數(shù)量、具有不同性別、年齡、口音說話人的聲音,并且必須要有代表性,能均衡地反映實際使用情況5。有了語音數(shù)據(jù)庫及語音特征,就可以建立語音模型,并用語音數(shù)據(jù)庫中的語音來訓練這個語
37、音模型。訓練過程是指選擇系統(tǒng)的某種最佳狀態(tài)(如對語音庫中的所有語音有最好的識別率),不斷地調(diào)整系統(tǒng)模型(或模板)的參數(shù),使系統(tǒng)模型的性能不斷向這種最佳狀態(tài)逼近的過程。這是一個復雜的過程,要求計算機有強大的計算能力,并有很強的理論指導,才能保證得到良好的訓練結(jié)果。5.1.2 語音識別系統(tǒng)的實際應用中的難點語音識別系統(tǒng)的實際應用中的難點語音識別系統(tǒng)的適應性差,主要體現(xiàn)在對環(huán)境依賴性強,即在某種環(huán)境下采集到的語音訓練系統(tǒng)只能在這種環(huán)境下應用,否則系統(tǒng)性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應,使用不方便9。高噪聲環(huán)境下語音識別進展困難,因為此時人的發(fā)音變化很大,如聲音變高,語速變慢,
38、音調(diào)及共振峰變化等等,這就是所謂 lombard 效應,必須尋找新的信號分析處理方法9。5.1.3 語音識別所面臨的實際情況語音識別所面臨的實際情況語言學、生理學、心理學方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識別中是非常重要的6。首先,對人類的聽覺理解、知識積累和學習機制以及大腦神經(jīng)系統(tǒng)的控制機理等分面的認識還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識別,還有一個艱難的過程6。語音識別系統(tǒng)從實驗室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關鍵詞(句)檢測技術(即從連續(xù)語音中去
39、除諸如“啊”、 “唉”等語音,獲得真正待識別的語音部分)等等技術細節(jié)要解決6?;?dtw 模型的語音識別145.2 課題總結(jié)課題總結(jié)課題最終在編程上實現(xiàn)了個別個體的特定語音的識別,基本上達到了預定的目標?;?dtw 模型的語音識別簡單的說就是將待識別的語音信號與數(shù)據(jù)庫中的模板進行相似度對比,將相似度最高者作為識別結(jié)果輸出。因此在實際程序?qū)崿F(xiàn)中,功能強大的數(shù)據(jù)庫將是程序是否成功的關鍵。在程序中,由于受數(shù)據(jù)庫的局限,并沒有實現(xiàn)對語音的模糊識別,但個別個體的特定語音識別也具有廣泛的用途。例如,在對象群的追蹤中,就可以采取個別個體的特定語音識別的方法,重點就是要最大限度的搜集象群中頭象的聲音特征數(shù)
40、據(jù),以后一旦發(fā)現(xiàn)頭象的蹤跡,即可認為是發(fā)現(xiàn)了象群的蹤跡。這樣,既免除了搜集大量其它大象聲音特征數(shù)據(jù)的麻煩,節(jié)省了大量的時間,又免除了因為數(shù)據(jù)庫文件數(shù)量過多而引起的管理困難。因為數(shù)據(jù)庫的龐大,雖然可以保證識別的準確性,但是也可能因為識別時間過長,而失去意義,如,程序的識別結(jié)果還未給出,象群早已走出了控制范圍。5.3 課題心得及長遠發(fā)展課題心得及長遠發(fā)展一個完善的語音識別系統(tǒng)是由一個優(yōu)秀的算法以及一個語音特征數(shù)據(jù)完備的數(shù)據(jù)庫構(gòu)成的,所以說,語音識別系統(tǒng)的完善過程可以認為就是語音識別算法的完善過程和語音數(shù)據(jù)庫的完善過程之和。算法的完善有助于提高模板搜尋和匹配的效率和可靠性,相當于賦予程序一個善于思考
41、且運轉(zhuǎn)迅速的大腦,而數(shù)據(jù)庫的完善有助于提高語音識別的精度和準確性,因為在強大的數(shù)據(jù)庫的支持下,程序能最大限度的識別準確的結(jié)果。在算法和數(shù)據(jù)庫逐步完善的過程,模糊識別也將迎刃而解。模糊識別的意義在于能夠使程序區(qū)分不同的群體做出相應的反映,而不像特定識別只能針對指定的群體。西南林學院 2004 屆本科畢業(yè)論文15參考文獻1 趙力.語音信號處理.北京:機械工業(yè)出版社,20032 何強,何英.matlab 擴展編程.北京:清華大學出版社,20023 周金萍.matlab 6.5.北京:科學出版社,20034 胡航.語音信號處理.哈爾濱:哈爾濱工業(yè)大學出版社,20005 易克初等.語音信號處理.北京:國防工業(yè)出版社,20006 陳尚勤等.近代語音識別.成都:電子科技大學出版社,19917 樓順天.matlab 程序設計語言.西安:西安電子科技大學出版社,19978 姚天任.數(shù)字語音處理.武漢:華中理工大學出版社,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45109.1-2024智慧城市城市數(shù)字孿生第1部分:技術參考架構(gòu)
- 2024版建筑工程泥工施工勞務合同
- 二手商品房買賣合同范本2024年版(買賣雙方權(quán)益保障)
- 二零二五版廣東教育機構(gòu)勞務派遣服務協(xié)議3篇
- 二零二五年建筑公司項目管理團隊勞動合同3篇
- 2025年房產(chǎn)社交媒體營銷合同3篇
- 二零二五年文化旅游產(chǎn)業(yè)PPP項目特許經(jīng)營合同3篇
- 二零二五年度高效復合肥生產(chǎn)與銷售合作框架協(xié)議3篇
- 個性化2024版民間資金借貸擔保協(xié)議版B版
- 二零二五版光纖熔接項目融資服務合同范本3篇
- 割接方案的要點、難點及采取的相應措施
- 2025年副護士長競聘演講稿(3篇)
- 2025至2031年中國臺式燃氣灶行業(yè)投資前景及策略咨詢研究報告
- 福建省廈門市2023-2024學年高二上學期期末考試語文試題(解析版)
- 新人教版七年級數(shù)學上冊全冊專項訓練大全
- 標準預防--ppt課件
- 壓力管道氬電聯(lián)焊作業(yè)指導書
- 審計資料封面(共6頁)
- 加油站施工情況報告安裝
- 分子標記及遺傳連鎖圖譜
- 防火墻施工組織設計
評論
0/150
提交評論