版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、西北大學碩士學位論文語音識別特征提取算法的研究及實現(xiàn)姓名:惠博申請學位級別:碩士專業(yè):計算機軟件與理論指導教師:馮宏偉20080619摘要語音信號具有很強的時變特性,在較短的時間間隔中語音信號的特征可看作基本保持不變,這是語音信號處理的一個重要出發(fā)點。語音識別率的高低,也都取決于語音信號特征提取的準確性和魯棒性。因此,語音信號特征提取在語音信號處理應用中具有舉足輕重的地位。論文首先研究了語音識別的基本知識,主要包括語音識別的原理;語音信號處理的基本知識;各種語音識別和訓練的方法。在此基礎上本文完成的工作有:、著重研究了目前使用廣泛的美爾頻率倒譜系數(shù)()參數(shù),以維參數(shù)為例,采用增減分量的方法分析
2、了高階參數(shù)缺失對識別率的影響,找出了對噪音不敏感的高階參數(shù),在識別率變化不大的情況下對維參數(shù)進行了優(yōu)化組合。、使用根據(jù)動態(tài)時間規(guī)整()模型實現(xiàn)了一個連接數(shù)字串語音識別系統(tǒng),并進行了實驗分析。系統(tǒng)的組成模塊和語音識別系統(tǒng)的基本構成模型一致。在實現(xiàn)時選用了美爾頻率系數(shù)()。、實驗過程中發(fā)現(xiàn)了漢語數(shù)碼易于混淆的問題,在模板訓練方法和參考模板兩方面做了改進,提出了使用多對特征矢量序列進行魯棒性訓練和進行聲韻母分割來構造參考模板的方法。、最后本文研究了漢語連續(xù)語音識別中的聲學建模方法,給出了識別漢語易混淆詞的方法。本文通過對實際語音識別系統(tǒng)各個部分的實驗和研究,為進一步開發(fā)實用性語音識別系統(tǒng)的工作做了基
3、礎性的工作。關鍵詞:語音識別端點檢測美爾頻率倒譜系數(shù)動態(tài)時間規(guī)整,:,:、,一,一、,()、,、,:,西北大學學位論文知識產(chǎn)權聲明書本人完全了解西北大學關于收集、保存、使用學位論文的規(guī)定。學校有權保留并向國家有關部門或機構送交論文的復印件和電子版。本人允許論文被查閱和借閱。本人授權西北大學可以將本學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。同時授權中國科學技術信息研究所等機構將本學位論文收錄到中國學位論文全文數(shù)據(jù)庫或其它相關數(shù)據(jù)庫。保密論文待解密后適用本聲明。學位論文作者簽名:鏖廛指導教師簽名:妒年月日砌莎年石月驢日西北大學學位論文獨
4、創(chuàng)性聲明本人聲明:所呈交的學位論文是本人在導師指導下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標注和致謝的地方外,本論文不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得西北大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。學位論文作者簽名:。霪何砂心年么月日第一章緒論語音識別技術及其應用語音是人類交流信息最自然、最方便、最有效的手段。隨著電子計算機技術的廣泛應用,如何利用語言的這一特點讓人簡單、快速、準確、方便的使用計算機,使計算機能更好的為人類服務,成為人類努力追求的目標?!鞍⒗锇桶团c四十大盜”的
5、故事說明讓機器能聽懂人說話,執(zhí)行人的口頭指令,是人類古已有之的理想。語音識別簡單的說,就是讓計算機能聽懂人說的話,并做出相應的反應。語音識別技術的研究廣泛的涉及到聲學、語言學、語音學、生理科學、數(shù)字信號處理、通信理論、電子技術、計算機科學、模式識別和人工智能等眾多學科,因此一個識別效果良好的語音識別系統(tǒng),需要考慮包括說話人的心理狀態(tài)、輸入設備、說話環(huán)境多方面的因素。語音識別的應用范圍極為廣泛,可應用于各行各業(yè),如醫(yī)療衛(wèi)生服務、語音撥號、智能玩具、智能家居、賓館服務、軍事監(jiān)聽、股票交易、翻譯系統(tǒng)、汽車導航、信息網(wǎng)絡查詢、工業(yè)控制等等。語音識別廣泛涉及聲學、語言學、語音學、生理科學、數(shù)字信號處理、
6、通信理論、電子技術、計算機科學、模式識別和人工智能等眾多學科,是一門新興的交叉學科。語音識別系統(tǒng)就其不同要求可以分為一下幾類:根據(jù)對說話人說話方式的要求,可以分為孤立詞語音識別系統(tǒng),連接詞語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng);根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng);根據(jù)詞匯量的大小,可以分為小詞匯量,中等詞匯量,大詞匯量以及無限詞匯量語音識別系統(tǒng)。國內(nèi)外語音識別技術的發(fā)展歷史及其現(xiàn)狀國內(nèi)外語音識別技術的發(fā)展歷程國外從上世紀年代初就開始研究語音識別技術,世界上最早能夠識別語音的系統(tǒng)是年實驗室開發(fā)的乜,還有年普林斯頓大學實驗室開發(fā)的單音節(jié)詞識別系統(tǒng)。早期的識別方法基本上都是用模擬電
7、路實現(xiàn)待測語音和參考語音的運算關系。年代以后,各種語音識別的研究才開始展開,實驗室的研究成果是解決了語音在時間標尺上的非均勻問題。年,前蘇聯(lián)科學家首次將動態(tài)規(guī)劃算法(,)應用于語音分析。年代語音識別開始快速發(fā)展,研究重心是孤立詞語音識別。時間歸整技術眠刀(冊,)搭配基于線性預測編碼(,)的譜系數(shù)提取,使得孤立詞識別的效率大大提高,線性預測技術在語音識別領域從此得到廣泛的應用,并且演化出多種線性預測參數(shù)形式和多種譜距離測度。比較有代表性的系統(tǒng)有:大學()的、的大詞匯量自動語音聽寫系統(tǒng)和實驗室用于通迅的與話者無關的語音識別系統(tǒng)。年代,語音識別研究進一步走向深入,連接詞和大詞匯量連續(xù)語音識別成為研究
8、熱點,統(tǒng)計模型取代模板匹配的方法成為主流。隱馬爾可夫模型(,)成為大詞匯量連續(xù)語音識別系統(tǒng)的基礎。結合矢量量化技術,于年開發(fā)了,這是世界上第一個非特定人大詞匯量連續(xù)語音識別系統(tǒng)。能識別包括個詞匯的個連續(xù)語句,在語言復雜度為且環(huán)境匹配時,識別率可以達到,經(jīng)過多次改進,其識別率達到。年代,隨著信號特征的提取和優(yōu)化技術、聲學模型的細化、自然語言理解領域中語言模型的建立和解碼搜索算法技術的不斷成熟,出現(xiàn)了比較成功的大詞匯量、連續(xù)語音識別系統(tǒng),比如的系列、的、的。我國的語音識別研究比國外晚一些。但是國家現(xiàn)今比較重視,國家智能計算機主題專家組為語音識別技術專門立項,專家組每一到兩年舉行一次全國性的語音識別
9、系統(tǒng)測試,其中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。目前,我國大詞匯量連續(xù)語音識別系統(tǒng)的研究已接近國外最高水平。但從目前的市場應用范圍來看,語音產(chǎn)品的實際應用還很狹窄,這說明語音技術產(chǎn)品還存在缺陷,達不到市場化、商品化的要求,在技術上還要有很多工作要做。語音識別技術發(fā)展現(xiàn)狀近年來,在語音識別領域非?;钴S的課題為魯棒性語音識別、說話人自適應技術、大詞匯量關鍵詞識別算法、語音識別的可信度評測算法、基于類的語言模型和自適應語言模型以及深層次的自然語言的理解,研究的方向也越來越側重于口語對話系統(tǒng)。目前說話人自適應技術的研究已經(jīng)取得相當大的進步,出現(xiàn)了一些比
10、較成熟的技術,如聲道歸一化技術、最大似然線性回歸算法(,)、貝葉斯()自適應估計算法。目前,針對特定應用的中小詞匯量、特定人的語音識別技術發(fā)展已較為成熟,已經(jīng)能夠滿足通常應用的要求,并逐步投入了實用【。而非特定人、大詞匯量、連續(xù)語音識別仍是目前階段語音識別研究的重點和難點。語音識別面臨的主要問題目前的語音識別還做不到使機器能如同人類一樣能“聽懂”或理解自然語言,像人與人之間的語言交流一樣。主要原因是目前研究工作進展緩慢,主要技術理論沒有突破。雖然各種新的修正方法不斷出現(xiàn),但其普遍性和實用性還存在問題。具體的來說有如下:、語音識別系統(tǒng)的魯棒性差,對環(huán)境依賴嚴重;、語音識別系統(tǒng)的靈活性差,不能適應
11、人類靈活、自然的說話方式;、連續(xù)語音流中語音信號的聲學特征隨與之前后相連的語音的不同而有很大的變化,且各語音單位之間不存在明顯的界線,語音切分很困難;、語音特征變化大。語音特征隨發(fā)音人的不同、發(fā)音人生理或心理狀態(tài)的變化而有很大的差異;、語音的模糊性,同音詞大量而普遍存在;、對韻律信息的利用不足;韻律信息指的是說話之中的重音、語調(diào)等超音段信息;如何在語音識別中結合韻律信息還有待進一步的研究;、自然語言的多變性難以借助于一些基本語法規(guī)則進行描述,語法、語義規(guī)則定義困難。對于漢語語音識別來說除具有一般語音識別的特點外,還有其獨特的方面,因為:、漢語字以單音節(jié)為單位,發(fā)音時間短,不像英語以多音節(jié)為主;
12、、漢語有大量的同音字;漢語由個左右的聲母和韻母組成多個無調(diào)音節(jié)和多個有調(diào)音節(jié),音節(jié)與音節(jié)之間相似性大、易混淆;、中國民族眾多,不同地區(qū)之間發(fā)音變化很大,方言多;、漢語的字詞不分使得詞的切分成為漢語語言理解與處理獨有和首要的問題;、靈活自由的語言表述難以用漢語語言知識表示方法來表達。本課題研究的背景及內(nèi)容特征提取就是從語音信號中提取出語音的特征序列。提取的語音特征應該能完全、準確地表達語音信號,特征提取的目的是提取語音信號中能代表語音特征的信息,減少語音識別時所要處理的數(shù)據(jù)量。語音信號的特征分析是語音信號處理的前提和基礎,只有分析出可以代表語音信號本質特征的參數(shù),才能對這些參數(shù)進行高效的語音通信
13、,語音合成,和語音識別等處理,并且語音合成的好壞,語音識別率的高低,也都取決于語音特征提取的準確性和魯棒性。因此,語音信號特征提取在語音信號處理應用中具有舉足輕重的地位。目前,語音識別技術中最流行的特征參數(shù)時基于聲道模型和聽覺機理的()和()參數(shù),而在低頻段具有較高的譜分辨率,對噪聲的魯棒性優(yōu)于,更適合語音識別。但與人聽覺系統(tǒng)非凡的感知能力比較,不管是還是參數(shù),在不利的噪聲環(huán)境下,其魯棒性都會急劇下降。如何在特征提取過程中抽取保持語音信號最重要的特征參數(shù),成為一個急需解決的問題。本課題從維參數(shù)出發(fā),研究了高階參數(shù)對語音識別系統(tǒng)的影響,找出了對噪音不敏感的高階參數(shù),在識別率變化不大的情況下并對維
14、參數(shù)進行了優(yōu)化組合,在通用機上實現(xiàn)了一個連接數(shù)字串的語音識別系統(tǒng)。在實驗中發(fā)現(xiàn)漢語易混淆數(shù)碼的參數(shù)模板之間同樣具有很強的相似性,因此我們在系統(tǒng)的改進中主要改進了易于混淆的參數(shù)模板,取得了較好的效果,最后指出了如何實現(xiàn)連續(xù)漢語語音識別系統(tǒng)的方法。本文通過對實際語音識別系統(tǒng)各個部分的實驗和研究,為進一步開發(fā)實用性語音識別系統(tǒng)的工作做了基礎性的工作。本文的內(nèi)容結構論文結構安排如下:第一章簡要介紹了語音識別技術及應用,發(fā)展現(xiàn)狀,面臨的問題,最后闡述了本論文的結構。第二章簡要介紹了語音識別的基礎,包括語音識別的原理和基本的語音識別系統(tǒng)的構成,語音的預處理,語音信號的特征提取。第三章主要介紹了典型的語音識
15、別及訓練方法,包括動態(tài)時間彎折算法(),隱型馬爾可夫模型()和人工神經(jīng)網(wǎng)絡()的原理等。第四章首先從語音信號預處理,特征提取及識別等環(huán)節(jié)介紹了語音識別系統(tǒng)的實現(xiàn),對美爾頻標倒譜系數(shù)()做了深入研究,然后分析了參數(shù)各分量對于識別率的貢獻,在識別率變動不大的情況下,提出了一種優(yōu)化的參數(shù),最后在機上用完成一個連接數(shù)字串的語音識別系統(tǒng)。第五章就系統(tǒng)中存在的漢語數(shù)碼易于混淆的問題給出了解決方法,指出了徹底解決易混淆漢語數(shù)碼的方法。第六章對全文所做的工作進行了總結并提出了下一步研究的方向。第二章語音識別的基礎一個典型的語音識別系統(tǒng)包括語音信號預處理,特征提取,模型的訓練與識別等幾個主要環(huán)節(jié)。語音信號的預處
16、理語音信號的采樣和量化語音信號是一個時間和幅度都連續(xù)變化的一維模擬信號。而語音識別的過程是一個對語音信號進行數(shù)字處理的過程,在對語音信號處理之前,必須要對其進行數(shù)字化,這個過程就是模數(shù)()轉化。模數(shù)轉化過程要經(jīng)過采樣和量化兩個過程,從而得到時間和幅度上的離散數(shù)字信號。根據(jù)奈奎斯特采樣定律,采樣頻率應為原始信號頻率的兩倍以上,才能使采樣過程中不會丟失信息,而且能從采樣信號中準確的重構原始信號的波形。正常人的發(fā)音范圍是從到左右,因此在實驗中,本文對語音信號的采樣頻率均為。圈日圈日模擬信號采樣語音信號的預加重量化數(shù)字信號圖轉換示意圖由于語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,語音信號從嘴唇輻
17、射后,高頻端大約在以上有倍頻的衰減。因此,在對語音信號進行分析之前,一般要對語音信號加以提升(預加重)。預加重的目的是濾除低頻干擾,尤其是或者的工頻干擾,提升對語音識別有用的高頻部分,使信號的頻譜變得平坦,以便于進行頻譜分析或聲道參數(shù)分析。語音信號的預加重一般在模數(shù)轉化后進行,利用倍頻的一階數(shù)字預加重濾波器實現(xiàn)。其函數(shù)為:()其實現(xiàn)框圖為:其中()為原始語音信號,()為預加重后的語音信號。為預加重濾波器的系數(shù),取值范圍一般在,本文取二()預加重前的波形()預加重后的波形()預加重前的頻幅()預加重后的頻幅圖語音信號的預加重語音信號的加窗處理語音信號是一種非平穩(wěn)信號,為了能對語音信號進行處理,我
18、們可以假定在之間語音信號是平穩(wěn)的,語音頻譜特性和語音特征參數(shù)恒定。因此需將語音信號劃分為一個一個的短時段,每一個短時段稱為一幀,為了從詈拉語音信號中切去出樣本信號,就要用時間窗函數(shù)乘以原始語音信號,這種操作就稱為加窗。在語音信號數(shù)字處理中常用的窗函數(shù)有矩形窗,漢寧窗和漢明窗。漢寧窗:()漢明窗:三一其他一,旦),二一。(各)對語音信號加窗的函數(shù)為:一其他其他一。()】(一聊)其中表示信號處理方法,()為語音幀序列,()為各個語音幀上的窗函數(shù)。窗函數(shù)的選擇對語音信號的短時分析影響很大,窗函數(shù)越寬對信號的平滑作用越好,窗函數(shù)的主瓣寬度要窄,旁瓣要盡可能小,使能量盡量集中在主瓣中,以抑制頻譜的泄露。
19、目前應用最為廣泛的是漢明窗。仉廠,、氤臃矩弋語音信號的端點檢測端點檢測在語音識別中有著重要的作用。其目的是從語音信號中檢測處語音信號段和噪音段,準確的端點檢測不僅可以減少計算量,而且可以提高系統(tǒng)的識別率。目前端點檢測的算法有很多,基于雙門限比較法的端點檢測,基于滑動窗口的語音端點檢測算法豳等等。常用的端點檢測是基于限比較法例的端點檢測,就是根據(jù)語音信號的特征參數(shù)(能量和過零率)進行清音、噪音判別,從而完成端點檢測的。下面做以介紹:語音信號的短時能量定義如下:【工(垅)(?)石()(刀一肌)】加卅一,一工(朋)()(刀)宰辦(甩)其中()()為窗函數(shù),為窗長。從能量上來說,濁音的能量大于清音的能
20、量,因此短時能量可以用來判斷清音和濁音,進一步也可以進行有聲和無聲判斷,連字分界等。語音信號的短時過零率定義如下:()()()其中是符號函數(shù):()()、,、,():,一其他過零率間接反應了語音的頻譜特性,它把語音信號分成了多個通道,因此可以用過零率對語音信號進行頻譜分析。基于雙門限比較法的端點檢測,就是通過語音信號的短時能量和過零率來判斷一段語音信號的端點。在檢測的開始由于語音信號的能量會比較大,因此先設置一個較大的門限瓦用來確認語音已經(jīng)開始,再取一個較低的門限正來確認語音真正的起點和終點,同時使用采用一個較低的過零率門限乃來判斷語音間隔。以下是英文數(shù)碼的端點檢測運行結果:零霧爹簍霉爹擎震曩爹
21、霧霉篙鬟霧鬻霈褰霪?爹霧霉鬻鋤:,知,扎”?:,“鐮:,蟹,叱?峨,能”;一苷盤靜?。二鞭。筠,、一一諍;,盛。劉。置:。燕呷。而獅刪”:一“。卯;“?。:。瓷、一;。一。一一?一?謄,耄?鎏:霉一:,!秀,一“:。:”口謄,:。磊長“秘,。,。:?巍,。一。一;、“。?蚤毽,甏一。;。:蛩一:。二鼉一冬?,瓷。,?。一。一。:。“。;。一;?,“,。;壤。善,鬻一一“。毫;、。?砒,毫。鼉氌。:。,尊;二蕊。豫娃,”,!巍盛琵。邋圖英文數(shù)碼的端點檢測結果語音信號特征參數(shù)的提取經(jīng)過對語音信號的預處理之后就要進行特征參數(shù)的提取,在語音信號的特征提取中對特征參數(shù)的要求是:、能有效代表語音特征,具有
22、良好的區(qū)分性:、特征參數(shù)之間有良好的獨立性;、特征參數(shù)易于計算,最好能保證語音識別的實時實現(xiàn)。一般將語音信號的特征參數(shù)分為兩類:第一類為時域特征參數(shù),通常是將一幀語音信號中的各個時域采樣直接構成一個參數(shù)矢量;第二類為變化域特征參數(shù),這種參數(shù)是將一幀語音信號進行某種變化后產(chǎn)生的參數(shù)矢量,目前常用的為頻域特征參數(shù)。語音信號的時域特征參數(shù)語音信號的時域特征參數(shù)主要為短時過零率、短時能量和基因周期等。短時過零率和短時能量前面已經(jīng)介紹過,它們是語音信號端點檢測中的重要參數(shù)?;糁芷谝彩钦Z音信號中一個非常重要的參數(shù),基音是指發(fā)濁音時聲帶振動的周期性,基音周期則是聲帶振動頻率的倒數(shù)。由于基音周期只具有準周期
23、性,所以只能采用短時平均方法估計該周期,這個過程就稱為基音周期檢測?;糁芷诘臋z測方法大概可分為三類:、波形估計法,直接使用語音波形來估計基音周期,分析出波形上的周期峰值等。、相關處理法,先將信號提取聲道模型參數(shù),然后利用它對信號進行逆向濾波,得到音源序列,最后再利用自相關法求出基音周期。、變化域法,將語音信號變化到頻域或者倒譜域來估計基音周期,雖然基音周期估計效果好,但這種方法的計算量較大而且復雜。語音信號的頻域特征參數(shù)在語音信號的頻域特征參數(shù)中,目前使用最為廣泛的是線性預測倒譜系數(shù)()和美爾頻率倒譜系數(shù)()。線性預測倒譜系數(shù)的主要思想是利用語音信號采樣點之間的相關性,用過去的樣點值來預測現(xiàn)
24、在或者未來的樣點值,也就是一個語音信號的抽樣能夠用過去若干個語音抽樣或者它們的線性組合來逼近。線性預測倒譜系數(shù)是線性預測系數(shù)在倒譜域中的表示。線性預測倒譜系數(shù)的求取過程如下圖所示:語音圖計算框圖一般計算系數(shù)的公式如下:()(,)薯(一言)吒(刀一尼),刀咖)喜(一等)州加其中)為倒譜系數(shù),口。為預測系數(shù),為預測系數(shù)的階數(shù),為倒譜系數(shù)的階數(shù)。使用倒譜可以提升參數(shù)的穩(wěn)定性,而且能夠主要反應聲道響應,但是由于參數(shù)在頻譜上是通過線性逼近得到的,因此不能很好的反應出入耳聽覺特性,且包含了語音高頻部分的噪音。美爾頻率倒譜系數(shù)與線性預測系數(shù)不同,它是將人耳聽覺感知特性與語音的產(chǎn)生相結合的一種特征參數(shù)。實驗發(fā)
25、現(xiàn)人耳對不同頻率的語音具有不同的感知能力,在以下,感知能力與頻率成線性關系,在以上,感知能力與頻率成對數(shù)關系。為了模擬這種人耳的感知特性,人們提出了頻標的概念,意義為:為的音調(diào)感知程度的。具體關系定義為:,厶(蒜)其中丘為實際線性頻率,厶為頻標。參數(shù)計算過程如下:、對語音信號進行預處理,加窗分幀將其變?yōu)槎虝r信號。、通過將短時時域信號轉化為頻域信號只(廠),并計算其短時能量譜只(國):(國)只(廠),(,)、在頻標內(nèi)三角帶通濾波器(個)加于坐標得到濾波器組鞏(尼),轉化關系為:厶。()、計算能量譜尸(緲)經(jīng)由此肌,濾波器組的輸出,取幀計算的方法是:采集中心頻率在以上和以下的各個:片州滬丟)蹦尼)
26、矧,凡一,二,、表示第七個濾波器,表示濾波器個數(shù)。其中以(尼)表示濾波器組,其中心頻率從一采樣頻率間頻率分布,中心頻率為(),肌,其公式設計為:(尼),肋)一(肋面)七(),七()(一)廠(肼)黷廠(塒)七廠(肌)()一廠(聊)一、系數(shù)塒(,)在美爾刻度譜上可以采用離散的余弦變換(肋)求得。,、占,、萬、(加似)(刀乩瑚(刀:?。啊ⅰ币?。,標準的倒譜參數(shù)只反映語音參數(shù)的靜態(tài)特性,認為不同幀間的語音是不相關的,實際上由于發(fā)音的物理條件限制,不同幀間語音一定是相關的,變化是連續(xù)的,所以在識別參數(shù)中還使用一階差分倒譜參數(shù),其定義為:。(刀)寺善卜()、丕。尸。其中為常數(shù),一般取,都表示一幀語音參數(shù)
27、,在實際使用中通常將參數(shù)和差分參數(shù)合并為一個向量,作為一幀語音信號的參數(shù)。綜上所述,參數(shù)與參數(shù)相比,參數(shù)具有以下優(yōu)點:、語音的信息大多集中在低頻部分,而高頻部分易受環(huán)境噪聲干擾。參數(shù)將線性頻標轉化為頻標,強調(diào)語音的低頻信息,從而突出了有利于識別的信息,屏蔽了噪聲的干擾。參數(shù)是基于線性頻標的,所以沒有這一特點。、參數(shù)無任何前提假設,在各種情況下均可使用。而漢語數(shù)碼語音識別需要對輔音有較強的分辨能力,如,等,所以參數(shù)在漢語數(shù)碼語音識別中優(yōu)于參數(shù)。、參數(shù)提取過程中需要變換,我們可以由此順便獲得語音信號頻域上的全部信息,有利于端點檢測、語音分段等算法。本章小結本章討論了語音識別系統(tǒng)的信號處理技術,包括
28、語音信號的模數(shù)轉化,端點檢測及特征提取等方面的知識,目的是對語音信號處理有個大致的認識,為后面的研究打下基礎。第三章語音識別的模型及其訓練方法語音識別系統(tǒng)本質上是模式識別系統(tǒng)。語音識別過程就是根據(jù)模式匹配原則,按照一定的相似性度量法則,使未知模式與參考模式庫中的某一個參考模型獲得最佳匹配的過程。目前語音識別比較常用的識別方法主要有模板匹配法,以動態(tài)時間規(guī)整(,)為代表;隨機模型法,以隱馬爾可夫模型(,)為代表;基于人工神經(jīng)網(wǎng)絡(,)的識別方法。動態(tài)時間規(guī)整算法()模板匹配法是多維模式識別系統(tǒng)中最常用的一種相似度計算方法,是最早用于語音識別的方法。在訓練過程中,經(jīng)過特征提取和特征維數(shù)的壓縮,針對
29、每個模式類各產(chǎn)生一個或幾個模板,識別階段將待識別模式的特征矢量與各模板進行相似度計算,然后判別它屬于哪個類。這種方法采用某種非線性時間對準算法,解決了發(fā)音長短不一的問題。常用的是基于最近鄰原則的動態(tài)時間規(guī)整方法,簡稱,是效果最好的一種非線性時間規(guī)整模板匹配算法,在孤立詞語音識別中獲得了成功的應用。算法與算法在相同環(huán)境條件下,識別效果相差不大,但是所處理的數(shù)據(jù)量小,分析速度快。就是將發(fā)音在時間軸進行彎曲,以使兩次發(fā)音能夠更好的匹配。假設參考模板為:(,),測試模板為:(,),其相似度用距離,來表示,假設和分別是和中任意選擇的幀號,(),()則表示兩幀之間的距離。在算法中通常采用歐式距離,距離越小
30、相似度越高。若則可以直接計算,否則要考慮將(),()對齊,對齊采用線性擴張的方法,如果可以將線性映射為一個幀的序列,再計算它與(),(),()之間的距離,但這樣的計算沒有考慮語音中各個段在不同情況下的持續(xù)時間會產(chǎn)生的變化,因此識別效果不好,更多情況下是采用動態(tài)規(guī)劃們()的方法。算法就是要尋找一個最佳的時間規(guī)整函數(shù),使被測語音模板的時間軸非線性地映射到參考模板的時間軸,使總的累積失真量最小。,加圖算法的搜索路徑如上圖所示將測試模板的各個幀號在一個二維直角坐標系中的橫軸上標出,把參考模板的各幀號在縱軸上標出,通過這些表示幀號的整數(shù)坐標畫出一些縱橫線即可形成一個網(wǎng)格,網(wǎng)格中的每一個交叉點(,)表示測
31、試模板中某一幀與訓練模板中某一幀的交匯點。動態(tài)規(guī)劃算法可以歸結為尋找一條通過此網(wǎng)格中若干格點的路徑,路徑通過的格點即為測試模板和參考模板中進行距離計算的幀號。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結束。假設路徑通過的格點依次為(縞、。),(吩、),(刀、),其中(。、。)(、),(擰、)(肌肜)。路徑可以用函數(shù)(,)描述,其中?,(),()。為了使路徑不至于過分傾斜,可以將路徑限于一個平行四邊形區(qū)內(nèi),它的一條邊斜率為,另一條邊斜率為。如果路徑已通過了格點(、傷一。),那么下一個通過的格點(珥、)只
32、可能是下列三種情況之一:“(礙、飭)(吩一、刀二)(、)(、)(吃、)(椎、研)按照上述約束條件,定義路徑代價函數(shù)饑(孫,)】,其意義為從起始點(、塒。)出發(fā)到當前點(、所;)的各幀失真累計值,有如下遞推公式:毗、瑪)聊),、)】書盯),黼眈、瑪)】、(、瑪)、嘲)其中瓴),(,)】為當前點(玎,、,)對應的幀(璩)和(,)的幀失真,【(嘞、)為前一點(傳、糾)的路徑代價函數(shù)。這樣從(,)出發(fā)搜索,反復遞推,直到(、舊點就可以得到最佳路徑,而且(,)為最佳路徑所對應的最小失真。改進的動態(tài)時間規(guī)整算法傳統(tǒng)的算法的缺點是模板匹配的運算量太大,當兩個模板的長度較大時,訓練和識別算法的運算量就相當大。
33、實際上,在匹配的路徑中限定了規(guī)整路徑的斜率,因此許多網(wǎng)格點是達不到,所以平行四邊形外的網(wǎng)格點是不需要計算的,另外也沒必要保存所有幀的匹配距離矩陣和累積距離矩陣。改進型算法大大提高了運算效率,它把實際路徑分為三段:(,托),(五,五),(五十,),其中專(一),專(一),以和都取最相近的整數(shù)。如圖)所示,由此也得出了對和長度的限制條件,當限制條件不滿足時,不進行動態(tài)規(guī)劃匹配,在坐標軸上的每一幀與坐標軸一瘩(三聊。,的計算公式如下:五,托圖匹配路徑約束示意圖若出現(xiàn)咒鼉的情況,此時匹配的路徑三段為(,五),(,以),(以,)。對于坐標軸每前進一幀,雖然所要比較的坐標軸上的幀數(shù)不同,但規(guī)整特性是一致的
34、,累積距離如下式所示:(、)氏)(一、)、一、一)、)其中和分別表示累積距離和幀匹配距離。隱馬爾可夫模型隱馬爾可夫模型是世紀年代以來語音識別領域取得的重要成果。它是一個雙重隨機過程,一方面隱馬爾科夫模型()用隱含的狀態(tài)對應于聲學層各相對穩(wěn)定的發(fā)音單位,并通過狀態(tài)轉移和狀態(tài)駐留來描述發(fā)音的變化,這是基本隨機過程;但是實際問題比馬爾可夫模型所描述的更復雜,觀察到的序列并不是與狀態(tài)一一對應,另一方面它引入了概率統(tǒng)計模型,不再用動態(tài)時間對齊的方法求匹配距離,而是用概率密度函數(shù)計算語音參數(shù)對隱馬爾科夫模型()的輸出概率,通過搜索最佳狀態(tài)序列,以最大后驗概率為準則找到識別結果。這種由馬爾可夫鏈演變而來,第
35、一重的狀態(tài)轉移序列對外界隱含的模型,稱為隱馬爾可夫模型。刪的種類的結構有三種,第一種是經(jīng)歷各態(tài)的第二種是二轉移第三種是三轉移圖經(jīng)歷各態(tài)的圖二轉移圖三轉移的馬可夫鏈都是一樣的,不同的是觀察序列的概率分布,也就是語音識別系統(tǒng)中的,根據(jù)這個,把分為兩大類,離散()和連續(xù)(),對應的分布參數(shù)是一個概率矩陣,而對應的分布參數(shù)是觀察序列的輸出概率密度函數(shù):、在中,中直接存儲每個狀態(tài)產(chǎn)生的某個觀測事件的概率,(,),在情況下,觀察序列為符號序列,為一狀態(tài)概率矩陣:乜(七),;,它滿足:(),其中為狀態(tài)概率矩陣的個數(shù),為狀態(tài)序號,識別時篁直接使用算法即可求出(兄)。、在中,曰中每個狀態(tài)對應于一個觀察概率密度函
36、數(shù),觀察序列為向量序列(設維數(shù)為),就是個維的概率密度函數(shù)的集合:刀以(,一,其中為觀察向量空間中的任一向量,每一個密度函數(shù)都滿足歸一的條件。(),表示第,狀態(tài)的觀察概率空間,在語音識別領域中,的識別效果最好。模型三參數(shù)、萬防,萬:,萬為初始分布,用于描述觀察序列在時刻的所處狀態(tài)。屬于模型中各狀態(tài)的概率分布,即:萬(),滿足:乃、,為狀態(tài)轉移概率矩陣,這里只考慮一喻,當前所處狀態(tài)口,只與前一時刻所處狀態(tài)靠。有關,即:牙(,吼一,墨,最,。)(,島吼一)它滿足上面節(jié)里提到的二轉移特別適合語音識別系統(tǒng),是因為語音信號是隨時間變化的信號,其狀態(tài)只能駐留或者往后轉移,所以最后的這個模型特別適合進行語音
37、信號建模。那么,在語音信號的特定環(huán)境下,如果,那么就有鳴,也就是說,語音信號的狀態(tài)不能向前轉移,只能向后面的高狀態(tài)轉移,因此,有萬。狀態(tài)的跳轉也不能太大:如,同樣,對于最后狀態(tài),有刪,如下所示:口口、,為語音觀察序列中任一觀察(它是隨機變量或隨機向量)在各狀態(tài)的觀察概率空間中的分布(概率密度函數(shù)或者是概率分布函數(shù)),中,巧()勺(,如,)表示某一狀態(tài),對應概率密度函數(shù)的個數(shù);()表示某一概率密度函數(shù);下面三個是概率密度函數(shù)的三參數(shù):,表示第個狀態(tài),第,個混合高斯函數(shù)的權。表示第個狀態(tài),第,個混合高斯函數(shù)的均值矢量表示第個狀態(tài),第,個混合高斯函數(shù)的協(xié)方差矩陣嚴格來講,模型的狀態(tài)數(shù)、高斯函數(shù)個數(shù)也
38、是里的參數(shù),但是這兩個參數(shù)已經(jīng)包含在么,召里。么口口口口口口口口口口口口口口口口圖與語音參數(shù)的關系模型三問題如果用模型完成語音識別,有三個問題需要解決:、輸出概率的計算問題給定觀察序列:,和模型五(,萬),如何計算觀察序列對模型的輸出概率()。、確定最優(yōu)狀態(tài)序列若已知一個系統(tǒng)的三項特征參數(shù)(,),給定一個觀察序列:聽,如何確定一個最佳的狀態(tài)序列【。,:,縱】。、調(diào)整參數(shù)如何調(diào)整仞,),使(元)最大。模型三算法、前向后向算法這個算法用來解決的第一個問題:給定一個觀察值序列,丁以及一個模型(石,),計算由模型允產(chǎn)生出的概率(允)。(兄)最直接的求取方法如下:對一個固定的狀態(tài)序列,有:(,允)兀(,
39、)():()()(在,的狀態(tài)下,取得的概率乘積)。其中(,)吼;巳艫吃,對于給定旯,產(chǎn)生的概率為(旯)萬吼口州:口憶。釘,因此在旯條件下和司時發(fā)生的聯(lián)合概率為:()(,兄)旯)所有丌吼。()口蚋:(:)口機衙,()爭兒仍,可以看出其計算量比較大,由(一)次乘法和個加法,因此一個比較有效的算法:前向后向算法是解決此問題的有效算法(以下對幺的形式簡記為)()前向算法定義前向變量為:。()(。,:,),表示給定刪模型參數(shù),部分觀察序列為,:,),并且在時刻緞于狀態(tài)幺的概率。那么,有:初始化:對,有口()萬包()遞推:對,有口川()()口擴()終止:()口()式子中:(川):。狀態(tài)觀察序列(口(,)(
40、)格形結構()計算前向變量口州(力的遞推過程圖前向算法示意圖()后向算法與前向算法類似,定義后向變量為屈()(,兄),是在給定模型下,從時刻開始到觀察結束這一段的觀察序列為川,且在時刻處在狀態(tài)只的概率。類似前向算法,有初始化:對有屏()遞推:對一,一,;有,尼()口擴(,。)層。()終止:(兄)屈()前向一后向算法是一種格形結構,后向變量的遞推過程如下圖:尼()夕(力圖后向算法計算()示意圖、算法這個算法用來解決的第二個問題,也就是說,給定一個觀察值序列,和一個模型旯協(xié),),如何確定一個最佳狀態(tài)序列,:,】的問題。最佳的意義有很多種,由不同的定義可得到不同的結論。這里討論的最佳意義上的狀態(tài)序列
41、是指使(,旯)最大時確定的狀態(tài)序列。比較廣泛應用準則是:在任意時刻,選取最可能發(fā)生的狀態(tài),使(,旯)尸(吼,旯)成立,則令,這可用算法來實現(xiàn),其描述如下:定義甌()(,旯)那么,求取最佳狀態(tài)序列的過程為:初始化:對,有萬()萬(),伊()遞推:對,有色(歹)懋一,(咖肜),紀),()口擴終止:尸圍馴,;防()】路徑回溯,確定最佳狀態(tài)序列:緲(二),。、算法這個算法用來解決的第三個問題,也就是:給定一個觀察序列:,如何訓練一個仿,),(允)最大,即參數(shù)重估問題。算法的基本思想是根據(jù)觀察值序列和選取的初始模型仞,),求取一個新模型萬(矛,一,百)。可以證明,(萬)(允),即由重估公式得到的萬比在表示觀察值序列方面好,重復這個過程,逐步改進模型參
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療設備租賃解除律師函
- 能源供應合同備案制度
- 建筑監(jiān)理基礎施工協(xié)議
- 農(nóng)業(yè)創(chuàng)新園區(qū)停車場改造合同
- 鉆孔工程安全生產(chǎn)考核合同
- 環(huán)保工程木地板工程合同
- 醫(yī)院管理團隊聘用合同
- 租用合同樣本:消防設備
- 護理科研項目管理與實施
- 藥品采購績效評估體系
- 鍋爐控制器modbus協(xié)議支持說明
- 粉末涂料有限公司危廢庫安全風險分級管控清單
- 安全生產(chǎn)信息管理制度全
- 住宅物業(yè)危險源辨識評價表
- 世界主要國家洲別、名稱、首都、代碼、區(qū)號、時差匯總表
- 2023學年廣東省廣州市越秀區(qū)鐵一中學九年級(上)物理期末試題及答案解析
- 《報告文學研究》(07562)自考考試復習題庫(含答案)
- 安全操作規(guī)程
- 電源日常點檢記錄表
- 人教版小學三年級語文上冊期末測試卷.及答題卡2
- 鋼軌接頭位置及接頭聯(lián)結形式
評論
0/150
提交評論