語音識別技術的應用_第1頁
語音識別技術的應用_第2頁
語音識別技術的應用_第3頁
語音識別技術的應用_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

語音識別技術的應用

0語音識別技術在軍事領域的應用語言是人類最常用、最有效、最重要、最便捷的溝通形式。語音是語言的語音表達,是人類自由空間接受的夢想。隨著計算機技術的飛速發(fā)展,語音識別技術也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現。語音識別技術的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領域也發(fā)揮著極其重要的作用。它是信息社會朝著智能化和自動化發(fā)展的關鍵技術,使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。1整u模式階段語音識別技術起始于20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數字以及孤立詞的識別。20世紀60年代,語音識別研究取得實質性進展。線性預測分析和動態(tài)規(guī)劃的提出較好地解決了語音信號模型的產生和語音信號不等長兩個問題,并通過語音信號的線性預測編碼,有效地解決了語音信號的特征提取。20世紀70年代,語音識別技術取得突破性進展。基于動態(tài)規(guī)劃的動態(tài)時間規(guī)整(DynamicTimeWarping,DTW)技術基本成熟,特別提出了矢量量化(VectorQuantization,VQ)和隱馬爾可夫模型(HiddenMarkovModel,HMM)理論。20世紀80年代,語音識別任務開始從孤立詞、連接詞的識別轉向大詞匯量、非特定人、連續(xù)語音的識別,識別算法也從傳統(tǒng)的基于標準模板匹配的方法轉向基于統(tǒng)計模型的方法。在聲學模型方面,由于HMM能夠很好的描述語音時變性和平穩(wěn)性,開始被廣泛應用于大詞匯量連續(xù)語音識別(LargeVocabularyContinousSpeechRecognition,LVCSR)的聲學建模;在語言模型方面,以N元文法為代表的統(tǒng)計語言模型開始廣泛應用于語音識別系統(tǒng)。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經網絡的語音建模方法開始廣泛應用于LVCSR系統(tǒng),語音識別技術取得新突破。20世紀90年代以后,伴隨著語音識別系統(tǒng)走向實用化,語音識別在細化模型的設計、參數提取和優(yōu)化、系統(tǒng)的自適應方面取得較大進展。同時,人們更多地關注話者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題。此外,語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便于實現語音識別技術的產品化。2語音識別基礎2.1語音識別的研究領域語音識別是將人類的聲音信號轉化為文字或者指令的過程。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域。根據在不同限制條件下的研究任務,產生了不同的研究領域。這些領域包括:根據對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識別系統(tǒng);根據對說話人的依賴程度,可分為特定人和非特定人語音識別系統(tǒng);根據詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。2.2語音識別系統(tǒng)基本原理從語音識別模型的角度講,主流的語音識別系統(tǒng)理論是建立在統(tǒng)計模式識別基礎之上的。語音識別的目標是利用語音學與語言學信息,把輸入的語音特征向量序列X=x1,x2,?,xT轉化成詞序列W=w1,w2,?,wN并輸出?;谧畲蠛篁灨怕实恼Z音識別模型如下式所示:上式表明,要尋找的最可能的詞序列,應該使P(X|W)與P(W)的乘積達到最大。其中,P(X|W)是特征矢量序列X在給定W條件下的條件概率,由聲學模型決定。P(W)是W獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數不影響W的選取,第四個等式成立。logP(X|W)與logP(W)分別表示聲學得分與語言得分,且分別通過聲學模型與語言模型計算得到。λ是平衡聲學模型與語言模型的權重。從語音識別系統(tǒng)構成的角度講,一個完整的語音識別系統(tǒng)包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統(tǒng)本質上是一種多維模式識別系統(tǒng),對于不同的語音識別系統(tǒng),人們所采用的具體識別方法及技術不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數送入模型庫模塊,由聲音模式匹配模塊根據模型庫對該段語音進行識別,最后得出識別結果。語音識別系統(tǒng)基本原理框圖如圖1所示,其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動增益控制等處理過程,將語音信號數字化;特征提取模塊對語音的聲學參數進行分析后提取出語音特征參數,形成特征矢量序列。語音識別系統(tǒng)常用的特征參數有短時平均幅度、短時平均能量、線性預測編碼系數、短時頻譜等。特征提取和選擇是構建系統(tǒng)的關鍵,對識別效果極為重要。由于語音信號本質上屬于非平穩(wěn)信號,目前對語音信號的分析是建立在短時平穩(wěn)性假設之上的。在對語音信號作短時平穩(wěn)假設后,通過對語音信號進行加窗,實現短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構成語音識別系統(tǒng)的輸入。由于梅爾倒譜系數及感知線性預測系數能夠從人耳聽覺特性的角度準確刻畫語音信號,已經成為目前主流的語音特征。為補償幀間獨立性假設,人們在使用梅爾倒譜系數及感知線性預測系數時,通常加上它們的一階、二階差分,以引入信號特征的動態(tài)特征。聲學模型是語音識別系統(tǒng)中最為重要的部分之一。聲學建模涉及建模單元選取、模型狀態(tài)聚類、模型參數估計等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關的模型作為基本建模單元,以刻畫連續(xù)語音的協(xié)同發(fā)音現象。在考慮了語境的影響后,聲學模型的數量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類的方法壓縮聲學參數的數量,以簡化模型的訓練。在訓練過程中,系統(tǒng)對若干次訓練語音進行預處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語音的參考模式庫。搜索是在指定的空間當中,按照一定的優(yōu)化準則,尋找最優(yōu)詞序列的過程。搜索的本質是問題求解,廣泛應用于語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(tài)(從高層至底層依次為詞、聲學模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對輸入的語音信號在一定準則下的一個最優(yōu)描述。在識別階段,將輸入語音的特征矢量參數同訓練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結果繼續(xù)處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結果的可靠程度等。最終通過增加約束,得到更可靠的識別結果。2.3基于hmm的相似參數模型常用的聲學建模方法包含以下三種:基于模式匹配的動態(tài)時間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經網絡識別法(ANN)等。DTW是較早的一種模式匹配的方法。它基于動態(tài)規(guī)劃的思想,解決孤立詞語音識別中的語音信號特征參數序列比較時長度不一的模板匹配問題。在實際應用中,DTW通過計算已預處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。HMM是對語音信號的時間序列結構所建立的統(tǒng)計模型,是在馬爾可夫鏈的基礎上發(fā)展起來的,它是一種基于參數模型的統(tǒng)計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態(tài)數的馬爾可夫鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態(tài)相關聯的觀測序列的隨機過程。ANN以數學模型模擬神經元活動,將人工神經網絡中大量神經元并行分布運算的原理、高效的學習算法以及對人的認知系統(tǒng)的模仿能力充分運用到語音識別領域,并結合神經網絡和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態(tài)特性方面的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態(tài)的后驗概率。2011年,微軟以深度神經網絡替代多層感知機形成的混合模型系統(tǒng)大大提高了語音識別的準確率。3在軍事領域的應用語音識別技術有著非常廣泛的應用領域和市場前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應,這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統(tǒng)的反應時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統(tǒng)、聲控智能玩具、智能家電等領域。在智能對話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠端的數據庫系統(tǒng)中查詢與提取有關信息,享受自然、友好的數據庫檢索服務,例如信息網絡查詢、醫(yī)療服務、銀行服務等。語音識別技術還可以應用于自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現跨語言交流。語音識別技術在軍事斗爭領域里也有著極為重要的應用價值和極其廣闊的應用空間。一些語音識別技術就是著眼于軍事活動而研發(fā),并在軍事領域首先應用、首獲成效的,軍事應用對語音識別系統(tǒng)的識別精度、響應時間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識別技術已在軍事指揮和控制自動化方面得以應用。比如,將語音識別技術應用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負擔,飛行員

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論