語音識別技術文獻綜述_第1頁
語音識別技術文獻綜述_第2頁
語音識別技術文獻綜述_第3頁
語音識別技術文獻綜述_第4頁
語音識別技術文獻綜述_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、語音識別技術綜述The summarization of speech recognition張永雙蘇州大學蘇州江蘇摘要本文回顧了語音識別技術的發(fā)展歷史,綜述了語音識別系統(tǒng)的結構、分類及基本方法,分析了語音識別技術面臨的問題及發(fā)展方向。關鍵詞:語音識別;特征;匹配AbstactThis article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system

2、 and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching引言語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g。語音識別是一門交叉學科,所涉及的領域有信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等,甚至還涉及到人的體態(tài)語言(如人民在說話時的表情手勢等行為動作可幫助對方理解。其應用領域也非常

3、廣,例如相對于鍵盤輸入方法的語音輸入系統(tǒng)、可用于工業(yè)控制的語音控制系統(tǒng)及服務領域的智能對話查詢系統(tǒng),在信息高度化的今天,語音識別技術及其應用已成為信息社會不可或缺的重要組成部分。1.語音識別技術的發(fā)展歷史語音識別技術的研究開始二十世紀50年代。1952年,AT&Tbell實驗室的Davis等人成功研制出了世界上第一個能識別十個英文數(shù)字發(fā)音的實驗系統(tǒng):Audry系統(tǒng)。60年代計算機的應用推動了語音識別技術的發(fā)展,提出兩大重要研究成果:動態(tài)規(guī)劃(Dynamic Planning,DP和線性預測分析(Linear Predict, LP,其中后者較好的解決了語音信號產生模型的問題,對語音識別技術的發(fā)

4、展產生了深遠影響。70年代,語音識別領域取得突破性進展。線性預測編碼技術(Linear Predict Coding,LPC被Itakura成功應用于語音識別;Sakoe和Chiba 將動態(tài)規(guī)劃的思想應用到語音識別并提出動態(tài)時間規(guī)整算法,有效的解決了語音信號的特征提取和不等長語音匹配問題;同時提出了矢量量化(VQ和隱馬爾可夫模型(HMM理論。在同一時期,統(tǒng)計方法開始被用來解決語音識別的關鍵問題,這為接下來的非特定人大詞匯量連續(xù)語音識別技術走向成熟奠定了重要的基礎。80年代,連續(xù)語音識別成為語音識別的研究重點之一。Meyers和Rabiner研究出多級動態(tài)規(guī)劃語音識別算法(Level Build

5、ing,LB這一連續(xù)語音識別算法。80年代另一個重要的發(fā)展是概率統(tǒng)計方法成為語音識別研究方法的主流,其顯著特征是HMM模型在語音識別中的成功應用。1988年,美國卡內基-梅隆大學(CMU用VQ/HMM方法實現(xiàn)了997詞的非特定人連續(xù)語音識別系統(tǒng)SPHINX。在這一時期,人工神經網絡在語音識別中也得到成功應用。進入90年代后,隨著多媒體時代的來臨,迫切要求語音識別系統(tǒng)從實驗走向實用,許多發(fā)達國家如美國、日本、韓國以及IBM、Apple、AT&T、NTT等著名公司都為語音識別系統(tǒng)實用化的開發(fā)研究投以巨資。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dectate系統(tǒng)。這

6、些系統(tǒng)具有說話人自適應能力,新用戶不需要對全部詞匯進行訓練便可在使用中不斷提高識別率。當前,美國在非特定人大詞匯表連續(xù)語音隱馬爾可夫模型識別方面起主導作用,而日本則在大詞匯表連續(xù)語音神經網絡識別、模擬人工智能進行語音后處理方面處于主導地位。國在七十年代末就開始了語音技術的研究,但在很長一段時間內,都處于緩慢發(fā)展的階段。直到八十年代后期,國內許多單位紛紛投入到這項研究工作中去,其中有中科院聲學所,自動化所,清華大學,四川大學和西北工業(yè)大學等科研機構和高等院校,大多數(shù)研究者致力于語音識別的基礎理論研究工作、模型及算法的研究和改進。但由于起步晚、基礎薄弱,計算機水平不發(fā)達,導致在整個八十年代,我國在

7、語音識別研究方面并沒有形成自己的特色,更沒有取得顯著的成果和開發(fā)出大型性能優(yōu)良的實驗系統(tǒng)。但進入九十年代后,我國語音識別研究的步伐就逐漸緊追國際先進水平了,在“八五”、“九五”國家科技攻關計劃、國家自然科學基金、國家863計劃的支持下,我國在中文語音技術的基礎研究方面也取得了一系列成果。在語音合成技術方面,中國科大訊飛公司已具有國際上最領先的核心技術;中科院聲學所也在長期積累的基礎上,研究開發(fā)出頗具特色的產品:在語音識別技術方面,中科院自動化所具有相當?shù)募夹g優(yōu)勢:社科院語言所在漢語言學及實驗語言科學方面同樣具有深厚的積累。但是,這些成果并沒有得到很好的應用,沒有轉化成產業(yè);相反,中文語音技術在

8、技術、人才、市場等方面正面臨著來自國際競爭環(huán)境中越來越嚴峻的挑戰(zhàn)和壓力。2.語音識別系統(tǒng)的結構主要包括語音信號的采樣和預處理部分、特征參數(shù)提取部分、語音識別核心部分以及語音識別后處理部分,圖2-1給出了語音識別系統(tǒng)的基本結構。 圖2-1 語音識別系統(tǒng)的基本結構圖語音識別的過程是一個模式識別匹配的過程。在這個過程中,首先要根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模式。而在識別過程中要根據(jù)語音識別的整體模型,將輸入的語音信號的特征與已經存在的語音模式進行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語音相匹配的模式。然后,根據(jù)

9、此模式號的定義,通過查表就可以給出計算機的識別結果。3.語音識別系統(tǒng)的分類根據(jù)識別的對象不同,語音識別任務大體可分為3類,即孤立詞識別(isolated word recognition,關鍵詞識別(或稱關鍵詞檢出,keyword spotting和連續(xù)語音識別。其中,孤立詞識別的任務是識別事先已知的孤立的詞,如“開機”、“關機”等;連續(xù)語音識別的任務則是識別任意的連續(xù)語音,如一個句子或一段話;連續(xù)語音流中的關鍵詞檢測針對的是連續(xù)語音,但它并不識別全部文字,而只是檢測已知的若干關鍵詞在何處出現(xiàn),如在一段話中檢測“計算機”、“世界”這兩個詞。根據(jù)針對的發(fā)音人,可以把語音識別技術分為特定人語音識別

10、和非特定人語音識別,前者只能識別一個或幾個人的語音,而后者則可以被任何人使用。顯然,非特定人語音識別系統(tǒng)更符合實際需要,但它要比針對特定人的識別困難得多。另外,根據(jù)語音設備和通道,可以分為桌面(PC語音識別、電話語音識別和嵌入式設備(手機、PDA等語音識別。不同的采集通道會使人的發(fā)音的聲學特性發(fā)生變形,因此需要構造各自的識別系統(tǒng)。4.語音識別系統(tǒng)的基本識別方法一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模式匹配的方法以及利用人工神經網絡的方法。4.1基于語音學和聲學的方法該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復雜,現(xiàn)階段還沒有

11、達到實用的階段。4.2模式匹配的方法模式匹配方法的發(fā)展比較成熟,目前已達到實用階段。在模式匹配方法中,需經過四個步驟:特征提取、模式訓練、模式識別和判決。4.2.1特征提取特征提取方法主要采用以下三種:基于LPC的倒譜參數(shù)(LPCC分析法,基于Mel系數(shù)的Mel頻標倒譜系數(shù)(MPCC分析法,基于現(xiàn)代處理技術的小波變換系數(shù)分析法。在這些方法中,MFCC方法比LPCC方法的識別效果稍好一些,而且MFCC符合人們的聽覺特性,在有信道噪聲和頻譜失真的情況下具有較好的穩(wěn)健性,其不足之處是MFCC方法中多次用到FFT,故算法的復雜程度遠大于LPCC方法。因此,在安靜的環(huán)境下,目前比較成熟和最常用的語音特征

12、提取方法還是LPCC方法。在條件不好的環(huán)境下,則宜選用MFCC方法。而小波變換法則是一種新興的理論工具,要獲得較高的識別率還有許多問題有待研究,但與經典的方法相比,小波變換法有著計算量小、復雜程度低、識別效果好等許多優(yōu)點,研究前景十分樂觀,是研究發(fā)展的一個方向。4.2.2模式識別模式識別常用技術有三種:動態(tài)時間規(guī)整(DTW、隱馬爾可夫模型(HMM、矢量量化(VQ。(1動態(tài)時間規(guī)整(DTW語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特征訓練和識別的基礎。所謂端點檢測就是在語音信號中的各種段落(如音素、音節(jié)、詞素 的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據(jù)

13、是能量、振幅和過零率。但效果往往不明顯。上世紀6 0 年代日本學者Itakura 提出了動態(tài)時間規(guī)整算法。算法的思想就是把未知量均勻地伸長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。在連續(xù)語音識別中仍然是主流方法。同時,在小詞匯量、孤立字(詞 識別系統(tǒng)中,也已有許多改進的DTW 算法提出。(2隱馬爾可夫模型(HMM隱馬爾可夫模型是20世紀70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質性的突破。目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM 模型的。HMM是對語音信號的時間序列結構建立統(tǒng)計模

14、型,將之看作一個數(shù)學上的雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態(tài)相關聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài) 發(fā)出的音素的參數(shù)流??梢奌MM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。(3矢量量化(VQ矢量量化是一種重要的信號壓縮方法。與HMM 相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。

15、其過程是:將語音信號波形的k 個樣點的每一幀,或有k 個參數(shù)的每一參數(shù)幀,構成k維空間中的一個矢量,然后對矢量進行量化。量化時,將k 維無限空間劃分為M 個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發(fā)尋找到好的失真測度定義公式,設計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運算量,實現(xiàn)最大可能的平均信噪比。4.3人工神經網絡的方法利用人工神經網絡的方法是80 年代末期提出的一種新的語音識別方法。人工神經網絡(ANN本質上是一個自適應非線性動力學系統(tǒng),模擬了人類神經活動的原理,具有

16、自適應性、并行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入- 輸出映射能力在語音識別中都很有吸引力。但由于存在訓練、識別時間太長的缺點,目前仍處于實驗探索階段。由于ANN 不能很好的描述語音信號的時間動態(tài)特性,所以常把ANN 與傳統(tǒng)識別方法結合,分別利用各自優(yōu)點來進行語音識別。5.語音識別所面臨的問題(1 就算法模型方面而言,需要有進一步的突破。目前使用的語言模型只是一種概率模型,還沒有用到以語言學為基礎的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進展。(2 就自適應方面而言,語音識別技術也有待進一步改進,做到不受特定人、口音或者方言的影響,這實際上也意味著對語言模型

17、的進一步改進。語音識別技術綜述 (3 就強健性方面而言,語音識別技術需要能排除各種環(huán)境因素的影 響。目前,對語音識別效果影響最大的就是環(huán)境雜音或嗓音,個人能有意 識地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語音識別技 術也能達成這一點是一個艱巨的任務。 (4 多語言混合識別以及無限詞匯識別方面:將來的語音和聲學模型可 能會做到將多種語言混合納入,用戶因此就可以不必在語種之間來回切換。 此外,對于聲學模型的進一步改進,以及以語義學為基礎的語言模型的改 進,也能幫助用戶盡可能少或不受詞匯的影響,從而可實行無限詞匯識別。 (5 多語種交流系統(tǒng)的應用:是將語音識別技術、機器翻譯技術以及語 音

18、合成技術的完美結合,全世界說不同語言的人都可以實時地自由地交流, 不存在語言障礙??梢韵胍姡嗾Z種自由交流系統(tǒng)將帶給我們全新的生活 空間。 (6 語音情感識別:近年來隨著人工智能的發(fā)展,情感智能跟計算機技 術結合產生了情感計算這一研究課題,這將大大的促進計算機技術的發(fā)展。 情感自動識別是通向情感計算的第一步。語音作為人類最重要的交流媒介, 攜帶著豐富的情感信息。如何從語音中自動識別說話者的情感狀態(tài)近年來 受到各領域研究者的廣泛關注。 6.結論 結論 以上介紹了實現(xiàn)語音識別系統(tǒng)的各個方面的技術。這些技術在實際使 用中達到了較好的效果,但如何克服影響語音的各種因素還需要更深入地 分析。目前聽寫機系統(tǒng)還不能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論