


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
用隱馬爾科夫進(jìn)行語(yǔ)音識(shí)別
作者:B.H.Juang,L.R.Rabiner
語(yǔ)言語(yǔ)音研究所,Bell實(shí)驗(yàn)室MurrayHill,NJ07974摘要:在近幾年發(fā)表的論文和大型語(yǔ)言語(yǔ)音會(huì)議上中,隱馬爾科夫定律已經(jīng)成為語(yǔ)音識(shí)別研究的主導(dǎo)方法。這個(gè)方法之所以如此流行就在于其固有的統(tǒng)計(jì)框架:從有限語(yǔ)音訓(xùn)練集數(shù)據(jù)中訓(xùn)練出模型近似參數(shù)的簡(jiǎn)單易行;模型可根據(jù)特殊的詞匯、聲音等改變認(rèn)知系統(tǒng)的大小、種類(lèi)或模型的架構(gòu)的靈活多變;實(shí)現(xiàn)整個(gè)認(rèn)知系統(tǒng)的簡(jiǎn)單方便。在這篇解釋性的文章中,我們將講解應(yīng)用在語(yǔ)音識(shí)別中的非常重要的統(tǒng)計(jì)方法,并討論一系列尚未解決的原理性的和實(shí)際性的問(wèn)題,因?yàn)樗麄兒苤匾?duì)不同系統(tǒng)實(shí)現(xiàn)的性能有很大影響。關(guān)鍵詞:Baum-Welch算法,Incompletedataproblem‘Maximumaposterioridecoding;極大似然度機(jī)器語(yǔ)音識(shí)別已經(jīng)達(dá)到了可以投入到實(shí)際使用的水平了。大量的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)應(yīng)用在眾多應(yīng)用領(lǐng)域如語(yǔ)音撥號(hào)、語(yǔ)音應(yīng)答、語(yǔ)音查詢股價(jià)、語(yǔ)音報(bào)價(jià)等。導(dǎo)致這些有用的技術(shù)能夠應(yīng)用于實(shí)際是因?yàn)樽罱夹g(shù)的進(jìn)步使得語(yǔ)音認(rèn)知系統(tǒng)能辨別不同的說(shuō)話者并達(dá)到了一定量的認(rèn)知詞匯。其中的一項(xiàng)進(jìn)步就是統(tǒng)計(jì)方法的使用,馬爾科夫模型就是其中一個(gè)很有趣的方法。使用HMM來(lái)進(jìn)行語(yǔ)音識(shí)別在過(guò)去的一段時(shí)間內(nèi)很流行。雖然報(bào)告過(guò)的大量基于HMM的語(yǔ)音認(rèn)知系統(tǒng)不易在此深入地討論,列出其中最重要的部分和這些系統(tǒng)的成功之處仍然是值得的。其中包括在卡內(nèi)基梅隆大學(xué)早期進(jìn)行的DragonSystem的工作,IBM公司在語(yǔ)音系統(tǒng)方面進(jìn)行的長(zhǎng)期的工作,在Bell實(shí)驗(yàn)室的工作,MIT林肯實(shí)驗(yàn)室的工作,Philips在使用HMM進(jìn)行的整詞識(shí)別的工作,DARPA資源管理任務(wù),及其它在該相關(guān)領(lǐng)域的眾多的工作。HMM的廣泛流行可以歸功于它簡(jiǎn)單的算法結(jié)構(gòu)和它相對(duì)于其它語(yǔ)音識(shí)別方法的清晰高效性。性能,特別是精度,是評(píng)價(jià)一個(gè)語(yǔ)音認(rèn)知系統(tǒng)實(shí)際價(jià)值的關(guān)鍵因素。語(yǔ)音識(shí)別任務(wù)經(jīng)常根據(jù)它的需求,如是處理特定的還是非特定說(shuō)話者,處理單個(gè)詞匯的輸入還是連續(xù)的一個(gè)句子的輸入,來(lái)進(jìn)行分類(lèi)。如今,該技術(shù)能夠輕松達(dá)到對(duì)非特定說(shuō)話者的精確識(shí)別,當(dāng)識(shí)別由非特定說(shuō)話者說(shuō)出的連續(xù)數(shù)字字串時(shí),錯(cuò)誤率僅有2-3%.更進(jìn)一步,但在非特定說(shuō)話者以特定的語(yǔ)法限制說(shuō)出連續(xù)1000個(gè)詞時(shí),一些使用HMM的系統(tǒng)證實(shí)可以達(dá)到96%的識(shí)準(zhǔn)率。這些結(jié)果說(shuō)明了自動(dòng)語(yǔ)音識(shí)別系統(tǒng)在指定的應(yīng)用中的有用性和可用性。雖然隱馬爾科夫模型顯著地改善了當(dāng)前語(yǔ)音識(shí)別系統(tǒng)的性能。完全流利的、非特定說(shuō)話者的語(yǔ)音識(shí)別仍是一個(gè)普遍存在并等待著解決的問(wèn)題。例如,沒(méi)有一個(gè)系統(tǒng)能夠識(shí)別沒(méi)有限制(話題)的對(duì)話語(yǔ)音,也沒(méi)有一個(gè)好的方法使用借助于有限語(yǔ)料庫(kù)的統(tǒng)計(jì)方法去推斷語(yǔ)言的結(jié)構(gòu)。這篇解釋性的文章的目的是提供HMM的原理的一個(gè)概述,討論統(tǒng)計(jì)方法的作用,并指出一系列值得注意和理解的原理性和實(shí)踐性問(wèn)題,以便于推動(dòng)語(yǔ)音識(shí)別這一領(lǐng)域的發(fā)展。1.語(yǔ)音的度量和建模語(yǔ)音是不穩(wěn)定的信號(hào)量。當(dāng)我們說(shuō)話時(shí),我們的發(fā)音器官(嘴唇、下顎、舌頭,如圖1所示)調(diào)節(jié)空氣壓力并影響氣流產(chǎn)生一系列的聲音。雖然任何一個(gè)聲音的范圍會(huì)是在幾千赫茲的范圍內(nèi),我們的關(guān)節(jié)配置(聲道形狀,舌頭移動(dòng)等)經(jīng)常不能忍受每秒超過(guò)10次的動(dòng)態(tài)變化。語(yǔ)音建模包括兩個(gè)方面:(1)以10毫秒采樣分析不同聲音的短時(shí)間的范圍屬性,(2)根據(jù)關(guān)節(jié)配置的不同,以100毫秒采樣去分析長(zhǎng)時(shí)間聲音的變化特征。隱馬爾科夫模型統(tǒng)計(jì)方法在HMM方法發(fā)展的過(guò)程中,如下問(wèn)題顯得特別有意思。首先,給出一個(gè)觀察序列O和一個(gè)模型入,我們?cè)趺礃佑行У亩攘磕P腿氘a(chǎn)生觀察序列O的概率,即Pr(OI入)?第二,給出觀察序列O,反過(guò)來(lái)我們?cè)趺唇鉀Q估算模型入中的參數(shù)?雖然(8)中的概率不完全依賴(lài)于q,(譯者注:(8)是在論文前出現(xiàn)的一個(gè)公式),關(guān)于導(dǎo)致觀察序列O的最可能的狀態(tài)序列q的信息在很多的應(yīng)用中都是需要的。第三個(gè)問(wèn)題就是怎么有效地從觀察序列O中推出最有可能的狀態(tài)序列q.通常我們將這三個(gè)問(wèn)題稱(chēng)為(1)評(píng)估問(wèn)題(2)估計(jì)問(wèn)題(3)解釋問(wèn)題。在下面的段落中,我們將描述幾個(gè)對(duì)這三個(gè)問(wèn)題通用的解決方法。2.1評(píng)估問(wèn)題在評(píng)估問(wèn)題中主要關(guān)注的是計(jì)算的效率。如果沒(méi)有復(fù)雜度約束,可以直接簡(jiǎn)單的直接計(jì)算出Pr(OI入).在公式(8)中,一共有個(gè)可能的q序列。總共的計(jì)算需要2*T*個(gè)操作。計(jì)算公式(8)同時(shí)沒(méi)有指數(shù)級(jí)增長(zhǎng)的計(jì)算量,是HMM技術(shù)實(shí)現(xiàn)的第一個(gè)挑戰(zhàn)。幸運(yùn)的是,使用著名的前向-后向算法,這個(gè)昂貴的計(jì)算開(kāi)銷(xiāo)可以輕松的減輕。2.2估計(jì)問(wèn)題給出一個(gè)觀察序列(或一個(gè)序列的集合)O?估計(jì)問(wèn)題包括找到合適的模型參數(shù)使模型最可能產(chǎn)生給定的序列。在語(yǔ)音識(shí)別中,這經(jīng)常被稱(chēng)為“訓(xùn)練”。我們用來(lái)獲取模型參數(shù)的給定序列,被成為訓(xùn)練序列,即使這兒的準(zhǔn)則是統(tǒng)計(jì)的。2.3解釋問(wèn)題正如前面所說(shuō)的,我們經(jīng)常對(duì)找到產(chǎn)生觀察序列O極大似然度的狀態(tài)序列感興趣。雖然HMM的概率度量定義中沒(méi)有涉及到狀態(tài)序列,在很多的應(yīng)用場(chǎng)合中仍然需要知道極大似然度的狀態(tài)序列。舉個(gè)例來(lái)說(shuō),如果我們使用一個(gè)詞匯模型的狀態(tài)來(lái)代表該詞匯中的特定的聲音,就有必要知道語(yǔ)音片段和詞的聲音之間的關(guān)系,因?yàn)閱为?dú)的語(yǔ)音片段為語(yǔ)音識(shí)別提供了有用信息。2.4使用HMM進(jìn)行語(yǔ)音識(shí)別HMM在語(yǔ)音識(shí)別中的應(yīng)用和其他傳統(tǒng)的模式匹配方法差不多。成功的使用HMM算法包括一下步驟:定義一個(gè)用來(lái)建模的L聲音類(lèi)的集合。例如音素或詞匯,定義聲音類(lèi)V={v1,v2,..,v3};對(duì)于每一個(gè)類(lèi),積累一定量的已知的標(biāo)記語(yǔ)音集合。在訓(xùn)練集合的基礎(chǔ)上,解決估計(jì)問(wèn)題,為每個(gè)類(lèi)Vi獲取一個(gè)最好的模型入i.在認(rèn)識(shí)的過(guò)程中,對(duì)每個(gè)未知觀察序列O估計(jì)Pr(O|入i)(i=1,2,?,L)),并為每個(gè)類(lèi)Vi確定產(chǎn)生O的語(yǔ)音?其滿足:Pr(ORi)=Pr(O|M)本文將不詳細(xì)地描述如何實(shí)現(xiàn)一個(gè)HMM識(shí)別器。感興趣的讀者可以閱讀Jelinek,Bahl,Mercer(1975)及Levinson,Rabiner,Sondhi(1983)的文章。使用隱馬爾科夫模型進(jìn)行語(yǔ)音識(shí)別的優(yōu)點(diǎn)HMM方法的優(yōu)點(diǎn)體現(xiàn)在兩個(gè)大的方面:(1)它的數(shù)學(xué)框架和(2)它的實(shí)現(xiàn)結(jié)構(gòu)。在數(shù)學(xué)框架方面,我們討論問(wèn)題的連續(xù)統(tǒng)計(jì)方法學(xué)和它為相關(guān)問(wèn)題提供的直接的解決方案。在實(shí)現(xiàn)結(jié)構(gòu)方面,我們討論它在處理不同的、復(fù)雜的語(yǔ)音認(rèn)知任務(wù)的靈活性和實(shí)現(xiàn)的簡(jiǎn)單性,這些都是在實(shí)際工程領(lǐng)域中需要考慮的關(guān)鍵問(wèn)題。3.1HMM方法學(xué)的連續(xù)統(tǒng)計(jì)框架3.2HMM的訓(xùn)練算法3.3模型靈活性4.進(jìn)一步考慮隱馬爾科夫定理的問(wèn)題5.總結(jié)在這篇文章中,我們復(fù)習(xí)了HMM的統(tǒng)計(jì)學(xué)方法,展示了這個(gè)方法的統(tǒng)計(jì)學(xué)框架及由其帶來(lái)的靈活性和通用性,特別是在語(yǔ)音識(shí)別方面,以及其實(shí)現(xiàn)的簡(jiǎn)單性,使其在工程實(shí)現(xiàn)方面顯出優(yōu)勢(shì)。我們還指出了在一般的HMM方法中值得注意的方面,希望有人能在這些方面取得進(jìn)步,這些進(jìn)步將會(huì)大大提高
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 防火隊(duì)員考核方案范本
- 云南德宏小木屋施工方案
- 銀行從業(yè)資格證話題探討試題及答案
- 深入分析2025年國(guó)際金融理財(cái)師考試中投資決策的要點(diǎn)試題及答案
- 2025年新思路的證券從業(yè)資格考試試題及答案
- 微生物檢驗(yàn)技師證書(shū)考試全景分析試題及答案
- 參與討論2025年特許金融分析師考試試題及答案
- 2024項(xiàng)目管理案例分析試題及答案
- 微生物檢測(cè)在新興傳染病中的應(yīng)用試題及答案
- 上堤路欄桿施工方案
- 2025-2030中國(guó)類(lèi)腦計(jì)算行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及建設(shè)案例與發(fā)展趨勢(shì)研究報(bào)告
- 2型糖尿病患者認(rèn)知功能障礙防治的中國(guó)專(zhuān)家共識(shí)
- 唐代詩(shī)人時(shí)間軸
- 《紀(jì)檢監(jiān)察機(jī)關(guān)派駐機(jī)構(gòu)工作規(guī)則》主要內(nèi)容解讀課件PPT
- 幼兒園繪本:《你真好》 PPT課件
- 可再生能源概論左然第四章 太陽(yáng)電池
- 六年級(jí)品社《春天的故事》(課堂PPT)
- 關(guān)于電機(jī)功率、轉(zhuǎn)矩和慣量等
- 客戶關(guān)系生命周期各階段的營(yíng)銷(xiāo)策略
- “差點(diǎn)兒”和“差點(diǎn)兒沒(méi)”P(pán)PT課件
- 2019最新十八項(xiàng)醫(yī)療核心制度考試題及答案
評(píng)論
0/150
提交評(píng)論