理工論文一種基于廢料模型的關(guān)鍵詞確認(rèn)方法_第1頁
理工論文一種基于廢料模型的關(guān)鍵詞確認(rèn)方法_第2頁
理工論文一種基于廢料模型的關(guān)鍵詞確認(rèn)方法_第3頁
理工論文一種基于廢料模型的關(guān)鍵詞確認(rèn)方法_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、一種基于廢料模型的關(guān)鍵詞確認(rèn)方法 一種基于廢料模型的關(guān)鍵詞確認(rèn)方法是小柯論文網(wǎng)通過網(wǎng)絡(luò)搜集,并由本站工作人員整理后發(fā)布的,一種基于廢料模型的關(guān)鍵詞確認(rèn)方法是篇質(zhì)量較高的學(xué)術(shù)論文,供本站訪問者學(xué)習(xí)和學(xué)術(shù)交流參考之用,不可用于其他商業(yè)目的,一種基于廢料模型的關(guān)鍵詞確認(rèn)方法的論文版權(quán)歸原作者所有,因網(wǎng)絡(luò)整理,有些文章作者不詳,敬請諒解,如需轉(zhuǎn)摘,請注明出處小柯論文網(wǎng),如果此論文無法滿足您的論文要求,您可以申請本站幫您代寫論文,以下是正文。摘要:關(guān)鍵詞確認(rèn)是語音識別中一個重要的研究方向。對于關(guān)鍵詞確認(rèn)系統(tǒng)來講,廢料模型的結(jié)構(gòu)和類型對整個系統(tǒng)的性能有很大的影響。文中提出了一種基于音節(jié)格的廢料模型。實(shí)驗(yàn)表

2、明,與傳統(tǒng)的基于音素類的廢料模型相比,關(guān)鍵詞確認(rèn)率有了很大的提高。關(guān)鍵詞:關(guān)鍵詞確認(rèn);隱馬爾可夫模型;廢料模型;音素類;音節(jié)格關(guān)鍵詞確認(rèn)(keywordspotting,kws)是語音識別中一個重要的研究方向,也是近幾年來在很多行業(yè)頗受重視的一個研究領(lǐng)域。一般來說,在說話人的正常話語中除了包含一些關(guān)鍵性詞匯外還可能包括一些非話語的咳嗽聲、呼吸聲、關(guān)門聲、音樂聲和背景噪聲等。在說話人的連續(xù)語音中確認(rèn)出關(guān)鍵性的詞匯,這就是關(guān)鍵詞確認(rèn)技術(shù)1。相對于大詞匯量的識別系統(tǒng),關(guān)鍵詞確認(rèn)系統(tǒng)既精確,計(jì)算量又小,而且對于實(shí)際的語音數(shù)據(jù)有較大的彈性,因此在監(jiān)聽、通信、語音輸入等方面都有著很好應(yīng)用前景2。關(guān)鍵詞確認(rèn)

3、重點(diǎn)之一是代表非關(guān)鍵詞語音的模型,不論識別系統(tǒng)的方法怎樣,大部分是采用廢料模型。當(dāng)采用一般的模型作為廢料模型時,識別器傾向于把它們誤識為關(guān)鍵詞,從而降低了確認(rèn)率。另一方面,對每個詞都構(gòu)建廢料模型又是非常不現(xiàn)實(shí)的,而且使識別器的結(jié)構(gòu)更復(fù)雜化,降低了系統(tǒng)的靈活性。兩者之間的平衡點(diǎn)就是使用不同類型和數(shù)量的廢料模型,這樣即使想要保證相當(dāng)高的確認(rèn)率,計(jì)算時間也是可以接受的。本文就這點(diǎn)提出了基于音節(jié)格的廢料模型。實(shí)驗(yàn)結(jié)果顯示,與傳統(tǒng)的基于音素類的廢料模型相比,系統(tǒng)的性能有了很大的提高。1廢料模型的由來關(guān)鍵詞確認(rèn)是在非受限語音信號中,確認(rèn)出詞表中所包含的“關(guān)鍵詞”,拒絕詞表外的“非關(guān)鍵詞”,對語音內(nèi)容加以理

4、解,這里的關(guān)鍵詞詞匯表可以根據(jù)系統(tǒng)所應(yīng)用的領(lǐng)域來確定。設(shè)已知一個觀察值序列o1,o2,ot判斷其中是否存在一個關(guān)鍵詞m,其hmm模型所包含的狀態(tài)為q1,qn,kws即為把用一條含有的路徑來描述所得的匹配問題,這里定義如下方法計(jì)算在語音中存在關(guān)鍵詞的評分(m|o),即式中,b*為關(guān)鍵詞在語音中的最佳起始點(diǎn);e*為最佳結(jié)束點(diǎn);o*為與之相對應(yīng)的關(guān)鍵詞m的最佳狀態(tài)序列,即在判斷是否存在關(guān)鍵詞m時,首先在語音中找到與該關(guān)鍵詞最匹配的語音段,然后用該關(guān)鍵詞在該語音段上經(jīng)長度歸正后的后驗(yàn)概率值作為評分來判斷關(guān)鍵詞的存在與否。b*、e*和q*可按下式求得若起始點(diǎn)b*和結(jié)束點(diǎn)e*已知,可用viterbi算法求

5、出最佳狀態(tài)鏈q*=qb,qe。因此若窮舉所有可能的起始點(diǎn)b和結(jié)束點(diǎn)e,并根據(jù)上述式子必然可求出s(m|o),根據(jù)s(m|o)的值來判斷是否存在關(guān)鍵詞m。當(dāng)然,用窮舉的方法來求取起始點(diǎn)b和結(jié)束點(diǎn)e計(jì)算量非常大,在實(shí)際使用中是根本無法實(shí)現(xiàn)的。因此往往采用在一次搜索過程的同時確定b*、e*和q*,即在觀察序列o上通過引入廢料狀態(tài)qg定義關(guān)鍵詞的擴(kuò)充模型。它所包含的狀態(tài)為qg,qb,qe,qg,用廢料狀態(tài)qg表示非關(guān)鍵詞語音。使用擴(kuò)充模型在整個觀察序列上用viterbi算法進(jìn)行搜索,可以得到對應(yīng)的最佳狀態(tài)序列:根據(jù)這一狀態(tài)序列可以同時確定b*、e*和q*。這里的廢料狀態(tài)就是由建立廢料模型得到的。可見廢

6、料模型的建立對于區(qū)分關(guān)鍵詞和非關(guān)鍵詞語音是不可缺少的。2基于音節(jié)格的廢料模型把常見的非關(guān)鍵詞按照其相應(yīng)的漢語音節(jié)首字母的順序排列,并通過訓(xùn)練分別對其建模,就形成了一個音節(jié)格。在音節(jié)格中每一格內(nèi)存放一個非關(guān)鍵詞語音對應(yīng)的音節(jié)。一般來說,在說話人的連續(xù)語音中除了一些關(guān)鍵性的詞匯外還包括許多詞表外詞,例如:“請問,王艷在嗎?”,那么對于一個基于人名的關(guān)鍵詞確認(rèn)系統(tǒng)來講,“王艷”是關(guān)鍵詞,“請、問、在、嗎”這四個字都屬于詞表外詞,即非關(guān)鍵詞語音,而對于這四個字對應(yīng)的音節(jié)在音節(jié)格中的存放順序?yàn)閙a,qing,wen,zai。漢語由21個聲母和38個韻母組成約400個左右的無調(diào)音節(jié),而針對關(guān)鍵詞確認(rèn)系統(tǒng)所

7、應(yīng)用領(lǐng)域的不同,在說話者的自然輸入語音中所常見的非關(guān)鍵詞是有限的,也是可以預(yù)測的,所以可以對這些常見的詞表外詞建立相應(yīng)的廢料模型。本文所涉及的基于人名的關(guān)鍵詞確認(rèn)系統(tǒng)是應(yīng)用在查詢控制方面的,常見的非關(guān)鍵詞語音有ni,hao,wo,xiang,zhao,qing,wen,zai,ma等等,對這些非關(guān)鍵詞音節(jié)建立廢料模型,然后把與其相對應(yīng)的音節(jié)按順序存放在音節(jié)格中。3實(shí)驗(yàn)和討論3.1實(shí)驗(yàn)平臺本文所采用的語音數(shù)據(jù)庫是自行采集的,該數(shù)據(jù)庫是專門錄制的,包含20個不同人名的數(shù)據(jù)庫,參與訓(xùn)練的共有20人,其中男性12人,女性8人,年齡分布在14歲到35歲之間,選取15人分別說20個不同的人名,來訓(xùn)練20個

8、關(guān)鍵詞的hmm模型,另外5人針對每個關(guān)鍵詞錄制一句包含關(guān)鍵詞的句子作為測試數(shù)據(jù)。數(shù)據(jù)庫錄制的是采樣率為11025hz,16位量化和單聲道的語音信號。確認(rèn)系統(tǒng)的識別基元使用無跨越從左向右的連續(xù)hmm模型,每個hmm有4個輸出狀態(tài),每個狀態(tài)有128個高斯分量。對于關(guān)鍵詞模型采用以關(guān)鍵詞為識別基元。形成的語法網(wǎng)絡(luò)圖由關(guān)鍵詞模型、27個音節(jié)模型和一個背景噪音模型構(gòu)成,其結(jié)構(gòu)如圖1所示。圖中的keyword1keywordn代表n(n值為20)個關(guān)鍵詞模型,garbage1garbagel代表m(m值為27)個廢料模型。對輸入的語音信號根據(jù)短時能量和短時平均過零率進(jìn)行音節(jié)切分,然后提取mel頻率倒譜系數(shù)

9、(mfcc)作為特征矢量,為了使特征矢量更好地表征語音信號之間前后相關(guān)特性,選用12維mfcc和12維一階差分mfcc構(gòu)成特征矢量。在進(jìn)行關(guān)鍵詞確認(rèn)時,對輸入語音按廢料模型、關(guān)鍵詞模型的順序進(jìn)行匹配,計(jì)算匹配得分。在進(jìn)行匹配時先與廢料模型匹配,并計(jì)算每個匹配的得分,直到得分低于某個閾值,說明當(dāng)前的語音是非廢料語音,此時就應(yīng)與每個關(guān)鍵詞模型逐個進(jìn)行匹配,并結(jié)合基于特征矢量信息的聲學(xué)置信度得到第幀特征在每個狀態(tài)的置信度,從而對非關(guān)鍵詞語音進(jìn)行有效拒識,得出最終的確認(rèn)結(jié)果。3.2測試結(jié)果以數(shù)據(jù)庫中后五個人錄制的數(shù)據(jù)作為測試數(shù)據(jù),對于基于音素類的垃圾模型有7個(見表1),包括代表聲母的一個模型hcon

10、和代表韻母的6個模型(ha,ho,he,hi,hu和hv)。表1:基于音素類的垃圾模型本文中基于音節(jié)格的廢料模型有27個,可以比較一下對于不同類型和數(shù)量的廢料模型在不同的虛報率下系統(tǒng)的確認(rèn)率和確認(rèn)時間如表2所示。表中的pd代表確認(rèn)率,far代表虛報率(平均每個關(guān)鍵詞在一小時內(nèi)被虛報的次數(shù)),ap.time代表平均確認(rèn)每個輸入語音所需時間。表2:不同類型廢料模型系統(tǒng)的確認(rèn)率從表中可以看到,就時間來看只差了3.01秒,這是正常的,畢竟音素類只有7個廢料模型,而音節(jié)格有27個廢料模型,這個時間差也是可以接受的;最重要的是確認(rèn)率,基于音節(jié)格的廢料模型在虛報率數(shù)量為6時確認(rèn)率為0.84,而基于音素類的廢

11、料模型在虛報率數(shù)量為10時確認(rèn)率為0.68,綜合來看,基于音節(jié)格的廢料模型是比較好的選擇。4結(jié)論本文針對關(guān)鍵詞確認(rèn)系統(tǒng)中廢料模型的結(jié)構(gòu)和類型進(jìn)行了研究,在訓(xùn)練過程中對常用的非關(guān)鍵詞語音建立基于音節(jié)格的hmm,在確認(rèn)過程中聯(lián)合似然得分和置信度得分,與傳統(tǒng)的基于音素類的廢料模型相比,對于不同的虛報率關(guān)鍵詞的確認(rèn)率有了很大的提高。從實(shí)驗(yàn)結(jié)果中也可以看到,雖然確認(rèn)率相對來講有了提高,但是只達(dá)到了0.84,所以對于廢料模型的結(jié)構(gòu)還有待更深入細(xì)致的研究。參考文獻(xiàn)1韓紀(jì)慶,張磊,鄭鐵然。語音信號處理。北京:清華大學(xué)出版社,20062李治柱,吳亞棟?;趆mm的關(guān)鍵詞識別系統(tǒng)。計(jì)算機(jī)工程,2004;30(7)

12、,130132其他參考文獻(xiàn)baker, sheridan. the practical stylist. 6th ed. new york: harper & row, 1985.flesch, rudolf. the art of plain talk. new york: harper & brothers, 1946.gowers, ernest. the complete plain words. london: penguin books, 1987.snell-hornby, mary. translation studies: an integrated approach. am

13、sterdam: john benjamins, 1987.hu, zhuanglin. 胡壯麟, 語言學(xué)教程 m. 北京: 北京大學(xué)出版社, 2006.jespersen, otto. the philosophy of grammar. london: routledge, 1951.leech, geoffrey, and jan svartvik. a communicative grammar of english. london: longman, 1974.li, qingxue, and peng jianwu. 李慶學(xué)、彭建武, 英漢翻譯理論與技巧 m. 北京: 北京航空航天

14、大學(xué)出版社, 2009.lian, shuneng. 連淑能, 英漢對比研究 m. 北京: 高等教育出版社, 1993.ma, huijuan, and miao ju. 馬會娟、苗菊, 當(dāng)代西方翻譯理論選讀 m. 北京: 外語教學(xué)與研究出版社, 2009.newmark, peter. approaches to translation. london: pergmon p, 1981.quirk, randolph, et al. a grammar of contemporary english. london: longman, 1973.wang, li. 王力, 中國語法理論 m. 濟(jì)南: 山東教育出版社, 1984.xu, jianping. 許建平, 英漢互譯實(shí)踐與技巧 m. 北京: 清華大學(xué)出版社,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論