版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
砌減烤人機(jī)交互技術(shù)論文軟件091班
092543
王晶語音識(shí)別——多用戶通道王晶(河北工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院軟件091班,天津092543)摘要:完成對(duì)語音識(shí)別多通道用戶界面的綜述(包括定義、發(fā)展歷史、當(dāng)前的應(yīng)用、主要的研究方法分類、以及發(fā)展前景以及中英文參考文獻(xiàn))關(guān)鍵詞:語音識(shí)別;預(yù)處理;識(shí)別;后處理1、 語音識(shí)別多通道用戶界面定義語音識(shí)別是一門交叉學(xué)科。近二十年來,語音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來10年內(nèi),語音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。語音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一[1]。很多專家都認(rèn)為語音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們迫切需要一種更加自然的、更加能為多數(shù)人所接受的方式與計(jì)算機(jī)溝通。在人機(jī)對(duì)話方面尋求最好的語音信息交換手段是發(fā)展人機(jī)語音通信和新一代智能計(jì)算機(jī)的主要組成部分。隨著計(jì)算機(jī)的普及,越來越多的人在使用計(jì)算機(jī),如何給不熟悉計(jì)算機(jī)的人提供一個(gè)友好的人機(jī)交互手段,逐漸引起了人們的重視。從而也就誕生了計(jì)算機(jī)語音學(xué)。計(jì)算機(jī)語音學(xué)覆蓋了廣泛的研究活動(dòng),包括語音識(shí)別、語音合成、語音編碼、自然語言理解、機(jī)器翻譯等。語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語音識(shí)別技術(shù)是計(jì)算機(jī)通過識(shí)別和理解的過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的技術(shù)。當(dāng)人們想對(duì)計(jì)算機(jī)說話時(shí),通常首先需要進(jìn)行語音識(shí)別,即將聲音信號(hào)轉(zhuǎn)換成單詞流。[2]2、 發(fā)展歷史語音識(shí)別的研究工作大約開始于50年代機(jī)器翻譯研究熱潮時(shí)期,當(dāng)時(shí)AT&TBell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng) Audry系統(tǒng)。60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識(shí)別的發(fā)展。這時(shí)期的重要成果是提出了動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP),其中后者較好地解決了語音信號(hào)產(chǎn)生模型的問題,對(duì)語音識(shí)別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代,伴隨自然語言理解的研究以及微電子技術(shù)的飛速發(fā)展,語音識(shí)別領(lǐng)域取得了突破性進(jìn)展。在理論上,線性預(yù)測(cè)分析技術(shù)(LP)得到進(jìn)一步發(fā)展,動(dòng)態(tài)時(shí)間彎折技術(shù)(D丁W)基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實(shí)踐上,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語音識(shí)別系統(tǒng)1231。80年代,新一代智能計(jì)算機(jī)的研制,以及模式識(shí)別、自然語言理解等技術(shù)的成熟,為語音識(shí)別技術(shù)的突破打下了基礎(chǔ),語音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識(shí)別中的成功應(yīng)用⑶。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabine等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí)。進(jìn)入90年代,隨著多媒體時(shí)代的來臨,迫切要求語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱?。許多發(fā)達(dá)國家如美國、日本、韓國以及IBM、APPle、AT&T、Microsoft等著名公司都看好語音識(shí)別的應(yīng)用前景,為語音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資,語音識(shí)別技術(shù)實(shí)用化進(jìn)程大大加速,并出現(xiàn)了許多實(shí)用化的研究方向。IBM公司率先推出的ViaVOice標(biāo)志著大詞匯量、非特定人、連續(xù)語音識(shí)別技術(shù)正在趨于成熟。voiceXML作為新的行業(yè)標(biāo)準(zhǔn)和Speechobjects、W3C一起為語音識(shí)別技術(shù)注/\了新的活力。VoiceXML使通過語音創(chuàng)建互聯(lián)網(wǎng)網(wǎng)頁和信息更為容易,SpeechObjects可以提高語音應(yīng)用程序的運(yùn)行速度,而語音瀏覽器W3C則允許人們通過語音指令訪問互聯(lián)網(wǎng)。囹微軟也推出了語音識(shí)別引擎和SDK模塊。語音識(shí)別今后的發(fā)展方向,將由連續(xù)語音進(jìn)入自然話語識(shí)別與理解,并著手解決語音識(shí)別中的一系列難題,如魯棒性問題,難度還會(huì)加大,但前景是樂觀的。最近幾年里,語音識(shí)別技術(shù)的顯著進(jìn)展,帶來了高性能的算法和系統(tǒng)。用于語音撥號(hào)、語音命令控制、簡單的數(shù)據(jù)輸入和準(zhǔn)備結(jié)構(gòu)化文檔的語音識(shí)別工具已經(jīng)開始出現(xiàn)。3、 主要的研究方法分類語音識(shí)別技術(shù)是計(jì)算機(jī)通過識(shí)別和理解的過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的技術(shù)。一個(gè)完整的語音識(shí)別系統(tǒng)應(yīng)包括以下三個(gè)部分:語音特征提取語音信號(hào)在完成模/數(shù)轉(zhuǎn)換后,還要進(jìn)行特征提取,一方面為了獲得語音的本質(zhì)特征;另一方面還可以進(jìn)行數(shù)據(jù)的壓縮。目前通用特征提取的方法是基于語音幀的,即將語音信號(hào)分為有重疊的若干幀,對(duì)每一幀提取語音特征。聲學(xué)模型聲學(xué)模型是用于從語音到音節(jié)的概率計(jì)算。在識(shí)別時(shí)將提取的語音特征與聲學(xué)模型比較并匹配,以獲得最佳的識(shí)別效果。目前廣泛采用的聲學(xué)建模法有:隱馬爾科夫模型建模和上下文相關(guān)建模。語言模型語言模型用于計(jì)算從音節(jié)到字的概率。目前,語言模型主要有:規(guī)則模型和統(tǒng)計(jì)模型兩種。4、 語音識(shí)別的過程分為三個(gè)步驟:預(yù)處理、識(shí)別和后處理。圖1語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)1) 預(yù)處理包含波形硬件采樣率的確定、分幀的大小和幀移策略的確定;剔除噪聲的帶通濾波、高頻預(yù)加重處理、各種變換策略;波形的自動(dòng)切分[5。首先對(duì)模擬語音信號(hào)采樣,將其數(shù)字化。連續(xù)語音流切分是找出語音信號(hào)中的各種識(shí)別基元如音素、音節(jié)、半音節(jié)、聲韻母、單詞或意群等的始點(diǎn)和終點(diǎn)的位置,進(jìn)而將對(duì)連續(xù)語音的處理變?yōu)閷?duì)各個(gè)語音單元的處理。語音端點(diǎn)檢測(cè)指的也是連續(xù)語音流切分。2) 識(shí)別包含特征參數(shù)提取;參數(shù)模板存儲(chǔ)及識(shí)別。識(shí)別語音的過程,實(shí)際上是對(duì)語音特征參數(shù)模式的比較和匹配的過程。尋找一個(gè)既能充分表達(dá)語音特征又能彼此區(qū)別的、較穩(wěn)定的特征參數(shù)是很重要的。語音識(shí)別系統(tǒng)常用的特征參數(shù)有線性預(yù)測(cè)系數(shù)、倒頻譜系數(shù)、平均過零率、平均能量、短時(shí)頻譜、共振蜂頻率及帶寬等。識(shí)別參數(shù)的選擇著眼于能得到高的識(shí)別率,由于有些參數(shù)的提取較為復(fù)雜,計(jì)算較費(fèi)時(shí),因而要折衷考慮選用哪些參數(shù)并確定采用哪種識(shí)別方法。3) 后處理包括自動(dòng)分詞、詞類分析、詞義分析、詞用分析、語法分析、句法分析、同音詞判別等。后處理是利用語言學(xué)知識(shí)庫中的知識(shí),按一定的推理策略,把識(shí)別出來的拼音轉(zhuǎn)換成漢字并理解語句的含義。語言學(xué)知識(shí)庫中有詞匯、語法、句法、語義、語用和常用詞語搭配等知識(shí)。圖2語音識(shí)別系統(tǒng)的原理框圖未知(待識(shí)別)語音經(jīng)過話筒變換成電信號(hào)(即圖中語音信號(hào))后加在識(shí)別系統(tǒng)的輸入端,首先要經(jīng)過預(yù)處理,預(yù)處理包括反混疊失真濾波、預(yù)加重和端點(diǎn)檢測(cè)。經(jīng)過預(yù)處理后,語音信號(hào)的特征被提取出來。常用的特征包括:短時(shí)平均能量或幅度、短時(shí)平均過零率、短時(shí)自相關(guān)函數(shù)、線性預(yù)測(cè)系數(shù)、倒譜、共振峰等。根據(jù)實(shí)際需要選擇語音特征參數(shù),這些特征參數(shù)的時(shí)間序列便構(gòu)成了待識(shí)別語音的模式,將其與己經(jīng)存儲(chǔ)在計(jì)算機(jī)內(nèi)的參考模式逐一進(jìn)行比較(模式匹配),獲得最佳匹配(由判決規(guī)則確定)的參考模式便是識(shí)別結(jié)果。參考模式是在系統(tǒng)使用前獲得并存儲(chǔ)起來的,為此,要輸入一系列己知語音信號(hào),提取它們的特征作為參考模式,這一過程稱為訓(xùn)練過程。[6]顯然,最佳匹配結(jié)果的獲得與特征的選擇、語音模型的好壞、模板是否準(zhǔn)確都有直接的關(guān)系,這也是目前語音識(shí)別過程中的一個(gè)難點(diǎn)。5、當(dāng)前應(yīng)用1) 音付音付是獨(dú)特的支付程序和語音生物識(shí)別技術(shù)的綜合。該語音生物識(shí)別系統(tǒng)可以通過聲音驗(yàn)證說話人的身份,因此保證了人們可以安全可靠地在任何電話上進(jìn)行語音支付而不需要安裝其他的軟件或硬件。具有高度安全和使用方便性。“音付”是一項(xiàng)基于電話的支付系統(tǒng)。目前,“音付”有兩個(gè)版本。其中一個(gè)版本是簡單的電話語音菜單系統(tǒng),人們可以使用任何電話撥打進(jìn)系統(tǒng)進(jìn)行支付或轉(zhuǎn)賬。另一個(gè)版本可作為Android智能手機(jī)的應(yīng)用程序。[7]2) 語音云與車載導(dǎo)航車載導(dǎo)航主要實(shí)現(xiàn)以下幾個(gè)基本功能:定位、檢索、路徑規(guī)劃與行車導(dǎo)引,需要人為參與的就是目的地(或PO1)輸入,之后別的功能都由導(dǎo)航設(shè)備來完成。傳統(tǒng)的POI信息輸入主要是通過鍵盤輸入或手寫輸入來實(shí)現(xiàn),這都需要人在開車的過程中采用雙手進(jìn)行操作,存在巨大的安全隱患,且易用性較差。因此需要采用一種更好的人機(jī)交互手段來進(jìn)行信息輸入,語音識(shí)別技術(shù)就為其提供了良好的契機(jī)。語音識(shí)別技術(shù)在車載導(dǎo)航中的應(yīng)用,使得POI搜索變得更為便捷,用戶只需要對(duì)著導(dǎo)航設(shè)備說出地名并確認(rèn)輸入就可以輕松地完成與設(shè)備的交互過程,提高了操作的安全性。因此具備語音識(shí)別功能以后,衛(wèi)星導(dǎo)航系統(tǒng)就更為智能化,使用效率大大提高。但是語音識(shí)別技術(shù)在車載這一環(huán)境下實(shí)現(xiàn)具有相當(dāng)?shù)碾y度,一方面車內(nèi)噪聲較大,影響語音輸入;另一方面用戶來自五湖四海,受方言的影響,語音差異較大。面對(duì)海量的語音詞庫及復(fù)雜的語音處理,導(dǎo)航設(shè)備本機(jī)上的數(shù)據(jù)處理顯得蒼白無力圓。語音云的出現(xiàn)打破了這一應(yīng)用瓶頸,在語音云平臺(tái)的基礎(chǔ)上,車載導(dǎo)航數(shù)據(jù)處理不再是胖客戶端的處理方式,而是通過無線通訊技術(shù)與后臺(tái)的云計(jì)算平臺(tái)進(jìn)行交互,降低了客戶端的壓力。導(dǎo)航過程中,輸入的語音可以根據(jù)需要與云端POI數(shù)據(jù)進(jìn)行自動(dòng)匹配,節(jié)約導(dǎo)航設(shè)備本身的運(yùn)算空間[9]。3) 在機(jī)床控制方面的應(yīng)用語音識(shí)別是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),目前應(yīng)用于很多領(lǐng)域。針對(duì)語音識(shí)別技術(shù)在機(jī)床控制方面的應(yīng)用,簡要介紹了語音識(shí)別的分類、原理和技術(shù)。通過應(yīng)用微軟語音應(yīng)用程序軟件開發(fā)工具包AFA7R,設(shè)計(jì)了語音控制機(jī)床系統(tǒng),并且通過實(shí)例分析了系統(tǒng)的工作過程,體現(xiàn)了語音識(shí)別技術(shù)為數(shù)控領(lǐng)域所帶來的便利。6、 語音識(shí)別實(shí)用化過程中面臨的困難盡管各種語音識(shí)別產(chǎn)品層出不窮,但與語音識(shí)別的最終目標(biāo)還有一定的距離,且目前研究工作進(jìn)展緩慢,主要表現(xiàn)在理論上一直沒有突破。雖然各種新的修正方法不斷涌現(xiàn),但其普遍適用性都值得商榷。具體來講,困難主要表現(xiàn)在:語音識(shí)別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個(gè)問題是對(duì)用戶的錯(cuò)誤輸入不能正確響應(yīng),使用不方便。高噪聲環(huán)境下語音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高、語速變慢、音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號(hào)分析處理方法的。雖然語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識(shí)量化、建模并用于語音識(shí)別還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識(shí)別中是非常重要的。我們對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識(shí)還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識(shí)別,還有一個(gè)艱難的過程。因此,語音識(shí)別系統(tǒng)要從實(shí)驗(yàn)室演示系統(tǒng)轉(zhuǎn)化到商品還需要解決許多具體問題,如識(shí)別速度、拒識(shí)問題以及關(guān)鍵詞(句)檢測(cè)技術(shù)(即從連續(xù)語音中去除諸如“啊”、“唉”等語音,獲得真正待識(shí)別的語音部分)等等。為了解決這些問題,研究人員提出了各種各樣的方法,如自適應(yīng)訓(xùn)練,基于最大互信息準(zhǔn)則(MMI)和最小區(qū)別信息準(zhǔn)則(MDI)的區(qū)別訓(xùn)練和“矯正”訓(xùn)練[11];應(yīng)用人耳對(duì)語音信號(hào)的處理特點(diǎn),分析提取特征參數(shù),應(yīng)用人工神經(jīng)元網(wǎng)絡(luò)等,所有這些努力都取得了一定成績。7、 發(fā)展前景21世紀(jì)是信息和網(wǎng)絡(luò)的時(shí)代,Internet和移動(dòng)通信、固話通信的網(wǎng)絡(luò)把全球各地連接起來。自然口語對(duì)話、電子商務(wù)、信息索取、數(shù)字圖書館、語音翻譯、遠(yuǎn)程教育等一系列的人類活動(dòng)都可在網(wǎng)絡(luò)上實(shí)現(xiàn)。語音識(shí)別系統(tǒng)的出現(xiàn),會(huì)讓人更加自由的溝通,讓人在任何地方,任何時(shí)間,對(duì)任何事物都能夠通過語音交互的方式,方便地享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù)。這必然會(huì)成為語音識(shí)別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢(shì)。參考文獻(xiàn)[1] 柳春語音識(shí)別技術(shù)研究進(jìn)展[J] 甘肅科技[2] 楊尚國語音識(shí)別技術(shù)概述[J] 福建電腦[3] 熊燕抗噪聲語音識(shí)別技術(shù)研究[J]中國科技信息[4] 劉建輝.噪聲環(huán)境下的語音識(shí)別算法的研究與仿真[D].武漢理工大學(xué),2009.劉筠一種新型語音識(shí)別系統(tǒng)[J]成都大學(xué)學(xué)報(bào)(自然科學(xué)版)Man-machineinteractionandabsenteeismOriginalResearchArticleJournalofAppliedPsychology,Volume56,Issue5,October1972,Pages428-429Designingman-machineinteractionsformobileclinicalsystems:METtriagesupportusingPalmhandheldsOriginalResearchArticleBasedonimprovedahiddenmarkovmodel(HMM)speechrecognitionmetho
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024實(shí)習(xí)合同書范本參考
- 2024裝修工程協(xié)議合同
- 個(gè)人借款合同法律解讀
- 2024個(gè)人門面房屋租賃合同書常用版
- 經(jīng)典代理合同參考
- 企業(yè)租車協(xié)議書樣式
- 2024年度環(huán)保工程設(shè)計(jì)與施工合同
- 2024房屋抵款合同書
- 2024解除勞動(dòng)合同的賠償
- 成都市古建筑工程施工合同
- 監(jiān)控系統(tǒng)竣工資料
- 物業(yè)工程維修使用工具清單
- 普羅米修斯盜火(多幕劇)
- 煤油滲漏試驗(yàn)要求
- yy娛樂頻道設(shè)計(jì)方案模板(簡約版)
- 六爻必背口訣
- 多重耐藥菌病例分析ppt課件
- 六十四卦圖文詳解
- 要事第一(課堂PPT)
- 對(duì)排球大力跳發(fā)球失誤的技術(shù)原因分析
- 中藥飲片甲類
評(píng)論
0/150
提交評(píng)論