《人機(jī)交互技術(shù)》實(shí)驗(yàn)二

上傳人：s*** IP屬地：天津上傳時(shí)間：2022-10-26 格式：DOCX 頁數(shù)：7 大小：51.34KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

砌減烤人機(jī)交互技術(shù)論文軟件091班

092543

王晶語音識(shí)別——多用戶通道王晶(河北工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院軟件091班，天津092543)摘要：完成對(duì)語音識(shí)別多通道用戶界面的綜述(包括定義、發(fā)展歷史、當(dāng)前的應(yīng)用、主要的研究方法分類、以及發(fā)展前景以及中英文參考文獻(xiàn))關(guān)鍵詞：語音識(shí)別；預(yù)處理；識(shí)別；后處理1、語音識(shí)別多通道用戶界面定義語音識(shí)別是一門交叉學(xué)科。近二十年來，語音識(shí)別技術(shù)取得顯著進(jìn)步，開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì)，未來10年內(nèi)，語音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。語音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一［1］。很多專家都認(rèn)為語音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。隨著計(jì)算機(jī)技術(shù)的發(fā)展，人們迫切需要一種更加自然的、更加能為多數(shù)人所接受的方式與計(jì)算機(jī)溝通。在人機(jī)對(duì)話方面尋求最好的語音信息交換手段是發(fā)展人機(jī)語音通信和新一代智能計(jì)算機(jī)的主要組成部分。隨著計(jì)算機(jī)的普及，越來越多的人在使用計(jì)算機(jī)，如何給不熟悉計(jì)算機(jī)的人提供一個(gè)友好的人機(jī)交互手段，逐漸引起了人們的重視。從而也就誕生了計(jì)算機(jī)語音學(xué)。計(jì)算機(jī)語音學(xué)覆蓋了廣泛的研究活動(dòng)，包括語音識(shí)別、語音合成、語音編碼、自然語言理解、機(jī)器翻譯等。語音識(shí)別技術(shù)所涉及的領(lǐng)域包括：信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語音識(shí)別技術(shù)是計(jì)算機(jī)通過識(shí)別和理解的過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的技術(shù)。當(dāng)人們想對(duì)計(jì)算機(jī)說話時(shí)，通常首先需要進(jìn)行語音識(shí)別，即將聲音信號(hào)轉(zhuǎn)換成單詞流。［2］2、發(fā)展歷史語音識(shí)別的研究工作大約開始于50年代機(jī)器翻譯研究熱潮時(shí)期，當(dāng)時(shí)AT&TBell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng) Audry系統(tǒng)。60年代，計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識(shí)別的發(fā)展。這時(shí)期的重要成果是提出了動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP)，其中后者較好地解決了語音信號(hào)產(chǎn)生模型的問題，對(duì)語音識(shí)別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代，伴隨自然語言理解的研究以及微電子技術(shù)的飛速發(fā)展，語音識(shí)別領(lǐng)域取得了突破性進(jìn)展。在理論上，線性預(yù)測(cè)分析技術(shù)(LP)得到進(jìn)一步發(fā)展，動(dòng)態(tài)時(shí)間彎折技術(shù)(D丁W)基本成熟，特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實(shí)踐上，實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語音識(shí)別系統(tǒng)1231。80年代，新一代智能計(jì)算機(jī)的研制，以及模式識(shí)別、自然語言理解等技術(shù)的成熟，為語音識(shí)別技術(shù)的突破打下了基礎(chǔ)，語音識(shí)別研究進(jìn)一步走向深入，其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識(shí)別中的成功應(yīng)用⑶。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabine等科學(xué)家的努力，他們把原本艱澀的HMM純數(shù)學(xué)模型工程化，從而為更多研究者了解和認(rèn)識(shí)。進(jìn)入90年代，隨著多媒體時(shí)代的來臨，迫切要求語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱?。許多發(fā)達(dá)國家如美國、日本、韓國以及IBM、APPle、AT&T、Microsoft等著名公司都看好語音識(shí)別的應(yīng)用前景，為語音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資，語音識(shí)別技術(shù)實(shí)用化進(jìn)程大大加速，并出現(xiàn)了許多實(shí)用化的研究方向。IBM公司率先推出的ViaVOice標(biāo)志著大詞匯量、非特定人、連續(xù)語音識(shí)別技術(shù)正在趨于成熟。voiceXML作為新的行業(yè)標(biāo)準(zhǔn)和Speechobjects、W3C一起為語音識(shí)別技術(shù)注/\了新的活力。VoiceXML使通過語音創(chuàng)建互聯(lián)網(wǎng)網(wǎng)頁和信息更為容易，SpeechObjects可以提高語音應(yīng)用程序的運(yùn)行速度，而語音瀏覽器W3C則允許人們通過語音指令訪問互聯(lián)網(wǎng)。囹微軟也推出了語音識(shí)別引擎和SDK模塊。語音識(shí)別今后的發(fā)展方向，將由連續(xù)語音進(jìn)入自然話語識(shí)別與理解，并著手解決語音識(shí)別中的一系列難題，如魯棒性問題，難度還會(huì)加大，但前景是樂觀的。最近幾年里，語音識(shí)別技術(shù)的顯著進(jìn)展，帶來了高性能的算法和系統(tǒng)。用于語音撥號(hào)、語音命令控制、簡單的數(shù)據(jù)輸入和準(zhǔn)備結(jié)構(gòu)化文檔的語音識(shí)別工具已經(jīng)開始出現(xiàn)。3、主要的研究方法分類語音識(shí)別技術(shù)是計(jì)算機(jī)通過識(shí)別和理解的過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的技術(shù)。一個(gè)完整的語音識(shí)別系統(tǒng)應(yīng)包括以下三個(gè)部分：語音特征提取語音信號(hào)在完成模/數(shù)轉(zhuǎn)換后，還要進(jìn)行特征提取，一方面為了獲得語音的本質(zhì)特征；另一方面還可以進(jìn)行數(shù)據(jù)的壓縮。目前通用特征提取的方法是基于語音幀的，即將語音信號(hào)分為有重疊的若干幀，對(duì)每一幀提取語音特征。聲學(xué)模型聲學(xué)模型是用于從語音到音節(jié)的概率計(jì)算。在識(shí)別時(shí)將提取的語音特征與聲學(xué)模型比較并匹配，以獲得最佳的識(shí)別效果。目前廣泛采用的聲學(xué)建模法有：隱馬爾科夫模型建模和上下文相關(guān)建模。語言模型語言模型用于計(jì)算從音節(jié)到字的概率。目前，語言模型主要有：規(guī)則模型和統(tǒng)計(jì)模型兩種。4、語音識(shí)別的過程分為三個(gè)步驟：預(yù)處理、識(shí)別和后處理。圖1語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)1）預(yù)處理包含波形硬件采樣率的確定、分幀的大小和幀移策略的確定；剔除噪聲的帶通濾波、高頻預(yù)加重處理、各種變換策略；波形的自動(dòng)切分［5。首先對(duì)模擬語音信號(hào)采樣，將其數(shù)字化。連續(xù)語音流切分是找出語音信號(hào)中的各種識(shí)別基元如音素、音節(jié)、半音節(jié)、聲韻母、單詞或意群等的始點(diǎn)和終點(diǎn)的位置，進(jìn)而將對(duì)連續(xù)語音的處理變?yōu)閷?duì)各個(gè)語音單元的處理。語音端點(diǎn)檢測(cè)指的也是連續(xù)語音流切分。2）識(shí)別包含特征參數(shù)提取；參數(shù)模板存儲(chǔ)及識(shí)別。識(shí)別語音的過程，實(shí)際上是對(duì)語音特征參數(shù)模式的比較和匹配的過程。尋找一個(gè)既能充分表達(dá)語音特征又能彼此區(qū)別的、較穩(wěn)定的特征參數(shù)是很重要的。語音識(shí)別系統(tǒng)常用的特征參數(shù)有線性預(yù)測(cè)系數(shù)、倒頻譜系數(shù)、平均過零率、平均能量、短時(shí)頻譜、共振蜂頻率及帶寬等。識(shí)別參數(shù)的選擇著眼于能得到高的識(shí)別率，由于有些參數(shù)的提取較為復(fù)雜，計(jì)算較費(fèi)時(shí)，因而要折衷考慮選用哪些參數(shù)并確定采用哪種識(shí)別方法。3）后處理包括自動(dòng)分詞、詞類分析、詞義分析、詞用分析、語法分析、句法分析、同音詞判別等。后處理是利用語言學(xué)知識(shí)庫中的知識(shí)，按一定的推理策略，把識(shí)別出來的拼音轉(zhuǎn)換成漢字并理解語句的含義。語言學(xué)知識(shí)庫中有詞匯、語法、句法、語義、語用和常用詞語搭配等知識(shí)。圖2語音識(shí)別系統(tǒng)的原理框圖未知（待識(shí)別）語音經(jīng)過話筒變換成電信號(hào)（即圖中語音信號(hào)）后加在識(shí)別系統(tǒng)的輸入端，首先要經(jīng)過預(yù)處理，預(yù)處理包括反混疊失真濾波、預(yù)加重和端點(diǎn)檢測(cè)。經(jīng)過預(yù)處理后，語音信號(hào)的特征被提取出來。常用的特征包括:短時(shí)平均能量或幅度、短時(shí)平均過零率、短時(shí)自相關(guān)函數(shù)、線性預(yù)測(cè)系數(shù)、倒譜、共振峰等。根據(jù)實(shí)際需要選擇語音特征參數(shù)，這些特征參數(shù)的時(shí)間序列便構(gòu)成了待識(shí)別語音的模式，將其與己經(jīng)存儲(chǔ)在計(jì)算機(jī)內(nèi)的參考模式逐一進(jìn)行比較（模式匹配），獲得最佳匹配（由判決規(guī)則確定）的參考模式便是識(shí)別結(jié)果。參考模式是在系統(tǒng)使用前獲得并存儲(chǔ)起來的，為此，要輸入一系列己知語音信號(hào)，提取它們的特征作為參考模式，這一過程稱為訓(xùn)練過程。［6］顯然，最佳匹配結(jié)果的獲得與特征的選擇、語音模型的好壞、模板是否準(zhǔn)確都有直接的關(guān)系，這也是目前語音識(shí)別過程中的一個(gè)難點(diǎn)。5、當(dāng)前應(yīng)用1）音付音付是獨(dú)特的支付程序和語音生物識(shí)別技術(shù)的綜合。該語音生物識(shí)別系統(tǒng)可以通過聲音驗(yàn)證說話人的身份，因此保證了人們可以安全可靠地在任何電話上進(jìn)行語音支付而不需要安裝其他的軟件或硬件。具有高度安全和使用方便性。“音付”是一項(xiàng)基于電話的支付系統(tǒng)。目前，“音付”有兩個(gè)版本。其中一個(gè)版本是簡單的電話語音菜單系統(tǒng)，人們可以使用任何電話撥打進(jìn)系統(tǒng)進(jìn)行支付或轉(zhuǎn)賬。另一個(gè)版本可作為Android智能手機(jī)的應(yīng)用程序。［7］2）語音云與車載導(dǎo)航車載導(dǎo)航主要實(shí)現(xiàn)以下幾個(gè)基本功能：定位、檢索、路徑規(guī)劃與行車導(dǎo)引，需要人為參與的就是目的地（或PO1）輸入，之后別的功能都由導(dǎo)航設(shè)備來完成。傳統(tǒng)的POI信息輸入主要是通過鍵盤輸入或手寫輸入來實(shí)現(xiàn)，這都需要人在開車的過程中采用雙手進(jìn)行操作，存在巨大的安全隱患，且易用性較差。因此需要采用一種更好的人機(jī)交互手段來進(jìn)行信息輸入，語音識(shí)別技術(shù)就為其提供了良好的契機(jī)。語音識(shí)別技術(shù)在車載導(dǎo)航中的應(yīng)用，使得POI搜索變得更為便捷，用戶只需要對(duì)著導(dǎo)航設(shè)備說出地名并確認(rèn)輸入就可以輕松地完成與設(shè)備的交互過程，提高了操作的安全性。因此具備語音識(shí)別功能以后，衛(wèi)星導(dǎo)航系統(tǒng)就更為智能化，使用效率大大提高。但是語音識(shí)別技術(shù)在車載這一環(huán)境下實(shí)現(xiàn)具有相當(dāng)?shù)碾y度，一方面車內(nèi)噪聲較大，影響語音輸入；另一方面用戶來自五湖四海，受方言的影響，語音差異較大。面對(duì)海量的語音詞庫及復(fù)雜的語音處理，導(dǎo)航設(shè)備本機(jī)上的數(shù)據(jù)處理顯得蒼白無力圓。語音云的出現(xiàn)打破了這一應(yīng)用瓶頸，在語音云平臺(tái)的基礎(chǔ)上，車載導(dǎo)航數(shù)據(jù)處理不再是胖客戶端的處理方式，而是通過無線通訊技術(shù)與后臺(tái)的云計(jì)算平臺(tái)進(jìn)行交互，降低了客戶端的壓力。導(dǎo)航過程中，輸入的語音可以根據(jù)需要與云端POI數(shù)據(jù)進(jìn)行自動(dòng)匹配，節(jié)約導(dǎo)航設(shè)備本身的運(yùn)算空間［9］。3）在機(jī)床控制方面的應(yīng)用語音識(shí)別是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)，目前應(yīng)用于很多領(lǐng)域。針對(duì)語音識(shí)別技術(shù)在機(jī)床控制方面的應(yīng)用，簡要介紹了語音識(shí)別的分類、原理和技術(shù)。通過應(yīng)用微軟語音應(yīng)用程序軟件開發(fā)工具包AFA7R，設(shè)計(jì)了語音控制機(jī)床系統(tǒng)，并且通過實(shí)例分析了系統(tǒng)的工作過程，體現(xiàn)了語音識(shí)別技術(shù)為數(shù)控領(lǐng)域所帶來的便利。6、語音識(shí)別實(shí)用化過程中面臨的困難盡管各種語音識(shí)別產(chǎn)品層出不窮，但與語音識(shí)別的最終目標(biāo)還有一定的距離，且目前研究工作進(jìn)展緩慢，主要表現(xiàn)在理論上一直沒有突破。雖然各種新的修正方法不斷涌現(xiàn)，但其普遍適用性都值得商榷。具體來講，困難主要表現(xiàn)在：語音識(shí)別系統(tǒng)的適應(yīng)性差，主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng)，即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用，否則系統(tǒng)性能將急劇下降;另外一個(gè)問題是對(duì)用戶的錯(cuò)誤輸入不能正確響應(yīng)，使用不方便。高噪聲環(huán)境下語音識(shí)別進(jìn)展困難，因?yàn)榇藭r(shí)人的發(fā)音變化很大，像聲音變高、語速變慢、音調(diào)及共振峰變化等等，這就是所謂Lombard效應(yīng)，必須尋找新的信號(hào)分析處理方法的。雖然語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少，但如何把這些知識(shí)量化、建模并用于語音識(shí)別還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識(shí)別中是非常重要的。我們對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識(shí)還很不清楚;其次，把這方面的現(xiàn)有成果用于語音識(shí)別，還有一個(gè)艱難的過程。因此，語音識(shí)別系統(tǒng)要從實(shí)驗(yàn)室演示系統(tǒng)轉(zhuǎn)化到商品還需要解決許多具體問題，如識(shí)別速度、拒識(shí)問題以及關(guān)鍵詞(句)檢測(cè)技術(shù)(即從連續(xù)語音中去除諸如“啊”、“唉”等語音，獲得真正待識(shí)別的語音部分)等等。為了解決這些問題，研究人員提出了各種各樣的方法，如自適應(yīng)訓(xùn)練，基于最大互信息準(zhǔn)則(MMI)和最小區(qū)別信息準(zhǔn)則(MDI)的區(qū)別訓(xùn)練和“矯正”訓(xùn)練［11］;應(yīng)用人耳對(duì)語音信號(hào)的處理特點(diǎn)，分析提取特征參數(shù)，應(yīng)用人工神經(jīng)元網(wǎng)絡(luò)等，所有這些努力都取得了一定成績。7、發(fā)展前景21世紀(jì)是信息和網(wǎng)絡(luò)的時(shí)代，Internet和移動(dòng)通信、固話通信的網(wǎng)絡(luò)把全球各地連接起來。自然口語對(duì)話、電子商務(wù)、信息索取、數(shù)字圖書館、語音翻譯、遠(yuǎn)程教育等一系列的人類活動(dòng)都可在網(wǎng)絡(luò)上實(shí)現(xiàn)。語音識(shí)別系統(tǒng)的出現(xiàn)，會(huì)讓人更加自由的溝通，讓人在任何地方，任何時(shí)間，對(duì)任何事物都能夠通過語音交互的方式，方便地享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù)。這必然會(huì)成為語音識(shí)別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢(shì)。參考文獻(xiàn)［1］柳春語音識(shí)別技術(shù)研究進(jìn)展［J］甘肅科技［2］楊尚國語音識(shí)別技術(shù)概述［J］福建電腦［3］熊燕抗噪聲語音識(shí)別技術(shù)研究［J］中國科技信息［4］劉建輝.噪聲環(huán)境下的語音識(shí)別算法的研究與仿真［D］.武漢理工大學(xué),2009.劉筠一種新型語音識(shí)別系統(tǒng)[J]成都大學(xué)學(xué)報(bào)(自然科學(xué)版)Man-machineinteractionandabsenteeismOriginalResearchArticleJournalofAppliedPsychology,Volume56,Issue5,October1972,Pages428-429Designingman-machineinteractionsformobileclinicalsystems:METtriagesupportusingPalmhandheldsOriginalResearchArticleBasedonimprovedahiddenmarkovmodel(HMM)speechrecognitionmetho

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《人機(jī)交互技術(shù)》實(shí)驗(yàn)二

文檔簡介

溫馨提示

最新文檔

評(píng)論

《人機(jī)交互技術(shù)》實(shí)驗(yàn)二

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔