版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
一、語音識別技術(shù)的發(fā)展歷史 31、國外的發(fā)展形勢 32、國內(nèi)的發(fā)展 3二、語音識別技術(shù)發(fā)展所面臨的困難 41、認識語音識別系統(tǒng) 42、面臨的困難 43、解決困難的方法 5三、語音識別技術(shù)的應用以及發(fā)展前景 51、目前語音識別技術(shù)在許多領(lǐng)域的應用 52、對語音識別技術(shù)的發(fā)展前景 6四、結(jié)束語(結(jié)論) 6謝辭 7參考文獻 8語音識別技術(shù)的發(fā)展歷史國外的發(fā)展形勢首先,從國外的形勢看來。語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統(tǒng),它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。但真正取得實質(zhì)性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。實驗室語音識別研究的巨大突破產(chǎn)生于20世紀80年代末:人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,他們把原本艱澀的HMM純數(shù)學模型工程化,從而使統(tǒng)計方法成為了語音識別技術(shù)的主流,更多地從整體平均的角度來建立最佳的語音識別系統(tǒng)。人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語言處理機制等也在語音識別中得到了應用。20世紀90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統(tǒng)的實用化研究投以巨資。語音識別技術(shù)有一個很好的評估機制,那就是識別的準確率,而這項指標在20世紀90年代中后期實驗室研究中得到了不斷的提高。其中IBM公司于1997年開發(fā)出漢語ViaVoice語音識別系統(tǒng),其平均識別率可以達到95%。該系統(tǒng)對新聞語音識別具有較高的精度,是目前具有代表性的漢語連續(xù)語音識別系統(tǒng)。國內(nèi)的發(fā)展看了國際的情況,現(xiàn)在看看我們國家的語音識別技術(shù)的發(fā)展情況。我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實驗室逐步走向?qū)嵱?。我國的語音識別研究起始于1958年,由中國科學院聲學所利用電子管電路識別10個元音。直至1973年才由中國科學院聲學所開始計算機語音識別。由于當時條件的限制,我國的語音識別研究工作一直處于緩慢發(fā)展的階段。進入80年代以后,隨著計算機應用技術(shù)在我國逐漸普及和應用以及數(shù)字信號技術(shù)的進一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。1986年3月我國高科技發(fā)展863計劃啟動,語音識別作為智能計算機系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。從此我國的語音識別技術(shù)進入了一個前所未有的發(fā)展階段。在非特定人語音識別方面:清華大學計算機科學與技術(shù)系在87年研制的聲控電話查號系統(tǒng)并投入實際使用。在連續(xù)語音識別方面:91年12月四川大學計算機中心在微機上實現(xiàn)了一個主題受限的特定人連續(xù)英語——漢語語音翻譯演示系統(tǒng)。在孤立字大詞匯量語音識別方面:最具代表性的要數(shù)92年清華大學電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識別與理解實時系統(tǒng)。語音識別技術(shù)發(fā)展所面臨的困難認識語音識別系統(tǒng)首先介紹一下語音識別系統(tǒng)的分類方式及依據(jù)。根據(jù)對說話人說話方式的要求,可以分為孤立字(詞)語音識別系統(tǒng),連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)。根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng)。據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準則及模型訓練技術(shù)三個方面。此外,還涉及到語音識別單元的選取。不同的語音識別系統(tǒng),雖然具體實現(xiàn)細節(jié)有所不同,但所采用的基本技術(shù)相似,一個典型語音識別系統(tǒng)的實現(xiàn)過程如下圖所示。面臨的困難目前,語音識別技術(shù)還面臨著許多的問題,還不夠成熟,主要有:第一,語音識別的研究工作進展緩慢,主要表現(xiàn)在理論上一直沒有突破。雖然各種新的修正方法不斷涌現(xiàn),但還缺乏普遍適用性。第二,語音識別系統(tǒng)的適應性差,主要體現(xiàn)在對環(huán)境依賴性強,即在某種環(huán)境下采集到的語音訓練系統(tǒng)只能在這種環(huán)境下應用,否則系統(tǒng)性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應,使用不方便。第三,高噪聲環(huán)境下語音識別進展困難,因為此時人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應,必須尋找新的信號分析處理方法。第四,語言學、生理學、心理學方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識別中是非常重要的。第五,我們對人類的聽覺理解、知識積累和學習機制以及大腦神經(jīng)系統(tǒng)的控制機理等方面的認識還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識別,還有一個艱難的過程。第六,語音識別系統(tǒng)從實驗室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關(guān)鍵詞(句)檢測技術(shù)(即從連續(xù)語音中去除諸如“啊”、“唉”等語音,獲得真正待識別的語音部分)等等技術(shù)細節(jié)要解決。解決困難的方法在研究語音識別的道路上既然出現(xiàn)了這么多的問題,那么為了解決這些問題,研究人員提出了各種各樣的方法,如自適應訓練,基于最大互信息準則(MMI)和最小區(qū)別信息準則(MDI)的區(qū)別訓練和“矯正”訓練;應用人耳對語音信號的處理特點,分析提取特征參數(shù),應用人工神經(jīng)元網(wǎng)絡(luò)……所有這些努力都取得了一定成績。當然,如果要使語音識別系統(tǒng)性能有大的提高,就要綜合應用語言學、心理學、生理學以及信號處理等各門學科有關(guān)知識,只用其中一種是不行的。語音識別技術(shù)的應用以及發(fā)展前景目前語音識別技術(shù)在許多領(lǐng)域的應用目前世界各國都加快了語音識別應用系統(tǒng)的研究開發(fā),并已有一些實用的語音識別系統(tǒng)投入商業(yè)運營。在美國語音識別系統(tǒng)的銷售額逐年上升,由于使用了語音識別系統(tǒng),為企業(yè)贏得了巨額收入。語音識別系統(tǒng)有AT&T于1992年開發(fā)的VRCP系統(tǒng)。該系統(tǒng)是有五個單詞(collect,person,thirdnumber,operator和callingcard)的非特定人小詞匯量語音識別系統(tǒng),現(xiàn)已應用于AT&T通信網(wǎng)上,可以實現(xiàn)自動話務員協(xié)助式呼叫,代替話務員完成五種呼叫類型。此外,語音識別技術(shù)在iphone中應用也是很廣泛了。對語音識別技術(shù)的發(fā)展前景中文大詞匯量連續(xù)語音識別技術(shù)近年來發(fā)展迅速,并在許多領(lǐng)域得到了廣泛的應用,國內(nèi)外許多大公司加大了對語音識別技術(shù)的研究,不少商業(yè)化的語音識別系統(tǒng)已經(jīng)面世,并得到較為廣泛的使用。當然在國內(nèi),中文的語音識別也有已經(jīng)較為成熟并投入消費應用的技術(shù)。上市企業(yè)科大訊飛的高級副總裁、研究院院長胡郁告訴環(huán)球企業(yè)家,訊飛口訊、訊飛輸入法等主要產(chǎn)品,總計有800萬下載用戶,每天有200萬次語音交互。同時其技術(shù)也在新浪微博的語音搜索中使用,騰訊則獲得其語音能力的授權(quán),正在研發(fā)相關(guān)產(chǎn)品。在他看來,語音智能之所以現(xiàn)在爆發(fā),與移動互聯(lián)網(wǎng)和云計算緊密相關(guān)。不過相比美國,中國在人工智能和操作系統(tǒng)的技術(shù)上仍有很大差距,因此在短期內(nèi)產(chǎn)生和Siri同級別的產(chǎn)品,可能性甚微。蘋果網(wǎng)站的FAQ中提到,明年Siri將會提供中文服務。如果Siri能夠與中國的網(wǎng)絡(luò)服務提供者(如大眾點評等)、第三方開發(fā)者建立良好的合作,將會給中國語音智能行業(yè)內(nèi)的企業(yè)帶來更大的挑戰(zhàn)。對更多想要在這一領(lǐng)域淘金的中國公司來說,在蘋果平臺上開發(fā)Siri有關(guān)的應用,依然將是短期內(nèi)最主流的方式。我認為好的中文連續(xù)語音識別技術(shù)要達到:提供最自然的人機交流方式,并具備自適應的識別功能,解決了非特定說話人的語音差別問題最快捷最方便的漢字輸人方式。能把“聽到”說的話寫聽來,還能“聽懂”語音命令,完成相應的操作,而目比鍵盤輸人更方便,比鼠標更直接;不用動手,只要動口,一瞬間就可完成您要做的工作,要具有強大的聽寫能力,經(jīng)過聽寫字處理器,不須動手,就能完成從交字輸人到格式編排的全部工作,很好幫助人們解決問題,就是他們在忙碌的時候,用語音識別系統(tǒng)來做事,就會方便很多,節(jié)省了很多時間,所謂時間按就是金錢,這樣人們的生活節(jié)奏就會變得更加快了,生活的質(zhì)量也將會得到提高。結(jié)束語(結(jié)論)其實,我們所說的語音識別技術(shù),就是根據(jù)對說話人說話方式的要求,可以分為孤立字語音識別系統(tǒng),連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)。根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng)。根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。不同的語音識別系統(tǒng),雖然具體實現(xiàn)細節(jié)有所不同,但所采用的基本技術(shù)相似,它正在不斷的發(fā)展完善的過成中。目前,現(xiàn)在實用的系統(tǒng)還有AT&T800語音識別服務系統(tǒng),NTTANSER語音識別銀行服務系統(tǒng),NorthenTelecom股票價格行情系統(tǒng),使得原本手工操作的工作用語音就可方便地完成。在當代隨計算機的普及,人與計算機交流、人機對話也越炒越熱,人類要是能用語言同計算機交流和計算機能不能聽懂人的語言這個是很重要的問題,也就是要使我們的計算機能夠識別人的聲音。這里主要是指中文,英語的話難度沒有漢語大,已經(jīng)實現(xiàn)的差不多了。但是中文的語音識別技術(shù),相對來說,比較的困難,好的語音識別系統(tǒng),首先,要能區(qū)別拼音發(fā)聲,還要有聯(lián)想的功能;其次要能夠保存上次說話的內(nèi)容,可以用于下次拿出來做對比,這樣就可以設(shè)計一個隨著使用次數(shù)的增加語音識別的功能也將增強,更加的準確,達到人們所希望的效果。我們從語音識別技術(shù)的發(fā)展可以看出,科學技術(shù)推動了社會發(fā)展,滿足人們的需求,社會需求也反過來推動科學技術(shù)發(fā)展。多媒體時代的來臨,迫切要求解決自動語音識別的難題,必然推動語音識別理論和應用研究的進展。估計在本世紀最后幾年至二十一世紀初,語音識別技術(shù)將會在理論上和應用上都取得突破性進展。到那時,我們將體會到語音識別帶來的種種便利。人們在寫一些東西的時候,基本都不用寫字,只需要對著語音勢必誒系統(tǒng)講,他就將準確的翻譯出來你所講的內(nèi)容??偠灾瑫o我們的生活帶來很多的方便之處。當然我們也要合理的運用這種技術(shù),不要用在不正當?shù)牡胤?,好的東西用在實用的地方,才能體現(xiàn)出它真正的價值。謝辭首先,感謝學院開了人工智能這門課程,給我們這個機會了解到更多的前沿的知識,其次,感謝我們的老師給我們耐心的介紹各種關(guān)于人工智能的應用,開闊了我們的眼界,認識到人工智能的重要性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度律師事務所專業(yè)復印機及法律文件管理系統(tǒng)采購合同3篇
- 二零二五年度禽類養(yǎng)殖標準化示范項目禽類采購合同3篇
- 二零二五年度電子商務大賽賽事知識產(chǎn)權(quán)保護與侵權(quán)處理合同3篇
- 2024種植業(yè)務戰(zhàn)略合作伙伴合同樣本版B版
- 二零二五版高端石材采購與安裝服務合同3篇
- 二零二五年度車隊車輛租賃與售后服務合同2篇
- 2024藥品采購及冷鏈物流服務保障協(xié)議3篇
- 2025年度校園食堂廚房設(shè)備采購與安裝綜合服務合同2篇
- 2025年度拍賣合同信息安全與隱私保護
- 2025年度智能穿戴設(shè)備銷售合同協(xié)議4篇
- 2024年工程咨詢服務承諾書
- 青桔單車保險合同條例
- 車輛使用不過戶免責協(xié)議書范文范本
- 《獅子王》電影賞析
- 2023-2024學年天津市部分區(qū)九年級(上)期末物理試卷
- DB13-T 5673-2023 公路自愈合瀝青混合料薄層超薄層罩面施工技術(shù)規(guī)范
- 河北省保定市定州市2025屆高二數(shù)學第一學期期末監(jiān)測試題含解析
- 哈爾濱研學旅行課程設(shè)計
- 2024 smart汽車品牌用戶社區(qū)運營全案
- 中醫(yī)護理人文
- 2024-2030年中國路亞用品市場銷售模式與競爭前景分析報告
評論
0/150
提交評論