![《人工智能應(yīng)用概論》課件第5章智能語音技術(shù)_第1頁](http://file4.renrendoc.com/view/50de79af514ef3720e19bc49d7683396/50de79af514ef3720e19bc49d76833961.gif)
![《人工智能應(yīng)用概論》課件第5章智能語音技術(shù)_第2頁](http://file4.renrendoc.com/view/50de79af514ef3720e19bc49d7683396/50de79af514ef3720e19bc49d76833962.gif)
![《人工智能應(yīng)用概論》課件第5章智能語音技術(shù)_第3頁](http://file4.renrendoc.com/view/50de79af514ef3720e19bc49d7683396/50de79af514ef3720e19bc49d76833963.gif)
![《人工智能應(yīng)用概論》課件第5章智能語音技術(shù)_第4頁](http://file4.renrendoc.com/view/50de79af514ef3720e19bc49d7683396/50de79af514ef3720e19bc49d76833964.gif)
![《人工智能應(yīng)用概論》課件第5章智能語音技術(shù)_第5頁](http://file4.renrendoc.com/view/50de79af514ef3720e19bc49d7683396/50de79af514ef3720e19bc49d76833965.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、人工智能應(yīng)用概論第5章 智能語音技術(shù)PART1智能語音技術(shù)的概念 創(chuàng)新中國是由中央電視臺(tái)聯(lián)合深圳市委宣傳部于2018年1月22日推出的一部紀(jì)錄片,該片主要講述了最新科技成就和創(chuàng)新精神,用鮮活的故事記錄中國偉大的創(chuàng)新實(shí)踐。 這部聚焦前沿科學(xué)突破與科技熱點(diǎn),以鮮活故事記錄當(dāng)下中國創(chuàng)新實(shí)踐的紀(jì)錄片,還以一種特殊的方式聯(lián)結(jié)科技與人文:利用智能語音和人工智能技術(shù),讓已逝的著名配音藝術(shù)家李易老師的聲音重現(xiàn)熒幕,完成了整部紀(jì)錄片的配音。這也是全球第一部全篇采用人工智能配音的紀(jì)錄片。【案例】1.1 智能語音技術(shù)的概念1.1.1 自動(dòng)語音識(shí)別(Automatic Speech Recognition,ASR)
2、廣義上來講智能語音技術(shù)有各種各樣的定義,以上是常見的一些熱門的場景。本書重點(diǎn)介紹語音識(shí)別技術(shù)(ASR)。 自動(dòng)語音識(shí)別是指讓機(jī)器識(shí)別人說出的話,即將語音轉(zhuǎn)換成相應(yīng)的文本內(nèi)容,然后根據(jù)內(nèi)容信息執(zhí)行人的某種意圖。自動(dòng)語音識(shí)別又稱自動(dòng)言語識(shí)別,這項(xiàng)任務(wù)涉及將輸入聲學(xué)信號(hào)與存儲(chǔ)在計(jì)算機(jī)內(nèi)存的詞表(語音、音節(jié)、詞等)相匹配,而匹配個(gè)別語詞的標(biāo)準(zhǔn)技術(shù)則要用輸入信號(hào)與預(yù)存的波形(或波形特征/參數(shù))相比較(模型匹配)。1.1 智能語音技術(shù)的概念1.1.2 聲紋識(shí)別(Voiceprint Recognition,VR) 聲紋識(shí)別,生物識(shí)別技術(shù)的一種,也稱為說話人識(shí)別,包括說話人辨認(rèn)和說話人確認(rèn)。聲紋識(shí)別就是把聲
3、信號(hào)轉(zhuǎn)換成電信號(hào),再用計(jì)算機(jī)進(jìn)行識(shí)別。不同的任務(wù)和應(yīng)用會(huì)使用不同的聲紋識(shí)別技術(shù),如縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù),而銀行交易時(shí)則需要確認(rèn)技術(shù)。 聲紋識(shí)別有兩種應(yīng)用場景: 1:1驗(yàn)證(簡稱驗(yàn)證, Verification), 比如顯示為女朋友/老婆的電話號(hào)打來, 接聽之后發(fā)現(xiàn)聲音不是她, 那就讓人緊張; 1:n驗(yàn)證(又稱識(shí)別, Identification), 比如陌生電話打來, 對(duì)方說一句字面上沒有任何意義的老王, 是我啊, 如果真是熟人, 你就能很快辨得TA的身份, 如果認(rèn)為不是, 那就有可能是某省的人打來的了。1.1 智能語音技術(shù)的概念1.1.3 語音合成(Text to Speech,T
4、TS)語音合成,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。1.1 智能語音技術(shù)的概念1.1.4 機(jī)器翻譯源語言-目標(biāo)語言。產(chǎn)品形態(tài)主要有三大類;翻譯機(jī)、翻譯手機(jī)和翻譯耳機(jī)。1.1 智能語音技術(shù)的概念1.1.5 對(duì)話機(jī)器人對(duì)話機(jī)器人歷史悠久,從1966年MIT的精神治療師機(jī)器人ELIZA到現(xiàn)在已有半個(gè)世紀(jì)。針對(duì)用戶不同類型的問題,常見的對(duì)話機(jī)器人有如下幾種類型:檢索型單輪對(duì)話機(jī)器人:簡單問題的提問和回答;知識(shí)圖譜型機(jī)器人:知識(shí)圖譜型機(jī)器人(KG-Bot,也稱為問答系統(tǒng)),利用知識(shí)圖譜進(jìn)行推理并回答一些事實(shí)型問題
5、。任務(wù)型多輪對(duì)話機(jī)器人:任務(wù)型多輪機(jī)器人(Task-Bot)通過多次與用戶對(duì)話交互來輔助用戶完成某項(xiàng)明確具體的任務(wù)。閑聊型機(jī)器人:真實(shí)應(yīng)用中,用戶與系統(tǒng)交互的過程中不免會(huì)涉及到閑聊成分。閑聊功能可以讓對(duì)話機(jī)器人更有情感和溫度。1.1 智能語音技術(shù)的概念1.1.6 聲學(xué)事件檢測 聲學(xué)事件檢測是指對(duì)連續(xù)音頻信號(hào)流中具有明確語義的片段進(jìn)行檢測與標(biāo)定的過程。它是機(jī)器對(duì)環(huán)境聲音場景進(jìn)行識(shí)別和語義理解的重要基礎(chǔ),并將在未來類人機(jī)器人聲音環(huán)境的語義理解、無人車行車周邊環(huán)境的聲音感知等方面發(fā)揮重要的作用。1.2 語音識(shí)別發(fā)展歷程概述 語音識(shí)別技術(shù)的研究起始于20世紀(jì)50年代,由于受到當(dāng)時(shí)計(jì)算能力的限制,直到2
6、0世紀(jì)70年代才出現(xiàn)了一些實(shí)驗(yàn)性研究成果。自21世紀(jì)以來,語音識(shí)別技術(shù)取得了許多突破,并得到了廣泛的應(yīng)用。當(dāng)前,盡管語音識(shí)別技術(shù)相對(duì)成熟,但在大規(guī)模語音語料的實(shí)時(shí)采集與精準(zhǔn)標(biāo)注、特定語種的音素集設(shè)計(jì)與優(yōu)化、語音識(shí)別的魯棒性增強(qiáng)等方面依然面臨諸多難題。1.2 語音識(shí)別發(fā)展歷程 1952年,美國貝爾實(shí)驗(yàn)室的Davis等人率先研制出了一個(gè)針對(duì)特定人的獨(dú)立數(shù)字識(shí)別系統(tǒng),該系統(tǒng)能夠成功識(shí)別10個(gè)英語數(shù)字1956年,Olson和Belar開發(fā)出的系統(tǒng)能夠識(shí)別10個(gè)不同音節(jié),1959年Fry和Denes開發(fā)的識(shí)別系統(tǒng)能夠識(shí)別9個(gè)輔音和4個(gè)元音,他們利用模板匹配技術(shù)和譜分析技術(shù)進(jìn)一步改善了音素的識(shí)別精度。同期
7、,在美國麻省理工學(xué)院(MIT)林肯實(shí)驗(yàn)室設(shè)計(jì)的ForgieandForgie元音識(shí)別系統(tǒng)利用帶通濾波器能夠針對(duì)非特定人識(shí)別10個(gè)元音。1.2 語音識(shí)別發(fā)展歷程 20世紀(jì)60年代初,F(xiàn)aut和Stevens等人對(duì)語音生成的理論方法進(jìn)行了探索性研究。1962年,東京大學(xué)的Doshita和Sakai通過分析語音的過零率識(shí)別不同的音素,設(shè)計(jì)開發(fā)了一種硬件實(shí)現(xiàn)的音素識(shí)別系統(tǒng),同期,他們推出了對(duì)近30年來的語音識(shí)別技術(shù)產(chǎn)生了巨大影響的三個(gè)研究項(xiàng)目。RCA實(shí)驗(yàn)室的研究人員Martin提出了基于語音信號(hào)端點(diǎn)檢測的時(shí)間歸一化方法和能夠解決語音信號(hào)非勻速問題的實(shí)用方法,顯著降低了語音識(shí)別得分的變化;Reddy在連
8、續(xù)語音識(shí)別領(lǐng)域進(jìn)行的開創(chuàng)性研究在連續(xù)語音識(shí)別系統(tǒng)領(lǐng)域至今仍處于領(lǐng)先地位。1.2 語音識(shí)別發(fā)展歷程 20世紀(jì)70年代,語音識(shí)別研究領(lǐng)域又取得了一系列重大突破,孤立詞的識(shí)別已經(jīng)成為可能。模板匹配思想和動(dòng)態(tài)規(guī)劃方法在語音識(shí)別中得到了應(yīng)用,ltakura將低比特率條件下的語音編碼的LPC技術(shù)應(yīng)用擴(kuò)展到了語音識(shí)別領(lǐng)域,AT&T貝爾實(shí)驗(yàn)室開展了針對(duì)非特定人語音識(shí)別的實(shí)驗(yàn),生成非特定人模型的技術(shù)得到了普遍認(rèn)同與廣泛應(yīng)用。1.2 語音識(shí)別發(fā)展歷程 20世紀(jì)80年代的標(biāo)志性成果就是統(tǒng)計(jì)建模方法,研究重點(diǎn)由模板匹配方法逐步向統(tǒng)計(jì)建模方法轉(zhuǎn)變,特別是HMM被廣泛應(yīng)用到語音識(shí)別研究中。20世紀(jì)80年代中期,HMM模型
9、被世界各國的語音識(shí)別研究者所熟悉和采納,神經(jīng)網(wǎng)絡(luò)也成為了一個(gè)新的研究方向,該時(shí)期對(duì)神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)點(diǎn)和局限性以及該技術(shù)與經(jīng)典的信號(hào)分類方法之間的關(guān)系有了深刻的理解,由此促進(jìn)了神經(jīng)網(wǎng)絡(luò)技術(shù)在語音識(shí)別領(lǐng)域的應(yīng)用。20世紀(jì)80年代后期,人們開始研制大詞匯量連續(xù)語音識(shí)別系統(tǒng),主要研究成果多得益于美國DAPRA的支持,研究機(jī)構(gòu)主要有CMU、林肯實(shí)驗(yàn)室、SRI、MIT和ATT貝爾實(shí)驗(yàn)室。1.2 語音識(shí)別發(fā)展歷程 進(jìn)入20世紀(jì)90年代,語音識(shí)別研究的成果開始走出實(shí)驗(yàn)室,并且達(dá)到了商用目的。這一時(shí)期的研究熱點(diǎn)包括魯棒的語音識(shí)別、基于語音段的建模方法、聲學(xué)語音學(xué)統(tǒng)計(jì)模型、隱馬爾可夫模型與人工神經(jīng)網(wǎng)絡(luò)的結(jié)合等,而
10、研究重點(diǎn)集中在聽覺模型、講者自適應(yīng)、快速搜索識(shí)別算法及語言模型。同期,最大似然線性回歸(MLLR)、最大后驗(yàn)概率準(zhǔn)則估計(jì)(MAP)、以決策樹狀態(tài)聚類等算法被提出和應(yīng)用,進(jìn)一步提升了系統(tǒng)的性能,由此催生了一批商用語音識(shí)別系統(tǒng),比如DragonSystem公司的Naturally Speaking、IBM公司的ViaVoice、Microsoft公司的Whisper、Nuance公司的NuanceVoicePlatform語音平臺(tái)、Sun公司的VoiceTone等。在美國DARPA和NIST研究計(jì)劃的推動(dòng)下,更多新的語音識(shí)別任務(wù)被不斷嘗試并取得了更優(yōu)的識(shí)別性能,當(dāng)前國外的相關(guān)應(yīng)用系統(tǒng)以Apple公
11、司推出的Siri為龍頭。1.2 語音識(shí)別發(fā)展歷程 21世紀(jì)以來,語音識(shí)別在技術(shù)突破和應(yīng)用研究兩方面不斷深入。在置信度和句子確認(rèn)方面提出了針對(duì)口語的健壯性語音識(shí)別,這些技術(shù)對(duì)處理復(fù)雜的病句非常有效。利用區(qū)分性訓(xùn)練技術(shù)訓(xùn)練聲學(xué)模型也取得了顯著的效果。在實(shí)際應(yīng)用方面,語音搜索、綜合音頻和視頻的多模態(tài)語音識(shí)別技術(shù)受到廣泛關(guān)注。 隨著計(jì)算機(jī)技術(shù)和信號(hào)處理技術(shù)的快速發(fā)展,健壯性語音識(shí)別已達(dá)到真正意義上的應(yīng)用,能夠?qū)崿F(xiàn)自由的人機(jī)交互。當(dāng)前,作為人機(jī)交互接口的關(guān)鍵技術(shù),自動(dòng)語音識(shí)別已成為信息技術(shù)領(lǐng)域最為關(guān)注的技術(shù)之一,并逐漸形成一個(gè)頗具競爭性的新興高技術(shù)產(chǎn)業(yè),自動(dòng)語音識(shí)別系統(tǒng)的實(shí)用化水平將成為未來的研究重點(diǎn)。
12、1.3 智能語音的應(yīng)用場景概述 智能語音技術(shù)是最早落地的人工智能技術(shù),也是市場上眾多人工智能產(chǎn)品中應(yīng)用最為廣泛的。 伴隨著人工智能的快速發(fā)展,中國在智能語音技術(shù)的專利數(shù)量持續(xù)增長,通過龐大的用戶群基礎(chǔ)以及互聯(lián)網(wǎng)系統(tǒng)優(yōu)勢(shì)明顯,國內(nèi)智能語音公司已經(jīng)占據(jù)一席之地。智能語音應(yīng)用的場景非常豐富,并已經(jīng)成熟地應(yīng)用在眾多領(lǐng)域中。1.3 智能語音的應(yīng)用場景1.3.1 智能家居 智能家居是以住宅為平臺(tái),利用綜合布線技術(shù)、網(wǎng)絡(luò)通信技術(shù)、 安全防范技術(shù)、自動(dòng)控制技術(shù)、音視頻技術(shù)將家居生活有關(guān)的設(shè)施集成,構(gòu)建高效的住宅設(shè)施與家庭日程事務(wù)的管理系統(tǒng),提升家居安全性、便利性、舒適性、藝術(shù)性,并實(shí)現(xiàn)環(huán)保節(jié)能的居住環(huán)境。1.
13、3 智能語音的應(yīng)用場景1.3.2 智能車載 智能車載系統(tǒng)讓汽車變得更智能,主要可以實(shí)時(shí)更新的地圖,通過語音識(shí)別技術(shù)方便導(dǎo)航,以及娛樂功能;實(shí)現(xiàn)手機(jī)遠(yuǎn)程控制,讓手機(jī)和汽車之間無縫對(duì)接。1.3 智能語音的應(yīng)用場景1.3.3 智能客服 智能客服是在大規(guī)模知識(shí)處理基礎(chǔ)上發(fā)展起來的一項(xiàng)面向行業(yè)應(yīng)用的,它具有行業(yè)通用性,不僅為企業(yè)提供了細(xì)粒度知識(shí)管理技術(shù),還為企業(yè)與海量用戶之間的溝通建立了一種基于自然語言的快捷有效的技術(shù)手段;同時(shí)還能夠?yàn)槠髽I(yè)提供精細(xì)化管理所需的統(tǒng)計(jì)分析信息。1.3 智能語音的應(yīng)用場景1.3.4 智能金融 智能金融即人工智能與金融的全面融合,以人工智能、大數(shù)據(jù)、云計(jì)算、區(qū)塊鏈等高新科技為核
14、心要素,全面賦能金融機(jī)構(gòu),提升金融機(jī)構(gòu)的服務(wù)效率,拓展金融服務(wù)的廣度和深度,使得全社會(huì)都能獲得平等、高效、專業(yè)的金融服務(wù),實(shí)現(xiàn)金融服務(wù)的智能化、個(gè)性化、定制化。1.3 智能語音的應(yīng)用場景1.3.5 智能教育 智能教育是指國家實(shí)施新一代人工智能發(fā)展規(guī)劃、中國教育現(xiàn)代化2035、高等學(xué)校人工智能創(chuàng)新行動(dòng)計(jì)劃等人工智能多層次教育體系的人工智能教育。1.3 智能語音的應(yīng)用場景1.3.6 智能醫(yī)療 智能醫(yī)療是通過打造健康檔案區(qū)域醫(yī)療信息平臺(tái),利用最先進(jìn)的物聯(lián)網(wǎng)技術(shù),實(shí)現(xiàn)患者與醫(yī)務(wù)人員、醫(yī)療機(jī)構(gòu)、醫(yī)療設(shè)備之間的互動(dòng),逐步達(dá)到信息化。PART2語音識(shí)別工作原理2.1 智能語音工作原理 首先,我們知道聲音實(shí)際
15、上是一種波。常見的mp3等格式都是壓縮格式,必須轉(zhuǎn)成非壓縮的純波形文件來處理,比如Windows PCM文件,也就是俗稱的wav文件。wav文件里存儲(chǔ)的除了一個(gè)文件頭以外,就是聲音波形的一個(gè)個(gè)點(diǎn)了。下圖是一個(gè)波形的示例。2.1 智能語音工作原理 在開始語音識(shí)別之前,有時(shí)需要把首尾端的靜音切除,降低對(duì)后續(xù)步驟造成的干擾。這個(gè)靜音切除的操作一般稱為VAD,需要用到信號(hào)處理的一些技術(shù)。要對(duì)聲音進(jìn)行分析,需要對(duì)聲音分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀。分幀操作一般不是簡單的切開,而是使用移動(dòng)窗函數(shù)來實(shí)現(xiàn)。幀與幀之間一般是有交疊的,就像下圖這樣: 圖中,每幀的長度為25毫秒,每兩幀之間有
16、25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。圖中,每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。2.1 智能語音工作原理 分幀后,語音就變成了很多小段。但波形在時(shí)域上幾乎沒有描述能力,因此必須將波形作變換。常見的一種變換方法是提取MFCC特征,根據(jù)人耳的生理特性,把每一幀波形變成一個(gè)多維向量,可以簡單地理解為這個(gè)向量包含了這幀語音的內(nèi)容信息。這個(gè)過程叫做聲學(xué)特征提取。實(shí)際應(yīng)用中,這一步有很多細(xì)節(jié),聲學(xué)特征也不止有MFCC這一種,具體這里不講。 至此,聲音就成了一個(gè)12行(假設(shè)聲學(xué)特征是12維)、N列的一個(gè)矩陣,
17、稱之為觀察序列,這里N為總幀數(shù)。觀察序列如下圖所示,圖中,每一幀都用一個(gè)12維的向量表示,色塊的顏色深淺表示向量值的大小。2.1 智能語音工作原理接下來就要介紹怎樣把這個(gè)矩陣變成文本了。首先要介紹兩個(gè)概念:音素:單詞的發(fā)音由音素構(gòu)成。對(duì)英語,一種常用的音素集是卡內(nèi)基梅隆大學(xué)的一套由39個(gè)音素構(gòu)成的音素集。漢語一般直接用全部聲母和韻母作為音素集,另外漢語識(shí)別還分有調(diào)無調(diào)。狀態(tài):這里理解成比音素更細(xì)致的語音單位就行啦。通常把一個(gè)音素劃分成3個(gè)狀態(tài)。語音識(shí)別是怎么工作的呢?無非是:第一步,把幀識(shí)別成狀態(tài)(難點(diǎn));第二步,把狀態(tài)組合成音素;第三步,把音素組合成單詞。2.1 智能語音工作原理 圖中,每個(gè)
18、小豎條代表一幀,若干幀語音對(duì)應(yīng)一個(gè)狀態(tài),每三個(gè)狀態(tài)組合成一個(gè)音素,若干個(gè)音素組合成一個(gè)單詞。也就是說,只要知道每幀語音對(duì)應(yīng)哪個(gè)狀態(tài)了,語音識(shí)別的結(jié)果也就出來了。圖中,每個(gè)小豎條代表一幀,若干幀語音對(duì)應(yīng)一個(gè)狀態(tài),每三個(gè)狀態(tài)組合成一個(gè)音素,若干個(gè)音素組合成一個(gè)單詞。也就是說,只要知道每幀語音對(duì)應(yīng)哪個(gè)狀態(tài)了,語音識(shí)別的結(jié)果也就出來了。2.1 智能語音工作原理 那每幀音素對(duì)應(yīng)哪個(gè)狀態(tài)呢?有個(gè)容易想到的辦法,看某幀對(duì)應(yīng)哪個(gè)狀態(tài)的概率最大,那這幀就屬于哪個(gè)狀態(tài)。比如下面的示意圖,這幀對(duì)應(yīng)S3狀態(tài)的概率最大,因此就讓這幀屬于S3狀態(tài)。 那這些用到的概率從哪里讀取呢?有個(gè)叫“聲學(xué)模型”的東西,里面存了一大堆參
19、數(shù),通過這些參數(shù),就可以知道幀和狀態(tài)對(duì)應(yīng)的概率。獲取這一大堆參數(shù)的方法叫做“訓(xùn)練”,需要使用巨大數(shù)量的語音數(shù)據(jù)。2.1 智能語音工作原理 但這樣做有一個(gè)問題:每一幀都會(huì)得到一個(gè)狀態(tài)號(hào),最后整個(gè)語音就會(huì)得到一堆亂七八糟的狀態(tài)號(hào),相鄰兩幀間的狀態(tài)號(hào)基本都不相同。假設(shè)語音有1000幀,每幀對(duì)應(yīng)1個(gè)狀態(tài),每3個(gè)狀態(tài)組合成一個(gè)音素,那么大概會(huì)組合成300個(gè)音素,但這段語音其實(shí)根本沒有這么多音素。如果真這么做,得到的狀態(tài)號(hào)可能根本無法組合成音素。實(shí)際上,相鄰幀的狀態(tài)應(yīng)該大多數(shù)都是相同的才合理,因?yàn)槊繋芏?。解決這個(gè)問題的常用方法就是使用隱馬爾可夫模型(Hidden Markov Model,HMM)。這東
20、西聽起來好像很高深的樣子,實(shí)際上用起來很簡單:第一步,構(gòu)建一個(gè)狀態(tài)網(wǎng)絡(luò)。第二步,從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑。2.1 智能語音工作原理 這樣就把結(jié)果限制在預(yù)先設(shè)定的網(wǎng)絡(luò)中,避免了剛才說到的問題,當(dāng)然也帶來一個(gè)局限,比如你設(shè)定的網(wǎng)絡(luò)里只包含了“今天晴天”和“今天下雨”兩個(gè)句子的狀態(tài)路徑,那么不管說些什么,識(shí)別出的結(jié)果必然是這兩個(gè)句子中的一句。那如果想識(shí)別任意文本呢?把這個(gè)網(wǎng)絡(luò)搭得足夠大,包含任意文本的路徑就可以了。但這個(gè)網(wǎng)絡(luò)越大,想要達(dá)到比較好的識(shí)別準(zhǔn)確率就越難。所以要根據(jù)實(shí)際任務(wù)的需求,合理選擇網(wǎng)絡(luò)大小和結(jié)構(gòu)。 搭建狀態(tài)網(wǎng)絡(luò),是由單詞級(jí)網(wǎng)絡(luò)展開成音素網(wǎng)絡(luò),再展開成狀態(tài)網(wǎng)絡(luò)。語音識(shí)別過程其實(shí)就是在狀態(tài)網(wǎng)絡(luò)中搜索一條最佳路徑,語音對(duì)應(yīng)這條路徑的累計(jì)概率最大,這稱之為“解碼”。2.1 智能語音工作原理這里所說的概率,由三部分構(gòu)成,分別是:觀察概率:每幀和每個(gè)狀態(tài)對(duì)應(yīng)的概率轉(zhuǎn)移概率:每個(gè)狀態(tài)轉(zhuǎn)移到自身或轉(zhuǎn)移到下個(gè)狀態(tài)的概率語言
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 岸坡拋石工程施工方案
- 環(huán)保技術(shù)引領(lǐng)未來環(huán)境科學(xué)與城市發(fā)展
- 中小學(xué)生欺凌專項(xiàng)治理行動(dòng)方案
- 現(xiàn)代通信技術(shù)在教育領(lǐng)域的應(yīng)用
- 2024年四年級(jí)英語上冊(cè) Module 5 Unit 2 Can Sam play football說課稿 外研版(三起)001
- 2024八年級(jí)英語下冊(cè) Unit 2 Plant a PlantLesson 7 Planting Trees說課稿(新版)冀教版
- 2024新教材高中政治 第二單元 經(jīng)濟(jì)發(fā)展與社會(huì)進(jìn)步 第四課 我國的個(gè)人收入分配與社會(huì)保障 4.1《我國的個(gè)人收入分配》說課稿 部編版必修2
- Module4 Unit1 Mum bought a new T-shirt for me(說課稿)-2024-2025學(xué)年外研版(三起)英語五年級(jí)上冊(cè)
- 《6 蛋殼與薄殼結(jié)構(gòu)》(說課稿)-2023-2024學(xué)年五年級(jí)下冊(cè)科學(xué)蘇教版
- 2025北京市勞務(wù)分包合同范本問題范本
- 《住院患者身體約束的護(hù)理》團(tuán)體標(biāo)準(zhǔn)解讀課件
- 中國心力衰竭診斷與治療指南解讀
- API520-安全閥計(jì)算PART1(中文版)
- 醫(yī)院信息科考核內(nèi)容標(biāo)準(zhǔn)細(xì)則
- 商務(wù)提成辦法
- 《統(tǒng)計(jì)學(xué)》完整袁衛(wèi)-賈俊平課件
- FZ/T 25001-1992工業(yè)用毛氈
- 電商部售后客服績效考核表
- 小提琴協(xié)奏曲《梁祝》譜
- 人教版高中化學(xué)必修一第一章《物質(zhì)及其變化》教學(xué)課件
- 復(fù)工復(fù)產(chǎn)工作方案范本【復(fù)產(chǎn)復(fù)工安全工作方案】
評(píng)論
0/150
提交評(píng)論