版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
BasisofArtificialIntelligenceApplication人工智能應(yīng)用基礎(chǔ)模塊三智能語音技術(shù)01
錄音北京明天的天氣怎么樣?識(shí)別北京明天是晴天,最高氣溫28度,適合郊游。合成問答播放小紅是公司的客服,每天要回復(fù)很多客戶的電話,嗓子經(jīng)常會(huì)變得沙啞。她一直盼望著:能不能把回復(fù)的文字轉(zhuǎn)換成音頻,自動(dòng)播放給客戶?任務(wù)3:TTS文字轉(zhuǎn)語音網(wǎng)絡(luò)通信正常已安裝Anaconda集成環(huán)境已安裝百度SDK并注冊(cè)用戶1、任務(wù)描述準(zhǔn)備一段文字(或文本文件)
在百度平臺(tái)創(chuàng)建語音應(yīng)用并獲取鑒權(quán)信息
編寫六段代碼編譯運(yùn)行并收聽結(jié)果2、環(huán)境要求3、任務(wù)設(shè)計(jì)本次任務(wù)是借助百度語音接口,將給定的文字轉(zhuǎn)換成語音并播放出來。效果如下所示。}任務(wù)一請(qǐng)掃碼完成集成環(huán)境&百度平臺(tái)我愛北京天安門,天安門上紅旗飄!1.熟悉語音處理的概念2.了解語音識(shí)別、語音合成、聲紋識(shí)別、喚醒詞等常用技術(shù)3.了解語音處理的常見應(yīng)用4.能將文字轉(zhuǎn)化為語音5.提升四個(gè)自信與工匠精神重點(diǎn):1.語音處理的概念2.語音處理的相關(guān)技術(shù)與應(yīng)用3.TTS文字轉(zhuǎn)語音實(shí)踐難點(diǎn):1.語音處理的相關(guān)技術(shù)2.文字轉(zhuǎn)語音實(shí)踐知識(shí)?技能?素質(zhì)重難點(diǎn)人工智能應(yīng)用基礎(chǔ)BasisofArtificialIntelligenceApplication3.1語音處理的概念
3.2語音處理的常用技術(shù)3.3語音處理的常見應(yīng)用任務(wù)3:TTS文字轉(zhuǎn)語音語音處理(speechsignalprocessing)是研究語音發(fā)聲過程、語音信號(hào)的統(tǒng)計(jì)特性、語音的自動(dòng)識(shí)別、機(jī)器合成以及語音感知等各種處理技術(shù)的總稱。它是一門研究如何讓機(jī)器能夠“聽”和“說”的學(xué)科,屬于人工智能中的感知智能范疇。語音處理概念圖1、語音處理的定義3.1語音處理的概念語音處理主要研究RNN,LSTM等基礎(chǔ)算法,實(shí)現(xiàn)語音識(shí)別(包括語音喚醒)、語音合成、語音增強(qiáng)、聲紋識(shí)別、語音評(píng)測等應(yīng)用技術(shù)方向。目前,語音技術(shù)已經(jīng)在智能家居、手機(jī)助理多個(gè)領(lǐng)域取得了良好的應(yīng)用。語音處理技術(shù)與應(yīng)用框架2、語音處理技術(shù)與應(yīng)用框架3.1語音處理的概念MFCCGMM-HMM…DNN-HMMRNNLSTM基礎(chǔ)算法語音識(shí)別語音合成語音增強(qiáng)……聲紋識(shí)別應(yīng)用技術(shù)手機(jī)汽車家居客服金融可穿戴智能機(jī)器人…業(yè)務(wù)場景3.1語音處理的概念
3.2語音處理的常用技術(shù)3.3語音處理的常見應(yīng)用任務(wù)3:TTS文字轉(zhuǎn)語音語音識(shí)別:說的是什么?語音合成:替我說話!語音增強(qiáng):消減噪音,讓我聽得清楚點(diǎn)聲紋識(shí)別:是誰在說話?語音評(píng)測:你的發(fā)音水平如何?常用技術(shù)3.2語音處理的常用技術(shù)語音識(shí)別,又稱自動(dòng)語音識(shí)別(AutomaticSpeechRecognition,ASR),是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,它是利用計(jì)算機(jī)自動(dòng)對(duì)語音信號(hào)的音素、音節(jié)或詞進(jìn)行識(shí)別的技術(shù)總稱。1、語音識(shí)別3.2語音處理的常用技術(shù)語音識(shí)別一般流程科大訊飛棵大訓(xùn)非kēdàxùnfēi語言處理科大訊飛信號(hào)處理特征提取模型匹配聲學(xué)模型聲學(xué)庫語言模型文本庫1、語音識(shí)別3.2語音處理的常用技術(shù)輸入語音有效語言檢測接口層特征提取語音識(shí)別語言模型聲學(xué)模型識(shí)別結(jié)果語音前處理數(shù)據(jù)預(yù)處理語音訓(xùn)練集聲學(xué)模型訓(xùn)練文本訓(xùn)練集數(shù)據(jù)清洗和正規(guī)化模型訓(xùn)練和優(yōu)化語言模型訓(xùn)練系統(tǒng)流程HMMCNNDNN
RNN1、語音識(shí)別3.2語音處理的常用技術(shù)語音編碼語音質(zhì)量16K16bit、8K16bit、Speex壓縮避免丟音、截幅、音量過小等理想音頻丟音截幅音量過小輸入語音:較高質(zhì)量1、語音識(shí)別3.2語音處理的常用技術(shù)聲學(xué)一致性:待識(shí)別語音和語音訓(xùn)練集具有一致性數(shù)據(jù)預(yù)處理(NoiseRobust)語音訓(xùn)練集聲學(xué)模型遠(yuǎn)場近場設(shè)備降噪用戶口音聲學(xué)匹配:聲學(xué)一致性聲學(xué)模型訓(xùn)練1、語音識(shí)別3.2語音處理的常用技術(shù)文本一致性:待識(shí)別領(lǐng)域和文本訓(xùn)練集具有一致性語言模型語言模型訓(xùn)練數(shù)據(jù)清洗和正規(guī)化模型訓(xùn)練和優(yōu)化文本訓(xùn)練集領(lǐng)域數(shù)據(jù)核心詞匯wǒxǐhuānbǎidù我喜歡文本匹配:文本一致性百度擺渡!1、語音識(shí)別3.2語音處理的常用技術(shù)語音識(shí)別語義理解對(duì)話管理語音喚醒聲紋識(shí)別大白你好小明你好語音合成語音喚醒:在手機(jī)、玩具、家電等設(shè)備在休眠或鎖屏狀態(tài)下,能檢測到用戶發(fā)出的“小度小度”或“小愛同學(xué)”等喚醒詞,讓處于休眠狀態(tài)下的設(shè)備直接進(jìn)入到等待指令狀態(tài),開啟語音交互第一步。1、語音識(shí)別3.2語音處理的常用技術(shù)特征提取關(guān)鍵詞識(shí)別聲學(xué)模型庫>閾值?得分接受拒絕錯(cuò)誤拒絕率(FRR)錯(cuò)誤接受率(FAR)功耗語音喚醒:喚醒詞設(shè)計(jì)簡單易記日常少用易于喚醒3-4個(gè)音節(jié)語音識(shí)別主要包括語音聽寫、語音轉(zhuǎn)寫等細(xì)分應(yīng)用,以及語音喚醒這個(gè)特殊應(yīng)用。1、語音識(shí)別3.2語音處理的常用技術(shù)對(duì)比語音聽寫語音轉(zhuǎn)寫音頻時(shí)長≤60秒介于60秒與5小時(shí)實(shí)時(shí)性要求高低適用場景手機(jī)語音輸入、智能語音交互、語音指令、語音搜索等語音質(zhì)檢、會(huì)議訪談、音頻內(nèi)容分析等語音合成又稱文語轉(zhuǎn)換(TextToSpeech,TTS)技術(shù),是將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,它是通過機(jī)械的、電子的方法產(chǎn)生人造語音的技術(shù)。2、語音合成3.2語音處理的常用技術(shù)文本輸入
語言處理
韻律處理
單元合成
語音輸出語音合成一般流程聲學(xué)模型語言模型語法分析發(fā)音提示……波形拼接參數(shù)合成……2、語音合成3.2語音處理的常用技術(shù)目前的語音合成技術(shù)已與真人無異文本分析(文本正則、分詞、詞性標(biāo)注、注音)韻律停頓預(yù)測聲學(xué)參數(shù)預(yù)測單元選擇聲碼器在線合成離線合成語音增強(qiáng)(speechenhancement)是從帶噪語音信號(hào)中提取盡可能純凈的原始語音,抑制、降低噪聲干擾,以改進(jìn)語音質(zhì)量、提高語音可懂度的技術(shù)。3、語音增強(qiáng)3.2語音處理的常用技術(shù)智能語音交互中的語音增強(qiáng)在語音識(shí)別、說話人識(shí)別、語種識(shí)別等各種以語音為信息載體的智能交互應(yīng)用中,都面臨著噪聲干擾,使得有用語音信息畸變,語音質(zhì)量降低,影響了機(jī)器對(duì)人類命令和語音信息的辨別和理解。聲紋識(shí)別也稱為說話人識(shí)別,包括說話人辨認(rèn)和說話人確認(rèn)。4、聲紋識(shí)別3.2語音處理的常用技術(shù)說話人辨認(rèn)(SpeakerIdentification)是1:N問題:門禁、考勤、縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù),用以判斷某段語音是若干人中的哪一個(gè)所說的年齡性別識(shí)別機(jī)器對(duì)已被授權(quán)輸入的音頻數(shù)據(jù)進(jìn)行分析,輔助判定說話者的年齡范圍(小孩、中年、老年)及性別(男,女)Ta是誰?是Ta嗎?說話人確認(rèn)(SpeakerVerification)是1:1問題:銀行、證券等實(shí)名制領(lǐng)域進(jìn)行交易時(shí),需要確認(rèn)技術(shù),用以確認(rèn)某段語音是否是本人所說的語音評(píng)測(SpeechEvaluator)通過智能語音技術(shù)自動(dòng)對(duì)發(fā)音水平進(jìn)行評(píng)價(jià)、發(fā)音錯(cuò)誤、缺陷進(jìn)行定位和問題分析。5、語音評(píng)測3.2語音處理的常用技術(shù)科大訊飛語音評(píng)測流程可以對(duì)中英文的朗讀發(fā)音進(jìn)行評(píng)分和問題定位。針對(duì)字、詞、句、篇章等類型,返回準(zhǔn)確度、流暢度、完整度、聲韻調(diào)型等多維度評(píng)分,用于提升發(fā)音水平。3.1語音處理的概念3.2語音處理的常用技術(shù)3.3語音處理的常見應(yīng)用任務(wù)3:TTS文字轉(zhuǎn)語音1、語音識(shí)別應(yīng)用3.3語音處理的常見應(yīng)用社交聊天社交聊天發(fā)送實(shí)時(shí)語音,支持中文,英文識(shí)別,方言支持廣東語,四川話。讓溝通交流更加準(zhǔn)確案例:游戲娛樂語音聊天轉(zhuǎn)文字,讓用戶在操作的同時(shí)也可看到聊天內(nèi)容案例:語音輸入法擺脫生僻字和拼音障礙,將所輸入文字,直接用語音的方式輸入,讓輸入法更加便捷案例:
語音搜索搜索內(nèi)容直接以語音的方式輸入,讓搜索更加高效案例:2、語音合成應(yīng)用3.3語音處理的常見應(yīng)用出行、娛樂語音指令解放雙手機(jī)器人解說體育賽事農(nóng)家數(shù)字書屋解放雙手用耳朵獲取知識(shí)2、語音合成應(yīng)用3.3語音處理的常見應(yīng)用功能:通過語音“說出”用戶的需求,智能家居就能識(shí)別,執(zhí)行。案例:智能電視系統(tǒng),直接根據(jù)語音操作3、語音增強(qiáng)應(yīng)用3.3語音處理的常見應(yīng)用軍事任務(wù)中的應(yīng)用公安、國防等領(lǐng)域中的背景噪聲裝甲兵坦克海軍輪船駕駛室炮兵在操作火炮時(shí)空軍的地勤保障場所和設(shè)備,單兵惡劣的戰(zhàn)爭環(huán)境語音增強(qiáng)4、聲紋識(shí)別3.3語音處理的常見應(yīng)用“小度小度,給我來首歌”“馬上播放小兔子乖乖”語音識(shí)別(ASR)Service語義理解(NLP)識(shí)別文本語音喚醒(Wakeup)聲紋辨認(rèn)?聲紋確認(rèn)?精準(zhǔn)回應(yīng)!3.1語音處理的概念3.2語音處理的常用技術(shù)3.3語音處理的常見應(yīng)用任務(wù)3:TTS文字轉(zhuǎn)語音任務(wù)3:TTS文字轉(zhuǎn)語音網(wǎng)絡(luò)通信正常已安裝Anaconda集成環(huán)境已安裝百度SDK并注冊(cè)用戶1、任務(wù)描述準(zhǔn)備一段文字(或文本文件)
在百度平臺(tái)創(chuàng)建語音應(yīng)用并獲取鑒權(quán)信息
編寫六段代碼編譯運(yùn)行并收聽結(jié)果2、環(huán)境要求3、任務(wù)設(shè)計(jì)本次任務(wù)是借助百度語音接口,將給定的文字轉(zhuǎn)換成語音并播放出來。效果如下所示。歡迎使用百度人工智能開放平臺(tái)?。蝿?wù)一請(qǐng)掃碼完成集成環(huán)境&百度平臺(tái)任務(wù)3:TTS文字轉(zhuǎn)語音登錄
?
進(jìn)入“語音識(shí)別”場景①開放能力
②語音技術(shù)
③語音合成
④(進(jìn)入下一個(gè)頁面)立即使用領(lǐng)取免費(fèi)資源⑤去領(lǐng)取
⑥語音合成
⑦
全部
⑧0元領(lǐng)取創(chuàng)建應(yīng)用⑨去創(chuàng)建
⑩填寫應(yīng)用名稱(自定義)
?填寫應(yīng)用描述(自定義)
?立即創(chuàng)建獲取密鑰?文字識(shí)別
?應(yīng)用列表
?顯示你的密鑰序號(hào)應(yīng)用名稱AppIDAPIKeySecretKey1MySpeech22898059BOrie9B…******顯示2短語音識(shí)別25780364YnsT00u…******顯示①??②③⑤⑨?創(chuàng)建語音應(yīng)用并獲取秘鑰4、任務(wù)實(shí)施任務(wù)3:TTS文字轉(zhuǎn)語音參考代碼4、任務(wù)實(shí)施左側(cè)為參考代碼,其中:如果用于合成的文字來自于文本文件,則該文本文件應(yīng)與源代碼文件在同一目錄下需要領(lǐng)取免費(fèi)資源包任務(wù)3:TTS文字轉(zhuǎn)語音編譯運(yùn)行結(jié)果4、任務(wù)實(shí)施調(diào)用系統(tǒng)播放器,直接播放語音不顯示返回信息,直接保存音頻任務(wù)3:TTS文字轉(zhuǎn)語音常見問題:編譯錯(cuò)誤英文括號(hào)()單引號(hào)''雙引號(hào)""寫成了中文符號(hào)英文錯(cuò)誤代碼Code6:誤注冊(cè)了其它應(yīng)用,如圖像搜索技能等錯(cuò)誤代碼Code14:AK、SK抄寫錯(cuò)誤,有空格等5、常見問題常見問題:疏忽程序能編譯,無錯(cuò)誤提示,但沒有合成語音文件:查看是否領(lǐng)用了語音合成免費(fèi)資源能正常播放語音,但找不到音頻文件:SpyderFileSaveas查看源文件路徑
任務(wù)3:TTS文字轉(zhuǎn)語音本次項(xiàng)目利用百度人工智能開放平臺(tái)實(shí)現(xiàn)了語音合成功能。在此基礎(chǔ)上,學(xué)員們可以進(jìn)一步探索:深入創(chuàng)新:上一模塊中,我們已經(jīng)學(xué)會(huì)了識(shí)別紙質(zhì)文件上的文字。本次任務(wù),我們能將文字轉(zhuǎn)化為語音了。請(qǐng)考慮一下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 墻面涂料采購合同(2篇)
- 多渠道電商合作協(xié)議(2篇)
- 2024年跨國貿(mào)易貨物銷售條款制定及執(zhí)行合同一
- 2024月餅企業(yè)戰(zhàn)略規(guī)劃與實(shí)施合同3篇
- 2024版事業(yè)單位招聘
- 2024新款:虛擬現(xiàn)實(shí)旅游體驗(yàn)服務(wù)合同
- 民工用工協(xié)議書
- 專業(yè)碼頭作業(yè)運(yùn)輸協(xié)議協(xié)議指南版B版
- 2024年花崗巖采購與銷售補(bǔ)充協(xié)議條款版B版
- 1空氣占據(jù)空間嗎 說課稿-2024-2025學(xué)年三年級(jí)科學(xué)上冊(cè)蘇教版
- 降脂藥行業(yè)深度:龐大患者群體前沿靶點(diǎn)迎來新突破
- 2025年手術(shù)室護(hù)士長工作計(jì)劃樣本(3篇)
- 2024美團(tuán)商家入駐平臺(tái)合作協(xié)議及商家權(quán)益保障體系3篇
- 淮北市和淮南市2025屆高三第一次質(zhì)量檢測(一模)地理試卷(含答案)
- 二年級(jí)語文教學(xué)反思
- 安徽省淮北市部分學(xué)校2024-2025學(xué)年七年級(jí)上學(xué)期1月期末歷史試卷
- 化學(xué)-安徽省淮北市和淮南市2025屆高三第一質(zhì)量檢測(淮北淮南一模)試題和答案
- 2025內(nèi)蒙古電力(集團(tuán))限責(zé)任公司供電單位邊遠(yuǎn)地區(qū)崗位招聘713高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2020-2021學(xué)年【江西省撫州市】八年級(jí)(上)期末生物試卷
- 2025年山西文旅集團(tuán)招聘筆試參考題庫含答案解析
- 2024-2030年撰寫:中國隧道式軸流風(fēng)機(jī)行業(yè)發(fā)展趨勢及競爭調(diào)研分析報(bào)告
評(píng)論
0/150
提交評(píng)論