語音數(shù)據(jù)與語音合成課件_第1頁
語音數(shù)據(jù)與語音合成課件_第2頁
語音數(shù)據(jù)與語音合成課件_第3頁
語音數(shù)據(jù)與語音合成課件_第4頁
語音數(shù)據(jù)與語音合成課件_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

語音合成技術(shù)什么叫語音合成TextToSpeech過程,簡稱TTS作用:將文本狀態(tài)的文字信息轉(zhuǎn)化為可聽的聲音信息———“電腦會(huì)說話”鍵盤光電掃描手寫識(shí)別網(wǎng)絡(luò)/數(shù)據(jù)庫文本語言處理韻律處理語音合成結(jié)果輸出詞典/規(guī)則語音庫語音合成技術(shù)什么叫語音合成鍵盤光電掃描手寫識(shí)別網(wǎng)絡(luò)/數(shù)據(jù)1發(fā)聲機(jī)理語音產(chǎn)生的生理過程發(fā)聲機(jī)理語音產(chǎn)生的生理過程2總綱1.數(shù)字語音信號(hào)2.語音合成技術(shù)3.數(shù)據(jù)制作與合成4.合成效果測(cè)聽總綱1.數(shù)字語音信號(hào)3數(shù)字語音信號(hào)什么是數(shù)字語音信號(hào)語音:說話,聲波傳遞的語言語音信號(hào):記錄下來的聲波振動(dòng)模擬語音信號(hào):(磁帶,唱片)數(shù)字語音信號(hào):模擬信號(hào)數(shù)字化(wavmp3CD)

----計(jì)算機(jī)應(yīng)用的需要如何數(shù)字化取樣:采樣率(時(shí)間尺子,8K,16K,44K,每秒樣點(diǎn)數(shù)量)量化:量化精度(幅度尺子,16bit,-32767~32768范圍)數(shù)字語音信號(hào)什么是數(shù)字語音信號(hào)4數(shù)字語音信號(hào)取樣和量化數(shù)字語音信號(hào)取樣和量化5數(shù)字語音信號(hào)波形不能說明內(nèi)容數(shù)字語音信號(hào)波形不能說明內(nèi)容6數(shù)字語音信號(hào)頻域介紹一段任意波形可以由一系列正弦波形組合而成離散傅里葉變換數(shù)學(xué)表示:最高值,采樣率的一半(16Kwav;maxfreq=8KHz)人可聽辨的頻率范圍:

(20Hz~20kHz)電話語音信道的頻率范圍(60Hz~3400Hz)數(shù)字語音信號(hào)頻域介紹7數(shù)字語音信號(hào)語譜圖數(shù)字語音信號(hào)語譜圖8數(shù)字語音信號(hào)清音和濁音濁音:聲帶的快速振動(dòng),聲帶能夠?qū)⒎€(wěn)定氣流轉(zhuǎn)換成振動(dòng)

振動(dòng)頻率稱為基頻,準(zhǔn)周期性清音:紊亂氣流,肺部氣流通過聲道中的狹窄處產(chǎn)生爆破音:突然爆破數(shù)字語音信號(hào)清音和濁音9數(shù)字語音信號(hào)聲學(xué)特征如此雜亂多變的信號(hào),如何描述,如何恢復(fù)?語音信號(hào)產(chǎn)生的數(shù)字模型(源-濾波器模型)數(shù)字語音信號(hào)聲學(xué)特征10數(shù)字語音信號(hào)聲學(xué)特征基頻:發(fā)濁音時(shí)聲帶振動(dòng)引起的周期變化,我們聽感音調(diào)高低主要由基頻決定,中文聲調(diào)還用于區(qū)分語義譜參數(shù):描述聲道和口唇輻射

共振峰,LPC,倒譜參數(shù)數(shù)字語音信號(hào)聲學(xué)特征11總綱1.數(shù)字語音信號(hào)2.語音合成技術(shù)3.數(shù)據(jù)標(biāo)注與合成4.合成效果測(cè)聽總綱1.數(shù)字語音信號(hào)12語音合成技術(shù)主流技術(shù)路線基于統(tǒng)計(jì)規(guī)則的大語料庫拼接語音合成系統(tǒng)基于HMM的參數(shù)語音合成系統(tǒng)基于HMM的語料庫拼接語音合成系統(tǒng)兩條道路:

要么是波形切分再拼合起來,要么是聲學(xué)參數(shù)轉(zhuǎn)化出來語音合成技術(shù)主流技術(shù)路線13語音合成技術(shù)基于統(tǒng)計(jì)規(guī)則的大語料庫拼接語音合成系統(tǒng)傳統(tǒng)大語料庫合成,InterPhonic5.0之前單元挑選波形拼接超大規(guī)模音庫制作語料設(shè)計(jì),音庫錄制,精細(xì)切分,韻律標(biāo)注規(guī)則統(tǒng)計(jì),針對(duì)不同發(fā)音人的細(xì)致調(diào)整優(yōu)點(diǎn):音質(zhì)最佳,正常句子的自然度也很好缺點(diǎn):非常依賴音庫的規(guī)模大小和制作質(zhì)量,存在一定穩(wěn)定性問題,不能應(yīng)用在小型設(shè)備中樣例:語音合成技術(shù)基于統(tǒng)計(jì)規(guī)則的大語料庫拼接語音合成系統(tǒng)14輸入文本拼音信息和韻律結(jié)構(gòu)信息每個(gè)單元將取多個(gè)候選s1s2s3s4目標(biāo)代價(jià)挑選候選單元詞典等文本分析知識(shí)大規(guī)模語音庫再考慮連接代價(jià)決定最后選定單元s1s2s3s4s5s6輸出語音語音合成技術(shù)InterPhonic系統(tǒng)處理流程輸入文本拼音信息和韻律結(jié)構(gòu)信息每個(gè)單元將取目標(biāo)代價(jià)挑選候選單15語音合成技術(shù)基于HMM的參數(shù)語音合成系統(tǒng)首先進(jìn)行語音特征參數(shù)的提取以音素為單位(中文為聲韻母),使用HMM(HiddenMarkovModel)對(duì)自然語流的頻譜特征參數(shù)進(jìn)行建模采用基于決策樹的聚類方法對(duì)上下文相關(guān)模型進(jìn)行聚類,以提高模型的魯棒性,得到預(yù)測(cè)參數(shù)最后生成參數(shù)輸入合成器,得到合成語音優(yōu)點(diǎn):所需音庫規(guī)模小,標(biāo)注精度要求相對(duì)降低,自然度高,系統(tǒng)小,靈活度高,ViviVoice,AiSound缺點(diǎn):音質(zhì)相對(duì)較差,帶有合成器風(fēng)格樣例:語音合成技術(shù)基于HMM的參數(shù)語音合成系統(tǒng)16語音合成技術(shù)參數(shù)語音合成系統(tǒng)框架語音合成技術(shù)參數(shù)語音合成系統(tǒng)框架17語音合成技術(shù)HMM參數(shù)建模用聲學(xué)參數(shù)針對(duì)音素建模為什么要建模?描述的音素特征變化隱馬爾科夫模型(HiddenMarkovModel--HMM)語音合成技術(shù)HMM參數(shù)建模18語音合成技術(shù)決策樹模型聚類有了模型怎么使用?來一句話怎么預(yù)知用哪個(gè)模型?基于上下文的信息的決策樹聚類語音合成技術(shù)決策樹模型聚類19語音合成技術(shù)基于HMM的語料庫拼接語音合成系統(tǒng)利用HMM目標(biāo)模型和連接模型來指導(dǎo)單元挑選結(jié)合參數(shù)訓(xùn)練模型的數(shù)學(xué)統(tǒng)計(jì)模型優(yōu)勢(shì)和波形拼接的高音質(zhì),相對(duì)以前的大語料庫技術(shù)在自然度上有較大提升自主原發(fā),意義重大優(yōu)點(diǎn):擁有明確目標(biāo)和度量準(zhǔn)則,音質(zhì)好,自然度高,系統(tǒng)搭建自動(dòng)化程度高,InterPhonic5.5以上版本缺點(diǎn):仍然需要很大規(guī)模的語料庫,計(jì)算量較大樣例:語音合成技術(shù)基于HMM的語料庫拼接語音合成系統(tǒng)20語音合成技術(shù)基于HMM的單元挑選系統(tǒng)結(jié)構(gòu)圖語音合成技術(shù)基于HMM的單元挑選系統(tǒng)結(jié)構(gòu)圖21總綱1.數(shù)字語音信號(hào)2.語音合成技術(shù)3.數(shù)據(jù)制作與合成4.合成效果測(cè)聽總綱1.數(shù)字語音信號(hào)22數(shù)據(jù)制作與合成數(shù)據(jù)與合成的關(guān)系音庫數(shù)據(jù)是合成系統(tǒng)的基石,離開了音庫談合成就是

“無源之水無本之木”一份音庫的制作質(zhì)量,直接決定了該發(fā)音人合成系統(tǒng)的能達(dá)到什么效果數(shù)據(jù)制作與合成數(shù)據(jù)與合成的關(guān)系23數(shù)據(jù)制作與合成數(shù)據(jù)制作過程音庫設(shè)計(jì)音庫錄制音素切分韻律標(biāo)注音素檢錯(cuò)基頻修正索引制作數(shù)據(jù)制作與合成數(shù)據(jù)制作過程24數(shù)據(jù)制作與合成音庫設(shè)計(jì)與合成一個(gè)設(shè)計(jì)良好的音庫要有較好的音素,韻律覆蓋率廣泛的語料來源,保證超大規(guī)模庫的穩(wěn)定某方向定制語料,提升某特應(yīng)用場(chǎng)合的效果,對(duì)語料庫拼接技術(shù)很重要“還煩請(qǐng)大家收集更多更好的語料文本”數(shù)據(jù)制作與合成音庫設(shè)計(jì)與合成25數(shù)據(jù)制作與合成音庫錄制與合成錄音控制很重要錄音室環(huán)境,隔除噪音話筒的擺放,能量幅度范圍如何保持發(fā)音人的發(fā)音狀態(tài)輕松心態(tài),自然流程,不要帶情緒,除非這是情感庫適度原則,不要疲勞錄音,寧缺勿濫批次比對(duì),及時(shí)與之前數(shù)據(jù)做比對(duì),可加入重復(fù)句“還請(qǐng)大家多關(guān)注錄音質(zhì)量”數(shù)據(jù)制作與合成音庫錄制與合成26數(shù)據(jù)制作與合成音素切分與合成切分精度精切:大語料庫拼接標(biāo)準(zhǔn),周期下降沿粗切:參數(shù)合成與HMM拼接,模型具有一定內(nèi)部切分調(diào)整能力粗切不代表切分不重要,好的初始位置能幫助模型自切。電腦未必比人聰明,清濁好定,濁濁也難定,還需修正停頓位置什么地方有Sp,silv,pau?標(biāo)準(zhǔn)L3層以上邊界,30ms以上計(jì)算機(jī)才能使用如果本來有停頓卻沒有加silv,停頓段會(huì)影響前后音素單元質(zhì)量一些錄音缺陷也可塞給停頓位置,鼻息,口水音合成樣例:The*psychotropic*airplanes#underwrote*the*dispassionate*song。數(shù)據(jù)制作與合成音素切分與合成27數(shù)據(jù)制作與合成音素切分與合成音變處理連續(xù)語流總存在一些規(guī)則音變或者不規(guī)則音變,導(dǎo)致所讀不是原來詞典音素音素是身份牌,這個(gè)錯(cuò)了后果很嚴(yán)重!修改標(biāo)準(zhǔn):尊重錄音中文:聲調(diào)變化,兒化,輕讀。沒被改過的音變就是地雷英文:連讀,吞音,弱化,縮寫詞吞音標(biāo)準(zhǔn):有無音位,或者我去掉這個(gè)讀有無差別英文音素短,不是母語,更需小心“還請(qǐng)大家切音時(shí)多細(xì)心”數(shù)據(jù)制作與合成音素切分與合成28數(shù)據(jù)制作與合成韻律標(biāo)注與合成韻律標(biāo)注是音素的檔案,據(jù)此來分門別類,聽候取用良好的韻律標(biāo)注幫助我們構(gòu)建正確有效的統(tǒng)計(jì)預(yù)測(cè)結(jié)構(gòu),上下文韻律決策樹如果韻律標(biāo)注是錯(cuò)誤的,連鎖毀滅性破壞韻律標(biāo)錯(cuò)->聚類分錯(cuò)->模型建錯(cuò)->預(yù)測(cè)走錯(cuò)->參數(shù)找錯(cuò)->挑選看錯(cuò)->合成出錯(cuò)->客戶很生氣->gameover數(shù)據(jù)制作與合成韻律標(biāo)注與合成29數(shù)據(jù)制作與合成韻律標(biāo)注與合成中文韻律:調(diào)型,停頓層次(L0L1L2L3L4L5)英文韻律:ToBI(ToneandBreakIndex)停頓層次:ToneBreak邊界調(diào):PhraseTone重讀:PitchAccent數(shù)據(jù)制作與合成韻律標(biāo)注與合成30數(shù)據(jù)制作與合成韻律標(biāo)注與合成標(biāo)注不同對(duì)合成的影響實(shí)例重讀But*I*did*not(H*)*enjoy*it*long。邊界調(diào) Now*run*along(L-H%),and*tell*them*to*hurry。

數(shù)據(jù)制作與合成韻律標(biāo)注與合成31數(shù)據(jù)制作與合成韻律標(biāo)注與合成一致性!一致性非常重要,統(tǒng)一標(biāo)準(zhǔn)面對(duì)模棱兩可的地方,如何取舍?個(gè)人尊重大家意見新人咨詢資深意見多討論,多比對(duì)對(duì)新錄庫可以按批次做一致性檢查“還請(qǐng)大家細(xì)致統(tǒng)一的標(biāo)注韻律”數(shù)據(jù)制作與合成韻律標(biāo)注與合成32數(shù)據(jù)制作與合成音素檢錯(cuò)與基頻修正評(píng)測(cè)會(huì)給數(shù)據(jù)打分糾錯(cuò),合成也需要挑出音庫中可能存在的地雷檢錯(cuò)種類:濁濁修正調(diào)型修正音素修正基頻修正特點(diǎn):直接鎖定位置判斷,規(guī)律性強(qiáng)“還請(qǐng)大家多反饋檢錯(cuò)時(shí)的規(guī)律總結(jié)”數(shù)據(jù)制作與合成音素檢錯(cuò)與基頻修正33數(shù)據(jù)制作與合成索引制作與合成音庫索引將音庫韻律和參數(shù)信息整理保存合成需要從索引中提取數(shù)據(jù),拼接合成在系統(tǒng)挑選時(shí)還需要直接使用索引較為固定,但一旦出錯(cuò)不易更改某個(gè)詞性錯(cuò)位問題遺留很久才被發(fā)現(xiàn)(技術(shù)人員的錯(cuò)誤……)“制庫工作很繁瑣,煩勞大家了”數(shù)據(jù)制作與合成索引制作與合成34總綱1.數(shù)字語音信號(hào)2.語音合成技術(shù)3.數(shù)據(jù)制作與合成4.合成效果測(cè)聽總綱1.數(shù)字語音信號(hào)35合成效果測(cè)聽測(cè)聽與合成效果測(cè)聽是評(píng)判合成系統(tǒng)好壞的硬性指標(biāo)常用測(cè)聽項(xiàng)目音質(zhì)自然度相似度主觀打分標(biāo)準(zhǔn),(meanopinionscore,MOS)MOS分主觀意見5分優(yōu),察覺不到任何不自然4分良,剛察覺若干不自然3分可,能察覺不自然但可以接受2分差,明顯察覺但可忍受1分壞,不可忍受合成效果測(cè)聽測(cè)聽與合成MOS分主觀意見5分優(yōu),察覺不到任何不36合成效果測(cè)聽測(cè)聽與合成音質(zhì)測(cè)聽注意事項(xiàng)對(duì)音質(zhì)由技術(shù)路線主導(dǎo),但敏感度因人而異,主觀好惡16K原始錄音音質(zhì)可打5分16k原始分析合成可到4分波形拼接合成音質(zhì)可超4分參數(shù)合成系統(tǒng)音質(zhì)在3分附近盡量減少自然度上的錯(cuò)誤對(duì)音質(zhì)打分的影響一般測(cè)聽要求黑盒:防止慣性打分0.5分間隔:提高一致性測(cè)聽數(shù)量不能少,要有覆蓋率和代表性一只好耳機(jī),包住耳朵,提高音量其實(shí),5分很高,2分很低合成效果測(cè)聽測(cè)聽與合成37合成效果測(cè)聽測(cè)聽與合成自然度測(cè)聽注意事項(xiàng)同樣是主觀打分,個(gè)人標(biāo)準(zhǔn)看待說話人原始錄音也只能接近5分參數(shù)合成較為流暢,相對(duì)平淡拼接合成存在不穩(wěn)定性,波動(dòng)較大自然度測(cè)聽強(qiáng)調(diào)對(duì)不自然處的扣分同樣盡量減少不同音質(zhì)對(duì)自然度打分的影響一般測(cè)聽要求黑盒:防止慣性打分0.5分間隔:提高一致性保證一定數(shù)據(jù)量,如果數(shù)量很多,可以分批測(cè)聽5分太高,2分很丟人合成效果測(cè)聽測(cè)聽與合成38合成效果測(cè)聽測(cè)聽與合成相似度測(cè)聽注意事項(xiàng)一般會(huì)提供目標(biāo)人的錄音作參照重點(diǎn)考察音色,兼顧基頻,時(shí)長,口音一般測(cè)聽要求黑盒不重要0.5分間隔:提高一致性合成效果測(cè)聽測(cè)聽與合成39合成效果測(cè)聽測(cè)聽與合成偏向性測(cè)聽注意事項(xiàng)在兩個(gè)較為接近的效果中取舍測(cè)聽要求一定要黑盒!可以用黑盒工具,固定0,1打分偏向性選擇只能選一個(gè)在特別說明時(shí),對(duì)難以區(qū)分的,可以同時(shí)選或不選合成效果測(cè)聽測(cè)聽與合成40合成效果測(cè)聽測(cè)聽與合成外教測(cè)聽注意事項(xiàng)對(duì)外語種合成效果測(cè)聽,native人士的感覺很重要一般只對(duì)整體感覺打分,綜合音質(zhì)自然度測(cè)聽要求多交流說明我們的目的對(duì)關(guān)注的問題需要直接溝通控制測(cè)聽時(shí)間和數(shù)量,保證測(cè)聽質(zhì)量合成效果測(cè)聽測(cè)聽與合成41合成效果測(cè)聽測(cè)聽與合成一句話總結(jié)“還請(qǐng)大家用靈巧的耳朵和聰慧的心靈幫助我們對(duì)每一句合成語音做出客觀,細(xì)致,有代表性的評(píng)判”合成效果測(cè)聽測(cè)聽與合成42謝謝!歡迎提問語音數(shù)據(jù)與語音合成課件43

Thankyou拯畏怖汾關(guān)爐烹霉躲渠早膘岸緬蘭輛坐蔬光膊列板哮瞥疹傻俘源拯割宜跟三叉神經(jīng)痛-治療三叉神經(jīng)痛-治療拯畏怖汾關(guān)爐烹霉躲渠早膘岸緬蘭輛坐蔬光膊列板哮瞥疹44

拯畏怖汾關(guān)爐烹霉躲渠早膘岸緬蘭輛坐蔬光膊列板哮瞥疹傻俘源拯割宜跟三叉神經(jīng)痛-治療三叉神經(jīng)痛-治療拯畏怖汾關(guān)爐烹霉躲渠早膘岸緬蘭輛坐蔬光膊列板哮瞥疹45語音合成技術(shù)什么叫語音合成TextToSpeech過程,簡稱TTS作用:將文本狀態(tài)的文字信息轉(zhuǎn)化為可聽的聲音信息———“電腦會(huì)說話”鍵盤光電掃描手寫識(shí)別網(wǎng)絡(luò)/數(shù)據(jù)庫文本語言處理韻律處理語音合成結(jié)果輸出詞典/規(guī)則語音庫語音合成技術(shù)什么叫語音合成鍵盤光電掃描手寫識(shí)別網(wǎng)絡(luò)/數(shù)據(jù)46發(fā)聲機(jī)理語音產(chǎn)生的生理過程發(fā)聲機(jī)理語音產(chǎn)生的生理過程47總綱1.數(shù)字語音信號(hào)2.語音合成技術(shù)3.數(shù)據(jù)制作與合成4.合成效果測(cè)聽總綱1.數(shù)字語音信號(hào)48數(shù)字語音信號(hào)什么是數(shù)字語音信號(hào)語音:說話,聲波傳遞的語言語音信號(hào):記錄下來的聲波振動(dòng)模擬語音信號(hào):(磁帶,唱片)數(shù)字語音信號(hào):模擬信號(hào)數(shù)字化(wavmp3CD)

----計(jì)算機(jī)應(yīng)用的需要如何數(shù)字化取樣:采樣率(時(shí)間尺子,8K,16K,44K,每秒樣點(diǎn)數(shù)量)量化:量化精度(幅度尺子,16bit,-32767~32768范圍)數(shù)字語音信號(hào)什么是數(shù)字語音信號(hào)49數(shù)字語音信號(hào)取樣和量化數(shù)字語音信號(hào)取樣和量化50數(shù)字語音信號(hào)波形不能說明內(nèi)容數(shù)字語音信號(hào)波形不能說明內(nèi)容51數(shù)字語音信號(hào)頻域介紹一段任意波形可以由一系列正弦波形組合而成離散傅里葉變換數(shù)學(xué)表示:最高值,采樣率的一半(16Kwav;maxfreq=8KHz)人可聽辨的頻率范圍:

(20Hz~20kHz)電話語音信道的頻率范圍(60Hz~3400Hz)數(shù)字語音信號(hào)頻域介紹52數(shù)字語音信號(hào)語譜圖數(shù)字語音信號(hào)語譜圖53數(shù)字語音信號(hào)清音和濁音濁音:聲帶的快速振動(dòng),聲帶能夠?qū)⒎€(wěn)定氣流轉(zhuǎn)換成振動(dòng)

振動(dòng)頻率稱為基頻,準(zhǔn)周期性清音:紊亂氣流,肺部氣流通過聲道中的狹窄處產(chǎn)生爆破音:突然爆破數(shù)字語音信號(hào)清音和濁音54數(shù)字語音信號(hào)聲學(xué)特征如此雜亂多變的信號(hào),如何描述,如何恢復(fù)?語音信號(hào)產(chǎn)生的數(shù)字模型(源-濾波器模型)數(shù)字語音信號(hào)聲學(xué)特征55數(shù)字語音信號(hào)聲學(xué)特征基頻:發(fā)濁音時(shí)聲帶振動(dòng)引起的周期變化,我們聽感音調(diào)高低主要由基頻決定,中文聲調(diào)還用于區(qū)分語義譜參數(shù):描述聲道和口唇輻射

共振峰,LPC,倒譜參數(shù)數(shù)字語音信號(hào)聲學(xué)特征56總綱1.數(shù)字語音信號(hào)2.語音合成技術(shù)3.數(shù)據(jù)標(biāo)注與合成4.合成效果測(cè)聽總綱1.數(shù)字語音信號(hào)57語音合成技術(shù)主流技術(shù)路線基于統(tǒng)計(jì)規(guī)則的大語料庫拼接語音合成系統(tǒng)基于HMM的參數(shù)語音合成系統(tǒng)基于HMM的語料庫拼接語音合成系統(tǒng)兩條道路:

要么是波形切分再拼合起來,要么是聲學(xué)參數(shù)轉(zhuǎn)化出來語音合成技術(shù)主流技術(shù)路線58語音合成技術(shù)基于統(tǒng)計(jì)規(guī)則的大語料庫拼接語音合成系統(tǒng)傳統(tǒng)大語料庫合成,InterPhonic5.0之前單元挑選波形拼接超大規(guī)模音庫制作語料設(shè)計(jì),音庫錄制,精細(xì)切分,韻律標(biāo)注規(guī)則統(tǒng)計(jì),針對(duì)不同發(fā)音人的細(xì)致調(diào)整優(yōu)點(diǎn):音質(zhì)最佳,正常句子的自然度也很好缺點(diǎn):非常依賴音庫的規(guī)模大小和制作質(zhì)量,存在一定穩(wěn)定性問題,不能應(yīng)用在小型設(shè)備中樣例:語音合成技術(shù)基于統(tǒng)計(jì)規(guī)則的大語料庫拼接語音合成系統(tǒng)59輸入文本拼音信息和韻律結(jié)構(gòu)信息每個(gè)單元將取多個(gè)候選s1s2s3s4目標(biāo)代價(jià)挑選候選單元詞典等文本分析知識(shí)大規(guī)模語音庫再考慮連接代價(jià)決定最后選定單元s1s2s3s4s5s6輸出語音語音合成技術(shù)InterPhonic系統(tǒng)處理流程輸入文本拼音信息和韻律結(jié)構(gòu)信息每個(gè)單元將取目標(biāo)代價(jià)挑選候選單60語音合成技術(shù)基于HMM的參數(shù)語音合成系統(tǒng)首先進(jìn)行語音特征參數(shù)的提取以音素為單位(中文為聲韻母),使用HMM(HiddenMarkovModel)對(duì)自然語流的頻譜特征參數(shù)進(jìn)行建模采用基于決策樹的聚類方法對(duì)上下文相關(guān)模型進(jìn)行聚類,以提高模型的魯棒性,得到預(yù)測(cè)參數(shù)最后生成參數(shù)輸入合成器,得到合成語音優(yōu)點(diǎn):所需音庫規(guī)模小,標(biāo)注精度要求相對(duì)降低,自然度高,系統(tǒng)小,靈活度高,ViviVoice,AiSound缺點(diǎn):音質(zhì)相對(duì)較差,帶有合成器風(fēng)格樣例:語音合成技術(shù)基于HMM的參數(shù)語音合成系統(tǒng)61語音合成技術(shù)參數(shù)語音合成系統(tǒng)框架語音合成技術(shù)參數(shù)語音合成系統(tǒng)框架62語音合成技術(shù)HMM參數(shù)建模用聲學(xué)參數(shù)針對(duì)音素建模為什么要建模?描述的音素特征變化隱馬爾科夫模型(HiddenMarkovModel--HMM)語音合成技術(shù)HMM參數(shù)建模63語音合成技術(shù)決策樹模型聚類有了模型怎么使用?來一句話怎么預(yù)知用哪個(gè)模型?基于上下文的信息的決策樹聚類語音合成技術(shù)決策樹模型聚類64語音合成技術(shù)基于HMM的語料庫拼接語音合成系統(tǒng)利用HMM目標(biāo)模型和連接模型來指導(dǎo)單元挑選結(jié)合參數(shù)訓(xùn)練模型的數(shù)學(xué)統(tǒng)計(jì)模型優(yōu)勢(shì)和波形拼接的高音質(zhì),相對(duì)以前的大語料庫技術(shù)在自然度上有較大提升自主原發(fā),意義重大優(yōu)點(diǎn):擁有明確目標(biāo)和度量準(zhǔn)則,音質(zhì)好,自然度高,系統(tǒng)搭建自動(dòng)化程度高,InterPhonic5.5以上版本缺點(diǎn):仍然需要很大規(guī)模的語料庫,計(jì)算量較大樣例:語音合成技術(shù)基于HMM的語料庫拼接語音合成系統(tǒng)65語音合成技術(shù)基于HMM的單元挑選系統(tǒng)結(jié)構(gòu)圖語音合成技術(shù)基于HMM的單元挑選系統(tǒng)結(jié)構(gòu)圖66總綱1.數(shù)字語音信號(hào)2.語音合成技術(shù)3.數(shù)據(jù)制作與合成4.合成效果測(cè)聽總綱1.數(shù)字語音信號(hào)67數(shù)據(jù)制作與合成數(shù)據(jù)與合成的關(guān)系音庫數(shù)據(jù)是合成系統(tǒng)的基石,離開了音庫談合成就是

“無源之水無本之木”一份音庫的制作質(zhì)量,直接決定了該發(fā)音人合成系統(tǒng)的能達(dá)到什么效果數(shù)據(jù)制作與合成數(shù)據(jù)與合成的關(guān)系68數(shù)據(jù)制作與合成數(shù)據(jù)制作過程音庫設(shè)計(jì)音庫錄制音素切分韻律標(biāo)注音素檢錯(cuò)基頻修正索引制作數(shù)據(jù)制作與合成數(shù)據(jù)制作過程69數(shù)據(jù)制作與合成音庫設(shè)計(jì)與合成一個(gè)設(shè)計(jì)良好的音庫要有較好的音素,韻律覆蓋率廣泛的語料來源,保證超大規(guī)模庫的穩(wěn)定某方向定制語料,提升某特應(yīng)用場(chǎng)合的效果,對(duì)語料庫拼接技術(shù)很重要“還煩請(qǐng)大家收集更多更好的語料文本”數(shù)據(jù)制作與合成音庫設(shè)計(jì)與合成70數(shù)據(jù)制作與合成音庫錄制與合成錄音控制很重要錄音室環(huán)境,隔除噪音話筒的擺放,能量幅度范圍如何保持發(fā)音人的發(fā)音狀態(tài)輕松心態(tài),自然流程,不要帶情緒,除非這是情感庫適度原則,不要疲勞錄音,寧缺勿濫批次比對(duì),及時(shí)與之前數(shù)據(jù)做比對(duì),可加入重復(fù)句“還請(qǐng)大家多關(guān)注錄音質(zhì)量”數(shù)據(jù)制作與合成音庫錄制與合成71數(shù)據(jù)制作與合成音素切分與合成切分精度精切:大語料庫拼接標(biāo)準(zhǔn),周期下降沿粗切:參數(shù)合成與HMM拼接,模型具有一定內(nèi)部切分調(diào)整能力粗切不代表切分不重要,好的初始位置能幫助模型自切。電腦未必比人聰明,清濁好定,濁濁也難定,還需修正停頓位置什么地方有Sp,silv,pau?標(biāo)準(zhǔn)L3層以上邊界,30ms以上計(jì)算機(jī)才能使用如果本來有停頓卻沒有加silv,停頓段會(huì)影響前后音素單元質(zhì)量一些錄音缺陷也可塞給停頓位置,鼻息,口水音合成樣例:The*psychotropic*airplanes#underwrote*the*dispassionate*song。數(shù)據(jù)制作與合成音素切分與合成72數(shù)據(jù)制作與合成音素切分與合成音變處理連續(xù)語流總存在一些規(guī)則音變或者不規(guī)則音變,導(dǎo)致所讀不是原來詞典音素音素是身份牌,這個(gè)錯(cuò)了后果很嚴(yán)重!修改標(biāo)準(zhǔn):尊重錄音中文:聲調(diào)變化,兒化,輕讀。沒被改過的音變就是地雷英文:連讀,吞音,弱化,縮寫詞吞音標(biāo)準(zhǔn):有無音位,或者我去掉這個(gè)讀有無差別英文音素短,不是母語,更需小心“還請(qǐng)大家切音時(shí)多細(xì)心”數(shù)據(jù)制作與合成音素切分與合成73數(shù)據(jù)制作與合成韻律標(biāo)注與合成韻律標(biāo)注是音素的檔案,據(jù)此來分門別類,聽候取用良好的韻律標(biāo)注幫助我們構(gòu)建正確有效的統(tǒng)計(jì)預(yù)測(cè)結(jié)構(gòu),上下文韻律決策樹如果韻律標(biāo)注是錯(cuò)誤的,連鎖毀滅性破壞韻律標(biāo)錯(cuò)->聚類分錯(cuò)->模型建錯(cuò)->預(yù)測(cè)走錯(cuò)->參數(shù)找錯(cuò)->挑選看錯(cuò)->合成出錯(cuò)->客戶很生氣->gameover數(shù)據(jù)制作與合成韻律標(biāo)注與合成74數(shù)據(jù)制作與合成韻律標(biāo)注與合成中文韻律:調(diào)型,停頓層次(L0L1L2L3L4L5)英文韻律:ToBI(ToneandBreakIndex)停頓層次:ToneBreak邊界調(diào):PhraseTone重讀:PitchAccent數(shù)據(jù)制作與合成韻律標(biāo)注與合成75數(shù)據(jù)制作與合成韻律標(biāo)注與合成標(biāo)注不同對(duì)合成的影響實(shí)例重讀But*I*did*not(H*)*enjoy*it*long。邊界調(diào) Now*run*along(L-H%),and*tell*them*to*hurry。

數(shù)據(jù)制作與合成韻律標(biāo)注與合成76數(shù)據(jù)制作與合成韻律標(biāo)注與合成一致性!一致性非常重要,統(tǒng)一標(biāo)準(zhǔn)面對(duì)模棱兩可的地方,如何取舍?個(gè)人尊重大家意見新人咨詢資深意見多討論,多比對(duì)對(duì)新錄庫可以按批次做一致性檢查“還請(qǐng)大家細(xì)致統(tǒng)一的標(biāo)注韻律”數(shù)據(jù)制作與合成韻律標(biāo)注與合成77數(shù)據(jù)制作與合成音素檢錯(cuò)與基頻修正評(píng)測(cè)會(huì)給數(shù)據(jù)打分糾錯(cuò),合成也需要挑出音庫中可能存在的地雷檢錯(cuò)種類:濁濁修正調(diào)型修正音素修正基頻修正特點(diǎn):直接鎖定位置判斷,規(guī)律性強(qiáng)“還請(qǐng)大家多反饋檢錯(cuò)時(shí)的規(guī)律總結(jié)”數(shù)據(jù)制作與合成音素檢錯(cuò)與基頻修正78數(shù)據(jù)制作與合成索引制作與合成音庫索引將音庫韻律和參數(shù)信息整理保存合成需要從索引中提取數(shù)據(jù),拼接合成在系統(tǒng)挑選時(shí)還需要直接使用索引較為固定,但一旦出錯(cuò)不易更改某個(gè)詞性錯(cuò)位問題遺留很久才被發(fā)現(xiàn)(技術(shù)人員的錯(cuò)誤……)“制庫工作很繁瑣,煩勞大家了”數(shù)據(jù)制作與合成索引制作與合成79總綱1.數(shù)字語音信號(hào)2.語音合成技術(shù)3.數(shù)據(jù)制作與合成4.合成效果測(cè)聽總綱1.數(shù)字語音信號(hào)80合成效果測(cè)聽測(cè)聽與合成效果測(cè)聽是評(píng)判合成系統(tǒng)好壞的硬性指標(biāo)常用測(cè)聽項(xiàng)目音質(zhì)自然度相似度主觀打分標(biāo)準(zhǔn),(meanopinionscore,MOS)MOS分主觀意見5分優(yōu),察覺不到任何不自然4分良,剛察覺若干不自然3分可,能察覺不自然但可以接受

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論