




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
-PAGE35-基于HMM的語(yǔ)音合成技術(shù)研究ResearchonSpeechSynthesisTechnologyBasedonHMM注:頁(yè)眉,居中,楷體,五號(hào)。閱后刪除此文本框。摘要注:頁(yè)眉,居中,楷體,五號(hào)。閱后刪除此文本框。語(yǔ)音合成技術(shù)是一種將計(jì)算機(jī)等電子設(shè)備中存儲(chǔ)或輸入的文本信息轉(zhuǎn)換為對(duì)應(yīng)音頻的一種技術(shù),是機(jī)器與人類交互的一種方法,語(yǔ)言是人類最習(xí)慣的溝通方式,所以語(yǔ)音交互相比于其他交互方式如文字交互,動(dòng)作交互更加方便,自然。語(yǔ)音合成技術(shù)發(fā)展歷史有二百年之久,語(yǔ)音合成的方法也不斷地更新和發(fā)展,由最初的機(jī)械合成器,到后來(lái)的電子合成器,共振峰合成器,語(yǔ)音合成技術(shù)也慢慢的趨于成熟而更加智能化。本文介紹了一種基于統(tǒng)計(jì)模型的語(yǔ)音合成方法,這是近年來(lái)隨著人工智能領(lǐng)域的迅速發(fā)展而成為主要研究熱點(diǎn)的一種合成方法,同其他合成方法相比,基于統(tǒng)計(jì)模型的語(yǔ)音合成具有智能化、合成語(yǔ)音穩(wěn)定等優(yōu)點(diǎn)。隱馬爾科夫模型(HidenMarkovModel,HMM)是其中最常用的統(tǒng)計(jì)模型,是語(yǔ)音識(shí)別,模式識(shí)別相關(guān)領(lǐng)域中的主流模型。本文采用的硬件平臺(tái)是EAIDK610-P0,該平臺(tái)是EAIDK的第一款智能硬件平臺(tái),專為人工智能開(kāi)發(fā)者精心打造的面向邊緣計(jì)算的開(kāi)發(fā)套件,主芯片采用ArmChina和瑞芯微公司共同研發(fā)的RK3399,為人工智能開(kāi)發(fā)提供簡(jiǎn)潔高效、統(tǒng)一的API接口。本文首先對(duì)語(yǔ)音合成的發(fā)展歷史和關(guān)鍵技術(shù)進(jìn)行了總結(jié),然后對(duì)HMM模型的原理以及相關(guān)算法進(jìn)行了研究,并對(duì)其三個(gè)經(jīng)典的三個(gè)問(wèn)題的解決算法進(jìn)行研究,在一定的理論基礎(chǔ)上,對(duì)基于HMM的語(yǔ)音合成原理進(jìn)行了解,最終實(shí)現(xiàn)在嵌入式平臺(tái)上進(jìn)行HMM模型訓(xùn)練,并基于Flite開(kāi)源框架在嵌入式平臺(tái)上實(shí)現(xiàn)了語(yǔ)音合成功能,最后對(duì)不同音素庫(kù)合成的語(yǔ)音質(zhì)量進(jìn)行了評(píng)估。關(guān)鍵詞:隱馬爾可夫模型;嵌入式系統(tǒng);交叉編譯;語(yǔ)音合成
AbstractSpeechsynthesistechnologyisatechnologyforconvertingtextinformationstoredorinputinelectronicdevicessuchascomputersintocorrespondingaudio.Itisamethodformachineandhumaninteraction.Languageisthemostcommoncommunicationmethodforhumanbeings,sovoiceinteractionComparedwithotherinteractionmethodssuchastextinteraction,actioninteractionismoreconvenientandnatural.Thehistoryofspeechsynthesistechnologyhasbeenaroundfor200years,andthemethodsofspeechsynthesishavebeencontinuouslyupdatedanddeveloped.Fromtheinitialmechanicalsynthesizerstothelaterelectronicsynthesizers,formantsynthesizers,speechsynthesistechnologyisalsoslowlyMatureandmoreintelligent.Thispaperintroducesaspeechsynthesismethodbasedonstatisticalmodel,whichisasyntheticmethodthathasbecomeamajorresearchhotspotinrecentyearswiththerapiddevelopmentofartificialintelligence.Comparedwithothersyntheticmethods,speechsynthesisbasedonstatisticalmodelhasIntelligent,syntheticvoicestabilityandotheradvantages.ThehiddenMarkovmodelmainlyintroducedinthispaperisthemostcommonlyusedstatisticalmodel,andisthemainstreammodelinthefieldofspeechrecognitionandpatternrecognition.ThehardwareplatformusedinthispaperisEAIDK610-P0,whichisthefirstintelligenthardwareplatformofEAIDK.Itisanedge-orienteddevelopmentkitspeciallydesignedforartificialintelligencedevelopers.ThemainchipisjointlydevelopedbyArmChinaandRuixinwei.RK3399providesasimple,efficientandunifiedAPIinterfaceforartificialintelligencedevelopment.ThroughtheHMMmodeltrainingontheplatform,andbasedontheFliteopensourceframeworktoachievethespeechsynthesisfunctionontheembeddedplatform,thispaperalsoevaluatesthespeechqualitysynthesizedbydifferentphonemes.Thispaperfirstsummarizesthedevelopmenthistoryandkeytechnologiesofspeechsynthesis,thenstudiestheprincipleofHMMmodelandrelatedalgorithms,andstudiesthesolutionsofthreeclassicthreeproblems,onacertaintheoreticalbasis.UnderstandtheprincipleofHMM-basedspeechsynthesis,andfinallyrealizetheHMMmodeltrainingontheembeddedplatform,andimplementthespeechsynthesisfunctionontheembeddedplatformbasedontheFliteopensourceframework.Finally,thespeechqualitysynthesizedbydifferentphonemeslibraryiscarriedout.Evaluation.KeyWords:HidenMarkovModel;EmbeddedSystems;Crosscompilation;Speechsynthesis.目錄摘要 IIIAbstract IV第一章語(yǔ)音合成概述 11.1語(yǔ)音合成技術(shù)簡(jiǎn)介 11.1.1語(yǔ)音合成概念 11.1.2語(yǔ)音合成意義 21.2語(yǔ)音合成發(fā)展歷史和現(xiàn)狀 41.2.1發(fā)展歷史 41.2.2語(yǔ)義合成研究現(xiàn)狀 51.3語(yǔ)音合成主要方法 51.3.1參數(shù)合成方法 51.3.2波形拼接合成法 61.3.3基于統(tǒng)計(jì)模型的合成方法 71.4本章小結(jié) 7第二章基于HMM模型的語(yǔ)音合成 82.1馬爾科夫過(guò)程 82.2隱馬爾科夫模型 82.3HMM模型的三個(gè)問(wèn)題 102.3.1評(píng)估問(wèn)題 102.3.2解碼問(wèn)題 102.3.3學(xué)習(xí)問(wèn)題 112.4基于HMM的語(yǔ)音合成 122.4.1TTS系統(tǒng)結(jié)構(gòu) 122.4.3模型訓(xùn)練階段 132.4.4語(yǔ)音合成階段 162.5本章小結(jié) 17第三章基于嵌入式的語(yǔ)音合成實(shí)現(xiàn) 183.1ARM嵌入式平臺(tái)簡(jiǎn)介 183.1.1EAIDK套件概述 183.1.2ARM開(kāi)發(fā)板RK3399的概述 183.2Linux系統(tǒng) 203.3基于ARM嵌入式的Linux系統(tǒng)編譯和移植 223.3.1安裝交叉編譯環(huán)境 233.3.2虛擬機(jī)和ARM開(kāi)發(fā)板的鏈接介質(zhì) 243.3.3編譯Linux內(nèi)核 243.3.4文件傳輸 243.4基于Linux系統(tǒng)的語(yǔ)音合成軟件設(shè)計(jì) 243.5本章小結(jié) 26第四章語(yǔ)音合成性能測(cè)試結(jié)果與分析 274.1語(yǔ)音質(zhì)量的主觀評(píng)測(cè) 274.2語(yǔ)音質(zhì)量的客觀評(píng)測(cè) 284.3評(píng)測(cè)結(jié)果總結(jié) 30第五章總結(jié)和展望 315.1總結(jié) 315.2展望 31參考文獻(xiàn) 32附錄AFlite部分程序代碼 錯(cuò)誤!未定義書簽。致謝 35第一章語(yǔ)音合成概述1.1語(yǔ)音合成技術(shù)簡(jiǎn)介1.1.1語(yǔ)音合成概念語(yǔ)音合成是通過(guò)模仿人類發(fā)聲器官,用機(jī)器產(chǎn)生人類自然語(yǔ)音的技術(shù)。通俗來(lái)講,就是用機(jī)器發(fā)出人類的聲音,把機(jī)器自己產(chǎn)生的,或者外部輸入的文字信息轉(zhuǎn)換成清晰、流暢的語(yǔ)音,相當(dāng)于是給機(jī)器安裝了發(fā)聲器官,賦予機(jī)器用語(yǔ)言表達(dá)自己的能力。它涉及到信號(hào)處理、聲學(xué)、語(yǔ)音學(xué)、模式識(shí)別以及心理學(xué)等眾多學(xué)科的理論和技術(shù),是一門典型的交叉學(xué)科[1]。語(yǔ)音合成技術(shù)目前有三種類型:文字到語(yǔ)音的合成(Text-To-Speech,TTS)、概念到語(yǔ)音的合成(Concept-To-Speech,CTS)、意向到語(yǔ)音的合成(Intention-To-Speech,ITS)[2]。TTS、CTS、ITS分別代表了在不同的層次上合成語(yǔ)音的過(guò)程[3],其中,最淺顯的也是目前研究最為熱門的是TTS,即文字到語(yǔ)音的合成技術(shù)。本文主要研究的也是TTS技術(shù)。圖1.1TTS系統(tǒng)結(jié)構(gòu)圖圖1.1是TTS系統(tǒng)的結(jié)構(gòu)框圖。TTS技術(shù)由文本分析、韻律控制和語(yǔ)音生成三個(gè)核心模塊組成[4]。文本分析指的是對(duì)系統(tǒng)要處理的文本內(nèi)容進(jìn)行分詞,標(biāo)音,把文本內(nèi)容轉(zhuǎn)化成單一的音標(biāo)或組合,經(jīng)過(guò)文本分析后輸出與文本相對(duì)應(yīng)的音標(biāo)序列。韻律特征是對(duì)每個(gè)人聲音的語(yǔ)氣,語(yǔ)調(diào),音長(zhǎng)等參數(shù)的體現(xiàn),每個(gè)人由于說(shuō)話習(xí)慣以及聲道構(gòu)造不同,其語(yǔ)音參數(shù)也不盡相同,而影響這些區(qū)別的則是如基頻,音強(qiáng),音長(zhǎng)等韻律參數(shù),韻律控制就是對(duì)這些參數(shù)進(jìn)行計(jì)算,從而合成更加生動(dòng)的語(yǔ)音。語(yǔ)音生成就是TTS系統(tǒng)根據(jù)計(jì)算得出的音標(biāo)序列和聲音參數(shù),利用聲音合成器合成語(yǔ)音的過(guò)程。文本分析模塊在TTS系統(tǒng)中有著至關(guān)重要的作用,作為語(yǔ)音合成的第一步,它的作用是對(duì)輸入的文本信息進(jìn)行理解和分析[5],并把發(fā)音信息傳給后兩個(gè)模塊。文本分析模塊的工作原理是結(jié)合發(fā)音詞典、規(guī)則庫(kù)、統(tǒng)計(jì)庫(kù)等發(fā)音字典,對(duì)輸入的文本信息進(jìn)行分解單個(gè)音素,并進(jìn)行音標(biāo)標(biāo)注,同時(shí)確定每一個(gè)詞,每一個(gè)音節(jié)的重音等級(jí)。文本分析主要包括四個(gè)步驟:規(guī)范文本、分析語(yǔ)法、標(biāo)音和確定重讀,停頓和語(yǔ)氣[6]。文本分析之后,將標(biāo)注后的音標(biāo)序列作為韻律控制模塊的輸入,進(jìn)行對(duì)合成語(yǔ)音韻律的處理。聲音的韻律特征是機(jī)器聲音和自然語(yǔ)音差距最大的一個(gè)方面。自然語(yǔ)音傳遞信息不僅僅通過(guò)語(yǔ)音的內(nèi)容,聲音的語(yǔ)氣,節(jié)奏,還有重音的不同,也是對(duì)信息的修飾,所以要想生成更加貼近自然語(yǔ)音的音頻,對(duì)聲音韻律特征的控制起到很重要的作用。一般常用聲音的音強(qiáng)、音長(zhǎng)和音色來(lái)對(duì)韻律特征進(jìn)行描述[7],他們對(duì)應(yīng)的是聲學(xué)當(dāng)中的幅度、基頻和頻譜的等參數(shù)。韻律控制就是對(duì)聲音的這些參數(shù)進(jìn)行收集和分析,然后語(yǔ)音生成模塊根據(jù)這些參數(shù)特征用語(yǔ)音合成器進(jìn)行語(yǔ)音合成。傳統(tǒng)意義上來(lái)說(shuō),聲音合成器有兩種,一是基于規(guī)則的合成器,另一種是波形拼接的合成器[8]?;谝?guī)則的合成器是采用模擬人的生理發(fā)聲規(guī)律的方法,先歸納出語(yǔ)音的產(chǎn)生規(guī)律,然后對(duì)信號(hào)進(jìn)行控制,產(chǎn)生合成語(yǔ)義。波形拼接合成器則是把事先錄制好的語(yǔ)音庫(kù)按照一定順序重新排序,從而生成符合文本內(nèi)容的語(yǔ)音。隨著技術(shù)的發(fā)展,現(xiàn)在越來(lái)越多的是兩種合成方法組合使用,大大提高了合成語(yǔ)音的質(zhì)量[9]。1.1.2語(yǔ)音合成意義語(yǔ)音合成技術(shù)和傳統(tǒng)的聲音播放系統(tǒng)有著根本上的區(qū)別。聲音播放系統(tǒng)如錄音機(jī),是簡(jiǎn)單的把采集到的音頻再播放出來(lái),并不能自如的表達(dá)出人們想要傳遞的信息。而語(yǔ)音合成器是把機(jī)器產(chǎn)生或者人為輸入的任何文字信息以音頻的形式輸出出來(lái)[10],并且輸出的音頻愈發(fā)趨近于人類自然語(yǔ)音,使人類和機(jī)器的交流成為了可能,同時(shí),在信息的存儲(chǔ),傳輸和及時(shí)性等方面都較其他方式有很大的優(yōu)勢(shì),所以在信息處理領(lǐng)域,它也正作為研究熱點(diǎn)被熱切關(guān)注,技術(shù)愈發(fā)成熟。語(yǔ)言是人類最習(xí)慣的交流方式,在人機(jī)交互方式中,語(yǔ)音交互也是人們使用最為方便的一種,語(yǔ)音識(shí)別、語(yǔ)義理解和語(yǔ)音合成是語(yǔ)音交互的兩個(gè)重要技術(shù),語(yǔ)音合成作為交互過(guò)程的最后一步其重要性可見(jiàn)一斑。雖然由于語(yǔ)義理解的技術(shù)發(fā)展水平有一定限制,但語(yǔ)音合成技術(shù)仍取得了很大的進(jìn)步,目前已經(jīng)成功應(yīng)用在很多領(lǐng)域。自助服務(wù)領(lǐng)域隨著科技發(fā)展,越來(lái)越多的服務(wù)行業(yè)愈發(fā)自動(dòng)化,各種自助服務(wù)系統(tǒng)也隨之走進(jìn)我們的生活,而語(yǔ)音合成的存在,使我們?cè)谙硎艿姆?wù)的時(shí)候更加流暢和方便,比如銀行的自助辦理系統(tǒng),醫(yī)院的自助叫診系統(tǒng),股市查詢系統(tǒng)。智能終端的人機(jī)交互近年來(lái),隨著人工智能概念的產(chǎn)生和發(fā)展,各種智能終端的交互方式也有了翻天覆地的變化,“聲控”的智能手機(jī)、智能音響、智能家居等智能終端大大提高了我們的生活質(zhì)量,省掉了很多不必要的動(dòng)作,而且即使是不懂使用智能化終端的老人或者不認(rèn)識(shí)文字的小孩也可以對(duì)機(jī)器進(jìn)行控制,擴(kuò)大了使用人群的范圍。有聲讀物閱讀對(duì)于任何人來(lái)說(shuō)都是一個(gè)重要的學(xué)習(xí)途徑,我們通過(guò)閱讀接觸跟多新鮮事物,也通過(guò)閱讀找尋更真實(shí)的自己,但是節(jié)奏越來(lái)越快的生活使我們留給閱讀的時(shí)間越來(lái)越少?,F(xiàn)在人們更趨向于碎片化閱讀,而這時(shí)有聲讀物提供了一種新的解決辦法,當(dāng)文字變成語(yǔ)音直接呈現(xiàn)給我們的的耳朵的時(shí)候,我們可以同時(shí)進(jìn)行其他動(dòng)作,比如在路上,或者是散步、鍛煉時(shí),給我們提供了一個(gè)新的機(jī)會(huì)去進(jìn)行閱讀和學(xué)習(xí)。導(dǎo)航系統(tǒng)語(yǔ)音合成技術(shù)和智能地圖軟件結(jié)合為我們的出行帶來(lái)了很大的方便。語(yǔ)音導(dǎo)航使導(dǎo)航使我們?cè)诓叫谢蛘唏{車的時(shí)候能更專注的前進(jìn),而不僅為我們提供了詳細(xì),準(zhǔn)確的道路信息,而且還對(duì)路況也有智能化分析,并且通過(guò)語(yǔ)音的方式將信息傳遞給人類,保證了信息傳遞的及時(shí)性以及人類最舒適的交互體驗(yàn)。1.2語(yǔ)音合成發(fā)展歷史和現(xiàn)狀1.2.1發(fā)展歷史人們?cè)缭谑呤兰o(jì)就開(kāi)始了對(duì)語(yǔ)音合成的探索研究[11][12]。有記錄的第一臺(tái)機(jī)械發(fā)音設(shè)備是在1779年,俄羅斯人Kzenstein首先對(duì)五個(gè)長(zhǎng)元音(/a/,/e/,/i/,/o/,/u/)的生理發(fā)聲區(qū)別進(jìn)行了解釋,通過(guò)模仿人的聲道,采用震動(dòng)簧片做激勵(lì)制作而成。不久之后,VonKempelen[13]成功發(fā)明出一種不近可以發(fā)出原因,還可以發(fā)出短語(yǔ)和句子的“發(fā)音器官”。該裝置是用一個(gè)壓力腔體模仿人體的肺器官,用一個(gè)皮革的管道來(lái)對(duì)人體聲帶進(jìn)行模擬,通過(guò)改變聲道的形狀可以發(fā)出不同的聲音,用一個(gè)彈簧振片作為激勵(lì)[14],除此之外,還可以通過(guò)改變四個(gè)分離的受限通路發(fā)出相應(yīng)的輔音,在當(dāng)時(shí)是比較先進(jìn)的機(jī)械發(fā)聲器。隨著電子元器件的發(fā)展,語(yǔ)音合成技術(shù)也和電子器件結(jié)合起來(lái)。1922年第一個(gè)電子語(yǔ)音合成器成功問(wèn)世,發(fā)明者是Stewart[15],雖然這個(gè)發(fā)生器只能發(fā)出兩個(gè)元音。不久之后的1939年貝爾實(shí)驗(yàn)室的Dudley[16]就成功發(fā)明了第一個(gè)完整的電子語(yǔ)音合成器,該合成器可對(duì)基因和濁音參數(shù)進(jìn)行控制,能夠產(chǎn)生連續(xù)的語(yǔ)音,通過(guò)和電子模擬器件的結(jié)合實(shí)現(xiàn)對(duì)聲音的放大和共振。二十世紀(jì)后期,共振峰合成器逐漸開(kāi)始發(fā)展起來(lái)[17]。1953年由WalterLawrence[18]設(shè)計(jì)制作了第一個(gè)共振峰合成器,通過(guò)一個(gè)可以移動(dòng)的玻璃片對(duì)共振峰的頻率進(jìn)行控制。1962年瑞典的GunnarFant設(shè)計(jì)制作出級(jí)聯(lián)共振峰合成器,隨后更加復(fù)雜的共振峰合成器也隨之問(wèn)世,1981年,Klatt開(kāi)發(fā)的KlattTalk就采用了串/并聯(lián)混合型聲源[19],能夠合成相對(duì)清晰的語(yǔ)音,并通過(guò)對(duì)聲源的調(diào)整來(lái)模擬各種不同的聲音。Klatt的語(yǔ)音學(xué)領(lǐng)域的卓越貢獻(xiàn)使得語(yǔ)音合成技術(shù)有了很大的發(fā)展。對(duì)于近代語(yǔ)音合成技術(shù)來(lái)說(shuō),基因同步疊加方法的提出是一次歷史性的進(jìn)步,這是一種不僅可以保持語(yǔ)音的大部分韻律特征而且可以使合成語(yǔ)音同共振峰合成器相比更加自然的合成方法。[20]九十年以來(lái),隨著信號(hào)處理領(lǐng)域的快速發(fā)展,一種基于可訓(xùn)練統(tǒng)計(jì)模型的語(yǔ)音合成方法開(kāi)始走進(jìn)人們的視野,其原理是對(duì)語(yǔ)音信號(hào)的語(yǔ)音參數(shù)進(jìn)行統(tǒng)計(jì)建模,訓(xùn)練好的聲學(xué)模型進(jìn)行語(yǔ)音合成。這種方法進(jìn)行語(yǔ)音合成更加智能化,減少了人為的參與。其中,隱馬爾科夫模型是比較常用的統(tǒng)計(jì)模型。1.2.2語(yǔ)義合成研究現(xiàn)狀從最開(kāi)始模擬發(fā)聲器官的機(jī)械合成器,到后來(lái)電子器件參與的波形拼接合成方法,再到后來(lái)隨著信號(hào)處理領(lǐng)域的發(fā)展產(chǎn)生的基因同步疊加方法,語(yǔ)音合成技術(shù)的發(fā)展總是會(huì)受到其他技術(shù)的引導(dǎo)或是影響。最近最為熱門的基于統(tǒng)計(jì)模型的單元挑選方法,就是伴隨著統(tǒng)計(jì)學(xué)以及大數(shù)據(jù)的發(fā)展,很顯然,未來(lái)技術(shù)的發(fā)展將會(huì)打破不同領(lǐng)域之間的墻壁,更多的是融合或是依賴關(guān)系。語(yǔ)音合成技術(shù)的不斷發(fā)展,在越來(lái)越多的領(lǐng)域都成為了不可或缺的角色,同時(shí)也同其他技術(shù)的不斷更新而面臨著巨大挑戰(zhàn)和改革[21]。近年來(lái)人們對(duì)人工智能的不斷探索和研究,使得相關(guān)的人工神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)[22],人機(jī)交互等關(guān)鍵技術(shù)也隨之成為研究熱點(diǎn),而語(yǔ)音合成的發(fā)展也逐漸趨向智能化,自動(dòng)化,從最開(kāi)始的規(guī)則驅(qū)動(dòng)轉(zhuǎn)向現(xiàn)在的數(shù)據(jù)驅(qū)動(dòng),不僅節(jié)省了時(shí)間,而且可處理的文本數(shù)據(jù)數(shù)量也大大增加,同時(shí),在各種統(tǒng)計(jì)模型的支持下,文本處理能力也在不斷增強(qiáng),生成的語(yǔ)音也更加流暢和人自然,慢慢趨近于符合人類交流需要的自然水平。1.3語(yǔ)音合成主要方法1.3.1參數(shù)合成方法發(fā)音器官參數(shù)合成法最早的合成發(fā)放采用模擬人體發(fā)聲器官的參數(shù)合成方法對(duì)語(yǔ)音進(jìn)行合成[23]。根據(jù)發(fā)聲原理,聲音的產(chǎn)生主要分為聲源激勵(lì)、聲道濾波和口鼻輻射三個(gè)主要過(guò)程。這種方法就是根據(jù)這個(gè)原理,用聲音參數(shù)模擬聲道,直接用物理儀器對(duì)人體的發(fā)音器官進(jìn)行模擬合成語(yǔ)音,而在當(dāng)時(shí)由于技術(shù)的限制無(wú)法對(duì)聲音參數(shù)進(jìn)行準(zhǔn)確測(cè)量,所以不能對(duì)發(fā)音復(fù)雜的語(yǔ)音進(jìn)行合成。線性預(yù)測(cè)參數(shù)合成法線性預(yù)測(cè)參數(shù)合成方法屬于源-濾波器模型[24],它和器官參數(shù)合成法的主要區(qū)別在于后者直接利用聲音參數(shù)模擬聲道,而源-濾波器模型用濾波器來(lái)模擬聲道,聲音參數(shù)則用來(lái)改變聲道模型,使得合成語(yǔ)音具有不同的音色。線性預(yù)測(cè)的聲道模型如下:(1.1)其中G為增益,ai共振峰合成法共振峰同樣也是源-濾波器模型,但同線性預(yù)測(cè)參數(shù)合成的區(qū)別在于共振峰合成法側(cè)重于模擬聲道的諧振特性。共振峰是指聲音頻譜中能量相對(duì)密集的一些區(qū)域,反映了聲道特性的重要特征,是聲音信息最直接的來(lái)源。其主要原理是:首先用多個(gè)共振峰濾波器來(lái)對(duì)聲道特性進(jìn)行模擬,然后調(diào)制激勵(lì)信號(hào),再通過(guò)輻射效應(yīng)輸出語(yǔ)音。共振峰合成法通過(guò)對(duì)聲音參數(shù)的控制可以合成不同發(fā)音人的聲音,其優(yōu)勢(shì)在于強(qiáng)大的韻律調(diào)整能力,然而合成語(yǔ)音的自然度仍然不能滿足大眾要求。1.3.2波形拼接合成法以上的參數(shù)合成方法是基于規(guī)則的合成方法,其合成過(guò)程中人為因素起了很重要的作用,而波形拼接合成方法是基于數(shù)據(jù)的合成方法,顧名思義,是把波形進(jìn)行拼接獲得語(yǔ)音的一種方法,其原理主要是直接對(duì)事先采集好的語(yǔ)音信號(hào)進(jìn)行波形貯存,在合成語(yǔ)音時(shí)直接挑選出合適的波形并拼接在一起,由于用于拼接的聲音波形都是從語(yǔ)音庫(kù)中挑選出來(lái)的,所以這種方法合成的語(yǔ)音自然度性能較好,合成語(yǔ)音的音質(zhì)較高。上個(gè)世紀(jì)九十年代提出的PSOLA的提出為語(yǔ)音合成技術(shù)的發(fā)展帶來(lái)了質(zhì)的飛躍?;敉蒋B加技術(shù)由Moulines和Charpentier提出[25],可以對(duì)語(yǔ)音信號(hào)中基頻和時(shí)長(zhǎng)進(jìn)行相關(guān)修改,以保證合成語(yǔ)音的原有聲音特性。其具體的實(shí)施步驟有三個(gè):分析語(yǔ)音信號(hào)的分析是指對(duì)源語(yǔ)音信號(hào)進(jìn)行加窗處理[26],其中采用的的窗函數(shù)是基音同步的函數(shù),生成一組短時(shí)分析信號(hào),基音信息的準(zhǔn)確度對(duì)于后續(xù)的合成步驟有很大影響。調(diào)整對(duì)分析生成的短時(shí)語(yǔ)音信號(hào)進(jìn)行轉(zhuǎn)換和調(diào)整,他這個(gè)過(guò)程分為三個(gè)步驟:對(duì)短時(shí)語(yǔ)音信號(hào)的數(shù)量的調(diào)整、對(duì)基音同步標(biāo)志的間隔的調(diào)整以及對(duì)短時(shí)語(yǔ)音信號(hào)的波形進(jìn)行調(diào)整。疊加疊加是指對(duì)調(diào)整之后的短時(shí)語(yǔ)音信號(hào)進(jìn)行疊加處理,最終得到合成的語(yǔ)音信號(hào),基頻的疊加通常通過(guò)改變基音標(biāo)記序列的間隔來(lái)實(shí)現(xiàn)[27],而語(yǔ)音時(shí)長(zhǎng)的修改通過(guò)刪除或者增加基因標(biāo)記序列來(lái)實(shí)現(xiàn),常用的疊加處理方法如最小均方差法。1.3.3基于統(tǒng)計(jì)模型的合成方法近年來(lái)隨著統(tǒng)計(jì)學(xué),模式識(shí)別的發(fā)展走入人們視野的統(tǒng)計(jì)模型的合成方法越來(lái)越為熱門,其中最為常用的便是基于隱馬爾科夫模型?;谀P偷暮铣煞椒ǖ脑硎峭ㄟ^(guò)訓(xùn)練的方式對(duì)聲學(xué)參數(shù)和標(biāo)注信息進(jìn)行建模,再結(jié)合之前的參數(shù)合成或是波形拼接方式,合成的語(yǔ)音既具有高自然度的有點(diǎn),同時(shí)又能減少人工的參與,實(shí)現(xiàn)自動(dòng)化。本文的第二章將詳細(xì)介紹基于隱馬爾科夫模型的語(yǔ)音合成方法的原理以及流程。1.4本章小結(jié)本章主要介紹了語(yǔ)音合成的概念和意義,目前人工智能的迅速發(fā)展使得語(yǔ)音交互成為最主要的人機(jī)交互手段,而語(yǔ)音合成也正是因此而受到重視,目前已經(jīng)應(yīng)用到很多領(lǐng)域,如智能終端、語(yǔ)音導(dǎo)航和有聲讀物等。還簡(jiǎn)單介紹了語(yǔ)音合成的發(fā)展歷史以及發(fā)展現(xiàn)狀,最后介紹了語(yǔ)音合成的幾種主要的合成方法,其中基于統(tǒng)計(jì)模型的合成方法是本文主要研究的一種合成方法。
第二章基于HMM模型的語(yǔ)音合成2.1馬爾科夫過(guò)程要了解馬爾科夫過(guò)程首先要明確什么是馬爾科夫性質(zhì),假設(shè)隨機(jī)過(guò)程中某一時(shí)刻的狀態(tài)st(2.1)即隨機(jī)過(guò)程中某一時(shí)刻的狀態(tài)st,只與它前一時(shí)刻的狀態(tài)st?1若為一條馬爾科夫鏈,則有:(2.2)其中,此時(shí),若不考慮時(shí)間序列,該馬爾科夫鏈可以描述一個(gè)具有限個(gè)狀態(tài)的過(guò)程.2.2隱馬爾科夫模型如果馬爾科夫鏈中任意時(shí)刻的狀態(tài)變量不可見(jiàn),也就是說(shuō)無(wú)法直接觀測(cè)到,而每一個(gè)時(shí)刻都有一個(gè)可見(jiàn)的觀測(cè)值ot與之對(duì)應(yīng),而且每一個(gè)ot與當(dāng)前時(shí)刻的隱含狀態(tài)一一對(duì)應(yīng),這時(shí)我們稱該模型為隱馬爾科夫模型,所以,隱馬爾科夫模型中的馬爾科夫鏈實(shí)際上指的是隱含的狀態(tài)序列序列。HMM模型的關(guān)鍵是從可觀察序列中確定該過(guò)程的隱含狀態(tài),并通過(guò)這些參數(shù)來(lái)做進(jìn)一步的分析,如模式識(shí)別、語(yǔ)音識(shí)別[29]等。圖2.1HMM模型示意圖如圖2.1所示為隱馬爾科夫模型的示意圖,HMM基本模型具有如下參數(shù):觀察序列觀察序列為我們可以觀測(cè)到的這個(gè)隨機(jī)過(guò)程的輸出符號(hào)集合,我們用O表示,O={O1狀態(tài)序列狀態(tài)序列是該模型輸出的所有狀態(tài)的合集,我們用q來(lái)表示,q={1,2,…,N},N為系統(tǒng)的狀態(tài)總數(shù),qt狀態(tài)轉(zhuǎn)移概率狀態(tài)轉(zhuǎn)移概率指的是從當(dāng)前狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)的概率[30],我們用A表示,A={aij}(2.3)輸出概率矩陣輸出概率矩陣指的是在狀態(tài)i時(shí)輸出對(duì)應(yīng)的狀態(tài)O時(shí)的概率的聚合,我們用B表示輸出概率矩陣,,這個(gè)概率的定義如下:(2.4)其中Xt初始狀態(tài)序列HMM模型一般用于對(duì)數(shù)據(jù)的估計(jì),所以除了以上四個(gè)參數(shù),我們還會(huì)已知一部分的可觀察序列的狀態(tài),稱為初始狀態(tài)序列,用∏表示,={πj},這時(shí)我們用φ2.3HMM模型的三個(gè)問(wèn)題評(píng)估問(wèn)題,解碼問(wèn)題和學(xué)習(xí)問(wèn)題是HMM模型的三個(gè)主要應(yīng)用。2.3.1評(píng)估問(wèn)題即已知一個(gè)HMM模型=(A,B,∏),和一個(gè)已知的觀測(cè)序列前向算法是為了解決動(dòng)態(tài)規(guī)劃問(wèn)題而發(fā)明出來(lái)的算法,應(yīng)用前向算法時(shí),我們首先列舉出局部狀態(tài)的遞推關(guān)系,然后一步步進(jìn)行迭代,最終得到整個(gè)問(wèn)題的最優(yōu)解。定義前向概率αti為觀測(cè)狀態(tài)為o={o1,(2.5)則時(shí)刻t+1對(duì)應(yīng)的的隱藏狀態(tài)i的前向概率為:(2.6)其中N為狀態(tài)數(shù)總量,一次遞推后得到計(jì)算的最終結(jié)果為:(2.7)2.3.2解碼問(wèn)題即已知HMM模型φ=(A,B,∏)和一個(gè)已知的觀測(cè)序列將要求得的最佳狀態(tài)序列定義為在給定觀測(cè)序列O的前提下,概率P=(S|O,φ)最大的狀態(tài)序列S=(2.8)它是在時(shí)刻t產(chǎn)生觀測(cè)序列X1t[(2.9)為了得到完整的最佳狀態(tài)序列,需要遍歷每個(gè)狀態(tài)。定義Bt(j)為t時(shí)刻狀態(tài)為j的最佳序列中,前一個(gè)時(shí)刻所處的狀態(tài)序號(hào),這時(shí)能夠簡(jiǎn)化利用Viterbi算法求解最佳狀態(tài)序列的步驟[第一步:初始化(2.10)第二步:迭代(2.11)(2.11)第三步:終止全局的最佳狀態(tài)序列概率(2.13)(2.14)第四步:路徑回溯st?=Bt+1s2.3.3學(xué)習(xí)問(wèn)題即已知觀測(cè)序列o={o1,o2,…,EM算法是一種基于最大似然估計(jì)的的優(yōu)化算法,該算法一般分為兩個(gè)步驟:E-step:根據(jù)參數(shù)計(jì)算每個(gè)樣本屬于某個(gè)狀態(tài)的概率這個(gè)概率一般用Q表示。M-step:根據(jù)上一步計(jì)算得出的概率Q,求解出含有該參數(shù)的最大似然函數(shù),并且更新該參數(shù)的值在應(yīng)用EM算法求解HMM模型參數(shù)的問(wèn)題中,我們需要在E步求出聯(lián)合分布P=(Q|φ)基于條件概率P(Q|O,Φ)的期望,其中EΦ,Φ=Q在M步,我們對(duì)上述式子做極大化處理,得到更新后的模型參數(shù):Φ=argmaxΦQP接下來(lái)就是E步和M步的重復(fù)迭代,一直到Φ收斂,便可依次求解模型參數(shù)A,B,∏。2.4基于HMM的語(yǔ)音合成2.4.1TTS系統(tǒng)結(jié)構(gòu)如圖2.2所示為基于HMM模型的TTS系統(tǒng)的結(jié)構(gòu)圖。一個(gè)完整的TTS系統(tǒng)包括訓(xùn)練部分和合成部分。訓(xùn)練部分主要包括對(duì)語(yǔ)料的預(yù)處理和HMM模型的訓(xùn)練兩個(gè)步驟。其中對(duì)語(yǔ)料的預(yù)處理就是將語(yǔ)料庫(kù)中的音頻文件進(jìn)行文本標(biāo)注,進(jìn)而得到訓(xùn)練語(yǔ)音的單音節(jié)文本的標(biāo)注文件和上下文相關(guān)的標(biāo)注文件,得到的這些標(biāo)注文件可為HMM模型訓(xùn)練提供輸入的文本信息。在HMM模型訓(xùn)練之前,還需對(duì)語(yǔ)音信號(hào)進(jìn)行聲學(xué)參數(shù)提取,主要包括激勵(lì)參數(shù)提取和譜參數(shù)提取,然后對(duì)以上參數(shù)進(jìn)行建模。在HMM的模型訓(xùn)練中,得到含有激勵(lì)參數(shù)、譜參數(shù)以及上下文信息的HMM模型庫(kù)。在TTS系統(tǒng)的合成部分,首先利用文本分析工具對(duì)目標(biāo)文本進(jìn)行預(yù)處理,即文本分析處理,這一過(guò)程主要是將輸入的目標(biāo)文本轉(zhuǎn)換成計(jì)算機(jī)可以理解的數(shù)據(jù)文件,分析結(jié)果主要是標(biāo)注音素后的文本的發(fā)音序列,其中還包含了上下文的信息,將這些標(biāo)注文件根據(jù)聚類策樹進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)束后便可獲得包含上下文信息的HMM模型,再根據(jù)HMM模型的參數(shù)學(xué)習(xí)算法得到聲音的基頻參數(shù)F0和Mel倒譜系數(shù)等聲學(xué)參數(shù),最后把這些參數(shù)輸入到合成濾波器中便可得到合成的語(yǔ)音信號(hào)。圖2.2HMM語(yǔ)音合成流程圖2.4.3模型訓(xùn)練階段基于HMM模型的語(yǔ)音合成方法的訓(xùn)練主要包括:準(zhǔn)備語(yǔ)料庫(kù)、提取聲學(xué)參數(shù)和決策樹聚類等步驟。語(yǔ)料庫(kù)的設(shè)計(jì)目標(biāo)是用盡可能少的語(yǔ)料句子包含盡可能多的自然語(yǔ)音和用法,要盡可能選取涵蓋語(yǔ)音學(xué)特征的文本作為選取語(yǔ)料的基礎(chǔ),即要包含所有的元音、輔音,也要包含常用的動(dòng)詞、名詞、形容詞和副詞等。對(duì)聲學(xué)參數(shù)的提取一般包括Mel倒譜系數(shù)和基頻參數(shù)F0等,這些參數(shù)就代表了語(yǔ)音的內(nèi)容,發(fā)音規(guī)則和說(shuō)話人聲音的韻律特征等,參數(shù)越多對(duì)合成語(yǔ)音的還原度就越高?;l參數(shù)無(wú)法應(yīng)用用連續(xù)或者離散的分布進(jìn)行建模,因此這里我們選擇多空間概率分布的HMM(MSD-HMM)建模方法。在MSD-HMM模型中,每一種狀態(tài)都有至少兩種概率分布,如圖2.3所示?;lF0的輸出狀態(tài)概率如圖2.4所示。圖2.3基頻F0的MSD-HMM建模圖2.4基頻F0的狀態(tài)輸出對(duì)Mel倒譜系數(shù)的建模同基頻F0的建模方法一樣,都是MSD-HMM建模。具體建模方法見(jiàn)圖2.5。圖2.5Mel的MSD-HMM的建模為了保證合成語(yǔ)音的流暢性,除了對(duì)以上聲學(xué)參數(shù)建模之外還要對(duì)文本的上下文屬性也進(jìn)行建模,這樣一來(lái)就會(huì)限制訓(xùn)練數(shù)據(jù)總量,而采用聚類分析法可以根據(jù)數(shù)據(jù)之間的相似性將數(shù)據(jù)分類,分成互不相同的類別,用這種方法構(gòu)造決策樹法進(jìn)行聚類。如圖2.6是一個(gè)自頂向下的遞歸構(gòu)造決策樹,從頂點(diǎn)開(kāi)始,根據(jù)節(jié)點(diǎn)的問(wèn)題進(jìn)行分叉,一直到滿足所有的條件為之。通過(guò)這種方法可以大大減少建模的數(shù)量。圖2.6聚類決策樹2.4.4語(yǔ)音合成階段本文中的基于HMM的參數(shù)合成模型是模仿人體發(fā)音系統(tǒng)采用激勵(lì)-合成的算法模型。如圖2.7為人類發(fā)聲系統(tǒng)的原理示意圖。人的發(fā)聲就是由氣流激勵(lì)聲帶振動(dòng)激勵(lì)聲道中空氣發(fā)聲振動(dòng),并從口鼻兩處向外輻射而成[34]。圖2.7人體發(fā)聲流程圖語(yǔ)音按照激勵(lì)形式不同大致可以分為三種:清音、濁音和摩擦音。而在激勵(lì)-合成模型中激勵(lì)信號(hào)一般只分清音和濁音兩種,清音一般是指氣流使聲帶振動(dòng)產(chǎn)生周期脈沖氣流,而濁音是指氣流并沒(méi)有使聲帶振動(dòng),二是在某處收縮,這時(shí)氣流高速通過(guò)聲帶收縮部分。激勵(lì)-合成模型的基本原理如圖2.8所示。圖2.8激勵(lì)-合成算法該模型對(duì)上述人體器官進(jìn)行模仿,其中,脈沖序列對(duì)應(yīng)語(yǔ)音信號(hào)中的濁音,而白噪聲對(duì)應(yīng)語(yǔ)音信號(hào)中的清音,?(n)是一個(gè)線性時(shí)不變系統(tǒng),用來(lái)模擬聲帶等口腔器官,最終生成的語(yǔ)音對(duì)應(yīng)的就是人體正常發(fā)出的聲音。在頻域上,H(2.5本章小結(jié)本章首先對(duì)HMM模型及其原理進(jìn)行研究,主要研究了HMM模型的三種經(jīng)典問(wèn)題以及它們各自的解決算法,主要介紹了學(xué)習(xí)問(wèn)題和解碼問(wèn)題因?yàn)樗鼈兎謩e對(duì)應(yīng)了語(yǔ)音合成中的訓(xùn)練階段和合成階段。最后介紹了基于HMM的語(yǔ)音合成流程和具體步驟,為下一章的嵌入式實(shí)現(xiàn)做理論基礎(chǔ)。第三章基于嵌入式的語(yǔ)音合成實(shí)現(xiàn)3.1ARM嵌入式平臺(tái)簡(jiǎn)介3.1.1EAIDK套件概述EAIDK是OPENAILAB攜手ARMChina專為人工智能開(kāi)發(fā)者打造的一款嵌入式人工智能開(kāi)發(fā)套件,面向邊緣計(jì)算的人工智能研究,該平臺(tái)不僅具備語(yǔ)音、視覺(jué)等傳感器數(shù)據(jù)采集能力,而且適用于多場(chǎng)景的運(yùn)動(dòng)控制接口;滿足AI教育、算法應(yīng)用開(kāi)發(fā)、產(chǎn)品原型開(kāi)發(fā)驗(yàn)證等需求,并且支持視覺(jué)分析處理、語(yǔ)音識(shí)別、語(yǔ)義分析、語(yǔ)音合成、SLAM等應(yīng)用。EAIDK610-P0主芯片采用瑞芯微的RK3399,同時(shí)搭載OPENAILAB嵌入式AI開(kāi)發(fā)平臺(tái)AID(包含支持異構(gòu)計(jì)算庫(kù)HCL、嵌入式深度學(xué)習(xí)框架Tengine以及輕量級(jí)嵌入式計(jì)算機(jī)視覺(jué)加速庫(kù)BladeCV)。為AI應(yīng)用提供高效、統(tǒng)一、簡(jiǎn)潔的API接口。3.1.2ARM開(kāi)發(fā)板RK3399的概述RK3399是瑞芯微公司的一款六核ARM64位處理器,主頻高達(dá)2.0GHz,配置4GBLPDDR4雙通道64位ARM高性能內(nèi)存。具有多種供電方式,可接入擴(kuò)展板。擁有Type-CPD2.0電源控制芯片、支持寬電壓(5V-15V)輸入,另外還可以采用POE+(802.3AT,輸出功率30W)增強(qiáng)型以太網(wǎng)充電方式,或雙節(jié)電池供電,滿足用戶不同場(chǎng)景的應(yīng)用選擇。下圖3.1和3.2分別為RK3399的正反面實(shí)物圖。圖3.1RK3399正面圖3.2RK3399反面3.2Linux系統(tǒng)Linux是一種免費(fèi)使用和自由傳播的類Unix操作系統(tǒng)[35],該操作系統(tǒng)基于POSIX和UNIX的多用戶、多任務(wù),并且支持多線程以及多CPU。本文中使用的操作系統(tǒng)版本為Ubuntu18.04LTS,Ubuntu18.04LTS為Ubuntu2018年4月份發(fā)布的最新版本系統(tǒng),該系統(tǒng)對(duì)JDK和系統(tǒng)安全性等做了相關(guān)改進(jìn)。在Linux環(huán)境下我們一般通過(guò)命令來(lái)進(jìn)行對(duì)文件的操作,軟件的更新和安裝以及程序的書寫及編譯,剛接觸Linux的人可能會(huì)不習(xí)慣這種陌生的操作方式,但是熟練了之后便可以發(fā)現(xiàn)其中的方便之處,表3.1中列舉了一些Linux環(huán)境下的常用指令。表3.1Linux常用指令Linux命令描述cd/home進(jìn)入“/home”目錄cd..返回上一級(jí)目錄ls查看目錄中的文件ls-l顯示文件和目錄的詳細(xì)信息mkdirdir1新建名為“dir1”的文件rmfile1刪除名為“file1”的文件rm-rfdir1刪除名為“dir1”的文件夾tar-xzvfachieve.tar.gz解壓achieve.tar.gzsudoyuminstallpackage下載并安裝package安裝包vifile編輯“file”make編譯makeclean編譯安裝在Linux環(huán)境下代碼的編寫在vim編輯器中進(jìn)行,該編輯器功能強(qiáng)大并且十分智能,可以通過(guò)字體顏色辨別語(yǔ)法的正確性[36],便于程序編寫。Vim會(huì)根據(jù)文件的開(kāi)頭信息自動(dòng)判斷文件內(nèi)容而執(zhí)行改程序的語(yǔ)法判斷,除此之外,編輯器內(nèi)還支持如搜索、多文件編輯、模塊復(fù)制等額外的功能,使我們代碼的編寫十分便捷。Vim的使用也非常簡(jiǎn)單,剛啟動(dòng)時(shí)對(duì)應(yīng)的是命令模式,這時(shí)可以輸入對(duì)編輯器的相關(guān)指令如保存、退出。在命令模式下按i進(jìn)入輸入模式[37],也可以說(shuō)是編輯模式,這時(shí)可以對(duì)文件進(jìn)行編輯。在輸入模式下按Esc鍵進(jìn)入命令模式,這時(shí)再按:之后便可以輸入相關(guān)指令如保存、退出。表3.2所示為vim編輯器的常用指令。表3.2vim編輯器常用指令vim指令作用w保存文件q退出編輯器wq保存文件并退出編輯器q!退出編輯器但不保存u撤銷上一步操作setnember顯示行號(hào)3.3基于ARM嵌入式的Linux系統(tǒng)編譯和移植圖3.5嵌入式Linux開(kāi)發(fā)流程圖在RK3399開(kāi)發(fā)板上實(shí)現(xiàn)Linux系統(tǒng)的編譯和移植需要首先在PC端windows系統(tǒng)下安裝運(yùn)行虛擬機(jī)VMwareWorkstation,創(chuàng)建系統(tǒng)平臺(tái)。如圖3.5是嵌入式Linux開(kāi)發(fā)的操作流程圖。3.3.1安裝交叉編譯環(huán)境交叉編譯指的是在PC端對(duì)源代碼進(jìn)行編譯生成在ARM開(kāi)發(fā)板上可以直接運(yùn)行的可執(zhí)行程序。交叉編譯需要依賴交叉編譯工具鏈,工具鏈可以在官網(wǎng)進(jìn)行下載,本文使用的是64位的arm-linux-gnu-4.5.1.tar.gz。將該壓縮包拷貝到Linux系統(tǒng)的目錄/usr/local/arm下進(jìn)行解壓并安裝。安裝的主要步驟為:解壓工具鏈壓縮包:sudotar-xzvfrk3399-gcc-linux-gnu.tar.gz更改環(huán)境變量:sudonano/etc/profile在最后一行加入編譯鏈/bin文件夾路徑,保存并退出使環(huán)境變量生效:source/etc/profile[38]查看環(huán)境變量是否成功添加:echo/etc/profile若有路徑中有編譯鏈的路徑則表示成功查看是否安裝成功:aarch64-linux-gnu-gcc-v若出現(xiàn)版本信息則成功,如圖3.6所示。圖3.6交叉編譯環(huán)境安裝成功3.3.2虛擬機(jī)和ARM開(kāi)發(fā)板的鏈接介質(zhì)常見(jiàn)的鏈接方式有三種:串口方式,USB連接和網(wǎng)線連接[39]。不同的連接方式有各自的軟件支持,本文使用的是網(wǎng)線連接方式,常見(jiàn)的網(wǎng)絡(luò)連接服務(wù)主要有兩個(gè):tftp服務(wù)和nfs服務(wù)。本文選擇的是前者,通過(guò)tftp可以直接將文件在內(nèi)存中運(yùn)行,可以減少Flash的燒錄次數(shù),提高了開(kāi)發(fā)效率。3.3.3編譯Linux內(nèi)核Linux內(nèi)核使系統(tǒng)中起控制作用的核心部分,對(duì)系統(tǒng)的網(wǎng)絡(luò)和文件系統(tǒng)以及進(jìn)程和設(shè)備驅(qū)動(dòng)等反面進(jìn)行控制。Linux內(nèi)核的配置主要目的是精簡(jiǎn)其自身的框架結(jié)構(gòu)[40][41]。Linux內(nèi)核的編譯配置和移植的主要步驟為:首先從官網(wǎng)下載Linux內(nèi)核的壓縮包,然后拷貝到工作目錄/usr/local/arm中并解壓,進(jìn)入目錄利用#./configure進(jìn)行配置,再利用#make命令來(lái)編譯Linux內(nèi)核。最后把生成的uImage內(nèi)核進(jìn)行重新命名之后放入網(wǎng)絡(luò)文件系統(tǒng)中,通網(wǎng)線的方式傳輸?shù)紸RM開(kāi)發(fā)板上。3.3.4文件傳輸在windows系統(tǒng)下載安裝Xshell軟件可通過(guò)SSH方式對(duì)虛擬機(jī)Linux系統(tǒng)進(jìn)行遠(yuǎn)程控制,首先要在主機(jī)和虛擬機(jī)中開(kāi)啟SSH服務(wù),Linux指令為sudoapt-getinstallopenssh-server。然后通過(guò)ifconfig指令查詢虛擬機(jī)的IP地址,如圖n所示。然后在Xshell中新建連接并填入虛擬機(jī)IP地址便可進(jìn)行連接,連接成功后可實(shí)現(xiàn)遠(yuǎn)程控制和互傳文件等操作。Xshell中可以通過(guò)ZMODEM直接進(jìn)行互傳文件,只需要安裝rz和sz指令,通過(guò)命令:#sudoapt-getinstalllrzsz,就可以使用。這種方式簡(jiǎn)化了掛載的過(guò)程并且也可以實(shí)現(xiàn)網(wǎng)絡(luò)文件共享的功能。3.4基于Linux系統(tǒng)的語(yǔ)音合成軟件設(shè)計(jì)本文的軟件設(shè)計(jì)基于Flite框架實(shí)現(xiàn)嵌入式平臺(tái)的TTS,F(xiàn)lite是為了解決Festival語(yǔ)音合成系統(tǒng)由于過(guò)于臃腫而無(wú)法在嵌入式平臺(tái)中應(yīng)用的問(wèn)題而被開(kāi)發(fā)出來(lái)的,因此,F(xiàn)lite具有短小精悍,快速實(shí)時(shí)[42]等優(yōu)勢(shì),采用的程序語(yǔ)言為標(biāo)準(zhǔn)C。Flite源代碼可以在其開(kāi)源官網(wǎng)進(jìn)行下載,本文中使用的是第四版,即flite-1.4-release,該版本完全采用C語(yǔ)言,便攜性更好,速度更快,同時(shí)重新演繹了Festival架構(gòu)的核心部分,使每個(gè)系統(tǒng)的聲音之間具有緊密的兼容性。除此之外,還支持將FestVox語(yǔ)音編譯為Flite語(yǔ)音,能夠很好的實(shí)現(xiàn)合成功能。圖3.7Flite主函數(shù)流程圖Flite主函數(shù)中先對(duì)運(yùn)行flite_init()函數(shù)對(duì)合成進(jìn)行初始化,然后進(jìn)行音素庫(kù)的選擇,F(xiàn)lite框架中包含了5種可以選擇的音素庫(kù),即訓(xùn)練好參數(shù)模型的HMM,名字分別是awb,kal,kal16,slt,rms,其中kal為默認(rèn)音素庫(kù),可以通過(guò)更改相關(guān)變量對(duì)默認(rèn)音素庫(kù)進(jìn)行修改。在選擇音素庫(kù)之后便開(kāi)始對(duì)語(yǔ)音進(jìn)行合成。主函數(shù)的程序流程框圖如圖3.7所示。將Flite在PC端虛擬機(jī)內(nèi)調(diào)試完成后,進(jìn)行交叉編譯,生成可以在嵌入式ARM平臺(tái)執(zhí)行的可執(zhí)行文件,然后將代碼包通過(guò)ZMODEM方式拷貝到ARM平臺(tái),執(zhí)行可執(zhí)行文件后得到音頻文件,并可以在ARM平臺(tái)上進(jìn)行音頻播放,從而實(shí)現(xiàn)了語(yǔ)音合成的功能。Flite主程序見(jiàn)附錄A。3.5本章小結(jié)本章主要介紹了在嵌入式平臺(tái)上實(shí)現(xiàn)語(yǔ)音合成功能的流程。首先對(duì)嵌入式平臺(tái)EAIDK和PC端的Linux系統(tǒng)進(jìn)行簡(jiǎn)單介紹,然后對(duì)交叉編譯相關(guān)概念進(jìn)行陳述,最后詳細(xì)介紹了基于Flite框架在嵌入式平臺(tái)實(shí)現(xiàn)語(yǔ)音合成功能的過(guò)程和軟件結(jié)構(gòu)。
第四章語(yǔ)音合成性能測(cè)試結(jié)果與分析實(shí)現(xiàn)在嵌入式平臺(tái)上語(yǔ)音合成功能后,為了進(jìn)一步分析該語(yǔ)音合成實(shí)驗(yàn)的所合成的語(yǔ)音效果以及參數(shù)研究,進(jìn)行了對(duì)合成語(yǔ)音的質(zhì)量評(píng)測(cè)和對(duì)比[43],本文主要對(duì)比了不同音素庫(kù)的合成參數(shù)以及合成語(yǔ)音的質(zhì)量,為更好的應(yīng)用基于HMM語(yǔ)音合成技術(shù)以及嵌入式Flite框架提供數(shù)據(jù)支持。評(píng)測(cè)包括兩部分,一種是主觀評(píng)測(cè),一種是客觀評(píng)測(cè),先對(duì)五種音素庫(kù)合成的語(yǔ)音進(jìn)行比較,繼而將五種音素庫(kù)合成的語(yǔ)音同人聲作對(duì)比,然后總結(jié)出合成語(yǔ)音質(zhì)量相對(duì)較好的語(yǔ)音參數(shù)。4.1語(yǔ)音質(zhì)量的主觀評(píng)測(cè)該實(shí)驗(yàn)首先為語(yǔ)音質(zhì)量設(shè)置好五個(gè)等級(jí),也就是將人聲作為參照,根據(jù)語(yǔ)音的準(zhǔn)確度、自然度和清晰度等進(jìn)行劃分五個(gè)等級(jí)[44],也即五分制。主觀評(píng)測(cè)的方法為MOS評(píng)測(cè)也成為平均意見(jiàn)得分,是一種常用的評(píng)分標(biāo)準(zhǔn),用該評(píng)測(cè)方法對(duì)聲音的自然度進(jìn)行打分。參加測(cè)評(píng)的志愿者選用了五位本專業(yè)對(duì)語(yǔ)音有所了解的同學(xué)以及五位其他專業(yè)的同學(xué),評(píng)測(cè)的環(huán)境是安靜的室內(nèi)通過(guò)立體聲音響對(duì)語(yǔ)音進(jìn)行播放,志愿者分別為五種不同的合成聲音進(jìn)行打分。其中MOS的打分機(jī)制如表4.1所示。表4.1MOS評(píng)分機(jī)制得分質(zhì)量等級(jí)自然度5優(yōu)感覺(jué)不到失真4良感覺(jué)出失真但是聽(tīng)著舒服3中感覺(jué)到失真且聽(tīng)著不舒服2差不舒服的感覺(jué)很明顯但是可以忍受1劣不舒服的感覺(jué)很強(qiáng)烈且無(wú)法忍受對(duì)于MOS測(cè)評(píng)的結(jié)果,我們用公式5.1來(lái)進(jìn)行計(jì)算:MOS=1Mi=1其中M表示總票數(shù),mi表示得到其中某一類具體分的票數(shù),score我們對(duì)五種音素庫(kù)合成的語(yǔ)音分別進(jìn)行打分,十個(gè)人在試聽(tīng)后根據(jù)聽(tīng)到第一感覺(jué)按照打分制的標(biāo)準(zhǔn)進(jìn)行打分,打分結(jié)果如表4.2所示,可以看出,rms音素庫(kù)的平均得分最高,也就是說(shuō)其合成語(yǔ)音更加符合人類聽(tīng)覺(jué)習(xí)慣,其他幾種音素庫(kù)的合成語(yǔ)音也都達(dá)到了合成語(yǔ)音的質(zhì)量標(biāo)準(zhǔn)。表4.2MOS評(píng)分結(jié)果五種音素庫(kù)質(zhì)量MOS評(píng)分音素庫(kù)awbkalkal16sltrms分?jǐn)?shù)143354分?jǐn)?shù)244445分?jǐn)?shù)353344分?jǐn)?shù)443354分?jǐn)?shù)534434分?jǐn)?shù)644445分?jǐn)?shù)745544分?jǐn)?shù)854444分?jǐn)?shù)943344分?jǐn)?shù)1054435平均分44.34.2語(yǔ)音質(zhì)量的客觀評(píng)測(cè)語(yǔ)音質(zhì)量的客觀測(cè)試是指將用嵌入式系統(tǒng)合成的語(yǔ)音和人類發(fā)出的語(yǔ)音進(jìn)行參數(shù)對(duì)比,本文采用國(guó)際電信聯(lián)盟建議書提供的語(yǔ)音質(zhì)量客觀評(píng)測(cè)方法PESQ。PESQ的測(cè)試得分規(guī)定在0.5-4.5之間,分?jǐn)?shù)越低,質(zhì)量越差,在失真嚴(yán)重的情況下也有可能會(huì)產(chǎn)生0.5分以下的分?jǐn)?shù)[45]。PSEQ評(píng)分工具可以在ITUPESQ官方網(wǎng)站/rec/T-REC-P.862/en進(jìn)行下載,然后再windows下的powershell找到文件路徑運(yùn)行。如圖4.1為PESQ打開(kāi)成功示意圖。圖4.1PESQ打開(kāi)成功PESQ的使用指令為:./PESQ.exe[options]refdeg其中[options]為采樣率的選擇,一般為+8000Hz或者+16000Hz,ref為原始文件,deg為待評(píng)估文件,PESQ將待評(píng)估文件同原始文件進(jìn)行比較,比較過(guò)程通過(guò)三個(gè)不同階段使用很多的頻譜值計(jì)算很多大數(shù)量的不同的對(duì)稱和非對(duì)稱的參數(shù),最終給出客觀評(píng)測(cè)分?jǐn)?shù)。我們?cè)谠搶?shí)驗(yàn)中對(duì)五種音素庫(kù)合成的語(yǔ)音分別同人聲語(yǔ)音進(jìn)行評(píng)測(cè),評(píng)測(cè)的文本為一段BBC新聞稿,原文如下:TheBBChaslearnedthattheBritishPrimeMinisterGordonBrownhasdecidedBBC,thattheBritishgeneralelectionwilltakeplaceonMay6th.MrBrownwillgotoBuckinghamPalacetomorrowTuesday,toaskQueenElizabethtodissolveparliament,andthenmakeaformalannouncementoftheelectiondate.Thatwillstarttheofficialelectioncampaign,which,aBBCcorrespondentsays,BBC,willbedominatedbyissuesoftaxation,andspendinginthewakeoftheglobalrecession.[46]評(píng)測(cè)的得分結(jié)果如下表4.3所示,可以看出其中合成質(zhì)量最高的是awb音素庫(kù),該音素庫(kù)的合成語(yǔ)音通原聲的得分比達(dá)到98.1%,表明其合成語(yǔ)音準(zhǔn)確且流暢,而其他幾種音素庫(kù)的合成語(yǔ)音也都遠(yuǎn)遠(yuǎn)超過(guò)及格標(biāo)準(zhǔn)并且同主觀評(píng)測(cè)的結(jié)果相接近,都通過(guò)了PESQ評(píng)測(cè)。表4.3PESQ得分結(jié)果音素庫(kù)Pesq得分rmssltawbkalkal16原聲3.1553.2083.2112.2182.218合成語(yǔ)音3.0533.1323.1521.8261.826得分比0.967670.97630390.9816260.8232640.8232634.3評(píng)測(cè)結(jié)果總結(jié)為了對(duì)嵌入式平臺(tái)合成的語(yǔ)音進(jìn)行質(zhì)量評(píng)估,采用主觀評(píng)測(cè)和客觀評(píng)測(cè)兩種方式對(duì)五種音素庫(kù)合成的語(yǔ)音進(jìn)行了質(zhì)量檢驗(yàn),根據(jù)兩種評(píng)測(cè)的結(jié)果可以得出rms和awb兩種音素庫(kù)合成語(yǔ)音質(zhì)量較其他幾種音素庫(kù)合成語(yǔ)音質(zhì)量高,而其他幾種音素庫(kù)的合成語(yǔ)音也達(dá)到了合格的標(biāo)準(zhǔn),可證明在嵌入式系統(tǒng)上實(shí)現(xiàn)語(yǔ)音合成功能成功。第五章總結(jié)和展望5.1總結(jié)本文是基于HMM的語(yǔ)音合成的嵌入式ARM平臺(tái)實(shí)現(xiàn),主要研究了HMM模型在嵌入式ARM平臺(tái)上的應(yīng)用,基于統(tǒng)計(jì)模型的語(yǔ)音合成目前已經(jīng)大量應(yīng)用于各種終端和服務(wù)器,其中HMM模型是最為常用的一種,用該方法合成的語(yǔ)音準(zhǔn)確流暢并且可以通過(guò)訓(xùn)練語(yǔ)料庫(kù)合成不同人的聲音,生成的語(yǔ)音質(zhì)量可以通過(guò)PESQ客觀評(píng)測(cè)。本文硬件選用基于ARMRK3399的OPENAILABEAIDK610-P0人工智能開(kāi)發(fā)平臺(tái),軟件選擇基于Flite的開(kāi)源語(yǔ)音合成基本框架,最終在嵌入式平臺(tái)上實(shí)現(xiàn)語(yǔ)音合成功能并播放合成語(yǔ)音,并且可以選擇不同的音素庫(kù),基本完成了任務(wù)書上規(guī)定的相關(guān)要求。畢業(yè)設(shè)計(jì)過(guò)程中主要的工作內(nèi)容如下:對(duì)語(yǔ)音合成技術(shù)的歷史和發(fā)展歷程進(jìn)行研究,了解了當(dāng)前語(yǔ)音合成的主要關(guān)鍵技術(shù),尤其是基于HMM模型的語(yǔ)音合成技術(shù)。對(duì)該合成方法的重要算法和基本問(wèn)題進(jìn)行了研究。對(duì)本文使用的嵌入式開(kāi)發(fā)平臺(tái)進(jìn)行研究學(xué)習(xí),包括EAIDK610-P0的硬件電路,Linux系統(tǒng),交叉編譯等相關(guān)內(nèi)容,實(shí)現(xiàn)將Flite框架在嵌入式系統(tǒng)的編譯和移植,最終在嵌入式ARM平臺(tái)實(shí)現(xiàn)語(yǔ)音合成功能,并可以通過(guò)嵌入式平臺(tái)進(jìn)行語(yǔ)音播放。對(duì)語(yǔ)音評(píng)測(cè)方案的設(shè)計(jì),對(duì)嵌入式系統(tǒng)合成的語(yǔ)音進(jìn)行了主觀評(píng)測(cè)和客觀評(píng)測(cè),主要采用MOS主觀評(píng)測(cè)方法和PESQ客觀評(píng)測(cè)方法,最終選擇出最佳的音素庫(kù)。5.2展望在實(shí)現(xiàn)了語(yǔ)音合成功能的嵌入式平臺(tái)實(shí)現(xiàn)以及對(duì)五種不同音素庫(kù)的質(zhì)量評(píng)測(cè)之后,下一步計(jì)劃是根據(jù)評(píng)測(cè)結(jié)果進(jìn)一步對(duì)語(yǔ)音參數(shù)進(jìn)行分析和調(diào)整,達(dá)到該硬件和軟件最高水平,在保證了準(zhǔn)確度和清晰度之后,對(duì)情緒韻律做研究,使合成語(yǔ)音不僅能夠準(zhǔn)確傳達(dá)信息,并且?guī)в胸S富多樣的感情色彩,能夠描述更多種聲音和情緒,使人機(jī)交互過(guò)程更加流暢。參考文獻(xiàn)[1]范會(huì)敏,何鑫.中文語(yǔ)音合成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(2):73-77.[2]胡亞軍.基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)參數(shù)語(yǔ)音合成方法研究[J].《中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù)》,2018,(10).[3]李娟,張雪莫,黃麗霞等.基于Hilbert-Huang變換的語(yǔ)音合成基音標(biāo)注搜索新算法[J].2018,41(12):41-43.[4]包森成.基于統(tǒng)計(jì)模型的韻律結(jié)構(gòu)預(yù)測(cè)研究[D].北京:北京郵電大學(xué),2009.[5]王克會(huì).基于WIFI和隱馬爾可夫模型的室內(nèi)定位算法研究[J].計(jì)算機(jī)時(shí)代,2018,1:9-12.[6]jinzeyu.SpeechSynthesisforText-BasedEditingofAudioNarration[D].PrincetonUniversity,2018.[7]孫曉輝,凌震華,戴禮容.融合自動(dòng)檢錯(cuò)的單元挑選語(yǔ)音合成方法[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué)語(yǔ)音及語(yǔ)音信息處理國(guó)家實(shí)驗(yàn)室,2016.[8]孫曉輝.結(jié)合聽(tīng)感度量的語(yǔ)音合成方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2006.[9]康廣玉,郭世澤,孫圣和.基于共振峰過(guò)度的協(xié)同發(fā)音語(yǔ)音合成算法[J].天津大學(xué)學(xué)報(bào),2010,43(9):810-814.[10]張斌,全昌勤,任福繼.語(yǔ)音合成的方法和發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2016.1(37):186-192.[11]AlexanderKain,MichaelW.Macon.SpectralVoiceConversionforText-To-SpeechSynthesis[D].Eugene:CenterforSpokenLanguageUnderstandingOregonGraduateInstituteofScienceandTechnology,1998.[12]張雄偉,陳亮,楊吉斌.現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[M].北京:高等教育出版社,2003:186-189.[13]何鑫.基于HMM的單元挑選語(yǔ)音合成方法研究[D].西安:西安工業(yè)大學(xué),2017.[14]樊博.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成與可視語(yǔ)音合成研究[D].西安:西北工業(yè)大學(xué),2016.[15]盧恒.基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測(cè)的語(yǔ)音合成方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2011.[16]方健淳.語(yǔ)音合成技術(shù)與單片微機(jī)綜合系統(tǒng)[M].北京:北京航空航天大學(xué)出版社,1995.[17]劉曉軍,王東峰,張麗飛等.一種基于奇異值分解和隱馬爾可夫模型的人臉識(shí)別方法[J].計(jì)算機(jī)學(xué)報(bào),2003,26(3):341-344.[18]林亞平,劉云中,周順先等.基于最大熵的隱馬爾可夫模型文本信息抽取[J].電子學(xué)報(bào),2005,3(2):237-240.[19]李士進(jìn),楊靜宇,陸建峰等.基于奇異值特征和隱馬爾可夫模型的人臉檢測(cè)[J].中國(guó)圖像圖形學(xué)報(bào),2001,6(7):682-687.[20]周順先,林亞平,王耀南等.一種基于奇異值分解和隱馬爾可夫模型的人臉識(shí)別方法[J].電子學(xué)報(bào),2007,35(11):2227-2231.[21]ThomasDrugman,AlexisMoninet,ThierryDuioit.Usingapatch-syncheronousresidualcodebookforhybridHMM/frameselectionspeechsynt
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電聲產(chǎn)品培訓(xùn)課件
- 資產(chǎn)負(fù)債表編制技巧試題及答案
- 項(xiàng)目實(shí)施中的挑戰(zhàn)與應(yīng)對(duì)能力分析試題及答案
- 模具設(shè)計(jì)未來(lái)職業(yè)規(guī)劃試題及答案
- 2024年4月27日四川成都市屬、眉山、資陽(yáng)市事業(yè)單位《職業(yè)能力傾向測(cè)驗(yàn)》試題真題試卷答案解析
- 2024年植保員考試中的常見(jiàn)錯(cuò)誤與解決措施試題及答案
- 未來(lái)籃球裁判員等級(jí)考試試題及答案展望
- 2024年裁判員職能與界限試題及答案
- 水利基礎(chǔ)設(shè)施綜合提升改造項(xiàng)目可行性研究報(bào)告(參考)
- 農(nóng)作物種子繁育與市場(chǎng)競(jìng)爭(zhēng)試題及答案
- 新版王者榮耀答題闖關(guān)
- 山東省日照市東港區(qū)2023-2024學(xué)年六年級(jí)下學(xué)期期中數(shù)學(xué)試題
- 日式介護(hù)培訓(xùn)課件
- 人際交往與溝通課件第五章 人際交往的語(yǔ)言溝通與非語(yǔ)言溝通
- 面向多類型數(shù)據(jù)源的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建及ETL關(guān)鍵技術(shù)的研究
- 人工智能倫理導(dǎo)論- 課件 第3、4章 人工智能倫理、人工智能風(fēng)險(xiǎn)
- 景墻的施工技術(shù)方案
- 施工標(biāo)準(zhǔn)化九牌一圖
- 單角子宮疾病演示課件
- 義務(wù)教育物理課程標(biāo)準(zhǔn)(2022年版)測(cè)試題文本版(附答案)
- 護(hù)士團(tuán)隊(duì)建設(shè)指南如何帶領(lǐng)和管理護(hù)理團(tuán)隊(duì)
評(píng)論
0/150
提交評(píng)論