版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
-PAGE35-基于HMM的語音合成技術研究ResearchonSpeechSynthesisTechnologyBasedonHMM注:頁眉,居中,楷體,五號。閱后刪除此文本框。摘要注:頁眉,居中,楷體,五號。閱后刪除此文本框。語音合成技術是一種將計算機等電子設備中存儲或輸入的文本信息轉換為對應音頻的一種技術,是機器與人類交互的一種方法,語言是人類最習慣的溝通方式,所以語音交互相比于其他交互方式如文字交互,動作交互更加方便,自然。語音合成技術發(fā)展歷史有二百年之久,語音合成的方法也不斷地更新和發(fā)展,由最初的機械合成器,到后來的電子合成器,共振峰合成器,語音合成技術也慢慢的趨于成熟而更加智能化。本文介紹了一種基于統(tǒng)計模型的語音合成方法,這是近年來隨著人工智能領域的迅速發(fā)展而成為主要研究熱點的一種合成方法,同其他合成方法相比,基于統(tǒng)計模型的語音合成具有智能化、合成語音穩(wěn)定等優(yōu)點。隱馬爾科夫模型(HidenMarkovModel,HMM)是其中最常用的統(tǒng)計模型,是語音識別,模式識別相關領域中的主流模型。本文采用的硬件平臺是EAIDK610-P0,該平臺是EAIDK的第一款智能硬件平臺,專為人工智能開發(fā)者精心打造的面向邊緣計算的開發(fā)套件,主芯片采用ArmChina和瑞芯微公司共同研發(fā)的RK3399,為人工智能開發(fā)提供簡潔高效、統(tǒng)一的API接口。本文首先對語音合成的發(fā)展歷史和關鍵技術進行了總結,然后對HMM模型的原理以及相關算法進行了研究,并對其三個經(jīng)典的三個問題的解決算法進行研究,在一定的理論基礎上,對基于HMM的語音合成原理進行了解,最終實現(xiàn)在嵌入式平臺上進行HMM模型訓練,并基于Flite開源框架在嵌入式平臺上實現(xiàn)了語音合成功能,最后對不同音素庫合成的語音質量進行了評估。關鍵詞:隱馬爾可夫模型;嵌入式系統(tǒng);交叉編譯;語音合成
AbstractSpeechsynthesistechnologyisatechnologyforconvertingtextinformationstoredorinputinelectronicdevicessuchascomputersintocorrespondingaudio.Itisamethodformachineandhumaninteraction.Languageisthemostcommoncommunicationmethodforhumanbeings,sovoiceinteractionComparedwithotherinteractionmethodssuchastextinteraction,actioninteractionismoreconvenientandnatural.Thehistoryofspeechsynthesistechnologyhasbeenaroundfor200years,andthemethodsofspeechsynthesishavebeencontinuouslyupdatedanddeveloped.Fromtheinitialmechanicalsynthesizerstothelaterelectronicsynthesizers,formantsynthesizers,speechsynthesistechnologyisalsoslowlyMatureandmoreintelligent.Thispaperintroducesaspeechsynthesismethodbasedonstatisticalmodel,whichisasyntheticmethodthathasbecomeamajorresearchhotspotinrecentyearswiththerapiddevelopmentofartificialintelligence.Comparedwithothersyntheticmethods,speechsynthesisbasedonstatisticalmodelhasIntelligent,syntheticvoicestabilityandotheradvantages.ThehiddenMarkovmodelmainlyintroducedinthispaperisthemostcommonlyusedstatisticalmodel,andisthemainstreammodelinthefieldofspeechrecognitionandpatternrecognition.ThehardwareplatformusedinthispaperisEAIDK610-P0,whichisthefirstintelligenthardwareplatformofEAIDK.Itisanedge-orienteddevelopmentkitspeciallydesignedforartificialintelligencedevelopers.ThemainchipisjointlydevelopedbyArmChinaandRuixinwei.RK3399providesasimple,efficientandunifiedAPIinterfaceforartificialintelligencedevelopment.ThroughtheHMMmodeltrainingontheplatform,andbasedontheFliteopensourceframeworktoachievethespeechsynthesisfunctionontheembeddedplatform,thispaperalsoevaluatesthespeechqualitysynthesizedbydifferentphonemes.Thispaperfirstsummarizesthedevelopmenthistoryandkeytechnologiesofspeechsynthesis,thenstudiestheprincipleofHMMmodelandrelatedalgorithms,andstudiesthesolutionsofthreeclassicthreeproblems,onacertaintheoreticalbasis.UnderstandtheprincipleofHMM-basedspeechsynthesis,andfinallyrealizetheHMMmodeltrainingontheembeddedplatform,andimplementthespeechsynthesisfunctionontheembeddedplatformbasedontheFliteopensourceframework.Finally,thespeechqualitysynthesizedbydifferentphonemeslibraryiscarriedout.Evaluation.KeyWords:HidenMarkovModel;EmbeddedSystems;Crosscompilation;Speechsynthesis.目錄摘要 IIIAbstract IV第一章語音合成概述 11.1語音合成技術簡介 11.1.1語音合成概念 11.1.2語音合成意義 21.2語音合成發(fā)展歷史和現(xiàn)狀 41.2.1發(fā)展歷史 41.2.2語義合成研究現(xiàn)狀 51.3語音合成主要方法 51.3.1參數(shù)合成方法 51.3.2波形拼接合成法 61.3.3基于統(tǒng)計模型的合成方法 71.4本章小結 7第二章基于HMM模型的語音合成 82.1馬爾科夫過程 82.2隱馬爾科夫模型 82.3HMM模型的三個問題 102.3.1評估問題 102.3.2解碼問題 102.3.3學習問題 112.4基于HMM的語音合成 122.4.1TTS系統(tǒng)結構 122.4.3模型訓練階段 132.4.4語音合成階段 162.5本章小結 17第三章基于嵌入式的語音合成實現(xiàn) 183.1ARM嵌入式平臺簡介 183.1.1EAIDK套件概述 183.1.2ARM開發(fā)板RK3399的概述 183.2Linux系統(tǒng) 203.3基于ARM嵌入式的Linux系統(tǒng)編譯和移植 223.3.1安裝交叉編譯環(huán)境 233.3.2虛擬機和ARM開發(fā)板的鏈接介質 243.3.3編譯Linux內核 243.3.4文件傳輸 243.4基于Linux系統(tǒng)的語音合成軟件設計 243.5本章小結 26第四章語音合成性能測試結果與分析 274.1語音質量的主觀評測 274.2語音質量的客觀評測 284.3評測結果總結 30第五章總結和展望 315.1總結 315.2展望 31參考文獻 32附錄AFlite部分程序代碼 錯誤!未定義書簽。致謝 35第一章語音合成概述1.1語音合成技術簡介1.1.1語音合成概念語音合成是通過模仿人類發(fā)聲器官,用機器產(chǎn)生人類自然語音的技術。通俗來講,就是用機器發(fā)出人類的聲音,把機器自己產(chǎn)生的,或者外部輸入的文字信息轉換成清晰、流暢的語音,相當于是給機器安裝了發(fā)聲器官,賦予機器用語言表達自己的能力。它涉及到信號處理、聲學、語音學、模式識別以及心理學等眾多學科的理論和技術,是一門典型的交叉學科[1]。語音合成技術目前有三種類型:文字到語音的合成(Text-To-Speech,TTS)、概念到語音的合成(Concept-To-Speech,CTS)、意向到語音的合成(Intention-To-Speech,ITS)[2]。TTS、CTS、ITS分別代表了在不同的層次上合成語音的過程[3],其中,最淺顯的也是目前研究最為熱門的是TTS,即文字到語音的合成技術。本文主要研究的也是TTS技術。圖1.1TTS系統(tǒng)結構圖圖1.1是TTS系統(tǒng)的結構框圖。TTS技術由文本分析、韻律控制和語音生成三個核心模塊組成[4]。文本分析指的是對系統(tǒng)要處理的文本內容進行分詞,標音,把文本內容轉化成單一的音標或組合,經(jīng)過文本分析后輸出與文本相對應的音標序列。韻律特征是對每個人聲音的語氣,語調,音長等參數(shù)的體現(xiàn),每個人由于說話習慣以及聲道構造不同,其語音參數(shù)也不盡相同,而影響這些區(qū)別的則是如基頻,音強,音長等韻律參數(shù),韻律控制就是對這些參數(shù)進行計算,從而合成更加生動的語音。語音生成就是TTS系統(tǒng)根據(jù)計算得出的音標序列和聲音參數(shù),利用聲音合成器合成語音的過程。文本分析模塊在TTS系統(tǒng)中有著至關重要的作用,作為語音合成的第一步,它的作用是對輸入的文本信息進行理解和分析[5],并把發(fā)音信息傳給后兩個模塊。文本分析模塊的工作原理是結合發(fā)音詞典、規(guī)則庫、統(tǒng)計庫等發(fā)音字典,對輸入的文本信息進行分解單個音素,并進行音標標注,同時確定每一個詞,每一個音節(jié)的重音等級。文本分析主要包括四個步驟:規(guī)范文本、分析語法、標音和確定重讀,停頓和語氣[6]。文本分析之后,將標注后的音標序列作為韻律控制模塊的輸入,進行對合成語音韻律的處理。聲音的韻律特征是機器聲音和自然語音差距最大的一個方面。自然語音傳遞信息不僅僅通過語音的內容,聲音的語氣,節(jié)奏,還有重音的不同,也是對信息的修飾,所以要想生成更加貼近自然語音的音頻,對聲音韻律特征的控制起到很重要的作用。一般常用聲音的音強、音長和音色來對韻律特征進行描述[7],他們對應的是聲學當中的幅度、基頻和頻譜的等參數(shù)。韻律控制就是對聲音的這些參數(shù)進行收集和分析,然后語音生成模塊根據(jù)這些參數(shù)特征用語音合成器進行語音合成。傳統(tǒng)意義上來說,聲音合成器有兩種,一是基于規(guī)則的合成器,另一種是波形拼接的合成器[8]?;谝?guī)則的合成器是采用模擬人的生理發(fā)聲規(guī)律的方法,先歸納出語音的產(chǎn)生規(guī)律,然后對信號進行控制,產(chǎn)生合成語義。波形拼接合成器則是把事先錄制好的語音庫按照一定順序重新排序,從而生成符合文本內容的語音。隨著技術的發(fā)展,現(xiàn)在越來越多的是兩種合成方法組合使用,大大提高了合成語音的質量[9]。1.1.2語音合成意義語音合成技術和傳統(tǒng)的聲音播放系統(tǒng)有著根本上的區(qū)別。聲音播放系統(tǒng)如錄音機,是簡單的把采集到的音頻再播放出來,并不能自如的表達出人們想要傳遞的信息。而語音合成器是把機器產(chǎn)生或者人為輸入的任何文字信息以音頻的形式輸出出來[10],并且輸出的音頻愈發(fā)趨近于人類自然語音,使人類和機器的交流成為了可能,同時,在信息的存儲,傳輸和及時性等方面都較其他方式有很大的優(yōu)勢,所以在信息處理領域,它也正作為研究熱點被熱切關注,技術愈發(fā)成熟。語言是人類最習慣的交流方式,在人機交互方式中,語音交互也是人們使用最為方便的一種,語音識別、語義理解和語音合成是語音交互的兩個重要技術,語音合成作為交互過程的最后一步其重要性可見一斑。雖然由于語義理解的技術發(fā)展水平有一定限制,但語音合成技術仍取得了很大的進步,目前已經(jīng)成功應用在很多領域。自助服務領域隨著科技發(fā)展,越來越多的服務行業(yè)愈發(fā)自動化,各種自助服務系統(tǒng)也隨之走進我們的生活,而語音合成的存在,使我們在享受的服務的時候更加流暢和方便,比如銀行的自助辦理系統(tǒng),醫(yī)院的自助叫診系統(tǒng),股市查詢系統(tǒng)。智能終端的人機交互近年來,隨著人工智能概念的產(chǎn)生和發(fā)展,各種智能終端的交互方式也有了翻天覆地的變化,“聲控”的智能手機、智能音響、智能家居等智能終端大大提高了我們的生活質量,省掉了很多不必要的動作,而且即使是不懂使用智能化終端的老人或者不認識文字的小孩也可以對機器進行控制,擴大了使用人群的范圍。有聲讀物閱讀對于任何人來說都是一個重要的學習途徑,我們通過閱讀接觸跟多新鮮事物,也通過閱讀找尋更真實的自己,但是節(jié)奏越來越快的生活使我們留給閱讀的時間越來越少?,F(xiàn)在人們更趨向于碎片化閱讀,而這時有聲讀物提供了一種新的解決辦法,當文字變成語音直接呈現(xiàn)給我們的的耳朵的時候,我們可以同時進行其他動作,比如在路上,或者是散步、鍛煉時,給我們提供了一個新的機會去進行閱讀和學習。導航系統(tǒng)語音合成技術和智能地圖軟件結合為我們的出行帶來了很大的方便。語音導航使導航使我們在步行或者駕車的時候能更專注的前進,而不僅為我們提供了詳細,準確的道路信息,而且還對路況也有智能化分析,并且通過語音的方式將信息傳遞給人類,保證了信息傳遞的及時性以及人類最舒適的交互體驗。1.2語音合成發(fā)展歷史和現(xiàn)狀1.2.1發(fā)展歷史人們早在十七世紀就開始了對語音合成的探索研究[11][12]。有記錄的第一臺機械發(fā)音設備是在1779年,俄羅斯人Kzenstein首先對五個長元音(/a/,/e/,/i/,/o/,/u/)的生理發(fā)聲區(qū)別進行了解釋,通過模仿人的聲道,采用震動簧片做激勵制作而成。不久之后,VonKempelen[13]成功發(fā)明出一種不近可以發(fā)出原因,還可以發(fā)出短語和句子的“發(fā)音器官”。該裝置是用一個壓力腔體模仿人體的肺器官,用一個皮革的管道來對人體聲帶進行模擬,通過改變聲道的形狀可以發(fā)出不同的聲音,用一個彈簧振片作為激勵[14],除此之外,還可以通過改變四個分離的受限通路發(fā)出相應的輔音,在當時是比較先進的機械發(fā)聲器。隨著電子元器件的發(fā)展,語音合成技術也和電子器件結合起來。1922年第一個電子語音合成器成功問世,發(fā)明者是Stewart[15],雖然這個發(fā)生器只能發(fā)出兩個元音。不久之后的1939年貝爾實驗室的Dudley[16]就成功發(fā)明了第一個完整的電子語音合成器,該合成器可對基因和濁音參數(shù)進行控制,能夠產(chǎn)生連續(xù)的語音,通過和電子模擬器件的結合實現(xiàn)對聲音的放大和共振。二十世紀后期,共振峰合成器逐漸開始發(fā)展起來[17]。1953年由WalterLawrence[18]設計制作了第一個共振峰合成器,通過一個可以移動的玻璃片對共振峰的頻率進行控制。1962年瑞典的GunnarFant設計制作出級聯(lián)共振峰合成器,隨后更加復雜的共振峰合成器也隨之問世,1981年,Klatt開發(fā)的KlattTalk就采用了串/并聯(lián)混合型聲源[19],能夠合成相對清晰的語音,并通過對聲源的調整來模擬各種不同的聲音。Klatt的語音學領域的卓越貢獻使得語音合成技術有了很大的發(fā)展。對于近代語音合成技術來說,基因同步疊加方法的提出是一次歷史性的進步,這是一種不僅可以保持語音的大部分韻律特征而且可以使合成語音同共振峰合成器相比更加自然的合成方法。[20]九十年以來,隨著信號處理領域的快速發(fā)展,一種基于可訓練統(tǒng)計模型的語音合成方法開始走進人們的視野,其原理是對語音信號的語音參數(shù)進行統(tǒng)計建模,訓練好的聲學模型進行語音合成。這種方法進行語音合成更加智能化,減少了人為的參與。其中,隱馬爾科夫模型是比較常用的統(tǒng)計模型。1.2.2語義合成研究現(xiàn)狀從最開始模擬發(fā)聲器官的機械合成器,到后來電子器件參與的波形拼接合成方法,再到后來隨著信號處理領域的發(fā)展產(chǎn)生的基因同步疊加方法,語音合成技術的發(fā)展總是會受到其他技術的引導或是影響。最近最為熱門的基于統(tǒng)計模型的單元挑選方法,就是伴隨著統(tǒng)計學以及大數(shù)據(jù)的發(fā)展,很顯然,未來技術的發(fā)展將會打破不同領域之間的墻壁,更多的是融合或是依賴關系。語音合成技術的不斷發(fā)展,在越來越多的領域都成為了不可或缺的角色,同時也同其他技術的不斷更新而面臨著巨大挑戰(zhàn)和改革[21]。近年來人們對人工智能的不斷探索和研究,使得相關的人工神經(jīng)網(wǎng)絡,深度學習[22],人機交互等關鍵技術也隨之成為研究熱點,而語音合成的發(fā)展也逐漸趨向智能化,自動化,從最開始的規(guī)則驅動轉向現(xiàn)在的數(shù)據(jù)驅動,不僅節(jié)省了時間,而且可處理的文本數(shù)據(jù)數(shù)量也大大增加,同時,在各種統(tǒng)計模型的支持下,文本處理能力也在不斷增強,生成的語音也更加流暢和人自然,慢慢趨近于符合人類交流需要的自然水平。1.3語音合成主要方法1.3.1參數(shù)合成方法發(fā)音器官參數(shù)合成法最早的合成發(fā)放采用模擬人體發(fā)聲器官的參數(shù)合成方法對語音進行合成[23]。根據(jù)發(fā)聲原理,聲音的產(chǎn)生主要分為聲源激勵、聲道濾波和口鼻輻射三個主要過程。這種方法就是根據(jù)這個原理,用聲音參數(shù)模擬聲道,直接用物理儀器對人體的發(fā)音器官進行模擬合成語音,而在當時由于技術的限制無法對聲音參數(shù)進行準確測量,所以不能對發(fā)音復雜的語音進行合成。線性預測參數(shù)合成法線性預測參數(shù)合成方法屬于源-濾波器模型[24],它和器官參數(shù)合成法的主要區(qū)別在于后者直接利用聲音參數(shù)模擬聲道,而源-濾波器模型用濾波器來模擬聲道,聲音參數(shù)則用來改變聲道模型,使得合成語音具有不同的音色。線性預測的聲道模型如下:(1.1)其中G為增益,ai共振峰合成法共振峰同樣也是源-濾波器模型,但同線性預測參數(shù)合成的區(qū)別在于共振峰合成法側重于模擬聲道的諧振特性。共振峰是指聲音頻譜中能量相對密集的一些區(qū)域,反映了聲道特性的重要特征,是聲音信息最直接的來源。其主要原理是:首先用多個共振峰濾波器來對聲道特性進行模擬,然后調制激勵信號,再通過輻射效應輸出語音。共振峰合成法通過對聲音參數(shù)的控制可以合成不同發(fā)音人的聲音,其優(yōu)勢在于強大的韻律調整能力,然而合成語音的自然度仍然不能滿足大眾要求。1.3.2波形拼接合成法以上的參數(shù)合成方法是基于規(guī)則的合成方法,其合成過程中人為因素起了很重要的作用,而波形拼接合成方法是基于數(shù)據(jù)的合成方法,顧名思義,是把波形進行拼接獲得語音的一種方法,其原理主要是直接對事先采集好的語音信號進行波形貯存,在合成語音時直接挑選出合適的波形并拼接在一起,由于用于拼接的聲音波形都是從語音庫中挑選出來的,所以這種方法合成的語音自然度性能較好,合成語音的音質較高。上個世紀九十年代提出的PSOLA的提出為語音合成技術的發(fā)展帶來了質的飛躍。基音同步疊加技術由Moulines和Charpentier提出[25],可以對語音信號中基頻和時長進行相關修改,以保證合成語音的原有聲音特性。其具體的實施步驟有三個:分析語音信號的分析是指對源語音信號進行加窗處理[26],其中采用的的窗函數(shù)是基音同步的函數(shù),生成一組短時分析信號,基音信息的準確度對于后續(xù)的合成步驟有很大影響。調整對分析生成的短時語音信號進行轉換和調整,他這個過程分為三個步驟:對短時語音信號的數(shù)量的調整、對基音同步標志的間隔的調整以及對短時語音信號的波形進行調整。疊加疊加是指對調整之后的短時語音信號進行疊加處理,最終得到合成的語音信號,基頻的疊加通常通過改變基音標記序列的間隔來實現(xiàn)[27],而語音時長的修改通過刪除或者增加基因標記序列來實現(xiàn),常用的疊加處理方法如最小均方差法。1.3.3基于統(tǒng)計模型的合成方法近年來隨著統(tǒng)計學,模式識別的發(fā)展走入人們視野的統(tǒng)計模型的合成方法越來越為熱門,其中最為常用的便是基于隱馬爾科夫模型。基于模型的合成方法的原理是通過訓練的方式對聲學參數(shù)和標注信息進行建模,再結合之前的參數(shù)合成或是波形拼接方式,合成的語音既具有高自然度的有點,同時又能減少人工的參與,實現(xiàn)自動化。本文的第二章將詳細介紹基于隱馬爾科夫模型的語音合成方法的原理以及流程。1.4本章小結本章主要介紹了語音合成的概念和意義,目前人工智能的迅速發(fā)展使得語音交互成為最主要的人機交互手段,而語音合成也正是因此而受到重視,目前已經(jīng)應用到很多領域,如智能終端、語音導航和有聲讀物等。還簡單介紹了語音合成的發(fā)展歷史以及發(fā)展現(xiàn)狀,最后介紹了語音合成的幾種主要的合成方法,其中基于統(tǒng)計模型的合成方法是本文主要研究的一種合成方法。
第二章基于HMM模型的語音合成2.1馬爾科夫過程要了解馬爾科夫過程首先要明確什么是馬爾科夫性質,假設隨機過程中某一時刻的狀態(tài)st(2.1)即隨機過程中某一時刻的狀態(tài)st,只與它前一時刻的狀態(tài)st?1若為一條馬爾科夫鏈,則有:(2.2)其中,此時,若不考慮時間序列,該馬爾科夫鏈可以描述一個具有限個狀態(tài)的過程.2.2隱馬爾科夫模型如果馬爾科夫鏈中任意時刻的狀態(tài)變量不可見,也就是說無法直接觀測到,而每一個時刻都有一個可見的觀測值ot與之對應,而且每一個ot與當前時刻的隱含狀態(tài)一一對應,這時我們稱該模型為隱馬爾科夫模型,所以,隱馬爾科夫模型中的馬爾科夫鏈實際上指的是隱含的狀態(tài)序列序列。HMM模型的關鍵是從可觀察序列中確定該過程的隱含狀態(tài),并通過這些參數(shù)來做進一步的分析,如模式識別、語音識別[29]等。圖2.1HMM模型示意圖如圖2.1所示為隱馬爾科夫模型的示意圖,HMM基本模型具有如下參數(shù):觀察序列觀察序列為我們可以觀測到的這個隨機過程的輸出符號集合,我們用O表示,O={O1狀態(tài)序列狀態(tài)序列是該模型輸出的所有狀態(tài)的合集,我們用q來表示,q={1,2,…,N},N為系統(tǒng)的狀態(tài)總數(shù),qt狀態(tài)轉移概率狀態(tài)轉移概率指的是從當前狀態(tài)轉移到另一個狀態(tài)的概率[30],我們用A表示,A={aij}(2.3)輸出概率矩陣輸出概率矩陣指的是在狀態(tài)i時輸出對應的狀態(tài)O時的概率的聚合,我們用B表示輸出概率矩陣,,這個概率的定義如下:(2.4)其中Xt初始狀態(tài)序列HMM模型一般用于對數(shù)據(jù)的估計,所以除了以上四個參數(shù),我們還會已知一部分的可觀察序列的狀態(tài),稱為初始狀態(tài)序列,用∏表示,={πj},這時我們用φ2.3HMM模型的三個問題評估問題,解碼問題和學習問題是HMM模型的三個主要應用。2.3.1評估問題即已知一個HMM模型=(A,B,∏),和一個已知的觀測序列前向算法是為了解決動態(tài)規(guī)劃問題而發(fā)明出來的算法,應用前向算法時,我們首先列舉出局部狀態(tài)的遞推關系,然后一步步進行迭代,最終得到整個問題的最優(yōu)解。定義前向概率αti為觀測狀態(tài)為o={o1,(2.5)則時刻t+1對應的的隱藏狀態(tài)i的前向概率為:(2.6)其中N為狀態(tài)數(shù)總量,一次遞推后得到計算的最終結果為:(2.7)2.3.2解碼問題即已知HMM模型φ=(A,B,∏)和一個已知的觀測序列將要求得的最佳狀態(tài)序列定義為在給定觀測序列O的前提下,概率P=(S|O,φ)最大的狀態(tài)序列S=(2.8)它是在時刻t產(chǎn)生觀測序列X1t[(2.9)為了得到完整的最佳狀態(tài)序列,需要遍歷每個狀態(tài)。定義Bt(j)為t時刻狀態(tài)為j的最佳序列中,前一個時刻所處的狀態(tài)序號,這時能夠簡化利用Viterbi算法求解最佳狀態(tài)序列的步驟[第一步:初始化(2.10)第二步:迭代(2.11)(2.11)第三步:終止全局的最佳狀態(tài)序列概率(2.13)(2.14)第四步:路徑回溯st?=Bt+1s2.3.3學習問題即已知觀測序列o={o1,o2,…,EM算法是一種基于最大似然估計的的優(yōu)化算法,該算法一般分為兩個步驟:E-step:根據(jù)參數(shù)計算每個樣本屬于某個狀態(tài)的概率這個概率一般用Q表示。M-step:根據(jù)上一步計算得出的概率Q,求解出含有該參數(shù)的最大似然函數(shù),并且更新該參數(shù)的值在應用EM算法求解HMM模型參數(shù)的問題中,我們需要在E步求出聯(lián)合分布P=(Q|φ)基于條件概率P(Q|O,Φ)的期望,其中EΦ,Φ=Q在M步,我們對上述式子做極大化處理,得到更新后的模型參數(shù):Φ=argmaxΦQP接下來就是E步和M步的重復迭代,一直到Φ收斂,便可依次求解模型參數(shù)A,B,∏。2.4基于HMM的語音合成2.4.1TTS系統(tǒng)結構如圖2.2所示為基于HMM模型的TTS系統(tǒng)的結構圖。一個完整的TTS系統(tǒng)包括訓練部分和合成部分。訓練部分主要包括對語料的預處理和HMM模型的訓練兩個步驟。其中對語料的預處理就是將語料庫中的音頻文件進行文本標注,進而得到訓練語音的單音節(jié)文本的標注文件和上下文相關的標注文件,得到的這些標注文件可為HMM模型訓練提供輸入的文本信息。在HMM模型訓練之前,還需對語音信號進行聲學參數(shù)提取,主要包括激勵參數(shù)提取和譜參數(shù)提取,然后對以上參數(shù)進行建模。在HMM的模型訓練中,得到含有激勵參數(shù)、譜參數(shù)以及上下文信息的HMM模型庫。在TTS系統(tǒng)的合成部分,首先利用文本分析工具對目標文本進行預處理,即文本分析處理,這一過程主要是將輸入的目標文本轉換成計算機可以理解的數(shù)據(jù)文件,分析結果主要是標注音素后的文本的發(fā)音序列,其中還包含了上下文的信息,將這些標注文件根據(jù)聚類策樹進行預測,預測結束后便可獲得包含上下文信息的HMM模型,再根據(jù)HMM模型的參數(shù)學習算法得到聲音的基頻參數(shù)F0和Mel倒譜系數(shù)等聲學參數(shù),最后把這些參數(shù)輸入到合成濾波器中便可得到合成的語音信號。圖2.2HMM語音合成流程圖2.4.3模型訓練階段基于HMM模型的語音合成方法的訓練主要包括:準備語料庫、提取聲學參數(shù)和決策樹聚類等步驟。語料庫的設計目標是用盡可能少的語料句子包含盡可能多的自然語音和用法,要盡可能選取涵蓋語音學特征的文本作為選取語料的基礎,即要包含所有的元音、輔音,也要包含常用的動詞、名詞、形容詞和副詞等。對聲學參數(shù)的提取一般包括Mel倒譜系數(shù)和基頻參數(shù)F0等,這些參數(shù)就代表了語音的內容,發(fā)音規(guī)則和說話人聲音的韻律特征等,參數(shù)越多對合成語音的還原度就越高?;l參數(shù)無法應用用連續(xù)或者離散的分布進行建模,因此這里我們選擇多空間概率分布的HMM(MSD-HMM)建模方法。在MSD-HMM模型中,每一種狀態(tài)都有至少兩種概率分布,如圖2.3所示。基頻F0的輸出狀態(tài)概率如圖2.4所示。圖2.3基頻F0的MSD-HMM建模圖2.4基頻F0的狀態(tài)輸出對Mel倒譜系數(shù)的建模同基頻F0的建模方法一樣,都是MSD-HMM建模。具體建模方法見圖2.5。圖2.5Mel的MSD-HMM的建模為了保證合成語音的流暢性,除了對以上聲學參數(shù)建模之外還要對文本的上下文屬性也進行建模,這樣一來就會限制訓練數(shù)據(jù)總量,而采用聚類分析法可以根據(jù)數(shù)據(jù)之間的相似性將數(shù)據(jù)分類,分成互不相同的類別,用這種方法構造決策樹法進行聚類。如圖2.6是一個自頂向下的遞歸構造決策樹,從頂點開始,根據(jù)節(jié)點的問題進行分叉,一直到滿足所有的條件為之。通過這種方法可以大大減少建模的數(shù)量。圖2.6聚類決策樹2.4.4語音合成階段本文中的基于HMM的參數(shù)合成模型是模仿人體發(fā)音系統(tǒng)采用激勵-合成的算法模型。如圖2.7為人類發(fā)聲系統(tǒng)的原理示意圖。人的發(fā)聲就是由氣流激勵聲帶振動激勵聲道中空氣發(fā)聲振動,并從口鼻兩處向外輻射而成[34]。圖2.7人體發(fā)聲流程圖語音按照激勵形式不同大致可以分為三種:清音、濁音和摩擦音。而在激勵-合成模型中激勵信號一般只分清音和濁音兩種,清音一般是指氣流使聲帶振動產(chǎn)生周期脈沖氣流,而濁音是指氣流并沒有使聲帶振動,二是在某處收縮,這時氣流高速通過聲帶收縮部分。激勵-合成模型的基本原理如圖2.8所示。圖2.8激勵-合成算法該模型對上述人體器官進行模仿,其中,脈沖序列對應語音信號中的濁音,而白噪聲對應語音信號中的清音,?(n)是一個線性時不變系統(tǒng),用來模擬聲帶等口腔器官,最終生成的語音對應的就是人體正常發(fā)出的聲音。在頻域上,H(2.5本章小結本章首先對HMM模型及其原理進行研究,主要研究了HMM模型的三種經(jīng)典問題以及它們各自的解決算法,主要介紹了學習問題和解碼問題因為它們分別對應了語音合成中的訓練階段和合成階段。最后介紹了基于HMM的語音合成流程和具體步驟,為下一章的嵌入式實現(xiàn)做理論基礎。第三章基于嵌入式的語音合成實現(xiàn)3.1ARM嵌入式平臺簡介3.1.1EAIDK套件概述EAIDK是OPENAILAB攜手ARMChina專為人工智能開發(fā)者打造的一款嵌入式人工智能開發(fā)套件,面向邊緣計算的人工智能研究,該平臺不僅具備語音、視覺等傳感器數(shù)據(jù)采集能力,而且適用于多場景的運動控制接口;滿足AI教育、算法應用開發(fā)、產(chǎn)品原型開發(fā)驗證等需求,并且支持視覺分析處理、語音識別、語義分析、語音合成、SLAM等應用。EAIDK610-P0主芯片采用瑞芯微的RK3399,同時搭載OPENAILAB嵌入式AI開發(fā)平臺AID(包含支持異構計算庫HCL、嵌入式深度學習框架Tengine以及輕量級嵌入式計算機視覺加速庫BladeCV)。為AI應用提供高效、統(tǒng)一、簡潔的API接口。3.1.2ARM開發(fā)板RK3399的概述RK3399是瑞芯微公司的一款六核ARM64位處理器,主頻高達2.0GHz,配置4GBLPDDR4雙通道64位ARM高性能內存。具有多種供電方式,可接入擴展板。擁有Type-CPD2.0電源控制芯片、支持寬電壓(5V-15V)輸入,另外還可以采用POE+(802.3AT,輸出功率30W)增強型以太網(wǎng)充電方式,或雙節(jié)電池供電,滿足用戶不同場景的應用選擇。下圖3.1和3.2分別為RK3399的正反面實物圖。圖3.1RK3399正面圖3.2RK3399反面3.2Linux系統(tǒng)Linux是一種免費使用和自由傳播的類Unix操作系統(tǒng)[35],該操作系統(tǒng)基于POSIX和UNIX的多用戶、多任務,并且支持多線程以及多CPU。本文中使用的操作系統(tǒng)版本為Ubuntu18.04LTS,Ubuntu18.04LTS為Ubuntu2018年4月份發(fā)布的最新版本系統(tǒng),該系統(tǒng)對JDK和系統(tǒng)安全性等做了相關改進。在Linux環(huán)境下我們一般通過命令來進行對文件的操作,軟件的更新和安裝以及程序的書寫及編譯,剛接觸Linux的人可能會不習慣這種陌生的操作方式,但是熟練了之后便可以發(fā)現(xiàn)其中的方便之處,表3.1中列舉了一些Linux環(huán)境下的常用指令。表3.1Linux常用指令Linux命令描述cd/home進入“/home”目錄cd..返回上一級目錄ls查看目錄中的文件ls-l顯示文件和目錄的詳細信息mkdirdir1新建名為“dir1”的文件rmfile1刪除名為“file1”的文件rm-rfdir1刪除名為“dir1”的文件夾tar-xzvfachieve.tar.gz解壓achieve.tar.gzsudoyuminstallpackage下載并安裝package安裝包vifile編輯“file”make編譯makeclean編譯安裝在Linux環(huán)境下代碼的編寫在vim編輯器中進行,該編輯器功能強大并且十分智能,可以通過字體顏色辨別語法的正確性[36],便于程序編寫。Vim會根據(jù)文件的開頭信息自動判斷文件內容而執(zhí)行改程序的語法判斷,除此之外,編輯器內還支持如搜索、多文件編輯、模塊復制等額外的功能,使我們代碼的編寫十分便捷。Vim的使用也非常簡單,剛啟動時對應的是命令模式,這時可以輸入對編輯器的相關指令如保存、退出。在命令模式下按i進入輸入模式[37],也可以說是編輯模式,這時可以對文件進行編輯。在輸入模式下按Esc鍵進入命令模式,這時再按:之后便可以輸入相關指令如保存、退出。表3.2所示為vim編輯器的常用指令。表3.2vim編輯器常用指令vim指令作用w保存文件q退出編輯器wq保存文件并退出編輯器q!退出編輯器但不保存u撤銷上一步操作setnember顯示行號3.3基于ARM嵌入式的Linux系統(tǒng)編譯和移植圖3.5嵌入式Linux開發(fā)流程圖在RK3399開發(fā)板上實現(xiàn)Linux系統(tǒng)的編譯和移植需要首先在PC端windows系統(tǒng)下安裝運行虛擬機VMwareWorkstation,創(chuàng)建系統(tǒng)平臺。如圖3.5是嵌入式Linux開發(fā)的操作流程圖。3.3.1安裝交叉編譯環(huán)境交叉編譯指的是在PC端對源代碼進行編譯生成在ARM開發(fā)板上可以直接運行的可執(zhí)行程序。交叉編譯需要依賴交叉編譯工具鏈,工具鏈可以在官網(wǎng)進行下載,本文使用的是64位的arm-linux-gnu-4.5.1.tar.gz。將該壓縮包拷貝到Linux系統(tǒng)的目錄/usr/local/arm下進行解壓并安裝。安裝的主要步驟為:解壓工具鏈壓縮包:sudotar-xzvfrk3399-gcc-linux-gnu.tar.gz更改環(huán)境變量:sudonano/etc/profile在最后一行加入編譯鏈/bin文件夾路徑,保存并退出使環(huán)境變量生效:source/etc/profile[38]查看環(huán)境變量是否成功添加:echo/etc/profile若有路徑中有編譯鏈的路徑則表示成功查看是否安裝成功:aarch64-linux-gnu-gcc-v若出現(xiàn)版本信息則成功,如圖3.6所示。圖3.6交叉編譯環(huán)境安裝成功3.3.2虛擬機和ARM開發(fā)板的鏈接介質常見的鏈接方式有三種:串口方式,USB連接和網(wǎng)線連接[39]。不同的連接方式有各自的軟件支持,本文使用的是網(wǎng)線連接方式,常見的網(wǎng)絡連接服務主要有兩個:tftp服務和nfs服務。本文選擇的是前者,通過tftp可以直接將文件在內存中運行,可以減少Flash的燒錄次數(shù),提高了開發(fā)效率。3.3.3編譯Linux內核Linux內核使系統(tǒng)中起控制作用的核心部分,對系統(tǒng)的網(wǎng)絡和文件系統(tǒng)以及進程和設備驅動等反面進行控制。Linux內核的配置主要目的是精簡其自身的框架結構[40][41]。Linux內核的編譯配置和移植的主要步驟為:首先從官網(wǎng)下載Linux內核的壓縮包,然后拷貝到工作目錄/usr/local/arm中并解壓,進入目錄利用#./configure進行配置,再利用#make命令來編譯Linux內核。最后把生成的uImage內核進行重新命名之后放入網(wǎng)絡文件系統(tǒng)中,通網(wǎng)線的方式傳輸?shù)紸RM開發(fā)板上。3.3.4文件傳輸在windows系統(tǒng)下載安裝Xshell軟件可通過SSH方式對虛擬機Linux系統(tǒng)進行遠程控制,首先要在主機和虛擬機中開啟SSH服務,Linux指令為sudoapt-getinstallopenssh-server。然后通過ifconfig指令查詢虛擬機的IP地址,如圖n所示。然后在Xshell中新建連接并填入虛擬機IP地址便可進行連接,連接成功后可實現(xiàn)遠程控制和互傳文件等操作。Xshell中可以通過ZMODEM直接進行互傳文件,只需要安裝rz和sz指令,通過命令:#sudoapt-getinstalllrzsz,就可以使用。這種方式簡化了掛載的過程并且也可以實現(xiàn)網(wǎng)絡文件共享的功能。3.4基于Linux系統(tǒng)的語音合成軟件設計本文的軟件設計基于Flite框架實現(xiàn)嵌入式平臺的TTS,F(xiàn)lite是為了解決Festival語音合成系統(tǒng)由于過于臃腫而無法在嵌入式平臺中應用的問題而被開發(fā)出來的,因此,F(xiàn)lite具有短小精悍,快速實時[42]等優(yōu)勢,采用的程序語言為標準C。Flite源代碼可以在其開源官網(wǎng)進行下載,本文中使用的是第四版,即flite-1.4-release,該版本完全采用C語言,便攜性更好,速度更快,同時重新演繹了Festival架構的核心部分,使每個系統(tǒng)的聲音之間具有緊密的兼容性。除此之外,還支持將FestVox語音編譯為Flite語音,能夠很好的實現(xiàn)合成功能。圖3.7Flite主函數(shù)流程圖Flite主函數(shù)中先對運行flite_init()函數(shù)對合成進行初始化,然后進行音素庫的選擇,F(xiàn)lite框架中包含了5種可以選擇的音素庫,即訓練好參數(shù)模型的HMM,名字分別是awb,kal,kal16,slt,rms,其中kal為默認音素庫,可以通過更改相關變量對默認音素庫進行修改。在選擇音素庫之后便開始對語音進行合成。主函數(shù)的程序流程框圖如圖3.7所示。將Flite在PC端虛擬機內調試完成后,進行交叉編譯,生成可以在嵌入式ARM平臺執(zhí)行的可執(zhí)行文件,然后將代碼包通過ZMODEM方式拷貝到ARM平臺,執(zhí)行可執(zhí)行文件后得到音頻文件,并可以在ARM平臺上進行音頻播放,從而實現(xiàn)了語音合成的功能。Flite主程序見附錄A。3.5本章小結本章主要介紹了在嵌入式平臺上實現(xiàn)語音合成功能的流程。首先對嵌入式平臺EAIDK和PC端的Linux系統(tǒng)進行簡單介紹,然后對交叉編譯相關概念進行陳述,最后詳細介紹了基于Flite框架在嵌入式平臺實現(xiàn)語音合成功能的過程和軟件結構。
第四章語音合成性能測試結果與分析實現(xiàn)在嵌入式平臺上語音合成功能后,為了進一步分析該語音合成實驗的所合成的語音效果以及參數(shù)研究,進行了對合成語音的質量評測和對比[43],本文主要對比了不同音素庫的合成參數(shù)以及合成語音的質量,為更好的應用基于HMM語音合成技術以及嵌入式Flite框架提供數(shù)據(jù)支持。評測包括兩部分,一種是主觀評測,一種是客觀評測,先對五種音素庫合成的語音進行比較,繼而將五種音素庫合成的語音同人聲作對比,然后總結出合成語音質量相對較好的語音參數(shù)。4.1語音質量的主觀評測該實驗首先為語音質量設置好五個等級,也就是將人聲作為參照,根據(jù)語音的準確度、自然度和清晰度等進行劃分五個等級[44],也即五分制。主觀評測的方法為MOS評測也成為平均意見得分,是一種常用的評分標準,用該評測方法對聲音的自然度進行打分。參加測評的志愿者選用了五位本專業(yè)對語音有所了解的同學以及五位其他專業(yè)的同學,評測的環(huán)境是安靜的室內通過立體聲音響對語音進行播放,志愿者分別為五種不同的合成聲音進行打分。其中MOS的打分機制如表4.1所示。表4.1MOS評分機制得分質量等級自然度5優(yōu)感覺不到失真4良感覺出失真但是聽著舒服3中感覺到失真且聽著不舒服2差不舒服的感覺很明顯但是可以忍受1劣不舒服的感覺很強烈且無法忍受對于MOS測評的結果,我們用公式5.1來進行計算:MOS=1Mi=1其中M表示總票數(shù),mi表示得到其中某一類具體分的票數(shù),score我們對五種音素庫合成的語音分別進行打分,十個人在試聽后根據(jù)聽到第一感覺按照打分制的標準進行打分,打分結果如表4.2所示,可以看出,rms音素庫的平均得分最高,也就是說其合成語音更加符合人類聽覺習慣,其他幾種音素庫的合成語音也都達到了合成語音的質量標準。表4.2MOS評分結果五種音素庫質量MOS評分音素庫awbkalkal16sltrms分數(shù)143354分數(shù)244445分數(shù)353344分數(shù)443354分數(shù)534434分數(shù)644445分數(shù)745544分數(shù)854444分數(shù)943344分數(shù)1054435平均分44.34.2語音質量的客觀評測語音質量的客觀測試是指將用嵌入式系統(tǒng)合成的語音和人類發(fā)出的語音進行參數(shù)對比,本文采用國際電信聯(lián)盟建議書提供的語音質量客觀評測方法PESQ。PESQ的測試得分規(guī)定在0.5-4.5之間,分數(shù)越低,質量越差,在失真嚴重的情況下也有可能會產(chǎn)生0.5分以下的分數(shù)[45]。PSEQ評分工具可以在ITUPESQ官方網(wǎng)站/rec/T-REC-P.862/en進行下載,然后再windows下的powershell找到文件路徑運行。如圖4.1為PESQ打開成功示意圖。圖4.1PESQ打開成功PESQ的使用指令為:./PESQ.exe[options]refdeg其中[options]為采樣率的選擇,一般為+8000Hz或者+16000Hz,ref為原始文件,deg為待評估文件,PESQ將待評估文件同原始文件進行比較,比較過程通過三個不同階段使用很多的頻譜值計算很多大數(shù)量的不同的對稱和非對稱的參數(shù),最終給出客觀評測分數(shù)。我們在該實驗中對五種音素庫合成的語音分別同人聲語音進行評測,評測的文本為一段BBC新聞稿,原文如下:TheBBChaslearnedthattheBritishPrimeMinisterGordonBrownhasdecidedBBC,thattheBritishgeneralelectionwilltakeplaceonMay6th.MrBrownwillgotoBuckinghamPalacetomorrowTuesday,toaskQueenElizabethtodissolveparliament,andthenmakeaformalannouncementoftheelectiondate.Thatwillstarttheofficialelectioncampaign,which,aBBCcorrespondentsays,BBC,willbedominatedbyissuesoftaxation,andspendinginthewakeoftheglobalrecession.[46]評測的得分結果如下表4.3所示,可以看出其中合成質量最高的是awb音素庫,該音素庫的合成語音通原聲的得分比達到98.1%,表明其合成語音準確且流暢,而其他幾種音素庫的合成語音也都遠遠超過及格標準并且同主觀評測的結果相接近,都通過了PESQ評測。表4.3PESQ得分結果音素庫Pesq得分rmssltawbkalkal16原聲3.1553.2083.2112.2182.218合成語音3.0533.1323.1521.8261.826得分比0.967670.97630390.9816260.8232640.8232634.3評測結果總結為了對嵌入式平臺合成的語音進行質量評估,采用主觀評測和客觀評測兩種方式對五種音素庫合成的語音進行了質量檢驗,根據(jù)兩種評測的結果可以得出rms和awb兩種音素庫合成語音質量較其他幾種音素庫合成語音質量高,而其他幾種音素庫的合成語音也達到了合格的標準,可證明在嵌入式系統(tǒng)上實現(xiàn)語音合成功能成功。第五章總結和展望5.1總結本文是基于HMM的語音合成的嵌入式ARM平臺實現(xiàn),主要研究了HMM模型在嵌入式ARM平臺上的應用,基于統(tǒng)計模型的語音合成目前已經(jīng)大量應用于各種終端和服務器,其中HMM模型是最為常用的一種,用該方法合成的語音準確流暢并且可以通過訓練語料庫合成不同人的聲音,生成的語音質量可以通過PESQ客觀評測。本文硬件選用基于ARMRK3399的OPENAILABEAIDK610-P0人工智能開發(fā)平臺,軟件選擇基于Flite的開源語音合成基本框架,最終在嵌入式平臺上實現(xiàn)語音合成功能并播放合成語音,并且可以選擇不同的音素庫,基本完成了任務書上規(guī)定的相關要求。畢業(yè)設計過程中主要的工作內容如下:對語音合成技術的歷史和發(fā)展歷程進行研究,了解了當前語音合成的主要關鍵技術,尤其是基于HMM模型的語音合成技術。對該合成方法的重要算法和基本問題進行了研究。對本文使用的嵌入式開發(fā)平臺進行研究學習,包括EAIDK610-P0的硬件電路,Linux系統(tǒng),交叉編譯等相關內容,實現(xiàn)將Flite框架在嵌入式系統(tǒng)的編譯和移植,最終在嵌入式ARM平臺實現(xiàn)語音合成功能,并可以通過嵌入式平臺進行語音播放。對語音評測方案的設計,對嵌入式系統(tǒng)合成的語音進行了主觀評測和客觀評測,主要采用MOS主觀評測方法和PESQ客觀評測方法,最終選擇出最佳的音素庫。5.2展望在實現(xiàn)了語音合成功能的嵌入式平臺實現(xiàn)以及對五種不同音素庫的質量評測之后,下一步計劃是根據(jù)評測結果進一步對語音參數(shù)進行分析和調整,達到該硬件和軟件最高水平,在保證了準確度和清晰度之后,對情緒韻律做研究,使合成語音不僅能夠準確傳達信息,并且?guī)в胸S富多樣的感情色彩,能夠描述更多種聲音和情緒,使人機交互過程更加流暢。參考文獻[1]范會敏,何鑫.中文語音合成系統(tǒng)的設計與實現(xiàn)[J].計算機系統(tǒng)應用,2017,26(2):73-77.[2]胡亞軍.基于神經(jīng)網(wǎng)絡的統(tǒng)計參數(shù)語音合成方法研究[J].《中國博士學位論文全文數(shù)據(jù)庫》,2018,(10).[3]李娟,張雪莫,黃麗霞等.基于Hilbert-Huang變換的語音合成基音標注搜索新算法[J].2018,41(12):41-43.[4]包森成.基于統(tǒng)計模型的韻律結構預測研究[D].北京:北京郵電大學,2009.[5]王克會.基于WIFI和隱馬爾可夫模型的室內定位算法研究[J].計算機時代,2018,1:9-12.[6]jinzeyu.SpeechSynthesisforText-BasedEditingofAudioNarration[D].PrincetonUniversity,2018.[7]孫曉輝,凌震華,戴禮容.融合自動檢錯的單元挑選語音合成方法[D].合肥:中國科學技術大學語音及語音信息處理國家實驗室,2016.[8]孫曉輝.結合聽感度量的語音合成方法研究[D].合肥:中國科學技術大學,2006.[9]康廣玉,郭世澤,孫圣和.基于共振峰過度的協(xié)同發(fā)音語音合成算法[J].天津大學學報,2010,43(9):810-814.[10]張斌,全昌勤,任福繼.語音合成的方法和發(fā)展綜述[J].小型微型計算機系統(tǒng),2016.1(37):186-192.[11]AlexanderKain,MichaelW.Macon.SpectralVoiceConversionforText-To-SpeechSynthesis[D].Eugene:CenterforSpokenLanguageUnderstandingOregonGraduateInstituteofScienceandTechnology,1998.[12]張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術及應用[M].北京:高等教育出版社,2003:186-189.[13]何鑫.基于HMM的單元挑選語音合成方法研究[D].西安:西安工業(yè)大學,2017.[14]樊博.基于神經(jīng)網(wǎng)絡的語音合成與可視語音合成研究[D].西安:西北工業(yè)大學,2016.[15]盧恒.基于統(tǒng)計模型與發(fā)音錯誤檢測的語音合成方法研究[D].合肥:中國科學技術大學,2011.[16]方健淳.語音合成技術與單片微機綜合系統(tǒng)[M].北京:北京航空航天大學出版社,1995.[17]劉曉軍,王東峰,張麗飛等.一種基于奇異值分解和隱馬爾可夫模型的人臉識別方法[J].計算機學報,2003,26(3):341-344.[18]林亞平,劉云中,周順先等.基于最大熵的隱馬爾可夫模型文本信息抽取[J].電子學報,2005,3(2):237-240.[19]李士進,楊靜宇,陸建峰等.基于奇異值特征和隱馬爾可夫模型的人臉檢測[J].中國圖像圖形學報,2001,6(7):682-687.[20]周順先,林亞平,王耀南等.一種基于奇異值分解和隱馬爾可夫模型的人臉識別方法[J].電子學報,2007,35(11):2227-2231.[21]ThomasDrugman,AlexisMoninet,ThierryDuioit.Usingapatch-syncheronousresidualcodebookforhybridHMM/frameselectionspeechsynt
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版體育賽事贊助與合作合同模板3篇
- 2025年商標保護變更合同
- 2025年度臨時攤位租賃合同范本應用手冊4篇
- 2025年增資補助協(xié)議
- 2025年醫(yī)療器械合同解約協(xié)議
- 2025版節(jié)能環(huán)保鋁模制作與安裝勞務合同4篇
- 二零二五年度茶葉種植基地防雹網(wǎng)搭建服務合同3篇
- 水電工程2025年度施工臨時設施租賃合同2篇
- 2025年選煤廠智能化生產(chǎn)系統(tǒng)承包合同3篇
- 教育領域的媒體融合內容創(chuàng)新實踐報告
- 2024年度醫(yī)院肝膽外科實習生帶教計劃課件
- 微機原理與接口技術考試試題及答案(綜合-必看)
- 勞務投標技術標
- 研發(fā)管理咨詢項目建議書
- 濕瘡的中醫(yī)護理常規(guī)課件
- 轉錢委托書授權書范本
- 一種配網(wǎng)高空作業(yè)智能安全帶及預警系統(tǒng)的制作方法
- 某墓園物業(yè)管理日常管護投標方案
- 蘇教版六年級數(shù)學上冊集體備課記載表
- 內蒙古匯能煤電集團有限公司長灘露天煤礦礦山地質環(huán)境保護與土地復墾方案
- 22S702 室外排水設施設計與施工-鋼筋混凝土化糞池
評論
0/150
提交評論