第6章語音合成_第1頁
第6章語音合成_第2頁
第6章語音合成_第3頁
第6章語音合成_第4頁
第6章語音合成_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1第第6章章 語音合成語音合成 2Speech signal processing1 1語音合成技術概述語音合成技術概述2 2共振峰合成技術共振峰合成技術3 3LPCLPC參數(shù)合成技術參數(shù)合成技術4 4PSOLAPSOLA合成合成5 5按規(guī)則合成按規(guī)則合成6 6語音合成的未來發(fā)展方向語音合成的未來發(fā)展方向31. 概 述n什么是語音合成?n語音合成就是讓計算機象人那樣講話。n人們用語言進行交流時,用聲音來表達自己的意向、情感。例如:如某人問你:你愿意和我一起去看電影嗎?你的回答可能是:“是的,我很高興和你一起去看電影?!保隙ǎ吲d)“抱歉,我不能和你一起去看電影,因為我要去開會?!保o可奈何)

2、“不去,還是你自己去看吧?!保ǚ穸ǎ﹏這三句話表達了不同的意向和情感。計算機也應該像人那樣來回答。4n語音合成的研究目標是: 可懂 清晰 自然 具有表現(xiàn)力n研究意義n語音合成技術可以大大改善人機交互環(huán)境n計算機反饋信息的方式是屏幕顯示。這種單調的信息輸出方式給用戶帶來許多不便,特別是長時間地注視顯示屏使人疲勞,降低人獲取信息和理解信息的能力。n網絡環(huán)境的輸出設備多種多樣:這種枯燥單一的交互方式影響了計算機的應用。n計算機語音輸出能提供聲文并茂的信息表示方式,可以改變人機交互“默默無聞”的狀況,為計算機的普及應用創(chuàng)造更好的條件。n將“能看到”、“看不到”的信息變成“可聽”的信息n將“非即時獲得的

3、信息”變成“即時可聽”的信息5n語音合成是一門跨學科的前沿技術,涉及到下列相關研究領域:n它將上述領域的研究成果結合在一起,使計算機具備說話的能力。自然語言理解語言學語音學信號處理心理學聲學 66.1 概述概述 “會說話的機器會說話的機器”“語音合成語音合成”。語音合成:由。語音合成:由人工制作出語音,就是由機器產生出聲音,它是人機人工制作出語音,就是由機器產生出聲音,它是人機語聲通信的一個重要組成部分。語音合成系統(tǒng)是一個語聲通信的一個重要組成部分。語音合成系統(tǒng)是一個單向系統(tǒng),由計算機到人。單向系統(tǒng),由計算機到人。 用語音合成來傳遞語言具有下面的用語音合成來傳遞語言具有下面的優(yōu)點優(yōu)點:不用不用

4、特別注意和專門訓練,任何人都可以理解。特別注意和專門訓練,任何人都可以理解。可以直可以直接使用電話網和電話機。接使用電話網和電話機。無須消耗紙張等資源。無須消耗紙張等資源。 7 語聲應答系統(tǒng)實際上是在一個方向上語聲應答系統(tǒng)實際上是在一個方向上(由機器到由機器到人人)用語聲進行通信,它用口語的形式輸出信息。語用語聲進行通信,它用口語的形式輸出信息。語聲應答系統(tǒng)可作為計算機的一個外設,它將計算機聲應答系統(tǒng)可作為計算機的一個外設,它將計算機存儲的信息轉換成語聲形式輸出。這在許多由計算存儲的信息轉換成語聲形式輸出。這在許多由計算機進行查詢和檢索的場合中是十分有意義的。機進行查詢和檢索的場合中是十分有意

5、義的。 語音合成的語音合成的目的目的:產生與人通信有關的語音。:產生與人通信有關的語音。8語音合成技術概述語音合成技術概述9 語音合成的三個層次:Intention-To-SpeechConcept-To-SpeechText-To-Speech按照人類語言功能的不同層次,語音合成也可分為三個層次,即:按照人類語言功能的不同層次,語音合成也可分為三個層次,即: 1 1、從文字到語音的合成(、從文字到語音的合成(T Text-ext-t to-o-S Speechpeech);); 2 2、從概念到語音的合成(、從概念到語音的合成(C Concept-oncept-t to-o-S Speech

6、peech);); 3 3、從意向到語音的合成(、從意向到語音的合成(I Intention-ntention-t to-o-S Speechpeech)。)。10這三個層次反映了人類大腦中形成說話內容的不同過程,這三個層次反映了人類大腦中形成說話內容的不同過程,涉及人類大腦的高級神經活動。不難想像,即使是按規(guī)則涉及人類大腦的高級神經活動。不難想像,即使是按規(guī)則排列的文字到語音合成(文語合成)也已經是相當困難的排列的文字到語音合成(文語合成)也已經是相當困難的任務。為了合成出高質量的語言,除了依賴于各種規(guī)則,任務。為了合成出高質量的語言,除了依賴于各種規(guī)則,包括語義學規(guī)則、詞匯規(guī)則、語音學規(guī)則

7、外,還必須對文包括語義學規(guī)則、詞匯規(guī)則、語音學規(guī)則外,還必須對文字的內容有很好月的理解,這將涉及自然語言理解字的內容有很好月的理解,這將涉及自然語言理解(NLU)問題。從這一點講,文語轉換系統(tǒng)實際上也可)問題。從這一點講,文語轉換系統(tǒng)實際上也可看作是一個人工智能系統(tǒng)。看作是一個人工智能系統(tǒng)。 1112語音合成系統(tǒng)的組成語音合成系統(tǒng)的組成- - TTS文本分析:首先根據(jù)發(fā)音字典,將輸入的文字串分解為帶有屬性標記的詞及其讀音符號。韻律生成:根據(jù)語義規(guī)則和語音規(guī)則,為每個詞、每個音節(jié)確定重音等級和語句結構及語調、以及各種停頓等。語音生成:文字串就變換為代碼串,規(guī)則合成系統(tǒng)就可以據(jù)此合成抑揚頓挫和不同

8、語氣的語句。以文字串為輸入的規(guī)則合成系統(tǒng),其輸入的文字串是通常的文本字串。13 生 文 本 語 音 攜 帶 韻 律 信 息 表 示 的 文 本 攜 帶 文 本 標 注 和 拼 音 信 息 的 文 本 & 文 本 分 析 語 音 生 成 文 本 規(guī) 范 化 分 詞 & 詞 性 標 注 語 法 分 析 & 語 義 分 析 字 音 轉 換 韻 律 標 注 停 頓 ( 韻 律 結 構 邊 界 ) 重 音 語 調 韻 律 生 成 基 頻 時 長 能 量 查找拼寫錯誤,并將文本中查找拼寫錯誤,并將文本中出現(xiàn)的一些不規(guī)范或無法發(fā)出現(xiàn)的一些不規(guī)范或無法發(fā)音的字符過濾掉。音的字符過濾掉。

9、分析文本中詞或短語的邊界,標注詞性、確定文字的讀音,同時分析文本中出現(xiàn)的數(shù)字、姓氏、特殊字符、專有詞語以及各種多音字的讀音方式。分析文本中每個句子的語法分析文本中每個句子的語法結構和語義結構,確定語義結構和語義結構,確定語義中心,句子的重音模式,語中心,句子的重音模式,語調,從而為韻律處理提供必調,從而為韻律處理提供必要信息。要信息。對音系層的韻律事對音系層的韻律事件預測:聲調、語件預測:聲調、語調、輕重、節(jié)律等調、輕重、節(jié)律等對聲學層的韻對聲學層的韻律參數(shù)預測律參數(shù)預測語音合成系統(tǒng)的流程語音合成系統(tǒng)的流程- -TTS14 語音合成和語音識別技術是實現(xiàn)人機語音通信,建立一個有聽和講能力的口語系

10、統(tǒng)所必需的兩項關鍵技術。使電腦具有類似于人一樣的說話能力,是當今時代信息產業(yè)的重要競爭市場。和語音識別相比,語音合成的技術相對說來要成熟一些,并已開始向產業(yè)化方向成功邁進,大規(guī)模應用指日可待。語音合成,又稱文語轉換(Text to Speech)技術,它涉及聲學、語言學、數(shù)字信號處理、計算機科學等多個學科技術,是中文信息處理領域的一項前沿技術,解決的主要問題就是如何將文字信息轉化為可聽的聲音信息,也即讓機器像人一樣開口說話。我們所說的“讓機器像人一樣開口說話”與傳統(tǒng)的聲音回放設備(系統(tǒng))有著本質的區(qū)別。傳統(tǒng)的聲音回放設備(系統(tǒng)),如磁帶錄音機,是通過預先錄制聲音然后回放來實現(xiàn)“讓機器說話”的。

11、這種方式無論是在內容、存儲、傳輸或者方便性、及時性等方面都存在很大的限制。而通過計算機語音合成則可以在任何時候將任意文本轉換成具有高自然度的語音,從而真正實現(xiàn)讓機器“像人一樣開口說話”。文語轉換系統(tǒng)實際上可以看作是一個人工智能系統(tǒng)。為了合成出高質量的語言,除了依賴于各種規(guī)則,包括語義學規(guī)則、詞匯規(guī)則、語音學規(guī)則外,還必須對文字的內容有很好的理解,這也涉及到自然語言理解的問題。文語轉換過程是先將文字序列轉換成音韻序列,再由系統(tǒng)根據(jù)音韻序列生成語音波形。其中第一步涉及語言學處理,例如分詞、字音轉換等,以及一整套有效的韻律控制規(guī)則;第二步需要先進的語音合成技術,能按要求實時合成出高質量的語音流。因此

12、一般說來,文語轉換系統(tǒng)都需要一套復雜的文字序列到音素序列的轉換程序,也就是說,文語轉換系統(tǒng)不僅要應用數(shù)字信號處理技術,而且必須有大量的語言學知識的支持。15TTS技術構成及處理流程:16n語音合成有著廣闊的應用前景 它可應用于: 盲人計算機,電話信息查詢,文本校對,專家系統(tǒng)的有聲輸出、火車站、飛機場的航班信息報告等領域。有限詞匯語音合成的應用n語音手表(鬧鐘)、玩具、教具n儀器/電器(打印機、微波爐)有聲信息發(fā)布n車站列車、機場航班信息發(fā)布n114的電話號碼報出辦公系統(tǒng)中的有聲信息17Microsoft Mary,Sam,Mike利用Microsoft TTS Engine18語音合成有著廣闊

13、的應用前景n多媒體數(shù)據(jù)庫n電子字典、電子文檔、電子圖書的有聲輸出n盲人計算機nPDA等掌上計算機語音合成與電話結合的應用n電話銀行、郵局、稅務、考試/錄取信息發(fā)布/查詢n股市行情查詢/交易n168信息臺全面更新19n典型應用Network based20n典型應用電子有聲文庫21nVoice CommunicationnUniform ServersInternet電腦 固定電話傳真PDA傳呼機電話交換系統(tǒng)語音傳真系統(tǒng)短消息系統(tǒng)傳呼系統(tǒng)ISPVoIP語音網關E_mail網關短消息網關傳呼接口網關傳真網關WAP網關交換層數(shù)據(jù)庫服務器WEB服務器E-Mail服務器設備接口層移動電話VoIP(Voi

14、ce over Internet Protocol)簡而言之就是將模擬聲音訊號(Voice)數(shù)字化,以數(shù)據(jù)封包(Data Packet)的型式在 IP 數(shù)據(jù)網絡 (IP Network)上做實時傳遞。 WAP(Wireless Application Protocol)為無線應用協(xié)議,是一項全球性的網絡通信協(xié)議 .22nVoice CommunicationnVoice Gateway文本數(shù)據(jù)包語音數(shù)據(jù)包轉發(fā)文本數(shù)據(jù)包主語音網關Email Gateway I V R負載平衡控制從語音網關A從語音網關BInteractive Voice Response systems IVR即無線語音業(yè)務增值

15、服務,和目前大家熟知的固定電話聲訊服務類似。手機用戶撥打指定號碼,獲得所需信息或者參與互動式的服務。 23nVoice CommunicationnVoice Mail242. 語音合成的歷史n1939年 Voder 第一個電子合成器n1987年 Klatt 共振峰合成 語音合成技術的研究已有兩百多年的歷史,但真正具有實用意義的近代語音合成技術是隨著計算機技術和數(shù)字信號處理技術的發(fā)展而發(fā)展起來的。主要是讓計算機能夠產生高清晰度、高自然度的連續(xù)語音。在語音合成技術的發(fā)展過程中,早期的研究主要是采用參數(shù)合成方法,后來隨著計算機技術的發(fā)展又出現(xiàn)了波形拼接的合成方法。25n機械式語音合成器Pneuma

16、tic speech synthesiser developed by von Kempelen in 1791. .au/units/slp807/history_synthesis/26/psl/smus/smus.htmlDoes it likes a Piano or an Organ?27n第一個電子合成器:Voder283. 計算機言語輸出技術n語音輸出的實現(xiàn)方法n錄音/重放n若采用錄音/重放的方法,首先要把模擬語音信號轉換成數(shù)字序列,編碼后,暫存于存儲設備中(錄音),需要時,再經解碼,重建聲音信號(

17、重放)。錄音/重放可獲得高音質聲音,并能保留特定人的音色。但所需的存儲容量隨發(fā)音時間線性增長。n語音合成(亦稱“文語轉換,Text-to-Speech,TTS”)n文一語轉換(TTS)是基于聲音合成技術的一種聲音產生技術。它可用于語音合成和音樂合成。文一語轉換是語音合成技術的延伸,它能把計算機內的文本轉換成連續(xù)自然的語聲流。若采用這種方法輸出語音,應預先建立語音參數(shù)數(shù)據(jù)庫、發(fā)音規(guī)則庫等。需要輸出語音時,系統(tǒng)按需求先合成語音單元,再按語音學規(guī)則或語言學規(guī)則,連接成自然的語流。29n語音合成方法發(fā)音器官參數(shù)語音合成這種方法對人的發(fā)音過程進行直接模擬。它定義了唇、舌、聲帶的相關參數(shù)。由這些發(fā)音參數(shù)估

18、計聲道截面積函數(shù),進而計算聲波。這是對人發(fā)音過程的直接模擬,有可能產生逼真的語音。但由于人發(fā)音生理過程的復雜性,理論計算與物理模擬之間的差異,合成語音的質量暫時還不理想。304. Concept-to-SpeechnWhat is it?n輸入:建立在格結構和短語模型基礎上的概念描述n輸出:合成語音n關鍵技術:n自然語言生成n韻律修飾n語音合成n實例:n日本大阪大學的SOCS(Speech Output from Case Structure Representation)315. 文語轉換應用系統(tǒng)介紹 nAlive Text to Speech開發(fā)商:AliveMedia, Inc. USA

19、http:/ C&E Ver2.1語音合成系統(tǒng) 開發(fā)商:安徽中科大訊飛信息科技有限公司 http:/ Inc. TTS樣本文件: Alive TTS.txt33n科大訊飛語音合成系統(tǒng)http:/ 語音合成,又稱文語轉換(Text to Speech)技術,它涉及聲學、語言學、數(shù)字信號處理、計算機科學等多個學科技術,是中文信息處理領域的一項前沿技術,解決的主要問題就是如何將文字信息轉化為可聽的聲音信息,也即讓機器像人一樣開口說話。以上TTS語音采用科大訊飛語音合成系統(tǒng) InterPhonic C&E Ver2.1合成。http:/ Speech Centerhttp:/www.t

20、ext-to-speech- Configurable Clipboard Options - You decide how IISC behaves when your computers clipboard changes.l Alarm & Reminders - Just as a alarm clock, IISC can announce time to you every special interval depend on your settings. And IISC also maintains a reminders list to remind you of y

21、our important business.l Configurable GLOBAL Hotkeys - IISC allows you to define your favorite GLOBAL hotkeys to control IISC even in other program. This feature is very useful for weak-eyed users.l Optional MP3 Quality - The Output Sample Frequencies and Output Bitrates options allow you to make a

22、choice between the quality and the size. l Powerful Command Lines - As a advanced user, you can use the command lines of IISC to do you want to do!l Multiple Output Modes - Output synthesized speech either to your speakers or to audio files. Choose between WAV and MP3 audio file formats.l Support Mu

23、ltiple Languages/Engines - Including English, Spanish, British English, Dutch, French, German, Italian, Portuguese, etc.36n其他Text-to-Speech系統(tǒng)nCommPowerhttp:/ 語音合成原理 語音合成可以分為下面三種類型: 1. 波形合成法:它把人發(fā)音的語音波形直接存儲或者進行波形編碼后存儲,根據(jù)需要編輯組合輸出。這種系統(tǒng)中語音合成器只是語音存儲和重放的器件。缺點:詞匯量不可能做到很大,因為所需的存儲容量太大了。應用:自動報時、報號、報站及報警等。 39n這

24、種方式以語句、短語、詞或音節(jié)為合成單元,這些單元分別被錄音后直接進行數(shù)字編碼,經過適當?shù)臄?shù)據(jù)壓縮,組成一個合成語音庫。n重放時,根據(jù)待輸出的信息,在語音庫中取出相應單元的波形數(shù)據(jù),串接或編輯在一起,經過解碼還原出語音,這種合成方法也叫錄音編輯合成。n合成單元越大, 合成的自然度越好,系統(tǒng)結構簡單,價格低廉,合成語音的數(shù)碼率較大,存儲量也大,因而合成的詞匯有限。n在自動報時、報號、報站或報警等裝置中,多采用這種技術,現(xiàn)有多種合成芯片可供選用。402. 參數(shù)合成法:也稱為分析合成法,是一種比較復雜的方法。為了節(jié)約存儲容量,必須先對語音信號進行分析,提取出語音的參數(shù),以壓縮存儲量。缺點:存在逼近誤差

25、,合成語音質量(清晰度等)也就比波形合成法要差;這種方法采用聲碼器技術,以高效的編碼來減少存儲空間,但這是以犧牲音質為代價的,使合成語音的音質欠佳。這種語音合成又稱為“終端模擬合成”,因為它只是在譜特性的基礎上來模擬聲道的輸出語音,而不考慮內部發(fā)音器官是如何運動的。41n這種合成方法多以音節(jié)、半音節(jié)或音素為合成單元。n首先按照語音理論,對所有合成單元的語音進行分析,一幀一幀提取有關語音參數(shù),這些參數(shù)經編碼后組成一個合成語音庫。n輸出時,根據(jù)待合成的語音的信息,從語音庫中提取出相應的合成參數(shù), 經編輯和連接順序送入語音合成器中,在合成器中合成參數(shù)的控制下,一幀一幀的重新還原語音波形。n主要的合成

26、參數(shù)有:控制音強的幅度、控制音高的基頻和控制音色的共振峰參數(shù)。n這種方式的速碼率比波形編輯方式小的多,但是系統(tǒng)結構也復雜些,合成音質也差些。42n但應該指出,在目前的技術水平下,要想合成任意一語種的無限詞匯量的語音,僅采用上述的“分析-存儲-合成”法是不可能的。n甚至對于以音節(jié)為基礎,且字匯量較少的漢語,若以音節(jié)字為合成基元,也有1300個音節(jié)字,即使使用參數(shù)存儲也將是很困難的。n因此國際上都在努力開發(fā)另一類無限(全)詞(字)匯量的語音合成方法,這第二類法就是所謂“按語言學規(guī)則的從文本至語言”的語言合成法(Test- to Speech Synthesis by Rule)。433. 規(guī)則合成

27、法:通過語音學規(guī)則產生語音,合成的詞匯表不事先確定,系統(tǒng)中存儲的是最小的語音單位(如音素或音節(jié))的聲學參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子以及控制音調、輕重等韻律的各種規(guī)則。給出待合成的字母或文字后,合成系統(tǒng)利用規(guī)則自動地將它們轉換成連續(xù)的語音聲波。特點:可以合成無限詞匯的語句,存儲量比參數(shù)合成法更小,但音質也更難得到保證。 44合成方式比較45 使用大的語音單位作存儲基元,則能合成出高質使用大的語音單位作存儲基元,則能合成出高質量的語句,但需要很大的存儲量。需要在語音質量的語句,但需要很大的存儲量。需要在語音質量和存儲量之間折衷考慮,通常存儲量是首先要量和存儲量之間折衷考慮,

28、通常存儲量是首先要考慮的因素??紤]的因素。 對于合成無限詞匯的情況,只能采用較小的語音對于合成無限詞匯的情況,只能采用較小的語音單位,如以音素為基元。單位,如以音素為基元。 音節(jié)是語音中最自然的結構單位。在漢語中,一音節(jié)是語音中最自然的結構單位。在漢語中,一個音節(jié)就是汶語中一個字的音,由音節(jié)構成詞,個音節(jié)就是汶語中一個字的音,由音節(jié)構成詞,最后由詞構成句子。所以由音節(jié)作為基元構成的最后由詞構成句子。所以由音節(jié)作為基元構成的語句也是無限多的。語句也是無限多的。語音合成中存儲基元的選擇問題:語音合成中存儲基元的選擇問題:46語音合成的基本術語合成單元(Synthesis Unit)n合成單元也稱為

29、合成單位,是語音合成系統(tǒng)所處理的最小的語音學基本單位,待合成詞語的合成語音庫就是所有合成單元的集合。n按由小到大的順序排列,語音學中的音素、雙音素、半音節(jié)、音節(jié)、詞、短語和句子都可以用作合成單元,合成單元越大,合成語音音質越好,但合成語音的數(shù)量及其數(shù)碼率也越大。n在波形編碼合成方式中,合成單元較大,多為詞、短語或句子。n在參數(shù)式分析合成和規(guī)則合成方式中,英語或日語的合成多采用音素,輔音加元音和元音加輔音等合成單元,漢語的合成單元多采用音節(jié)和聲、韻母作合成單元。47語音合成的基本術語合成參數(shù)(Synthesis Parameters)n在參數(shù)合成和規(guī)則合成方式中,控制語音合成器以輸出所需語音的一

30、組參數(shù)。n合成參數(shù)分為兩類:n音色參數(shù)n韻律參數(shù)n音色參數(shù)又稱為音段參數(shù),常用的有:共振峰頻率,線性預測系數(shù),LSF系數(shù)和生理發(fā)音參數(shù)。n韻律參數(shù)又稱為超音段參數(shù),主要有控制音強的幅度參數(shù),控制音高的基頻參數(shù),控制音長的時間參數(shù)等。48語音合成的基本術語合成參數(shù)(Synthesis Parameters)n在參數(shù)合成方式中,每個合成單元的每幀合成參數(shù)直接取自該合成單元實際錄音的分析數(shù)據(jù)。n在規(guī)則合成方式中,每個合成單元的合成參數(shù)是對大量語音材料進行聲學分析后,經反復調試歸納得出的,合成參數(shù)的選取和調試對合成音質關系極大。49語音合成的基本術語合成語音庫(Database for Synthes

31、is )n在語音合成系統(tǒng)中,所有合成單元的編碼數(shù)據(jù)或合成參數(shù)數(shù)據(jù)的集合稱為合成語音庫。n對于波形編碼合成方式,語音庫中存儲的是合成單元的波形編碼;n對于參數(shù)合成方式,語音庫中存儲的是各合成單元逐幀的合成系數(shù);n在規(guī)則合成方式中,語音庫中存儲的是各合成單元的聲學參數(shù)和一系列合成規(guī)則。50語音合成的基本術語語音合成器(Speech Synthesizer )n在參數(shù)合成和規(guī)則合成系統(tǒng)中,將語音合成參數(shù)轉變?yōu)檎Z音波形的軟件和硬件系統(tǒng)就是語音合成器。n語音合成器是按照語音產生的聲學模型構成的,它模擬了語音產生的三個過程:聲源激勵、聲道(即口腔、鼻腔和咽腔的總和)共鳴和口鼻輻射,其中模擬聲道共鳴特性的數(shù)

32、字濾波器尤為關鍵。n依據(jù)控制語音音色的合成參數(shù)和數(shù)字濾波器的構造的不同,語音合成器可分為共振峰合成器、線性預測合成器、線譜對合成器和發(fā)音參數(shù)合成器等類別。51語音合成的基本術語合成音質(Quality of Synthetic Speech )n合成音質是指語音合成系統(tǒng)所輸出的語音的質量,一般從清晰度(或可懂度)、自然度和連貫性等方面來進行主觀評價。n清晰度是正確聽辨有意義詞語的百分率;n自然度用來評價合成語音音質是否接近人說話的聲音,合成詞語的語調是否自然;n連貫性用來評價合成語音是否流暢。52 6.3 共振峰合成共振峰合成原理共振峰合成原理原理:音色各異的語音具有不同的共振峰模式,以每個共

33、振峰頻率及其帶寬作為參數(shù),可以構成共振峰濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性(頻率響應),對激勵源發(fā)出的信號進行調制,再經過輻射模型就可以得到合成語音。53什么是“共振峰” 語音合成的理論基礎是語音生成的數(shù)學模型。該模型語音生成過程是在激勵信號的激勵下,聲波經諧振腔(聲道),由嘴或鼻輻射聲波。因此,聲道參數(shù)、聲道諧振特性一直是研究的重點。在圖1所示的某一語音的頻率響應圖中,標有Fp1, Fp2, Fp3, 處為頻率響應的極點,此時,聲道的傳輸頻率響應有極大值。習慣上,把聲道傳輸頻率響應上的極點稱之為共振峰,而語音的共振峰頻率(極點頻率)的分布特性決定著該語音的音色。5455模

34、型級聯(lián)型、并聯(lián)型、混合型。優(yōu)點對音高、音長、音強等目標值可以通過設置激勵和諧振器參數(shù)等來實現(xiàn),調整起來較容易。缺點由于對聲道的模擬不精確影響了合成的自然度;控制參數(shù)過多,導致實現(xiàn)困難。 T T t1 t2 T T1 (a) 三角波 (b) 多項式波 (c) 濾波器沖激響應 0 激勵源 分為濁音和清音。56混合型共振峰模型共振峰合成技術共振峰合成技術57共振峰合成實例58 6.4 LPC6.4 LPC參數(shù)合成技術參數(shù)合成技術 原理 一個語音的采樣能夠用過去若干個語音采樣的線性組合來逼近。59 形式 利用預測系數(shù)ai直接構成的遞歸型合成濾波器;利用反射系數(shù)ki構成格型合成濾波器。 + + + +

35、z-1 + + z-1 e(1)(n) e(p-1)(n) u(n) =e(p)(n) b(2)(n) 輸入 k2 -k2 kp + + + + z-1 e(0)(n) b(1)(n) k1 -k1 語音輸出 x(n) 60Speech signal processingLPCLPC參數(shù)合成技術參數(shù)合成技術 LPC合成模型中的所有控制參數(shù)都必須隨時間不斷地修正。 (1) 對于清音語音段,可以簡單地針對每一幀數(shù)據(jù)改變一次參數(shù)。 (2) 對于濁音語音段,根據(jù)控制參數(shù)改變時刻的選取不同,有基音同步合成和幀同步合成兩種方式。 (3) 分析幀的長度固定,一般選擇大于兩個基音周期,因此為了得到每個基音周期

36、起始處的控制參數(shù),就必須進行內插。 優(yōu)點 簡單、易于實現(xiàn)。缺點 合成語音樣本需要很高的計算精度61v 如何將一段聲音變慢或者變快? 6.5 6.5 PSOLA基礎基礎-時間尺度的調整(時間尺度的調整(TSM)62Speech signal processingv 變慢一倍后的語譜圖被拉長PSOLAPSOLA基礎基礎- -時間尺度的調整(時間尺度的調整(TSMTSM)63Speech signal processingq 問題Problem:如何保證局部的時間結構,而使整體的時間長度發(fā)生變化?q解決方法 Solution將小段反復重復PSOLAPSOLA基礎基礎- -時間尺度的調整(時間尺度的調

37、整(TSMTSM)64Speech signal processingPSOLAPSOLA基礎基礎- -時間尺度的調整(時間尺度的調整(TSMTSM)65Speech signal processingq 允許在疊加過程中有一定的誤差PSOLAPSOLA基礎基礎- -時間尺度的調整(時間尺度的調整(TSMTSM)66Speech signal processingq 通過交叉相關方法確定 PSOLAPSOLA基礎基礎- -時間尺度的調整(時間尺度的調整(TSMTSM)67PSOLAPSOLA合成技術合成技術原理對原始波形進行分析,產生非參數(shù)的中間表示。(2) 對這些短時信號做必要的修正,形成一

38、系列短時合成信號。首先根據(jù)原始語音波形的基音曲線和超音段特征與目標基音曲線和超音段特征修正的要求,建立合成波形與原始波形之間基音周期的映射關系;再由此映射關系確定合成所需的短時合成信號系列。(3) 將合成短時信號系列與目標基音周期同步排列并重疊相加得到合成波形。68為原始語音段加基音標注是算法執(zhí)行的基礎。 濁音有基音周期,能夠進行有效地標注。 對于清音,為了保持算法的一致性,一般標注為一個適當?shù)某?shù)。 需要按基音周期分別修改音長、基頻及合成信號的幅值。 PSOLAPSOLA合成技術合成技術69PSOLAPSOLA合成技術合成技術 分析軸 合成軸 (b) 合成時映射關系 對于音長的修改,就是找到

39、分析信號的基音同步標注點與最后合成信號的基音同步標注點之間的對應關系,一般它們呈現(xiàn)一種線性關系,下圖給出了音長縮短時的基音標注情況。 70PSOLAPSOLA合成技術合成技術進行基頻和音長的調整 (a) 提高基頻 71PSOLAPSOLA合成技術合成技術 (b) 降低基頻 72PSOLAPSOLA合成技術合成技術 (c) 增加時長 73PSOLAPSOLA合成技術合成技術 (d) 減小時長 74PSOLAPSOLA合成技術合成技術PSOLAPSOLA算法算法(TD-PSOLA)(TD-PSOLA): TD-PSOLA(TD-PSOLA(時域基音同步疊加法時域基音同步疊加法) )基本上實現(xiàn)了,但

40、基本上實現(xiàn)了,但TD-PSOLATD-PSOLA算法較適合于時長的改變算法較適合于時長的改變, ,當涉及音高的改變當涉及音高的改變, ,特特別是音高改變幅度較大時別是音高改變幅度較大時, ,容易造成疊加單元的混疊或析漏。容易造成疊加單元的混疊或析漏。 FD-PSOLA (FD-PSOLA (頻域基音同步疊加法頻域基音同步疊加法) )不僅可以改變時間標不僅可以改變時間標尺,還可以對信號在頻域上做適當調整。尺,還可以對信號在頻域上做適當調整。75 FD-PSOLA算法主要分四個部分:1.基音同步疊加分析:對原始語音信號作準確的基音標記,將原始語音信號與一系列基音同步的窗函數(shù)相乘,得到一系列有重疊的

41、分析短時信號,一般地,窗函數(shù)采用標準的漢寧窗,窗長一般為兩個基音周期,相臨的分析短時信號之間有50%的重疊部分。2.時間標尺的改變:對于給定的音高調整參數(shù)時間調整參數(shù),確定分析短時信號和合成短時信號之間的關系,也就是確定原始基音標記序列和合成基音標記序列。在這過程,我們采用的是基于“調素”論的時長標尺改變方式, 我們不加以深入討論。3.分析短時信號的改變:對分析短時信號作一些分析和修改,產生合成短時信號,在這一過程中,TD-PSOLA算法只對分析短時信號延時處理,而不對信號作頻域上的調整。4.基音同步疊加處理:對合成短時信號作疊加處理,產生最終的合成語音信號。7677n 選擇更小的合成基元,加

42、入龐大的規(guī)則庫將其合成為詞語或句子的合成方式,更側重于各種合成規(guī)則的研究,因此稱其為按規(guī)則合成。 n對于各種不同的語種,其規(guī)則是完全不同的。這里介紹漢語的按規(guī)則合成,并且僅介紹從文本至語音這個層次的按規(guī)則合成。n“文-語”轉換實際上是一個人工智能系統(tǒng),它首先接受鍵盤或文件按一定格式所輸入的文本信息,然后按照給定的語言學規(guī)則決定出各字的發(fā)音(合成)基元序列及基元組合時的韻律特性(如音長、重音、聲調、語調等),從而決定了為合成整個文本所需的代碼序列,然后再用這些代碼來控制機器去語音庫中取出相應的語音參數(shù)進行合成運算,才得到語音輸出。 6.66.6漢語按規(guī)則合成漢語按規(guī)則合成78一個語音全詞匯按規(guī)則

43、合成系統(tǒng)這個系統(tǒng)采用了聲母和韻母作為合成基元,并且是按照共振峰合成方法來實現(xiàn)漢語無限字匯按規(guī)則合成的。系統(tǒng)的輸入是以漢語拼音所書寫的文本,如作適當修改也可以接受標準漢字,他們由鍵盤輸入或來自磁盤的文件。格式化處理時將拼音文本分解為單個音節(jié)和單字調,輸入時為了表明音節(jié)的調,規(guī)定每個因解聘音符的后面緊跟著用1、2、3、4或空缺分別表示陰平、陽平、上聲、去聲和輕音。經格式化后的文本有利于后面的進一步處理。79n詞匯分析部分是完成變調和設定音長的基礎,其中詞庫是詞匯分析的知識源。在詞匯分析時,按照漢語詞匯出現(xiàn)的高低,找出句子中可能出現(xiàn)的漢語詞匯,以此作為優(yōu)先考慮變調和音長設置的依據(jù)。詞庫的大小可根據(jù)用

44、途而定。有時可以包括一些常用的專業(yè)詞匯。n調型、音長的設計分為兩步進行。首先考慮雙音節(jié)字詞的變調和音長問題,也就是對已查出的二字詞按照二字連續(xù)變調和音長規(guī)則進行設計。第二步是對非雙音節(jié)字詞進行處理。此時必須對句子理解之后才能對非詞庫的詞進行變調和音長的設計??紤]到漢語句子中一切音調變化都是以單字調和二字連續(xù)變調為基礎的。三字以上的詞的連續(xù)變調在漢語結構上一般都可以認為是以單字和雙字的組合。即使在意義上不完全是這樣,也往往又說成雙音節(jié)的習慣。80n語音分析部分是依據(jù)轉接和音渡等拼音規(guī)則進行非韻律的分析,加上前一步驟的設計,就可以得到整個文本的“言語碼”。n這個系統(tǒng)由于將聲母和韻母作為合成基元,所

45、以這里的語音分析就比較簡單,只要把拼音音節(jié)分成聲母和韻母,就可以按照規(guī)則確定言語碼了。如果輸入的是標準漢字,可以用查表的方法來確定聲母和韻母。n參數(shù)平滑部分是將上面各部分的分析結果進行參數(shù)化,即將聲母、韻母、調型、重讀、輕讀、音長、尖閣等信息轉換為:清/濁標志,共振峰頻率,帶寬和幅度,基音周期,音強等參數(shù),其中音長和間隔等信息隱含在參數(shù)序列中。這組參數(shù)序列按照幀時變,以控制共振峰語音合成器并使之發(fā)出連續(xù)的語音信號。n語音合成器采用的共振峰合成方法。81 對漢語,基元一般應選聲母和韻母。 韻律規(guī)則也叫“超音段特征”,反映了語音在基頻、共振峰、能量以及譜分布特性上的差異。 主要包括聲調、語調、重音

46、等。 82 (a) 重音規(guī)則 指說話或朗讀時讀的比較重的音節(jié)或詞語,要時間長一點、音程大一點。一般可以將漢語重音分為詞重音和句重音兩大類。 (b)轉接與音渡 轉接與音渡是音素序列轉變成語音流時的動態(tài)變化規(guī)律。 漢語發(fā)音中存在兩種基本的過渡,即輔音與元音組合和元音與元音組合。前者稱之為“轉接”;后者稱之為“音渡”。 83轉接與音渡規(guī)則n對漢語所作的聽辯試驗說明:n轉接現(xiàn)象主要出現(xiàn)在第二共振峰上。第一與第三共振峰的轉接規(guī)律比較簡單,一般第一共振峰的輔元轉接總是向下,第三共振峰的轉接可以忽略不計;n輔元轉接對輔音聽辯的影響,以塞音最大、塞擦音次之,擦音最小。鼻音和邊音因為具有元音性質,可不予考慮。8

47、4轉接與音渡規(guī)則n下面考慮元音的音渡問題。在漢語中有13個復元音韻母,它們是由兩個以上音素組成的。習慣上常把復韻母分為頭音(韻頭),主元音(韻腹)和尾音(韻尾)三部分,但是它們并不是若干個相對獨立的和相對穩(wěn)定的元音。復合韻母實際上是一大串飛速滑動過去的音素組合,這種滑動的過程稱為音渡或者動程。在復合元音的發(fā)音過程中,發(fā)音器官都處于不斷的連續(xù)變化之中。n在復合元音的滑動變化過程中出現(xiàn)幾個極點(二合元音有兩個極點、三合元音有三個極點)。通常所說的頭音、主元音和尾音就是指這些漸變的極點,這些極點稱之為元音滑動的目標值。知道了復合元音極點位置之后,就可以用內插的方法得到復合元音的近似共振峰軌跡。一般來說,前響二合元音的共振峰動態(tài)軌跡近似線性變化,后響二合元音的共振峰軌跡近似曲線,而且起始彎曲厲害,后部比較平坦。三合元音的共振峰變化比較復雜,可近似看成兩個二合元音。85轉接與音渡規(guī)則86 (c)聲調與變調在連續(xù)的語流中,由于相鄰音節(jié)之間的相互影響,各音節(jié)的基音頻率時變曲線與孤立發(fā)音時的音節(jié)相比會發(fā)生較大的變異。 87聲調和音調規(guī)則88(d)音長問題 音長也是語音的重要特征之一,對語音的可懂度、自然度都有一定的影響。漢語中音長主要體現(xiàn)在韻母的調型段長度上。調長和調型是密切相關的。通常認為,上聲音節(jié)最長,陰平、陽平次

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論