版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
圖4語(yǔ)言信號(hào)產(chǎn)生數(shù)學(xué)模型3MATLAB軟件合成3.1軟件概述MATLAB語(yǔ)音工具箱speechgui-matlabrt(speechgraphicuserinterfaceforMatlabruntimeserver),即為Matlab實(shí)時(shí)服務(wù)器應(yīng)用的語(yǔ)音信號(hào)圖形用戶界面。它是在MATLAB7.0版本的基礎(chǔ)上應(yīng)用的一種專門的語(yǔ)音合成軟件。這套軟件提供了功能強(qiáng)大的語(yǔ)音信號(hào)處理應(yīng)用。它可以對(duì)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音分析(包括時(shí)域分析、頻域分析、波譜分析、線性預(yù)測(cè)分析、移動(dòng)平均分析、聲門轉(zhuǎn)換濾波器、倒譜分析等),數(shù)據(jù)和測(cè)量,線性預(yù)測(cè)法語(yǔ)音合成,共振峰語(yǔ)音合成等等相當(dāng)多的應(yīng)用。更為重要的是,它還為軟件實(shí)現(xiàn)共振峰合成提供了友好可懂的GUI(圖形用戶界面),它使得用戶在友好的使用界面的提示下一步步進(jìn)行語(yǔ)音合成操作,允許用戶把文件里包含的語(yǔ)音庫(kù)聲音文件進(jìn)行合成,進(jìn)而對(duì)合成信號(hào)與原來(lái)信號(hào)進(jìn)行語(yǔ)音分析,比較合成之后的語(yǔ)音信號(hào)與原來(lái)的語(yǔ)音信號(hào)兩者的效果,然后修改共振峰合成所需的參數(shù),再與原信號(hào)對(duì)比,改善合成音質(zhì)效果,最終合成較高質(zhì)量的語(yǔ)音信號(hào)在得到高質(zhì)量的語(yǔ)音合成過程中的關(guān)鍵因素之一就是對(duì)語(yǔ)音信號(hào)經(jīng)過精確的分析過程,提取合成參數(shù)。在早期,這個(gè)過程大部分都是利用聲門語(yǔ)音信號(hào)來(lái)決定共振峰參數(shù)的。其中另外一個(gè)重要的因素就是激勵(lì)源波譜的設(shè)計(jì)。MATLAB語(yǔ)音合成專用工具箱就是為了解決這個(gè)問題設(shè)計(jì)出來(lái)的??偟膩?lái)說,在目前,主要有兩種:一種是級(jí)聯(lián)/并聯(lián)型(1980年由Klatt提出并設(shè)計(jì)),一種是并聯(lián)型(1982年由Rye和Holmes設(shè)計(jì))。雖然在目前對(duì)于哪種結(jié)構(gòu)是更好的合成結(jié)構(gòu)尚有爭(zhēng)議,但是一般認(rèn)為,Klatt模型對(duì)于文本—語(yǔ)音合成比較適用,而Holmes模型更多的應(yīng)用于分析—合成系統(tǒng)。這種區(qū)分的原因更多的是來(lái)自于這兩種合成方法的不同的控制系統(tǒng)和合成部分的不同來(lái)源。共振峰參數(shù)(頻率、幅度、帶寬、可以以數(shù)字濾波器件的形式實(shí)現(xiàn)),而組成共振峰合成器的激勵(lì)源和波譜形成網(wǎng)絡(luò)則是隨著聲音信號(hào)產(chǎn)生過程時(shí)的聲源特性和聲道形狀而動(dòng)態(tài)改變的。也就是說,這是一種無(wú)法預(yù)料的動(dòng)態(tài)的隨機(jī)變化。但是因?yàn)檫@種變化相對(duì)來(lái)說發(fā)生得很慢,所以這就為我們使用一組固定的合成器參數(shù)來(lái)區(qū)分一小段特定的語(yǔ)音信號(hào)(幀)。這種可能有助于減少所需用于代替語(yǔ)音信號(hào)的數(shù)據(jù)量。3.2提取語(yǔ)音信號(hào)的共振峰參數(shù)本文以兩段男、女聲信號(hào)/IY/為例進(jìn)行共振峰參數(shù)的提取具體過程如下:3.2.1用頻域分析提取參數(shù)1、進(jìn)入語(yǔ)音信號(hào)“分析”主菜單,點(diǎn)擊“文件”命令,在“導(dǎo)入”命令中將語(yǔ)音文件“M0203S.DAT”,即元音信號(hào)男聲/IY/導(dǎo)入,并且顯示。如圖5顯示圖5語(yǔ)音信號(hào)/IY/時(shí)域波形2、再在分析主菜單里選擇“聲門轉(zhuǎn)換濾波器”命令,在“參數(shù)”設(shè)置里面,選中“標(biāo)志之間”,然后立刻在“聲門轉(zhuǎn)換濾波器”主菜單中選擇“基音同步”,截取一段語(yǔ)音信號(hào)后進(jìn)行分析。如下圖6和圖7所示圖6共振峰頻率和帶寬圖7聲道模型的濾波器特性3、在圖6修改共振峰和頻率的各項(xiàng)參數(shù),使得圖7中的最上面一條曲線,即聲道模型頻率響應(yīng)的殘余度顯示,它趨于平滑,表示提取的共振峰參數(shù)越與實(shí)際的共振峰參數(shù)誤差越小4、重復(fù)上面的第三步的動(dòng)作,直到有提示信息“人工聲門轉(zhuǎn)換濾波器已經(jīng)完成”出現(xiàn),此時(shí)將展現(xiàn)包含有共振峰頻率和帶圖8男子發(fā)音基音和共振峰頻率等高線寬參數(shù)的圖8。4、從上圖圖8中讀取共振峰頻率和帶寬,基音周期等參數(shù)。即遵循共振峰頻率等于某一個(gè)等高線的最大值與最小值之間的均值,共振峰帶寬等于兩者之間的差值的原則,基音頻率則等于圖8中最下面一條等高線對(duì)應(yīng)的縱坐標(biāo)的頻率值。依照同樣的方法,我們可以從一個(gè)由女聲發(fā)出的/IY/音提取各個(gè)共振峰參數(shù)。如圖9,由此可以讀得該男子和女子發(fā)/IY/音的各個(gè)共振峰參數(shù)是如下表2所示:圖9女子發(fā)音基音和共振峰頻率等高線表2該男子和女子發(fā)/IY/音的各個(gè)共振峰參數(shù)3.3基于參數(shù)的共振峰合成合成一個(gè)語(yǔ)音文件要用到語(yǔ)音處理菜單中的“合成”命令。在進(jìn)入了主菜單之后,選擇“共振峰”命令,則進(jìn)入共振峰合成的主菜單。在這里要合成一個(gè)語(yǔ)音信號(hào),我們需要兩個(gè)參數(shù):信號(hào)源和共振峰參數(shù)。信號(hào)源可以在系統(tǒng)給出的參數(shù)基礎(chǔ)上進(jìn)行修改得到,也可以調(diào)入一個(gè)語(yǔ)音庫(kù)里原有的語(yǔ)音信號(hào)。下面說明具體的操作過程。這個(gè)部分分兩個(gè)階段進(jìn)行,一個(gè)是合成六種不同發(fā)音狀態(tài)的語(yǔ)音信號(hào):抒情音、尖銳音、呼吸音、低語(yǔ)音、假音、刺耳音。另一個(gè)是利用上一步共振峰參數(shù)提取獲得的參數(shù)去分別調(diào)整這六種聲音,觀察效果。3.3.1固定共振峰不同發(fā)音狀態(tài)的語(yǔ)音信號(hào)的合成這個(gè)階段主要是利用修改源信號(hào)的各項(xiàng)參數(shù),不變共振峰參數(shù),觀察合成的效果有何不同,具體過程如下:圖10源規(guī)范參數(shù)設(shè)置窗口進(jìn)入合成主菜單里,選擇“源規(guī)范”,然后在“源規(guī)范”里點(diǎn)擊“修改新的源激勵(lì)”。設(shè)置五種音調(diào)的幀截取長(zhǎng)度均為21,確定之后點(diǎn)擊“修改特定源激勵(lì)”,進(jìn)入?yún)?shù)修改界面,如上圖圖10所示,它對(duì)應(yīng)的時(shí)域波形和零極圖如下圖11所示圖11時(shí)域波形和零極圖2、然后點(diǎn)擊“應(yīng)用于所有”和“完成”命令,再回到源設(shè)置界面中將該源激勵(lì)信號(hào)保存在共振峰合成的目錄下面。這里設(shè)置的參數(shù)包括,,,,,,,,各個(gè)參數(shù)的介紹如下::最大的聲門流量瞬時(shí)比例值。:結(jié)束聲門閉合要達(dá)到的比例值。:聲門第二段的時(shí)間常量的比例值:最大負(fù)微分聲門流量的瞬時(shí)比例值。按照流體力學(xué)可以相關(guān)理論知識(shí)可以得出結(jié)論,必須使>>>0,且>0,才能使這些參數(shù)在算法中有效。:加噪中的第一調(diào)制參數(shù)比例值:加噪中的第二調(diào)制參數(shù)比例值:加噪的持續(xù)時(shí)間長(zhǎng)度比例:加噪的持續(xù)時(shí)間長(zhǎng)度比例這六種不同狀態(tài)的語(yǔ)音信號(hào)合成所需要的參數(shù)包含在表2當(dāng)中:表2合成六種不同狀態(tài)的語(yǔ)音信號(hào)合成所需要的參數(shù)完成上述兩步驟后,在主合成菜單里調(diào)入一個(gè)系統(tǒng)默認(rèn)值的共振峰設(shè)置,保存其為共振峰激勵(lì),然后點(diǎn)擊“合成”,就合成了如圖12的抒情語(yǔ)音的信號(hào):圖12抒情語(yǔ)音信號(hào)合成后,重復(fù)以上步驟,按照表二里面的參數(shù)進(jìn)行逐一合成,然后將所有合成的信號(hào)全部表現(xiàn)出來(lái)(步驟大概一致,且不能全部顯示,故只選抒情、尖音、呼吸、假音四個(gè)),如圖13圖13抒情、尖音、呼吸、假音合成顯示波形3.3.2變化共振峰的不同狀態(tài)語(yǔ)音信號(hào)的合成上面演示的例是用系統(tǒng)提供的參數(shù)設(shè)置為基礎(chǔ),利用幾種不同數(shù)值設(shè)置的方法來(lái)合成幾種語(yǔ)音信號(hào)?,F(xiàn)在探討在改變共振峰參數(shù),即利用3.2中分析得到的共振峰參數(shù)來(lái)設(shè)置共振峰激勵(lì)源,合成語(yǔ)音信號(hào)的具體步驟:同樣是進(jìn)入上一個(gè)例子的合成主菜單里面。不同的是在設(shè)置源規(guī)范時(shí),使用的是導(dǎo)入的語(yǔ)音文件,先將男聲發(fā)的/IY/導(dǎo)入合成。如圖14所示,圖14導(dǎo)入要分析的語(yǔ)音文件將文件導(dǎo)入后,點(diǎn)擊“修改指定源激勵(lì)”可看到如圖15看到的系統(tǒng)自動(dòng)生成的語(yǔ)音源文件信息和波形圖15系統(tǒng)自動(dòng)生成的語(yǔ)音源文件信息和波形再重復(fù)上面相類似的步驟,把該data格式的文件保存在合成專用文件路徑下面,即將原來(lái)進(jìn)行共振峰合成產(chǎn)生的“source.dat”文件覆蓋掉設(shè)置好了源激勵(lì)后,再設(shè)置共振峰激勵(lì)。同樣類似上面的共振峰激勵(lì)生成方法。不過在“修改指定共振峰”里,必須設(shè)置共振峰參數(shù)如圖16和圖17。這些參數(shù)就是第一節(jié)操作里提取的男聲共振峰頻率和帶寬,但是因?yàn)橄到y(tǒng)的這些參數(shù)只有五對(duì),第六對(duì)頻率和帶寬是估計(jì)的值。即按照前幾個(gè)數(shù)值的分布變化,進(jìn)行線性推導(dǎo)。得出數(shù)值。圖16參數(shù)設(shè)置圖17合成信號(hào)設(shè)置好參數(shù)后,點(diǎn)擊合成主菜單里面的“合成命令”。得出如圖17的合成信號(hào),在這里,我們可以很清楚地看到,語(yǔ)音信號(hào)與合成之后的信號(hào)波形比較接近(這可以通過二者的語(yǔ)譜圖看出來(lái),如圖18顯示),如圖18顯示,上面的是激勵(lì)波的語(yǔ)譜圖,下面是合成信號(hào)的語(yǔ)譜圖說明合成的音質(zhì)不錯(cuò)。圖18男子合成信號(hào)與原始信號(hào)的語(yǔ)譜圖6、做完男子的語(yǔ)音合成之后,我們?cè)僮雠影l(fā)的語(yǔ)音的合成。操作步驟類似男子的語(yǔ)音合成。合成之后的效果如圖19所示圖19女子合成信號(hào)與原始信號(hào)的語(yǔ)譜圖7、我們?cè)僭囋囉蒙厦婧铣傻牧鶄€(gè)不同狀態(tài)的語(yǔ)音信號(hào)做源激勵(lì)信號(hào),而用男子和女子的發(fā)音信號(hào)提取的共振峰參數(shù)作為共振峰激勵(lì)信號(hào)。先按照上面的類似步驟合成男子語(yǔ)音的共振峰參數(shù)加上抒情類語(yǔ)音。合成效果如下圖20:圖20男子共振峰參數(shù)和抒情語(yǔ)音的合成效果8、從上面可以看出,合成效果不如圖18和圖19的語(yǔ)音信號(hào)。因?yàn)檫@里所用的共振峰參數(shù)不是從源激勵(lì)語(yǔ)音信號(hào)中提取的。9、重復(fù)上面的第七步類似步驟,將源激勵(lì)信號(hào)換成其它五個(gè)不同狀態(tài)的信號(hào),觀察效果3.4基于參數(shù)修改的語(yǔ)音轉(zhuǎn)換在這部分要實(shí)現(xiàn)的是語(yǔ)音庫(kù)里的兩段語(yǔ)音(一個(gè)是男的,一個(gè)是女的)發(fā)同一段聲音的轉(zhuǎn)換。也就是把女的聲音用男的聲音來(lái)代替,看看男的聲音代替得像不像女的發(fā)出的聲音,具體操作過程如下:進(jìn)入語(yǔ)音轉(zhuǎn)換菜單里面,先對(duì)語(yǔ)音信號(hào)進(jìn)行分析。在“分析”菜單里的“規(guī)范”里面,對(duì)語(yǔ)音的分析規(guī)范進(jìn)行設(shè)置,如圖21:圖21語(yǔ)音的分析規(guī)范在這里,必須將語(yǔ)音的聲道模型(圖中的下拉菜單)選擇為“共振峰”。然后源模型設(shè)置為“簡(jiǎn)化LF模型”,完了之后返回。載入一段語(yǔ)音信號(hào),在這里我們載入的是女子發(fā)音的“Wewereawayayearago.”,如圖22所示圖22“Wewereawayayearago.”的女子時(shí)域波形載入后在分析菜單欄里,我們先后對(duì)語(yǔ)音信號(hào)做“執(zhí)行”,“語(yǔ)音類別修正”,“GCIs核查”,“共振峰軌跡核查”,完成后保存在“改正”菜單里,我們先后做“語(yǔ)音類別修正”,“GCIs核查”,“共振峰軌跡核查”,完成后保存然后進(jìn)入“修正”里的“語(yǔ)音轉(zhuǎn)換”命令里面,在對(duì)其它所有值保留缺省設(shè)置的情況下,將目標(biāo)語(yǔ)音位為女子的已經(jīng)處理過了的.mat格式文件,源語(yǔ)音設(shè)為男子的語(yǔ)音,點(diǎn)“應(yīng)用”。然后保存為一個(gè)“conversion”的文件再在主菜單欄里點(diǎn)擊“合成”,就會(huì)顯示如圖23顯示的男子轉(zhuǎn)換女子語(yǔ)音“Wewereawayayearago.”的效果圖出來(lái)。圖23語(yǔ)音轉(zhuǎn)換效果圖總結(jié)(一)由上面可以看出,在選用頻域分析得出的參數(shù)進(jìn)行共振峰合成時(shí),合成效果并不是很明顯。很顯然這主要的問題在于不能高效地得到共振峰參數(shù),原因分析有:在對(duì)圖6共振峰頻率和帶寬的數(shù)值進(jìn)行修改以得到圖7比較平滑的濾波器特性過程中,無(wú)法精確地將曲線變成很平滑。而且由于在圖中每一幀的取樣點(diǎn)數(shù)是256個(gè),在有10000個(gè)抽樣點(diǎn)的情況下,我們必須做三十多次類似的操作。這是在無(wú)法實(shí)現(xiàn)的。在對(duì)圖8男子發(fā)音基音和共振峰頻率等高線的共振峰參數(shù)的讀取上,因?yàn)榭v坐標(biāo)沒有精確的對(duì)應(yīng)尺度,無(wú)法準(zhǔn)確讀取共振峰參數(shù),這直接導(dǎo)致了我們?cè)诤铣蛇^程中共振峰參數(shù)的不精確。這是一個(gè)元音信號(hào)的合成,理論上我們應(yīng)該用全極點(diǎn)模型進(jìn)行模型聲道特性,但是軟件在算法實(shí)現(xiàn)中只能是用一些零點(diǎn)極點(diǎn)模型去逼近,不可能做到完全的極點(diǎn)模型,所以也存在著誤差。(二)我們可以看到,在第三部分男子轉(zhuǎn)換女子的聲音效果上,合成音質(zhì)并不是十分地好,分析原因有以下幾個(gè)方面:系統(tǒng)是將女子的參數(shù)進(jìn)行修正,包括語(yǔ)音類型修正、聲門閉合常量修正和共振峰軌跡修正等,這些修正都是在不是很精確的情況下進(jìn)行的。語(yǔ)音類型修正中,要把周期性的時(shí)域波形由清音信號(hào)修正為濁音信號(hào);聲門閉合常量修正中,要增加或者刪除聲門閉合常量,來(lái)達(dá)到使其圖象平滑的效果;共振峰軌跡的修正則要求我們按照在“分析”里面得到的共振峰等高線波形的輪廓進(jìn)行修正。這些修正的精度無(wú)法有效保障,直接導(dǎo)致了語(yǔ)音轉(zhuǎn)換效果的不理想。系統(tǒng)本身的算法是基于一個(gè)模型的逼近上的,即是用一個(gè)全極點(diǎn)模型去逼近一個(gè)零極點(diǎn)模型,這會(huì)帶來(lái)一定的誤差。語(yǔ)音轉(zhuǎn)換的不理想也正反過來(lái)說明了系統(tǒng)誤差的存在。參考文獻(xiàn)[1]D.G.Childers.Matlab之語(yǔ)音處理與合成工具箱[M].北京:清華大學(xué)出版社,2004.45.[2]張雄偉,陳亮,楊吉斌.現(xiàn)代語(yǔ)音信號(hào)處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003.[3]凡桑塔,J.P.H.語(yǔ)音合成[M].北京:機(jī)械工業(yè)出版社,2005[5]程佩青.數(shù)字信號(hào)處理[M].北京:清華大學(xué)出版社,2005.[6]趙勝輝.離散時(shí)間語(yǔ)音信號(hào)處理——原理與應(yīng)用[M].北京:電子工業(yè)出版社.2004-08[7]吳家安.語(yǔ)音編碼技術(shù)及其應(yīng)用.[M].北京:機(jī)械工業(yè)出版社.2005-11-21.[8]韓紀(jì)慶,張磊,鄭鐵然.數(shù)字信號(hào)處理[M].北京:清華大學(xué)出版社,2004.[9]胡航.語(yǔ)音信號(hào)處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000.[10]趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.[11]汪源源.現(xiàn)代信號(hào)處理理論和方法[M].上海:復(fù)旦大學(xué)出版社,2002.[12]王炳錫,屈丹,彭煊.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2005[13]Keller,Eric.Fundamentalsofspeechsynthesisandspeechrecognition:basicconcepts,stateoftheart,andfuturechallenges[M].Wiley,1994.[14]Keller,Eric.Improvementsinspeechsynthesis:COST258:thenaturalnessofsyntheticspeech[M].J.Wiley,2002.[15]Furui,Sadaoki.Digitalspeechprocessing,synthesis,andrecognition[M].MarcelDekker,c1989.[16]VerhelstW,SteenhautO.Anewmodelforshort-timecomplexcestrumofvoicedspeech.I
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 銀行工作總結(jié)勇攀高峰無(wú)往不勝
- 金融行業(yè)管理顧問工作心得
- 互聯(lián)網(wǎng)金融行業(yè)銷售工作總結(jié)
- 體驗(yàn)式餐廳設(shè)計(jì)師的文化體驗(yàn)與美食創(chuàng)新
- 家居用品采購(gòu)心得體會(huì)
- 骨科護(hù)士長(zhǎng)的工作總結(jié)
- 《消化道常見癥狀》課件
- 《健康食品排行榜》課件
- 2021年河北省張家口市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2022年四川省自貢市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 德邦物流人力資源管理規(guī)劃項(xiàng)目診療
- 基于西門子S7-200型PLC的消防給水泵控制系統(tǒng)設(shè)計(jì)
- 儀器設(shè)備采購(gòu)流程圖
- 盈利能力分析外文翻譯
- 不合格醫(yī)療器械報(bào)損清單
- 高中物理全套培優(yōu)講義
- 新一代反洗錢監(jiān)測(cè)分析系統(tǒng)操作手冊(cè)all
- 礦山環(huán)境保護(hù)ppt課件(完整版)
- 檔案保護(hù)技術(shù)概論期末復(fù)習(xí)資料教材
- (高清版)外墻外保溫工程技術(shù)標(biāo)準(zhǔn)JGJ144-2019
- 聚氨酯基礎(chǔ)知識(shí)
評(píng)論
0/150
提交評(píng)論