語音信號合成算法的仿真研究

上傳人：s*** IP屬地：天津上傳時間：2022-08-22 格式：DOCX 頁數(shù)：21 大?。?6.83KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩16頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1緒論課題的背景及意義語音合成技術(shù)的研究開始于兩百多年以前，由于當(dāng)時的科學(xué)水平，研究并未取得有實際價值的成果。近年來，隨著人工智能的興起，人機之間的交互越來越重要。而語音合成技術(shù)是其中重要的一環(huán)，語音合成技術(shù)又稱文語轉(zhuǎn)換（TT0技術(shù)，將任意文字信息轉(zhuǎn)化為標(biāo)準(zhǔn) 流暢的語音朗誦出來。語音合成技術(shù)可以改善人機交互困難的局面，使人類和計算機的交流更加方便快捷。近年來，隨著現(xiàn)代計算機與數(shù)字信號處理技術(shù)的發(fā)展與應(yīng)用，語音信號合成技術(shù)得以應(yīng)用。語音合成技術(shù)的發(fā)展十分迅速。目前，語音合成技術(shù)的首要目標(biāo)是合成人類可以聽懂的語音，然后提高語音信號的清晰度，豐富語音的表現(xiàn)力并增加合成語音的智能性，

2、減少語音合成過程中的運算量、降低計算復(fù)雜度。這就需要更加完善的理論支撐和實踐研究。語音識別系統(tǒng)是用人類最常用的交流方式“說話”替代了繁瑣的鍵盤輸入，縮短計算機與一般用戶的距離，使計算機進(jìn)一步“人性化”，為人類與計算機的直接交流對話創(chuàng)造前提條件。近年來，隨著人們的不斷努力，合成的信號越來越令人滿意。如果計算機的發(fā)明是人類邁入信息化社會的標(biāo)志，那么，語音合成與識別技術(shù)的發(fā)展就應(yīng)該是計算機應(yīng)用步入智能化的開端。語音合成是對人類發(fā)音的模擬，能用到語音的地方都是語音合成技術(shù)的用武之地，具有很廣闊的發(fā)展前景。語音合成技術(shù)的發(fā)展?fàn)顩r語音識別和語音合成技術(shù)是實現(xiàn)人機語音通信，建立一個

3、有聽和講能力的口語系統(tǒng)所必需的兩項關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話和聽懂人說話的能力，是 90年代信息產(chǎn)業(yè)的重要競爭市場。和語言識別相比，語言合成的技術(shù)相對說來要成熟一些，是該領(lǐng)域中近期最有希望產(chǎn)生突破并形成產(chǎn)業(yè)化的一項技術(shù)。語音合成的主要目的是讓機器或者計算機可以“說話”，實現(xiàn)人機交流。其中包含兩個方面的可能性：一是機器可以再次生成一個預(yù) 先存入的信號，可以理解為一個普通的錄音機，區(qū)別就是采用了數(shù)字存儲技術(shù)；二是采用了數(shù)字信號處理的方法?？v觀語言合成技術(shù)的研究已經(jīng)有二百多年的歷史，但是真正意義上則是隨著計算機的發(fā)明和數(shù)字處理技術(shù)的發(fā)展而發(fā)展起來的，其目的主要是為了讓

4、計算機可以產(chǎn)生高清晰度和高自然度的連續(xù)語音。而近幾十年來國內(nèi)外的研究目的主要是按規(guī)則位于轉(zhuǎn)換，即將書面語言轉(zhuǎn)化成口頭用語，更好、更方便的實現(xiàn)人機交流。在語音合成技術(shù)的發(fā)展中，早期的研究主要采用參數(shù)合成的方法。值得一提的是Homles的并聯(lián)共振峰合成器（ 1973）和Klatt的串/并聯(lián)共振峰合成器（1980）,只要精心調(diào)整參數(shù)，這兩個合成器都能合成出非常自然的語音。而最具代表性的文語轉(zhuǎn)換系統(tǒng)數(shù)美國 DE公司的DECtalk （1987）,該系統(tǒng)采用Klatt的串/并聯(lián)共振峰合成器，可以通過標(biāo)準(zhǔn)的接口和計算機連網(wǎng)或單獨接到電話網(wǎng)上提供各種語音信息服務(wù)，它的發(fā)音清晰，并可產(chǎn)生七種不同音

5、色的聲音，供用戶選擇。但是隨著研究的進(jìn)展，實踐表明準(zhǔn)確提取共振峰參數(shù)比較困難，雖然可以得到逼真的合成語音，但是整體合成語音的音質(zhì)難以達(dá)到文語轉(zhuǎn)換系統(tǒng)的要求。因此，隨著研究的進(jìn)展，語音合成技術(shù)有了很大的突破，尤其是基因同步疊加(PSOLA方法的提出，使得基于時域波形拼接方法合成的語音的音色和自然度大大提高。二十世紀(jì)末，關(guān)于該種技術(shù)的多種語言的文語轉(zhuǎn)換系統(tǒng)已經(jīng)研制成功。這些系統(tǒng)的自然度比起以前的方法所合成的系統(tǒng)有了很大的提高，并且PSOL防法的合成器結(jié)構(gòu)相對來說更簡單易于實現(xiàn)，有很大的商用前景。近年來，語音合成技術(shù)則有了更大的突破。本文主要工作及章節(jié)安排本文主要介紹語音信號的合成算法。

6、語音合成，又稱文語轉(zhuǎn)換技術(shù)，能將任意文字信息實時轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來，相當(dāng)于給機器裝上人工嘴巴。它涉及聲學(xué)、語音學(xué)、數(shù)字信號處理、計算機科學(xué)等多個學(xué)科技術(shù)是中文信息處理領(lǐng)域的一項前沿技術(shù)，解決的主要問題就是如何將文字信息轉(zhuǎn)化為語音信息，改善人機交互困難的局面，使人類和計算機的交流更加方便快捷。本文主要介紹語音合成技術(shù)中的參數(shù)合成技術(shù)。介紹了數(shù)據(jù)接疊的三種方法重疊相加法、重疊存儲法、線性比例重疊相加法，在此基礎(chǔ)上介紹了頻譜參數(shù)的語音合成、線性預(yù)測系數(shù)和預(yù)測誤差的語音合成、線性預(yù)測系數(shù)和基音參數(shù)的語音合成、基音和共振峰的語音合成。通過合成技術(shù)又介紹了語音信號的變速和變

7、調(diào)算法，最后介紹了波形拼接合成技術(shù)以及時域基音同步疊加 (TD-PSOLA的合成方法。本文的主要結(jié)構(gòu)如下:1、緒論。主要介紹課題的背景和意義、發(fā)展過程。2、第二章主要陳述了語音信號處理的相關(guān)知識以及語音合成的技術(shù)方法。3、第三章簡介語音信號合成中有關(guān)參數(shù)合成方法的內(nèi)容。4、第四章簡介語音信號的變速、變調(diào)算法以及PSOL始成技術(shù)。5、第五章在Matlab環(huán)境下分析仿真結(jié)果。2語音信號合成的方法研究語音合成其目的就是為了讓計算機可以“說話”，實現(xiàn)人機對話。隨著人工智能的興起，語音信號處理顯得尤為重要，語音合成便是其中一個重要環(huán)節(jié)。語音合成從技術(shù)上講可以分為三類：波形合成、參數(shù)合成和規(guī)則合

8、成法。波形合成法波形合成法一般有波形編碼合成和波形編輯合成兩種形式。無論哪種形式，具都是相對來說簡單的語音合成技術(shù)，但也由于其缺點明顯（無法儲存大量語音），所以通常用來合成有限詞匯的語音段。如自動報時、報站、報警等。波形編碼合成波形編碼合成類似與語音編碼中的波形編解碼。該方法直接將語音的波形進(jìn)行存儲或者先進(jìn)行壓縮在存儲，然后合成重放時再進(jìn)行解碼組合輸出。利用這種方式，相當(dāng)于只對語音進(jìn)行存儲和重放。這其中最簡單的就是直接進(jìn)行 A/D變換或者D/A反變換，或者叫做PCMt 形合成法。這種方式有著明顯的缺點，利用這種方法儲存大量的語音不太現(xiàn)實，因為存儲空間的需求很大。當(dāng)然，可以使用波

9、形編碼技術(shù)(如ADPCMAPC?)壓縮存儲量，因此在合成是要進(jìn)行譯碼處理。波形編輯合成波形編輯合成是將波形編輯技術(shù)應(yīng)用于語音信號合成，通過選取音庫中采取自然語音的合成單元的波形，對這些波形進(jìn)行編輯拼接然后輸出。它采用語音編碼技術(shù)，存儲合適的語音基元，合成時，經(jīng)解碼、波形編輯拼接、平滑處理等輸出所需的語音。參數(shù)合成法參數(shù)合成法也稱為分析合成法，是一種比較復(fù)雜的方法。為了節(jié) 省存儲空間，必須先對語音信號進(jìn)行分析，提取出語音的參數(shù)，以壓縮存儲量，然后人工控制參數(shù)的合成。參數(shù)合成法一般有發(fā)音器官參數(shù)合成和聲道模型參數(shù)合成。相比于波形合成法，參數(shù)合成法優(yōu)點是音庫比較小，整個系統(tǒng)能適應(yīng)的韻律特

10、征范圍比較寬，合成器比特率較低，音質(zhì)適中。缺點是其算法較復(fù)雜，參數(shù)多，在壓縮比較大時，丟失的聲音信息也較多，導(dǎo)致合成的語音不連貫、不清晰、不自然。發(fā)音器官參數(shù)合成發(fā)音器官參數(shù)合成即模擬人的發(fā)音器官，對人的發(fā)音過程進(jìn)行模擬。它定義了唇、舌、聲帶的相關(guān)參數(shù)，例如唇的開口度、舌高度、舌位置、聲帶的張力等等，由發(fā)音的參數(shù)估計聲道的截面積函數(shù)，進(jìn) 而計算聲波。由于人發(fā)音過程的復(fù)雜性以及實驗過程中難以避免的誤差等等原因，用這種方法合成的語音質(zhì)量還不太理想，有待提高。聲道模型參數(shù)合成聲道模型參數(shù)合成法是基于聲道截面積函數(shù)和聲道諧振特性合成語音。早期語音合成系統(tǒng)的聲學(xué)模擬，多通過模擬人的口腔的聲

11、道特性產(chǎn)生。其中比較著名的有Klatt的共振峰合成系統(tǒng)，后來又產(chǎn)生了基于LPC LSP和LMA等聲學(xué)參數(shù)的合成系統(tǒng)。這些方法用來建立聲學(xué)模型的過程為：首先錄制音頻，這些聲音涵蓋了人發(fā)音過程的所有可能出現(xiàn)的讀音；提取這些聲音的聲學(xué)參數(shù)，整合為一個音庫。在發(fā)音過程中，根據(jù)發(fā)音的不同從音庫中選取聲學(xué)參數(shù)，根據(jù)韻律模型中得到的韻律參數(shù)，通過合成算法得到語音。規(guī)則合成法相比于前兩種方法，這是一種高級的合成方法。規(guī)則合成法通過語音學(xué)規(guī)則產(chǎn)生語音。合成的詞匯表不是事先確定的，系統(tǒng)中存儲的是最小的語音單位的聲學(xué)參數(shù)，以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調(diào)、輕重音等韻律的各

12、種規(guī)則。給出待合成的聲音后，合成系統(tǒng)利用這些規(guī)則自動地將它們轉(zhuǎn)換為連續(xù)的語音聲波。這種方法可以合成無限詞匯的語句。其中較有代表的算法為基音同步疊加技術(shù)（PSOLA。這種方法在合成時既能保持所發(fā)音的主要音段特征，又能在拼接時靈活的調(diào)整其基頻、時長和強度等超音段特征。不同于傳統(tǒng)概念上只是將不同的語音單元進(jìn)行簡單的拼接的波形編輯合成，規(guī)則合成系統(tǒng)首先在語音庫中，選擇最合適的語音單元用于拼接，在選音過程中采用復(fù)雜的技術(shù)，最后在拼接時，使用如PSOLA 算法等，對合成的語音韻律特性進(jìn)行修改，提高語音的音質(zhì)。3語音信號的參數(shù)合成數(shù)據(jù)疊接語音信號參數(shù)合成時可能有兩種情況：一通過快速傅里葉反

13、變換(IFFT)把一幀頻域數(shù)據(jù)轉(zhuǎn)變成時域數(shù)據(jù)；另一種是激勵脈沖通過一個濾波器。無論哪一種，都需要一幀一幀的計算，因此需要將一幀幀的數(shù)據(jù)連接成連續(xù)的、平滑的數(shù)據(jù)流，而不讓數(shù)據(jù)產(chǎn)生中斷，這個過程則需要數(shù)據(jù)疊接。數(shù)據(jù)疊接有三種方法：重疊相加法、重疊存儲法和線性比例重疊相加法。重疊相加法設(shè)有兩個序列h(n)和x(n),其長度相差很大，采用重疊相加法(Overlap Add)可以提高計算效率。如果 h(n)的長度為N, x(n)的長度為N1,N1N將x(n)分為許多幀xi(m),其每幀的長度都和h(n) 長度相近，然后將xi(m)和h(n)做卷積，最后在相鄰兩幀之間將重疊的部分相加。假設(shè)h(

14、n)不隨時間變化，將x(n)分幀為xi(m),相鄰的兩幀不重疊，每幀長為M則有xi(m)=x(n)0(i- 1)M+1 w n w iM 其他值 1 w mW M,i=1,2, ?xi(m)=x(n)0(i- 1)M+1niM 其他值 1 wmc M,i=1,2, ?(3.1)且 x(n)= Ei=1pxi(m)1 me M,n=(i - 1)M+mx(n)=E i=1pxi(m)1 mCM,n=(i - 1)M+m (3.2)式中p為分幀后的總幀數(shù)，p=N1/Mp=N1/M把每幀的數(shù)據(jù)xi(m)和h(n)進(jìn)行補零，使其長度為N+M+1xi(m)=xi(m)01 me MM+冬 N+M 1x

15、i(m)=xi(m)01 MM+1mCN+M 1h(m)=h(m)01 w m NN+K m N+M 1h(m)=h(m)01 me NN+1 WmCN+M 1對和h(n)h(n)xi(n)xi(n)計算卷積(用*表示)，得到y(tǒng)i(n)=xi(n) ? h(n)yi(n)=xi(n)? h-(n)完成上式卷積的方法是通過 DFTffi IDFT完成的，即有Xi(k)=DFT(xi(n)H(k)=DFT(h(n)Xi(k)=DFT(xi(n)H(k)=DFT(h(n)Yi(k)=Xi(k) x H(k)Yi(k)=Xi(k)x H-(k)yi(n)=IDFT(Yi(k)yi(n)=IDFT(Yi

16、(k)時域的卷積表示頻域的相乘，可以注意到y(tǒng)i(n)的長度為N+M-1 而xi(m)的有效長度為M,故相鄰兩幀yi(n)之間有N-1長度的數(shù)據(jù) 在時間上相互重疊，把重疊部分相加，與不重疊的部分共同構(gòu)成輸出：y(n)=x(n) ? h(n)= E i=1pxi(n) ? h(n)y(n)=E i=1pyi(n)y(n)=x(n)h(n)= E i=1pxi(n)h(n)y(n)= Ei=1pyi(n)(3.9)重疊相加法計算的示意圖如下:圖3.1重疊相加法運算示意圖在實際應(yīng)用中已經(jīng)把重疊相加法推廣到了頻域轉(zhuǎn)換到時域的過程中。信號x(n)是分幀的，每一幀的xi(m)xi(m)為xi(m)=x(n

17、)0(i- 1) A L+1 n (i - 1)AL+Ln 為其他值 i=1,2,? ;m=1,? ,Lxi(m)=x(n)0(i- 1) A L+1 n (i - 1)AL+Ln 為其他值i=1,2, ? ;m=1,? ,L式中，L為幀長，AL為幀移；i為幀號；重疊部分長設(shè)置為M=L-xi(m)的信號經(jīng)DFT為Xi(k),在頻域中對信號進(jìn)行處理后得到Y(jié)i(k),經(jīng) IDFT 得到 yi(m)。yi - 1(m)yi - 1(m)一般已融合到 y(n) 中。當(dāng)L為幀長， L為幀移，i為幀號，重疊部分長為 M=L-A L時, yi - 1(m)yi - 1(m)在 y(n)中對應(yīng)的樣點位置是(i

18、-2) AL+1(i-2) L+L,它的重疊位置為(i-1) AL+1(i-1) A L+M,yi(m)對應(yīng) yi - 1(m)yi10-1(m)或y(n)的重疊部分的位置是1M或1L-AL。由此可以導(dǎo)出 TOC o 1-5 h z y(n)= ?y(n)y(n)+yi(m)yi(m)n (i - 1) L(i-1)L+1 n (i - 1)AL+M,1 mi M(i - 1)L+M+1W n (i-1)L+L,M+1 m Ly(n)=y(n)y(n)+yi(m)yi(m)n (i - 1) L(i-1)L+1 n (i - 1)AL+M,1 m M(i - 1)AL+M+1 n (i-1)L

19、+L,M+1mC L圖片加載失敗yi(m)與yi - 1(m)重疊相加示意圖yi(m)與yi - 1(m)重疊相加示意圖圖3.23.1.2重疊存儲法重疊存儲法(Overlap Save)與重疊相加法相同，設(shè)有兩個時間序列h(n)和x(n),其長度相差很大，已知條件和重疊相加法一致。對h(n)的處理法與1重疊相加法相同，在其后面補零，得到h(m)=h(n)01 n,mi NN+KN+M 1h(m)=h(n)01 n,mNN+1CmCN+M 1不同的是，對xi(m)的處理方法，幀長為N+M-1,要求分幀后要11使每幀最后一個數(shù)據(jù)點落在iM出(i=1,2, ?)，對于第一幀則要最后一點落于M處

20、，其長度只有M達(dá)不到要求的N+M-1因此要在前面補N-1個零值，其示意圖如下:圖3.3重疊存儲法運算示意圖同重疊相加法類似，重疊存儲法也推廣到了從頻域轉(zhuǎn)換到時域的過程中。設(shè)L為幀長， L為幀移，i為幀號，重疊部分長為 M=L-A(3.13)L。每幀的yi(m)是由頻域 Yi(k)經(jīng)IDFT(IFFT)變換過來的 yi(m)=IDFT(Yi(k)yi(m)=IDFT(Yi(k)y(n)=y(n)yi(m)n (i - 1) L(i - 1) A L+1 n i A L,1 m Li=1,2, ? y(n)=y(n)yi(m)n (i - 1) L(i - 1) L+1 n i L,1 Li=

21、1,2, ?3.1.3線性比例重疊相加法在重疊相加法的基礎(chǔ)上，濾波器激沖響應(yīng) h(n)不是固定不變的, 而是時變的，只要相鄰兩幀變換緩慢，還是可以用重疊相加法得到滿意的結(jié)果。但是如果變換較大或者不清楚變換如何，一般采用線性比例重疊相加法。線性比例重疊相加法是在重疊相加法的基礎(chǔ)上做了一12點改動，將重疊部分利用一個窗函數(shù)對其進(jìn)行線性加權(quán)然后相加。設(shè)其重疊部分為M,設(shè)置兩個斜三角的窗函數(shù)3 1和3 2 3 1和3 2 ：3l=(n- 1)/M w2=(M- n)/Mn=1,2, ? ,M(o 1=(n- 1)/M w 2=(M- n)/Mn=1,2, ? ,M設(shè)前一幀的重疊部分為y1和后一幀的

22、重疊部分y2,則重疊部分的數(shù)值y是由y1和y2經(jīng)窗函數(shù)由線性比例相加法得到，y=y1 X 9 2+y2x 9 1y=y1x 9 2+y2x 9 1(3.16)而語音信號分幀后為xi(m),其中設(shè)置了幀長為L,幀移為 L,i 為幀號，而幀與幀之間有重疊，并且yi - 1(m)yi - 1(m)已融合到y(tǒng)(n) 中，它在y(n)中對應(yīng)的重疊部分位置是(i-1) L+1(i-1) L+Myi(m) 重疊部分位置是1乂或1L- L。線性比例疊加法中y(n)= ? y(n)y(n) 3 2+yi(m) 3 1yi(m)n (i - 1) L(i-1) A L+1n(i - 1) AL+M,1mC M(

23、i- 1) A L+M+K n(i - 1) L+L,1+M m Ly(n)=y(n)y(n) 9 2+yi(m) 9 1yi(m)n (i - 1) L(i-1) AL+1n(i - 1) AL+M,1mc M(i- 1) A L+M+K n(i - 1) L+L,1+M me L線性比例不僅可以用在語音信號合成中，還可以用在其他信號拼接中。3.2用頻譜參數(shù)合成語音信號頻譜參數(shù)合成法即將頻域中一幀一幀的頻譜幅值參數(shù)和相位參13數(shù)合成為連續(xù)的語音信號。在Matlab中利用OverlapAdd2函數(shù)實現(xiàn)。在OverlapAdd2函數(shù)中把頻域參數(shù)通過IDFT轉(zhuǎn)換為時域數(shù)據(jù)，在相鄰兩幀之間的疊接

24、數(shù)據(jù)采用重疊相加法，即 TOC o 1-5 h z y(n)=?y(n)y(n)+yi(m)yi(m)n (i - 1) L(i-1)L+1 n(i - 1)AL+M,1 mi M(i - 1)L+M+1W n (i-1)L+L,1+Mm Ly(n)=y(n)y(n)+yi(m)yi(m)n (i - 1) L(i-1)L+1 n(i - 1)AL+M,1 m M(i - 1)AL+M+1 n (i-1)L+L,1+Mmc L數(shù)和預(yù)測誤差的語音信號合成線性預(yù)測的公式為 xA(n)= Ei=1paix(n - i)xA(n)= Ei=1paix(n-i) (3.19)預(yù)測誤差由 e(n)=x(n

25、) - xA(n)=x(n) - E i=1paix(n - i)e(n)=x(n) - xA(n)=x(n) - Ei=1paix(n - i)和 A(z)=1 - Ei=1paiz -1A(z)=1 - Ei=1paiz - 1若已知預(yù)測誤差e(n)和預(yù)測系數(shù)ai ,可求出合成語音x(n)=e(n)+ Ei=1paix-(n - i)x-(n)=e(n)+ Ei=1paix-(n - i) (3.20)用線性預(yù)測誤差進(jìn)行語音信號合成的示意圖如下：14圖片加載失敗圖3.4用預(yù)測誤差語音信號合成示意圖圖3.5線性預(yù)測系數(shù)和預(yù)測誤差語信號合成示意圖圖3.3.1 (1)中聲道參數(shù)和時變?yōu)V波器由預(yù)測

26、系數(shù)ai直接遞歸濾波器所構(gòu)成。圖片加薪失敗3.4線性預(yù)測系數(shù)和基音參數(shù)的語音信號合成預(yù)測系數(shù)和基音參數(shù)語音合成的模型線性預(yù)測合成模型可以設(shè)計成一種源濾波器模型，即由白噪聲序列和周期性激勵脈沖序列構(gòu)成的激勵源信號，經(jīng)過選通、放大并通過時變數(shù)字濾波器(由語音參數(shù)控制的聲道模型)，獲得合成語音信號。語音合成器的示意圖如下：15圖片加載失敗圖3.6線性預(yù)測合成語音模型示意圖圖示的線性預(yù)測合成語音模型可直接用預(yù)測器系數(shù)ai構(gòu)成的遞歸型合成濾波器，其結(jié)構(gòu)如圖3.7。用這種方式可以定時改變激勵u(n) 和預(yù)測系數(shù)ai ,可以合成語音。而且這種結(jié)構(gòu)直觀簡單，為了合成一個語音樣本，只需要進(jìn)行p次乘法和

27、p次加法。其合成的語音信號序列為 x(n)= E i=1paix-(n - i)+Gu(n)x-(n)= E i=1paix-(n - i)+Gu(n)，式中，ai為預(yù)測系數(shù)；G為模型增益；u(n)激勵源信號(白噪聲或周期性激勵脈沖序列)；p為預(yù)測器階數(shù)。圖3.7線性預(yù)測遞歸型合成濾波器的語音合成示意圖遞歸型合成濾波器結(jié)構(gòu)的優(yōu)點是簡單易于實現(xiàn)，缺點則是計算需求較高的精度。主題延伸基音檢測具體操作步驟:(1)加窗分幀處理對語音信號序列進(jìn)行分幀處理。(2)端點檢測和元音主體的檢測對分幀后的序列進(jìn)行端點檢測，并進(jìn)行元音主體的檢測(3)濾波和再一次分幀(4)求每個元音主體延伸區(qū)間和長度(5)元音主體

28、的基音檢測(6)往前后延伸對過渡區(qū)間進(jìn)行基因檢測圖3.8主題延伸-基音檢測法流程圖圖片加載失敗3.4.3產(chǎn)生激勵脈沖在實際操作中，要產(chǎn)生一幀一幀連續(xù)的激勵脈沖，而不是單一的, 這要求相鄰兩幀激勵脈沖序列要連續(xù)，同時相鄰兩幀之間有一定幀移。這就要求本幀的第一個脈沖與上一幀的幀移區(qū)間內(nèi)最后一個脈沖之間的間隔等于本幀的基音周期。3.5 基音和共振峰合成語音信號共振峰和基因參數(shù)語音合成的模型17共振峰的信息包含在語音頻譜的包絡(luò)中，因此共振峰參數(shù)提取關(guān)鍵是估計語音頻譜的包絡(luò)，并且認(rèn)為包絡(luò)中的極大值就是共振峰，這些信息反映了聲道的響應(yīng)（諧振頻率），它和基音結(jié)合能合成語音信號。示意圖如下：圖片加載失敗

29、圖3.9 共振峰和基因參數(shù)語音合成的模型示意圖為了完成共振峰和基音參數(shù)的語音合成，必須首先介紹在語音合成中的共振峰檢測。只有檢測到了共振峰參數(shù)才能與基因結(jié)合進(jìn)行語音合成。合成語音的共振峰檢測方法有：一、用線性預(yù)測參數(shù)進(jìn)行共振峰檢測；二、倒譜法和內(nèi)插法結(jié)合的共振峰檢測。得到共振峰參數(shù) 后，把每個共振峰頻率和帶寬都構(gòu)成一個二階數(shù)字的帶通濾波器，激勵源將通過并聯(lián)的時變共振峰頻率濾波器合成語音。示意圖如下：圍片加載失則圖3.10并連型時變共振峰濾波器合成語音示意圖線性預(yù)測系數(shù)的共振峰檢測在線性預(yù)測中，聲道傳遞函數(shù)H(z)可以寫為H(z)=GA(z)H(z)=GA(z)(3.21 )式中，預(yù) 測

30、誤差濾波器 A(z)=1 - E k=1pakz- kA(z)=1 - E k=1pakz- k, A(z)是一個多項式，它的根能精確地計算出共振峰頻率和帶寬。用線性預(yù)測系數(shù)計算共振峰參數(shù)的一般關(guān)系式：設(shè)有一個根為zi=|zi|ej 0 izi=|zi|ej 0 i ,對應(yīng)的共振峰頻率 FiFi和帶寬BiBi (下標(biāo)i表示第i個共振峰)，則Fi=fs x arctanlm(zi)Re(zi)/2 兀 Bi=- (fs/ 兀)ln|zi|Fi=fs x arctan ? lm(zi)Re ? (zi)/2 兀 Bi=- (fs/ 兀)ln ? |zi|(3.22)式中，fsfs是采樣頻率；

31、0 i 0 i是多項式zizi的相角。倒譜的共振峰檢測對語音信號x(n)進(jìn)行預(yù)加重和加窗分幀后得到 xi(n)xi(n) , i 表示第 i 幀。xi(n) 的傅里葉變換為 Xi(k)=DFT(xi(n)Xi(k)=DFT(xi(n) 。內(nèi)插法是在功率譜域進(jìn)行計算的。為了把內(nèi)插法應(yīng)用于倒譜分析，在計算倒譜時也轉(zhuǎn)換為功率譜域中。 Pi(k)=|Xi(k)|2Pi(k)=|Xi(k)|2 是 xi(n)的功率譜，取對數(shù)后為 PAi(k)=log(Pi(k)PAi(k)=log? (Pi(k),Xt PAi(k)PAi(k)進(jìn)行傅里葉變換，得到倒譜序列cAi(n)=IDFT(PAi(k)cAi(n

32、)=IDFT(PAi(k)在倒頻率軸乘以低通窗函數(shù) window(n)得hAi(n)=cAi(n) x window(n)hAi(n)=cAi(n) x window(n),將 hAi(n)hAi(n)經(jīng)過傅里葉變換，得到了對數(shù)功率譜 PAi(k)PAi(k) 的包絡(luò)線， Hi(k)=exp(HAi(k)Hi(k)=exp ? (HAi(k)從包絡(luò)線上尋找各個峰值就可以獲得相應(yīng)的共振峰頻率的初選參數(shù)。在共振峰頻率的初選參數(shù)中，設(shè)一個共振峰FjFj的初選峰值頻率為，mAf( Af是頻率分辨率)mAf( Af是頻率分辨率)其相鄰的兩個頻率點分別為。(葉1) Af和(m+1)Af(m- 1)

33、Af和(m+1)Af這三個點在功率譜包絡(luò)線上的幅值分別為Hi(m- 1),Hi(m),Hi(m+1)Hi(m-1),Hi(m),Hi(m+1)。然后可以得到共振峰頻率 FjFj和帶寬BjBj ,Fj=( - b/2a+m) x fBj= - b2- 4a(Hi(m) - 0.5Hp) VaX A fFj=( - b/2a+m) x fBj= - b2- 4a(Hi(m) - 0.5Hp)a x f(3.23)式(3.23)中，a=Hi(m+1)+Hi(m - 1)2 - Hi(m)b=Hi(m+1) - Hi(m - 1)2Hp=- b24a+ca=Hi(m+1)+Hi(m- 1)2 - H

34、i(m)b=Hi(m+1) - Hi(m- 1)2Hp=- b24a+c二階共振峰帶通濾波器的設(shè)計不論用線性預(yù)測法還是倒譜法，都需要獲得共振峰頻率FiFi和帶寬BiBi ,二階帶通數(shù)字濾波器傳遞函數(shù)一般可表示為：H(z)=b01+a1z- 1+a2z- 2H(z)=b01+a1z- 1+a2z- 2,(3.24)式中分母有一對共鈍復(fù)數(shù)根，記為zi=riej 0 i和z? i=rie - j0 izi=riej 0 i 和 zi ? =rie - j 0 i , riri 是根值的幅值，0 i 8 i 是相角。對于共振峰頻率的合成濾波器，就是要求該濾波器的中心頻率為共振峰頻率FiFi ,帶寬

35、為共振峰帶寬BiBi。若已知共振峰頻率和帶寬，則可求得濾波器傳遞函數(shù)分母的極點為：，0 i=2 兀 TFi, ri=e - Bi % T 0 i=2 兀 TFi , ri=e - Bi 兀 T 則可求得 H(z)的分母極點為 a1=- 2ricos 8 i,a22ia1= - 2ricos ? 0 i,a2=ri2 , b0是一個增益系數(shù)，它讓濾波器在中心頻率處響應(yīng)為1,可以求得 b0= I I 1- 2ricos 0 ie - j 0 i+r2ie - 2j 0 i I I b0=|1 - 2ricos ?0 ie - j 0 i+ri2e - 2j 0 i|。若已知共振峰的頻率和帶寬，則可以設(shè)計出一個二階帶通共振峰合成濾波器。3.5.5 輻射低(帶)通濾波器在語音信號模型中，聲門的沖激脈沖串模型相當(dāng)于二階低通，而口唇的輻射模型則相當(dāng)于一階高通，為此可以在語音共振峰檢測前通過一個一階高通濾波器，已更好地模擬人的發(fā)聲過程，提高高頻分量；在語音合成后也可以將高通濾波器反過來，構(gòu)成低通濾波器，恢復(fù)原信號的聲學(xué)模型。預(yù)加重濾波器傳遞函數(shù)為H(

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音信號合成算法的仿真研究

文檔簡介

溫馨提示

最新文檔

評論

語音信號合成算法的仿真研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔