語(yǔ)音信號(hào)處理課件_第1頁(yè)
語(yǔ)音信號(hào)處理課件_第2頁(yè)
語(yǔ)音信號(hào)處理課件_第3頁(yè)
語(yǔ)音信號(hào)處理課件_第4頁(yè)
語(yǔ)音信號(hào)處理課件_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第五章第五章 語(yǔ)音編碼語(yǔ)音編碼v語(yǔ)音編碼概述語(yǔ)音編碼概述v波形編碼波形編碼v參數(shù)編碼參數(shù)編碼v混合編碼混合編碼21.1.語(yǔ)音編碼概述語(yǔ)音編碼概述 語(yǔ)音編碼又分信源編碼和信道編碼。本章主要介紹信源編碼。語(yǔ)音信號(hào)編碼(信源編碼)與語(yǔ)音信號(hào)壓縮,實(shí)際上是同一技術(shù)兩個(gè)名稱(chēng)。其目的是在給定編碼速率條件下,得到盡量好的重建語(yǔ)音質(zhì)量(或稱(chēng)編碼質(zhì)量),同時(shí)應(yīng)減小編解碼延時(shí)以及算法的復(fù)雜程度。其中,編碼質(zhì)量、編碼速率、編解碼算法的復(fù)雜程度、編解碼延時(shí)是相互關(guān)聯(lián)的四個(gè)主要因素。3u語(yǔ)音信號(hào)編碼系統(tǒng)的應(yīng)用u編碼-存儲(chǔ)-回放系統(tǒng)(數(shù)字語(yǔ)音錄放)u編碼-傳輸-解碼系統(tǒng)(數(shù)字語(yǔ)音通信)語(yǔ)音編碼器數(shù)字存儲(chǔ)媒介語(yǔ)音解碼器輸入

2、語(yǔ)音輸出語(yǔ)音語(yǔ)音編碼器信道編碼器語(yǔ)音解碼器輸入語(yǔ)音輸出語(yǔ)音調(diào)制器傳輸設(shè)備及信道解調(diào)器信道解碼器4u語(yǔ)音信號(hào)壓縮(編碼)方法分類(lèi)u有損壓縮,又分成如下三類(lèi):u波形編碼波形編碼 全頻帶編碼(如PCM、ADPCM)、子帶編碼(簡(jiǎn)寫(xiě)SBC)、變換域編碼等。u參數(shù)編碼(聲碼器)參數(shù)編碼(聲碼器) 在語(yǔ)音信號(hào)發(fā)送端提取語(yǔ)音的特征參數(shù),在接收端以某種最小的失真合成原始信號(hào)。如線(xiàn)性預(yù)測(cè)聲碼器(簡(jiǎn)寫(xiě)LPC)。u混合編碼混合編碼 波形編碼參數(shù)編碼的結(jié)合。如如矢量和激勵(lì)線(xiàn)性預(yù)測(cè)(簡(jiǎn)寫(xiě)VSELP)、多脈沖激勵(lì)線(xiàn)性預(yù)測(cè)(簡(jiǎn)寫(xiě)MP-LPC)、碼本激勵(lì)線(xiàn)性預(yù)測(cè)(簡(jiǎn)寫(xiě)CELP)、多帶激勵(lì)(簡(jiǎn)寫(xiě)MBE)等。u無(wú)損壓縮:如統(tǒng)計(jì)編

3、碼(霍夫曼編碼、算術(shù)編碼)、游程編碼等。5u衡量語(yǔ)音編碼性能的主要因素u A.編碼質(zhì)量u客觀評(píng)定方法。如信噪比、加權(quán)信噪比、平均分段信噪比等。適用于速率較高的波形編碼類(lèi)型的算法。u主觀評(píng)定方法。常采用平均意見(jiàn)得分(Mean Opinion Score,簡(jiǎn)稱(chēng)MOS得分),判斷韻字測(cè)試(Diagnostic Rhyme Test,簡(jiǎn)稱(chēng)DRT得分),判斷滿(mǎn)意度測(cè)量(Diagnostic Acceptability Measure,簡(jiǎn)稱(chēng)DAM得分)等。主觀評(píng)定方法因符合人類(lèi)聽(tīng)覺(jué)對(duì)語(yǔ)音質(zhì)量的感覺(jué),目前得到廣泛應(yīng)用。6 平均意見(jiàn)得分(MOS)評(píng)分質(zhì)量尺度妨礙尺度 5 優(yōu)不察覺(jué) 4 良好剛察覺(jué)但不可厭 3

4、一般察覺(jué)及稍微可厭2 差可厭(但不令人反感)1 很差極可厭(令人反感) u在數(shù)字語(yǔ)音通信中,MOS分4.04.5為高質(zhì)量數(shù)字化語(yǔ)音,達(dá)到長(zhǎng)途電話(huà)網(wǎng)的要求,接近于透明信道的編碼,也稱(chēng)為網(wǎng)絡(luò)質(zhì)量。uMOS分3.5分左右稱(chēng)為通信質(zhì)量,這時(shí)重建話(huà)音質(zhì)量有所下降,但不妨礙正常通話(huà),可以滿(mǎn)足多數(shù)話(huà)音通信系統(tǒng)的使用要求。uMOS分為3.0分以下常稱(chēng)為合成語(yǔ)音質(zhì)量,是指一些聲碼器合成語(yǔ)音所能達(dá)到的質(zhì)量,一般具有足夠高的可懂度,但是自然度以及講話(huà)人的確認(rèn)方面不是很好。7判斷韻字測(cè)試(DRT)u判斷韻字測(cè)試是反映話(huà)音清晰度或者可懂度的一種測(cè)試方法,主要用于低速率語(yǔ)音編碼的質(zhì)量測(cè)試。這種測(cè)試方法使用若干對(duì)同韻母進(jìn)行

5、測(cè)試,測(cè)試中,讓受試者每次聽(tīng)到一對(duì)韻母中的某個(gè)音,然后讓其判斷聽(tīng)到的音是哪個(gè)字,全體試驗(yàn)者判斷正確的百分比就是DRT得分。u通常認(rèn)為DRT為95以上時(shí)清晰度為優(yōu),85-95為良,75-85為中,65-75為差,65以下為不可接受。u實(shí)際通話(huà)中,由于整句中有較多的冗余度,即使個(gè)別字聽(tīng)不清楚,也能理解整句話(huà)的原因,當(dāng)清晰度為90時(shí),整句話(huà)的可懂度接近于100。測(cè)試滿(mǎn)意度測(cè)量(DAM) 測(cè)試滿(mǎn)意度測(cè)量(DAM)是對(duì)話(huà)音質(zhì)量的綜合評(píng)估,它是在多種條件下對(duì)話(huà)音質(zhì)量可接受程度的一種度量,也是采用百分比評(píng)分。8提高語(yǔ)音編碼質(zhì)量的主要途徑 u 利用語(yǔ)音信號(hào)的冗余度u語(yǔ)音信號(hào)樣點(diǎn)間的相關(guān)性u(píng)幅度分布的不均勻性u(píng)

6、 利用人耳的聽(tīng)覺(jué)特性u(píng)聽(tīng)覺(jué)的掩蔽效應(yīng)u聽(tīng)覺(jué)對(duì)幅度和頻率的感知特性9u衡量語(yǔ)音編碼性能的主要因素 u B.編碼速率 單位為“比特/秒”(b/s),一般以I 表示;或單位為“比特/樣點(diǎn)”,一般以R 表示。I 和R 通過(guò)采樣速率fs 聯(lián)系起來(lái)。即 I = R fs 式中,R 越高,語(yǔ)音質(zhì)量越高,但對(duì)傳輸帶寬的要求也越高。在波形編碼中,為了取得高質(zhì)量的重建話(huà)音,一般取R=2 在參數(shù)編碼中R可以低到0.25甚至0.1以下。信號(hào)類(lèi)型采樣頻率(KHz)編碼速率(Kbps)頻率范圍(Hz)電話(huà)82.4-64300-3400激光唱盤(pán)CD44.170020-20000數(shù)字廣播及數(shù)字磁帶4870020-200001

7、0u 根據(jù)編碼速率,語(yǔ)音編碼可以分成如下幾類(lèi):u高速率高速率 32 Kbps 以上u中高速率中高速率 16 Kbps 32 Kbpsu中速率中速率 4.8 Kbps 16 Kbpsu低速率低速率 1.2 Kbps 4.8 Kbpsu極低速率極低速率 1.2 Kbps 以下11u衡量語(yǔ)音編碼性能的主要因素 u C.編解碼的復(fù)雜程度與語(yǔ)音編碼的話(huà)音質(zhì)量及硬件實(shí)現(xiàn)成本有關(guān),一般來(lái)說(shuō),增加編碼算法的復(fù)雜度會(huì)增加話(huà)音的質(zhì)量。u D.編解碼延時(shí)在實(shí)時(shí)通信中引起延時(shí)和回聲,必須考慮。 當(dāng)延時(shí)超過(guò)100ms時(shí),說(shuō)話(huà)者就會(huì)聽(tīng)到自己的回聲。122.2.語(yǔ)音波形編碼語(yǔ)音波形編碼 u 脈沖調(diào)制編碼(Pulse Cod

8、ing Modulation, PCM)u 均勻量化PCMu 非均勻量化PCMu 自適應(yīng)量化PCM (Adaptive PCM, APCM)u 差分脈沖編碼(Difference PCM, DPCM)u 自適應(yīng)差分脈沖編碼(ADPCM)u 增量調(diào)制(Delta Modulation,DM)和自適應(yīng)增量調(diào)制u 子帶編碼(Sub-band coding, SBC)u 變換域編碼13脈沖調(diào)制編碼脈沖調(diào)制編碼(PCM) (PCM) u PCM是最簡(jiǎn)單的波形編碼方法,它僅僅是對(duì)輸入信號(hào)進(jìn) 行采樣和量化u 典型的窄帶話(huà)音帶寬限制在4kHz以下,采樣頻率是8kHzu 量化有均勻量化和非均勻量化兩種方式PCM

9、編碼原理圖采采 樣樣14均勻量化的信噪比2 . 702. 6log2077. 46.02log10:)()()(:max22BXBSNRnxnyneeex量化信噪比量化誤差當(dāng)語(yǔ)音信號(hào)的采樣率為8 KHz,采用12 bit/樣本 (B=12)量化,SNR65 dB,編碼速率為8*12=96 Kbps均勻量化采樣輸入樣本值x(n)量化輸出數(shù)據(jù)y( (n) )非均勻量化采樣輸入樣本值x(n)量化輸出數(shù)據(jù)y( (n) )15非均勻量化的基本思想u 對(duì)小信號(hào)采用小的量化間隔,對(duì)大信號(hào)采用大的量化間隔,這樣可以用較少的位數(shù)編碼。u 對(duì)大信號(hào)來(lái)說(shuō),雖然絕對(duì)量化誤差較大,但是因?yàn)椋簎大信號(hào)出現(xiàn)的機(jī)會(huì)不多;u信

10、噪比(相對(duì)誤差)與小信號(hào)是一致的;u人耳對(duì)信號(hào)幅度的感知靈敏度是成對(duì)數(shù)關(guān)系 所以對(duì)總的話(huà)音質(zhì)量影響不大16律壓擴(kuò)( (-law compand)ompand)與A律壓擴(kuò)律(-Law)壓擴(kuò)(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話(huà)通信中。x(n) 為輸入信號(hào),一般規(guī)格化為1= x(n) =1,則Xmax=1為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,=0則不壓縮,一般取100 = = 500。)(sgn)1ln(| )(|1ln )()(maxmaxnxXnxXnxFny1702000400060008000100001200014000-0.200.202000400060

11、008000100001200014000-0.200.202000400060008000100001200014000-0.200.202000400060008000100001200014000-0.200.2原始語(yǔ)音=50=200=500-law語(yǔ)音編碼結(jié)果1802000400060008000100001200014000-0.2-0.100.10.202000400060008000100001200014000010020030002000400060008000100001200014000-0.2-0.100.10.20200040006000800010000120001

12、4000-4-2024x 10-3xy=lin2mu(x)z=mu2lin(y)x-z19A律(A-Law)壓擴(kuò)(G.711)主要用在歐洲和中國(guó)大陸等地區(qū)的數(shù)字電話(huà)通信中對(duì)于采樣頻率為8 kHz,樣本精度為13位、14位或者16位的輸入信號(hào),使用律壓擴(kuò)編碼或者使用A律壓擴(kuò)編碼,經(jīng)過(guò)PCM編碼器之后每個(gè)樣本的精度為8位,輸出的數(shù)據(jù)率為64 kb/s。這個(gè)數(shù)據(jù)就是CCITT推薦的G.711標(biāo)準(zhǔn)(A=87.6)。1| )(|1 ),(sgnln1| )(|ln11| )(|0 ),(sgnln1| )(|)()(maxmaxmaxmaxXnxAnxAXnxAXAXnxnxAnxAnxFnyA設(shè)設(shè) X

13、max=1=120v自適應(yīng)脈沖編碼調(diào)制是根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng),即量化階的大小每隔幾個(gè)樣本就改變,也可以是音節(jié)自適應(yīng),即量化階的大小在較長(zhǎng)時(shí)間周期里發(fā)生變化。v改變量化階大小的方法有兩種:一種稱(chēng)為前向自適應(yīng)(forward adaptation),另一種稱(chēng)為后向自適應(yīng)(backward adaptation)。vAPCM比一般的非均勻量化PCM能提高信噪比 4-6 dB自適應(yīng)脈沖調(diào)制編碼自適應(yīng)脈沖調(diào)制編碼(APCM) (APCM) 21前向APCM前向自適應(yīng)是根據(jù)未量化的樣本值來(lái)估算輸入信號(hào)的電平,以此來(lái)確定量化階的大小,并對(duì)其電平進(jìn)

14、行編碼作為邊信息(side information)傳送到接收端。后向APCM后向自適應(yīng)是從量化器剛輸出的過(guò)去樣本中來(lái)提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動(dòng)生成量化階,所以它不需要傳送邊信息。22uDPCM采用預(yù)測(cè)編碼的方式傳輸信號(hào),所謂預(yù)測(cè)編碼就是根據(jù)過(guò)去的信號(hào)樣值來(lái)預(yù)測(cè)下一個(gè)信號(hào)樣值,并僅把預(yù)測(cè)值與現(xiàn)實(shí)樣值的差值加以量化,編碼后進(jìn)行數(shù)字信號(hào)傳輸。在接收端經(jīng)過(guò)和發(fā)送端相同的預(yù)測(cè)操作,低通濾波器便可恢復(fù)出與原始信號(hào)相近的波形。u其依據(jù)是語(yǔ)音信號(hào)相鄰樣本間有很強(qiáng)的相關(guān)性(冗余度高),因此相鄰樣本的差值遠(yuǎn)小于樣本值本身。uDPCM是采用固定預(yù)測(cè)器與固定量化器的差值脈沖調(diào)制,它是分析ADPC

15、M工作原理的基礎(chǔ)。差分脈沖編碼差分脈沖編碼(DPCM) (DPCM) 23111( )( )( )(1)( )( )( ),( )( )( )z( )( )(1)( )( )( )( )( )11( )( ) (x nd nx nx nc nx ne nc nd ne nC zX zzE zC zE zX zX zzzx nx nx n是輸入語(yǔ)音信號(hào),是預(yù)測(cè)誤差信號(hào),也稱(chēng)為差值信號(hào)或余量信號(hào)。是編碼語(yǔ)音信號(hào),為解碼后的語(yǔ)音信號(hào)。假定量化誤差為則有??梢缘玫狡?域關(guān)系為:從而可得解碼語(yǔ)音信號(hào)與原信號(hào)之間的關(guān)系為1)(1)( )x ne nDPCMDPCM的原理圖的原理圖 誤差信號(hào)會(huì)逐漸累積,導(dǎo)致

16、可能語(yǔ)音出現(xiàn)嚴(yán)重失真24實(shí)際實(shí)際DPCMDPCM的結(jié)構(gòu)圖的結(jié)構(gòu)圖 )()()()()(1)()()1)()()()()()(1)()(z1111nenxnxzEzXzzCzXzzEzXzEzXzXzCzzzCzX與原信號(hào)之間的關(guān)系為從而可得解碼語(yǔ)音信號(hào)域關(guān)系為:其誤差信號(hào)不再累積25采用采用LPCLPC編碼的編碼的DPCMDPCM的結(jié)構(gòu)圖的結(jié)構(gòu)圖 piiipiizazPinxanx11)(:)()(即新的編解碼器為:預(yù)測(cè)中的信號(hào)預(yù)測(cè)關(guān)系的差值。這有點(diǎn)像線(xiàn)性之前若干個(gè)值之間信號(hào)往往采取當(dāng)前值與實(shí)際的編碼器中,差分編碼器編碼器P(z)解碼器解碼器P(z)u對(duì)于相同的量化比特,對(duì)于相同的量化比特,D

17、PCMDPCM可以獲得比可以獲得比PCMPCM更高更高的信噪比,的信噪比,1 1階階DPCMDPCM信噪比提高約信噪比提高約5dB.5dB.u在相同的信噪比情況下,在相同的信噪比情況下,DPCMDPCM的比特率比的比特率比PCMPCM小小, , 1 1階階DPCMDPCM減少減少1bit1bit, 3 3階階DPCMDPCM減少減少2bit2bit,編碼速率由,編碼速率由64 64 Kbps Kbps 降到降到48 Kbps48 Kbps26uADPCM綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心思想是:u用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值,線(xiàn)

18、性預(yù)測(cè)P(z)的系數(shù)ai可變,預(yù)測(cè)誤差d(n)更小,量化的電平間隔可以更小,從而減小量化誤差使實(shí)際樣本值和預(yù)測(cè)值之間的差值。u利用自適應(yīng)的思想改變量化階的大小,即用小的量化階去編碼小的差值,使用大的量化階去編碼大的差值;自適應(yīng)量化可以進(jìn)一步減小量化誤差。u接收端的譯碼器使用與發(fā)送端相同的算法,利用傳送來(lái)的信號(hào)來(lái)確定量化器和逆量化器中的量化階大小,并且用它來(lái)預(yù)測(cè)下一個(gè)接收信號(hào)的預(yù)測(cè)值。uADPCM已經(jīng)形成國(guó)際標(biāo)準(zhǔn):如G.721、G.723, 以及G.726uG.726提供4種碼率:40、32、24、16 Kbps,其語(yǔ)音質(zhì)量相當(dāng)于64 Kbps的PCM編碼自適應(yīng)差分脈沖編碼自適應(yīng)差分脈沖編碼(A

19、DPCM) (ADPCM) 27ADPCM系統(tǒng)編碼器原理圖u每接收到一個(gè)語(yǔ)音信號(hào),它根據(jù)語(yǔ)音信號(hào)的PCM編碼按照一定算法得到下次信號(hào)的預(yù)測(cè)值。把本次的語(yǔ)音信號(hào)的PCM編碼值與上次的預(yù)測(cè)值進(jìn)行對(duì)比,得到一個(gè)信號(hào)的差值,這個(gè)差值可以用很少的位長(zhǎng)來(lái)表示。u通過(guò)自適應(yīng)量化技術(shù),根據(jù)不同的編碼信號(hào)自動(dòng)調(diào)整量化的步長(zhǎng),減小量化誤差。28G.726 32kb/s ADPCM-編碼器u在編碼器中先將輸入的8位PCM碼轉(zhuǎn)換為14位線(xiàn)性碼u同預(yù)測(cè)信號(hào)相減產(chǎn)生差值信號(hào)u對(duì)差值信號(hào)進(jìn)行自適應(yīng)量化產(chǎn)生4比特的ADPCM代碼c(n)u一方面把c(n)送給解碼器,u另一方面利用c(n)進(jìn)行本地解碼,得到量化后的差值信號(hào),同

20、預(yù)測(cè)信號(hào)相加得到重建信號(hào)。u自適應(yīng)預(yù)測(cè)器采用二階極點(diǎn),六階零點(diǎn)的零極點(diǎn)預(yù)測(cè)器u為了使量化能適應(yīng)語(yǔ)音、帶內(nèi)數(shù)據(jù)以及信令等具有不同統(tǒng)計(jì)特性以及不同幅度的輸入信號(hào),自適應(yīng)要依據(jù)輸入信號(hào)的特性自動(dòng)改變自適應(yīng)數(shù)據(jù)參數(shù)來(lái)控制量階,這一功能由量化器定標(biāo)因子自適應(yīng)、自適應(yīng)速度控制、音信號(hào)和轉(zhuǎn)換檢測(cè)等功能單元完成。輸入格式轉(zhuǎn)換差值信號(hào)計(jì)算自適應(yīng)量化自適應(yīng)逆量化自適應(yīng)預(yù)測(cè)器量化器自適應(yīng)定標(biāo)因子自適應(yīng)速度控制單頻與瞬變檢測(cè)重建信號(hào)計(jì)算器PCM碼輸入)(nc)(nsl)(nd)(nIADPCM輸出)(ndq)(nsp)(nsr)(2na)(ntr)(ntd)(ny)(nal音信號(hào)和轉(zhuǎn)換檢測(cè)器 xi(n)c(n)xr(

21、n) xe(n)k2(n)k1(n).目的:在不顯著損失目的:在不顯著損失語(yǔ)音質(zhì)量的前提下,語(yǔ)音質(zhì)量的前提下,將數(shù)碼率由將數(shù)碼率由64 Kbps64 Kbps降到降到32 Kbps32 Kbps29G.726 32kb/s ADPCM-解碼器u解碼器的解碼過(guò)程實(shí)際已經(jīng)包含在編碼過(guò)程中,但是增加了線(xiàn)性碼到PCM碼的轉(zhuǎn)換和同步編碼調(diào)整單元。u同步編碼調(diào)整的作用是防止多級(jí)同步級(jí)聯(lián)編碼工作時(shí)產(chǎn)生誤差積累,以保持較高的轉(zhuǎn)換質(zhì)量。輸出格式轉(zhuǎn)換自適應(yīng)逆量化自適應(yīng)預(yù)測(cè)器量化器自適應(yīng)定標(biāo)因子自適應(yīng)速度控制單頻與瞬變檢測(cè)重建信號(hào)計(jì)算器ADPCM碼輸入)(nI)(ndq)(nsr)(ntr)(ntd)(ny)(na

22、l同步編碼調(diào)整)(nsPCM)(nsd)(nylc(n) xr(n) xp(n) xd(n) xc(n) k1(n) y(n)30 G.726 ADPCM編譯碼器的輸入信號(hào)是G.711 PCM代碼。 G.711 PCM碼采樣率是8kHz,每個(gè)代碼用8位表示,因此它的數(shù)據(jù)率為64kb/s。而G.726 ADPCM的輸出代碼是“自適應(yīng)量化器”的輸出,該輸出是用4位表示的差分信號(hào),它的采樣率仍然是8kHz,它的數(shù)據(jù)率為32kb/s,這樣就獲得了21的數(shù)據(jù)壓縮。313.3.語(yǔ)音參數(shù)編碼與混合編碼語(yǔ)音參數(shù)編碼與混合編碼 u波形編碼的目標(biāo)是再現(xiàn)語(yǔ)音信號(hào)的時(shí)域波形,在32 Kbps或之上的編碼速率下能夠得到

23、非常好的語(yǔ)音質(zhì)量,也可以在24 Kbps或16 Kbps速率下得到可接受的通話(huà)質(zhì)量。但是很難進(jìn)一步降低編碼速率。u參數(shù)編碼的目標(biāo)是構(gòu)造語(yǔ)音的生成模型,發(fā)送端傳送該模型的參數(shù),在接收端通過(guò)該模型來(lái)合成還原語(yǔ)音??梢詫?shí)現(xiàn)很低的編碼速率(低至2.4 Kbps)。u混合編碼綜合利用了參數(shù)編碼速率低和波形編碼音質(zhì)好的優(yōu)點(diǎn),實(shí)現(xiàn)了在中低速率下的較高質(zhì)量的合成語(yǔ)音。32u參數(shù)編碼的基本思想是利用語(yǔ)音信號(hào)生成的聲學(xué)模型,通過(guò)信號(hào)分析技術(shù)獲得關(guān)于該模型的頻譜包絡(luò)、基音周期、清濁音判斷等的相關(guān)信息,在接收端通過(guò)這些信息來(lái)合成還原語(yǔ)音信號(hào)u三種參數(shù)編碼器u 通道聲碼器u 共振峰聲碼器u 線(xiàn)性預(yù)測(cè)線(xiàn)性預(yù)測(cè)(LPC)(

24、LPC)聲碼器聲碼器33線(xiàn)性預(yù)測(cè)(LPC)聲碼器輸入輸入語(yǔ)音語(yǔ)音線(xiàn)性預(yù)測(cè)線(xiàn)性預(yù)測(cè)分析器分析器編碼器編碼器基基 音音 檢測(cè)器檢測(cè)器解碼器解碼器線(xiàn)性預(yù)測(cè)線(xiàn)性預(yù)測(cè)合成器合成器激勵(lì)信號(hào)激勵(lì)信號(hào)產(chǎn)生器產(chǎn)生器合成合成語(yǔ)音語(yǔ)音LPC聲碼器原理圖發(fā)送端 接收端u基于全極點(diǎn)模型的LPC分析u編碼參數(shù):LPC參數(shù)、基音周期、增益、清濁判斷u不對(duì)預(yù)測(cè)殘差信號(hào)進(jìn)行量化和傳輸(因此無(wú)法得到原來(lái)的波形)34LPC參數(shù)的編碼u10階的全極點(diǎn)模型LPC分析uLPC參數(shù)的選擇u 預(yù)測(cè)系數(shù) aiu 量化誤差容易導(dǎo)致系統(tǒng)不穩(wěn)定(合成濾波器的極點(diǎn)在單位圓外)u 一般不直接對(duì)預(yù)測(cè)參數(shù)編碼傳輸u 反射系數(shù) kiu 可以保證合成器的穩(wěn)定,

25、但是不同的ki值對(duì)量化誤差的敏感度不一樣,需要采用非均勻量化u 用于LPC-10聲碼器u 線(xiàn)譜對(duì)參數(shù)LSPu 是最常用的LPC編碼參數(shù)u 量化誤差相對(duì)獨(dú)立,即單個(gè)LSP參數(shù)的量化誤差只會(huì)影響其所對(duì)應(yīng)的共振峰的頻譜包絡(luò),不會(huì)影響真?zhèn)€頻譜ki和LSP都可以從ai中很容易求得35LPC聲碼器的相關(guān)標(biāo)準(zhǔn)u1976年美國(guó)軍方確定LPC-10作為2.4 Kbps速率編碼器的推薦編碼方式u1985年美國(guó)官方接受LPC-10作為聯(lián)邦標(biāo)準(zhǔn)(FS-15)u 速率極低u 合成語(yǔ)音質(zhì)量很差、很不自然,主要是因?yàn)樵谇鍧嵋舻呐袛嘁约盎糁芷诘奶崛∩喜粔驕?zhǔn)確,合成激勵(lì)源信號(hào)和原來(lái)的LPC預(yù)測(cè)誤差信號(hào)相差較大u1986年美國(guó)

26、第三代保密電話(huà)裝置(STU-III)采用了LPC-10的增強(qiáng)型, LPC-10eu 改善了激勵(lì)源:混合激勵(lì)代替LPC-10中的二元激勵(lì);激勵(lì)脈沖加抖動(dòng)處理;多脈沖激勵(lì)u 改進(jìn)基音提取算法u 采用LSP代替ki36原始語(yǔ)音原始語(yǔ)音低通濾波低通濾波1003600HzA/D變換變換8KHz,12bits預(yù)加重預(yù)加重計(jì)算分析相計(jì)算分析相位位基音分析存儲(chǔ)器基音分析存儲(chǔ)器低通濾波器低通濾波器清清/濁音檢測(cè)濁音檢測(cè)2階逆濾波階逆濾波AMDF基音提取基音提取基音及清基音及清/濁音校正濁音校正預(yù)測(cè)器分析存儲(chǔ)器預(yù)測(cè)器分析存儲(chǔ)器計(jì)算計(jì)算RMS計(jì)算預(yù)測(cè)系數(shù)計(jì)算預(yù)測(cè)系數(shù)2幀參數(shù)存儲(chǔ)器幀參數(shù)存儲(chǔ)器2幀參數(shù)存儲(chǔ)器幀參數(shù)存儲(chǔ)

27、器參數(shù)編碼參數(shù)編碼誤差校正和映射誤差校正和映射并變串及同步產(chǎn)生并變串及同步產(chǎn)生編碼語(yǔ)音輸出編碼語(yǔ)音輸出pitchV/UVRMSRCLPC-10的編碼器框圖原始語(yǔ)音經(jīng)過(guò)一低通濾波器之后,輸入A/D轉(zhuǎn)換器中,以8KHz速率采樣得到數(shù)字化語(yǔ)音,然后每180個(gè)采樣分為一幀(22.5ms),以幀為處理單元,提取語(yǔ)音特征參數(shù)并加以編碼傳送。A/D變換后輸出的數(shù)字化語(yǔ)音,經(jīng)低通濾波,2階逆濾波后,再用平均幅度差函數(shù)(AMDF)計(jì)算基音周期,經(jīng)過(guò)平滑、校正得到該幀的基音周期。同時(shí)對(duì)低通濾波后輸出的數(shù)字語(yǔ)音進(jìn)行清/濁音檢測(cè),經(jīng)平滑、校正后得到改正的該幀的清/濁音標(biāo)志。37編碼語(yǔ)編碼語(yǔ)音輸入音輸入并變串及并變串及

28、同步檢測(cè)同步檢測(cè)誤差檢測(cè)誤差檢測(cè)校正解碼校正解碼參數(shù)參數(shù)解碼解碼幀塊到基音塊的幀塊到基音塊的轉(zhuǎn)換與插值轉(zhuǎn)換與插值反射系數(shù)轉(zhuǎn)換成反射系數(shù)轉(zhuǎn)換成預(yù)測(cè)系數(shù)預(yù)測(cè)系數(shù)基音基音產(chǎn)生產(chǎn)生噪音噪音產(chǎn)生產(chǎn)生清清/濁音開(kāi)關(guān)濁音開(kāi)關(guān)綜合器綜合器計(jì)算增益計(jì)算增益輸出存儲(chǔ)器輸出存儲(chǔ)器去加重去加重D/A變換變換低通濾波低通濾波3600Hz合成語(yǔ)音輸出合成語(yǔ)音輸出RMSRCpitchV/UV在收端首先通過(guò)查表,對(duì)碼流進(jìn)行檢錯(cuò)、糾錯(cuò),經(jīng)過(guò)糾錯(cuò)譯碼后即可得到基音周期、清/濁音標(biāo)志、增益以及反射系數(shù)的數(shù)值。譯碼結(jié)果延時(shí)一幀輸出,使得輸出數(shù)據(jù)可以在過(guò)去一幀、現(xiàn)在一幀、將來(lái)一幀三幀內(nèi)進(jìn)行平滑。由于每幀語(yǔ)音只傳輸一組參數(shù),考慮一幀內(nèi)可

29、能有不止一個(gè)基音周期,因此要對(duì)接收數(shù)值進(jìn)行幀塊到基音塊的轉(zhuǎn)換和插值。LPC-10的解碼器框圖38濁音清音Pitching/voicing77RMS55sync11k155k255k355k455k54k64k74k84k93k102誤差校正020總計(jì)5453LPC-10的碼本設(shè)計(jì)39LPC-10聲碼器合成語(yǔ)音與原始語(yǔ)音的比較LPC系統(tǒng)中,全部參數(shù)量化為2.4kb/s,如果不考慮信道誤碼,可懂度得分:3.6KHz原始語(yǔ)音 LPC-10合成語(yǔ)音DRT高于95%90%正確DRT(有噪聲)92%93%高于82%正確DAM高于654840語(yǔ)音混合編碼 uLPC聲碼器的主要問(wèn)題:過(guò)于簡(jiǎn)化的二元激勵(lì)源(周期

30、脈沖或隨機(jī)噪聲)是導(dǎo)致合成語(yǔ)音質(zhì)量較差的根本原因u混合編碼的基本方法就是在LPC聲碼器的基礎(chǔ)上,采用更高質(zhì)量的波形編碼算法來(lái)優(yōu)化激勵(lì)源信號(hào)u激勵(lì)源采取周期脈沖和噪聲信號(hào)的混合體(語(yǔ)音的長(zhǎng)時(shí) 相關(guān)模型)u閉環(huán)搜索算法合成分析法(analysis-by-synthesis)來(lái)選擇最佳激勵(lì)源信號(hào)u最佳激勵(lì)源選擇標(biāo)準(zhǔn):采用感覺(jué)加權(quán)均方誤差最小判決準(zhǔn)則41語(yǔ)音信號(hào)的短時(shí)語(yǔ)音信號(hào)的短時(shí)- -長(zhǎng)時(shí)預(yù)測(cè)長(zhǎng)時(shí)預(yù)測(cè)(short-term and long-term predictionshort-term and long-term prediction) u語(yǔ)音信號(hào)樣本間的短時(shí)相關(guān)特性u(píng) p取值很小,10-12

31、,一般在一個(gè)基音周期以?xún)?nèi)u 由聲道共振峰調(diào)制產(chǎn)生u語(yǔ)音信號(hào)樣本間的長(zhǎng)時(shí)相關(guān)特性u(píng) P為基音周期u不計(jì)長(zhǎng)時(shí)相關(guān)的線(xiàn)性預(yù)測(cè)合成模型u計(jì)入長(zhǎng)時(shí)相關(guān)的線(xiàn)性預(yù)測(cè)合成模型pkkknsans1)()(激勵(lì)發(fā)生器1/A(Z)語(yǔ)音激勵(lì)發(fā)生器1/A(Z)1/P(Z)語(yǔ)音)()(Pnbunu42u短時(shí)預(yù)測(cè)短時(shí)預(yù)測(cè) u去除了信號(hào)的短時(shí)相關(guān)性,殘差信號(hào)近似于聲門(mén)波激勵(lì)信號(hào)去除了信號(hào)的短時(shí)相關(guān)性,殘差信號(hào)近似于聲門(mén)波激勵(lì)信號(hào)u長(zhǎng)時(shí)預(yù)測(cè)長(zhǎng)時(shí)預(yù)測(cè)u去除信號(hào)中相鄰基音周期間的相關(guān)性,殘差信號(hào)類(lèi)似于噪聲信號(hào)去除信號(hào)中相鄰基音周期間的相關(guān)性,殘差信號(hào)類(lèi)似于噪聲信號(hào)NoImage)1(10)1(11)(PPPzbzbzbzPpkkk

32、zazA11)(pkkknsansnu1)()()(11)()()(kkkPnubnunv語(yǔ)音信號(hào)的短時(shí)語(yǔ)音信號(hào)的短時(shí)- -長(zhǎng)時(shí)預(yù)測(cè)長(zhǎng)時(shí)預(yù)測(cè)(short-term and long-term predictionshort-term and long-term prediction) PbzzP1)(s(n)piiiza1+11)(kkPkzb+_u(n)v(n) 短時(shí)預(yù)測(cè) 長(zhǎng)時(shí)預(yù)測(cè)430100200300400500600700800-1010100200300400500600700800-0.500.50100200300400500600700800-0.500.50100200300

33、400500020400100200300400500020406080s(n) u(n) v(n) 0100020003000400010-2100102Frequency (Hz)intensity (dB)01000200030004000100101Frequency (Hz)Intensity (dB)00.20.40.60.81-80-60-40-20FrequencyPower Spectrum Magnitude (dB)00.20.40.60.81-60-40-20FrequencyPower Spectrum Magnitude (dB)語(yǔ)音信號(hào)的短時(shí)語(yǔ)音信號(hào)的短時(shí)- -長(zhǎng)

34、時(shí)預(yù)測(cè)長(zhǎng)時(shí)預(yù)測(cè)(short-term and long-term predictionshort-term and long-term prediction) uu(n)中還有比較明顯的周期脈沖,需要較多的量化比特uv(n)中脈沖不再明顯,信號(hào)更接近于白噪聲信號(hào),易于量化0100020003000400010-2100102Frequency (Hz)intensity (dB)01000200030004000100101Frequency (Hz)Intensity (dB)00.20.40.60.81-80-60-40-20FrequencyPower Spectrum Magnitud

35、e (dB)00.20.40.60.81-60-40-20FrequencyPower Spectrum Magnitude (dB)LPC參數(shù)譜44u在混合編碼算法中,需要對(duì)短時(shí)預(yù)測(cè)在混合編碼算法中,需要對(duì)短時(shí)預(yù)測(cè)(LPC)(LPC)參數(shù)、長(zhǎng)時(shí)預(yù)測(cè)參數(shù)、長(zhǎng)時(shí)預(yù)測(cè)參數(shù)參數(shù)b,b,基音周期基音周期P,P,以及預(yù)測(cè)殘差信號(hào)以及預(yù)測(cè)殘差信號(hào)v(n)v(n)進(jìn)行量化編碼。進(jìn)行量化編碼。u算法的重點(diǎn)在算法的重點(diǎn)在v(n)v(n)的編碼的編碼u v(n)v(n)類(lèi)似白噪聲信號(hào)類(lèi)似白噪聲信號(hào)u 不是直接對(duì)不是直接對(duì)v(n)v(n)的每個(gè)樣本點(diǎn)編碼(編碼速率太高)的每個(gè)樣本點(diǎn)編碼(編碼速率太高)u 一種作法是

36、設(shè)定一個(gè)矢量碼本,其中的每一個(gè)矢量代表一種可能一種作法是設(shè)定一個(gè)矢量碼本,其中的每一個(gè)矢量代表一種可能的的v(n),v(n),對(duì)每一幀語(yǔ)音,都是從這個(gè)矢量碼本中選擇其中一個(gè)最佳對(duì)每一幀語(yǔ)音,都是從這個(gè)矢量碼本中選擇其中一個(gè)最佳 矢量作為矢量作為v(n)v(n)的替代品進(jìn)行合成語(yǔ)音的替代品進(jìn)行合成語(yǔ)音假定一幀語(yǔ)音有256個(gè)樣點(diǎn),如果直接對(duì)每個(gè)v(n)的樣點(diǎn)用8bit量化,需要256*8 bit。假定我們選擇的矢量碼本中有256個(gè)矢量,每一幀語(yǔ)音選擇其中一個(gè)矢量作為v(n)的近似,則只需要8個(gè)bit就可以量化一幀語(yǔ)音的v(n)。u現(xiàn)在問(wèn)題的關(guān)鍵是如何從這現(xiàn)在問(wèn)題的關(guān)鍵是如何從這256256個(gè)矢量的

37、碼本中選擇跟當(dāng)前個(gè)矢量的碼本中選擇跟當(dāng)前 語(yǔ)音的語(yǔ)音的v(n)v(n)最接近的一個(gè)矢量?最接近的一個(gè)矢量?NoImage合成分析法(合成分析法(Analysis-by-synthesis) 45基于感覺(jué)加權(quán)濾波器基于感覺(jué)加權(quán)濾波器(perceptually weighted (perceptually weighted filter)filter)和合成分析法(和合成分析法(analysis-by-analysis-by-synthesissynthesis)的碼字矢量選擇算法)的碼字矢量選擇算法 激勵(lì)發(fā)激勵(lì)發(fā)生器生器線(xiàn)性預(yù)測(cè)綜合線(xiàn)性預(yù)測(cè)綜合濾波器濾波器合成器合成器均方誤差最均方誤差最小估值小

38、估值感覺(jué)加權(quán)感覺(jué)加權(quán)濾波濾波LPC分析分析原始語(yǔ)音信號(hào)原始語(yǔ)音信號(hào)LPCLPC參數(shù)、參數(shù)、P P、b b+ +合成語(yǔ)音誤差信號(hào)v激勵(lì)發(fā)生器是從碼本里依次選擇一個(gè)碼字矢量,將所得的合成語(yǔ)音與原始激勵(lì)發(fā)生器是從碼本里依次選擇一個(gè)碼字矢量,將所得的合成語(yǔ)音與原始語(yǔ)音相比較,得到一個(gè)誤差信號(hào),該誤差信號(hào)經(jīng)過(guò)聽(tīng)覺(jué)感知加權(quán)后,可以語(yǔ)音相比較,得到一個(gè)誤差信號(hào),該誤差信號(hào)經(jīng)過(guò)聽(tīng)覺(jué)感知加權(quán)后,可以計(jì)算其均方誤差。計(jì)算其均方誤差。v比較碼本里每一個(gè)碼字矢量所對(duì)應(yīng)的均方誤差,選擇誤差最小的一個(gè)碼字比較碼本里每一個(gè)碼字矢量所對(duì)應(yīng)的均方誤差,選擇誤差最小的一個(gè)碼字適量作為適量作為v(n)v(n)的近似矢量。的近似矢量

39、。46感覺(jué)加權(quán)濾波器感覺(jué)加權(quán)濾波器v感覺(jué)加權(quán)濾波器的依據(jù)是人耳的聽(tīng)覺(jué)掩蔽效應(yīng)。在語(yǔ)音頻譜中能量較高的頻段的噪聲相對(duì)于能量較低頻段的噪聲不易被感知,在度量原始語(yǔ)音與合成語(yǔ)音之間的誤差時(shí)記入此因素,語(yǔ)音能量高的頻段允許誤差大一些,能量低的頻段允許誤差小一些。v引入頻域感覺(jué)加權(quán)濾波器來(lái)計(jì)算二者的誤差并使其達(dá)到最?。?7感覺(jué)加權(quán)濾波器感覺(jué)加權(quán)濾波器v取感覺(jué)加權(quán)濾波器在z域的表達(dá)式為:v感覺(jué)加權(quán)濾波器的特性由預(yù)測(cè)系數(shù)和加權(quán)因子確定。r = 1, W(z)=1,沒(méi)有加權(quán)r = 0, W(z)=A(z),加權(quán)系數(shù)和語(yǔ)音的共振峰(頻譜包絡(luò))成反比在8KHz采樣頻率下,一般取r=0.8vW(z)的實(shí)際作用就是使

40、得實(shí)際誤差信號(hào)的譜不再平坦,而是有著與語(yǔ)音信號(hào)譜相似的包絡(luò)形狀。111( )( )( / )1piiipiiiia zA zW zA z ra r z48感覺(jué)加權(quán)濾波器感覺(jué)加權(quán)濾波器05001000150020002500300035004000-20-1001020frequency (Hz)dBFrequency Response for /eyPerceptual Weight Fn. vocal tract filter LP filter A(z)A(z)1/A(z),1/A(z),信號(hào)頻譜信號(hào)頻譜包絡(luò)包絡(luò)A(z/0.8)A(z/0.8)W(z) (r=0.8)W(z) (r=0.8)可見(jiàn),加權(quán)濾波器跟信號(hào)的頻譜包絡(luò)大至成反比關(guān)系,也就是說(shuō),在信號(hào)能量大的地方,誤差對(duì)整體誤差的貢獻(xiàn)較?。ㄒ?yàn)槿硕鷮?duì)這些誤差不太敏感),信號(hào)能量小的地方,誤差對(duì)整體誤差的貢獻(xiàn)較大。這樣,可以使得所選擇的激勵(lì)源碼字矢量合成的語(yǔ)音聽(tīng)覺(jué)上效果最好。49u多脈沖激勵(lì)線(xiàn)性預(yù)測(cè)聲碼器多脈沖激勵(lì)線(xiàn)性預(yù)測(cè)聲碼器 (Multi-pulse (Multi-pulse linear predictive coding, MPLPC)linear pred

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論