語音信號處理課件_第1頁
語音信號處理課件_第2頁
語音信號處理課件_第3頁
語音信號處理課件_第4頁
語音信號處理課件_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第五章語音編碼語音編碼概述波形編碼參數(shù)編碼混合編碼21.語音編碼概述

語音編碼又分信源編碼和信道編碼。本章主要介紹信源編碼。 語音信號編碼(信源編碼)與語音信號壓縮,實際上是同一技術(shù)兩個名稱。其目的是在給定編碼速率條件下,得到盡量好的重建語音質(zhì)量(或稱編碼質(zhì)量),同時應(yīng)減小編解碼延時以及算法的復(fù)雜程度。其中,編碼質(zhì)量、編碼速率、編解碼算法的復(fù)雜程度、編解碼延時是相互關(guān)聯(lián)的四個主要因素。3語音信號編碼系統(tǒng)的應(yīng)用編碼-存儲-回放系統(tǒng)(數(shù)字語音錄放)編碼-傳輸-解碼系統(tǒng)(數(shù)字語音通信)

4語音信號壓縮(編碼)方法分類有損壓縮,又分成如下三類:波形編碼全頻帶編碼(如PCM、ADPCM)、子帶編碼(簡寫SBC)、變換域編碼等。參數(shù)編碼(聲碼器)在語音信號發(fā)送端提取語音的特征參數(shù),在接收端以某種最小的失真合成原始信號。如線性預(yù)測聲碼器(簡寫LPC)?;旌暇幋a波形編碼參數(shù)編碼的結(jié)合。如如矢量和激勵線性預(yù)測(簡寫VSELP)、多脈沖激勵線性預(yù)測(簡寫MP-LPC)、碼本激勵線性預(yù)測(簡寫CELP)、多帶激勵(簡寫MBE)等。無損壓縮:如統(tǒng)計編碼(霍夫曼編碼、算術(shù)編碼)、游程編碼等。5衡量語音編碼性能的主要因素

A.編碼質(zhì)量客觀評定方法。如信噪比、加權(quán)信噪比、平均分段信噪比等。適用于速率較高的波形編碼類型的算法。主觀評定方法。常采用平均意見得分(MeanOpinionScore,簡稱MOS得分),判斷韻字測試(DiagnosticRhymeTest,簡稱DRT得分),判斷滿意度測量(DiagnosticAcceptabilityMeasure,簡稱DAM得分)等。主觀評定方法因符合人類聽覺對語音質(zhì)量的感覺,目前得到廣泛應(yīng)用。6平均意見得分(MOS)評分質(zhì)量尺度妨礙尺度5

優(yōu)不察覺4

良好剛察覺但不可厭3

一般察覺及稍微可厭2

差可厭(但不令人反感)1

很差極可厭(令人反感)

在數(shù)字語音通信中,MOS分4.0~4.5為高質(zhì)量數(shù)字化語音,達(dá)到長途電話網(wǎng)的要求,接近于透明信道的編碼,也稱為網(wǎng)絡(luò)質(zhì)量。MOS分3.5分左右稱為通信質(zhì)量,這時重建話音質(zhì)量有所下降,但不妨礙正常通話,可以滿足多數(shù)話音通信系統(tǒng)的使用要求。MOS分為3.0分以下常稱為合成語音質(zhì)量,是指一些聲碼器合成語音所能達(dá)到的質(zhì)量,一般具有足夠高的可懂度,但是自然度以及講話人的確認(rèn)方面不是很好。7判斷韻字測試(DRT)判斷韻字測試是反映話音清晰度或者可懂度的一種測試方法,主要用于低速率語音編碼的質(zhì)量測試。這種測試方法使用若干對同韻母進(jìn)行測試,測試中,讓受試者每次聽到一對韻母中的某個音,然后讓其判斷聽到的音是哪個字,全體試驗者判斷正確的百分比就是DRT得分。通常認(rèn)為DRT為95%以上時清晰度為優(yōu),85%-95%為良,75%-85%為中,65%-75%為差,65%以下為不可接受。實際通話中,由于整句中有較多的冗余度,即使個別字聽不清楚,也能理解整句話的原因,當(dāng)清晰度為90%時,整句話的可懂度接近于100%。測試滿意度測量(DAM)

測試滿意度測量(DAM)是對話音質(zhì)量的綜合評估,它是在多種條件下對話音質(zhì)量可接受程度的一種度量,也是采用百分比評分。8提高語音編碼質(zhì)量的主要途徑利用語音信號的冗余度語音信號樣點間的相關(guān)性幅度分布的不均勻性

利用人耳的聽覺特性聽覺的掩蔽效應(yīng)聽覺對幅度和頻率的感知特性9衡量語音編碼性能的主要因素

B.編碼速率

單位為“比特/秒”(b/s),一般以I

表示;或單位為“比特/樣點”,一般以R

表示。I

和R

通過采樣速率fs

聯(lián)系起來。即

I=R·fs

式中,R

越高,語音質(zhì)量越高,但對傳輸帶寬的要求也越高。

在波形編碼中,為了取得高質(zhì)量的重建話音,一般取R>=2

在參數(shù)編碼中R可以低到0.25甚至0.1以下。信號類型采樣頻率(KHz)編碼速率(Kbps)頻率范圍(Hz)電話82.4-64300-3400激光唱盤CD44.1>70020-20000數(shù)字廣播及數(shù)字磁帶48>70020-2000010根據(jù)編碼速率,語音編碼可以分成如下幾類:高速率32Kbps以上中高速率16Kbps——32Kbps中速率4.8Kbps——16Kbps低速率1.2Kbps——4.8Kbps極低速率1.2Kbps以下11衡量語音編碼性能的主要因素

C.編解碼的復(fù)雜程度

與語音編碼的話音質(zhì)量及硬件實現(xiàn)成本有關(guān),一般來說,增加編碼算法的復(fù)雜度會增加話音的質(zhì)量。

D.編解碼延時

在實時通信中引起延時和回聲,必須考慮。當(dāng)延時超過100ms時,說話者就會聽到自己的回聲。122.語音波形編碼

脈沖調(diào)制編碼(PulseCodingModulation,PCM)

均勻量化PCM

非均勻量化PCM

自適應(yīng)量化PCM(AdaptivePCM,APCM)

差分脈沖編碼(DifferencePCM,DPCM)自適應(yīng)差分脈沖編碼(ADPCM)

增量調(diào)制(DeltaModulation,DM)和自適應(yīng)增量調(diào)制子帶編碼(Sub-bandcoding,SBC)

變換域編碼13脈沖調(diào)制編碼(PCM)PCM是最簡單的波形編碼方法,它僅僅是對輸入信號進(jìn)行采樣和量化典型的窄帶話音帶寬限制在4kHz以下,采樣頻率是8kHz

量化有均勻量化和非均勻量化兩種方式PCM編碼原理圖采樣14均勻量化的信噪比當(dāng)語音信號的采樣率為8KHz,采用12bit/樣本(B=12)量化,SNR≈65dB,編碼速率為8*12=96Kbps均勻量化采樣輸入樣本值x(n)量化輸出數(shù)據(jù)y(n)非均勻量化采樣輸入樣本值x(n)量化輸出數(shù)據(jù)y(n)15非均勻量化的基本思想對小信號采用小的量化間隔,對大信號采用大的量化間隔,這樣可以用較少的位數(shù)編碼。對大信號來說,雖然絕對量化誤差較大,但是因為:大信號出現(xiàn)的機(jī)會不多;信噪比(相對誤差)與小信號是一致的;人耳對信號幅度的感知靈敏度是成對數(shù)關(guān)系所以對總的話音質(zhì)量影響不大16μ律壓擴(kuò)(μ-lawcompand)與A律壓擴(kuò) μ律(μ-Law)壓擴(kuò)(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中。x(n)

為輸入信號,一般規(guī)格化為-1<=x(n)<=1,則Xmax=1μ為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,μ=0則不壓縮,一般取100<=μ<=500。17原始語音μ=50μ=200μ=500μ-law語音編碼結(jié)果18xy=lin2mu(x)z=mu2lin(y)x-z19A律(A-Law)壓擴(kuò)(G.711)主要用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中對于采樣頻率為8kHz,樣本精度為13位、14位或者16位的輸入信號,使用μ律壓擴(kuò)編碼或者使用A律壓擴(kuò)編碼,經(jīng)過PCM編碼器之后每個樣本的精度為8位,輸出的數(shù)據(jù)率為64kb/s。這個數(shù)據(jù)就是CCITT推薦的G.711標(biāo)準(zhǔn)(A=87.6)。設(shè)Xmax=120自適應(yīng)脈沖編碼調(diào)制是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時自適應(yīng),即量化階的大小每隔幾個樣本就改變,也可以是音節(jié)自適應(yīng),即量化階的大小在較長時間周期里發(fā)生變化。改變量化階大小的方法有兩種:一種稱為前向自適應(yīng)(forwardadaptation),另一種稱為后向自適應(yīng)(backwardadaptation)。APCM比一般的非均勻量化PCM能提高信噪比4-6dB自適應(yīng)脈沖調(diào)制編碼(APCM)21前向APCM前向自適應(yīng)是根據(jù)未量化的樣本值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后向APCM后向自適應(yīng)是從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動生成量化階,所以它不需要傳送邊信息。22DPCM采用預(yù)測編碼的方式傳輸信號,所謂預(yù)測編碼就是根據(jù)過去的信號樣值來預(yù)測下一個信號樣值,并僅把預(yù)測值與現(xiàn)實樣值的差值加以量化,編碼后進(jìn)行數(shù)字信號傳輸。在接收端經(jīng)過和發(fā)送端相同的預(yù)測操作,低通濾波器便可恢復(fù)出與原始信號相近的波形。其依據(jù)是語音信號相鄰樣本間有很強(qiáng)的相關(guān)性(冗余度高),因此相鄰樣本的差值遠(yuǎn)小于樣本值本身。DPCM是采用固定預(yù)測器與固定量化器的差值脈沖調(diào)制,它是分析ADPCM工作原理的基礎(chǔ)。 差分脈沖編碼(DPCM)23DPCM的原理圖誤差信號會逐漸累積,導(dǎo)致可能語音出現(xiàn)嚴(yán)重失真24實際DPCM的結(jié)構(gòu)圖誤差信號不再累積25采用LPC編碼的DPCM的結(jié)構(gòu)圖編碼器P(z)解碼器P(z)對于相同的量化比特,DPCM可以獲得比PCM更高的信噪比,1階DPCM信噪比提高約5dB.在相同的信噪比情況下,DPCM的比特率比PCM小,1階DPCM減少1bit,3階DPCM減少2bit,編碼速率由64Kbps降到48Kbps26ADPCM綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心思想是:用過去的樣本值估算下一個輸入樣本的預(yù)測值,線性預(yù)測P(z)的系數(shù)ai可變,預(yù)測誤差d(n)更小,量化的電平間隔可以更小,從而減小量化誤差使實際樣本值和預(yù)測值之間的差值。利用自適應(yīng)的思想改變量化階的大小,即用小的量化階去編碼小的差值,使用大的量化階去編碼大的差值;自適應(yīng)量化可以進(jìn)一步減小量化誤差。接收端的譯碼器使用與發(fā)送端相同的算法,利用傳送來的信號來確定量化器和逆量化器中的量化階大小,并且用它來預(yù)測下一個接收信號的預(yù)測值。ADPCM已經(jīng)形成國際標(biāo)準(zhǔn):如G.721、G.723,以及G.726G.726提供4種碼率:40、32、24、16Kbps,其語音質(zhì)量相當(dāng)于64Kbps的PCM編碼 自適應(yīng)差分脈沖編碼(ADPCM)27ADPCM系統(tǒng)編碼器原理圖每接收到一個語音信號,它根據(jù)語音信號的PCM編碼按照一定算法得到下次信號的預(yù)測值。把本次的語音信號的PCM編碼值與上次的預(yù)測值進(jìn)行對比,得到一個信號的差值,這個差值可以用很少的位長來表示。通過自適應(yīng)量化技術(shù),根據(jù)不同的編碼信號自動調(diào)整量化的步長,減小量化誤差。28G.72632kb/sADPCM-編碼器在編碼器中先將輸入的8位PCM碼轉(zhuǎn)換為14位線性碼同預(yù)測信號相減產(chǎn)生差值信號對差值信號進(jìn)行自適應(yīng)量化產(chǎn)生4比特的ADPCM代碼c(n)一方面把c(n)送給解碼器,另一方面利用c(n)進(jìn)行本地解碼,得到量化后的差值信號,同預(yù)測信號相加得到重建信號。自適應(yīng)預(yù)測器采用二階極點,六階零點的零極點預(yù)測器為了使量化能適應(yīng)語音、帶內(nèi)數(shù)據(jù)以及信令等具有不同統(tǒng)計特性以及不同幅度的輸入信號,自適應(yīng)要依據(jù)輸入信號的特性自動改變自適應(yīng)數(shù)據(jù)參數(shù)來控制量階,這一功能由量化器定標(biāo)因子自適應(yīng)、自適應(yīng)速度控制、音信號和轉(zhuǎn)換檢測等功能單元完成。音信號和轉(zhuǎn)換檢測器

xi(n)c(n)xr(n)xe(n)k2(n)k1(n).目的:在不顯著損失語音質(zhì)量的前提下,將數(shù)碼率由64Kbps降到32Kbps29G.72632kb/sADPCM-解碼器解碼器的解碼過程實際已經(jīng)包含在編碼過程中,但是增加了線性碼到PCM碼的轉(zhuǎn)換和同步編碼調(diào)整單元。同步編碼調(diào)整的作用是防止多級同步級聯(lián)編碼工作時產(chǎn)生誤差積累,以保持較高的轉(zhuǎn)換質(zhì)量。c(n)xr(n)xp(n)xd(n)xc(n)

k1(n)y(n)30G.726ADPCM編譯碼器的輸入信號是G.711PCM代碼。G.711PCM碼采樣率是8kHz,每個代碼用8位表示,因此它的數(shù)據(jù)率為64kb/s。而G.726ADPCM的輸出代碼是“自適應(yīng)量化器”的輸出,該輸出是用4位表示的差分信號,它的采樣率仍然是8kHz,它的數(shù)據(jù)率為32kb/s,這樣就獲得了2∶1的數(shù)據(jù)壓縮。313.語音參數(shù)編碼與混合編碼

波形編碼的目標(biāo)是再現(xiàn)語音信號的時域波形,在32Kbps或之上的編碼速率下能夠得到非常好的語音質(zhì)量,也可以在24Kbps或16Kbps速率下得到可接受的通話質(zhì)量。但是很難進(jìn)一步降低編碼速率。參數(shù)編碼的目標(biāo)是構(gòu)造語音的生成模型,發(fā)送端傳送該模型的參數(shù),在接收端通過該模型來合成還原語音??梢詫崿F(xiàn)很低的編碼速率(低至2.4Kbps)?;旌暇幋a綜合利用了參數(shù)編碼速率低和波形編碼音質(zhì)好的優(yōu)點,實現(xiàn)了在中低速率下的較高質(zhì)量的合成語音。32參數(shù)編碼的基本思想是利用語音信號生成的聲學(xué)模型,通過信號分析技術(shù)獲得關(guān)于該模型的頻譜包絡(luò)、基音周期、清濁音判斷等的相關(guān)信息,在接收端通過這些信息來合成還原語音信號三種參數(shù)編碼器通道聲碼器共振峰聲碼器

線性預(yù)測(LPC)聲碼器33線性預(yù)測(LPC)聲碼器輸入語音線性預(yù)測分析器編碼器基音檢測器解碼器線性預(yù)測合成器激勵信號產(chǎn)生器合成語音LPC聲碼器原理圖發(fā)送端接收端基于全極點模型的LPC分析編碼參數(shù):LPC參數(shù)、基音周期、增益、清濁判斷不對預(yù)測殘差信號進(jìn)行量化和傳輸(因此無法得到原來的波形)34LPC參數(shù)的編碼10階的全極點模型LPC分析LPC參數(shù)的選擇預(yù)測系數(shù)ai

量化誤差容易導(dǎo)致系統(tǒng)不穩(wěn)定(合成濾波器的極點在單位圓外)

一般不直接對預(yù)測參數(shù)編碼傳輸

反射系數(shù)ki

可以保證合成器的穩(wěn)定,但是不同的ki值對量化誤差的敏感度不一樣,需要采用非均勻量化用于LPC-10聲碼器線譜對參數(shù)LSP

是最常用的LPC編碼參數(shù)量化誤差相對獨立,即單個LSP參數(shù)的量化誤差只會影響其所對應(yīng)的共振峰的頻譜包絡(luò),不會影響真?zhèn)€頻譜ki和LSP都可以從ai中很容易求得35LPC聲碼器的相關(guān)標(biāo)準(zhǔn)1976年美國軍方確定LPC-10作為2.4Kbps速率編碼器的推薦編碼方式1985年美國官方接受LPC-10作為聯(lián)邦標(biāo)準(zhǔn)(FS-15)

速率極低合成語音質(zhì)量很差、很不自然,主要是因為在清濁音的判斷以及基音周期的提取上不夠準(zhǔn)確,合成激勵源信號和原來的LPC預(yù)測誤差信號相差較大1986年美國第三代保密電話裝置(STU-III)采用了LPC-10的增強(qiáng)型,LPC-10e

改善了激勵源:混合激勵代替LPC-10中的二元激勵;激勵脈沖加抖動處理;多脈沖激勵改進(jìn)基音提取算法采用LSP代替ki36原始語音低通濾波100~3600HzA/D變換8KHz,12bits預(yù)加重計算分析相位基音分析存儲器低通濾波器清/濁音檢測2階逆濾波AMDF基音提取基音及清/濁音校正預(yù)測器分析存儲器計算RMS計算預(yù)測系數(shù)2幀參數(shù)存儲器2幀參數(shù)存儲器參數(shù)編碼誤差校正和映射并變串及同步產(chǎn)生編碼語音輸出pitchV/UVRMSRCLPC-10的編碼器框圖原始語音經(jīng)過一低通濾波器之后,輸入A/D轉(zhuǎn)換器中,以8KHz速率采樣得到數(shù)字化語音,然后每180個采樣分為一幀(22.5ms),以幀為處理單元,提取語音特征參數(shù)并加以編碼傳送。A/D變換后輸出的數(shù)字化語音,經(jīng)低通濾波,2階逆濾波后,再用平均幅度差函數(shù)(AMDF)計算基音周期,經(jīng)過平滑、校正得到該幀的基音周期。同時對低通濾波后輸出的數(shù)字語音進(jìn)行清/濁音檢測,經(jīng)平滑、校正后得到改正的該幀的清/濁音標(biāo)志。37編碼語音輸入并變串及同步檢測誤差檢測校正解碼參數(shù)解碼幀塊到基音塊的轉(zhuǎn)換與插值反射系數(shù)轉(zhuǎn)換成預(yù)測系數(shù)基音產(chǎn)生噪音產(chǎn)生清/濁音開關(guān)綜合器計算增益輸出存儲器去加重D/A變換低通濾波3600Hz合成語音輸出RMSRCpitchV/UV在收端首先通過查表,對碼流進(jìn)行檢錯、糾錯,經(jīng)過糾錯譯碼后即可得到基音周期、清/濁音標(biāo)志、增益以及反射系數(shù)的數(shù)值。譯碼結(jié)果延時一幀輸出,使得輸出數(shù)據(jù)可以在過去一幀、現(xiàn)在一幀、將來一幀三幀內(nèi)進(jìn)行平滑。由于每幀語音只傳輸一組參數(shù),考慮一幀內(nèi)可能有不止一個基音周期,因此要對接收數(shù)值進(jìn)行幀塊到基音塊的轉(zhuǎn)換和插值。LPC-10的解碼器框圖38濁音清音Pitching/voicing77RMS55sync11k155k255k355k455k54k64k74k84k93k102誤差校正020總計5453LPC-10的碼本設(shè)計39LPC-10聲碼器合成語音與原始語音的比較 LPC系統(tǒng)中,全部參數(shù)量化為2.4kb/s,如果不考慮信道誤碼,可懂度得分:3.6KHz原始語音LPC-10合成語音DRT高于95%90%正確DRT(有噪聲)92%~93%高于82%正確DAM高于654840語音混合編碼LPC聲碼器的主要問題:過于簡化的二元激勵源(周期脈沖或隨機(jī)噪聲)是導(dǎo)致合成語音質(zhì)量較差的根本原因混合編碼的基本方法就是在LPC聲碼器的基礎(chǔ)上,采用更高質(zhì)量的波形編碼算法來優(yōu)化激勵源信號激勵源采取周期脈沖和噪聲信號的混合體(語音的長時相關(guān)模型)閉環(huán)搜索算法—合成分析法(analysis-by-synthesis)來選擇最佳激勵源信號最佳激勵源選擇標(biāo)準(zhǔn):采用感覺加權(quán)均方誤差最小判決準(zhǔn)則41語音信號的短時-長時預(yù)測

(short-termandlong-termprediction)語音信號樣本間的短時相關(guān)特性

p取值很小,10-12,一般在一個基音周期以內(nèi)由聲道共振峰調(diào)制產(chǎn)生語音信號樣本間的長時相關(guān)特性

P為基音周期不計長時相關(guān)的線性預(yù)測合成模型計入長時相關(guān)的線性預(yù)測合成模型激勵發(fā)生器1/A(Z)語音激勵發(fā)生器1/A(Z)1/P(Z)語音42短時預(yù)測<經(jīng)典的線性預(yù)測>去除了信號的短時相關(guān)性,殘差信號近似于聲門波激勵信號長時預(yù)測去除信號中相鄰基音周期間的相關(guān)性,殘差信號類似于噪聲信號語音信號的短時-長時預(yù)測

(short-termandlong-termprediction)

s(n)?=--piiiza1+?-=+--11)(kkPkzb+__u(n)v(n)

短時預(yù)測

長時預(yù)測43語音信號的短時-長時預(yù)測

(short-termandlong-termprediction)

u(n)中還有比較明顯的周期脈沖,需要較多的量化比特v(n)中脈沖不再明顯,信號更接近于白噪聲信號,易于量化LPC參數(shù)譜44在混合編碼算法中,需要對短時預(yù)測(LPC)參數(shù)、長時預(yù)測參數(shù)b,基音周期P,以及預(yù)測殘差信號v(n)進(jìn)行量化編碼。算法的重點在v(n)的編碼

v(n)類似白噪聲信號不是直接對v(n)的每個樣本點編碼(編碼速率太高)一種作法是設(shè)定一個矢量碼本,其中的每一個矢量代表一種可能 的v(n),對每一幀語音,都是從這個矢量碼本中選擇其中一個最佳 矢量作為v(n)的替代品進(jìn)行合成語音

假定一幀語音有256個樣點,如果直接對每個v(n)的樣點用8bit量化,需要256*8bit。假定我們選擇的矢量碼本中有256個矢量,每一幀語音選擇其中一個矢量作為v(n)的近似,則只需要8個bit就可以量化一幀語音的v(n)?,F(xiàn)在問題的關(guān)鍵是如何從這256個矢量的碼本中選擇跟當(dāng)前語音的v(n)最接近的一個矢量?合成分析法(Analysis-by-synthesis)

45基于感覺加權(quán)濾波器(perceptuallyweightedfilter)和合成分析法(analysis-by-synthesis)的碼字矢量選擇算法激勵發(fā)生器線性預(yù)測綜合濾波器合成器均方誤差最小估值感覺加權(quán)濾波LPC分析原始語音信號LPC參數(shù)、P、b+合成語音誤差信號激勵發(fā)生器是從碼本里依次選擇一個碼字矢量,將所得的合成語音與原始語音相比較,得到一個誤差信號,該誤差信號經(jīng)過聽覺感知加權(quán)后,可以計算其均方誤差。比較碼本里每一個碼字矢量所對應(yīng)的均方誤差,選擇誤差最小的一個碼字適量作為v(n)的近似矢量。46感覺加權(quán)濾波器感覺加權(quán)濾波器的依據(jù)是人耳的聽覺掩蔽效應(yīng)。在語音頻譜中能量較高的頻段的噪聲相對于能量較低頻段的噪聲不易被感知,在度量原始語音與合成語音之間的誤差時記入此因素,語音能量高的頻段允許誤差大一些,能量低的頻段允許誤差小一些。引入頻域感覺加權(quán)濾波器來計算二者的誤差并使其達(dá)到最?。?7感覺加權(quán)濾波器取感覺加權(quán)濾波器在z域的表達(dá)式為:感覺加權(quán)濾波器的特性由預(yù)測系數(shù)和加權(quán)因子確定。r=1,W(z)=1,沒有加權(quán)r=0,W(z)=A(z),加權(quán)系數(shù)和語音的共振峰(頻譜包絡(luò))成反比在8KHz采樣頻率下,一般取r=0.8W(z)的實際作用就是使得實際誤差信號的譜不再平坦,而是有著與語音信號譜相似的包絡(luò)形狀。48感覺加權(quán)濾波器A(z)1/A(z),信號頻譜包絡(luò)A(z/0.8)W(z)(r=0.8)可見,加權(quán)濾波器跟信號的頻譜包絡(luò)大至成反比關(guān)系,也就是說,在信號能量大的地方,誤差對整體誤差的貢獻(xiàn)較小(因為人耳對這些誤差不太敏感),信號能量小的地方,誤差對整體誤差的貢獻(xiàn)較大。這樣,可以使得所選擇的激勵源碼字矢量合成的語音聽覺上效果最好。49多脈沖激勵線性預(yù)測聲碼器(Multi-pulselinearpredictivecoding,MPLPC)規(guī)則脈沖激勵線性預(yù)測聲碼器(Regularpulseexcitationlinearpredictivecoding,RPELPC)碼激勵線性預(yù)測聲碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論