語(yǔ)音信號(hào)編碼_第1頁(yè)
語(yǔ)音信號(hào)編碼_第2頁(yè)
語(yǔ)音信號(hào)編碼_第3頁(yè)
語(yǔ)音信號(hào)編碼_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音信號(hào)編碼語(yǔ)音信號(hào)編碼類別:無(wú)線通信早期的語(yǔ)音信號(hào)處理及傳輸均是以模擬的方式進(jìn)行的。20世紀(jì)30年代末脈沖編碼調(diào)制(PCM,Pulse Code Modulation)原理和聲碼器(Vocoder)概念被提出后,語(yǔ)音數(shù)字編碼便一直沿著這兩個(gè)方向發(fā)展。語(yǔ)音數(shù)據(jù)壓縮目的是能在盡可能低的傳輸速率上獲得高質(zhì)量的語(yǔ)音效果,即希望語(yǔ)音信號(hào)可以在帶寬較窄的信道中傳輸而語(yǔ)音質(zhì)量下降的不多或盡可能不下降。語(yǔ)音編碼系統(tǒng)早期用的是波形編碼方法,也叫波形編碼(或非參數(shù)編碼),其目的是力圖使重建的語(yǔ)音波形保持原語(yǔ)音信號(hào)的波形形狀。這種編碼器是把語(yǔ)音信號(hào)當(dāng)成一般的波形信號(hào)來(lái)處理,而并未考慮語(yǔ)音信號(hào)的冗佘度。它的優(yōu)點(diǎn)是具

2、有較強(qiáng)的適應(yīng)能力,有較好的合成語(yǔ)音質(zhì)量,然而編碼速率高(64Kbits),編碼效率極低。脈沖編碼調(diào)制(PCM)、自適應(yīng)增量調(diào)制(ADM)、自適應(yīng)差分編碼(ADPCM)、自適應(yīng)編碼(APC)等都是屬于波形編碼(非參數(shù)編碼)。而聲碼器則是不同于波形編碼器的高效編碼方式。聲碼器又稱參數(shù)編碼(或模型編碼),它主要是對(duì)提取的語(yǔ)音信號(hào)特征參數(shù)進(jìn)行編碼,目的主要是使重建的語(yǔ)音信號(hào)具有盡可能高的可懂度,而不是要求重建波形保持原語(yǔ)音波形的形狀。因此,可能出現(xiàn)的情況是即使重建語(yǔ)音的可懂度高,但其時(shí)域波形與原語(yǔ)音的時(shí)域波形有較大的差別。這種編碼器的優(yōu)點(diǎn)是可達(dá)到極低的編碼速率而語(yǔ)音依然可懂,編碼速率可達(dá)到8Kbits

3、、48Kbits甚至更低。主要缺點(diǎn)是重建語(yǔ)音自然度低,韻律感差,合成語(yǔ)音質(zhì)量差。聲碼器的典型代表是通道聲碼器、共峰聲碼器及線性預(yù)測(cè)聲碼器等。 20世紀(jì)80年代至今,不僅聲碼器和波形編碼器得到了很大發(fā)展,并且還有一種全新的革命性編碼方法被普遍推廣,這類編碼器叫混合編碼器。這種編碼器在傳送器中對(duì)給定編碼結(jié)構(gòu)的所有可能性進(jìn)行綜合,找出輸人語(yǔ)音的最好編碼形式,并從這些可能性中發(fā)現(xiàn)輸入語(yǔ)音的最優(yōu)主觀匹配,然后用數(shù)碼表示這種主觀匹配并發(fā)送到接收器。利用線性預(yù)測(cè)、VQ、ABS、感覺(jué)加權(quán)、后濾波等技術(shù)得到的多脈沖激勵(lì)線性預(yù)測(cè)(MPELP,Multi Pulse Enspirit LinePrognostica

4、te),規(guī)則脈沖激勵(lì)線性預(yù)測(cè)(RPELP,Rule Pulse Enspirit Line Prognosticate),碼本激勵(lì)線性預(yù)測(cè)(CELP,Code Enspirit Line Prognosticate) 編碼速率達(dá)到816Kbits甚至更底,其話音質(zhì)量高、編碼速率低,但算法復(fù)雜。 近年來(lái),ITUT在多媒體數(shù)字通信方面(包括電視會(huì)議等)制定了一系列國(guó)際標(biāo)準(zhǔn)(按ITU的說(shuō)法是建議)。 表1 ITUT多媒體會(huì)議標(biāo)準(zhǔn)(基本模式) 在現(xiàn)有的網(wǎng)路設(shè)施條仵下,H320和H323比較適用的標(biāo)準(zhǔn)。H320的基本音頻模式是G711 log-PCM(對(duì)數(shù)脈碼調(diào)制)編碼解碼器,它是一種簡(jiǎn)單的8kHz采樣

5、頻率對(duì)數(shù)脈碼調(diào)制模式,長(zhǎng)期以來(lái)它都是數(shù)字電話網(wǎng)絡(luò)主要的編碼方法(長(zhǎng)途電話盡管起源于模擬電話,現(xiàn)在長(zhǎng)途電話在數(shù)字網(wǎng)絡(luò)上傳輸)。 G711定義為8位編碼,速率為64Kbits,但在H320中采樣截短為6或7比特位,因?yàn)樗俾氏鄳?yīng)變?yōu)?8Kbits或56Kbits。G711提供了出色的長(zhǎng)話音質(zhì)窄帶(3kHz音頻帶寬)語(yǔ)音、不太明顯的編解碼延遲(低于1ms)以及非常低的實(shí)現(xiàn)復(fù)雜性。為了提供與普通G711音頻電話的兼容性,所有的H320呼叫在H221 FAS和BAS信道中進(jìn)行同步初始化和模式協(xié)商時(shí)開(kāi)始發(fā)送和接收G711音頻。 G711有很多優(yōu)點(diǎn),但是G711指定了兩個(gè)不同的編碼A律和律,在采用G711標(biāo)準(zhǔn)

6、的區(qū)域,不同地方使用上述兩種不同的方法。CCITT不能達(dá)成統(tǒng)一的編碼方法。結(jié)果是H320系統(tǒng)必須由遠(yuǎn)端在每次呼叫開(kāi)始時(shí)自動(dòng)發(fā)現(xiàn)使用的編碼律,或者避免使用音頻直到H320控制過(guò)程能用來(lái)建立另一音頻模式。而且,G711因?yàn)樗牡蛷?fù)雜性和與普遍電話的兼容性成為H320的基本音頻模式,但與其他H320音頻模式相比在使用帶寬方面它是效率低下的。如果轉(zhuǎn)到其他音頻模式下節(jié)省的數(shù)據(jù)帶寬可用來(lái)傳送更多的視頻位,將使H320視頻質(zhì)量有很大不同,特別是在普通的2B(128Kbits)H320呼叫上。 鑒于G711語(yǔ)音壓縮協(xié)議本身的一些缺點(diǎn),人們一直在找一種替代它的協(xié)議,現(xiàn)在已經(jīng)開(kāi)始用的有G722協(xié)議和G728協(xié)議。

7、 G728是目前H320中用得較多的窄帶音頻模式。它是基于通常的8kHz窄帶采樣和5個(gè)采樣(0625ms)的音頻幀的低時(shí)延碼本激勵(lì)線性編碼(LDCELP),比特率為16Kbits,提供很好的長(zhǎng)話音質(zhì),總延遲為大約1875ms。 在現(xiàn)有網(wǎng)絡(luò)條件下,需要一個(gè)窄帶音頻模式,但是又要有相當(dāng)好的語(yǔ)音質(zhì)量。 最近建立的8Kbits電話標(biāo)準(zhǔn)真正提高了該速率下的語(yǔ)音品質(zhì)并改善了復(fù)雜性,這種編碼器在某種程度上是一個(gè)突破,因此它的嚴(yán)格規(guī)范使性能達(dá)到或超過(guò)了32Kbits的G726 ADPCM,但速率僅為8Kbits。ITU G729 SKbits標(biāo)準(zhǔn)在性能上不亞于G726,其算法延時(shí)少于16ms,隨機(jī)誤碼和背景噪

8、聲的性能都不低于G726,具有與自身的非同步串聯(lián)能力。比如說(shuō),兩級(jí)串聯(lián)的性能不低于G726四級(jí)串聯(lián)的性能,達(dá)到這個(gè)水平的編碼稱為共扼結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)(CSACELP),它采用特殊的碼本結(jié)構(gòu)簡(jiǎn)化碼本查找。 由于G729的優(yōu)點(diǎn)突出,特別適合目前網(wǎng)絡(luò)條件,因此其在多媒體會(huì)議中的應(yīng)用越來(lái)越受到重視。G729的算法被稱作共軛結(jié)構(gòu)代數(shù)碼激線性預(yù)測(cè)(CSACELP,ConjugateStructuredAlgebraic Code Excited Linear Predictive),它構(gòu)成了G729標(biāo)準(zhǔn)的基礎(chǔ)。CSACELP在標(biāo)準(zhǔn)PCM或線性PCM的話音采樣基礎(chǔ)上,每10ms生成一個(gè)10字節(jié)長(zhǎng)的話音

9、幀。對(duì)于每一個(gè)語(yǔ)音幀提取CELP模型參數(shù),再對(duì)這些參數(shù)在編碼后以每幀80bit進(jìn)行信道傳輸,在解碼端,接收到的比特流通過(guò)激勵(lì)碼本解碼成相應(yīng)的CELP參數(shù),再通過(guò)短時(shí)綜合濾波器和長(zhǎng)時(shí)綜合濾波器重建語(yǔ)音幀,最后經(jīng)過(guò)后向?yàn)V波進(jìn)行語(yǔ)音增強(qiáng)。 該算法提供了優(yōu)秀音質(zhì),且延時(shí)很小。CSACELP也是為先進(jìn)的定點(diǎn)運(yùn)算數(shù)字信號(hào)處理器設(shè)計(jì)的,因?yàn)樗髲?qiáng)大的運(yùn)算處理能力。CSACELP編碼步驟的方框圖如圖1所示。 圖1 CS-ACELP編碼步驟 其固定的碼本具有一個(gè)代數(shù)結(jié)構(gòu),稱為交錯(cuò)單脈沖排列設(shè)計(jì)(1SPP)。碼本中每40個(gè)樣本激勵(lì)向量?jī)H有4個(gè)非零脈沖,記為i0,i1,i2和i3,其幅值和位置見(jiàn)表2,每個(gè)激勵(lì)碼字

10、可寫成: c(n)=S0(n-m0)+S1(n-m1)+S2(n-m2)+S3(n-m3),n=0,39 其中(n)是時(shí)刻n的單位沖激函數(shù)。 表2 脈沖幅值和位置 從表中可看到,脈沖幅值僅為1或1,由于這種限制,再加上碼字的稀疏,使得碼本搜索大大簡(jiǎn)化了,各個(gè)脈沖的位置也存在限制,如表2所示,可以看到脈沖i1僅能位于m1=16,6,1116,2126,3136中的某一位置。這些位置與其他3個(gè)脈沖的位置都不相同,為了提高這些限制激勵(lì)的諧波結(jié)構(gòu),碼向量要通過(guò)一個(gè)自適應(yīng)間隔濾波器: 其中是自適應(yīng)增益,T是當(dāng)前子幀的間隔延遲,碼本搜索是從碼向量的一個(gè)脈沖開(kāi)始,然后進(jìn)行4個(gè)嵌套循環(huán),每次循環(huán)對(duì)應(yīng)一個(gè)新加人

11、的脈沖。由于4個(gè)脈沖的位置不連續(xù),我們使用一個(gè)共扼搜索,這是局部碼本搜索,它在第3個(gè)循環(huán)之后限制碼本搜索的努力,這種搜索產(chǎn)生的語(yǔ)音品質(zhì)和SNR與全搜索相當(dāng),但碼本搜索量只有它的5。前3個(gè)脈沖的位置每個(gè)用3bit表示,第4個(gè)用4bit,脈沖幅度每個(gè)用1bit表示,所以每個(gè)子幀不包括增益的位數(shù)是17bit。 圖2表示CSACELP解碼器,表3列出圖中的參數(shù)和每個(gè)子幀為5ms長(zhǎng)時(shí)其更新的快慢程度。可以看到,8Kbits中有6200bits的比特率用于表示激勵(lì)。 圖2 CSACELP解碼步驟 表3 參數(shù)和每個(gè)子幀 實(shí)現(xiàn)G729算法需要有很強(qiáng)的運(yùn)算能力的芯片,因此以運(yùn)算能力強(qiáng)大的DSP來(lái)實(shí)現(xiàn)其算法比較好

12、。TI的C54系列的DSP擁有強(qiáng)的定點(diǎn)運(yùn)算能力,作為高性價(jià)比DSP中的16位定點(diǎn)DSP芯片,C54x和C540x都適用于語(yǔ)音通信等實(shí)時(shí)嵌入應(yīng)用場(chǎng)合。C54x和C540x具有高度靈活的可操作性和高速的處理能力。 實(shí)現(xiàn)G729算法程序較大,下面介紹一種簡(jiǎn)單的易于實(shí)現(xiàn)的線性增量調(diào)制算法(CVSD,Continuously Variable Slope Delta)編碼方法,實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)的編碼以及相應(yīng)的解碼算法。 CVSD是一種量階隨著輸人語(yǔ)音信號(hào)平均斜率大小而連續(xù)變化的增量調(diào)制方式。它的工作原理是使用多個(gè)連續(xù)可變斜率的線段來(lái)逼近語(yǔ)音信號(hào),當(dāng)斜率為正時(shí),對(duì)應(yīng)的數(shù)字編碼為1;當(dāng)斜率為負(fù)時(shí),對(duì)應(yīng)的數(shù)字編

13、碼為0。當(dāng)CVSD工作于編碼方式時(shí),其系統(tǒng)框圖如3所示。語(yǔ)音輸人信號(hào)fin(t)經(jīng)采樣得到數(shù)字信號(hào)f(n),數(shù)字信號(hào)f(n)與積分器輸出信號(hào)g(n)比較后輸出偏差信號(hào)e(n),偏差信號(hào)經(jīng)判決后輸出數(shù)字編碼y(n),該信號(hào)同時(shí)作為積分器輸出斜率的極性控制信號(hào)和積分器輸出斜率大小邏輯的輸人信號(hào)。在每個(gè)時(shí)鐘周期內(nèi),若語(yǔ)音信號(hào)大于積分器輸出信號(hào),則判決輸出為1,積分器輸出上升一個(gè)量階;若語(yǔ)音信號(hào)小于積分器輸出信號(hào),則判決輸出為0,積分器輸出下降一個(gè)量階。 圖3 CVSD編碼系統(tǒng)框圖 當(dāng)CVSD工作于解碼方式時(shí),其系統(tǒng)框圖如圖4所示。在每個(gè)時(shí)鐘周期內(nèi),數(shù)字編碼y(n)被送到連碼檢測(cè)器,然后送到斜率幅度控

14、制電路以控制積分器輸出斜率的大小。若數(shù)字編碼y(n)輸入為1,則積分器的輸出上升一個(gè)量階;若數(shù)字輸入為0,則積分器的輸出下降一個(gè)量階,這相當(dāng)于編碼過(guò)程的逆過(guò)程。積分器的輸出通過(guò)低通濾波器平滑濾波后將重現(xiàn)輸入語(yǔ)音信號(hào)fin(t)。 圖4 CVSD解碼系統(tǒng)框圖 可見(jiàn)輸人信號(hào)的波形上升越快,輸出的連1碼就越多,同樣下降越快連0碼越多,CVSD編碼能夠很好地反映輸入信號(hào)的斜率大小。為使積分器的輸出能夠更好地逼近輸人語(yǔ)音信號(hào),量階隨著輸入信號(hào)斜率大小而變化,當(dāng)信號(hào)斜率絕對(duì)值很大,編碼出現(xiàn)3個(gè)連1或連0碼時(shí),則量階加一個(gè)增量,當(dāng)不出現(xiàn)上述碼型時(shí),量階則相應(yīng)地減少。 為了減少編碼及譯碼的偏差,要求編碼和譯碼過(guò)程使用相同的時(shí)鐘頻率,而且采樣頻率應(yīng)符合奈奎斯特采樣定理,即至少為語(yǔ)音輸人頻率的兩倍。 CVSD通過(guò)不斷改變量階大小來(lái)跟蹤信號(hào)的變化以減小顆粒噪聲與斜率過(guò)載失真,量階調(diào)整是基于過(guò)去的3個(gè)或4個(gè)樣值輸出。具體編碼程序流程如圖5所示,具體解碼程

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論