淺論語音編碼講解_第1頁
淺論語音編碼講解_第2頁
淺論語音編碼講解_第3頁
淺論語音編碼講解_第4頁
淺論語音編碼講解_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

淺論語音編碼戴福山(長春理工大學(xué))摘要:本文重要介紹了語音編碼的理論基礎(chǔ)、辦法的分類和幾個(gè)典型的語音編碼辦法,分析了多個(gè)辦法的特點(diǎn)及應(yīng)用環(huán)境,同時(shí)簡要分析了現(xiàn)在語音編碼總體上三個(gè)大的發(fā)展方向:極低速率語音編碼、變速率語音編碼和不壓縮語音編碼,并闡明了它們的應(yīng)用領(lǐng)域。核心詞:語音編碼語音編碼典型辦法語音編碼的發(fā)展方向引言語音編碼是將模擬語音信號數(shù)字化的手段.語音信號數(shù)字化后,能夠作為數(shù)字?jǐn)?shù)據(jù)來傳輸、存儲或解決,因而含有普通數(shù)字信號的優(yōu)點(diǎn)。在近半個(gè)世紀(jì)的研究中,各國研究人員做出了大量努力,從人類的發(fā)生機(jī)理、聽覺機(jī)理、心理因素以及語音信號的時(shí)域特性、頻域特性等多個(gè)方面進(jìn)行了大量研究,從不同角度提出了多個(gè)信號編碼辦法。一、概述語音編碼是將模擬語音信號數(shù)字化的手段.語音信號數(shù)字化后,能夠作為數(shù)字?jǐn)?shù)據(jù)來傳輸、存儲、或解決,因而含有普通數(shù)字信號的優(yōu)點(diǎn)。

話音數(shù)字化的技術(shù)基本能夠分為兩大類:第一類辦法是在盡量遵照原波形的前提下,將模擬波形進(jìn)行數(shù)字化編碼。其中三種最慣用的技術(shù)是脈沖編碼調(diào)制(CPM)差分PCM(DPCM)和增量調(diào)制(△M);第二類辦法是對模擬波形進(jìn)行一定解決,但僅對話音和收聽過程中能收聽到的話音部分進(jìn)行編碼。第二類語音數(shù)字化辦法重要與用于窄帶傳輸系統(tǒng)或有限容量的數(shù)字存儲設(shè)備的話音編解碼器有關(guān)。采用該類技術(shù)的設(shè)備普通被稱為聲碼器(語音編碼器)。聲碼器技術(shù)現(xiàn)在正開始展開應(yīng)用,特別是用于幀中繼和IP上等語音。近年來,由于數(shù)字信號解決器體系構(gòu)造和人類說話與識別方面研究的進(jìn)步,使話音編解碼技術(shù)得到快速的發(fā)展。新的編解碼技術(shù)不僅提供模擬轉(zhuǎn)換,并且提供復(fù)雜的預(yù)測模式,能夠分析話音輸入,并用最少帶寬傳輸話音。二語音編碼的理論基礎(chǔ)2.1語音編碼的目的為了使信號適于解決、傳輸和存儲,我們需要對語音信號進(jìn)行壓縮,語音編碼就是要在確保語音質(zhì)量的前提下得到盡量少的數(shù)據(jù),因此也常把語音編碼叫做語音壓縮編碼。2.2語音壓縮編碼的可行性(1)語音信號中存在大量冗余信息,即:語音信號樣本件含有很強(qiáng)的有關(guān)性;濁音語音段含有準(zhǔn)周期特性;聲道的形狀及其變化的速率有限;傳輸碼元的概率分布非均勻。(2)人耳對聲音信號中的部分信息不敏感,即人耳對聲音中的低頻成分比高頻成分敏感;人耳對語音信號的相位特性不敏感;人耳中存在“聽覺掩蔽(AuditoryMasking)”效應(yīng),即某一聲音引發(fā)聽覺器官對另一聲音的敏感度下降。掩蔽的程度取決于掩蔽聲的強(qiáng)度及掩蔽聲與被掩蔽聲之間的頻率關(guān)系。正是由于這些因素的存在,我們才能夠?qū)φZ音信號進(jìn)行多個(gè)各樣的解決,理論研究和實(shí)際應(yīng)用中出現(xiàn)的多個(gè)編碼技術(shù)都是以此為基礎(chǔ)的。語音編碼技術(shù)原理及應(yīng)用3.1語音編碼的技術(shù)分類語音編碼重要有三種方式:波形編碼、聲碼器和混合編碼,而近年來“感知編碼”也逐步開始步入實(shí)際應(yīng)用行列,普通把編碼速率低于64kbps的語音編碼方式稱為語音壓縮編碼技術(shù).,下面分別介紹這四種編碼辦法。3.1.1波形編碼波形編碼針對語音波形進(jìn)行的,這種辦法在減少量化每個(gè)語音樣本比特?cái)?shù)的同時(shí)又保持了相對良好的語音質(zhì)量.波形編碼涉及時(shí)域編碼和頻域編碼。(1)時(shí)域編碼時(shí)域編碼重要有脈沖編碼調(diào)制(PCM)、差分脈碼調(diào)制(DPCM)、增量調(diào)制(ΔM)、自適應(yīng)差分脈碼調(diào)制(ADPCM)、自適應(yīng)增量調(diào)制(ADM)、自適應(yīng)預(yù)測編碼(APC)等。線性PCM是用同等的量化級進(jìn)行量化,沒有運(yùn)用聲音的性質(zhì),因此信息沒有得到壓縮,對數(shù)PCM運(yùn)用了語音信號幅度的統(tǒng)計(jì)特性,對幅度按對數(shù)變換壓縮,將壓縮的成果作線性編碼,在接受端解碼時(shí),按指數(shù)擴(kuò)展,這種辦法在數(shù)字電話通信中得到了廣泛的應(yīng)用,PCM最大缺點(diǎn)是數(shù)碼率高,在傳輸時(shí)所占頻帶較寬。差分脈碼調(diào)制(DPCM)是根據(jù)相鄰采樣值的差值信號進(jìn)行編碼,圖1是DPCM原理方框圖。ADPCM是在DPCM的基礎(chǔ)上發(fā)展起來的,其量化器與預(yù)測器的參數(shù)能根據(jù)輸入信號的統(tǒng)計(jì)特性自適應(yīng)于最佳或靠近于最佳參數(shù)狀態(tài).ADPCM是語音編碼中復(fù)雜程度較低的一種辦法。增量調(diào)制是根據(jù)信號的瞬值與否增大或減小,即根據(jù)增量編碼,用一位二進(jìn)制碼序列對模擬信號進(jìn)行編碼.這種辦法簡樸,實(shí)現(xiàn)容易,但由于量階固定,量化噪聲功率固定,因此當(dāng)信號下降時(shí),信噪比(SNR)下降.為了改善這種辦法的動態(tài)范疇,引進(jìn)了自適應(yīng)技術(shù),讓量階的大小隨輸入信號的統(tǒng)計(jì)特性變化而變,這種辦法稱為自適應(yīng)增量調(diào)制(ADM)。,APC是根據(jù)語音的統(tǒng)計(jì)特性,由過去的采樣值精確預(yù)測出現(xiàn)在樣值的一種編碼辦法,它是通過自適應(yīng)預(yù)測器來提高預(yù)測精度的,預(yù)測得越精確,編碼速率越低。頻域編碼.頻域編碼方式重要有子帶編碼(SBC)和自適應(yīng)變換編碼(ATC)SBC是運(yùn)用帶通濾波器將語音頻帶分成若干子帶,并且分別進(jìn)行采樣、編碼,編碼方式能夠用ADPCM或ADM,SBC速率能夠達(dá)成9.6kbps.可變SBC可使子帶的設(shè)計(jì)不固定,而是隨共振峰變化,使編碼速率進(jìn)一步提高,這種方式在速率為4.8kbps時(shí)可含有相稱于7.2kbps的固定SBC的語音質(zhì)量.ATC是先將語音信號在時(shí)間上分段,每一段信號普通有64~512個(gè)采樣,再將每段時(shí)域語音數(shù)據(jù)經(jīng)正交變換轉(zhuǎn)換到頻域,得到對應(yīng)的各組頻域系數(shù),然后分別對每一組系數(shù)的每個(gè)分量單獨(dú)量化、編碼和傳輸,在接受端解碼得到的每組系數(shù)再進(jìn)行頻域至?xí)r域的反變換,恢復(fù)時(shí)段信號,最后將各時(shí)段連接成語音信號,ATC編碼在速率為12~16kbps可得到優(yōu)質(zhì)語音.3.1.2聲碼器所謂聲碼器是根據(jù)發(fā)音模型,分析并提取語音信號的特性參數(shù),且只傳送能夠合成語音信息的參數(shù),不需要再現(xiàn)原語音的波形,由于模型參數(shù)相對于語音信號而言數(shù)據(jù)量非常小,因此參量編碼的編碼率很低,但運(yùn)用這種編碼辦法得到的語音質(zhì)量不抱負(fù)。典型的聲碼器有譜帶式、共振峰式和按線性預(yù)測分析(LPC)所構(gòu)成的聲碼器等。圖2是線性預(yù)測編碼器。3.1.3混合編碼由于前面兩類編碼辦法各有優(yōu)缺點(diǎn),因此后來的研究者更多的是考慮如何將它們綜合起來以形成一種性能更優(yōu)的編碼算法,混合編碼就是基于這種想法被提出的。其代表是一類稱之為“按分析合成”(ABS)的辦法,采用聽覺加權(quán)技術(shù),在閉環(huán)的基礎(chǔ)上尋找主觀意義上失真最小的激勵(lì)矢量.由于采用的激勵(lì)信號模型不同,這類辦法派生出多個(gè)新的編碼辦法,典型的辦法有剩余激勵(lì)線性預(yù)測編碼(RELP),多脈沖激勵(lì)線性預(yù)測編碼(MPC),碼激勵(lì)線性預(yù)測編碼(CELP)。圖3為RPE-LTP編碼器的原理框圖。3.1.4感知編碼大部分的編碼技術(shù)還融合了人類聽覺系統(tǒng)的心理聲學(xué)原理,即感知器編碼技術(shù)。這種編碼辦法運(yùn)用了人耳聽覺的心理聲學(xué)特性,但凡人耳感覺不到的成分不編碼、不傳送,從而達(dá)成減少數(shù)據(jù)量而又不影響聲音質(zhì)量的目的(見圖4)。

圖5語音質(zhì)量與編碼速率關(guān)系3.2語音編碼

圖5語音質(zhì)量與編碼速率關(guān)系語音質(zhì)量與編碼速率的關(guān)系如圖5所示。64kbps的PCM編碼辦法能夠得到高質(zhì)量的語音,運(yùn)用波形有關(guān)性及頻譜特性能夠?qū)⑵鋲嚎s到24~32kbps,進(jìn)一步在運(yùn)用音調(diào)構(gòu)造的同時(shí),進(jìn)行噪聲整形,能夠壓縮到9.6kbps.但是如果減少的比特?cái)?shù)超過上述數(shù)目,語音質(zhì)量將急劇劣化,聲碼能夠使比特?cái)?shù)減少較多,但語音質(zhì)量欠佳?;旌暇幋a將波形編碼和聲碼器結(jié)合起來,在編碼速率較低的狀況下獲得較好語音質(zhì)量。3.4語音編碼原則及應(yīng)用實(shí)際應(yīng)用的語音編碼算法將會綜合考慮多個(gè)因素,糅合以上各類編碼辦法得到的,以期得到特定條件下最佳的編碼性能。通過數(shù)年的發(fā)展,現(xiàn)在已有多個(gè)技術(shù)原則,并應(yīng)用于不同的領(lǐng)域。詳見下表:四、語音編碼的發(fā)展方向

現(xiàn)在語音編碼總體上有三個(gè)大的發(fā)展方向。一種方向是語音編碼進(jìn)一步低速率化。另一方向是變速率語音編碼。固然,尚有一種發(fā)展方向就是語音不壓縮。這是由于現(xiàn)在傳輸帶寬增加很快,傳輸成本大幅度下降,為語音編碼付出的費(fèi)用與所節(jié)省的傳輸費(fèi)用相比變得不合算了,語音不壓縮傳輸所需費(fèi)用反而更低。

4.1語音編碼發(fā)展方向——極低速率語音編碼4.1.1極低速率語音編碼極低速率語音編碼是指比特率低于2400bit/s的語音編解碼器。在保密通信、語音郵件、網(wǎng)絡(luò)通信、IP電話等領(lǐng)域有廣泛的應(yīng)用前景。特別是在信息化戰(zhàn)場上廣泛應(yīng)用于單兵作戰(zhàn)通信設(shè)備上。4.1.2極低速率語音編碼發(fā)展的必要性在當(dāng)代通信中,信道運(yùn)用的有效性和經(jīng)濟(jì)性仍是研究的重要目的。極低速率語音編碼技術(shù)是語音通信中不可缺少的一種研究方向。在實(shí)際通信中,有些信道難以擴(kuò)寬且質(zhì)量很差,如短波信道;有的信道正被廣泛使用,短期內(nèi)難以更新;有些特殊條件下的通信,如強(qiáng)干擾下的軍事通信等,尚有些昂貴的信道,節(jié)省的每一種比特都意味著經(jīng)濟(jì)上的好處。在這些條件下,極低速率語音編碼極具吸引力。隨著數(shù)字通信業(yè)務(wù)的發(fā)展,高質(zhì)量的極低速率語音編碼技術(shù)將成為研究的熱點(diǎn)。4.2語音編碼發(fā)展方向——變速率語音編碼4.2.1變速率語音編碼變速率語音編碼是指在通信過程中,通信系統(tǒng)根據(jù)需要?jiǎng)討B(tài)地調(diào)節(jié)語音編碼速率,在合成語音質(zhì)量和系統(tǒng)容量中獲得靈活的折衷,最大程度地發(fā)揮系統(tǒng)的效能。在現(xiàn)在應(yīng)用廣泛、前景廣闊的碼分多址(CDMA)移動通信系統(tǒng)中,采用的變速率語音編碼算法對于系統(tǒng)的容量和通話質(zhì)量有非常重要的影響。隨著技術(shù)的成熟,它的應(yīng)用領(lǐng)域也越來越廣闊,不僅限于移動通信系統(tǒng),在IP電話、互聯(lián)網(wǎng)和衛(wèi)星通信中都有較好的應(yīng)用前景。4.2.2變速率語音編碼發(fā)展的必要性傳統(tǒng)的語音編碼總體來講,較高速率的編碼算法對話音質(zhì)量較易確保,但占用網(wǎng)絡(luò)資源較大;較低速率的編碼算法占用網(wǎng)絡(luò)資源小,但對話音質(zhì)量較難確保。近年來,通信系統(tǒng)發(fā)展快速,隨著移動通信的發(fā)展,特別是第三代移動通信的發(fā)展,對語音壓縮編碼算法提出了更高的規(guī)定,不僅規(guī)定編碼碼率較低以增加系統(tǒng)容量,并且規(guī)定合成音質(zhì)較高以確保通話質(zhì)量。用傳統(tǒng)的編碼方式,很難同時(shí)滿足這兩個(gè)規(guī)定。在這種形勢下,提出了變速率語音壓縮編碼的辦法。它能夠根據(jù)需要?jiǎng)討B(tài)地調(diào)節(jié)編碼速率,在合成語音質(zhì)量和系統(tǒng)容量兩者中獲得靈活的折衷,最大程度地發(fā)揮系統(tǒng)的效能。4.3語音編碼發(fā)展方向——不壓縮語音編碼極低速率語音編碼和變速率語音編碼是現(xiàn)在語音編碼的重要發(fā)展方向。但也有某些通信系統(tǒng)仍然采用不壓縮語音編碼。這是由于現(xiàn)在傳輸帶寬增加很快,特別是光纖通信的發(fā)展,使得傳輸成本大幅度下降,為語音編碼付出的費(fèi)用與所節(jié)省的傳輸費(fèi)用相比變得不合算了,語音不壓縮傳輸所需費(fèi)用反而更低。因此這些系統(tǒng)就采用了不壓縮的語音編碼算法,大多數(shù)直接運(yùn)用PCM編碼進(jìn)行傳輸。這樣能夠確保很高的語音通信質(zhì)量和比較簡樸的通信設(shè)備,大大地減少了通信費(fèi)用。不壓縮語音編碼重要應(yīng)用于地面微波通信和光纖通信系統(tǒng)中。

固然,語音編碼除了上述三個(gè)總體的發(fā)展方向以外,尋找最佳的語音激勵(lì)模型和對人類聽覺系統(tǒng)機(jī)理的不停認(rèn)識將是近一段時(shí)間內(nèi)的基礎(chǔ)性研究工作。結(jié)語語音編碼是語音信號解決的一種重要方面,它和通信領(lǐng)域聯(lián)系最為親密。而語音識別、語音合成、語音增強(qiáng)等方面在理論和辦法上與語音編碼有諸多相通之處。因此,系統(tǒng)、全方面地理解當(dāng)今語音編碼的發(fā)展方向,對語音通信領(lǐng)域工作的開展含有重要意義。語音編碼是一種人們熟知的領(lǐng)域,又是一種新穎的領(lǐng)域,隨著信息時(shí)代的到來對語音編碼提出了新的規(guī)定,語音編碼技術(shù)定將進(jìn)一步發(fā)展。參考文獻(xiàn)[1]王文星,語音編碼技術(shù)的分析與應(yīng)用,焦作工學(xué)院學(xué)報(bào)(自然科學(xué)版),5月[2]何春榮,淺析語音編碼的三個(gè)發(fā)展方向,成都紡織高等??茖W(xué)校學(xué)報(bào),1月[3]周波、許萌,數(shù)字語音編碼技術(shù)研究,科技情報(bào)開發(fā)與經(jīng)濟(jì),第18卷第3期[4]張學(xué)英,數(shù)字語音解決及matlab仿真,電子工業(yè)出版社,[5]陳學(xué)藝、凌朝東、陳哲平、楊驍,MELP在數(shù)字對講機(jī)基帶系統(tǒng)中的應(yīng)用【J】,通信技術(shù),

[6]趙翠、周遙、毛鑫萍、馬永陽,基于先行預(yù)測的自適應(yīng)語音壓縮感知【J】,杭州電子科技大學(xué)學(xué)報(bào),(04)[7][8]梁彥霞.低速率多帶激勵(lì)線性預(yù)測語音編碼技術(shù)的研究[D].西安電子科技大學(xué)[9]魏麗英簡析語音編碼長春工業(yè)大學(xué)人文信息學(xué)院;-11-05[10]計(jì)哲低速率語音編碼算法研究清華大學(xué)-04-01[11]何洪華超低速率語音編碼算法研究

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論