《語音與音頻編碼》課件第1章_第1頁
《語音與音頻編碼》課件第1章_第2頁
《語音與音頻編碼》課件第1章_第3頁
《語音與音頻編碼》課件第1章_第4頁
《語音與音頻編碼》課件第1章_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1.1概述

1.2語音與音頻編碼基礎

1.3小結

習題一第一章語音與音頻編碼基礎早期的語音與音頻系統(tǒng)是針對模擬聲音信號的,它實現(xiàn)起來很容易,但是存在一些缺點。在語音與音頻的錄制、編輯和放音過程中容易混入各種噪聲,使得原信號不能很好地恢復,從而導致聲音信號的扭曲。隨著信息技術的發(fā)展,數(shù)字信號處理在越來越多的領域得到了應用,數(shù)字聲音信號應運而生。數(shù)字信號易于存儲和遠距離傳輸,沒有累積失真,抗干擾能力強,數(shù)字化存儲的信息可以被高品質地還原,這一系列的優(yōu)點促使音頻技術逐步向數(shù)字化方向發(fā)展,同樣,

語音與音頻錄放系統(tǒng)也在從模擬向數(shù)字聲音系統(tǒng)發(fā)展。1.1概述語音與音頻數(shù)字錄放的基本過程為編碼、存儲與回放,這個過程中的一個非常關鍵的技術就是必須對聲音信號進行編碼,否則將需要相當大的存儲容量或傳輸帶寬來存儲和傳輸信號,這樣,數(shù)字技術的優(yōu)點也就蕩然無存了。

語音與音頻編碼的發(fā)展非???,自從數(shù)字聲音信號出現(xiàn)以來,便備受人們關注,特別是針對語音信號編碼的研究發(fā)展較早也較為成熟。

表1.1給出了幾種主要語音編碼標準的特點及應用領域。1.2語音與音頻編碼基礎表1.1幾種主要語音編碼標準的特點及應用領域音頻信號編碼是先發(fā)展,后制定標準,雖然起步較晚,卻得到了快速發(fā)展。從MPEG-1[到MPEG-21,取得巨大成功的是MPEG-1音頻,它是ISO\IEC批準的第一個高保真音頻壓縮標準,規(guī)定了3個不同層次的編碼方案,其中層Ⅰ多用于數(shù)字盒式磁帶,層Ⅱ常用于VCD和數(shù)字音頻廣播,層Ⅲ則已成為網(wǎng)絡音樂傳輸標準。隨著人們對音樂認知水平的提高,傳統(tǒng)的立體聲已經(jīng)不能滿足要求,環(huán)繞立體聲應運而生,比如DolbyAC-3、DTS、THX和MPEG-2等。這些技術不僅應用在家庭影院系統(tǒng),也應用在影劇院,并且會在高清晰度數(shù)字電視等系統(tǒng)中得到應用。表1.2給出了幾種主要的音頻編碼標準。表1.2幾種主要的音頻編碼標準1.2.1聲音信號的數(shù)字化

信息的數(shù)字化很早就進入了人們的生活,如明碼電報中用數(shù)字化代碼表示漢字就是一個實例。在音頻信號當中,將時間域中幅度上連續(xù)變化的聲音信號變換為脈沖數(shù)據(jù)的過程稱為數(shù)字化。音頻信號數(shù)字化的框圖如圖1.1所示。圖1.1音頻信號數(shù)字化框圖

1.采樣

1)采樣的數(shù)學描述

一個聲頻信號x(t),經(jīng)采樣后的信號為xs(t),ω為原信號的角頻率,ωH為信號最高角頻率,ωs為采樣角頻率,Ts為采樣周期,且ωs=2πfs=2π/Ts。

時域:

xs(t)=x(t)·δT(t)

(1-1)頻域:

有(1-2)(1-3)采樣的頻譜圖如圖1.2所示。從圖中可以看出:原信號被采樣之后的頻譜Xs(ω)為原信號頻率X(ω)按周期作重復延拓。不難看出,只要滿足fs≥2fH,在樣值序列信號的頻譜中可以完整地恢復出包含有原信號的頻譜成分,即包含原模擬信號的全部信息,通過一個低通濾波器就能從樣值信號中恢復出原信號。如果不滿足奈奎斯特采樣定理,將會發(fā)生頻譜混疊,這樣,它就無法不失真地恢復原模擬信號,由此產(chǎn)生的失真稱為頻譜混疊失真。如圖1.3所示。圖1.2采樣頻譜變化圖圖1.3頻譜混疊

2)不失真恢復信號的條件

(1)用低通濾波器限制帶寬,使fH以上頻譜分量為零。

(2)插補用濾波器為理想濾波器,其截止頻率為fh,一般選取fh=fH,通帶內(nèi)衰減為零,阻帶的衰減為無窮大。

2.量化

1)均勻量化

均勻量化是把輸入信號的取值域按等距離分割。在均勻量化中,每個量化區(qū)間的量化電平均取在各區(qū)間的中間點,如圖1.4所示。均勻量化的量化臺階Δ取決于輸入信號的變化范圍和量化電平數(shù),即當信號的變化范圍和量化電平數(shù)確定后,量化臺階也被確定。例如,信號的最小值和最大值分別用a和b來表示;量化電平數(shù)為M(M=2n),也稱為量化級數(shù),其中n是量化比特數(shù),量化時采用二進制時的有效位數(shù),如CD中采用的是

16bit,它的量化級數(shù)就是216,DVD中采用的是16bit、20bit和24bit。那么,其量化臺階為

(1-4)量化器的輸出

xq=mi(xi-1<x≤xi)

(1-5)

式中,xi——第i個量化區(qū)間的終點,可寫成xi=a+iΔ;

mi——第i個量化區(qū)間的量化電平,可表示為

。

信號功率與量化噪聲功率之比是量化器的主要指標之一,下面簡單分析均勻量化時的信號量化噪聲比。圖1.4均勻量化原理圖在均勻量化時,量化噪聲功率Nq可由下式給出:

其中,f(x)為x的概率密度函數(shù),且

信號功率為

(1-6)(1-7)(1-8)由方程(1-6)得

又因為MΔ=2a,

所以

又由式(1-8)得到信號功率

因此,信號量化噪聲功率比為

用dB表示時,有

SNR(dB)=20lgM=20lg2n=20nlg2=6.02n

(1-10)

其中,n是量化比特即編碼采用的比特位數(shù)??梢钥闯觯炕忍孛吭黾右晃?,信噪比提高約6dB。(1-9)

2)非均勻量化

它有兩個主要的優(yōu)點:

(1)當輸入量化器的信號具有非均勻分布的概率密度時,非均勻量化器的輸出端可以得到較高的平均信號量化噪聲功率比,并且,非均勻量化時,量化噪聲功率的均方根值基本上與信號抽樣值成比例。因此,量化噪聲對大、小信號的影響大致相同,即改善了小信號時的量化信噪比。

(2)非均勻量化一般用于聲音信號,這不僅因為其動態(tài)范圍大,也因為人耳在弱信號時對噪聲很敏感,在強信號時不宜覺察出噪聲。

非均勻量化一般可分為A-律和μ-律量化。

3.編碼

采樣、量化后的信號不是數(shù)字信號,需要把它轉換成數(shù)字脈沖編碼,這一過程稱為編碼。最簡單的編碼方式是二進制編碼,它用n比特二進制碼來表示量化等級電平值,每個二進制數(shù)對應一個量化電平,然后把它們排列,得到由二值脈沖串組成的數(shù)字信息流。用二進制數(shù)表示某一數(shù)值時,該二進制數(shù)稱為字。若以8位二進制數(shù)作為一個字,則字內(nèi)各位的名稱如圖1.5所示,最左端的位稱為最高有效位MSB(MostSignificantBit),以下依次是第二有效位(2SB),……第七有效位(7SB),最右端的位稱為最低有效位LSB(LeastSignificantBit)。圖1.5編碼位數(shù)示意圖1.2.2聲音壓縮編碼的聲學原理

1.聲音的特性參數(shù)

1)頻率與倍頻程

倍頻程定義為兩個聲音的頻率或音調之比的對數(shù),其公式為

(1-11)

2)聲壓與聲壓級

聲壓越大,聲音就越大。但是人耳對聲音強弱的感覺與聲壓的大小并不成線性關系,而是大體上與聲壓有效值的對數(shù)成正比,而且人耳能聽到的聲壓范圍在20μPa~20Pa之間,相差106倍,這給描述帶來了不便,為了便捷描述且能適應人類聽覺的特性,將有效聲壓與基準聲壓的比值取對數(shù)來表示聲音的強弱,這種表示方式稱為聲壓級,具體是指有效聲壓和基準聲壓比值取常用對數(shù)后的20倍,用SPL來表示,單位是分貝(dB,decibel),數(shù)學表達式為

(1-12)

3)響度和響度級

大量統(tǒng)計表明,一般人耳對聲壓的變化感覺是聲壓級每增加10dB,響度增加1倍,響度與聲壓級有如下關系:

N=20.1(SPL-40)(1-13)

式中,N為響度,SPL為聲壓級。

表1.3列出了用這個公式計算出的部分響度與聲壓級的關系。表1.3響度與聲壓級的關系

4)音質

(1)音調(Pitch)。

(2)音色(Timbre)。圖1.6所示為鋼琴彈奏某一音階時的聲譜。由圖可見,這個聲音的基頻是440Hz,除基頻外,至少包含有其他15種不同頻率的振動。

(3)音量(Intensity)。

圖1.6鋼琴的頻譜

2.人耳的結構

人類聽覺系統(tǒng)由外耳、中耳、內(nèi)耳和中樞聽覺神經(jīng)系統(tǒng)組成。人耳的外耳包括耳廓、耳道和鼓膜,如圖1.7所示,其主要作用是將聲音的能量集中于鼓膜上,由于外耳具有特殊的解剖結構,使3kHz左右的聲音能被選擇性地放大30~100倍。這是人耳對這一頻率范圍的聲音最為敏感的主要原因,同時它也解釋了為何在這一頻率范圍內(nèi)人耳最容易受到聲音損傷和造成聽力缺損。圖1.7人耳的結構

3.聽覺特性

1)人的雙耳效應

2)人的頻率特性

圖1.8是ISO于1961年頒布的純音等響度曲線。這組等響度曲線的測試條件是自由聲場,受測試人均是18~25歲的年輕人。圖中的每一條曲線上表示的聲音,即使它們的聲壓級和頻率不同,但聽起來其響度是一樣的。圖中最下面的一條是聽閾曲線,最上面的一條是痛閾曲線,聽閾曲線與痛閾曲線之間包括了正常人耳可聽的全部聲音。等響度曲線顯示出全部可聽聲音的頻率和響度的響應。圖1.8純音等響度曲線

3)人耳的掩蔽效應

(1)掩蔽效應的概念。當一個復合聲音信號作用到人耳時,如果其中有響度較高的頻率分量,則人耳不易覺察到那些低響度的頻率分量,這種生理現(xiàn)象稱為“掩蔽效應”。一個聲音對另一個聲音的掩蔽值,被規(guī)定為由于掩蔽音的存在,被掩蔽音的聽閾必須提高的量,提高后的聽閾曲線稱為掩蔽閾值曲線,提高的分貝數(shù)叫做掩蔽量。如圖1.9所示,最下面的虛線為安靜環(huán)境下的聽閾曲線,稱為安靜閾值曲線,在沒有其他聲音的干擾下,f1本來高出虛線很多,是能夠聽得到的,但是由于另外一個聲音f2的存在,使得聽閾曲線發(fā)生變化,也就是由于掩蔽音f2的存在,使得f1被掩蔽,它叫被掩蔽音,必須提高10dB才能聽得見,這個10dB叫掩蔽量,被提高的那條曲線叫做掩蔽閾值曲線。圖1.9掩蔽效應圖

2)掩蔽類型。

①頻域掩蔽。掩蔽音的實質是掩蔽音的出現(xiàn)使人耳聽覺的等響度曲線最小可聞閾提高,對于一個單一頻率的聲音信號,當它單獨存在時形成一條可聞閾的曲線,而當出現(xiàn)另一個與它頻率相近,或者比它強度大的信號時,要聽到原來

的聲音信號,必須提高一定的聲壓級才行,這時將出現(xiàn)另一條可聞閾的曲線。如圖1.10所示。圖1.10頻率為1kHz、聲壓級為60dB的聲音信號的掩蔽閾值曲線②時域掩蔽。圖1.11給出了同時掩蔽和異時掩蔽現(xiàn)象。從圖中可以看出,同時掩蔽在掩蔽聲持續(xù)的時間內(nèi)一直有效,它是一種較強的掩蔽效應,需要提高到很大的分貝數(shù)才能聽見;而異時掩蔽的掩蔽效果較弱,且隨著時間的推移很快衰減。圖1.11時域掩蔽特性掩蔽效應是音頻編碼中最基礎、最重要的一個概念,為了更進一步加深理解,表1.4給出了掩蔽效應的分類及聽覺感受。表1.4掩蔽效應的分類及聽覺感受

(3)噪聲對掩蔽效果的影響。

①純音信號間的掩蔽及無噪聲的情況下的掩蔽效果。

這是指掩蔽音和被掩蔽音都是純音信號,這種掩蔽效應比較簡單,且對處于中等強度時的純音最有效的掩蔽是出現(xiàn)在它的頻率附近的。圖1.12所示為聲壓級為60dB,頻率為400Hz和3500Hz的掩蔽譜。圖1.12不同頻率純音對純音的掩蔽譜②窄帶噪聲對純音的掩蔽,即在有噪聲情況下的掩蔽。

如果掩蔽音為窄帶噪聲,被掩蔽音為純音。這是一種比較復雜的掩蔽效應,掩蔽閾值隨聲壓級的不同而有所變化,并且隨著窄帶噪聲中心頻率的變化,掩蔽閾值也相應地隨著

變化。下面分別從這兩個方面來考慮窄帶噪聲對純音的掩蔽效應。

一方面是圖1.13給出了中心頻率為1kHz、聲壓級不同的窄帶噪聲對純音的掩蔽閾值曲線。從圖中可以看出,曲線的峰值出現(xiàn)在掩蔽音的中心頻率處,說明位于被掩蔽音附近的由純音分量組成的窄帶噪聲的掩蔽作用最明顯。圖1.13中心頻率為400Hz,聲壓級不同的窄帶噪音對純音的掩蔽閾值曲線如表1.5所示,可以用臨界頻段來解釋和音及不和諧音。表1.5臨界帶寬表除了按照表格劃分Bark域外,還有一種簡單的計算方法:

在Bark域上描述窄帶噪聲對純音的掩蔽效應,聲壓級相同但臨界頻帶域不同的掩蔽閾值曲線如圖1.14所示。從圖中可以看出,當一個聲音比較大時,掩蔽可以重疊相鄰的臨界頻段。例如,一個1kHz的信號可以掩蔽2kHz的信號;另外,掩蔽閾值曲線在Bark尺度上是等寬的。圖1.14聲壓級相同但臨界頻帶域不同的窄帶噪聲對純音的掩蔽閾值曲線本章首先簡要介紹了語音與音頻編碼的發(fā)展,并比較了目前較為流行的編碼方式。詳細地分析了聲音信號的數(shù)字化三部曲,即采樣、量化和編碼。1.3小結采樣就是從時間上連續(xù)變化的聲頻信號中取出若干個有代表性的樣本值,這些樣本值能唯一地用來表征這一信號,并且能從這些樣本中把信號完全恢復出來,為了滿足不失真的條件,必須滿足采樣定理;采樣是把模擬信號變成時間上離散的脈沖信號,但脈沖的幅度仍然是模擬的、連續(xù)的,還必須對其進行離散化處理,才能最終用數(shù)碼來表示,這就要對幅值進行舍零取整的處理,即用有限個電平來表示模擬信號的抽樣值,此過程稱為量化,包括均勻量化和非均勻量化。還必須注意量化誤差、量化臺階以及量化信噪比之間的關系。采樣、量化后的信號還不是數(shù)字信號,需要把它轉換成數(shù)字脈沖編碼,這才完成了編碼的全過程。其次,簡單介紹了語音與音頻壓縮編碼聲學原理中的聲音的特性參數(shù)和人耳的結構,包括所涉及的定義,詳細分析了語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論