




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第二章
音頻信息的獲取與處理§21多媒體技術(shù)基礎(chǔ)及應(yīng)用第二章
音頻信息的獲取與處理§21多媒體技術(shù)基礎(chǔ)及應(yīng)用本章學(xué)習(xí)要點音頻信號的特點;模擬音頻與數(shù)字音頻;音頻采樣與量化以及數(shù)字音頻文件格式。音頻卡的功能、分類及其基本工作原理。音頻編碼基本原理及標(biāo)準(zhǔn)。音樂合成及MIDI規(guī)范。語音識別與合成原理及分類?!?2多媒體技術(shù)基礎(chǔ)及應(yīng)用本章學(xué)習(xí)要點音頻信號的特點;模擬音頻與數(shù)字音頻;音頻采樣與量學(xué)習(xí)要求熟練掌握:音頻卡的工作原理及應(yīng)用開發(fā)。掌握:音頻編碼基礎(chǔ)及標(biāo)準(zhǔn);音樂合成及MIDI。了解:本章其他內(nèi)容?!?3多媒體技術(shù)基礎(chǔ)及應(yīng)用學(xué)習(xí)要求熟練掌握:音頻卡的工作原理及應(yīng)用開發(fā)。§23多媒體技2.1數(shù)字音頻基礎(chǔ)§24多媒體技術(shù)基礎(chǔ)及應(yīng)用2.1數(shù)字音頻基礎(chǔ)§24多媒體技術(shù)基礎(chǔ)及應(yīng)用
聲音是一種由機械振動引起并在彈性介質(zhì)中傳播的連續(xù)的波。聲音的強弱體現(xiàn)在聲波壓力的大小上。聲音的高低體現(xiàn)在聲波的頻率上。可將聲波轉(zhuǎn)換為電信號。代表聲波的電信號在時間和幅度上都是連續(xù)的,即模擬信號。聲音的產(chǎn)生§2.1數(shù)字音頻基礎(chǔ)5多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音是一種由機械振動引起并在彈性介質(zhì)中聲音信號a聲音信號由許多不同頻率的信號組成,稱為復(fù)合信號。單一頻率的信號稱為分量信號。帶寬是聲音信號的一個重要參數(shù),它描述復(fù)合信號的頻率范圍?!?.1數(shù)字音頻基礎(chǔ)6多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音信號a聲音信號由許多不同頻率的信號組成,稱為復(fù)合信號。§聲音信號b人耳的聽覺范圍是20Hz~20KHz,稱為音頻(Audio)信號。人說話的頻率范圍是300~3000Hz,稱為話音(speech)信號。§2.1數(shù)字音頻基礎(chǔ)7多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音信號b人耳的聽覺范圍是20Hz~20KHz,稱為音頻(A聲音的聽覺特性——
聲音三要素聲音三要素即音調(diào)音強音色音色是由混入基音中的泛音所決定的?!?.1數(shù)字音頻基礎(chǔ)8多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——
聲音三要素聲音三要素即§2.1數(shù)字音
聲音是一種彈性波,可分為周期性和非周期性信號。周期信號是單一頻率的信號,是線性譜。非周期信號包含一定連續(xù)頻帶的所有頻率分量,是連續(xù)譜。完全的連續(xù)譜(如平滑噪聲)完全無調(diào)。自然界的聲音大多是線性譜中混有一段段較弱的連續(xù)譜,聽來既有調(diào)又飽滿、生動。聲音的聽覺特性——
聲音中的連續(xù)譜§2.1數(shù)字音頻基礎(chǔ)9多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音是一種彈性波,可分為周期性和非周期聲音的聽覺特性——
聲音的方向性
人能分辨出聲音到達左右兩耳的時差和強度差異,即能辨別聲源方向。由于聲波在空間來回反射,能產(chǎn)生空間效果?!?.1數(shù)字音頻基礎(chǔ)10多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——
聲音的方向性人能分聲音的聽覺特性——
聲音是時基類媒體聲音是時間連續(xù)的,人耳能感覺到25毫秒的延遲。沒有時間就無法表現(xiàn)聲音。聲音是連續(xù)型時基媒體?!?.1數(shù)字音頻基礎(chǔ)11多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——
聲音是時基類媒體聲音是時間連續(xù)的,人耳能聲音的質(zhì)量評判聲音的質(zhì)量與其頻率范圍(即頻帶)有關(guān)。一般,頻帶越寬,音質(zhì)越好。對語音常用可懂度、清晰度和自然度衡量。對音樂,保真度、空間感和音響效果是重要指標(biāo)。平均主觀打分(MOS)是最簡單的評判法?!?.1數(shù)字音頻基礎(chǔ)12多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的質(zhì)量評判聲音的質(zhì)量與其頻率范圍(即頻帶)有關(guān)。一般,頻模擬聲音的錄制與播放模擬聲音信號的錄制一般是先將聲波信號通過機電轉(zhuǎn)換獲得電信號,之后再通過電磁轉(zhuǎn)換等方式記錄到適當(dāng)?shù)慕橘|(zhì)上。模擬聲音的播放即使把記錄在介質(zhì)上的信號通過電磁轉(zhuǎn)換、機電轉(zhuǎn)換等手段還原為聲音信號?!?.1數(shù)字音頻基礎(chǔ)13多媒體技術(shù)基礎(chǔ)及應(yīng)用模擬聲音的錄制與播放模擬聲音信號的錄制一般是先將聲波信號通過模擬信號的數(shù)字化在某個特定時刻對模擬信號進行測量稱為采樣。采樣獲得的信號稱為離散時間信號。對幅值連續(xù)的采樣信號限定取值范圍,可以獲得由有限個幅值組成的信號,稱其為離散幅度信號。采樣值在某個數(shù)值附近的一定范圍內(nèi)都用這個值表示,這種處理稱為量化。§2.1數(shù)字音頻基礎(chǔ)14多媒體技術(shù)基礎(chǔ)及應(yīng)用模擬信號的數(shù)字化在某個特定時刻對模擬信號進行測量稱為采樣。§細看采樣和量化均勻采樣:每兩次采樣之間的間隔時間相等。否則為非均勻采樣。采樣的時間間隔稱為采樣周期。每秒鐘采樣的次數(shù)稱為采樣頻率。線性量化:量化的幅度間隔均等。否則為非線性量化。§2.1數(shù)字音頻基礎(chǔ)15多媒體技術(shù)基礎(chǔ)及應(yīng)用細看采樣和量化均勻采樣:每兩次采樣之間的間隔時間相等。否則為數(shù)字化音頻a在計算機內(nèi)聲音信息同其他信息一樣也用一系列二進制數(shù)字表示,稱其為數(shù)字音頻。數(shù)字音頻是對模擬聲音信號進行采樣和量化得到的?!?.1數(shù)字音頻基礎(chǔ)16多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻a在計算機內(nèi)聲音信息同其他信息一樣也用一系列二進制數(shù)字化音頻b采樣和量化的主要硬件是模數(shù)轉(zhuǎn)換器(ADC)。數(shù)字音頻的回放需先進行數(shù)模轉(zhuǎn)換(DAC)得到模擬電信號,然后再放大輸出?!?.1數(shù)字音頻基礎(chǔ)17多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻b采樣和量化的主要硬件是模數(shù)轉(zhuǎn)換器(ADC)?!?采樣定理a
采樣頻率的高低應(yīng)根據(jù)奈奎斯特理論和聲音信號本身的最高頻率決定。奈氏理論指出:如果采樣頻率不低于信號最高頻率的兩倍,則由此獲得的離散信號能夠完全確定被采樣的連續(xù)信號?!?.1數(shù)字音頻基礎(chǔ)18多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣定理a采樣頻率的高低應(yīng)根據(jù)奈奎斯特理論采樣定理b設(shè)被采樣信號的最高頻率為f,則
§2.1數(shù)字音頻基礎(chǔ)19多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣定理b設(shè)被采樣信號的最高頻率為f,則§2量化精度和量化誤差a
若量化后的值用B位二進制碼表示。B位二進制碼可以表示2B個不同的量化電平。顯然,位數(shù)越多表示的精度就越高?!?.1數(shù)字音頻基礎(chǔ)20多媒體技術(shù)基礎(chǔ)及應(yīng)用量化精度和量化誤差a若量化后的值用B位二進量化精度和量化誤差b存儲數(shù)字音頻信號的比特率為:設(shè)量化階距(兩個量化值的幅度差)為△則量化誤差為:§2.1數(shù)字音頻基礎(chǔ)21多媒體技術(shù)基礎(chǔ)及應(yīng)用量化精度和量化誤差b存儲數(shù)字音頻信號的比特率為:§2.1數(shù)字音頻文件存儲量計算字節(jié)數(shù)=采樣頻率(Hz)*量化位數(shù)*聲道數(shù)*錄音時間(s)/8§2.1數(shù)字音頻基礎(chǔ)22多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字音頻文件存儲量計算字節(jié)數(shù)=采樣頻率(Hz)*量化位數(shù)*聲數(shù)字音頻的文件格式多媒體技術(shù)中常見音頻文件:Wav文件:Microsoft的音頻文件格式。對聲音波形采樣、量化后進行存儲,故稱波形文件。Voc文件:是creative公司的波形文件格式。Mid(midi)文件:是遵循樂器數(shù)字接口(midi)規(guī)范,產(chǎn)生數(shù)字樂音的文件。§2.1數(shù)字音頻基礎(chǔ)23多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字音頻的文件格式多媒體技術(shù)中常見音頻文件:§2.12.2音頻卡的工作原理主要完成模數(shù)轉(zhuǎn)換、音頻信號壓縮及解壓縮、數(shù)模轉(zhuǎn)換、音頻接口以及與微機接口五大功能§2.2音頻卡的工作原理24多媒體技術(shù)基礎(chǔ)及應(yīng)用2.2音頻卡的工作原理主要完成模數(shù)轉(zhuǎn)換、音頻信號壓縮及解音頻卡的功能---
錄制與播放a音頻錄放數(shù)字化采樣頻率范圍:8~44.1kHz量化位數(shù):8位/16位通道數(shù):單聲道/立體聲自動動態(tài)濾波§2.2音頻卡的工作原理25多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
錄制與播放a音頻錄放§2.2音頻卡的工音頻卡的功能---
錄制與播放b編碼與壓縮基本編碼方法:PCM壓縮編碼方法:ADPCM實時硬件/軟件壓縮錄音聲源:mic,line-in,CD§2.2音頻卡的工作原理26多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
錄制與播放b編碼與壓縮§2.2音頻卡的音頻卡的功能---
編輯與合成應(yīng)用工具軟件對數(shù)字音頻進行編輯以及實現(xiàn)特殊效果處理,如:倒播、增加回音、靜噪、淡入和淡出、往返播放、聲道交換?!?.2音頻卡的工作原理27多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
編輯與合成應(yīng)用工具軟件對數(shù)字音頻音頻卡的功能---
MIDI音樂合成利用軟件通過音頻卡的MIDI接口對電子樂器進行操作控制,產(chǎn)生聲音。音樂合成的性能依賴于音頻卡上合成芯片的性能。合成方式:調(diào)頻方式(FM)波形表方式§2.2音頻卡的工作原理28多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
MIDI音樂合成利用軟件通過音頻卡的音頻卡的功能---
文語轉(zhuǎn)換和語音識別文語轉(zhuǎn)換(texttospeech)是利用聲卡提供的軟件將機內(nèi)文本轉(zhuǎn)換為聲音輸出。語音識別使用者通過軟件利用聲音控制計算機或執(zhí)行一些命令?!?.2音頻卡的工作原理29多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
文語轉(zhuǎn)換和語音識別文語轉(zhuǎn)換(textt音頻卡的工作原理—
混合信號處理器
內(nèi)置數(shù)字/模擬混合器。完成對聲音信號的混合處理;輸入聲源:MIDI信號、CD音頻、線路輸入、麥克風(fēng)輸入等;可以選擇一個或多個聲源進行混合?!?.2音頻卡的工作原理30多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
混合信號處理器內(nèi)置數(shù)字/模擬混合器。完音頻卡的工作原理—
功率放大器
用于對混合信號進行放大使之達到足夠的功率去推動揚聲器發(fā)聲。§2.2音頻卡的工作原理31多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
功率放大器用于對混合信號進行放大使之達音頻卡的工作原理—
總線和控制器a總線接口類型:早期是ISA,現(xiàn)在幾乎都是PCI。組成:數(shù)據(jù)總線雙向驅(qū)動器、總線接口控制邏輯、總線中斷邏輯和DMA控制邏輯?!?.2音頻卡的工作原理32多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
總線和控制器a總線接口類型:早期是IS音頻卡的工作原理—
總線和控制器b可以通過軟件或硬跳線設(shè)定基本I/O地址、中斷向量(IRQ)和直接存儲器存取(DMA)通道號這三個參數(shù),以避免與其他設(shè)備發(fā)生沖突。§2.2音頻卡的工作原理33多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
總線和控制器b可以通過軟件或硬跳線設(shè)定音頻卡的工作原理—
音頻卡的安裝a
自動安裝:現(xiàn)在的音頻卡產(chǎn)品一般都是即插即用的。安裝連接好之后,開啟電源,WIN9X會提示找到新硬件,照屏幕提示一步步操作,即可完成軟件安裝,之后重啟系統(tǒng)就能使用了?!?.2音頻卡的工作原理34多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
音頻卡的安裝a自動安裝:現(xiàn)在的音頻卡音頻卡的工作原理—
音頻卡的安裝b
手動安裝:開始->設(shè)置->控制面板->添加新硬件驅(qū)動程序的安裝需要WINDOWS系統(tǒng)盤?!?.2音頻卡的工作原理35多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
音頻卡的安裝b手動安裝:開始->設(shè)置-聲音工具請參閱《輔導(dǎo)與實驗》之“實驗一音頻信號的獲取與處理”§2.2音頻卡的工作原理36多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音工具請參閱《輔導(dǎo)與實驗》之“實驗一音頻信號的獲取與處理2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)本節(jié)內(nèi)容:學(xué)習(xí)音頻編碼的基本知識學(xué)習(xí)音頻編碼的相關(guān)標(biāo)準(zhǔn)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)37多媒體技術(shù)基礎(chǔ)及應(yīng)用2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)本節(jié)內(nèi)容:§2.3音頻編碼音頻編碼的目的音頻編碼的主要目的就是壓縮數(shù)據(jù),以節(jié)約存儲空間和提高通信傳輸量。數(shù)據(jù)壓縮通常會降低音頻質(zhì)量。數(shù)據(jù)壓縮還會增大計算量。因此,音頻壓縮時要綜合考慮數(shù)據(jù)量、聲音質(zhì)量和計算的復(fù)雜度?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)38多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼的目的音頻編碼的主要目的就是壓縮數(shù)據(jù),以節(jié)約存儲空間壓縮編碼的可能性只有當(dāng)信源本身具有冗余度時才能對其進行壓縮。統(tǒng)計分析表明,語音信號中存在多種冗余度:時域信息冗余和頻域信息冗余根據(jù)人的聽覺機理,語音也是可以壓縮的?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)39多媒體技術(shù)基礎(chǔ)及應(yīng)用壓縮編碼的可能性只有當(dāng)信源本身具有冗余度時才能對其進行壓縮。時域信息冗余1.幅度的非均勻分布1.幅度的非均勻分布統(tǒng)計表明,語音中的小幅度樣本出現(xiàn)概率要高一些。又,通話中存在間歇,必然出現(xiàn)大量的低電平;此外,實際的講話信號器功率電平也趨向于出現(xiàn)在編碼范圍的較低電平端?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)40多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余1.幅度的非均勻分布1.幅度的非均勻分布統(tǒng)計時域信息冗余2.樣本間的相關(guān)2.樣本間的相關(guān)對于音信號的分析表明,取樣數(shù)據(jù)的最大相關(guān)存在于臨近樣本之間。當(dāng)采樣率為8KHz是相鄰樣本間相關(guān)系數(shù)大于0.85。如果采樣率提高,樣本見的相關(guān)性將會更高?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)41多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余2.樣本間的相關(guān)2.樣本間的相關(guān)對于音信號的時域信息冗余3.周期之間的相關(guān)3.周期之間的相關(guān)話音帶寬為300~3400Hz,但在某特定瞬間,一個聲音信號卻往往只是該頻帶內(nèi)的少數(shù)幾個頻率成分在起作用。當(dāng)聲音中只有少數(shù)幾個頻率時,就會象某些振蕩波形一樣,在周期和周期之間存在一定的相關(guān)性?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)42多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余3.周期之間的相關(guān)3.周期之間的相關(guān)話音帶寬時域信息冗余4.基音之間的相關(guān)4.基音之間的相關(guān)人的說話聲音可分為清音和濁音兩類。濁音波形不僅表現(xiàn)出周期相關(guān)性,而且還具有對應(yīng)于音調(diào)間隔的長期重復(fù)波形。因此,對音濁音部分的編碼最有效的方法之一就是只對一個音調(diào)間隔的波形進行編碼,并把它作為同樣本中其它基音段的模板?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)43多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余4.基音之間的相關(guān)4.基音之間的相關(guān)人的說話時域信息冗余5.靜止系數(shù)5.靜止系數(shù)靜止系數(shù):兩人在通話時,平均每人的講話時間占總通話時間的一半,且存在字詞句之間的停頓。分析表明:話音間歇使得全雙工話路的典型效率約為通話時間的40%。顯然話音間歇(波形靜止段)本身就是一種冗余?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)44多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余5.靜止系數(shù)5.靜止系數(shù)靜止系數(shù):兩人在通話時域信息冗余6.長時自相關(guān)6.長時自相關(guān)上述相關(guān)性都是在短時(20ms)間隔內(nèi)作出的統(tǒng)計分析。如果在較長時間內(nèi)進行統(tǒng)計就可以得到長時自相關(guān)函數(shù)。長時間統(tǒng)計表明,如采樣頻率為8kHz,則話音相鄰樣本間的相關(guān)系數(shù)高達0.9?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)45多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余6.長時自相關(guān)6.長時自相關(guān)上述相關(guān)性都是在短時頻域信息冗余非均勻的長時功率譜密度
呈現(xiàn)強烈的非平坦性;高頻能量較低;直流分量并非最大。語音特有的短時功率譜密度
存在共振峰頻率,其第一、第二個共振頻率決定了語音特征;整個譜密度隨頻率的增加而遞減;整個功率譜的細節(jié)以基音的頻率為基礎(chǔ),形成高次諧波結(jié)構(gòu)?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)46多媒體技術(shù)基礎(chǔ)及應(yīng)用頻域信息冗余非均勻的長時功率譜密度§2.3音頻編碼基礎(chǔ)和標(biāo)人的聽覺感知機理人的聽覺具有掩蔽效應(yīng)強音能掩蔽弱音,分同時掩蔽和異時掩蔽。人耳對不同頻段聲音的敏感度不同對低頻聲的敏感度高于對高頻聲的敏感度。人耳對語音信號的相位變化不敏感§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)47多媒體技術(shù)基礎(chǔ)及應(yīng)用人的聽覺感知機理人的聽覺具有掩蔽效應(yīng)§2.3音頻編碼基礎(chǔ)和音頻編碼的分類波形編碼音源編碼基于人的聽覺特性進行編碼利用人耳掩蔽效應(yīng),設(shè)計心理聲學(xué)模型實現(xiàn)高效音頻壓縮。(圖3.5)基于音頻數(shù)據(jù)的統(tǒng)計特性,目標(biāo)是使生成的波形盡可能與原始波形保持一致;音質(zhì)高,數(shù)據(jù)率也很高;編譯碼器的復(fù)雜程度較低。它企圖從聲音波形中提出生成聲音的聲學(xué)參數(shù),利用生成模型重構(gòu)出聲音;數(shù)據(jù)率低(2.4kb/s左右),自然度差,保密性好?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)48多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼的分類波形編碼利用人耳掩蔽效應(yīng),設(shè)計心理聲學(xué)模型實現(xiàn)脈沖編碼調(diào)制(PCM)脈沖編碼調(diào)制概念上最簡單、理論上最完善,最早研制成功、使用最廣,但數(shù)據(jù)量也最大。PCM的原理框圖如圖所示。PCM的概念§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)49多媒體技術(shù)基礎(chǔ)及應(yīng)用脈沖編碼調(diào)制(PCM)脈沖編碼調(diào)制概念上最簡單、理論上最完善脈沖編碼調(diào)制(PCM)—
均勻量化和非均勻量化均勻量化、非均勻量化和量化誤差非線性量化的基本思想在非線性量化中,采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應(yīng)關(guān)系,這是基于對語音信號的統(tǒng)計分析后由CCITT建議的:m律壓擴算法和A律壓擴算法§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)50多媒體技術(shù)基礎(chǔ)及應(yīng)用脈沖編碼調(diào)制(PCM)—
均勻量化和非均勻量化均勻量化、非音頻編碼標(biāo)準(zhǔn)G.711公布于1972年的話音編碼標(biāo)準(zhǔn)。采樣率8kHz;將采樣樣本精度為13、14或16位的輸入信號,使用m律壓擴編碼或者使用A律壓擴編碼;經(jīng)過PCM編碼器之后每個樣本的精度為8位,輸出的數(shù)據(jù)率為64kb/s?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)51多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼標(biāo)準(zhǔn)G.711公布于1972年的話音編碼標(biāo)準(zhǔn)?!?自適應(yīng)脈碼調(diào)制概念A(yù)PCM是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。自適應(yīng)可以是:瞬時自適應(yīng)音節(jié)自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)52多媒體技術(shù)基礎(chǔ)及應(yīng)用自適應(yīng)脈碼調(diào)制概念A(yù)PCM是根據(jù)輸入信號幅度大小來改變量化階APCM的量化階改變量化階大小的方法有兩種:前向自適應(yīng)根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(sideinformation)傳送到接收端。后向自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)53多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM的量化階改變量化階大小的方法有兩種:§2.3音頻編APCM的量化階改變量化階大小的方法有兩種:前向自適應(yīng)根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(sideinformation)傳送到接收端。后向自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)54多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM的量化階改變量化階大小的方法有兩種:§2.3音頻編差分脈碼調(diào)制(DPCM)DPCM的思想:根據(jù)過去的樣本去估算下一個樣本信號的幅度大小(稱為預(yù)測值),然后對實際信號值與預(yù)測值之差進行量化編碼,從而就減少了表示每個樣本信號的位數(shù)。DPCM原理示意圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)55多媒體技術(shù)基礎(chǔ)及應(yīng)用差分脈碼調(diào)制(DPCM)DPCM的思想:根據(jù)過去的樣本去估自適應(yīng)差分脈碼調(diào)制ADPCM的核心思想:自適應(yīng)量化:利用自適應(yīng)的思想改變量化階的大??;自適應(yīng)預(yù)測:使用過去的樣本值估算下一個輸入樣本的預(yù)測值,使實際樣本值和預(yù)測值之間的差值總是最小。ADPCM框圖?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)56多媒體技術(shù)基礎(chǔ)及應(yīng)用自適應(yīng)差分脈碼調(diào)制ADPCM的核心思想:§2.3音頻編碼基G.721ADPCM編譯碼器CCITT制定的G.721推薦標(biāo)準(zhǔn)叫做32kb/s自適應(yīng)差分脈沖編碼調(diào)制。在此基礎(chǔ)上還制定了G.721的擴充推薦標(biāo)準(zhǔn)G.723,使用該標(biāo)準(zhǔn)的編碼器其數(shù)據(jù)率可降低到40kb/s和24kb/s?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)57多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器CCITT制定的G.721G.721ADPCM編譯碼器CCITT推薦的G.721ADPCM標(biāo)準(zhǔn)是一個代碼轉(zhuǎn)換系統(tǒng)。它使用ADPCM轉(zhuǎn)換技術(shù),實現(xiàn)64kb/sA律或μ律PCM速率和32kb/s速率之間的相互轉(zhuǎn)換。
ADPCM編碼器框圖ADPCM解碼器框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)58多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器CCITT推薦的G.721G.721ADPCM編譯碼器G.721ADPCM編譯碼器的輸入是G.711PCM代碼(8位),其采樣率8kHz,數(shù)據(jù)率是64kb/s。G.721的輸出是:4位差分信號,采樣率仍然是8kHz,數(shù)據(jù)率32kb/s。數(shù)據(jù)率從64kb/s變換為32kb/s,壓縮率2:1?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)59多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器G.721ADPCM編譯G.722SB-ADPCM編譯碼器G.722推薦標(biāo)準(zhǔn)(“數(shù)據(jù)率為64kb/s的7kHz聲音信號編碼”),把話質(zhì)提高到了AM廣播質(zhì)量,而其數(shù)據(jù)率仍保持為64kb/s(16kHz采樣)。G.722采用高低兩個子帶(子帶的劃分以4KHz為界),然后再對每個子帶采用類似G.721建議的ADPCM。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)60多媒體技術(shù)基礎(chǔ)及應(yīng)用G.722SB-ADPCM編譯碼器G.722推薦標(biāo)準(zhǔn)(“子帶編碼(SBC)子帶編碼的基本思想:使用一組帶通濾波器(band-passfilter,BPF)把輸入音頻信號的頻帶分成若干個連續(xù)的頻段,每個頻段稱為子帶。對每個子帶中的音頻信號采用單獨的編碼方案去編碼。在信道上傳送時,將每個子帶的代碼復(fù)合起來。在接收端譯碼時,將每個子帶的代碼單獨譯碼,然后把它們組合起來,還原成原來的音頻信號。子帶編碼的方塊圖如圖3-17所示,圖中的編碼/譯碼器,可以采用ADPCM,APCM,PCM等?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)61多媒體技術(shù)基礎(chǔ)及應(yīng)用子帶編碼(SBC)子帶編碼的基本思想:§2.3音頻編碼基礎(chǔ)G.728低延時-碼激勵
線性預(yù)測編碼是以美國AT&T公司貝爾實驗室提出的LD_CELP(低延時碼激勵線性預(yù)測)算法為基礎(chǔ),它充分考慮了聽覺特性。其基本思想如下:§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)62多媒體技術(shù)基礎(chǔ)及應(yīng)用G.728低延時-碼激勵
線性預(yù)測編碼是以美國AT&T公DL_CELP編碼思想(a)1.語音輸入每幀5個取樣值,并附上10bit的描述激勵信號波形與增益的信息;2.編碼時用事先準(zhǔn)備好的激勵矢量的所有組合去合成語音;§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)63多媒體技術(shù)基礎(chǔ)及應(yīng)用DL_CELP編碼思想(a)1.語音輸入每幀5個取樣值,并DL_CELP編碼思想(b)3.將合成結(jié)果與輸入信號相比較,選出聽覺加權(quán)后距離最小的碼元作為信息傳輸;4.解碼端將發(fā)送端制定的激勵矢量、3bit增益碼以及自身已經(jīng)合成過的語音波形一起合成為語音?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)64多媒體技術(shù)基礎(chǔ)及應(yīng)用DL_CELP編碼思想(b)3.將合成結(jié)果與輸入信號相比較MPEG-1中的音頻概況:Mpeg標(biāo)準(zhǔn)是由ISO/IEC的運動圖像專家組(WG11)制定的。該系列已推出Mpeg-1、Mpeg-2、Mpeg-4、Mpeg-7,目前正在研究討論Mpeg-21?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)65多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG-1中的音頻概況:Mpeg標(biāo)準(zhǔn)是由ISO/IECMPEG-1的音頻標(biāo)準(zhǔn)ISO/IEC11172-3(Mpeg音頻標(biāo)準(zhǔn))編碼器的輸入和解碼器的輸出與PCM標(biāo)準(zhǔn)兼容MPEG-1的數(shù)據(jù)率:由參數(shù)控制§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)66多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG-1的音頻標(biāo)準(zhǔn)ISO/IEC11172-3(MpegMPEG中的音頻編碼Mpeg中的音頻采用子帶編碼(SBC).子帶編碼的根據(jù):聽覺系統(tǒng)的隱蔽特性;重構(gòu)的聲音與編碼前的信號不同,但對聽覺來講是“無損壓縮”有四種編碼模式?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)67多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼Mpeg中的音頻采用子帶編碼(SBC).MPEG中的音頻
編碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)68多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻
編碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)68多媒MPEG中的音頻編碼層次MPEG聲音標(biāo)準(zhǔn)提供三個獨立的壓縮層次:層1、層2和層3后繼層次的壓縮比更高,編碼解碼器也更復(fù)雜每層都自含SBC編碼器,高層的SBC可以使用低層SBC的聲音數(shù)據(jù)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)69多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次MPEG聲音標(biāo)準(zhǔn)提供三個獨立的壓縮MPEG中的音頻編碼層次1層1包括將數(shù)字音頻變成32個子帶的基本映射。將數(shù)據(jù)格式化成塊的固定分段。決定自適應(yīng)位分配的心理聲學(xué)模型。利用塊壓擴合格石化的量化器。編碼/解碼理論延時最小為19ms,數(shù)據(jù)傳輸率384kb/s?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)70多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次1層1包括將數(shù)字音頻變成32個子帶MPEG中的音頻編碼層次2層2提供了位分配,縮放因子和抽樣的附加編碼。使用了不同的幀格式。理論上最小編解碼延時35ms,數(shù)據(jù)傳輸率256kb/s~192kb/s。用于數(shù)字廣播、CD-I、VCD等?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)71多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次2層2提供了位分配,縮放因子和抽樣MPEG中的音頻編碼層次3層3采用混合帶通濾波器以提高頻率分辨率。增加了差值量化、自適應(yīng)分段和量化值的熵編碼。理論上最小編解碼延時59ms,數(shù)據(jù)傳輸率64kb/s。用于ISDN上的聲音傳播?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)72多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次3層3采用混合帶通濾波器以提高頻率MPEG的聲音壓縮率128~112(kbps)10:1~12:13256~192(kbps)6:1~8:12384(kbps)4:11立體聲信號所對應(yīng)的位率壓縮率層次§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)73多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG的聲音壓縮率128~112(kbps)10:1~1MPEG中的音頻解碼解碼器按編碼器定義的語法接受壓縮的音頻數(shù)據(jù)流,按解碼部分的方法解出數(shù)據(jù)元素,按濾波器的規(guī)定用這些數(shù)據(jù)產(chǎn)生數(shù)字音頻輸出?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)74多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻解碼解碼器按編碼器定義的語法接受壓縮的音頻MPEG音頻解碼結(jié)構(gòu)框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)75多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG音頻解碼結(jié)構(gòu)框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)75多DOLBYAC-3編碼和解碼由美國DOLBY實驗室開發(fā)提供5.1聲道從20Hz~20KHz的平滑帶寬(圖)將六個聲道壓縮成一個通道數(shù)據(jù)率320Kbps§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)76多媒體技術(shù)基礎(chǔ)及應(yīng)用DOLBYAC-3編碼和解碼由美國DOLBY實驗室開發(fā)§AC-3的應(yīng)用范圍制作影碟、CD、VHS錄像帶數(shù)字廣播、有線電視直播衛(wèi)星美國的HDTV音頻標(biāo)準(zhǔn)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)77多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3的應(yīng)用范圍制作影碟、CD、VHS錄像帶§2.3音AC-3的技術(shù)特色充分利用心理聲學(xué)特性實現(xiàn)噪聲掩蔽可用某一聲道的聲壓掩蔽其他聲道的噪聲§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)78多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3的技術(shù)特色充分利用心理聲學(xué)特性實現(xiàn)噪聲掩蔽§2.3AC-3同步幀的構(gòu)成(1)同步信息(SI)同步字:標(biāo)志幀的開始檢驗碼(CRC1):循環(huán)冗余校驗采樣頻率:說明PCM碼流的采樣率(48,44.1、32KHz)幀長度代碼:§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)79多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3同步幀的構(gòu)成(1)同步信息(SI)§2.3音頻編AC-3同步幀的構(gòu)成(2)比特流標(biāo)識(BSI)包括版本、編碼模式等信息音頻數(shù)據(jù)塊包含音頻數(shù)據(jù)以及相關(guān)的解碼控制信息§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)80多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3同步幀的構(gòu)成(2)比特流標(biāo)識(BSI)§2.3音AC-3同步幀的構(gòu)成(3)附加信息用于保留用戶自己定義的信息錯誤校驗碼包含錯誤校驗字§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)81多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3同步幀的構(gòu)成(3)附加信息§2.3音頻編碼基礎(chǔ)和AC-3的解碼分析碼流的正確性(CRC)根據(jù)頭部信息解出聲道指數(shù)分析指數(shù)并解出尾數(shù)指數(shù)、尾數(shù)合成頻域參數(shù)反變換、輸出時域PCM碼流§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)82多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3的解碼分析碼流的正確性(CRC)§2.3音頻編碼再見!§283多媒體技術(shù)基礎(chǔ)及應(yīng)用再見!§283多媒體技術(shù)基礎(chǔ)及應(yīng)用幾種聲源的頻率帶寬10Hz—20KHz數(shù)字光盤20Hz—20KHz寬頻帶音響20Hz—15KHz調(diào)頻廣播(FM)50Hz—7kHz調(diào)頻廣播(AM)200Hz—3.4KHz電話頻率帶寬聲源§2.1數(shù)字音頻基礎(chǔ)84多媒體技術(shù)基礎(chǔ)及應(yīng)用幾種聲源的頻率帶寬10Hz—20KHz數(shù)字光盤20Hz—圖示:音調(diào)、音色和音強§285多媒體技術(shù)基礎(chǔ)及應(yīng)用圖示:音調(diào)、音色和音強§285多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣信號的形成§286多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣信號的形成§286多媒體技術(shù)基礎(chǔ)及應(yīng)用圖示:均勻采樣和非均勻采樣§287多媒體技術(shù)基礎(chǔ)及應(yīng)用圖示:均勻采樣和非均勻采樣§287多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音采樣和量化§288多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音采樣和量化§288多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂合成----
調(diào)頻方式數(shù)字式頻率調(diào)制合成法(digitalfrequencymodulationsynthesis),簡稱為FM合成器。是把幾種樂音的波形用數(shù)字來表達,并且用數(shù)字計算機把它們組合起來,通過數(shù)模轉(zhuǎn)換器(digitaltoanalogconvertor,DAC)來生成樂音?!?.2音頻卡的工作原理89多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂合成----
調(diào)頻方式數(shù)字式頻率調(diào)制合成MIDI音樂合成----
調(diào)頻方式§290多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂合成----
調(diào)頻方式§290多媒體技術(shù)基礎(chǔ)及應(yīng)MIDI音樂合成----
調(diào)頻方式改變參數(shù),可以生成不同的樂音如:改變數(shù)字載波頻率、幅度改變波形的類型快速改變調(diào)制波形的頻率改變反饋量選擇的算法不同§291多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂合成----
調(diào)頻方式改變參數(shù),可以生成不同的樂MIDI音樂合成----
波形表方式
這種方法是把真實樂器發(fā)出的聲音以數(shù)字的形式記錄下來,播放時改變播放速度,從而改變音調(diào)周期,生成各種音階的音符?!?92多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂合成----
波形表方式這種方MIDI音樂合成----
波形表方式§293多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂合成----
波形表方式§293多媒體技術(shù)基礎(chǔ)及數(shù)字化音頻:信號變化過程圖示模擬信號采樣信號數(shù)字信號§294多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻:信號變化過程圖示模擬信號采樣信號數(shù)字信號§294數(shù)字化音頻:離散時間信號圖示§295多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻:離散時間信號圖示§295多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻:離散幅度信號圖示§296多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻:離散幅度信號圖示§296多媒體技術(shù)基礎(chǔ)及應(yīng)用PCM示意圖§297多媒體技術(shù)基礎(chǔ)及應(yīng)用PCM示意圖§297多媒體技術(shù)基礎(chǔ)及應(yīng)用均勻量化和非均勻量化如果采用相等的量化間隔對采樣所得信號作量化,則這種量化稱為均勻量化或線性量化。若量化間隔不相等則為非均勻量化。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)98多媒體技術(shù)基礎(chǔ)及應(yīng)用均勻量化和非均勻量化如果采用相等的量化間隔對采樣所得信號作量非線性量化的基本思想量化時,大的輸入信號采用大的量化間隔,小信號采用小的量化間隔。聲音數(shù)據(jù)還原時,采用相同的規(guī)則。目的是在滿足精度要求的情況下使用較少的位數(shù)?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)99多媒體技術(shù)基礎(chǔ)及應(yīng)用非線性量化的基本思想量化時,大的輸入信號采用大的量化間隔,小APCM示意圖插入林圖3-13APCM方塊圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)100多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM示意圖插入林圖3-13APCM方塊圖§2.3音頻編DPCM示意圖插入林圖3-14DPCM方塊圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)101多媒體技術(shù)基礎(chǔ)及應(yīng)用DPCM示意圖插入林圖3-14DPCM方塊圖§2.3音頻編ADPCM示意圖插入林圖3-15ADPCM方塊圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)102多媒體技術(shù)基礎(chǔ)及應(yīng)用ADPCM示意圖插入林圖3-15ADPCM方塊圖§2.3音ADPCM解碼器示意圖插入林圖3-16b.ADPCM解碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)103多媒體技術(shù)基礎(chǔ)及應(yīng)用ADPCM解碼器示意圖插入林圖3-16b.ADPCM解碼器§5.1聲道示意圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)104多媒體技術(shù)基礎(chǔ)及應(yīng)用5.1聲道示意圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)104多媒體技第二章
音頻信息的獲取與處理§2105多媒體技術(shù)基礎(chǔ)及應(yīng)用第二章
音頻信息的獲取與處理§21多媒體技術(shù)基礎(chǔ)及應(yīng)用本章學(xué)習(xí)要點音頻信號的特點;模擬音頻與數(shù)字音頻;音頻采樣與量化以及數(shù)字音頻文件格式。音頻卡的功能、分類及其基本工作原理。音頻編碼基本原理及標(biāo)準(zhǔn)。音樂合成及MIDI規(guī)范。語音識別與合成原理及分類?!?106多媒體技術(shù)基礎(chǔ)及應(yīng)用本章學(xué)習(xí)要點音頻信號的特點;模擬音頻與數(shù)字音頻;音頻采樣與量學(xué)習(xí)要求熟練掌握:音頻卡的工作原理及應(yīng)用開發(fā)。掌握:音頻編碼基礎(chǔ)及標(biāo)準(zhǔn);音樂合成及MIDI。了解:本章其他內(nèi)容?!?107多媒體技術(shù)基礎(chǔ)及應(yīng)用學(xué)習(xí)要求熟練掌握:音頻卡的工作原理及應(yīng)用開發(fā)?!?3多媒體技2.1數(shù)字音頻基礎(chǔ)§2108多媒體技術(shù)基礎(chǔ)及應(yīng)用2.1數(shù)字音頻基礎(chǔ)§24多媒體技術(shù)基礎(chǔ)及應(yīng)用
聲音是一種由機械振動引起并在彈性介質(zhì)中傳播的連續(xù)的波。聲音的強弱體現(xiàn)在聲波壓力的大小上。聲音的高低體現(xiàn)在聲波的頻率上??蓪⒙暡ㄞD(zhuǎn)換為電信號。代表聲波的電信號在時間和幅度上都是連續(xù)的,即模擬信號。聲音的產(chǎn)生§2.1數(shù)字音頻基礎(chǔ)109多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音是一種由機械振動引起并在彈性介質(zhì)中聲音信號a聲音信號由許多不同頻率的信號組成,稱為復(fù)合信號。單一頻率的信號稱為分量信號。帶寬是聲音信號的一個重要參數(shù),它描述復(fù)合信號的頻率范圍。§2.1數(shù)字音頻基礎(chǔ)110多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音信號a聲音信號由許多不同頻率的信號組成,稱為復(fù)合信號?!炻曇粜盘朾人耳的聽覺范圍是20Hz~20KHz,稱為音頻(Audio)信號。人說話的頻率范圍是300~3000Hz,稱為話音(speech)信號。§2.1數(shù)字音頻基礎(chǔ)111多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音信號b人耳的聽覺范圍是20Hz~20KHz,稱為音頻(A聲音的聽覺特性——
聲音三要素聲音三要素即音調(diào)音強音色音色是由混入基音中的泛音所決定的?!?.1數(shù)字音頻基礎(chǔ)112多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——
聲音三要素聲音三要素即§2.1數(shù)字音
聲音是一種彈性波,可分為周期性和非周期性信號。周期信號是單一頻率的信號,是線性譜。非周期信號包含一定連續(xù)頻帶的所有頻率分量,是連續(xù)譜。完全的連續(xù)譜(如平滑噪聲)完全無調(diào)。自然界的聲音大多是線性譜中混有一段段較弱的連續(xù)譜,聽來既有調(diào)又飽滿、生動。聲音的聽覺特性——
聲音中的連續(xù)譜§2.1數(shù)字音頻基礎(chǔ)113多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音是一種彈性波,可分為周期性和非周期聲音的聽覺特性——
聲音的方向性
人能分辨出聲音到達左右兩耳的時差和強度差異,即能辨別聲源方向。由于聲波在空間來回反射,能產(chǎn)生空間效果?!?.1數(shù)字音頻基礎(chǔ)114多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——
聲音的方向性人能分聲音的聽覺特性——
聲音是時基類媒體聲音是時間連續(xù)的,人耳能感覺到25毫秒的延遲。沒有時間就無法表現(xiàn)聲音。聲音是連續(xù)型時基媒體。§2.1數(shù)字音頻基礎(chǔ)115多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——
聲音是時基類媒體聲音是時間連續(xù)的,人耳能聲音的質(zhì)量評判聲音的質(zhì)量與其頻率范圍(即頻帶)有關(guān)。一般,頻帶越寬,音質(zhì)越好。對語音常用可懂度、清晰度和自然度衡量。對音樂,保真度、空間感和音響效果是重要指標(biāo)。平均主觀打分(MOS)是最簡單的評判法?!?.1數(shù)字音頻基礎(chǔ)116多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的質(zhì)量評判聲音的質(zhì)量與其頻率范圍(即頻帶)有關(guān)。一般,頻模擬聲音的錄制與播放模擬聲音信號的錄制一般是先將聲波信號通過機電轉(zhuǎn)換獲得電信號,之后再通過電磁轉(zhuǎn)換等方式記錄到適當(dāng)?shù)慕橘|(zhì)上。模擬聲音的播放即使把記錄在介質(zhì)上的信號通過電磁轉(zhuǎn)換、機電轉(zhuǎn)換等手段還原為聲音信號?!?.1數(shù)字音頻基礎(chǔ)117多媒體技術(shù)基礎(chǔ)及應(yīng)用模擬聲音的錄制與播放模擬聲音信號的錄制一般是先將聲波信號通過模擬信號的數(shù)字化在某個特定時刻對模擬信號進行測量稱為采樣。采樣獲得的信號稱為離散時間信號。對幅值連續(xù)的采樣信號限定取值范圍,可以獲得由有限個幅值組成的信號,稱其為離散幅度信號。采樣值在某個數(shù)值附近的一定范圍內(nèi)都用這個值表示,這種處理稱為量化。§2.1數(shù)字音頻基礎(chǔ)118多媒體技術(shù)基礎(chǔ)及應(yīng)用模擬信號的數(shù)字化在某個特定時刻對模擬信號進行測量稱為采樣?!旒毧床蓸雍土炕鶆虿蓸樱好績纱尾蓸又g的間隔時間相等。否則為非均勻采樣。采樣的時間間隔稱為采樣周期。每秒鐘采樣的次數(shù)稱為采樣頻率。線性量化:量化的幅度間隔均等。否則為非線性量化?!?.1數(shù)字音頻基礎(chǔ)119多媒體技術(shù)基礎(chǔ)及應(yīng)用細看采樣和量化均勻采樣:每兩次采樣之間的間隔時間相等。否則為數(shù)字化音頻a在計算機內(nèi)聲音信息同其他信息一樣也用一系列二進制數(shù)字表示,稱其為數(shù)字音頻。數(shù)字音頻是對模擬聲音信號進行采樣和量化得到的。§2.1數(shù)字音頻基礎(chǔ)120多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻a在計算機內(nèi)聲音信息同其他信息一樣也用一系列二進制數(shù)字化音頻b采樣和量化的主要硬件是模數(shù)轉(zhuǎn)換器(ADC)。數(shù)字音頻的回放需先進行數(shù)模轉(zhuǎn)換(DAC)得到模擬電信號,然后再放大輸出。§2.1數(shù)字音頻基礎(chǔ)121多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻b采樣和量化的主要硬件是模數(shù)轉(zhuǎn)換器(ADC)?!?采樣定理a
采樣頻率的高低應(yīng)根據(jù)奈奎斯特理論和聲音信號本身的最高頻率決定。奈氏理論指出:如果采樣頻率不低于信號最高頻率的兩倍,則由此獲得的離散信號能夠完全確定被采樣的連續(xù)信號?!?.1數(shù)字音頻基礎(chǔ)122多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣定理a采樣頻率的高低應(yīng)根據(jù)奈奎斯特理論采樣定理b設(shè)被采樣信號的最高頻率為f,則
§2.1數(shù)字音頻基礎(chǔ)123多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣定理b設(shè)被采樣信號的最高頻率為f,則§2量化精度和量化誤差a
若量化后的值用B位二進制碼表示。B位二進制碼可以表示2B個不同的量化電平。顯然,位數(shù)越多表示的精度就越高。§2.1數(shù)字音頻基礎(chǔ)124多媒體技術(shù)基礎(chǔ)及應(yīng)用量化精度和量化誤差a若量化后的值用B位二進量化精度和量化誤差b存儲數(shù)字音頻信號的比特率為:設(shè)量化階距(兩個量化值的幅度差)為△則量化誤差為:§2.1數(shù)字音頻基礎(chǔ)125多媒體技術(shù)基礎(chǔ)及應(yīng)用量化精度和量化誤差b存儲數(shù)字音頻信號的比特率為:§2.1數(shù)字音頻文件存儲量計算字節(jié)數(shù)=采樣頻率(Hz)*量化位數(shù)*聲道數(shù)*錄音時間(s)/8§2.1數(shù)字音頻基礎(chǔ)126多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字音頻文件存儲量計算字節(jié)數(shù)=采樣頻率(Hz)*量化位數(shù)*聲數(shù)字音頻的文件格式多媒體技術(shù)中常見音頻文件:Wav文件:Microsoft的音頻文件格式。對聲音波形采樣、量化后進行存儲,故稱波形文件。Voc文件:是creative公司的波形文件格式。Mid(midi)文件:是遵循樂器數(shù)字接口(midi)規(guī)范,產(chǎn)生數(shù)字樂音的文件。§2.1數(shù)字音頻基礎(chǔ)127多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字音頻的文件格式多媒體技術(shù)中常見音頻文件:§2.12.2音頻卡的工作原理主要完成模數(shù)轉(zhuǎn)換、音頻信號壓縮及解壓縮、數(shù)模轉(zhuǎn)換、音頻接口以及與微機接口五大功能§2.2音頻卡的工作原理128多媒體技術(shù)基礎(chǔ)及應(yīng)用2.2音頻卡的工作原理主要完成模數(shù)轉(zhuǎn)換、音頻信號壓縮及解音頻卡的功能---
錄制與播放a音頻錄放數(shù)字化采樣頻率范圍:8~44.1kHz量化位數(shù):8位/16位通道數(shù):單聲道/立體聲自動動態(tài)濾波§2.2音頻卡的工作原理129多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
錄制與播放a音頻錄放§2.2音頻卡的工音頻卡的功能---
錄制與播放b編碼與壓縮基本編碼方法:PCM壓縮編碼方法:ADPCM實時硬件/軟件壓縮錄音聲源:mic,line-in,CD§2.2音頻卡的工作原理130多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
錄制與播放b編碼與壓縮§2.2音頻卡的音頻卡的功能---
編輯與合成應(yīng)用工具軟件對數(shù)字音頻進行編輯以及實現(xiàn)特殊效果處理,如:倒播、增加回音、靜噪、淡入和淡出、往返播放、聲道交換?!?.2音頻卡的工作原理131多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
編輯與合成應(yīng)用工具軟件對數(shù)字音頻音頻卡的功能---
MIDI音樂合成利用軟件通過音頻卡的MIDI接口對電子樂器進行操作控制,產(chǎn)生聲音。音樂合成的性能依賴于音頻卡上合成芯片的性能。合成方式:調(diào)頻方式(FM)波形表方式§2.2音頻卡的工作原理132多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
MIDI音樂合成利用軟件通過音頻卡的音頻卡的功能---
文語轉(zhuǎn)換和語音識別文語轉(zhuǎn)換(texttospeech)是利用聲卡提供的軟件將機內(nèi)文本轉(zhuǎn)換為聲音輸出。語音識別使用者通過軟件利用聲音控制計算機或執(zhí)行一些命令。§2.2音頻卡的工作原理133多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---
文語轉(zhuǎn)換和語音識別文語轉(zhuǎn)換(textt音頻卡的工作原理—
混合信號處理器
內(nèi)置數(shù)字/模擬混合器。完成對聲音信號的混合處理;輸入聲源:MIDI信號、CD音頻、線路輸入、麥克風(fēng)輸入等;可以選擇一個或多個聲源進行混合。§2.2音頻卡的工作原理134多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
混合信號處理器內(nèi)置數(shù)字/模擬混合器。完音頻卡的工作原理—
功率放大器
用于對混合信號進行放大使之達到足夠的功率去推動揚聲器發(fā)聲?!?.2音頻卡的工作原理135多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
功率放大器用于對混合信號進行放大使之達音頻卡的工作原理—
總線和控制器a總線接口類型:早期是ISA,現(xiàn)在幾乎都是PCI。組成:數(shù)據(jù)總線雙向驅(qū)動器、總線接口控制邏輯、總線中斷邏輯和DMA控制邏輯?!?.2音頻卡的工作原理136多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
總線和控制器a總線接口類型:早期是IS音頻卡的工作原理—
總線和控制器b可以通過軟件或硬跳線設(shè)定基本I/O地址、中斷向量(IRQ)和直接存儲器存取(DMA)通道號這三個參數(shù),以避免與其他設(shè)備發(fā)生沖突?!?.2音頻卡的工作原理137多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
總線和控制器b可以通過軟件或硬跳線設(shè)定音頻卡的工作原理—
音頻卡的安裝a
自動安裝:現(xiàn)在的音頻卡產(chǎn)品一般都是即插即用的。安裝連接好之后,開啟電源,WIN9X會提示找到新硬件,照屏幕提示一步步操作,即可完成軟件安裝,之后重啟系統(tǒng)就能使用了?!?.2音頻卡的工作原理138多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
音頻卡的安裝a自動安裝:現(xiàn)在的音頻卡音頻卡的工作原理—
音頻卡的安裝b
手動安裝:開始->設(shè)置->控制面板->添加新硬件驅(qū)動程序的安裝需要WINDOWS系統(tǒng)盤?!?.2音頻卡的工作原理139多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—
音頻卡的安裝b手動安裝:開始->設(shè)置-聲音工具請參閱《輔導(dǎo)與實驗》之“實驗一音頻信號的獲取與處理”§2.2音頻卡的工作原理140多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音工具請參閱《輔導(dǎo)與實驗》之“實驗一音頻信號的獲取與處理2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)本節(jié)內(nèi)容:學(xué)習(xí)音頻編碼的基本知識學(xué)習(xí)音頻編碼的相關(guān)標(biāo)準(zhǔn)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)141多媒體技術(shù)基礎(chǔ)及應(yīng)用2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)本節(jié)內(nèi)容:§2.3音頻編碼音頻編碼的目的音頻編碼的主要目的就是壓縮數(shù)據(jù),以節(jié)約存儲空間和提高通信傳輸量。數(shù)據(jù)壓縮通常會降低音頻質(zhì)量。數(shù)據(jù)壓縮還會增大計算量。因此,音頻壓縮時要綜合考慮數(shù)據(jù)量、聲音質(zhì)量和計算的復(fù)雜度?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)142多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼的目的音頻編碼的主要目的就是壓縮數(shù)據(jù),以節(jié)約存儲空間壓縮編碼的可能性只有當(dāng)信源本身具有冗余度時才能對其進行壓縮。統(tǒng)計分析表明,語音信號中存在多種冗余度:時域信息冗余和頻域信息冗余根據(jù)人的聽覺機理,語音也是可以壓縮的?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)143多媒體技術(shù)基礎(chǔ)及應(yīng)用壓縮編碼的可能性只有當(dāng)信源本身具有冗余度時才能對其進行壓縮。時域信息冗余1.幅度的非均勻分布1.幅度的非均勻分布統(tǒng)計表明,語音中的小幅度樣本出現(xiàn)概率要高一些。又,通話中存在間歇,必然出現(xiàn)大量的低電平;此外,實際的講話信號器功率電平也趨向于出現(xiàn)在編碼范圍的較低電平端。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)144多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余1.幅度的非均勻分布1.幅度的非均勻分布統(tǒng)計時域信息冗余2.樣本間的相關(guān)2.樣本間的相關(guān)對于音信號的分析表明,取樣數(shù)據(jù)的最大相關(guān)存在于臨近樣本之間。當(dāng)采樣率為8KHz是相鄰樣本間相關(guān)系數(shù)大于0.85。如果采樣率提高,樣本見的相關(guān)性將會更高?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)145多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余2.樣本間的相關(guān)2.樣本間的相關(guān)對于音信號的時域信息冗余3.周期之間的相關(guān)3.周期之間的相關(guān)話音帶寬為300~3400Hz,但在某特定瞬間,一個聲音信號卻往往只是該頻帶內(nèi)的少數(shù)幾個頻率成分在起作用。當(dāng)聲音中只有少數(shù)幾個頻率時,就會象某些振蕩波形一樣,在周期和周期之間存在一定的相關(guān)性。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)146多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余3.周期之間的相關(guān)3.周期之間的相關(guān)話音帶寬時域信息冗余4.基音之間的相關(guān)4.基音之間的相關(guān)人的說話聲音可分為清音和濁音兩類。濁音波形不僅表現(xiàn)出周期相關(guān)性,而且還具有對應(yīng)于音調(diào)間隔的長期重復(fù)波形。因此,對音濁音部分的編碼最有效的方法之一就是只對一個音調(diào)間隔的波形進行編碼,并把它作為同樣本中其它基音段的模板?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)147多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余4.基音之間的相關(guān)4.基音之間的相關(guān)人的說話時域信息冗余5.靜止系數(shù)5.靜止系數(shù)靜止系數(shù):兩人在通話時,平均每人的講話時間占總通話時間的一半,且存在字詞句之間的停頓。分析表明:話音間歇使得全雙工話路的典型效率約為通話時間的40%。顯然話音間歇(波形靜止段)本身就是一種冗余?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)148多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余5.靜止系數(shù)5.靜止系數(shù)靜止系數(shù):兩人在通話時域信息冗余6.長時自相關(guān)6.長時自相關(guān)上述相關(guān)性都是在短時(20ms)間隔內(nèi)作出的統(tǒng)計分析。如果在較長時間內(nèi)進行統(tǒng)計就可以得到長時自相關(guān)函數(shù)。長時間統(tǒng)計表明,如采樣頻率為8kHz,則話音相鄰樣本間的相關(guān)系數(shù)高達0.9?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)149多媒體技術(shù)基礎(chǔ)及應(yīng)用時域信息冗余6.長時自相關(guān)6.長時自相關(guān)上述相關(guān)性都是在短時頻域信息冗余非均勻的長時功率譜密度
呈現(xiàn)強烈的非平坦性;高頻能量較低;直流分量并非最大。語音特有的短時功率譜密度
存在共振峰頻率,其第一、第二個共振頻率決定了語音特征;整個譜密度隨頻率的增加而遞減;整個功率譜的細節(jié)以基音的頻率為基礎(chǔ),形成高次諧波結(jié)構(gòu)?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)150多媒體技術(shù)基礎(chǔ)及應(yīng)用頻域信息冗余非均勻的長時功率譜密度§2.3音頻編碼基礎(chǔ)和標(biāo)人的聽覺感知機理人的聽覺具有掩蔽效應(yīng)強音能掩蔽弱音,分同時掩蔽和異時掩蔽。人耳對不同頻段聲音的敏感度不同對低頻聲的敏感度高于對高頻聲的敏感度。人耳對語音信號的相位變化不敏感§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)151多媒體技術(shù)基礎(chǔ)及應(yīng)用人的聽覺感知機理人的聽覺具有掩蔽效應(yīng)§2.3音頻編碼基礎(chǔ)和音頻編碼的分類波形編碼音源編碼基于人的聽覺特性進行編碼利用人耳掩蔽效應(yīng),設(shè)計心理聲學(xué)模型實現(xiàn)高效音頻壓縮。(圖3.5)基于音頻數(shù)據(jù)的統(tǒng)計特性,目標(biāo)是使生成的波形盡可能與原始波形保持一致;音質(zhì)高,數(shù)據(jù)率也很高;編譯碼器的復(fù)雜程度較低。它企圖從聲音波形中提出生成聲音的聲學(xué)參數(shù),利用生成模型重構(gòu)出聲音;數(shù)據(jù)率低(2.4kb/s左右),自然度差,保密性好。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)152多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼的分類波形編碼利用人耳掩蔽效應(yīng),設(shè)計心理聲學(xué)模型實現(xiàn)脈沖編碼調(diào)制(PCM)脈沖編碼調(diào)制概念上最簡單、理論上最完善,最早研制成功、使用最廣,但數(shù)據(jù)量也最大。PCM的原理框圖如圖所示。PCM的概念§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)153多媒體技術(shù)基礎(chǔ)及應(yīng)用脈沖編碼調(diào)制(PCM)脈沖編碼調(diào)制概念上最簡單、理論上最完善脈沖編碼調(diào)制(PCM)—
均勻量化和非均勻量化均勻量化、非均勻量化和量化誤差非線性量化的基本思想在非線性量化中,采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應(yīng)關(guān)系,這是基于對語音信號的統(tǒng)計分析后由CCITT建議的:m律壓擴算法和A律壓擴算法§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)154多媒體技術(shù)基礎(chǔ)及應(yīng)用脈沖編碼調(diào)制(PCM)—
均勻量化和非均勻量化均勻量化、非音頻編碼標(biāo)準(zhǔn)G.711公布于1972年的話音編碼標(biāo)準(zhǔn)。采樣率8kHz;將采樣樣本精度為13、14或16位的輸入信號,使用m律壓擴編碼或者使用A律壓擴編碼;經(jīng)過PCM編碼器之后每個樣本的精度為8位,輸出的數(shù)據(jù)率為64kb/s?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)155多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼標(biāo)準(zhǔn)G.711公布于1972年的話音編碼標(biāo)準(zhǔn)。§2自適應(yīng)脈碼調(diào)制概念A(yù)PCM是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。自適應(yīng)可以是:瞬時自適應(yīng)音節(jié)自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)156多媒體技術(shù)基礎(chǔ)及應(yīng)用自適應(yīng)脈碼調(diào)制概念A(yù)PCM是根據(jù)輸入信號幅度大小來改變量化階APCM的量化階改變量化階大小的方法有兩種:前向自適應(yīng)根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(sideinformation)傳送到接收端。后向自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)157多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM的量化階改變量化階大小的方法有兩種:§2.3音頻編APCM的量化階改變量化階大小的方法有兩種:前向自適應(yīng)根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(sideinformation)傳送到接收端。后向自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)158多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM的量化階改變量化階大小的方法有兩種:§2.3音頻編差分脈碼調(diào)制(DPCM)DPCM的思想:根據(jù)過去的樣本去估算下一個樣本信號的幅度大小(稱為預(yù)測值),然后對實際信號值與預(yù)測值之差進行量化編碼,從而就減少了表示每個樣本信號的位數(shù)。DPCM原理示意圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)159多媒體技術(shù)基礎(chǔ)及應(yīng)用差分脈碼調(diào)制(DPCM)DPCM的思想:根據(jù)過去的樣本去估自適應(yīng)差分脈碼調(diào)制ADPCM的核心思想:自適應(yīng)量化:利用自適應(yīng)的思想改變量化階的大?。蛔赃m應(yīng)預(yù)測:使用過去的樣本值估算下一個輸入樣本的預(yù)測值,使實際樣本值和預(yù)測值之間的差值總是最小。ADPCM框圖?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)160多媒體技術(shù)基礎(chǔ)及應(yīng)用自適應(yīng)差分脈碼調(diào)制ADPCM的核心思想:§2.3音頻編碼基G.721ADPCM編譯碼器CCITT制定的G.721推薦標(biāo)準(zhǔn)叫做32kb/s自適應(yīng)差分脈沖編碼調(diào)制。在此基礎(chǔ)上還制定了G.721的擴充推薦標(biāo)準(zhǔn)G.723,使用該標(biāo)準(zhǔn)的編碼器其數(shù)據(jù)率可降低到40kb/s和24kb/s。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)161多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器CCITT制定的G.721G.721ADPCM編譯碼器CCITT推薦的G.721ADPCM標(biāo)準(zhǔn)是一個代碼轉(zhuǎn)換系統(tǒng)。它使用ADPCM轉(zhuǎn)換技術(shù),實現(xiàn)64kb/sA律或μ律PCM速率和32kb/s速率之間的相互轉(zhuǎn)換。
ADPCM編碼器框圖ADPCM解碼器框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)162多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器CCITT推薦的G.721G.721ADPCM編譯碼器G.721ADPCM編譯碼器的輸入是G.711PCM代碼(8位),其采樣率8kHz,數(shù)據(jù)率是64kb/s。G.721的輸出是:4位差分信號,采樣率仍然是8kHz,數(shù)據(jù)率32kb/s。數(shù)據(jù)率從64kb/s變換為32kb/s,壓縮率2:1?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)163多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器G.721ADPCM編譯G.722SB-ADPCM編譯碼器G.722推薦標(biāo)準(zhǔn)(“數(shù)據(jù)率為64kb/s的7kHz聲音信號編碼”),把話質(zhì)提高到了AM廣播質(zhì)量,而其數(shù)據(jù)率仍保持為64kb/s(16kHz采樣)。G.722采用高低兩個子帶(子帶的劃分以4KHz為界),然后再對每個子帶采用類似G.721建議的ADPCM?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)164多媒體技術(shù)基礎(chǔ)及應(yīng)用G.722SB-ADPCM編譯碼器G.722推薦標(biāo)準(zhǔn)(“子帶編碼(SBC)子帶編碼的基本思想:使用一組帶通濾波器(band-passfilter,BPF)把輸入音頻信號的頻帶分成若干個連續(xù)的頻段,每個頻段稱為子帶。對每個子帶中的音頻信號采用單獨的編碼方案去編碼。在信道上傳送時,將每個子帶的代碼復(fù)合起來。在接收端譯碼時,將每個子帶的代碼單獨譯碼,然后把它們組合起來,還原成原來的音頻信號。子帶編碼的方塊圖如圖3-17所示,圖中的編碼/譯碼器,可以采用ADPCM,APCM,PCM等?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)165多媒體技術(shù)基礎(chǔ)及應(yīng)用子帶編碼(SBC)子帶編碼的基本思想:§2.3音頻編碼基礎(chǔ)G.728低延時-碼激勵
線性預(yù)測編碼是以美國AT&T公司貝爾實驗室提出的LD_CELP(低延時碼激勵線性預(yù)測)算法為基礎(chǔ),它充分考慮了聽覺特性。其基本思想如下:§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)166多媒體技術(shù)基礎(chǔ)及應(yīng)用G.728低延時-碼激勵
線性預(yù)測編碼是以美國AT&T公DL_CELP編碼思想(a)1.語音輸入每幀5個取樣值,并附上10bit的描述激勵信號波形與增益的信息;2.編碼時用事先準(zhǔn)備好的激勵矢量的所有組合去合成語音;§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)167多媒體技術(shù)基礎(chǔ)及應(yīng)用DL_CELP編碼思想(a)1.語音輸入每幀5個取樣值,并DL_CELP編碼思想(b)3.將合成結(jié)果與輸入信號相比較,選出聽覺加權(quán)后距離最小的碼元作為信息傳輸;4.解碼端將發(fā)送端制定的激勵矢量、3bit增益碼以及自身已經(jīng)合成過的語音波形一起合成為語音。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)168多媒體技術(shù)基礎(chǔ)及應(yīng)用DL_CELP編碼思想(b)3.將合成結(jié)果與輸入信號相比較MPEG-1中的音頻概況:Mpeg標(biāo)準(zhǔn)是由ISO/IEC的運動圖像專家組(WG11)制定的。該系列已推出Mpeg-1、Mpeg-2、Mpeg-4、Mpeg-7,目前正在研究討論Mpeg-21?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)169多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG-1中的音頻概況:Mpeg標(biāo)準(zhǔn)是由ISO/IECMPEG-1的音頻標(biāo)準(zhǔn)ISO/IEC11172-3(Mpeg音頻標(biāo)準(zhǔn))編碼器的輸入和解碼器的輸出與PCM標(biāo)準(zhǔn)兼容MPEG-1的數(shù)據(jù)率:由參數(shù)控制§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)170多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG-1的音頻標(biāo)準(zhǔn)ISO/IEC11172-3(MpegMPEG中的音頻編碼Mpeg中的音頻采用子帶編碼(SBC).子帶編碼的根據(jù):聽覺系統(tǒng)的隱蔽特性;重構(gòu)的聲音與編碼前的信號不同,但對聽覺來講是“無損壓縮”有四種編碼模式?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)171多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼Mpeg中的音頻采用子帶編碼(SBC).MPEG中的音頻
編碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)172多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻
編碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)68多媒MPEG中的音頻編碼層次MPEG聲音標(biāo)準(zhǔn)提供三個獨立的壓縮層次:層1、層2和層3后繼層次的壓縮比更高,編碼解碼器也更復(fù)雜每層都自含SBC編碼器,高層的SBC可以使用低層SBC的聲音數(shù)據(jù)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)173多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次MPEG聲音標(biāo)準(zhǔn)提供三個獨立的壓縮MPEG中的音頻編碼層次1層1包括將數(shù)字音頻變成32個子帶的基本映射。將數(shù)據(jù)格式化成塊的固定分段。決定自適應(yīng)位分配的心理聲學(xué)模型。利用塊壓擴合格石化的量化器。編碼/解碼理論延時最小為19ms,數(shù)據(jù)傳輸率384kb/s。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)174多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次1層1包括將數(shù)字音頻變成32個子帶MPEG中的音頻編碼層次2層2提供了位分配,縮放因子和抽樣的附加編碼。使用了不同的幀格式。理論上最小編解碼延時35ms,數(shù)據(jù)傳輸率256kb/s~192kb/s。用于數(shù)字廣播、CD-I、VCD等?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)175多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次2層2提供了位分配,縮放因子和抽樣MPEG中的音頻編碼層次3層3采用混合帶通濾波器以提高頻率分辨率。增加了差值量化、自適應(yīng)分段和量化值的熵編碼。理論上最小編解碼延時59ms,數(shù)據(jù)傳輸率64kb/s。用于ISDN上的聲音傳播?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)176多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次3層3采用混合帶通濾波器以提高頻率MPEG的聲音壓縮率128~112(kbps)10:1~12:13256~192(kbps)6:1~8:12384(kbps)4:11立體聲信號所對應(yīng)的位率壓縮率層次§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)177多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG的聲音壓縮率128~112(kbps)10:1~1MPEG中的音頻解碼解碼器按編碼器定義的語法接受壓縮的音頻數(shù)據(jù)流,按解碼部分的方法解出數(shù)據(jù)元素,按濾波器的規(guī)定用這些數(shù)據(jù)產(chǎn)生數(shù)字音頻輸出?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)178多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻解碼解碼器按編碼器定義的語法接受壓縮的音頻MPEG音頻解碼結(jié)構(gòu)框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)179多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG音頻解碼結(jié)構(gòu)框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)75多DOLBYAC-3編碼和解碼由美國DOLBY實驗室開發(fā)提供5.1聲道從20Hz~20KHz的平滑帶寬(圖)將
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年陜西貨車從業(yè)資格證答題技巧
- 商鋪轉(zhuǎn)讓經(jīng)營合同書二零二五年
- 二零二五民間借貸起訴狀范文
- 股權(quán)轉(zhuǎn)讓擔(dān)保合同范例二零二五年
- 銷售流程財務(wù)管理制度
- 食堂員工窗口管理制度
- 食品生產(chǎn)臺賬管理制度
- 銀行總部值班管理制度
- 閑置資產(chǎn)處理管理制度
- 配送公司投訴管理制度
- 中醫(yī)藥文化節(jié)活動方案
- 深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第9、10章 生成對抗網(wǎng)絡(luò)及自動駕駛應(yīng)用、強化學(xué)習(xí)理論及自動駕駛應(yīng)用實踐
- 鋼棚搭建安全合同(2篇)
- 浙江省【高等職業(yè)技術(shù)教育招生考試】-商業(yè)類(電子商務(wù))-職業(yè)技能理論知識(一)(答案版)
- 中國國新基金管理有限公司招聘筆試題庫2024
- 城鄉(xiāng)環(huán)衛(wèi)一體化保潔服務(wù)投標(biāo)方案(技術(shù)方案)
- 血管活性藥物靜脈輸注護理
- Nikon尼康D3100中文說明書
- Module 3 Unit-7 Chinese Zodiac Signs(Period 4)(解密中國十二生肖)
- 中國糖尿病血酮監(jiān)測專家共識
- 直播運營專員崗位職責(zé)說明書
評論
0/150
提交評論