數(shù)字音頻技術(shù)PPT課件_第1頁
數(shù)字音頻技術(shù)PPT課件_第2頁
數(shù)字音頻技術(shù)PPT課件_第3頁
數(shù)字音頻技術(shù)PPT課件_第4頁
數(shù)字音頻技術(shù)PPT課件_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)字音頻技術(shù) 聲音是攜帶聲音是攜帶信息信息的極其重要的媒體,是多媒體技術(shù)研究中的極其重要的媒體,是多媒體技術(shù)研究中的一個重要內(nèi)容。聲音的種類繁多,如人的的一個重要內(nèi)容。聲音的種類繁多,如人的話音話音、樂器聲、動、樂器聲、動物發(fā)出的聲音、機(jī)器產(chǎn)生的聲音以及自然界的聲音等。物發(fā)出的聲音、機(jī)器產(chǎn)生的聲音以及自然界的聲音等。 我們將研究聲音的基礎(chǔ)知識,掌握我們將研究聲音的基礎(chǔ)知識,掌握聲音數(shù)字化聲音數(shù)字化的兩個最基的兩個最基本的概念本的概念, ,了解基本的了解基本的音頻信號編碼音頻信號編碼技術(shù)。技術(shù)。 音頻音頻處理技術(shù)處理技術(shù)聲音是通過空氣傳播的一種連續(xù)的波,叫聲音是通過空氣傳播的一種連續(xù)的波,叫聲波

2、聲波。聲音的強(qiáng)弱(聲音的強(qiáng)弱(音強(qiáng)音強(qiáng))音調(diào)的高低(音調(diào)的高低(頻率頻率)示例)示例聲波的特性聲波的特性 反射反射 (reflection)(reflection)、折射、折射 (refraction)(refraction)和衍射和衍射 (diffraction)(diffraction) 聲音與聽覺器官聲音特性聲音特性聲音特性聲音特性聲音信號由許多頻率不同的信號組成。聲音信號由許多頻率不同的信號組成。帶寬:用來描述組成復(fù)合信號的頻率帶寬:用來描述組成復(fù)合信號的頻率范圍。范圍。202020000 Hz20000 Hz所有聲音的帶寬所有聲音的帶寬80803400 Hz 3400 Hz 話音帶寬

3、話音帶寬帶寬帶寬音樂音樂n 以小提琴為例,當(dāng)它的以小提琴為例,當(dāng)它的A弦振動時,不僅是整根弦在振動,弦振動時,不僅是整根弦在振動,這根弦的二分之一、三分之一、四分之一、五分之一這根弦的二分之一、三分之一、四分之一、五分之一處處都在振動著。于是,整根弦的振動產(chǎn)生了最主要的頻率,我都在振動著。于是,整根弦的振動產(chǎn)生了最主要的頻率,我們稱之為們稱之為基音基音,而弦長的二分之一、三分之一、四分之一等,而弦長的二分之一、三分之一、四分之一等處的振動則產(chǎn)生了一些次要的頻率,我們稱之為處的振動則產(chǎn)生了一些次要的頻率,我們稱之為泛音泛音。 n 如果一個物體振動所發(fā)出的泛音為基音的整數(shù)倍,這個音如果一個物體振動

4、所發(fā)出的泛音為基音的整數(shù)倍,這個音就會具有清晰可辨的音高,我們稱之為就會具有清晰可辨的音高,我們稱之為樂音樂音。鋼琴,小提琴。鋼琴,小提琴等發(fā)出的都是樂音;如果泛音是基音的非整數(shù)倍,這個音就等發(fā)出的都是樂音;如果泛音是基音的非整數(shù)倍,這個音就不具備清晰可辨的音高,我們稱之為不具備清晰可辨的音高,我們稱之為噪音噪音。汽車發(fā)動機(jī)、計。汽車發(fā)動機(jī)、計算機(jī)風(fēng)扇等發(fā)出的都是噪音。算機(jī)風(fēng)扇等發(fā)出的都是噪音。 聲音質(zhì)量的度量聲音質(zhì)量的度量n 聲音的質(zhì)量與傳輸聲音載體的聲音的質(zhì)量與傳輸聲音載體的帶寬帶寬有關(guān),一般來說頻率有關(guān),一般來說頻率范圍越寬,聲音質(zhì)量也就越高。范圍越寬,聲音質(zhì)量也就越高。聲音類型聲音類型

5、帶帶 寬寬電話語音電話語音200Hz200Hz3.4kHz3.4kHz調(diào)幅廣播調(diào)幅廣播50Hz50Hz7kHz7kHz調(diào)頻廣播調(diào)頻廣播20Hz20Hz15kHz15kHzCDCD20Hz20Hz20kHz20kHz 信噪比(信噪比(SNRSNR)、主觀平均判分法()、主觀平均判分法(MOSMOS)。)。聲音信號數(shù)字化聲音信號數(shù)字化n 聲音信號是典型的連續(xù)信號,不僅在聲音信號是典型的連續(xù)信號,不僅在時間時間上是連續(xù)的,上是連續(xù)的,而且在而且在幅度幅度上也是連續(xù)的。上也是連續(xù)的。n 聲音進(jìn)入計算機(jī)的第一步就是將聲音信號轉(zhuǎn)化為電信號聲音進(jìn)入計算機(jī)的第一步就是將聲音信號轉(zhuǎn)化為電信號(傳感器傳感器),然

6、后對電信號進(jìn)行數(shù)字化。,然后對電信號進(jìn)行數(shù)字化。n 數(shù)字化過程中最重要的步驟就是數(shù)字化過程中最重要的步驟就是采樣采樣sampling和和量化量化quantization。聲音信號數(shù)字化聲音信號數(shù)字化n 采樣(采樣(sampling):將聲音信號在時間上離散化,即:將聲音信號在時間上離散化,即每隔相等的一段時間抽取一個信號樣本。每隔相等的一段時間抽取一個信號樣本。聲音信號數(shù)字化聲音信號數(shù)字化n采樣定理 混疊效應(yīng)聲音信號數(shù)字化聲音信號數(shù)字化 采樣精度采樣精度 每個聲音樣本的數(shù)字化位數(shù)反映了聲音波形幅度的每個聲音樣本的數(shù)字化位數(shù)反映了聲音波形幅度的采樣精度采樣精度。質(zhì)量質(zhì)量采樣頻率采樣頻率(kHzk

7、Hz)樣本精度樣本精度單道聲單道聲/ /立體聲立體聲數(shù)據(jù)率數(shù)據(jù)率(kb/skb/s)頻率范圍頻率范圍(kHzkHz)電話電話8 88 8單道聲單道聲646420020034003400AMAM11.02511.0258 8單道聲單道聲8888505070007000FMFM22.05022.0501616立體聲立體聲705.6705.620201500015000CDCD44.144.11616立體聲立體聲1411.21411.220202000020000DATDAT48481616立體聲立體聲1536153620202000020000聲音信號數(shù)字化聲音信號數(shù)字化n 量化(量化(quant

8、ization):將連續(xù)的信號幅度離散化。如果幅:將連續(xù)的信號幅度離散化。如果幅度的劃分是等間隔的,稱為線性量化,否則為非線性量化。度的劃分是等間隔的,稱為線性量化,否則為非線性量化。 電壓范圍電壓范圍 量化量化(dec) 編碼編碼(bin) 0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0.3 -0.1 -1 111 -0.5 -0.3 -2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 100語音技術(shù)語音技術(shù)_ _編碼、應(yīng)用編碼、應(yīng)用語言編碼技術(shù)的應(yīng)用n目的是把模擬語音信號轉(zhuǎn)化成數(shù)字信號以便在信道中

9、傳輸、在介質(zhì)中存儲。 PSTN GSM, CDMA,3G,4G,5G WLAN, VOIP MP3,Dolby衡量編碼器的因素n音頻質(zhì)量 (MOS評測法)n數(shù)據(jù)率 (窄帶、寬帶)n編/解碼延時n算法復(fù)雜度n價格因素語言編碼器分類n 波形編譯碼器(波形編譯碼器(waveform coder):不利用生成話音的信:不利用生成話音的信號的任何知識,將話音視為一種普通的聲音,直接對波形號的任何知識,將話音視為一種普通的聲音,直接對波形信號進(jìn)行采樣和量化。例如信號進(jìn)行采樣和量化。例如PCM、DPCM、ADPCM等。等。n 音源編譯碼器(音源編譯碼器(Source coder):也叫參數(shù)編譯碼器、聲:也叫

10、參數(shù)編譯碼器、聲碼器(碼器(vocoder)。它從話音波形信號中提取生成話音的)。它從話音波形信號中提取生成話音的參數(shù),使用這些參數(shù)通過話音生成模型重構(gòu)出話音。如參數(shù),使用這些參數(shù)通過話音生成模型重構(gòu)出話音。如LPC等。等。n 混合編譯碼器(混合編譯碼器(Hybrid coder):綜合使用上述兩種技術(shù)。:綜合使用上述兩種技術(shù)。使用的激勵信號波形盡可能接近于原始話音信號的波形。使用的激勵信號波形盡可能接近于原始話音信號的波形。例如例如CELP、RPE-LIP等。等。語言編碼性能比較音音質(zhì)質(zhì)與與數(shù)數(shù)據(jù)據(jù)率率2 4 8 16 32 64 2 4 8 16 32 64 kbits/Skbits/S5

11、4321PCMPCM波形編碼波形編碼LPCLPC混合編碼混合編碼研究目標(biāo)研究目標(biāo)質(zhì)量質(zhì)量波形編碼技術(shù)脈沖編碼調(diào)制(PCM, Pulse Code Modulation)PCM的量化方式均勻量化與非均勻量化均勻量化均勻量化非均勻量化非均勻量化非均勻量化方式n 話音信號的概率密度可以近似的用拉普拉斯(高斯)函數(shù)來表示 212exeP xen 均勻量化的優(yōu)點是簡單,但其信號量化噪聲比隨信號電平減小而明顯下降。通常,希望誤差保持恒定,為了達(dá)到此目的,量化電平必須以對數(shù)形式分布,即希望量化器是對輸入信號的對數(shù)進(jìn)行量化。比如m律、 A律壓擴(kuò)。最佳量化?n目標(biāo),量化誤差最小n實現(xiàn):Lloyd算法在預(yù)先劃定量

12、化區(qū)間的情況下,每個量化值必須是相應(yīng)量化區(qū)間的質(zhì)量中心。當(dāng)量化值給定時,量化區(qū)間的端點值必須是對應(yīng)量化值中兩個鄰近點的中點值。波形編碼中的調(diào)制方法n增量調(diào)制 (M)n自適應(yīng)調(diào)制(APCM)n差分調(diào)制 (DPCM)n自適應(yīng)差分調(diào)制 (ADPCM)波形編碼中的調(diào)制方法n增量調(diào)制 (M)波形編碼中的調(diào)制方法nAPCMAPCM是一種根據(jù)輸入信號幅度大小自動改變量化階大小的一種波形編碼技術(shù)。波形編碼中的調(diào)制方法n DPCM是利用相鄰樣本之間冗余信息來進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。波形編碼中的調(diào)制方法 ADPCM綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性波形編碼特點n采樣率8KHzn量化位數(shù)8位n比

13、特率=8K*8=64Kbit/sn傳輸速率太高、所占頻帶較寬n只能傳輸高質(zhì)量語音信號西安電子科技大學(xué)計算機(jī)學(xué)院School of Computer Science and Technology, Xidian University, China線性預(yù)測編碼(LPC)LPC屬于音源(參數(shù))編碼方式,它使用過去的P個樣本值來預(yù)測現(xiàn)時刻的采樣值。LPC編碼速率很低,音質(zhì)較差?;旌暇幋an編碼信息中既包含語音特征參數(shù)信息,又包含波形編碼信息。其編碼速率達(dá)8K16Kbit/s,音質(zhì)達(dá)到商用話音標(biāo)準(zhǔn)。n寬帶編碼:提供高質(zhì)量語音,VOIP等采樣頻率16K量化位數(shù)16位壓縮后為64、56、48Kbit/sAC3

14、編碼介紹n數(shù)字話音效編碼,信噪比更高,提供32K到640K的數(shù)據(jù)傳輸率。n獨立6聲道大功率輸出(超重低音120hz),聲音定位能力更強(qiáng)。n使用自適應(yīng)變換編碼和心理聲學(xué)特性,實現(xiàn)失真度極小的大幅度壓縮。音頻編碼算法和標(biāo)準(zhǔn)一覽音頻編碼小結(jié)n編碼包含數(shù)字化的過程,還包括數(shù)據(jù)壓縮。n壓縮編碼主要利用數(shù)據(jù)之間的冗余信息和人的生理感覺特性。n注意增量調(diào)制與差分調(diào)制之間的區(qū)別n不同的應(yīng)用會采用不同的編碼方法。n編碼效率的改進(jìn)仍然是熱點(信號處理技術(shù),計算機(jī)技術(shù))人機(jī)通信人機(jī)通信:計算機(jī)接收音頻信號。獲取,語音識別與理:計算機(jī)接收音頻信號。獲取,語音識別與理解。解。機(jī)人通信機(jī)人通信:計算機(jī)輸出音頻。音頻合成;

15、聲音重構(gòu)、模:計算機(jī)輸出音頻。音頻合成;聲音重構(gòu)、模擬。產(chǎn)生真實感聲音。擬。產(chǎn)生真實感聲音。人機(jī)人通信人機(jī)人通信:人通過網(wǎng)絡(luò)進(jìn)行語音通信。需要的處理:人通過網(wǎng)絡(luò)進(jìn)行語音通信。需要的處理包括語音采集、包括語音采集、編碼解碼編碼解碼、傳輸、檢索、識別。、傳輸、檢索、識別。音頻處理技術(shù)音頻處理技術(shù)音頻處理技術(shù)音頻處理技術(shù)v 數(shù)字信號與模擬信號數(shù)字信號與模擬信號v 離散時間信號和離散幅度信號離散時間信號和離散幅度信號v 采樣和量化采樣和量化v 信號的時間域與頻率域表示信號的時間域與頻率域表示v 奈奎斯特(奈奎斯特(NyquistNyquist)理論與混迭效應(yīng)()理論與混迭效應(yīng)(AliasingAlia

16、sing)v 信號的重構(gòu)信號的重構(gòu)音頻信號處理的流程音頻信號處理的流程原始聲音信 號聲電信號轉(zhuǎn) 換低 通濾 波模擬數(shù)字轉(zhuǎn) 換數(shù)字信號處 理傳 輸存 儲聲 音合 成功 率放 大數(shù)字模擬轉(zhuǎn) 換電聲信號轉(zhuǎn)換音頻卡工作原理音頻卡工作原理WAVEWAVE音效和音效和MIDIMIDI音樂音樂n WAVE音效音效合成與合成與MIDI音樂音樂合成是聲卡最主要的功能。合成是聲卡最主要的功能。n WAVE音效合成是由聲卡的音效合成是由聲卡的ADC模數(shù)轉(zhuǎn)換器和模數(shù)轉(zhuǎn)換器和DAC數(shù)模數(shù)模轉(zhuǎn)換器來完成的。模擬音頻信號經(jīng)轉(zhuǎn)換器來完成的。模擬音頻信號經(jīng)ADC轉(zhuǎn)換后為數(shù)字音頻轉(zhuǎn)換后為數(shù)字音頻后,以文件形式存放在磁盤等介質(zhì)上,

17、就成為聲音文件。后,以文件形式存放在磁盤等介質(zhì)上,就成為聲音文件。這類文件我們稱之為這類文件我們稱之為wave form文件,通常以文件,通常以.wav為擴(kuò)展為擴(kuò)展名,因此也稱為名,因此也稱為wav文件。文件。WAVE音效可以逼真地模擬出音效可以逼真地模擬出自然界的各種聲音效果。如風(fēng)雨聲、槍炮聲、人聲等等自然界的各種聲音效果。如風(fēng)雨聲、槍炮聲、人聲等等 。WAVEWAVE音效合成音效合成n 缺點:缺點:wav文件需要占用很大的貯存空間文件需要占用很大的貯存空間 。 以以16bit、44.1Khz采樣精度錄制的采樣精度錄制的My heart will go on為例,為例,5分分10秒的長度需要

18、占用近秒的長度需要占用近55M的空間的空間 。n 為了節(jié)省存貯空間,人們使用各種算法對為了節(jié)省存貯空間,人們使用各種算法對wav文件進(jìn)行壓文件進(jìn)行壓縮。時下極為流行縮。時下極為流行MPEG Leyer-3就是一種高壓縮比低失就是一種高壓縮比低失真的壓縮算法。同樣以上述的歌曲為例,壓縮為真的壓縮算法。同樣以上述的歌曲為例,壓縮為MP3文件文件后,長度僅為后,長度僅為5M左右。左右。 MIDIMIDI MIDI(Musical instrument digital interface),即樂器數(shù)字即樂器數(shù)字化接口,是一種用于計算機(jī)與電子樂器之間進(jìn)行數(shù)據(jù)交化接口,是一種用于計算機(jī)與電子樂器之間進(jìn)行數(shù)

19、據(jù)交換的換的通信標(biāo)準(zhǔn)通信標(biāo)準(zhǔn)。MIDI文件(通常以文件(通常以.mid為文件擴(kuò)展名)為文件擴(kuò)展名)記錄了用于合成記錄了用于合成MIDI音樂的各種控制指令,包括發(fā)聲樂音樂的各種控制指令,包括發(fā)聲樂器、所用通道、音量大小等。由于器、所用通道、音量大小等。由于MIDI文件本身不包含文件本身不包含任何數(shù)字音頻信號,因而所占的貯存空間比任何數(shù)字音頻信號,因而所占的貯存空間比wav文件要文件要小得多。小得多。MIDIMIDI小結(jié)小結(jié)n 是一種在計算機(jī)和音樂合成器之間交換音樂信息的標(biāo)準(zhǔn)協(xié)是一種在計算機(jī)和音樂合成器之間交換音樂信息的標(biāo)準(zhǔn)協(xié)議。議。n MIDI不是聲音信號,在不是聲音信號,在MIDI電纜上傳遞的

20、是指令。電纜上傳遞的是指令。n MIDI音樂常用作游戲音樂或背景音樂,典型應(yīng)用就是手機(jī)音樂常用作游戲音樂或背景音樂,典型應(yīng)用就是手機(jī)音樂。音樂。問題:如何生成MIDI音樂?MIDIMIDI音樂合成方法音樂合成方法n 合成的方式有合成的方式有FM(調(diào)頻)(調(diào)頻)與與Wave Table(波表)(波表)兩種兩種 。n 早期的聲卡及目前大多數(shù)廉價的聲卡都采用的早期的聲卡及目前大多數(shù)廉價的聲卡都采用的FM合成方合成方式。式。FM合成是通過振蕩器產(chǎn)生正弦波,然后再疊加成各合成是通過振蕩器產(chǎn)生正弦波,然后再疊加成各種樂器的波形。由于振蕩器成本較高,即使是種樂器的波形。由于振蕩器成本較高,即使是OPL3這類

21、這類高檔的高檔的FM合成器也只提供了合成器也只提供了4個振蕩器,僅能產(chǎn)生個振蕩器,僅能產(chǎn)生20種復(fù)種復(fù)音。因此音。因此MIDI音樂聽起來生硬呆板,帶有明顯的人工合成音樂聽起來生硬呆板,帶有明顯的人工合成色彩,即所謂的電子聲。色彩,即所謂的電子聲。 樂音的波形用數(shù)字來表樂音的波形用數(shù)字來表示,再通過數(shù)模轉(zhuǎn)換器示,再通過數(shù)模轉(zhuǎn)換器來生成樂音。來生成樂音。由以下五部分組成: 數(shù)字載波器 調(diào)制器 聲音包絡(luò)發(fā)生器 數(shù)字運(yùn)算器 數(shù)模轉(zhuǎn)換器頻率調(diào)制(頻率調(diào)制(FMFM)合成法)合成法FM聲音合成器的工作原理圖聲音合成器的工作原理圖從理論上講,從理論上講,F(xiàn)M合成方法可以產(chǎn)生合成方法可以產(chǎn)生任何任何樂音,但是,這種樂音,但是,這種“物理課物理課式式”的合成方法合成出來的聲音不夠真實。的合成方法合成出來的聲音不夠真實。樂音樣本合成法樂音樣本合成法n 樂音樣本合成法是把真實樂器發(fā)出的聲音以數(shù)字的形樂音樣本合成法是把真實樂器發(fā)出的聲音以數(shù)字的形式記錄下來,播放時再加以調(diào)整、修飾和放大,生成式記錄下來,播放時再加以調(diào)整、修飾和放大,生成各種音階的音符。各種音階的音符。n 樂音樣本通常放在樂音樣本通常放在ROM芯片芯片上,播放時以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論