




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第四章數(shù)字音頻處理技術(shù)第一頁,共四十七頁,2022年,8月28日本章重點(diǎn):聲音概述音樂合成與MIDI數(shù)字音頻壓縮標(biāo)準(zhǔn)數(shù)字音頻處理實(shí)例第二頁,共四十七頁,2022年,8月28日
聲音在本質(zhì)上是一種機(jī)械振動,它通過空氣傳播到人耳,刺激神經(jīng)后使大腦產(chǎn)生一種感覺。在一些專業(yè)場合,聲音通常被稱為聲波或音頻。第三頁,共四十七頁,2022年,8月28日4.1聲音概述
聲音在物理學(xué)上稱之為聲波,是通過一定介質(zhì)(如空氣、水等)傳播的一種連續(xù)振動的波,也稱為聲波。通常把頻率范圍為20Hz~20kHz的信號稱為音頻信號。低于20Hz的信號為亞音信號或者稱為次音信號;高于20kHz的信號稱為超音頻信號,或稱為超聲波信號。第四頁,共四十七頁,2022年,8月28日第五頁,共四十七頁,2022年,8月28日第六頁,共四十七頁,2022年,8月28日常見聲源及其頻率范圍:
第七頁,共四十七頁,2022年,8月28日聲音的特征:
聲音有3個重要指標(biāo)即振幅、周期和頻率。振幅是波的高低幅度,表示聲音的強(qiáng)弱;周期指兩個相鄰波之間的時間長度;頻率指每秒振動的次數(shù),以Hz為單位。聲音的3要素是音調(diào)、音色、強(qiáng)度,它們分別與聲波的頻率、波形、振幅等相關(guān)第八頁,共四十七頁,2022年,8月28日4.2
數(shù)字化音頻
聲音信號是時間和幅度上都連續(xù)的模擬信號。而計(jì)算機(jī)只認(rèn)識“0”和“1”,或者說計(jì)算機(jī)只能處理一個個數(shù)據(jù),盡管數(shù)據(jù)量可能是巨大的。所以,計(jì)算機(jī)處理聲音的第一步是將聲音數(shù)字化,將模擬信號變?yōu)閿?shù)字信號。第九頁,共四十七頁,2022年,8月28日音頻的數(shù)字化
把模擬聲音(音頻)信號轉(zhuǎn)換位數(shù)字化聲音(音頻)的過程稱為聲音(音頻)的數(shù)字化,或稱為模/數(shù)(A/D)變換。第十頁,共四十七頁,2022年,8月28日1.
采樣
在音頻數(shù)字化過程中,采樣指的是以固定的時間間隔T對模擬信號(音頻信號)進(jìn)行取值。固定的時間間隔T稱為采樣周期,1/T稱為采樣頻率(fs)。采樣后得到的是一個離散時間信號。采樣時間間隔T越短,也就是采樣頻率越高,聲音數(shù)據(jù)在后期播放時保真度越好。第十一頁,共四十七頁,2022年,8月28日2.
量化采樣后的音頻信號需要經(jīng)過量化,使信號幅度轉(zhuǎn)變?yōu)橛邢薜碾x散數(shù)值。這種由有限個數(shù)值組成的信號就稱為離散幅度信號。例如,假設(shè)輸入電壓的范圍是0V~7V,并假設(shè)它的取值只限定在0,1,2,…,7共8個值。如果采樣得到的幅度值是1.2V,則它的取值就應(yīng)是1V,如果采樣得到的幅度值是2.6V,則它的取值就應(yīng)是3V等。這種數(shù)值就稱為離散數(shù)值,即量化值。量化之后得到的是時間離散、幅度離散的數(shù)字信號。第十二頁,共四十七頁,2022年,8月28日3.
編碼
編碼,即是將量化值表示成為二進(jìn)制數(shù)的形式,以便于計(jì)算機(jī)存儲和處理。例如,上面量化規(guī)定的8個取值,就可以用3位二進(jìn)制數(shù)表示,從000~111,2V可以表示為001,3V可以表示位011,6V可以表示位101。計(jì)算機(jī)可以對數(shù)字化之后的音頻信號進(jìn)行存儲、編輯和處理,并可以還原成原始的波形進(jìn)行播放,這個還原的過程稱為解碼,它是模/數(shù)(A/D)變換的逆過程,及數(shù)/模(D/A)變換。第十三頁,共四十七頁,2022年,8月28日4.2.2數(shù)字音頻音質(zhì)與數(shù)據(jù)量
采樣頻率和采樣量化級數(shù)是數(shù)字化聲音的兩個最基本要求,直接影響數(shù)字化音頻的質(zhì)量和數(shù)據(jù)量。一般而言,采樣頻率越高聲音失真越小,但用于存儲音頻的數(shù)據(jù)量也越大。量化位數(shù)越高音質(zhì)越好,數(shù)據(jù)量越大。通常有3中采樣頻率:44.1kHz(取樣44100次每秒,用于CD品質(zhì)的音樂)、22.05kHz(適用于語音和中等品質(zhì)的音樂)、11.025kHz(低品質(zhì)),量化精度分別為8位字長(256階)量化(低品質(zhì))和16位字長(65535階)量化(高品質(zhì))。第十四頁,共四十七頁,2022年,8月28日
數(shù)字音頻音質(zhì)與數(shù)據(jù)量
反映音頻數(shù)字化質(zhì)量的另一個因素是通道(或聲道)個數(shù)。一次采樣一個聲音波形,稱為“單聲道”;一次采樣兩個聲音波形,稱為“雙聲道”(即人們常說的立體聲)。立體聲更能反映人的聽覺感受。但數(shù)據(jù)量比單聲道多一倍,這樣需要的存儲空間是單聲道的兩倍。對聲音的采樣可以使用不同的采樣頻率、采樣量化級數(shù)和聲道,但實(shí)際上為了節(jié)省存儲空間,經(jīng)常要在數(shù)字化音頻數(shù)據(jù)量的的大小與聲音回放質(zhì)量之間進(jìn)行權(quán)衡。第十五頁,共四十七頁,2022年,8月28日聲音信息數(shù)字化后的數(shù)據(jù)量計(jì)算公式為:數(shù)據(jù)量=采樣頻率*量化位數(shù)*聲道數(shù)/8數(shù)據(jù)量的單位:B/s(字節(jié)/秒)第十六頁,共四十七頁,2022年,8月28日音質(zhì)與數(shù)字音頻參數(shù)的關(guān)系
第十七頁,共四十七頁,2022年,8月28日
數(shù)字音頻文件格式
數(shù)字音頻數(shù)據(jù)是以文件的形式保存在計(jì)算機(jī)中的。數(shù)字音頻的文件格式主要又CD、WAVE、MP3、WMA、MIDI等。CD文件:*.cda格式,采用44.1kHz的采樣頻率,速率為88kbps。具有16位量化位數(shù),CD音軌近似無損,聲音基本上終于忠于原聲。WAV文件:微軟公司開發(fā)的一種聲音文件格式,也稱波形聲音文件,是最早的數(shù)字音頻格式,被Windows平臺及其應(yīng)用程序廣泛支持。第十八頁,共四十七頁,2022年,8月28日
數(shù)字音頻文件格式MP3音頻文件:全稱為MPEG-1audiolayer3,其壓縮率為12:1。優(yōu)勢是在高壓縮比的情況下,還能擁有優(yōu)美的音質(zhì)。它利用知覺音頻編碼技術(shù),即利用了人耳的特性,消減音樂中人耳的特性,消減音樂中人耳聽不到的成分,同時盡可能地維持原來的聲音質(zhì)量。WMA文件:WindowsMediaAudio,通過減少數(shù)據(jù)流量但保持音質(zhì)的方法來達(dá)到比MP3壓縮率更高的目的。WMA的一個優(yōu)點(diǎn)是壓縮率高,,一般都在18:1.其次,WMA的內(nèi)容提供商可以加入防復(fù)制保護(hù)。第十九頁,共四十七頁,2022年,8月28日
數(shù)字音頻文件格式MID:MusicalInstrumentDigitalInterface,允許數(shù)字合成器和其他設(shè)備交換數(shù)據(jù)。MIDI文件格式由MIDI繼承而來。MIDI文件并不是一段錄制好的聲音,而是記錄聲音的信息,每個音符記錄為一個數(shù)字,然后是告訴聲卡如何再現(xiàn)音樂的一組指令。1分鐘MIDI音樂文件的大小只有5~10KB。RealAudio:Realnetwork推出的一種音樂壓縮格式;它的壓縮比可達(dá)到96:1,因此在網(wǎng)上比較流行。經(jīng)過壓縮的音樂文件可以通過速率為14.4kb/s的MODEM上網(wǎng)的計(jì)算機(jī)中流暢回放。第二十頁,共四十七頁,2022年,8月28日
數(shù)字音頻獲取
聲音文件的獲取是為音頻的編輯進(jìn)行素材積累階段。聲音的獲取途徑很多,可以采用以下方式進(jìn)行獲取。自己親自錄制從CD唱盤獲得從網(wǎng)上和素材庫獲取第二十一頁,共四十七頁,2022年,8月28日
數(shù)字音頻的處理
專業(yè)的音頻編輯軟件GoldWave功能強(qiáng)大,可以對音樂進(jìn)行播放、錄制、編輯、轉(zhuǎn)換格式、特技處理等。GoldWave支持多種聲音格式,如WAV、MP3、AU、AVI、MPEG、MOV、RAW、SDS等。其主要功能有:音頻文件的格式轉(zhuǎn)換:,它還支持MAC計(jì)算機(jī)所使用的聲音文件。因此,通過GoldWave可以實(shí)現(xiàn)這種格式的轉(zhuǎn)換。音頻數(shù)據(jù)的簡單編輯聲音效果的處理音頻的修復(fù)CD音樂提取聲音文件的生成聲音文件的錄制第二十二頁,共四十七頁,2022年,8月28日GoldWaved的界面與窗口
GoldWaved的界面第二十三頁,共四十七頁,2022年,8月28日4.3
音樂合成與MIDI
音樂合成的方式根據(jù)一定的協(xié)議標(biāo)準(zhǔn),使用音樂符號來記錄和解釋樂譜,并組合成相應(yīng)的音樂信號,這就是MIDI(musicalinstrumentdigitalinterface,樂器數(shù)字接口)。MIDI不是把音樂的波形進(jìn)行數(shù)字化采樣和編碼,而是將數(shù)字式電子樂器的彈奏過程以命令符號的形式記錄下來,如按了哪個鍵、力度多大、時間多長等。當(dāng)需要播放出這首樂曲時,根據(jù)記錄的樂譜指令,通過音樂合成器生成音樂聲波,經(jīng)放大后由揚(yáng)聲器播出。第二十四頁,共四十七頁,2022年,8月28日1.電子音樂中常用的術(shù)語
(1)音樂合成器(musicalsynthesizer)
音樂合成器是由數(shù)字信號處理器(DSP)和其他集成電路芯片構(gòu)成的電子設(shè)備,用來產(chǎn)生并修改正弦波形,然后通過聲音產(chǎn)生器和揚(yáng)聲器發(fā)出特定的聲音。不同的合成器根據(jù)MIDI樂譜指令產(chǎn)生的音色和音質(zhì)都可不同,其發(fā)聲的質(zhì)量和聲部取決于合成器能夠同時播放的獨(dú)立波形的個數(shù)、控制軟件的能力,以及合成器電路中的存儲空間大小。第二十五頁,共四十七頁,2022年,8月28日
(2)復(fù)調(diào)(polyphony)
復(fù)調(diào)也稱復(fù)音,指合成樂器同時演奏若干音符時發(fā)出的聲音。如鋼琴、吉他等樂器可以同時演奏幾種音符,而雙簧管就不能。復(fù)調(diào)著重于同時演奏的音符數(shù),如鋼琴的合弦音符。第二十六頁,共四十七頁,2022年,8月28日(3)多音色(timbre)
多音色指同時演奏幾種不同樂器時發(fā)出的聲音。它著重于同時演奏的樂器數(shù)。例如,具有6音符復(fù)音的4種樂器合成器,可以同時演奏4種不同聲音的6個音符,如3個鋼琴的合弦音符、一個長笛、一個小提琴和一個薩克斯管的音符。要改善合成音樂的真實(shí)感,必須把許多合成器連接起來,以產(chǎn)生復(fù)調(diào)聲音和多音色聲音。第二十七頁,共四十七頁,2022年,8月28日2.MIDI標(biāo)準(zhǔn)相關(guān)的術(shù)語
MIDI電子樂器:它是能產(chǎn)生特定聲音的合成器,如電子鍵盤、吉他、薩克斯管等;它們相互間的數(shù)據(jù)傳送符合MIDI的通信約定。MIDI消息(message)或指令:MIDI軟件通信協(xié)議,實(shí)際上是用數(shù)字指令描述的音樂樂譜,其中包括音符、強(qiáng)度、定時及樂器的指派等。MIDI接口(interface):MIDI硬件通信協(xié)議,可使電子樂器互聯(lián)或與計(jì)算機(jī)硬件端口相連,可發(fā)送和接收MIDI消息。MIDI通道(channel):MIDI標(biāo)準(zhǔn)提供了16個通道,每種通道對應(yīng)一種邏輯的合成器,即對應(yīng)一種樂器的合成。音序器:它指可用來記錄、編輯和播放MIDI文件的計(jì)算機(jī)程序。第二十八頁,共四十七頁,2022年,8月28日4.3.2MIDI音樂的制作原理1.MIDI音樂的產(chǎn)生過程第二十九頁,共四十七頁,2022年,8月28日2.MIDI通道當(dāng)MIDI設(shè)備交流信息時,需要遵循一定的事件序列。例如,兩個MIDI設(shè)備在建立連接之后首先要做的事情就是在使用相同的MIDI通道方面達(dá)成一致。MIDI可以在16個這樣的通道上進(jìn)行操作,這些通道用數(shù)字分別標(biāo)記為0~15。只要兩個MIDI設(shè)備進(jìn)行交流,就必須使用相同的通道。對電腦合成音樂,每個邏輯通道可指定一種樂器,音樂鍵盤可設(shè)置在這16個通道之中的任何一個,而MIDI聲源或者聲音模塊可被設(shè)置在指定的MIDI通道上接收。第三十頁,共四十七頁,2022年,8月28日3.MIDI接口和計(jì)算機(jī)的連接MIDI接口由3個端口組成:輸入端口(In)、輸出端口(Out)和直達(dá)端口(Thru)。其中,輸入端口處理接收的字節(jié),即那些發(fā)自其他MIDI設(shè)備。為了將兩個MIDI設(shè)備連在一起,可以將其中一個的輸出端口和另一個的輸入端口相連,這樣第一個設(shè)備就可以控制第二個設(shè)備同時發(fā)生。MIDI設(shè)備可以級聯(lián),即第一個設(shè)備的輸出連接第二個設(shè)備的輸入,第二個的輸出再連接第三個的輸入等。第三十一頁,共四十七頁,2022年,8月28日4.MIDI音樂合成器
MIDI制造商協(xié)會制定了通用MIDI規(guī)格,簡稱GM規(guī)格。通用MIDI規(guī)格同時定義了GM音色庫(一個音色庫,也被稱為音色映射,支持128種樂器聲音)和GM打擊音色庫(只包含打擊樂器發(fā)出的聲音),另外還定義了其他一些與音樂相關(guān)的性能,如每個GM設(shè)備應(yīng)支持的聲音數(shù)量和MIDI消息種類。MIDI合成的產(chǎn)生方式有兩種:FM合成和波表合成。第三十二頁,共四十七頁,2022年,8月28日4.3.3MIDI文件的特點(diǎn)用樂譜指令代替聲音數(shù)據(jù)有效記錄和重現(xiàn)各種樂器聲音占用存儲空間極小適合樂曲創(chuàng)作和遠(yuǎn)距離傳輸?shù)谌?,共四十七頁?022年,8月28日4.4數(shù)字音頻壓縮標(biāo)準(zhǔn)音頻壓縮方法是指對原始數(shù)字音頻信號流(PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號處理技術(shù),在不損失有用信息量,或者所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼。逆變換的過程,稱為解壓縮或解碼。
第三十四頁,共四十七頁,2022年,8月28日4.4.2數(shù)字音頻壓縮標(biāo)準(zhǔn)
音頻信號是多媒體信息的重要組成部分。音頻信號分為電話質(zhì)量的語言、調(diào)幅廣播質(zhì)量的音頻信號和高保真立體聲信號。針對不同的質(zhì)量標(biāo)準(zhǔn),制定了相應(yīng)的壓縮標(biāo)準(zhǔn)。第三十五頁,共四十七頁,2022年,8月28日1.電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)由于數(shù)字音頻壓縮技術(shù)具有廣闊的應(yīng)用范圍和良好的市場前景,因而音頻壓縮技術(shù)的標(biāo)準(zhǔn)化工作顯得十分重要。CCITT(現(xiàn)ITU-T)在語音信號壓縮的標(biāo)準(zhǔn)化方面做了大量的工作,制定了G.771、G.721、G.728等標(biāo)準(zhǔn),并逐漸受到業(yè)界的認(rèn)同,其他語音相關(guān)標(biāo)準(zhǔn)有:H.221、H.222、H.223、H.233、H.231、H.242、H.245、H.261、H.263等。第三十六頁,共四十七頁,2022年,8月28日2.調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)
標(biāo)準(zhǔn)
調(diào)幅廣播質(zhì)量音頻信號的頻率范圍為50Hz~7kHz。CCITT在1988年制定了、G.722標(biāo)準(zhǔn)。此標(biāo)準(zhǔn)采用16kHz采樣頻率,14bit量化,信號數(shù)據(jù)傳輸速率為224kbps,并采用子帶編碼方法,將輸入音頻信號經(jīng)濾波器分成高子帶和低子帶兩個部分,分別進(jìn)行ADPCM編碼,再混合形成輸出碼。第三十七頁,共四十七頁,2022年,8月28日3.高保真度立體聲音頻壓縮編碼技術(shù)
標(biāo)準(zhǔn)高保真立體聲音頻信號頻率范圍為50Hz~20kHz,采用44.1kHz采樣頻率,16bit量化,進(jìn)行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)傳輸速率每聲道達(dá)705kbps。一般語音信號的動態(tài)范圍和頻響比較小,采用8kHz采樣頻率,每樣值用8bit表示,現(xiàn)在的語音壓縮技術(shù)可把碼率從原來的64kbps壓縮到4kbps左右。但多媒體通信中的聲音要比語音復(fù)雜的多,它的動態(tài)范圍可達(dá)100db,頻響范圍可達(dá)20Hz~20kHz。因此,聲音數(shù)字化后的信息量非常達(dá)。為了更有效地利用寶貴的信道資源,必須對聲音進(jìn)行數(shù)字壓縮編碼。第三十八頁,共四十七頁,2022年,8月28日目前世界上第一個高保真立體聲音頻壓縮標(biāo)準(zhǔn)為MPEG音頻壓縮算法。雖然MPEG音頻標(biāo)準(zhǔn)是MPEG標(biāo)準(zhǔn)的一部分,但它也完全可以獨(dú)立使用。表4-2中列出了ISO和ITU先后建議的用于電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)。第三十九頁,共四十七頁,2022年,8月28日第四十頁,共四十七頁,2022年,8月28日4.4.3音頻壓縮工具
由于存在不同格式的音頻文件,在不同場合對于音頻素材的格式要求也不盡相同,因此需要有專門的工具對它們進(jìn)行格式轉(zhuǎn)換,從而滿足不同場合對音頻文件的需要。AVIMPEGWMVRMtoMP3Converter是一個好用的音頻轉(zhuǎn)換工具,可以將通用的視頻和音頻文件轉(zhuǎn)換成MP3、WAV、WMA和OGG格式,支持AVI、MPEG、RM/RMVB、WMV/ASF、MOV的視頻和音頻格式。對于想從視頻文件中抓取音頻和想把RM格式轉(zhuǎn)換成MP3/WAV格式的用戶來說非常有用。第四十一頁,共四十七頁,2022年,8月28日音頻壓縮工具界面
第四十二頁,共四十七頁,2022年,8月28日4.5數(shù)字音頻處理實(shí)例
利用GoldWave軟件錄制一首自己演唱的歌曲,采樣頻率設(shè)為44.1kHz,生成.wav文件;并為生成的音樂文件添加混響效果,對聲音進(jìn)行簡單的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題2.10 函數(shù)的綜合應(yīng)用(解析版)-2024年高考數(shù)學(xué)一輪復(fù)習(xí)精講精練寶典(新高考專用)
- 車間地基施工方案
- 景觀塔施工方案
- 互聯(lián)網(wǎng)電商知識培訓(xùn)課件
- 印刷制作設(shè)計(jì)合同范例
- 吉首售房合同范例
- 2025年英語 英語五官標(biāo)準(zhǔn)課件
- 壓手續(xù)不押車合同范例
- 腦疝的護(hù)理診斷及護(hù)理問題
- 豐富多樣的幼兒園節(jié)日慶典計(jì)劃
- 數(shù)控車床常用數(shù)控刀具課件
- 【正版授權(quán)】 ISO 17694:2016 EN Footwear - Test methods for uppers and lining - Flex resistance
- DL-T5002-2021地區(qū)電網(wǎng)調(diào)度自動化設(shè)計(jì)規(guī)程
- 2024年個人信用報(bào)告(個人簡版)樣本(帶水印-可編輯)
- 天然裝飾石材
- 經(jīng)典導(dǎo)讀與欣賞-知到答案、智慧樹答案
- DB32T3610.3-2019道路運(yùn)輸車輛主動安全智能防控系統(tǒng)技術(shù)規(guī)范第3部分:通訊協(xié)議
- 信息資源建設(shè)-習(xí)題集(含答案)
- 2024年湖南鐵道職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案解析
- 2024年合肥職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫及答案解析
- 2024年西安醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)技能測試題庫及答案解析
評論
0/150
提交評論