多媒體技術(shù)2音頻處理技術(shù)_第1頁
多媒體技術(shù)2音頻處理技術(shù)_第2頁
多媒體技術(shù)2音頻處理技術(shù)_第3頁
多媒體技術(shù)2音頻處理技術(shù)_第4頁
多媒體技術(shù)2音頻處理技術(shù)_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二章音頻信息處理

第2章音頻信息處理

學(xué)習(xí)目標(biāo):了解聲音信號的特點(diǎn)、存儲格式及質(zhì)量的度量方法理解音頻信號壓縮方法及音頻編碼標(biāo)準(zhǔn)掌握常用的音頻處理軟件對聲音信號進(jìn)行處理了解語音識別技術(shù)及其應(yīng)用2.1數(shù)字音頻的基本概念2.1.1聲音與音頻的概念1、聲音的定義:震動物體產(chǎn)生的聲波,傳入耳朵形成聲音。2、聲音的分類按頻率分亞音頻:0~20Hz音頻(Audio):20Hz~20KHz超音頻:20KHz~1GHz過音頻:1GHz~1THz按原始聲源劃分語音:人類為表達(dá)思想和感情發(fā)出的聲音樂音:演奏樂器時(shí)樂器發(fā)出的聲音聲響:除語音和樂音以外的所有聲音。如自然界的聲音按存儲形式劃分模擬聲音:模擬方式存儲,如磁帶數(shù)字聲音:用0、1表示的聲音數(shù)據(jù)3、音頻

20HZ~20KHz范圍內(nèi)的聲波,也是人的耳朵可以聽到的聲音。4、聲音質(zhì)量的評價(jià)標(biāo)準(zhǔn)(信噪比、頻帶寬度)按照聲音頻率的變化幅度可以分為:電話話音質(zhì)量:200~3400Hz調(diào)幅廣播音質(zhì):50~7000Hz,簡稱AM音質(zhì)調(diào)頻廣播音質(zhì):20~15000HZ,簡稱FM音質(zhì)激光唱盤音質(zhì):10~20000HZ,簡稱CD音質(zhì)2.1.2模擬音頻的數(shù)字化過程

對模擬音頻數(shù)字化過程涉及到音頻的采樣、量化和編碼。

采樣和量化的過程可由A/D轉(zhuǎn)換器實(shí)現(xiàn)。A/D轉(zhuǎn)換器以固定的頻率去采樣,即每個(gè)周期測量和量化信號一次。經(jīng)采樣和量化后聲音信號經(jīng)編碼后就成為數(shù)字音頻信號,可以將其以文件形式保存在計(jì)算機(jī)的存儲介質(zhì)中。

信息論的奠基者香農(nóng)(Shannon)指出:在一定條件下,用離散的序列可以完全代表一個(gè)連續(xù)函數(shù),這是采樣定理的基本內(nèi)容。

為實(shí)現(xiàn)A/D轉(zhuǎn)換,需要把模擬音頻信號波形進(jìn)行分割,這種方法稱為采樣(Sampling)。采樣的過程是每隔一個(gè)時(shí)間間隔在模擬聲音的波形上取一個(gè)幅度值,把時(shí)間上的連續(xù)信號變成時(shí)間上的離散信號。該時(shí)間間隔稱為采樣周期,其倒數(shù)為采樣頻率。采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)聲音樣本。

1.采樣對聲波波形幅度的數(shù)字化表示稱之為“量化”。量化的過程是先將采樣后的信號按整個(gè)聲波的幅度劃分成有限個(gè)區(qū)段的集合,把落入某個(gè)區(qū)段內(nèi)的樣值歸為一類,并賦于相同的量化值。以8位(bit)或16位(bit)的方式來劃分縱軸。也就是說在一個(gè)以8位為記錄模式的音效中,其縱軸將會被劃分為?個(gè)量化等級,用以記錄其幅度大小。2.量化采樣和量化

D/A轉(zhuǎn)換器從上圖得到的數(shù)值中重構(gòu)原來信號時(shí),得到下圖藍(lán)色線段所示的波形??梢钥闯?,藍(lán)色線與原波形(紅色線)相比,其波形的細(xì)節(jié)部分丟失了很多。這意味著重構(gòu)后的信號波形有較大的失真。

失真是不可避免的,如何減少失真呢?在下圖中,采樣率和量化等級再提高了一倍。從圖中可以看出,當(dāng)用D/A轉(zhuǎn)換器重構(gòu)原來信號時(shí)(圖中的輪廓線),信號的失真明顯減少,信號質(zhì)量得到了提高。3.編碼

模擬信號量經(jīng)過采樣和量化以后,形成一系列的離散信號——脈沖數(shù)字信號。這種脈沖數(shù)字信號可以一定的方式進(jìn)行編碼,形成計(jì)算機(jī)內(nèi)部運(yùn)行的數(shù)據(jù)。所謂編碼,就是按照一定的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)記錄下來,并在有用的數(shù)據(jù)中加入一些用于糾錯(cuò)、同步和控制的數(shù)據(jù)。2.1.3數(shù)字音頻的文件格式

在多媒體技術(shù)中,存儲音頻信息的文件格式主要有:WAV文件、VOC文件和MP3文件等。1.

WAV文件

WAV文件又稱波形文件,來源于對聲音模擬波形的采樣,并以不同的量化位數(shù)把這些采樣點(diǎn)的值輪換成二進(jìn)制數(shù),然后存入磁盤,這就產(chǎn)生了波形文件。WAV文件用于保存Windows平臺的音頻信息資源,被Windows平臺及其應(yīng)用程序所廣泛支持。請計(jì)算對于5分鐘雙聲道、16位采樣位數(shù)、44.1kHz采樣頻率聲音的不壓縮數(shù)據(jù)量是多少?思考題解:根據(jù)公式:數(shù)據(jù)量=(采樣頻率×采樣位數(shù)×聲道數(shù)×?xí)r間)/8得,數(shù)據(jù)量=[44.1×1000×16×2×(5×60)]/(8×1024×1024)=50.47MB因此,聲音的不壓縮數(shù)據(jù)量約為50.47MB。計(jì)算時(shí)要注意幾個(gè)單位的換算細(xì)節(jié):時(shí)間單位換算:1分=60秒采樣頻率單位換算:1kHz=1000Hz數(shù)據(jù)量單位換算:1MB=1024×1024=1048576B未壓縮的聲音文件的存儲量可用下式計(jì)算:存儲量(KB)=(采樣頻率KHZ×采樣位數(shù)bit×聲道數(shù)×?xí)r間秒)/8

2.VOC文件

VOC文件是Creative公司所使用的標(biāo)準(zhǔn)音頻文件格式,多用于保存CreativeSoundBlaster(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù),被Windows平臺和DOS平臺所支持。

3.MPEG音頻文件——.MP1/.MP2/.MP3

MPEG音頻文件的壓縮是一種有損壓縮,根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層(MPEGAudioLayer1/2/3),分別對應(yīng)MP1、MP2和MP3這三種聲音文件;

MPEG音頻編碼具有很高的壓縮率,MP1和MP2的壓縮率分別為4∶1和6∶1~8∶1,而MP3的壓縮率則高達(dá)10∶1~12∶1,也就是說一分鐘CD音質(zhì)的音樂,未經(jīng)壓縮需要10MB存儲空間,而經(jīng)過MP3壓縮編碼后只有1MB左右,同時(shí)其音質(zhì)基本保持不失真。

4.RealAudio文件——.RA/.RM/.RAM

RealAudio文件是RealNetworks公司開發(fā)的一種新型流式音頻(StreamingAudio)文件格式;它包含在RealNetworks所制定的音頻、視頻壓縮規(guī)范RealMedia中,主要用于在低速率的廣域網(wǎng)上實(shí)時(shí)傳輸音頻信息;網(wǎng)絡(luò)連接速率不同,客戶端所獲得的聲音質(zhì)量也不盡相同:對于28.8kb/s的連接,可以達(dá)到廣播級的聲音質(zhì)量;如果擁有ISDN或更快的線路連接,則可獲得CD音質(zhì)的聲音。

5.AIFF文件——.AIF/.AIFF

AIFF是音頻交換文件格式(AudioInterchangeFileFormat)的英文縮寫,是蘋果計(jì)算機(jī)公司開發(fā)的一種聲音文件格式;被Macintosh平臺及其應(yīng)用程序所支持,其他專業(yè)音頻軟件包也同樣支持這種格式。

MP3的全名是MPEGAudioLayer-3,簡單地說就是一種聲音文件的壓縮格式。

ISO/MPEG音頻壓縮標(biāo)準(zhǔn)里包括了三個(gè)編碼方案,按照壓縮質(zhì)量(每Bit的聲音效果)和編碼方案的復(fù)雜程度分別是Layer1、Layer2、Layer3。所有這三層的編碼采用的基本結(jié)構(gòu)是相同的。通過研究人耳和大腦聽覺神經(jīng)對音頻失真的敏感度,在編碼時(shí)先分析聲音文件的波形,然后濾去人耳不敏感的信號,最后編碼形成MPEG的文件。而音質(zhì)聽起來與CD相差不大。MP3壓縮技術(shù)MPEG的層次與壓縮比率

Layer1(相當(dāng)于384kbps立體聲信號)4:1Layer2(相當(dāng)于192~256kbps立體聲信號)6:1~8:1Layer3(相當(dāng)于112~154kbps立體聲信號)10:1~12:1

MP4并不是MPEG-4或者M(jìn)PEG-1Layer4,它的出現(xiàn)是針對MP3的大眾化、無版權(quán)的一種保護(hù)格式,由美國網(wǎng)絡(luò)技術(shù)公司開發(fā),美國唱片行業(yè)聯(lián)合會倡導(dǎo)公布的一種新的網(wǎng)絡(luò)下載和音樂播放格式。MP4壓縮技術(shù)2.2波形音頻文件的采集與制作

Windows錄音機(jī)的主要功能是錄音和放音,使用“錄音機(jī)”可以錄制、混合、播放和編輯聲音。其主要功能操作如下所述:(1)波形文件的錄制:錄音機(jī)常用的輸入設(shè)備是麥克風(fēng)和CD-ROM播放機(jī)。(2)波形文件的存儲:存儲的文件格式為波形(.wav)文件。(3)聲音的編輯:復(fù)制、粘貼、插入、刪除等操作。(4)音頻變換與特殊效果:更改聲音的大小、速度、回音等。

錄制一段音頻2.3常用音頻處理軟件簡介GoldWave:左聲道右聲道

GoldWave是一款相當(dāng)不錯(cuò)的數(shù)碼錄音及編輯軟件,除了附有許多的效果處理功能外,它還能將編輯好的文件存為WAV、AU、SND、RAW和AFC等格式。作為Wave文件編輯處理工具,支持從MP3、MPG、AVI、ASF、MOV等文件中提取音頻進(jìn)行編輯,所以除了它強(qiáng)大的編輯功能外,用作把以上格式的音頻轉(zhuǎn)換成WAV文件也是很方便的。1、聲音類型轉(zhuǎn)換2、聲音合并3、回聲效果4、多普勒效果5、制作鈴聲1、打開原音樂文件2、試聽找到音樂高潮部分3、將選中的音樂部分剪裁下來4、選中開始的幾秒鐘,加淡入效果5、選中結(jié)束的幾秒鐘,加淡出效果制作好的鈴聲圖第2章討論題1.聲音按其特性分為哪幾類?舉例說明。分為規(guī)則和不規(guī)則兩類。不規(guī)則指不含任何信息的噪音;規(guī)則聲音分為語音、音樂和音效。語音是指具有語言內(nèi)涵和人類約定俗成的特殊媒體,音樂是規(guī)范的、符號化的聲音,音效是指人類熟悉的其他聲音,如雨聲、雷聲、機(jī)器轟鳴聲。2.聲音具有哪3個(gè)要素?音強(qiáng)、音調(diào)、音色。3.聲音數(shù)字化分為哪兩個(gè)步

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論