多媒體音頻處理技術(shù)_第1頁(yè)
多媒體音頻處理技術(shù)_第2頁(yè)
多媒體音頻處理技術(shù)_第3頁(yè)
多媒體音頻處理技術(shù)_第4頁(yè)
多媒體音頻處理技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Chap2 多媒體音頻處理技術(shù) 聲音信息的處理 聲音的處理:聲音的處理: 壓縮和編碼壓縮和編碼 聲音的表示聲音的表示 與存儲(chǔ)與存儲(chǔ) 聲音的采集:聲音的采集: 波形聲音數(shù)字化波形聲音數(shù)字化 電子樂(lè)器(電子樂(lè)器(MIDI) 話音(語(yǔ)音識(shí)別)話音(語(yǔ)音識(shí)別) Chap2 多媒體音頻處理技術(shù) 本章內(nèi)容: 2.1 聲音信號(hào)概述 2.2 聲音信號(hào)數(shù)字化 2.3 聲音文件的存儲(chǔ)格式 2.4 聲音處理軟件 2.5 聲音質(zhì)量的度量 2.6 MIDI系統(tǒng) 2.7 語(yǔ)音處理技術(shù) 2.1 聲音信號(hào)概述聲音信號(hào)概述 什么是聲音? 聲音是通過(guò)空氣傳播的一種連續(xù)的波。 聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研 究中的

2、一個(gè)重要內(nèi)容。 單一頻率的聲波可用一條正弦波表示,如下圖所 示。 振幅 周期 基線 振幅 表示聲音信號(hào)的強(qiáng)弱程度。 頻率 指聲音信號(hào)每秒鐘變化的次數(shù),用Hz表示。 亞音信號(hào)(次聲帶):小于20Hz 音頻信號(hào): 2020K Hz 超聲波信號(hào)(超聲帶) :大于20K Hz 頻率反映出聲音的音調(diào),聲音細(xì)尖表示頻率高, 聲音粗低表示頻率低。 想想按住單放機(jī)的快鍵,會(huì)有什么聲音? 聲音的聽(tīng)覺(jué)特性聲音的聽(tīng)覺(jué)特性 聲音的三要素。 音調(diào) 表示聲音的高低,取決于聲音的頻率。 音色 即特色的聲音,指聲音的感覺(jué)特性。 聲音分純音和復(fù)音,復(fù)音包括基音和泛音。 音色由基音與泛音的比例、泛音的分布、泛音隨時(shí) 間的衰減變化

3、決定。 音強(qiáng) 聲音的強(qiáng)度,取決于聲音的振幅。即“音量”。 樂(lè)音樂(lè)音 以小提琴為例,當(dāng)A弦振動(dòng)時(shí), 基音基音:整根弦的振動(dòng)產(chǎn)生了最主要的頻率; 泛音泛音:弦長(zhǎng)的二分之一、三分之一、四分之一等 處的 振動(dòng)則產(chǎn)生了一些次要的頻率。 樂(lè)音:樂(lè)音:如果一個(gè)物體振動(dòng)所發(fā)出的泛音為基音的整數(shù)倍, 這個(gè)音就會(huì)具有清晰可辨的音調(diào),我們稱(chēng)之為樂(lè)音; 噪音:噪音:如果泛音是基音的非整數(shù)倍,這個(gè)音就不具備清 晰可辨的音調(diào),我們稱(chēng)之為噪音。 2.2 聲音信號(hào)數(shù)字化 聲音信號(hào)數(shù)字化的過(guò)程 模擬 信號(hào) 數(shù)字 信號(hào) 采樣量化編碼 采樣:在某些特定時(shí)刻對(duì)模擬信號(hào)進(jìn)行測(cè)量,即使音頻信 號(hào)在時(shí)間軸上離散化。 量化:對(duì)采樣后的離散音

4、頻信號(hào)幅值樣本進(jìn)行離散化處理, 即將每一個(gè)樣本歸入預(yù)先編排的量化級(jí)上。 編碼:對(duì)量化級(jí)以二進(jìn)制數(shù)碼按一定數(shù)據(jù)格式表示的過(guò)程。 聲音的采樣和量化聲音的采樣和量化 0101 0100 0011 0010 0001 0000 1001 1010 1011 1100 1101 影響數(shù)字音頻質(zhì)量的技術(shù)參數(shù)影響數(shù)字音頻質(zhì)量的技術(shù)參數(shù) 對(duì)模擬音頻信號(hào)進(jìn)行采樣量化編碼后,得到數(shù)字音頻。數(shù) 字音頻的質(zhì)量取決于采樣頻率、量化位數(shù)和聲道數(shù)三個(gè)因素。 1)采用頻率 指一秒鐘時(shí)間內(nèi)采樣的次數(shù)。 奈奎斯特理論(Nyquist theory):采樣頻率不應(yīng)低于聲音 信號(hào)的最高頻率的兩倍,這樣就能把以數(shù)字表達(dá)的聲音還原成 原

5、來(lái)的聲音,叫做無(wú)損數(shù)字化。 采樣頻率通常采用三種: 11.025KHz(語(yǔ)音效果)、 22.05KHz(音樂(lè)效果)、 44.1KHz(高保真效果)。 常見(jiàn)的CD唱盤(pán)的采樣頻率即為44.1KHz。 2)量化精度 描述每個(gè)采樣點(diǎn)樣本值的二進(jìn)制位數(shù)。 例如,8位量化位數(shù)表示量化精度為1/256。 )聲道數(shù) 聲音通道的個(gè)數(shù)稱(chēng)為聲道數(shù),是指一次采樣所記錄產(chǎn)生 的聲音波形個(gè)數(shù)。 單聲道:記錄聲音時(shí),每次生成一個(gè)聲波數(shù)據(jù); 雙聲道(立體聲):每次生成兩個(gè)聲波數(shù)據(jù)。 隨著聲道數(shù)的增加,所占用的存儲(chǔ)容量也成倍增加。 數(shù)字音頻文件的存儲(chǔ)量數(shù)字音頻文件的存儲(chǔ)量 以字節(jié)為單位,模擬波形聲音被數(shù)字化后音頻 文件的存儲(chǔ)量

6、(假定未經(jīng)壓縮)為: 存儲(chǔ)量=采樣頻率量化位數(shù)/8聲道數(shù)時(shí)間 例如,用44.1KHz的采樣頻率進(jìn)行采樣,量化 位數(shù)選用16位,則錄制1秒的立體聲節(jié)目,其波 形文件所需的存儲(chǔ)量為: 4410016821=176400(字節(jié)) 聲音質(zhì)量和數(shù)據(jù)率聲音質(zhì)量和數(shù)據(jù)率 說(shuō)明:*電話使用 律編碼,動(dòng)態(tài)范圍為13位,而不是8位。 質(zhì)量 采樣頻率/kHz 樣本精度/b/s 單道聲/立體聲 數(shù)據(jù)率(未壓縮)/kb/s 頻率范圍/Hz 電話* AM FM CD DAT 8 11.025 22.050 44.1 48 8 8 16 16 16 單道聲 單道聲 立體聲 立體聲 立體聲 64.0 88.2 705.6 1

7、411.2 1536.0 2003400 507000 2015000 2020000 2020000 2.3 聲音文件的存儲(chǔ)格式聲音文件的存儲(chǔ)格式 1. WAV 文件 3. MP3 文件 2. MIDI 4. WMA 文件 WAV 文件 波形音頻文件: - 文件的擴(kuò)展名是“.WAV” ; - 它記錄了采樣數(shù)據(jù),可重現(xiàn)各種聲音,但文件很大; - 壓縮方法:主要有PCM和APCM等; - 特點(diǎn):易于生成和編輯,壓縮比不高。 - 還原質(zhì)量: 人的講話聲:8位量化級(jí)、11.025 KHz采樣率 CD音質(zhì): 16位量化級(jí)、44.1 KHz的采樣率 MIDI MIDI文件: - 擴(kuò)展名為“.MID”;

8、- 記錄的不是聲音本身,而是將每個(gè)音符記錄為一個(gè)數(shù)字, - 節(jié)省空間,可以滿足長(zhǎng)時(shí)間音樂(lè)的需要。 - 主要限制是缺乏重現(xiàn)真實(shí)自然的能力。 采用波表法進(jìn)行音樂(lè)合成的聲音卡可以使MIDI 音樂(lè)的 質(zhì)量大大提高。 CD Audio,擴(kuò)展名CDA: 唱片采用的格式,音質(zhì)非常好,記錄的是波形流,但 缺點(diǎn)是無(wú)法編輯,文件長(zhǎng)度太大。 MPEG-3,擴(kuò)展名MP3: 非常流行,因其壓縮率大(10:112:1),在網(wǎng)絡(luò)可 視電話通信方面應(yīng)用廣泛,但和CD唱片相比,音質(zhì)不能 令人非常滿意。 WMA (Windows Media Audio) 文件: 是微軟力推的一種音頻格式。WMA格式壓縮率一般 可以達(dá)到18:1,

9、生成的文件大小只有相應(yīng)MP3文件的一半, 但音質(zhì)不減。 RealAudio文件,擴(kuò)展名RA : RealNetworks公司的“流式播放”聲音文件格式,強(qiáng) 大的壓縮量(可達(dá)96:1)和極小的失真,主要適用于在網(wǎng)絡(luò) 上的在線音樂(lè)欣賞。 常見(jiàn)的聲音文件擴(kuò)展名常見(jiàn)的聲音文件擴(kuò)展名 文件的擴(kuò)展名 說(shuō)明 au Sun和NeXT公司的聲音文件存儲(chǔ)格式 aif(Audio Interchange) Apple計(jì)算機(jī)上的聲音文件存儲(chǔ)格式 cmf(Creative Music Format) 聲霸(SB)卡帶的MIDI文件存儲(chǔ)格式 mct MIDI文件存儲(chǔ)格式 mff(MIDI File Format) MID

10、I文件存儲(chǔ)格式1/2 mid(MIDI) Windows的MIDI文件存儲(chǔ)格式 mp2 MPEG Layer , mp3 MPEG Layer mod(Module) MIDI文件的存儲(chǔ)格式 rm(RealMedia) RealNetworks公司的流放式聲音文件格式 ra(RealAudio) RealNetworks 公司的流放式聲音文件格式 續(xù):常見(jiàn)的聲音文件擴(kuò)展名續(xù):常見(jiàn)的聲音文件擴(kuò)展名 rol Adlib 聲音卡文件存儲(chǔ)格式 snd(sound) Apple 計(jì)算機(jī)上的聲音文件存儲(chǔ)格式 seq MIDI文件存儲(chǔ)格式 sng MIDI文件存儲(chǔ)格式 voc(Creative Voice)

11、 聲霸卡存儲(chǔ)的聲音文件存儲(chǔ)格式 wav(Waveform)* Windows采用的波形聲音文件存儲(chǔ)格式 wrk Cakewalk Pro 軟件采用的MIDI文件存儲(chǔ)格式 說(shuō)明:*支持PCM,ADPCM, 率和A率波形 2.4 聲音處理軟件聲音處理軟件 聲音處理軟件:即聲音工具,是用來(lái)錄放、編輯 和分析聲音文件的。 常見(jiàn)的聲音工具有: 、Window 95/98/ 本身帶的“Sound Recorder” 、買(mǎi)聲卡時(shí)帶的工具 3、網(wǎng)絡(luò)上下載的工具 2.5 聲音質(zhì)量的度量聲音質(zhì)量的度量 評(píng)價(jià)聲音質(zhì)量的主觀方法:平均判分法(MOS),召集 若干實(shí)驗(yàn)者,由他們對(duì)聲音質(zhì)量的好壞進(jìn)行評(píng)分,求出平 均值作為

12、對(duì)聲音質(zhì)量的評(píng)價(jià),所得分?jǐn)?shù)為MOS。 分?jǐn)?shù) 質(zhì)量級(jí)別 失真級(jí)別 5 優(yōu) 無(wú)察覺(jué) 4 良 (剛)察覺(jué)但不討厭 3 中 (察覺(jué))有點(diǎn)討厭 2 差 討厭但不反感 1 劣 極討厭(令人反感) 客觀方法: 信噪比() SNR= 1)SNR大,在一定程度上能夠隱蔽噪聲,從 而獲得較好的聲音效果; 2)在聲音的錄制和播放時(shí),要注意環(huán)境噪聲 的影響。 噪聲的平均功率 有用信號(hào)的平均功率 噪聲的平均功率 有用信號(hào)的平均功率 2.6電子樂(lè)器數(shù)字接口(電子樂(lè)器數(shù)字接口(MIDI)系統(tǒng))系統(tǒng) 電子樂(lè)器數(shù)字接口(musical instrument digital interface, MIDI) 是用于在音樂(lè)合成器、

13、電子樂(lè)器、音序器 和計(jì)算機(jī)之間交換音樂(lè)信息的一種標(biāo)準(zhǔn)協(xié)議。 從80年代初問(wèn)世至今,MIDI經(jīng)歷了長(zhǎng)時(shí)間的發(fā) 展,現(xiàn)已成為電腦音樂(lè)的代名詞。 MIDI文件的特點(diǎn) (1). 指令集合,文件小。 (2). 編輯靈活,在音序器的幫助下,用戶可自由地 改變音調(diào)、音色以及樂(lè)曲速度等,以達(dá)到需要的 效果。 (3). 表現(xiàn)力弱,不能與真正的樂(lè)器完全相似,音質(zhì) 有待提高。 (4).MIDI聲音適于重現(xiàn)打擊樂(lè)或一些電子樂(lè)器的聲音, 利用MIDI聲音方式可用計(jì)算機(jī)來(lái)進(jìn)行作曲。 (5).使用MIDI文件,其聲音卡上必需含有硬件音序器 或者配置有軟件音序器。 數(shù)字式頻率調(diào)制(數(shù)字式頻率調(diào)制(FM )合成法)合成法 由以

14、下五部分組成: 數(shù)字載波器 調(diào)制器 數(shù)字運(yùn)算器 聲音包絡(luò)發(fā)生器 模數(shù)轉(zhuǎn)換器 從理論上講,從理論上講,F(xiàn)M合成方法可以產(chǎn)生任何樂(lè)音,但是,這種合成方法可以產(chǎn)生任何樂(lè)音,但是,這種“物理課物理課 式式”的合成方法合成出來(lái)的聲音不夠真實(shí)。的合成方法合成出來(lái)的聲音不夠真實(shí)。 樂(lè)音樣本合成法樂(lè)音樣本合成法 此法產(chǎn)生的聲音質(zhì)量比FM合成方法產(chǎn)生的聲音質(zhì)量要高。 把真實(shí)樂(lè)器發(fā)出的聲音 以數(shù)字的形式記錄下來(lái), 播放時(shí)再加以調(diào)整、修 飾和放大,生成各種音 階的音符。 MIDI系統(tǒng)設(shè)備配置系統(tǒng)設(shè)備配置 MIDI設(shè)備就是處理MIDI信息所需的硬件設(shè)備, 其基本組成包括: 合成器 揚(yáng)聲器 MIDI鍵盤(pán)MIDI端口音序

15、器 (1). MIDI鍵盤(pán) MIDI鍵盤(pán)是用于MIDI樂(lè)曲演奏的,MIDI鍵 盤(pán)本身并不發(fā)出聲音,當(dāng)作曲人員觸動(dòng)鍵 盤(pán)上的按鍵時(shí),就發(fā)出按鍵信息,所產(chǎn)生 的僅僅是MIDI音樂(lè)消息,從而由音序器錄 制生成MIDI文件。 (2). MIDI端口 一臺(tái)MID設(shè)備可以有一至三個(gè)MIDI端口,分別 稱(chēng)為MIDI In、MIDI Out、MIDI Thru。它們的作用 是: MIDI In:接收來(lái)自其它MIDI設(shè)備的MIDI信息。 MIDI Out:發(fā)送本設(shè)備生成的MIDI信息到其 它設(shè)備。 MIDI Thru:將從MIDI In端口傳來(lái)的信息轉(zhuǎn)發(fā) 到相連的另一臺(tái)MIDI設(shè)備上。 (3). 音序器 用于記

16、錄、編輯、播放MIDI的聲音文件,音序器有以硬 件形式提供的,目前大多為軟件音序器。音序器可捕捉MIDI 消息,將其存入MIDI文件,MIDI文件擴(kuò)展名為 .MID。音序 器還可編輯MIDI文件。 (4). 合成器 MIDI文件的播放是通過(guò)MIDI合成器,合 成器解釋MIDI文件中的指令符號(hào),生成所需 要的聲音波形,經(jīng)放大后由揚(yáng)聲器輸出,聲音 的效果比較豐富。 MIDI合成方式主要有調(diào)頻合成(FM)和樂(lè) 音樣本合成兩種方式。 MIDI的通道概念的通道概念 單個(gè)物理MIDI通道分為16個(gè)邏輯通道,每個(gè)邏輯通道 可指定一種樂(lè)器。MIDI鍵盤(pán)可設(shè)置在這16個(gè)通道中的任何 一個(gè),MIDI合成器可以被設(shè)

17、置在指定的通道上接受。 電子樂(lè)器數(shù)字接口(電子樂(lè)器數(shù)字接口(MIDI) MIDI實(shí)質(zhì)上是由MIDI控制器產(chǎn)生的指示電 子音樂(lè)合成器要做什么、怎么做的一套標(biāo)準(zhǔn)指 令。 MIDI傳送的不是聲音,而是動(dòng)作指令。 各個(gè)MIDI設(shè)備通過(guò)專(zhuān)用的串行電纜(MIDI線) 連接, 并以 31.25 kbps(每字節(jié)10位) 的速 度傳送著數(shù)字音樂(lè)信息。 MIDI Thru Out In MIDI的物理接口標(biāo)準(zhǔn)的物理接口標(biāo)準(zhǔn) MIDI設(shè)備的連接設(shè)備的連接 不妨把MIDI理解成一種局域網(wǎng)。 不同的聲音模塊可設(shè)置成接收不同通道的曲子。 MIDI軟件產(chǎn)品 中文名稱(chēng):音效合成工具 英文名稱(chēng):PROPELLERHEADS.

18、REASON.V3.0.ISO-RiSE 2.7 語(yǔ)音處理技術(shù) 語(yǔ)音識(shí)別(Speech Recognition) 文本語(yǔ)音轉(zhuǎn)換(Text To Speech) 語(yǔ)音壓縮編碼(Speech Coding) 語(yǔ)音識(shí)別 什么是語(yǔ)音識(shí)別? 目的是讓機(jī)器具有人的聽(tīng)覺(jué)功能,在 人機(jī)語(yǔ)音通訊中“聽(tīng)懂”人類(lèi)口述的語(yǔ)言。 語(yǔ)音識(shí)別要求:識(shí)別字詞句,語(yǔ)義和語(yǔ)境 語(yǔ)音識(shí)別的應(yīng)用: 語(yǔ)音輸入、 電話查詢(xún)、信息查詢(xún) 網(wǎng)上交談、 語(yǔ)音教學(xué)、語(yǔ)音控制 數(shù)字音頻信號(hào)的編碼 模擬音頻信號(hào)輸入采樣/量化編碼 傳輸/存儲(chǔ)解碼播放 音頻信號(hào)壓縮編碼的依據(jù): 1)聽(tīng)覺(jué)域值電平的存在; 2)聽(tīng)覺(jué)存在屏蔽效應(yīng)。(強(qiáng)聲掩蓋弱聲) 音頻信號(hào)的

19、壓縮編碼方式: 1)波形編碼; 2)音源(參數(shù))編碼; 3)混合編碼三種。 話音編譯碼器的分類(lèi)話音編譯碼器的分類(lèi) 波形編譯碼器(waveform coder): 不利用生成話音的信號(hào)的任何知識(shí),將 話音視為一種普通的聲音,直接對(duì)波形信 號(hào)進(jìn)行采樣和量化。 特點(diǎn):編譯碼器簡(jiǎn)單,話音質(zhì)量高,但數(shù) 據(jù)率也很高; 例如:PCM、DM、DPCM、ADPCM等。 音源編譯碼器(Source coder): 也叫參數(shù)編譯碼器、聲碼器(vocoder)。它 從話音波形信號(hào)中提取生成話音的參數(shù),使用這 些參數(shù)通過(guò)話音生成模型重構(gòu)出話音。 特點(diǎn):算法復(fù)雜,計(jì)算量大,壓縮率高,但還原 聲音的質(zhì)量不高。 混合編譯碼器

20、(Hybrid coder): 把波形編碼的高質(zhì)量和音頻編碼的低數(shù)據(jù)率結(jié) 合在一起,取得了較好效果。 三種話音編譯碼器的對(duì)比 1)波形編碼 波形編碼的算法簡(jiǎn)單,易于實(shí)現(xiàn),可獲 得高質(zhì)量的語(yǔ)音。常見(jiàn)的波形編碼方法為: 脈沖編碼調(diào)制(PCM) 增量調(diào)制(DM) 自適應(yīng)脈沖編碼調(diào)制(APCM) 差分脈沖編碼調(diào)制(DPCM) 自適應(yīng)差分脈沖編碼調(diào)制(ADPCM) 脈沖編碼調(diào)制(脈沖編碼調(diào)制(PCM) Pulse Code Modulation, PCM 是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào)制方式。 PCM的量化方式:均勻量化與非均勻量化 均勻量化:采用相等的量化間隔對(duì)采樣得到的信號(hào)作量化,線性量化。 非均勻量化:大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小 的量化間隔,即非線性量化。 非均勻量化是在滿足精度要求的情況下用較少的位數(shù)來(lái)表示。 增量調(diào)制(增量調(diào)制(DM) Delta Modulation,DM 是對(duì)實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行 編碼,將極性變成0或1這兩種可能的取值之一。 斜率過(guò)載:在開(kāi)始階段增量調(diào)制器的輸出不能 保持跟蹤輸入信號(hào)的快速變化。 在輸入信號(hào)變化快的區(qū)域,斜率過(guò)載是關(guān)心的 焦點(diǎn)。 粒狀噪聲:在輸入信號(hào)與預(yù)測(cè)信號(hào)的差值接近 零的區(qū)域,增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變得0和 1。 在輸入信號(hào)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論