已閱讀5頁,還剩82頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1 第4章多媒體音頻處理技術(shù) 4 1音頻信號(hào)及其概念4 2模擬音頻的數(shù)字化過程4 3聲卡的組成和功能4 4音頻文件的格式與處理軟件4 5樂器數(shù)字接口 MIDI4 6數(shù)字音頻的應(yīng)用 2 3 4 1 1聲音處理技術(shù)歷史回顧記錄 19世紀(jì) 愛迪生 留聲機(jī) 電聲技術(shù) 研究可聽聲頻率范圍內(nèi)聲音的產(chǎn)生 傳播 存儲(chǔ) 重放和接收的技術(shù) 依靠電來記錄并播放聲音 通過電壓產(chǎn)生模擬聲波變化的電流信號(hào)是模擬信號(hào) 隨著計(jì)算機(jī)技術(shù)和存儲(chǔ)設(shè)備的發(fā)展 數(shù)字化音頻處理技術(shù)也得到了發(fā)展 4 圖4 2用磁帶記錄聲音的錄音機(jī) 5 4 1 2聲音信號(hào)的形式任何聲音都是物體振動(dòng)產(chǎn)生的現(xiàn)象 其在介質(zhì)中的傳播稱為聲波 聲源所引起的空氣壓力變化 被耳朵的耳膜所檢測(cè) 然后產(chǎn)生電信號(hào)刺激大腦的聽覺神經(jīng) 從而使人們能感覺到聲音的存在 6 4 1 2聲音信號(hào)的形式語音信號(hào) 語言的物質(zhì)載體 具有復(fù)雜的語法和語義 難于識(shí)別 非語音信號(hào) 音樂 自然界的聲音 信息量低 識(shí)別簡單 7 圖4 4在自然界 聲波與水波一樣都是一種振動(dòng)波 8 圖4 5用聲音錄制軟件記錄的英文單詞 Hello 語音的實(shí)際波形 9 4 1 3模擬音頻信號(hào)的物理特征頻率 體現(xiàn)音調(diào)的高低 單位Hz幅度 體現(xiàn)聲音的強(qiáng)弱 單位dB語音信號(hào)頻率范圍 300Hz 3000Hz可聽頻率帶寬 音頻 20Hz 20kHz 10 11 圖4 6聲波的頻率 周期與振幅 12 教學(xué)進(jìn)程 13 聲音質(zhì)量分級(jí)與帶寬 圖4 8四級(jí)聲音質(zhì)量的頻率范圍 14 聲音的質(zhì)量與聲音的頻率范圍有關(guān) 一般說來 頻率范圍越寬聲音的質(zhì)量就越高 對(duì)語音而言 常用可懂度 清晰度 自然度來衡量 而對(duì)音樂來說 保真度 空間感 音響效果都是重要的指標(biāo) 15 第4章多媒體音頻處理技術(shù) 4 1音頻信號(hào)及其概念4 2模擬音頻的數(shù)字化過程4 3聲卡的組成和功能4 4音頻文件的格式與處理軟件4 5樂器數(shù)字接口 MIDI4 6數(shù)字音頻的應(yīng)用 16 17 借助于A D或D A轉(zhuǎn)換器 模擬信號(hào)和數(shù)字信號(hào)可以互相轉(zhuǎn)換 18 19 4 2 1采樣為實(shí)現(xiàn)A D轉(zhuǎn)換 需要把模擬音頻信號(hào)波形進(jìn)行分割 每隔一定的時(shí)間間隔測(cè)一次模擬音頻的值 如電壓 以轉(zhuǎn)變成數(shù)字信號(hào) 這種方法稱為采樣 Sampling 每秒鐘采樣的次數(shù)稱為采樣率 數(shù)字音頻是離散的 而模擬音頻是連續(xù)的 數(shù)字音頻質(zhì)量的好壞與采樣率密切相關(guān) 數(shù)字音頻信息可以被計(jì)算機(jī)存儲(chǔ) 處理和播放 Nyquist采樣定理 只有采樣頻率高于聲音信號(hào)最高頻率的兩倍時(shí) 才能把數(shù)字信號(hào)表示的聲音還原為原來的聲音 20 圖4 9聲音的采樣和量化示意圖 21 4 2 2量化用某種數(shù)字化的方法來反映某一瞬間聲波幅度的電壓值的大小稱為量化 采樣后的信號(hào)按照整個(gè)聲波的幅度 幅度軸 劃分稱有限個(gè)區(qū)段的集合 把落入某個(gè)區(qū)段內(nèi)的樣值歸為一類 并賦予形同的量化值 采用二進(jìn)制 以16位或256位等的方式來進(jìn)行 22 均勻量化 非均勻量化 23 數(shù)字音頻等級(jí) 24 25 教學(xué)進(jìn)程 數(shù)據(jù)量 采樣頻率 量化位數(shù) 8 聲道數(shù) 聲音持續(xù)時(shí)間 例1 對(duì)于調(diào)頻廣播級(jí)立體聲 采樣頻率為44 1kHz 量化等級(jí)為16位 即2字節(jié) 聲道形式為雙聲道 則轉(zhuǎn)換后每秒以千字節(jié)為單位的數(shù)據(jù)量為 44100 Hz 16 8 B 2 176400B s 172kB s 例2 用44 1kHz的采樣頻率對(duì)聲波進(jìn)行采樣 每個(gè)采樣點(diǎn)的量化位數(shù)選用16位 則錄制3分鐘的立體聲節(jié)目 其波形文件所需的存儲(chǔ)容量為 44100 Hz 16 8 B 2 3 60 31752000B s 31007 8kB s 30 28MB s 26 例3 一般播音員的播音頻率是 kHz 采用8bit的采用精度進(jìn)行采樣的時(shí)候 計(jì)算該播音員播音 分鐘的數(shù)據(jù)量為 kHz bit 例4 以cd激光盤音質(zhì) 44 1kHz的采樣頻率 16位立體聲形式 記錄一首 分鐘的樂曲所需的存儲(chǔ)容量為 44100 Hz 16 8 B 2 60 51600kb 27 4 2 3聲音采樣與量化過程示例 28 圖4 10采樣頻率為1000Hz 10個(gè)量化等級(jí)的波形 29 圖4 11經(jīng)過D A轉(zhuǎn)換器得到的信號(hào)波形 直線段的波形 有較大的失真 30 圖4 12采樣率為2000Hz 量化等級(jí)為20的采樣量化過程 31 圖4 13采樣率為4000Hz 量化等級(jí)為40的采樣量化過程 32 4 2 4壓縮編碼依據(jù) 聲音信息中存在著多種冗余聽覺器官的不敏感性采樣的標(biāo)本中存在著相關(guān)性壓縮算法通常應(yīng)能滿足下列需求 壓縮倍數(shù)高 壓縮后的數(shù)據(jù)率低 解碼后的信號(hào)失真小 質(zhì)量高 算法簡單 執(zhí)行速度快 延遲時(shí)間短 編碼器 解碼器的成本低 33 壓縮方法 compressionmethod 有損壓縮無損壓縮編碼選擇 codeselection 機(jī)常用的聲卡上有自適應(yīng)差分脈沖碼調(diào)制方案 律 a律等 format structure 34 音頻信息的壓縮技術(shù) 有 損 壓 縮 混合編 碼 碼本激勵(lì)線性預(yù)測(cè) CELP 35 圖4 14音頻信號(hào)處理過程 36 第4章多媒體音頻處理技術(shù) 4 1音頻信號(hào)及其概念4 2模擬音頻的數(shù)字化過程4 3聲卡的組成和功能4 4音頻文件的格式與處理軟件4 5樂器數(shù)字接口 MIDI4 6數(shù)字音頻的應(yīng)用 37 4 3 1聲卡的工作原理 圖4 16聲卡工作原理框圖 采用大規(guī)模集成電路設(shè)計(jì) 將音頻技術(shù)范圍的各類電路以專用芯片的形式集成在聲卡上 并可直接插入計(jì)算機(jī)的擴(kuò)展槽中使用 38 1 主芯片 數(shù)字信號(hào)處理器聲音信息處理 特殊音效過濾與處理 語音識(shí)別 實(shí)施壓縮等等任務(wù) 2 混音芯片 CODEC負(fù)責(zé)調(diào)節(jié)各聲音來源的音量 混音與調(diào)整錄放音的音量大小 圖4 18SoundBlasterPCI64聲卡的混音器設(shè)置界面 39 3 合成器負(fù)責(zé)MIDI樂曲的合成可以及時(shí)創(chuàng)造各種音樂MIDI合成器有兩種 頻率調(diào)制合成器 FM合成器 波形表 Wavetable合成器 4 總線接口和控制器總線接口和控制器由數(shù)據(jù)總線雙向驅(qū)動(dòng)器 總線接口控制邏輯 總線中斷邏輯和DMA控制邏輯組成 5 外部輸入輸出口聲卡外部輸入輸出口均為3 5mm規(guī)格插口 MIDI Joystick除外 40 41 4 3 2聲卡的性能指標(biāo)1 音頻技術(shù)指標(biāo)2 MIDI音頻3 聲道數(shù) DolbyAC 3等 圖4 195 1聲道系統(tǒng)的布局圖 42 4 多音頻流輸出5 I O設(shè)備接口6 聲卡軟件7 總線結(jié)構(gòu) 圖4 20支持5 1聲道系統(tǒng)的聲卡接口 43 44 45 46 杜比與DTS 1 DolbyDigitalMono 杜比數(shù)字單聲道音效只有單聲道的效果 并不足以構(gòu)成立體聲 2 DolbyDigitalStereo 杜比數(shù)字雙聲道音效將雙聲道的立體訊號(hào)儲(chǔ)存為AC 3格式 3 DoblyDigitalSurround 杜比數(shù)字環(huán)繞音效4 DolbyDigital4 0 杜比數(shù)字環(huán)繞音效4 05 DolbyDigital5 0 杜比數(shù)字環(huán)繞音效5 06 DolbyDigital5 1 杜比數(shù)字環(huán)繞音效5 1以DolbyDigital來表示DolbyDigital5 1 也就是5 1聲道的DolbyDigital或AC 3 7 Dolbydigital7 1 11 1等等 47 杜比與DTS PCM高音質(zhì)數(shù)字音效 DVD利用PCM格式儲(chǔ)存未經(jīng)壓縮的雙聲道訊號(hào) 由于DVD具有龐大的空間與速度優(yōu)勢(shì) 可以大膽使用更高的取樣率與解析度 因此可以提供遠(yuǎn)高于傳統(tǒng)CD的表現(xiàn)DTS數(shù)字環(huán)繞音效 屬于5 1聲道的環(huán)繞效果 DTS采用與AC 3不同的壓縮技術(shù)將環(huán)繞音效儲(chǔ)存至DVD 播放時(shí)必須采用具有dts譯碼能力的系統(tǒng) DTS跟DolbyDigital5 1最大的差別在于兩者使用不同的 算法 48 4 3 3聲卡的主要功能 錄制與播放聲音通過接在聲卡上的話筒錄制聲音 并以文件形式保存在計(jì)算機(jī)中 隨時(shí)可打開聲音文件進(jìn)行播放 聲音文件的格式可因使用不同的軟件而不同 音樂合成利用聲卡上的合成器將存儲(chǔ)在計(jì)算機(jī)內(nèi)存中的MIDI文件合成為音樂樂曲 通過混合器混合和處理多個(gè)不同音頻源的聲音 控制和調(diào)節(jié)音量大小 最后送至音箱或耳機(jī)播放 49 壓縮和解壓縮音頻文件目前 大多數(shù)聲卡上都固化了不同標(biāo)準(zhǔn)的音頻壓縮和解壓縮軟件 常用的壓縮編碼方法有ADPCM 自適應(yīng)差分脈沖編碼調(diào)制 和ACM 微軟音頻壓縮管理器 等 壓縮比大約為2 1 5 l 與MIDI設(shè)備和CD驅(qū)動(dòng)器的連接通過聲卡上的MIDI接口 計(jì)算機(jī)可以同外界的MIDI設(shè)備相連接 如連接電子琴 電吉他等 使MPC具有創(chuàng)作電腦樂曲和播放MIDI文件的功能 游戲桿也可通過MIDI接口與計(jì)算機(jī)相連接 使游戲玩起來得心應(yīng)手 50 第4章多媒體音頻處理技術(shù) 4 1音頻信號(hào)及其概念4 2模擬音頻的數(shù)字化過程4 3聲卡的組成和功能4 4音頻文件的格式與處理軟件4 5樂器數(shù)字接口 MIDI4 6數(shù)字音頻的應(yīng)用 51 4 4 1數(shù)字音頻的文件格式 圖4 21常用音頻格式 52 1 WAV文件 wav2 MP3 mp33 MP4 mp44 RealAudio文件 ra rm ram5 APE文件 ape 圖4 22MP3是Internet上流行的音樂格式 53 6 MIDI文件 midi7 CD文件 cda8 AAC文件 m4a mp4等9 PCM文件 pcm10 WMA文件 wma11 VOC文件 voc12 AIFF文件 aif aiff13 HDTA文件 hdta 54 HDTA 可變結(jié)構(gòu)高解析度音頻 Hi DefinitionTransformableAudio 是一種結(jié)合了互動(dòng)性和高解析度音頻的新一代音頻格式 HDTA按照不同的標(biāo)準(zhǔn) 主要分為以下幾種 TA 只支持16Bit 44 1KHz傳統(tǒng)音頻 HDTA立體聲 只支持高解析度的雙聲道 HDTA環(huán)繞聲 支持6 8 16個(gè)聲道的環(huán)繞聲 新一代的HDTA格式音樂 是徹頭徹尾的數(shù)字格式 它不以任何光盤為載體 而是作為一種計(jì)算機(jī)數(shù)據(jù)格式存在 55 4 4 2音頻制作與處理軟件1 CoolEdit 圖4 25CoolEditPro的界面 56 2 SoundForge 圖4 26SoundForge音頻處理軟件 57 第4章多媒體音頻處理技術(shù) 4 1音頻信號(hào)及其概念4 2模擬音頻的數(shù)字化過程4 3聲卡的組成和功能4 4音頻文件的格式與處理軟件4 5樂器數(shù)字接口 MIDI4 6數(shù)字音頻的應(yīng)用 58 4 5 1什么是MIDIMIDI是數(shù)字音樂接口 MusicalInstrumentDigitalInterface 的縮寫 或者說 MIDI是用來將電子樂器相互連接 或?qū)IDI設(shè)備與電腦連接成系統(tǒng)的一種通訊協(xié)議 通過它 各種MIDI設(shè)備都可以準(zhǔn)確傳送MIDI信息 不屬于數(shù)字音響技術(shù)的范疇Midi數(shù)據(jù)不是數(shù)字的音頻波形 而是音樂代碼或電子樂譜 4 5樂器數(shù)字接口 MIDI 59 4 5 2MIDI系統(tǒng)的組成 60 1 合成器 圖4 28具有USB接口的MIDI鍵盤 使用振蕩器來產(chǎn)生聲樂的一種電子樂器 通過振蕩器的電流震蕩產(chǎn)生各種波形并進(jìn)行處理 合成出新的音樂 合成器中的音序器和音色分別由軟件和獨(dú)立音源來代替 因此產(chǎn)生控制鍵盤 61 2 音源 圖4 29硬件音源產(chǎn)品 RolandJV1080 音源音色的數(shù)量 品種和質(zhì)量都將對(duì)最終音樂作品的效果產(chǎn)生重要的影響 音源內(nèi)部是不同音色的樣本波形 由音序器來決定何時(shí)調(diào)用 分為軟硬件兩種 專業(yè)硬件音源 多媒體聲卡上包含GM音色庫 以插件形式的軟音源 62 3 音序器 Sequencer 記錄 編輯和播放midi文件的設(shè)備 硬件音序器又稱為編曲機(jī) 軟件音序器是音樂創(chuàng)作 編輯軟件 比如Cakewalk等 4 采樣器對(duì)聲音進(jìn)行采樣 然后編輯成多種的音色 5 其它設(shè)備如錄音設(shè)備 監(jiān)聽設(shè)備 音箱功放等 YamahaQY100音序器 63 4 5 3MIDI的工作過程midi消息實(shí)際上是對(duì)一段音樂的描述 或理解為對(duì)樂譜的數(shù)字描述 包括音符 節(jié)拍 樂器種類等信息 消息分為狀態(tài)信息和數(shù)據(jù)信息 狀態(tài)信息描述音符被演奏或是聲音被加強(qiáng)等數(shù)據(jù)信息描述那個(gè)音符被演奏了 或被加強(qiáng)的聲音的強(qiáng)度如何這類可以用量來表示的信息 64 圖4 31MIDI的工作過程 65 66 4 5 4FM與波表合成方式1 FM合成法FM稱為 數(shù)字式頻率調(diào)制合成法 簡稱FM合成法 FM合成法生成音樂的基本原理是 用數(shù)字信號(hào)來表示不同音樂的波形 然后把它們組合起來 再通過數(shù)模轉(zhuǎn)換器 生成音樂播放 2 波表合成法為了能真實(shí)地再現(xiàn)音樂 目前的聲卡一般采用音樂樣本合成法 即波表合成法 把真實(shí)樂器發(fā)出的聲音以數(shù)字的形式記錄下來 存放在 波表文件 中 播放時(shí)根據(jù)命令生成各種音階的音符 產(chǎn)生的聲音質(zhì)量比較高 67 FM合成法 比如MIDI音樂 用符號(hào)描述的樂器演奏的音樂聲音 合成語音 用聲母 韻母或清音 基音頻率等參數(shù)描述的語音 等 符號(hào)化的聲音表示方法所產(chǎn)生的聲音雖然沒有自然聲那么真實(shí) 逼真 但數(shù)據(jù)量要比波形聲音小得多 2 3個(gè)數(shù)量級(jí) 而且能產(chǎn)生自然界中不存在的聲音 其編輯處理也比波形聲音更加方便一些 68 4 5 5GM 標(biāo)準(zhǔn)MIDI樂器排序表4 5 6MIDI音樂創(chuàng)作軟件與音序軟件 圖4 33CakeWalkProAudio音序軟件主界面 69 圖4 34在CakewalkProAudio能容易地對(duì)MID樂譜進(jìn)行編輯和創(chuàng)作 70 第4章多媒體音頻處理技術(shù) 4 1音頻信號(hào)及其概念4 2模擬音頻的數(shù)字化過程4 3聲卡的組成和功能4 4音頻文件的格式與處理軟件4 5樂器數(shù)字接口 MIDI4 6數(shù)字音頻的應(yīng)用 71 語音識(shí)別語音合成 72 語音識(shí)別 指機(jī)器收到語音信號(hào)后 如何模仿人的聽覺器官辨別所聽到的語音內(nèi)容或講話人的特征 進(jìn)而模仿人腦理解出該語音的含義或判別出講話人的過程 分類 按講話者分類 1 特定人的語音識(shí)別系統(tǒng) 其特點(diǎn)是依賴于說話者只有在用特定單詞組形成的詞匯表系統(tǒng)訓(xùn)練后 它才能識(shí)別 2 非特定人識(shí)別系統(tǒng) 此類系統(tǒng)可識(shí)別任何用戶的語音 73 按識(shí)別詞的性質(zhì)分類 1 孤立詞 語音 識(shí)別系統(tǒng) 一次只提供一個(gè)單一詞的識(shí)別 2 連接詞語音識(shí)別 連接詞的語音由所說的短語組成 而短語又是由詞序列組成 連接詞語音識(shí)別可用于命令和控制應(yīng)用 3 連續(xù)語音識(shí)別 這種方法比孤立單詞或連接詞語音識(shí)別都復(fù)雜許多 74 75 連續(xù)語音識(shí)別系統(tǒng)分成三部分 數(shù)字化 幅度歸一化 時(shí)間歸一化和參數(shù)表示 分割并把語音段標(biāo)記成在基于知識(shí)或基于規(guī)則系統(tǒng)上的符號(hào)串 識(shí)別詞序列并進(jìn)行語音段匹配 76 語音識(shí)別系統(tǒng)的組成 采樣 量化 語音端點(diǎn)檢測(cè) 計(jì)算語音譜 估價(jià)音調(diào)輪廓圖 分解 鑒定語音特征 單詞識(shí)別 識(shí)別后的語音 語音輸入 參考村料庫 語義分析 理解后的語音 語義庫 77 語音識(shí)別難度大 語音變化大 不同人不一樣 同一人也會(huì)有變化 語音有模糊性 不同詞語聽起耒很相似 同一字和詞的發(fā)音受上下文影響而有不同 語音的同化 異化 換位 弱化 脫落等音變現(xiàn)象 環(huán)境噪聲的干擾 例如墻壁與物體對(duì)聲波的反射會(huì)與主聲波重迭 連續(xù)語音流不易把單字 詞 區(qū)分出來 端點(diǎn)檢測(cè) 例如 若單字 詞 識(shí)別正確率為0 95 則
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 船邊卸貨合同范例
- 搜藏品回購合同范例
- 拆遷木方回收合同范例
- 外包食品加工合同范例
- 2025私人借款合同范本大全
- 保值豬合同范例
- 合伙做飯店生意合同范例
- 美國代銷合同范例
- 模壓設(shè)備出租合同范例
- 玻璃耗材采購合同范例
- 北師大版四年級(jí)上冊(cè)除法豎式計(jì)算題300道及答案
- 2024-2030年中國橡膠伸縮縫行業(yè)市場發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- 2021-2022學(xué)年內(nèi)蒙古呼和浩特市高一上學(xué)期期末考試英語試題(解析版)
- 12SG121-1 施工圖結(jié)構(gòu)設(shè)計(jì)總說明
- DL∕T 2447-2021 水電站防水淹廠房安全檢查技術(shù)規(guī)程
- AQ 1097-2014 井工煤礦安全設(shè)施設(shè)計(jì)編制導(dǎo)則(正式版)
- 2024裝修補(bǔ)貼協(xié)議書
- 四川省對(duì)外文化交流中心2024年公開招聘工作人員歷年【重點(diǎn)基礎(chǔ)提升】模擬試題(共500題)附帶答案詳解
- 許昌市2022-2023學(xué)年七年級(jí)上學(xué)期期末語文試題
- 小學(xué)語文學(xué)習(xí)任務(wù)群的設(shè)計(jì)與實(shí)施研究
- 2024年中考物理微專題練習(xí)熱學(xué)計(jì)算1含答案
評(píng)論
0/150
提交評(píng)論