




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
多媒體技術(shù)基礎(chǔ)及應(yīng)用北京聯(lián)合大學沈洪副教授1第二章音頻信息處理2.1數(shù)字音頻基礎(chǔ)2.2音頻卡的工作原理2.3音頻編碼基礎(chǔ)和標準2.4音樂合成和MIDI2.5語音識別2多媒體中音頻信息的應(yīng)用模擬音頻和數(shù)字音頻音頻的數(shù)字化音頻信號處理的特點2.1數(shù)字音頻基礎(chǔ)3多媒體中音頻信息的應(yīng)用在多媒體系統(tǒng)中,語音和音樂是不可少的。沒有音頻的視頻是不可接受的。4多媒體中音頻信息的應(yīng)用音頻和視頻同步,使視頻圖像更具真實性娓娓動聽的音樂和解說,使靜態(tài)圖像變得更加豐富多彩可視電話、電視會議中的聲音更為重要5音頻是多媒體的重要媒體之一Audio音頻Speech語音言語Sound非語音聲音濁音
清音
爆破音樂音
雜音6語音是語言的物質(zhì)外殼(載體)。語言是人類社會特有的一種信息系統(tǒng),社會交際工具的符號。非語音信號的特點是不具有復雜的語意和語法信息,信息量低、識別簡單。7語言是人類通信最直接最自然的方式。從第一臺計算機誕生以來,專家們就為之付出了巨大的努力。人們期望以最自然
的方式與計算機交互8設(shè)計師為計算機安上了“嘴巴”(揚聲器),讓計算機奏樂、講話;為計算機裝上了“耳朵”(麥克風),讓計算機聽懂、理解人的講話。網(wǎng)絡(luò)專家還期望分布在不同地點的計算機成為“順風耳”,實現(xiàn)音頻實時傳播。人們期望以最自然
的方式與計算機交互9音頻被用來傳遞消息、意向、情感,是人類最熟悉的傳遞消息的方式。音頻攜帶的信息量大、精細、準確。10隨著多媒體信息處理技術(shù)的發(fā)展,計算機數(shù)據(jù)處理能力的增強,音頻處理技術(shù)受到重視,并得到了廣泛的應(yīng)用。如:11視頻圖像的配音、配樂;可視電話、電視會議中的話音;游戲中的音響效果;Internet電話、聲音欺騙系統(tǒng)、現(xiàn)代“芝麻開門”系統(tǒng)虛擬現(xiàn)實中的聲音模擬;電子讀物的有聲輸出等。12多媒體中音頻信息的應(yīng)用模擬音頻和數(shù)字音頻音頻的數(shù)字化音頻信號處理的特點2.1數(shù)字音頻基礎(chǔ)13模擬音頻和數(shù)字音頻什么是模擬音頻?聲音是機械振動。振動越強,聲音越大,話筒把機械振動轉(zhuǎn)換成電信號,模擬音頻技術(shù)中以模擬電壓的幅度表示聲音強弱。模擬聲音在時間上是連續(xù)的。14什么是數(shù)字音頻?
在計算機內(nèi),所有的信息均以數(shù)字表示。各種命令是不同的數(shù)字,各種幅度的物理量也是不同的數(shù)字。當然,語音信號也是由一系列數(shù)字來表示,稱之為數(shù)字音頻。數(shù)字音頻的特點是保真度好,動態(tài)范圍大。數(shù)字聲音在時間上是斷續(xù)的。
15在數(shù)字音頻技術(shù)中,把表示聲音強弱的模擬電壓用數(shù)字表示,如0.5V電壓用數(shù)字20表示,2V電壓用80表示。模擬電壓的幅度,即使在某電平范圍內(nèi),仍然可以有無窮多個如1.21V,1.215V…。16
而用數(shù)字來表示音頻幅度時,只能把無窮多個電壓幅度用有限個數(shù)字表示。即把某一幅度范圍內(nèi)的電壓用一個數(shù)字表示,這稱之為量化。17計算機內(nèi)的基本數(shù)制是二進制,為此我們也要把聲音數(shù)據(jù)寫成計算機的數(shù)據(jù)格式,這稱之為編碼,模擬電壓幅度、量化、編碼的關(guān)系舉例如下表。1819多媒體中音頻信息的應(yīng)用模擬音頻和數(shù)字音頻音頻的數(shù)字化音頻信號處理的特點2.1數(shù)字音頻基礎(chǔ)20音頻的數(shù)字化
計算機內(nèi)的音頻必須是數(shù)字形式的,因此必須把模擬音頻信號轉(zhuǎn)換成有限個數(shù)字表示的離散序列,即實現(xiàn)音頻數(shù)字化。在這一處理技術(shù)中,涉及到音頻的采樣、量化和編碼。
21
采樣:音頻實際上是連續(xù)信號,或稱連續(xù)時間函數(shù)x(t)。用計算機處理這些信號時,必須先對連續(xù)信號采樣,即按一定的時間間隔(T)取值,得到x(nT)(n為整數(shù))。T稱采樣周期,1/T稱為采樣頻率。稱x(nT)為離散信號。22離散信號x(nT)是從連續(xù)信號x(t)上取出的一部分值,那么能用x(nT)唯一地確一地恢復出x(t)嗎?一般是不行的。但在一定條件下可以的,即采樣要滿足采樣定理。
23
采樣定理:設(shè)連續(xù)信號x(t)的頻譜為x(f),以采樣間隔T采樣得到離散信號x(nT),如果滿足:24可以由x(nT)完全確定連續(xù)信號x(f)當采樣頻率等于1/2T時,即fN=1/2T,稱fN為奈魁斯特頻率。
25常用的音頻采樣率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。
26
量化:為了把采樣序列x(nT)存入計算機,必須將樣值量化成一個有限個幅度值的集合x(nT)。通常,用二進制數(shù)字表示量化后的樣值是方便的。27
量化采樣的過程如下:先將整個幅度劃分成為有限個小幅度(量化階距)的集合,把落入某個階距內(nèi)的樣值歸為一類,并賦予相同的量化值。如果量化值是均勻分布的,我們稱之為均勻量化。28多媒體中音頻信息的應(yīng)用模擬音頻和數(shù)字音頻音頻的數(shù)字化音頻信號處理的特點2.1數(shù)字音頻基礎(chǔ)29音頻信號處理的特點音頻信息處理
信號處理的角度:將聲音看成是一種信號,通過對信號的認識,來獲取信息。
信息論的角度:用它的消息內(nèi)容和信息來表示。30音頻信號處理的特點(1)音頻信號是時間依賴的連續(xù)媒體音頻信號是時間依賴的連續(xù)媒體。因此音頻處理的時序性要求很高。如果在時間上有25ms的延遲,人就會感到斷續(xù)。
31音頻信號處理的特點(2)理想的合成聲音應(yīng)是立體聲
由于人接收聲音有兩個通道(左耳、右耳),因此為使計算機模擬自然聲音,也應(yīng)有兩個聲道,即理想的合成聲音應(yīng)是立體聲。同時,也應(yīng)該包括位置信息(不同會場和不同角落的發(fā)的聲音)。真實感聲音的模擬:多通道、幅度、位置32音頻信號處理的特點(3)對語音信號的處理,要抽取語意等其它信息由于語音信號不僅僅是聲音的載體,同時還攜帶了情感的意向,故對語音信號的處理,不僅是信號處理問題,還要抽取語意等其它信息。因此可能會涉及到語言學、社會學、聲學……等。
33從人與計算機交互的角度來看音頻信號相應(yīng)的處理如下:(1)人與計算機通信(計算機接收音頻信號):音頻獲取;語音識別與理解;
人與計算機交互34(2)計算機與人通信(計算機輸出音頻)音頻合成:包括音樂合成和語音合成;聲音定位:包括立體聲模擬;音頻/視頻同步;目的是讓計算機產(chǎn)生真實感聲音。
35(3)人—計算機—人通信:人通過網(wǎng)絡(luò),與處于異地的人進行語音通信,需要的音頻處理包括:語音采集、音頻編碼/解碼、音頻傳輸?shù)取_@里音頻編/解碼技術(shù)是信道利用率的關(guān)鍵。
36第二章音頻信息處理2.1數(shù)字音頻基礎(chǔ)2.2音頻卡的工作原理2.3音頻編碼基礎(chǔ)和標準2.4音樂合成和MIDI2.5語音識別37音頻卡的功能和分類根據(jù)多媒體計算機(MPC)的技術(shù)標準,聲卡是多媒體技術(shù)中最基本的組成部分,是實現(xiàn)聲波/數(shù)字信號相互轉(zhuǎn)換的硬件電路。38音頻卡的功能和分類聲卡把來自話筒、磁帶、光盤的原始聲音信號加以轉(zhuǎn)換,輸出到耳機、揚聲器、擴音機、錄音機等聲響設(shè)備,或通過音樂設(shè)備數(shù)字接口(MIDI)使樂器發(fā)出美妙的聲音。39一、音頻卡的功能1、錄制(采集)數(shù)字聲音文件通過聲卡及相應(yīng)驅(qū)動程序的控制,采集來自話筒(麥克風)、收錄機等音源的信號,壓縮后存放于微機系統(tǒng)的內(nèi)存或硬盤中。402、播放數(shù)字聲音文件將硬盤或激光盤片壓縮的數(shù)字化聲音文件還原,重建高質(zhì)量的聲音信號,放大后通過揚聲器輸出。413、編輯與合成聲音文件對數(shù)字化的聲音文件進行編輯加工,以達到某一特殊的效果。424、控制音源的音量控制音源的音量,對各種音源進行混合,即聲卡具有混響器的功能。435、壓縮和解壓縮編碼和解碼。采集數(shù)據(jù)時,對數(shù)字化聲音信號進行壓縮,以便存儲。播放時,對壓縮的數(shù)字化聲音文件進行解壓。446、文語轉(zhuǎn)換(語音合成)通過文語轉(zhuǎn)換軟件,利用語音合成技術(shù),通過聲卡朗讀文本信息,如讀英語單詞和句子、說英語、奏音樂。457、語音識別通過語音識別軟件,具有初步的語音識別功能,讓用戶用口令指揮計算機工作。468、提供MIDI功能提供MIDI(樂器數(shù)字接口)功能,使計算機可以控制多臺具有MIDI接口的電子樂器。同時,在驅(qū)動程序的控制下,聲卡將以MIDI格式存放的文件輸出到相應(yīng)的電子樂器中,發(fā)出相應(yīng)的聲音。47二、音頻卡的分類聲卡的分類1.按應(yīng)用環(huán)境分類2.從技術(shù)角度分類3.根據(jù)采樣和量化
的位數(shù)分類48
3.根據(jù)采樣和量化的位數(shù)分類根據(jù)采樣量化的位數(shù),常用有8位、16位和32位聲卡。位數(shù)越高,量化精度越高,質(zhì)量越好。
49音頻卡的工作原理采集聲音信號:聲卡從話筒中獲取模擬聲音信號,通過模數(shù)轉(zhuǎn)換器(ADC),將聲波振幅信號采樣轉(zhuǎn)換成一串數(shù)字后存儲到計算機中。50音頻卡的工作原理重放聲音信號:將存儲到計算機中的數(shù)字信號送到數(shù)模轉(zhuǎn)換器(DAC),以同樣的采樣速率還原為模擬波形,待放大后送到揚聲器發(fā)聲,這一技術(shù)也稱為脈沖編碼調(diào)制技術(shù)(PCM)。51523電源穩(wěn)壓4運放5晶振一塊SBLIVE聲卡DACDSP(DigitalSignalProcessing)數(shù)字信號處理聲音混合53第二章音頻信息處理2.1數(shù)字音頻基礎(chǔ)2.2音頻卡的工作原理2.3音頻編碼基礎(chǔ)和標準2.4音樂合成和MIDI2.5語音識別54音頻編碼基礎(chǔ)音頻編碼的目的在于壓縮數(shù)據(jù)。在多媒體音頻數(shù)據(jù)的存儲和傳輸中,數(shù)據(jù)壓縮是必須的。通常數(shù)據(jù)壓縮造成音頻質(zhì)量的下降、計算量的增加。因此,人們在實施數(shù)據(jù)壓縮時,要在音頻質(zhì)量、數(shù)據(jù)量、計算復雜度三方面進行綜合考慮。
55根據(jù)統(tǒng)計分析結(jié)果,語音信號中存在多種冗余,其最主要部分可以分別從時域和頻域來考慮。另外,由于語音主要是給人聽的,所以也要考慮人的聽覺機理
從信息保持的角度講,只有當信源本身有冗余時,才能對其進行壓縮。56時域信息的冗余度頻域信息的冗余度人的聽覺感知機理57音頻編碼基礎(chǔ)音頻編碼的分類基于音頻數(shù)據(jù)的統(tǒng)計特性進行編碼基于音頻的聲學參數(shù)進行參數(shù)編碼混合編碼基于人的聽覺特性進行編碼
58
基于音頻數(shù)據(jù)的統(tǒng)計特性進行編碼,其典型技術(shù)是波形編碼。其目標是使重建語音波形保持原波形的形狀。PCM(脈沖編碼調(diào)制)是最簡單最基本的編碼方法。59
基于音頻的聲學參數(shù)進行參數(shù)編碼,可進一步降低數(shù)據(jù)率。其目標是使重建音頻保持原音頻的特性。常用的音頻參數(shù)有共振峰、線性預(yù)測系數(shù)、濾波器組等。這種編碼技術(shù)的優(yōu)點是數(shù)據(jù)率低,但還原信號的質(zhì)量較差,自然度低。60
將上述兩種編碼算法很好地
結(jié)合起來,采用混合編碼的方法。這樣就能在較低的碼率上得到較高的音質(zhì)。如碼本激勵線性預(yù)測編碼(CELP)、多脈沖激勵線性預(yù)測編碼(MPLPC)等。
61
基于人的聽覺特性進行編碼:從人的聽覺系統(tǒng)出發(fā),利用掩蔽效應(yīng),設(shè)計心理聲學模型,從而實現(xiàn)更高效率的數(shù)字音頻的壓縮。其中以MPEG標準中的高頻編碼和DolbyAC-3最有影響。
62音頻編碼標準國際電報電話咨詢委員會(CCITT)和國際標準化組織(ISO)先后提出一系列有關(guān)音頻編碼的建議,列出了一些音頻編碼算法和國際標準。6364自適應(yīng)脈沖編碼調(diào)制(ADPCM)這個建議用于64kbps的A律和μ律PCM與32kbps的ADPCM之間的轉(zhuǎn)換。
65ADPCM編碼器和解碼器的框圖
66第二章音頻信息處理2.1數(shù)字音頻基礎(chǔ)2.2音頻卡的工作原理2.3音頻編碼基礎(chǔ)和標準2.4音樂合成和MIDI2.5語音識別67音樂合成概述
隨著計算機的誕生,就實現(xiàn)了計算機奏樂,不過那僅僅是一個個單音,聽起來單調(diào)。如何讓計算機輸出優(yōu)美的音樂呢?最簡單的方法是采取錄音/重放方式。68
音樂的頻帶寬,需要提高其采樣率和量化位數(shù),因而數(shù)據(jù)率急劇增大。如用44.1K頻率抽樣,16位表示某立體聲音樂,那么每秒鐘的數(shù)據(jù)為176.4K字節(jié)。由此可見,若以此種方式存儲音樂,即使計算機數(shù)據(jù)傳輸率允許,也只能存很短時間的樂曲。
69
是否可以采取合成方式產(chǎn)生音樂呢?答案是肯定的,電子樂器的蓬勃發(fā)展也已經(jīng)證實.
自1976年應(yīng)用調(diào)頻(FM)音樂合成技術(shù)以來,其樂音已經(jīng)很逼真。
1984年又開發(fā)出另一種更真實的音樂合成技術(shù)--波形表(Wavetable)合成。目前這兩種音樂合成技術(shù)都應(yīng)用于多媒體計算機的音頻卡中。
70調(diào)頻音樂合成FM是使高頻振蕩波的頻率按調(diào)制信號規(guī)律變化的一種調(diào)制方式。采用不同調(diào)制波頻率和調(diào)制指數(shù),就可以方便的合成具有不同頻譜分布的波形,再現(xiàn)某些樂器的音色。我們可以采用這種方法得到具有獨特效果的“電子模擬聲”,創(chuàng)造出豐富多彩的聲音,是真實樂器所不具備的音色,這也是FM音樂合成方法特有的魅力之一。
71調(diào)頻音樂合成
我們以音頻卡中常用的FM合成芯片YM3812為例,簡述怎樣實現(xiàn)FM音樂合成?如何模擬各種樂器的音色?YM3812是一種廣泛使用的新型音樂合成芯片。它采用FM合成方式,能夠在軟件的控制下產(chǎn)生變化極為豐富的各種音色72
FM方式產(chǎn)生真實音響兩種工作模式:
9聲道同時發(fā)音
6種旋律加5種節(jié)奏樂內(nèi)置顫音振蕩器/調(diào)幅(AM)振蕩器可采用正弦波組合方式合成語音輸入/輸出為TTL電平
它的主要特點是:YM3812簡介73使用YM3812構(gòu)成的音樂系統(tǒng)如下圖所示。74音樂系統(tǒng)框圖
由于YM3812輸出的是數(shù)字信號,因此系統(tǒng)需要一數(shù)/模轉(zhuǎn)換,如YM3014。微機通過總線傳輸必要的數(shù)據(jù),由YM3812將它們變成相應(yīng)的音高、音色、響度的數(shù)字頻信號,經(jīng)數(shù)/模轉(zhuǎn)換變成模擬量,再經(jīng)功率放大得到音響輸出。微機或微處理器地址數(shù)據(jù)總線總線控制YM3812DAC系統(tǒng)時鐘音頻放大75MIDIMIDI是音樂與計算機結(jié)合的產(chǎn)物。MIDI(MusicalInstrumentDigitalInterface)是樂器數(shù)字接口的縮寫,泛指數(shù)字音樂的國際標準,初始建于1982年。利用MIDI文件演奏音樂,所需的存儲量最少。如演奏2分鐘樂曲的MIDI文件只需不到8K的存儲空間。76MIDI標準規(guī)定了不同廠家的電子樂器與計算機連接的電纜和硬件。它還指定從一個裝置傳送數(shù)據(jù)到另一個裝置的通信協(xié)議。這樣,任何電子樂器,只要有處理MIDI信息的處理器和適當?shù)挠布涌诙寄茏兂蒑IDI裝置。MIDI間靠這個接口傳遞消息(massage)而進行彼此通信。實際上消息是樂譜(score)的數(shù)字描述。77樂譜由音符序列、定時和稱作合成音色(patches)的樂器定義所組成。當一組MIDI消息通過音樂合成芯片演奏時,合成器解釋這些符號,并產(chǎn)生音樂。78第二章音頻信息處理2.1數(shù)字音頻基礎(chǔ)2.2音頻卡的工作原理2.3音頻編碼基礎(chǔ)和標準2.4音樂合成和MIDI2.5語音識別79
語音識別的研究領(lǐng)域比較廣,歸納起來,一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高考語文備考之名著閱讀《鄉(xiāng)土中國》第八章《禮治秩序》內(nèi)容概述及跟蹤訓練(含答案)
- 2025年古典占星測試題及答案
- 2025年海南省歷史試題及答案
- 國開建筑工程施工管理實踐作業(yè)
- 2025年初中人教版七年級下冊語文全冊導學案
- 2025-2030年中國蓖麻粕蛋白粉數(shù)據(jù)監(jiān)測研究報告
- 2025-2030年中國波峰棉數(shù)據(jù)監(jiān)測研究報告
- 2025年幼兒園音樂教學標準教案
- Unit 3 I'm more outgoing than my sister.知識點(1) 訓練(無答案)2025年人教版英語八年級上冊
- 金融行業(yè)區(qū)塊鏈技術(shù)在供應(yīng)鏈金融中的應(yīng)用方案
- 九年級物理上冊22內(nèi)燃機省公開課一等獎新課獲獎?wù)n件
- 2025年個人向企業(yè)借款合同協(xié)議樣本
- (二調(diào))武漢市2025屆高中畢業(yè)生二月調(diào)研考試 英語試卷(含標準答案)+聽力音頻
- 數(shù)學-湖北省武漢市2025屆高中畢業(yè)生二月調(diào)研考試(武漢二調(diào))試題和解析
- 中學家長學校工作方案(10篇)
- 高考地理二輪復習【知識精研】大氣運動規(guī)律-大氣受熱過程與氣溫
- 2025年湖南環(huán)境生物職業(yè)技術(shù)學院單招職業(yè)傾向性測試題庫完整版
- 日內(nèi)交易策略(TBQ版)
- 煤礦常用機電設(shè)備的日常管理-培訓課件
- 2025年新執(zhí)業(yè)醫(yī)師定期考核真題庫附參考答案
- 部編版九年級道德與法治上冊《第二課創(chuàng)新驅(qū)動發(fā)展》同步測試題(附答案)
評論
0/150
提交評論