第5章 數(shù)據(jù)音頻技術(shù).ppt_第1頁
第5章 數(shù)據(jù)音頻技術(shù).ppt_第2頁
第5章 數(shù)據(jù)音頻技術(shù).ppt_第3頁
第5章 數(shù)據(jù)音頻技術(shù).ppt_第4頁
第5章 數(shù)據(jù)音頻技術(shù).ppt_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多媒體技術(shù)與應用,第3章 數(shù)據(jù)壓縮技術(shù) 第4章 數(shù)據(jù)存儲技術(shù) 第5章 數(shù)字音頻技術(shù) 第6章 數(shù)字圖形圖像技術(shù) 第7章 數(shù)字視頻技術(shù) 第8章 網(wǎng)絡(luò)多媒體技術(shù) 第9章 多媒體操作系統(tǒng),第5章 數(shù)據(jù)音頻技術(shù),聲音是多媒體技術(shù)研究中的一個重要內(nèi)容。聲音的種類繁多,如人的話音、樂器的聲響、動物的叫聲、機器產(chǎn)生的聲音以及自然界的雷聲、風聲、雨聲、閃電聲等。在用計算機處理這些聲音時,既要考慮它們的共性,又要利用它們各自的特性。 自從1969年Bell實驗室開始數(shù)字語音的研究以來,計算機產(chǎn)生音樂以及語音識別、語音合成技術(shù)得到了越來越廣泛的研究和應用。多媒體數(shù)字音頻處理技術(shù)在音頻數(shù)字化、語音處理、合成及識別等各

2、個方面都有著很好的發(fā)展。,5.1 聲音與聲音信號數(shù)字化,作為一種模擬信號,聲音在時間和振幅上都是連續(xù)的,即它的振幅能以任意精度并在任何一個時刻進行測量。與之不同的是,數(shù)字信號只能在確定的時刻才有意義,其數(shù)值也只能取有限的量。,5.1.1 聲音與聽覺器官,聲音的強弱表現(xiàn)在聲波壓力的大小上,音調(diào)的高低表現(xiàn)在聲音的頻率上。當聲音用電信號表示時,在時間和幅度上都是連續(xù)的模擬信號。對聲音信號的分析表明,聲音信號由許多頻率不同的信號組成,這類信號稱為復合信號,而單一頻率的信號稱為分量信號。聲音信號的一個重要參數(shù)就是帶寬,用來描述組成復合信號的頻率范圍,如高保真聲音的頻率范圍為1020000Hz,帶寬約為2

3、0kHz,而視頻信號的帶寬是6MHz。,5.1.1 聲音與聽覺器官,聲音信號的兩個基本參數(shù)是頻率和幅度。信號的頻率是指信號每秒鐘變化的次數(shù),用Hz表示。頻率小于20Hz的信號稱為亞音信號,或稱為次音信號;頻率范圍為20Hz20kHz的信號稱為音頻(Audio)信號。雖然人的發(fā)音器官發(fā)出的聲音頻率大約是803400Hz,但人說話的信號頻率通常為3003000Hz,在這種頻率范圍的信號稱為話音信號;高于20kHz的信號稱為超音頻信號,或稱超聲波信號。一般來說,人的聽覺器官能感知的聲音頻率大約在2020000Hz之間,在這種頻率范圍里感知的聲音幅度大約在0120db之間。多媒體技術(shù)中處理的主要是音頻

4、信號,包括音樂、語音和音效(風雨聲、鳥叫聲、機器聲)等。,5.1.2 模擬信號與數(shù)字信號,大多數(shù)電信號(模擬信號)過去一直是用模擬元部件(如晶體管、變壓器、電阻、電容等)進行處理的。但是,開發(fā)一個具有相當精度、且?guī)缀醪皇墉h(huán)境變化影響的模擬信號處理元部件相當困難,成本也很高。 話音信號是典型的連續(xù)信號,不僅在時間上,而且在幅度上也是連續(xù)的。時間上“連續(xù)”是指在一個指定的時間范圍內(nèi)聲音信號的幅值有無窮多個,在幅度上“連續(xù)”是指幅度的數(shù)值有無窮多個。我們把在時間和幅度上都是連續(xù)的信號稱為模擬信號。,5.1.2 模擬信號與數(shù)字信號,如果把模擬信號轉(zhuǎn)變成數(shù)字信號,用數(shù)字來表示模擬量和對數(shù)字信號做計算,那

5、么開發(fā)模擬運算部件的問題就轉(zhuǎn)變成了開發(fā)數(shù)字運算部件的問題,這就出現(xiàn)了數(shù)字信號處理器(digital signal processor,DSP)。DSP與通用微處理器相比,除了結(jié)構(gòu)不同外,它們的基本差別是,DSP有能力響應和處理采樣模擬信號得到的數(shù)據(jù)流,如做乘法和累加求和運算等。,5.1.2 模擬信號與數(shù)字信號,在數(shù)字環(huán)境進行信號處理的主要優(yōu)點是:首先,數(shù)字信號計算是一種精確的運算方法,它不受時間和環(huán)境變化的影響;其次,表示部件功能的數(shù)學運算不是物理上實現(xiàn)的功能部件,而僅僅是用數(shù)學運算來模擬,相對容易實現(xiàn);此外,可以對數(shù)字運算部件進行編程,如欲改變算法或改變某些功能,還可對數(shù)字部件進行再編程。,

6、5.1.3 聲音信號數(shù)字化,計算機要處理或合成聲音,就必須把模擬的(連續(xù)的)聲音波形轉(zhuǎn)換成數(shù)字(離散化),這個過程稱為聲音采樣(圖5-1),它是把連續(xù)的聲波信號通過一種稱為模數(shù)(A/D)轉(zhuǎn)換器的部件轉(zhuǎn)換成數(shù)字信號,供計算機處理,如果需要的話,這種轉(zhuǎn)換后的數(shù)字信號又可以通過數(shù)模轉(zhuǎn)換(D/A)器,經(jīng)過放大輸出,變成人耳能夠聽到的聲音。,圖5-1 聲音信號數(shù)字化的過程,5.1.3 聲音信號數(shù)字化,連續(xù)時間的離散化通過采樣來實現(xiàn),就是每隔相等的一小段時間采樣一次,這種采樣稱為均勻采樣;連續(xù)幅度的離散化通過量化來實現(xiàn),就是把信號的強度劃分成一小段一小段,如果幅度的劃分是等間隔的,就稱為線性量化,否則就稱

7、為非線性量化。圖5-2表示了聲音數(shù)字化的概念。,圖5-2 聲音的采樣和量化,5.1.3 聲音信號數(shù)字化,我們把時間和幅度都用離散的數(shù)字表示的信號稱為數(shù)字信號。聲音數(shù)字化需要回答兩個問題: 每秒鐘采集多少個聲音樣本,也就是采樣頻率是多少; 每個聲音樣本的位數(shù)(bit per sample,bps)應該是多少,也就是量化精度。 采樣的速度決定了錄制聲音的準確性,而采樣值的精度則決定了錄制聲音的精確性。實踐證明,采樣速度越快,采樣值越準確,聲音特征復原得就會越好。,5.1.3 聲音信號數(shù)字化,常用的幾種音頻信號數(shù)字化的采樣率標準是:44.2kHz(CD音質(zhì))、22.05kHz(FM音質(zhì))、11.02

8、5kHz(AM音質(zhì))等。為了追求音響品質(zhì)的完美,減少噪聲的干擾,達到理想的傳播聲音的環(huán)境,國際上制定了一系列判斷音質(zhì)的標準,圖5-3給出了幾種數(shù)字聲音質(zhì)量等級的國際標準所對應的頻率范圍。,圖5-3 數(shù)字聲音質(zhì)量等級對應的頻率范圍,5.1.3 聲音信號數(shù)字化,樣本大小是用每個聲音樣本的位數(shù)(bit/s或b/s)表示的,它反映度量聲音波形幅度的精度。例如,每個聲音樣本用16位(2字節(jié))表示,測得的聲音樣本值是在065 536的范圍里,它的精度就是輸入信號的1/65536。樣本位數(shù)的大小影響到聲音的質(zhì)量,位數(shù)越多,聲音的質(zhì)量越高,而需要的存儲空間也越多;位數(shù)越少,聲音的質(zhì)量越低,需要的存儲空間越少。

9、 采樣精度的另一種表示方法是信號噪聲比。,5.1.3 聲音信號數(shù)字化,原始的音頻數(shù)據(jù)一般需進行編輯加工才能使用。通過編輯可以實現(xiàn)各種聲音混合以及消除或降低聲音中的畸變等。一般的音頻編輯軟件都具有設(shè)置音量、漸強漸弱處理及多通道混合等常用功能。音頻處理主要集中在音頻壓縮上,最新的語音壓縮算法可將原始聲音數(shù)據(jù)壓縮6 8倍以上。,5.1.4 聲音質(zhì)量與數(shù)據(jù)率,數(shù)字化音頻的質(zhì)量取決于采樣頻率和量化位數(shù)這兩個重要參數(shù),反映音頻數(shù)字化質(zhì)量的另一個因素是通道(或聲道)個數(shù)。記錄聲音時,如果每次生成一個聲波數(shù)據(jù),稱為單聲道;每次生成二個聲波數(shù)據(jù),稱為立體聲(雙聲道),立體聲更能反映人的聽覺感受。音頻數(shù)字化的采樣

10、頻率和量化級越高,結(jié)果越接近原始聲音,除此之外,數(shù)字化音頻的質(zhì)量還受其他一些因素(如揚聲器的質(zhì)量等)的影響。 根據(jù)聲音的頻帶,通常把聲音的質(zhì)量分成5個等級,由低到高分別是電話、調(diào)幅廣播(AM)、調(diào)頻廣播(FM)、光盤(CD)和數(shù)字錄音帶(digital audio tape,DAT)的聲音。在這 5個等級中,使用的采樣頻率、樣本精度、通道數(shù)和數(shù)據(jù)率見表5-1。,表5-1 聲音質(zhì)量和數(shù)據(jù)率,5.2 音樂合成和MIDI,多媒體音頻數(shù)據(jù)的一個重要來源是MIDI(樂器數(shù)字接口)。從20世紀80年代初期開始,MIDI逐步為音樂界廣泛接受和使用。MIDI是樂器和計算機使用的標準語言,是一套指令(即命令)的

11、約定,它指示樂器(即MIDI設(shè)備)要做什么,怎么做,如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號,它傳送的是發(fā)給MIDI設(shè)備或其他裝置讓其產(chǎn)生聲音或執(zhí)行某個動作的指令。,5.2 音樂合成和MIDI,作為數(shù)字音樂的一個國際標準,MIDI標準規(guī)定了電子樂器與計算機之間傳送數(shù)據(jù)的通信協(xié)議等規(guī)范。MIDI標準使不同廠家生產(chǎn)的電子合成樂器可以互相發(fā)送和接收音樂數(shù)據(jù)。隨著MIDI標準的施行,計算機成為電子合成樂器間的控制環(huán)節(jié),出現(xiàn)了大量可進行記錄、存儲、編輯和播放樂譜(音符表或音符序列)的計算機軟件。 MIDI音頻的處理過程如圖5-4所示,其主要優(yōu)點是: 1)生成的文件比較小。由于MIDI文

12、件存儲的是命令,而不是聲音本身,因此它比較節(jié)省空間。例如,同樣半小時的立體聲音樂,MIDI文件只有200KB左右,而波形文件(WAV)則要差不多300MB。,圖5-4 MIDI音頻的處理過程,5.2 音樂合成和MIDI,2)容易編輯。因為編輯命令比編輯聲音波形要容易得多。 3)可以作為背景音樂。MIDI音樂可以和其他的媒體,如數(shù)字電視、圖形、動畫、話音等一起播放,這樣可以加強演示效果。 產(chǎn)生MIDI樂音的方法很多,主要有兩種:一種是頻率調(diào)制(frequency modulation,F(xiàn)M)合成法,另一種是樂音樣本合成法,也稱為波形表(wave table)合成法。,5.3 數(shù)碼音樂MP3,MP

13、3的全稱是MPEG-1 Layer3音頻文件。MPEG-1是活動影音壓縮標準,其中的聲音部分稱為MPEG-1音頻層,它根據(jù)壓縮質(zhì)量和編碼復雜度劃分為三層,即Layer1、Layer2和Layer3,分別對應MP1、MP2和MP3這3種聲音文件,并根據(jù)不同的用途,使用不同層次的編碼。MPEG音頻編碼的層次越高,對應的編碼器越復雜,壓縮率也越高,MP1和MP2的壓縮率分別為4:1和6:1 8:1,而MP3的壓縮率則高達10:1 12:1。也就是說,分鐘CD音質(zhì)的音樂,未經(jīng)壓縮需要10MB的存儲空間,而經(jīng)過MP3壓縮編碼后只有1MB左右。,5.3 數(shù)碼音樂MP3,不過MP3對音頻信號采用的是有損壓縮

14、方式,為了降低失真度,MP3采取了“感官編碼技術(shù)”,即編碼時先對音頻文件進行頻譜分析,然后用過濾器濾掉噪音電平,再通過量化的方式將剩下的每一位打散排列,最后形成具有較高壓縮比的MP3文件,使壓縮后的文件在回放時能達到比較接近原音源的聲音效果。雖然它是一種有損壓縮方式,但它以極小的聲音失真換取了較高的壓縮比,使得MP3能夠在因特網(wǎng)上廣泛傳播。,5.3 數(shù)碼音樂MP3,MP3這種壓縮比非常高的數(shù)字音頻文件不僅能在網(wǎng)上傳播,而且還能容易地下載到便攜式數(shù)字音頻設(shè)備(MP3隨身聽)中。MP3隨身聽基于DSP(數(shù)字信號處理器),無需計算機支持便可以實現(xiàn)MP3文件的存儲、解碼和播放。事先可以將創(chuàng)建好的MP3

15、文件從計算機或因特網(wǎng)上下載到MP3隨身聽內(nèi)置的存儲器中,當從中選擇播放一首MP3歌曲時,文件數(shù)據(jù)將被傳送給DSP,通過它來對文件進行解壓縮。所需的解壓縮軟件被置入DSP處理器內(nèi)部,或者存放在存儲體中。DSP將處理完的數(shù)據(jù)傳給數(shù)模轉(zhuǎn)換器,它將二進制的數(shù)碼信息轉(zhuǎn)換成模擬信號,然后再輸出到耳機或揚聲器中。,5.4 語音信號與處理,語音是人類溝通的主要方式,可以被人或機器來處理,后者就稱為數(shù)字語音處理。 語音理解意味著要有效地適應說話人及其說話習慣,包括不同方言和情緒化的發(fā)音。語音信號有兩個重要的特點可以用在語音處理應用中: 1)濁語音信號(相對于清語音)在某一個確定的時間間隔上有一個幾乎是周期性的結(jié)

16、構(gòu),因此這種信號保持大約30ms的準穩(wěn)態(tài)。 2)一些聲音的頻譜具有特征最大值,通常包括多達5個頻率。這些在說話時生成的頻率最大值被稱作共振峰。根據(jù)定義,共振峰是一段語音質(zhì)量的特征成分。,5.4.1 語音輸出,語音輸出涉及到機器如何生成語音的問題,在這方面的主要挑戰(zhàn)是,如何使得語音輸出系統(tǒng)能夠?qū)崟r地生成語音信號,例如,自動地把文字轉(zhuǎn)化為語音。某些應用(如語音報時)采用有限的詞匯表來處理這一任務,但大多數(shù)采用的是廣泛的詞匯表。 機器輸出的語音必須是可以聽懂的,而且應該聽起來很自然。其中可懂性是強制而自然的事情,可以增加用戶的接受度。,5.4.1 語音輸出,與語音輸出相關(guān)的幾個重要術(shù)語是: 1)語音

17、基本頻率,是語音信號中最低周期信號部分。它體現(xiàn)在嗓音中。 2)音素,是最小的語音單位之一,用于區(qū)分語言或方言中的兩個發(fā)音。它是最小的有意義的語言學單位,但并不攜帶內(nèi)容。 3)音位變體,確定了作為語音環(huán)境的函數(shù)的音素變化。 4)詞素,是有意義的語音學單位,在自由或受限的形式中都包含的最小且有意義的部分。 5)嗓音,由聲帶的振動產(chǎn)生。嗓音強烈地依賴于說話者。 6)非嗓音,由聲帶張開產(chǎn)生,這些聲音相對獨立于說話者。,5.4.2 語音合成,音頻技術(shù)的一個重要方面是語音合成,即將普通正文合成為語音。如圖5-5所示。,圖5-5 使用時間域聲音連接的語音合成系統(tǒng),5.4.2 語音合成,第一步涉及到轉(zhuǎn)錄,或?qū)?/p>

18、文本翻譯成相應的音標。大部分方法使用一個包含大量單詞或僅僅是音節(jié)或音調(diào)組的詞典。這樣的詞典創(chuàng)建非常復雜,可以是單獨實現(xiàn)的或是幾個人使用的普通詞典,其質(zhì)量可通過相互作用的用戶干預而不斷提高。這意味著由用戶識別出轉(zhuǎn)換公式的缺陷,人工地改進發(fā)音,他們的發(fā)現(xiàn)逐漸成為詞典的一個集成部分。 第二步將音素記錄轉(zhuǎn)換成聲學的語音信號,其中連接可以發(fā)生在時域或頻域。通常第一步用軟件來解決,第二步則涉及信號處理器或?qū)iT的處理器。,5.4.2 語音合成,除了副發(fā)音和韻律產(chǎn)生的問題外,語音識別還必須注意發(fā)音模糊問題。解決這個問題的惟一方式就是提供有關(guān)上下文的附加信息。,5.4.3 語音輸入與識別,在語音輸入處理的各種應

19、用中,需要正確回答3個問題,即: 1)誰?語音輸入依賴說話者的某種特性,這意味著語音輸入能識別出說話者。計算機可用于識別說話者的聲音指紋。 2)什么?語音輸入的關(guān)鍵是檢測語音內(nèi)容本身。通常輸入的語音序列產(chǎn)生一塊文本。典型的應用有語言翻譯系統(tǒng)。 3)怎么樣?第三個問題有關(guān)如何研究語音采樣。其典型應用如測謊儀。 音頻技術(shù)中難度最大、也最具應用前景的當屬語音識別,其潛在的商業(yè)應用前景使之一直是音頻技術(shù)研究關(guān)注的熱點。語音識別和語音合成相結(jié)合,實現(xiàn)了媒體轉(zhuǎn)換。,5.4.3 語音輸入與識別,語音識別一般是通過各種比較來完成的。利用現(xiàn)有技術(shù),可以實現(xiàn)一個包含有大約25 000詞匯的依賴于講話者的識別系統(tǒng)。

20、語音識別中影響識別質(zhì)量的問題主要是方言、情緒化的發(fā)音以及環(huán)境噪聲等。要改善語音識別和語音生成的質(zhì)量,需要彌合人類大腦與高性能計算機之間的相當大的性能差異,這仍需要一定的時間。,5.4.3 語音輸入與識別,語音識別的原理如圖5-6所示,是將個人發(fā)音的特殊特征和由以前抽取的語音元素組成的句子做比較。這意味著這些特征通常被量化,用于被研究的語音序列。這結(jié)果與現(xiàn)有的參考做比較,以將它定位于現(xiàn)有的語言單元之一。識別出的言詞作為參數(shù)化的語言單元序列被存儲,傳輸或處理。,圖5-6 語音識別原理,5.4.3 語音輸入與識別,具體操作通常使用專門的元件或信號處理器抽取特征信息。比較和決定一般由系統(tǒng)的主處理器處理

21、,但具有參考特征的詞典通常位于計算機的二級存儲單元。大多數(shù)具體的實現(xiàn)方法在如何定義特征信息時會有所不同。如圖5-7所示。,圖5-7 語音識別組成部分,5.4.3 語音輸入與識別,語音輸入中的一個特殊問題是房間的聲學特性,即環(huán)境噪聲,此外,必須定義字邊界,但這并不容易做到,因為大多數(shù)人說話并不強調(diào)一個字的開始和結(jié)束,同一個字也可以被說得有快有慢。 依賴于特定人的識別系統(tǒng)比獨立于講話者的系統(tǒng)能識別更多的字,但這是以提前“訓練”系統(tǒng)為代價的。為訓練系統(tǒng)使之適應說話者,通常要求他讀特定的語音序列。目前的語音識別系統(tǒng)有大約半個小時的訓練時間。大多數(shù)依賴說話者的系統(tǒng)能識別出25 000個字或者更多,而獨立

22、于說話者的系統(tǒng)則命中率接近l 000個字。注意,現(xiàn)實的系統(tǒng)評估還應包括環(huán)境因素。,5.5 聲音文件的存儲格式,在因特網(wǎng)和各種計算機上使用的聲音文件格式很多,但比較流行的主要是WAV、AU(audio)、AIFF(audio interchangeable file format)和SND(sound)文件格式。WAV格式用于PC機,AU用于Unix工作站,AIFF和SND用于蘋果機和SGI工作站。 為便于讀者辨認文件的屬性,表5-2列出了部分聲音文件的后綴。,表5-2 常見的聲音文件擴展名,5.6 聲 卡,在多媒體計算機中,所有的音樂與音效都需要經(jīng)過聲卡來處理。聲卡使用大規(guī)模集成電路技術(shù),將音

23、頻技術(shù)范圍的各類電路制成芯片而組成,以便直接插入計算機的擴展槽里,使用方便。聲卡的主要工作就是把數(shù)字信號轉(zhuǎn)換成模擬信號,然后送到喇叭上發(fā)出聲音;另一方面,聲卡也可以對計算機上的各種音頻進行“混音”,例如串聯(lián)電子合成樂器,或是從麥克風輸入聲音后與CD音樂一起由喇叭放出來等。,5.6 聲 卡,聲卡通過反復地檢測和記錄聲音信號的幅度來實現(xiàn)稱為“采樣”(實際上每秒種要做幾萬次這樣的操作)的錄音過程,將聲音信號轉(zhuǎn)化為大量的幅度隨時間變化的數(shù)字,并存儲在磁盤上。 播放聲音的過程與錄音正好相反,計算機將一串數(shù)字傳給聲卡,聲卡將它們轉(zhuǎn)換成模擬信號,根據(jù)數(shù)字量的大小改變模擬信號的幅度,經(jīng)放大后由音箱播出。,5.

24、6.1 主要技術(shù)指標,評價聲卡的主要技術(shù)指標是: 1)采樣頻率:為記錄信號的精確細節(jié),聲卡必須以極快的速率進行采樣。聲卡的采樣頻率通常有三個標準:11.025kHz、22.05kHz和44.1kHz,目前一般的聲卡都能達到44.1kHz的采樣頻率。 2)采樣位數(shù)(量化位數(shù)):另一個影響聲音質(zhì)量的重要因素是每個采樣點幅度的準確性。采樣位數(shù)越多,聲音的幅度就會越精確,但占用的存儲空間也就越多。目前通常使用的有8位(低檔)、16位(中檔)和32位(高檔)3種量化精度的聲卡。 3)聲道數(shù):分單聲道和雙聲道,雙聲道可以播放立體聲信號。一般的聲卡都是雙聲道的。,5.6.1 主要技術(shù)指標,4)MIDI(數(shù)字

25、化樂器接口)和游戲桿接口:該接口能夠利用計算機控制和演奏電子樂器,或利用諸如Windows提供的實用程序記錄電子樂器演奏的音樂,然后進行回放。游戲桿接口用來與游戲操縱桿相接,在聲卡上一般與MIDI接口共享。 5)合成器:音色是區(qū)別不同樂器的重要特征之一,聲卡上的合成器能將各種不同頻率的聲音混合起來,形成某種特定樂器的音色。例如安裝在計算機上的控制軟件對于同一組電子琴樂曲,可以同時選擇小號演奏效果和鋼琴演奏效果。 合成器的主要參數(shù)是合成的復音數(shù)和用語音合成的操作數(shù)目。一般有20種復音就可以滿足大多數(shù)用戶的需要了,復音成分越多越適合于專業(yè)音樂工作者。,5.6.1 主要技術(shù)指標,6)內(nèi)部聲音混合調(diào)節(jié)

26、器:主要功能是將來自不同輸入源的聲音信號進行混合和音量調(diào)節(jié)。該混合器可以編程和控制。 7)CD-ROM接口:若用戶需要使用CD-ROM來播放CD、VCD節(jié)目,應將聲卡上的CD-ROM接口和CD-ROM上的聲卡接口用專用的三芯電纜連接起來。連接時應注意各接口的規(guī)格,因為不同的CD-ROM聲卡接口標準可能略有不同。,5.6.2 功能和分類,聲卡的心臟是音效芯片,它有多個音頻接口,通過音頻線和光驅(qū)或其他的音頻輸入相連。一般聲卡上都有CD-ROM接口,在聲卡的檔板上,可以看見一排輸出/入端子及游戲桿連接口。 聲卡的主要功能包括錄音、編輯和回放數(shù)字音頻文件;控制各聲源的音量并加以混合;在記錄和回放數(shù)字音

27、頻文件時進行壓縮和解壓縮;采用語音合成技術(shù)讓計算機朗讀文本;具有初步的語音識別功能;具有MIDI接口、輸出功率放大等。,5.6.2 功能和分類,聲卡主要根據(jù)其數(shù)據(jù)采樣量位數(shù)來確定其分類,通常分為8位、16位和32位等。位數(shù)越大,其量化精度越高,音質(zhì)就越好。聲卡通常帶有自己的CPU,具有較高的智能性和靈活性。聲卡的關(guān)鍵技術(shù)包括數(shù)字音頻、音樂合成、MIDI與音效。數(shù)字音頻部分具有的基本功能有44.1kHz的采樣率,8位以上的分辨率,錄音和播放聲音信號,同時具有壓縮采樣信號的能力。最常用的壓縮方法是自適應脈沖編碼調(diào)制。數(shù)字音頻的實現(xiàn)有不同的方法和芯片,大多數(shù)采用的是CODEC芯片,它具有硬件壓縮功能

28、,部分采用的是DSP+ ADC方法,利用軟件方法壓縮數(shù)字音頻信號。,5.6.2 功能和分類,聲卡上的音樂合成器也有許多不同的類型,目前主要采用兩種合成技術(shù):FM與波形表。波形表合成使用了DSP技術(shù),它要求大容量的ROM,以獲得高質(zhì)量的演奏效果;通用MIDI要求支持128種樂器;不少聲卡采用音效芯片,從硬件上實現(xiàn)回聲、混響、和聲等,使聲卡發(fā)出的聲音更生動。,5.6.2 功能和分類,聲卡的種類很多,其功能不盡相同,但在相應軟件支持下,應具備以下大部分或全部功能: 1)錄制、編輯和回放數(shù)字聲音文件。聲卡可將來自話筒、收錄音機以及激光唱盤等的聲源采樣,保存成數(shù)字文件,并由相應的軟件對聲音文件的數(shù)據(jù)進行

29、編輯、混合或回放。 2)控制、混合各聲源的音量。通常隨聲卡提供的軟件有一個Mixer程序,它顯示有多個滑鍵的控制板,用來控制和混合各聲源的音量,用鼠標可調(diào)節(jié)話筒、激光唱盤和其他音源的輸入音量,以及調(diào)節(jié)MIDI、WAV文件回放和主輸出電路音量,除話筒之外均為雙通道立體聲調(diào)節(jié)。,5.6.2 功能和分類,3)在記錄和回放數(shù)字文件時壓縮和解壓縮。在記錄和回放數(shù)字文件時進行壓縮和解壓縮可以節(jié)省存儲空間。以立體聲為例,其數(shù)字聲音文件每分鐘可占多達10 MB的磁盤空間,因此,聲音文件的壓縮與解壓縮是多媒體領(lǐng)域研究的一個重要課題。一般聲卡的壓縮算法固化在卡上,也有的以軟件形式提供給用戶。,5.6.2 功能和分類,4)采用語音合成技術(shù)讓電腦朗讀文本。在相應軟件的支持下,采用語音合成技術(shù),可讓大部分聲卡朗讀英文或中文文本,用來幫助用戶檢查文章中的句法和語法錯誤,這是一般的拼寫檢查功能所無法做到的。常用的語音合成技術(shù)有兩種:一種是基于字典技術(shù),根據(jù)單詞查到發(fā)音代碼并送到合成器上去,另一種是基于規(guī)則將文本轉(zhuǎn)換成語音。 聲卡一般只能合成英文語音,國內(nèi)在漢語語音識別、漢語語音合成方面做了多年的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論