語(yǔ)音處理的基本知識(shí)_第1頁(yè)
語(yǔ)音處理的基本知識(shí)_第2頁(yè)
語(yǔ)音處理的基本知識(shí)_第3頁(yè)
語(yǔ)音處理的基本知識(shí)_第4頁(yè)
語(yǔ)音處理的基本知識(shí)_第5頁(yè)
已閱讀5頁(yè),還剩86頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于語(yǔ)音處理的基本知識(shí)第一頁(yè),共92頁(yè)幻燈片音頻處理技術(shù)的研究意義聲音(音頻)是信息交流的一種主要手段,是數(shù)字媒體信息的重要組成部分;信息技術(shù)、計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,使音頻處理技術(shù)受到重視并得到廣泛應(yīng)用,需求也日益多樣。第二頁(yè),共92頁(yè)幻燈片2.1數(shù)字音頻基礎(chǔ)聲音的物理描述產(chǎn)生原理物理特性聽(tīng)覺(jué)特性聲音信號(hào)數(shù)字化聲音質(zhì)量評(píng)價(jià)第三頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介音頻信號(hào)聲音是聽(tīng)覺(jué)器官對(duì)聲波的感知,人們之所以能聽(tīng)到各種聲音,是因?yàn)椴煌l率的聲波通過(guò)空氣產(chǎn)生振動(dòng),對(duì)人耳刺激的結(jié)果。聲波是聲源產(chǎn)生的,通過(guò)空氣或其他媒體傳播的連續(xù)振動(dòng)的波。因聲波是在時(shí)間和幅度上都連續(xù)變化的量,聲波是一種連續(xù)變化的模擬信號(hào),可用一條連續(xù)的曲線(xiàn)來(lái)表示,稱(chēng)為聲波,或者叫做音頻信號(hào)。第四頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介用函數(shù)關(guān)系表示模擬聲波時(shí),它是在時(shí)間和幅度上都是連續(xù)的一維模擬信號(hào),如圖1所示

圖1聲音是一種連續(xù)的波第五頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介模擬音頻信號(hào)基本參數(shù):頻率和幅度。音頻信號(hào)的幅度是從信號(hào)的基線(xiàn)到當(dāng)前波峰的距離。幅度決定了信號(hào)音量的強(qiáng)弱程度。幅度越大,聲音越強(qiáng)。一般用聲壓(達(dá)因/平方厘米)或聲強(qiáng)(瓦特/平方厘米)。聲源每秒鐘可產(chǎn)生成百上千個(gè)波峰,每秒鐘波峰所發(fā)生的數(shù)目就是音頻信號(hào)的頻率,聲音的頻率體現(xiàn)音調(diào)的高低。聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上,音調(diào)的高低體現(xiàn)在聲音的頻率上。第六頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介聲音的量化參數(shù):

強(qiáng)度:dB動(dòng)物的呼吸聲大約為20dB,人們正常談話(huà)的聲音約為60dB,汽車(chē)?guó)Q笛的聲音約為100dB,飛機(jī)起飛的聲音約為120dB,超過(guò)120dB會(huì)使人感到痛苦。

頻率:Hz高保真聲音(high-fidelityaudio):10~20000Hz聲音(audio):20~20000Hz話(huà)音(speech):300~3000/3400Hz亞音/次音(subsonic):<20Hz超聲(ultrasonic):>20000Hz相位:波的位置。復(fù)雜的聲音是由多個(gè)不同振幅、頻率、相位的正弦波組成第七頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介聲音的聽(tīng)覺(jué)特性:目前主要研究人的心理聲學(xué)和語(yǔ)言聲學(xué)特性。聽(tīng)覺(jué)心理的主觀(guān)感受包括:響度、音高、音色、音量、噪聲、聽(tīng)覺(jué)掩蔽、定位等。第八頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介對(duì)響度的感知聲音的響度就是聲音的強(qiáng)弱在物理上,用dyn/cm2(達(dá)因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘米)(聲強(qiáng))度量在心理上,主觀(guān)感覺(jué)的聲音強(qiáng)弱使用響度級(jí)“方(phon)”或“宋(sone)”來(lái)度量這兩種計(jì)量單位完全不同,但它們之間有一定的聯(lián)系人耳的聽(tīng)覺(jué)范圍聽(tīng)閾:當(dāng)聲音弱到人耳朵剛可聽(tīng)見(jiàn)時(shí)的聲音強(qiáng)度痛域:聲音強(qiáng)到使人耳感到疼痛時(shí)的聲音強(qiáng)度聽(tīng)覺(jué)范圍:位于聽(tīng)閾和痛域之間,見(jiàn)圖2第九頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介圖2“聽(tīng)閾—頻率”曲線(xiàn)和“痛閾—頻率”曲線(xiàn)第十頁(yè),共92頁(yè)幻燈片(1)

聲音簡(jiǎn)介對(duì)音高(頻率)的感知客觀(guān)上用頻率表示聲音的音高,其單位是Hz。而主觀(guān)感覺(jué)的音高單位則是“美(Mel)”。Hz和Mel不同但有聯(lián)系主觀(guān)音高與客觀(guān)音高的關(guān)系為其中,f的單位為Hz,人耳對(duì)頻率的感知范圍,可以聽(tīng)到最低頻率約20Hz最高頻率約20000Hz

第十一頁(yè),共92頁(yè)幻燈片(1)

聲音簡(jiǎn)介測(cè)量主觀(guān)音高時(shí),讓實(shí)驗(yàn)者聽(tīng)兩個(gè)聲強(qiáng)級(jí)為40dB的純音,固定其中一個(gè)純音的頻率,調(diào)節(jié)另一個(gè)純音的頻率,直到他感到后者的音高為前者的兩倍,就標(biāo)定這兩個(gè)聲音的音高差為兩倍。測(cè)出的“音高—頻率”曲線(xiàn)見(jiàn)圖3圖3“音高—頻率”曲線(xiàn)第十二頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介掩蔽效應(yīng)一種頻率的聲音阻礙聽(tīng)覺(jué)系統(tǒng)感受另一種頻率的聲音的現(xiàn)象前者稱(chēng)為掩蔽聲音(maskingtone)后者稱(chēng)為被掩蔽聲音(maskedtone)掩蔽可分成頻域掩蔽和時(shí)域掩蔽第十三頁(yè),共92頁(yè)幻燈片(1)

聲音簡(jiǎn)介圖4頻域掩蔽頻域掩蔽一個(gè)強(qiáng)純音掩蔽在其附近同時(shí)發(fā)聲的弱純音的特性,也稱(chēng)同時(shí)掩蔽(simultaneousmasking),如圖4所示第十四頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介圖5中的一組曲線(xiàn)表示為250Hz,1kHz和4kHz純音的掩蔽效應(yīng),它們的聲強(qiáng)均為60dB250Hz,1kHz和4kHz附近,對(duì)其他純音的掩蔽效果最明顯低頻純音可有效地掩蔽高頻純音,相反則不明顯圖5不同純音的掩蔽效應(yīng)曲線(xiàn)第十五頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介時(shí)域掩蔽在時(shí)間上相鄰的聲音之間的掩蔽現(xiàn)象一個(gè)強(qiáng)掩蔽音出現(xiàn)前、同時(shí)存在時(shí)或消失后的掩蔽效果產(chǎn)生時(shí)域掩蔽的主要原因人的大腦處理信息需要花費(fèi)一定的時(shí)間第十六頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介同時(shí)掩蔽(simultaneousmasking):信號(hào)和掩蔽音同時(shí)產(chǎn)生的現(xiàn)象滯后掩蔽(post-masking):信號(hào)出現(xiàn)在掩蔽音消失后出現(xiàn)的現(xiàn)象,可以持續(xù)50~200ms超前掩蔽(pre-masking):信號(hào)出現(xiàn)在掩蔽音出現(xiàn)之前產(chǎn)生的現(xiàn)象。雖然對(duì)超前掩蔽有許多研究報(bào)告,但這種現(xiàn)象依然令人費(fèi)解。超前掩蔽很短,通常只有大約2~20ms,第十七頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介臨界頻帶(criticalband)當(dāng)噪聲掩蔽純音時(shí),起作用的是以純音頻率為中心頻率的一定頻帶寬度內(nèi)的噪聲頻率。如這頻帶內(nèi)的噪聲功率等于在噪聲中剛能聽(tīng)到的該純音的功率,則這頻帶就稱(chēng)為聽(tīng)覺(jué)臨界頻帶。臨界頻帶表征了人類(lèi)最主要的聽(tīng)覺(jué)特性,它是在研究純音對(duì)窄帶噪聲掩蔽量的規(guī)律時(shí)被發(fā)現(xiàn)的,在加寬噪聲帶寬時(shí),最初是掩蔽量增大,但帶寬超過(guò)某一定值后,掩蔽量就不再增加,這一帶寬就稱(chēng)為臨界頻帶。通常認(rèn)為聲音(audio)有25個(gè)臨界頻帶,見(jiàn)表臨界頻帶的寬度隨聲音頻率的變化而變化第十八頁(yè),共92頁(yè)幻燈片(1)聲音簡(jiǎn)介第十九頁(yè),共92頁(yè)幻燈片(2)

模擬音頻的數(shù)字化數(shù)字化的概念如果要用計(jì)算機(jī)對(duì)音頻信息進(jìn)行處理,則首先要通過(guò)A/D(模/數(shù))轉(zhuǎn)換將模擬音頻信號(hào)變成數(shù)字信號(hào),實(shí)現(xiàn)音頻信號(hào)的數(shù)字化。數(shù)字化的聲音易于用計(jì)算機(jī)軟件處理,現(xiàn)在幾乎所有的專(zhuān)業(yè)化聲音錄制器、編輯器都是數(shù)字的。對(duì)模擬音頻的數(shù)字化過(guò)程涉及到音頻的采樣、量化和編碼。當(dāng)需要播放數(shù)字音頻時(shí),按照相反過(guò)程還原回模擬音頻第二十頁(yè),共92頁(yè)幻燈片聲音信號(hào)的數(shù)字化過(guò)程模擬聲音信號(hào)采樣量化編碼數(shù)字聲音011010011101……第二十一頁(yè),共92頁(yè)幻燈片(a)采樣和量化連續(xù)時(shí)間的離散化通過(guò)采樣來(lái)實(shí)現(xiàn),就是每隔相等的一段時(shí)間采樣一次,這種采樣稱(chēng)為均勻采樣連續(xù)幅度的離散化通過(guò)量化(quantization)來(lái)實(shí)現(xiàn),就是把信號(hào)的強(qiáng)度劃分成一小段一小段,如果幅度的劃分是等間隔的,就稱(chēng)為線(xiàn)性量化,否則就稱(chēng)為非線(xiàn)性量化。第二十二頁(yè),共92頁(yè)幻燈片圖7聲音的采樣、量化、編碼第二十三頁(yè),共92頁(yè)幻燈片(2)

模擬音頻的數(shù)字化影響數(shù)字音頻質(zhì)量的因素:采樣精度采樣頻率聲道個(gè)數(shù)第二十四頁(yè),共92頁(yè)幻燈片(2)

模擬音頻的數(shù)字化采樣頻率采樣頻率由根據(jù)奈奎斯特理論(Nyquisttheory)確定奈奎斯特理論指出,采樣頻率不應(yīng)低于聲音信號(hào)最高頻率的兩倍,這樣就能把以數(shù)字表達(dá)的聲音還原成原來(lái)的聲音,這叫做無(wú)損數(shù)字化(losslessdigitization)假設(shè)被采樣信號(hào)的最高頻率為fmax,則采樣定律可用公式表示為第二十五頁(yè),共92頁(yè)幻燈片(2)

模擬音頻的數(shù)字化采樣精度度量聲音波形幅度的精確程度,用每個(gè)聲音樣本的位數(shù)表示例如每個(gè)聲音樣本用16位表示,測(cè)得的聲音樣本值是在[0~65535]范圍里的數(shù),它的精度是1/65536精度是在模擬信號(hào)數(shù)字化過(guò)程中度量模擬信號(hào)的最小單位,因此也稱(chēng)量化階(quantizationstepsize)0~1V的電壓用256個(gè)數(shù)表示時(shí),量化階等于1/256V樣本位數(shù)的大小影響到聲音的質(zhì)量,位數(shù)越多,聲音質(zhì)量越高,所需存儲(chǔ)空間也越多;位數(shù)越少,聲音質(zhì)量就越低,所需存儲(chǔ)空間也越少第二十六頁(yè),共92頁(yè)幻燈片(2)

模擬音頻的數(shù)字化聲音質(zhì)量和數(shù)據(jù)率——質(zhì)量度量質(zhì)量采樣頻率(kHz)樣本精度(bit/s)單道聲/立體聲(未壓縮的)數(shù)據(jù)率(kb/s)頻率范圍(Hz)電話(huà)*88單道聲64.0200~3400AM11.0258單道聲88.220~15000FM22.05016立體聲705.650~7000CD44.116立體聲1411.220~20000DAT4816立體聲1536.020~20000第二十七頁(yè),共92頁(yè)幻燈片(b)編碼

所謂編碼,就是按照一定的格式把經(jīng)過(guò)采樣和量化得到的離散數(shù)據(jù)記錄下來(lái),用二進(jìn)制數(shù)據(jù)表示,以后續(xù)達(dá)到可以形成數(shù)據(jù)文件進(jìn)行存儲(chǔ)的目的。并在有效的數(shù)據(jù)中加入一些用于糾錯(cuò)同步和控制的數(shù)據(jù)。在數(shù)據(jù)回放時(shí),可以根據(jù)所記錄的糾錯(cuò)數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是否有錯(cuò),如果有錯(cuò),可加以糾正。音頻信號(hào)編碼常用的是波形編碼方法,它是直接對(duì)波形采樣、量化和編碼,算法簡(jiǎn)單,易于實(shí)現(xiàn)。而且,聲音恢復(fù)時(shí)能保持原有的特點(diǎn),因此被廣泛應(yīng)用。此外還有參數(shù)編碼、混合編碼等。(2)

模擬音頻的數(shù)字化第二十八頁(yè),共92頁(yè)幻燈片編碼方法(1)PCM(PulseCodeModulation)脈沖編碼調(diào)制PCM簡(jiǎn)稱(chēng)脈碼調(diào)制,可以直接對(duì)聲音信號(hào)做A/D轉(zhuǎn)換,用一組二進(jìn)制數(shù)字編碼表示,得到的是未經(jīng)壓縮的音頻數(shù)據(jù)。這是一種最常用、最簡(jiǎn)單的編碼方法。PCM編碼方法不需要復(fù)雜的信號(hào)處理技術(shù)就能實(shí)現(xiàn)瞬時(shí)的數(shù)據(jù)的量化和還原,而且信噪比高。在解碼后恢復(fù)的聲音,只要采樣頻率足夠高,量化位數(shù)足夠多,就會(huì)有很好的質(zhì)量。但是,這種對(duì)聲音信號(hào)直接量化的方法編碼數(shù)據(jù)量很大,需要很高的傳輸速率。第二十九頁(yè),共92頁(yè)幻燈片編碼方法PCM是概念上最簡(jiǎn)單、理論上最完善、最早研制成功、使用最為廣泛、數(shù)據(jù)量最大的編碼系統(tǒng)。目前的聲卡一般都具有PCM編碼和解碼的功能。激光唱盤(pán)(CD-DA)記錄聲音時(shí)就采用這種方法,存儲(chǔ)未經(jīng)壓縮的數(shù)字音頻信號(hào)。第三十頁(yè),共92頁(yè)幻燈片編碼方法算法思想:首先對(duì)音頻信號(hào)進(jìn)行μ律或A律壓擴(kuò),也就是放大小信號(hào),抑制大信號(hào),然后進(jìn)行均勻量化,等效于對(duì)小信號(hào)進(jìn)行小量化級(jí)量化,對(duì)大信號(hào)進(jìn)行大量化級(jí)量化,使大小信號(hào)的量化信噪比趨于接近,從而避免了小信號(hào)產(chǎn)生較大的量化噪聲誤差,而大信號(hào)卻有不必要的高量化信噪比。第三十一頁(yè),共92頁(yè)幻燈片編碼方法——脈沖編碼調(diào)制(PCM)輸入是模擬信號(hào),輸出是PCM樣本。防失真濾波器:低通濾波器,用來(lái)濾除聲音頻帶以外的信號(hào)波形編碼器:可理解為采樣器量化器:可理解為“量化階大小(step-size)”生成器或者稱(chēng)為“量化間隔”生成器。PCM實(shí)際上是模擬信號(hào)數(shù)字化。第三十二頁(yè),共92頁(yè)幻燈片量化的方法:均勻量化、非均勻量化均勻量化采用相等的量化間隔/等分尺度量采樣得到的信號(hào)幅度,也稱(chēng)為線(xiàn)性量化。量化后的樣本值Y和原始值X的差E=Y-X稱(chēng)為量化誤差或量化噪聲。

均勻量化編碼方法第三十三頁(yè),共92頁(yè)幻燈片編碼方法非均勻量化大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小的量化間隔可在滿(mǎn)足精度要求的情況下用較少的位數(shù)來(lái)表示聲音數(shù)據(jù)還原時(shí),采用相同的規(guī)則

非均勻量化第三十四頁(yè),共92頁(yè)幻燈片編碼方法——DPCM(DifferentialPulseCodeModulation)差分脈沖編碼調(diào)制

DPCM編碼是利用音頻信號(hào)的相關(guān)性,通過(guò)只傳輸聲音的預(yù)測(cè)值和樣本值的差值來(lái)降低音頻數(shù)據(jù)的編碼率的一種方法。它采用預(yù)測(cè)編碼技術(shù),實(shí)現(xiàn)音頻數(shù)據(jù)的壓縮編碼。因?yàn)橐纛l信號(hào)一般不會(huì)發(fā)生突然變化,相鄰的語(yǔ)音采樣值之間存在很大的相關(guān)性,從一個(gè)采樣值到相鄰的另一個(gè)采樣值的差值要比樣值本身小得多。利用預(yù)測(cè)編碼方法建立預(yù)測(cè)模型,通過(guò)預(yù)測(cè)器對(duì)未來(lái)的樣本進(jìn)行預(yù)測(cè),然后對(duì)樣本值與預(yù)測(cè)器得到的預(yù)測(cè)值之差進(jìn)行量化和傳輸。由于這個(gè)差值的幅度遠(yuǎn)遠(yuǎn)小于樣本值本身,需要較少的比特?cái)?shù)來(lái)表示,這樣可以降低數(shù)據(jù)的編碼率,從而使編碼數(shù)據(jù)得到壓縮。第三十五頁(yè),共92頁(yè)幻燈片編碼方法——ADPCM(AdaptiveDifferentialPulseCodeModulation)自適應(yīng)差分編碼調(diào)制在實(shí)際使用中,由于輸入信號(hào)的不穩(wěn)定性,造成DPCM方法的信噪比大大降低。因此在DPCM編碼中加入自適應(yīng)的方法,就形成了自適應(yīng)差分編碼調(diào)制(ADPCM)方案。所以,ADPCM是對(duì)DPCM方法的改進(jìn),通過(guò)調(diào)整量化步長(zhǎng),對(duì)不同的頻段設(shè)置不同的量化字長(zhǎng),可使數(shù)據(jù)得到進(jìn)一步壓縮。

ADPCM壓縮方案壓縮倍率可達(dá)2~5倍,信噪比高,性能優(yōu)越,因此,多媒體計(jì)算機(jī)所獲得的數(shù)字化的聲音信息大都采用此壓縮方法。MPC的音頻卡也提供有ADPCM算法,如將16位的采樣值壓縮成4位,將8位的采樣值壓縮成4位、3位或2位。第三十六頁(yè),共92頁(yè)幻燈片音頻信號(hào)編碼算法名稱(chēng)碼速率標(biāo)準(zhǔn)應(yīng)用波形編碼PCM壓擴(kuò)64kbpsG.711電話(huà)、公共網(wǎng)ADPCM自適應(yīng)差分量化32kbpsG.721SB-ADPCM子帶-自適應(yīng)差分量化64kbpsG.7225.3kbps6.3kbpsG.723參數(shù)編碼LPC線(xiàn)性預(yù)測(cè)編碼2.4-16kbpsFS1015保密、衛(wèi)星通信混合編碼CELPC碼激勵(lì)LPC4.6kbpsIS95移動(dòng)通信VSELP矢量和激勵(lì)LPC8kbps語(yǔ)音郵件LD-CELP低延時(shí)碼激勵(lì)LPC8kbpsG.729移動(dòng)通信MPEG多子帶、感知編碼128kbpsMPEG1,2,H.261DVD、運(yùn)動(dòng)圖像伴音第三十七頁(yè),共92頁(yè)幻燈片音頻信號(hào)編碼編碼后形成二進(jìn)制數(shù)據(jù),就可以在計(jì)算機(jī)上進(jìn)行存儲(chǔ)、傳輸和處理,即數(shù)字音頻語(yǔ)音信號(hào)存在多種冗余度,可以進(jìn)行壓縮。時(shí)域冗余度頻域冗余度聽(tīng)覺(jué)特性冗余度第三十八頁(yè),共92頁(yè)幻燈片(3)

聲音質(zhì)量的評(píng)價(jià)——數(shù)字音頻信息的質(zhì)量與存儲(chǔ)量采樣、量化和編碼技術(shù)是音頻數(shù)字化的關(guān)鍵技術(shù)。而采樣頻率、每個(gè)采樣值的量化位數(shù)以及音頻信息的聲道數(shù)目,是影響數(shù)字化音頻信息質(zhì)量和容量的三個(gè)重要因素。采樣頻率越高、量化為數(shù)越大、聲道數(shù)目越多,音頻的質(zhì)量就越高,但存儲(chǔ)量就越大。第三十九頁(yè),共92頁(yè)幻燈片(3)聲音質(zhì)量的評(píng)價(jià)——音頻質(zhì)量的評(píng)價(jià)(a)客觀(guān)質(zhì)量的度量對(duì)聲波的測(cè)量包括評(píng)價(jià)值的測(cè)量、聲源的測(cè)量和音質(zhì)的測(cè)量,其測(cè)量與分析工作,是使用帶計(jì)算機(jī)處理系統(tǒng)的高級(jí)聲學(xué)測(cè)量?jī)x器來(lái)完成。度量聲音客觀(guān)質(zhì)量的一個(gè)主要指標(biāo)是信噪比SNR(SignaltoNoiseRation),信噪比是有用信號(hào)與噪聲之比的簡(jiǎn)稱(chēng),其單位是分貝(dB)。信噪比越大,聲音質(zhì)量越好。第四十頁(yè),共92頁(yè)幻燈片(3)聲音質(zhì)量的評(píng)價(jià)——音頻質(zhì)量的評(píng)價(jià)(b)主觀(guān)質(zhì)量的度量采用客觀(guān)標(biāo)準(zhǔn)方法很難真正評(píng)定編碼器的質(zhì)量,在實(shí)際評(píng)價(jià)中,主觀(guān)的質(zhì)量度量比客觀(guān)質(zhì)量的度量更為恰當(dāng)和合理。主觀(guān)的質(zhì)量度量通常是對(duì)某編碼器的輸出的聲音質(zhì)量進(jìn)行評(píng)價(jià)。度量方法類(lèi)似于電視節(jié)目中的歌手比賽,由評(píng)委對(duì)每個(gè)歌手的表現(xiàn)進(jìn)行評(píng)分,然后求出平均值。例如播放一段音樂(lè),記錄一段話(huà),然后重放給一批實(shí)驗(yàn)者聽(tīng),再由實(shí)驗(yàn)者進(jìn)行綜合評(píng)定,得出平均判分(MeanOpnionScose,MOS)。第四十一頁(yè),共92頁(yè)幻燈片主觀(guān)平均分(meanopinionscore,MOS)對(duì)聲音主觀(guān)質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制,各檔次的評(píng)分標(biāo)準(zhǔn)見(jiàn)表3-2分?jǐn)?shù)質(zhì)量等級(jí)失真級(jí)別5優(yōu)(Excellent)無(wú)察覺(jué)4良(Good)(剛)察覺(jué)但不討厭3中(Fair)(察覺(jué))有點(diǎn)討厭2差(Poor)討厭但不反感1劣(Bad)極討厭(令人反感)第四十二頁(yè),共92頁(yè)幻燈片聲音質(zhì)量的衡量方法客觀(guān)質(zhì)量度量用信噪比(SNR)表示主觀(guān)質(zhì)量度量有時(shí)同時(shí)采取兩種方法評(píng)估,有時(shí)以主觀(guān)質(zhì)量度量為主聲音帶寬法等級(jí)由高到低依次是DAT、CD、FM、AM和數(shù)字電話(huà)第四十三頁(yè),共92頁(yè)幻燈片2.2數(shù)字音頻壓縮技術(shù)數(shù)據(jù)的冗余聲音的壓縮原理聲音的壓縮分類(lèi)聲音的壓縮標(biāo)準(zhǔn)數(shù)字音頻格式第四十四頁(yè),共92頁(yè)幻燈片什么是音頻壓縮音頻壓縮技術(shù)指的是對(duì)原始數(shù)字音頻信號(hào)流(如PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號(hào)處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,以減少數(shù)據(jù)量,也稱(chēng)為壓縮編碼。它必須具有相應(yīng)的逆變換,稱(chēng)為解壓縮或解碼。音頻信號(hào)在通過(guò)一個(gè)編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。第四十五頁(yè),共92頁(yè)幻燈片

雖然表示數(shù)字音頻需要大量的數(shù)據(jù),但數(shù)字音頻數(shù)據(jù)是高度相關(guān)的,或者說(shuō)存在冗余(Redundancy)信息,去掉這些冗余信息后可以有效壓縮數(shù)據(jù)量,同時(shí)又不會(huì)損害聲音的有效信息。數(shù)據(jù)的冗余第四十六頁(yè),共92頁(yè)幻燈片你的妻子,Helen,將于明天晚上6點(diǎn)零5分在上海的虹橋機(jī)場(chǎng)接你。

(23*2+10=56個(gè)半角字符)你的妻子將于明天晚上6點(diǎn)零5分在虹橋機(jī)場(chǎng)接你

(20*2+2=42個(gè)半角字符)

Helen將于明晚6點(diǎn)在虹橋接你

(10*2+6=26個(gè)半角字符)結(jié)論:表達(dá)信息的文字存在冗余。只要接收端不會(huì)產(chǎn)生誤解,就可以減少承載信息的數(shù)據(jù)量。我們從一個(gè)互動(dòng)游戲來(lái)體會(huì)數(shù)據(jù)冗余的概念。在下面的例子中,用一種最好的方式來(lái)發(fā)送一封電報(bào)。第四十七頁(yè),共92頁(yè)幻燈片數(shù)據(jù)壓縮的基本原理為了滿(mǎn)足對(duì)數(shù)字化的信息進(jìn)行存儲(chǔ)、傳輸?shù)男枰?,就必須進(jìn)行數(shù)據(jù)壓縮,即去掉數(shù)據(jù)的冗余性。評(píng)價(jià)壓縮技術(shù)的3個(gè)重要指標(biāo):

1)壓縮比要大 2)算法簡(jiǎn)單

3)恢復(fù)效果要好第四十八頁(yè),共92頁(yè)幻燈片按照一致性分類(lèi):可逆編碼(無(wú)失真編碼,lossless):解碼信號(hào)與原始信號(hào)嚴(yán)格相同。如Huffman編碼、算術(shù)編碼、游程編碼。不可逆編碼方法(無(wú)失真編碼,lossy):還原信號(hào)與原始信號(hào)存在一定的誤差,但效果可以接收。按照壓縮方案的不同:

又可將其劃分為時(shí)域壓縮、變換壓縮、子帶壓縮,以及多種技術(shù)相互融合的混合壓縮等等。各種不同的壓縮技術(shù),其算法的復(fù)雜程度、壓縮質(zhì)量、算法效率(即壓縮比例),以及編解碼延時(shí)等都有很大的不同。各種壓縮技術(shù)的應(yīng)用場(chǎng)合也因之而各不相同。數(shù)據(jù)壓縮方法的分類(lèi)第四十九頁(yè),共92頁(yè)幻燈片按照壓縮方法分類(lèi):預(yù)測(cè)編碼:利用空間中相鄰數(shù)據(jù)的相關(guān)性,利用過(guò)去和現(xiàn)在出現(xiàn)過(guò)的點(diǎn)的數(shù)據(jù)情況來(lái)預(yù)測(cè)未來(lái)點(diǎn)的數(shù)據(jù)。如差分脈沖編碼調(diào)制(DPCM)、自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)等。變換編碼:將時(shí)域信號(hào)變換到頻域空間上處理。比如K-L變換、DCT(離散余弦變換)變換等。信息熵編碼:讓出現(xiàn)概率大的用短的碼字表達(dá),反之用長(zhǎng)的碼字表示。如Huffman編碼。子帶編碼:將圖像數(shù)據(jù)變換到頻域后,按頻域分帶,然后用不同的量化器進(jìn)行量化,從而達(dá)到最優(yōu)的組合。數(shù)據(jù)壓縮方法的分類(lèi)第五十頁(yè),共92頁(yè)幻燈片音頻信號(hào)壓縮編碼不僅利用一般壓縮編碼方法,而且利用人耳的聽(tīng)覺(jué)特性,主要有兩點(diǎn):1.人的聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)聽(tīng)覺(jué)閾值電平,低于這個(gè)電平的聲音信號(hào)人耳聽(tīng)不到.2.人的聽(tīng)覺(jué)存在屏蔽效應(yīng)。當(dāng)幾個(gè)強(qiáng)弱不同的聲音同時(shí)存在時(shí),強(qiáng)聲使弱聲難以聽(tīng)到,并且兩者之間的關(guān)系與其相對(duì)頻率的大小有關(guān).

聲音編碼算法通過(guò)這些特性來(lái)去掉更多的冗余數(shù)據(jù),來(lái)達(dá)到壓縮數(shù)據(jù)的目的。音頻壓縮第五十一頁(yè),共92頁(yè)幻燈片音頻壓縮聲音包括語(yǔ)音和音樂(lè),聲音數(shù)據(jù)表征的是一個(gè)一維時(shí)變系統(tǒng),故聲音數(shù)據(jù)的壓縮要易于圖像數(shù)據(jù)的壓縮。根據(jù)時(shí)域冗余度、頻域冗余度和人聽(tīng)覺(jué)感知機(jī)理進(jìn)行壓縮,主要方法有:基于音頻數(shù)據(jù)的統(tǒng)計(jì)特性進(jìn)行編碼,如波形編碼?;谝纛l的聲學(xué)參數(shù)進(jìn)行編碼,或者混合編碼?;谌说穆?tīng)覺(jué)特性進(jìn)行編碼,如DolbyAC-3。第五十二頁(yè),共92頁(yè)幻燈片電話(huà)質(zhì)量的語(yǔ)音壓縮標(biāo)準(zhǔn):300Hz~3.4KHz。當(dāng)采樣頻率為8KHz,量化位數(shù)為8bit時(shí)所對(duì)應(yīng)的速率為6kbit/s。調(diào)幅廣播質(zhì)量的音頻壓縮標(biāo)準(zhǔn):50Hz~7KHz。當(dāng)使用16KHz的抽樣頻率和14bit的量化位數(shù)時(shí),信號(hào)速率為224kbit/s。符合1988年ITU制定的G.722標(biāo)準(zhǔn)。高保真立體聲音頻壓縮標(biāo)準(zhǔn):50Hz~20KHz。在44.1KHz抽樣頻率下用16bit量化,信號(hào)速率為每聲道705kbit/s。目前比較成熟的標(biāo)準(zhǔn)為“MPEG音頻”。音頻壓縮標(biāo)準(zhǔn)第五十三頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式WAV是微軟公司開(kāi)發(fā)的一種聲音文件格式,也叫波形聲音文件。是最早的數(shù)字音頻格式,被Windows平臺(tái)及其應(yīng)用程序廣泛支持。WAV格式支持許多壓縮算法、支持多種音頻位數(shù)、采樣頻率和聲道,經(jīng)常見(jiàn)到的WAV格式的文件多采用44.1kHz的采樣頻率。16位量化位數(shù),其音質(zhì)與CD相同,但WAV格式對(duì)存儲(chǔ)空問(wèn)需求太大而不便于通過(guò)網(wǎng)絡(luò)交流和傳播WAV也是音樂(lè)編輯創(chuàng)作的首選格式,適合保存音樂(lè)素材。第五十四頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式AIFF音頻交換文件格式(AudioInterchangeFileFormat,簡(jiǎn)寫(xiě)為AIF/AIFF),是蘋(píng)果計(jì)算機(jī)公司開(kāi)發(fā)的一種標(biāo)準(zhǔn)聲音文件格式,被Macintosh平臺(tái)及其應(yīng)用程序所支持,它屬于Quick—Time技術(shù)中的一部分,而且是一種優(yōu)秀的文件格式,投入使用后便很快得到Microsoft公司青睞,NetscapeNavigator瀏覽器中的LiveAudio、SGI及其他專(zhuān)業(yè)音頻軟件包都支持它。AIF/AIFF支持支持l6位,44.1kHz立體聲,現(xiàn)在幾乎所有的音頻編輯軟件和播放軟件都支持這種格式。第五十五頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式MIDI:MusicalInstrumentDigitalInterface,是數(shù)字音樂(lè)/電子合成樂(lè)器的統(tǒng)一國(guó)際標(biāo)準(zhǔn)。它定義了計(jì)算機(jī)音樂(lè)程序、數(shù)字合成器及其它電子設(shè)備交換音樂(lè)信號(hào)的方式。規(guī)定了不同廠(chǎng)家的電子樂(lè)器與計(jì)算機(jī)連接的電纜和硬件及設(shè)備間數(shù)據(jù)傳輸?shù)膮f(xié)議,可以模擬多種樂(lè)器的聲音。MIDI文件就是MIDI格式的文件,它存儲(chǔ)的只是一些指令,我們要聽(tīng)到聲音,必須把這些指令發(fā)送給音源,再由音源按照指令將聲音合成和播放出來(lái)。CD:擴(kuò)展名CDA,其取樣頻率為44.1kHz,16位量化位數(shù)。CD存儲(chǔ)采用了音軌的形式,又叫“紅皮書(shū)”格式。記錄的是波形流,是一種近似無(wú)損的格式。第五十六頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式MP3:全稱(chēng)是MPEG—lAudioLayer3,它在1992年合并至MPEG規(guī)范中。MP3能夠以高音質(zhì)、低采樣率對(duì)數(shù)字音頻文件進(jìn)行壓縮。音頻文件(WAV文件)能夠在音質(zhì)丟失很小的情況下把文件壓縮到更小的程度。它是利用人耳的掩蔽效應(yīng)對(duì)聲音進(jìn)行壓縮,使文件在較低的比特率下,盡可能地保持了原有的音質(zhì),是目前最為流行的壓縮方式,也是現(xiàn)在網(wǎng)上收集音樂(lè)的最主要的方式,大多數(shù)播放器都支持這一文件格式。MP3格式的聲音文件的壓縮比達(dá)10:1~12:l,在不小于128kbps傳輸率下,基本保持了原有音質(zhì)。第五十七頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式SACD(SA=SuperAudio):是由Sony公司發(fā)布的。它的采樣率為CD格式的64倍,即2.8224MHz。SACD重放頻率帶寬達(dá)100kHz,為CD格式的5倍,24位量化位數(shù),遠(yuǎn)遠(yuǎn)超過(guò)CD。聲音的細(xì)節(jié)表現(xiàn)更為豐富、清晰。VQF格式:是由YAMAHA和NTT共同開(kāi)發(fā)的一種音頻壓縮技術(shù),它的壓縮率能夠達(dá)到1:18。因此,相同情況下壓縮后VQF的文件體積比MP3小30%~50%,更便利于網(wǎng)上傳播。同時(shí)音質(zhì)極佳,接近CD音質(zhì)(16位44.1kHz立體聲)。但VQF未公開(kāi)技術(shù)標(biāo)準(zhǔn),至今未能流行開(kāi)來(lái)。第五十八頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式DVDAudio:是新一代的數(shù)字音頻格式,與DVDVideo尺寸以及容量相同,為音樂(lè)格式的DVD光碟,取樣頻率為“48kHz/96kHz/l92kHz‘’和“44.1kHz/88.2kHz/l76.4kHz”

可選擇,量化位數(shù)可以為16、20或24比特,它們之間可自由地進(jìn)行組合。低采樣率的92kHz、176.4kHz雖然是2聲道重播專(zhuān)用,但它最多可收錄到6聲道。而以2聲道192kHz/24b或6聲道96kHz/24b收錄聲音,可容納74分鐘以上的錄音,動(dòng)態(tài)范圍達(dá)144dB,整體效果出類(lèi)拔萃。第五十九頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式MD(MiniDisc):由日本Sony公司開(kāi)發(fā)。MD之所以能在一張盤(pán)中存儲(chǔ)60~80分鐘、采用44.1khz采樣的立體聲音樂(lè),就是因?yàn)槭褂昧薃TRAC算法(自適應(yīng)聲學(xué)轉(zhuǎn)換編碼)壓縮音源。這是一套基于心理聲學(xué)原理的音響譯碼系統(tǒng),它可以把CD唱片的音頻壓縮到原來(lái)數(shù)據(jù)量的大約1/5,而聲音質(zhì)量沒(méi)有明顯的損失。ATRAC利用人耳聽(tīng)覺(jué)的心理聲學(xué)特性(頻譜掩蔽特性和時(shí)間掩蔽特性)以及入耳對(duì)信號(hào)幅度、頻率、時(shí)間的有限分辨能力。編碼時(shí)將人耳感覺(jué)不到的成分不編碼、不傳送,這樣就可以相應(yīng)減少某些數(shù)據(jù)量的存儲(chǔ),從而既保證音質(zhì)又達(dá)到縮小體積的目的。第六十頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式RealAudio:是由RealNetworks公司推出的一種文件格式。最大的特點(diǎn)是可以實(shí)時(shí)傳輸音頻信息,尤其是在網(wǎng)速較慢的情況下,仍然可以較為流暢地傳送數(shù)據(jù)。因此RealAudio主要適用于網(wǎng)絡(luò)上的在線(xiàn)播放。現(xiàn)在的RealAudio文件格式主要有RA(RealAudio)、RM(RealMedia,RealAudioG2)、RMX(RealAudioSecured)等三種,這些文件的共同性在于隨著網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量。在保證大多數(shù)人聽(tīng)到流暢聲音的前提下,令帶寬較寬敞的聽(tīng)眾獲得較好的音質(zhì)。第六十一頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式AAC:高級(jí)音頻編碼的縮寫(xiě)。AAC是由FraunhoferIIS—A、杜比和AT&T共同開(kāi)發(fā)的一種音頻格式,它是MPEG一2規(guī)范的一部分。AAC所采用的運(yùn)算法則與MP3的運(yùn)算法則有所不同,AAC通過(guò)結(jié)合其他的功能來(lái)提高編碼效率。AAC的音頻算法在壓縮能力上遠(yuǎn)遠(yuǎn)超過(guò)了以前的一些壓縮算法(比如MP3等)。它還同時(shí)支持多達(dá)48個(gè)音軌、l5個(gè)低頻音軌、更多種采樣率和比特率、多種語(yǔ)言的兼容能力、更高的解碼效率??傊?,AAC可以在比MP3文件縮小30%的前提下提供更好的音質(zhì)。第六十二頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式APE:Monkey’SAudio提供的一種無(wú)損壓縮格式。Monkey’SAudio提供了Winamp的插件支持,因此這就意味著壓縮后的文件不再是單純的壓縮格式,而是和MP3一樣可以播放的音頻文件格式。壓縮效果大約為2:l左右,但能夠做到真正無(wú)損,因此獲得了不少發(fā)燒用戶(hù)的青睞。令人滿(mǎn)意的壓縮比以及飛快的壓縮速度,成為了不少朋友私下交流發(fā)燒音樂(lè)的唯一選擇。第六十三頁(yè),共92頁(yè)幻燈片數(shù)字音頻格式OGG格式:全稱(chēng)是OGGVobis。它是一種新的音頻壓縮格式,類(lèi)似于MP3等現(xiàn)有的音樂(lè)格式。但有所不同的是,它是完全免費(fèi)、開(kāi)放和沒(méi)有專(zhuān)利限制的。OGGVobis有一個(gè)很出眾的特點(diǎn),就是支持多聲道,隨著它的流行,以后用隨身聽(tīng)來(lái)聽(tīng)DTS編碼的多聲道作品將不會(huì)是夢(mèng)想。OGGVobis在壓縮技術(shù)上比MP3好,使它很有可能成為一個(gè)流行的趨勢(shì),這也正是一些MP3播放器對(duì)其支持的原因。另外,如果相同速率錄制音頻mp3和ogg不分上下,ogg采用更先進(jìn)的算法還可能會(huì)好一些。第六十四頁(yè),共92頁(yè)幻燈片2.3計(jì)算機(jī)音樂(lè)音樂(lè)合成MIDI規(guī)范數(shù)字音頻工作站第六十五頁(yè),共92頁(yè)幻燈片一個(gè)樂(lè)音必備的三要素是:音高、音色和音強(qiáng)。運(yùn)動(dòng)的旋律中的樂(lè)音還應(yīng)具備時(shí)值,即持續(xù)時(shí)間。音高:音高指聲音的基頻。聲音的基頻越高,給人的感覺(jué)就越激越;相反,聲音的基頻越低,給人的感覺(jué)就越低沉。。音色:音色是由聲音的頻譜決定的:各階諧波的比例不同,隨時(shí)間衰減的程度不同,音色就不同。各種樂(lè)器的音色是由其自身結(jié)構(gòu)特點(diǎn)決定的。要用計(jì)算機(jī)模擬具有強(qiáng)烈真實(shí)感的旋律,音色的變化非常重要的。音強(qiáng)和時(shí)值:音強(qiáng)也叫響度,是指聲音信號(hào)的強(qiáng)弱程度,是由聲波振動(dòng)的振幅決定的。聲波振動(dòng)的持續(xù)時(shí)間稱(chēng)為時(shí)值,它具有明顯的相對(duì)性,一個(gè)音只有在包含了比它更短的音的旋律才會(huì)顯得長(zhǎng)。音樂(lè)合成第六十六頁(yè),共92頁(yè)幻燈片 任何一種波形信號(hào)都可以被分解成若干個(gè)頻率不同的正弦波,一個(gè)樂(lè)器的聲音也可以由若干個(gè)正弦波合成得到。 調(diào)頻(FM)是使高頻振蕩波的頻率按調(diào)制信號(hào)規(guī)律變化的一種調(diào)制方式。采用不同調(diào)制波頻率和調(diào)制指數(shù),就可以方便地合成具有不同頻譜分布的波形,再現(xiàn)某些樂(lè)器的音色。我們可以采用這種方法得到具有獨(dú)特效果的“電子模擬聲”,創(chuàng)造出豐富多彩的、真實(shí)樂(lè)器所不具備的音色。為使音樂(lè)更加真實(shí),人們開(kāi)發(fā)出波形表(wavetable)音樂(lè)合成技術(shù)。波表合成是把真實(shí)音樂(lè)聲音數(shù)字信號(hào)錄制后,保存在存儲(chǔ)器中,當(dāng)選擇某個(gè)樂(lè)器時(shí),將所錄制的樣本信號(hào)回放。目前這兩種音樂(lè)合成技術(shù)都應(yīng)用于多媒體計(jì)算機(jī)的音頻卡中。第六十七頁(yè),共92頁(yè)幻燈片

1.什么是MIDIMIDI(MusicalInstrumentDigitalInterface,樂(lè)器數(shù)字接口)是一種技術(shù)規(guī)范,定義了為把電子樂(lè)器連接到計(jì)算機(jī)所需要的電纜和端口的硬件標(biāo)準(zhǔn),計(jì)算機(jī)和具有MIDI接口的設(shè)備之間進(jìn)行信息交換的規(guī)則,電子樂(lè)器之間傳送數(shù)據(jù)的通信協(xié)議。

MIDI聲音是記錄電子樂(lè)器鍵盤(pán)的彈奏過(guò)程,是將樂(lè)曲進(jìn)行一種數(shù)字化的描述,這種描述稱(chēng)為MIDI消息(MIDIMessage)。當(dāng)需要播放這段音樂(lè)時(shí),從相應(yīng)的MIDI文件中讀出MIDI消息,由合成器來(lái)解釋這些消息中的符號(hào),并生成所需要的樂(lè)器的聲音波形,經(jīng)放大后由揚(yáng)聲器輸出。在計(jì)算機(jī)中播放MIDI信息須使用帶有合成器的聲卡。

MIDI規(guī)范第六十八頁(yè),共92頁(yè)幻燈片2.

MIDI聲音的優(yōu)點(diǎn):(1)存儲(chǔ)容量小因?yàn)镸IDI文件中記錄的是一系列指令的集合,所以,MIDI文件所占的存儲(chǔ)量非常小。在需要播放長(zhǎng)時(shí)間的高質(zhì)量音樂(lè)時(shí),往往采用MIDI文件。(2)可以提供背景音樂(lè)或音響效果的配音功能當(dāng)多媒體計(jì)算機(jī)播放圖像、文字、圖表時(shí),或者播放波形音頻、語(yǔ)音時(shí),可以同時(shí)播放MIDI音樂(lè)作為背景音響效果。(3)便于編輯和修改

MIDI聲音記錄的是符號(hào),是樂(lè)譜的數(shù)字化表示。因此,它可以在計(jì)算機(jī)中很方便地任意修改樂(lè)曲的速度、音調(diào),甚至可以更換的樂(lè)器,從而得到不同的效果。(4)可以在MIDI合成器中完全重現(xiàn)原來(lái)的演奏

MIDI是把MIDI設(shè)備上產(chǎn)生的每個(gè)活動(dòng)記錄下來(lái),形成MIDI文件,把它再傳送到MIDI合成器時(shí),就可以完全重現(xiàn)原來(lái)的演奏效果。第六十九頁(yè),共92頁(yè)幻燈片3.MIDl規(guī)范

MIDI規(guī)范是一個(gè)國(guó)際的標(biāo)準(zhǔn),主要包括以下3個(gè)方面的內(nèi)容。(1)MIDI的硬件規(guī)范指的是各種MIDI設(shè)備之間連接的硬件接口標(biāo)準(zhǔn)和信號(hào)傳輸機(jī)制,包括輸入/輸出通道的類(lèi)型,連接電纜樣式及插座形式等。(2)MIDI聲音信息的規(guī)范指的是使音樂(lè)信息互相交換的一種編碼標(biāo)準(zhǔn)。它包括有關(guān)音樂(lè)成分的信息,如音符、音量、音調(diào)、音符時(shí)間長(zhǎng)短等,是一種表達(dá)各種聲音的作曲系統(tǒng)。(3)MIDI聲音合成的規(guī)范指的是各種聲音的表達(dá)方式,即真實(shí)聲音信號(hào)的規(guī)范,它可以采用FM合成技術(shù)和波形表合成技術(shù)的標(biāo)準(zhǔn)。第七十頁(yè),共92頁(yè)幻燈片4.MIDI的有關(guān)術(shù)語(yǔ)

(1)MIDI文件

MIDI文件是存放MIDI信息的標(biāo)準(zhǔn)文件,文件名后綴為.MID。(2)通道(Channels)MIDI可為16個(gè)通道提供數(shù)據(jù),每個(gè)通道可以訪(fǎng)問(wèn)一個(gè)獨(dú)立的邏輯合成器。(3)音序器(Sequencer)音序器是為了MIDI作曲而設(shè)計(jì)的計(jì)算機(jī)程序或電子裝置,用于記錄、編輯、播放MIDI文件。(4)合成器(Synthesizer)合成器是利用數(shù)字信號(hào)處理器或其他芯片產(chǎn)生音樂(lè)或聲音的電子設(shè)備。它可以產(chǎn)生并修改波形,然后通過(guò)聲音產(chǎn)生器和揚(yáng)聲器發(fā)出聲音。(5)樂(lè)器(Instrument) 合成器能產(chǎn)生的特定聲音稱(chēng)為樂(lè)器。每種樂(lè)器都有自己的波形,合成器按音色和音調(diào)的要求,由不同的樂(lè)器組合成最終的聲音組合。第七十一頁(yè),共92頁(yè)幻燈片(6)復(fù)音(Polyphony)復(fù)音是合成器同時(shí)支持的最多音符數(shù)。(7)音色(Timbre)音色指的是聲音的音質(zhì),它取決于聲音頻率。(8)音軌(Track)一種用通道把MIDI數(shù)據(jù)分隔成單獨(dú)組,每條音軌分別定義了該條音軌的屬性,如音軌的音色,音色庫(kù),通道數(shù),輸入/輸出端口,音量等。

一條音軌對(duì)應(yīng)于音樂(lè)的一個(gè)聲部,每一音軌可認(rèn)為一種樂(lè)器的演奏。

(9)合成音色映射器(Patchappear)合成音色映射器是一種軟件。為了適應(yīng)Microsoft的MIDI合成音色,分配表規(guī)定了合成音色的編號(hào)。軟件為特定的合成器重新分配編號(hào)。(10)通道映射(Channelmapping)通道映射把發(fā)送裝置的MIDI通道號(hào)變換成適當(dāng)?shù)慕邮昭b置的通道號(hào)。第七十二頁(yè),共92頁(yè)幻燈片數(shù)字音頻工作站(DigitalAudioWorkstation,簡(jiǎn)稱(chēng)DAW)是集中多種音頻處理工具的、以計(jì)算機(jī)為平臺(tái)的數(shù)字音頻制作系統(tǒng)。或者說(shuō)是一種用來(lái)處理、交換音頻信息的計(jì)算機(jī)系統(tǒng)。它是數(shù)字音頻技術(shù)的和計(jì)算機(jī)技術(shù)結(jié)合的產(chǎn)物,數(shù)字音頻工作站的出現(xiàn),實(shí)現(xiàn)了廣播系統(tǒng)高質(zhì)量的節(jié)目錄制自動(dòng)化播出,同時(shí)也創(chuàng)造了更加良好的高效的工作環(huán)境。它把眾多繁瑣的音頻制作過(guò)程集中在通用多媒體計(jì)算機(jī)上完成,與傳統(tǒng)數(shù)字音頻制作相比,省去了大量周邊輔助數(shù)字音頻設(shè)備,省去了大量設(shè)備的連接、安裝、調(diào)試等,操作集中在計(jì)算機(jī)上完成,方便簡(jiǎn)單;目前DAW已被用到了廣播電臺(tái)的廣播節(jié)目制作、播出、管理與控制的各個(gè)環(huán)節(jié),是廣播電臺(tái)播控中心數(shù)字化、網(wǎng)絡(luò)化關(guān)鍵設(shè)備之一。第七十三頁(yè),共92頁(yè)幻燈片數(shù)字音頻工作站從硬件角度來(lái)說(shuō),數(shù)字音頻工作站的構(gòu)成可以歸結(jié)為以下幾個(gè)部分:計(jì)算機(jī)控制部分,核心音頻處理部分,數(shù)據(jù)存儲(chǔ)設(shè)備及其它外設(shè)設(shè)備;從軟件角度來(lái)說(shuō),數(shù)字音頻工作站可分為以下幾個(gè)模塊:操作平臺(tái),音頻處理界面,文件格式,第三方軟件及其他相關(guān)軟件。第七十四頁(yè),共92頁(yè)幻燈片數(shù)字音頻工作站功能DAW提供了制作廣播與影視節(jié)目中音頻部分所需要的所有功能,包括:專(zhuān)業(yè)要求的音質(zhì)錄入和聲音播放;采樣頻率最低44.1kHz,16bit的量化級(jí)別,頻響范圍達(dá)到20Hz~20000Hz,信噪比接近90dB

錄音放音和合成;能夠同時(shí)播放8個(gè)以上音軌、可同時(shí)看到波形剪輯功能。刪除、靜音、復(fù)制、移位、拼接、淡入淡出、移調(diào)、伸縮等數(shù)字效果處理;調(diào)音、實(shí)時(shí)均衡、聲音擴(kuò)壓、聲像移動(dòng)、電平調(diào)整、混響、延時(shí)、降噪、變速調(diào)節(jié)等第七十五頁(yè),共92頁(yè)幻燈片第七十六頁(yè),共92頁(yè)幻燈片2.4數(shù)字語(yǔ)音處理技術(shù)語(yǔ)音增強(qiáng)語(yǔ)音合成語(yǔ)音識(shí)別數(shù)字音頻水印技術(shù)第七十七頁(yè),共92頁(yè)幻燈片語(yǔ)音增強(qiáng)語(yǔ)音增強(qiáng)是指當(dāng)語(yǔ)音信號(hào)被各種噪聲干擾、甚至淹沒(méi)后,從噪聲背景中提取有用的語(yǔ)音信號(hào),抑制、降低噪聲干擾的技術(shù),即從含噪聲語(yǔ)音中盡可能提取純凈的原始語(yǔ)音。第七十八頁(yè),共92頁(yè)幻燈片語(yǔ)音增強(qiáng)的意義1,日常生活中,經(jīng)常遇到在噪聲干擾中進(jìn)行語(yǔ)音通信的問(wèn)題,如在汽車(chē)、火車(chē)上使用移動(dòng)電話(huà),在鬧市、馬路邊、商場(chǎng)里打電話(huà)。2,軍事通信中,指揮員的作戰(zhàn)命令、情報(bào)員的匯報(bào)、戰(zhàn)地會(huì)議等受到惡劣戰(zhàn)場(chǎng)環(huán)境,如槍炮聲、馬達(dá)聲等的干擾。3,竊聽(tīng)技術(shù)的需要進(jìn)行增強(qiáng)。4,語(yǔ)音識(shí)別技術(shù)需要先進(jìn)行增強(qiáng)。第七十九頁(yè),共92頁(yè)幻燈片語(yǔ)音增強(qiáng)的方法1,噪聲對(duì)消法。2,諧波增強(qiáng)法。3,基于參數(shù)估計(jì)的語(yǔ)音再合成法。4,基于語(yǔ)音短時(shí)譜估計(jì)的增強(qiáng)算法。第八十頁(yè),共92頁(yè)幻燈片語(yǔ)音合成語(yǔ)音合成,又稱(chēng)文語(yǔ)轉(zhuǎn)換(TexttoSpeech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語(yǔ)音朗讀出來(lái),相當(dāng)于給機(jī)器裝上了人工嘴巴。解決的主要問(wèn)題就是如何將文字信息轉(zhuǎn)化為可聽(tīng)的聲音信息,也即讓機(jī)器像人一樣開(kāi)口說(shuō)話(huà)。

它涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù)是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)第八十一頁(yè),共92頁(yè)幻燈片語(yǔ)音合成這里所說(shuō)的“讓機(jī)器像人一樣開(kāi)口說(shuō)話(huà)”與傳統(tǒng)的聲音回放設(shè)備(系統(tǒng))有著本質(zhì)的區(qū)別。傳統(tǒng)的聲音回放設(shè)備(系統(tǒng)),如磁帶錄音機(jī),是通過(guò)預(yù)先錄制聲音然后回放來(lái)實(shí)現(xiàn)“讓機(jī)器說(shuō)話(huà)”的。而通過(guò)計(jì)算機(jī)語(yǔ)音合成則可以在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語(yǔ)音,從而真正實(shí)現(xiàn)讓機(jī)器“像人一樣開(kāi)口說(shuō)話(huà)”。文語(yǔ)轉(zhuǎn)換系統(tǒng)實(shí)際上可以看作是一個(gè)人工智能系統(tǒng)。第八十二頁(yè),共92頁(yè)幻燈片TTS的基本結(jié)構(gòu)語(yǔ)言學(xué)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論