![語音處理的基本知識(shí)_第1頁(yè)](http://file4.renrendoc.com/view4/M01/3A/3F/wKhkGGYF6QmANo0VAAGjR87Ht9E308.jpg)
![語音處理的基本知識(shí)_第2頁(yè)](http://file4.renrendoc.com/view4/M01/3A/3F/wKhkGGYF6QmANo0VAAGjR87Ht9E3082.jpg)
![語音處理的基本知識(shí)_第3頁(yè)](http://file4.renrendoc.com/view4/M01/3A/3F/wKhkGGYF6QmANo0VAAGjR87Ht9E3083.jpg)
![語音處理的基本知識(shí)_第4頁(yè)](http://file4.renrendoc.com/view4/M01/3A/3F/wKhkGGYF6QmANo0VAAGjR87Ht9E3084.jpg)
![語音處理的基本知識(shí)_第5頁(yè)](http://file4.renrendoc.com/view4/M01/3A/3F/wKhkGGYF6QmANo0VAAGjR87Ht9E3085.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
關(guān)于語音處理的基本知識(shí)音頻處理技術(shù)的研究意義聲音(音頻)是信息交流的一種主要手段,是數(shù)字媒體信息的重要組成部分;信息技術(shù)、計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,使音頻處理技術(shù)受到重視并得到廣泛應(yīng)用,需求也日益多樣。第2頁(yè),共92頁(yè),2024年2月25日,星期天2.1數(shù)字音頻基礎(chǔ)聲音的物理描述產(chǎn)生原理物理特性聽覺特性聲音信號(hào)數(shù)字化聲音質(zhì)量評(píng)價(jià)第3頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介音頻信號(hào)聲音是聽覺器官對(duì)聲波的感知,人們之所以能聽到各種聲音,是因?yàn)椴煌l率的聲波通過空氣產(chǎn)生振動(dòng),對(duì)人耳刺激的結(jié)果。聲波是聲源產(chǎn)生的,通過空氣或其他媒體傳播的連續(xù)振動(dòng)的波。因聲波是在時(shí)間和幅度上都連續(xù)變化的量,聲波是一種連續(xù)變化的模擬信號(hào),可用一條連續(xù)的曲線來表示,稱為聲波,或者叫做音頻信號(hào)。第4頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介用函數(shù)關(guān)系表示模擬聲波時(shí),它是在時(shí)間和幅度上都是連續(xù)的一維模擬信號(hào),如圖1所示
圖1聲音是一種連續(xù)的波第5頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介模擬音頻信號(hào)基本參數(shù):頻率和幅度。音頻信號(hào)的幅度是從信號(hào)的基線到當(dāng)前波峰的距離。幅度決定了信號(hào)音量的強(qiáng)弱程度。幅度越大,聲音越強(qiáng)。一般用聲壓(達(dá)因/平方厘米)或聲強(qiáng)(瓦特/平方厘米)。聲源每秒鐘可產(chǎn)生成百上千個(gè)波峰,每秒鐘波峰所發(fā)生的數(shù)目就是音頻信號(hào)的頻率,聲音的頻率體現(xiàn)音調(diào)的高低。聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上,音調(diào)的高低體現(xiàn)在聲音的頻率上。第6頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介聲音的量化參數(shù):
強(qiáng)度:dB動(dòng)物的呼吸聲大約為20dB,人們正常談話的聲音約為60dB,汽車?guó)Q笛的聲音約為100dB,飛機(jī)起飛的聲音約為120dB,超過120dB會(huì)使人感到痛苦。
頻率:Hz高保真聲音(high-fidelityaudio):10~20000Hz聲音(audio):20~20000Hz話音(speech):300~3000/3400Hz亞音/次音(subsonic):<20Hz超聲(ultrasonic):>20000Hz相位:波的位置。復(fù)雜的聲音是由多個(gè)不同振幅、頻率、相位的正弦波組成第7頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介聲音的聽覺特性:目前主要研究人的心理聲學(xué)和語言聲學(xué)特性。聽覺心理的主觀感受包括:響度、音高、音色、音量、噪聲、聽覺掩蔽、定位等。第8頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介對(duì)響度的感知聲音的響度就是聲音的強(qiáng)弱在物理上,用dyn/cm2(達(dá)因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘米)(聲強(qiáng))度量在心理上,主觀感覺的聲音強(qiáng)弱使用響度級(jí)“方(phon)”或“宋(sone)”來度量這兩種計(jì)量單位完全不同,但它們之間有一定的聯(lián)系人耳的聽覺范圍聽閾:當(dāng)聲音弱到人耳朵剛可聽見時(shí)的聲音強(qiáng)度痛域:聲音強(qiáng)到使人耳感到疼痛時(shí)的聲音強(qiáng)度聽覺范圍:位于聽閾和痛域之間,見圖2第9頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介圖2“聽閾—頻率”曲線和“痛閾—頻率”曲線第10頁(yè),共92頁(yè),2024年2月25日,星期天(1)
聲音簡(jiǎn)介對(duì)音高(頻率)的感知客觀上用頻率表示聲音的音高,其單位是Hz。而主觀感覺的音高單位則是“美(Mel)”。Hz和Mel不同但有聯(lián)系主觀音高與客觀音高的關(guān)系為其中,f的單位為Hz,人耳對(duì)頻率的感知范圍,可以聽到最低頻率約20Hz最高頻率約20000Hz
第11頁(yè),共92頁(yè),2024年2月25日,星期天(1)
聲音簡(jiǎn)介測(cè)量主觀音高時(shí),讓實(shí)驗(yàn)者聽兩個(gè)聲強(qiáng)級(jí)為40dB的純音,固定其中一個(gè)純音的頻率,調(diào)節(jié)另一個(gè)純音的頻率,直到他感到后者的音高為前者的兩倍,就標(biāo)定這兩個(gè)聲音的音高差為兩倍。測(cè)出的“音高—頻率”曲線見圖3圖3“音高—頻率”曲線第12頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介掩蔽效應(yīng)一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象前者稱為掩蔽聲音(maskingtone)后者稱為被掩蔽聲音(maskedtone)掩蔽可分成頻域掩蔽和時(shí)域掩蔽第13頁(yè),共92頁(yè),2024年2月25日,星期天(1)
聲音簡(jiǎn)介圖4頻域掩蔽頻域掩蔽一個(gè)強(qiáng)純音掩蔽在其附近同時(shí)發(fā)聲的弱純音的特性,也稱同時(shí)掩蔽(simultaneousmasking),如圖4所示第14頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介圖5中的一組曲線表示為250Hz,1kHz和4kHz純音的掩蔽效應(yīng),它們的聲強(qiáng)均為60dB250Hz,1kHz和4kHz附近,對(duì)其他純音的掩蔽效果最明顯低頻純音可有效地掩蔽高頻純音,相反則不明顯圖5不同純音的掩蔽效應(yīng)曲線第15頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介時(shí)域掩蔽在時(shí)間上相鄰的聲音之間的掩蔽現(xiàn)象一個(gè)強(qiáng)掩蔽音出現(xiàn)前、同時(shí)存在時(shí)或消失后的掩蔽效果產(chǎn)生時(shí)域掩蔽的主要原因人的大腦處理信息需要花費(fèi)一定的時(shí)間第16頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介同時(shí)掩蔽(simultaneousmasking):信號(hào)和掩蔽音同時(shí)產(chǎn)生的現(xiàn)象滯后掩蔽(post-masking):信號(hào)出現(xiàn)在掩蔽音消失后出現(xiàn)的現(xiàn)象,可以持續(xù)50~200ms超前掩蔽(pre-masking):信號(hào)出現(xiàn)在掩蔽音出現(xiàn)之前產(chǎn)生的現(xiàn)象。雖然對(duì)超前掩蔽有許多研究報(bào)告,但這種現(xiàn)象依然令人費(fèi)解。超前掩蔽很短,通常只有大約2~20ms,第17頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介臨界頻帶(criticalband)當(dāng)噪聲掩蔽純音時(shí),起作用的是以純音頻率為中心頻率的一定頻帶寬度內(nèi)的噪聲頻率。如這頻帶內(nèi)的噪聲功率等于在噪聲中剛能聽到的該純音的功率,則這頻帶就稱為聽覺臨界頻帶。臨界頻帶表征了人類最主要的聽覺特性,它是在研究純音對(duì)窄帶噪聲掩蔽量的規(guī)律時(shí)被發(fā)現(xiàn)的,在加寬噪聲帶寬時(shí),最初是掩蔽量增大,但帶寬超過某一定值后,掩蔽量就不再增加,這一帶寬就稱為臨界頻帶。通常認(rèn)為聲音(audio)有25個(gè)臨界頻帶,見表臨界頻帶的寬度隨聲音頻率的變化而變化第18頁(yè),共92頁(yè),2024年2月25日,星期天(1)聲音簡(jiǎn)介第19頁(yè),共92頁(yè),2024年2月25日,星期天(2)
模擬音頻的數(shù)字化數(shù)字化的概念如果要用計(jì)算機(jī)對(duì)音頻信息進(jìn)行處理,則首先要通過A/D(模/數(shù))轉(zhuǎn)換將模擬音頻信號(hào)變成數(shù)字信號(hào),實(shí)現(xiàn)音頻信號(hào)的數(shù)字化。數(shù)字化的聲音易于用計(jì)算機(jī)軟件處理,現(xiàn)在幾乎所有的專業(yè)化聲音錄制器、編輯器都是數(shù)字的。對(duì)模擬音頻的數(shù)字化過程涉及到音頻的采樣、量化和編碼。當(dāng)需要播放數(shù)字音頻時(shí),按照相反過程還原回模擬音頻第20頁(yè),共92頁(yè),2024年2月25日,星期天聲音信號(hào)的數(shù)字化過程模擬聲音信號(hào)采樣量化編碼數(shù)字聲音011010011101……第21頁(yè),共92頁(yè),2024年2月25日,星期天(a)采樣和量化連續(xù)時(shí)間的離散化通過采樣來實(shí)現(xiàn),就是每隔相等的一段時(shí)間采樣一次,這種采樣稱為均勻采樣連續(xù)幅度的離散化通過量化(quantization)來實(shí)現(xiàn),就是把信號(hào)的強(qiáng)度劃分成一小段一小段,如果幅度的劃分是等間隔的,就稱為線性量化,否則就稱為非線性量化。第22頁(yè),共92頁(yè),2024年2月25日,星期天圖7聲音的采樣、量化、編碼第23頁(yè),共92頁(yè),2024年2月25日,星期天(2)
模擬音頻的數(shù)字化影響數(shù)字音頻質(zhì)量的因素:采樣精度采樣頻率聲道個(gè)數(shù)第24頁(yè),共92頁(yè),2024年2月25日,星期天(2)
模擬音頻的數(shù)字化采樣頻率采樣頻率由根據(jù)奈奎斯特理論(Nyquisttheory)確定奈奎斯特理論指出,采樣頻率不應(yīng)低于聲音信號(hào)最高頻率的兩倍,這樣就能把以數(shù)字表達(dá)的聲音還原成原來的聲音,這叫做無損數(shù)字化(losslessdigitization)假設(shè)被采樣信號(hào)的最高頻率為fmax,則采樣定律可用公式表示為第25頁(yè),共92頁(yè),2024年2月25日,星期天(2)
模擬音頻的數(shù)字化采樣精度度量聲音波形幅度的精確程度,用每個(gè)聲音樣本的位數(shù)表示例如每個(gè)聲音樣本用16位表示,測(cè)得的聲音樣本值是在[0~65535]范圍里的數(shù),它的精度是1/65536精度是在模擬信號(hào)數(shù)字化過程中度量模擬信號(hào)的最小單位,因此也稱量化階(quantizationstepsize)0~1V的電壓用256個(gè)數(shù)表示時(shí),量化階等于1/256V樣本位數(shù)的大小影響到聲音的質(zhì)量,位數(shù)越多,聲音質(zhì)量越高,所需存儲(chǔ)空間也越多;位數(shù)越少,聲音質(zhì)量就越低,所需存儲(chǔ)空間也越少第26頁(yè),共92頁(yè),2024年2月25日,星期天(2)
模擬音頻的數(shù)字化聲音質(zhì)量和數(shù)據(jù)率——質(zhì)量度量質(zhì)量采樣頻率(kHz)樣本精度(bit/s)單道聲/立體聲(未壓縮的)數(shù)據(jù)率(kb/s)頻率范圍(Hz)電話*88單道聲64.0200~3400AM11.0258單道聲88.220~15000FM22.05016立體聲705.650~7000CD44.116立體聲1411.220~20000DAT4816立體聲1536.020~20000第27頁(yè),共92頁(yè),2024年2月25日,星期天(b)編碼
所謂編碼,就是按照一定的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)記錄下來,用二進(jìn)制數(shù)據(jù)表示,以后續(xù)達(dá)到可以形成數(shù)據(jù)文件進(jìn)行存儲(chǔ)的目的。并在有效的數(shù)據(jù)中加入一些用于糾錯(cuò)同步和控制的數(shù)據(jù)。在數(shù)據(jù)回放時(shí),可以根據(jù)所記錄的糾錯(cuò)數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是否有錯(cuò),如果有錯(cuò),可加以糾正。音頻信號(hào)編碼常用的是波形編碼方法,它是直接對(duì)波形采樣、量化和編碼,算法簡(jiǎn)單,易于實(shí)現(xiàn)。而且,聲音恢復(fù)時(shí)能保持原有的特點(diǎn),因此被廣泛應(yīng)用。此外還有參數(shù)編碼、混合編碼等。(2)
模擬音頻的數(shù)字化第28頁(yè),共92頁(yè),2024年2月25日,星期天編碼方法(1)PCM(PulseCodeModulation)脈沖編碼調(diào)制PCM簡(jiǎn)稱脈碼調(diào)制,可以直接對(duì)聲音信號(hào)做A/D轉(zhuǎn)換,用一組二進(jìn)制數(shù)字編碼表示,得到的是未經(jīng)壓縮的音頻數(shù)據(jù)。這是一種最常用、最簡(jiǎn)單的編碼方法。PCM編碼方法不需要復(fù)雜的信號(hào)處理技術(shù)就能實(shí)現(xiàn)瞬時(shí)的數(shù)據(jù)的量化和還原,而且信噪比高。在解碼后恢復(fù)的聲音,只要采樣頻率足夠高,量化位數(shù)足夠多,就會(huì)有很好的質(zhì)量。但是,這種對(duì)聲音信號(hào)直接量化的方法編碼數(shù)據(jù)量很大,需要很高的傳輸速率。第29頁(yè),共92頁(yè),2024年2月25日,星期天編碼方法PCM是概念上最簡(jiǎn)單、理論上最完善、最早研制成功、使用最為廣泛、數(shù)據(jù)量最大的編碼系統(tǒng)。目前的聲卡一般都具有PCM編碼和解碼的功能。激光唱盤(CD-DA)記錄聲音時(shí)就采用這種方法,存儲(chǔ)未經(jīng)壓縮的數(shù)字音頻信號(hào)。第30頁(yè),共92頁(yè),2024年2月25日,星期天編碼方法算法思想:首先對(duì)音頻信號(hào)進(jìn)行μ律或A律壓擴(kuò),也就是放大小信號(hào),抑制大信號(hào),然后進(jìn)行均勻量化,等效于對(duì)小信號(hào)進(jìn)行小量化級(jí)量化,對(duì)大信號(hào)進(jìn)行大量化級(jí)量化,使大小信號(hào)的量化信噪比趨于接近,從而避免了小信號(hào)產(chǎn)生較大的量化噪聲誤差,而大信號(hào)卻有不必要的高量化信噪比。第31頁(yè),共92頁(yè),2024年2月25日,星期天編碼方法——脈沖編碼調(diào)制(PCM)輸入是模擬信號(hào),輸出是PCM樣本。防失真濾波器:低通濾波器,用來濾除聲音頻帶以外的信號(hào)波形編碼器:可理解為采樣器量化器:可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器。PCM實(shí)際上是模擬信號(hào)數(shù)字化。第32頁(yè),共92頁(yè),2024年2月25日,星期天量化的方法:均勻量化、非均勻量化均勻量化采用相等的量化間隔/等分尺度量采樣得到的信號(hào)幅度,也稱為線性量化。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。
均勻量化編碼方法第33頁(yè),共92頁(yè),2024年2月25日,星期天編碼方法非均勻量化大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小的量化間隔可在滿足精度要求的情況下用較少的位數(shù)來表示聲音數(shù)據(jù)還原時(shí),采用相同的規(guī)則
非均勻量化第34頁(yè),共92頁(yè),2024年2月25日,星期天編碼方法——DPCM(DifferentialPulseCodeModulation)差分脈沖編碼調(diào)制
DPCM編碼是利用音頻信號(hào)的相關(guān)性,通過只傳輸聲音的預(yù)測(cè)值和樣本值的差值來降低音頻數(shù)據(jù)的編碼率的一種方法。它采用預(yù)測(cè)編碼技術(shù),實(shí)現(xiàn)音頻數(shù)據(jù)的壓縮編碼。因?yàn)橐纛l信號(hào)一般不會(huì)發(fā)生突然變化,相鄰的語音采樣值之間存在很大的相關(guān)性,從一個(gè)采樣值到相鄰的另一個(gè)采樣值的差值要比樣值本身小得多。利用預(yù)測(cè)編碼方法建立預(yù)測(cè)模型,通過預(yù)測(cè)器對(duì)未來的樣本進(jìn)行預(yù)測(cè),然后對(duì)樣本值與預(yù)測(cè)器得到的預(yù)測(cè)值之差進(jìn)行量化和傳輸。由于這個(gè)差值的幅度遠(yuǎn)遠(yuǎn)小于樣本值本身,需要較少的比特?cái)?shù)來表示,這樣可以降低數(shù)據(jù)的編碼率,從而使編碼數(shù)據(jù)得到壓縮。第35頁(yè),共92頁(yè),2024年2月25日,星期天編碼方法——ADPCM(AdaptiveDifferentialPulseCodeModulation)自適應(yīng)差分編碼調(diào)制在實(shí)際使用中,由于輸入信號(hào)的不穩(wěn)定性,造成DPCM方法的信噪比大大降低。因此在DPCM編碼中加入自適應(yīng)的方法,就形成了自適應(yīng)差分編碼調(diào)制(ADPCM)方案。所以,ADPCM是對(duì)DPCM方法的改進(jìn),通過調(diào)整量化步長(zhǎng),對(duì)不同的頻段設(shè)置不同的量化字長(zhǎng),可使數(shù)據(jù)得到進(jìn)一步壓縮。
ADPCM壓縮方案壓縮倍率可達(dá)2~5倍,信噪比高,性能優(yōu)越,因此,多媒體計(jì)算機(jī)所獲得的數(shù)字化的聲音信息大都采用此壓縮方法。MPC的音頻卡也提供有ADPCM算法,如將16位的采樣值壓縮成4位,將8位的采樣值壓縮成4位、3位或2位。第36頁(yè),共92頁(yè),2024年2月25日,星期天音頻信號(hào)編碼算法名稱碼速率標(biāo)準(zhǔn)應(yīng)用波形編碼PCM壓擴(kuò)64kbpsG.711電話、公共網(wǎng)ADPCM自適應(yīng)差分量化32kbpsG.721SB-ADPCM子帶-自適應(yīng)差分量化64kbpsG.7225.3kbps6.3kbpsG.723參數(shù)編碼LPC線性預(yù)測(cè)編碼2.4-16kbpsFS1015保密、衛(wèi)星通信混合編碼CELPC碼激勵(lì)LPC4.6kbpsIS95移動(dòng)通信VSELP矢量和激勵(lì)LPC8kbps語音郵件LD-CELP低延時(shí)碼激勵(lì)LPC8kbpsG.729移動(dòng)通信MPEG多子帶、感知編碼128kbpsMPEG1,2,H.261DVD、運(yùn)動(dòng)圖像伴音第37頁(yè),共92頁(yè),2024年2月25日,星期天音頻信號(hào)編碼編碼后形成二進(jìn)制數(shù)據(jù),就可以在計(jì)算機(jī)上進(jìn)行存儲(chǔ)、傳輸和處理,即數(shù)字音頻語音信號(hào)存在多種冗余度,可以進(jìn)行壓縮。時(shí)域冗余度頻域冗余度聽覺特性冗余度第38頁(yè),共92頁(yè),2024年2月25日,星期天(3)
聲音質(zhì)量的評(píng)價(jià)——數(shù)字音頻信息的質(zhì)量與存儲(chǔ)量采樣、量化和編碼技術(shù)是音頻數(shù)字化的關(guān)鍵技術(shù)。而采樣頻率、每個(gè)采樣值的量化位數(shù)以及音頻信息的聲道數(shù)目,是影響數(shù)字化音頻信息質(zhì)量和容量的三個(gè)重要因素。采樣頻率越高、量化為數(shù)越大、聲道數(shù)目越多,音頻的質(zhì)量就越高,但存儲(chǔ)量就越大。第39頁(yè),共92頁(yè),2024年2月25日,星期天(3)聲音質(zhì)量的評(píng)價(jià)——音頻質(zhì)量的評(píng)價(jià)(a)客觀質(zhì)量的度量對(duì)聲波的測(cè)量包括評(píng)價(jià)值的測(cè)量、聲源的測(cè)量和音質(zhì)的測(cè)量,其測(cè)量與分析工作,是使用帶計(jì)算機(jī)處理系統(tǒng)的高級(jí)聲學(xué)測(cè)量?jī)x器來完成。度量聲音客觀質(zhì)量的一個(gè)主要指標(biāo)是信噪比SNR(SignaltoNoiseRation),信噪比是有用信號(hào)與噪聲之比的簡(jiǎn)稱,其單位是分貝(dB)。信噪比越大,聲音質(zhì)量越好。第40頁(yè),共92頁(yè),2024年2月25日,星期天(3)聲音質(zhì)量的評(píng)價(jià)——音頻質(zhì)量的評(píng)價(jià)(b)主觀質(zhì)量的度量采用客觀標(biāo)準(zhǔn)方法很難真正評(píng)定編碼器的質(zhì)量,在實(shí)際評(píng)價(jià)中,主觀的質(zhì)量度量比客觀質(zhì)量的度量更為恰當(dāng)和合理。主觀的質(zhì)量度量通常是對(duì)某編碼器的輸出的聲音質(zhì)量進(jìn)行評(píng)價(jià)。度量方法類似于電視節(jié)目中的歌手比賽,由評(píng)委對(duì)每個(gè)歌手的表現(xiàn)進(jìn)行評(píng)分,然后求出平均值。例如播放一段音樂,記錄一段話,然后重放給一批實(shí)驗(yàn)者聽,再由實(shí)驗(yàn)者進(jìn)行綜合評(píng)定,得出平均判分(MeanOpnionScose,MOS)。第41頁(yè),共92頁(yè),2024年2月25日,星期天主觀平均分(meanopinionscore,MOS)對(duì)聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制,各檔次的評(píng)分標(biāo)準(zhǔn)見表3-2分?jǐn)?shù)質(zhì)量等級(jí)失真級(jí)別5優(yōu)(Excellent)無察覺4良(Good)(剛)察覺但不討厭3中(Fair)(察覺)有點(diǎn)討厭2差(Poor)討厭但不反感1劣(Bad)極討厭(令人反感)第42頁(yè),共92頁(yè),2024年2月25日,星期天聲音質(zhì)量的衡量方法客觀質(zhì)量度量用信噪比(SNR)表示主觀質(zhì)量度量有時(shí)同時(shí)采取兩種方法評(píng)估,有時(shí)以主觀質(zhì)量度量為主聲音帶寬法等級(jí)由高到低依次是DAT、CD、FM、AM和數(shù)字電話第43頁(yè),共92頁(yè),2024年2月25日,星期天2.2數(shù)字音頻壓縮技術(shù)數(shù)據(jù)的冗余聲音的壓縮原理聲音的壓縮分類聲音的壓縮標(biāo)準(zhǔn)數(shù)字音頻格式第44頁(yè),共92頁(yè),2024年2月25日,星期天什么是音頻壓縮音頻壓縮技術(shù)指的是對(duì)原始數(shù)字音頻信號(hào)流(如PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號(hào)處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,以減少數(shù)據(jù)量,也稱為壓縮編碼。它必須具有相應(yīng)的逆變換,稱為解壓縮或解碼。音頻信號(hào)在通過一個(gè)編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。第45頁(yè),共92頁(yè),2024年2月25日,星期天
雖然表示數(shù)字音頻需要大量的數(shù)據(jù),但數(shù)字音頻數(shù)據(jù)是高度相關(guān)的,或者說存在冗余(Redundancy)信息,去掉這些冗余信息后可以有效壓縮數(shù)據(jù)量,同時(shí)又不會(huì)損害聲音的有效信息。數(shù)據(jù)的冗余第46頁(yè),共92頁(yè),2024年2月25日,星期天你的妻子,Helen,將于明天晚上6點(diǎn)零5分在上海的虹橋機(jī)場(chǎng)接你。
(23*2+10=56個(gè)半角字符)你的妻子將于明天晚上6點(diǎn)零5分在虹橋機(jī)場(chǎng)接你
(20*2+2=42個(gè)半角字符)
Helen將于明晚6點(diǎn)在虹橋接你
(10*2+6=26個(gè)半角字符)結(jié)論:表達(dá)信息的文字存在冗余。只要接收端不會(huì)產(chǎn)生誤解,就可以減少承載信息的數(shù)據(jù)量。我們從一個(gè)互動(dòng)游戲來體會(huì)數(shù)據(jù)冗余的概念。在下面的例子中,用一種最好的方式來發(fā)送一封電報(bào)。第47頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)據(jù)壓縮的基本原理為了滿足對(duì)數(shù)字化的信息進(jìn)行存儲(chǔ)、傳輸?shù)男枰?,就必須進(jìn)行數(shù)據(jù)壓縮,即去掉數(shù)據(jù)的冗余性。評(píng)價(jià)壓縮技術(shù)的3個(gè)重要指標(biāo):
1)壓縮比要大 2)算法簡(jiǎn)單
3)恢復(fù)效果要好第48頁(yè),共92頁(yè),2024年2月25日,星期天按照一致性分類:可逆編碼(無失真編碼,lossless):解碼信號(hào)與原始信號(hào)嚴(yán)格相同。如Huffman編碼、算術(shù)編碼、游程編碼。不可逆編碼方法(無失真編碼,lossy):還原信號(hào)與原始信號(hào)存在一定的誤差,但效果可以接收。按照壓縮方案的不同:
又可將其劃分為時(shí)域壓縮、變換壓縮、子帶壓縮,以及多種技術(shù)相互融合的混合壓縮等等。各種不同的壓縮技術(shù),其算法的復(fù)雜程度、壓縮質(zhì)量、算法效率(即壓縮比例),以及編解碼延時(shí)等都有很大的不同。各種壓縮技術(shù)的應(yīng)用場(chǎng)合也因之而各不相同。數(shù)據(jù)壓縮方法的分類第49頁(yè),共92頁(yè),2024年2月25日,星期天按照壓縮方法分類:預(yù)測(cè)編碼:利用空間中相鄰數(shù)據(jù)的相關(guān)性,利用過去和現(xiàn)在出現(xiàn)過的點(diǎn)的數(shù)據(jù)情況來預(yù)測(cè)未來點(diǎn)的數(shù)據(jù)。如差分脈沖編碼調(diào)制(DPCM)、自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)等。變換編碼:將時(shí)域信號(hào)變換到頻域空間上處理。比如K-L變換、DCT(離散余弦變換)變換等。信息熵編碼:讓出現(xiàn)概率大的用短的碼字表達(dá),反之用長(zhǎng)的碼字表示。如Huffman編碼。子帶編碼:將圖像數(shù)據(jù)變換到頻域后,按頻域分帶,然后用不同的量化器進(jìn)行量化,從而達(dá)到最優(yōu)的組合。數(shù)據(jù)壓縮方法的分類第50頁(yè),共92頁(yè),2024年2月25日,星期天音頻信號(hào)壓縮編碼不僅利用一般壓縮編碼方法,而且利用人耳的聽覺特性,主要有兩點(diǎn):1.人的聽覺系統(tǒng)中存在一個(gè)聽覺閾值電平,低于這個(gè)電平的聲音信號(hào)人耳聽不到.2.人的聽覺存在屏蔽效應(yīng)。當(dāng)幾個(gè)強(qiáng)弱不同的聲音同時(shí)存在時(shí),強(qiáng)聲使弱聲難以聽到,并且兩者之間的關(guān)系與其相對(duì)頻率的大小有關(guān).
聲音編碼算法通過這些特性來去掉更多的冗余數(shù)據(jù),來達(dá)到壓縮數(shù)據(jù)的目的。音頻壓縮第51頁(yè),共92頁(yè),2024年2月25日,星期天音頻壓縮聲音包括語音和音樂,聲音數(shù)據(jù)表征的是一個(gè)一維時(shí)變系統(tǒng),故聲音數(shù)據(jù)的壓縮要易于圖像數(shù)據(jù)的壓縮。根據(jù)時(shí)域冗余度、頻域冗余度和人聽覺感知機(jī)理進(jìn)行壓縮,主要方法有:基于音頻數(shù)據(jù)的統(tǒng)計(jì)特性進(jìn)行編碼,如波形編碼?;谝纛l的聲學(xué)參數(shù)進(jìn)行編碼,或者混合編碼?;谌说穆犛X特性進(jìn)行編碼,如DolbyAC-3。第52頁(yè),共92頁(yè),2024年2月25日,星期天電話質(zhì)量的語音壓縮標(biāo)準(zhǔn):300Hz~3.4KHz。當(dāng)采樣頻率為8KHz,量化位數(shù)為8bit時(shí)所對(duì)應(yīng)的速率為6kbit/s。調(diào)幅廣播質(zhì)量的音頻壓縮標(biāo)準(zhǔn):50Hz~7KHz。當(dāng)使用16KHz的抽樣頻率和14bit的量化位數(shù)時(shí),信號(hào)速率為224kbit/s。符合1988年ITU制定的G.722標(biāo)準(zhǔn)。高保真立體聲音頻壓縮標(biāo)準(zhǔn):50Hz~20KHz。在44.1KHz抽樣頻率下用16bit量化,信號(hào)速率為每聲道705kbit/s。目前比較成熟的標(biāo)準(zhǔn)為“MPEG音頻”。音頻壓縮標(biāo)準(zhǔn)第53頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式WAV是微軟公司開發(fā)的一種聲音文件格式,也叫波形聲音文件。是最早的數(shù)字音頻格式,被Windows平臺(tái)及其應(yīng)用程序廣泛支持。WAV格式支持許多壓縮算法、支持多種音頻位數(shù)、采樣頻率和聲道,經(jīng)常見到的WAV格式的文件多采用44.1kHz的采樣頻率。16位量化位數(shù),其音質(zhì)與CD相同,但WAV格式對(duì)存儲(chǔ)空問需求太大而不便于通過網(wǎng)絡(luò)交流和傳播WAV也是音樂編輯創(chuàng)作的首選格式,適合保存音樂素材。第54頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式AIFF音頻交換文件格式(AudioInterchangeFileFormat,簡(jiǎn)寫為AIF/AIFF),是蘋果計(jì)算機(jī)公司開發(fā)的一種標(biāo)準(zhǔn)聲音文件格式,被Macintosh平臺(tái)及其應(yīng)用程序所支持,它屬于Quick—Time技術(shù)中的一部分,而且是一種優(yōu)秀的文件格式,投入使用后便很快得到Microsoft公司青睞,NetscapeNavigator瀏覽器中的LiveAudio、SGI及其他專業(yè)音頻軟件包都支持它。AIF/AIFF支持支持l6位,44.1kHz立體聲,現(xiàn)在幾乎所有的音頻編輯軟件和播放軟件都支持這種格式。第55頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式MIDI:MusicalInstrumentDigitalInterface,是數(shù)字音樂/電子合成樂器的統(tǒng)一國(guó)際標(biāo)準(zhǔn)。它定義了計(jì)算機(jī)音樂程序、數(shù)字合成器及其它電子設(shè)備交換音樂信號(hào)的方式。規(guī)定了不同廠家的電子樂器與計(jì)算機(jī)連接的電纜和硬件及設(shè)備間數(shù)據(jù)傳輸?shù)膮f(xié)議,可以模擬多種樂器的聲音。MIDI文件就是MIDI格式的文件,它存儲(chǔ)的只是一些指令,我們要聽到聲音,必須把這些指令發(fā)送給音源,再由音源按照指令將聲音合成和播放出來。CD:擴(kuò)展名CDA,其取樣頻率為44.1kHz,16位量化位數(shù)。CD存儲(chǔ)采用了音軌的形式,又叫“紅皮書”格式。記錄的是波形流,是一種近似無損的格式。第56頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式MP3:全稱是MPEG—lAudioLayer3,它在1992年合并至MPEG規(guī)范中。MP3能夠以高音質(zhì)、低采樣率對(duì)數(shù)字音頻文件進(jìn)行壓縮。音頻文件(WAV文件)能夠在音質(zhì)丟失很小的情況下把文件壓縮到更小的程度。它是利用人耳的掩蔽效應(yīng)對(duì)聲音進(jìn)行壓縮,使文件在較低的比特率下,盡可能地保持了原有的音質(zhì),是目前最為流行的壓縮方式,也是現(xiàn)在網(wǎng)上收集音樂的最主要的方式,大多數(shù)播放器都支持這一文件格式。MP3格式的聲音文件的壓縮比達(dá)10:1~12:l,在不小于128kbps傳輸率下,基本保持了原有音質(zhì)。第57頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式SACD(SA=SuperAudio):是由Sony公司發(fā)布的。它的采樣率為CD格式的64倍,即2.8224MHz。SACD重放頻率帶寬達(dá)100kHz,為CD格式的5倍,24位量化位數(shù),遠(yuǎn)遠(yuǎn)超過CD。聲音的細(xì)節(jié)表現(xiàn)更為豐富、清晰。VQF格式:是由YAMAHA和NTT共同開發(fā)的一種音頻壓縮技術(shù),它的壓縮率能夠達(dá)到1:18。因此,相同情況下壓縮后VQF的文件體積比MP3小30%~50%,更便利于網(wǎng)上傳播。同時(shí)音質(zhì)極佳,接近CD音質(zhì)(16位44.1kHz立體聲)。但VQF未公開技術(shù)標(biāo)準(zhǔn),至今未能流行開來。第58頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式DVDAudio:是新一代的數(shù)字音頻格式,與DVDVideo尺寸以及容量相同,為音樂格式的DVD光碟,取樣頻率為“48kHz/96kHz/l92kHz‘’和“44.1kHz/88.2kHz/l76.4kHz”
可選擇,量化位數(shù)可以為16、20或24比特,它們之間可自由地進(jìn)行組合。低采樣率的92kHz、176.4kHz雖然是2聲道重播專用,但它最多可收錄到6聲道。而以2聲道192kHz/24b或6聲道96kHz/24b收錄聲音,可容納74分鐘以上的錄音,動(dòng)態(tài)范圍達(dá)144dB,整體效果出類拔萃。第59頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式MD(MiniDisc):由日本Sony公司開發(fā)。MD之所以能在一張盤中存儲(chǔ)60~80分鐘、采用44.1khz采樣的立體聲音樂,就是因?yàn)槭褂昧薃TRAC算法(自適應(yīng)聲學(xué)轉(zhuǎn)換編碼)壓縮音源。這是一套基于心理聲學(xué)原理的音響譯碼系統(tǒng),它可以把CD唱片的音頻壓縮到原來數(shù)據(jù)量的大約1/5,而聲音質(zhì)量沒有明顯的損失。ATRAC利用人耳聽覺的心理聲學(xué)特性(頻譜掩蔽特性和時(shí)間掩蔽特性)以及入耳對(duì)信號(hào)幅度、頻率、時(shí)間的有限分辨能力。編碼時(shí)將人耳感覺不到的成分不編碼、不傳送,這樣就可以相應(yīng)減少某些數(shù)據(jù)量的存儲(chǔ),從而既保證音質(zhì)又達(dá)到縮小體積的目的。第60頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式RealAudio:是由RealNetworks公司推出的一種文件格式。最大的特點(diǎn)是可以實(shí)時(shí)傳輸音頻信息,尤其是在網(wǎng)速較慢的情況下,仍然可以較為流暢地傳送數(shù)據(jù)。因此RealAudio主要適用于網(wǎng)絡(luò)上的在線播放?,F(xiàn)在的RealAudio文件格式主要有RA(RealAudio)、RM(RealMedia,RealAudioG2)、RMX(RealAudioSecured)等三種,這些文件的共同性在于隨著網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量。在保證大多數(shù)人聽到流暢聲音的前提下,令帶寬較寬敞的聽眾獲得較好的音質(zhì)。第61頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式AAC:高級(jí)音頻編碼的縮寫。AAC是由FraunhoferIIS—A、杜比和AT&T共同開發(fā)的一種音頻格式,它是MPEG一2規(guī)范的一部分。AAC所采用的運(yùn)算法則與MP3的運(yùn)算法則有所不同,AAC通過結(jié)合其他的功能來提高編碼效率。AAC的音頻算法在壓縮能力上遠(yuǎn)遠(yuǎn)超過了以前的一些壓縮算法(比如MP3等)。它還同時(shí)支持多達(dá)48個(gè)音軌、l5個(gè)低頻音軌、更多種采樣率和比特率、多種語言的兼容能力、更高的解碼效率??傊?,AAC可以在比MP3文件縮小30%的前提下提供更好的音質(zhì)。第62頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式APE:Monkey’SAudio提供的一種無損壓縮格式。Monkey’SAudio提供了Winamp的插件支持,因此這就意味著壓縮后的文件不再是單純的壓縮格式,而是和MP3一樣可以播放的音頻文件格式。壓縮效果大約為2:l左右,但能夠做到真正無損,因此獲得了不少發(fā)燒用戶的青睞。令人滿意的壓縮比以及飛快的壓縮速度,成為了不少朋友私下交流發(fā)燒音樂的唯一選擇。第63頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻格式OGG格式:全稱是OGGVobis。它是一種新的音頻壓縮格式,類似于MP3等現(xiàn)有的音樂格式。但有所不同的是,它是完全免費(fèi)、開放和沒有專利限制的。OGGVobis有一個(gè)很出眾的特點(diǎn),就是支持多聲道,隨著它的流行,以后用隨身聽來聽DTS編碼的多聲道作品將不會(huì)是夢(mèng)想。OGGVobis在壓縮技術(shù)上比MP3好,使它很有可能成為一個(gè)流行的趨勢(shì),這也正是一些MP3播放器對(duì)其支持的原因。另外,如果相同速率錄制音頻mp3和ogg不分上下,ogg采用更先進(jìn)的算法還可能會(huì)好一些。第64頁(yè),共92頁(yè),2024年2月25日,星期天2.3計(jì)算機(jī)音樂音樂合成MIDI規(guī)范數(shù)字音頻工作站第65頁(yè),共92頁(yè),2024年2月25日,星期天一個(gè)樂音必備的三要素是:音高、音色和音強(qiáng)。運(yùn)動(dòng)的旋律中的樂音還應(yīng)具備時(shí)值,即持續(xù)時(shí)間。音高:音高指聲音的基頻。聲音的基頻越高,給人的感覺就越激越;相反,聲音的基頻越低,給人的感覺就越低沉。。音色:音色是由聲音的頻譜決定的:各階諧波的比例不同,隨時(shí)間衰減的程度不同,音色就不同。各種樂器的音色是由其自身結(jié)構(gòu)特點(diǎn)決定的。要用計(jì)算機(jī)模擬具有強(qiáng)烈真實(shí)感的旋律,音色的變化非常重要的。音強(qiáng)和時(shí)值:音強(qiáng)也叫響度,是指聲音信號(hào)的強(qiáng)弱程度,是由聲波振動(dòng)的振幅決定的。聲波振動(dòng)的持續(xù)時(shí)間稱為時(shí)值,它具有明顯的相對(duì)性,一個(gè)音只有在包含了比它更短的音的旋律才會(huì)顯得長(zhǎng)。音樂合成第66頁(yè),共92頁(yè),2024年2月25日,星期天 任何一種波形信號(hào)都可以被分解成若干個(gè)頻率不同的正弦波,一個(gè)樂器的聲音也可以由若干個(gè)正弦波合成得到。 調(diào)頻(FM)是使高頻振蕩波的頻率按調(diào)制信號(hào)規(guī)律變化的一種調(diào)制方式。采用不同調(diào)制波頻率和調(diào)制指數(shù),就可以方便地合成具有不同頻譜分布的波形,再現(xiàn)某些樂器的音色。我們可以采用這種方法得到具有獨(dú)特效果的“電子模擬聲”,創(chuàng)造出豐富多彩的、真實(shí)樂器所不具備的音色。為使音樂更加真實(shí),人們開發(fā)出波形表(wavetable)音樂合成技術(shù)。波表合成是把真實(shí)音樂聲音數(shù)字信號(hào)錄制后,保存在存儲(chǔ)器中,當(dāng)選擇某個(gè)樂器時(shí),將所錄制的樣本信號(hào)回放。目前這兩種音樂合成技術(shù)都應(yīng)用于多媒體計(jì)算機(jī)的音頻卡中。第67頁(yè),共92頁(yè),2024年2月25日,星期天
1.什么是MIDIMIDI(MusicalInstrumentDigitalInterface,樂器數(shù)字接口)是一種技術(shù)規(guī)范,定義了為把電子樂器連接到計(jì)算機(jī)所需要的電纜和端口的硬件標(biāo)準(zhǔn),計(jì)算機(jī)和具有MIDI接口的設(shè)備之間進(jìn)行信息交換的規(guī)則,電子樂器之間傳送數(shù)據(jù)的通信協(xié)議。
MIDI聲音是記錄電子樂器鍵盤的彈奏過程,是將樂曲進(jìn)行一種數(shù)字化的描述,這種描述稱為MIDI消息(MIDIMessage)。當(dāng)需要播放這段音樂時(shí),從相應(yīng)的MIDI文件中讀出MIDI消息,由合成器來解釋這些消息中的符號(hào),并生成所需要的樂器的聲音波形,經(jīng)放大后由揚(yáng)聲器輸出。在計(jì)算機(jī)中播放MIDI信息須使用帶有合成器的聲卡。
MIDI規(guī)范第68頁(yè),共92頁(yè),2024年2月25日,星期天2.
MIDI聲音的優(yōu)點(diǎn):(1)存儲(chǔ)容量小因?yàn)镸IDI文件中記錄的是一系列指令的集合,所以,MIDI文件所占的存儲(chǔ)量非常小。在需要播放長(zhǎng)時(shí)間的高質(zhì)量音樂時(shí),往往采用MIDI文件。(2)可以提供背景音樂或音響效果的配音功能當(dāng)多媒體計(jì)算機(jī)播放圖像、文字、圖表時(shí),或者播放波形音頻、語音時(shí),可以同時(shí)播放MIDI音樂作為背景音響效果。(3)便于編輯和修改
MIDI聲音記錄的是符號(hào),是樂譜的數(shù)字化表示。因此,它可以在計(jì)算機(jī)中很方便地任意修改樂曲的速度、音調(diào),甚至可以更換的樂器,從而得到不同的效果。(4)可以在MIDI合成器中完全重現(xiàn)原來的演奏
MIDI是把MIDI設(shè)備上產(chǎn)生的每個(gè)活動(dòng)記錄下來,形成MIDI文件,把它再傳送到MIDI合成器時(shí),就可以完全重現(xiàn)原來的演奏效果。第69頁(yè),共92頁(yè),2024年2月25日,星期天3.MIDl規(guī)范
MIDI規(guī)范是一個(gè)國(guó)際的標(biāo)準(zhǔn),主要包括以下3個(gè)方面的內(nèi)容。(1)MIDI的硬件規(guī)范指的是各種MIDI設(shè)備之間連接的硬件接口標(biāo)準(zhǔn)和信號(hào)傳輸機(jī)制,包括輸入/輸出通道的類型,連接電纜樣式及插座形式等。(2)MIDI聲音信息的規(guī)范指的是使音樂信息互相交換的一種編碼標(biāo)準(zhǔn)。它包括有關(guān)音樂成分的信息,如音符、音量、音調(diào)、音符時(shí)間長(zhǎng)短等,是一種表達(dá)各種聲音的作曲系統(tǒng)。(3)MIDI聲音合成的規(guī)范指的是各種聲音的表達(dá)方式,即真實(shí)聲音信號(hào)的規(guī)范,它可以采用FM合成技術(shù)和波形表合成技術(shù)的標(biāo)準(zhǔn)。第70頁(yè),共92頁(yè),2024年2月25日,星期天4.MIDI的有關(guān)術(shù)語
(1)MIDI文件
MIDI文件是存放MIDI信息的標(biāo)準(zhǔn)文件,文件名后綴為.MID。(2)通道(Channels)MIDI可為16個(gè)通道提供數(shù)據(jù),每個(gè)通道可以訪問一個(gè)獨(dú)立的邏輯合成器。(3)音序器(Sequencer)音序器是為了MIDI作曲而設(shè)計(jì)的計(jì)算機(jī)程序或電子裝置,用于記錄、編輯、播放MIDI文件。(4)合成器(Synthesizer)合成器是利用數(shù)字信號(hào)處理器或其他芯片產(chǎn)生音樂或聲音的電子設(shè)備。它可以產(chǎn)生并修改波形,然后通過聲音產(chǎn)生器和揚(yáng)聲器發(fā)出聲音。(5)樂器(Instrument) 合成器能產(chǎn)生的特定聲音稱為樂器。每種樂器都有自己的波形,合成器按音色和音調(diào)的要求,由不同的樂器組合成最終的聲音組合。第71頁(yè),共92頁(yè),2024年2月25日,星期天(6)復(fù)音(Polyphony)復(fù)音是合成器同時(shí)支持的最多音符數(shù)。(7)音色(Timbre)音色指的是聲音的音質(zhì),它取決于聲音頻率。(8)音軌(Track)一種用通道把MIDI數(shù)據(jù)分隔成單獨(dú)組,每條音軌分別定義了該條音軌的屬性,如音軌的音色,音色庫(kù),通道數(shù),輸入/輸出端口,音量等。
一條音軌對(duì)應(yīng)于音樂的一個(gè)聲部,每一音軌可認(rèn)為一種樂器的演奏。
(9)合成音色映射器(Patchappear)合成音色映射器是一種軟件。為了適應(yīng)Microsoft的MIDI合成音色,分配表規(guī)定了合成音色的編號(hào)。軟件為特定的合成器重新分配編號(hào)。(10)通道映射(Channelmapping)通道映射把發(fā)送裝置的MIDI通道號(hào)變換成適當(dāng)?shù)慕邮昭b置的通道號(hào)。第72頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻工作站(DigitalAudioWorkstation,簡(jiǎn)稱DAW)是集中多種音頻處理工具的、以計(jì)算機(jī)為平臺(tái)的數(shù)字音頻制作系統(tǒng)。或者說是一種用來處理、交換音頻信息的計(jì)算機(jī)系統(tǒng)。它是數(shù)字音頻技術(shù)的和計(jì)算機(jī)技術(shù)結(jié)合的產(chǎn)物,數(shù)字音頻工作站的出現(xiàn),實(shí)現(xiàn)了廣播系統(tǒng)高質(zhì)量的節(jié)目錄制自動(dòng)化播出,同時(shí)也創(chuàng)造了更加良好的高效的工作環(huán)境。它把眾多繁瑣的音頻制作過程集中在通用多媒體計(jì)算機(jī)上完成,與傳統(tǒng)數(shù)字音頻制作相比,省去了大量周邊輔助數(shù)字音頻設(shè)備,省去了大量設(shè)備的連接、安裝、調(diào)試等,操作集中在計(jì)算機(jī)上完成,方便簡(jiǎn)單;目前DAW已被用到了廣播電臺(tái)的廣播節(jié)目制作、播出、管理與控制的各個(gè)環(huán)節(jié),是廣播電臺(tái)播控中心數(shù)字化、網(wǎng)絡(luò)化關(guān)鍵設(shè)備之一。第73頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻工作站從硬件角度來說,數(shù)字音頻工作站的構(gòu)成可以歸結(jié)為以下幾個(gè)部分:計(jì)算機(jī)控制部分,核心音頻處理部分,數(shù)據(jù)存儲(chǔ)設(shè)備及其它外設(shè)設(shè)備;從軟件角度來說,數(shù)字音頻工作站可分為以下幾個(gè)模塊:操作平臺(tái),音頻處理界面,文件格式,第三方軟件及其他相關(guān)軟件。第74頁(yè),共92頁(yè),2024年2月25日,星期天數(shù)字音頻工作站功能DAW提供了制作廣播與影視節(jié)目中音頻部分所需要的所有功能,包括:專業(yè)要求的音質(zhì)錄入和聲音播放;采樣頻率最低44.1kHz,16bit的量化級(jí)別,頻響范圍達(dá)到20Hz~20000Hz,信噪比接近90dB
錄音放音和合成;能夠同時(shí)播放8個(gè)以上音軌、可同時(shí)看到波形剪輯功能。刪除、靜音、復(fù)制、移位、拼接、淡入淡出、移調(diào)、伸縮等數(shù)字效果處理;調(diào)音、實(shí)時(shí)均衡、聲音擴(kuò)壓、聲像移動(dòng)、電平調(diào)整、混響、延時(shí)、降噪、變速調(diào)節(jié)等第75頁(yè),共92頁(yè),2024年2月25日,星期天第76頁(yè),共92頁(yè),2024年2月25日,星期天2.4數(shù)字語音處理技術(shù)語音增強(qiáng)語音合成語音識(shí)別數(shù)字音頻水印技術(shù)第77頁(yè),共92頁(yè),2024年2月25日,星期天語音增強(qiáng)語音增強(qiáng)是指當(dāng)語音信號(hào)被各種噪聲干擾、甚至淹沒后,從噪聲背景中提取有用的語音信號(hào),抑制、降低噪聲干擾的技術(shù),即從含噪聲語音中盡可能提取純凈的原始語音。第78頁(yè),共92頁(yè),2024年2月25日,星期天語音增強(qiáng)的意義1,日常生活中,經(jīng)常遇到在噪聲干擾中進(jìn)行語音通信的問題,如在汽車、火車上使用移動(dòng)電話,在鬧市、馬路邊、商場(chǎng)里打電話。2,軍事通信中,指揮員的作戰(zhàn)命令、情報(bào)員的匯報(bào)、戰(zhàn)地會(huì)議等受到惡劣戰(zhàn)場(chǎng)環(huán)境,如槍炮聲、馬達(dá)聲等的干擾。3,竊聽技術(shù)的需要進(jìn)行增強(qiáng)。4,語音識(shí)別技術(shù)需要先進(jìn)行增強(qiáng)。第79頁(yè),共92頁(yè),2024年2月25日,星期天語音增強(qiáng)的方法1,噪聲對(duì)消法。2,諧波增強(qiáng)法。3,基于參數(shù)估計(jì)的語音再合成法。4,基于語音短時(shí)譜估計(jì)的增強(qiáng)算法。第80頁(yè),共92頁(yè),2024年2月25日,星期天語音合成語音合成,又稱文語轉(zhuǎn)換(TexttoSpeech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,也即讓機(jī)器像人一樣開口說話。
它涉及聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù)是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)第81頁(yè),共92頁(yè),2024年2月25日,星期天語音合成這里所說的“讓機(jī)器像人一樣開口說話”與傳統(tǒng)的聲音回放設(shè)備(系統(tǒng))有著本質(zhì)的區(qū)別。傳統(tǒng)的聲音回放設(shè)備(系統(tǒng)),如磁帶錄音機(jī),是通過預(yù)先錄制聲音然后回放來實(shí)現(xiàn)“讓機(jī)器說話”的。而通過計(jì)算機(jī)語音合成則可以在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音,從而真正實(shí)現(xiàn)讓機(jī)器“像人一樣開口說話”。文語轉(zhuǎn)換系統(tǒng)實(shí)際上可以看作是一個(gè)人工智能系統(tǒng)。第82頁(yè),共92頁(yè),2024年2月25日,星期天TTS的基本結(jié)構(gòu)語言學(xué)處理在文語轉(zhuǎn)換系統(tǒng)中起著重要的作用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇科版數(shù)學(xué)八年級(jí)上冊(cè)聽評(píng)課記錄《4-3實(shí)數(shù)(2)》
- 中考人教版地理一輪復(fù)習(xí):八年級(jí)下冊(cè)第九章 青藏地區(qū) 聽課評(píng)課記錄
- 小學(xué)二年級(jí)加減數(shù)學(xué)口算練習(xí)題
- 湘教版地理七年級(jí)下冊(cè)《 第八章 走進(jìn)國(guó)家 第四節(jié)法國(guó)導(dǎo)》聽課評(píng)課記錄
- 五年級(jí)口算題50道
- 學(xué)生營(yíng)養(yǎng)餐供貨協(xié)議書范本
- 醫(yī)院和醫(yī)院合作協(xié)議書范本
- 機(jī)器購(gòu)銷合同范本
- 2025年度知識(shí)產(chǎn)權(quán)交易市場(chǎng)運(yùn)營(yíng)管理協(xié)議
- 北京市房屋租賃合同范本
- 2024年人教版小學(xué)六年級(jí)數(shù)學(xué)(上冊(cè))期末試卷附答案
- 2024-2025學(xué)年江蘇省南京鼓樓區(qū)五校聯(lián)考中考模擬物理試題含解析
- 2024年無人機(jī)駕駛員(五級(jí))理論考試題庫(kù)(含答案)
- 標(biāo)準(zhǔn)作文稿紙模板(A4紙)
- 中小學(xué)校園突發(fā)事件應(yīng)急與急救處理課件
- 2024年山東省普通高中學(xué)業(yè)水平等級(jí)考試生物真題試卷(含答案)
- 2024年青海省西寧市選調(diào)生考試(公共基礎(chǔ)知識(shí))綜合能力題庫(kù)匯編
- 2024年4月自考00608日本國(guó)概況試題
- 廣州綠色金融發(fā)展現(xiàn)狀及對(duì)策的研究
- 保衛(wèi)管理員三級(jí)培訓(xùn)
- 2024年十八項(xiàng)醫(yī)療核心制度考試試題及答案
評(píng)論
0/150
提交評(píng)論