模擬音頻的聲音質(zhì)量課件

上傳人：x*** IP屬地：貴州上傳時間：2022-12-29 格式：PPT 頁數(shù)：142 大小：1.35MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩137頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

音頻素材制作與處理第五章音頻素材制作與處理第五章聲音聲音是人類表達(dá)思想和情感的重要媒介，是用于傳送信息的媒體。不同類型的聲音會給人帶來不同的感受，優(yōu)美的樂音令人心情舒暢，繁雜的噪音使人疲勞緊張。在多媒體技術(shù)領(lǐng)域，聲音主要表現(xiàn)為語音、自然聲和音樂。本章介紹音頻信號的特點(diǎn)、模擬音頻與數(shù)字音頻的基本概念、語音合成技術(shù)與識別技術(shù)、音頻處理軟件AdobeAudition基本功能介紹以及利用本軟件實(shí)現(xiàn)相應(yīng)音頻素材制作技術(shù)等理論知識與應(yīng)用方法。聲音聲音是人類表達(dá)思想和情感的重要媒介，是用于傳送信息的媒2模擬音頻聲音是由物體振動產(chǎn)生的。正在發(fā)聲的物體稱為聲源。聲音的產(chǎn)生：聲源振動，通過空氣等介質(zhì)，把這種振動以機(jī)械波的形式傳向遠(yuǎn)方，這就是聲波。聲波傳入人的耳朵，促使耳膜產(chǎn)生振動，這種耳膜的振動被傳導(dǎo)到人的聽覺神經(jīng)，就產(chǎn)生了對“聲音”的感覺。模擬音頻聲音是由物體振動產(chǎn)生的。3聲音是振動的波，是隨時間連續(xù)變化的物理量，是連續(xù)的模擬信號，即模擬音頻信號。聲波與普通波形一樣，可以用以下三個物理量來描述：振幅、周期、頻率。（1）振幅是聲音波形振動的幅度，表示聲音的強(qiáng)弱。（2）周期是聲音波形完成一次全振動經(jīng)過的時間，也是兩個連續(xù)波峰之間的時間長度。（3）頻率是聲音波形在一秒鐘內(nèi)完成全振動的次數(shù)，表示聲音的音調(diào)。聲音是振動的波，是隨時間連續(xù)變化的物理量，是連續(xù)的模擬信號，4聲音具有三個要素：音調(diào)、音色和音強(qiáng)。（1)音調(diào)代表聲音的高低。頻率越高，音調(diào)越高。（2）音色是聲音的特色。聲音分純音和復(fù)音兩種類型。純音的振幅和周期均為常數(shù)；復(fù)音是具有不同頻率和不同振幅的混合聲音，是影響聲音特色的主要因素。自然界的大部分聲音是復(fù)音。（3)音強(qiáng)是聲音的強(qiáng)度，常說的“音量”就是指音強(qiáng)。音強(qiáng)與聲波的振幅成正比，振幅越大，強(qiáng)度越大。聲音錄制完畢后音強(qiáng)即隨之確定，通過播放設(shè)備的音量控制，可改變聆聽時的強(qiáng)度。聲音具有三個要素：音調(diào)、音色和音強(qiáng)。5聲音頻率是指聲音信號每秒鐘變化的次數(shù)。頻率小于20Hz的信號稱為亞音信號，或次音信號；頻率范圍為20-20000Hz的信號稱為音頻信號。高于20000Hz的信號稱為超音頻信號。在多媒體技術(shù)中，處理的信號主要是音頻信號，它包括音樂、語音及自然界的各種聲響。聲音頻率是指聲音信號每秒鐘變化的次數(shù)。6模擬音頻信號通常是被轉(zhuǎn)換為電信號來進(jìn)行處理的。大多數(shù)電信號的處理方法一直是采用模擬元部件（如晶體管、變壓器、電阻、電容等）對模擬音頻信號進(jìn)行處理。模擬音頻信號通常是被轉(zhuǎn)換為電信號來進(jìn)行處理的。大多數(shù)電信號的7模擬音頻的特點(diǎn)1、模擬音頻信號的頻率范圍模擬音頻信號由許多頻率不同的信號組成，每個信號都有各自的頻率范圍，這個組合信號被稱為復(fù)合信號。頻率范圍也叫“頻域”或“頻帶”，不同種類的聲源頻帶是不同的。人耳聽到的聲音頻帶范圍是有限的，頻率低于20Hz和高于20000Hz的聲音信號人類聽不到，即表示人耳的可聽域在20-20000Hz之間。模擬音頻的特點(diǎn)1、模擬音頻信號的頻率范圍8不同聲源的頻帶寬度聲源類型頻帶寬度（Hz）人類語音100-10000電話聲音200-3400電臺調(diào)幅廣播AM50-7000電臺調(diào)頻廣播FM20-15000高級音響設(shè)備20-20000寬帶音響設(shè)備10-40000不同聲源的頻帶寬度聲源類型頻帶寬度（Hz）人類語音100-19模擬音頻的連續(xù)性模擬音頻是在時間上和幅值上都連續(xù)變化的信號，構(gòu)成聲音數(shù)據(jù)前后之間具有強(qiáng)烈的相關(guān)性。連續(xù)波形上的任何一點(diǎn)都代表了特定的聲音信息。因此，模擬錄音過程需要將連續(xù)變化的聲音波形轉(zhuǎn)換為連續(xù)變化的電信號，再作用于磁性存儲設(shè)備的磁頭，產(chǎn)生連續(xù)的強(qiáng)度不同的磁場，磁化磁帶上的磁性材料。模擬音頻的連續(xù)性模擬音頻是在時間上和幅值上都連續(xù)變化的信號10模擬音頻的聲音質(zhì)量模擬音頻的聲音質(zhì)量簡稱“音質(zhì)”，與音色和頻率范圍有關(guān)。悅耳的音色、寬廣的頻率范圍，能夠獲得更好的音質(zhì)。影響音質(zhì)的因素主要與聲音還原設(shè)備有關(guān)。其次，噪聲也是影響音質(zhì)的重要因素，在錄制聲音時，音頻信號幅度與噪聲幅度的比值越大越好。模擬信號的一個重要的缺點(diǎn)就是噪聲容限較低，抗干擾能力差，在錄音過程中，噪聲的影響是限制模擬音頻信號質(zhì)量的重要原因。模擬音頻的聲音質(zhì)量模擬音頻的聲音質(zhì)量簡稱“音質(zhì)”，與音色和11數(shù)字音頻數(shù)字音頻是以二進(jìn)制的方式記錄的音頻，是模擬音頻的數(shù)字化表達(dá)。相對于模擬音頻，數(shù)字音頻可以表現(xiàn)出更好的音質(zhì)效果。數(shù)字音頻技術(shù)是指利用數(shù)字技術(shù)處理聲音的方法。數(shù)字音頻可以以聲音文件WAV格式或者M(jìn)IDI格式在磁盤中保存。通常，通過計(jì)算機(jī)的聲卡（也稱音頻卡）將模擬音頻進(jìn)行模擬/數(shù)字轉(zhuǎn)換，將模擬信號進(jìn)行采樣和量化處理，就可以得到數(shù)字音頻信號了。數(shù)字音頻數(shù)字音頻是以二進(jìn)制的方式記錄的音頻，是模擬音頻的數(shù)字12數(shù)字音頻信號特點(diǎn)數(shù)字音頻信號可以通過計(jì)算機(jī)進(jìn)行加工和處理，如進(jìn)行編輯、合成、靜音、增加混響、調(diào)整頻率等，使得聲音效果能更有力的烘托主題的氣氛，因此對于多媒體展示系統(tǒng)、多媒體廣告、視頻特技等領(lǐng)域，數(shù)字音頻信號顯得更加重要。數(shù)字音頻信號特點(diǎn)數(shù)字音頻信號可以通過計(jì)算機(jī)進(jìn)行加工和處理，如13數(shù)字音頻信號特點(diǎn)在聲音存儲方面，傳統(tǒng)的模擬音頻信號記錄在磁帶或者唱片等模擬介質(zhì)中。模擬介質(zhì)的缺點(diǎn)是難以保存。并且存儲效率很低，成本很高。數(shù)字音頻信號可以文件的形式存儲在光存儲介質(zhì)或磁存儲介質(zhì)中，實(shí)現(xiàn)永久保存。在聲音處理方面，模擬音頻信號的修正工作非常復(fù)雜。數(shù)字音頻技術(shù)在后期的音頻處理過程中，可以非常容易的進(jìn)行多種修正以及加工，例如改變音高、糾正語音錯誤、變換節(jié)奏，甚至可以增加大量的聲音效果。極大程度的簡化了音頻編輯工作的難度。數(shù)字音頻信號特點(diǎn)在聲音存儲方面，傳統(tǒng)的模擬音頻信號記錄在磁帶14數(shù)字音頻信號特點(diǎn)在聲音的壓縮方面，模擬音頻的壓縮率很難提高。而數(shù)字音頻技術(shù)在數(shù)據(jù)的壓縮方面具有絕對優(yōu)勢。例如目前最流行的MP3音頻格式，壓縮率達(dá)到了7％左右，同時還能保持良好的音質(zhì)。數(shù)字音頻信號特點(diǎn)在聲音的壓縮方面，模擬音頻的壓縮率很難提高。15模擬音頻信號轉(zhuǎn)換為數(shù)字音頻信號將模擬音頻信號轉(zhuǎn)換為數(shù)字音頻信號的過程就是對于模擬音頻信號的數(shù)字化過程。模擬音頻信號的數(shù)字化過程需要三個步驟：采樣、量化和編碼。模擬音頻信號轉(zhuǎn)換為數(shù)字音頻信號將模擬音頻信號轉(zhuǎn)換為數(shù)字音頻16采樣采樣就是每隔一定的時間間隔，抽取模擬音頻信號的一個瞬時幅度值也稱作采樣值，采樣后所得出的一系列在時間上離散的采樣值稱為樣值序列。采樣后的樣值序列在時間上是離散的。采樣采樣就是每隔一定的時間間隔，抽取模擬音頻信號的一個瞬時17量化采樣只是在時間上實(shí)現(xiàn)了離散化。其音頻脈沖信號的幅度仍然是模擬的，因此，還必須對幅度進(jìn)行離散化處理，這個過程稱為量化。量化的過程如下：先將整個幅度劃分成為有限個小幅度(量化階距)的集合，把落入同一階距內(nèi)的幅度值歸為一類，并賦予相同的量化值。量化采樣只是在時間上實(shí)現(xiàn)了離散化。其音頻脈沖信號的幅度仍然18編碼采樣和量化之后的音頻信號還必需轉(zhuǎn)換為數(shù)字編碼脈沖才是數(shù)字信號，這一轉(zhuǎn)換過程稱為編碼。最簡單的編碼方式是二進(jìn)制編碼。就是用n比特二進(jìn)制碼來表示已經(jīng)量化了的采樣值，每個二進(jìn)制數(shù)對應(yīng)一個量化值，然后把它們排列，得到由二值脈沖組成的數(shù)字信息流。編碼采樣和量化之后的音頻信號還必需轉(zhuǎn)換為數(shù)字編碼脈沖才是數(shù)19數(shù)字音頻文件的類型WAV格式：微軟公司開發(fā)，用于windows平臺，是最早的數(shù)字音頻格式。MIDI格式：MIDI格式是MusicalInstrumentDigitalInterface的縮寫，又稱作樂器數(shù)字接口，是數(shù)字音樂/電子合成樂器的統(tǒng)一國際標(biāo)準(zhǔn)。在MIDI文件中存儲的是一些指令，把這些指令發(fā)送給聲卡，由聲卡按照指令將聲音合成出來。CDA格式：CDA格式是CD音樂格式，取樣頻率為44.1kHz，16位量化位數(shù)，CDA格式存儲采用了音軌的形式，記錄的是波形流，是一種近似無損的格式。MP3格式：MP3格式是MPEG-1AudioLayer3。MP3能夠以高音質(zhì)、低采樣率對數(shù)字音頻文件進(jìn)行壓縮。數(shù)字音頻文件的類型WAV格式：微軟公司開發(fā)，用于windo20數(shù)字音頻文件的類型MP3Pro格式：MP3Pro格式可以在基本不改變文件大小的情況下改善MP3的音質(zhì)。WMA格式：WMA格式是WindowsMediaAudio的縮寫，是微軟公司開發(fā)的網(wǎng)絡(luò)音頻格式。其壓縮率一般可以達(dá)到1:18。MP4格式：MP4格式采用“知覺編碼”為關(guān)鍵技術(shù)的壓縮技術(shù)。只有特定的用戶才可以播放。MP4的壓縮比可達(dá)到1:15，體積較MP3更小，但音質(zhì)卻沒有下降。QuickTime格式：QuickTime格式是蘋果公司推出的一種數(shù)字流媒體，它面向視頻編輯、Web網(wǎng)站創(chuàng)建和媒體技術(shù)平臺，QuickTime支持幾乎所有主流的個人計(jì)算平臺。數(shù)字音頻文件的類型MP3Pro格式：MP3Pro格式可以在基21數(shù)字音頻文件的類型DVDAudio格式：DVDAudio格式是新一代的數(shù)字音頻格式，是音樂格式的DVD光碟，可容納74分鐘以上的錄音。MD格式：MD格式是MiniDisc縮寫，是Sony公司的一種音頻文件格式。采用了ATRAC算法，可以在一張尺寸較小的光盤中存儲60－80分鐘采用44.1khz采樣的立體聲音樂。RealAudio格式：RealAudio格式是由RealNetworks公司推出的一種文件格式，可以實(shí)時傳輸音頻信息，尤其是在網(wǎng)速較慢的情況下，仍然可以較為流暢地傳送數(shù)據(jù)?，F(xiàn)在的RealAudio文件格式主要有RA、RM、RMX三種，這些文件的共同性在于隨著網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量，在保證大多數(shù)人聽到流暢聲音的前提下，令帶寬較寬的聽眾獲得更好的音質(zhì)。數(shù)字音頻文件的類型DVDAudio格式：DVDAudio22數(shù)字音頻文件的類型VOC格式：VOC格式常用在DOS程序和游戲中，它是隨聲卡一起產(chǎn)生的數(shù)字聲音文件，與WAV文件的結(jié)構(gòu)相似。AU格式：AU格式是應(yīng)用于互聯(lián)網(wǎng)上的多媒體聲音。AU文件是UNIX操作系統(tǒng)下的數(shù)字聲音文件。MAC格式：MAC格式是Apple公司開發(fā)的，被Macintosh平臺和多種Macintosh應(yīng)用程序所支持。AAC格式：AAC格式是高級音頻編碼的縮寫。AAC是MPEG-2規(guī)范的一部分。AAC的音頻算法在壓縮能力上遠(yuǎn)遠(yuǎn)超過了以前的一些壓縮算法（比如MP3等）。AAC可以在比MP3文件縮小30%的前提下提供更好的音質(zhì)。數(shù)字音頻文件的類型VOC格式：VOC格式常用在DOS程序和游23數(shù)字音頻的質(zhì)量與數(shù)據(jù)量音頻數(shù)字化就是將模擬聲音波形數(shù)字化，以便利用數(shù)字計(jì)算機(jī)進(jìn)行處理。影響數(shù)字音頻信號質(zhì)量的技術(shù)指標(biāo)主要包括采樣頻率、采樣精度、聲道數(shù)和編碼算法。數(shù)字音頻的質(zhì)量與數(shù)據(jù)量音頻數(shù)字化就是將模擬聲音波形數(shù)字化，24采樣頻率采樣頻率是對聲音波形每秒鐘進(jìn)采樣的次數(shù)。奈奎斯特理論指出：采樣頻率不應(yīng)低于聲音信號最高頻率的兩倍，這樣就能把以數(shù)字表達(dá)的聲音還原為原來的聲音，這叫做無損數(shù)字化。如果一個信號中的最高頻率為f，采樣頻率最低要選擇2f。例如：電話話音的信號頻率約為3.4kHz，采樣頻率就選為8kHz。人的聽覺的頻率上限在20kHz左右。為了使聲音不發(fā)生失真，采樣頻率一般在40kHz左右。如44.lkHz。采樣頻率越高，聲音失真越小、音頻數(shù)據(jù)量越大。采樣頻率采樣頻率是對聲音波形每秒鐘進(jìn)采樣的次數(shù)。奈奎斯特理25采樣精度采樣精度是每次采樣的數(shù)據(jù)位數(shù)。數(shù)位是每個采樣點(diǎn)的振幅動態(tài)響應(yīng)數(shù)據(jù)范圍，經(jīng)常采用的有8位、12位和16位。采樣量化位數(shù)越高音質(zhì)越好，數(shù)據(jù)量也越大。采樣精度采樣精度是每次采樣的數(shù)據(jù)位數(shù)。數(shù)位是每個采樣點(diǎn)的振26聲道數(shù)聲道數(shù)表示一次采樣的聲音波形數(shù)。如果每次生成一個聲波數(shù)據(jù)，稱為單聲道；每次生成二個聲波數(shù)據(jù)，稱為立體聲(雙聲道)。若每次生成多個聲道，則音頻數(shù)據(jù)量會更大。聲道數(shù)聲道數(shù)表示一次采樣的聲音波形數(shù)。如果每次生成一個聲波27聲音數(shù)字化的采樣頻率和采樣精度越高，結(jié)果越接近原始聲音，但記錄數(shù)字聲音所需存儲空間也隨之增加。未經(jīng)壓縮的音頻文件所需的存儲空間的計(jì)算公式如下：存儲容量(字節(jié))=(采樣頻率*采樣精度)/8×聲道數(shù)×?xí)r間例如，數(shù)字激光唱盤CD－DA的標(biāo)準(zhǔn)采樣頻率為44.lkHz，采樣數(shù)位為16位，立體聲。則激光唱盤一分鐘音樂需要的存儲量為:44.1*1000*l6*2*60/8=10.584MB聲音數(shù)字化的采樣頻率和采樣精度越高，結(jié)果越接近原始聲音，但記28編碼算法編碼的作用體現(xiàn)在兩個方面，一是采用一定的格式來記錄數(shù)字?jǐn)?shù)據(jù)，二是采用一定的算法來壓縮數(shù)字?jǐn)?shù)據(jù)以減少存貯空間和提高傳輸效率。壓縮比是壓縮編碼的基本指標(biāo)，表示音頻壓縮的程度，是壓縮后的音頻數(shù)據(jù)量與壓縮前的音頻數(shù)據(jù)量的比值。壓縮程度越大，信息丟失越多、信號還原后失真越大。根據(jù)不同的應(yīng)用，應(yīng)該選用不同的壓縮編碼算法。編碼算法編碼的作用體現(xiàn)在兩個方面，一是采用一定的格式來記錄29語音合成技術(shù)語音合成是指利用計(jì)算機(jī)合成語音的一種技術(shù)，使計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音，具有類似于人一樣的說話的能力。語音合成技術(shù)可以通過將預(yù)先錄制并存儲的語音信號重新播放來實(shí)現(xiàn)，或者采用數(shù)字信號處理的方法，生成各種音調(diào)的語音。語音合成可分為三個層次，分別是“文字到語音”的合成（Text-To-Speech）；“概念到語音”的合成（Concept-To-Speech）；“意向到語音”的合成（Intention-To-Speech）。要合成出高質(zhì)量的語言，不僅要對語言進(jìn)行理解，還必須遵循人類語言的一些表達(dá)規(guī)則，如語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則。語音合成技術(shù)語音合成是指利用計(jì)算機(jī)合成語音的一種技術(shù)，使計(jì)30常用的語音合成方法參數(shù)合成法是通過調(diào)整合成器參數(shù)實(shí)現(xiàn)語音合成?；敉蒋B加法是對時域波形拼接實(shí)現(xiàn)語音合成，在音色和自然度方面相比參數(shù)合成法有很大程度提高。基于數(shù)據(jù)庫的語音合成方法是采用預(yù)先錄制各種可能語境下的語音單元并保存在數(shù)據(jù)庫中，建立一個龐大的語音數(shù)據(jù)庫。再從數(shù)據(jù)庫中選擇并拼接出各種語音內(nèi)容。由于聲音來源于自然音，因此清晰度和自然度都非常高。常用的語音合成方法參數(shù)合成法是通過調(diào)整合成器參數(shù)實(shí)現(xiàn)語音合31語音合成的技術(shù)方式波形編輯合成。以語句、短語、詞或音節(jié)為合成單元，經(jīng)數(shù)據(jù)壓縮，組成一個合成語音庫。重放時，根據(jù)待輸出的信息，在語料庫中取出相應(yīng)單元的波形數(shù)據(jù)，串接或編輯在一起，經(jīng)解碼還原出語音。這種合成方式，也叫錄音編輯合成，合成單元越大，合成的自然度越好，系統(tǒng)結(jié)構(gòu)簡單，價格低廉，但合成語音的數(shù)碼率較大，存儲量也大，因而合成詞匯量有限。語音合成的技術(shù)方式波形編輯合成。以語句、短語、詞或音節(jié)為合成32語音合成的技術(shù)方式參數(shù)分析合成。以音節(jié)、半音節(jié)或音素為合成單元。首先對所有合成單元的語音進(jìn)行分析，提取語音參數(shù)，經(jīng)編碼后組成一個合成語音庫；輸出時，根據(jù)待合成的語音的信息，從語音庫中取出相應(yīng)的合成參數(shù)，經(jīng)編輯和連接，順序送入語音合成器。在合成器中，通過合成參數(shù)的控制，將語音波形重新還原出來。語音合成的技術(shù)方式參數(shù)分析合成。以音節(jié)、半音節(jié)或音素為合成單33語音合成的技術(shù)方式規(guī)則合成。通過語音學(xué)規(guī)則來產(chǎn)生目標(biāo)語音。規(guī)則合成系統(tǒng)存儲的是較小的語音單位。當(dāng)輸入字母符號時，合成系統(tǒng)利用規(guī)則自動地將它們轉(zhuǎn)換成連續(xù)的語音波形。語音合成的技術(shù)方式規(guī)則合成。通過語音學(xué)規(guī)則來產(chǎn)生目標(biāo)語音。規(guī)34文語轉(zhuǎn)換系統(tǒng)文語轉(zhuǎn)換系統(tǒng)是將文字內(nèi)容轉(zhuǎn)換為語音輸出的語音合成系統(tǒng)。文本分析器根據(jù)發(fā)音字典，將輸入的文本字符串分解為帶有屬性標(biāo)記的詞和讀音符號，再根據(jù)語義規(guī)則和語音規(guī)則，為每一個詞、每一個音節(jié)確定重音等級和語句結(jié)構(gòu)及語調(diào)，以及各種停頓等。這樣文字串就轉(zhuǎn)變?yōu)榉柎a串。采用前面介紹的合成技術(shù)的一種或者是幾種的結(jié)合，合成出輸出語音。文語轉(zhuǎn)換系統(tǒng)文語轉(zhuǎn)換系統(tǒng)是將文字內(nèi)容轉(zhuǎn)換為語音輸出的語音合35語音合成技術(shù)特點(diǎn)（1）自然度（2）清晰度（3）表現(xiàn)力（4）復(fù)雜度語音合成技術(shù)特點(diǎn)（1）自然度36語音合成系統(tǒng)應(yīng)用目前，語音合成技術(shù)開始廣泛應(yīng)用于金融、郵電、工商、政府機(jī)關(guān)、交通、教育、游戲等領(lǐng)域。此外還有一些教育娛樂軟件、普通話教學(xué)軟件、游戲軟件中都使用了語音合成技術(shù)。語音合成系統(tǒng)應(yīng)用目前，語音合成技術(shù)開始廣泛應(yīng)用于金融、郵電、37語音識別技術(shù)語音識別技術(shù)是讓計(jì)算機(jī)通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。即讓計(jì)算機(jī)能夠聽懂人類的語言。是目前信息技術(shù)領(lǐng)域重要的科技發(fā)展技術(shù)之一。例如：IBM的語音識別軟件ViaVoice，可以幫助人們通過話筒用語音向字處理軟件輸入文字，能識別英語、意大利語、德語、法語、日語、漢語等語種，已經(jīng)得到了廣泛的使用。語音識別技術(shù)語音識別技術(shù)是讓計(jì)算機(jī)通過識別和理解過程把語音38語音識別的關(guān)鍵技術(shù)語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配技術(shù)及模型訓(xùn)練技術(shù)三個方面。語音識別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動態(tài)時間歸正技術(shù)、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)技術(shù)。語音識別的關(guān)鍵技術(shù)語音識別技術(shù)主要包括特征提取技術(shù)、模式匹39音頻處理軟件AdobeAuditionAdobeAudition軟件是一款多軌音頻制作軟件。具有高級混音、編輯、控制和特效處理能力。2006年1月，升級至2.0版。AdobeAudition擁有集成的多音軌和編輯視圖、實(shí)時特效、環(huán)繞支持、分析工具、恢復(fù)特性和視頻支持等功能，為音樂、視頻、音頻和聲音設(shè)計(jì)專業(yè)人員提供全面集成的音頻編輯和混音解決方案。AdobeAudition廣泛支持工業(yè)標(biāo)準(zhǔn)音頻文件格式，包括WAV、AIFF、MP3、MP3PRO和WMA，還能夠利用達(dá)32位的位深度來處理文件，取樣速度超過192kHz，從而能夠以最高品質(zhì)的聲音輸出磁帶、CD、DVD或DVD音頻。音頻處理軟件AdobeAuditionAdobeAudi40AdobeAudition基本功能（1）錄音AdobeAudition能夠?qū)崿F(xiàn)高精度聲音的錄制，可以導(dǎo)入視頻文件到AbobeAudition，實(shí)現(xiàn)對視頻的同步配音。（2）混音通過混音功能可以將多個音軌聲音混合在一起，輸出綜合的聲音效果。（3）聲音編輯例如聲音的淡入淡出，聲音移動和剪輯，音調(diào)調(diào)整，播放速度調(diào)整等。AdobeAudition基本功能（1）錄音41AdobeAudition基本功能（4）效果處理軟件本身自帶了效果器，如壓縮器、限制器、噪聲門、參量均衡器、合唱效果器、延遲效果器、回升效果器等。（5）降噪降噪功能可以實(shí)現(xiàn)在不影響音質(zhì)的情況下，最大程度地減少噪聲。（6）聲音壓縮可以將音頻文件壓縮為容量較小的MP3、MP3Pro等文件格式，同時最大程度地保持聲音的音質(zhì)。（7）協(xié)同創(chuàng)作能夠與多種音樂軟件協(xié)同運(yùn)行，一起實(shí)現(xiàn)整個音樂創(chuàng)作的過程。AdobeAudition基本功能（4）效果處理42AdobeAudition基本應(yīng)用AdobeAudition2.0音頻處理軟件具有三種編輯模式界面，分別是多軌編輯模式、單軌編輯模式以及CD模式。多軌編輯模式界面如下：主要包括：菜單欄、工具欄、文件/效果器列表欄、音軌顯示區(qū)、基本功能區(qū)和電平顯示區(qū)。AdobeAudition基本應(yīng)用AdobeAudit43菜單欄File（文件）Edit（編輯）Clip（剪輯）View（查看）Insert（插入）Effects（效果）Options（選項(xiàng)）Windows（窗口）Help（幫助）菜單欄File（文件）44文件/效果器列表欄其中文件欄可以對音軌顯示區(qū)打開的波形文件以列表的方式顯示出來，便于對音頻文件的管理和操作。通過效果器欄中的效果可以直接對各個音軌進(jìn)行處理，制作各種音頻效果。

文件/效果器列表欄其中文件欄可以對音軌顯示區(qū)打開的波形文件以45音軌顯示區(qū)通過多個音軌的音頻剪輯和處理，實(shí)現(xiàn)對整體音樂效果的控制。音軌顯示區(qū)包含音軌屬性面板和音軌波形顯示窗兩個部分。其中屬性面板主要實(shí)現(xiàn)對當(dāng)前音軌的音量調(diào)節(jié)、相位調(diào)節(jié)、以及靜音、獨(dú)奏和錄音等選項(xiàng)。而波形顯示窗則顯示當(dāng)前聲音文件所包含的不同音軌的聲音波形。

音軌顯示區(qū)通過多個音軌的音頻剪輯和處理，實(shí)現(xiàn)對整體音樂效果的46基本功能區(qū)控制以及觀測音頻文件的功能區(qū)域，包括走帶控制器面板、時間面板、縮放面板、選擇/查看面板、工程屬性面板。

走帶控制器時間面板縮放面板選擇/查看面板工程屬性面板基本功能區(qū)控制以及觀測音頻文件的功能區(qū)域，包括走帶控制器面板47電平顯示區(qū)顯示音頻電平的高低情況，即音頻的音量大小。電平顯示區(qū)顯示音頻電平的高低情況，即音頻的音量大小。48AbobeAudition2.0單軌操作界面

單軌操作界面只有一個音軌，并且沒有針對這個音軌的屬性面板。在單軌模式下，主要進(jìn)行的操作內(nèi)容是針對此音軌波形的效果處理、降噪處理等等。AbobeAudition2.0單軌操作界面49音頻素材制作－采集與錄制音頻采集與錄制是音頻處理軟件的最基本的功能。在進(jìn)行音頻錄制前，需要安裝關(guān)于音頻錄制或者采集的外圍設(shè)備，例如麥克風(fēng)或CD唱機(jī)等設(shè)備。錄音前的聲卡設(shè)置，在音量控制窗口/選項(xiàng)/屬性音頻素材制作－采集與錄制音頻采集與錄制是音頻處理軟件的最基本50錄音屬性設(shè)置在面板中調(diào)整音量到合適的位置，并在選項(xiàng)菜單中選擇“高級選項(xiàng)”命令。錄音屬性設(shè)置在面板中調(diào)整音量到合適的位置，并在選項(xiàng)菜單中選擇51以上操作實(shí)現(xiàn)了對聲卡的設(shè)置以及麥克風(fēng)的設(shè)置。在麥克風(fēng)的高級控制面板中的其它控制欄中，選擇麥克風(fēng)加強(qiáng)。以上操作實(shí)現(xiàn)了對聲卡的設(shè)置以及麥克風(fēng)的設(shè)置。在麥克風(fēng)的高級控52新建音頻文件在多軌編輯模式窗口中選擇“File”/“newSession”命令，建立新的聲音工程，打開NewSession窗口。在窗口中選擇合適的采樣頻率，通常使用44.1kHz的采樣頻率。新建音頻文件在多軌編輯模式窗口中選擇“File”/“new53導(dǎo)入聲音波形選擇“file”/“imports”命令可以向當(dāng)前的聲音工程中導(dǎo)入音頻文件。導(dǎo)入后，在文件面板中就出現(xiàn)了音頻文件的名稱。編輯或處理，只要將這個文件從文件面板中直接拖放到音軌中即可。導(dǎo)入聲音波形選擇“file”/“imports”命令可以向54錄制聲音文件通過使用麥克風(fēng)進(jìn)行聲音錄制之前，首先需要選擇將要錄制聲音的音軌，若選擇Track2作為錄音音軌。按下Track2屬性面板中的錄音準(zhǔn)備按鈕，使之變?yōu)榧t色，進(jìn)入錄音準(zhǔn)備狀態(tài)。然后，選擇音頻播放控制區(qū)的錄音按鈕開始實(shí)際錄音。錄制聲音文件通過使用麥克風(fēng)進(jìn)行聲音錄制之前，首先需要選擇將55音頻編輯常用的音頻編輯方法主要是對音頻波形進(jìn)行裁剪、切分、合并、鎖定、編組、刪除、復(fù)制以及對音頻進(jìn)行包絡(luò)編輯和時間伸縮編輯。通常，音頻編輯工作是在單軌編輯模式窗口中進(jìn)行的，可以在多軌模式中雙擊某個音軌的音頻波形，進(jìn)入相應(yīng)音頻的單軌編輯界面。音頻編輯常用的音頻編輯方法主要是對音頻波形進(jìn)行裁剪、切分、56裁剪音頻對音頻波形進(jìn)行裁剪首先要選擇被裁剪的音頻段落。在工具欄中按下TimeSelectionTool工具按鈕，如圖5-20所示，然后在波形顯示面板中拖動鼠標(biāo)，選中需要進(jìn)行裁剪的音頻區(qū)域，單擊鼠標(biāo)右鍵，在快捷菜單中選擇“cut”命令。裁剪音頻對音頻波形進(jìn)行裁剪首先要選擇被裁剪的音頻段落。在工57切分音頻選擇音頻切片的區(qū)域范圍，在所選音頻上單擊鼠標(biāo)右鍵，在快捷菜單中選擇“Split”。切分之后，可以通過選擇工具欄中的移動工具，實(shí)現(xiàn)將音頻切片移動到當(dāng)前音軌的其它位置或者移動到其它的音軌。切分音頻選擇音頻切片的區(qū)域范圍，在所選音頻上單擊鼠標(biāo)右鍵，58合并音頻波形將單獨(dú)的音頻切片移動到一起，首尾連接。兩個音頻切片會自動吸附在一起。實(shí)現(xiàn)無縫連接。同理，可以實(shí)現(xiàn)多個獨(dú)立音頻切片的無縫連接，然后使用Ctrl鍵將要合并的音頻切片全部選中，執(zhí)行“Clip”/“Merge”/“Rejoinsplit”命令，實(shí)現(xiàn)合并音頻。合并音頻波形將單獨(dú)的音頻切片移動到一起，首尾連接。兩個音頻59鎖定音頻波形選擇需要進(jìn)行時間鎖定的一個或多個音頻切片，單擊鼠標(biāo)右鍵，選擇快捷菜單中的LockinTime命令，被鎖定的音頻切片上會出現(xiàn)一個鎖頭的圖標(biāo)，音頻切片的位置被鎖定。鎖定音頻波形選擇需要進(jìn)行時間鎖定的一個或多個音頻切片，單擊60編組音頻波形編組可以將多個音頻切片組合成一個固定的音頻切片組，能夠?qū)崿F(xiàn)組內(nèi)各個音頻切片的相互位置固定不變，這樣可以對整個切片組進(jìn)行整體移動。實(shí)現(xiàn)方法是選取多個音頻切片，單擊鼠標(biāo)右鍵，在快捷菜單中選擇“GroupClips”命令。編組音頻波形編組可以將多個音頻切片組合成一個固定的音頻切片61刪除和復(fù)制音頻波形刪除：選中音頻波形或者某個音頻切片，單擊鼠標(biāo)右鍵，在快捷菜單中選擇“Delete”命令可以實(shí)現(xiàn)刪除。復(fù)制：通過“TimeselectionTool”工具選中需要復(fù)制的區(qū)域范圍，單擊鼠標(biāo)右鍵，在快捷菜單中選擇“Copy”進(jìn)行復(fù)制，然后將位置指針移動到需要粘貼的位置，單擊鼠標(biāo)右鍵，在快捷菜單中選擇“Paste”實(shí)現(xiàn)粘貼。刪除和復(fù)制音頻波形刪除：選中音頻波形或者某個音頻切片，單擊62包絡(luò)編輯包絡(luò)編輯，可以實(shí)現(xiàn)特殊的音樂效果，例如淡入淡出。每個音軌的上方都有一條綠色的包絡(luò)線，用鼠標(biāo)單擊包絡(luò)線，會出現(xiàn)一個白色的控制塊，可以向下拖動控制塊，實(shí)現(xiàn)對包絡(luò)線的繪制。包絡(luò)編輯包絡(luò)編輯，可以實(shí)現(xiàn)特殊的音樂效果，例如淡入淡出。每63時間伸縮編輯選擇“View”/“EnableClipTimeStretching”，然后將鼠標(biāo)移動到音頻切片的左下角或者右下角有斜線的地方，當(dāng)鼠標(biāo)指針變成雙向箭頭時，左右拖動鼠標(biāo)，即可實(shí)現(xiàn)對音頻的時間伸縮編輯。時間伸縮編輯選擇“View”/“EnableClipT64噪聲處理噪聲處理的目的是為了降低噪聲對于聲音的干擾，使聲音更加清晰，音質(zhì)更加完美。常常也稱降噪處理。但是，降噪處理也會在一定程度上影響現(xiàn)有音樂的品質(zhì)，因此，降噪過程需要處理得當(dāng)。降噪處理有很多種方法，針對不同類型的噪音。例如爆破音修復(fù)、嘶嘶聲降低器和噪聲降低器等。在這里我們以噪聲降低器為例，介紹降噪處理方法。噪聲處理噪聲處理的目的是為了降低噪聲對于聲音的干擾，使聲音65噪聲處理降噪處理需要在單軌編輯模式中進(jìn)行。首先選中一小段噪音，然后在左側(cè)的effect面板中雙擊“Restoration”/“CapureNoiseReductionProduction”命令，進(jìn)行噪音捕獲。然后，選中整個需要降噪的聲音波形，雙擊“Restoration”/“NoiseReduction”命令，打開降噪效果器。噪聲處理降噪處理需要在單軌編輯模式中進(jìn)行。首先選中一小段噪音66音頻特效處理音頻特效處理主要使用AdobeAudition2.0軟件提供的多種效果器。主要包括均衡效果處理、混響效果處理、壓限效果處理、延遲效果處理等。音頻特效處理音頻特效處理主要使用AdobeAuditio67均衡效果處理均衡效果處理使用軟件中的圖形式均衡器來完成。進(jìn)入到單軌編輯模式，選擇“Effect”/“Filter”/“CraphicEqualizer”命令，打開均衡器，通過調(diào)整不同頻段上的推子，改變增益或衰減，即可對音樂的效果進(jìn)行初步處理。均衡效果處理均衡效果處理使用軟件中的圖形式均衡器來完成。進(jìn)68混響效果處理混響效果器可將干澀的聲音處理為在空曠的房間中具有多次反射回響的特殊效果。在單軌編輯模式中，選擇需要處理的聲音波形，執(zhí)行“Effect”/“DelayEffect”/“Reverb”命令，打開混響效果器。通過調(diào)整衰減時間、反射情況、干濕音等實(shí)現(xiàn)對聲音的混響效果處理?；祉懶Ч幚砘祉懶Ч骺蓪⒏蓾穆曇籼幚頌樵诳諘绲姆块g中具69壓限效果處理壓限效果處理可以對聲音的振幅進(jìn)行控制，還可以改變輸入增益等，壓限效果處理能對高音部分的聲音效果進(jìn)行限制。其操作方法是在單軌編輯模式中，選擇需要處理的音頻內(nèi)容，選擇“Effect”/“Amplitude”/“HardLimiting”命令，打開限制器窗口。壓限效果處理壓限效果處理可以對聲音的振幅進(jìn)行控制，還可以改70延遲效果處理延遲效果器可以使單薄的聲音變得厚實(shí)豐滿。在單軌編輯模式中，選擇待處理波形，選擇“Effect”/“DelayEffect”/“Delay”命令，打開延遲效果器窗口。延遲效果處理延遲效果器可以使單薄的聲音變得厚實(shí)豐滿。71音頻素材制作與處理第五章音頻素材制作與處理第五章聲音聲音是人類表達(dá)思想和情感的重要媒介，是用于傳送信息的媒體。不同類型的聲音會給人帶來不同的感受，優(yōu)美的樂音令人心情舒暢，繁雜的噪音使人疲勞緊張。在多媒體技術(shù)領(lǐng)域，聲音主要表現(xiàn)為語音、自然聲和音樂。本章介紹音頻信號的特點(diǎn)、模擬音頻與數(shù)字音頻的基本概念、語音合成技術(shù)與識別技術(shù)、音頻處理軟件AdobeAudition基本功能介紹以及利用本軟件實(shí)現(xiàn)相應(yīng)音頻素材制作技術(shù)等理論知識與應(yīng)用方法。聲音聲音是人類表達(dá)思想和情感的重要媒介，是用于傳送信息的媒73模擬音頻聲音是由物體振動產(chǎn)生的。正在發(fā)聲的物體稱為聲源。聲音的產(chǎn)生：聲源振動，通過空氣等介質(zhì)，把這種振動以機(jī)械波的形式傳向遠(yuǎn)方，這就是聲波。聲波傳入人的耳朵，促使耳膜產(chǎn)生振動，這種耳膜的振動被傳導(dǎo)到人的聽覺神經(jīng)，就產(chǎn)生了對“聲音”的感覺。模擬音頻聲音是由物體振動產(chǎn)生的。74聲音是振動的波，是隨時間連續(xù)變化的物理量，是連續(xù)的模擬信號，即模擬音頻信號。聲波與普通波形一樣，可以用以下三個物理量來描述：振幅、周期、頻率。（1）振幅是聲音波形振動的幅度，表示聲音的強(qiáng)弱。（2）周期是聲音波形完成一次全振動經(jīng)過的時間，也是兩個連續(xù)波峰之間的時間長度。（3）頻率是聲音波形在一秒鐘內(nèi)完成全振動的次數(shù)，表示聲音的音調(diào)。聲音是振動的波，是隨時間連續(xù)變化的物理量，是連續(xù)的模擬信號，75聲音具有三個要素：音調(diào)、音色和音強(qiáng)。（1)音調(diào)代表聲音的高低。頻率越高，音調(diào)越高。（2）音色是聲音的特色。聲音分純音和復(fù)音兩種類型。純音的振幅和周期均為常數(shù)；復(fù)音是具有不同頻率和不同振幅的混合聲音，是影響聲音特色的主要因素。自然界的大部分聲音是復(fù)音。（3)音強(qiáng)是聲音的強(qiáng)度，常說的“音量”就是指音強(qiáng)。音強(qiáng)與聲波的振幅成正比，振幅越大，強(qiáng)度越大。聲音錄制完畢后音強(qiáng)即隨之確定，通過播放設(shè)備的音量控制，可改變聆聽時的強(qiáng)度。聲音具有三個要素：音調(diào)、音色和音強(qiáng)。76聲音頻率是指聲音信號每秒鐘變化的次數(shù)。頻率小于20Hz的信號稱為亞音信號，或次音信號；頻率范圍為20-20000Hz的信號稱為音頻信號。高于20000Hz的信號稱為超音頻信號。在多媒體技術(shù)中，處理的信號主要是音頻信號，它包括音樂、語音及自然界的各種聲響。聲音頻率是指聲音信號每秒鐘變化的次數(shù)。77模擬音頻信號通常是被轉(zhuǎn)換為電信號來進(jìn)行處理的。大多數(shù)電信號的處理方法一直是采用模擬元部件（如晶體管、變壓器、電阻、電容等）對模擬音頻信號進(jìn)行處理。模擬音頻信號通常是被轉(zhuǎn)換為電信號來進(jìn)行處理的。大多數(shù)電信號的78模擬音頻的特點(diǎn)1、模擬音頻信號的頻率范圍模擬音頻信號由許多頻率不同的信號組成，每個信號都有各自的頻率范圍，這個組合信號被稱為復(fù)合信號。頻率范圍也叫“頻域”或“頻帶”，不同種類的聲源頻帶是不同的。人耳聽到的聲音頻帶范圍是有限的，頻率低于20Hz和高于20000Hz的聲音信號人類聽不到，即表示人耳的可聽域在20-20000Hz之間。模擬音頻的特點(diǎn)1、模擬音頻信號的頻率范圍79不同聲源的頻帶寬度聲源類型頻帶寬度（Hz）人類語音100-10000電話聲音200-3400電臺調(diào)幅廣播AM50-7000電臺調(diào)頻廣播FM20-15000高級音響設(shè)備20-20000寬帶音響設(shè)備10-40000不同聲源的頻帶寬度聲源類型頻帶寬度（Hz）人類語音100-180模擬音頻的連續(xù)性模擬音頻是在時間上和幅值上都連續(xù)變化的信號，構(gòu)成聲音數(shù)據(jù)前后之間具有強(qiáng)烈的相關(guān)性。連續(xù)波形上的任何一點(diǎn)都代表了特定的聲音信息。因此，模擬錄音過程需要將連續(xù)變化的聲音波形轉(zhuǎn)換為連續(xù)變化的電信號，再作用于磁性存儲設(shè)備的磁頭，產(chǎn)生連續(xù)的強(qiáng)度不同的磁場，磁化磁帶上的磁性材料。模擬音頻的連續(xù)性模擬音頻是在時間上和幅值上都連續(xù)變化的信號81模擬音頻的聲音質(zhì)量模擬音頻的聲音質(zhì)量簡稱“音質(zhì)”，與音色和頻率范圍有關(guān)。悅耳的音色、寬廣的頻率范圍，能夠獲得更好的音質(zhì)。影響音質(zhì)的因素主要與聲音還原設(shè)備有關(guān)。其次，噪聲也是影響音質(zhì)的重要因素，在錄制聲音時，音頻信號幅度與噪聲幅度的比值越大越好。模擬信號的一個重要的缺點(diǎn)就是噪聲容限較低，抗干擾能力差，在錄音過程中，噪聲的影響是限制模擬音頻信號質(zhì)量的重要原因。模擬音頻的聲音質(zhì)量模擬音頻的聲音質(zhì)量簡稱“音質(zhì)”，與音色和82數(shù)字音頻數(shù)字音頻是以二進(jìn)制的方式記錄的音頻，是模擬音頻的數(shù)字化表達(dá)。相對于模擬音頻，數(shù)字音頻可以表現(xiàn)出更好的音質(zhì)效果。數(shù)字音頻技術(shù)是指利用數(shù)字技術(shù)處理聲音的方法。數(shù)字音頻可以以聲音文件WAV格式或者M(jìn)IDI格式在磁盤中保存。通常，通過計(jì)算機(jī)的聲卡（也稱音頻卡）將模擬音頻進(jìn)行模擬/數(shù)字轉(zhuǎn)換，將模擬信號進(jìn)行采樣和量化處理，就可以得到數(shù)字音頻信號了。數(shù)字音頻數(shù)字音頻是以二進(jìn)制的方式記錄的音頻，是模擬音頻的數(shù)字83數(shù)字音頻信號特點(diǎn)數(shù)字音頻信號可以通過計(jì)算機(jī)進(jìn)行加工和處理，如進(jìn)行編輯、合成、靜音、增加混響、調(diào)整頻率等，使得聲音效果能更有力的烘托主題的氣氛，因此對于多媒體展示系統(tǒng)、多媒體廣告、視頻特技等領(lǐng)域，數(shù)字音頻信號顯得更加重要。數(shù)字音頻信號特點(diǎn)數(shù)字音頻信號可以通過計(jì)算機(jī)進(jìn)行加工和處理，如84數(shù)字音頻信號特點(diǎn)在聲音存儲方面，傳統(tǒng)的模擬音頻信號記錄在磁帶或者唱片等模擬介質(zhì)中。模擬介質(zhì)的缺點(diǎn)是難以保存。并且存儲效率很低，成本很高。數(shù)字音頻信號可以文件的形式存儲在光存儲介質(zhì)或磁存儲介質(zhì)中，實(shí)現(xiàn)永久保存。在聲音處理方面，模擬音頻信號的修正工作非常復(fù)雜。數(shù)字音頻技術(shù)在后期的音頻處理過程中，可以非常容易的進(jìn)行多種修正以及加工，例如改變音高、糾正語音錯誤、變換節(jié)奏，甚至可以增加大量的聲音效果。極大程度的簡化了音頻編輯工作的難度。數(shù)字音頻信號特點(diǎn)在聲音存儲方面，傳統(tǒng)的模擬音頻信號記錄在磁帶85數(shù)字音頻信號特點(diǎn)在聲音的壓縮方面，模擬音頻的壓縮率很難提高。而數(shù)字音頻技術(shù)在數(shù)據(jù)的壓縮方面具有絕對優(yōu)勢。例如目前最流行的MP3音頻格式，壓縮率達(dá)到了7％左右，同時還能保持良好的音質(zhì)。數(shù)字音頻信號特點(diǎn)在聲音的壓縮方面，模擬音頻的壓縮率很難提高。86模擬音頻信號轉(zhuǎn)換為數(shù)字音頻信號將模擬音頻信號轉(zhuǎn)換為數(shù)字音頻信號的過程就是對于模擬音頻信號的數(shù)字化過程。模擬音頻信號的數(shù)字化過程需要三個步驟：采樣、量化和編碼。模擬音頻信號轉(zhuǎn)換為數(shù)字音頻信號將模擬音頻信號轉(zhuǎn)換為數(shù)字音頻87采樣采樣就是每隔一定的時間間隔，抽取模擬音頻信號的一個瞬時幅度值也稱作采樣值，采樣后所得出的一系列在時間上離散的采樣值稱為樣值序列。采樣后的樣值序列在時間上是離散的。采樣采樣就是每隔一定的時間間隔，抽取模擬音頻信號的一個瞬時88量化采樣只是在時間上實(shí)現(xiàn)了離散化。其音頻脈沖信號的幅度仍然是模擬的，因此，還必須對幅度進(jìn)行離散化處理，這個過程稱為量化。量化的過程如下：先將整個幅度劃分成為有限個小幅度(量化階距)的集合，把落入同一階距內(nèi)的幅度值歸為一類，并賦予相同的量化值。量化采樣只是在時間上實(shí)現(xiàn)了離散化。其音頻脈沖信號的幅度仍然89編碼采樣和量化之后的音頻信號還必需轉(zhuǎn)換為數(shù)字編碼脈沖才是數(shù)字信號，這一轉(zhuǎn)換過程稱為編碼。最簡單的編碼方式是二進(jìn)制編碼。就是用n比特二進(jìn)制碼來表示已經(jīng)量化了的采樣值，每個二進(jìn)制數(shù)對應(yīng)一個量化值，然后把它們排列，得到由二值脈沖組成的數(shù)字信息流。編碼采樣和量化之后的音頻信號還必需轉(zhuǎn)換為數(shù)字編碼脈沖才是數(shù)90數(shù)字音頻文件的類型WAV格式：微軟公司開發(fā)，用于windows平臺，是最早的數(shù)字音頻格式。MIDI格式：MIDI格式是MusicalInstrumentDigitalInterface的縮寫，又稱作樂器數(shù)字接口，是數(shù)字音樂/電子合成樂器的統(tǒng)一國際標(biāo)準(zhǔn)。在MIDI文件中存儲的是一些指令，把這些指令發(fā)送給聲卡，由聲卡按照指令將聲音合成出來。CDA格式：CDA格式是CD音樂格式，取樣頻率為44.1kHz，16位量化位數(shù)，CDA格式存儲采用了音軌的形式，記錄的是波形流，是一種近似無損的格式。MP3格式：MP3格式是MPEG-1AudioLayer3。MP3能夠以高音質(zhì)、低采樣率對數(shù)字音頻文件進(jìn)行壓縮。數(shù)字音頻文件的類型WAV格式：微軟公司開發(fā)，用于windo91數(shù)字音頻文件的類型MP3Pro格式：MP3Pro格式可以在基本不改變文件大小的情況下改善MP3的音質(zhì)。WMA格式：WMA格式是WindowsMediaAudio的縮寫，是微軟公司開發(fā)的網(wǎng)絡(luò)音頻格式。其壓縮率一般可以達(dá)到1:18。MP4格式：MP4格式采用“知覺編碼”為關(guān)鍵技術(shù)的壓縮技術(shù)。只有特定的用戶才可以播放。MP4的壓縮比可達(dá)到1:15，體積較MP3更小，但音質(zhì)卻沒有下降。QuickTime格式：QuickTime格式是蘋果公司推出的一種數(shù)字流媒體，它面向視頻編輯、Web網(wǎng)站創(chuàng)建和媒體技術(shù)平臺，QuickTime支持幾乎所有主流的個人計(jì)算平臺。數(shù)字音頻文件的類型MP3Pro格式：MP3Pro格式可以在基92數(shù)字音頻文件的類型DVDAudio格式：DVDAudio格式是新一代的數(shù)字音頻格式，是音樂格式的DVD光碟，可容納74分鐘以上的錄音。MD格式：MD格式是MiniDisc縮寫，是Sony公司的一種音頻文件格式。采用了ATRAC算法，可以在一張尺寸較小的光盤中存儲60－80分鐘采用44.1khz采樣的立體聲音樂。RealAudio格式：RealAudio格式是由RealNetworks公司推出的一種文件格式，可以實(shí)時傳輸音頻信息，尤其是在網(wǎng)速較慢的情況下，仍然可以較為流暢地傳送數(shù)據(jù)。現(xiàn)在的RealAudio文件格式主要有RA、RM、RMX三種，這些文件的共同性在于隨著網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量，在保證大多數(shù)人聽到流暢聲音的前提下，令帶寬較寬的聽眾獲得更好的音質(zhì)。數(shù)字音頻文件的類型DVDAudio格式：DVDAudio93數(shù)字音頻文件的類型VOC格式：VOC格式常用在DOS程序和游戲中，它是隨聲卡一起產(chǎn)生的數(shù)字聲音文件，與WAV文件的結(jié)構(gòu)相似。AU格式：AU格式是應(yīng)用于互聯(lián)網(wǎng)上的多媒體聲音。AU文件是UNIX操作系統(tǒng)下的數(shù)字聲音文件。MAC格式：MAC格式是Apple公司開發(fā)的，被Macintosh平臺和多種Macintosh應(yīng)用程序所支持。AAC格式：AAC格式是高級音頻編碼的縮寫。AAC是MPEG-2規(guī)范的一部分。AAC的音頻算法在壓縮能力上遠(yuǎn)遠(yuǎn)超過了以前的一些壓縮算法（比如MP3等）。AAC可以在比MP3文件縮小30%的前提下提供更好的音質(zhì)。數(shù)字音頻文件的類型VOC格式：VOC格式常用在DOS程序和游94數(shù)字音頻的質(zhì)量與數(shù)據(jù)量音頻數(shù)字化就是將模擬聲音波形數(shù)字化，以便利用數(shù)字計(jì)算機(jī)進(jìn)行處理。影響數(shù)字音頻信號質(zhì)量的技術(shù)指標(biāo)主要包括采樣頻率、采樣精度、聲道數(shù)和編碼算法。數(shù)字音頻的質(zhì)量與數(shù)據(jù)量音頻數(shù)字化就是將模擬聲音波形數(shù)字化，95采樣頻率采樣頻率是對聲音波形每秒鐘進(jìn)采樣的次數(shù)。奈奎斯特理論指出：采樣頻率不應(yīng)低于聲音信號最高頻率的兩倍，這樣就能把以數(shù)字表達(dá)的聲音還原為原來的聲音，這叫做無損數(shù)字化。如果一個信號中的最高頻率為f，采樣頻率最低要選擇2f。例如：電話話音的信號頻率約為3.4kHz，采樣頻率就選為8kHz。人的聽覺的頻率上限在20kHz左右。為了使聲音不發(fā)生失真，采樣頻率一般在40kHz左右。如44.lkHz。采樣頻率越高，聲音失真越小、音頻數(shù)據(jù)量越大。采樣頻率采樣頻率是對聲音波形每秒鐘進(jìn)采樣的次數(shù)。奈奎斯特理96采樣精度采樣精度是每次采樣的數(shù)據(jù)位數(shù)。數(shù)位是每個采樣點(diǎn)的振幅動態(tài)響應(yīng)數(shù)據(jù)范圍，經(jīng)常采用的有8位、12位和16位。采樣量化位數(shù)越高音質(zhì)越好，數(shù)據(jù)量也越大。采樣精度采樣精度是每次采樣的數(shù)據(jù)位數(shù)。數(shù)位是每個采樣點(diǎn)的振97聲道數(shù)聲道數(shù)表示一次采樣的聲音波形數(shù)。如果每次生成一個聲波數(shù)據(jù)，稱為單聲道；每次生成二個聲波數(shù)據(jù)，稱為立體聲(雙聲道)。若每次生成多個聲道，則音頻數(shù)據(jù)量會更大。聲道數(shù)聲道數(shù)表示一次采樣的聲音波形數(shù)。如果每次生成一個聲波98聲音數(shù)字化的采樣頻率和采樣精度越高，結(jié)果越接近原始聲音，但記錄數(shù)字聲音所需存儲空間也隨之增加。未經(jīng)壓縮的音頻文件所需的存儲空間的計(jì)算公式如下：存儲容量(字節(jié))=(采樣頻率*采樣精度)/8×聲道數(shù)×?xí)r間例如，數(shù)字激光唱盤CD－DA的標(biāo)準(zhǔn)采樣頻率為44.lkHz，采樣數(shù)位為16位，立體聲。則激光唱盤一分鐘音樂需要的存儲量為:44.1*1000*l6*2*60/8=10.584MB聲音數(shù)字化的采樣頻率和采樣精度越高，結(jié)果越接近原始聲音，但記99編碼算法編碼的作用體現(xiàn)在兩個方面，一是采用一定的格式來記錄數(shù)字?jǐn)?shù)據(jù)，二是采用一定的算法來壓縮數(shù)字?jǐn)?shù)據(jù)以減少存貯空間和提高傳輸效率。壓縮比是壓縮編碼的基本指標(biāo)，表示音頻壓縮的程度，是壓縮后的音頻數(shù)據(jù)量與壓縮前的音頻數(shù)據(jù)量的比值。壓縮程度越大，信息丟失越多、信號還原后失真越大。根據(jù)不同的應(yīng)用，應(yīng)該選用不同的壓縮編碼算法。編碼算法編碼的作用體現(xiàn)在兩個方面，一是采用一定的格式來記錄100語音合成技術(shù)語音合成是指利用計(jì)算機(jī)合成語音的一種技術(shù)，使計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音，具有類似于人一樣的說話的能力。語音合成技術(shù)可以通過將預(yù)先錄制并存儲的語音信號重新播放來實(shí)現(xiàn)，或者采用數(shù)字信號處理的方法，生成各種音調(diào)的語音。語音合成可分為三個層次，分別是“文字到語音”的合成（Text-To-Speech）；“概念到語音”的合成（Concept-To-Speech）；“意向到語音”的合成（Intention-To-Speech）。要合成出高質(zhì)量的語言，不僅要對語言進(jìn)行理解，還必須遵循人類語言的一些表達(dá)規(guī)則，如語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則。語音合成技術(shù)語音合成是指利用計(jì)算機(jī)合成語音的一種技術(shù)，使計(jì)101常用的語音合成方法參數(shù)合成法是通過調(diào)整合成器參數(shù)實(shí)現(xiàn)語音合成?；敉蒋B加法是對時域波形拼接實(shí)現(xiàn)語音合成，在音色和自然度方面相比參數(shù)合成法有很大程度提高?；跀?shù)據(jù)庫的語音合成方法是采用預(yù)先錄制各種可能語境下的語音單元并保存在數(shù)據(jù)庫中，建立一個龐大的語音數(shù)據(jù)庫。再從數(shù)據(jù)庫中選擇并拼接出各種語音內(nèi)容。由于聲音來源于自然音，因此清晰度和自然度都非常高。常用的語音合成方法參數(shù)合成法是通過調(diào)整合成器參數(shù)實(shí)現(xiàn)語音合102語音合成的技術(shù)方式波形編輯合成。以語句、短語、詞或音節(jié)為合成單元，經(jīng)數(shù)據(jù)壓縮，組成一個合成語音庫。重放時，根據(jù)待輸出的信息，在語料庫中取出相應(yīng)單元的波形數(shù)據(jù)，串接或編輯在一起，經(jīng)解碼還原出語音。這種合成方式，也叫錄音編輯合成，合成單元越大，合成的自然度越好，系統(tǒng)結(jié)構(gòu)簡單，價格低廉，但合成語音的數(shù)碼率較大，存儲量也大，因而合成詞匯量有限。語音合成的技術(shù)方式波形編輯合成。以語句、短語、詞或音節(jié)為合成103語音合成的技術(shù)方式參數(shù)分析合成。以音節(jié)、半音節(jié)或音素為合成單元。首先對所有合成單元的語音進(jìn)行分析，提取語音參數(shù)，經(jīng)編碼后組成一個合成語音庫；輸出時，根據(jù)待合成的語音的信息，從語音庫中取出相應(yīng)的合成參數(shù)，經(jīng)編輯和連接，順序送入語音合成器。在合成器中，通過合成參數(shù)的控制，將語音波形重新還原出來。語音合成的技術(shù)方式參數(shù)分析合成。以音節(jié)、半音節(jié)或音素為合成單104語音合成的技術(shù)方式規(guī)則合成。通過語音學(xué)規(guī)則來產(chǎn)生目標(biāo)語音。規(guī)則合成系統(tǒng)存儲的是較小的語音單位。當(dāng)輸入字母符號時，合成系統(tǒng)利用規(guī)則自動地將它們轉(zhuǎn)換成連續(xù)的語音波形。語音合成的技術(shù)方式規(guī)則合成。通過語音學(xué)規(guī)則來產(chǎn)生目標(biāo)語音。規(guī)105文語轉(zhuǎn)換系統(tǒng)文語轉(zhuǎn)換系統(tǒng)是將文字內(nèi)容轉(zhuǎn)換為語音輸出的語音合成系統(tǒng)。文本分析器根據(jù)發(fā)音字典，將輸入的文本字符串分解為帶有屬性標(biāo)記的詞和讀音符號，再根據(jù)語義規(guī)則和語音規(guī)則，為每一個詞、每一個音節(jié)確定重音等級和語句結(jié)構(gòu)及語調(diào)，以及各種停頓等。這樣文字串就轉(zhuǎn)變?yōu)榉柎a串。采用前面介紹的合成技術(shù)的一種或者是幾種的結(jié)合，合成出輸出語音。文語轉(zhuǎn)換系統(tǒng)文語轉(zhuǎn)換系統(tǒng)是將文字內(nèi)容轉(zhuǎn)換為語音輸出的語音合106語音合成技術(shù)特點(diǎn)（1）自然度（2）清晰度（3）表現(xiàn)力（4）復(fù)雜度語音合成技術(shù)特點(diǎn)（1）自然度107語音合成系統(tǒng)應(yīng)用目前，語音合成技術(shù)開始廣泛應(yīng)用于金融、郵電、工商、政府機(jī)關(guān)、交通、教育、游戲等領(lǐng)域。此外還有一些教育娛樂軟件、普通話教學(xué)軟件、游戲軟件中都使用了語音合成技術(shù)。語音合成系統(tǒng)應(yīng)用目前，語音合成技術(shù)開始廣泛應(yīng)用于金融、郵電、108語音識別技術(shù)語音識別技術(shù)是讓計(jì)算機(jī)通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。即讓計(jì)算機(jī)能夠聽懂人類的語言。是目前信息技術(shù)領(lǐng)域重要的科技發(fā)展技術(shù)之一。例如：IBM的語音識別軟件ViaVoice，可以幫助人們通過話筒用語音向字處理軟件輸入文字，能識別英語、意大利語、德語、法語、日語、漢語等語種，已經(jīng)得到了廣泛的使用。語音識別技術(shù)語音識別技術(shù)是讓計(jì)算機(jī)通過識別和理解過程把語音109語音識別的關(guān)鍵技術(shù)語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配技術(shù)及模型訓(xùn)練技術(shù)三個方面。語音識別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動態(tài)時間歸正技術(shù)、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)技術(shù)。語音識別的關(guān)鍵技術(shù)語音識別技術(shù)主要包括特征提取技術(shù)、模式匹110音頻處理軟件AdobeAuditionAdobeAudition軟件是一款多軌音頻制作軟件。具有高級混音、編輯、控制和特效處理能力。2006年1月，升級至2.0版。AdobeAudition擁有集成的多音軌和編輯視圖、實(shí)時特效、環(huán)繞支持、分析工具、恢復(fù)特性和視頻支持等功能，為音樂、視頻、音頻和聲音設(shè)計(jì)專業(yè)人員提供全面集成的音頻編輯和混音解決方案。AdobeAudition廣泛支持工業(yè)標(biāo)準(zhǔn)音頻文件格式，包括WAV、AIFF、MP3、MP3PRO和WMA，還能夠利用達(dá)32位的位深度來處理文件，取樣速度超過192kHz，從而能夠以最高品質(zhì)的聲音輸出磁帶、CD、DVD或DVD音頻。音頻處理軟件AdobeAuditionAdobeAudi111AdobeAudition基本功能（1）錄音AdobeAudition能夠?qū)崿F(xiàn)高精度聲音的錄制，可以導(dǎo)入視頻文件到AbobeAudition，實(shí)現(xiàn)對視頻的同步配音。（2）混音通過混音功能可以將多個音軌聲音混合在一起，輸出綜合的聲音效果。（3）聲音編輯例如聲音的淡入淡出，聲音移動和剪輯，音調(diào)調(diào)整，播放速度調(diào)整等。AdobeAudition基本功能（1）錄音112AdobeAudition基本功能（4）效果處理軟件本身自帶了效果器，如壓縮器、限制器、噪聲門、參量均衡器、合唱效果器、延遲效果器、回升效果器等。（5）降噪降噪功能可以實(shí)現(xiàn)在不影響音質(zhì)的情況下，最大程度地減少噪聲。（6）聲音壓縮可以將音頻文件壓縮為容量較小的MP3、MP3Pro等文件格式，同時最大程度地保持聲音的音質(zhì)。（7）協(xié)同創(chuàng)作能夠與多種音樂軟件協(xié)同運(yùn)行，一起實(shí)現(xiàn)整個音樂創(chuàng)作的過程。AdobeAudition基本功能（4）效果處理113AdobeAudition基本應(yīng)用AdobeAudition2.0音頻處理軟件具有三種編輯模式界面，分別是多軌編輯模式、單軌編輯模式以及CD模式。多軌編輯模式界面如下：主要包括：菜單欄、工具欄、文件/效果器列表欄、音軌顯示區(qū)、基本功能區(qū)和電平顯示區(qū)。AdobeAudition基本應(yīng)用AdobeAudit114菜單欄File（文件）Edit（編輯）Clip（剪輯）View（查看）Insert（插入）Effects（效果）Options（選項(xiàng)）Windows（窗口）Help（幫助）菜單欄File（文件）115文件/效果器列表欄其中文件欄可以對音軌顯示區(qū)打開的波形文件以列表的方式顯示出來，便于對音頻文件的管理和操作。通過效果器欄中的效果可以直接對各個音軌進(jìn)行處理，制作各種音頻效果。

文件/效果器列表欄其中文件欄可以對音軌顯示區(qū)打開的波形文件以116音軌顯示區(qū)通過多個音軌的音頻剪輯和處理，實(shí)現(xiàn)對整體音樂效果的控制。音軌顯示區(qū)包含音軌屬性面板和音軌波形顯示窗兩個部分。其中屬性面板主要實(shí)現(xiàn)對當(dāng)前音軌的音量調(diào)節(jié)、相位調(diào)節(jié)、以及靜音、獨(dú)奏和錄音等選項(xiàng)。而波形顯示窗則顯示當(dāng)前聲音文件所包含的不同音軌的聲音波形。

音軌顯示區(qū)通過多個音軌的音頻剪輯和處理，實(shí)現(xiàn)對整體音樂效果的117基本功能區(qū)控制以及觀測音頻文件的功能區(qū)域，包括走帶控制器面板、時間面板、縮放面板、選擇/查看面板、工程屬性面板。

走帶控制器時間面板縮放面板選擇/查看面板工程屬性面板基本功能區(qū)控制以及觀測音頻文件的功能區(qū)域，包括走帶控制器面板118電平顯示區(qū)顯示音頻電平的高低情況，即音頻的音量大小。電平顯示區(qū)顯示音頻電平的高低情況，即音頻的音量大小。119AbobeAudition2.0單軌操作界面

單軌操作界面只有一個音軌，并且沒有針對這個音軌的屬性面板。在單軌模式下，主要進(jìn)行的操作內(nèi)容是針對此音軌波形的效果處理、降噪處理等等。AbobeAudition2.0單軌操作界面120音頻素材制作－采集與錄制音頻采集與錄制是音頻處理軟件的最基本的功能。在進(jìn)行音頻錄制前，需要安裝關(guān)于音頻錄制或者采集的外圍設(shè)備，例如麥克風(fēng)或CD唱機(jī)等設(shè)備。錄音前的聲卡設(shè)置，在音量控制窗口/選項(xiàng)/屬性音頻素材制作－采集與錄制音頻采集與錄制是音頻處理軟件的最基本121錄音屬性設(shè)置在面板中調(diào)整音量到合適的位置，并在選項(xiàng)菜單中選擇“高級選項(xiàng)”命令。錄音屬性設(shè)置在面板中調(diào)整音量到合適的位置，并在選項(xiàng)菜單中選擇122以上操作實(shí)現(xiàn)了對聲卡的設(shè)置以及麥克風(fēng)的設(shè)置。在麥克風(fēng)的高級控制面板中的其它控制欄中，選擇麥克風(fēng)加強(qiáng)。以上操作實(shí)現(xiàn)了對聲卡的設(shè)置以及麥克風(fēng)的設(shè)置。在麥克風(fēng)的高級控123新建音頻文件在多軌編輯模式窗口中選擇“File”/“newSession”命令，建立新的聲音工程，打開NewSession窗口。在窗口中選擇合適的采樣頻率，通常使用44.1kHz的采樣頻率。新建音頻文件在多軌編輯模式窗口中選擇“File”/“new124導(dǎo)入聲音波形選擇“file”/“imports”命令可以向當(dāng)前的聲音工程中導(dǎo)入音頻文件。導(dǎo)入后，在文件面板中就出現(xiàn)了音頻文件的名稱。編輯或處理，只要將這個文件從文件面板中直接拖放到音軌中即可。導(dǎo)入聲音波形選擇“file”/“imports”命令可以向125錄制聲音文件通過使用麥克風(fēng)進(jìn)行聲音錄制之前，首先需要選擇將要錄制聲音的音軌，若選擇Track2作為錄音音軌。按下Track2屬性面板中的錄音準(zhǔn)備按鈕，使之變?yōu)榧t色，進(jìn)入錄音準(zhǔn)備狀態(tài)。然后，選擇音頻播放控制區(qū)的錄音按鈕開始實(shí)際錄音。錄制聲音文件通過使用麥克風(fēng)進(jìn)行聲音錄制之前，首先需要選擇將126音頻編輯常用的音頻編輯方法主要是對音頻波形進(jìn)行裁剪、切分、合并、鎖定、編組、刪除、復(fù)

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

模擬音頻的聲音質(zhì)量課件

文檔簡介

溫馨提示

最新文檔

評論

模擬音頻的聲音質(zhì)量課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔