第2章-音頻處理技術(shù)

上傳人：2*** IP屬地：湖北上傳時(shí)間：2023-02-05 格式：PPT 頁數(shù)：125 大?。?.76MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩120頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第2章音頻處理技術(shù)1簡述音頻是多媒體技術(shù)中媒體的一種，由于音頻信號是一種連續(xù)變化的模擬信號，而計(jì)算機(jī)只能處理和記錄二進(jìn)制的數(shù)字信號，因此，音頻信號必須經(jīng)過一定的變化和處理，變成二進(jìn)制數(shù)據(jù)后才能送到計(jì)算機(jī)進(jìn)行編輯和存儲(chǔ)。22.1聲音的基本特性音頻信號所攜帶的信息大體上可分為語音、音樂和音響三類。語音是指具有語言內(nèi)涵和人類約定的特殊媒體；音樂是規(guī)范的符號化了的聲音；而音響指其他自然聲音，如動(dòng)物的叫聲、機(jī)器的轟鳴聲、風(fēng)雨雷電聲等32.1.1.音頻信號的特征機(jī)械振動(dòng)或氣流擾動(dòng)引起周圍彈性媒質(zhì)發(fā)生波動(dòng)，產(chǎn)生聲波。產(chǎn)生聲波的物體為聲源(如人的聲帶、樂器等)，聲波所及的空間范圍稱為聲場。聲波傳到人耳，經(jīng)過人類聽覺系統(tǒng)的感知就是聲音。聲波可以用一條連續(xù)的曲線來表示，它在時(shí)間和幅度上都是連續(xù)的，稱為模擬音頻信號。在任一時(shí)刻，聲波可以分解成一系列正弦波的線性疊加：41聲音的物理特性(1)頻率/周期/帶寬單位時(shí)間內(nèi)聲源振動(dòng)的次數(shù)或空氣中氣壓疏密變化的次數(shù)，稱為聲源的頻率f，單位赫茲(Hz)頻帶寬度或稱之為帶寬，它描述組成復(fù)合信號的頻率范圍5雖然高于20kHz頻率的聲音人耳聽不到，但由于人的聲學(xué)心理特性，可感覺到它的存在。因此，有的音響產(chǎn)品的工作頻率上限為50kHz，甚至調(diào)音臺(tái)的最高工作頻率設(shè)計(jì)到100kHz。聲音信號可被分解和復(fù)合，可以從中抽出若干個(gè)單一的正弦信號，也可以用若干個(gè)單一的正弦信號來合成任意波形的復(fù)合信號，如合成語音和合成音樂等6(2)聲壓和聲強(qiáng)聲波在空氣媒質(zhì)中是以空氣中的分子振動(dòng)形成疏密而傳播。它造成空氣中的氣壓發(fā)生大小變化，相當(dāng)于在無聲波下空氣中的氣壓上疊加一個(gè)變化的壓強(qiáng)，疊加上的壓強(qiáng)稱為聲壓，記作P,單位為帕（Pa）或者為ubar。引起人耳剛能聽到聲音時(shí)的聲壓稱為可聽閾值。聲波是由能量來維持傳播的。如揚(yáng)聲器紙盆的振動(dòng)是由電能轉(zhuǎn)換而來，因此聲波有能量。單位時(shí)間內(nèi)通過垂直于聲波傳播方向的單位面積內(nèi)的聲波能量為聲場中某點(diǎn)的聲強(qiáng)，記作I，單位為瓦／米2（W／m2）。聲強(qiáng)與聲壓最大值的平方成正比關(guān)系。7在無線電技術(shù)中常引用分貝(dB)來表征電壓、電流、功率或放大器的放大能力。在聲學(xué)中引用分貝來表示聲壓或聲強(qiáng)的變化程度。因?yàn)槿说穆犛X神經(jīng)的刺激程度不與刺激量大小成正比，而是按刺激量以10為底的對數(shù)增長89(3)動(dòng)態(tài)范圍聲音的動(dòng)態(tài)范圍指聲音的最大聲壓級和最小聲壓級之間的差值。每種聲源的動(dòng)態(tài)范圍依據(jù)各自的特性有所不同。如女聲的動(dòng)態(tài)范圍為25～50dB，男聲為30～50dB，交響樂隊(duì)的動(dòng)態(tài)范圍大于100dB。動(dòng)態(tài)范圍不僅用來表示一個(gè)聲源產(chǎn)生的最大聲壓級與最小聲壓級之間的差值，錄音設(shè)備或記錄聲音的載體(磁帶、光盤、硬盤)同樣可用動(dòng)態(tài)范圍表示能夠處理信號電平的范圍。如磁帶的動(dòng)態(tài)范圍為50dB～60dB，CD光盤96dB，磁光盤錄放音機(jī)105dB。10動(dòng)態(tài)范圍可以用信號的相對強(qiáng)度表示：信號的動(dòng)態(tài)范圍=20×lg(信號的最大強(qiáng)度／信號的最小強(qiáng)度)(dB)其中的信號可以用電壓或功率衡量。因?yàn)槭且环N比例關(guān)系，故只要采用相同的度量單位，其結(jié)果都是一致的。11(4)頻譜物體在一定位置的附近作來回往復(fù)的運(yùn)動(dòng)，稱為簡諧振動(dòng)。簡諧振動(dòng)會(huì)產(chǎn)生一個(gè)特定音調(diào)的純音，聽起來感覺單薄。樂器很少產(chǎn)生單一頻率的純音，而是復(fù)音。復(fù)音的產(chǎn)生基于物體的復(fù)雜振動(dòng)，可以分解為許多不同振幅和不同頻率的簡諧振動(dòng)(即看成簡諧振動(dòng)的疊加)。簡諧振動(dòng)的振幅按頻率排列的圖形稱為頻譜。頻譜可一目了然地看出復(fù)雜振動(dòng)的頻率結(jié)構(gòu)。12鋼琴（基頻為253Hz）的復(fù)音頻譜132聲音的心理學(xué)特性從聲學(xué)心理角度，聲音的三個(gè)要素是音調(diào)、響度和音色。它們與聲波的頻率、聲壓和頻譜結(jié)構(gòu)對應(yīng)。(1)音調(diào)人對聲音頻率的感覺表現(xiàn)為音調(diào)的高低，在音樂中稱為音高。音調(diào)與基頻的對數(shù)（20×lg）成線性關(guān)系，單位為美（mei）。基頻越低，給人的感覺越低沉?；l頻率增加一倍，音樂上稱提高了一個(gè)八度14頻率與音調(diào)的關(guān)系15音階CDEFGAB簡譜1234567頻率/Hz26129333034939244049416(2)響度響度是人耳對聲音強(qiáng)弱的感覺程度雖然響度與衡量聲音強(qiáng)弱的聲壓有一定關(guān)系，但與聲壓的大小并不完全一致，也就是說聲壓大的感覺不一定響。由于人的外耳具有一定的耳道長度，耳道會(huì)對某段頻率產(chǎn)生共鳴，使靈敏度提高。因此人耳聽到聲音的響度與聲音的頻率有關(guān)。描述響度、聲壓以及聲源頻率之間的關(guān)系曲線稱為等響度曲線（圖2-4）。從曲線看出，當(dāng)音量開到使聲壓級為80dB時(shí)，就可做到高低頻聲音豐滿17(3)音色音色又稱音品。通常說法是：聲音的音調(diào)和響度以外的音質(zhì)差異叫做音色。聲音的音色取決于該聲音的頻譜結(jié)構(gòu)或是頻譜包絡(luò)（聲波曲線）。高次諧波越豐富,音色就越有明亮感和穿透力。此外，音色還與諸多其他因素有關(guān)，如聽音條件等。它是一個(gè)主觀量，常用柔和、刺耳、飽滿等詞描述。18(4)掩蔽效應(yīng)稱聽不到的聲音為被掩蔽聲，而起掩蔽作用的聲音為掩蔽聲。掩蔽效應(yīng)的實(shí)質(zhì)是掩蔽聲的出現(xiàn)使人耳聽覺的等響度曲線的最小可聽閾抬高。掩蔽效應(yīng)的一般規(guī)律是強(qiáng)音壓低音、低頻率聲音壓高頻率。利用掩蔽效應(yīng)可以用有用信號去掩蔽無用的聲信號，只需要把無用聲音的聲壓級降低到掩蔽閾以下即可。在數(shù)字音頻處理中，還可以利用掩蔽效應(yīng)去掉人耳聽不到的那部分信號進(jìn)行聲音數(shù)據(jù)的壓縮。19(5)方位感人憑借雙耳在一定聲學(xué)環(huán)境內(nèi)能夠?qū)β曉炊ㄎ?，這種能力來自于聲源發(fā)出的聲波到達(dá)雙耳間的強(qiáng)度差、時(shí)間差以及耳廓(外耳)的阻擋。聲源到達(dá)聽者耳朵的聲音有兩個(gè)，其中一個(gè)聲音直接到達(dá)，而另一個(gè)由于人頭部遮蔽，需繞過頭部才能到達(dá)。稱前者為直達(dá)聲，而后者為繞射聲。若有兩個(gè)聲源，增大其中一個(gè)聲源的強(qiáng)度，由于該聲音源發(fā)出的直達(dá)聲或繞射聲的聲壓大于另一個(gè)聲源，雙耳將會(huì)產(chǎn)生聲壓級差。使聽者感受的聲源（聲像）位置向強(qiáng)度較大的聲源方向移，使人感受到聲音的立體感。20(6)空間感一個(gè)聲源發(fā)出的聲音同時(shí)向各個(gè)方向散開，其發(fā)散的角度取決于聲源所具有的指向性，發(fā)散的聲波有一小部分直接傳給聽者，而大部分會(huì)被空間表面反射，然后到達(dá)聽者。由于直接和經(jīng)反射到達(dá)聽者的兩個(gè)聲音途徑存在差別（取決于環(huán)境）而帶來時(shí)間差。當(dāng)時(shí)間差超過一定數(shù)量時(shí)，聽者會(huì)聽到先后到達(dá)的兩個(gè)聲音，從而產(chǎn)生回音。經(jīng)多次反射，造成余聲。即使聲源已停止發(fā)聲，但聽者仍能聽到聲音存在?；芈暸c余音的感覺可使聽者感受出房間體積大小、房間高低及內(nèi)表面結(jié)構(gòu)上的差異，這便是空間感。212.1.2.音頻信號的質(zhì)量指標(biāo)1頻帶寬度音頻信號所包含的諧波分量越豐富，音色越好。在廣播通信和數(shù)字音響系統(tǒng)中，以聲音信號所包含的諧波分量的頻率范圍來衡量聲音的質(zhì)量，即帶寬。不同質(zhì)量的聲音的頻帶對比示意圖

222動(dòng)態(tài)范圍動(dòng)態(tài)范圍越大，說明音頻信號強(qiáng)度的相對變化范圍越大，音響效果越好。動(dòng)態(tài)范圍一般用dB為單位來計(jì)量。FM廣播的動(dòng)態(tài)范圍約60dB，AM廣播的動(dòng)態(tài)范圍約40dB。CD—DA的動(dòng)態(tài)范圍約100dB，數(shù)字電話約50dB。233信噪比信噪比SNR(SignalNoiseRatio)是有用信號與噪聲之比的簡稱，即有用信號的平均功率與噪聲的平均功率之比信噪比大，在一定程度上能夠掩蔽噪聲，從而獲得較好的聲音效果。信噪比不僅是聲音設(shè)備的性能指標(biāo)，在聲音的錄制和播放時(shí)，也要注意環(huán)境噪聲。錄制時(shí)應(yīng)盡可能減小環(huán)境噪音。輸出時(shí)應(yīng)使音量適當(dāng)大，以減少環(huán)境噪音對聽音的影響。一般話筒和音箱的信噪比在75dB以上。聲卡的信噪比在85～95dB。242.2數(shù)字音頻1.聲音的數(shù)字化數(shù)字化就是將連續(xù)信號變成離散信號。對音頻信號，首先在時(shí)間上離散，取有限個(gè)時(shí)間點(diǎn)，稱為采樣。然后在幅度上離散，取有限個(gè)幅度值，稱為量化。再將得到的數(shù)據(jù)表示成計(jì)算機(jī)容易識(shí)別的格式，稱為編碼。數(shù)字化的基本技術(shù)是脈沖編碼調(diào)制（PulseCodeModulation,PCM）,簡稱脈碼調(diào)制。25(1)PCM編碼PCM是一種把模擬信號轉(zhuǎn)換成數(shù)字信號的最基本的編碼方法，它主要包括采樣、量化和編碼3個(gè)過程。采樣是每隔一定的時(shí)間測量一次聲音信號的幅值，把時(shí)間連續(xù)的模擬信號轉(zhuǎn)換成時(shí)間離散、幅度連續(xù)的采樣信號。如果采樣的時(shí)間間隔相等，這種采樣稱為均勻采樣；量化是按“四舍五入”或其他方法將采樣得到的數(shù)值限定在幾個(gè)有限的數(shù)值中，將采樣信號轉(zhuǎn)換成時(shí)間離散、幅度離散的數(shù)字信號；編碼（coding）是將量化后的信號轉(zhuǎn)換成一個(gè)二進(jìn)制碼組輸出。比如，量化得到的數(shù)據(jù)中只會(huì)出現(xiàn)兩個(gè)數(shù)值51和80，則只用一位二進(jìn)制的數(shù)表示即可，用0表示51，用1表示80。若量化級別為256（有256級量化數(shù)據(jù)），則可用8位二進(jìn)制數(shù)表示，這種編碼方法稱為自然編碼。26模擬聲音信號的采樣和量化過程示意

（a）模擬聲音信號的波形成（b）采樣得到的離散時(shí)間信號（c）再量化得到的數(shù)字信號模擬聲音信號的數(shù)字化27例2.1設(shè)一個(gè)連續(xù)信號的波形可以表示為設(shè)采樣頻率為21Hz，[-10，10]內(nèi)的量化間隔取為1，試計(jì)算出該信號0到1秒內(nèi)的量化數(shù)據(jù)。對于CD—DA，采樣頻率為44.1kHz，即每秒取44100個(gè)點(diǎn)。幅度的取值范圍是限制在216=65536以內(nèi)，量化間隔為1，即量化幅度可以取65536個(gè)不同的值，計(jì)算機(jī)中用16位的存儲(chǔ)空間就可以表示一個(gè)量化后的數(shù)值。動(dòng)態(tài)范圍為20×1g(216)≈96dB。28PCM編碼原理編碼的過程首先用一組脈沖采樣時(shí)鐘信號與輸入的模擬音頻信號相乘，相乘的結(jié)果就是離散時(shí)間信號，然后對采樣后的信號幅值進(jìn)行量化。量化過程由量化器來完成。對經(jīng)量化器A／D（模/數(shù)）變換后的信號再進(jìn)行編碼，即把量化的信號電平轉(zhuǎn)換成二進(jìn)制碼組，就得到了離散的二進(jìn)制數(shù)據(jù)序列x(n)，計(jì)算機(jī)對量化后的二進(jìn)制數(shù)據(jù)可以用文件的形式存儲(chǔ)、編輯和處理，并可還原成原始的模擬信號播放。還原的過程稱為解碼，它是A／D變換的逆過程，即D／A(數(shù)/模)變換29PCM編碼示意圖PCM編碼示意圖30(2)均勻量化和非均勻量化量化時(shí)，如果采用相等的量化間隔對采樣得到的信號作量化，那么這種量化稱為均勻量化。均勻量化采用相同的“等分尺”來度量采樣得到的幅度，也稱為線性量化.缺點(diǎn):不能充分利用為適應(yīng)幅度大的輸入信號，增加的樣本的位數(shù).31非線性量化的思想是大的輸入信號采用大的量化間隔，小的輸入信號采用小的量化間隔，這樣就可以在滿足精度要求的情況下用較少的位數(shù)來表示。聲音數(shù)據(jù)還原時(shí)，采用相同的規(guī)則。32(3)律壓擴(kuò)

μ律(μ-Law)壓擴(kuò)主要用在北美和日本等地區(qū)的數(shù)字電話通信中，按下面的式子確定量化輸入和輸出的關(guān)系

33(4)A律(A-Law)A律(A-Law)壓擴(kuò)主要用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中，按下面的式子確定量化輸入和輸出的關(guān)系

34對于采樣頻率為8kHz，樣本精度為13位、14位或者16位的輸入信號，使用μ律壓擴(kuò)編碼或者使用A律壓擴(kuò)編碼，經(jīng)過PCM編碼器之后每個(gè)樣本需8位二進(jìn)制存儲(chǔ)，輸出的數(shù)據(jù)率為64kb/s。這個(gè)數(shù)據(jù)就是CCITT推薦的G.711標(biāo)準(zhǔn)：話音頻率脈沖編碼調(diào)制352.數(shù)字音頻的技術(shù)指標(biāo)(1)采樣頻率采樣頻率是指一秒鐘采樣的次數(shù)。采樣頻率越高，單位時(shí)間內(nèi)采集的樣本數(shù)越多，得到波形越接近于原始波形，音質(zhì)就越好。根據(jù)奈奎斯特(HarryNyquist)采樣理論：如果采樣頻率高于輸入信號最高頻率的兩倍，重放時(shí)就能從采樣信號序列無失真地重構(gòu)原始信號。例如，電話話音的信號頻率約為3.4kHz，若采樣頻率選為8kHz，就能無失真地重放原始聲音。36采樣的3個(gè)常用頻率分別為11.025kHz——AM廣播22.05kHz——FM廣播44.1kHz——CD高保真音質(zhì)聲音現(xiàn)在聲卡的采樣頻率一般為48kHz甚至96kHz。37（2）采樣精度

采樣精度用每個(gè)聲音樣本的位數(shù)表示，也叫樣本精度或量化位數(shù)。它反映度量聲音波形幅度的精度。例如，每個(gè)聲音樣本用16位表示，則量化樣本值在0～65535的整數(shù)范圍內(nèi)，它的精度是輸入信號的1/65536

采樣精度決定了模擬信號數(shù)字化以后的動(dòng)態(tài)范圍。若以8位量化，則其波形的幅值可分為28=256等份，等效的動(dòng)態(tài)范圍為20×lg(256)=48dB。若以16位采樣，則可分為216=65536等份，等效動(dòng)態(tài)范圍為20×lg(65536)=96dB。采樣精度影響到聲音的質(zhì)量位數(shù)越多，聲音的質(zhì)量越高，而需要的存儲(chǔ)空間也越多；位數(shù)越少，聲音的質(zhì)量越低，需要的存儲(chǔ)空間越少。38（3）聲道數(shù)單聲道(mono)信號一次產(chǎn)生一組聲波數(shù)據(jù)。如果一次產(chǎn)生兩組聲波數(shù)據(jù)，則稱其為雙聲道或立體聲(stereo)。雙聲道在硬件中占兩條線路，一條是左聲道，一條是右聲道。立體聲不僅音質(zhì)、音色好，而且能產(chǎn)生逼真的空間感。但立體聲數(shù)字化后所占空間比單聲道多一倍。除采樣頻率、采樣精度、聲道數(shù)影響聲音質(zhì)量外，聲音錄制時(shí)環(huán)境噪聲、聲卡內(nèi)部噪聲以及采樣數(shù)據(jù)丟失等都會(huì)造成聲音質(zhì)量的下降。實(shí)際收聽時(shí)，音響（功率放大器、揚(yáng)聲器等）的質(zhì)量對音質(zhì)的表現(xiàn)也起很大作用。39（4）音頻數(shù)據(jù)傳輸率音頻信號數(shù)字化后，產(chǎn)生大量數(shù)據(jù)。產(chǎn)生數(shù)據(jù)的速度或播放聲音時(shí)需要傳輸數(shù)據(jù)的速度影響聲音的播放質(zhì)量。數(shù)據(jù)傳輸率用每秒鐘傳輸?shù)臄?shù)據(jù)位數(shù)表示，記為bps（bitpersecond）。未經(jīng)壓縮的數(shù)字音頻數(shù)據(jù)傳輸率為:

數(shù)據(jù)傳輸率(bit／s)=采樣頻率(Hz)×量化位數(shù)(bit)×聲道數(shù)40聲音質(zhì)量和數(shù)字化指標(biāo)

質(zhì)量采樣頻率(kHz)樣本精度(bit)單道聲/立體聲數(shù)據(jù)率(kB/s)(未壓縮)頻率范圍電話*88單道聲64200～3400HzAM11.0258單道聲88.250～7000HzFM22.05016立體聲705.620～15000HzCD44.116立體聲1411.220～20000HzDAT4816立體聲1536.020～20000Hz41例2.2高保真立體聲數(shù)字音頻的量化位數(shù)為16，試計(jì)算其數(shù)據(jù)傳輸率

解：高保真立體聲數(shù)字音頻采樣頻率為44.1kHz，雙聲道，其數(shù)據(jù)傳輸率為

數(shù)據(jù)傳輸率=44.1(kHz)×16(bit)×2(channel)=1411.2(kbps)

如果采用PCM編碼，數(shù)字音頻文件所占用的空間可用如下的公式計(jì)算(數(shù)據(jù)量)：

音頻數(shù)據(jù)量（Byte）=數(shù)據(jù)傳輸率×持續(xù)時(shí)間／8(bit/Byte)

其中數(shù)據(jù)量以字節(jié)(Byte)為單位；數(shù)據(jù)傳輸率以每秒比特(bps)為單位；持續(xù)時(shí)間以秒(s)為單位。

42例2.3計(jì)算1分鐘未經(jīng)壓縮的高保真立體聲數(shù)字聲音文件的大小。

解：高保真立體聲數(shù)字音頻采樣頻率為44.1kHz，16位量化，雙聲道，其數(shù)據(jù)傳輸率為：

數(shù)據(jù)傳輸率=44.1(kHz)×16(bit)×2(channel)=1411.2(kbps)

1分鐘這樣的聲音文件的大小為

音頻數(shù)據(jù)量=1411.2（kb/s）×60（s）/8(bit/Byte)=10458kB未經(jīng)壓縮的4分鐘的歌曲文件約42M數(shù)據(jù)，128M的MP3播放器只能存放3首這樣的歌曲。

43（5）編碼算法與音頻數(shù)據(jù)壓縮比

未壓縮的音頻數(shù)據(jù)量非常大，因此在編碼的時(shí)候常常要采用壓縮的方式。編碼的作用

◆記錄數(shù)字?jǐn)?shù)據(jù)

◆采用一定的算法來壓縮數(shù)據(jù)以減少存儲(chǔ)空間和提高傳輸效率。壓縮編碼的基本指標(biāo)之一就是壓縮比，一般為數(shù)據(jù)壓縮前后的數(shù)據(jù)量之比44采用不同的數(shù)字化指標(biāo)實(shí)際上也是進(jìn)行了不同比例的數(shù)據(jù)壓縮。如果PCM編碼采用4bit量化對CD音質(zhì)信號壓縮，其壓縮比為4:1。這種情況下，用來記錄幅值的比特位越少，編碼后數(shù)據(jù)量就越小，壓縮比越大。但壓縮比越大，丟掉的信息就會(huì)越多，信號還原后失真就越大。(有損壓縮)45壓縮算法包括有損壓縮和無損壓縮；有損壓縮解壓后數(shù)據(jù)不能完全復(fù)原，要丟失一部分信息。無損壓縮不丟失任何信息，能較好地復(fù)原原始信號463.數(shù)字音頻文件格式

數(shù)字聲音文件格式是數(shù)字音頻在磁盤文件中的存放形式，相同的數(shù)據(jù)可以有不同的文件格式，而不同的數(shù)據(jù)也可以有相同的文件格式.(1)WAVE文件格式

WAVE文件是一種通用的音頻數(shù)據(jù)文件，文件擴(kuò)展名為“．WAV”，Windows系統(tǒng)和一般的音頻卡都支持這種格式文件的生成、編輯和播放。WAVE文件由三部分組成：文件頭、數(shù)字化參數(shù)和實(shí)際波形數(shù)據(jù)。WAVE文件的特點(diǎn)是易于生成和編輯，但在保證一定音質(zhì)的前提下壓縮比不夠，不適合在網(wǎng)絡(luò)上播放

47(2)MPEG文件MP3文件是采用MP3算法壓縮生成的數(shù)字音頻數(shù)據(jù)文件，以“.MP3”為文件后綴。MP3利用MPEG（MovingPictureExpertGroup，運(yùn)動(dòng)圖像專家組）制定的MPEG-1Audiolayer3的壓縮標(biāo)準(zhǔn)，將音頻信息用10:1甚至12:1的壓縮率，變成容量較小的數(shù)據(jù)文件。MPEG—1壓縮主要用于VCD數(shù)據(jù)的壓縮，也用來壓縮不包含圖像的純音頻數(shù)據(jù)，音頻壓縮算法包括MPEGAudioLayer1、MPEGAudioLayer2等，而MPEGAudioLayer3有很高的壓縮比。雖然MP3是一種利用了人類心理聲學(xué)特性的有損壓縮，人耳基本不能分辨出失真，音質(zhì)幾乎達(dá)到了CD音質(zhì)標(biāo)準(zhǔn)。按照這種算法，10張CD—DA的內(nèi)容可以壓縮到l張CD—ROM中，而且視聽效果相當(dāng)好。

48(3)RealAudio文件

RealAudio是Realnetworks推出的一種音樂壓縮格式,它的壓縮比可達(dá)到96:1，因此在網(wǎng)上比較流行。經(jīng)過壓縮的音樂文件可以在通過速率為14.4kb／s的MODEM上網(wǎng)的計(jì)算機(jī)中流暢回放。其最大特點(diǎn)是可以采用流媒體的方式實(shí)現(xiàn)網(wǎng)上實(shí)時(shí)播放，即邊下載邊播放。

49(4)WMA文件WMA（WindowsMediaAudio)格式是Microsoft公司開發(fā)的網(wǎng)上流行音頻文件格式。其壓縮比可以達(dá)到18:1。WMA文件特點(diǎn)

◆兼顧高保真度和網(wǎng)上傳輸?shù)囊蟆?/p>

◆內(nèi)容提供商可以通過數(shù)字版權(quán)管理方案加入防復(fù)制保護(hù)，限制播放時(shí)間、播放次數(shù)和播放機(jī)器等，有利防止盜版。

502.3電子合成音樂

在多媒體系統(tǒng)中，除了用數(shù)字音頻的方式以外，還可以用合成的方式產(chǎn)生音樂.音樂合成的方式根據(jù)一定的協(xié)議標(biāo)準(zhǔn)，使用音樂符號來記錄和解釋樂譜，并組合成相應(yīng)的音樂信號，這就是MIDI(MusicalInstrumentDigitalInterface樂器數(shù)字接口)。

51521.基本術(shù)語

MIDI不是把音樂的波形進(jìn)行數(shù)字化采樣和編碼，而是將數(shù)字式電子樂器的彈奏過程以命令符號的形式記錄下來，如按了哪一個(gè)鍵、力度多大、時(shí)間多長等。當(dāng)需要播放這首樂曲時(shí)，根據(jù)記錄的樂譜指令，通過音樂合成器生成音樂聲波，經(jīng)放大后由揚(yáng)聲器播出。

53(1)音樂合成器（MusicalSynthesizer）音樂會(huì)成器是利用DSP或其它集成電路芯片來產(chǎn)生音樂或聲音的電子裝置。典型的合成器由微處理器、鍵盤、控制面板、存儲(chǔ)器等組成。(2)MIDI電子樂器它是能產(chǎn)生特定聲音的合成器，如電子鍵盤、吉他、薩克斯管等；它們相互間的數(shù)據(jù)傳送符合MIDI的通信約定。(3)MIDI消息(message)或指令MIDI軟件通信協(xié)議，實(shí)際上是用數(shù)字指令描述的音樂樂譜，其中包含音符、強(qiáng)度、定時(shí)及樂器的指派等。54(4)MIDI接口(interface)MIDI硬件通信協(xié)議，可使電子樂器互連或與計(jì)算機(jī)硬件端口相連，可發(fā)送和接收MIDI消息。(5)MIDI通道(channel)MIDI標(biāo)準(zhǔn)提供了16個(gè)通道，每種通道對應(yīng)一種邏輯的合成器，即對應(yīng)一種樂器的合成。(6)音序器(sequencer)它指可用來記錄、編輯和播放MIDI文件的計(jì)算機(jī)程序552.MIDI的制作原理

電腦合成音樂需要使用MIDI語言。MIDI語言利用字節(jié)傳送來告知相應(yīng)的設(shè)備能夠做什么和不能做什么。MIDI字節(jié)通知樂器、聲卡和其他MIDI設(shè)備什么時(shí)候開始和什么時(shí)候結(jié)束演奏音符.MIDI自身并不產(chǎn)生和傳送聲音，只是傳送產(chǎn)生聲音的控制符號.使用MIDI語言的設(shè)備（MIDI設(shè)備）可以互聯(lián)。典型設(shè)備是合成器或者M(jìn)IDI控制鍵盤，也可以是外掛式音響效果單元、計(jì)算機(jī)、配備有MIDI接口的吉他等。

56（1）技術(shù)規(guī)范MIDI技術(shù)規(guī)范第一版（MIDI1.0），作為數(shù)字式音樂的國際標(biāo)準(zhǔn)，定義了電子合成器、音序器、個(gè)人計(jì)算機(jī)和其它電子樂器的相互連接性和通信協(xié)議。57每種MIDI裝置由一個(gè)接收器和一個(gè)發(fā)送器組成。當(dāng)MIDI設(shè)備交流信息時(shí)，需要遵循一定的事件序列。例如，兩個(gè)MIDI設(shè)備在建立連接之后首先要做的事情就是在使用相同的MIDI通道方面達(dá)成一致。MIDI可以在16個(gè)這樣的通道上進(jìn)行操作，這些通道用數(shù)字分別標(biāo)記為0～15。只要兩個(gè)MIDI設(shè)備進(jìn)行交流，就必須使用相同的通道。對電腦合成音樂，每個(gè)邏輯通道可指定一種樂器，音樂鍵盤可設(shè)置在這16個(gè)通道之中的任何一個(gè)，而MIDI聲源或者聲音模塊可被設(shè)置在指定的MIDI通道上接收。58MIDI硬件規(guī)范要求使用5針DIN連接器。MIDI通信協(xié)議使用多字節(jié)消息，字節(jié)數(shù)取決于消息的類型。有通道消息和系統(tǒng)消息兩種。59（2）MIDI接口和計(jì)算機(jī)的連接一般的MIDI設(shè)備都有輸入和輸出端口，對只做控制的設(shè)備可能只有輸出端口。兩臺(tái)MIDI設(shè)備互連,可以把兩臺(tái)設(shè)備的輸出端口和輸入端口交叉互連，它們沒有主從之分，每臺(tái)設(shè)備的演奏都可以通過另一臺(tái)設(shè)備的揚(yáng)聲器發(fā)出聲音。3臺(tái)以上的設(shè)備，必須選定一臺(tái)設(shè)備為主控設(shè)備，它負(fù)責(zé)傳送命令消息。60MIDI接口由三個(gè)端口組成：輸入端口(In)、輸出端口(0ut)和轉(zhuǎn)發(fā)端口(Thru)

轉(zhuǎn)發(fā)端口對MIDI數(shù)據(jù)只是進(jìn)行簡單傳輸，來自轉(zhuǎn)發(fā)端口的數(shù)據(jù)僅僅是來自輸入端口數(shù)據(jù)的拷貝，在離開轉(zhuǎn)發(fā)端口前數(shù)據(jù)不會(huì)發(fā)生任何的改變

61(3)MIDI音樂的產(chǎn)生過程

62（4）MIDI音樂合成器

MIDI指令送到合成器，由合成器(synthesizer)產(chǎn)生相應(yīng)的聲音。同樣的樂譜如選擇不同的樂器播放，會(huì)聽到不同的音色

MIDI制造商協(xié)會(huì)(MIDIManufacturersAssociation)制定了通用MIDI規(guī)格(GeneralMIDIMode)，簡稱GM規(guī)格。通用MIDI標(biāo)準(zhǔn)同時(shí)定義了GM音色庫(一個(gè)音色庫，也被稱為音色映射，支持128種樂器聲音)和GM打擊音色庫(只包含打擊樂器發(fā)出的聲音)，另外還定義了其他一些與音樂相關(guān)的性能，如每個(gè)GM設(shè)備應(yīng)支持的聲音數(shù)量和MIDI消息種類。

63不同類別MIDI設(shè)備的音色代碼區(qū)間

程序號樂器族程序號樂器族1～8鋼琴65～72簧管樂器9～16半音打擊樂器73～80笛17～24風(fēng)琴81～88合成主音25～32吉他89～96合成衰減33～40貝司97～104合成效果41～48琴弦105～112民間樂器49～56合唱113～120打擊樂器57～64銅管樂器121～128聲音效果64（5）MIDI音樂合成方式MIDI合成的產(chǎn)生方式有兩種：FM(frequencymodulation)合成和波表(Wavetable)合成。FM頻率調(diào)制合成是通過硬件（稱為發(fā)生器）產(chǎn)生正弦信號，再經(jīng)處理合成音樂。合成的方式是將波形組合在一起。這種方式在理論上有無限多組波形，即可以模擬任何聲音，而且可以任意修改音色。由此模擬的樂器較高或較低頻率的信號失真度很大，音色真實(shí)度很差

65波表的原理是在ROM中以數(shù)字格式存儲(chǔ)各種實(shí)際樂器的聲音采樣，聲音采樣以聲波的形式被組織到能夠?qū)ζ溥M(jìn)行單獨(dú)處理的庫中或者表內(nèi)，需要合成某種樂器的聲音時(shí)，調(diào)用相應(yīng)的實(shí)際聲音采樣合成該樂器的樂音。ROM存儲(chǔ)器的容量越大，合成的效果越好

663.MIDI文件的特點(diǎn)

用樂譜指令代替聲音數(shù)據(jù)

有效記錄和重現(xiàn)各種樂器聲音

MIDI聲音僅適于重現(xiàn)打擊樂或一些電子樂器的聲音

占用存儲(chǔ)空間極小

例如一個(gè)8位、22.05kHz的波形音頻文件持續(xù)2s就需超過40KB的容量，而一個(gè)MIDI文件播放2分鐘所需的空間不超過8KB。

適合樂曲創(chuàng)作和遠(yuǎn)距離傳輸672.4數(shù)字音頻處理

本節(jié)介紹數(shù)字音頻的應(yīng)用技術(shù)，包括聲音的采集、編輯以及音效處理。為敘述方便，音頻制作以聲音制作軟件SoundForge為例，其他聲音處理軟件大同小異，希望同學(xué)們在學(xué)習(xí)時(shí)注意方法，努力做到舉一反三。

681.SoundForge音頻編輯軟件簡介

(1)SoundForge的功能聲音剪輯：聲音片段的刪除、語序的調(diào)整；音量調(diào)整：整體調(diào)整、淡入（FadeIn）、淡出（FadeOut）、包洛線調(diào)整（Envelop）、左右聲道的平衡調(diào)整；頻率均衡處理（EQ）；混響/回聲/延遲處理（Reverb/Echo/Delay）；合唱（Chorus）處理；動(dòng)態(tài)（Dynamic）（包括壓縮、限制、門）處理；失真（Distortion）處理；降低噪音處理（Noise）；升降調(diào)，時(shí)間拉伸處理；聲音格式轉(zhuǎn)換：包括文件格式和數(shù)字化指標(biāo)；可以編輯視頻文件中的聲音，并進(jìn)行編輯；用FM（調(diào)頻）的方法生成聲音。

69(2)SoundForge屏幕布局

7071(3)基本操作

通過下例學(xué)習(xí)文件的打開、聲道的轉(zhuǎn)換、數(shù)字化指標(biāo)的轉(zhuǎn)換、提高音量和文件格式轉(zhuǎn)換

例2.4example_0220.wav文件是一個(gè)雙聲道立體聲語音文件，采樣頻率44.1kHz，采樣精度32位，請對其做以下處理：（1）將雙聲道聲音轉(zhuǎn)換成單聲道聲音；（2）采樣頻率轉(zhuǎn)換為8kHz，樣本精度轉(zhuǎn)換成16位；（3）將其音量提高20%;（4）將文件格式轉(zhuǎn)換為mp3格式，話音質(zhì)量。72解:(1)使用“File\Open”菜單命令打開聲音文件example_0220.wav；SoundForge可以同時(shí)打開多個(gè)文件，所以，編輯時(shí)要注意欲編輯的文件必須是當(dāng)前文件.(2)聲道轉(zhuǎn)換。執(zhí)行“Process\ChannelConverter”菜單命令

(3)修改技術(shù)指標(biāo)。執(zhí)行“process\Resample”菜單命令,輸入新的采樣頻率“8,000”;(4)執(zhí)行“Process\Bit-depthConverter”在打開的對話框中設(shè)置“Bitdepth”為“16”位。

(5)提高音量。執(zhí)行“Process\Volume”菜單命令

(6)保存文件為mp3文件。執(zhí)行“File\SaveAs”菜單命令,保存類型選擇“MP3Audio(*.mp3)”，單擊“Template”右邊的“Custom”按鈕，打開“CustomSetting”（自定義設(shè)置）對話框（圖2-18b），選擇“BitRate”為“8kbps8,000Hz”，單擊“OK”，并保存文件732.聲音的錄制與格式轉(zhuǎn)換在使用計(jì)算機(jī)進(jìn)行錄音時(shí)，話筒的插頭應(yīng)插入聲卡的MIC(話筒)輸入插座內(nèi)。聲卡有兩個(gè)輸入插座，一個(gè)用于話筒，一個(gè)用于線路輸入。用于話筒的插座靈敏度高，一般為O.5～3mv，適于輸入微弱的信號；用于線路輸入的插座靈敏度低，主要與音響設(shè)備的線路輸出端連接，適于輸入強(qiáng)度較大的信號，一般為500～1000mv。上述兩個(gè)插座不要混淆。如果把話筒插在線路輸入插座內(nèi)，將錄不到聲音74(1)質(zhì)量選擇錄制聲音時(shí)應(yīng)根據(jù)不同的要求選擇不同的質(zhì)量參數(shù)，包括采樣頻率、樣本位數(shù)、聲道數(shù)、編碼格式等。錄音時(shí)，應(yīng)注意調(diào)整輸入信號的強(qiáng)度，使其不超過錄音設(shè)備的動(dòng)態(tài)范圍，否則將產(chǎn)生削頂失真，音感阻塞，嚴(yán)重時(shí)無法辨別聲音的內(nèi)容。信號強(qiáng)度過低，也不能獲得滿意的聲音，原因是信號與噪聲的比值小，噪聲相對比較明顯，影響了音質(zhì)。正式錄音前，最好先試錄一次，以調(diào)整音響效果。75(2)聲音格式的轉(zhuǎn)換一般的聲音處理軟件兼容多種格式的聲音文件，使得聲音格式的轉(zhuǎn)換非常簡單，只要在保存文件時(shí)使用“另存為”，然后選擇不同的文件格式、質(zhì)量級別、壓縮算法或不同的性能指標(biāo)。例2.5以22.1kHz的采樣頻率、16位位深度錄制以下唐詩。去除錄制過程中過長的停頓、喀喀聲，調(diào)整音量，分別將其保存為WAV文件、FM音質(zhì)的MP3文件和rm文件。游子吟孟郊慈母手中線，游子身上衣。臨行密密縫，意恐遲遲歸。誰言寸草心，報(bào)得三春輝？76（a）環(huán)境準(zhǔn)備。連接話筒，在Windows控制面板中雙擊“聲音和多媒體”圖標(biāo)，打開“聲音和多媒體”對話框（圖2-19a），選擇“音頻”選項(xiàng)卡，單擊“錄音”選框中的“音量”按鈕，打開“RecordingControl”（錄音控制）對話框。如果使用話筒錄音，則在“Microphone”下的小方框中打“√”，音量滑塊調(diào)到90%左右

77（b）啟動(dòng)SoundForge（c）單擊工具欄錄音按鈕，打開“Recording”對話框

78（d）在編輯窗口中沒有波形的區(qū)域是沒有聲音的區(qū)域

79(e)不做任何選擇，執(zhí)行“Process\Volume”菜單命令調(diào)整整體音量的大小，也可選擇某個(gè)區(qū)域調(diào)整音量。（f）執(zhí)行“File\SaveAs”保存聲音文件。保存WAV文件選擇文件類型“Wave(Microsoft)(*.wav)”；保存MP3文件選擇文件類型“MP3Audio(*.mp3)”，模板選擇“64kbps,FMRadioQualityAudio”；保存RM文件選擇文件類型“RealMedia(*.rm)”，模板選擇“56kbpsAudio”，適合使用56kMODEM以上線路上網(wǎng)的用戶，也可選其他模板。我們保存的3個(gè)文件的大小分別為545kB、101kB和56kB，時(shí)間長度為12秒803.聲音的剪輯

刪除就是去掉聲音文件中的一段數(shù)據(jù)。兩段數(shù)據(jù)排列順序的不同就改變了聲音播放的先后順序。將兩個(gè)文件中的聲音數(shù)據(jù)連接起來保存在一個(gè)文件中就實(shí)現(xiàn)了聲音的連接。當(dāng)然也可以將原來的聲音文件分成兩個(gè)聲音文件存放，就實(shí)現(xiàn)了聲音的分割。

81(1)確定編輯區(qū)域,確定起點(diǎn)（MarkIn）和終點(diǎn)（MarkOut）

(2)聲音編輯,編輯操作可以使用“Edit”菜單中的命令，也可以使用與Word相同快捷鍵

(3)去除噪聲,去除噪聲使用“Effect\NoiseGate”菜單命令(4)靜音處理,

“Process\Mute”

例2.6

笨狼上學(xué)

824.聲音的效果處理

(1)淡入淡出

“淡入（FadeIn）”和“淡出（FadeOut）”指聲音的漸強(qiáng)和漸弱，通常用于聲音的開始、結(jié)束，兩個(gè)聲音素材的交替切換，產(chǎn)生漸近漸遠(yuǎn)的音響效果等場合。淡入效果使聲音從無到有、由弱到強(qiáng)。而淡出效果則正好相反，聲音逐漸消失。淡入與淡出的過渡時(shí)間長度由編輯區(qū)域的寬窄決定。SoundForge中選擇一段聲音，執(zhí)行“Process\Fade\In”或“Process\Fade\Out”產(chǎn)生淡入或淡出效果，也可以使用“Process\Fade\Graphics”命令在打開的對話框中拖動(dòng)增益曲線隨意地編輯淡入和淡出效果

83(2)頻率均衡控制頻率均衡（EQ）控制指對聲音素材的低音區(qū)、中音區(qū)、高音區(qū)各個(gè)頻段進(jìn)行提升和衰減等控制，使聲音的層次和頻段分布更符合要求。這一技術(shù)從根本上改變了音頻文件的固有頻率均衡值

頻率均衡使用“Process\EQ”命令84(3)混響

聲音在傳播過程中遇到障礙物，會(huì)產(chǎn)生反射、繞射及散射。因此形成直達(dá)聲、反射次數(shù)較少的早期反射聲和多次反射形成的混響聲。

直達(dá)聲是室內(nèi)任一點(diǎn)直接接收到聲源發(fā)出的聲音，它是接收聲音的主體。直達(dá)聲不受空間界面的影響。其聲強(qiáng)基本上是與聽點(diǎn)到聲源距離平方成反比而衰減。早期反射聲指延遲直達(dá)聲50ms以內(nèi)到達(dá)聽聲點(diǎn)的反射聲.早期反射聲會(huì)加強(qiáng)聽點(diǎn)處的聲強(qiáng)?；蛘哒f對直達(dá)聲起著增強(qiáng)的作用，使聽到的聲音豐滿，宏亮。大空間如廳堂，這時(shí)產(chǎn)生的早期反射聲到達(dá)聽點(diǎn)的距離加大，延遲時(shí)間變長，會(huì)形成回聲，從而產(chǎn)生空間感。85混響聲是指聲源發(fā)出的聲波經(jīng)過室內(nèi)界面的多次反射，遲于只經(jīng)一、二次反射的早期反射聲到達(dá)聽點(diǎn)。延遲的時(shí)間依據(jù)房間的大小不等，可長達(dá)數(shù)秒，甚至聲源已停止發(fā)聲，但由于多次反射，聽點(diǎn)仍能聽到，故而又稱混響聲為余聲。余聲會(huì)使聽到的聲音發(fā)生重疊，其結(jié)果會(huì)影響聲音的清晰度或者說可懂性

數(shù)字混響的基本原理是：把指定編輯區(qū)域內(nèi)的聲音滯后一小段時(shí)間再疊加到原來的聲音上。影響混響效果的參數(shù)是疊加聲音的音量和滯后時(shí)間長度。根據(jù)延遲信號的延遲時(shí)間和幅度的不同，可以調(diào)制出任何大小房間、音樂廳、禮堂、教堂、山谷等環(huán)境的音響效果?；祉憰r(shí)間短，聲音干澀，聲音就像在近前發(fā)出的一般；混響時(shí)間長，聲音圓潤，具有空曠感。Process\Reverb

86(4)合唱效果

合唱效果可以把一個(gè)人的聲音變成兩個(gè)的聲音，把兩個(gè)人的聲音變成4個(gè)人等，從而產(chǎn)生合唱效果或把小樂隊(duì)的演奏變成大樂隊(duì)的合奏效果

影響合唱效果的參數(shù)主要有三個(gè)：合唱程度（ChorusSize）、調(diào)制速率（ModulationRate）和合唱輸出（ChorusOut）。它們的值越大，效果越明顯。Process\Chorus

87(5)聲音的混合

聲音混合將兩段聲音混合在一起，可以為自己的歌曲或語音配上音樂將兩段聲音混和在一起，首先要保證兩段聲音的采樣頻率相同。為保證質(zhì)量，應(yīng)將低的采樣頻率改為高的采樣頻率。

Process\Resample

Edit\Copy

Edit\PasteSpecial\Mix

885.聲音的頻譜分析

譜分析（SpectrumAnalysis）是分析數(shù)字音頻頻率分布情況的強(qiáng)有利工具，使用它可以很清楚地看到所處理的聲音文件中各種頻率的聲音的分布情況

Tools\SpectrumAnalysis

892.5音頻壓縮技術(shù)

1.數(shù)據(jù)壓縮的基本原理

數(shù)據(jù)壓縮的對象是數(shù)據(jù)。數(shù)據(jù)是信息的載體，用來記錄和傳送信息。真正有用的不是數(shù)據(jù)本身，而是數(shù)據(jù)所攜帶的信息。大的數(shù)據(jù)量并不代表含有大的信息量.90(1)信息和熵香農(nóng)（C.E.Shannon）信息論應(yīng)用概率來描述不確定性。事件出現(xiàn)的概率小，不確定性越多，信息量就大，反之則少。在數(shù)學(xué)上，所傳輸?shù)南⑹瞧涑霈F(xiàn)概率的單調(diào)下降函數(shù)。所謂信息是指從N個(gè)相等可能事件中選出一個(gè)事件，所需要的信息度量或含量，也就是在辨識(shí)N個(gè)事件中特定的一個(gè)事件過程中所需要提問“是”或“否”的最少次數(shù)。如從64個(gè)數(shù)中選定某一個(gè)數(shù)，提問：“是否大于32?”，則不論回答是與否，都消去了半數(shù)的可能事件，如此下去，只要問6次這類問題，就可以從64個(gè)數(shù)中選定一個(gè)數(shù)。我們可以用二進(jìn)制的6個(gè)位來記錄這一過程，就可以得到這條信息。

919293香儂理論的要點(diǎn)是

信源中含有自然冗余度，這些冗余度既來自于信源本身的相關(guān)性，又來自于信源概率分布的不均勻性，只要找到去除相關(guān)性或改變概率分布不均勻性的手段和方法，也就找到了信息熵編碼的方法。但信源所含有的平均信息量（熵）是進(jìn)行無失真編碼的理論的極限，只要不低于此極限，就能找到某種適宜的編碼方法，去逼近信息熵，實(shí)現(xiàn)數(shù)據(jù)壓縮。

94(2)信息冗余多媒體數(shù)據(jù)中大的數(shù)據(jù)量并不完全等于它們所攜帶的信息量。在信息論中，稱為冗余。冗余是指信息存在的各種性質(zhì)的多余度.減少數(shù)據(jù)冗余可以節(jié)省存儲(chǔ)空間，有效利用網(wǎng)絡(luò)帶寬。95數(shù)據(jù)冗余的類型（1）空間冗余（2）時(shí)間冗余（3）信息熵冗余（4）視覺冗余（5）聽覺冗余（6）知識(shí)冗余96(3)壓縮算法的分類1）從信息量有無損失劃分，有可逆編碼和不可逆編碼①可逆編碼也叫無失真編碼、冗余度壓縮、熵編碼等。其原理是減少數(shù)據(jù)中的冗余度，而不損失任何信息。解壓時(shí)可以完全恢復(fù)出原來的數(shù)據(jù)，亦稱無損壓縮。典型的無損壓縮有Huffman編碼、算術(shù)編碼和行程編碼等。可逆編碼由于不會(huì)產(chǎn)生失真，因此在多媒體技術(shù)中常用于文本、數(shù)據(jù)的壓縮，它能保證完全地恢復(fù)原始數(shù)據(jù)。但這種方法的壓縮比較低，一般在2:1～5:1之間。97②不可逆編碼是有失真壓縮，信息論中叫熵壓縮。由于壓縮了熵，會(huì)減少信息而不能再恢復(fù)。因此這種壓縮又稱有損壓縮。在語音和圖像中，由于存在視覺冗余和聽覺冗余，減少這種信息并不影響人們的聽覺效果和視覺效果，所以經(jīng)常采用這種方法，有損壓縮常用于數(shù)字化存儲(chǔ)的模擬數(shù)據(jù)，并且主要應(yīng)用于圖像、聲音、動(dòng)態(tài)視頻等數(shù)據(jù)的壓縮。如果用混合編碼的JPEG標(biāo)準(zhǔn)，對自然景物的彩色圖像，壓縮比可達(dá)到幾十倍甚至上百倍。982）根據(jù)壓縮原理劃分有預(yù)測編碼、變換編碼、矢量編碼、子帶編碼、熵編碼等。

①預(yù)測編碼對于語音，就是通過預(yù)測去除語音信號時(shí)間上的相關(guān)性。而對于圖像，幀內(nèi)預(yù)測去除了空間上的冗余，幀間預(yù)測則可以去除時(shí)間上冗余。目前大多數(shù)語音、圖像編碼中都采用了預(yù)測技術(shù)。例如語音中的LPC(linearPredictiveCoding，線性預(yù)測)、CELP(碼激勵(lì)線性預(yù)測)、圖像中的ADPCM(自適應(yīng)差分脈沖編碼調(diào)制)等。99②變換編碼變換編碼首先把要壓縮的數(shù)據(jù)變換到某個(gè)變換域中，然后再進(jìn)行編碼。變換域中表現(xiàn)為能量集中在某些區(qū)域，就可以利用這一特點(diǎn)在不同區(qū)域間有效地分配量化比特?cái)?shù)，或者去掉這些能量很小的區(qū)域，從而達(dá)到數(shù)據(jù)壓縮的目的。例如聲音中的頻譜分析實(shí)際上是對語音波形進(jìn)行了快速傅里葉變換（FFT），將時(shí)域信號變到了頻域中，可以清楚地看到能量集中在哪些頻率范圍內(nèi)。100③矢量量化矢量量化是利用相鄰數(shù)據(jù)間的相關(guān)性，將數(shù)據(jù)序列分組進(jìn)行量化的一種壓縮方法。和預(yù)測編碼一樣，矢量量化本質(zhì)也是利用數(shù)據(jù)序列的統(tǒng)計(jì)相關(guān)性進(jìn)行壓縮的。④子帶編碼子帶編碼首先讓原始數(shù)據(jù)分別通過若干個(gè)具有不同通頻帶的濾波器，將信號分成多個(gè)子帶信號輸出，然后分別對各個(gè)濾波器的輸出進(jìn)行編碼。當(dāng)濾波器選取得合適時(shí)，它們的輸出將各自具有不同的分布特性，對各頻段進(jìn)行不同的量化處理，可以有效地進(jìn)行數(shù)據(jù)壓縮。101⑤熵編碼根據(jù)信息墑的原理，用短碼表示出現(xiàn)概率大的數(shù)據(jù)，用長碼表示出現(xiàn)概率小的數(shù)據(jù)。這是一種無損數(shù)據(jù)壓縮技術(shù)，在語音和圖像編碼中常常和其它有損壓縮編碼方法結(jié)合使用。

⑥分型編碼

分型的含義是某種結(jié)構(gòu)的組成部分以某種方式與整體相似。分型編碼把數(shù)字圖像通過一些圖像處理技術(shù)，將原始圖像分成一些子圖像。然后再分型集中查找這樣的子圖像。分型集實(shí)際上并不是存儲(chǔ)所有可能的子圖像，而是存儲(chǔ)許多迭代函數(shù)，通過迭代函數(shù)反復(fù)迭代來恢復(fù)圖像。1023）根據(jù)編碼后產(chǎn)生的碼字長度是否相等，數(shù)據(jù)編碼又可分為定長碼和變長碼。

①定長碼

采用相同的為數(shù)對數(shù)據(jù)進(jìn)行編碼。大多數(shù)存儲(chǔ)數(shù)字信息的編碼系統(tǒng)都采用定長碼。

②變長碼

采用不相同的為數(shù)對數(shù)據(jù)進(jìn)行編碼，以節(jié)省存儲(chǔ)空間。1032.無損壓縮編碼方法無損壓縮算法可以大致分為兩大類：統(tǒng)計(jì)式壓縮法和字典式壓縮法。統(tǒng)計(jì)式壓縮法先將要被編碼的數(shù)據(jù)整體所采用的符號做一個(gè)統(tǒng)計(jì)，然后將重復(fù)性越大的符號重新以越短的碼來表示，重復(fù)性低的符號重新以長的碼來表示，結(jié)果使總的數(shù)據(jù)量減小。字典式壓縮法是采用“字典”中用來識(shí)別某個(gè)字符串的碼字去替換文本中這個(gè)字符串。104(1)霍夫曼編碼霍夫曼(Huffman)編碼在1952年為文本文件而建立?；舴蚵幋a的碼長是變化的，對于出現(xiàn)頻率高的信息，編碼的長度較短；而對于出現(xiàn)頻率低的信息，編碼長度較長。這樣，處理全部信息的總碼長一定小于實(shí)際信息的符號長度。（1）將信號源的符號按照出現(xiàn)概率遞減的順序排列。（2）將兩個(gè)最小出現(xiàn)概率進(jìn)行合并相加，得到的結(jié)果作為新符號的出現(xiàn)概率。（3）重復(fù)進(jìn)行步驟1和2，直到概率相加的結(jié)果等于1為止。（4）在合并運(yùn)算時(shí)，概率大的符號用編碼1表示，概率小的符號用編碼0表示。（5）記錄下概率為1處到當(dāng)前信號源符號之間的0、1序列，從而得到每個(gè)符號的編碼105例2.12設(shè)信號源為X={、a、e、I、m、t、c、h、r}。對應(yīng)的概率為p={O.22、0.22、0.14、O.07、0.07、0.07、0.07、0.07、0.07},試給出該信源的霍夫曼編碼方案。

106霍夫曼編碼過程解：107平均碼長為：信號源的信息熵為：108編碼效率為：若傳送一個(gè)串字符串“Iamateacher”，共14個(gè)字符。若用ASCII傳送，每個(gè)字符8位，共需112位。該字符串中有9個(gè)不同的符號，至少需要4位二進(jìn)制才能表示，這樣傳送該字符串也要56位。若用剛計(jì)算的Huffman編碼，只需要42位。

109(2)行程編碼原理

由字符(或信號采樣值)構(gòu)成的數(shù)據(jù)流中相同的字符(或字符串)會(huì)連續(xù)重復(fù)出現(xiàn)，重復(fù)出現(xiàn)的字符長度稱為游程長度RL（RunLength）。如果給出了形成串的字符，串的長度及串的位置，就能復(fù)出原來的數(shù)據(jù)流。行程編碼RLC(RunLengthCoding)就是用二進(jìn)制碼字給出上述信息的一類方法。行程編碼又稱“運(yùn)行長度編碼”或“游程編碼”。1101)使用指示符的行程編碼使用指示符的行程編碼用3個(gè)字節(jié)表示一個(gè)字符串：第一個(gè)字節(jié)是壓縮指示符，第二個(gè)字節(jié)是重復(fù)次數(shù)，第三個(gè)字節(jié)是連續(xù)重復(fù)的字符。如：“RTSAAAAEEEEEQQBBB”，則其行程編碼字符串為“*1R*1T*1S*4A*5E*2Q*3B”。1112）不使用指示符的行程編碼不使用指示符的行程編碼僅用出現(xiàn)的字符和其連續(xù)重復(fù)的次數(shù)表示這串字符。

如：字符串“8888888555555222224440000000009”，其行程編碼序列為:875625430991。112例2.13設(shè)有數(shù)據(jù)流“AAABBBBCCCCCDAAAAAA”，試計(jì)算該數(shù)據(jù)的行程編碼。解：A重復(fù)3次，B重復(fù)4次，C重復(fù)5次，D不重復(fù)，A重復(fù)6次，RLC數(shù)據(jù)流為：“*3A*4B*5C*1D*6A”，其中*為指示符?？偣舱加?3個(gè)字節(jié)，而源數(shù)據(jù)占用19個(gè)字節(jié)。有時(shí)行程編碼不用指示符，重復(fù)與否相同對待，則相應(yīng)的RLC為“A3B4C5D1A6”占用10個(gè)字節(jié)。113（3）算數(shù)編碼算數(shù)編碼（ArithmeticCoding,AC）的基本原理是將編碼的消息表示成實(shí)數(shù)0-1之間的一個(gè)間隔，取間隔中的一個(gè)數(shù)表示消息。消息越長，編碼表示它的間隔就越小，表示這一間隔所需的二進(jìn)制位數(shù)就越多。114例2-16設(shè)信號源符號為{a,e,i,o,u,l}6個(gè)字符，這些符號在信號源中出現(xiàn)的概率見下表，試計(jì)算在該概率下傳送的字符串“eaiil”的算數(shù)編碼，并給出解碼過程。字符aeioul出現(xiàn)概率0.20.30.10.20.10.1115解：（1）先結(jié)出取值范圍【0,1】，0≤x<1。（2）對信號源的每個(gè)字符根據(jù)概率值選定一個(gè)小的范圍，范圍的左端用rangelow表示，右端用符號rangehigh表示，見下表。字符aeioul概率區(qū)間[0,0.2)[0.2,0.5)[0.5,0.6)[0.6,0.8)[0.8,0.9)[0.9,1)116

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第2章-音頻處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

第2章-音頻處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔