第2章音頻信號處理技術

上傳人：a*** IP屬地：湖北上傳時間：2023-02-05 格式：PPT 頁數：104 大小：1.06MB 積分：28 舉報 版權申訴

已閱讀5頁，還剩99頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第二章:音頻信號處理技術

教學建議以介紹多媒體計算機中聲音的特性、類型與處理等音頻信號處理技術的基本原理為主，并講述常用軟件的使用以及應用前景。本章需6~8學時。2/5/2023第二章:音頻信號處理技術教學提示

聲音是攜帶信息的極其重要的媒體,音頻信號處理技術是多媒體信息處理中的核心技術之一，它是多媒體技術和多媒體產品開發(fā)中的重要內容。本章主要介紹多媒體計算機中音頻信號處理技術的基本原理、硬件、軟件以及應用前景。教學目標

通過學習本章內容，要求大家掌握計算機聲音處理的常用技術與原理，了解聲音處理硬件的基本構成、常用的聲音合成方法、聲音的編碼與壓縮技術、數字音頻的合成以及數字聲音的應用知識。

2/5/2023教學內容1聲音的特性、類型與處理2聲卡的構成與功能3聲音信號的數字化4聲音文件的存儲格式5電子樂器數字接口(MIDI)系統

2/5/2023

MultimediaTechnology&Application教學內容6音頻信息的壓縮技術7數字語音的應用語音識別語音合成8聲音媒體編輯軟件的應用

Windows的錄音機軟件聲音編輯軟件CoolEdit9本章小結

2/5/2023

MultimediaTechnology&Application

2.１聲音的特性、類型與處理

2.1.1聲音的特性

自然界中聲音是靠空氣傳播的聲音在空氣中能引起非常小的壓力變化聲源所引起的空氣壓力變化，被耳朵的耳膜所檢測，然后產生電信號刺激大腦的聽覺神經，從而使人們能感覺到聲音的存在。自然界的各種聲音大都具有周期性的強弱變化的特性，因而也使得輸出的壓力信號周期變化

2/5/2023

MultimediaTechnology&Application聲音的正弦波特性

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性有關的名詞術語將曲線上的任一點再次出現所需時間間隔稱為周期。而一秒鐘內聲音由高(壓力強)到低(壓力低)再到高(壓力強)，這樣一個循環(huán)出現的次數稱為頻率。頻率越高，聲音越高，以赫茲(Hz)為其度量單位。一個系統能夠接收的頻率是有限的，人們把系統能夠接受的最低的聽覺和最高頻率之間的范圍稱為系統的帶寬(Bandwidth）。人類能夠接受的聽覺帶寬是從20Hz到20KHz。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的三要素即為音調、音強、音色。音調與聲音的頻率有關，頻率快則聲音高，頻率慢則聲音低。音強又稱響度，取決于聲音的幅度，即振幅的大小和強弱。而音色則由混入基音的泛音所決定的，每個基音又都有其固有的頻率和不同音強的泛音，從而使得每個聲音具有特殊的音色效果。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的連續(xù)譜特性聲音是一種彈性波，聲音信號可以分成周期信號與非周期信號兩類。周期信號即為單一頻率音調的信號，其頻譜是線性譜；而非周期信號包含一定頻帶的所有頻率分量，其頻譜是連續(xù)譜。真正的線性譜僅可從計算機或類似的聲音設備中才能聽到，這種聲音聽起來十分單調。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的方向感特性聲音的傳播是以聲波形式進行的。由于人類的耳朵能夠判別出聲音到達左右耳的相對時差、聲音強度，所有能夠判別出聲音的方向以及由于空間使聲音來回反射而造成聲音的特殊空間效果。現在的音響設備都在竭力模擬這種立體聲效果和空間感效果。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的時效性聲音具有很強的時效性，沒有時間也就沒有聲音，聲音適合在一個時間段中表現。聲音常常處于一種伴隨狀態(tài)，如伴音、伴奏等，起一種氣氛渲染的作用。由于時間性，聲音數據具有很強的前后相關性，因而，數據量要大得多，實時性要求也比較高。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的質量聲音的質量與聲音的頻率范圍有關。一般說來，頻率范圍越寬聲音的質量就越高。對語音而言，常用可懂度、清晰度、自然度來衡量；而對音樂來說，保真度、空間感、音響效果都是重要的指標。

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理不同種類聲音頻寬次聲（Infra-sound） 0-20Hz 電話語音 200Hz—3.4KHz 調幅廣播 50Hz—7KHz 調頻廣播 20Hz—15KHz 音響 20Hz—20KHz 超聲（Ultrasound）20kHZ-1GHz特（強）超聲（Hypersound) 1GHz-10THz

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理聲音質量評價標準級別評價失真級別

1優(yōu)（Excellent）感覺不到聲音失2 良（Good）

剛察覺但不討厭3 中（Fair）

聲音有些失真，有點討厭4 差（Poor）

聲音失真，不令人反感5 劣（Bad）

嚴重失真，令人反感

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理自然界中的聲音可分為四種類型：次聲、可聽聲、超聲與特超聲（1GHz—10THz）人類的聽覺能范圍是20Hz—20KHz,次聲、超聲與特超聲均非可聽聲。多媒體計算機主要處理的是人類聽覺范圍內的可聽聲。聲音的處理主要有：聲音的錄制、回放、壓縮、傳輸和編輯等

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理模擬音頻和數字音頻（1）模擬音頻(Analogaudio)

模擬音頻是一種連續(xù)的模擬量，以電的、磁的等形式表示。例如當我們對著麥克風講話時，麥克風能根據它周圍空氣壓力的不同變化而輸出相應連續(xù)變化的電壓值，這種變化的電壓值便是一種對我們講話聲音的模擬，是一種模擬量，稱為模擬音頻。計算機不能直接處理模擬音頻

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理模擬音頻和數字音頻（2）數字音頻(Digitalaudio)數字化音頻的獲得是通過每隔一定的時間間隔測一次模擬音頻的值(如電壓)并將其數字化。這一過程稱為采樣，每秒鐘采樣的次數稱為采樣率一般地，采樣率越高，記錄的聲音就越自然，反之，若采樣率太低將失去原有聲音的自然特性，這一現象稱為失真。由模擬量變?yōu)閿底至康倪^程稱為模—數轉換。由上述可知：數字音頻是離散的，而模擬音頻是連續(xù)的，數字音頻質量的好壞與采樣率密切相關。數字音頻信息可以被計算機存儲、處理和播放。

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理多媒體計算機中錄音/放音的處理過程

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能

聲卡可分為三類：第一類為低檔聲卡，此類卡僅提供比較單一的聲音，音質較差，無錄音功能第二類為中檔聲卡，這類聲卡具有立體聲音質，ＭＩＤＩ音樂、錄音、播放等功能，能滿足一般的多媒體應用需求。第三類為高檔聲卡，此類聲卡除具有中檔聲卡的所有特點外，一般都帶有專用的數字信號處理器DSP，可用于高級音樂編輯、創(chuàng)作，實時語言識別等功能。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能2.2.1聲卡的組成

聲卡的結構聲卡主要有四個組成：AD/DA轉換器AD/DA轉換器負責錄音及播放*.WAV格式的波形文件。電子合成器（Synthesizer）電子合成器負責MIDI樂曲的合成可以及時創(chuàng)造各種音樂?；煲羝鳎∕ixer）混音器（Mixer）它是一個處理音效控制的芯片，負責調節(jié)各聲音來源的音量、混音與調整錄放音的音量大小。CD音頻連接器(CD-Audioconnector)CD音頻連接器可以接收光盤機中的音樂信號。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能聲卡的基本結構

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能聲卡的基本結構

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能

2.2.2聲卡的主要功能

（1）錄制與播放聲音通過接在聲卡上的話筒錄制聲音，并以文件形式保存在計算機中，隨時可打開聲音文件進行播放。聲音文件的格式可因使用不同的軟件而不同。（2）音樂合成利用聲卡上的合成器將存儲在計算機內存中的MIDI文件合成為音樂樂曲。通過混合器混合和處理多個不同音頻源的聲音，控制和調節(jié)音量大小，最后送至音箱或耳機播放。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能

2.2.2聲卡的主要功能

（3）壓縮和解壓縮音頻文件目前，大多數聲卡上都固化了不同標準的音頻壓縮和解壓縮軟件，常用的壓縮編碼方法有ADPCM(自適應差分脈沖編碼調制)和ACM(微軟音頻壓縮管理器)等，壓縮比大約為2:1~5:l。（4）與MIDI設備和CD驅動器的連接通過聲卡上的MIDI接口，計算機可以同外界的MIDI設備相連接，如連接電子琴、電吉他等，使MPC具有創(chuàng)作電腦樂曲和播放MIDI文件的功能。游戲桿也可通過MIDI接口與計算機相連接，使游戲玩起來得心應手。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能聲卡與其它設備連接（圖2.3）

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能聲卡中的插孔連接方法聲卡中的linein插孔可連接錄音機、袖珍CD播放機和合成器等，將其播放的音信息輸入計算機；Microphone插孔與麥克風相連，用于錄音；Lineout可與喇叭、耳機或功放相連Joystick/MIDIAdapter可與游戲操縱竿,MIDI設備相連。

2/5/2023

MultimediaTechnology&Application2.2.3聲卡的性能指標

聲卡的性能指標決定了聲卡聲音采集、合成與播放的質量，主要取決于以下幾個方面：

(l)采樣分辨率

(2)采樣速率

(3)

聲道數

(4)兼容性

(5)功能接口

2/5/2023

MultimediaTechnology&Application聲卡的技術標準具有常用多媒體功能的聲卡，一般應具備下列技術標準：ＰＣＭ播放和錄音數字音頻格式樂器數字接口MIDI

其他標準

2/5/2023

MultimediaTechnology&ApplicationPCM播放和錄音PCM(PulseCodemodulation:脈沖編碼調制)是一種數字化音頻的處理技術,該技術被目前大多數聲卡所采用。提供播放和錄制PCM音頻文件的功能對任何一個實用的聲音裝置都是必須的。因為有大量的數字語音的應用需要用到PCM播放和錄音功能,在這些應用中,包括語音注釋、語言識別、語音合成、語音郵件、語音剪輯、娛樂軟件的聲音效果等。

2/5/2023

MultimediaTechnology&Application數字音頻格式對大多數應用而言,聲卡應能支持下列每一種播放和錄音格式。11.025KHz,22.05KHz和44.1KHz的8位/16位單聲道/立體聲采樣。自適應增量脈沖編碼調制(ADPCM)4:1壓縮/解壓縮u律/a律2:1壓縮/解壓縮

上述第一條軟件所構成的格式直接由多媒體Windows95/Windows98/Windows2000提供支持。

2/5/2023

MultimediaTechnology&Application樂器數字接口MIDI聲卡中的MIDI（MusicalInstrumentDigitalInterface）及音樂合成功能也是一個聲卡最基本的性能指標。作為一個用于控制電子音樂設備的標準化的串行通訊協議于1983年提出來的。MIDI音樂的制作與播放

MIDI鍵盤實時演奏計算機鍵盤輸入樂譜音序器軟件MIDI文件媒體播放器MIDI合成器MIDI音樂樂器數字接口MIDI

MIDI協議允許電子合成器之間相互通訊,而不管是誰家生產的。具有這種功能的聲卡能夠和MIDI樂器相連,供作曲家或專業(yè)音樂人員演奏音樂,并轉換成專用的MIDI代碼存貯在計算機中,同時這種聲卡也能根據計算機存放的MIDI代碼,合成各種電子樂器聲音。可具有多種旋律、音調、速度,并可多種樂器合奏。2.3聲音信號的數字化為什么要將聲音數字化？自然界的聲音是一種模擬的音頻信息，是連續(xù)量。而計算機只能處理離散的數字量，這就要求必須。優(yōu)點：傳輸時抗干擾強，存儲時重放性能好，易處理，能進行數據壓縮，可糾錯，容易混合，bitsaboutbits...音頻信息數字化，其關鍵的步驟是采樣、量化和編碼。

方法（即數字化有3個步驟）：1.采樣（Sampling）2.量化(quantization:ADconversion）3.編碼(Encoding）2.3聲音信號的數字化采樣量化編碼模擬音頻數字音頻01101001……

2/5/2023

MultimediaTechnology&Application

2.3.1

采樣

數字化音頻的獲得是通過每隔一定的時間間隔測一次模擬音頻的值(如電壓)并將其數字化。這一過程稱為采樣原理:用一定速率的離散采樣序列可以代替一個連續(xù)的頻帶有限的信號而不丟失任何信息奈奎斯特采樣定理“Forlosslessdigitization,thesamplingrateshouldbeatleasttwicethemaximumfrequencyresponse.”

即：我們要獲得一個無損的采樣，就必須以波形最高允許頻率的兩倍作為采樣率。

2/5/2023

MultimediaTechnology&Application采樣率每秒鐘采樣的次數稱為采樣率取樣頻率的大小決定帶寬例如：人類能夠接受的聽覺帶寬是：２０Ｈｚ--２０ＫＨｚ。按照這個理論，要產生聽得見的頻率范圍需要大于40KHz的采樣率。所以，菲利浦和索尼公司在設計光盤(ＣＤ)時，選擇了44.1KHz的采樣率。這個采樣頻率也是Windows所支持的較高采樣率。在Windows下所支持的其它采樣率還有11.025KHz和22.05KHz，

2/5/2023

MultimediaTechnology&Application采樣精度

采樣精度:在數字化系統中，樣本大小是用每個聲音樣本的位數bit/s(即bps)表示的，它反映度量聲音波形幅度的精度。樣本位數的大小影響到聲音的質量，位數越多，聲音的質量越高，而需要的存儲空間也越多；位數越少，聲音的質量越低，需要的存儲空間越少。通常，采樣率越高，記錄的聲音就越自然，反之，若采樣率太低將失去原有聲音的自然特性，這一現象稱為失真。

2/5/2023

MultimediaTechnology&Application聲音的采樣（a）與量化(b)量化采樣圖2.5

2/5/2023

MultimediaTechnology&Application2.3.2

量化（Quantization）what?：將采樣后得到的音頻信息數字化的過程稱為量化A/Dconversion？：由模擬量變?yōu)閿底至康倪^程稱為模—數轉換。methods：均勻量化，非均勻量化

resolution(4,6,8,12,16bits)量化位數決定了動態(tài)范圍和噪聲大小輸入輸出輸入輸出均勻量化非均勻量化

2/5/2023

MultimediaTechnology&Application量化器的分類：標量量化器（無記憶量化器）：每次只量化一個取樣值。矢量量化器（有記憶量化器）：每次量化一組取樣值。

2/5/2023

MultimediaTechnology&Application2.3.3

編碼（Encoding）

見2.6音頻信息的壓縮技術

數據編碼技術又稱壓縮技術由于聲音的數字化,將有大量的數據需要計算機存貯，如果對這些音頻數據不加編碼壓縮，則很難在個人計算機上實現多媒體功能。實時地壓縮音頻信號的數據量是多媒體計算機不可回避的關鍵技術問題之一。數據壓縮是可以實現的

2/5/2023

MultimediaTechnology&Application數字化聲音的基本參數

（BasicParametersofDigitalSounds）采樣率（samplingfrequency）量化位數（quantizationbits）聲道數（numberofsoundchannels）編碼方法（encodingmethod/compressionmethod)

2/5/2023

MultimediaTechnology&Application

2.3.4

聲音的重構

（ReconstructionofSound）若要播放數字化聲音，就要經過解碼、DA轉換和插值。數字音頻模擬音頻

2/5/2023

MultimediaTechnology&Application2.3.4

聲音的重構

（ReconstructionofSound）解碼（Decoding）：編碼的逆過程，又稱解壓縮數模轉化De-quantization(D/Aconversion)：將數字量再轉化為模擬量插值Interpolation：是為了彌補在采樣過程中引起的語音信號失真而采取的一種補救措施，使得聲音更加自然。

2/5/2023

MultimediaTechnology&Application2.4聲音文件的存儲格式

如同存儲文本文件一樣，存儲聲音數據也需要有存儲格式。在因特網上和各種機器上運行的聲音文件格式很多，但目前比較流行的有以.wav(waveform)，au(audio)，.aiff(AudioInterchangeableFileFormat)和.snd(sound)為擴展名的文件格式。.wav格式主要用在PC上，.au主要用在Unix工作站上，.aiff和snd主要用在蘋果機和美國視算科技有限公司(SiliconGraphics，Inc.，SGI)的工作站上。表2-3給出了常見的聲音文件擴展名

2.5電子樂器數字接口(MIDI)系統

2.5.1

MIDI

（MusicalInstrumentDigitalInterface）簡介

MIDI可譯成“電子樂器數字接口”。用于在音樂合成器、樂器和計算機之間交換音樂信息的一種標準協議。從20世紀80年代初期開始，MIDI已經逐步被音樂家和作曲家廣泛接受和使用。MIDI是樂器和計算機使用的標準語言，是一套指令(即命令的約定)，它指示樂器即MIDI設備要做什么，怎么做，如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號，在MIDI電纜上傳送的不是聲音，而是發(fā)給MIDI設備或其它裝置讓它產生聲音或執(zhí)行某個動作的指令。2.5電子樂器數字接口(MIDI)系統

2.5.2

FM合成聲音

FM合成器生成樂音的基本原理如圖2.8所示。它由5個基本模塊組成：數字載波器、調制器、聲音包絡發(fā)生器、數字運算器和模數轉換器。

2.5電子樂器數字接口(MIDI)系統

2.5.2

FM合成聲音

在樂音合成器中，數字載波波形和調制波形有很多種，不同型號的FM合成器所選用的波形也不同。圖2.9是YamahaOPL-III數字式FM合成器采用的波形。圖2.9聲音合成器的波形2.5電子樂器數字接口(MIDI)系統

2.5.3樂音樣本合成聲音

樂音樣本的采集相對比較直觀。音樂家在真實樂器上演奏不同的音符，選擇44.1kHz的采樣頻率、16位的樂音樣本，這相當于CD-DA的質量，把不同音符的真實聲音記錄下來，這就完成了樂音樣本的采集。通常樂音樣本放在ROM芯片上，ROM是超大規(guī)模集成電路(verylargescaleintegrated，VLSI)芯片。2.5電子樂器數字接口(MIDI)系統

2.5.3樂音樣本合成聲音

原理：圖2.10是樂音樣本合成器的框圖。樂音樣本合成器所需要的輸入控制參數比較少，可控的數字音效也不多，大多數采用這種合成方法的聲音設備都可以控制聲音包絡的ADSR參數，產生的聲音質量比FM合成方法產生的聲音質量要高。2.5電子樂器數字接口(MIDI)系統

2.5.4

MIDI系統MIDI協議提供了一種標準的和有效的方法，用來把演奏信息轉換成電子數據。MIDI信息是以“MIDImessages”傳輸的，它可以被認為是告訴音樂合成器(musicsynthesizer)如何演奏一小段音樂的一種指令，而合成器把接收到的MIDI數據轉換成聲音。MIDI數據流是單向異步的數據位流(bitstream)，其速率為31.25kbps，每個字節(jié)為10位(1位開始位，8位數據位和1位停止位)。MIDI樂器上的MIDI接口通常包含3種不同的MIDI連接器，用IN(輸入),OUT(輸出)和THRU(穿越)。MIDI數據流通常由MIDI控制器

2.5電子樂器數字接口(MIDI)系統

2.5.4

MIDI系統圖2.11簡單的MIDI系統

2.5電子樂器數字接口(MIDI)系統

2.5.4

MIDI系統圖2.12復雜MIDI系統

2.5電子樂器數字接口(MIDI)系統

2.5.5

MIDI消息

MIDI文件的內容被稱為MIDI消息(MIDImessages)。

一個MIDI消息由1個8位的狀態(tài)字節(jié)并通常跟著2個數據字節(jié)組成。

MIDI消息可分成通道消息(ChannelMessages)和系統消息(SystemMessages)兩大類。2.5電子樂器數字接口(MIDI)系統

2.5.5

MIDI消息

MIDI文件的內容被稱為MIDI消息(MIDImessages)。

一個MIDI消息由1個8位的狀態(tài)字節(jié)并通常跟著2個數據字節(jié)組成。

MIDI消息可分成通道消息(ChannelMessages)和系統消息(SystemMessages)兩大類。MIDI的一些基本概念MIDI音源相當于一個電子樂隊，它劃分成16個

Channel（通道），每個通道相當于一個聲部（組），各個聲部演奏不同的樂器和不同的樂譜。每個通道能演奏不同樂器(最多128種)，稱為音色。不同樂器有不同編號（Program或Patch號）。每個通道在同一時間內只能演奏一種樂器，可隨時改變；但聲部數可以有若干個。即，每個MIDI通道在某一時間里可進行一種音色的獨奏、齊奏或合奏。音序器是樂隊的指揮，它發(fā)出的是MIDI消息，對整體起作用的是systemmessage，對個體起作用的是channelmessage.

2/5/2023

MultimediaTechnology&ApplicationMIDIMessage作用：每個message對應一個音樂事件。（如鍵壓下、鍵釋放等)數據格式：1個狀態(tài)字節(jié)(最高位為“1”)+

n個數據字節(jié)(最高位為“0”)分類：Channelmessage(帶channel號，只對對應的MIDI通道起作用)voicemessage實際的演奏數據,控制樂器的發(fā)聲modemessage決定樂器對聲音消息如何響應Systemmessage（不帶channel號,對所有通道起作用）commonmessagereal-timemessageexclusivemessage（獨占消息）

2/5/2023

MultimediaTechnology&ApplicationPolyphony(復音),同時演奏多個音符稱為Poly(如鋼琴，吉他)，一次只演奏1個音符稱為Mono(單音)。Multi-timbre（多音色）一個MIDI接收器可同時演奏多種樂器，稱為“多音色”。MIDI合成器的4種接收模式:Mode1:Omnion/PolyMode2:Omnion/MonoMode3:Omnioff/PolyMode4:Omnioff/MonoOmnion----MIDI設備響應所有的channelmessageOmnioff---MIDI設備只響應自己的channelmessagePoly----一次可同時演奏多個音符Mono---一次只能演奏一個音符

2/5/2023

MultimediaTechnology&ApplicationMIDImessage舉例noteon:noteoff:

音符#01224364860728496108120127音階C-1C0C1C2C3C4C5C6C7C8C9C10

擊鍵力度01,,,,,,,64,,,,,,,127

offppppppmpmfffffff903c40003c90key#CH#speed

2/5/2023

MultimediaTechnology&Application2.5電子樂器數字接口(MIDI)系統

2.5.6

MIDI文件規(guī)范

標準MIDI文件(StandardMIDIFile)規(guī)范定義了3種MIDI文件格式，MIDI音序器能夠管理文件標準規(guī)定的多個MIDI數據流，即聲軌(tracks)。MIDI文件格式0(Format0)規(guī)定所有MIDI音序數據(MIDIsequencedata)必須存儲在單個聲軌上，它僅用于簡單的單聲軌設備；MIDI文件格式1(Format1)規(guī)定數據以一個聲軌集的方式存儲；MIDI文件格式2(Format2)可用幾個獨立模式存儲數據。2.5電子樂器數字接口(MIDI)系統

2.5.7合成器的音序、音調和音色

合成器或者聲音發(fā)生器能夠產生的不同聲音一般用配音(patche)、指令(program)、算法(algorithm)、聲音(sound)或者音色(timbre)來表示。現代合成器通常使用指令號(programnumber)來表示它們產生的不同聲音。使用指令號(programnumber)或者配音號(patchnumber)來指定想要獲得的聲音(sound)。

2.5電子樂器數字接口(MIDI)系統

2.5.8通用MIDI(GM)

通用MIDI規(guī)范(GeneralMIDISpecification)是由國際MIDI協會(InternationalMIDIAssociation)頒布的，用于通用MIDI樂器(GeneralMIDIInstruments)。該規(guī)范包括通用MIDI聲音集(GeneralMIDISoundSet)即配音映射(patchmap)、通用MIDI打擊樂音集(GeneralMIDIPercussionSet)即打擊樂音與音符號之間的映射、以及一套通用MIDI演奏(GeneralMIDIPerformance)能力，包括聲音數目和MIDI消息類型等。

2.5電子樂器數字接口(MIDI)系統

MIDI軟件

4種類型：Musicrecordingandperformance（音樂錄制和演奏）Musicalnotationsandprinting（樂譜生成和打?。㏒ynthesizerpatcheditorsandlibrarians（合成器編輯和管理）Musiceducation（音樂教育軟件）音序器軟件MIDI鍵盤作曲軟件MIDI文件管理MIDI編輯器MIDI合成器輸出MIDI小結

優(yōu)點數據量少（比CD-DA少3個數量級）?？梢耘c波形聲音同時播放。易于編輯修改。缺點音樂質量與硬件有關。尚不能用于描述語音。2.6音頻信息的壓縮技術

數據編碼技術又稱壓縮技術

壓縮方法（compressionmethod）有損壓縮無損壓縮編碼選擇（codeselection）ＰＣ機常用的聲卡上有自適應差分脈沖碼調制方案,μ律／a律等，format(structure)

2/5/2023

MultimediaTechnology&Application2.6音頻信息的壓縮技術

2/5/2023

MultimediaTechnology&Application2.7數字語音的應用

2.7.1語音識別數字語音的應用主要在語音識別和語音合成兩個方面。語音識別：指機器收到語音信號后，如何模仿人的聽覺器官辨別所聽到的語音內容或講話人的特征，進而模仿人腦理解出該語音的含義或判別出講話人的過程。分類1.按講話者分類

(1)特定人的語音識別系統:其特點是依賴于說話者只有在用特定單詞組形成的詞匯表系統訓練后，它才能識別。

(2)非特定人識別系統:此類系統可識別任何用戶的語音。2.7數字語音的應用

2.7.1語音識別2.按識別詞的性質分類

(1)孤立詞(語音)識別系統:一次只提供一個單一詞的識別。

(2)連接詞語音識別:連接詞的語音由所說的短語組成，而短語又是由詞序列組成

。連接詞語音識別可用于命令和控制應用。

(3)連續(xù)語音識別:這種方法比孤立單詞或連接詞語音識別都復雜許多。

2.7.1語音識別

2.7.1語音識別連續(xù)語音識別系統可以分成三部分：①數字化、幅度歸一化、時間歸一化和參數表示。②分割并把語音段標記成在基于知識或基于規(guī)則系統上的符號串。③識別詞序列并進行語音段匹配。

2/5/2023

MultimediaTechnology&Application2.7.1語音識別

語音識別系統的組成采樣、量化語音端點檢測計算語音譜估價音調輪廓圖分解、鑒定語音特征單詞識別識別后的語音語音輸入參考村料庫語義分析理解后的語音語義庫

2/5/2023

MultimediaTechnology&Application

2.7.1語音識別——有困難語音變化大，不同人不一樣，同一人也會有變化。語音有模糊性，不同詞語聽起耒很相似。同一字和詞的發(fā)音受上下文影響而有不同（語音的同化、異化、換位、弱化、脫落等音變現象）。環(huán)境噪聲的干擾，例如墻壁與物體對聲波的反射會與主聲波重迭。連續(xù)語音流不易把單字（詞）區(qū)分出來（端點檢測）例如，若單字（詞）識別正確率為0.95，則：3個單字（詞）組成的句子識別正確率為0.8578個單字（詞）組成的句子識別正確率為0.663單字（詞）與庫中的模板比較之前，必須進行復雜的“時間歸一化”處理。

2/5/2023

MultimediaTechnology&Application

2.7.2語音合成

(TexttoSpeech)（1）引言（2）語音基礎（3）漢語語音（4）語音生成過程的兩類方法（5）文語轉換器

2/5/2023

MultimediaTechnology&Application語音合成（Speechsynthesis）是指人們根據語言學的知識，在語音分析技術和語音存儲技術的基礎上，利用適當方法和手段，重構語音的過程。有兩種情況：第一種是語音再現。這是一個聲音的還原過程。第二種是模仿人說話。首先形成要說的內容；其次轉成基本發(fā)音編碼序列；然后進行判斷理解，決定聲調、重音和語氣，形成“言語碼”；最后控制并輸出語音。（1）引言

2/5/2023

MultimediaTechnology&Application語音合成的要求與應用：要求：可理解，自然（understandable,natural）應用：自動報警,自動應答,有聲校對,有聲電子郵件,殘疾人服務等

2/5/2023

MultimediaTechnology&Application（2）語音基礎音素(phoneme)是語音的最小單位。音素分為：元音(vowel)（濁音），不受聲道阻礙的音。輔音(consonant)（濁音或清音），受聲道阻礙的音。英語語音每字(詞)一個或幾個音節(jié)(syllable)（多音節(jié)字）音節(jié)由一個或幾個音素組成英語的音素（元音20個，輔音28個）漢語語音每字一個音節(jié)(syllable)（單音節(jié)字）音節(jié)由一個或幾個音素組成漢語的音素（元音42個，輔音22個；或者分為：聲母21個，韻母39個）

2/5/2023

MultimediaTechnology&Application語音基礎語音信號在30ms左右的持續(xù)期內，是一種準周期(靜態(tài))信號。語音信號的頻譜中有3~5個峰值，稱為共振峰（formant）。語音信號最重要的參數：基頻、共振峰。共振峰是語音信號頻譜包絡線的峰值，從低頻到高頻方向記為F1,F2,F3…。不同的音素各有其不同的參數。

2/5/2023

MultimediaTechnology&Application（3）漢語語音漢語語音的三要素是聲母(21)、韻母(39)和音調(4)。這三要素都是由音素組成的，漢語共有4種音素:輔音音素22個，單元音音素13個，復元單音素13個，復鼻尾音音素16個，總計共有64個音素。通常把含有聲調（陰平、陽平、上聲和去聲）的韻母合稱“調母”，再由調母或由聲母加調母組拼為音節(jié)。一個音節(jié)就是一個漢語語音。漢語語音的數目：無聲調的音節(jié)數目：412個帶聲調的音節(jié)數目：1282個

2/5/2023

MultimediaTechnology&Application（１）音系簡單。即音節(jié)少、音素少。漢語普通話每個字的語音都是單音節(jié)字，每個字音雖為多音素。音素是語音的最小單位。（２）聽感清亮、柔和。這是因為：清輔音多，所以沒有快促之感；沒有入聲短促發(fā)音，所以使高頻成份較多；開口音節(jié)多，所以聽感好。（３）含有鮮明的輕重音和兒化韻。從而使字詞分隔清楚，語言表達準確而豐富。漢字比其它國家的文字復雜，但漢語語言卻比其它國家的語音簡練得多。漢語語音的特點

2/5/2023

MultimediaTechnology&Application（4）語音生成過程的方法（兩類）Time-dependentSoundConcatenation音素——音節(jié)——字——詞——詞組——句(可以在不同級別的語音單位上進行,最低級是音素。)(難點在于語音單位之間怎樣自然過渡)Frequency-dependentSoundConcatenation(參數——)音素——音節(jié)——字——詞——詞組——句脈沖序列發(fā)生器隨機噪聲發(fā)生器基音周期(聲帶振動)(聲帶不振動)音源幅度音源幅度濁音清音線性濾波器聲道參數音素、音節(jié)

2/5/2023

MultimediaTechnology&Application兩類方法對比較波形合成法規(guī)則合成法語音單位字、詞、短語等音素(元音,輔音;聲母,韻母等)存儲形式波形形式特性參數（基頻,幅度,共振峰等）合成方法波形連接優(yōu)缺點存儲量大；可懂度、自然度受語音單元大小的影響由音素組成音節(jié)，音節(jié)組成字和詞，然后再組成句子在儲量小，但很難得到高質量的語音波形合成法規(guī)則合成法語音單位字、詞、短語等音素(元音,輔音;聲母,韻母等)存儲形式波形形式特性參數（基頻,幅度,共振峰等）合成方法波形連接優(yōu)缺點存儲量大；可懂度、自然度受語音單元大小的影響由音素組成音節(jié)，音節(jié)組成字和詞，然后再組成句子在儲量小，但很難得到高質量的語音

2/5/2023

MultimediaTechnology&Application語音生成困難困難如下：語音單元的自然連接問題語氣、語調問題多音字（詞）問題

趨勢：Sound-specificmethods(兩種方法相結合)

2/5/2023

MultimediaTechnology&Application語音合成方法（三種）①基于波形編碼的合成；②基于分析-合成法的合成；③按規(guī)則合成。見如圖2.14

2/5/2023

MultimediaTechnology&Application語音合成方法（三種）波形編碼分析合成按規(guī)則合成波形特性參數語言符號存儲器（模擬/數字）存儲器（參數）合成規(guī)則（參數轉換）存儲單元波形連接存儲器（參數）參數連接存儲器（參數）參數序列的生成存儲器（參數）信息的基本形成輸入數據語音語音語音見如圖2.14

2/5/2023

MultimediaTechnology&Application（5）文語轉換器文—語轉換：與錄音的重放不同，它是從輸入的任何文本產生合成語音輸出，這就相當于人去讀書面文章的過程。這個過程既包含有很高級的信息處理，又包含發(fā)音器官復雜的生理控制。

2/5/2023

MultimediaTechnology&Application（5）文語轉換器文—語轉換系統由兩個部分組成：1、發(fā)音器，這里主要是指語音合成器，它相當人的發(fā)音系統。2、是發(fā)聲的驅動器，它的輸入是要發(fā)聲的文本串或其它語言信息，而它的輸出用來驅動發(fā)聲器發(fā)音。這兩個部件都可用軟件實現。

2/5/2023

MultimediaTechnology&Application（5）文語轉換器語法規(guī)則詞庫發(fā)音詞典文本分析語音控制韻律控制(節(jié)奏,音調)語音合成器音素庫韻律規(guī)則庫語音輸出文本音標韻律音長，加重，聲調，停頓綜合譜，形狀反射，聲道特性圖2.15文語轉化系統結構

2/5/2023