第2章 音頻信號處理技術_第1頁
第2章 音頻信號處理技術_第2頁
第2章 音頻信號處理技術_第3頁
第2章 音頻信號處理技術_第4頁
第2章 音頻信號處理技術_第5頁
已閱讀5頁,還剩99頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章:音頻信號處理技術

教學建議以介紹多媒體計算機中聲音的特性、類型與處理等音頻信號處理技術的基本原理為主,并講述常用軟件的使用以及應用前景。本章需6~8學時。2/5/2023第二章:音頻信號處理技術教學提示

聲音是攜帶信息的極其重要的媒體,音頻信號處理技術是多媒體信息處理中的核心技術之一,它是多媒體技術和多媒體產品開發(fā)中的重要內容。本章主要介紹多媒體計算機中音頻信號處理技術的基本原理、硬件、軟件以及應用前景。教學目標

通過學習本章內容,要求大家掌握計算機聲音處理的常用技術與原理,了解聲音處理硬件的基本構成、常用的聲音合成方法、聲音的編碼與壓縮技術、數字音頻的合成以及數字聲音的應用知識。

2/5/2023教學內容1聲音的特性、類型與處理2聲卡的構成與功能3聲音信號的數字化4聲音文件的存儲格式5電子樂器數字接口(MIDI)系統

2/5/2023

MultimediaTechnology&Application教學內容6音頻信息的壓縮技術7數字語音的應用語音識別語音合成8聲音媒體編輯軟件的應用

Windows的錄音機軟件聲音編輯軟件CoolEdit9本章小結

2/5/2023

MultimediaTechnology&Application

2.1聲音的特性、類型與處理

2.1.1聲音的特性

自然界中聲音是靠空氣傳播的聲音在空氣中能引起非常小的壓力變化聲源所引起的空氣壓力變化,被耳朵的耳膜所檢測,然后產生電信號刺激大腦的聽覺神經,從而使人們能感覺到聲音的存在。自然界的各種聲音大都具有周期性的強弱變化的特性,因而也使得輸出的壓力信號周期變化

2/5/2023

MultimediaTechnology&Application聲音的正弦波特性

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性有關的名詞術語將曲線上的任一點再次出現所需時間間隔稱為周期。而一秒鐘內聲音由高(壓力強)到低(壓力低)再到高(壓力強),這樣一個循環(huán)出現的次數稱為頻率。頻率越高,聲音越高,以赫茲(Hz)為其度量單位。一個系統能夠接收的頻率是有限的,人們把系統能夠接受的最低的聽覺和最高頻率之間的范圍稱為系統的帶寬(Bandwidth)。人類能夠接受的聽覺帶寬是從20Hz到20KHz。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的三要素即為音調、音強、音色。音調與聲音的頻率有關,頻率快則聲音高,頻率慢則聲音低。音強又稱響度,取決于聲音的幅度,即振幅的大小和強弱。而音色則由混入基音的泛音所決定的,每個基音又都有其固有的頻率和不同音強的泛音,從而使得每個聲音具有特殊的音色效果。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的連續(xù)譜特性聲音是一種彈性波,聲音信號可以分成周期信號與非周期信號兩類。周期信號即為單一頻率音調的信號,其頻譜是線性譜;而非周期信號包含一定頻帶的所有頻率分量,其頻譜是連續(xù)譜。真正的線性譜僅可從計算機或類似的聲音設備中才能聽到,這種聲音聽起來十分單調。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的方向感特性聲音的傳播是以聲波形式進行的。由于人類的耳朵能夠判別出聲音到達左右耳的相對時差、聲音強度,所有能夠判別出聲音的方向以及由于空間使聲音來回反射而造成聲音的特殊空間效果。現在的音響設備都在竭力模擬這種立體聲效果和空間感效果。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的時效性聲音具有很強的時效性,沒有時間也就沒有聲音,聲音適合在一個時間段中表現。聲音常常處于一種伴隨狀態(tài),如伴音、伴奏等,起一種氣氛渲染的作用。由于時間性,聲音數據具有很強的前后相關性,因而,數據量要大得多,實時性要求也比較高。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的質量聲音的質量與聲音的頻率范圍有關。一般說來,頻率范圍越寬聲音的質量就越高。對語音而言,常用可懂度、清晰度、自然度來衡量;而對音樂來說,保真度、空間感、音響效果都是重要的指標。

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理不同種類聲音頻寬次聲(Infra-sound) 0-20Hz 電話語音 200Hz—3.4KHz 調幅廣播 50Hz—7KHz 調頻廣播 20Hz—15KHz 音響 20Hz—20KHz 超聲(Ultrasound)20kHZ-1GHz特(強)超聲(Hypersound) 1GHz-10THz

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理聲音質量評價標準級別 評價 失真級別

1優(yōu)(Excellent) 感覺不到聲音失2 良(Good)

剛察覺但不討厭3 中(Fair)

聲音有些失真,有點討厭4 差(Poor)

聲音失真,不令人反感5 劣(Bad)

嚴重失真,令人反感

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理自然界中的聲音可分為四種類型:次聲、可聽聲、超聲與特超聲(1GHz—10THz)人類的聽覺能范圍是20Hz—20KHz,次聲、超聲與特超聲均非可聽聲。多媒體計算機主要處理的是人類聽覺范圍內的可聽聲。聲音的處理主要有:聲音的錄制、回放、壓縮、傳輸和編輯等

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理模擬音頻和數字音頻(1)模擬音頻(Analogaudio)

模擬音頻是一種連續(xù)的模擬量,以電的、磁的等形式表示。例如當我們對著麥克風講話時,麥克風能根據它周圍空氣壓力的不同變化而輸出相應連續(xù)變化的電壓值,這種變化的電壓值便是一種對我們講話聲音的模擬,是一種模擬量,稱為模擬音頻。計算機不能直接處理模擬音頻

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理模擬音頻和數字音頻(2)數字音頻(Digitalaudio)數字化音頻的獲得是通過每隔一定的時間間隔測一次模擬音頻的值(如電壓)并將其數字化。這一過程稱為采樣,每秒鐘采樣的次數稱為采樣率一般地,采樣率越高,記錄的聲音就越自然,反之,若采樣率太低將失去原有聲音的自然特性,這一現象稱為失真。由模擬量變?yōu)閿底至康倪^程稱為模—數轉換。由上述可知:數字音頻是離散的,而模擬音頻是連續(xù)的,數字音頻質量的好壞與采樣率密切相關。數字音頻信息可以被計算機存儲、處理和播放。

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理多媒體計算機中錄音/放音的處理過程

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能

聲卡可分為三類:第一類為低檔聲卡,此類卡僅提供比較單一的聲音,音質較差,無錄音功能第二類為中檔聲卡,這類聲卡具有立體聲音質,MIDI音樂、錄音、播放等功能,能滿足一般的多媒體應用需求。第三類為高檔聲卡,此類聲卡除具有中檔聲卡的所有特點外,一般都帶有專用的數字信號處理器DSP,可用于高級音樂編輯、創(chuàng)作,實時語言識別等功能。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能2.2.1聲卡的組成

聲卡的結構聲卡主要有四個組成:AD/DA轉換器AD/DA轉換器負責錄音及播放*.WAV格式的波形文件。電子合成器(Synthesizer)電子合成器負責MIDI樂曲的合成可以及時創(chuàng)造各種音樂?;煲羝鳎∕ixer)混音器(Mixer)它是一個處理音效控制的芯片,負責調節(jié)各聲音來源的音量、混音與調整錄放音的音量大小。CD音頻連接器(CD-Audioconnector)CD音頻連接器可以接收光盤機中的音樂信號。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能聲卡的基本結構

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能聲卡的基本結構

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能

2.2.2聲卡的主要功能

(1)錄制與播放聲音通過接在聲卡上的話筒錄制聲音,并以文件形式保存在計算機中,隨時可打開聲音文件進行播放。聲音文件的格式可因使用不同的軟件而不同。(2)音樂合成利用聲卡上的合成器將存儲在計算機內存中的MIDI文件合成為音樂樂曲。通過混合器混合和處理多個不同音頻源的聲音,控制和調節(jié)音量大小,最后送至音箱或耳機播放。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能

2.2.2聲卡的主要功能

(3)壓縮和解壓縮音頻文件目前,大多數聲卡上都固化了不同標準的音頻壓縮和解壓縮軟件,常用的壓縮編碼方法有ADPCM(自適應差分脈沖編碼調制)和ACM(微軟音頻壓縮管理器)等,壓縮比大約為2:1~5:l。(4)與MIDI設備和CD驅動器的連接通過聲卡上的MIDI接口,計算機可以同外界的MIDI設備相連接,如連接電子琴、電吉他等,使MPC具有創(chuàng)作電腦樂曲和播放MIDI文件的功能。游戲桿也可通過MIDI接口與計算機相連接,使游戲玩起來得心應手。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能聲卡與其它設備連接(圖2.3)

2/5/2023

MultimediaTechnology&Application2.2聲卡的構成與功能聲卡中的插孔連接方法聲卡中的linein插孔可連接錄音機、袖珍CD播放機和合成器等,將其播放的音信息輸入計算機;Microphone插孔與麥克風相連,用于錄音;Lineout可與喇叭、耳機或功放相連Joystick/MIDIAdapter可與游戲操縱竿,MIDI設備相連。

2/5/2023

MultimediaTechnology&Application2.2.3聲卡的性能指標

聲卡的性能指標決定了聲卡聲音采集、合成與播放的質量,主要取決于以下幾個方面:

(l)采樣分辨率

(2)采樣速率

(3)

聲道數

(4)兼容性

(5)功能接口

2/5/2023

MultimediaTechnology&Application聲卡的技術標準具有常用多媒體功能的聲卡,一般應具備下列技術標準:PCM播放和錄音數字音頻格式樂器數字接口MIDI

其他標準

2/5/2023

MultimediaTechnology&ApplicationPCM播放和錄音PCM(PulseCodemodulation:脈沖編碼調制)是一種數字化音頻的處理技術,該技術被目前大多數聲卡所采用。提供播放和錄制PCM音頻文件的功能對任何一個實用的聲音裝置都是必須的。因為有大量的數字語音的應用需要用到PCM播放和錄音功能,在這些應用中,包括語音注釋、語言識別、語音合成、語音郵件、語音剪輯、娛樂軟件的聲音效果等。

2/5/2023

MultimediaTechnology&Application數字音頻格式對大多數應用而言,聲卡應能支持下列每一種播放和錄音格式。11.025KHz,22.05KHz和44.1KHz的8位/16位單聲道/立體聲采樣。自適應增量脈沖編碼調制(ADPCM)4:1壓縮/解壓縮u律/a律2:1壓縮/解壓縮

上述第一條軟件所構成的格式直接由多媒體Windows95/Windows98/Windows2000提供支持。

2/5/2023

MultimediaTechnology&Application樂器數字接口MIDI聲卡中的MIDI(MusicalInstrumentDigitalInterface)及音樂合成功能也是一個聲卡最基本的性能指標。作為一個用于控制電子音樂設備的標準化的串行通訊協議于1983年提出來的。MIDI音樂的制作與播放

MIDI鍵盤實時演奏計算機鍵盤輸入樂譜音序器軟件MIDI文件媒體播放器MIDI合成器MIDI音樂樂器數字接口MIDI

MIDI協議允許電子合成器之間相互通訊,而不管是誰家生產的。具有這種功能的聲卡能夠和MIDI樂器相連,供作曲家或專業(yè)音樂人員演奏音樂,并轉換成專用的MIDI代碼存貯在計算機中,同時這種聲卡也能根據計算機存放的MIDI代碼,合成各種電子樂器聲音。可具有多種旋律、音調、速度,并可多種樂器合奏。2.3聲音信號的數字化為什么要將聲音數字化?自然界的聲音是一種模擬的音頻信息,是連續(xù)量。而計算機只能處理離散的數字量,這就要求必須。優(yōu)點:傳輸時抗干擾強,存儲時重放性能好,易處理,能進行數據壓縮,可糾錯,容易混合,bitsaboutbits...音頻信息數字化,其關鍵的步驟是采樣、量化和編碼。

方法(即數字化有3個步驟):1.采樣(Sampling)2.量化(quantization:ADconversion)3.編碼(Encoding)2.3聲音信號的數字化采樣量化編碼模擬音頻數字音頻01101001……

2/5/2023

MultimediaTechnology&Application

2.3.1

采樣

數字化音頻的獲得是通過每隔一定的時間間隔測一次模擬音頻的值(如電壓)并將其數字化。這一過程稱為采樣原理:用一定速率的離散采樣序列可以代替一個連續(xù)的頻帶有限的信號而不丟失任何信息奈奎斯特采樣定理“Forlosslessdigitization,thesamplingrateshouldbeatleasttwicethemaximumfrequencyresponse.”

即:我們要獲得一個無損的采樣,就必須以波形最高允許頻率的兩倍作為采樣率。

2/5/2023

MultimediaTechnology&Application采樣率每秒鐘采樣的次數稱為采樣率取樣頻率的大小決定帶寬例如:人類能夠接受的聽覺帶寬是:20Hz--20KHz。按照這個理論,要產生聽得見的頻率范圍需要大于40KHz的采樣率。所以,菲利浦和索尼公司在設計光盤(CD)時,選擇了44.1KHz的采樣率。這個采樣頻率也是Windows所支持的較高采樣率。在Windows下所支持的其它采樣率還有11.025KHz和22.05KHz,

2/5/2023

MultimediaTechnology&Application采樣精度

采樣精度:在數字化系統中,樣本大小是用每個聲音樣本的位數bit/s(即bps)表示的,它反映度量聲音波形幅度的精度。樣本位數的大小影響到聲音的質量,位數越多,聲音的質量越高,而需要的存儲空間也越多;位數越少,聲音的質量越低,需要的存儲空間越少。通常,采樣率越高,記錄的聲音就越自然,反之,若采樣率太低將失去原有聲音的自然特性,這一現象稱為失真。

2/5/2023

MultimediaTechnology&Application聲音的采樣(a)與量化(b)量化采樣圖2.5

2/5/2023

MultimediaTechnology&Application2.3.2

量化(Quantization)what?:將采樣后得到的音頻信息數字化的過程稱為量化A/Dconversion?:由模擬量變?yōu)閿底至康倪^程稱為模—數轉換。methods:均勻量化,非均勻量化

resolution(4,6,8,12,16bits)量化位數決定了動態(tài)范圍和噪聲大小輸入輸出輸入輸出均勻量化非均勻量化

2/5/2023

MultimediaTechnology&Application量化器的分類:標量量化器(無記憶量化器):每次只量化一個取樣值。矢量量化器(有記憶量化器):每次量化一組取樣值。

2/5/2023

MultimediaTechnology&Application2.3.3

編碼(Encoding)

見2.6音頻信息的壓縮技術

數據編碼技術又稱壓縮技術由于聲音的數字化,將有大量的數據需要計算機存貯,如果對這些音頻數據不加編碼壓縮,則很難在個人計算機上實現多媒體功能。實時地壓縮音頻信號的數據量是多媒體計算機不可回避的關鍵技術問題之一。數據壓縮是可以實現的

2/5/2023

MultimediaTechnology&Application數字化聲音的基本參數

(BasicParametersofDigitalSounds)采樣率(samplingfrequency)量化位數(quantizationbits)聲道數(numberofsoundchannels)編碼方法(encodingmethod/compressionmethod)

2/5/2023

MultimediaTechnology&Application

2.3.4

聲音的重構

(ReconstructionofSound)若要播放數字化聲音,就要經過解碼、DA轉換和插值。數字音頻模擬音頻

2/5/2023

MultimediaTechnology&Application2.3.4

聲音的重構

(ReconstructionofSound)解碼(Decoding):編碼的逆過程,又稱解壓縮數模轉化De-quantization(D/Aconversion):將數字量再轉化為模擬量插值Interpolation:是為了彌補在采樣過程中引起的語音信號失真而采取的一種補救措施,使得聲音更加自然。

2/5/2023

MultimediaTechnology&Application2.4聲音文件的存儲格式

如同存儲文本文件一樣,存儲聲音數據也需要有存儲格式。在因特網上和各種機器上運行的聲音文件格式很多,但目前比較流行的有以.wav(waveform),au(audio),.aiff(AudioInterchangeableFileFormat)和.snd(sound)為擴展名的文件格式。.wav格式主要用在PC上,.au主要用在Unix工作站上,.aiff和snd主要用在蘋果機和美國視算科技有限公司(SiliconGraphics,Inc.,SGI)的工作站上。表2-3給出了常見的聲音文件擴展名

2.5電子樂器數字接口(MIDI)系統

2.5.1

MIDI

(MusicalInstrumentDigitalInterface)簡介

MIDI可譯成“電子樂器數字接口”。用于在音樂合成器、樂器和計算機之間交換音樂信息的一種標準協議。從20世紀80年代初期開始,MIDI已經逐步被音樂家和作曲家廣泛接受和使用。MIDI是樂器和計算機使用的標準語言,是一套指令(即命令的約定),它指示樂器即MIDI設備要做什么,怎么做,如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號,在MIDI電纜上傳送的不是聲音,而是發(fā)給MIDI設備或其它裝置讓它產生聲音或執(zhí)行某個動作的指令。2.5電子樂器數字接口(MIDI)系統

2.5.2

FM合成聲音

FM合成器生成樂音的基本原理如圖2.8所示。它由5個基本模塊組成:數字載波器、調制器、聲音包絡發(fā)生器、數字運算器和模數轉換器。

2.5電子樂器數字接口(MIDI)系統

2.5.2

FM合成聲音

在樂音合成器中,數字載波波形和調制波形有很多種,不同型號的FM合成器所選用的波形也不同。圖2.9是YamahaOPL-III數字式FM合成器采用的波形。圖2.9聲音合成器的波形2.5電子樂器數字接口(MIDI)系統

2.5.3樂音樣本合成聲音

樂音樣本的采集相對比較直觀。音樂家在真實樂器上演奏不同的音符,選擇44.1kHz的采樣頻率、16位的樂音樣本,這相當于CD-DA的質量,把不同音符的真實聲音記錄下來,這就完成了樂音樣本的采集。通常樂音樣本放在ROM芯片上,ROM是超大規(guī)模集成電路(verylargescaleintegrated,VLSI)芯片。2.5電子樂器數字接口(MIDI)系統

2.5.3樂音樣本合成聲音

原理:圖2.10是樂音樣本合成器的框圖。樂音樣本合成器所需要的輸入控制參數比較少,可控的數字音效也不多,大多數采用這種合成方法的聲音設備都可以控制聲音包絡的ADSR參數,產生的聲音質量比FM合成方法產生的聲音質量要高。2.5電子樂器數字接口(MIDI)系統

2.5.4

MIDI系統MIDI協議提供了一種標準的和有效的方法,用來把演奏信息轉換成電子數據。MIDI信息是以“MIDImessages”傳輸的,它可以被認為是告訴音樂合成器(musicsynthesizer)如何演奏一小段音樂的一種指令,而合成器把接收到的MIDI數據轉換成聲音。MIDI數據流是單向異步的數據位流(bitstream),其速率為31.25kbps,每個字節(jié)為10位(1位開始位,8位數據位和1位停止位)。MIDI樂器上的MIDI接口通常包含3種不同的MIDI連接器,用IN(輸入),OUT(輸出)和THRU(穿越)。MIDI數據流通常由MIDI控制器

2.5電子樂器數字接口(MIDI)系統

2.5.4

MIDI系統圖2.11簡單的MIDI系統

2.5電子樂器數字接口(MIDI)系統

2.5.4

MIDI系統圖2.12復雜MIDI系統

2.5電子樂器數字接口(MIDI)系統

2.5.5

MIDI消息

MIDI文件的內容被稱為MIDI消息(MIDImessages)。

一個MIDI消息由1個8位的狀態(tài)字節(jié)并通常跟著2個數據字節(jié)組成。

MIDI消息可分成通道消息(ChannelMessages)和系統消息(SystemMessages)兩大類。2.5電子樂器數字接口(MIDI)系統

2.5.5

MIDI消息

MIDI文件的內容被稱為MIDI消息(MIDImessages)。

一個MIDI消息由1個8位的狀態(tài)字節(jié)并通常跟著2個數據字節(jié)組成。

MIDI消息可分成通道消息(ChannelMessages)和系統消息(SystemMessages)兩大類。MIDI的一些基本概念MIDI音源相當于一個電子樂隊,它劃分成16個

Channel(通道),每個通道相當于一個聲部(組),各個聲部演奏不同的樂器和不同的樂譜。每個通道能演奏不同樂器(最多128種),稱為音色。不同樂器有不同編號(Program或Patch號)。每個通道在同一時間內只能演奏一種樂器,可隨時改變;但聲部數可以有若干個。即,每個MIDI通道在某一時間里可進行一種音色的獨奏、齊奏或合奏。音序器是樂隊的指揮,它發(fā)出的是MIDI消息,對整體起作用的是systemmessage,對個體起作用的是channelmessage.

2/5/2023

MultimediaTechnology&ApplicationMIDIMessage作用:每個message對應一個音樂事件。(如鍵壓下、鍵釋放等)數據格式:1個狀態(tài)字節(jié)(最高位為“1”)+

n個數據字節(jié)(最高位為“0”)分類:Channelmessage(帶channel號,只對對應的MIDI通道起作用)voicemessage實際的演奏數據,控制樂器的發(fā)聲modemessage決定樂器對聲音消息如何響應Systemmessage(不帶channel號,對所有通道起作用)commonmessagereal-timemessageexclusivemessage(獨占消息)

2/5/2023

MultimediaTechnology&ApplicationPolyphony(復音),同時演奏多個音符稱為Poly(如鋼琴,吉他),一次只演奏1個音符稱為Mono(單音)。Multi-timbre(多音色)一個MIDI接收器可同時演奏多種樂器,稱為“多音色”。MIDI合成器的4種接收模式:Mode1:Omnion/PolyMode2:Omnion/MonoMode3:Omnioff/PolyMode4:Omnioff/MonoOmnion----MIDI設備響應所有的channelmessageOmnioff---MIDI設備只響應自己的channelmessagePoly----一次可同時演奏多個音符Mono---一次只能演奏一個音符

2/5/2023

MultimediaTechnology&ApplicationMIDImessage舉例noteon:noteoff:

音符#01224364860728496108120127音階C-1C0C1C2C3C4C5C6C7C8C9C10

擊鍵力度01,,,,,,,64,,,,,,,127

offppppppmpmfffffff903c40003c90key#CH#speed

2/5/2023

MultimediaTechnology&Application2.5電子樂器數字接口(MIDI)系統

2.5.6

MIDI文件規(guī)范

標準MIDI文件(StandardMIDIFile)規(guī)范定義了3種MIDI文件格式,MIDI音序器能夠管理文件標準規(guī)定的多個MIDI數據流,即聲軌(tracks)。MIDI文件格式0(Format0)規(guī)定所有MIDI音序數據(MIDIsequencedata)必須存儲在單個聲軌上,它僅用于簡單的單聲軌設備;MIDI文件格式1(Format1)規(guī)定數據以一個聲軌集的方式存儲;MIDI文件格式2(Format2)可用幾個獨立模式存儲數據。2.5電子樂器數字接口(MIDI)系統

2.5.7合成器的音序、音調和音色

合成器或者聲音發(fā)生器能夠產生的不同聲音一般用配音(patche)、指令(program)、算法(algorithm)、聲音(sound)或者音色(timbre)來表示。現代合成器通常使用指令號(programnumber)來表示它們產生的不同聲音。使用指令號(programnumber)或者配音號(patchnumber)來指定想要獲得的聲音(sound)。

2.5電子樂器數字接口(MIDI)系統

2.5.8通用MIDI(GM)

通用MIDI規(guī)范(GeneralMIDISpecification)是由國際MIDI協會(InternationalMIDIAssociation)頒布的,用于通用MIDI樂器(GeneralMIDIInstruments)。該規(guī)范包括通用MIDI聲音集(GeneralMIDISoundSet)即配音映射(patchmap)、通用MIDI打擊樂音集(GeneralMIDIPercussionSet)即打擊樂音與音符號之間的映射、以及一套通用MIDI演奏(GeneralMIDIPerformance)能力,包括聲音數目和MIDI消息類型等。

2.5電子樂器數字接口(MIDI)系統

MIDI軟件

4種類型:Musicrecordingandperformance(音樂錄制和演奏)Musicalnotationsandprinting(樂譜生成和打?。㏒ynthesizerpatcheditorsandlibrarians(合成器編輯和管理)Musiceducation(音樂教育軟件)音序器軟件MIDI鍵盤作曲軟件MIDI文件管理MIDI編輯器MIDI合成器輸出MIDI小結

優(yōu)點數據量少(比CD-DA少3個數量級)??梢耘c波形聲音同時播放。易于編輯修改。缺點音樂質量與硬件有關。尚不能用于描述語音。2.6音頻信息的壓縮技術

數據編碼技術又稱壓縮技術

壓縮方法(compressionmethod)有損壓縮無損壓縮編碼選擇(codeselection)PC機常用的聲卡上有自適應差分脈沖碼調制方案,μ律/a律等,format(structure)

2/5/2023

MultimediaTechnology&Application2.6音頻信息的壓縮技術

2/5/2023

MultimediaTechnology&Application2.7數字語音的應用

2.7.1語音識別數字語音的應用主要在語音識別和語音合成兩個方面。語音識別:指機器收到語音信號后,如何模仿人的聽覺器官辨別所聽到的語音內容或講話人的特征,進而模仿人腦理解出該語音的含義或判別出講話人的過程。分類1.按講話者分類

(1)特定人的語音識別系統:其特點是依賴于說話者只有在用特定單詞組形成的詞匯表系統訓練后,它才能識別。

(2)非特定人識別系統:此類系統可識別任何用戶的語音。2.7數字語音的應用

2.7.1語音識別2.按識別詞的性質分類

(1)孤立詞(語音)識別系統:一次只提供一個單一詞的識別。

(2)連接詞語音識別:連接詞的語音由所說的短語組成,而短語又是由詞序列組成

。連接詞語音識別可用于命令和控制應用。

(3)連續(xù)語音識別:這種方法比孤立單詞或連接詞語音識別都復雜許多。

2.7.1語音識別

2.7.1語音識別連續(xù)語音識別系統可以分成三部分:①數字化、幅度歸一化、時間歸一化和參數表示。②分割并把語音段標記成在基于知識或基于規(guī)則系統上的符號串。③識別詞序列并進行語音段匹配。

2/5/2023

MultimediaTechnology&Application2.7.1語音識別

語音識別系統的組成采樣、量化語音端點檢測計算語音譜估價音調輪廓圖分解、鑒定語音特征單詞識別識別后的語音語音輸入參考村料庫語義分析理解后的語音語義庫

2/5/2023

MultimediaTechnology&Application

2.7.1語音識別——有困難語音變化大,不同人不一樣,同一人也會有變化。語音有模糊性,不同詞語聽起耒很相似。同一字和詞的發(fā)音受上下文影響而有不同(語音的同化、異化、換位、弱化、脫落等音變現象)。環(huán)境噪聲的干擾,例如墻壁與物體對聲波的反射會與主聲波重迭。連續(xù)語音流不易把單字(詞)區(qū)分出來(端點檢測)例如,若單字(詞)識別正確率為0.95,則:3個單字(詞)組成的句子識別正確率為0.8578個單字(詞)組成的句子識別正確率為0.663單字(詞)與庫中的模板比較之前,必須進行復雜的“時間歸一化”處理。

2/5/2023

MultimediaTechnology&Application

2.7.2語音合成

(TexttoSpeech)(1)引言(2)語音基礎(3)漢語語音(4)語音生成過程的兩類方法(5)文語轉換器

2/5/2023

MultimediaTechnology&Application語音合成(Speechsynthesis)是指人們根據語言學的知識,在語音分析技術和語音存儲技術的基礎上,利用適當方法和手段,重構語音的過程。有兩種情況:第一種是語音再現。這是一個聲音的還原過程。第二種是模仿人說話。首先形成要說的內容;其次轉成基本發(fā)音編碼序列;然后進行判斷理解,決定聲調、重音和語氣,形成“言語碼”;最后控制并輸出語音。(1)引言

2/5/2023

MultimediaTechnology&Application語音合成的要求與應用:要求:可理解,自然(understandable,natural)應用:自動報警,自動應答,有聲校對,有聲電子郵件,殘疾人服務等

2/5/2023

MultimediaTechnology&Application(2)語音基礎音素(phoneme)是語音的最小單位。音素分為:元音(vowel)(濁音),不受聲道阻礙的音。輔音(consonant)(濁音或清音),受聲道阻礙的音。英語語音每字(詞)一個或幾個音節(jié)(syllable)(多音節(jié)字)音節(jié)由一個或幾個音素組成英語的音素(元音20個,輔音28個)漢語語音每字一個音節(jié)(syllable)(單音節(jié)字)音節(jié)由一個或幾個音素組成漢語的音素(元音42個,輔音22個;或者分為:聲母21個,韻母39個)

2/5/2023

MultimediaTechnology&Application語音基礎語音信號在30ms左右的持續(xù)期內,是一種準周期(靜態(tài))信號。語音信號的頻譜中有3~5個峰值,稱為共振峰(formant)。語音信號最重要的參數:基頻、共振峰。共振峰是語音信號頻譜包絡線的峰值,從低頻到高頻方向記為F1,F2,F3…。不同的音素各有其不同的參數。

2/5/2023

MultimediaTechnology&Application(3)漢語語音漢語語音的三要素是聲母(21)、韻母(39)和音調(4)。這三要素都是由音素組成的,漢語共有4種音素:輔音音素22個,單元音音素13個,復元單音素13個,復鼻尾音音素16個,總計共有64個音素。通常把含有聲調(陰平、陽平、上聲和去聲)的韻母合稱“調母”,再由調母或由聲母加調母組拼為音節(jié)。一個音節(jié)就是一個漢語語音。漢語語音的數目:無聲調的音節(jié)數目:412個帶聲調的音節(jié)數目:1282個

2/5/2023

MultimediaTechnology&Application(1)音系簡單。即音節(jié)少、音素少。漢語普通話每個字的語音都是單音節(jié)字,每個字音雖為多音素。音素是語音的最小單位。(2)聽感清亮、柔和。這是因為:清輔音多,所以沒有快促之感;沒有入聲短促發(fā)音,所以使高頻成份較多;開口音節(jié)多,所以聽感好。(3)含有鮮明的輕重音和兒化韻。從而使字詞分隔清楚,語言表達準確而豐富。漢字比其它國家的文字復雜,但漢語語言卻比其它國家的語音簡練得多。漢語語音的特點

2/5/2023

MultimediaTechnology&Application(4)語音生成過程的方法(兩類)Time-dependentSoundConcatenation音素——音節(jié)——字——詞——詞組——句(可以在不同級別的語音單位上進行,最低級是音素。)(難點在于語音單位之間怎樣自然過渡)Frequency-dependentSoundConcatenation(參數——)音素——音節(jié)——字——詞——詞組——句脈沖序列發(fā)生器隨機噪聲發(fā)生器基音周期(聲帶振動)(聲帶不振動)音源幅度音源幅度濁音清音線性濾波器聲道參數音素、音節(jié)

2/5/2023

MultimediaTechnology&Application兩類方法對比較波形合成法規(guī)則合成法語音單位字、詞、短語等音素(元音,輔音;聲母,韻母等)存儲形式波形形式特性參數(基頻,幅度,共振峰等)合成方法波形連接優(yōu)缺點存儲量大;可懂度、自然度受語音單元大小的影響由音素組成音節(jié),音節(jié)組成字和詞,然后再組成句子在儲量小,但很難得到高質量的語音波形合成法規(guī)則合成法語音單位字、詞、短語等音素(元音,輔音;聲母,韻母等)存儲形式波形形式特性參數(基頻,幅度,共振峰等)合成方法波形連接優(yōu)缺點存儲量大;可懂度、自然度受語音單元大小的影響由音素組成音節(jié),音節(jié)組成字和詞,然后再組成句子在儲量小,但很難得到高質量的語音

2/5/2023

MultimediaTechnology&Application語音生成困難困難如下:語音單元的自然連接問題語氣、語調問題多音字(詞)問題

趨勢:Sound-specificmethods(兩種方法相結合)

2/5/2023

MultimediaTechnology&Application語音合成方法(三種)①基于波形編碼的合成;②基于分析-合成法的合成;③按規(guī)則合成。見如圖2.14

2/5/2023

MultimediaTechnology&Application語音合成方法(三種)波形編碼分析合成按規(guī)則合成波形特性參數語言符號存儲器(模擬/數字)存儲器(參數)合成規(guī)則(參數轉換)存儲單元波形連接存儲器(參數)參數連接存儲器(參數)參數序列的生成存儲器(參數)信息的基本形成輸入數據語音語音語音見如圖2.14

2/5/2023

MultimediaTechnology&Application(5)文語轉換器文—語轉換:與錄音的重放不同,它是從輸入的任何文本產生合成語音輸出,這就相當于人去讀書面文章的過程。這個過程既包含有很高級的信息處理,又包含發(fā)音器官復雜的生理控制。

2/5/2023

MultimediaTechnology&Application(5)文語轉換器文—語轉換系統由兩個部分組成:1、發(fā)音器,這里主要是指語音合成器,它相當人的發(fā)音系統。2、是發(fā)聲的驅動器,它的輸入是要發(fā)聲的文本串或其它語言信息,而它的輸出用來驅動發(fā)聲器發(fā)音。這兩個部件都可用軟件實現。

2/5/2023

MultimediaTechnology&Application(5)文語轉換器語法規(guī)則詞庫發(fā)音詞典文本分析語音控制韻律控制(節(jié)奏,音調)語音合成器音素庫韻律規(guī)則庫語音輸出文本音標韻律音長,加重,聲調,停頓綜合譜,形狀反射,聲道特性圖2.15文語轉化系統結構

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應用

2.8.1Windows的錄音機軟件

如果在計算機上安裝了聲卡和錄音話筒(麥克風),使用便捷的Windows錄音機軟件便可直接進行聲音的錄制、編輯或播放。Windows錄音機的主要功能涉及聲音的錄制、播放、編輯、效果處理和文件的管理。在Windows中使用“開始”/“程序”/“附件”/“娛樂”/“錄音機”來打開聲音控制面板。如圖2.16所示。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應用

2.8.1Windows的錄音機軟件

1.聲音的錄制和播放(1)錄制聲音:按下程序界面上的紅色“錄音”按鈕,程序開始接收傳入的聲音。默認錄音“長度”值為60秒,當錄音進行到60秒時將自動停止。如果再次按下“錄音”按鈕,“長度”值將會增加60秒。錄音之后,選擇“文件”/“保存”命令,輸入文件名,便可將剛錄入的數字聲音存盤。(2)播放聲音:可針對剛錄制的聲音,或者選擇“文件”/“打開”命令打開已存在的聲音文件。單擊軟件面板上的“放音”按鈕可使聲音文件從頭播放,而移動滑塊可隨意改變播放位置。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應用

2.8.1Windows的錄音機軟件

2.聲音的編輯(1)裁剪首、尾聲音片段:拖曳滑塊到要分隔聲音的位置,使用“編輯”/“刪除當前位置之前的內容”或“刪除當前位置之后的內容”命令,確定后完成首部或尾部聲音的裁剪。(2)裁剪中間聲音片段:拖曳滑塊到第一部分要保留的聲音結束位置,單擊“編輯”/“復制”命令。拖曳滑塊到要刪除部分的結束位置,單擊“編輯”/“粘貼插入”命令。然后選擇“編輯”/“刪除當前位置之前的內容”,確定后可完成中間片段的裁剪。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應用

2.8.1Windows的錄音機軟件

2.聲音的編輯(續(xù))(3)插入聲音片段:先打開聲音文件如“w1.wav”,將滑塊移動到需要插入其他聲音文件的位置。選擇“編輯”/“插入文件”,可將其他聲音文件如“w2.wav”從滑塊位置插入“w1.wav”(4)合并聲音片段:先打開聲音文件如“w1.wav”,將滑塊移動到需要與其他聲音文件合并的位置。選擇“編輯”/“與文件混音”命令,可將其他聲音文件與當前文件聲音效果相混合。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應用

2.8.1Windows的錄音機軟件

3.編輯聲音使形成特殊效果

單擊“效果”菜單,選擇相應的命令可以使錄制的聲音變調而產生特殊的效果。如圖2.17所示。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應用

2.8.2聲音編輯軟件CoolEdit

1.啟動運行CoolEdit首先安裝CoolEdit,然后啟動它,運行后的界面如圖2.18所示。Cool1Edit是一個功能強大的多音軌音頻混合編輯軟件,集錄音、混音、編輯于一體。它對聲音的編輯非常簡單,如同Word對文字的編輯一樣,首先選中要編輯的部分,然后進行編輯操作(如復制、插入、刪除等)。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應用

2.數字音頻的簡單編輯例如,將聲音文件的某一段移動到另外一個位置。操作步驟為:①用鼠標選擇要移動波形的部分,被選中的部分將會反色顯示(左圖);②單擊Edit菜單,選擇Cut命令(或鍵入Ctrl+X);③將光標移到另外一個所要的位置,單擊Edit菜單,選擇Past命令(或鍵入Ctrl+

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論