語音信號(hào)預(yù)處理技術(shù)綜述_第1頁
語音信號(hào)預(yù)處理技術(shù)綜述_第2頁
語音信號(hào)預(yù)處理技術(shù)綜述_第3頁
語音信號(hào)預(yù)處理技術(shù)綜述_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語音信號(hào)預(yù)處理技術(shù)綜述        【摘要】簡(jiǎn)要介紹了語音預(yù)處理技術(shù),包括放大與自動(dòng)增益控制、反混疊濾波、模數(shù)變換等,可以用兩種方法來實(shí)現(xiàn)語音預(yù)處理,即硬件方法和基于多媒體WAV文件的聲卡技術(shù)。 【關(guān)鍵詞】WAV文件,硬件方法,聲卡技術(shù),語音信號(hào)預(yù)處理預(yù)處理通常包括:放大與自動(dòng)增益控制、反混疊濾波、模數(shù)變換等內(nèi)容。這些問題原理上都比較成熟,我們可以有兩種方法加以實(shí)現(xiàn),第一種是用硬件方法來實(shí)現(xiàn)放大與自動(dòng)增益控制、反混疊濾波、模數(shù)變換等,第二種方法是借助多媒體聲卡技術(shù),因?yàn)楦哔|(zhì)量的多媒體聲卡基本都采用了放大與自動(dòng)增益

2、控制、反混疊濾波、模數(shù)變換等技術(shù)。1硬件方法的實(shí)現(xiàn)11數(shù)字式自動(dòng)增益控制與模數(shù)變換采用數(shù)字式比之模擬式有如下優(yōu)點(diǎn):精度高、設(shè)計(jì)靈活、能區(qū)別語音和噪聲、控制范圍大(可達(dá)5080dB),其系統(tǒng)方框圖如圖1所示。該系統(tǒng)采用了一種所謂“快啟動(dòng)慢釋放”的控制方案,即按信號(hào)幅值分為快速衰減、正常、慢速釋放和??厮膫€(gè)區(qū),所有改變的衰減量都小于3dBs;在160個(gè)樣點(diǎn)的一幀中用158點(diǎn),留下2點(diǎn)作為AGC的運(yùn)算時(shí)間。在圖1中:數(shù)控衰減器用5G7520(也可用AD7110)來實(shí)現(xiàn),AD變換器用AD574來實(shí)現(xiàn),接口用8255來實(shí)現(xiàn),而控制器則用CPU、8228系統(tǒng)控制器224時(shí)鐘發(fā)生器組成的最小微處理系統(tǒng)來實(shí)現(xiàn)

3、。12反混疊濾波該03400Hz的模擬低通濾波器,過去常用無源LC元件或有源的運(yùn)算放大器來實(shí)現(xiàn),但其體積較大,效果不理想。而由開關(guān)電容濾波單片MC14413組成的電路效果較好,具體電路可參看文獻(xiàn)3。除了MC14413之外,還可用四片AF151集成電路(每片內(nèi)含有兩個(gè)二階濾波器和兩個(gè)獨(dú)立的運(yùn)算放大器)構(gòu)成一個(gè)十階低通濾波器和一個(gè)六階低通濾波器,前者用作反混疊,后者用作平滑。片中的兩個(gè)運(yùn)算放大器可用作隔離、放大等。每個(gè)二階濾波器還可以根據(jù)需要接成高通、帶通和低通等形式。根據(jù)指標(biāo)要求,只需外接四個(gè)電阻就可構(gòu)成一個(gè)二階濾波器,具體電路不再詳述。2基于多媒體WAV文件的聲卡技術(shù)多媒體技術(shù)近年來發(fā)展很快,

4、較好品質(zhì)的聲卡可以提供16位的立體聲,具備44kHz的播放錄制能力,它不僅可以提供原音逼真的取樣,其合成的音質(zhì)也十分理想,有的聲卡還加入了數(shù)字信號(hào)處理器,可編程控制的DSP具有強(qiáng)大的運(yùn)算能力,它可以用作聲音信息的壓縮和一些特殊效果的處理。具有此功能的聲卡提供的WAV文件所具有的語音信息可以滿足語音特征識(shí)別的要求。在Windows環(huán)境下,大部分的多媒體文件都依循一種結(jié)構(gòu)來存放信息,這種結(jié)構(gòu)稱為“資源互換文件格式”(Resources Interchange File Format),簡(jiǎn)稱RIFF。例如聲音的WAV文件、視頻的AV1文件等均是由此結(jié)構(gòu)衍生出來的。RIFF可以看作是一種樹狀結(jié)構(gòu),其基

5、本構(gòu)成單位為chunk,猶如樹狀結(jié)構(gòu)中的節(jié)點(diǎn),每個(gè)chunk由“辨別碼”、“數(shù)據(jù)大小”及“數(shù)據(jù)”所組成。辨別碼由4個(gè)ASCII碼構(gòu)成,數(shù)據(jù)大小則標(biāo)示出緊跟其后數(shù)據(jù)的長度(單位為Byte),而數(shù)據(jù)大小本身也用掉4個(gè)Byte,所以事實(shí)上一個(gè)chunk的長度為數(shù)據(jù)大小加8。一般而言,chunk本身并不允許內(nèi)部再包含chunk,但有兩種例外,分別為以“RIFF”及“L1ST”為辨別碼的chunk。而針對(duì)此兩種chunk,RIFF又從原先的“數(shù)據(jù)”中切出4個(gè)Byte,此4個(gè)Byte稱為“格式辨別碼”,然而RIFF又規(guī)定文件中僅能有一個(gè)以“RIFF”為辨別碼的chunk。凡依循此一結(jié)構(gòu)的文件,我們均稱為R

6、IFF檔。該結(jié)構(gòu)提供了一種系統(tǒng)化的分類,如果和MSDOS文件系統(tǒng)作比較,“RIFF”chunk就好比是一臺(tái)硬盤的根目錄,其格式辨別碼便是此硬盤的邏輯代碼(C:或D:),而L1STchunk即為其下的子目錄,其他的chunk則為一般的文件。至于RIFF文件的處理,微軟則提供了相關(guān)的函數(shù)。視窗下的各種多媒體文件格式就如同在磁盤機(jī)下規(guī)定僅能放怎樣的目錄,而在該目錄下即為僅能放何種數(shù)據(jù)。    WAV為WAVEFORM(波形)的縮寫。聲音文件的結(jié)構(gòu)如圖2所示,“RIFF)的格式辨別碼為”WAVE”。整個(gè)文件由兩個(gè)chunk所組成:辨別碼“fmt”(注意,最后一個(gè)是空白字符

7、!)及“data”。    在“fmt”的chunk下包含了一個(gè)PCMWAVEFORMAT數(shù)據(jù)結(jié)構(gòu),其定義如下:     其意義分別為:wFormatTag:記錄著此聲音的格式代號(hào),例如WAVEFORMAT  PCM,WAVEFORAM  ADPCM等等;    nChannels:記錄聲音的頻道數(shù);    nSamp1esPerSec:記錄每秒取樣數(shù);    nAvgBytesPerSec:記錄每秒的數(shù)據(jù)量; &#

8、160;  nBlockA1ign:記錄區(qū)塊的對(duì)齊單位;    wBitsPerSample:記錄每個(gè)取樣所需的位元數(shù)。 “data”Chunk包含真正的聲音數(shù)據(jù)。Windows目前僅提供WAVEFORMATPCM一種數(shù)據(jù)格式,所代表的意義是脈派編碼調(diào)變(Pu1se CodeModulation)。針對(duì)此格式,Windows定義了在“data”的chunk中數(shù)據(jù)的存放情形,圖3中列出了四種不同頻道數(shù)及取樣所需的位元數(shù)以及位元位置的安排。    第一排表示單聲道8位元,第二排表示雙聲道8位元,第三排表示單聲道16位元,第四排表

9、示雙聲道16位元。8位元代表音量大小由8個(gè)位元來表示,16位元?jiǎng)t代表音量大小由16個(gè)位元來表示。理論上8位元可以表示0255,16位元可表示065536,不過Windows規(guī)定16位元值的范圍為3216832167。還有一點(diǎn)要注意的是,0并不一定代表無聲,而是由中間的數(shù)值來決定其是否有聲,也就是在8位元時(shí)為128,16位元時(shí)為0才是無聲。所以,若程序設(shè)計(jì)時(shí)需放入無聲的數(shù)據(jù),就特別要注意聲音格式是16位還是8位元,以放入適當(dāng)?shù)闹怠?#160;   WAV文件中包括了對(duì)原始聲音的高速率采樣,并且以WAVE   PCM   FORMAT脈派編碼調(diào)變格式存在,我們可以在VISUALC程序中實(shí)現(xiàn),在讀出WAVEHDR文件頭之后,下面就是原始聲音的高速率采樣信息,我們可以在時(shí)域內(nèi)采用聲韻分割的方法分離出鼻音聲母,以便于提取它的信號(hào)特征。以上兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論