聲音識(shí)別基礎(chǔ)知識(shí)_第1頁(yè)
聲音識(shí)別基礎(chǔ)知識(shí)_第2頁(yè)
聲音識(shí)別基礎(chǔ)知識(shí)_第3頁(yè)
聲音識(shí)別基礎(chǔ)知識(shí)_第4頁(yè)
聲音識(shí)別基礎(chǔ)知識(shí)_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、聲音識(shí)別基礎(chǔ)知識(shí)2015級(jí)電子與通信工程 董雪聲音識(shí)別原理語(yǔ)音輸入語(yǔ)音輸入訓(xùn)練訓(xùn)練識(shí)別識(shí)別結(jié)果結(jié)果聲音識(shí)別的過(guò)程 聲音的預(yù)處理:振幅歸一化、預(yù)加重、樣本分割、加窗 特征提?。禾卣鲄?shù)可以是能量、基音頻率、共振峰值等,較常見(jiàn)的是線性預(yù)測(cè)倒譜系數(shù)LPCC、Mel倒譜系數(shù)MFCC。二者均為將聲音信號(hào)變換到倒譜域上。幅值歸一化 幅值歸一化就是把每一個(gè)采樣值除以本段信號(hào)的幅值。即: 其中, 是原始信號(hào), 是歸一化后的信號(hào),n是信號(hào)長(zhǎng)度。01( )( )/ max ( )i nX ix ix i ( )x i( )X i預(yù)加重處理 目的:對(duì)高頻部分進(jìn)行加重,增加語(yǔ)音的高頻分辨率。 實(shí)現(xiàn)方式:一般通過(guò)傳遞函

2、數(shù) 的一階FIR高通數(shù)字濾波器來(lái)實(shí) 現(xiàn)預(yù)加重,其中, 為預(yù)加重系 數(shù),其值介于0.9到1.0之間。 11H zz 加窗處理 預(yù)加重處理后,進(jìn)行加窗分幀處理。 原理:由于發(fā)聲器官的慣性運(yùn)動(dòng),可以認(rèn)為在一小段時(shí)間內(nèi)(一般為1030ms)語(yǔ)音信號(hào)近似不變,即語(yǔ)音信號(hào)具有平穩(wěn)性。這樣,可以把語(yǔ)音信號(hào)分為一些短段(分析幀)。語(yǔ)音信號(hào)的分幀是采用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法實(shí)現(xiàn)。一般每秒33100幀。加窗處理 雖采用連續(xù)分段,但一般采用交疊分段 的方法使幀與幀之間平滑過(guò)渡,保持連 續(xù)性。前幀與后幀的交疊部分稱(chēng)為幀移 ,幀移與幀長(zhǎng)的比值一般取01/2。 常用窗: 一種是矩形窗: 另一種是漢明窗:1,0

3、10,( )n Nothersn 0.54 0.46cos2/(1),00,nNn Nothers 矢量量化 基本原理:先把信號(hào)序列的每K個(gè)連續(xù)樣點(diǎn)分成一組,形成N維歐式空間中的一個(gè)矢量,然后對(duì)此矢量進(jìn)行量化。矢量量化就是把一個(gè)K維模擬矢量X映射為另一個(gè)k維量化矢量,其數(shù)學(xué)表達(dá)式為:Y=Q(X)。 矢量量化系統(tǒng)通??梢苑纸鉃閮蓚€(gè)映射的乘積:Q=ab。a是編碼器,將輸入矢量X映射為信道符號(hào)集 中的一個(gè)元 ;b是譯碼器,它是將信道符號(hào)集 映射為碼書(shū)中的一個(gè)碼字Yi。NIjiji矢量量化 失真測(cè)度:要對(duì)落在二維空間的模擬矢量X=(a1,a2)進(jìn)行量化,要先選擇一個(gè)合適 的失真測(cè)度,而后利用最小失真原

4、則,分別計(jì)算用量化矢量Yi替代X所帶來(lái)的失真。 其中最小失真值所對(duì)應(yīng)的那個(gè)量化矢量Yi中某一個(gè)就是模擬矢量X的重構(gòu)矢量。通常把所有N個(gè)量化矢量構(gòu)成的集合稱(chēng)之為碼書(shū)或碼本。碼書(shū)中的矢量稱(chēng)之為碼字或碼矢。矢量量化 常用的失真測(cè)度有如下幾種: (1)平方失真測(cè)度: (2)絕對(duì)誤差失真測(cè)度: (3)加權(quán)平方失真測(cè)度: 其中,W為正定加權(quán)矩陣,T為矩 陣轉(zhuǎn)置符號(hào)。2(, )()iid X YXY1(, )|kiiid X YXY(, )()()Td X YXYW XY矢量量化 失真度必須具有如下特點(diǎn): (1)在主觀評(píng)價(jià)上具有意義,即小的失真對(duì)應(yīng)好的主觀質(zhì)量評(píng)價(jià)。 (2)數(shù)學(xué)上易于處理,能導(dǎo)致實(shí)際的系統(tǒng)設(shè)計(jì)。 (3)可計(jì)算并保證平均失真 D=Ed(X, Q(X)存在。 (4)采用的失真測(cè)度應(yīng)使系統(tǒng)容易用硬件實(shí)現(xiàn)?;贛el和矢量量化的方法 聲音預(yù)處理 取幀長(zhǎng),每幀作FFT變換。 用Mel帶通濾波器進(jìn)行濾波,得到一組系數(shù)。 將每個(gè)濾波器的輸出取對(duì)數(shù),得到相應(yīng)頻帶的對(duì)數(shù)功率譜 利用反離散余弦變換得到MFCC 矢量量化 特征匹配基于MFCC和GMM的方法 聲音預(yù)處理 取幀長(zhǎng),每幀作FFT變換 把上述功率譜映射到梅爾頻標(biāo),再用M個(gè)梅爾帶通濾波器濾波 將每個(gè)濾波器的輸出取對(duì)數(shù),得到相應(yīng)頻帶的對(duì)數(shù)功率譜 利用離散余弦變換得

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論