




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
語(yǔ)音特征參數(shù)MFCC提取過(guò)程詳解一、MFCC概述在語(yǔ)音處理領(lǐng)域里,梅爾頻率倒譜(mel-frequencycepstrum簡(jiǎn)稱MFC)表示一個(gè)語(yǔ)音的短時(shí)功率譜,是一個(gè)語(yǔ)音的對(duì)數(shù)功率譜在頻率的一個(gè)非線性梅爾刻度上進(jìn)行線性余弦轉(zhuǎn)換所得。
所有的梅爾頻率倒譜系數(shù)(Mel-frequencycepstralcoefficients
簡(jiǎn)稱MFCC)共同的組成一個(gè)MFC。MFCCs在Mel標(biāo)度頻率域提取出來(lái)的倒譜參數(shù)。倒譜和梅爾頻率倒譜之間的差別是在MFC中,頻帶在梅爾刻度上是等間隔的,這比利用線性間隔頻帶的倒譜更接近于人類的聽(tīng)覺(jué)特性。梅爾倒譜系數(shù)(Mel-scaleFrequencyCepstralCoefficients,簡(jiǎn)稱MFCC)。根據(jù)人耳聽(tīng)覺(jué)機(jī)理的研究發(fā)現(xiàn),人耳對(duì)不同頻率的聲波有不同的聽(tīng)覺(jué)敏感度。從200Hz到5000Hz的語(yǔ)音信號(hào)對(duì)語(yǔ)音的清晰度影響對(duì)大。兩個(gè)響度不等的聲音作用于人耳時(shí),則響度較高的頻率成分的存在會(huì)影響到對(duì)響度較低的頻率成分的感受,使其變得不易察覺(jué),這種現(xiàn)象稱為掩蔽效應(yīng)。由于頻率較低的聲音在內(nèi)耳蝸基底膜上行波傳遞的距離大于頻率較高的聲音,故一般來(lái)說(shuō),低音容易掩蔽高音,而高音掩蔽低音較困難。在低頻處的聲音掩蔽的臨界帶寬較高頻要小。所以,人們從低頻到高頻這一段頻帶內(nèi)按臨界帶寬的大小由密到疏安排一組帶通濾波器,對(duì)輸入信號(hào)進(jìn)行濾波。將每個(gè)帶通濾波器輸出的信號(hào)能量作為信號(hào)的基本特征,對(duì)此特征經(jīng)過(guò)進(jìn)一步處理后就可以作為語(yǔ)音的輸入特征。由于這種特征不依賴于信號(hào)的性質(zhì),對(duì)輸入信號(hào)不做任何的假設(shè)和限制,又利用了聽(tīng)覺(jué)模型的研究成果。因此,這種參數(shù)比基于聲道模型的LPCC相比具有更好的魯邦性,更符合人耳的聽(tīng)覺(jué)特性,而且當(dāng)信噪比降低時(shí)仍然具有較好的識(shí)別性能。梅爾倒譜系數(shù)(Mel-scaleFrequencyCepstralCoefficients,簡(jiǎn)稱MFCC)是在Mel標(biāo)度頻率域提取出來(lái)的倒譜參數(shù),Mel標(biāo)度描述了人耳頻率的非線性特性,它與頻率的關(guān)系可用下式近似表示:
式中f為頻率,單位為Hz。下圖展示了Mel頻率與線性頻率的關(guān)系:
人耳的聽(tīng)覺(jué)特性與Mel頻率的增長(zhǎng)一致。與實(shí)際頻率在1000Hz以下呈現(xiàn)線性分布,1000Hz以上呈現(xiàn)對(duì)數(shù)增長(zhǎng)。二、MFCC的提取過(guò)程基本流程圖如下所示:
1.預(yù)加重預(yù)加重處理其實(shí)是將語(yǔ)音信號(hào)通過(guò)一個(gè)高通濾波器:
式中μ的值介于0.9-1.0之間,我們通常取0.97。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜。同時(shí),也是為了消除發(fā)生過(guò)程中聲帶和嘴唇的效應(yīng),來(lái)補(bǔ)償語(yǔ)音信號(hào)受到發(fā)音系統(tǒng)所抑制的高頻部分,也為了突出高頻的共振峰。2.
分幀先將N個(gè)采樣點(diǎn)集合成一個(gè)觀測(cè)單位,稱為幀。通常情況下N的值為256或512,涵蓋的時(shí)間約為20~30ms左右。為了避免相鄰兩幀的變化過(guò)大,因此會(huì)讓兩相鄰幀之間有一段重疊區(qū)域,此重疊區(qū)域包含了M個(gè)取樣點(diǎn),通常M的值約為N的1/2或1/3。通常語(yǔ)音識(shí)別所采用語(yǔ)音信號(hào)的采樣頻率為8KHz或16KHz,以8KHz來(lái)說(shuō),若幀長(zhǎng)度為256個(gè)采樣點(diǎn),則對(duì)應(yīng)的時(shí)間長(zhǎng)度是256/8000×1000=32ms。3.加窗將每一幀乘以漢明窗,以增加幀左端和右端的連續(xù)性。假設(shè)分幀后的信號(hào)為S(n),n=0,1…,N-1,N為幀的大小,那么乘上漢明窗后
,
W(n)形式如下:
不同的a值會(huì)產(chǎn)生不同的漢明窗,一般情況下a取0.464.快速傅立葉變換由于信號(hào)在時(shí)域上的變換通常很難看出信號(hào)的特性,所以通常將它轉(zhuǎn)換為頻域上的能量分布來(lái)觀察,不同的能量分布,就能代表不同語(yǔ)音的特性。所以在乘上漢明窗后,每幀還必須再經(jīng)過(guò)快速傅里葉變換以得到在頻譜上的能量分布。對(duì)分幀加窗后的各幀信號(hào)進(jìn)行快速傅里葉變換得到各幀的頻譜。并對(duì)語(yǔ)音信號(hào)的頻譜取模平方得到語(yǔ)音信號(hào)的功率譜。設(shè)語(yǔ)音信號(hào)的DFT為:
(4)
式中x(n)為輸入的語(yǔ)音信號(hào),N表示傅里葉變換的點(diǎn)數(shù)。5.三角帶通濾波器
三角形帶通濾波器組的設(shè)計(jì)過(guò)程如下:
假設(shè)語(yǔ)音信號(hào)的采樣頻率,幀長(zhǎng)N=256,濾波器個(gè)數(shù)K=22
由此可得語(yǔ)音信號(hào)的最大頻率為:
根據(jù)公式:
可以求得出最大的Mel頻率為:
由于在Mel刻度范圍內(nèi),各個(gè)三角濾波器的中心頻率是相等間隔的線性分布。由此,可以計(jì)算兩個(gè)相鄰三角濾波器的中心頻率的間距為:
因此,各三角形濾波器在mel刻度上的中心頻率可以由Mel頻率與線性頻率的關(guān)系式求出。由上面的中心頻率可以計(jì)算出對(duì)應(yīng)的線性刻度上的頻率。如下圖所示:
將功率譜通過(guò)一組Mel尺度的三角形濾波器組,定義一個(gè)有K個(gè)濾波器的濾波器組(濾波器的個(gè)數(shù)和臨界帶的個(gè)數(shù)相近),采用的濾波器為三角濾波器,中心頻率為f(m),m=1,2,...,K。K通常取22-26。各f(m)之間的間隔隨著m值的減小而縮小,隨著m值的增大而增寬,每一個(gè)三角形濾波器的中心頻率c(l)在Mel頻率軸上等間隔分布。設(shè)o(l),c(l),h(l)分別是第l個(gè)三角形濾波器的下限,中心,和上限頻率,則相鄰三角形濾波器之間的下限,中心,上限頻率的關(guān)系如下:c(l)=h(l-1)=o(l+1);
如圖所示:
6.
計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量為:
7.
經(jīng)離散余弦變換(DCT)得到MFCC系數(shù):
將上述的對(duì)數(shù)能量帶入離散余弦變換,求出L階的Mel-scaleCepstrum參數(shù)。L階指MFCC系數(shù)階數(shù),通常取12-16。這里M是三角濾波器個(gè)數(shù)。8.對(duì)數(shù)能量此外,一幀的音量(即能量),也是語(yǔ)音的重要特征,而且非常容易計(jì)算。因此,通常再加上一幀的對(duì)數(shù)能量(定義:一幀內(nèi)信號(hào)的平方和,再取以10為底的對(duì)數(shù)值,再乘以10)使得每一幀基本的語(yǔ)音特征就多了一維,包括一個(gè)對(duì)數(shù)能量和剩下的倒頻譜參數(shù)。注:若要加入其它語(yǔ)音特征以測(cè)試識(shí)別率,也可以在此階段加入,這些常用的其它語(yǔ)音特征包含音高、過(guò)零率以及共振峰等。9.動(dòng)態(tài)差分參數(shù)的提取(包括一階差分和二階差分)標(biāo)準(zhǔn)的倒譜參數(shù)MFCC只反映了語(yǔ)音參數(shù)的靜態(tài)特性,語(yǔ)音的動(dòng)態(tài)特性可以用這些靜態(tài)特征的差分譜來(lái)描述。實(shí)驗(yàn)證明:把動(dòng)、靜態(tài)特征結(jié)合起來(lái)才能有效提高系統(tǒng)的識(shí)別性能。差分參數(shù)的計(jì)算可以采用下面的公式:(8)式中,dt表示第t個(gè)一階差分,Ct表示第t個(gè)倒譜系數(shù),Q表示倒譜系數(shù)的階數(shù),K表示一階導(dǎo)數(shù)的時(shí)間差,可取1或2。將上式的結(jié)果再代入就可以得到二階差分的參數(shù)。總結(jié):因此,MFCC的全部組成其實(shí)是由:N維MFCC參數(shù)(N/3MFCC系數(shù)+N/3一階差分參數(shù)+N/3二階差分參數(shù))+幀能量(此項(xiàng)可根據(jù)需求替換)三、Matlab實(shí)現(xiàn)[plain]\o"viewplain"viewplain\o"copy"copy\o"print"print\o"?"?%
MFCC
implement
with
Matlab
%
[x
fs]=wavread('test.wav');
bank=melbankm(24,256,fs,0,0.4,'t');
%Mel濾波器的階數(shù)為24,F(xiàn)FT變換的長(zhǎng)度為256,采樣頻率為16000Hz
%歸一化Mel濾波器組系數(shù)
bank=full(bank);
%full()
convert
sparse
matrix
to
full
matrix
bank=bank/max(bank(:));
for
k=1:12
n=0:23;
dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24));
end
w=1+6*sin(pi*[1:12]./12);%歸一化倒譜提升窗口
w=w/max(w);%預(yù)加重濾波器
xx=double(x);
xx=filter([1-0.9375],1,xx);%語(yǔ)音信號(hào)分幀
xx=enframe(xx,256,80);%對(duì)xx
256點(diǎn)分為一幀
%計(jì)算每幀的MFCC參數(shù)
for
i=1:size(xx,1)
y=xx(i,:);
s=y'.*hamming(256);
t=abs(fft(s));%FFT快速傅里葉變換
t=t.^2;
c1=dctcoef*log(bank*t(1:129));
c2=c1.*w';
m(i,:)=c2;
end
%求一階差分系數(shù)
dtm=zeros(size(m));
for
i=3:size(m,1)-2
dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:);
end
dtm=dtm/3;
%求取二階差分系數(shù)
dtmm=zeros(size(dtm));
for
i=3:size(dtm,1)-2
dtmm(i,:)=-2*dtm(i-2,:)-dtm(i-1,:)+dtm(i+1,:)+2*dtm(i+2,:);
end
dtmm=dtmm/3;
%合并mfcc參數(shù)和一階差分mfcc參數(shù)
ccc=[m
dtm
dtmm];
%去除首尾兩幀,以為這兩幀的一階差分參數(shù)為0
ccc=ccc(3:size(m,1)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 失誤匯報(bào)協(xié)議
- 護(hù)理質(zhì)量標(biāo)準(zhǔn)及管理制度
- 幼兒園小學(xué)秋游安全教育
- 辛集中學(xué)高三語(yǔ)文一輪復(fù)習(xí)組合練
- 阿壩職業(yè)學(xué)院《影像電子學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 隴東學(xué)院《巖土工程測(cè)試與監(jiān)控》2023-2024學(xué)年第二學(xué)期期末試卷
- 陜西中醫(yī)藥大學(xué)《外國(guó)文學(xué)I》2023-2024學(xué)年第一學(xué)期期末試卷
- 陜西國(guó)防工業(yè)職業(yè)技術(shù)學(xué)院《勞動(dòng)實(shí)踐》2023-2024學(xué)年第二學(xué)期期末試卷
- 陜西學(xué)前師范學(xué)院《新型材料毒理學(xué)評(píng)價(jià)》2023-2024學(xué)年第二學(xué)期期末試卷
- 陜西工商職業(yè)學(xué)院《數(shù)字媒體設(shè)計(jì)與制作》2023-2024學(xué)年第一學(xué)期期末試卷
- 35770-2022合規(guī)管理體系-要求及使用指南標(biāo)準(zhǔn)及內(nèi)審員培訓(xùn)教材
- DZ-T 0270-2014地下水監(jiān)測(cè)井建設(shè)規(guī)范
- 貴州省生態(tài)文明教育讀本(高年級(jí)) -教案(教學(xué)設(shè)計(jì))
- 四渡赤水(課件)
- 1到六年級(jí)古詩(shī)全部打印
- 成品出貨檢驗(yàn)報(bào)告模板
- 《中藥藥劑學(xué)》課件-第八章 液體制劑
- 消化治療內(nèi)鏡技術(shù)操作規(guī)范2023版
- 課間操考核評(píng)比方案含打分標(biāo)準(zhǔn)打分表
- 元音字母發(fā)音規(guī)則
- 2023版藥品生產(chǎn)質(zhì)量管理規(guī)范 附錄1 無(wú)菌藥品
評(píng)論
0/150
提交評(píng)論