基于mfcc與短時能量混合特征的異常聲音識別_第1頁
基于mfcc與短時能量混合特征的異常聲音識別_第2頁
基于mfcc與短時能量混合特征的異常聲音識別_第3頁
基于mfcc與短時能量混合特征的異常聲音識別_第4頁
基于mfcc與短時能量混合特征的異常聲音識別_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于mfcc與短時能量混合特征的異常聲音識別

0異常聲音的識別在過去的10年里,視頻監(jiān)控系統(tǒng)被廣泛應(yīng)用于人們的生活中。但是當被觀測目標離開觀測范圍時,視頻監(jiān)控系統(tǒng)性能將會大幅度降低,而且直接監(jiān)控目標會涉及侵犯隱私。與視頻監(jiān)控系統(tǒng)相比,音頻監(jiān)控系統(tǒng)具有復(fù)雜度小、成本低、高效性且能夠充分保護隱私等諸多優(yōu)點。因此,近年來音頻監(jiān)控系統(tǒng)開始受到越來越多研究人員的廣泛關(guān)注。在音頻監(jiān)控系統(tǒng)中,特征參數(shù)和分類器的選擇直接影響系統(tǒng)的復(fù)雜度和識別性能。普遍采用的分類器有支持向量機(SupportVectorMachine,SVM)、隱馬爾可夫模型(HiddenMarkovModel,HMM)和高斯混合模型(GaussianMixtureModel,GMM)等。文獻提出采用12維MFCC系數(shù)和GMM分類器來訓(xùn)練識別四種聲音,得到的平均識別率為80%以上。文獻提出應(yīng)用在家庭生活中的音頻監(jiān)控系統(tǒng),該系統(tǒng)提取1s異常聲音的MFCC系數(shù)作為特征參數(shù),采用AdaBoost算法對異常聲音進行檢測,取得了較好的檢測結(jié)果。但是這種算法需要大量的訓(xùn)練樣本,同時要求異常聲音的長度為等長(1s),限制了這種算法的使用范圍。文獻提出應(yīng)用于鐵路環(huán)境下的音頻監(jiān)控系統(tǒng),采用MFCC特征訓(xùn)練GMM分類器,對尖叫聲和槍聲進行識別。但是這種算法只是針對兩種異常聲音,沒有考慮多種異常聲音同時存在的情況。因此,本文將音頻監(jiān)控系統(tǒng)推廣到日常生活中,選擇電梯作為實驗背景,搜集在電梯中容易出現(xiàn)的5種異常聲音,如報警聲、尖叫聲、哭泣聲、小孩哭泣聲和撞擊聲作為實驗素材。本文采用MFCC系數(shù)與短時能量相結(jié)合的方式作為異常聲音的特征參數(shù),訓(xùn)練GMM,達到了較好的識別效果。與單獨采用MFCC系數(shù)作為特征參數(shù)相比,識別率有了明顯的提高,計算量沒有明顯的增加;與MFCC系數(shù)和一階差分相結(jié)合的作為特征參數(shù)的方式相比,本文算法的計算復(fù)雜度較低,同時識別率相差不大。1資源參數(shù)提取音頻特征參數(shù)提取是指從音頻信號中獲得一種能夠描述音頻信號特征的過程。在特征提取之前,需要對原始樣本進行預(yù)處理,使得能更好地提取特征。1.1預(yù)處理假設(shè)輸入的音頻信號為x(n),預(yù)處理過程如下。1一體化處理歸一化處理的目的是消除不同樣本聲音大小的差異,將樣本幅度值限定在[-1,+1]。2預(yù)料預(yù)加重一般是用具有6dB/倍頻程的一階數(shù)字濾波器來實現(xiàn),如式(1)所示:H(z)=1-μz-1(1)其中μ為常數(shù),一般取0.97。3復(fù)制到視聽信號的頻帶通常是重疊的為了避免信號間斷,一般取256點為一幀,幀間重疊為128點。1.2mfcc的本構(gòu)模型MFCC是在Mel標度頻率域提取出來的倒譜參數(shù),Mel標度描述了人耳頻率感知的非線性特性,反映了音頻短時幅度譜的特征,因此在異常聲音識別中得到了廣泛應(yīng)用。MFCC的提取方法是將預(yù)處理后的信號xt(τ)作頻域變換后,將對數(shù)能量譜依照Mel標度分布的三角濾波器組作卷積,再對濾波器組的輸出向量作離散余弦變換(DiscreteCosineTransform,DCT),這樣得到的前n維向量稱為MFCC,如式(2)所示:Ct(n)=∑m=1MSt(m)cos(πn(m?0.5)M)Ct(n)=∑m=1ΜSt(m)cos(πn(m-0.5)Μ);0≤n<M(2)其中:n為所取MFCC個數(shù);Ct(n)為第t幀的第n個MFCC系數(shù);St(m)為音頻信號的對數(shù)功率譜;M為三角濾波器個數(shù),本文取24。舍去代表直流成分的Ct(0),得到Ct(1),…,Ct(n),取n為12作為MFCC系數(shù)Ct(n)。然后根據(jù)式(3)對MFCC系數(shù)進行一階差分,得到一組MFCC差分系數(shù)Dt(n):Dt(n)=∑i=?kkCi(n+i)∑i=?kki2ue001?ue000ue000(3)Dt(n)=∑i=-kkCi(n+i)∑i=-kki2(3)其中k為常數(shù),一般取2。1.3音頻信號的時差能量音頻信號的能量隨著時間變化比較明顯,音頻信號的短時能量分析給出了反應(yīng)這些幅度變化的一個合適的描述方法。對于音頻信號xt(τ),短時能量:(En)t=∑τ=0L?1|xt(τ)|2(4)(En)t=∑τ=0L-1|xt(τ)|2(4)其中:(En)t為第t幀的短時能量;τ為一幀內(nèi)的樣本點;L為幀長,本文取256。1.4特征矢量的獲取本文選取MFCC與短時能量構(gòu)成組合參數(shù)的理論依據(jù)如下。1)短時能量是音頻信號最基本的短時參數(shù)之一,它表征一幀音頻信號能量的大小,是音頻信號一個重要的時域特征。2)由一幀音頻信號求出的短時能量是一個標量值,與其他參量構(gòu)成組合參數(shù)不會使原特征矢量的維數(shù)明顯增加。特征矢量的維數(shù)越少,則需要的運算復(fù)雜度越小。另外,獲取短時能量的運算并不復(fù)雜。3)短時能量是時域特征,而MFCC參數(shù)是人耳聽覺感知特征,兩者之間的相關(guān)性不大,它們反映的是音頻信號的不同特征,應(yīng)該有較好的效果。本文將MFCC系數(shù)與短時能量混合得到的特征矢量記為MFCC_E。特征矢量的排列順序是將短時能量(En)t作為MFCC_E特征矢量的第1維,將原始MFCC的12維作為特征矢量MFCC_E的第2維到第13維。2gmm在教學(xué)過程GMM本質(zhì)上是一種基于參數(shù)估計的多維概率統(tǒng)計模型,它認為每一種聲音的特征在特征空間中都形成特定的分布,并且可以用多個高斯分布組合對它的特征分布進行擬合。不同參數(shù)的高斯分布組合可以用來表征不同的聲音,即每種聲音的特征參數(shù)對應(yīng)一個GMM。GMM已經(jīng)廣泛應(yīng)用于說話人識別和語音識別中。本文所用的GMM訓(xùn)練過程如圖1所示。訓(xùn)練過程是按照文獻中的方法,采用從訓(xùn)練樣本中提取的特征矢量來訓(xùn)練GMM,對于有5種聲音的異常聲音識別系統(tǒng),每種聲音用一個GMM來代表,得到5種聲音的模型參數(shù)。最終得到描述每種聲音的整個GMM的三元式如式(5):λ={Pi,μi,Σi};i=1,2,…,N(5)其中:Pi為混合分量的權(quán)值;μi為均值矢量;Σi為協(xié)方差矩陣;N為混合階數(shù)。本文所用的樣本識別過程如圖2所示。識別過程是采用從測試樣本中提取的特征矢量,結(jié)合GMM分類器,通過求取后驗概率的最大值得到每類單個測試樣本的識別結(jié)果,最后將每一類所有測試樣本的識別結(jié)果相加,求出每類聲音的總體識別率。3結(jié)果3.1實驗方法和樣本所有實驗都運行在PC機的WindowsXP操作平臺上,PC機的主頻為1.5GHz,內(nèi)存為1GB,編程主要使用的是Matlab7.0。實驗中的參數(shù)如下:聲音種類為報警聲、尖叫聲、哭聲、小孩哭聲和撞擊聲,每類聲音有30個樣本;采樣率為16kHz,量化為16b,幀長16ms(256個采樣點),幀移(128個采樣點);訓(xùn)練樣本隨機選擇總樣本數(shù)的80%,識別樣本為剩余20%樣本;每組實驗做10次,列出每類聲音的平均識別率,最后對相同混合階數(shù)下所有聲音的識別率求平均值作為評價標準。3.2特征參數(shù)的復(fù)雜度本實驗研究GMM混合階數(shù)對識別性能的影響,從而選擇適合的混合階數(shù)。實驗中所用混合階數(shù)分別為8、12和16。識別模型為GMM,N表示不同的混合階數(shù)。表1、2列出了兩種特征在不同混合階數(shù)下的識別性能。為了得到較高的識別率,同時要有較低的復(fù)雜度,本文對不同階數(shù)、不同特征矢量進行了復(fù)雜度的研究。復(fù)雜度的評判準則是指運行程序所需要的時間,單位為s。表3、4分別列出了訓(xùn)練復(fù)雜度和識別復(fù)雜度。從表1~2中可以看出,無論是采用特征參數(shù)MFCC_E或MFCC+MFCC_D特征矢量,當GMM階數(shù)從8逐漸增加到16時,識別率逐漸上升;同時可從表3~4中得到,階數(shù)越高,所需訓(xùn)練和識別復(fù)雜度也越大。3.3不同濃度mfcc的識別結(jié)果本實驗研究不同特征矢量對識別性能的影響,從而證明MFCC_E識別率最高且復(fù)雜度較低。實驗采用特征矢量分別為MFCC(維數(shù)為12)、MFCC與一階差分MFCC_D(維數(shù)為24)、MFCC_E(維數(shù)為13),識別模型均為GMM,表5~6中混合階數(shù)分別為16和12,識別結(jié)果如表5~6所示。從表5、6中均可以看出,當混合階數(shù)N相同的情況下:1)特征矢量MFCC_E比MFCC得到的識別率提高6%,這表明MFCC與能量的混合特征識別率高于單獨使用MFCC;2)特征矢量MFCC+MFCC_D比MFCC得到的識別率高;3)特征矢量MFCC_E比MFCC+MFCC_D識別率高。但是從表3~4也可以看出,MFCC+MFCC_D訓(xùn)練復(fù)雜度幾乎是MFCC_E的2倍,是MFCC的3倍,而它們的識別復(fù)雜度相差并不大。3.4在單次給藥后,知識特性測試將本文算法的識別結(jié)果與文獻、進行了對比,結(jié)果如表7所示。從表7中可以看出,相對于原始特征MFCC,MFCC_E取得了比原始MFCC更高的識別率。其主要原因是加入短時能量后,一方面增加了特征的維數(shù),另一方面增加了特征所包含的聲音的信息量。從實驗結(jié)果可以驗證,短時能量中包含有用的聲音信息。綜上所述,綜合考慮特征的識別率和復(fù)雜度,可以看出,MFCC_E比MFCC和MFCC+MFCC_D的識別率高,而且訓(xùn)練和識別復(fù)雜度明顯低于MFCC+MFCC_D,略高于MFCC,這就證明MFCC與短時能量的結(jié)合識別率高,相對復(fù)雜度較低,有效提高了分類器的識別性能。4異常聲音的識別本文將MFCC,差分MFCC以及短時能量三種特征用于GMM的訓(xùn)練與識別中,實驗證明使用MFCC與能量混合特征比文獻單一使用MFCC特征得到的識別率高,對異常聲音分類更準確,識別率可達到90%以上,而且特征維數(shù)較低,相對復(fù)雜度不高;所用的GMM分類器也改善了文獻中所用的AdaBoost分類器因樣本數(shù)較小而導(dǎo)致系統(tǒng)性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論