基于短時(shí)和長(zhǎng)時(shí)特征的語(yǔ)音情感識(shí)別研究_第1頁(yè)
基于短時(shí)和長(zhǎng)時(shí)特征的語(yǔ)音情感識(shí)別研究_第2頁(yè)
基于短時(shí)和長(zhǎng)時(shí)特征的語(yǔ)音情感識(shí)別研究_第3頁(yè)
基于短時(shí)和長(zhǎng)時(shí)特征的語(yǔ)音情感識(shí)別研究_第4頁(yè)
基于短時(shí)和長(zhǎng)時(shí)特征的語(yǔ)音情感識(shí)別研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于短時(shí)和長(zhǎng)時(shí)特征的語(yǔ)音情感識(shí)別研究11基于短時(shí)特征的情感識(shí)別111特征提取許多研究者認(rèn)為,語(yǔ)音的韻律特征是說(shuō)話者情感狀態(tài)的一個(gè)重要指示。一些對(duì)情感語(yǔ)音的研究表明基音頻率、能量和共振峰頻率是區(qū)分某些情感的有效特征。本文共研究了五組語(yǔ)音短時(shí)特征,包括基音頻率(Fo)、短時(shí)能量、前三個(gè)共振峰頻率(F到F)、兩個(gè)Mel頻率倒譜系數(shù)(MFCC)和五個(gè)Mel頻率子帶能量(MBE131到MBE)以及它們的一階和二階導(dǎo)數(shù)。短時(shí)分析的窗長(zhǎng)為20ms,幀移10ms,5窗函數(shù)為漢明窗?;l提取使用短時(shí)自相關(guān)方法,并通過(guò)一個(gè)3階的中值濾波器與內(nèi)插得到平滑的基頻包絡(luò)。此外,為了避免不同性別的人基頻差別太大,對(duì)每人的基

2、頻都進(jìn)行了去均值處理。共振峰頻率的估計(jì)使用文獻(xiàn)5中提出的方法。為了提取子帶能量,通過(guò)快速傅立葉變換(FVT)方法估計(jì)每幀的短時(shí)譜,并將短時(shí)譜通過(guò)五個(gè)在Mel尺度上均勻分布且頻率范圍在60Hz7600Hz內(nèi)的濾波器。計(jì)算每個(gè)濾波器的對(duì)數(shù)平均能量。便得到五個(gè)子帶能量參數(shù)MBEl到MBE5。試驗(yàn)表明,使用上述所有特征用于情感識(shí)別時(shí)存在冗余信息,并不能達(dá)到最好的識(shí)別效果。岡此必須選擇一個(gè)最優(yōu)子集作為特征矢量。通過(guò)文獻(xiàn)6所述的特征選擇方法,最后確定所用的每一幀短時(shí)特征(STF)矢量為:d2FdFd2MBEd2MBEdFSTF=,5i,g,比Iidt2dtdt2dt2dt其中f表示第f幀,五個(gè)特征分別為:

3、F的二階導(dǎo)數(shù),F(xiàn)的一階導(dǎo)數(shù),MEB的005二階導(dǎo)數(shù),MEB的二階導(dǎo)數(shù)及F的一階導(dǎo)數(shù)。這一特征矢量充分地利用了語(yǔ)音41中基頻輪廓的變化及其極值分布規(guī)律。高頻率子帶能量特性以及第一共振峰的變化特征。為了避免由于不同語(yǔ)言、不同人的區(qū)別以及錄音音量的差別所引起的某些數(shù)值太大或者太小的情況,所有的參數(shù)通過(guò)線性縮放,將其范圍限制在0,100。12基于長(zhǎng)時(shí)特征的情感識(shí)別12.1特征提取除了上述參數(shù)外,頻譜的動(dòng)態(tài)特性也是語(yǔ)音情感的一個(gè)重要指示。本文從語(yǔ)音在頻率尺度上的動(dòng)態(tài)特性出發(fā)研究情感的識(shí)別,提出了一個(gè)稱為美爾能譜動(dòng)態(tài)系數(shù)(MESDC)的特征矢量MESDC的計(jì)算過(guò)程如圖所示:首先通過(guò)快速傅立葉變換(FFT)

4、方法估計(jì)每一情感短句的長(zhǎng)時(shí)譜.再令其通過(guò)N個(gè)均勻分布在Mel頻率尺度上的濾波器。計(jì)算每一個(gè)濾波器輸出的對(duì)數(shù)平均能量(En(i),i=l,,N)。之后求En(i)的一階及二階差分。直邀叫、淤E7i(j卡1、一hE叫、W“,7V-2后聯(lián)立得到MESDC的特征矢量:ME筑就口En(W)AEn(l)遠(yuǎn)glj隔丹心_2)這里N設(shè)為12.在輸入到分類器之前矢量中的每一參數(shù)都要經(jīng)過(guò)了一次線性歸一化處理。謔破器1卜對(duì)甲iME矢atjwiMT能1*1-Ar長(zhǎng)時(shí)語(yǔ)音特征在說(shuō)話人識(shí)別技術(shù)上的應(yīng)用1長(zhǎng)時(shí)時(shí)頻特征的提取與處理技術(shù)11特征提取算法本方法框架上采用Kenny提出的架構(gòu),把連續(xù)有基頻值的濁音段提取出來(lái),在每一

5、個(gè)段內(nèi),通過(guò)能量曲線的谷點(diǎn),切分出類似音字(phoneme)的單元,然后,在每一個(gè)單元內(nèi)部,把基頻曲線,時(shí)域能量曲線,分別利用6階多項(xiàng)式擬合得到6維的參數(shù),與單元的長(zhǎng)度一起構(gòu)成13維的特征因此,每一個(gè)單元提取出一幀特征,這種時(shí)頻特征的幀數(shù)大大減少。但是由于描述的是長(zhǎng)時(shí)的信息,可以描述幀與幀之間的聯(lián)系,而短時(shí)的MFCC系數(shù)差分特征恰恰描述不了這種長(zhǎng)時(shí)的變化趨勢(shì),因此這種長(zhǎng)時(shí)時(shí)頻特征的系統(tǒng)與基于MFCC的系統(tǒng)融合在一起會(huì)進(jìn)一步提高整體系統(tǒng)的性能本方法的不同之處在于,不僅僅擬合基頻和時(shí)域能量曲線,還擬合了前4個(gè)共振峰曲線和前10個(gè)諧波能量的曲線。因?yàn)椋覀冋J(rèn)為,每個(gè)人的共振峰頻率長(zhǎng)時(shí)變化趨勢(shì)也可以在

6、一定程度上反應(yīng)說(shuō)話人的信息,而且每個(gè)諧波能量的曲線變化信息不僅僅反應(yīng)了被共振峰調(diào)制的諧波能量變化趨勢(shì),也反應(yīng)了共振峰的強(qiáng)弱,這恰恰彌補(bǔ)了共振峰頻率不能提供的幅度信息。在實(shí)驗(yàn)中,我們?nèi)诤现C波能量曲線特征和共振峰頻率曲線特征在一起來(lái)提高系統(tǒng)的性能?;陂L(zhǎng)時(shí)性特征的音位屬性檢測(cè)方法許友亮張連海屈丹牛銅基于層級(jí)TDNN的特征提取系統(tǒng)由2層TDNN構(gòu)成,低層的TDNN對(duì)短時(shí)特征進(jìn)行分類,其輸入特征為幀MFCC參數(shù),輸出為音素后驗(yàn)概率;高層TDNN以低層TDNN輸出為觀測(cè)特征,考慮更長(zhǎng)時(shí)段內(nèi)的信息,其輸入特征為2+1幀,時(shí)長(zhǎng)通??蛇_(dá)到200ms甚至更長(zhǎng),使得高層MLP能夠獲得音素、字詞或詞間的信息。另外,由于低層TDNN的輸出為0-1之間的概率值,為了使該分布高斯化和離散化,需對(duì)其進(jìn)行非線性變換,包括log運(yùn)算或PCA降維等。由于高層TDNN的輸入考慮到了長(zhǎng)時(shí)段內(nèi)的信息,使得MLP在訓(xùn)練過(guò)程中“學(xué)到”了語(yǔ)音信號(hào)間的相關(guān)性;由于高層MLP考慮的信息更長(zhǎng),在某種意義上起著“平滑”的作用,相對(duì)于低層TDNN的檢測(cè)結(jié)果,高層MLP輸出的插入錯(cuò)誤明顯減少。WhN兩屮i兀亠佩爲(wèi)總加和幀TDNN音位厲注陪鑿擬舉圈2越于jgftttwas*位鼻性提取算扶時(shí)間延遲神經(jīng)網(wǎng)絡(luò)(TDNN)TDNN的最大特點(diǎn)是在MLP的隱含層引入了時(shí)間延遲因子

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論