版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、第33卷第1期電子與信息學報Vol.33No.1 2011年1月 Journal of Electronics & Information Technology Jan. 2011實用語音情感的特征分析與識別的研究黃程韋*趙艷金于寅驊趙力(東南大學水聲信號處理教育部重點實驗室南京 210096(徐州師范大學物理與電子工程學院徐州 221116摘要:該文針對語音情感識別在實際中的應用,研究了煩躁等實用語音情感的分析與識別。通過計算機游戲誘發(fā)的方式采集了高自然度的語音情感數(shù)據(jù),提取了74種情感特征,分析了韻律特征、音質(zhì)特征與情感維度之間的關系,對煩躁等實用語音情感的聲學特征進行了評價與選擇
2、,提出了針對實際應用環(huán)境的可拒判的實用語音情感識別方法。實驗結(jié)果表明,文中采用的語音情感特征,能較好識別煩躁等實用語音情感,平均識別率達到75%以上??删芘械膶嵱谜Z音情感識別方法,對模糊的和未知的情感類別的分類進行了合理的決策,在語音情感的實際應用中具有重要的意義。關鍵詞:語音識別;實用語音情感;韻律特征;音質(zhì)特征;拒判方法中圖分類號:TP391.42 文獻標識碼:A 文章編號:1009-5896(201101-0112-05 DOI: 10.3724/SP.J.1146.2009.00886A Study on Feature Analysis and Recognition of Prac
3、tical Speech EmotionHuang Cheng-weiZhao YanJin YunYu Yin-huaZhao Li(Key Laboratory of Underwater Acoustic Signal Processing of Ministry of Education, Southeast University,Nanjing 210096, China(School of Physics and Electronics Engineering, Xuzhou Normal University, Xuzhou 221116, ChinaAbstract: Prac
4、tical speech emotions as impatience and happiness are studied especially for evaluation of emotional well-being in real world applications. Induced natural speech emotion data is collected with a computer game, 74 emotion features are extracted, prosody features and voice quality features are analyz
5、ed according to dimensional emotion model, evaluation and selection of acoustic features are carried out for practical emotions in this paper, a method of practical speech emotion classification with rejection decision is proposed for real world occasions. The experiment results show, the speech fea
6、tures analyzed in this paper are suitable for classification of practical speech emotions like impatience and happiness, average recognition rate is above 75%, and the method of emotion classification with rejection decision is necessary for the proper recognition decision of ambiguous or unknown em
7、otion samples, especially for the real world challenges.Key words: Speech recognition; Practical speech emotion; Prosody features; Voice quality features; Rejection decision1引言人類的情緒能力在人們的工作和生活的各個方面起到了不可或缺的重要作用,近年來與情緒相關的研究已成為國際上多個學科的研究熱點13。情緒狀態(tài)的自動評估具有重要的實際意義,特別是在航空航天等軍事應用領域中,長時間的、枯燥的、高強度的任務會使相關人員面臨嚴酷
8、的生理以及心理考驗,引發(fā)一些負面的情緒。目前國內(nèi)外對情感2009-06-16收到,2010-10-19改回國家自然科學基金(60472058,60975017,51075068和江蘇省自然科學基金(BK2008291資助課題*通信作者:黃程韋 Chengwei.Huang 識別的研究,主要集中在幾類基本情感的識別上411,尚不能滿足實際應用中的需求。本文針對實際應用中的需求,重點研究了語音通話中“煩躁”情感的自動識別。在航空航天等應用領域,長時間的飛行任務中,由于枯燥的重復性作業(yè)、狹小的機艙空間、以及高度緊張的精神狀態(tài),都容易引發(fā)機組人員的煩躁情緒。煩躁情緒出現(xiàn)后,如果不妥善的處理,對人員的工
9、作能力會造成重大的影響,甚至引起人為的疏忽導致事故。因此,對煩躁情感的自動識別研究具有重要的實際意義。實際應用當中對語音情感識別技術(shù)提出了諸多挑戰(zhàn)。以往基于表演語料的識別系統(tǒng),在實際條件第1期黃程韋等:實用語音情感的特征分析與識別的研究113下,系統(tǒng)的情感模型與真實的情感數(shù)據(jù)不能符合得很好,導致了識別正確率的顯著下降。在本文中,我們將通過心理學實驗的方法來采集實用語音情感的誘發(fā)數(shù)據(jù),盡可能地使訓練數(shù)據(jù)接近真實的情感數(shù)據(jù)。在實際環(huán)境中出現(xiàn)的情感具有模糊性和多樣性,在實用語音情感的識別中,有必要考慮可拒判的識別方法。傳統(tǒng)的識別方法,是將出現(xiàn)的樣本硬性地劃分為已知類別中的某一類,在實際中存在較多模糊
10、不清的情感樣本時,分類的可信度就較差,誤判的概率就較高。因此本文采用可拒判的實用語音情感識別方法,對于不確定的或未知的情感樣本,分類器給出拒絕判斷的識別結(jié)果,即不屬于需要檢測的實用語音情感類別中的任何一類。2實用語音情感的誘發(fā)根據(jù)Scherer的觀點5,人類聲音中蘊含的情感信息,受到無意識的心理狀態(tài)變化的影響,以及社會文化導致的有意識的說話習慣的控制。然而在目前的語音情感數(shù)據(jù)的采集中,廣泛使用的是表演的方式,在實際的語音通話和自然交談中,說話人的情感對語音產(chǎn)生的影響,常常是不受說話人控制的,通常也不服務于有意識的交流目的11,而是反映了說話人潛在的心理狀態(tài)的變化。相反,演員能通過刻意的控制聲音
11、的變化來表演所需要的情感。為了能更好地研究實際環(huán)境中的情感語音,有必要采集除表演語音以外的,較高自然度的情感數(shù)據(jù),在本文中,通過計算機游戲誘發(fā)情感的方法11,12來采集實用語音情感數(shù)據(jù)。在實驗心理學中,計算機游戲通過畫面和音樂的視覺、聽覺刺激,能提供一個互動的、具有較強感染力的人機交互環(huán)境,能夠有效地誘發(fā)出被試人員的正面與負面的情感。特別是在游戲接連勝利時,被試人員由于在游戲虛擬場景中的成功與滿足,被誘發(fā)出喜悅的情感;在游戲連續(xù)失敗時,被試人員在虛擬場景中受到挫折,容易引發(fā)包括煩躁在內(nèi)的負面情感。在進行較長時間的實驗過程中,重復性的游戲操作和失敗,能順利地誘發(fā)煩躁情感。對于語句文本的設計,考慮
12、到煩躁等實用語音情感識別的一個主要應用領域為長期的航空、航天和航海任務所引發(fā)的負面情緒的評估,20句無情感傾向性的工作用語短句選自國際海事組織(IMO發(fā)布的標準航海通信用語(SMCP。3情感語音的特征分析3.1特征提取情感特征的優(yōu)劣對情感最終識別效果的好壞有非常重要的影響,如何提取和選擇能反映情感變化的語音特征,是目前語音情感識別領域最重要的問題之一13,14。近年來,Johnstone等人11,12的研究證明語音信號中的音質(zhì)特征,不僅與情感的“效價維”關系密切,而且也能夠部分反映3維維度模型中的“控制維”的信息。用于識別和建模的特征向量一般有兩種構(gòu)造方法,全局統(tǒng)計特征和動態(tài)特征。由于動態(tài)特征
13、對音位信息的依賴性太強,不利于建立與文本無關的情感識別系統(tǒng),因此在本文中使用了74個全局統(tǒng)計特征,在下面列出,其中前36個特征為韻律特征,后38個特征為音質(zhì)特征。特征1-10:短時能量及其差分的均值、最大值、最小值、中值、方差;特征11-25:基音及其一階、二階差分的均值、最大值、最小值、中值、方差;特征26:基音范圍;特征27-36:發(fā)音幀數(shù)、不發(fā)音幀數(shù)、不發(fā)音幀數(shù)和發(fā)音幀數(shù)之比、發(fā)音幀數(shù)和總幀數(shù)之比、發(fā)音區(qū)域數(shù)、不發(fā)音區(qū)域數(shù)、發(fā)音區(qū)域數(shù)和不發(fā)音區(qū)域數(shù)之比、發(fā)音區(qū)域數(shù)和總區(qū)域數(shù)之比、最長發(fā)音區(qū)域數(shù)、最長不發(fā)音區(qū)域數(shù);特征37-66:第1、第2、第3共振峰及其一階差分的均值、最大值、最小值、中
14、值、方差;特征67-69:250 Hz以下譜能量百分比、650 Hz 以下譜能量百分比、4 kHz以上譜能量百分比。特征70-74:諧波噪聲比(HNR的均值、最大值、最小值、中值、方差。其中諧波噪聲比用來做為反映情感變化的音質(zhì)特征15。負面與正面的情緒往往在愉悅度上具有較大的差異,因而與情感的愉悅度關系密切的音質(zhì)特征對識別實用語音情感具有重要的價值。3.2 基于情感維度空間模型的特征分析根據(jù)文獻11,12,14的研究結(jié)果,韻律特征主要和激活度的相關性較大,音質(zhì)特征與愉悅度的相關性較大。我們使用PCA方法分別進行愉悅度和激活度上的特征空間分析,截取PCA的前兩個維度構(gòu)成2維特征空間,圖1為韻律特
15、征構(gòu)成的2維PCA空間,圖2為音質(zhì)特征構(gòu)成的2維PCA空間??梢钥吹?在僅使用韻律特征時,平靜和其余兩種情感能較好的區(qū)分開來。然而煩躁和喜悅兩種情感,在激活度上差別相對較小,在僅使用韻律特征時,兩種情感的樣本分布區(qū)域重疊的較多。這與韻律特征主要和激活維對應的理論是一致的。使用音質(zhì)特征后,煩躁和喜悅的樣本之間能夠獲得較好的區(qū)分,音質(zhì)特征的使用對區(qū)分煩躁和喜悅兩種愉悅度上距離大的情感是有效的,說明音質(zhì)特征與愉悅度的相關性較大。綜合使用74個韻律特征和音質(zhì)特征,如圖3所示,煩躁、喜悅和平靜3種情感的樣本分布得到了較好的區(qū)分。114 電 子 與 信 息 學 報 第33卷 圖1韻律特征空間中的樣本分布
16、圖2音質(zhì)特征空間中的樣本分布 圖3韻律與音質(zhì)特征空間中的樣本分布3.3 實用語音情感的特征評價與特征選擇情感特征的選擇一直是語音情感識別中最受重視的問題之一,對一個特征的優(yōu)劣的評價,我們考慮兩個方面:特征的均值,以及特征的方差。綜合考慮這兩個方面的因素,采用fisher 準則進行特征評價16,17。對煩躁、喜悅、平靜3種情感選擇出的前10個最佳特征如表1所示。表1 前10個最佳特征重要程度排序特征1 250 Hz 以下譜能量的百分比2 基音一階差分的均值3 基音的均值4 第1共振峰的中值5 第1共振峰的最小值6 短時能量的方差7 第2共振峰的均值8 發(fā)音幀數(shù)和總幀數(shù)之比 9諧波噪聲比均值10
17、650 Hz 以下譜能量的百分比4 可拒判的實用語音情感識別方法情感樣本在特征空間里的分布,可以用多個高斯函數(shù)的疊加來描述。理論上來說,只要混合足夠的高斯分量,高斯混合模型(GMM能夠擬合任意的概率密度分布函數(shù)。本文采用GMM 對煩躁、喜悅和平靜3種情感進行建模,每種情感對應一個GMM 模型,通過最大后驗概率準則判決。i x 表示第i 條語句樣本,j 表示情感類別,最大后驗概率可以表示為(i j j i j i p x P p x P x = (1其中(|i j p x 通過每個情感的GMM 模型得到。對于給定的語句樣本,特征矢量出現(xiàn)的概率是一個常量,假設每種情感等概率地出現(xiàn),C 為情感類別數(shù)
18、。1(,1j P i C C= (2那么,待識別的樣本可以判決為*arg max (i j jj p x = (3其中*j 表示樣本所屬的類別。針對實際環(huán)境下情感的模糊與不確定性,實用語音情感種類的多樣性,有必要研究可以拒判的識別實用語音情感方法。下面將采用一種基于似然概率模糊熵的拒判方法,采用模糊熵來對樣本與情感類別之間的符合程度進行度量,從而實現(xiàn)對未知類別樣本的拒判。待識別的樣本到達時,分別通過C 種情感的GMM 模型,得到C 個GMM 似然概率密度值,以GMM 似然概率密度值映射到0到1之間作為第i 個樣本歸屬于第j 個情感類別的隸屬度(j i x :(arctan (/10(=/2i
19、j j i p x x (4其中采用的投影函數(shù)為(arctan /10=/2x y (5對于第j 個情感類別的所有可能的樣本構(gòu)成的模糊集12,j n E x x x =",其隸屬度分別為1(,j x 2(,(j j n x x ",令其模糊熵為(j i e x ,類似于隨機熵的證明,可以得到模糊熵的表達式為18(ln (j i j i e x K x = (6 其中K 是大于0的數(shù)。將式(4代入式(6得,第i 個樣本歸屬于第j 個情感類別的模糊熵為(ln arctan (|/10ln /2j i i j e x K p x =(7對第i 個待識別樣本的C 個似然概率值構(gòu)成的
20、判決集合的平均模糊熵評價為(j 11(Ci i j i j S x x e x C = (8將式(7代入式(8有第1期 黃程韋等:實用語音情感的特征分析與識別的研究 115(12arctan (/10 ln arctan (/10ln /2Ci i j j i j KS x p x Cp x = (9對煩躁、喜悅和平靜3種情感類別的GMM 模型,可以得到3個GMM 似然概率密度值,分別代表樣本與3個情感類別的符合程度。似然概率密度值構(gòu)成的判決集合的模糊熵越高表示樣本屬于煩躁、喜悅和平靜3種情感的不確定程度越大,當模糊熵超過一定閾值Th 時則發(fā)生拒判,常數(shù)K 取/2。(Th i S x >
21、 (10將式(9代入式(10,即(11arctan (/10 ln /2ln arctan (/10Th Ci j j i j p x Cp x => (11其中Th 為實驗中確定的模糊熵閾值。閾值的選取既要保證待識別的目標情感類別得到正確的識別,又要兼顧未知的樣本不確定的情感得到拒判。5 實驗測試結(jié)果進行與說話人無關文本無關的情感識別測試,每種情感隨機抽取400條,分為兩組,一組300條樣本,進行GMM 情感模型的訓練,3種情感共計900條,另一組100條樣本,用于測試識別率,3種情感共計300條。在誘發(fā)語音庫的原始語音中,通過聽辨實驗被剔除的情感語句共有479條,這些語句被認為是情感
22、隸屬度較低的數(shù)據(jù),選取其中隸屬度最低的100條,作為不確定的未知情感類別樣本,用于拒判測試。分別采用PCA 方法的前10個特征維度和最佳特征組選擇方法的前10個最佳特征,使用可拒判的實用語音情感識別方法,對煩躁、喜悅和平靜3種情感的識別率進行測試。模糊熵閾值的設置關系到樣本的拒判,設定得過低,則對不確定樣本的拒判效果不明顯。設定得過高,則拒判的過多,會使得系統(tǒng)平均識別率降低。當部分樣本離已知的情感模型距離較遠時需要拒判,同時拒判也會使得某些測試樣本不能得到正確識別。所以應該在保證煩躁、喜悅、平靜等3個類別能夠獲得滿意的識別率的前提下,調(diào)節(jié)模糊熵閾值。當平均識別率發(fā)生明顯的下降時,此時的閾值為上
23、限,實驗中模糊熵閾值設為0.1。本實驗中的訓練樣本數(shù)與測試樣本數(shù)比例為3:1,為了獲得更充分的實驗測試數(shù)據(jù),將訓練樣本集中的900條樣本隨機等分成3份后,與測試樣本集中的300條樣本輪換,進行輪換測試。平均測試識別結(jié)果如表2和表3所示。表2 PCA 方法識別結(jié)果識別結(jié)果(% 測試樣本煩躁喜悅平靜拒判煩躁 74.5 6.25 12.25 7.0 喜悅 8.571.7515.25 4.5平靜 7.75 5.5 83.53.25不確定樣本4.75 15.25 21.5 58.5表3 最佳特征組識別結(jié)果識別結(jié)果(% 測試樣本煩躁喜悅平靜拒判煩躁 75.25 8.75 10.0 6.0 喜悅 7.570
24、.2516.5 5.75平靜7.5 6.7581.5 4.25不確定樣本 12.75 15.25 11.75 60.25根據(jù)識別測試結(jié)果,煩躁、喜悅和平靜3種情感,在本實驗中容易發(fā)生混淆的是煩躁和平靜,喜悅和平靜。在情感的維度空間模型中喜悅與煩躁位于愉悅度的兩端,差別較大,而平靜位于它們之間,因此相對來說喜悅?cè)菀着c平靜混淆,煩躁容易與平靜混淆。從特征空間中的樣本分布情況來看,平靜類別的樣本分布明顯要比煩躁和喜悅的樣本分布更為集中,平靜情感的樣本具有較高的一致性,因此其識別率較煩躁和喜悅高。6 結(jié)論為進行煩躁、喜悅和平靜等實用語音情感的識別,本文提取了74個語音情感特征,平均識別率達到75%以上
25、,證實了本文中的情感特征用于識別煩躁等實用語音情感是有效的。通過PCA 方法進行了基于情感維度空間的特征分析,結(jié)果顯示韻律特征與激活度相關性較大,音質(zhì)特征與愉悅度的相關性較大。通過fisher 判別準則,對情感特征進行了評價,結(jié)果顯示表1中的10個特征能較好區(qū)分煩躁等實用語音情感?;谒迫桓怕誓:氐目删芘械膶嵱谜Z音情感識別方法,能對模糊和未知的情感類別的分類進行合理的決策,可拒判識別方法在語音情感的實際應用中是必要的。參 考 文 獻1 Spellman B A and Willingham D T. Current Directions in Cognitive Science. Bosto
26、n: Allyn & Bacon, 2007: 1-3. 2 Picard R W. Affective Computing. Cambridge: MIT Press, 1997, Chapter 6.3Vinciarelli A, Pantic M, Bourlard H, and Pentland A. Social116 電子與信息學報第33卷signal processing: survey of an emerging domain. ImageVision Computing, 2009, 27(12: 1743-1759.4Cowie R, Douglas-Cowie
27、E, Tsapatsoulis N, Votsis G, KolliasS, Fellenz W, and Taylor J G. Emotion recognition inhuman-computer interaction. IEEE Signal Processing Magazine, 2001, 18(1: 32-80.5Scherer K R. Vocal communication of emotion: a review ofresearch paradigms. Speech Communication, 2003, 40(1/2:227-256.6Zeng Z, Pant
28、ic M, Roisman G I, and Huang T. A survey ofaffect recognition methods: audio, visual and spontaneousexpressions. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2009, 31(1: 39-58.7Casale S, Russo A, Scebba G, and Serrano S. Speech emotionclassification using machine learning algorithm
29、s. 2008 IEEEInternational Conference on Semantic Computing. SantaClara, CA, USA, Aug. 4-7, 2008: 158-165.8Zhao Yan, Zhao Li, Zou Cai-rong, and Yu Yin-hua. Speechemotion recognition using modified quadratic discriminatioinfunction. Journal of Electronics(China, 2008, 25(6: 840-844.9韓文靜, 李海峰, 韓紀慶. 基于長
30、短時特征融合的語音情感識別方法. 清華大學學報(自然科學版, 2008, 48(S1: 708-714.Han Wen-jing, Li Hai-feng, and Han Ji-qing. Speech emotionrecognition with combined short and long term features.Journal of Tsinghua University (Science and Technology,2008, 48(S1: 708-714.10Pao Tsang-long, Chen Yu-te, and Yeh Jun-heng. Emotionreco
31、gnition and evaluation from mandarin speech signals.International Journal of Innovative Computing, Informationand Control, 2008, 4(7: 1695-1709.11Johnstone T. Emotional speech elicited using computergames. Fourth International Conference on Spoken Language,Philadelphia, PA, USA, 1996, Vol. 3: 1985-1988.12Johnstone T, Van Reekum C M, hird K, and Kirsner K, et al.Affective speech elicited with a computer game. Emotion,2005, 5(4: 513-518.13王治平,趙力,鄒采榮. 基于基音參數(shù)規(guī)整及統(tǒng)計分布模型距離的語音情感識別. 聲學學報,2006, 31(1: 28-34.Wang Zhi-ping, Zhao Li, and Zou Cai-rong. Emotion speech recognition based
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度民政廳離婚協(xié)議書模板定制及法律援助合同4篇
- 二零二五年度美術(shù)教育機構(gòu)美術(shù)教師實習指導合同4篇
- 2025年SET電子支付流程升級與加密技術(shù)集成服務合同3篇
- 2025年度綜合交通樞紐車位出售及配套設施租賃及管理合同4篇
- 音樂劇排練課程設計
- 2025年度寵物醫(yī)院寵物醫(yī)院連鎖經(jīng)營合作協(xié)議3篇
- 2025年度智慧農(nóng)業(yè)科技承包荔枝果樹合同范本4篇
- 2025年度垃圾處理PPP項目特許經(jīng)營合作協(xié)議3篇
- 二零二五年度租賃房屋租賃終止合同2篇
- 管道閥門安裝施工方案
- 云南省農(nóng)村信用社招聘筆試真題2023
- 安全生產(chǎn)盡職免責
- IT項目外包服務商管理應急預案
- 工程物資供應、運輸、售后服務方案
- 新生兒低血糖課件
- 自動上下料機械手的設計研究
- 電化學儲能電站安全規(guī)程
- 幼兒園學習使用人民幣教案教案
- 2023年浙江省紹興市中考科學真題(解析版)
- 語言學概論全套教學課件
- 大數(shù)據(jù)與人工智能概論
評論
0/150
提交評論