




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
實用語音情感的識別
1語音情感自動識別的應用問題人類的情感能力在人們的工作和生活中起著不可或缺的重要作用。近年來,對情緒的研究已成為許多國際研究的熱點。情緒狀態(tài)的自動評估具有重要的實際意義,特別是在航空航天等軍事應用領域中,長時間的、枯燥的、高強度的任務會使相關人員面臨嚴酷的生理以及心理考驗,引發(fā)一些負面的情緒。目前國內外對情感識別的研究,主要集中在幾類基本情感的識別上,尚不能滿足實際應用中的需求。本文針對實際應用中的需求,重點研究了語音通話中“煩躁”情感的自動識別。在航空航天等應用領域,長時間的飛行任務中,由于枯燥的重復性作業(yè)、狹小的機艙空間、以及高度緊張的精神狀態(tài),都容易引發(fā)機組人員的煩躁情緒。煩躁情緒出現(xiàn)后,如果不妥善的處理,對人員的工作能力會造成重大的影響,甚至引起人為的疏忽導致事故。因此,對煩躁情感的自動識別研究具有重要的實際意義。實際應用當中對語音情感識別技術提出了諸多挑戰(zhàn)。以往基于表演語料的識別系統(tǒng),在實際條件下,系統(tǒng)的情感模型與真實的情感數據不能符合得很好,導致了識別正確率的顯著下降。在本文中,我們將通過心理學實驗的方法來采集實用語音情感的誘發(fā)數據,盡可能地使訓練數據接近真實的情感數據。在實際環(huán)境中出現(xiàn)的情感具有模糊性和多樣性,在實用語音情感的識別中,有必要考慮可拒判的識別方法。傳統(tǒng)的識別方法,是將出現(xiàn)的樣本硬性地劃分為已知類別中的某一類,在實際中存在較多模糊不清的情感樣本時,分類的可信度就較差,誤判的概率就較高。因此本文采用可拒判的實用語音情感識別方法,對于不確定的或未知的情感樣本,分類器給出拒絕判斷的識別結果,即不屬于需要檢測的實用語音情感類別中的任何一類。2要采集情感的采集根據Scherer的觀點,人類聲音中蘊含的情感信息,受到無意識的心理狀態(tài)變化的影響,以及社會文化導致的有意識的說話習慣的控制。然而在目前的語音情感數據的采集中,廣泛使用的是表演的方式,在實際的語音通話和自然交談中,說話人的情感對語音產生的影響,常常是不受說話人控制的,通常也不服務于有意識的交流目的,而是反映了說話人潛在的心理狀態(tài)的變化。相反,演員能通過刻意的控制聲音的變化來表演所需要的情感。為了能更好地研究實際環(huán)境中的情感語音,有必要采集除表演語音以外的,較高自然度的情感數據,在本文中,通過計算機游戲誘發(fā)情感的方法來采集實用語音情感數據。在實驗心理學中,計算機游戲通過畫面和音樂的視覺、聽覺刺激,能提供一個互動的、具有較強感染力的人機交互環(huán)境,能夠有效地誘發(fā)出被試人員的正面與負面的情感。特別是在游戲接連勝利時,被試人員由于在游戲虛擬場景中的成功與滿足,被誘發(fā)出喜悅的情感;在游戲連續(xù)失敗時,被試人員在虛擬場景中受到挫折,容易引發(fā)包括煩躁在內的負面情感。在進行較長時間的實驗過程中,重復性的游戲操作和失敗,能順利地誘發(fā)煩躁情感。對于語句文本的設計,考慮到煩躁等實用語音情感識別的一個主要應用領域為長期的航空、航天和航海任務所引發(fā)的負面情緒的評估,20句無情感傾向性的工作用語短句選自國際海事組織(IMO)發(fā)布的《標準航海通信用語》(SMCP)。3情感語音特征的分析3.1基音特征使用的一般特征情感特征的優(yōu)劣對情感最終識別效果的好壞有非常重要的影響,如何提取和選擇能反映情感變化的語音特征,是目前語音情感識別領域最重要的問題之一。近年來,Johnstone等人的研究證明語音信號中的音質特征,不僅與情感的“效價維”關系密切,而且也能夠部分反映3維維度模型中的“控制維”的信息。用于識別和建模的特征向量一般有兩種構造方法,全局統(tǒng)計特征和動態(tài)特征。由于動態(tài)特征對音位信息的依賴性太強,不利于建立與文本無關的情感識別系統(tǒng),因此在本文中使用了74個全局統(tǒng)計特征,在下面列出,其中前36個特征為韻律特征,后38個特征為音質特征。特征1-10:短時能量及其差分的均值、最大值、最小值、中值、方差;特征11-25:基音及其一階、二階差分的均值、最大值、最小值、中值、方差;特征26:基音范圍;特征27-36:發(fā)音幀數、不發(fā)音幀數、不發(fā)音幀數和發(fā)音幀數之比、發(fā)音幀數和總幀數之比、發(fā)音區(qū)域數、不發(fā)音區(qū)域數、發(fā)音區(qū)域數和不發(fā)音區(qū)域數之比、發(fā)音區(qū)域數和總區(qū)域數之比、最長發(fā)音區(qū)域數、最長不發(fā)音區(qū)域數;特征37-66:第1、第2、第3共振峰及其一階差分的均值、最大值、最小值、中值、方差;特征67-69:250Hz以下譜能量百分比、650Hz以下譜能量百分比、4kHz以上譜能量百分比。特征70-74:諧波噪聲比(HNR)的均值、最大值、最小值、中值、方差。其中諧波噪聲比用來做為反映情感變化的音質特征。負面與正面的情緒往往在愉悅度上具有較大的差異,因而與情感的愉悅度關系密切的音質特征對識別實用語音情感具有重要的價值。3.2維pca空間根據文獻的研究結果,韻律特征主要和激活度的相關性較大,音質特征與愉悅度的相關性較大。我們使用PCA方法分別進行愉悅度和激活度上的特征空間分析,截取PCA的前兩個維度構成2維特征空間,圖1為韻律特征構成的2維PCA空間,圖2為音質特征構成的2維PCA空間??梢钥吹?在僅使用韻律特征時,平靜和其余兩種情感能較好的區(qū)分開來。然而煩躁和喜悅兩種情感,在激活度上差別相對較小,在僅使用韻律特征時,兩種情感的樣本分布區(qū)域重疊的較多。這與韻律特征主要和激活維對應的理論是一致的。使用音質特征后,煩躁和喜悅的樣本之間能夠獲得較好的區(qū)分,音質特征的使用對區(qū)分煩躁和喜悅兩種愉悅度上距離大的情感是有效的,說明音質特征與愉悅度的相關性較大。綜合使用74個韻律特征和音質特征,如圖3所示,煩躁、喜悅和平靜3種情感的樣本分布得到了較好的區(qū)分。3.3特征評價準則情感特征的選擇一直是語音情感識別中最受重視的問題之一,對一個特征的優(yōu)劣的評價,我們考慮兩個方面:特征的均值,以及特征的方差。綜合考慮這兩個方面的因素,采用fisher準則進行特征評價。對煩躁、喜悅、平靜3種情感選擇出的前10個最佳特征如表1所示。4基于似然概率模糊熵的拒判—可拒判的實用語音情感識別方法情感樣本在特征空間里的分布,可以用多個高斯函數的疊加來描述。理論上來說,只要混合足夠的高斯分量,高斯混合模型(GMM)能夠擬合任意的概率密度分布函數。本文采用GMM對煩躁、喜悅和平靜3種情感進行建模,每種情感對應一個GMM模型,通過最大后驗概率準則判決。xi表示第i條語句樣本,λj表示情感類別,最大后驗概率可以表示為其中p(xi|λj)通過每個情感的GMM模型得到。對于給定的語句樣本,特征矢量出現(xiàn)的概率是一個常量,假設每種情感等概率地出現(xiàn),C為情感類別數。那么,待識別的樣本可以判決為其中j*表示樣本所屬的類別。針對實際環(huán)境下情感的模糊與不確定性,實用語音情感種類的多樣性,有必要研究可以拒判的識別實用語音情感方法。下面將采用一種基于似然概率模糊熵的拒判方法,采用模糊熵來對樣本與情感類別之間的符合程度進行度量,從而實現(xiàn)對未知類別樣本的拒判。待識別的樣本到達時,分別通過C種情感的GMM模型,得到C個GMM似然概率密度值,以GMM似然概率密度值映射到0到1之間作為第i個樣本歸屬于第j個情感類別的隸屬度μj(xi):其中采用的投影函數為對于第j個情感類別的所有可能的樣本構成的模糊集Ej={x1,x2,,xn},其隸屬度分別為μj(x1),μj(x2),,μj(xn),令其模糊熵為e(μj(xi)),類似于隨機熵的證明,可以得到模糊熵的表達式為其中K是大于0的數。將式(4)代入式(6)得,第i個樣本歸屬于第j個情感類別的模糊熵為對第i個待識別樣本的C個似然概率值構成的判決集合的平均模糊熵評價為將式(7)代入式(8)有對煩躁、喜悅和平靜3種情感類別的GMM模型,可以得到3個GMM似然概率密度值,分別代表樣本與3個情感類別的符合程度。似然概率密度值構成的判決集合的模糊熵越高表示樣本屬于煩躁、喜悅和平靜3種情感的不確定程度越大,當模糊熵超過一定閾值Th時則發(fā)生拒判,常數K取π/2。將式(9)代入式(10),即其中Th為實驗中確定的模糊熵閾值。閾值的選取既要保證待識別的目標情感類別得到正確的識別,又要兼顧未知的樣本不確定的情感得到拒判。5模糊熵閾值對測試結果的調節(jié)進行與說話人無關文本無關的情感識別測試,每種情感隨機抽取400條,分為兩組,一組300條樣本,進行GMM情感模型的訓練,3種情感共計900條,另一組100條樣本,用于測試識別率,3種情感共計300條。在誘發(fā)語音庫的原始語音中,通過聽辨實驗被剔除的情感語句共有479條,這些語句被認為是情感隸屬度較低的數據,選取其中隸屬度最低的100條,作為不確定的未知情感類別樣本,用于拒判測試。分別采用PCA方法的前10個特征維度和最佳特征組選擇方法的前10個最佳特征,使用可拒判的實用語音情感識別方法,對煩躁、喜悅和平靜3種情感的識別率進行測試。模糊熵閾值的設置關系到樣本的拒判,設定得過低,則對不確定樣本的拒判效果不明顯。設定得過高,則拒判的過多,會使得系統(tǒng)平均識別率降低。當部分樣本離已知的情感模型距離較遠時需要拒判,同時拒判也會使得某些測試樣本不能得到正確識別。所以應該在保證煩躁、喜悅、平靜等3個類別能夠獲得滿意的識別率的前提下,調節(jié)模糊熵閾值。當平均識別率發(fā)生明顯的下降時,此時的閾值為上限,實驗中模糊熵閾值設為0.1。本實驗中的訓練樣本數與測試樣本數比例為3:1,為了獲得更充分的實驗測試數據,將訓練樣本集中的900條樣本隨機等分成3份后,與測試樣本集中的300條樣本輪換,進行輪換測試。平均測試識別結果如表2和表3所示。根據識別測試結果,煩躁、喜悅和平靜3種情感,在本實驗中容易發(fā)生混淆的是煩躁和平靜,喜悅和平靜。在情感的維度空間模型中喜悅與煩躁位于愉悅度的兩端,差別較大,而平靜位于它們之間,因此相對來說喜悅容易與平靜混淆,煩躁容易與平靜混淆。從特征空間中的樣本分布情況來看,平靜類別的樣本分布明顯要比煩躁和喜悅的樣本分布更為集中,平靜情感的樣本具有較高的一致性,因此其識別率較煩躁和喜悅高。6不同實用語音情感的判別為進行煩躁、喜悅和平靜等實用語音情感的識別,本文提取了74個語音情感特征,平均
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安陽市殷都區(qū)2024年三上數學期末調研試題含解析
- 知識產權英語課件
- 2025屆平涼市三年級數學第一學期期末檢測試題含解析
- 2025年考試技巧強化試題及答案
- 糧食管理職責清單
- 2025年工程經濟模塊學習試題及答案
- 數媒藝術畢業(yè)設計
- 公共關系在文化傳播中的重要性試題及答案
- 電子商務交易安全練習題
- 酒店裝修設計作業(yè)指導書
- 雙向轉診管理制度 流程圖
- 中層管理崗位競聘申請表
- 沸騰爐常用參數
- GB/T 819.1-2000十字槽沉頭螺釘第1部分:鋼4.8級
- GB/T 19355.1-2016鋅覆蓋層鋼鐵結構防腐蝕的指南和建議第1部分:設計與防腐蝕的基本原則
- 08功能薄膜材料
- 在人民報創(chuàng)刊紀念會上的演說
- 房產稅稅收政策解析課件
- 辦文辦會制度(縣級)
- 最新結構新舊混凝土結構設計規(guī)范對比
- 醫(yī)院學科帶頭人選拔及激勵機制
評論
0/150
提交評論