語音情感識別課件_第1頁
語音情感識別課件_第2頁
語音情感識別課件_第3頁
語音情感識別課件_第4頁
語音情感識別課件_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

語音情感識別(SER)2022/12/252目錄SER背景SER應用SER發(fā)展與現(xiàn)狀SER流程情感理論和語音情感分類情感語音數(shù)據(jù)庫情感語音特征SER方法SER研究舉例SER存在的問題及思考主要參考文獻2022/12/2531、SER背景2022/12/255語音情感識別為什么研究語音情感識別呢?語音是人與人之間溝通的重要手段,也是傳遞情感的重要媒介,因而也就成為智能人機交互中人們期待的最為方便、自然的交互方式之一。研究熱點2022/12/2562、SER應用2022/12/257應用為什么我們需要SER呢?服務業(yè):電話通訊(呼叫中心)安全檢測:受害人呼救教育業(yè):遠程教學中的人文關懷,提高學習效率娛樂業(yè):玩具(AIBO狗,PLEO恐龍,小Q)、游戲工業(yè):汽車(車載監(jiān)控,安全性),手機,家電,情感香水噴射器醫(yī)學:情感虛擬人,情感交流…只要能夠想到的地方2022/12/258小Q2022/12/25103、SER發(fā)展與現(xiàn)狀2022/12/2512國外英國貝爾法斯特女王大學的情感語音組收集并創(chuàng)建了第一個大規(guī)模的高自然度聲音情感數(shù)據(jù)庫,RCowie,EDouglas-Cowie教授,2000年。重點研究心理學和語音分析。美國MIT媒體實驗室情感計算研究所()Picard教授領導的情感計算組是世界上第一個大規(guī)模研究情感及其計算的科研機構。美國南加州大學語音情感組()Narnyana教授,情感語音的聲學分析、合成和識別,以及有關笑聲的合成研究。2022/12/2514國內普通話和西方語系有地域、文化差異,不能完全照搬。要研究普通話SER東南大學無線電工程系 趙力教授的實驗小組在國內率先開展了普通話語音情感識別的研究,2001,采用PCA

南航電子工程系錢向民教授清華大學計算機科學與技術系 蔡蓮紅教授領導的人機語音交互實驗室模式識別國家重點實驗室 以陶建華博士為主的研究小組臺灣大同大學資訊工程學系 包蒼龍教授領導的數(shù)據(jù)通訊與信號處理實驗室其他:中科院自動化所、中國社科院語言研究所、哈工大、浙大、華南理工、中科大、江蘇大學等等2022/12/2515期刊會議國際語音通信協(xié)會(ISCA)每兩年舉辦一次Eurospeech和Interspeech國際會議。其他會議:ICASSP,ICSLP,ISCSLP

期刊:patternrecognition,JCR-2IEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE,JCR-1JOURNALOFTHEACOUSTICALSOCIETYOFAMERICA,JCR-3SpeechCommunication,JCR-4SignalProcessing,JCR-3COMPUTERSPEECHANDLANGUAGE,JCR-3IEEETransactionsonAudioSpeechandLanguageProcessing,JCR-32022/12/25164、SER流程2022/12/2517SER流程語音情感數(shù)據(jù)庫預處理:A/D轉換,高頻部分預加重(使信號頻譜變得平滑)用窗函數(shù)分幀,如漢明窗在每一個語音分析幀上提取瞬時特征,具體分為時域分析和變換域分析。特征太多則需要降維。訓練,可看成分類器,模式分類識別,模式匹配,分類2022/12/25185、情感理論和語音情感分類

——SER的前提一般認為有六大類基本情感:恐懼(fear)生氣(anger)高興(happiness)悲傷(sadness)吃驚(surprise)厭惡(disgust)復合情感由基本情感變化或混合得到——情感的調色板理論1、基本情感和復合情感2022/12/252022/12/25212、情感空間模型情感之間是連續(xù)和漸變的過程激勵—評價—強度空間模型激活度或喚醒度評價度或愉悅度強度維度或控制維2022/12/25234、三級情感模型按照情感中表現(xiàn)的主動和被動的程度,由粗到細。2022/12/25246、情感語音數(shù)據(jù)庫

——SER的基礎和對象

因為現(xiàn)階段的SER系統(tǒng)大多是基于語料庫的統(tǒng)計學習來實現(xiàn)的2022/12/2526情感語音數(shù)據(jù)庫4、柏林情感數(shù)據(jù)庫 引導型情感語音。日常交流中常用的十個德語語句,共800句語句,含七種情感:中性、憤怒、恐懼、高興、悲傷、厭惡和驚奇。5、漢語普通話情感語音數(shù)據(jù)庫(1)由中國科學院自動化研究所提供,所有的情感語料由專業(yè)和非專業(yè)人員模仿情感進行錄制,共9600條語音,包括6種情感:高興、生氣、驚奇、恐懼、悲傷、平靜。(2)東南大學無線工程系制作完成,表演型情感語音。由10名善于表演的男性話者對4個語句分別用喜、怒、驚、悲四種情感各發(fā)音三次收集到情感語句480句。其他包括西班牙語、瑞典語、荷蘭語等等。微軟研究院,浙大CCNT實驗室的MASC2022/12/2527情感語音數(shù)據(jù)的獲取方法自己怎樣獲取語音情感數(shù)據(jù)呢?比較困難,方法:演員表演:想象,朗讀。一句話多種情感,去除語義的影響。虛擬環(huán)境中誘發(fā)情感:例如玩游戲?,F(xiàn)實生活:最真實,較困難。廣播、電視、媒體2022/12/2528情感語音數(shù)據(jù)的獲取的原則Douglas-Cowie提出了情感數(shù)據(jù)庫建立必須依據(jù)的四個原則:①真實性,數(shù)據(jù)庫中的素材應是人們所經(jīng)歷過的真實的情感體驗。②交互性,數(shù)據(jù)庫中的情感素材應是人們在人與人之間交互過程中產生的,這樣更接近于語音情感人機交互的目的。③連續(xù)性,情感素材應在連續(xù)的情感場景中發(fā)生,存在著多種情感狀態(tài)的轉移。④豐富性,數(shù)據(jù)庫中的情感素材應盡可能地包含多媒體信息,如聲音,表情等。2022/12/25307、情感語音特征

不同的情感,不同的語音特征2022/12/2531情感語音特征不同情感對語音產生了什么影響?可以通過哪些特征反映出來呢?韻律特征:最主要的語音情感特征。如語速、音量、音調等,例如發(fā)怒時,都會增加。語音特征:振幅、共振峰頻率、基音頻率、持續(xù)時間等2022/12/2532特征應該具有的特點區(qū)分性。特征應具有很高的區(qū)別情感的能力,而在同類的情感語音發(fā)生變化時保持相對穩(wěn)定。魯棒性。當語音受到諸如傳輸通道、噪聲等的影響時,特征對這些影響的敏感性較小。可表示性。只有轉化為易于計算機表示和計算的特征才能用于自動語音情感識別。提取的效率。特征提取的時間應越快越好,對于實時性要求較高的場合特征提取的效率尤為重要。2022/12/2533情感語音特征情感語音特征的具體提取方法教材P85注意事項:韻律特征和語音特征要結合分析情感語音和平靜語音相對關系,找出這種相對特征的構造、特點和分布規(guī)律。以消除語義影響。2022/12/25348、SER方法

SER本質上屬于模式識別2022/12/2535SER方法哪些模式識別的方法可用于SER呢?哪些分類算法?PCA決策樹ANNK近鄰GMMVQ、DTW、HMM樸素貝葉斯SVM集成學習算法:多個子分類器組合成一個模型,如Boosting,BaggingEA、GA半監(jiān)督學習2022/12/2536PCA1、進行規(guī)范化處理,即將數(shù)據(jù)都轉化為標準正態(tài)分布序列。2、假設有M個樣本信號,S個特征參數(shù),J種情感類別。例如:J=6,S=8。分別計算第s個特征參數(shù)相對于不同的情感類別j所具有的均值μjs和標準差σjs,并計算:第s個特征參數(shù)在情感類別中的分離性:

集中性:

辨別能力:3、對S個參數(shù)按Hs由大到小排序,取前q個作為識別用特征。4、求出每種情感類別訓練樣本主元素特征矢量集的重心和方差。5、待識別樣本的主元素向量和各類別重心的馬氏距離,距離最近的即為識別結果。2022/12/2537識別引擎實例中科院語音情感識別引擎評價指標識別率計算效率2022/12/25389、SER研究舉例

黃程韋,趙艷等.實用語音情感的特征分析與識別的研究.電子與信息學報,2011,33(1)2022/12/2539語音情感數(shù)據(jù)的采集語音情感數(shù)據(jù)的采集:通過計算機游戲誘發(fā)情感。愉悅、煩躁、平靜依據(jù):在實驗心理學中,計算機游戲通過畫面和音樂的視覺、聽覺刺激,能提供一個互動的、具有較強感染力的人機交互環(huán)境,能夠有效地誘發(fā)出被試人員的正面與負面的情感。特別是在游戲接連勝利時,被試人員由于在游戲虛擬場景中的成功與滿足,被誘發(fā)出喜悅的情感;在游戲連續(xù)失敗時,被試人員在虛擬場景中受到挫折,容易引發(fā)包括煩躁在內的負面情感。在進行較長時間的實驗過程中,重復性的游戲操作和失敗,能順利地誘發(fā)煩躁情感。對于語句文本的設計,考慮到煩躁等實用語音情感識別的一個主要應用領域為長期的航空、航天和航海任務所引發(fā)的負面情緒的評估,20句無情感傾向性的工作用語短句選自國際海事組織(IMO)發(fā)布的《標準航海通信用語》(SMCP)。2022/12/2540特征提取使用了74個全局統(tǒng)計特征,前36個為韻律特征,后38個特征為音質特征。韻律特征主要和激活度的相關性較大,音質特征與愉悅度的相關性較大特征1-10:短時能量及其差分的均值、最大值、最小值、中值、方差;特征11-25:基音及其一階、二階差分的均值、最大值、最小值、中值、方差;特征26:基音范圍;特征27-36:發(fā)音幀數(shù)、不發(fā)音幀數(shù)、不發(fā)音幀數(shù)和發(fā)音幀數(shù)之比、發(fā)音幀數(shù)和總幀數(shù)之比、發(fā)音區(qū)域數(shù)、不發(fā)音區(qū)域數(shù)、發(fā)音區(qū)域數(shù)和不發(fā)音區(qū)域數(shù)之比、發(fā)音區(qū)域數(shù)和總區(qū)域數(shù)之比、最長發(fā)音區(qū)域數(shù)、最長不發(fā)音區(qū)域數(shù);2022/12/2541特征提取特征37-66:第1、第2、第3共振峰及其一階差分的均值、最大值、最小值、中值、方差;特征67-69:250Hz以下譜能量百分比、650Hz以下譜能量百分比、4kHz以上譜能量百分比。特征70-74:諧波噪聲比(HNR)的均值、最大值、最小值、中值、方差。諧波噪聲比用來做為反映情感變化的音質特征。2022/12/2542降維采用fisher準則進行特征評價,選擇前10個最佳特征。2022/12/2543可拒判的識別方法拒判:實際環(huán)境中情感具有模糊和不確定性,存在不屬于任何一種情感的情況。方法:GMM+似然概率模糊熵采用GMM對煩躁、喜悅和平靜3種情感進行建模,每種情感對應一個GMM模型,通過最大后驗概率準則判決。xi表示第i條語句樣本,λj表示情感類別j,最大后驗概率可以表示為:P(xi|λj)通過每個情感的GMM模型得到。P(λj)=1/C,1≤j≤C待識別的樣本判決為:2022/12/2544可拒判的識別方法待識別的樣本到達時,分別通過C種情感的GMM模型,得到C個GMM似然概率密度值,以GMM似然概率密度值映射到0到1之間作為第i個樣本歸屬于第j個情感類別的隸屬度μj(xi):2022/12/2545可拒判的識別方法整理一下:對煩躁、喜悅和平靜3種情感類別的GMM模型,可以得到3個GMM似然概率密度值,分別代表樣本與3個情感類別的符合程度。似然概率密度值構成的判決集合的模糊熵越高表示樣本屬于煩躁、喜悅和平靜3種情感的不確定程度越大,當模糊熵超過一定閾值Th時則發(fā)生拒判,常數(shù)K取π/2。其中Th為實驗中確定的模糊熵閾值。閾值的選取既要保證待識別的目標情感類別得到正確的識別,又要兼顧未知的樣本不確定的情感得到拒判。2022/12/2546實驗測試和結果2022/12/254710、SER存在的問題及思考2022/12/2548SER存在的問題(1)情感語音語料有效的獲取方法。(2)情感定義不明確,人們尚未對情感分類標準達成共識,不便于計算機語言描述。(3)尚未找到簡單、可靠的語音情感特征參數(shù)。語音信號中包含除情感信息外的其它信息,并且,語音情感信息容易受環(huán)境、生理、心理、文化背景、語境、語義等因素的影響。(4)情感特征的準確提取是語音情感識別中的難點,例如基音周期的準確提取方法。(5)缺乏高效、穩(wěn)定的語音情感識別算法,大多數(shù)算法對實驗數(shù)據(jù)的依賴性較強,鮮有文獻從算法機理上進行分析比較。(6)很多結論和方法都有其特定的適用條件,對這些研究成果優(yōu)化組合是一個重要的課題。(7)評價時,需要大量的仿真測試,目前缺乏開發(fā)出合理有效的系統(tǒng)平臺來完成這些測試任務。2022/12/254911、主要參考文獻2022/12/2550學位論文[1]趙臘生.語音情感特征提取與識別方法研究.大連理工大學博士學位論文,2010[2]陸捷榮.基于流形學習與D-S證據(jù)理論的語音情感識別研究.江蘇大學碩士學位論文,2010[3]劉佳.語音情感識別的研究與應用.浙江大學博士學位論文,2009[4]陳佳.語音信號情感識別.中南大學碩士學位論文,20082022/12/2551學位論文[5]謝環(huán).基于特征選擇與融合的語音情感識別研究與實現(xiàn),南京航空航天大學碩士學位論文,2008[6]尤鳴宇.語音情感識別的關鍵技術研究.浙江大學博士學位論文,2007[7]韓文靜.基于神經(jīng)網(wǎng)絡的語音情感識別技術研究.哈爾濱工業(yè)大學碩士學位論文,2007[8]謝波.普通話語音情感識別關鍵技術研究.浙江大學博士學位論文,20062022/12/2552中文期刊論文[1]黃程韋,趙艷等.實用語音情感的特征分析與識別的研究.電子與信息學報,2011,33(1)[2]林奕琳,韋崗,楊康才.語音情感識別的研究進展.電路與系統(tǒng)學報,2007,12(1)[3]郭鵬娟,蔣冬梅.基于基頻特征的情感語音識別研究.計算機應用研究,2007,24(10)[4]姜曉慶,田嵐,崔國輝.多語種情感語音的韻律特征分析和情感識別研究.聲學學報,2006,3(13)[5]趙力,

錢向民等,語音信號中的情感識別研究.軟件學報,2001,12(7)2022/12/2553英文期刊論文[1]A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論