結(jié)合語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別_第1頁(yè)
結(jié)合語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別_第2頁(yè)
結(jié)合語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別_第3頁(yè)
結(jié)合語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別_第4頁(yè)
結(jié)合語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

.緒論1.1研究背景與意義人類通過(guò)語(yǔ)言交流、非語(yǔ)言交流和書(shū)面表達(dá)等多種方式來(lái)交流溝通,語(yǔ)言是人與人之間交流的重要方式。隨著語(yǔ)音識(shí)別在過(guò)去幾十年的研究里取得了眾多成果,并在實(shí)際生活中投入應(yīng)用,例如阿里巴巴的AI智能終端“天貓精靈”、蘋(píng)果手機(jī)的Siri系統(tǒng)、搜索引擎各種語(yǔ)音識(shí)別等,人們需要人機(jī)交互更關(guān)注人的情感,讓計(jì)算機(jī)捕捉語(yǔ)音深度內(nèi)涵,使人機(jī)交流更具有人文關(guān)懷。情感是人類交流必不可少的,而語(yǔ)言中包含了大量的情感信息,是不可忽視的信息資源。在1997年,麻省理工媒體實(shí)驗(yàn)室的Picard教授提出了情感計(jì)算的概念[10],出版了圖書(shū)《Affectivecomputing》,介紹了情感的技術(shù)性問(wèn)題,指出情感計(jì)算是與情感相關(guān)的計(jì)算,它源于情感或能影響情感。中國(guó)科學(xué)院自動(dòng)化所的胡包剛、譚鐵牛也闡述了自己對(duì)于情感計(jì)算的定義,就是使計(jì)算機(jī)可以計(jì)算人類情感,可以識(shí)別和理解人類情感,進(jìn)一步可以回應(yīng)人類情感,賦予計(jì)算機(jī)更強(qiáng)大的綜合智能[]。語(yǔ)音情感識(shí)別(SpeechEmotionRecognition,SER)就是根據(jù)人說(shuō)話的語(yǔ)音來(lái)判斷語(yǔ)音情感狀態(tài)的一種技術(shù),隨著計(jì)算機(jī)技術(shù)的發(fā)展和對(duì)語(yǔ)音情感識(shí)別的深入研究,語(yǔ)音情感識(shí)別技術(shù)已經(jīng)有越來(lái)越多的實(shí)際應(yīng)用,例如在電子遠(yuǎn)程教學(xué)中獲取師生情感狀態(tài),幫助調(diào)整課堂模式;在電子游戲中識(shí)別玩家情感狀態(tài),給予玩家情感激勵(lì)或反饋;在駕駛員情緒失控時(shí),幫助輔助駕駛系統(tǒng)給予駕駛者情感安撫。語(yǔ)音情感識(shí)別還有更多應(yīng)用場(chǎng)景,市場(chǎng)廣闊,對(duì)它的研究極具現(xiàn)實(shí)意義。1.2歷史研究與現(xiàn)狀在1972年,Williams發(fā)現(xiàn)人在憤怒、悲傷、害怕時(shí)語(yǔ)音的平均功率、基音輪廓等有很大不同,人的情緒對(duì)語(yǔ)音信號(hào)影響很大[11]。1980年,梅爾倒譜系數(shù)(MFCC)被Davis和Mermelstein提出,它很好地代表了短期語(yǔ)音頻譜的感知相關(guān)方面,之后在語(yǔ)音識(shí)別方面產(chǎn)生了巨大成效[12]。時(shí)間邁入21世紀(jì),各類情感計(jì)算和語(yǔ)音識(shí)別相關(guān)會(huì)議和期刊被設(shè)立,例如2003年在北京舉辦的第屆國(guó)際情感計(jì)算和智能交互會(huì)議,2009年舉辦了語(yǔ)音情感挑戰(zhàn)賽(InterSpeech),于2010年創(chuàng)刊的IEEETransactionsonAffectiveComputing等。各種神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)算法也被不斷改進(jìn)應(yīng)用于語(yǔ)音情感識(shí)別,Basu使用梅爾倒譜系數(shù),結(jié)合CNN和LSTM,對(duì)測(cè)試集的準(zhǔn)確率達(dá)到了80%[13]。同在2017年的InterSpeech上,SattA使用語(yǔ)譜圖,同樣使用CNN+LSTM的模型,在語(yǔ)音情感分類上取得了不俗的效果[14]。Harar基于深度神經(jīng)網(wǎng)絡(luò)對(duì)Emo-DB語(yǔ)料庫(kù)的三類子集(憤怒、悲傷、中立)進(jìn)行了訓(xùn)練,總體準(zhǔn)確率可達(dá)到96.79%[15]。國(guó)內(nèi),東南大學(xué)的趙力教授率先提出了語(yǔ)音情感研究,張昕然利用深度信念模型和提出的特征融合方法,在跨庫(kù)語(yǔ)音情感識(shí)別上取得了很大提升[2]。蔣慶斌提出一種改進(jìn)的GMM模型識(shí)別耳語(yǔ)情感語(yǔ)音,證明了它在數(shù)據(jù)量較小時(shí)的訓(xùn)練成果較傳統(tǒng)GMM好[3]。在語(yǔ)譜圖的實(shí)驗(yàn)方面,東南大學(xué)的朱從賢將瓶頸特征用于CNN網(wǎng)絡(luò),對(duì)語(yǔ)譜圖進(jìn)行語(yǔ)音情感分類,驗(yàn)證了其優(yōu)越性[4]。陳平安用以SVM為分類器的CNN實(shí)驗(yàn)取,識(shí)別率可高達(dá)92%[5]。南京郵電大學(xué)的李?yuàn)櫤托飙囨脧恼Z(yǔ)譜圖中獲取深度譜特征,將語(yǔ)音情感識(shí)別率較傳統(tǒng)MFCC提升了3.97%[]。重慶郵電大學(xué)的張若凡基于先驗(yàn)信噪比,改進(jìn)維納濾波算法對(duì)語(yǔ)音庫(kù)數(shù)據(jù)增強(qiáng)后提取語(yǔ)譜圖,并驗(yàn)證了其可行性[]。1.3本文主要工作內(nèi)容及結(jié)構(gòu)安排本文的主要研究?jī)?nèi)容是結(jié)合語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別,對(duì)比不同語(yǔ)譜圖處理方式后使用兩種CNN網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),論文章節(jié)安排如下:第一章緒論,闡述了語(yǔ)音情感識(shí)別研究的背景、研究意義及應(yīng)用,整理了一些學(xué)者的工作成果;最后介紹了本論文的主要研究?jī)?nèi)容和章節(jié)安排。第二章介紹了語(yǔ)音情感識(shí)別和卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)原理和技術(shù),包括情感分類描述模型、常見(jiàn)的情感數(shù)據(jù)庫(kù),然后介紹了預(yù)加重、分幀加窗、端點(diǎn)檢測(cè)等對(duì)語(yǔ)音信號(hào)的預(yù)處理方法,介紹了語(yǔ)音信號(hào)的語(yǔ)譜圖特征和卷積神經(jīng)網(wǎng)絡(luò)基本原理。第三章介紹用語(yǔ)譜圖送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音情感識(shí)別,首先介紹了CNN基本原理,將語(yǔ)音信號(hào)轉(zhuǎn)化為語(yǔ)譜圖后,對(duì)語(yǔ)譜圖進(jìn)行不同處理,先實(shí)驗(yàn)了基礎(chǔ)CNN結(jié)構(gòu)在語(yǔ)音情感分類上的能力,再用不同大小卷積核提取時(shí)域和頻域上的特征,列出實(shí)驗(yàn)結(jié)果并進(jìn)行了分析。第四章對(duì)本文進(jìn)行總結(jié)。

2.相關(guān)技術(shù)及理論分析2.1情感描述模型在進(jìn)行語(yǔ)音情感識(shí)別之前先要確定情感的分類,才能讓機(jī)器進(jìn)行識(shí)別,心理學(xué)家們長(zhǎng)久以來(lái)都在討論、尋找合適的描述情感的模型,在這漫長(zhǎng)的討論中,產(chǎn)生了兩種主流的情感描述模型:離散情感描述模型和維度情感描述模型。2.1.1離散型情感模型離散型情感模型將情感分為離散的幾類基本情感,這些基本情感具有普遍性,例如高興、悲傷等,而其他較為復(fù)雜的情緒則是由基本情緒衍生出來(lái)的,稱之為繼發(fā)情緒,離散情感模型可以將情感打上標(biāo)簽,對(duì)于研究使用很方便。許多學(xué)者對(duì)基本情感的選擇做出了討論。表2-1是Otrony和Turmer歸納的研究者們使用的基本情感分類方式[16]:表2-1不同研究者的情感分類研究者情感分類Plutchik喜極、悲傷、羨慕、憎惡、恐懼、生氣、警惕、驚奇Arnold悲傷、憤怒、渴望、沮喪、熱愛(ài)、失望、期盼、厭惡、勇敢、憎恨Ekman憤怒、高興、害怕、悲傷、驚奇、厭惡Frijda渴望、高興、驚訝、關(guān)系、驚奇、悲傷Gray暴怒、恐懼、憂慮、高興Izard憤怒、輕視、厭惡、悲痛、驚奇、高興、羞愧、內(nèi)疚、害怕、關(guān)心James暴怒、悲傷、害怕、熱愛(ài)McDougall憤怒、高興、害怕、順從、厭惡、溫柔、驚訝Mowter痛苦、愉快Oatley/Johnson-Laird憤怒、高興、焦慮、悲傷、厭惡其中,美國(guó)心理學(xué)家Ekman根據(jù)普遍的人臉表情體現(xiàn)給出的生氣、厭惡、害怕、高興、悲傷和驚訝六種基本情緒[17]獲得了廣泛應(yīng)用。2.1.2維度型情感模型多維情感理論認(rèn)為人的情感是連續(xù)的、不斷變化的,可以被投射在一個(gè)多維度空間里,情緒相當(dāng)于一個(gè)點(diǎn),它映射到每個(gè)維度上的坐標(biāo)對(duì)應(yīng)該維度的屬性強(qiáng)度,描述情感能力就非常強(qiáng)大,理論上任何一種情感都能找到它對(duì)應(yīng)的點(diǎn)。其中較為典型的維度型情感模型有兩種,第一種是情感二維模型﹐其二維分別是效價(jià)(Valence)和喚醒度(Arousal)[18]。效價(jià)是用于描述情感狀態(tài)是處于正性情感還是負(fù)性情感的情感維度;喚醒度則是描述情感的激烈程度,反應(yīng)情感強(qiáng)度。上述兩情感維度可在三維空間形成一個(gè)二維情感特征平面,每個(gè)坐標(biāo)點(diǎn)都對(duì)應(yīng)為一種狀態(tài)下的情感。第二種模型是PAD(Pleasure-Arousal-Dominance)三維情感模型[19]。與二維情感模型類似,該情感模型認(rèn)為人類情感可以從:愉悅度、激活度及優(yōu)勢(shì)度三個(gè)方面對(duì)情感進(jìn)行相關(guān)描述。其中,愉悅度用于描述情感處于正性情感還是負(fù)性情感,用P表示;激活度類似于二維情感模型的喚醒度但又稍有區(qū)別,用于表示情感的激烈狀態(tài),與情感相應(yīng)的機(jī)體能量活躍程度有關(guān),用A表示;優(yōu)勢(shì)度用于表示情感主體對(duì)客體及情景的影響狀態(tài),用D表示。上述P、A、D三維構(gòu)成三維情感體系,三維坐標(biāo)點(diǎn)體現(xiàn)情感狀態(tài)。模型如圖2-1所示。圖2-1PAD情感描述模型離散型情感模型雖然簡(jiǎn)單易懂,可解釋性強(qiáng),但是刻畫(huà)的情感有限,無(wú)法描述更復(fù)雜的情感類型。維度型情感模型連續(xù),情感描述能力無(wú)限,但量化情感工作困難且難以保證質(zhì)量。2.2語(yǔ)音情感數(shù)據(jù)庫(kù)語(yǔ)音情感識(shí)別的基礎(chǔ)是語(yǔ)音情感數(shù)據(jù)庫(kù),語(yǔ)音情感識(shí)別的數(shù)據(jù)庫(kù)按照情感描述模型可分為離散型語(yǔ)音情感數(shù)據(jù)庫(kù)和維度型語(yǔ)音情感數(shù)據(jù)庫(kù),按照情感被激發(fā)的方式可分為表演型、引導(dǎo)型和自然型。下面介紹幾種常用的語(yǔ)音情感數(shù)據(jù)庫(kù):德國(guó)柏林(Emo-DB)情感數(shù)據(jù)庫(kù)[20]離散情感數(shù)據(jù)庫(kù),由德國(guó)柏林工業(yè)大學(xué)選擇5名女演員5名男演員錄制,演員對(duì)10個(gè)德語(yǔ)語(yǔ)音進(jìn)行表演,除包含上述Ekman給出的六種基本情緒,還增加了中性情感,共七種情感:生氣,悲傷,高興,害怕,中性,厭惡,無(wú)聊。語(yǔ)音都是在專業(yè)錄音室中完成錄制,演員通過(guò)回憶增強(qiáng)情感的真實(shí)感,最終篩選保留女性情感語(yǔ)音302條,男性情感語(yǔ)音233條,共535條語(yǔ)音,采樣率為16kHz。CASIA漢語(yǔ)情感數(shù)據(jù)庫(kù)[8]離散情感數(shù)據(jù)庫(kù),由中科院自動(dòng)化所選擇兩男兩女錄制,共500句不同的文本,被四人以不同的情感念出,最后人工篩選出了大約9600條語(yǔ)句。分為六類情感:悲傷、憤怒、驚訝、開(kāi)心、恐懼和中性。采用16kHz采樣率,16bit量化。FAUAIBO兒童德語(yǔ)情感數(shù)據(jù)庫(kù)[21]說(shuō)話人是51名兒童,其中30個(gè)女童,21個(gè)男童,年齡段為10-13歲,通過(guò)與索尼公司的AIBO機(jī)器狗進(jìn)行自然交互,從而進(jìn)行情感數(shù)據(jù)的采集。包含約9.2小時(shí)的語(yǔ)音,48401個(gè)單詞。采樣頻率被壓縮至16kHz,16bit量化。該數(shù)據(jù)庫(kù)是少數(shù)的自然型離散情感數(shù)據(jù)庫(kù),數(shù)據(jù)量大,是最流行的語(yǔ)音情感數(shù)據(jù)庫(kù)之一。VAM數(shù)據(jù)庫(kù)[22]維度型情感數(shù)據(jù)庫(kù),從德國(guó)電視脫口秀節(jié)目(VeraAmMittag)現(xiàn)場(chǎng)錄制的音視頻中選取,數(shù)據(jù)庫(kù)包含表情庫(kù)、語(yǔ)料庫(kù)、視頻庫(kù)3個(gè)部分。包含約12個(gè)小時(shí)的錄音,這些語(yǔ)音片段沒(méi)用劇本,來(lái)自真實(shí)的討論。情感的標(biāo)注由23位標(biāo)注者完成,標(biāo)簽為連續(xù)值,具體包含三個(gè)維度:valence,activation和dominance。數(shù)據(jù)采樣率為16kHz,16bit量化。2.3語(yǔ)音信號(hào)預(yù)處理由于發(fā)音、錄音條件限制,語(yǔ)音樣本總是會(huì)有環(huán)境噪音、電流聲等影響情感識(shí)別的因素。通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,一般是預(yù)加重、分幀加窗和端點(diǎn)檢測(cè),可以改善語(yǔ)音信號(hào)質(zhì)量,為語(yǔ)音情感識(shí)別創(chuàng)造更好的語(yǔ)音信號(hào)。2.1.2預(yù)加重由于發(fā)聲過(guò)程中人體器官的效應(yīng),語(yǔ)音信號(hào)在高頻段以6dB/倍頻跌落[9],預(yù)加重可提升高頻,使之更接近原始語(yǔ)音信號(hào),消除跌落效應(yīng)。廣泛使用的對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重的方程為:y(n)其中a為預(yù)加重系數(shù),a∈[0.9,1],一般取0.95,0.97或0.98。2.1.3加窗分幀語(yǔ)音信號(hào)是非平穩(wěn)的,但在短時(shí)間內(nèi)可看作是平穩(wěn)的,短時(shí)間范圍一般是10~30ms,幀長(zhǎng)也取10~30ms,取1/2左右時(shí)長(zhǎng)為幀移。幀移是相鄰兩幀間的重疊區(qū)域,避免相鄰兩幀的變化過(guò)大,加窗使全局更加連續(xù),為幀移,幀移幀長(zhǎng)的比值一般取為0~0.5。分幀會(huì)使語(yǔ)音信號(hào)產(chǎn)生間斷,使用一定的窗函數(shù)與語(yǔ)音信號(hào)相乘,可使它變得連續(xù),公式如下:s矩形窗、漢寧窗、漢明窗等都是常用的窗函數(shù):矩形窗:w漢寧窗:w漢明窗:w2.1.3端點(diǎn)檢測(cè)語(yǔ)音信號(hào)并從開(kāi)始到結(jié)束都是語(yǔ)音段,它常常還包含無(wú)聲段和噪聲,端點(diǎn)檢測(cè)算法就是在一段語(yǔ)音信號(hào)中確定語(yǔ)音段和非語(yǔ)音段,對(duì)語(yǔ)音信號(hào)進(jìn)行分割,去掉非語(yǔ)音段,而后再針對(duì)有聲段,找到語(yǔ)音信號(hào)真正有效的部分,減少數(shù)據(jù)運(yùn)算量。語(yǔ)音的端點(diǎn)檢測(cè)算法主要有雙門(mén)限端點(diǎn)檢測(cè)法、小波法和基于倒譜距離的檢測(cè)算法等。2.4語(yǔ)音信號(hào)語(yǔ)譜圖特征語(yǔ)譜圖通常指窄帶語(yǔ)譜圖,是用語(yǔ)音短時(shí)\t"/sinat_19628145/article/details/_blank"傅里葉變換的幅度畫(huà)出的二維圖片。橫軸代表時(shí)間,縱軸代表頻率,坐標(biāo)點(diǎn)值就是語(yǔ)音信號(hào)能量,可以通過(guò)時(shí)間與頻率確定坐標(biāo),坐標(biāo)點(diǎn)的像素顏色就表示能量值大小,顏色或者灰度深,表示該點(diǎn)的語(yǔ)音能量越強(qiáng)。語(yǔ)譜圖包含的語(yǔ)音信號(hào)的信息很多,如語(yǔ)音基頻、清音等,都可以從圖上看出,語(yǔ)譜圖對(duì)語(yǔ)音情感識(shí)別有很大作用。語(yǔ)譜圖構(gòu)建過(guò)程如圖2-2所示:圖2-2語(yǔ)譜圖實(shí)現(xiàn)過(guò)程首先對(duì)語(yǔ)音信號(hào)分幀加窗,xn其中,0≤k≤N?1,則P(n,k)=則P(n,k)為非負(fù)實(shí)函數(shù),以時(shí)間n為橫軸,頻率k為縱軸,將P(n,k)以灰度級(jí)構(gòu)成的二維圖像,就是語(yǔ)譜圖,如圖2-3所示。圖2-3語(yǔ)音波形圖和語(yǔ)譜圖基于語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別本節(jié)介紹了卷積神經(jīng)網(wǎng)絡(luò)基本原理,并將其應(yīng)用于語(yǔ)音情感識(shí)別。本節(jié)討論了語(yǔ)譜圖特征的切割和翻轉(zhuǎn)擴(kuò)增后對(duì)情感識(shí)別的影響,用兩種卷積神經(jīng)網(wǎng)絡(luò)分類了翻轉(zhuǎn)后的語(yǔ)譜圖,驗(yàn)證分析了其效果。3.1卷積神經(jīng)網(wǎng)絡(luò)基本原理卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)在1989年由LeCun構(gòu)建應(yīng)用于計(jì)算機(jī)視覺(jué)問(wèn)題[23],并在1998年他提出了卷積神經(jīng)網(wǎng)絡(luò)的第1個(gè)經(jīng)典架構(gòu)LeNet-5網(wǎng)絡(luò)并應(yīng)用在手寫(xiě)字體識(shí)別[24]。目前,CNN在許多領(lǐng)域如人臉識(shí)別、語(yǔ)音識(shí)別等都取得了巨大研究成果。與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不同,卷積神經(jīng)網(wǎng)絡(luò)含有特殊的卷積層和池化層,卷積層局部連接和權(quán)值共享的連接方式,大大降低了參數(shù)數(shù)量。池化可以實(shí)現(xiàn)下采樣,壓縮特征,去除冗余信息,降低網(wǎng)絡(luò)復(fù)雜度,減少參數(shù),同時(shí)擴(kuò)大感知野,有效的防止過(guò)擬合。3.1.1局部連接圖像空間具有局部相關(guān)性,一張圖像相近的像素之間聯(lián)系比較緊密,而稍遠(yuǎn)一點(diǎn)可能毫不相干,因此,一個(gè)神經(jīng)元不需要感知全局圖像。它只與前一層中的部分區(qū)域連接,感知局部信息,然后在高層整合,如圖3-1所示。網(wǎng)絡(luò)部分連通的思想,也是受啟發(fā)于動(dòng)物的視覺(jué)皮層結(jié)構(gòu)[],他們的視覺(jué)皮層也不全都在接收信息。圖3-1CNN局部連接3.1.2權(quán)值共享一個(gè)卷積核內(nèi)的參數(shù)不變,掃描整張圖片,不會(huì)因?yàn)閳D像內(nèi)的位置不同而改變自身的權(quán)值參數(shù)。假設(shè)一個(gè)卷積核在圖片某處做了濾波操作,在圖片其他地方也都是濾波操作,相當(dāng)于一個(gè)全局濾波,如果做的是邊緣檢測(cè),那相當(dāng)于整張圖片都做了同樣的邊緣檢測(cè)。想要不同的特征可以利用多個(gè)卷積核,這樣減少了參數(shù)數(shù)量,也實(shí)現(xiàn)了特征的自動(dòng)提取。3.1.3卷積和池化卷積層由一組濾波器組成,對(duì)上一層做內(nèi)積產(chǎn)生輸出,它能對(duì)上層數(shù)據(jù)進(jìn)行特征提取,如圖3-2所示。有助于找到特定的局部圖像特征(如邊緣等),輸入后層網(wǎng)絡(luò)。圖3-2卷積層示意直接使用卷積層獲得的特征訓(xùn)練計(jì)算量很大,也容易導(dǎo)致過(guò)擬合,池化層的主要是通過(guò)降采樣,在不影響圖像質(zhì)量的情況下進(jìn)行信息篩選,去除冗余信息,減少參數(shù)。池化方法一般有均值池化和最大池化,如圖3-3所示。圖3-3池化層示意3.2CNN網(wǎng)絡(luò)模型及實(shí)驗(yàn)實(shí)驗(yàn)選取1200句CASIA語(yǔ)料庫(kù)語(yǔ)音,本文中所有實(shí)驗(yàn)均在1臺(tái)CPU為Inteli5-8250U,GPU為NVIDIAGeForceMX1506GB顯存,內(nèi)存為8GB的計(jì)算機(jī)上完成,試驗(yàn)環(huán)境為Windows10操作系統(tǒng),tensorflow2.0版本,python版本為3.7。3.2.1CNN基礎(chǔ)模型本文先試驗(yàn)了一個(gè)基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類,它包括了四個(gè)卷積層,四個(gè)池化層和一個(gè)全連接層,經(jīng)過(guò)四輪卷積-池化過(guò)程后進(jìn)行分類,使用3×3大小的卷積核,在全連接層使用dropout函數(shù)防止過(guò)擬合,經(jīng)多次實(shí)驗(yàn)對(duì)比后采用0.5丟棄率,減少了神經(jīng)元之間復(fù)雜的相互適應(yīng),選擇softmax分類器,下面稱此模型為基礎(chǔ)CNN,模型如下圖3-4所示:圖3-4基本CNN模型示意圖經(jīng)過(guò)預(yù)處理得到語(yǔ)譜圖,劃分訓(xùn)練集和測(cè)試集后得到訓(xùn)練集1080張,調(diào)整成128×128大小送入上述卷積網(wǎng)絡(luò)模型,結(jié)果如下表所示:表3-1基礎(chǔ)CNN模型識(shí)別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.730.550.630.65恐懼0.620.650.63開(kāi)心0.600.750.67中性0.760.800.78悲傷0.590.650.62驚訝0.620.500.56macro0.660.650.65由上表可知,使用四層卷積-池化網(wǎng)絡(luò)的基礎(chǔ)CNN模型語(yǔ)譜圖情感識(shí)別率為65%,在識(shí)別中性情感上表現(xiàn)最好,precision達(dá)到0.76,F(xiàn)1-score是0.78,而在其他情感的識(shí)別上表現(xiàn)較差,其中驚訝、悲傷尤甚。3.2.2LeNet網(wǎng)絡(luò)接下來(lái)本文實(shí)驗(yàn)了卷積神經(jīng)網(wǎng)絡(luò)經(jīng)典模型LeNet,第一層卷積層,卷積核大小為5×5,32個(gè)特征卷積核,然后用最大池化進(jìn)行下采樣,池化濾波器大小為2×2,第三層卷積層卷積核依舊選擇5×5,64個(gè)特征卷積核,然后使用2×2最大池化,最后經(jīng)過(guò)三個(gè)全連接層輸出結(jié)果,如圖3-5所示:圖3-5LeNet模型示意圖原LeNet模型的sigmoid激活函數(shù)容易發(fā)生過(guò)飽和,使網(wǎng)絡(luò)不收斂,現(xiàn)在的模型換成了更加簡(jiǎn)單的relu激活函數(shù),減少了訓(xùn)練計(jì)算量,不易發(fā)生過(guò)飽和。語(yǔ)譜圖處理同上,送入LeNet網(wǎng)絡(luò),結(jié)果如下表:表3-SEQ表\*ARABIC1LeNet模型識(shí)別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.640.700.670.59恐懼0.570.400.47開(kāi)心0.560.700.62中性0.600.600.60悲傷0.550.550.55驚訝0.630.600.62macro0.590.590.59由上表可知,使用LeNet網(wǎng)絡(luò)的模型識(shí)別率為59%,模型精確率比基礎(chǔ)的CNN還低,和基礎(chǔ)CNN不同的是在憤怒情感的識(shí)別率上最高,在其他情感識(shí)別上表現(xiàn)較差,說(shuō)明模型的選擇還需進(jìn)一步探尋。但是在訓(xùn)練LeNet網(wǎng)絡(luò)的過(guò)程中,過(guò)早的出現(xiàn)了過(guò)擬合的情況,訓(xùn)練效果也更差,將基礎(chǔ)CNN的卷積核大小換成5×5也有此現(xiàn)象,所以本文判斷5×5大小卷積核不適用于提取語(yǔ)譜圖特征,下面不再使用。3.2.3VGG網(wǎng)絡(luò)接下來(lái)搭建了一個(gè)類VGG結(jié)構(gòu)的的CNN網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),整個(gè)模型一共五塊,每塊兩個(gè)卷積層,卷積核大小都是3×3,后接一個(gè)池化層,五個(gè)模塊的卷積層的卷積特征個(gè)數(shù)分別為32、64、128、256、256,五輪卷積-池化完成后送入三個(gè)全連接層,使用softmax分類器輸出結(jié)果。VGG網(wǎng)絡(luò)使用3×3小濾波器卷積層代替5×5或7×7的大濾波器卷積層,提升網(wǎng)絡(luò)深度,同時(shí)可以減少參數(shù)。本文在每塊的卷積層和池化層之間加入BatchNormalization層和relu激活函數(shù),提高網(wǎng)絡(luò)泛化能力,減少訓(xùn)練時(shí)間,同時(shí)在全連接層之前使用dropout函數(shù)防止模型過(guò)擬合,模型如圖3-6所示:圖3-6VGG模型示意圖語(yǔ)譜圖處理不變,送入VGG網(wǎng)絡(luò),結(jié)果如下:表SEQ表\*ARABIC2_3(序號(hào)問(wèn)題)類似VGG網(wǎng)絡(luò)模型識(shí)別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.750.750.750.75恐懼0.710.750.73開(kāi)心0.740.850.79中性0.890.850.87悲傷0.810.650.72驚訝0.620.650.63macro0.750.750.75由上表可知,使用類似VGG網(wǎng)絡(luò)的模型識(shí)別率為75%,模型精準(zhǔn)度較前兩個(gè)模型有了很大提升,同基礎(chǔ)CNN模型一樣在中性情感上的識(shí)別率最高,precision可達(dá)0.89,F(xiàn)1-score為0.87,在驚訝情感上的識(shí)別效果最差。3.2.4不同大小卷積核的CNN模型語(yǔ)譜圖的橫坐標(biāo)與縱坐標(biāo)分別表示了語(yǔ)音的時(shí)域與頻域信息,為了進(jìn)一步利用并結(jié)合這些信息,語(yǔ)譜圖被調(diào)整成124×124大小,用兩組不同形狀的卷積濾波器用來(lái)捕獲時(shí)域特征和頻域特征,結(jié)合后送入接下來(lái)的CNN中,其余CNN結(jié)構(gòu)與上述基本CNN結(jié)構(gòu)無(wú)區(qū)別。模型如圖3-7所示:圖3-7不同大小卷積核提取特征CNN示意圖在實(shí)驗(yàn)此模型時(shí),為了找到最佳的提取時(shí)域和頻域信息的濾波器形狀,單獨(dú)測(cè)試了第一層卷積層,將第一層卷積層形狀的寬度和高度從4到80不等,后續(xù)模型不變的情況下,分別獨(dú)立地實(shí)驗(yàn)了一下,在試驗(yàn)卷積核高度或?qū)挾葧r(shí),它的另一邊被固定為2,多次試驗(yàn)后,得到結(jié)果如圖3-8所示,橫軸為長(zhǎng)度,縱軸為精確度:圖3-8卷積核大小實(shí)驗(yàn)基于精確度結(jié)果,實(shí)驗(yàn)選擇2×10和8×2大小作為卷積核的最佳形狀,進(jìn)行接下來(lái)的對(duì)比實(shí)驗(yàn)。這樣能夠在時(shí)域和頻域上接收更多的信息提供給后續(xù)的學(xué)習(xí),相比使用大卷積核減少了參數(shù),減少過(guò)擬合的可能性,實(shí)驗(yàn)結(jié)果如下表3-4所示:表3-4CNN模型識(shí)別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.730.550.630.68恐懼0.710.750.73開(kāi)心0.610.850.71中性0.760.800.78悲傷0.740.700.72驚訝0.560.450.50macro0.690.680.68模型精準(zhǔn)度為0.68,相較于原先的CNN精準(zhǔn)度只提升了0.03,效果微薄,并不理想,低于模仿VGG模型的0.75精準(zhǔn)度。3.3語(yǔ)譜圖的處理實(shí)驗(yàn)3.3.1添加高斯噪聲高斯噪聲是一種正態(tài)分布的噪聲,圖片處理中由于設(shè)備等因素限制,處理的圖片與實(shí)際圖像有差距,于是常常通過(guò)添加高斯噪聲以求讓圖片達(dá)到一種更實(shí)際的效果。本文試著向語(yǔ)譜圖添加高斯噪聲,對(duì)語(yǔ)譜圖進(jìn)行數(shù)據(jù)增強(qiáng),也模擬真實(shí)條件下的語(yǔ)音信號(hào)。如圖3-9所示:圖3-9高斯噪聲示意圖在前文中基礎(chǔ)CNN的模型識(shí)別率較高,且結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練較為方便,所以使用基礎(chǔ)CNN作為驗(yàn)證模型,使用同樣的參數(shù)設(shè)置,同未處理的語(yǔ)譜圖數(shù)據(jù)做對(duì)比,結(jié)果如下表所示:表3-5添加高斯噪聲后識(shí)別率圖像處理模型精準(zhǔn)度原始語(yǔ)譜圖0.65添加0.001方差高斯噪聲0.68添加0.003方差高斯噪聲0.61添加0.005方差高斯噪聲0.53除添加0.001方差高斯噪聲的語(yǔ)譜圖模型識(shí)別率有0.03的提升之外,其余添加了更大方差的高斯噪聲的語(yǔ)譜圖識(shí)別率都是下降的,可以看到增加高斯噪聲對(duì)語(yǔ)譜圖的識(shí)別并沒(méi)有多大的效果,甚至對(duì)識(shí)別率產(chǎn)生負(fù)面影響。3.3.2語(yǔ)譜圖翻轉(zhuǎn)在訓(xùn)練CNN模型時(shí),若使用的數(shù)據(jù)集的樣本數(shù)較少,網(wǎng)絡(luò)容易過(guò)度擬合。雖然選取了1200條CASIA的語(yǔ)音,但對(duì)于CNN來(lái)說(shuō)數(shù)據(jù)量仍然可能不足,需要對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)增??紤]到語(yǔ)譜圖的橫軸代表時(shí)間,縱軸代表頻率,色彩表示該點(diǎn)能量值大小,與語(yǔ)音數(shù)據(jù)相對(duì)應(yīng),而語(yǔ)音倒放仍能聽(tīng)出語(yǔ)音蘊(yùn)含的情感,所以本文通過(guò)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)方式,不破壞語(yǔ)譜圖的音頻信息,增大數(shù)據(jù)量。如圖3-10所示:圖3-10翻轉(zhuǎn)示意語(yǔ)譜圖翻轉(zhuǎn)的實(shí)驗(yàn)仍然以原始語(yǔ)譜圖在基礎(chǔ)CNN上0.65的精準(zhǔn)度為對(duì)比,使用同樣的模型和參數(shù),多次實(shí)驗(yàn)后得到如下結(jié)果:表3-6翻轉(zhuǎn)語(yǔ)譜圖對(duì)比圖像處理模型精準(zhǔn)度原始語(yǔ)譜圖1080張0.65水平翻轉(zhuǎn)語(yǔ)譜圖1080張0.62二者結(jié)合2160張0.68可以看出語(yǔ)譜圖水平翻轉(zhuǎn)增加數(shù)據(jù)量之后之比之前精準(zhǔn)度增加了0.03,并不明顯,單獨(dú)將語(yǔ)譜圖翻轉(zhuǎn)送入CNN進(jìn)行訓(xùn)練結(jié)果甚至下降了。3.3.3不同語(yǔ)譜圖處理組合實(shí)驗(yàn)上文使用基礎(chǔ)CNN進(jìn)行語(yǔ)譜圖的處理實(shí)驗(yàn),獨(dú)立對(duì)比了原始語(yǔ)譜圖和使用不同數(shù)據(jù)增強(qiáng)方式后的語(yǔ)譜圖的情感分類效果,為了進(jìn)一步嘗試提升卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)譜圖情感分類上的效果,使用不同語(yǔ)譜圖數(shù)據(jù)增強(qiáng)方式的組合,分別在基礎(chǔ)CNN和上文表現(xiàn)最好的VGG網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),效果如下表所示:表SEQ表\*ARABIC3-7不同數(shù)據(jù)增強(qiáng)組合的實(shí)驗(yàn)基礎(chǔ)CNNVGG網(wǎng)絡(luò)原始語(yǔ)譜圖0.650.75原始語(yǔ)譜圖+翻轉(zhuǎn)語(yǔ)譜圖0.680.71原始語(yǔ)譜圖+高斯噪聲(0.001)0.730.66原始語(yǔ)譜圖+高斯噪聲(0.003)0.660.68原始語(yǔ)譜圖+高斯噪聲(0.005)0.670.67原始語(yǔ)譜圖+翻轉(zhuǎn)語(yǔ)譜圖+高斯噪聲(0.001)0.730.70原始語(yǔ)譜圖+翻轉(zhuǎn)語(yǔ)譜圖+高斯噪聲(0.003)0.710.72原始語(yǔ)譜圖+翻轉(zhuǎn)語(yǔ)譜圖+高斯噪聲(0.005)0.710.73可以看到,對(duì)于基礎(chǔ)CNN來(lái)說(shuō),不同的數(shù)據(jù)增強(qiáng)組合的準(zhǔn)確率都有一定提升,使用原始語(yǔ)譜圖+高斯噪聲語(yǔ)譜圖的識(shí)別率最高,為73%;然而在VGG網(wǎng)絡(luò)上,數(shù)據(jù)增強(qiáng)的組合卻使準(zhǔn)確率有不同程度的下降,其中原始語(yǔ)譜圖+高斯噪聲組合的準(zhǔn)確率最低,低于原始語(yǔ)譜圖+翻轉(zhuǎn)語(yǔ)譜圖和原始語(yǔ)譜圖+翻轉(zhuǎn)語(yǔ)譜圖+高斯噪聲的組合。結(jié)合前文,在使用基礎(chǔ)CNN獨(dú)立對(duì)比了原始語(yǔ)譜圖和使用不同數(shù)據(jù)增強(qiáng)方式后的語(yǔ)譜圖的情感分類效果時(shí)發(fā)現(xiàn),只有給語(yǔ)譜圖添加0.001方差高斯噪聲時(shí)效果有所提升,而其他情況下的實(shí)驗(yàn)效果均有所下降,說(shuō)明語(yǔ)譜圖翻轉(zhuǎn)或者添加高斯噪聲都會(huì)對(duì)語(yǔ)譜圖情感的識(shí)別產(chǎn)生負(fù)面影響。猜測(cè)原因語(yǔ)譜圖水平翻轉(zhuǎn)模擬了語(yǔ)音倒放,人的語(yǔ)言順序都是要順著聽(tīng)的,這樣做不符合人類表達(dá)情感的模式,也對(duì)語(yǔ)譜圖時(shí)域上的特征提取造成了不利影響;而高斯噪聲對(duì)語(yǔ)譜圖的坐標(biāo)點(diǎn)表達(dá)的能量值造成了干擾。對(duì)于基礎(chǔ)CNN網(wǎng)絡(luò),在進(jìn)行數(shù)據(jù)增強(qiáng)組合時(shí)也擴(kuò)大了數(shù)據(jù)量,使得識(shí)別效果有略微提升,說(shuō)明基礎(chǔ)CNN模型的識(shí)別效果在更大的數(shù)據(jù)集上還能有所提升,而對(duì)于其他網(wǎng)絡(luò),數(shù)據(jù)量的擴(kuò)大未能抵消不合適的數(shù)據(jù)增強(qiáng)帶來(lái)的負(fù)面效果,造成了識(shí)別率的下降。3.4小結(jié)本節(jié)使用了四個(gè)CNN模型對(duì)語(yǔ)譜圖進(jìn)行情感識(shí)別,一個(gè)基礎(chǔ)的CNN結(jié)構(gòu),一個(gè)用兩個(gè)不同大小卷積核提取特征之后結(jié)合的模型,還有LeNet模型和模仿VGG網(wǎng)絡(luò)構(gòu)造的模型。其中模仿VGG網(wǎng)絡(luò)的模型識(shí)別率最高,可達(dá)75%,其次是搭建的基礎(chǔ)CNN模型,識(shí)別率在65%左右,這二者對(duì)于中性情感的識(shí)別率都是最高的,在其余情感的識(shí)別則表現(xiàn)平平,之后使用兩種圖片數(shù)據(jù)增強(qiáng)方法:添加高斯噪聲和水平翻轉(zhuǎn),對(duì)比識(shí)別效果。在添加的高斯噪聲方差為0.001時(shí)略微提升,其余的識(shí)別率都有所下降。單獨(dú)將語(yǔ)譜圖水平翻轉(zhuǎn)識(shí)別率下降,將二者結(jié)合將數(shù)據(jù)量翻倍之后語(yǔ)譜圖識(shí)別效果勉強(qiáng)提升,但是仍然微薄,可見(jiàn)水平翻轉(zhuǎn)對(duì)語(yǔ)譜圖識(shí)別效果并無(wú)增益,反而可能擾亂了時(shí)頻域的特征提取。

總結(jié)本文結(jié)合語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音情感識(shí)別。首先闡述了語(yǔ)音情感識(shí)別研究的背景、研究意義及應(yīng)用,整理歸納了國(guó)內(nèi)外研究現(xiàn)狀;然后介紹了語(yǔ)音情感識(shí)別和卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)原理和技術(shù),包括情感分類模型、常見(jiàn)的語(yǔ)音情感數(shù)據(jù)庫(kù),然后介紹了一些常見(jiàn)的語(yǔ)音信號(hào)預(yù)處理方法,介紹了語(yǔ)音信號(hào)的語(yǔ)譜圖特征和卷積神經(jīng)網(wǎng)絡(luò)基本原理;最后做了基于語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別的實(shí)驗(yàn),將語(yǔ)音信號(hào)轉(zhuǎn)化為語(yǔ)譜圖,先后實(shí)驗(yàn)了四種CNN結(jié)構(gòu)在分類語(yǔ)音情感的效果,接下來(lái)對(duì)語(yǔ)譜圖進(jìn)行不同預(yù)處理:翻轉(zhuǎn)圖像和添加高斯噪聲,對(duì)比不同數(shù)據(jù)增強(qiáng)組合的實(shí)驗(yàn)效果,列出實(shí)驗(yàn)結(jié)果并進(jìn)行了分析。語(yǔ)譜圖翻轉(zhuǎn)和添加高斯噪聲后的識(shí)別率相較于原始的語(yǔ)譜圖未有明顯提高,四個(gè)網(wǎng)絡(luò)模型中模仿VGG網(wǎng)絡(luò)的模型精準(zhǔn)度最好。(加上改進(jìn)和未來(lái)展望)

參考文獻(xiàn)[1]胡包鋼,譚鐵牛,王鈺.情感計(jì)算一計(jì)算機(jī)科技發(fā)展的新課題[N].科學(xué)時(shí)報(bào),2000.3.24.[2]張昕然,巨曉正,宋鵬,查誠(chéng),趙力.用于跨庫(kù)語(yǔ)音情感識(shí)別的DBN特征融合方法.信號(hào)處理,2017,33(O5):649~660.[3]蔣慶斌,包永強(qiáng),王浩,等.基于改進(jìn)GMM的耳語(yǔ)語(yǔ)音情感識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(11):3.[4]朱從賢.基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別方法的研究[D].東南大學(xué),2016.[5]陳平安.結(jié)合語(yǔ)譜圖和神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別[D].湘潭大學(xué),2018.[6]李?yuàn)?徐瓏婷.基于語(yǔ)譜圖提取瓶頸特征的情感識(shí)別算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(05):82-86.[7]張若凡,黃俊,古來(lái),許二敏,古智星.基于語(yǔ)譜圖的老年人語(yǔ)音情感識(shí)別方法[J].軟件導(dǎo)刊,2018,17(09):28-31.[8]中科院自動(dòng)化研究所人機(jī)語(yǔ)音交互課題組.CASIA漢語(yǔ)情感語(yǔ)料庫(kù)[DB/OL].htp://data/39277,2012-05-17.[9]趙力.語(yǔ)音信號(hào)處理[M.北京:機(jī)械工業(yè)出版社,2003.[10]Picard,R.W.Affectivecomputing[M].Cambridge:MITPRress.1997.[11]WilliamsCE,StevensKN.Emotionsandspeech:someacousticalcorrelates[J].JourmaloftheAcousticSocietyofAmerica,1972,52(4):1238-1250.[12]Davis,S.andMermelstein,P.(1980)Comparisonofparametricrepresentationsformonosyllabicwordrecognitionincontinuouslyspokensentences.IEEETransactionsonAcoustics,SpeechandSignalProcessing,28,357-366.[13]BasuS,ChakrabortyJ,andAftabuddinM.EmotionRecognitionFromSpeechUsingConvolutionalNeuralNetworkwithRecurrentNeuralNetworkArchitecture[C].InternationalConferenceonCommunicationandElectronicsSystems(ICCES),2017:333-336.[14]SattA,RozenbergS,HooryR.EfficientEmotionRecognitionfromSpeechUsingDeepLearningonSpectrograms[C]Interspeech2017.2017.[15]HararP,BurgetR,DuttaMK.Speechemotionrecognitionwithdeeplearning[C]InternationalConferenceonSignalProcessing&IntegratedNetworks.IEEE,2017.[16]OrtonyA,TurnerTJ.What'sbasicaboutbasicemotions?[J].Psychologicalreview,1990,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論