結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別_第1頁
結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別_第2頁
結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別_第3頁
結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別_第4頁
結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

.緒論1.1研究背景與意義人類通過語言交流、非語言交流和書面表達等多種方式來交流溝通,語言是人與人之間交流的重要方式。隨著語音識別在過去幾十年的研究里取得了眾多成果,并在實際生活中投入應(yīng)用,例如阿里巴巴的AI智能終端“天貓精靈”、蘋果手機的Siri系統(tǒng)、搜索引擎各種語音識別等,人們需要人機交互更關(guān)注人的情感,讓計算機捕捉語音深度內(nèi)涵,使人機交流更具有人文關(guān)懷。情感是人類交流必不可少的,而語言中包含了大量的情感信息,是不可忽視的信息資源。在1997年,麻省理工媒體實驗室的Picard教授提出了情感計算的概念[10],出版了圖書《Affectivecomputing》,介紹了情感的技術(shù)性問題,指出情感計算是與情感相關(guān)的計算,它源于情感或能影響情感。中國科學(xué)院自動化所的胡包剛、譚鐵牛也闡述了自己對于情感計算的定義,就是使計算機可以計算人類情感,可以識別和理解人類情感,進一步可以回應(yīng)人類情感,賦予計算機更強大的綜合智能[]。語音情感識別(SpeechEmotionRecognition,SER)就是根據(jù)人說話的語音來判斷語音情感狀態(tài)的一種技術(shù),隨著計算機技術(shù)的發(fā)展和對語音情感識別的深入研究,語音情感識別技術(shù)已經(jīng)有越來越多的實際應(yīng)用,例如在電子遠程教學(xué)中獲取師生情感狀態(tài),幫助調(diào)整課堂模式;在電子游戲中識別玩家情感狀態(tài),給予玩家情感激勵或反饋;在駕駛員情緒失控時,幫助輔助駕駛系統(tǒng)給予駕駛者情感安撫。語音情感識別還有更多應(yīng)用場景,市場廣闊,對它的研究極具現(xiàn)實意義。1.2歷史研究與現(xiàn)狀在1972年,Williams發(fā)現(xiàn)人在憤怒、悲傷、害怕時語音的平均功率、基音輪廓等有很大不同,人的情緒對語音信號影響很大[11]。1980年,梅爾倒譜系數(shù)(MFCC)被Davis和Mermelstein提出,它很好地代表了短期語音頻譜的感知相關(guān)方面,之后在語音識別方面產(chǎn)生了巨大成效[12]。時間邁入21世紀,各類情感計算和語音識別相關(guān)會議和期刊被設(shè)立,例如2003年在北京舉辦的第屆國際情感計算和智能交互會議,2009年舉辦了語音情感挑戰(zhàn)賽(InterSpeech),于2010年創(chuàng)刊的IEEETransactionsonAffectiveComputing等。各種神經(jīng)網(wǎng)絡(luò)與機器學(xué)習(xí)算法也被不斷改進應(yīng)用于語音情感識別,Basu使用梅爾倒譜系數(shù),結(jié)合CNN和LSTM,對測試集的準確率達到了80%[13]。同在2017年的InterSpeech上,SattA使用語譜圖,同樣使用CNN+LSTM的模型,在語音情感分類上取得了不俗的效果[14]。Harar基于深度神經(jīng)網(wǎng)絡(luò)對Emo-DB語料庫的三類子集(憤怒、悲傷、中立)進行了訓(xùn)練,總體準確率可達到96.79%[15]。國內(nèi),東南大學(xué)的趙力教授率先提出了語音情感研究,張昕然利用深度信念模型和提出的特征融合方法,在跨庫語音情感識別上取得了很大提升[2]。蔣慶斌提出一種改進的GMM模型識別耳語情感語音,證明了它在數(shù)據(jù)量較小時的訓(xùn)練成果較傳統(tǒng)GMM好[3]。在語譜圖的實驗方面,東南大學(xué)的朱從賢將瓶頸特征用于CNN網(wǎng)絡(luò),對語譜圖進行語音情感分類,驗證了其優(yōu)越性[4]。陳平安用以SVM為分類器的CNN實驗取,識別率可高達92%[5]。南京郵電大學(xué)的李姍和徐瓏婷從語譜圖中獲取深度譜特征,將語音情感識別率較傳統(tǒng)MFCC提升了3.97%[]。重慶郵電大學(xué)的張若凡基于先驗信噪比,改進維納濾波算法對語音庫數(shù)據(jù)增強后提取語譜圖,并驗證了其可行性[]。1.3本文主要工作內(nèi)容及結(jié)構(gòu)安排本文的主要研究內(nèi)容是結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別,對比不同語譜圖處理方式后使用兩種CNN網(wǎng)絡(luò)進行實驗,論文章節(jié)安排如下:第一章緒論,闡述了語音情感識別研究的背景、研究意義及應(yīng)用,整理了一些學(xué)者的工作成果;最后介紹了本論文的主要研究內(nèi)容和章節(jié)安排。第二章介紹了語音情感識別和卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)原理和技術(shù),包括情感分類描述模型、常見的情感數(shù)據(jù)庫,然后介紹了預(yù)加重、分幀加窗、端點檢測等對語音信號的預(yù)處理方法,介紹了語音信號的語譜圖特征和卷積神經(jīng)網(wǎng)絡(luò)基本原理。第三章介紹用語譜圖送入卷積神經(jīng)網(wǎng)絡(luò)進行語音情感識別,首先介紹了CNN基本原理,將語音信號轉(zhuǎn)化為語譜圖后,對語譜圖進行不同處理,先實驗了基礎(chǔ)CNN結(jié)構(gòu)在語音情感分類上的能力,再用不同大小卷積核提取時域和頻域上的特征,列出實驗結(jié)果并進行了分析。第四章對本文進行總結(jié)。

2.相關(guān)技術(shù)及理論分析2.1情感描述模型在進行語音情感識別之前先要確定情感的分類,才能讓機器進行識別,心理學(xué)家們長久以來都在討論、尋找合適的描述情感的模型,在這漫長的討論中,產(chǎn)生了兩種主流的情感描述模型:離散情感描述模型和維度情感描述模型。2.1.1離散型情感模型離散型情感模型將情感分為離散的幾類基本情感,這些基本情感具有普遍性,例如高興、悲傷等,而其他較為復(fù)雜的情緒則是由基本情緒衍生出來的,稱之為繼發(fā)情緒,離散情感模型可以將情感打上標(biāo)簽,對于研究使用很方便。許多學(xué)者對基本情感的選擇做出了討論。表2-1是Otrony和Turmer歸納的研究者們使用的基本情感分類方式[16]:表2-1不同研究者的情感分類研究者情感分類Plutchik喜極、悲傷、羨慕、憎惡、恐懼、生氣、警惕、驚奇Arnold悲傷、憤怒、渴望、沮喪、熱愛、失望、期盼、厭惡、勇敢、憎恨Ekman憤怒、高興、害怕、悲傷、驚奇、厭惡Frijda渴望、高興、驚訝、關(guān)系、驚奇、悲傷Gray暴怒、恐懼、憂慮、高興Izard憤怒、輕視、厭惡、悲痛、驚奇、高興、羞愧、內(nèi)疚、害怕、關(guān)心James暴怒、悲傷、害怕、熱愛McDougall憤怒、高興、害怕、順從、厭惡、溫柔、驚訝Mowter痛苦、愉快Oatley/Johnson-Laird憤怒、高興、焦慮、悲傷、厭惡其中,美國心理學(xué)家Ekman根據(jù)普遍的人臉表情體現(xiàn)給出的生氣、厭惡、害怕、高興、悲傷和驚訝六種基本情緒[17]獲得了廣泛應(yīng)用。2.1.2維度型情感模型多維情感理論認為人的情感是連續(xù)的、不斷變化的,可以被投射在一個多維度空間里,情緒相當(dāng)于一個點,它映射到每個維度上的坐標(biāo)對應(yīng)該維度的屬性強度,描述情感能力就非常強大,理論上任何一種情感都能找到它對應(yīng)的點。其中較為典型的維度型情感模型有兩種,第一種是情感二維模型﹐其二維分別是效價(Valence)和喚醒度(Arousal)[18]。效價是用于描述情感狀態(tài)是處于正性情感還是負性情感的情感維度;喚醒度則是描述情感的激烈程度,反應(yīng)情感強度。上述兩情感維度可在三維空間形成一個二維情感特征平面,每個坐標(biāo)點都對應(yīng)為一種狀態(tài)下的情感。第二種模型是PAD(Pleasure-Arousal-Dominance)三維情感模型[19]。與二維情感模型類似,該情感模型認為人類情感可以從:愉悅度、激活度及優(yōu)勢度三個方面對情感進行相關(guān)描述。其中,愉悅度用于描述情感處于正性情感還是負性情感,用P表示;激活度類似于二維情感模型的喚醒度但又稍有區(qū)別,用于表示情感的激烈狀態(tài),與情感相應(yīng)的機體能量活躍程度有關(guān),用A表示;優(yōu)勢度用于表示情感主體對客體及情景的影響狀態(tài),用D表示。上述P、A、D三維構(gòu)成三維情感體系,三維坐標(biāo)點體現(xiàn)情感狀態(tài)。模型如圖2-1所示。圖2-1PAD情感描述模型離散型情感模型雖然簡單易懂,可解釋性強,但是刻畫的情感有限,無法描述更復(fù)雜的情感類型。維度型情感模型連續(xù),情感描述能力無限,但量化情感工作困難且難以保證質(zhì)量。2.2語音情感數(shù)據(jù)庫語音情感識別的基礎(chǔ)是語音情感數(shù)據(jù)庫,語音情感識別的數(shù)據(jù)庫按照情感描述模型可分為離散型語音情感數(shù)據(jù)庫和維度型語音情感數(shù)據(jù)庫,按照情感被激發(fā)的方式可分為表演型、引導(dǎo)型和自然型。下面介紹幾種常用的語音情感數(shù)據(jù)庫:德國柏林(Emo-DB)情感數(shù)據(jù)庫[20]離散情感數(shù)據(jù)庫,由德國柏林工業(yè)大學(xué)選擇5名女演員5名男演員錄制,演員對10個德語語音進行表演,除包含上述Ekman給出的六種基本情緒,還增加了中性情感,共七種情感:生氣,悲傷,高興,害怕,中性,厭惡,無聊。語音都是在專業(yè)錄音室中完成錄制,演員通過回憶增強情感的真實感,最終篩選保留女性情感語音302條,男性情感語音233條,共535條語音,采樣率為16kHz。CASIA漢語情感數(shù)據(jù)庫[8]離散情感數(shù)據(jù)庫,由中科院自動化所選擇兩男兩女錄制,共500句不同的文本,被四人以不同的情感念出,最后人工篩選出了大約9600條語句。分為六類情感:悲傷、憤怒、驚訝、開心、恐懼和中性。采用16kHz采樣率,16bit量化。FAUAIBO兒童德語情感數(shù)據(jù)庫[21]說話人是51名兒童,其中30個女童,21個男童,年齡段為10-13歲,通過與索尼公司的AIBO機器狗進行自然交互,從而進行情感數(shù)據(jù)的采集。包含約9.2小時的語音,48401個單詞。采樣頻率被壓縮至16kHz,16bit量化。該數(shù)據(jù)庫是少數(shù)的自然型離散情感數(shù)據(jù)庫,數(shù)據(jù)量大,是最流行的語音情感數(shù)據(jù)庫之一。VAM數(shù)據(jù)庫[22]維度型情感數(shù)據(jù)庫,從德國電視脫口秀節(jié)目(VeraAmMittag)現(xiàn)場錄制的音視頻中選取,數(shù)據(jù)庫包含表情庫、語料庫、視頻庫3個部分。包含約12個小時的錄音,這些語音片段沒用劇本,來自真實的討論。情感的標(biāo)注由23位標(biāo)注者完成,標(biāo)簽為連續(xù)值,具體包含三個維度:valence,activation和dominance。數(shù)據(jù)采樣率為16kHz,16bit量化。2.3語音信號預(yù)處理由于發(fā)音、錄音條件限制,語音樣本總是會有環(huán)境噪音、電流聲等影響情感識別的因素。通過對語音信號進行預(yù)處理,一般是預(yù)加重、分幀加窗和端點檢測,可以改善語音信號質(zhì)量,為語音情感識別創(chuàng)造更好的語音信號。2.1.2預(yù)加重由于發(fā)聲過程中人體器官的效應(yīng),語音信號在高頻段以6dB/倍頻跌落[9],預(yù)加重可提升高頻,使之更接近原始語音信號,消除跌落效應(yīng)。廣泛使用的對語音信號進行預(yù)加重的方程為:y(n)其中a為預(yù)加重系數(shù),a∈[0.9,1],一般取0.95,0.97或0.98。2.1.3加窗分幀語音信號是非平穩(wěn)的,但在短時間內(nèi)可看作是平穩(wěn)的,短時間范圍一般是10~30ms,幀長也取10~30ms,取1/2左右時長為幀移。幀移是相鄰兩幀間的重疊區(qū)域,避免相鄰兩幀的變化過大,加窗使全局更加連續(xù),為幀移,幀移幀長的比值一般取為0~0.5。分幀會使語音信號產(chǎn)生間斷,使用一定的窗函數(shù)與語音信號相乘,可使它變得連續(xù),公式如下:s矩形窗、漢寧窗、漢明窗等都是常用的窗函數(shù):矩形窗:w漢寧窗:w漢明窗:w2.1.3端點檢測語音信號并從開始到結(jié)束都是語音段,它常常還包含無聲段和噪聲,端點檢測算法就是在一段語音信號中確定語音段和非語音段,對語音信號進行分割,去掉非語音段,而后再針對有聲段,找到語音信號真正有效的部分,減少數(shù)據(jù)運算量。語音的端點檢測算法主要有雙門限端點檢測法、小波法和基于倒譜距離的檢測算法等。2.4語音信號語譜圖特征語譜圖通常指窄帶語譜圖,是用語音短時\t"/sinat_19628145/article/details/_blank"傅里葉變換的幅度畫出的二維圖片。橫軸代表時間,縱軸代表頻率,坐標(biāo)點值就是語音信號能量,可以通過時間與頻率確定坐標(biāo),坐標(biāo)點的像素顏色就表示能量值大小,顏色或者灰度深,表示該點的語音能量越強。語譜圖包含的語音信號的信息很多,如語音基頻、清音等,都可以從圖上看出,語譜圖對語音情感識別有很大作用。語譜圖構(gòu)建過程如圖2-2所示:圖2-2語譜圖實現(xiàn)過程首先對語音信號分幀加窗,xn其中,0≤k≤N?1,則P(n,k)=則P(n,k)為非負實函數(shù),以時間n為橫軸,頻率k為縱軸,將P(n,k)以灰度級構(gòu)成的二維圖像,就是語譜圖,如圖2-3所示。圖2-3語音波形圖和語譜圖基于語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別本節(jié)介紹了卷積神經(jīng)網(wǎng)絡(luò)基本原理,并將其應(yīng)用于語音情感識別。本節(jié)討論了語譜圖特征的切割和翻轉(zhuǎn)擴增后對情感識別的影響,用兩種卷積神經(jīng)網(wǎng)絡(luò)分類了翻轉(zhuǎn)后的語譜圖,驗證分析了其效果。3.1卷積神經(jīng)網(wǎng)絡(luò)基本原理卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)在1989年由LeCun構(gòu)建應(yīng)用于計算機視覺問題[23],并在1998年他提出了卷積神經(jīng)網(wǎng)絡(luò)的第1個經(jīng)典架構(gòu)LeNet-5網(wǎng)絡(luò)并應(yīng)用在手寫字體識別[24]。目前,CNN在許多領(lǐng)域如人臉識別、語音識別等都取得了巨大研究成果。與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不同,卷積神經(jīng)網(wǎng)絡(luò)含有特殊的卷積層和池化層,卷積層局部連接和權(quán)值共享的連接方式,大大降低了參數(shù)數(shù)量。池化可以實現(xiàn)下采樣,壓縮特征,去除冗余信息,降低網(wǎng)絡(luò)復(fù)雜度,減少參數(shù),同時擴大感知野,有效的防止過擬合。3.1.1局部連接圖像空間具有局部相關(guān)性,一張圖像相近的像素之間聯(lián)系比較緊密,而稍遠一點可能毫不相干,因此,一個神經(jīng)元不需要感知全局圖像。它只與前一層中的部分區(qū)域連接,感知局部信息,然后在高層整合,如圖3-1所示。網(wǎng)絡(luò)部分連通的思想,也是受啟發(fā)于動物的視覺皮層結(jié)構(gòu)[],他們的視覺皮層也不全都在接收信息。圖3-1CNN局部連接3.1.2權(quán)值共享一個卷積核內(nèi)的參數(shù)不變,掃描整張圖片,不會因為圖像內(nèi)的位置不同而改變自身的權(quán)值參數(shù)。假設(shè)一個卷積核在圖片某處做了濾波操作,在圖片其他地方也都是濾波操作,相當(dāng)于一個全局濾波,如果做的是邊緣檢測,那相當(dāng)于整張圖片都做了同樣的邊緣檢測。想要不同的特征可以利用多個卷積核,這樣減少了參數(shù)數(shù)量,也實現(xiàn)了特征的自動提取。3.1.3卷積和池化卷積層由一組濾波器組成,對上一層做內(nèi)積產(chǎn)生輸出,它能對上層數(shù)據(jù)進行特征提取,如圖3-2所示。有助于找到特定的局部圖像特征(如邊緣等),輸入后層網(wǎng)絡(luò)。圖3-2卷積層示意直接使用卷積層獲得的特征訓(xùn)練計算量很大,也容易導(dǎo)致過擬合,池化層的主要是通過降采樣,在不影響圖像質(zhì)量的情況下進行信息篩選,去除冗余信息,減少參數(shù)。池化方法一般有均值池化和最大池化,如圖3-3所示。圖3-3池化層示意3.2CNN網(wǎng)絡(luò)模型及實驗實驗選取1200句CASIA語料庫語音,本文中所有實驗均在1臺CPU為Inteli5-8250U,GPU為NVIDIAGeForceMX1506GB顯存,內(nèi)存為8GB的計算機上完成,試驗環(huán)境為Windows10操作系統(tǒng),tensorflow2.0版本,python版本為3.7。3.2.1CNN基礎(chǔ)模型本文先試驗了一個基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)模型進行分類,它包括了四個卷積層,四個池化層和一個全連接層,經(jīng)過四輪卷積-池化過程后進行分類,使用3×3大小的卷積核,在全連接層使用dropout函數(shù)防止過擬合,經(jīng)多次實驗對比后采用0.5丟棄率,減少了神經(jīng)元之間復(fù)雜的相互適應(yīng),選擇softmax分類器,下面稱此模型為基礎(chǔ)CNN,模型如下圖3-4所示:圖3-4基本CNN模型示意圖經(jīng)過預(yù)處理得到語譜圖,劃分訓(xùn)練集和測試集后得到訓(xùn)練集1080張,調(diào)整成128×128大小送入上述卷積網(wǎng)絡(luò)模型,結(jié)果如下表所示:表3-1基礎(chǔ)CNN模型識別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.730.550.630.65恐懼0.620.650.63開心0.600.750.67中性0.760.800.78悲傷0.590.650.62驚訝0.620.500.56macro0.660.650.65由上表可知,使用四層卷積-池化網(wǎng)絡(luò)的基礎(chǔ)CNN模型語譜圖情感識別率為65%,在識別中性情感上表現(xiàn)最好,precision達到0.76,F(xiàn)1-score是0.78,而在其他情感的識別上表現(xiàn)較差,其中驚訝、悲傷尤甚。3.2.2LeNet網(wǎng)絡(luò)接下來本文實驗了卷積神經(jīng)網(wǎng)絡(luò)經(jīng)典模型LeNet,第一層卷積層,卷積核大小為5×5,32個特征卷積核,然后用最大池化進行下采樣,池化濾波器大小為2×2,第三層卷積層卷積核依舊選擇5×5,64個特征卷積核,然后使用2×2最大池化,最后經(jīng)過三個全連接層輸出結(jié)果,如圖3-5所示:圖3-5LeNet模型示意圖原LeNet模型的sigmoid激活函數(shù)容易發(fā)生過飽和,使網(wǎng)絡(luò)不收斂,現(xiàn)在的模型換成了更加簡單的relu激活函數(shù),減少了訓(xùn)練計算量,不易發(fā)生過飽和。語譜圖處理同上,送入LeNet網(wǎng)絡(luò),結(jié)果如下表:表3-SEQ表\*ARABIC1LeNet模型識別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.640.700.670.59恐懼0.570.400.47開心0.560.700.62中性0.600.600.60悲傷0.550.550.55驚訝0.630.600.62macro0.590.590.59由上表可知,使用LeNet網(wǎng)絡(luò)的模型識別率為59%,模型精確率比基礎(chǔ)的CNN還低,和基礎(chǔ)CNN不同的是在憤怒情感的識別率上最高,在其他情感識別上表現(xiàn)較差,說明模型的選擇還需進一步探尋。但是在訓(xùn)練LeNet網(wǎng)絡(luò)的過程中,過早的出現(xiàn)了過擬合的情況,訓(xùn)練效果也更差,將基礎(chǔ)CNN的卷積核大小換成5×5也有此現(xiàn)象,所以本文判斷5×5大小卷積核不適用于提取語譜圖特征,下面不再使用。3.2.3VGG網(wǎng)絡(luò)接下來搭建了一個類VGG結(jié)構(gòu)的的CNN網(wǎng)絡(luò)進行實驗,整個模型一共五塊,每塊兩個卷積層,卷積核大小都是3×3,后接一個池化層,五個模塊的卷積層的卷積特征個數(shù)分別為32、64、128、256、256,五輪卷積-池化完成后送入三個全連接層,使用softmax分類器輸出結(jié)果。VGG網(wǎng)絡(luò)使用3×3小濾波器卷積層代替5×5或7×7的大濾波器卷積層,提升網(wǎng)絡(luò)深度,同時可以減少參數(shù)。本文在每塊的卷積層和池化層之間加入BatchNormalization層和relu激活函數(shù),提高網(wǎng)絡(luò)泛化能力,減少訓(xùn)練時間,同時在全連接層之前使用dropout函數(shù)防止模型過擬合,模型如圖3-6所示:圖3-6VGG模型示意圖語譜圖處理不變,送入VGG網(wǎng)絡(luò),結(jié)果如下:表SEQ表\*ARABIC2_3(序號問題)類似VGG網(wǎng)絡(luò)模型識別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.750.750.750.75恐懼0.710.750.73開心0.740.850.79中性0.890.850.87悲傷0.810.650.72驚訝0.620.650.63macro0.750.750.75由上表可知,使用類似VGG網(wǎng)絡(luò)的模型識別率為75%,模型精準度較前兩個模型有了很大提升,同基礎(chǔ)CNN模型一樣在中性情感上的識別率最高,precision可達0.89,F(xiàn)1-score為0.87,在驚訝情感上的識別效果最差。3.2.4不同大小卷積核的CNN模型語譜圖的橫坐標(biāo)與縱坐標(biāo)分別表示了語音的時域與頻域信息,為了進一步利用并結(jié)合這些信息,語譜圖被調(diào)整成124×124大小,用兩組不同形狀的卷積濾波器用來捕獲時域特征和頻域特征,結(jié)合后送入接下來的CNN中,其余CNN結(jié)構(gòu)與上述基本CNN結(jié)構(gòu)無區(qū)別。模型如圖3-7所示:圖3-7不同大小卷積核提取特征CNN示意圖在實驗此模型時,為了找到最佳的提取時域和頻域信息的濾波器形狀,單獨測試了第一層卷積層,將第一層卷積層形狀的寬度和高度從4到80不等,后續(xù)模型不變的情況下,分別獨立地實驗了一下,在試驗卷積核高度或?qū)挾葧r,它的另一邊被固定為2,多次試驗后,得到結(jié)果如圖3-8所示,橫軸為長度,縱軸為精確度:圖3-8卷積核大小實驗基于精確度結(jié)果,實驗選擇2×10和8×2大小作為卷積核的最佳形狀,進行接下來的對比實驗。這樣能夠在時域和頻域上接收更多的信息提供給后續(xù)的學(xué)習(xí),相比使用大卷積核減少了參數(shù),減少過擬合的可能性,實驗結(jié)果如下表3-4所示:表3-4CNN模型識別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.730.550.630.68恐懼0.710.750.73開心0.610.850.71中性0.760.800.78悲傷0.740.700.72驚訝0.560.450.50macro0.690.680.68模型精準度為0.68,相較于原先的CNN精準度只提升了0.03,效果微薄,并不理想,低于模仿VGG模型的0.75精準度。3.3語譜圖的處理實驗3.3.1添加高斯噪聲高斯噪聲是一種正態(tài)分布的噪聲,圖片處理中由于設(shè)備等因素限制,處理的圖片與實際圖像有差距,于是常常通過添加高斯噪聲以求讓圖片達到一種更實際的效果。本文試著向語譜圖添加高斯噪聲,對語譜圖進行數(shù)據(jù)增強,也模擬真實條件下的語音信號。如圖3-9所示:圖3-9高斯噪聲示意圖在前文中基礎(chǔ)CNN的模型識別率較高,且結(jié)構(gòu)簡單,訓(xùn)練較為方便,所以使用基礎(chǔ)CNN作為驗證模型,使用同樣的參數(shù)設(shè)置,同未處理的語譜圖數(shù)據(jù)做對比,結(jié)果如下表所示:表3-5添加高斯噪聲后識別率圖像處理模型精準度原始語譜圖0.65添加0.001方差高斯噪聲0.68添加0.003方差高斯噪聲0.61添加0.005方差高斯噪聲0.53除添加0.001方差高斯噪聲的語譜圖模型識別率有0.03的提升之外,其余添加了更大方差的高斯噪聲的語譜圖識別率都是下降的,可以看到增加高斯噪聲對語譜圖的識別并沒有多大的效果,甚至對識別率產(chǎn)生負面影響。3.3.2語譜圖翻轉(zhuǎn)在訓(xùn)練CNN模型時,若使用的數(shù)據(jù)集的樣本數(shù)較少,網(wǎng)絡(luò)容易過度擬合。雖然選取了1200條CASIA的語音,但對于CNN來說數(shù)據(jù)量仍然可能不足,需要對數(shù)據(jù)集進行數(shù)據(jù)擴增。考慮到語譜圖的橫軸代表時間,縱軸代表頻率,色彩表示該點能量值大小,與語音數(shù)據(jù)相對應(yīng),而語音倒放仍能聽出語音蘊含的情感,所以本文通過水平翻轉(zhuǎn)進行數(shù)據(jù)增強方式,不破壞語譜圖的音頻信息,增大數(shù)據(jù)量。如圖3-10所示:圖3-10翻轉(zhuǎn)示意語譜圖翻轉(zhuǎn)的實驗仍然以原始語譜圖在基礎(chǔ)CNN上0.65的精準度為對比,使用同樣的模型和參數(shù),多次實驗后得到如下結(jié)果:表3-6翻轉(zhuǎn)語譜圖對比圖像處理模型精準度原始語譜圖1080張0.65水平翻轉(zhuǎn)語譜圖1080張0.62二者結(jié)合2160張0.68可以看出語譜圖水平翻轉(zhuǎn)增加數(shù)據(jù)量之后之比之前精準度增加了0.03,并不明顯,單獨將語譜圖翻轉(zhuǎn)送入CNN進行訓(xùn)練結(jié)果甚至下降了。3.3.3不同語譜圖處理組合實驗上文使用基礎(chǔ)CNN進行語譜圖的處理實驗,獨立對比了原始語譜圖和使用不同數(shù)據(jù)增強方式后的語譜圖的情感分類效果,為了進一步嘗試提升卷積神經(jīng)網(wǎng)絡(luò)在語譜圖情感分類上的效果,使用不同語譜圖數(shù)據(jù)增強方式的組合,分別在基礎(chǔ)CNN和上文表現(xiàn)最好的VGG網(wǎng)絡(luò)上進行實驗,效果如下表所示:表SEQ表\*ARABIC3-7不同數(shù)據(jù)增強組合的實驗基礎(chǔ)CNNVGG網(wǎng)絡(luò)原始語譜圖0.650.75原始語譜圖+翻轉(zhuǎn)語譜圖0.680.71原始語譜圖+高斯噪聲(0.001)0.730.66原始語譜圖+高斯噪聲(0.003)0.660.68原始語譜圖+高斯噪聲(0.005)0.670.67原始語譜圖+翻轉(zhuǎn)語譜圖+高斯噪聲(0.001)0.730.70原始語譜圖+翻轉(zhuǎn)語譜圖+高斯噪聲(0.003)0.710.72原始語譜圖+翻轉(zhuǎn)語譜圖+高斯噪聲(0.005)0.710.73可以看到,對于基礎(chǔ)CNN來說,不同的數(shù)據(jù)增強組合的準確率都有一定提升,使用原始語譜圖+高斯噪聲語譜圖的識別率最高,為73%;然而在VGG網(wǎng)絡(luò)上,數(shù)據(jù)增強的組合卻使準確率有不同程度的下降,其中原始語譜圖+高斯噪聲組合的準確率最低,低于原始語譜圖+翻轉(zhuǎn)語譜圖和原始語譜圖+翻轉(zhuǎn)語譜圖+高斯噪聲的組合。結(jié)合前文,在使用基礎(chǔ)CNN獨立對比了原始語譜圖和使用不同數(shù)據(jù)增強方式后的語譜圖的情感分類效果時發(fā)現(xiàn),只有給語譜圖添加0.001方差高斯噪聲時效果有所提升,而其他情況下的實驗效果均有所下降,說明語譜圖翻轉(zhuǎn)或者添加高斯噪聲都會對語譜圖情感的識別產(chǎn)生負面影響。猜測原因語譜圖水平翻轉(zhuǎn)模擬了語音倒放,人的語言順序都是要順著聽的,這樣做不符合人類表達情感的模式,也對語譜圖時域上的特征提取造成了不利影響;而高斯噪聲對語譜圖的坐標(biāo)點表達的能量值造成了干擾。對于基礎(chǔ)CNN網(wǎng)絡(luò),在進行數(shù)據(jù)增強組合時也擴大了數(shù)據(jù)量,使得識別效果有略微提升,說明基礎(chǔ)CNN模型的識別效果在更大的數(shù)據(jù)集上還能有所提升,而對于其他網(wǎng)絡(luò),數(shù)據(jù)量的擴大未能抵消不合適的數(shù)據(jù)增強帶來的負面效果,造成了識別率的下降。3.4小結(jié)本節(jié)使用了四個CNN模型對語譜圖進行情感識別,一個基礎(chǔ)的CNN結(jié)構(gòu),一個用兩個不同大小卷積核提取特征之后結(jié)合的模型,還有LeNet模型和模仿VGG網(wǎng)絡(luò)構(gòu)造的模型。其中模仿VGG網(wǎng)絡(luò)的模型識別率最高,可達75%,其次是搭建的基礎(chǔ)CNN模型,識別率在65%左右,這二者對于中性情感的識別率都是最高的,在其余情感的識別則表現(xiàn)平平,之后使用兩種圖片數(shù)據(jù)增強方法:添加高斯噪聲和水平翻轉(zhuǎn),對比識別效果。在添加的高斯噪聲方差為0.001時略微提升,其余的識別率都有所下降。單獨將語譜圖水平翻轉(zhuǎn)識別率下降,將二者結(jié)合將數(shù)據(jù)量翻倍之后語譜圖識別效果勉強提升,但是仍然微薄,可見水平翻轉(zhuǎn)對語譜圖識別效果并無增益,反而可能擾亂了時頻域的特征提取。

總結(jié)本文結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)進行語音情感識別。首先闡述了語音情感識別研究的背景、研究意義及應(yīng)用,整理歸納了國內(nèi)外研究現(xiàn)狀;然后介紹了語音情感識別和卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)原理和技術(shù),包括情感分類模型、常見的語音情感數(shù)據(jù)庫,然后介紹了一些常見的語音信號預(yù)處理方法,介紹了語音信號的語譜圖特征和卷積神經(jīng)網(wǎng)絡(luò)基本原理;最后做了基于語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別的實驗,將語音信號轉(zhuǎn)化為語譜圖,先后實驗了四種CNN結(jié)構(gòu)在分類語音情感的效果,接下來對語譜圖進行不同預(yù)處理:翻轉(zhuǎn)圖像和添加高斯噪聲,對比不同數(shù)據(jù)增強組合的實驗效果,列出實驗結(jié)果并進行了分析。語譜圖翻轉(zhuǎn)和添加高斯噪聲后的識別率相較于原始的語譜圖未有明顯提高,四個網(wǎng)絡(luò)模型中模仿VGG網(wǎng)絡(luò)的模型精準度最好。(加上改進和未來展望)

參考文獻[1]胡包鋼,譚鐵牛,王鈺.情感計算一計算機科技發(fā)展的新課題[N].科學(xué)時報,2000.3.24.[2]張昕然,巨曉正,宋鵬,查誠,趙力.用于跨庫語音情感識別的DBN特征融合方法.信號處理,2017,33(O5):649~660.[3]蔣慶斌,包永強,王浩,等.基于改進GMM的耳語語音情感識別方法研究[J].計算機應(yīng)用與軟件,2012,29(11):3.[4]朱從賢.基于深度學(xué)習(xí)的語音情感識別方法的研究[D].東南大學(xué),2016.[5]陳平安.結(jié)合語譜圖和神經(jīng)網(wǎng)絡(luò)的語音情感識別[D].湘潭大學(xué),2018.[6]李姍,徐瓏婷.基于語譜圖提取瓶頸特征的情感識別算法研究[J].計算機技術(shù)與發(fā)展,2017,27(05):82-86.[7]張若凡,黃俊,古來,許二敏,古智星.基于語譜圖的老年人語音情感識別方法[J].軟件導(dǎo)刊,2018,17(09):28-31.[8]中科院自動化研究所人機語音交互課題組.CASIA漢語情感語料庫[DB/OL].htp://data/39277,2012-05-17.[9]趙力.語音信號處理[M.北京:機械工業(yè)出版社,2003.[10]Picard,R.W.Affectivecomputing[M].Cambridge:MITPRress.1997.[11]WilliamsCE,StevensKN.Emotionsandspeech:someacousticalcorrelates[J].JourmaloftheAcousticSocietyofAmerica,1972,52(4):1238-1250.[12]Davis,S.andMermelstein,P.(1980)Comparisonofparametricrepresentationsformonosyllabicwordrecognitionincontinuouslyspokensentences.IEEETransactionsonAcoustics,SpeechandSignalProcessing,28,357-366.[13]BasuS,ChakrabortyJ,andAftabuddinM.EmotionRecognitionFromSpeechUsingConvolutionalNeuralNetworkwithRecurrentNeuralNetworkArchitecture[C].InternationalConferenceonCommunicationandElectronicsSystems(ICCES),2017:333-336.[14]SattA,RozenbergS,HooryR.EfficientEmotionRecognitionfromSpeechUsingDeepLearningonSpectrograms[C]Interspeech2017.2017.[15]HararP,BurgetR,DuttaMK.Speechemotionrecognitionwithdeeplearning[C]InternationalConferenceonSignalProcessing&IntegratedNetworks.IEEE,2017.[16]OrtonyA,TurnerTJ.What'sbasicaboutbasicemotions?[J].Psychologicalreview,1990,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論