結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別

上傳人：十*** IP屬地：廣東上傳時間：2024-11-07 格式：DOCX 頁數(shù)：28 大?。?58.41KB 積分：50 舉報 版權(quán)申訴

結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別_第2頁

結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別_第3頁

結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別_第4頁

結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別_第5頁

已閱讀5頁，還剩23頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

.緒論1.1研究背景與意義人類通過語言交流、非語言交流和書面表達(dá)等多種方式來交流溝通，語言是人與人之間交流的重要方式。隨著語音識別在過去幾十年的研究里取得了眾多成果，并在實際生活中投入應(yīng)用，例如阿里巴巴的AI智能終端“天貓精靈”、蘋果手機(jī)的Siri系統(tǒng)、搜索引擎各種語音識別等，人們需要人機(jī)交互更關(guān)注人的情感，讓計算機(jī)捕捉語音深度內(nèi)涵，使人機(jī)交流更具有人文關(guān)懷。情感是人類交流必不可少的，而語言中包含了大量的情感信息，是不可忽視的信息資源。在1997年，麻省理工媒體實驗室的Picard教授提出了情感計算的概念[10]，出版了圖書《Affectivecomputing》，介紹了情感的技術(shù)性問題，指出情感計算是與情感相關(guān)的計算，它源于情感或能影響情感。中國科學(xué)院自動化所的胡包剛、譚鐵牛也闡述了自己對于情感計算的定義，就是使計算機(jī)可以計算人類情感，可以識別和理解人類情感，進(jìn)一步可以回應(yīng)人類情感，賦予計算機(jī)更強(qiáng)大的綜合智能[]。語音情感識別（SpeechEmotionRecognition,SER）就是根據(jù)人說話的語音來判斷語音情感狀態(tài)的一種技術(shù)，隨著計算機(jī)技術(shù)的發(fā)展和對語音情感識別的深入研究，語音情感識別技術(shù)已經(jīng)有越來越多的實際應(yīng)用，例如在電子遠(yuǎn)程教學(xué)中獲取師生情感狀態(tài)，幫助調(diào)整課堂模式；在電子游戲中識別玩家情感狀態(tài)，給予玩家情感激勵或反饋；在駕駛員情緒失控時，幫助輔助駕駛系統(tǒng)給予駕駛者情感安撫。語音情感識別還有更多應(yīng)用場景，市場廣闊，對它的研究極具現(xiàn)實意義。1.2歷史研究與現(xiàn)狀在1972年，Williams發(fā)現(xiàn)人在憤怒、悲傷、害怕時語音的平均功率、基音輪廓等有很大不同，人的情緒對語音信號影響很大[11]。1980年，梅爾倒譜系數(shù)（MFCC）被Davis和Mermelstein提出，它很好地代表了短期語音頻譜的感知相關(guān)方面，之后在語音識別方面產(chǎn)生了巨大成效[12]。時間邁入21世紀(jì)，各類情感計算和語音識別相關(guān)會議和期刊被設(shè)立，例如2003年在北京舉辦的第屆國際情感計算和智能交互會議，2009年舉辦了語音情感挑戰(zhàn)賽（InterSpeech），于2010年創(chuàng)刊的IEEETransactionsonAffectiveComputing等。各種神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)算法也被不斷改進(jìn)應(yīng)用于語音情感識別，Basu使用梅爾倒譜系數(shù)，結(jié)合CNN和LSTM，對測試集的準(zhǔn)確率達(dá)到了80%[13]。同在2017年的InterSpeech上，SattA使用語譜圖，同樣使用CNN+LSTM的模型，在語音情感分類上取得了不俗的效果[14]。Harar基于深度神經(jīng)網(wǎng)絡(luò)對Emo-DB語料庫的三類子集（憤怒、悲傷、中立）進(jìn)行了訓(xùn)練，總體準(zhǔn)確率可達(dá)到96.79%[15]。國內(nèi)，東南大學(xué)的趙力教授率先提出了語音情感研究，張昕然利用深度信念模型和提出的特征融合方法，在跨庫語音情感識別上取得了很大提升[2]。蔣慶斌提出一種改進(jìn)的GMM模型識別耳語情感語音，證明了它在數(shù)據(jù)量較小時的訓(xùn)練成果較傳統(tǒng)GMM好[3]。在語譜圖的實驗方面，東南大學(xué)的朱從賢將瓶頸特征用于CNN網(wǎng)絡(luò)，對語譜圖進(jìn)行語音情感分類，驗證了其優(yōu)越性[4]。陳平安用以SVM為分類器的CNN實驗取，識別率可高達(dá)92%[5]。南京郵電大學(xué)的李姍和徐瓏婷從語譜圖中獲取深度譜特征，將語音情感識別率較傳統(tǒng)MFCC提升了3.97%[]。重慶郵電大學(xué)的張若凡基于先驗信噪比，改進(jìn)維納濾波算法對語音庫數(shù)據(jù)增強(qiáng)后提取語譜圖，并驗證了其可行性[]。1.3本文主要工作內(nèi)容及結(jié)構(gòu)安排本文的主要研究內(nèi)容是結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別，對比不同語譜圖處理方式后使用兩種CNN網(wǎng)絡(luò)進(jìn)行實驗，論文章節(jié)安排如下:第一章緒論，闡述了語音情感識別研究的背景、研究意義及應(yīng)用，整理了一些學(xué)者的工作成果；最后介紹了本論文的主要研究內(nèi)容和章節(jié)安排。第二章介紹了語音情感識別和卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)原理和技術(shù)，包括情感分類描述模型、常見的情感數(shù)據(jù)庫，然后介紹了預(yù)加重、分幀加窗、端點檢測等對語音信號的預(yù)處理方法，介紹了語音信號的語譜圖特征和卷積神經(jīng)網(wǎng)絡(luò)基本原理。第三章介紹用語譜圖送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語音情感識別，首先介紹了CNN基本原理，將語音信號轉(zhuǎn)化為語譜圖后，對語譜圖進(jìn)行不同處理，先實驗了基礎(chǔ)CNN結(jié)構(gòu)在語音情感分類上的能力，再用不同大小卷積核提取時域和頻域上的特征，列出實驗結(jié)果并進(jìn)行了分析。第四章對本文進(jìn)行總結(jié)。

2.相關(guān)技術(shù)及理論分析2.1情感描述模型在進(jìn)行語音情感識別之前先要確定情感的分類，才能讓機(jī)器進(jìn)行識別，心理學(xué)家們長久以來都在討論、尋找合適的描述情感的模型，在這漫長的討論中，產(chǎn)生了兩種主流的情感描述模型：離散情感描述模型和維度情感描述模型。2.1.1離散型情感模型離散型情感模型將情感分為離散的幾類基本情感，這些基本情感具有普遍性，例如高興、悲傷等，而其他較為復(fù)雜的情緒則是由基本情緒衍生出來的，稱之為繼發(fā)情緒，離散情感模型可以將情感打上標(biāo)簽，對于研究使用很方便。許多學(xué)者對基本情感的選擇做出了討論。表2-1是Otrony和Turmer歸納的研究者們使用的基本情感分類方式[16]：表2-1不同研究者的情感分類研究者情感分類Plutchik喜極、悲傷、羨慕、憎惡、恐懼、生氣、警惕、驚奇Arnold悲傷、憤怒、渴望、沮喪、熱愛、失望、期盼、厭惡、勇敢、憎恨Ekman憤怒、高興、害怕、悲傷、驚奇、厭惡Frijda渴望、高興、驚訝、關(guān)系、驚奇、悲傷Gray暴怒、恐懼、憂慮、高興Izard憤怒、輕視、厭惡、悲痛、驚奇、高興、羞愧、內(nèi)疚、害怕、關(guān)心James暴怒、悲傷、害怕、熱愛McDougall憤怒、高興、害怕、順從、厭惡、溫柔、驚訝Mowter痛苦、愉快Oatley/Johnson-Laird憤怒、高興、焦慮、悲傷、厭惡其中,美國心理學(xué)家Ekman根據(jù)普遍的人臉表情體現(xiàn)給出的生氣、厭惡、害怕、高興、悲傷和驚訝六種基本情緒[17]獲得了廣泛應(yīng)用。2.1.2維度型情感模型多維情感理論認(rèn)為人的情感是連續(xù)的、不斷變化的，可以被投射在一個多維度空間里，情緒相當(dāng)于一個點，它映射到每個維度上的坐標(biāo)對應(yīng)該維度的屬性強(qiáng)度，描述情感能力就非常強(qiáng)大，理論上任何一種情感都能找到它對應(yīng)的點。其中較為典型的維度型情感模型有兩種，第一種是情感二維模型﹐其二維分別是效價(Valence)和喚醒度(Arousal)[18]。效價是用于描述情感狀態(tài)是處于正性情感還是負(fù)性情感的情感維度；喚醒度則是描述情感的激烈程度，反應(yīng)情感強(qiáng)度。上述兩情感維度可在三維空間形成一個二維情感特征平面，每個坐標(biāo)點都對應(yīng)為一種狀態(tài)下的情感。第二種模型是PAD（Pleasure-Arousal-Dominance)三維情感模型[19]。與二維情感模型類似，該情感模型認(rèn)為人類情感可以從：愉悅度、激活度及優(yōu)勢度三個方面對情感進(jìn)行相關(guān)描述。其中，愉悅度用于描述情感處于正性情感還是負(fù)性情感，用P表示；激活度類似于二維情感模型的喚醒度但又稍有區(qū)別，用于表示情感的激烈狀態(tài)，與情感相應(yīng)的機(jī)體能量活躍程度有關(guān)，用A表示；優(yōu)勢度用于表示情感主體對客體及情景的影響狀態(tài)，用D表示。上述P、A、D三維構(gòu)成三維情感體系，三維坐標(biāo)點體現(xiàn)情感狀態(tài)。模型如圖2-1所示。圖2-1PAD情感描述模型離散型情感模型雖然簡單易懂，可解釋性強(qiáng)，但是刻畫的情感有限，無法描述更復(fù)雜的情感類型。維度型情感模型連續(xù)，情感描述能力無限，但量化情感工作困難且難以保證質(zhì)量。2.2語音情感數(shù)據(jù)庫語音情感識別的基礎(chǔ)是語音情感數(shù)據(jù)庫，語音情感識別的數(shù)據(jù)庫按照情感描述模型可分為離散型語音情感數(shù)據(jù)庫和維度型語音情感數(shù)據(jù)庫，按照情感被激發(fā)的方式可分為表演型、引導(dǎo)型和自然型。下面介紹幾種常用的語音情感數(shù)據(jù)庫：德國柏林（Emo-DB）情感數(shù)據(jù)庫[20]離散情感數(shù)據(jù)庫，由德國柏林工業(yè)大學(xué)選擇5名女演員5名男演員錄制，演員對10個德語語音進(jìn)行表演，除包含上述Ekman給出的六種基本情緒，還增加了中性情感，共七種情感：生氣，悲傷，高興，害怕，中性，厭惡，無聊。語音都是在專業(yè)錄音室中完成錄制，演員通過回憶增強(qiáng)情感的真實感，最終篩選保留女性情感語音302條，男性情感語音233條，共535條語音，采樣率為16kHz。CASIA漢語情感數(shù)據(jù)庫[8]離散情感數(shù)據(jù)庫，由中科院自動化所選擇兩男兩女錄制，共500句不同的文本，被四人以不同的情感念出，最后人工篩選出了大約9600條語句。分為六類情感：悲傷、憤怒、驚訝、開心、恐懼和中性。采用16kHz采樣率，16bit量化。FAUAIBO兒童德語情感數(shù)據(jù)庫[21]說話人是51名兒童，其中30個女童，21個男童，年齡段為10-13歲，通過與索尼公司的AIBO機(jī)器狗進(jìn)行自然交互，從而進(jìn)行情感數(shù)據(jù)的采集。包含約9.2小時的語音，48401個單詞。采樣頻率被壓縮至16kHz，16bit量化。該數(shù)據(jù)庫是少數(shù)的自然型離散情感數(shù)據(jù)庫，數(shù)據(jù)量大，是最流行的語音情感數(shù)據(jù)庫之一。VAM數(shù)據(jù)庫[22]維度型情感數(shù)據(jù)庫，從德國電視脫口秀節(jié)目(VeraAmMittag)現(xiàn)場錄制的音視頻中選取，數(shù)據(jù)庫包含表情庫、語料庫、視頻庫3個部分。包含約12個小時的錄音，這些語音片段沒用劇本，來自真實的討論。情感的標(biāo)注由23位標(biāo)注者完成，標(biāo)簽為連續(xù)值，具體包含三個維度:valence，activation和dominance。數(shù)據(jù)采樣率為16kHz，16bit量化。2.3語音信號預(yù)處理由于發(fā)音、錄音條件限制，語音樣本總是會有環(huán)境噪音、電流聲等影響情感識別的因素。通過對語音信號進(jìn)行預(yù)處理，一般是預(yù)加重、分幀加窗和端點檢測，可以改善語音信號質(zhì)量，為語音情感識別創(chuàng)造更好的語音信號。2.1.2預(yù)加重由于發(fā)聲過程中人體器官的效應(yīng),語音信號在高頻段以6dB/倍頻跌落[9]，預(yù)加重可提升高頻，使之更接近原始語音信號，消除跌落效應(yīng)。廣泛使用的對語音信號進(jìn)行預(yù)加重的方程為:y(n)其中a為預(yù)加重系數(shù)，a∈[0.9,1]，一般取0.95,0.97或0.98。2.1.3加窗分幀語音信號是非平穩(wěn)的，但在短時間內(nèi)可看作是平穩(wěn)的，短時間范圍一般是10~30ms，幀長也取10~30ms，取1/2左右時長為幀移。幀移是相鄰兩幀間的重疊區(qū)域，避免相鄰兩幀的變化過大，加窗使全局更加連續(xù)，為幀移，幀移幀長的比值一般取為0~0.5。分幀會使語音信號產(chǎn)生間斷，使用一定的窗函數(shù)與語音信號相乘，可使它變得連續(xù)，公式如下：s矩形窗、漢寧窗、漢明窗等都是常用的窗函數(shù)：矩形窗：w漢寧窗：w漢明窗：w2.1.3端點檢測語音信號并從開始到結(jié)束都是語音段，它常常還包含無聲段和噪聲，端點檢測算法就是在一段語音信號中確定語音段和非語音段，對語音信號進(jìn)行分割，去掉非語音段，而后再針對有聲段，找到語音信號真正有效的部分，減少數(shù)據(jù)運算量。語音的端點檢測算法主要有雙門限端點檢測法、小波法和基于倒譜距離的檢測算法等。2.4語音信號語譜圖特征語譜圖通常指窄帶語譜圖，是用語音短時\t"/sinat_19628145/article/details/_blank"傅里葉變換的幅度畫出的二維圖片。橫軸代表時間，縱軸代表頻率，坐標(biāo)點值就是語音信號能量，可以通過時間與頻率確定坐標(biāo)，坐標(biāo)點的像素顏色就表示能量值大小，顏色或者灰度深，表示該點的語音能量越強(qiáng)。語譜圖包含的語音信號的信息很多，如語音基頻、清音等，都可以從圖上看出，語譜圖對語音情感識別有很大作用。語譜圖構(gòu)建過程如圖2-2所示：圖2-2語譜圖實現(xiàn)過程首先對語音信號分幀加窗，xn其中，0≤k≤N?1，則P(n,k)=則P(n,k)為非負(fù)實函數(shù)，以時間n為橫軸，頻率k為縱軸，將P(n,k)以灰度級構(gòu)成的二維圖像，就是語譜圖，如圖2-3所示。圖2-3語音波形圖和語譜圖基于語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別本節(jié)介紹了卷積神經(jīng)網(wǎng)絡(luò)基本原理，并將其應(yīng)用于語音情感識別。本節(jié)討論了語譜圖特征的切割和翻轉(zhuǎn)擴(kuò)增后對情感識別的影響，用兩種卷積神經(jīng)網(wǎng)絡(luò)分類了翻轉(zhuǎn)后的語譜圖，驗證分析了其效果。3.1卷積神經(jīng)網(wǎng)絡(luò)基本原理卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetwork,CNN）在1989年由LeCun構(gòu)建應(yīng)用于計算機(jī)視覺問題[23]，并在1998年他提出了卷積神經(jīng)網(wǎng)絡(luò)的第1個經(jīng)典架構(gòu)LeNet-5網(wǎng)絡(luò)并應(yīng)用在手寫字體識別[24]。目前，CNN在許多領(lǐng)域如人臉識別、語音識別等都取得了巨大研究成果。與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不同，卷積神經(jīng)網(wǎng)絡(luò)含有特殊的卷積層和池化層，卷積層局部連接和權(quán)值共享的連接方式，大大降低了參數(shù)數(shù)量。池化可以實現(xiàn)下采樣，壓縮特征，去除冗余信息，降低網(wǎng)絡(luò)復(fù)雜度，減少參數(shù)，同時擴(kuò)大感知野，有效的防止過擬合。3.1.1局部連接圖像空間具有局部相關(guān)性，一張圖像相近的像素之間聯(lián)系比較緊密，而稍遠(yuǎn)一點可能毫不相干，因此，一個神經(jīng)元不需要感知全局圖像。它只與前一層中的部分區(qū)域連接，感知局部信息，然后在高層整合，如圖3-1所示。網(wǎng)絡(luò)部分連通的思想，也是受啟發(fā)于動物的視覺皮層結(jié)構(gòu)[]，他們的視覺皮層也不全都在接收信息。圖3-1CNN局部連接3.1.2權(quán)值共享一個卷積核內(nèi)的參數(shù)不變，掃描整張圖片，不會因為圖像內(nèi)的位置不同而改變自身的權(quán)值參數(shù)。假設(shè)一個卷積核在圖片某處做了濾波操作，在圖片其他地方也都是濾波操作，相當(dāng)于一個全局濾波，如果做的是邊緣檢測，那相當(dāng)于整張圖片都做了同樣的邊緣檢測。想要不同的特征可以利用多個卷積核，這樣減少了參數(shù)數(shù)量，也實現(xiàn)了特征的自動提取。3.1.3卷積和池化卷積層由一組濾波器組成，對上一層做內(nèi)積產(chǎn)生輸出，它能對上層數(shù)據(jù)進(jìn)行特征提取，如圖3-2所示。有助于找到特定的局部圖像特征（如邊緣等），輸入后層網(wǎng)絡(luò)。圖3-2卷積層示意直接使用卷積層獲得的特征訓(xùn)練計算量很大，也容易導(dǎo)致過擬合，池化層的主要是通過降采樣，在不影響圖像質(zhì)量的情況下進(jìn)行信息篩選，去除冗余信息，減少參數(shù)。池化方法一般有均值池化和最大池化，如圖3-3所示。圖3-3池化層示意3.2CNN網(wǎng)絡(luò)模型及實驗實驗選取1200句CASIA語料庫語音，本文中所有實驗均在1臺CPU為Inteli5-8250U，GPU為NVIDIAGeForceMX1506GB顯存，內(nèi)存為8GB的計算機(jī)上完成，試驗環(huán)境為Windows10操作系統(tǒng)，tensorflow2.0版本，python版本為3.7。3.2.1CNN基礎(chǔ)模型本文先試驗了一個基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類，它包括了四個卷積層，四個池化層和一個全連接層，經(jīng)過四輪卷積-池化過程后進(jìn)行分類，使用3×3大小的卷積核，在全連接層使用dropout函數(shù)防止過擬合，經(jīng)多次實驗對比后采用0.5丟棄率，減少了神經(jīng)元之間復(fù)雜的相互適應(yīng)，選擇softmax分類器，下面稱此模型為基礎(chǔ)CNN，模型如下圖3-4所示：圖3-4基本CNN模型示意圖經(jīng)過預(yù)處理得到語譜圖，劃分訓(xùn)練集和測試集后得到訓(xùn)練集1080張，調(diào)整成128×128大小送入上述卷積網(wǎng)絡(luò)模型，結(jié)果如下表所示：表3-1基礎(chǔ)CNN模型識別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.730.550.630.65恐懼0.620.650.63開心0.600.750.67中性0.760.800.78悲傷0.590.650.62驚訝0.620.500.56macro0.660.650.65由上表可知，使用四層卷積-池化網(wǎng)絡(luò)的基礎(chǔ)CNN模型語譜圖情感識別率為65%，在識別中性情感上表現(xiàn)最好，precision達(dá)到0.76，F(xiàn)1-score是0.78，而在其他情感的識別上表現(xiàn)較差，其中驚訝、悲傷尤甚。3.2.2LeNet網(wǎng)絡(luò)接下來本文實驗了卷積神經(jīng)網(wǎng)絡(luò)經(jīng)典模型LeNet，第一層卷積層，卷積核大小為5×5，32個特征卷積核，然后用最大池化進(jìn)行下采樣，池化濾波器大小為2×2，第三層卷積層卷積核依舊選擇5×5，64個特征卷積核，然后使用2×2最大池化，最后經(jīng)過三個全連接層輸出結(jié)果，如圖3-5所示：圖3-5LeNet模型示意圖原LeNet模型的sigmoid激活函數(shù)容易發(fā)生過飽和，使網(wǎng)絡(luò)不收斂，現(xiàn)在的模型換成了更加簡單的relu激活函數(shù)，減少了訓(xùn)練計算量，不易發(fā)生過飽和。語譜圖處理同上，送入LeNet網(wǎng)絡(luò)，結(jié)果如下表：表3-SEQ表\*ARABIC1LeNet模型識別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.640.700.670.59恐懼0.570.400.47開心0.560.700.62中性0.600.600.60悲傷0.550.550.55驚訝0.630.600.62macro0.590.590.59由上表可知，使用LeNet網(wǎng)絡(luò)的模型識別率為59%，模型精確率比基礎(chǔ)的CNN還低，和基礎(chǔ)CNN不同的是在憤怒情感的識別率上最高，在其他情感識別上表現(xiàn)較差，說明模型的選擇還需進(jìn)一步探尋。但是在訓(xùn)練LeNet網(wǎng)絡(luò)的過程中，過早的出現(xiàn)了過擬合的情況，訓(xùn)練效果也更差，將基礎(chǔ)CNN的卷積核大小換成5×5也有此現(xiàn)象，所以本文判斷5×5大小卷積核不適用于提取語譜圖特征，下面不再使用。3.2.3VGG網(wǎng)絡(luò)接下來搭建了一個類VGG結(jié)構(gòu)的的CNN網(wǎng)絡(luò)進(jìn)行實驗，整個模型一共五塊，每塊兩個卷積層，卷積核大小都是3×3，后接一個池化層，五個模塊的卷積層的卷積特征個數(shù)分別為32、64、128、256、256，五輪卷積-池化完成后送入三個全連接層，使用softmax分類器輸出結(jié)果。VGG網(wǎng)絡(luò)使用3×3小濾波器卷積層代替5×5或7×7的大濾波器卷積層，提升網(wǎng)絡(luò)深度，同時可以減少參數(shù)。本文在每塊的卷積層和池化層之間加入BatchNormalization層和relu激活函數(shù)，提高網(wǎng)絡(luò)泛化能力，減少訓(xùn)練時間，同時在全連接層之前使用dropout函數(shù)防止模型過擬合，模型如圖3-6所示：圖3-6VGG模型示意圖語譜圖處理不變，送入VGG網(wǎng)絡(luò)，結(jié)果如下：表SEQ表\*ARABIC2_3（序號問題）類似VGG網(wǎng)絡(luò)模型識別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.750.750.750.75恐懼0.710.750.73開心0.740.850.79中性0.890.850.87悲傷0.810.650.72驚訝0.620.650.63macro0.750.750.75由上表可知，使用類似VGG網(wǎng)絡(luò)的模型識別率為75%，模型精準(zhǔn)度較前兩個模型有了很大提升，同基礎(chǔ)CNN模型一樣在中性情感上的識別率最高，precision可達(dá)0.89，F(xiàn)1-score為0.87，在驚訝情感上的識別效果最差。3.2.4不同大小卷積核的CNN模型語譜圖的橫坐標(biāo)與縱坐標(biāo)分別表示了語音的時域與頻域信息，為了進(jìn)一步利用并結(jié)合這些信息，語譜圖被調(diào)整成124×124大小，用兩組不同形狀的卷積濾波器用來捕獲時域特征和頻域特征，結(jié)合后送入接下來的CNN中，其余CNN結(jié)構(gòu)與上述基本CNN結(jié)構(gòu)無區(qū)別。模型如圖3-7所示：圖3-7不同大小卷積核提取特征CNN示意圖在實驗此模型時，為了找到最佳的提取時域和頻域信息的濾波器形狀，單獨測試了第一層卷積層，將第一層卷積層形狀的寬度和高度從4到80不等，后續(xù)模型不變的情況下，分別獨立地實驗了一下，在試驗卷積核高度或?qū)挾葧r，它的另一邊被固定為2，多次試驗后，得到結(jié)果如圖3-8所示，橫軸為長度，縱軸為精確度：圖3-8卷積核大小實驗基于精確度結(jié)果，實驗選擇2×10和8×2大小作為卷積核的最佳形狀，進(jìn)行接下來的對比實驗。這樣能夠在時域和頻域上接收更多的信息提供給后續(xù)的學(xué)習(xí)，相比使用大卷積核減少了參數(shù)，減少過擬合的可能性，實驗結(jié)果如下表3-4所示：表3-4CNN模型識別結(jié)果precisionrecallF1-scoreaccuracy憤怒0.730.550.630.68恐懼0.710.750.73開心0.610.850.71中性0.760.800.78悲傷0.740.700.72驚訝0.560.450.50macro0.690.680.68模型精準(zhǔn)度為0.68，相較于原先的CNN精準(zhǔn)度只提升了0.03，效果微薄，并不理想，低于模仿VGG模型的0.75精準(zhǔn)度。3.3語譜圖的處理實驗3.3.1添加高斯噪聲高斯噪聲是一種正態(tài)分布的噪聲，圖片處理中由于設(shè)備等因素限制，處理的圖片與實際圖像有差距，于是常常通過添加高斯噪聲以求讓圖片達(dá)到一種更實際的效果。本文試著向語譜圖添加高斯噪聲，對語譜圖進(jìn)行數(shù)據(jù)增強(qiáng)，也模擬真實條件下的語音信號。如圖3-9所示：圖3-9高斯噪聲示意圖在前文中基礎(chǔ)CNN的模型識別率較高，且結(jié)構(gòu)簡單，訓(xùn)練較為方便，所以使用基礎(chǔ)CNN作為驗證模型，使用同樣的參數(shù)設(shè)置，同未處理的語譜圖數(shù)據(jù)做對比，結(jié)果如下表所示：表3-5添加高斯噪聲后識別率圖像處理模型精準(zhǔn)度原始語譜圖0.65添加0.001方差高斯噪聲0.68添加0.003方差高斯噪聲0.61添加0.005方差高斯噪聲0.53除添加0.001方差高斯噪聲的語譜圖模型識別率有0.03的提升之外，其余添加了更大方差的高斯噪聲的語譜圖識別率都是下降的，可以看到增加高斯噪聲對語譜圖的識別并沒有多大的效果，甚至對識別率產(chǎn)生負(fù)面影響。3.3.2語譜圖翻轉(zhuǎn)在訓(xùn)練CNN模型時，若使用的數(shù)據(jù)集的樣本數(shù)較少，網(wǎng)絡(luò)容易過度擬合。雖然選取了1200條CASIA的語音，但對于CNN來說數(shù)據(jù)量仍然可能不足，需要對數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)增?？紤]到語譜圖的橫軸代表時間，縱軸代表頻率，色彩表示該點能量值大小，與語音數(shù)據(jù)相對應(yīng)，而語音倒放仍能聽出語音蘊含的情感，所以本文通過水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)方式，不破壞語譜圖的音頻信息，增大數(shù)據(jù)量。如圖3-10所示：圖3-10翻轉(zhuǎn)示意語譜圖翻轉(zhuǎn)的實驗仍然以原始語譜圖在基礎(chǔ)CNN上0.65的精準(zhǔn)度為對比，使用同樣的模型和參數(shù)，多次實驗后得到如下結(jié)果：表3-6翻轉(zhuǎn)語譜圖對比圖像處理模型精準(zhǔn)度原始語譜圖1080張0.65水平翻轉(zhuǎn)語譜圖1080張0.62二者結(jié)合2160張0.68可以看出語譜圖水平翻轉(zhuǎn)增加數(shù)據(jù)量之后之比之前精準(zhǔn)度增加了0.03，并不明顯，單獨將語譜圖翻轉(zhuǎn)送入CNN進(jìn)行訓(xùn)練結(jié)果甚至下降了。3.3.3不同語譜圖處理組合實驗上文使用基礎(chǔ)CNN進(jìn)行語譜圖的處理實驗，獨立對比了原始語譜圖和使用不同數(shù)據(jù)增強(qiáng)方式后的語譜圖的情感分類效果，為了進(jìn)一步嘗試提升卷積神經(jīng)網(wǎng)絡(luò)在語譜圖情感分類上的效果，使用不同語譜圖數(shù)據(jù)增強(qiáng)方式的組合，分別在基礎(chǔ)CNN和上文表現(xiàn)最好的VGG網(wǎng)絡(luò)上進(jìn)行實驗，效果如下表所示：表SEQ表\*ARABIC3-7不同數(shù)據(jù)增強(qiáng)組合的實驗基礎(chǔ)CNNVGG網(wǎng)絡(luò)原始語譜圖0.650.75原始語譜圖+翻轉(zhuǎn)語譜圖0.680.71原始語譜圖+高斯噪聲（0.001）0.730.66原始語譜圖+高斯噪聲（0.003）0.660.68原始語譜圖+高斯噪聲（0.005）0.670.67原始語譜圖+翻轉(zhuǎn)語譜圖+高斯噪聲（0.001）0.730.70原始語譜圖+翻轉(zhuǎn)語譜圖+高斯噪聲（0.003）0.710.72原始語譜圖+翻轉(zhuǎn)語譜圖+高斯噪聲（0.005）0.710.73可以看到，對于基礎(chǔ)CNN來說，不同的數(shù)據(jù)增強(qiáng)組合的準(zhǔn)確率都有一定提升，使用原始語譜圖+高斯噪聲語譜圖的識別率最高，為73%；然而在VGG網(wǎng)絡(luò)上，數(shù)據(jù)增強(qiáng)的組合卻使準(zhǔn)確率有不同程度的下降，其中原始語譜圖+高斯噪聲組合的準(zhǔn)確率最低，低于原始語譜圖+翻轉(zhuǎn)語譜圖和原始語譜圖+翻轉(zhuǎn)語譜圖+高斯噪聲的組合。結(jié)合前文，在使用基礎(chǔ)CNN獨立對比了原始語譜圖和使用不同數(shù)據(jù)增強(qiáng)方式后的語譜圖的情感分類效果時發(fā)現(xiàn)，只有給語譜圖添加0.001方差高斯噪聲時效果有所提升，而其他情況下的實驗效果均有所下降，說明語譜圖翻轉(zhuǎn)或者添加高斯噪聲都會對語譜圖情感的識別產(chǎn)生負(fù)面影響。猜測原因語譜圖水平翻轉(zhuǎn)模擬了語音倒放，人的語言順序都是要順著聽的，這樣做不符合人類表達(dá)情感的模式，也對語譜圖時域上的特征提取造成了不利影響；而高斯噪聲對語譜圖的坐標(biāo)點表達(dá)的能量值造成了干擾。對于基礎(chǔ)CNN網(wǎng)絡(luò)，在進(jìn)行數(shù)據(jù)增強(qiáng)組合時也擴(kuò)大了數(shù)據(jù)量，使得識別效果有略微提升，說明基礎(chǔ)CNN模型的識別效果在更大的數(shù)據(jù)集上還能有所提升，而對于其他網(wǎng)絡(luò)，數(shù)據(jù)量的擴(kuò)大未能抵消不合適的數(shù)據(jù)增強(qiáng)帶來的負(fù)面效果，造成了識別率的下降。3.4小結(jié)本節(jié)使用了四個CNN模型對語譜圖進(jìn)行情感識別，一個基礎(chǔ)的CNN結(jié)構(gòu)，一個用兩個不同大小卷積核提取特征之后結(jié)合的模型，還有LeNet模型和模仿VGG網(wǎng)絡(luò)構(gòu)造的模型。其中模仿VGG網(wǎng)絡(luò)的模型識別率最高，可達(dá)75%，其次是搭建的基礎(chǔ)CNN模型，識別率在65%左右，這二者對于中性情感的識別率都是最高的，在其余情感的識別則表現(xiàn)平平，之后使用兩種圖片數(shù)據(jù)增強(qiáng)方法：添加高斯噪聲和水平翻轉(zhuǎn)，對比識別效果。在添加的高斯噪聲方差為0.001時略微提升，其余的識別率都有所下降。單獨將語譜圖水平翻轉(zhuǎn)識別率下降，將二者結(jié)合將數(shù)據(jù)量翻倍之后語譜圖識別效果勉強(qiáng)提升，但是仍然微薄，可見水平翻轉(zhuǎn)對語譜圖識別效果并無增益，反而可能擾亂了時頻域的特征提取。

總結(jié)本文結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語音情感識別。首先闡述了語音情感識別研究的背景、研究意義及應(yīng)用，整理歸納了國內(nèi)外研究現(xiàn)狀；然后介紹了語音情感識別和卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)原理和技術(shù)，包括情感分類模型、常見的語音情感數(shù)據(jù)庫，然后介紹了一些常見的語音信號預(yù)處理方法，介紹了語音信號的語譜圖特征和卷積神經(jīng)網(wǎng)絡(luò)基本原理；最后做了基于語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別的實驗,將語音信號轉(zhuǎn)化為語譜圖，先后實驗了四種CNN結(jié)構(gòu)在分類語音情感的效果，接下來對語譜圖進(jìn)行不同預(yù)處理：翻轉(zhuǎn)圖像和添加高斯噪聲，對比不同數(shù)據(jù)增強(qiáng)組合的實驗效果，列出實驗結(jié)果并進(jìn)行了分析。語譜圖翻轉(zhuǎn)和添加高斯噪聲后的識別率相較于原始的語譜圖未有明顯提高，四個網(wǎng)絡(luò)模型中模仿VGG網(wǎng)絡(luò)的模型精準(zhǔn)度最好。（加上改進(jìn)和未來展望）

參考文獻(xiàn)[1]胡包鋼，譚鐵牛，王鈺.情感計算一計算機(jī)科技發(fā)展的新課題[N].科學(xué)時報,2000.3.24.[2]張昕然，巨曉正，宋鵬，查誠，趙力.用于跨庫語音情感識別的DBN特征融合方法.信號處理,2017,33(O5):649~660.[3]蔣慶斌,包永強(qiáng),王浩,等.基于改進(jìn)GMM的耳語語音情感識別方法研究[J].計算機(jī)應(yīng)用與軟件,2012,29(11):3.[4]朱從賢.基于深度學(xué)習(xí)的語音情感識別方法的研究[D].東南大學(xué),2016.[5]陳平安.結(jié)合語譜圖和神經(jīng)網(wǎng)絡(luò)的語音情感識別[D].湘潭大學(xué),2018.[6]李姍,徐瓏婷.基于語譜圖提取瓶頸特征的情感識別算法研究[J].計算機(jī)技術(shù)與發(fā)展,2017,27(05):82-86.[7]張若凡,黃俊,古來,許二敏,古智星.基于語譜圖的老年人語音情感識別方法[J].軟件導(dǎo)刊,2018,17(09):28-31.[8]中科院自動化研究所人機(jī)語音交互課題組.CASIA漢語情感語料庫[DB/OL].htp://data/39277,2012-05-17.[9]趙力.語音信號處理[M.北京:機(jī)械工業(yè)出版社,2003.[10]Picard,R.W.Affectivecomputing[M].Cambridge:MITPRress.1997.[11]WilliamsCE,StevensKN.Emotionsandspeech:someacousticalcorrelates[J].JourmaloftheAcousticSocietyofAmerica,1972,52(4):1238-1250.[12]Davis,S.andMermelstein,P.(1980)Comparisonofparametricrepresentationsformonosyllabicwordrecognitionincontinuouslyspokensentences.IEEETransactionsonAcoustics,SpeechandSignalProcessing,28,357-366.[13]BasuS,ChakrabortyJ,andAftabuddinM.EmotionRecognitionFromSpeechUsingConvolutionalNeuralNetworkwithRecurrentNeuralNetworkArchitecture[C].InternationalConferenceonCommunicationandElectronicsSystems(ICCES),2017:333-336.[14]SattA,RozenbergS,HooryR.EfficientEmotionRecognitionfromSpeechUsingDeepLearningonSpectrograms[C]Interspeech2017.2017.[15]HararP,BurgetR,DuttaMK.Speechemotionrecognitionwithdeeplearning[C]InternationalConferenceonSignalProcessing&IntegratedNetworks.IEEE,2017.[16]OrtonyA,TurnerTJ.What'sbasicaboutbasicemotions?[J].Psychologicalreview,1990,

人人文庫> 全部分類> 畢業(yè)設(shè)計 > 任務(wù)書類

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別

文檔簡介

溫馨提示

最新文檔

評論

結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔