數(shù)字圖像處理與深度學習技術(shù)應用 課件 第12章 基于深度學習CNN模型的語音識別_第1頁
數(shù)字圖像處理與深度學習技術(shù)應用 課件 第12章 基于深度學習CNN模型的語音識別_第2頁
數(shù)字圖像處理與深度學習技術(shù)應用 課件 第12章 基于深度學習CNN模型的語音識別_第3頁
數(shù)字圖像處理與深度學習技術(shù)應用 課件 第12章 基于深度學習CNN模型的語音識別_第4頁
數(shù)字圖像處理與深度學習技術(shù)應用 課件 第12章 基于深度學習CNN模型的語音識別_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第12章基于深度學習CNN模型的語音識別目錄12.1語音識別系統(tǒng)設計12.2語音信號預處理及特征提12.2.1語音信號預處理12.2.2MFCC特征提取12.3構(gòu)建語音識別模型12.3.1構(gòu)建卷積神經(jīng)網(wǎng)絡模型12.3.2識別模型訓練12.4語音識別模型檢驗12.1語音識別系統(tǒng)設計語音識別系統(tǒng)一般包含學習和識別兩個過程。圖12-1語音識別系統(tǒng)功能圖(1)數(shù)據(jù)收集和準備。(2)對語音信號進行預處理。包括語音信號分幀、預加重、提取語音信號的MFCC特征等操作。(3)構(gòu)建語音信號訓練集。將收集的語音信號進行預處理,按照幀的時間順序和特征值轉(zhuǎn)換成二維圖像。(4)選擇卷積神經(jīng)網(wǎng)絡(CNN)模型結(jié)構(gòu)。(5)模型構(gòu)建。在深度學習框架中構(gòu)建語音識別模型,包括輸入層、卷積/循環(huán)層、全連接層等組件,并選擇適當?shù)募せ詈瘮?shù)。(6)模型訓練。將數(shù)據(jù)集劃分為訓練集、驗證集和測試集。使用訓練集對模型進行訓練,使用驗證集對模型進行模型調(diào)優(yōu),監(jiān)控模型在訓練集和驗證集上的性能。(7)模型評估。使用測試集對模型進行評估,計算準確率、WER(WordErrorRate)等性能指標。語音處理技術(shù)與深度學習相結(jié)合的識別過程:(1)獲取待識別語音信號。(2)對待識別的語音信號進行與學習過程相同的預處理,包括包括語音信號分幀、預加重、提取語音信號的MFCC特征等操作,按照幀的時間順序和特征值轉(zhuǎn)換成二維圖像。(3)使用訓練好的模型對新的語音圖像進行識別。(4)部署和應用。(5)誤差分析和改進。(6)用戶界面設計(可選)。12.2語音信號預處理及特征提取基本原理(1)語音信號預加重預加重的主要目的是為了使語音信號的頻譜變得平坦。值取的是0.97,(2)分幀(2)將n個采樣點結(jié)合在一起作為一個觀測點位,成為一幀。為了解決相鄰兩幀變化過大的問題,相鄰幀之間會有一段重疊區(qū)域,重疊區(qū)域的大小為n的值的二分之一或三分之一。(3)加窗加窗的意思就是加漢明窗,把漢明窗與每一幀相乘,以增加幀的連續(xù)性。的值為0.9<<1.0,本模塊中基本原理式中,X(n)為語音信號,N為傅里葉變換點數(shù)。(4)快速傅里葉變換得到語音信號頻譜上的分布。W(n)公式如下實現(xiàn)步驟實現(xiàn)步驟如下:①獲取語音信號;②語音信號預加重;③語音信號分幀;④語音信號加窗;⑤語音信號快速傅里葉變換。12.2.2MFCC特征提取基本原理(1)三角帶通濾波器作用是使頻譜更平滑,并消除諧波,增強原語音的共振峰。濾波器的公式為:(2)計算經(jīng)過濾波器組后的語音信號對數(shù)能量公式如下:式中(3)通過離散余弦變化(DCT)得到MFCC特征MFCC特征提取步驟MFCC特征提取步驟如下:①獲取語音信號;②語音信號預加重;③語音信號分幀;④語音信號加窗;⑤語音信號快速傅里葉變換;⑥語音信號的頻譜數(shù)據(jù)通過三角帶通濾波器;⑦三角帶通濾波器輸出結(jié)果對數(shù)運算;⑧對數(shù)運算結(jié)果進行離散余弦變換得到MFCC特征矩陣;⑨根據(jù)MFCC特征矩陣值把特征矩陣轉(zhuǎn)換為圖像。效果展示提取MFCC特征后,需要將特征矩陣轉(zhuǎn)換為圖像組成訓練集來進行訓練。圖12-2一條語音MFCC特征圖像12.3構(gòu)建語音識別模型12.3.1構(gòu)建卷積神經(jīng)網(wǎng)絡模型(神經(jīng)網(wǎng)絡有十三層,步驟如下:①第一層為卷積層,filters為32,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過度擬合;②第二層為卷積層,filters為32,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活;③第三層為池化層,池化層進行MaxPool2d()取最大值,核的大小為2*2;④第四層為卷積層,filters為64,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過度擬合;⑤第五層為卷積層,filters為64,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活;⑥第六層為池化層,池化層進行MaxPool2d()取最大值,卷積核2*2,加入Dropout避免過度擬合;⑦第七層為卷積層,filters為128,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過度擬合;⑧第八層為卷積層,filters為128,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活;⑨第九層為池化層,池化層進行MaxPool2d()取最大值,卷積核2*2,加入Dropout避免過度擬合;⑩第十層為卷積層,filters為128,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過度擬合;

第十一層為卷積層,filters為128,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活;第十二層為池化層,池化層進行MaxPool2d()取最大值,卷積核1*1,加入Dropout避免過度擬合;第十三層為卷積層,filters為128,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過度擬合;第十四層為卷積層,filters為128,卷積核3*3,步長為1,padding為same。激活函數(shù)ReLU()激活;第十五層為池化層,池化層進行MaxPool2d()取最大值,核的大小為1*1;第十六層為Reshape層,調(diào)整為(200,3200),加入Dropout避免過度擬合;第十七層為全連接層,共有128個神經(jīng)元,并且加入Dropout(0.3)避免過度擬合;第十八層為全連接層,共有49個神經(jīng)元,并且使用Softmax激活函數(shù)進行轉(zhuǎn)換,經(jīng)全連接層分類后輸出為49個類別。將卷積神經(jīng)網(wǎng)絡保存到Model中,并且為其定義損失函數(shù)以及優(yōu)化器。12.3.2識別模型訓練模型訓練的步驟如下:①獲取訓練集的路徑;②加載數(shù)據(jù)集,統(tǒng)計數(shù)據(jù)集中數(shù)據(jù)總數(shù);③設置batch_size的大小,計算出保存的步數(shù);④調(diào)用訓練的模型函數(shù),模型為上步創(chuàng)建的卷積神經(jīng)網(wǎng)絡模型;⑤將訓練出的結(jié)果數(shù)據(jù)保存在模型中,給識別過程使用。12.4語音識別模型檢驗語音識別步驟語音識別步驟如下:①獲取待識別語音;②語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論