![語音信號處理與識別PPT_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/26/df91450d-04bf-409d-817e-502b42fcb446/df91450d-04bf-409d-817e-502b42fcb4461.gif)
![語音信號處理與識別PPT_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/26/df91450d-04bf-409d-817e-502b42fcb446/df91450d-04bf-409d-817e-502b42fcb4462.gif)
![語音信號處理與識別PPT_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/26/df91450d-04bf-409d-817e-502b42fcb446/df91450d-04bf-409d-817e-502b42fcb4463.gif)
![語音信號處理與識別PPT_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/26/df91450d-04bf-409d-817e-502b42fcb446/df91450d-04bf-409d-817e-502b42fcb4464.gif)
![語音信號處理與識別PPT_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/26/df91450d-04bf-409d-817e-502b42fcb446/df91450d-04bf-409d-817e-502b42fcb4465.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、語音信號處理與識別發(fā)展n聲紋識別的起源,貝爾實驗室開發(fā)的Audrey語言識別系統(tǒng)n60年代,線性預測編碼技術(LPC)和動態(tài)規(guī)劃技術(DP)n70年代,LPC和DTW的發(fā)展,提出了矢量量化(VQ)和隱馬爾科夫模型(HMM)理論。n80年代,卡耐基梅隆大學突破了大量詞匯、連續(xù)語音和非特定人三大障礙,實現了基于隱馬爾客服模型的語言識別Sphinx系統(tǒng)。n90年代,語音發(fā)展相對緩慢,并沒有多大創(chuàng)新,許多公司斥巨資將語音識別系統(tǒng)實用化。如:IBM的Via Voice等等。n我國在語音識別方面起步相對較晚,但經過幾十年的努力也取得了很大成就。 “863計劃”,大量詞匯非特定人連續(xù)語音識別演示系統(tǒng),多項核
2、心技術和創(chuàng)新性方法n21世紀,移動互動網的興語音識別系統(tǒng)的發(fā)展起到了很大的推動作用,有安卓系統(tǒng)內嵌語音識別系統(tǒng)、Google語音翻譯、科大訊飛推出的訊飛口訊和語音云識別等相關產品也得到了很大的應用。優(yōu)缺點:n聲紋識別具有很多優(yōu)點:聲紋識別具有很多優(yōu)點:n純天然,識別的特征是聲音,不用接觸n測試設備成本低,不需要特殊設備,對采樣和量化的的芯片要求不高。n在遠程應用和移動互聯網環(huán)境中,可以通過電話和移動設備進行身份確認和辨認。n但同時也有一些缺點:但同時也有一些缺點:n一個人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;n不同的麥克風和信道對識別性能有影響;n環(huán)境噪音對識別有干擾;混合說話人
3、的情形下人的聲紋特征不易提取 聲紋識別唯一性n聲紋識別:聲紋識別: 聲紋識別(Voiceprint Recognition, VPR),也稱為說話人識別(Speaker Recognition),是從說話人發(fā)出的語音信號中提取聲紋信息。具有排他性,因為每個人的自然特征不同,所以聲紋和指紋一樣都各具特色,聲紋識別技術可以作為鑒別身份的一種重要手段 。通過聲紋識別技術和位置服務技術(衛(wèi)星定位等)相結合,實現遠程身份確認,從而可達到被監(jiān)管對象真實的地理位置或活動軌跡。 相關概念n聲紋識別按任務有兩類,即說話人辨認聲紋識別按任務有兩類,即說話人辨認(Speaker Identification)和說話
4、人確和說話人確認認(Speaker Verification)。 說話人辨認:用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題。 說話人確認:用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。 n聲紋識別按類型有文本相關的聲紋識別按類型有文本相關的(Text-Dependent)和文本無關的和文本無關的(Text-Independent)兩種。兩種。 文本相關:因此可以達到較好的識別效果,但系統(tǒng)需要系統(tǒng)要求用戶按照規(guī)定的內容發(fā)音,而識別時也必須按規(guī)定的內容發(fā)音用戶配合。 文本無關:系統(tǒng)則不規(guī)定說話人的發(fā)音內容,模型建立相對困難,但用戶使用方便,可應用范圍較寬。 總框圖采
5、樣量化首先對語音進行采樣量化和預處理,預處理包括預加重處理、加窗、分幀和端點檢測。采樣量化采樣量化n預濾波是為了防混疊和阻止工頻信號的干擾,預濾波器是帶通濾波器。n自動增益為了放大信號的倍數,以便于后續(xù)計算控制。nA/D轉換是為了把模擬信號轉換為數字信號, 以便計算機進行相關處理,但在轉換中要對信號進行量化這個階段會產生量化噪聲。A/D轉換器分為線性和非線性兩類。預處理n采樣后需要對信號進行預處理,可提高信噪比,以便后續(xù)操作。n預加重可以提升高頻段;在整個頻段中保持頻譜平坦;方便進行頻譜分析,預加重之后,開始進行分幀加窗處理,我們把10ms-30ms內語音信號看成是平穩(wěn)的,為得到短時的語音信號
6、,要對其進行加窗操作,窗函數平滑地滑動,將語音信號分成幀。n在選擇窗函數時,窗函數必須在時域時減小兩端時間窗的坡度,使得窗口邊緣緩慢平滑降為零;在頻域,帶寬要在3db以上。常用的窗函數有:矩形窗和漢明窗。通常情況下,選擇漢明窗。n通過分楨加窗后,語音信號就被分割成短時語音信號,利用數字信號處理技術,對這些信號進行處理,提取語音信號的特征參數。語音信號時域分析n時域分析簡單直觀,直接分析語音信號時域波形提取特征參數,一般用于最基本信號處理。主要方法有短時平均能量、短時平均幅度、端點檢測和短時平均過零率。n短時平均能量:語音信號的能量隨時間發(fā)生變化,清音和濁音間的能量差別很大,濁音能量大,可以分辨
7、清音和濁音,也可以界定有聲段和無聲段、聲母及韻母。n短時平均過零率:表示每幀內信號過零的次數,可初步判斷清濁音,清音過零率高,可以很好反映信號頻率變化。適合背景噪聲較大的情況。n端點檢測:是將短時平均能量和短時平均過零率結合起來,進行端點檢測,可以很好的檢測語音是否開始和結束;目的就是為了確定語音信號的起始點和結束點位置,避免無聲段的干擾。n頻域分析方法有:帶通濾波器組法、傅里葉變換法和線性預測法。n短時傅里葉分析:語音信號非平穩(wěn),不能用標準傅里葉變換,語音信號在10-30ms時間是平穩(wěn)的。短時傅里葉變換可表示為:n經過短時傅里葉變換,就可以得到短時功率譜。從而可以得到與語譜圖,語譜圖表示語音
8、頻譜隨時間變換的圖形。不同說話者的語譜圖的聲紋是不一樣的。語音信號頻域分析特征參數提取n特征提取在聲紋識別系統(tǒng)中占有很重要的作用,特征提取方法有:線性預測分析LPC、線性預測倒譜LPCC、梅爾倒譜MFCCnLPC和LPCC基本思想:語音信號當前樣點的值可以用過去若干個樣點值的線性組合來逼近。使實際采樣值與預測值之間的均方差最小,可得LPC系數。n梅爾倒譜MFCC:模擬人的聽覺模型,通常情況下,人們對聲音的高低和頻率并不滿足線性正比關系,Mel參數值和實際聲音頻率成對數關系,Mel(f)=2595lg(1+f/700),對低頻比高頻敏感。n基本步驟:預處理-FFT變換-短時能量譜-梅爾濾波-對數
9、能量譜-DCT變換-MFCC參數n聲紋注冊,用戶在服務器上擁有自己的聲紋模型,用戶說話時,說話人確認模塊將用戶語音和此聲紋模型進行對比,確認是否用戶本人,完成認證。n通過手機SIM卡實現手機綁定,可以實現定位及語音信號采集,以確認用戶在那個區(qū)域及在與什么人通話,從而檢測用戶是否從事危險活動。n訓練階段和識別階段是說話人識別的兩個主要階段。n訓練階段:指的是把每個說話人語音,進行預處理,特征提取,建立相應的數據庫模板。n識別階段:把測試者語音經過特征提取處理之后,和之前建立的模板進行匹配。 進行說話人辨認實驗時,最接近測試語音的說話人就被認為是待識別的人。 進行說話人確認實驗時,通過測試音和模板
10、的相似度,來判決是否某人。身份確認n語音資料庫 該語音庫的存儲方式是用說話人文件包進行組織的,標注信息包括如下內容: 錄音特性:錄音時間,錄音地點,錄音通道等 說話人信息:姓名,性別,出生日期,家庭所在地,現在居住地址,聯系電話,電子郵件 數據相關信息:采樣頻率,數據量化位數,(A/D)數據編碼格式、語音文本信息及錄音文本內容n特征匹配的識別方法:n動態(tài)時間規(guī)整(DTW);n矢量量化(VQ);n隱形馬爾可夫模型(HMM);n人工神經網絡(ANN)nDTW:人的每次發(fā)音不同,發(fā)音長短也不一樣,不能直接將測試模板與參考模板直接比較。DWT可以解決在時間上不匹配的問題,設測試模板和參考模板分別為Xm和Yn,DWT就是找到函數m=f(n),使測試模板時間軸n映射到參考模板時間軸m上,使兩模板匹配時的累計距離達到最小。nVQ:在訓練階段,把每個人的語音信號的特征參數進行分類,并生成碼子存為碼本,識別時,將測試語音參數序列與碼本中的每個碼子比較,計算最小距離。nHMM:是一種基于傳輸概率和轉移概率的隨機模型,把語音當作是可觀察到的符號序列組成的隨機過程。訓練時,通過對訓練語言的特征參數序列得到HMM的狀態(tài)轉移
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中小企業(yè)投資合同協(xié)議書
- 個人貸款還款協(xié)議合同范本
- 上海辦公用房租賃合同范本
- 中保人壽保險合同2025-66鴻運B型條款解析
- 個人汽車質押借款合同
- 房地產買賣交易合同書范本
- 中外旅游業(yè)務合作合同書
- 三人投資合作合同
- 個人家政服務合同范本
- 60歲人士專用:離婚合同模板大全
- 學生綜合素質評定與職業(yè)規(guī)劃的關聯性分析
- 特殊家長課后溝通技巧培訓
- 【MOOC】數字攝影技術與藝術-西南石油大學 中國大學慕課MOOC答案
- 2025檢驗檢測中心年度工作總結及工作計劃
- 2024年總經理助理年終工作總結(3篇)
- B區(qū)地下室碳纖維加固施工方案
- 三甲醫(yī)院臨床試驗機構-44 V00專業(yè)組SOP目錄
- 旅行社脫團安全協(xié)議書范文模板
- 酒店工作安全培訓(共60張課件)
- 2024年委托招商代理合同經典版(三篇)
- 期中測試卷-2024-2025學年統(tǒng)編版語文五年級上冊
評論
0/150
提交評論