語音信號處理_第1頁
語音信號處理_第2頁
語音信號處理_第3頁
語音信號處理_第4頁
語音信號處理_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于語音信號處理10.1概述自動說話人識別(AutomaticSpeakerRecognition簡稱ASR),又稱為話者識別或聲紋識別,是一種自動識別說話人的過程。說話人識別和語音識別的區(qū)別在于,它不注重包含在語音信號內的文字符號以及語意內容信息,而是著眼于包含在語音信號中的個人特征,提取說話人的這些個人信息特征,以達到識別說別說話人的目的。按其最終完成的任務可以分為兩類:*自動說話人確認(AutomaticSpeakerVerification,簡稱ASV):確認一個人的身份,只涉及一個特定的參考模型和待識別模式之間的比較,只做“是”和“不是”的判決。*自動說話人辨認(AutomaticSpeakerIdentification,簡稱ASI):必須辨認出待識別的語音是來自待考察人中的哪一個,有時還要對這個人以外的語音做出拒絕的判決。

第2頁,共35頁,星期六,2024年,5月10.2說話人識別方法和系統(tǒng)結構說話人識別就是從說話人的一段語音中提取出說話人的個性特征,通過對這些個人特征的分析和識別,從而達到對說話人進行辨認或者確認的目的。圖10-1是說話人識別系統(tǒng)的結構框圖,它由預處理、特征提取、模式匹配和判決等幾大部分組成。第3頁,共35頁,星期六,2024年,5月10.2.1預處理包括對輸入計算機的語音數據進行端點檢測、預加重、加窗、分針等。10.2.2說話人識別特征的選取

在說話人識別系統(tǒng)中特征提取是最重要的一環(huán),特征提取就是從說話人的語音信號中提取出表示說話人個性的基本特征。

在理想情況下,選取的特征應當滿足下述準則:能夠有效地區(qū)分不同的說話人,但又能在同一說話人的語音發(fā)生變化時相對保持穩(wěn)定。易于從語音信號中提取不易被模仿盡量不隨時間和空間變化第4頁,共35頁,星期六,2024年,5月如果把說話人識別中常用的參數加以簡要歸類,可劃分為以下幾類:線性預測參數及其派生參數語音頻譜直接導出的參數混合參數其他魯棒性參數上表是日本人Matui和Furui在1990年針對倒譜特征和基音特征所作的比較實驗結果所用特征誤識率/(%)倒譜差值倒譜基音差值基音倒譜與差值倒譜倒譜、差值倒譜與基音、差值基音9.4311.8174.4285.887.932.89第5頁,共35頁,星期六,2024年,5月10.2.3特征參量評估方法

F比:在給定一種識別方法后,識別的效果主要取決于特征參數的選取。對于某一維單個的參數而言,可以用F來表征它在說話人識別中的有效性。F越大表示越有效,即不同說話人的特征量的均值分布的離散程度分布得越散越好;而同一個人的越集中越好。第6頁,共35頁,星期六,2024年,5月10.2.3特征參量評估方法

D比:把F比的概念推廣到多維,用以衡量多維特征矢量在說話人識別系統(tǒng)中的有效性。F比沒有考慮到特征矢量中各維參數之間的相關性。定義兩個協(xié)方差矩陣,即說話人間的協(xié)方差矩陣B和說話人內協(xié)方差矩陣W,

定義對多維特征矢量的可分性測度——散度,即D比為:

第7頁,共35頁,星期六,2024年,5月10.2.4模式匹配方法概率統(tǒng)計方法通過對穩(wěn)態(tài)特征(基音、聲門增益、低階反射系數等)的統(tǒng)計分析,利用均值、方差等統(tǒng)計量和概率密度函數進行分類判決。優(yōu)點:不用對特征參量在時域上進行規(guī)整,適合與文本無關的說話人識別。動態(tài)時間規(guī)整方法(DTW)將識別模板與參考模板進行時間對比,按照某種距離測度得出兩個模板之間的相似程度。常用的分法:基于最近鄰原則的動態(tài)時間規(guī)整。矢量量化方法(VQ)將每個人的特定文本訓練成碼本,識別時將測試文本按此碼本進行編碼,以量化產生的失真度作為判決標準。優(yōu)點:速度快,識別精度不低。第8頁,共35頁,星期六,2024年,5月10.2.4模式匹配方法隱馬爾科夫模型方法(HMM)為每個說話人建立發(fā)聲模型,通過訓練得到狀態(tài)轉移概率矩陣和符號輸出矩陣;識別時計算未知語音在狀態(tài)轉移過程中的最大概率,根據最大概率對應的模型進行判決。優(yōu)點:無需時間規(guī)整,精度高;缺點:訓練耗時較大。人工神經網絡方法(ANN)人工神經網絡在某種程度上模擬了生物的感知特性,是一種分布式并行處理結構的網絡模型,具有自組織和自學習能力、很強的復雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。缺點:訓練時間長、動態(tài)規(guī)整能力弱、網絡隨說話人數碼的增加時可能大到難以訓練的程度。第9頁,共35頁,星期六,2024年,5月10.2.5說話人識別中判別方法和閾值的選擇加快系統(tǒng)響應的判別分法:多門限判決、預分類技術。說話人確認系統(tǒng)的閾值選擇:確認錯誤由誤拒率(FalseRejection,FR)和誤受率(FalseAcceptance,FA)表示。判決門限一般由FR和FA的相等點附件來確定。第10頁,共35頁,星期六,2024年,5月10.2.6說話人識別系統(tǒng)的評價

一個說話人識別系統(tǒng)的好壞是由許多因素決定的。其中主要有正確識別率(或出錯率)、訓練時間的長短、識別時間、對參考參量存儲量的要求、使用者適用的方便程度等,實用中還有價格因素。圖10.3表示了說話人辨別與說話人確認系統(tǒng)性能與用戶數的關系。第11頁,共35頁,星期六,2024年,5月10.3應用DTW的說話人確認系統(tǒng)一個應用DTW說話人識別系統(tǒng)如圖10-4所示。它采用的識別特征是BPFG(附聽覺特征處理),匹配時采用DTW技術。第12頁,共35頁,星期六,2024年,5月10.4應用VQ的說話人識別系統(tǒng)目前自動說話人識別的方法主要是基于參數模型的HMM的方法和基于非參數模型的VQ的方法。應用VQ的說話人識別系統(tǒng)如圖10-5所示。第13頁,共35頁,星期六,2024年,5月應用VQ的說話人識別過程的步驟如下:訓練過程從訓練語音提取特征矢量,得到特征矢量集;通過LBG算法生成碼本;重復訓練修正優(yōu)化碼本;存儲碼本識別過程從測試語音提取特征矢量序列由每個模板依次對特征矢量序列進行矢量量化,計算各自的平均量化誤差:

式中是第i個碼本中第l個碼本矢量,而是待測矢量和碼矢量之間的距離選擇平均量化誤差最小的碼本所對應的說話人作為系統(tǒng)識別結果。第14頁,共35頁,星期六,2024年,5月10.5應用HMM的說話人識別系統(tǒng)10.5.1基于HMM的與文本有關的說話人識別基于HMM的與文本有關的說話人識別系統(tǒng)的結構如圖10-6所示。第15頁,共35頁,星期六,2024年,5月10.5.2基于HMM的與文本無關的說話人識別10.5.3基于HMM的指定文本型說話人識別指定文本型說話人識別系統(tǒng)的基本構造如圖10-7所示。文本內容不確定,一般采用各態(tài)歷經HMM建立說話人模型。第16頁,共35頁,星期六,2024年,5月10.5.4說話人識別HMM的學習方法10.5.5魯棒的HMM說話人識別技術利用少量的登錄說話人學習數據的學習方法;利用非特定人語音HMM和登錄說話人學習數據的學習方法。對于由信號傳輸信道、濾波器等引起的識別率下降,通過倒譜均值正規(guī)化法可以得到改善;由聲道特征、發(fā)音方式的時間變動等引起的識別率下降,可以通過似然度正規(guī)化法加以改善。第17頁,共35頁,星期六,2024年,5月10.6應用GMM的說話人識別系統(tǒng)混合高斯分布模型是只有一個狀態(tài)的模型,在這個狀態(tài)里具有多個高斯分布函數10.6.1GMM模型的基本概念

高斯混合模型(GMM)可以看做一種狀態(tài)數為1的連續(xù)分布隱馬爾科夫模型CDHMM。一個M階混合高斯模型的概率密度函數是由M個高斯概率密度函數加權求和得到,所示如下:第18頁,共35頁,星期六,2024年,5月其中是一個D維隨即向量,是子分布,,是混合權重。每個子分布是D維的聯合高斯概率分布,可表示為:

其中是均值向量,是協(xié)方差矩陣,混合權重值滿足以下條件:

完整的混合高斯模型由參數均值向量、協(xié)方差矩陣和混合權重組成,表示為:

對于給定的時間序列,利用GMM模型求得的對數似然度可定義如下:第19頁,共35頁,星期六,2024年,5月10.6.2GMM模型的參數估計GMM模型的訓練就是給定一組訓練數據,依據某種準則確定模型參數。最常用的參數估計方法是最大似然估計(ML)估計。對于一組長度為T的訓練矢量序列

,GMM的似然度可以表示為:

由于上式是參數的非線性函數,很難直接求出上式的最大值。因此,常常采用EM算法估計參數。EM算法的計算是從參數的一個初值開始,采用EM算法估計出一個新的參數,使得新的模型參數下的似然度

新的模型參數再作為當前參數進行訓練,這樣迭代運算直到模型收斂。每一次迭代運算,下面的重估公式保證了模型似然度的單調遞增。第20頁,共35頁,星期六,2024年,5月混合權值的重估公式:均值的重估公式:方差的重估公式:其中,分量i的后驗概率為:第21頁,共35頁,星期六,2024年,5月10.6.3訓練數據不充分的問題由于訓練數據的不充分,GMM模型的協(xié)方差矩陣的一些分量可能會很小,這些很小的值對模型參數的似然度函數影響很大,嚴重影響系統(tǒng)的性能。為了避免小的值對系統(tǒng)性能的影響,一種方法是在EM算法的迭代計算中,對協(xié)方差的值設置一個門限值,在訓練過程中領協(xié)方差的值不小于這個設定的門限值,否則用這個門限值代替。第22頁,共35頁,星期六,2024年,5月10.6.4GMM模型的識別問題

給定一個語音樣本,說話人辨認的目的是要確定這個語音屬于N個說話人中的哪一個?;贕MM的說話人辨認系統(tǒng)結構框圖如圖10-8所示。第23頁,共35頁,星期六,2024年,5月

根據Bayes理論,最大后驗概率可表示為:

在這里:

其對數形式為:因為的先驗概率未知,我們假定該語音信號出自封閉集里的每一個人的可能性相等,也就是說:

第24頁,共35頁,星期六,2024年,5月對于一個確定的觀察值矢量X,P(X)是一個確定的常數值,對所有說話人都相等。因此,求取后驗概率的最大值可以通過求取獲得,這樣,辨認該語音屬于語音庫中的哪一種說話人可以表示為:

其中即為識別出的說話人。第25頁,共35頁,星期六,2024年,5月10.7說話人識別尚需探索的問題及應用基礎性的課題關于語音中語意內容和說話人的分離,系統(tǒng)全面地進行研究的人還是很少的。究竟什么特征參數對說話人識別最有效?如何有效的利用非聲道特征?說話人特征的變化和樣本選擇問題。用聽覺和視覺的說話人識別研究是用計算機進行說話人識別的基礎。第26頁,共35頁,星期六,2024年,5月實用性的問題說話人識別系統(tǒng)設計的合理化及優(yōu)化問題。如何處理長時和短時說話人的語音波動?如何區(qū)別有意模仿的聲音?說話人識別系統(tǒng)的性能評價問題??煽啃院徒洕浴D壳罢f話人識別的主要研究主要集中在如下幾個方面:語音特征參數的提取和混合HMM模型與其他模型混合,改善說話人識別系統(tǒng)的性能。第27頁,共35頁,星期六,2024年,5月說話人識別技術的應用電話信道罪犯緝拿、法庭中電話錄音信息的身份確認、電話語音跟蹤,為用戶提供防盜門開啟功能等。通信領域,說話人識別技術可以應用于諸如電話銀行、電話購物、數據庫訪問、信息服務、安全控制、計算機遠程登陸等領域。呼叫中心應用上,說話人識別技術同樣可以提供更加個性化的人機交互界面。

第28頁,共35頁,星期六,2024年,5月10.8語種辨別的原理和應用

語種辨別(LanguageIdentification,LID)與語音識別和說話人識別有所不同,它是通過分析處理一個語言片段以判別其所屬語言的語種,本質上也是語音識別的一方面。10.8.1語種辨別的基本原理和基本方法

世界

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論