語音信號(hào)處理_第1頁
語音信號(hào)處理_第2頁
語音信號(hào)處理_第3頁
語音信號(hào)處理_第4頁
語音信號(hào)處理_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于語音信號(hào)處理10.1概述自動(dòng)說話人識(shí)別(AutomaticSpeakerRecognition簡(jiǎn)稱ASR),又稱為話者識(shí)別或聲紋識(shí)別,是一種自動(dòng)識(shí)別說話人的過程。說話人識(shí)別和語音識(shí)別的區(qū)別在于,它不注重包含在語音信號(hào)內(nèi)的文字符號(hào)以及語意內(nèi)容信息,而是著眼于包含在語音信號(hào)中的個(gè)人特征,提取說話人的這些個(gè)人信息特征,以達(dá)到識(shí)別說別說話人的目的。按其最終完成的任務(wù)可以分為兩類:*自動(dòng)說話人確認(rèn)(AutomaticSpeakerVerification,簡(jiǎn)稱ASV):確認(rèn)一個(gè)人的身份,只涉及一個(gè)特定的參考模型和待識(shí)別模式之間的比較,只做“是”和“不是”的判決。*自動(dòng)說話人辨認(rèn)(AutomaticSpeakerIdentification,簡(jiǎn)稱ASI):必須辨認(rèn)出待識(shí)別的語音是來自待考察人中的哪一個(gè),有時(shí)還要對(duì)這個(gè)人以外的語音做出拒絕的判決。

第2頁,共35頁,2024年2月25日,星期天10.2說話人識(shí)別方法和系統(tǒng)結(jié)構(gòu)說話人識(shí)別就是從說話人的一段語音中提取出說話人的個(gè)性特征,通過對(duì)這些個(gè)人特征的分析和識(shí)別,從而達(dá)到對(duì)說話人進(jìn)行辨認(rèn)或者確認(rèn)的目的。圖10-1是說話人識(shí)別系統(tǒng)的結(jié)構(gòu)框圖,它由預(yù)處理、特征提取、模式匹配和判決等幾大部分組成。第3頁,共35頁,2024年2月25日,星期天10.2.1預(yù)處理包括對(duì)輸入計(jì)算機(jī)的語音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)、預(yù)加重、加窗、分針等。10.2.2說話人識(shí)別特征的選取

在說話人識(shí)別系統(tǒng)中特征提取是最重要的一環(huán),特征提取就是從說話人的語音信號(hào)中提取出表示說話人個(gè)性的基本特征。

在理想情況下,選取的特征應(yīng)當(dāng)滿足下述準(zhǔn)則:能夠有效地區(qū)分不同的說話人,但又能在同一說話人的語音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定。易于從語音信號(hào)中提取不易被模仿盡量不隨時(shí)間和空間變化第4頁,共35頁,2024年2月25日,星期天如果把說話人識(shí)別中常用的參數(shù)加以簡(jiǎn)要?dú)w類,可劃分為以下幾類:線性預(yù)測(cè)參數(shù)及其派生參數(shù)語音頻譜直接導(dǎo)出的參數(shù)混合參數(shù)其他魯棒性參數(shù)上表是日本人Matui和Furui在1990年針對(duì)倒譜特征和基音特征所作的比較實(shí)驗(yàn)結(jié)果所用特征誤識(shí)率/(%)倒譜差值倒譜基音差值基音倒譜與差值倒譜倒譜、差值倒譜與基音、差值基音9.4311.8174.4285.887.932.89第5頁,共35頁,2024年2月25日,星期天10.2.3特征參量評(píng)估方法

F比:在給定一種識(shí)別方法后,識(shí)別的效果主要取決于特征參數(shù)的選取。對(duì)于某一維單個(gè)的參數(shù)而言,可以用F來表征它在說話人識(shí)別中的有效性。F越大表示越有效,即不同說話人的特征量的均值分布的離散程度分布得越散越好;而同一個(gè)人的越集中越好。第6頁,共35頁,2024年2月25日,星期天10.2.3特征參量評(píng)估方法

D比:把F比的概念推廣到多維,用以衡量多維特征矢量在說話人識(shí)別系統(tǒng)中的有效性。F比沒有考慮到特征矢量中各維參數(shù)之間的相關(guān)性。定義兩個(gè)協(xié)方差矩陣,即說話人間的協(xié)方差矩陣B和說話人內(nèi)協(xié)方差矩陣W,

定義對(duì)多維特征矢量的可分性測(cè)度——散度,即D比為:

第7頁,共35頁,2024年2月25日,星期天10.2.4模式匹配方法概率統(tǒng)計(jì)方法通過對(duì)穩(wěn)態(tài)特征(基音、聲門增益、低階反射系數(shù)等)的統(tǒng)計(jì)分析,利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。優(yōu)點(diǎn):不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整,適合與文本無關(guān)的說話人識(shí)別。動(dòng)態(tài)時(shí)間規(guī)整方法(DTW)將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)度得出兩個(gè)模板之間的相似程度。常用的分法:基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整。矢量量化方法(VQ)將每個(gè)人的特定文本訓(xùn)練成碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。優(yōu)點(diǎn):速度快,識(shí)別精度不低。第8頁,共35頁,2024年2月25日,星期天10.2.4模式匹配方法隱馬爾科夫模型方法(HMM)為每個(gè)說話人建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出矩陣;識(shí)別時(shí)計(jì)算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。優(yōu)點(diǎn):無需時(shí)間規(guī)整,精度高;缺點(diǎn):訓(xùn)練耗時(shí)較大。人工神經(jīng)網(wǎng)絡(luò)方法(ANN)人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的魯棒性,其性能近似理想的分類器。缺點(diǎn):訓(xùn)練時(shí)間長(zhǎng)、動(dòng)態(tài)規(guī)整能力弱、網(wǎng)絡(luò)隨說話人數(shù)碼的增加時(shí)可能大到難以訓(xùn)練的程度。第9頁,共35頁,2024年2月25日,星期天10.2.5說話人識(shí)別中判別方法和閾值的選擇加快系統(tǒng)響應(yīng)的判別分法:多門限判決、預(yù)分類技術(shù)。說話人確認(rèn)系統(tǒng)的閾值選擇:確認(rèn)錯(cuò)誤由誤拒率(FalseRejection,FR)和誤受率(FalseAcceptance,FA)表示。判決門限一般由FR和FA的相等點(diǎn)附件來確定。第10頁,共35頁,2024年2月25日,星期天10.2.6說話人識(shí)別系統(tǒng)的評(píng)價(jià)

一個(gè)說話人識(shí)別系統(tǒng)的好壞是由許多因素決定的。其中主要有正確識(shí)別率(或出錯(cuò)率)、訓(xùn)練時(shí)間的長(zhǎng)短、識(shí)別時(shí)間、對(duì)參考參量存儲(chǔ)量的要求、使用者適用的方便程度等,實(shí)用中還有價(jià)格因素。圖10.3表示了說話人辨別與說話人確認(rèn)系統(tǒng)性能與用戶數(shù)的關(guān)系。第11頁,共35頁,2024年2月25日,星期天10.3應(yīng)用DTW的說話人確認(rèn)系統(tǒng)一個(gè)應(yīng)用DTW說話人識(shí)別系統(tǒng)如圖10-4所示。它采用的識(shí)別特征是BPFG(附聽覺特征處理),匹配時(shí)采用DTW技術(shù)。第12頁,共35頁,2024年2月25日,星期天10.4應(yīng)用VQ的說話人識(shí)別系統(tǒng)目前自動(dòng)說話人識(shí)別的方法主要是基于參數(shù)模型的HMM的方法和基于非參數(shù)模型的VQ的方法。應(yīng)用VQ的說話人識(shí)別系統(tǒng)如圖10-5所示。第13頁,共35頁,2024年2月25日,星期天應(yīng)用VQ的說話人識(shí)別過程的步驟如下:訓(xùn)練過程從訓(xùn)練語音提取特征矢量,得到特征矢量集;通過LBG算法生成碼本;重復(fù)訓(xùn)練修正優(yōu)化碼本;存儲(chǔ)碼本識(shí)別過程從測(cè)試語音提取特征矢量序列由每個(gè)模板依次對(duì)特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量化誤差:

式中是第i個(gè)碼本中第l個(gè)碼本矢量,而是待測(cè)矢量和碼矢量之間的距離選擇平均量化誤差最小的碼本所對(duì)應(yīng)的說話人作為系統(tǒng)識(shí)別結(jié)果。第14頁,共35頁,2024年2月25日,星期天10.5應(yīng)用HMM的說話人識(shí)別系統(tǒng)10.5.1基于HMM的與文本有關(guān)的說話人識(shí)別基于HMM的與文本有關(guān)的說話人識(shí)別系統(tǒng)的結(jié)構(gòu)如圖10-6所示。第15頁,共35頁,2024年2月25日,星期天10.5.2基于HMM的與文本無關(guān)的說話人識(shí)別10.5.3基于HMM的指定文本型說話人識(shí)別指定文本型說話人識(shí)別系統(tǒng)的基本構(gòu)造如圖10-7所示。文本內(nèi)容不確定,一般采用各態(tài)歷經(jīng)HMM建立說話人模型。第16頁,共35頁,2024年2月25日,星期天10.5.4說話人識(shí)別HMM的學(xué)習(xí)方法10.5.5魯棒的HMM說話人識(shí)別技術(shù)利用少量的登錄說話人學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)方法;利用非特定人語音HMM和登錄說話人學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)方法。對(duì)于由信號(hào)傳輸信道、濾波器等引起的識(shí)別率下降,通過倒譜均值正規(guī)化法可以得到改善;由聲道特征、發(fā)音方式的時(shí)間變動(dòng)等引起的識(shí)別率下降,可以通過似然度正規(guī)化法加以改善。第17頁,共35頁,2024年2月25日,星期天10.6應(yīng)用GMM的說話人識(shí)別系統(tǒng)混合高斯分布模型是只有一個(gè)狀態(tài)的模型,在這個(gè)狀態(tài)里具有多個(gè)高斯分布函數(shù)10.6.1GMM模型的基本概念

高斯混合模型(GMM)可以看做一種狀態(tài)數(shù)為1的連續(xù)分布隱馬爾科夫模型CDHMM。一個(gè)M階混合高斯模型的概率密度函數(shù)是由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到,所示如下:第18頁,共35頁,2024年2月25日,星期天其中是一個(gè)D維隨即向量,是子分布,,是混合權(quán)重。每個(gè)子分布是D維的聯(lián)合高斯概率分布,可表示為:

其中是均值向量,是協(xié)方差矩陣,混合權(quán)重值滿足以下條件:

完整的混合高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重組成,表示為:

對(duì)于給定的時(shí)間序列,利用GMM模型求得的對(duì)數(shù)似然度可定義如下:第19頁,共35頁,2024年2月25日,星期天10.6.2GMM模型的參數(shù)估計(jì)GMM模型的訓(xùn)練就是給定一組訓(xùn)練數(shù)據(jù),依據(jù)某種準(zhǔn)則確定模型參數(shù)。最常用的參數(shù)估計(jì)方法是最大似然估計(jì)(ML)估計(jì)。對(duì)于一組長(zhǎng)度為T的訓(xùn)練矢量序列

,GMM的似然度可以表示為:

由于上式是參數(shù)的非線性函數(shù),很難直接求出上式的最大值。因此,常常采用EM算法估計(jì)參數(shù)。EM算法的計(jì)算是從參數(shù)的一個(gè)初值開始,采用EM算法估計(jì)出一個(gè)新的參數(shù),使得新的模型參數(shù)下的似然度

新的模型參數(shù)再作為當(dāng)前參數(shù)進(jìn)行訓(xùn)練,這樣迭代運(yùn)算直到模型收斂。每一次迭代運(yùn)算,下面的重估公式保證了模型似然度的單調(diào)遞增。第20頁,共35頁,2024年2月25日,星期天混合權(quán)值的重估公式:均值的重估公式:方差的重估公式:其中,分量i的后驗(yàn)概率為:第21頁,共35頁,2024年2月25日,星期天10.6.3訓(xùn)練數(shù)據(jù)不充分的問題由于訓(xùn)練數(shù)據(jù)的不充分,GMM模型的協(xié)方差矩陣的一些分量可能會(huì)很小,這些很小的值對(duì)模型參數(shù)的似然度函數(shù)影響很大,嚴(yán)重影響系統(tǒng)的性能。為了避免小的值對(duì)系統(tǒng)性能的影響,一種方法是在EM算法的迭代計(jì)算中,對(duì)協(xié)方差的值設(shè)置一個(gè)門限值,在訓(xùn)練過程中領(lǐng)協(xié)方差的值不小于這個(gè)設(shè)定的門限值,否則用這個(gè)門限值代替。第22頁,共35頁,2024年2月25日,星期天10.6.4GMM模型的識(shí)別問題

給定一個(gè)語音樣本,說話人辨認(rèn)的目的是要確定這個(gè)語音屬于N個(gè)說話人中的哪一個(gè)。基于GMM的說話人辨認(rèn)系統(tǒng)結(jié)構(gòu)框圖如圖10-8所示。第23頁,共35頁,2024年2月25日,星期天

根據(jù)Bayes理論,最大后驗(yàn)概率可表示為:

在這里:

其對(duì)數(shù)形式為:因?yàn)榈南闰?yàn)概率未知,我們假定該語音信號(hào)出自封閉集里的每一個(gè)人的可能性相等,也就是說:

第24頁,共35頁,2024年2月25日,星期天對(duì)于一個(gè)確定的觀察值矢量X,P(X)是一個(gè)確定的常數(shù)值,對(duì)所有說話人都相等。因此,求取后驗(yàn)概率的最大值可以通過求取獲得,這樣,辨認(rèn)該語音屬于語音庫中的哪一種說話人可以表示為:

其中即為識(shí)別出的說話人。第25頁,共35頁,2024年2月25日,星期天10.7說話人識(shí)別尚需探索的問題及應(yīng)用基礎(chǔ)性的課題關(guān)于語音中語意內(nèi)容和說話人的分離,系統(tǒng)全面地進(jìn)行研究的人還是很少的。究竟什么特征參數(shù)對(duì)說話人識(shí)別最有效?如何有效的利用非聲道特征?說話人特征的變化和樣本選擇問題。用聽覺和視覺的說話人識(shí)別研究是用計(jì)算機(jī)進(jìn)行說話人識(shí)別的基礎(chǔ)。第26頁,共35頁,2024年2月25日,星期天實(shí)用性的問題說話人識(shí)別系統(tǒng)設(shè)計(jì)的合理化及優(yōu)化問題。如何處理長(zhǎng)時(shí)和短時(shí)說話人的語音波動(dòng)?如何區(qū)別有意模仿的聲音?說話人識(shí)別系統(tǒng)的性能評(píng)價(jià)問題。可靠性和經(jīng)濟(jì)性。目前說話人識(shí)別的主要研究主要集中在如下幾個(gè)方面:語音特征參數(shù)的提取和混合HMM模型與其他模型混合,改善說話人識(shí)別系統(tǒng)的性能。第27頁,共35頁,2024年2月25日,星期天說話人識(shí)別技術(shù)的應(yīng)用電話信道罪犯緝拿、法庭中電話錄音信息的身份確認(rèn)、電話語音跟蹤,為用戶提供防盜門開啟功能等。通信領(lǐng)域,說話人識(shí)別技術(shù)可以應(yīng)用于諸如電話銀行、電話購(gòu)物、數(shù)據(jù)庫訪問、信息服務(wù)、安全控制、計(jì)算機(jī)遠(yuǎn)程登陸等領(lǐng)域。呼叫中心應(yīng)用上,說話人識(shí)別技術(shù)同樣可以提供更加個(gè)性化的人機(jī)交互界面。

第28頁,共35頁,2024年2月25日,星期天10.8語種辨別的原理和應(yīng)用

語種辨別(LanguageIdentification,LID)與語音識(shí)別和說話人識(shí)別有所不同,它是通過分析處理一個(gè)語言片段以判別其所屬語言的語種,本質(zhì)上也是語音識(shí)別的一方面。10.8.1語種辨別的基本原理和基本方法

世界上的不同語種間有多種區(qū)別,比如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論