語音聲紋識別技術(shù)及應用_第1頁
語音聲紋識別技術(shù)及應用_第2頁
語音聲紋識別技術(shù)及應用_第3頁
語音聲紋識別技術(shù)及應用_第4頁
語音聲紋識別技術(shù)及應用_第5頁
已閱讀5頁,還剩70頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語音聲紋識別技術(shù)及應用第一頁,共七十五頁,2022年,8月28日主要內(nèi)容聲音處理技術(shù)語音識別技術(shù)聲紋識別技術(shù)技術(shù)演示2第二頁,共七十五頁,2022年,8月28日聲音處理●聲音的三要素

●音質(zhì)聲音的三要素是音調(diào)、音色和音強

音調(diào)代表聲音的高低,與頻率有關(guān)。頻率越高,音調(diào)越高,反之亦然。音色是聲音的特色。影響聲音特色的主要因素是復音,即具有不同頻率和不同振幅的混合聲音。音強是聲音的強度,也被稱為聲音的強度。音強與聲波的振幅成正比,振幅越大,強度越大。對于數(shù)字音頻信號,音質(zhì)的好壞與數(shù)據(jù)采樣頻率和數(shù)據(jù)位數(shù)有關(guān)。音質(zhì)與聲音還原設(shè)備有關(guān)。音質(zhì)與信號噪聲比(SNR)有關(guān)。第三頁,共七十五頁,2022年,8月28日●文件數(shù)字化的音頻文件主要分為4類:

波形音頻文件。一種最直接的表達聲波的數(shù)字形式,文件擴展名是“.wav”。MIDI音頻文件。一種計算機數(shù)字音樂接口生成的數(shù)字描述音頻文件,擴展名是“.mid”。CD-DA音頻文件。標準激光盤文件,擴展名是“.cda”。

壓縮音頻文件。在數(shù)字音頻領(lǐng)域,一種MP3格式的壓縮音頻文件很流行,該格式的文件簡稱MP3文件。

聲音處理第四頁,共七十五頁,2022年,8月28日聲音處理獲取聲音●獲得CD中的聲音●錄音●聲音轉(zhuǎn)換

如果希望把音樂CD中的歌曲或樂曲作為素材,需要把這些歌曲或樂曲轉(zhuǎn)換成計算機能夠處理的數(shù)字化聲音,這就是“采樣”??梢允褂肊asyCD-DAExtractor、CoolEdit等音頻處理軟件對音頻進行編輯和處理。

要錄制音質(zhì)好的聲音,有兩個途徑:使用性能優(yōu)良的錄音設(shè)備;采用較高的采樣頻率。可以使用Windows系統(tǒng)自帶的“錄音機”進行錄音。

聲音的轉(zhuǎn)換只能從高質(zhì)量向低質(zhì)量進行,聲音的轉(zhuǎn)換不需要專門的軟件,使用Windows的“錄音機”轉(zhuǎn)換即可,并且轉(zhuǎn)換功能很強。如果要進一步處理,可采用CoolEdit(AdobeAudition)工具軟件。第五頁,共七十五頁,2022年,8月28日短時能量和過零率語音分幀每幀10-30ms,幀間隔10ms短時能量對數(shù)平方和絕對值過零率(ZCR)6第六頁,共七十五頁,2022年,8月28日參數(shù)提取的預處理預加重:—減少尖銳噪聲影響,提升高頻部分加窗:Hamming—減少Gibbs效應7第七頁,共七十五頁,2022年,8月28日各種參數(shù)的比較LinearPredictionCepstrumCoefficients(LPCC)假定所處理信號為自回歸信號(不適用輔音);計算簡單,但抗噪性差。Mel-FrequencyCepstrumCoefficients(MFCC)模擬人的聽覺模型;強調(diào)低頻部分,屏蔽噪聲影響;識別率高,但計算量大。能量輔助作用,需歸一化。音調(diào)對算法要求高,適于二次判別。8第八頁,共七十五頁,2022年,8月28日Mel-頻率目的:模擬人耳對不同頻率語音的感知人類對不同頻率語音有不同的感知能力1kHz以下,與頻率成線性關(guān)系1kHz以上,與頻率成對數(shù)關(guān)系Mel頻率定義1Mel—1kHz音調(diào)感知程度的1/10009第九頁,共七十五頁,2022年,8月28日Mel-頻率公式:頻率-Mel-頻率:--頻率--Mel-頻率Mel-頻率頻率(Hz)10第十頁,共七十五頁,2022年,8月28日MFCC計算流程:11DFT時域信號線性譜域Mel濾波器組LogDCTMel譜域?qū)?shù)譜域MFCC第十一頁,共七十五頁,2022年,8月28日主要內(nèi)容聲音處理技術(shù)語音識別技術(shù)聲紋識別技術(shù)技術(shù)演示12第十二頁,共七十五頁,2022年,8月28日語音識別AutomaticSpeechRecognition(ASR)的中文含意是自動語音識別。語音識別技術(shù)的目標是讓機器能夠“聽懂”不同人說的話,實現(xiàn)從聲音到文字的轉(zhuǎn)換。13第十三頁,共七十五頁,2022年,8月28日語音識別—基本術(shù)語特定人和非特定人(話者相關(guān)或話者無關(guān))詞匯量(大,小)孤立詞,連接詞,關(guān)鍵詞和連續(xù)語音自然發(fā)音和朗讀發(fā)音口音(方言)背景噪音(環(huán)境噪音)信道差異(固定電話,麥克,手機等)聲學模型(HMM,mono-phone,bi-phone,tri-phone)聲學特征(MFCC)解碼(Viterbi)14第十四頁,共七十五頁,2022年,8月28日語音識別—基本術(shù)語識別指標:SER(SentenceErrorRate,句子錯誤率)WER(WordErrorRate,詞錯誤率)CER(CharacterErrorRate,字錯誤率)PER(PhoneErrorRate,音節(jié)錯誤率)采樣率,8kHz(電話或手機),16kHz(麥克風)時域,頻域端點檢測,靜音檢測或有效音檢測(VAD)15第十五頁,共七十五頁,2022年,8月28日語音識別—分類

孤立詞識別識別單元是有限的,單個的詞;優(yōu)點:速度快,識別正確率高缺點:應用范圍窄,不能識別詞表外的詞應用案例:語音命令,手機語音撥號

連續(xù)語音識別識別單元可以是字,詞或者句子優(yōu)點:應用范圍廣缺點:速度慢,識別率不高,尤其是詞表較大的時候應用案例:語音翻譯,語音短信,聽寫機,語音郵件

關(guān)鍵詞識別識別單元是詞,判斷輸入語音中是否含有詞表中的詞優(yōu)點:能夠處理連續(xù)語音,詞表可定制缺點:速度較慢,詞表越大,錯誤率越多應用案例:電話呼叫服務,電話安全監(jiān)聽16第十六頁,共七十五頁,2022年,8月28日語音識別發(fā)展歷史50年代-AT&TBellLab,可識別10個英文數(shù)字60年代-LP較好地解決了語音信號產(chǎn)生模型,DP則有效解決了不等長語音的匹配問題。70年代-DTW(DynamicTimeWarp)技術(shù)基本成熟,實現(xiàn)了基于LPC和DTW技術(shù)相結(jié)合的特定人孤立詞語音識別系統(tǒng)。80年代-HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別中成功應用。1988年美國CMU大學基于VQ/HMM開發(fā)SI-CSR系統(tǒng)SPHINX。90年代-大規(guī)模應用,工業(yè)標準,理論進展緩慢。17第十七頁,共七十五頁,2022年,8月28日語音識別—潛在應用語音監(jiān)聽語音撥號語音命令語音導航語音搜索語音聽寫語音翻譯18第十八頁,共七十五頁,2022年,8月28日語音識別系統(tǒng)框架19特征提取訓練模式匹配拒識語法模型結(jié)果語音說話人自適應第十九頁,共七十五頁,2022年,8月28日語音識別過程20第二十頁,共七十五頁,2022年,8月28日HMM基礎(chǔ)(1)隱含Markov模型觀測可見,狀態(tài)隱含基本要素N模型狀態(tài)數(shù)π={πi}初始概率分布A={aij}狀態(tài)轉(zhuǎn)移矩陣B={bj(k)}輸出概率矩陣21第二十一頁,共七十五頁,2022年,8月28日HMM基礎(chǔ)(2)轉(zhuǎn)移概率矩陣aij-狀態(tài)i到狀態(tài)j發(fā)生跳轉(zhuǎn)的概率22第二十二頁,共七十五頁,2022年,8月28日HMM基礎(chǔ)(3)輸出概率bi(x)x屬于狀態(tài)i的概率23第二十三頁,共七十五頁,2022年,8月28日HMM基礎(chǔ)(4)HMM的三個基本問題

-模型評估問題(如何求:P(O|λ))-最佳路徑問題(如何求:Q=q1q2…qT)-模型訓練問題(如何求:A、B、π)24第二十四頁,共七十五頁,2022年,8月28日模型評估問題(如何求:P(O|λ))前向概率給定HMM參數(shù),在t時刻處于狀態(tài)i,部分觀察序列為{o1o2…ot}的概率后向概率給定HMM參數(shù),在t時刻處于狀態(tài)i,部分觀察序列為{ot+1ot+2…oT}的概率25第二十五頁,共七十五頁,2022年,8月28日模型評估問題(如何求:P(O|λ))前向和后向遞推的示意圖26第二十六頁,共七十五頁,2022年,8月28日最佳路徑問題(如何求:Q=q1q2…qT)前向-后向算法的缺點計算量的浪費狀態(tài)路徑不能明確判定Viterbi算法不完全的狀態(tài)空間搜索保留狀態(tài)轉(zhuǎn)移路徑的信息27第二十七頁,共七十五頁,2022年,8月28日最佳路徑問題(如何求:Q=q1q2…qT)Viterbi算法的搜索空間28第二十八頁,共七十五頁,2022年,8月28日Viterbi識別算法和路徑回溯29第二十九頁,共七十五頁,2022年,8月28日模型訓練問題(如何求:A、B、π)優(yōu)化問題優(yōu)化目標:P(O|λ)最大Lagrange數(shù)乘法,輔助函數(shù):30第三十頁,共七十五頁,2022年,8月28日Baum-Welch參數(shù)重估算法:31模型訓練問題(如何求:A、B、π)第三十一頁,共七十五頁,2022年,8月28日連續(xù)HMM算法連續(xù)的含義參數(shù)重估識別算法32第三十二頁,共七十五頁,2022年,8月28日“連續(xù)”的含義連續(xù)混合高斯概率密度函數(shù)(pdf):每個狀態(tài)表示為若干函數(shù)fn(x)的線性組合fn(x)是連續(xù)高斯概率密度函數(shù)33第三十三頁,共七十五頁,2022年,8月28日連續(xù)HMM參數(shù)重估(1)需要重估的參數(shù):起始概率轉(zhuǎn)移概率各狀態(tài)中不同pdf的權(quán)各狀態(tài)中不同pdf的均值和方差34第三十四頁,共七十五頁,2022年,8月28日連續(xù)HMM參數(shù)重估(2)t時刻序列處于狀態(tài)j、混合高斯密度l的概率35第三十五頁,共七十五頁,2022年,8月28日連續(xù)HMM參數(shù)重估(3)pdf的無溢出參數(shù)重估公式36第三十六頁,共七十五頁,2022年,8月28日識別算法概率計算:P(O|λ)Viterbi算法對數(shù)形式與離散HMM相似,只需替換bjl(x)37第三十七頁,共七十五頁,2022年,8月28日實際HMM系統(tǒng)的具體問題起始概率的問題轉(zhuǎn)移概率的問題模型的自適應區(qū)別性訓練38第三十八頁,共七十五頁,2022年,8月28日起始概率的問題自左向右結(jié)構(gòu)的HMM,起始概率為:[1,0,0,…0]即:只能從第一個狀態(tài)開始39第三十九頁,共七十五頁,2022年,8月28日轉(zhuǎn)移概率的問題大量實驗證明:轉(zhuǎn)移概率對識別性能的影響是微不足道的訓練過程中,常常將其設(shè)定為常數(shù):

aij=0.5識別過程中,不進行l(wèi)og(aij)的累加

僅考慮bi(.)的作用40第四十頁,共七十五頁,2022年,8月28日模型的自適應(1)自適應的必要性口音感冒...MAP自適應算法MAP:最大后驗概率準則本質(zhì)上是重新訓練一次,對原B矩陣進行微調(diào)特點:簡單,對每個HMM單獨自適應,只需一次發(fā)音41第四十一頁,共七十五頁,2022年,8月28日模型的自適應(2)MLLR算法MLLR:最大似然線性回歸本質(zhì):將原模型的參數(shù)進行線性變換后再進行識別特點:少量語音可以對所有模型進行自適應,只要得到線性變換矩陣即可42第四十二頁,共七十五頁,2022年,8月28日區(qū)別性訓練傳統(tǒng)HMM訓練算法的缺陷MCE算法MCE:最小分類誤差準則使用場合:小詞表識別系統(tǒng)需要細致調(diào)整算法參數(shù),才能保證收斂43第四十三頁,共七十五頁,2022年,8月28日中文語音識別的特點相對于西方語言來說,中文有自己的獨特之處。中文是有調(diào)語言,發(fā)音的基本單元是聲母和韻母并且以音節(jié)為自然單位,一個音節(jié)就是一個字甚至詞,以至字詞的時長很短,混淆度更大。另外,中文用415個基本的無調(diào)音節(jié)來構(gòu)成7000多個基本漢字的發(fā)音,多音字很多。特別是,中文的發(fā)音和字是獨立的,僅僅是中國大陸地區(qū)就有很多的方言,口音問題非常嚴重。特別是在做中文孤立詞和短語命令識別的時候,由于沒有上下文的信息并且語音的長度很短,口音會嚴重地降低識別率。44第四十四頁,共七十五頁,2022年,8月28日中文語音建?;容^45第四十五頁,共七十五頁,2022年,8月28日語音識別應用舉例嵌入式語音識別:智能玩具:語音對話娃娃、語音聲控機器人智能家電:語音識別臺燈、語音識別插座智能手機:語音撥號電話語音識別:語音電話簿:電信增值智能語音總機:企業(yè)應用46第四十六頁,共七十五頁,2022年,8月28日嵌入式語音識別47第四十七頁,共七十五頁,2022年,8月28日智能玩具—語音對話娃娃序號問句應答句1你好3條2你叫什么名字?3條3你從哪里來?3條4你會什么?1條5背首詩15首詩6講個故事6個故事7我要聽笑話4個笑話8唱首歌5首歌曲9來首英文歌5首英文歌10你喜歡玩什么?5條11你好可愛3條12我很喜歡你3條第四十八頁,共七十五頁,2022年,8月28日智能玩具—語音聲控機器人問句回答前進前進后退后退左轉(zhuǎn)左轉(zhuǎn)右轉(zhuǎn)右轉(zhuǎn)跳舞跳舞第四十九頁,共七十五頁,2022年,8月28日語音增值業(yè)務企業(yè)電話簿:會議通知、語音信箱、傳真信箱、企業(yè)郵箱、信息發(fā)布、定向廣告。個人電話簿:個人郵件、數(shù)據(jù)同步、資訊定制、個人財經(jīng)、業(yè)務定制。語音門戶:天氣、股票、航班查詢。50第五十頁,共七十五頁,2022年,8月28日主要內(nèi)容聲音處理技術(shù)語音識別技術(shù)聲紋識別技術(shù)技術(shù)演示51第五十一頁,共七十五頁,2022年,8月28日生物識別技術(shù)優(yōu)勢第五十二頁,共七十五頁,2022年,8月28日生物識別技術(shù)比較錯誤接受率錯誤拒絕率容易實用性處理速度/人指紋識別很低較低好2s-5s掌紋識別低5%使用困難5s-10s人臉識別低<0.2%非常好≤5s虹膜識別很低約10%需要培訓才能使用,手工操作對虹膜有困難儀器自動對準虹膜需要3s-5s,手工操作需要5s-25s視網(wǎng)膜識別未知未知不好15s-30s聲紋識別低低可以1s-3s簽名識別低10%一般5s-10s第五十三頁,共七十五頁,2022年,8月28日聲紋識別技術(shù)聲紋識別(又稱說話人識別)技術(shù)是從說話人發(fā)出的語音信號中提取聲紋信息,并對說話人進行身份驗證的生物識別技術(shù)。第五十四頁,共七十五頁,2022年,8月28日聲紋識別—基本術(shù)語類型分類:文本相關(guān)(Text-dependent)文本無關(guān)(Text-dependent)任務分類:說話人辨認(SpeakerIdentification)說話人確認(SpeakerVerification)UBM(UniversalBackgroundModel),通用背景模型GMM(GaussianMixtureModel),高斯混合模型背景噪音(環(huán)境噪音)信道差異(固定電話,手機,麥克風)身體差異,語速快慢,時間間隔第五十五頁,共七十五頁,2022年,8月28日聲紋識別—基本術(shù)語FAR(FalseAcceptRate),錯誤接受率;FRR(FalseRejectRate),錯誤拒絕率。EER(EqualErrorRate),等錯誤率;即FAR=FRR時的錯誤率。多說話人識別,分割第五十六頁,共七十五頁,2022年,8月28日聲紋識別—基本術(shù)語0.10.20.51251020404020105210.50.20.1錯誤接受的概率(%)錯誤拒絕的概率(%)等錯誤率(ERR)=1%平衡點減少錯誤接受的可能,提高系統(tǒng)的安全。但是由于錯誤拒絕率高,會給用戶使用帶來不便。高安全性高方便性對于安全性要求不高的應用場景,可以適當提高錯誤接受率,使得用戶容易進入系統(tǒng)。DET(DetectionErrorTradeoff)曲線第五十七頁,共七十五頁,2022年,8月28日經(jīng)典模型——GMM(1)GMM——高斯混合模型基本原理:根據(jù)從語音信號中提取的特征參數(shù),為每一個說話人建立一個GMM。為處理的方便,人為的使不同說話人的模型的概率密度函數(shù)在形式上都是一樣的,不同的只是函數(shù)中的參數(shù)。優(yōu)點:簡單高效,可以很好的描述從語音信號中提取的特征參數(shù)等不規(guī)則的數(shù)據(jù)。GMM是當今應用于說話人識別的最主流模型第五十八頁,共七十五頁,2022年,8月28日經(jīng)典模型——GMM(2)一個M階高斯混合模型的概率密度函數(shù)是由M個高斯概率密度函數(shù)加權(quán)求和得到,如下:其中M是混合模型的階數(shù),X是一個D維隨機向量wi是混合權(quán)重,滿足:bi(X)是子分布,每個子分布是D維的聯(lián)合高斯概率分布,表示為:

是均值向量,是協(xié)方差矩陣第五十九頁,共七十五頁,2022年,8月28日經(jīng)典模型——GMM(3)完整的高斯混合模型由參數(shù)——均值向量、協(xié)方差矩陣和混合權(quán)重共同描述。因此,一個模型可表示為如下一個三元組:GMM計算結(jié)構(gòu):第六十頁,共七十五頁,2022年,8月28日經(jīng)典模型——GMM(4)GMM的說話人鑒別(SpeakerIdentification)系統(tǒng)第六十一頁,共七十五頁,2022年,8月28日UBMUBM——通用背景模型UBM也是一個GMM,只是這個GMM需要用大量的不同說話人的語音數(shù)據(jù)經(jīng)過訓練來表示說話人無關(guān)的特征分布,這種特征是大多數(shù)說話人的共性特征。第六十二頁,共七十五頁,2022年,8月28日GMM-UBM建模 說話人需要建立自己的模型時,就可以通過自適應UBM來得到個性特征,即修正后的參數(shù),從而得到自己的GMM。GMM-UBM優(yōu)點 實現(xiàn)信道均衡少量訓練數(shù)據(jù)得到比較理想的說話人模型第六十三頁,共七十五頁,2022年,8月28日說話人確認系統(tǒng)GMM-UBM說話人確認系統(tǒng)第六十四頁,共七十五頁,2022年,8月28日研究熱點技術(shù)難題:跨信道、噪聲實驗室理想條件√實際應用場合(遠程、噪聲背景)

×訓練階段識別階段第六十五頁,共七十五頁,2022年,8月28日解決辦法信道補償支持向量機(SVM)聯(lián)合因子分析(JFA)遷移學習(TransferLearning)第六十六頁,共七十五頁,2022年,8月28日SVM訓練第六十七頁,共七十五頁,2022年,8月28日聲紋識別—應用產(chǎn)品USBVoiceKey聲紋證件公安系統(tǒng)銀行系統(tǒng)第六十八頁,共七十五頁,2022年,8月28日010203聲紋監(jiān)聽多人識別聲紋比對銀行(電話,網(wǎng)上)證券銀行卡,身份卡聲紋密匙高檔酒店,會員俱樂部,貴族商城等玩具汽車個人電腦(家庭分級密碼)公安領(lǐng)域?金融領(lǐng)域?生活領(lǐng)域★聲紋識別—潛在應用第六十九頁,共七十五頁,2022年,8月28日典型應用—司法鑒定我們開發(fā)的智能聲紋識別系統(tǒng),已成功應用在司法鑒定等領(lǐng)域。目前已成功完成多個聲紋鑒定(同一性認定)、聲音完

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論