第12講-基于聲卡的語言識別系統(tǒng)_第1頁
第12講-基于聲卡的語言識別系統(tǒng)_第2頁
第12講-基于聲卡的語言識別系統(tǒng)_第3頁
第12講-基于聲卡的語言識別系統(tǒng)_第4頁
第12講-基于聲卡的語言識別系統(tǒng)_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于聲卡的語音識別系統(tǒng)

系統(tǒng)簡介功能:在經(jīng)過密碼校驗后可以進(jìn)行密語錄制進(jìn)行待測者的語音錄制(多次)待測者聲音與密語進(jìn)行語音匹配連續(xù)2次語音匹配成功

系統(tǒng)就認(rèn)定成功避免惡意試音,當(dāng)試音失敗超過10次系統(tǒng)就鎖死。前面板操作說明1.在輸入正確密碼后點擊聲音采集按鈕,綠燈亮進(jìn)行“密語”的錄制。

如果密碼錯誤紅燈亮,并且無法錄制密語。2.點擊語音識別按鈕,將錄制待測者的聲音。3.當(dāng)待測者聲音錄制完后,自動與錄制的“密語”進(jìn)行匹配。匹配成功,清0失敗次數(shù)。成功次數(shù)加1,連續(xù)2次成功,系統(tǒng)認(rèn)定成功。匹配失敗,清0成功次數(shù)。失敗次數(shù)+1。10次后系統(tǒng)自動鎖死。原理聲音信號轉(zhuǎn)成功率譜后出現(xiàn)的明顯特性曲線(0-3500HZ)同一人2次說“開門”產(chǎn)生的2條特性曲線把2次采集到的聲音轉(zhuǎn)成2個特性曲線(0-520HZ)計算2個特性曲線相似度高于設(shè)定相似度則“匹配”,低于設(shè)定相似度則“不匹配”

密碼正確情況下進(jìn)行密語的采集進(jìn)行待測者聲音的采集通過數(shù)學(xué)方法匹配待測聲音與密語匹配成功成功次數(shù)+1清0失敗次數(shù)匹配失敗失敗次數(shù)+1清0成功次數(shù)成功次數(shù)大于2次失敗次數(shù)小于10次成功次數(shù)小于2次失敗次數(shù)大于10次系統(tǒng)認(rèn)定成功系統(tǒng)認(rèn)定失敗系統(tǒng)認(rèn)定失敗系統(tǒng)鎖死關(guān)鍵點與難點1.聲音信號的聲音特性的采取與轉(zhuǎn)換。(聲音采集信號

聲音波形

功率譜

選0-520HZ)2.兩波形相似度的計算。(提取兩波形的特性參數(shù)存于數(shù)組(1個波形2個數(shù)組)

數(shù)學(xué)方法對數(shù)組進(jìn)行處理

計算出相似度)一個聲音波形信號轉(zhuǎn)成2個數(shù)組1.每20HZ分成一段,將每段出現(xiàn)波峰時所對應(yīng)的頻率值的均值組成一個數(shù)組(如果沒有波峰出現(xiàn)則置0)。作用:通過2個波形對應(yīng)的數(shù)組異或可以判斷2個波形在每段有沒相同的波峰出現(xiàn)。2.每20HZ分成一段,將每段的幅值(Y)的均值組成一個數(shù)組。把2個數(shù)據(jù)差值所占最大值的百分比算出來(大于百分75算不匹配)作用:減少波峰位置匹配時出現(xiàn)的誤差(第一種方法)聲音采集和訓(xùn)練識別

“說話人識別”的基本原理主要包括兩階段:訓(xùn)練和識別。在訓(xùn)練階段,系統(tǒng)的每個使用者說出若干個訓(xùn)練語句,系統(tǒng)據(jù)此建立每個使用者的模板和模板參數(shù)。在識別階段,待識人的語音特征提取后與系統(tǒng)訓(xùn)練時產(chǎn)生的模板或模板參數(shù)進(jìn)行比較。在說話人確認(rèn)中,通過判斷測試音與所生成的說話人的模型的匹配距離是否小于一定閾值做出判斷。模型訓(xùn)練特征提取匹配距離模型參數(shù)判決策略輸入語音識別結(jié)果語音識別的機(jī)理“說話人”的識別方法有兩種:發(fā)音內(nèi)容依存型:是預(yù)先確定識別用語的方法。發(fā)音內(nèi)容獨立型:是無論講什么話都可進(jìn)行識別的方法。從聲音中準(zhǔn)確提取和分離個人信息是相當(dāng)困難的。至今還沒有建立起準(zhǔn)確分離和提取個人特征的技術(shù)。當(dāng)前的狀況是說話人識別多采用固定聲音內(nèi)容的方法來提高識別率。多年來,人們對于特征參數(shù)在說話人識別系統(tǒng)中的有效性進(jìn)行大量的驗證和研究,得到許多有意義的結(jié)果。聲音可以理解成由振幅和相位隨時間緩慢變化的正弦波構(gòu)成。人的聽覺對聲音的感覺特征主要包含在振幅信息中,相位信息一般不起作用。在研究聲音的性質(zhì)時,往往把時域信息(波形圖)變換得到它的頻域信息(頻譜),通過研究頻譜和與頻譜相關(guān)聯(lián)的特征獲得聲音的特性。

語音識別的假設(shè)語音信號是一種典型的非平穩(wěn)信號,但是由于語音的形成過程是與語音器官的運動密切相關(guān)的。這種物理運動比起聲音振動速度要緩慢的多。因此,語音信號常??梢约俣槎虝r平穩(wěn)的。在10~30ms這樣的時間段內(nèi),其頻譜特性和某些物理特征參量可近似地看作是不變的。這樣我們可以采用平穩(wěn)的分析方法來處理。語音識別的假設(shè)我們的設(shè)計建立在如下幾點假設(shè)基礎(chǔ)之上:將原始的聲音信號轉(zhuǎn)換成數(shù)字信號的過程對聲音的特征造成的影響可以忽略。錄音設(shè)備和外界環(huán)境對聲音信號的影響可以忽略。聲音特征基本反映在振幅信息中。從時域變換到頻域后,語音特征體現(xiàn)在它的頻譜中,忽略頻譜失真。語音信號是短時平穩(wěn)的。本系統(tǒng)設(shè)計思路本系統(tǒng)模型采用的是聲音內(nèi)容依存型的說話人確認(rèn)系統(tǒng),需要先讓系統(tǒng)對使用者說某個特定詞的語音信號進(jìn)行“學(xué)習(xí)”。該特定詞就成為系統(tǒng)確認(rèn)通過的“密語”。也就是說想讓系統(tǒng)確認(rèn)通過,首先需要知道這個“密語”。本系統(tǒng)中我們把這個“密語”設(shè)定為漢語的“開門”一詞。當(dāng)然這個“密語”是可以改變的。本系統(tǒng)設(shè)計步驟1.語音個人特征的提取。我們通過Windows自帶的錄音機(jī)得到聲音數(shù)字信號。這種信號是一系列離散時間上的量化的振幅樣點。圖1給出某人說三次“開門”時的波形圖。本系統(tǒng)設(shè)計步驟

從上圖中可以看出,雖然同一人說的都是同一個詞,但三個波形圖還是有一定差別的。所以即便聲音特征反映在振幅信息中也很難直接從時域信號中提取出語音的個人特征。因此需要從其它的角度來提取語音的個人特征。語音的感知過程與人類聽覺系統(tǒng)具有的頻譜分析功能是緊密相關(guān)的,因此,對語音信號進(jìn)行頻譜分析,是認(rèn)識語音信號和處理語音信號的重要方法。

自功率譜自相關(guān)函數(shù)Rxx(tao)可以了解不同時刻同一隨機(jī)樣本間的波形相似程度。自功率譜密度函數(shù)Sxx(f):反映相關(guān)函數(shù)在時域內(nèi)表達(dá)隨機(jī)信號自身與其他信號在不同時刻的內(nèi)在聯(lián)系。當(dāng)隨機(jī)信號均值為零時,自相關(guān)函數(shù)和自功率譜密度函數(shù)互為傅立葉變換對。自功率譜密度有明確的物理含義:當(dāng)tao=0時,Sxx(f)曲線與頻率軸f所包圍的面積就是信號的平均功率。另外,Sxx(f)還表明了信號的功率密度沿頻率軸的分布狀況,因此稱Sxx(f)為自功率譜密度函數(shù)。同一個人兩次說“開門”的功率譜圖

不同人說“開門”的功率譜圖

同一人說不同兩詞的功率譜圖

功率譜圖的特點

可以看出功率譜圖比較好地反映出聲音的個人特征:在低頻部分(頻率低于6000Hz)。同一人說同一詞:其功率譜圖中的各個波峰所對應(yīng)的頻率基本相同;不同人說同一詞:其功率譜圖的出現(xiàn)波峰的頻率比較接近。同一人說不同詞:功率譜的形狀差別較大。在高頻部分,波峰比較密集,特征不明顯。系統(tǒng)設(shè)計思路首先采集聲音信號經(jīng)濾波、加漢明窗、求自功率譜。將0~6000Hz等分為60個頻段,100Hz為一頻段,記錄功率譜圖中每一頻段出現(xiàn)波峰的頻率。(信號的采樣頻率為22050Hz,窗長256的Hamming窗,頻率分辨率約為89Hz)我們可以將功率譜中頻率較低段波峰出現(xiàn)的位置對應(yīng)的頻率值作為聲音的個人特征。不妨稱為這些功率譜中波峰對應(yīng)的頻率值hz1,hz2,…,hzn為特征頻率值,它們組成的向量Hz=(hz1,hz2,…,hzn)為特征頻率向量。多次提取某人(模板提供者)說同一詞時功率譜中的特征頻率值,這些頻率值分布趨于穩(wěn)定。系統(tǒng)設(shè)計思路以100Hz為一個頻段,將頻譜(0~6000)劃分為60個頻段。將多次提取功率譜中每一頻段出現(xiàn)的所有頻率值的平均值作為標(biāo)準(zhǔn)頻率向量,F(xiàn)=(f1,f2,…fn)以此標(biāo)準(zhǔn)頻率向量F為模板。對一個待確認(rèn)聲音,提取其特征頻率向量G=(g1,g2,…,gm)。因為F由多次提取得到,所以有m<=n。計算F與G之間的匹配距離函數(shù)。根據(jù)這組

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論