研二模式識(shí)別語(yǔ)音_第1頁(yè)
研二模式識(shí)別語(yǔ)音_第2頁(yè)
研二模式識(shí)別語(yǔ)音_第3頁(yè)
研二模式識(shí)別語(yǔ)音_第4頁(yè)
研二模式識(shí)別語(yǔ)音_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DTW:語(yǔ)音信號(hào);短時(shí);MFCC;動(dòng)態(tài)時(shí)間規(guī)近年來(lái),語(yǔ)音識(shí)別已經(jīng)成為一個(gè)非?;钴S的研究領(lǐng)域。在不遠(yuǎn)的將來(lái),語(yǔ)音識(shí)別技術(shù)有可能作為一種重要的人機(jī)交互,輔助甚至取代傳統(tǒng)的鍵盤(pán)、鼠標(biāo)等輸入設(shè)備,在個(gè)人計(jì)算機(jī)上進(jìn)行文為廣闊的發(fā)展前景2。在特定人孤立詞語(yǔ)音識(shí)別中,最為簡(jiǎn)單有效的方法是采用DTW(DynamicTimeWar,動(dòng)態(tài)時(shí)本文就是在基礎(chǔ)上來(lái)進(jìn)行語(yǔ)音信號(hào)參數(shù)的分析與語(yǔ)音信號(hào)的識(shí)別的。語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào)。但是,由于語(yǔ)音的形成過(guò)程是與發(fā)音的運(yùn)動(dòng)密切相關(guān)是最早使用,也是應(yīng)用最廣泛的法,這種方法直接利用語(yǔ)音信號(hào)的時(shí)域波形。時(shí)域分析通常過(guò)零就是信號(hào)通過(guò)零值。對(duì)于連續(xù)語(yǔ)音信號(hào),可以其時(shí)域波形通過(guò)時(shí)間軸的情況。對(duì)于離符號(hào)的次數(shù)。單位時(shí)間內(nèi)的過(guò)零數(shù)稱(chēng)為平均過(guò)零數(shù)。短時(shí)過(guò)析通常用在端點(diǎn)偵測(cè),特別是用來(lái)短時(shí)分析在運(yùn)用離散時(shí)間變換分析語(yǔ)音信號(hào)的變化時(shí),會(huì)遇到這樣的問(wèn)題,即單一的變換并時(shí)間變化的頻譜信息,諸如時(shí)變峰和諧波。具體而言,通常將信號(hào)的每一時(shí)刻與其相鄰時(shí)刻信號(hào)的變換相聯(lián)系,這樣就可以及時(shí)信號(hào)的頻譜變化。語(yǔ)音信號(hào)的短時(shí)變換見(jiàn)程序所述。可以驗(yàn)證,在短時(shí)分析中對(duì)于同一種窗函數(shù)而言,其通帶寬度與窗長(zhǎng)成反比。如果希望分析的時(shí)間分辨率和頻率分辨率是相互的,這是短時(shí)本身所固有的弱點(diǎn)。短時(shí)傅通過(guò)基于和短時(shí)頻域分析,能夠得出[7]:第一,長(zhǎng)窗具有較高的頻率分辨率,但具有較低的時(shí)間分辨率。從一個(gè)周期到另一個(gè)周期,峰是要發(fā)生變化的,這一點(diǎn)即使從語(yǔ)音波形上振峰從一個(gè)周期到另一個(gè)周期所發(fā)生的變化。當(dāng)然,激勵(lì)源的諧波結(jié)構(gòu)也從短時(shí)頻譜上了。第三,在對(duì)語(yǔ)音信號(hào)進(jìn)行短時(shí)分析時(shí),窗長(zhǎng)需要折衷考慮。一方面,短窗具有較好的時(shí)間分辨夠較好反映短時(shí)語(yǔ)音信號(hào)的頻譜,窗越寬這種近越好。1所示:1DTW2通常,規(guī)整函數(shù)被限制在一個(gè)平行四邊形的網(wǎng)格內(nèi),如圖2所示。它的一條邊斜率為2,另一條1,終點(diǎn)為(N,M由于在模板匹配過(guò)程中限定了彎折的斜率,因此平行四邊形之外的格點(diǎn)對(duì)應(yīng)的幀匹配距離是不3充分利用這兩個(gè)特點(diǎn)可以減少計(jì)算量和空間的需求W22(1xa(xa1,xxb,,其中:xa=(2M-N)/3,xaxbM和Nx軸上的每一幀不再yy軸上[ymin,ymax]間的幀進(jìn)行比較,yminymax的計(jì)算為:2x+(M-2N),xb<x≤Nx/2+(M-N/2),xa<x≤N(1,xb(xb+1,xa(xa+1,Nxy軸上的幀數(shù)不同,但彎折特性是一樣的,累積距離D(x,y)=d(x,y)+min[D(x-1,y),D(x-1,y-1),D(x-1,y-驗(yàn)語(yǔ)音數(shù)據(jù),是在條件下利用PC機(jī)錄制。采用8000kHz采樣頻率、16bit量化、單聲道的N256M128點(diǎn)。ω(n)=0.54-0.46cos(2πn/(N-1)),0≤n≤N-H(z)=1-0.937時(shí)能量設(shè)置2個(gè)門(mén)限ampl和amph,以及過(guò)零率閥值z(mì)cr。語(yǔ)音起始點(diǎn)從第11幀開(kāi)始檢測(cè),其流程3。語(yǔ)音結(jié)束點(diǎn)的檢測(cè)方法與檢測(cè)起點(diǎn)相似,但此時(shí)從后向前搜索。圖 本文選取能夠反映人對(duì)語(yǔ)音的感知特性的Mel頻率倒譜系數(shù)(MFCC)12。09的對(duì)軟件編程也有了一定的理解,為將來(lái)從事這方面的課題打下了堅(jiān)實(shí)的基礎(chǔ)。:[1].語(yǔ)音編碼[M].西安:西安電子科技大學(xué):

擴(kuò)展編程

.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].:國(guó)防工業(yè) [4]初,等.語(yǔ)音信號(hào)處理[M].:國(guó)防工業(yè)[5].語(yǔ)音信號(hào)處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)::[7],等.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].:國(guó)防工業(yè)

:[8]林波,.基于DTW改進(jìn)算法的弧立詞識(shí)別系統(tǒng)的仿真與分析[J].,2006,30(4):56-:

[10].語(yǔ)音信號(hào)端點(diǎn)檢測(cè)算法研究[D].長(zhǎng)沙:湖南師范大學(xué)fori=1:10[x1x2]=vad(x);fori=1:10 %采樣 %語(yǔ)音信 xlabel('Frequencyinrad/sample')ylabel('MagnitudeindB') xlabel('Frequencyinrad/sample')ylabel('Phaseindegrees') %變換% %FFT%title('fft變換后信號(hào)') %反變換%title('ifft后信號(hào)%短時(shí)變 % % %計(jì)算把數(shù)據(jù)x共分成多少段 %FFT的長(zhǎng)度 fori=1:Tn %FFT變換 %0for %TFtitle('短時(shí)變換時(shí)頻圖')fori=1:10[x1x2]=vad(x);fori=1:10forfori=1:10fprintf('測(cè)試模板%d的識(shí)別結(jié)果為:%d\n',i-1,j-1);functiondist=dtw(t,r)fori=1:nforfori=2:nforj=1:mififj>2functionf=enframe(x,win,inc)if(nwin==len=win;len=if(nargin<3)inc=len;nf=fix((nx-len+inc)/inc);indf=inc*(0:(nf-1)).';inds=(1:len);f(:)=x(indf(:,ones(1,len))+inds(ones(nf,1),:));if(nwin>1)w=f=f.* function[x,mn,mx]=me ifnargin<6ifnargin<5ifnargin<4%converttofftbinnumberswith0forDCtermbl=n*((f0+fl)*exp([01pp+1]*lr)-f0);ifany(w=='y')r=[ones(1,b2)fpfp+1p*ones(1,fn2-b3)];c=[1:b3+1b2+1:fn2+1];v=2*[0.5ones(1,b2-1)1-pf+fppf-fpones(1,fn2-b3-1)0.5];

r=[fp(k2:k4)1+fp(1:k3)];c=[k2:k41:k3];v=2*[1-pm(k2:k4)pm(1:k3)];ifelseifany(w=='m')ifnargout>1function%mel %DTC系數(shù)fork=1:12xx=filter([1-%MFCCfori=1:size(xx,1)fori=3:size(m,1)-2%mfccmfccccc=[mfunctionmaxsilence=3;%3*10ms=30msminlen=15;%15*10ms=150ms%%amp=sum(abs(enframe(filter([1-forn=1:length(zcr)switch ifamp(n)>amp1確信進(jìn)入語(yǔ)音段elseifamp(n)>amp2zcr(n)>zcr(2)可能處于語(yǔ)音段else%靜音狀態(tài)case

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論