(完整word版)哈爾濱工程大學(xué)語音信號(hào)處理實(shí)驗(yàn)報(bào)告_第1頁
(完整word版)哈爾濱工程大學(xué)語音信號(hào)處理實(shí)驗(yàn)報(bào)告_第2頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、必爾牘 N 理2普實(shí)驗(yàn)報(bào)告實(shí)驗(yàn)課程名稱:語音信號(hào)處理實(shí)驗(yàn)姓名: _班級(jí):20120811 學(xué)號(hào):_實(shí)驗(yàn)序號(hào)實(shí)驗(yàn)名稱實(shí)驗(yàn)過程實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)成績實(shí)驗(yàn)一語音信號(hào)的端點(diǎn)檢測實(shí)驗(yàn)二語音信號(hào)的特征提取實(shí)驗(yàn)三語音信號(hào)的基頻提取指導(dǎo)教師張磊_實(shí)驗(yàn)教室21B#29321B#293_實(shí)驗(yàn)時(shí)間 20152015 年 4 4 月 1212 日實(shí)驗(yàn)成績_實(shí)驗(yàn)一 語音信號(hào)的端點(diǎn)檢測一、實(shí)驗(yàn)?zāi)康?、 掌握短時(shí)能量的求解方法2、 掌握短時(shí)平均過零率的求解方法3、 掌握利用短時(shí)平均過零率和短時(shí)能量等特征,對(duì)輸入的語音信號(hào)進(jìn)行端點(diǎn)檢 測。二、實(shí)驗(yàn)設(shè)備HP計(jì)算機(jī)、Matlab軟件三、實(shí)驗(yàn)原理1、短時(shí)能量語音信號(hào)的短時(shí)能量分析給出了反

2、應(yīng)這些幅度變化的一個(gè)合適的描述方法 對(duì)于信號(hào)x(n),短時(shí)能量的定義如下:2 2 2En二、x(m)w(n _ m)=xx (m)h(n _ m) = x (n) h(n)m二;m :-:2、短時(shí)平均過零率短時(shí)平均過零率是指每幀內(nèi)信號(hào)通過零值的次數(shù)。 對(duì)于連續(xù)語音信號(hào),可以 考察其時(shí)域波形通過時(shí)間軸的情況。 對(duì)于離散信號(hào),實(shí)質(zhì)上就是信號(hào)采樣點(diǎn)符號(hào) 變化的次數(shù)。過零率在一定程度上可以反映出頻率的信息。 短時(shí)平均過零率的公 式為:100Znsgnx(m) - sgnx(m -1) w(n - m)2m=jod1nN /二;、sgn Xw(m)_sg nXw(m_1)2m f其中,sgn.是符號(hào)函數(shù)

3、,即彳x(n)O冊(cè)皿:-1 x(n)“3、端點(diǎn)檢測原理能夠?qū)崿F(xiàn)這些判決的依據(jù)在于,不同性質(zhì)語音的各種短時(shí)參數(shù)具有不同的概 率密度函數(shù),以及相鄰的若干幀語音應(yīng)具有一致的語音特性, 它們不會(huì)在S、U、V之間隨機(jī)地跳來跳去。要正確判斷每個(gè)輸入語音的起點(diǎn)和終點(diǎn), 利用短時(shí)平均 幅度參數(shù)E和短時(shí)平均過零率Z可以做到這一點(diǎn)。首先,根據(jù)濁音情況下的短時(shí)能量參數(shù)的概率密度函數(shù) P(E|V)確定一個(gè)閾 值參數(shù) EH,EH值一般定的較高。當(dāng)一幀輸入信號(hào)的短時(shí)平均幅度參數(shù)超過 EH時(shí),就可以判定該幀語音信號(hào)不是無聲,而有相當(dāng)大的可能是濁音。根據(jù) EH可 判定輸入語音的前后兩個(gè)點(diǎn) Ai和A2。在 Ai和 A2之間的部

4、分肯定是語音段,但語為此,再設(shè)定一個(gè)較低的閾值參數(shù) EL,由 Ai點(diǎn)向前找,當(dāng)短時(shí)能量由大到 小減至 EL可以確定點(diǎn) Bi。類似地,可以由 A2點(diǎn)向后找,確定 B2點(diǎn)。在 Bi和 B2之間的仍能肯定是語音段。然后由 Bi向前和 B2向后,利用短時(shí)平均過零率進(jìn)行 搜索。根據(jù)無聲情況下的短時(shí)平均過零率,設(shè)置一個(gè)參數(shù)Zs,如果由 Bi向前搜索時(shí),短時(shí)平均過零率大于 Zs的3倍,則認(rèn)為這些信號(hào)仍屬于語音段,直到短 時(shí)平均過零率下降到低于3倍的 Zs,這時(shí)的點(diǎn) Ci就是語音的精確的起點(diǎn)。對(duì)于 終點(diǎn)也做類似的處理,可以確定終點(diǎn) C2。采用短時(shí)平均過零率的原因在于,Bi點(diǎn)以前可能是一段清輔音,它的能量相當(dāng)弱

5、,依靠能量不可能將它們與無聲段 分開。而對(duì)于清輔音來說,它們的過零率明顯高于無聲段,因而能用這個(gè)參數(shù) 將二者區(qū)分開來。存在噪聲的情況下,正常的過零率計(jì)算會(huì)存在一定的誤差, 解決這個(gè)問題的 一種方法是對(duì)上述過零率定義做一個(gè)簡單的修改, 即設(shè)立一個(gè)門限T,將過零率 的含義修改為跨過正負(fù)門限的次數(shù),如圖2。圖2門限短時(shí)平均過零率于是,有:1匸】Zn=2、sgnx(m)-T-sgnx(m-1)-Tsgnx(m) T _sgnx(m-1) Tw(n_m)這樣計(jì)算的短時(shí)平均過零率就有一定的抗干擾能力。即使存在小的隨機(jī)噪 聲,只要它不超過正負(fù)門限所構(gòu)成的帶,就不會(huì)產(chǎn)生虛假過零率。四、實(shí)驗(yàn)步驟及程序?qū)嶒?yàn)程序:

6、function poin t_check()s 仁 wavread(ma n. wav);s=s1/max(abs(s1);s=filter(1 -0.9375,1,s);plot(s);len=len gth(s);roun d=160;repeat=80;inc=roun d-repeat;%b_le n-2*repeat;ka=ceil(le n-roun d)/(r oun d-repeat)+1;s=s;zeros(r oun d-repeat)*(ka-1)+ro un d-le n,1);len=len gth(s);w=zeros(r oun d,ka);for i=1:ka

7、 for k=1:ro undw(k,i)=s(k+(i-1)*(rou nd-repeat),1); endend門限門限門限門限門限門限時(shí)間ST=0.01;F=zeros(ka,ro un d);for i=1:kafor k=0:ro un d-1for j=1:r oun d-kF(ka,k+1)=F(ka,k+1)+abs(w(j,i)-w(j+k,i);endif(k0&w(k+2,i)0)z=sig n(w(k+1,i)-ST)-sig n(w(k+2,i)+ST);elseif(w(k+1,i)0)z=sig n(w(k+2,i)-ST)-sig n(w(k+1,i)+

8、ST);endif(z=2)f(i,1)=f(i,1)+1;endendendendamp=sum(abs(w).A2,1);實(shí)驗(yàn)結(jié)果截圖:0.8五、實(shí)驗(yàn)結(jié)果與分析這次實(shí)驗(yàn)利用MATLAB對(duì)信號(hào)進(jìn)行分析和處理,利用短時(shí)過零率和短時(shí)能 量,對(duì)語音信號(hào)的端點(diǎn)進(jìn)行檢測。我之前雖然接觸過MATLAB軟件,但從未進(jìn)行過有關(guān)語音信號(hào)的操作,在實(shí)驗(yàn)過程中欠缺獨(dú)立性,代碼是參考網(wǎng)上的,在理 解的基礎(chǔ)上借鑒。學(xué)習(xí)是無止境的,現(xiàn)在的動(dòng)手能力不強(qiáng)也是由于之前的松懈造 成的,以后一定要多動(dòng)手,畢竟能力是立身之本。實(shí)驗(yàn)二語音信號(hào)的特征提取、實(shí)驗(yàn)?zāi)康?、掌握語音信號(hào)的Mel倒譜特征(MFCC的求解方法2、掌握語音信號(hào)的線

9、性預(yù)測原理以及LPC特征的求解方法二、實(shí)驗(yàn)設(shè)備HP計(jì)算機(jī)、Matlab軟件三、實(shí)驗(yàn)原理1、MFCC特征原理及求解方法在語音識(shí)別和說話人識(shí)別中,常用的語音特征是基于Mel頻率的、倒譜系數(shù)(Mel Frequency Cepstrum Coefficien,簡稱MFCC)。由于MFCC參數(shù)是將人耳 的聽覺感知特性和語音的產(chǎn)生機(jī)制相結(jié)合,因此目前大多數(shù)語音識(shí)別系統(tǒng)中廣泛使用這種特征。研究者根據(jù)心理學(xué)實(shí)驗(yàn)得到了類似于耳蝸?zhàn)饔玫囊唤M濾波器組,這就是Mel頻率濾波器組。Mel頻率可以用公式表達(dá)如下:Mel frequency =2595 log(1 f / 700)在實(shí)際應(yīng)用中,MFCC倒譜系數(shù)計(jì)算過程如

10、下:(1)將信號(hào)進(jìn)行分幀,預(yù)加重和加漢明窗處理,然后進(jìn)行短時(shí)傅立葉變換 得到其頻譜;(2)求出頻譜平方,即能量譜,并用M個(gè)Mel帶通濾波器進(jìn)行濾波,由 于每一個(gè)頻帶中分量的作用在人耳中是疊加的,因此將每個(gè)濾波頻帶 內(nèi)的能量進(jìn)行疊加,這時(shí)第k個(gè)濾波器輸出功率譜 x (k);(3)將每個(gè)濾波器的輸出取對(duì)數(shù),得到相應(yīng)頻帶的對(duì)數(shù)功率譜;并進(jìn)行反 離散余弦變換,得到L個(gè)MFCC系數(shù),如下式所示。一般L取1216個(gè)左右;M5 =為 logx(k)cos(k 0.5)n/Mn =1,2,丄k T(4)這種直接得到的MFCC特征作為靜態(tài)特征,將這種靜態(tài)特征做一階 和二階差分,得到相應(yīng)的動(dòng)態(tài)特征。2、線性預(yù)測原

11、理及LPC特征求解方法根據(jù)參數(shù)模型功率譜估計(jì)的思想,可以將語音信號(hào) x(n)看作是由一個(gè)輸入序 列 u(n)激勵(lì)一個(gè)全極點(diǎn)的系統(tǒng)(模型)H(z)而產(chǎn)生的輸出,如圖3所示。u(n)x(n)- H- s(n)圖 3 語音信號(hào)的模型化系統(tǒng)的傳遞函數(shù)為:Gp1ajZ其中G為常數(shù),ai為實(shí)數(shù),p為模型的階數(shù)。顯而易見,這種模型是以系數(shù) ai和 增益G為模型參數(shù)的全極點(diǎn)模型,即AR模型。用系數(shù)ai可以定義一個(gè)p階線性預(yù)測器 F(z)pF(z)八 ajZi絲這個(gè)p階預(yù)測器從時(shí)域角度可以理解為,用信號(hào)的前p個(gè)樣本來預(yù)測當(dāng)前的 樣本得到預(yù)測值 X(n),pX(n)八 aiX(n-i)im因?yàn)轭A(yù)測器 F(z)是用

12、AR模型的系數(shù)ai來構(gòu)造的,而AR模型是在最小均 方意義上對(duì)數(shù)據(jù)的擬合,所以預(yù)測器 F(z)必然是一個(gè)最佳預(yù)測器,即此時(shí)預(yù)測 器的預(yù)測誤差短時(shí)總能量最小。語音信號(hào)的線性預(yù)測分析就是根據(jù)這一性質(zhì),從語音信號(hào) x(n)出發(fā),依據(jù)最小均方誤差準(zhǔn)則,估計(jì)出一組線性預(yù)測器的系數(shù)ai,它就是我們所要求的信號(hào)AR模型的系數(shù)。ai被稱為線性預(yù)測系數(shù)或LPC系數(shù)。預(yù)測器的預(yù)測誤差 e(n)為:pe( n)=x( n)-x( n)=x( n) 一 aix( n-i)i =H(z)=由上式可知,e(n)是輸入為 x(n),且具有如下形式傳遞函數(shù)的濾波器的輸出pA(z) =1 _F(z) =1aiz因此稱 A(z)為

13、預(yù)測誤差濾波器。比較式(4-1)和式(4-5)可知 A(z)二 G/H (z), 即預(yù)測誤差濾波器是系統(tǒng) H (z)的逆濾波器。為了在最小均方誤差意義上計(jì)算一組最佳預(yù)測系數(shù),定義短時(shí)預(yù)測均方誤差 為p222En二 e (n) = x(n) -X(n)二 x(n)ajX(n -i)nnni =1由于語音信號(hào)的時(shí)變特性,線性預(yù)測分析應(yīng)該在短時(shí)的語音段上進(jìn)行,即按幀進(jìn)行。因此上式的求和通常也是在一幀語音的范圍內(nèi)進(jìn)行。為了使En達(dá)到最小,ai必須滿足 也/玄=0, (k=1,2,p)。則有:p-(2、x(n)x(n-k)-2、x(n-k)x(n-i)ni=1n這樣可以得到以ai為變量的線性方程組px(

14、n)x(n-k)八 ax(n -k)x(n-i),k=1,2, pni T n要構(gòu)造信號(hào)的AR模型,還應(yīng)估算增益因子G。將系統(tǒng)傳遞函數(shù)轉(zhuǎn)化成差分 方程的形式:px(n)八 aiX(n -k) Gu(n)i斗則預(yù)測誤差 e(n)和殘差能量 En分別計(jì)算如下:e(n)八x(n) x(n)Gu(n)nnEn二 G2 u2(n)n激勵(lì)信號(hào) u(n)無法準(zhǔn)確計(jì)算,但根據(jù)前文所述的語音產(chǎn)生模型,在濁音情況 下,激勵(lì)可以看作是準(zhǔn)周期的脈沖串;在清音時(shí),可以看作為高斯白噪聲。因此 輸入信號(hào)總能量可以認(rèn)為近似為 1,這樣估算增益因子 &= E1/2o這種計(jì)算只是 一種近似的方法,。-:En:ak為了使模

15、型的假定能夠很好地符合語音產(chǎn)生的模型,需要考慮如下兩個(gè)因 素。(1)模型階數(shù)p的選擇階數(shù)p應(yīng)與共振峰的個(gè)數(shù)相吻合,通常一對(duì)極點(diǎn)對(duì)應(yīng)一個(gè)共振峰,因此當(dāng)共 振峰數(shù)為5時(shí),應(yīng)取p=10。考慮到一些情況,一般按如下的方式計(jì)算模型階數(shù) p =2D 1,其中D為共振峰的個(gè)數(shù)。(2)通過預(yù)加重進(jìn)行高頻提升由于聲門脈沖形狀和口唇輻射的影響,語音信號(hào)的頻譜在總趨勢上會(huì)產(chǎn)生高 頻衰落的現(xiàn)象,大約每倍程下降6dB。要抵消這一影響,通常在LPC分析之前 采用一個(gè)非常簡單的一階FIR濾波器進(jìn)行預(yù)加重以進(jìn)行高頻提升,其傳遞函數(shù)為1 - - zJ,其中為預(yù)加重系數(shù),對(duì)10kHz采樣的語音,一般取:-=0.95。大量的 實(shí)踐

16、證明:LPC參數(shù)是反映語音信號(hào)特征的良好參數(shù)。附:萊文遜一杜賓遞推算法該算法過程如下:(1)計(jì)算自相關(guān)系數(shù) Rn(j),j =0,1,., p ;(2)E(0)二 Rn(0) ;(3)(4)iT ;開始按如下公式進(jìn)行遞推運(yùn)算:i(i4)jj mE(i 4)RJi)- a(R(i -j)kia, = ki-kia (,j h , . j.-,1E=(1_好疋(7(5)i 1。若i則算法結(jié)束退出,否則返回第(4)步。四、實(shí)驗(yàn)步驟及程序MFC特征提取程序:close allclearclcx=wavread(N:sec on dma n. wav);ban k=melba nkm(24,256,80

17、00,0,0.5,m);ban k=full(ba nk);ban k=ba nk/max(ba nk(:);for k=1:12n=0:23;dctcoef(k,:)=cos(2* n+1)*k*pi/(2*24);endw = 1 + 6 * sin(pi * 1:12 ./ 12);w = w/max(w);% 預(yù)加重濾波器xx=double(x);xx=filter(1 -0.9375,1,xx); %語音信號(hào)分幀xx=enframe(xx,256,80); % 計(jì)算每幀的 MFCC 參數(shù) for i=1:size(xx,1)y = xx(i,:);s = y .* hammi ng(

18、256);t = abs(fft(s);t = t.A2;c1=dctcoef * log(ba nk * t(1:129);c2 = c1.*w;m(i,:)=c2;endfigureimagesc(m);xlabel(幀數(shù));ylabel(幅度);title(MFCC);實(shí)驗(yàn)結(jié)果截圖:LPC特征提取程序:clearclcI = wavread(N:secondman.wav);% 讀入原始語音%subplot(3,1,1),plot(I);title(原始語音波形)%對(duì)指定幀位置進(jìn)行加窗處理Q = I;N = 256; % 窗長Hamm = hammi ng(N); % 加窗frame =

19、 60;%需要處理的幀位置M = Q(frame - 1) * (N / 2) + 1):(frame - 1) * (N / 2) + N);Frame = M .* Hamm;% 加窗后的語音幀B,F,T = specgram(I,N,N/2,N);m,n = size(B);for i = 1:mFTframe1(i) = B(i,frame);endP =50;%i nput(請(qǐng)輸入預(yù)測器階數(shù)=);ai = lpc(Frame,P); % 計(jì)算 lpc 系數(shù)LP = filter(0 -ai(2:e nd),1,Frame); %建立語音幀的正則方程FFTlp = fft(LP);E

20、= Frame - LP; % 預(yù)測誤差figuresubplot(2,1,1),plot(1:N,Frame,1:N,LP,-r);grid;200040006000800010000120001400016000幀數(shù)MFCCtitle(原始語音和預(yù)測語音波形)subplot(2,1,2),plot(E);grid;title(預(yù)測誤差);figurefLen gth(1 : 2 * N) = M,zeros(1,N);Xm = fft(fLe ngth,2 * N);X = Xm .* conj(Xm);Y = fft(X , 2 * N);Rk = Y(1 : N);PART = sum

21、(ai(2 : P + 1) .* Rk(1 : P);G = sqrt(sum(Frame.A2) - PART);A = (FTframel - FFTlp(1 : len gth(F) ./ FTframelsubplot(2,1,1),plot(F,20*log(abs(FTframe1),F,(20*log(abs(1 ./ A),-r); grid;xlabel(頻率 /dB);ylabel(幅度);title(短時(shí)譜);subplot(2,1,2),plot(F,(20*log(abs(G ./ A);grid;xlabel(頻率 /dB);ylabel(幅度);title(LP

22、C 譜);figure%求出預(yù)測誤差的倒譜pitch = fftshift(rceps(E);M_pitch = fftshift(rceps(Frame);subplot(2,1,1),plot(M_pitch);grid;xlabel(語音幀);ylabel(/dB);title(原始語音幀倒譜);subplot(2,1,2),plot(pitch);grid;xlabel(語音幀);ylabel(/dB);title(預(yù)測誤差倒譜);figure%畫出語譜圖ail = lpc(I,P); % 計(jì)算原始語音 Ipc 系數(shù)LP1 = filter(0 -ai(2:e nd),1,l); %建

23、立原始語音的正則方程subplot(2,1,1);specgram(I,N,N/2,N);title(原始語音語譜圖);subplot(2,1,2);specgram(LP1,N,N/2,N);title(預(yù)測語音語譜圖);實(shí)驗(yàn)結(jié)果截圖:100020003000400050006000700080009000 10000Time預(yù)測語音語譜圖50-5-10原始語音幀倒譜050100150200語音幀預(yù)測誤差倒譜25030010-2-3501002000150語音幀250300WVCDeuaeb原始語音語譜圖ooOTime100200a/i IV、= = A %u_ / _71短時(shí)譜0-100-

24、200-30010 2030405060頻率/dB70LPC 譜1000-100102050703040頻率/dBri fl J 1f 、-VA人i 卡屮 w、760原始語音和預(yù)測語音波形預(yù)測誤差0.10.050-0.05-0.110015020025030050原始語音波形1五、實(shí)驗(yàn)結(jié)果與分析這次實(shí)驗(yàn)利用MATLAB對(duì)信號(hào)進(jìn)行分析和處理,主要就是進(jìn)行語音線性預(yù) 測,語音線性預(yù)測的基本思想是:一個(gè)語音信號(hào)的抽樣值可以用過去若干個(gè)取樣 值的線性組合來逼近。通過使實(shí)際語音抽樣值與線性預(yù)測抽樣值的均方誤差達(dá)到 最小,可以確定唯一的一組線性預(yù)測系數(shù)。做了LPC特征提取的實(shí)驗(yàn)之后,促進(jìn)了我對(duì)MFCC特征

25、提取進(jìn)行探究和驗(yàn)證,此次試驗(yàn)讓我對(duì)相關(guān)知識(shí)加深了理 解。實(shí)驗(yàn)三語音信號(hào)的基頻提取一、實(shí)驗(yàn)?zāi)康?、 掌握語音信號(hào)基頻的概念,加深對(duì)基頻刻畫聲調(diào)特征作用的理解。2、 掌握語音信號(hào)基頻特征的典型求解方法二、實(shí)驗(yàn)設(shè)備HP計(jì)算機(jī)、Matlab軟件三、實(shí)驗(yàn)原理1、 基頻概念的理解基音檢測的方法大致可分為三類: 波形估計(jì)法。直接由語音波形來估計(jì) 基音周期,分析出波形上的周期峰值。包括并行處理法、數(shù)據(jù)減少法等;相關(guān)處理法。這種方法在語音信號(hào)處理中廣泛使用, 這是因?yàn)橄嚓P(guān)處理法抗波形的 相位失真能力強(qiáng),另外它在硬件處理上結(jié)構(gòu)簡單。 包括波形自相關(guān)法、平均振幅 差分函數(shù)法(AMDF)、簡化逆濾波法(SIFT)等;

26、 變換法。將語音信號(hào)變換 到頻域或倒譜域來估計(jì)基音周期,利用同態(tài)分析方法將聲道的影響消除, 得到屬 于激勵(lì)部分的信息,進(jìn)一步求取基音周期,比如倒譜法。雖然倒譜分析算法比較 復(fù)雜,但基音估計(jì)效果較好。這里我們只考慮自相關(guān)方法的基頻提取。2、 自相關(guān)方法的基頻提取濁音信號(hào)的自相關(guān)函數(shù)在基音周期的整數(shù)倍位置上出現(xiàn)峰值,而清音的自相關(guān)函數(shù)沒有明顯的峰值出現(xiàn),因此檢測自相關(guān)函數(shù)是否有峰值就可以判斷是清音 或濁音,峰一峰值之間對(duì)應(yīng)的就是基音周期。為了提高自相關(guān)方法檢測基音周期的準(zhǔn)確性,需要進(jìn)行一些前期的預(yù)處理。1)預(yù)處理語音信號(hào)的低幅值部分包含大量的共振峰信息,而高幅值部分包含較多 的基音信息。因此,任何

27、削減或者抑制語音低幅度部分的非線性處理都會(huì)使 自相關(guān)方法的性能得到改善。中心削波即是一種非線性處理,用以消除語音 信號(hào)的低幅度部分,其削波特性如圖4所示,數(shù)學(xué)表達(dá)形式為y(n) =C(n)二x(n) - L0、x(n )+Lx(n) CL|x(n) 4 CLx(n) -CL-CL+1-1+CL圖5三電平削波函數(shù)其中削波電平 CL由語音信號(hào)的峰值幅度來確定,它等于語音段最大幅度的一個(gè) 固定百分?jǐn)?shù),一般取最大信號(hào)幅度的60%70%。這個(gè)門限的選擇是重要的,一 般在不損失基音信息的情況下應(yīng)盡可能選得高些,以達(dá)到較好的效果。經(jīng)過中心削波后只保留了超過削波電平的部分,其結(jié)果是削去了許多和聲道響應(yīng)有關(guān)的波

28、 動(dòng)。中心削波后的語音再計(jì)算自相關(guān)函數(shù), 這樣在基音周期位置呈現(xiàn)大而尖的峰 值,而其余的次要峰值幅度都很小。 據(jù)報(bào)道使用這種方法,對(duì)電話帶寬的語音在 信噪比低至18dB的情況下獲得了良好的性能。計(jì)算自相關(guān)函數(shù)的運(yùn)算量是很大的,其原因是傳統(tǒng)的計(jì)算機(jī)進(jìn)行乘法運(yùn)算非 常費(fèi)時(shí)。盡管近年來隨著數(shù)字信號(hào)處理器的廣泛使用, 實(shí)時(shí)地計(jì)算自相關(guān)函數(shù)已 經(jīng)不是問題,但在基音檢測中仍然有一些減少短時(shí)自相關(guān)運(yùn)算的有效方法。如可對(duì)中心削波函數(shù)進(jìn)行修正,采用三電平中心削波的方法,如圖5所示。其削波函 數(shù)為1 x(n) CLy(n) =Cx(n) = 0|x(n)伍 C1 x(n) v CL即削波器的輸出在 x(n) CL

29、時(shí)為1,x(n 廠:-CL時(shí)為-1,除此以外均為零。 雖然這一處理會(huì)增加剛剛超過削波電平峰的重要性,但大多數(shù)次要的峰被濾除掉 了,而只保留了明顯的周期性峰。*Cx此外,還可以用一個(gè)通帶為900Hz的線性相位低通濾波器濾除高次諧波分 量。這樣處理后的信號(hào),基本上只含有第一共振峰以下的基波和諧波分量。實(shí)驗(yàn)表明,用這種方法做預(yù)處理,對(duì)改善自相關(guān)和平均幅度差函數(shù)法的基音檢測都有 明顯的效果。2)基于自相關(guān)函數(shù)的基音檢測短時(shí)自相關(guān)函數(shù)在基音周期的各個(gè)整數(shù)倍點(diǎn)上有很大的峰值,只要找到第一最大峰值點(diǎn)的位置,并計(jì)算它與原點(diǎn)的間隔,便能估計(jì)出基音周期。但實(shí)際上并 不是這么簡單,第一個(gè)最大峰值點(diǎn)的位置有時(shí)不能與基

30、音周期相吻合。產(chǎn)生這種 情況的原因有以下兩個(gè)方面。第一方面是與窗的長度有關(guān)。一般認(rèn)為窗長至少應(yīng) 大于兩個(gè)基音周期,才可能有較好的效果。第二方面與聲道特性的影響有關(guān)。有的情況下,即使窗長已經(jīng)選得足夠長,第一個(gè)最大峰值點(diǎn)與基音周期仍不一致, 這就是聲道共振峰特性的干擾。經(jīng)過上述帶通濾波的預(yù)處理,就可以消除大部分 的共振峰的影響。但是,如果希望減少自相關(guān)計(jì)算中的乘法運(yùn)算,可以把上述中心削波后的信號(hào)y(n)的自相關(guān)用兩個(gè)信號(hào)的互相關(guān)代替,其中一個(gè)信號(hào)是y(n),令一個(gè)信號(hào)是對(duì)y(n)進(jìn)行三電平量化產(chǎn)生的結(jié)果 y(n)。顯然,y(n) 只有-1,0,+1三種可能的取值,因而這里的互相關(guān)計(jì)算只需做加減法,而這個(gè) 互相關(guān)序列的周期性與y(n)的自相關(guān)序列近似相同。下面結(jié)合L.R.Rabiner篇論文中介紹的具體例子來敘述關(guān)于自相關(guān)函數(shù)的 基音檢測方法。假設(shè)信號(hào)的采樣率為10kHz,窗序列采用300點(diǎn)的矩形窗,幀疊200點(diǎn)。這時(shí)對(duì)每一幀進(jìn)行基音周期估計(jì)的步驟如下:(1)用900Hz低通濾波器對(duì)一幀語音信號(hào)x(n)進(jìn)行濾波,并去掉開頭的20個(gè)輸出值不用,得到x (n);(2)分別求x (n)的前部100個(gè)樣點(diǎn)和后部100個(gè)樣點(diǎn)的最大幅度,并取 其中較小的一個(gè),乘以因子0.68作為門限電平 CL;(3)對(duì)x(n)分別進(jìn)行中心削波得到y(tǒng)(n)和三電

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論