版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
西安郵電大學(xué)語音處理基礎(chǔ)大作業(yè)報(bào)告書學(xué)院名稱:學(xué)生姓名:專業(yè)名稱:班級(jí): 一雙音多頻信號(hào)的檢測(cè)雙音多頻(DualToneMultiFrequency,DTMF)信號(hào)是音頻電話中的撥號(hào)信號(hào),由美國(guó)AT&T貝爾公司實(shí)驗(yàn)室研制,并用于電話網(wǎng)絡(luò)中。這種信號(hào)制式具有很高的撥號(hào)速度,且容易自動(dòng)監(jiān)測(cè)識(shí)別,很快就代替了原有的用脈沖計(jì)數(shù)方式的撥號(hào)制式。這種雙音多頻信號(hào)制式不僅用在電話網(wǎng)絡(luò)中,還可以用于傳輸十進(jìn)制數(shù)據(jù)的其它通信系統(tǒng)中,用于電子郵件和銀行系統(tǒng)中。這些系統(tǒng)中用戶可以用電話發(fā)送DTMF信號(hào)選擇語音菜單進(jìn)行操作。DTMF信號(hào)系統(tǒng)是一個(gè)典型的小型信號(hào)處理系統(tǒng),它要用數(shù)字方法產(chǎn)生模擬信號(hào)并進(jìn)行傳輸,其中還用到了D/A變換器;在接收端用A/D變換器將其轉(zhuǎn)換成數(shù)字信號(hào),并進(jìn)行數(shù)字信號(hào)處理與識(shí)別。為了系統(tǒng)的檢測(cè)速度并降低成本,還開發(fā)一種特殊的DFT算法,稱為戈澤爾(Goertzel)算法,這種算法既可以用硬件(專用芯片)實(shí)現(xiàn),也可以用軟件實(shí)現(xiàn)。下面首先介紹雙音多頻信號(hào)的產(chǎn)生方法和檢測(cè)方法,包括戈澤爾算法,最后進(jìn)行模擬實(shí)驗(yàn)。一、實(shí)驗(yàn)內(nèi)容:在電話中,數(shù)字0~9的中每一個(gè)都用兩個(gè)不同的單音頻傳輸,所用的8個(gè)頻率分成高頻帶和低頻帶兩組,低頻帶有四個(gè)頻率:679Hz,770Hz,852Hz和941Hz;高頻帶也有四個(gè)頻率:1209Hz,1336Hz,1477Hz和1633Hz.。每一個(gè)數(shù)字均由高、低頻帶中各一個(gè)頻率構(gòu)成,DTMF信號(hào)的生成是通過將兩個(gè)有限長(zhǎng)數(shù)字序列相加而實(shí)現(xiàn);而對(duì)DTMF信號(hào)的檢測(cè)是通過計(jì)算DTMF信號(hào)的DFT;然后測(cè)量在給定8個(gè)頻率上的能量而實(shí)現(xiàn)。已知采樣頻率為8KHZ,DTMF信號(hào)點(diǎn)數(shù)N=205,對(duì)DTMF信號(hào)進(jìn)行205點(diǎn)的DFT。右表為DTMF數(shù)字。1209HZ1336HZ1447HZ1663HZ1697HZ123A2770HZ456B3852HZ789C4941HZ*0#DDTMF信號(hào)在電話中有兩種作用,一個(gè)是用撥號(hào)信號(hào)去控制交換機(jī)接通被叫的用戶電話機(jī),另一個(gè)作用是控制電話機(jī)的各種動(dòng)作,如播放留言、語音信箱等。要求:1,通過鍵盤任意輸入16個(gè)鍵之一,生成DTMF信號(hào)。2。試實(shí)現(xiàn)對(duì)該輸入信號(hào)的檢測(cè),并在屏幕上顯示。3。試從計(jì)算量角度考慮為什么采用DFT進(jìn)行DTMF信號(hào)檢測(cè)。4。判斷出每個(gè)頻率對(duì)應(yīng)的DFT的頻率采樣點(diǎn)。二、實(shí)驗(yàn)?zāi)康模簩?duì)DTMF信號(hào)的生成及其檢測(cè)有所了解,進(jìn)一步對(duì)DFT的定義、物理意義及基本性質(zhì)有深入了解。三、實(shí)驗(yàn)原理:DFT(離散傅立葉變換)的定義:X(K)=∑x(n)WknN,k=0,1,…,N-1IDFT(離散傅立葉逆變換)的定義:x(n)=1/N(∑X(K)W-knN,n=0,1,…,N-1DFT變換具有周期性、線性、循環(huán)卷積等性質(zhì)。其最重要性質(zhì)共軛對(duì)稱性,其性質(zhì)如下:設(shè)x(n)是長(zhǎng)度為N的實(shí)序列,且X(K)=DFT【x(n)】,則(1.)X(K)共軛對(duì)稱,即X(K)=X*(N-K),0≤k≤N-1(2.)如果x(n)=x(N-n),則X(K)實(shí)偶對(duì)稱,即X(K)=X(N-K)(3.)如果x(n)=-x(N-n),則X(K)純虛奇對(duì)稱,即X(K)=-X(N-K)利用共軛對(duì)稱性可以減少運(yùn)算量。四、實(shí)驗(yàn)步驟:(1)確定從鍵盤上輸入的字母。方法通過其字母的ASCII值來判斷(采用for循環(huán)嵌套)。(2)DTMF信號(hào)的產(chǎn)生。DTMF信號(hào)的生成是通過有限長(zhǎng)數(shù)字序列的相加而實(shí)現(xiàn),通過兩個(gè)頻率確定唯一的字母,用該兩個(gè)信號(hào)相加實(shí)現(xiàn)DTMF信號(hào)。(3)DTMF信號(hào)得到DFT變化。先對(duì)該信號(hào)進(jìn)行205點(diǎn)上的DFT變換,然后進(jìn)行固定點(diǎn)上DFT的提取,并輸出該點(diǎn)上的DFT的幅值。(4)從輸出幅值判斷輸入字母。制定一個(gè)判斷標(biāo)準(zhǔn),通過該判斷標(biāo)準(zhǔn)得出相應(yīng)的行與列,進(jìn)而確定該點(diǎn)的ASCII值,輸出對(duì)應(yīng)的字母。五、程序框圖:開始開始鍵盤輸入字母鍵盤輸入字母For循環(huán)確定p\qFor循環(huán)確定p\qDTMF信號(hào)的生成及圖形DTMF信號(hào)的生成及圖形DTMF信號(hào)的DFT變換DTMF信號(hào)的DFT變換8定點(diǎn)頻率上DFT圖形8定點(diǎn)頻率上DFT圖形通過判斷標(biāo)準(zhǔn)確定行、列,輸出相應(yīng)字母通過判斷標(biāo)準(zhǔn)確定行、列,輸出相應(yīng)字母結(jié)束結(jié)束六、源程序:closeall;clearall;clc;f1=697;f2=770;f3=852;f4=941;f5=1209;f6=1336;f7=1447;f8=1663;fs=8000;n=1:205;while(1)while(1)clcflag=0;disp('1209133614471663');disp('697123A');disp('770456B');disp('852789C');disp('941*0#D');disp('');disp('');in_key=input('請(qǐng)輸入按鍵','s');disp('');disp('');switchin_keycase['1']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f5/fs);case['2']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f6/fs);case['3']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f7/fs);case['A']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f8/fs);case['4']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f5/fs);case['5']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f6/fs);case['6']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f7/fs);case['B']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f8/fs);case['7']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f5/fs);case['8']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f6/fs);case['9']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f7/fs);case['C']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f8/fs);case['*']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f5/fs);case['0']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f6/fs);case['#']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f7/fs);case['D']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f8/fs);otherwiseflag=1;clc;disp('');disp('你輸入按鍵錯(cuò)誤');disp('');disp('');temp=input('是否要繼續(xù)Y|y---是N|n--否','s');disp('');if(temp==['n']|temp==['N'])flag=0;endend;if(flag==0)break;endendxn=x1+x2;xk=fft(xn,205);%對(duì)x(n)做采樣點(diǎn)數(shù)為205點(diǎn)的fft變換%k=0:204;%figure('name','實(shí)驗(yàn)五');subplot(311);plot(n,xn);xlabel('n');ylabel('xn');grid;subplot(312);stem(k,xk(1:205));%繪制以k為x軸,xk(1:205)為y軸的離散序列圖%xlabel('k');ylabel('xk');grid;xk=abs(xk);%作xk的絕對(duì)值%max1=1;xmax1=xk(1);max2=1;xmax2=xk(1);form=1:60if(xmax1<xk(m))xmax1=xk(m);max1=m;endendform=1:60if(xmax2<xk(m)&m~=max1)xmax2=xk(m);max2=m;endendmax1=max1-1;max2=max2-1;if(max1>max2)k=max1;max1=max2;max2=k;enddisp('');disp('');disp('------------------------經(jīng)過傳輸后知道如下--------------------------------');switchmax1case18switchmax2case31disp('你輸入的是-------1');a=[max1max2];b=[6971209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------2');a=[max1max2];b=[6971336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------3');a=[max1max2];b=[6971447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43 disp('你輸入的是-------A');a=[max1max2];b=[6971663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase20switchmax2case31disp('你輸入的是-------4');a=[max1max2];b=[7701209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------5');a=[max1max2];b=[7701336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------6');a=[max1max2];b=[7701447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你輸入的是-------B');a=[max1max2];b=[7701663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase22switchmax2case31disp('你輸入的是-------7');a=[max1max2];b=[8521209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------8');a=[max1max2];b=[8521336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------9');a=[max1max2];b=[8521447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你輸入的是-------C');a=[max1max2];b=[8521663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase24switchmax2case31disp('你輸入的是-------*');a=[max1max2];b=[9411209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------0');a=[max1max2];b=[9411336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------#');a=[max1max2];b=[9411447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你輸入的是-------D');a=[max1max2];b=[9411663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endenddisp('');;shdisp('');disp('');temp=input('是否要繼續(xù)按鍵Y|y---是N|n--退出','s');if(temp==['n']|temp==['N'])break;;enddisp('');end七、程序結(jié)果及圖表:a=input('輸入數(shù)字=','s');sm=abs(a);%輸入數(shù)字的ASCII值pm=[49505165;52535466;55565767;42483568];%給出圖表字母的相應(yīng)ASCII值矩陣forp=1:4;forq=1:4;ifpm(p,q)==sm;break,endendifpm(p,q)==sm;break,endend%通過兩個(gè)for循環(huán)判斷鍵盤輸入字母的具體行和列fprintf('ASCII碼值A(chǔ)M=%0.f\n',pm(p,q))f1=[697770852941];f2=[1209133614471663];n=0:204;x=sin(2*pi*n*f1(p)/8000)+sin(2*pi*n*f2(q)/8000);%DTMF信號(hào)的生成figure('color','g');subplot(211);plot(x);xlabel('n');ylabel('x');title('DTMF信號(hào)');k=[1820222431343843];%給出8個(gè)頻率點(diǎn)va=zeros(1,8);%生成一個(gè)1行8列的零矩陣form=1:8;Fx(m)=gfft(x,205,k(m));%對(duì)信號(hào)x進(jìn)行205點(diǎn)上DFT變換,再取和k對(duì)應(yīng)的8點(diǎn)上DFT變化并相應(yīng)的放入Fx(m)endva=abs(Fx);subplot(212);stem(k,va);xlabel('k');ylabel('|X(k)|');l1=80;l2=7.8;%判斷標(biāo)準(zhǔn)fors=5:8;ifva(s)>l2;break,endendforr=1:4;ifva(r)>l1;break,endend%通過判斷標(biāo)準(zhǔn)判斷出相應(yīng)的行和列disp(['撥號(hào)符號(hào)=',setstr(pm(r,s-4))])%輸出判斷出的相應(yīng)行、列ASCII值矩陣對(duì)應(yīng)的符號(hào)結(jié)果及圖示如下:輸入數(shù)字=1,ASCII碼值A(chǔ)M=,49撥號(hào)符號(hào)=1 圖一輸入數(shù)字,=2ASCII碼值A(chǔ)M=50撥號(hào)符號(hào),=2圖二比較以上兩圖,每幅圖的上面均為該字母所對(duì)應(yīng)的兩固定頻率所產(chǎn)生的DTMF信號(hào),且它們只是205點(diǎn)上的離散信號(hào),下圖是對(duì)該字母DTMF信號(hào)x進(jìn)行205點(diǎn)上DFT變換,再取和k對(duì)應(yīng)的8點(diǎn)(1820222431343843)上DFT變化的幅值,其中前4點(diǎn)決定該字母所在原矩陣中的行,后4點(diǎn)決定該字母所在原矩陣中的列,該圖也證明了前四點(diǎn)表示的意義。輸入數(shù)字=4ASCII碼值A(chǔ)M=52 圖三撥號(hào)符號(hào)=4比較圖一、圖三,可以看出后四點(diǎn)表示的是字母所在原矩陣中的列,該圖也證明了后四點(diǎn)表示的意義。以上三幅圖均證明了程序的正確。因?yàn)椴蓸宇l率是8000Hz,因此要求每125ms輸出一個(gè)樣本,得到的序列再送到D/A變換器和平滑濾波器,輸出便是連續(xù)時(shí)間的DTMF信號(hào)。DTMF信號(hào)通過電話線路送到交換機(jī)?;贕oertzel算法的雙音多頻信號(hào)檢測(cè)在接收端,要對(duì)收到的雙音多頻信號(hào)進(jìn)行檢測(cè),檢測(cè)兩個(gè)正弦波的頻率是多少,以判斷所對(duì)應(yīng)的十進(jìn)制數(shù)字或者符號(hào)。顯然這里仍然要用數(shù)字方法進(jìn)行檢測(cè),因此要將收到的時(shí)間連續(xù)DTMF信號(hào)經(jīng)過A/D變換,變成數(shù)字信號(hào)進(jìn)行檢測(cè)。檢測(cè)的方法有兩種,一種是用一組濾波器提取所關(guān)心的頻率,根據(jù)有輸出信號(hào)的2個(gè)濾波器判斷相應(yīng)的數(shù)字或符號(hào)。另一種是用DFT(FFT)對(duì)雙音多頻信號(hào)進(jìn)行頻譜分析,由信號(hào)的幅度譜,判斷信號(hào)的兩個(gè)頻率,最后確定相應(yīng)的數(shù)字或符號(hào)。當(dāng)檢測(cè)的音頻數(shù)目較少時(shí),用濾波器組實(shí)現(xiàn)更合適。FFT是DFT的快速算法,但當(dāng)DFT的變換區(qū)間較小時(shí),F(xiàn)FT快速算法的效果并不明顯,而且還要占用很多內(nèi)存,因此不如直接用DFT合適。下面介紹Goertzel算法,這種算法的實(shí)質(zhì)是直接計(jì)算DFT的一種線性濾波方法。這里略去Goertzel算法的介紹,可以直接調(diào)用MATLAB信號(hào)處理工具箱中戈澤爾算法的函數(shù)Goertzel,計(jì)算N點(diǎn)DFT的幾個(gè)感興趣的頻點(diǎn)的值。二語音合成與語音識(shí)別語音識(shí)別的發(fā)展歷史早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識(shí)別及合成的雛形。而1920年代生產(chǎn)的"RadioRex"玩具狗可能是最早的語音識(shí)別器,當(dāng)這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來。最早的基于電子計(jì)算機(jī)的語音識(shí)別系統(tǒng)是由AT&T貝爾實(shí)驗(yàn)室開發(fā)的Audrey語音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字。其識(shí)別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學(xué)院(ColledgeofLondon)的Denes已經(jīng)將語法概率加入語音識(shí)別中。1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識(shí)別。這一時(shí)代的兩大突破是線性預(yù)測(cè)編碼LinearPredictiveCoding(LPC),及動(dòng)態(tài)時(shí)間彎折DynamicTimeWarp技術(shù)。語音識(shí)別技術(shù)的最重大突破是隱含馬爾科夫模型HiddenMarkovModel的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過Labiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實(shí)現(xiàn)了第一個(gè)基于隱馬爾科夫模型的大詞匯量語音識(shí)別系統(tǒng)Sphinx。[1]。此后嚴(yán)格來說語音識(shí)別技術(shù)并沒有脫離HMM框架。盡管多年來研究人員一直嘗試將“聽寫機(jī)”推廣,語音識(shí)別技術(shù)在目前還無法支持無限領(lǐng)域,無限說話人的聽寫機(jī)應(yīng)用。語音識(shí)別概述語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別AutomaticSpeechRecognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。語音識(shí)別技術(shù)的應(yīng)用包括語音撥號(hào)、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡(jiǎn)單的聽寫數(shù)據(jù)錄入等。語音識(shí)別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語音合成語音是信息傳播的一大媒介。近年來,提供語音服務(wù)的語音系統(tǒng)迅速發(fā)展起來。傳統(tǒng)的語音系統(tǒng)一般采用預(yù)錄音回放技術(shù),由于這種方法必須對(duì)信息文本事先進(jìn)行錄音,并存為聲音文件,因此,所占用的存儲(chǔ)空間很大。另外,一個(gè)更大的缺點(diǎn)是不能實(shí)時(shí)反映信息的更新,應(yīng)用范圍有很大的局限性?,F(xiàn)在的語音合成技術(shù),無需對(duì)大量的信息進(jìn)行錄音,極大地減少了工作量和節(jié)省了存儲(chǔ)空間,尤其是在信息內(nèi)容需要經(jīng)常變動(dòng)的動(dòng)態(tài)查詢場(chǎng)合,如股市行情查詢、有聲Email系統(tǒng),都是傳統(tǒng)的預(yù)錄音技術(shù)無法代勞的。結(jié)合其他技術(shù),語音合成技術(shù)可以廣泛應(yīng)用于金融、郵電、工商、政府機(jī)關(guān)、交通、教育、游戲等領(lǐng)域。傳統(tǒng)的語音系統(tǒng)恢復(fù)語音回放恢復(fù)語音回放錄音Wav語音壓縮編碼語音壓縮編碼語音信號(hào)的參數(shù)合成根據(jù)語音產(chǎn)生的數(shù)學(xué)模型,利用短時(shí)平穩(wěn)性,提出每幀語音信號(hào)的參數(shù),這些參數(shù)經(jīng)編碼后組成一個(gè)語音參數(shù)庫。輸出時(shí),從語音參數(shù)庫中取出相應(yīng)的參數(shù),利用語音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語音。共振峰合成和線性預(yù)測(cè)合成是該類合成技術(shù)中的重要方法。直接錄放流程回放錄音回放錄音Wav語音壓縮編碼語音壓縮編碼波形合成方法挑選組合挑選組合語音庫(語音單元)語音的波形編碼回放 合成語音語音信號(hào)的規(guī)則合成將任意文本轉(zhuǎn)換成聲音的系統(tǒng)。包括語言學(xué)和聲學(xué)處理。合成的詞匯不是事先確定。常見的就是文語轉(zhuǎn)換合成技術(shù)。系統(tǒng)中存儲(chǔ)的是音素的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子的規(guī)則;控制音調(diào)、輕重音等韻律的各種規(guī)則。在波形合成法中,也可以使用波形編碼技術(shù)略微壓縮一些存儲(chǔ)量。通常情況下,波形合成法可以合成的語音詞匯量約在500以下,而參數(shù)合成法則可以達(dá)到數(shù)千左右。當(dāng)然,在參數(shù)合成時(shí),由于抽取參數(shù)或編碼過程中,難免存在逼近誤差,所以合成的語音質(zhì)量(清晰度)也就比波形合成法要差一些了。在語音合成中,另一個(gè)重要問題就是合成基元的選擇問題,也就是存儲(chǔ)的語音基元的選擇問題。顯然,合成詞匯量越大,必須采用越小的基元,否則存儲(chǔ)量就太大了;反之,合成詞匯量越小,可用較大的基元。例如在英語中,詞的數(shù)量有千千萬萬,但是音素質(zhì)有成百個(gè)。因此存儲(chǔ)全部詞的容量遠(yuǎn)遠(yuǎn)大于存儲(chǔ)全部音素的容量。但是我們知道,基元越大,合成的語音自然度就越好。例如存儲(chǔ)的是整個(gè)句子的語音波形或參數(shù),則合成的語音在該句范圍內(nèi),合成語音的自然度就接近于原始語音,不會(huì)有那種不連貫的機(jī)器味。通常,在波形合成法中,由于合成的是有限長(zhǎng)度的語音,甚至可以用整個(gè)句子作為合成基元,但是在參數(shù)合成法中,則不得不用字至多也只能用詞作為合成基元。語音合成技術(shù)可以分為四類:1.波形編碼合成方法2.參數(shù)式分析合成方法3.規(guī)則合成方法4.文-語轉(zhuǎn)換無論波形合成法或是參數(shù)合成法,其原理都等同于語音通信的語音編碼或聲碼器中的接收端的工作過程,只是現(xiàn)在沒有從信道送來的參數(shù)與編碼的序列,而代之以從分析或變換得到的存儲(chǔ)在語音庫中的參數(shù)或碼序列。共振峰式語音合成器語音的規(guī)則合成這種合成方法以通過語音學(xué)規(guī)則來產(chǎn)生任何語音為目的,規(guī)則合成系統(tǒng)存儲(chǔ)的是較小的語音單位的聲學(xué)參數(shù)以及由音素組成音節(jié),再由音節(jié)組成詞或句子的各種規(guī)則。當(dāng)輸入字母符號(hào)時(shí),合成系統(tǒng)利用規(guī)則自動(dòng)將它們轉(zhuǎn)換為連續(xù)的語音聲波。由于語音中存在協(xié)同發(fā)聲效應(yīng),單獨(dú)存在的元音和輔音與連續(xù)發(fā)音中的元音和輔音不同,所以合成規(guī)則是在分析每一語音單元出現(xiàn)在不同環(huán)境中的協(xié)同發(fā)音后,歸納其規(guī)律而制定的如共振峰的頻率規(guī)則、時(shí)長(zhǎng)規(guī)則、聲調(diào)和語調(diào)規(guī)則等。與分析合成方法相比,規(guī)則合成方法的語音庫的存儲(chǔ)量更小,這是以犧牲音質(zhì)為代價(jià)的,這種方式涉及到許多語音學(xué)和語音學(xué)模型,系統(tǒng)結(jié)構(gòu)復(fù)雜。目前合成規(guī)則還不完善,合成音質(zhì)一般較差。語音識(shí)別語音識(shí)別是指從語音到文本的轉(zhuǎn)換,即讓計(jì)算機(jī)能夠把人發(fā)出的有意義的話音變成書面語言。通俗地說就是讓機(jī)器能夠聽懂人說的話。所謂聽懂,有兩層意思,一是指把用戶所說的話逐詞逐句轉(zhuǎn)換成文本;二是指正確理解語音中所包含的要求,作出正確的應(yīng)答。語音識(shí)別的模型目前,主流的大詞匯量語音識(shí)別系統(tǒng)多采用統(tǒng)計(jì)模式識(shí)別技術(shù)。典型的基于統(tǒng)計(jì)模式識(shí)別方法的語音識(shí)別系統(tǒng)由以下幾個(gè)基本模塊所構(gòu)成信號(hào)處理及特征提取模塊。該模塊的主要任務(wù)是從輸入信號(hào)中提取特征,供聲學(xué)模型處理。同時(shí),它一般也包括了一些信號(hào)處理技術(shù),以盡可能降低環(huán)境噪聲、信道、說話人等因素對(duì)特征造成的影響。統(tǒng)計(jì)聲學(xué)模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進(jìn)行建模。發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實(shí)際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射。語言模型。語言模型對(duì)系統(tǒng)所針對(duì)的語言進(jìn)行建模。理論上,包括正則語言,上下文無關(guān)文法在內(nèi)的各種語言模型都可以作為語言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計(jì)的N元文法及其變體。解碼器。解碼器是語音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對(duì)輸入的信號(hào),根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。從數(shù)學(xué)角度可以更加清楚的了解上述模塊之間的關(guān)系。首先,統(tǒng)計(jì)語音識(shí)別的最基本問題是,給定輸入信號(hào)或特征序列,符號(hào)集(詞典),求解符號(hào)串使得:W=argmaxP(W|O)通過貝葉斯公式,上式可以改寫為由于對(duì)于確定的輸入串O,P(O)是確定的,因此省略它并不會(huì)影響上式的最終結(jié)果,因此,一般來說語音識(shí)別所討論的問題可以用下面的公式來表示,可以將它稱為語音識(shí)別的基本公式。W=argmaxP(O|W)P(W)從這個(gè)角度來看,信號(hào)處理模塊提供了對(duì)輸入信號(hào)的預(yù)處理,也就是說,提供了從采集的語音信號(hào)(記為S)到特征序列O的映射。而聲學(xué)模型本身定義了一些更具推廣性的聲學(xué)建模單元,并且提供了在給定輸入特征下,估計(jì)P(O|uk)的方法。為了將聲學(xué)模型建模單元串映射到符號(hào)集,就需要發(fā)音詞典發(fā)揮作用。它實(shí)際上定義了映射的映射。為了表示方便,也可以定義一個(gè)由到U的全集的笛卡爾積,而發(fā)音詞典則是這個(gè)笛卡爾積的一個(gè)子集。并且有:最后,語言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫成:對(duì)于解碼器來所,就是要在由,,ui以及時(shí)間標(biāo)度t張成的搜索空間中,找到上式所指明的W。語音識(shí)別是一門交叉學(xué)科,語音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語音識(shí)別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是人們長(zhǎng)期以來夢(mèng)寐以求的事情。語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音識(shí)別是一門交叉學(xué)科。近二十年來,語音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來10年內(nèi),語音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。語音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語音識(shí)別的發(fā)展歷史國(guó)外研究歷史及發(fā)展語音識(shí)別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在60年代末70年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語音信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效的解決了語音信號(hào)的特征提取和不等長(zhǎng)匹配問題。這一時(shí)期的語音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識(shí)別,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對(duì)語音識(shí)別的約束條件需要放寬,與此同時(shí)也帶來了許多新的問題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語音中,各個(gè)音素、音節(jié)以及詞之間沒有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識(shí)別時(shí),不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會(huì)有很大的差異;第四,識(shí)別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。實(shí)驗(yàn)室語音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語音識(shí)別系統(tǒng)。這一時(shí)期,語音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語音識(shí)別技術(shù)的主流。統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來建立最佳的語音識(shí)別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語言層面上,通過統(tǒng)計(jì)真實(shí)大規(guī)模語料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來區(qū)分識(shí)別帶來的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語言處理機(jī)制等也在語音識(shí)別中得到了應(yīng)用。國(guó)內(nèi)研究歷史及現(xiàn)狀我國(guó)語音識(shí)別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開始執(zhí)行國(guó)家863計(jì)劃后,國(guó)家863智能計(jì)算機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng),每?jī)赡隄L動(dòng)一次。我國(guó)語音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,在漢語語音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國(guó)科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長(zhǎng)數(shù)字串)和96.8%(定長(zhǎng)數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長(zhǎng)數(shù)字串)和98.7%(定長(zhǎng)數(shù)字串),這是目前國(guó)際最好的識(shí)別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識(shí)別系統(tǒng)的識(shí)別率達(dá)到98.73%,前三選識(shí)別率達(dá)99.96%;并且可以識(shí)別普通話與四川話兩種語言,達(dá)到實(shí)用要求。中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語”中文語音系列產(chǎn)品——PattekASR,結(jié)束了中文語音識(shí)別產(chǎn)品自1998年以來一直由國(guó)外公司壟斷的歷史。語音識(shí)別的分類針對(duì)說話方式:孤立詞識(shí)別和連續(xù)語音識(shí)別針對(duì)識(shí)別環(huán)境:實(shí)驗(yàn)室環(huán)境語音識(shí)別、電話語音識(shí)別和廣播語音識(shí)別針對(duì)說話人:特定說話人語音識(shí)別和非特定說話人語音識(shí)別針對(duì)詞匯量:小詞匯量、中詞匯量和大詞匯量的識(shí)別語音識(shí)別系統(tǒng)的分類語音識(shí)別系統(tǒng)可以根據(jù)對(duì)輸入語音的限制加以分類。如果從說話者與識(shí)別系統(tǒng)的相關(guān)性考慮,可以將識(shí)別系統(tǒng)分為3類:(1)特定人語音識(shí)別系統(tǒng):僅考慮對(duì)于專人的話音進(jìn)行識(shí)別;(2)非特定人語音系統(tǒng):識(shí)別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí);(3)多人的識(shí)別系統(tǒng):通常能識(shí)別一組人的語音,或者成為特定組語音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語音進(jìn)行訓(xùn)練。如果從說話的方式考慮,也可以將識(shí)別系統(tǒng)分為3類:(1)孤立詞語音識(shí)別系統(tǒng):孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓;(2)連接詞語音識(shí)別系統(tǒng):連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn);(3)連續(xù)語音識(shí)別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會(huì)出現(xiàn)。如果從識(shí)別系統(tǒng)的詞匯量大小考慮,也可以將識(shí)別系統(tǒng)分為3類:(1)小詞匯量語音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語音識(shí)別系統(tǒng)。(2)中等詞匯量的語音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。(3)大詞匯量語音識(shí)別系統(tǒng)。通常包括幾千到幾萬個(gè)詞的語音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng)到將來可能就是小詞匯量的語音識(shí)別系統(tǒng)。這些不同的限制也確定了語音識(shí)別系統(tǒng)的困難度。語音識(shí)別原理框圖失真測(cè)度歐氏距離失真測(cè)度 似然比測(cè)度語音信號(hào)判決測(cè)度估計(jì)聲學(xué)參數(shù)分析預(yù)處理輸入識(shí)別結(jié)果判決測(cè)度估計(jì)聲學(xué)參數(shù)分析預(yù)處理專家知識(shí)庫語音庫反混疊失真濾波器專家知識(shí)庫語音庫預(yù)加重器訓(xùn)練端點(diǎn)檢測(cè)噪聲濾波器構(gòu)詞規(guī)則 同音字判決 語法語義 背景知識(shí)語音識(shí)別的類型以所要識(shí)別的對(duì)象來分,有:(1)孤立詞識(shí)別(字或詞間有停頓,用于控制系統(tǒng))(2)連接詞識(shí)別(十個(gè)數(shù)字連接而成的多位數(shù)字識(shí)別或由少數(shù)指令構(gòu)成詞條的識(shí)別,用于數(shù)據(jù)庫查詢、電話和控制系統(tǒng))(3)連續(xù)語音識(shí)別和理解(自然的說話方式)(4)會(huì)話語音識(shí)別(識(shí)別出會(huì)話語言)語音識(shí)別語音識(shí)別聲學(xué)信息論語音學(xué)信號(hào)
處理人工
智能模式
識(shí)別數(shù)理
統(tǒng)計(jì)聽寫機(jī)查詢
系統(tǒng)電話
撥號(hào)殘疾人用品消費(fèi)
電子……語音識(shí)別的應(yīng)用背景和學(xué)科基礎(chǔ)語音識(shí)別的步驟根據(jù)識(shí)別系統(tǒng)的類型選擇能滿足要求的一種識(shí)別方法,采用語音分析技術(shù)預(yù)先分析出這種方法所要求的語音特征參數(shù),這些語音參數(shù)作為標(biāo)準(zhǔn)模式由計(jì)算機(jī)存儲(chǔ)起來,形成標(biāo)準(zhǔn)模式庫,稱為模板。這個(gè)過程稱為“學(xué)習(xí)”和“訓(xùn)練”。在某些識(shí)別系統(tǒng)中,還備有專家知識(shí)庫,其中存放由語言學(xué)家的各種知識(shí),如同音字判決規(guī)則、語法規(guī)則、語義規(guī)則等。識(shí)別:將輸入語音進(jìn)行處理,提取特征參數(shù),和模式庫中的模板進(jìn)行比較匹配,作出判決。人類利用語言相互交流信息,包括語音和文字兩種表達(dá)方式。通過語音相互傳遞信息,這是人類最重要的基本功能之一。隨著信息社會(huì)的發(fā)展,人與人之間,自不必說,即使在人與機(jī)器之間也每時(shí)每刻都需要進(jìn)行大量的信息交換。三聲紋識(shí)別聲紋識(shí)別,生物識(shí)別技術(shù)的一種,也稱為說話人識(shí)別,是從說話人發(fā)出的語音信號(hào)中提取聲紋信息。聲紋識(shí)別屬于生物識(shí)別技術(shù)的一種,是一項(xiàng)根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動(dòng)識(shí)別說話人身份的技術(shù)。與語音識(shí)別不同的是,聲紋識(shí)別利用的是語音信號(hào)中的說話人信息,而不考慮語音中的字詞意思,它強(qiáng)調(diào)說話人的個(gè)性;而語音識(shí)別的目的是識(shí)別出語音信號(hào)中的言語內(nèi)容,并不考慮說話人是誰,它強(qiáng)調(diào)共性。聲紋識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。聲紋識(shí)別系統(tǒng)聲紋識(shí)別系統(tǒng)的工作過程一般可以分為兩個(gè)過程:訓(xùn)練過程和識(shí)別過程。無論訓(xùn)練還是識(shí)別,都需要首先對(duì)輸入的原始語音信號(hào)進(jìn)行預(yù)處理。語音語音
信號(hào)加窗
(如海明窗)計(jì)算頻譜
(FFT)MEL分段
(三角濾波)對(duì)數(shù)變換
log()離散余弦變換
DCT聲紋識(shí)別系統(tǒng)中的特征檢測(cè)即提取語音信號(hào)中表征人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說話人,且對(duì)同一說話人的變化保持相對(duì)穩(wěn)定??紤]到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評(píng)價(jià)問題,目前的聲紋識(shí)別系統(tǒng)主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。譜包絡(luò)參數(shù)語音信息通過濾波器組輸出,以合適的速率對(duì)濾波器輸出抽樣,并將它們作為聲紋識(shí)別特征。基音輪廓、共振峰頻率帶寬及其軌跡這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。線性預(yù)測(cè)系數(shù)使用線性預(yù)測(cè)系數(shù)是語音信號(hào)處理中的一次飛躍,以線性預(yù)測(cè)導(dǎo)出的各種參數(shù),如線性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對(duì)數(shù)面積比、線性預(yù)測(cè)殘差及其組合等參數(shù),作為識(shí)別特征,可以得到較好的效果。主要原因是線性預(yù)測(cè)與聲道參數(shù)模型是相符合的。反映聽覺特性的參數(shù)模擬人耳對(duì)聲音頻率感知的特性而提出了多種參數(shù),如美倒譜系數(shù)、感知線性預(yù)測(cè)等。此外,人們還通過對(duì)不同特征參量的組合來提高實(shí)際系統(tǒng)的性能,當(dāng)各組合參量間相關(guān)性不大時(shí),會(huì)有較好的效果,因?yàn)樗鼈兎謩e反映了語音信號(hào)的不同特征。近年來,在生物識(shí)別技術(shù)領(lǐng)域中,聲紋識(shí)別技術(shù)以其獨(dú)特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu)勢(shì)受到世人矚目,并日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩?yàn)證方式。聲紋識(shí)別屬于生物識(shí)別技術(shù)的一種,是一項(xiàng)根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動(dòng)識(shí)別說話人身份的技術(shù)。與語音識(shí)別不同的是,聲紋識(shí)別利用的是語音信號(hào)中的說話人信息,而不考慮語音中的字詞意思,它強(qiáng)調(diào)說話人的個(gè)性;而語音識(shí)別的目的是識(shí)別出語音信號(hào)中的言語內(nèi)容,并不考慮說話人是誰,它強(qiáng)調(diào)共性。聲紋識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。聲紋識(shí)別—模式匹配模式匹配識(shí)別判斷的目的:獲取表現(xiàn)說話人個(gè)性的特征參數(shù)的基礎(chǔ)上,將待識(shí)別的特征參數(shù)模板或模型與訓(xùn)練學(xué)習(xí)時(shí)得到的模板或模型庫作相似性匹配,得到特征模式之間的相似性距離度量,并選取適當(dāng)?shù)木嚯x度量作為門限值,從而識(shí)別判斷出可能結(jié)果中最好的結(jié)果。在模式匹配中常用的方法有:(1)模板匹配方法:主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù));(2)最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識(shí)別時(shí)對(duì)每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè),據(jù)此進(jìn)行識(shí)別,通常模型存儲(chǔ)和相似計(jì)算的量都很大;(3)神經(jīng)網(wǎng)絡(luò)方法;(4)隱式馬爾可夫模型:通常使用單狀態(tài)的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;(5)VQ聚類方法:效果比較好,算法復(fù)雜度也不高;多項(xiàng)式分類器方法:有較高的精度,但模型存儲(chǔ)和計(jì)算量都比較大;聲紋識(shí)別屬于生物識(shí)別技術(shù)的一種,是一項(xiàng)根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動(dòng)識(shí)別說話人身份的技術(shù)。與語音識(shí)別不同的是,聲紋識(shí)別利用的是語音信號(hào)中的說話人信息,而不考慮語音中的字詞意思,它強(qiáng)調(diào)說話人的個(gè)性;而語音識(shí)別的目的是識(shí)別出語音信號(hào)中的言語內(nèi)容,并不考慮說話人是誰,它強(qiáng)調(diào)共性。聲紋識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。利用語音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一。聲音輸入設(shè)備造價(jià)低廉,甚至無費(fèi)用(電話),而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。聲紋識(shí)別系統(tǒng)中的特征檢測(cè)即提取語音信號(hào)中表征人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說話人,且對(duì)同一說話人的變化保持相對(duì)穩(wěn)定。考慮到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評(píng)價(jià)問題,目前的聲紋識(shí)別系統(tǒng)主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。說話人特征大體可歸為下述幾類:譜包絡(luò)參數(shù)語音信息通過濾波器組輸出,以合適的速率對(duì)濾波器輸出抽樣,并將它們作為聲紋識(shí)別特征。基音輪廓、共振峰頻率帶寬及其軌跡這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。線性預(yù)測(cè)系數(shù)使用線性預(yù)測(cè)系數(shù)是語音信號(hào)處理中的一次飛躍,以線性預(yù)測(cè)導(dǎo)出的各種參數(shù),如線性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對(duì)數(shù)面積比、線性預(yù)測(cè)殘差及其組合等參數(shù),作為識(shí)別特征,可以得到較好的效果。主要原因是線性預(yù)測(cè)與聲道參數(shù)模型是相符合的。反映聽覺特性的參數(shù)模擬人耳對(duì)聲音頻率感知的特性而提出了多種參數(shù),如美倒譜系數(shù)、感知線性預(yù)測(cè)等。此外,人們還通過對(duì)不同特征參量的組合來提高實(shí)際系統(tǒng)的性能,當(dāng)各組合參量間相關(guān)性不大時(shí),會(huì)有較好的效果,因?yàn)樗鼈兎謩e反映了語音信號(hào)的不同特征。聲紋識(shí)別特性:聲紋識(shí)別除具有不會(huì)遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外,還具有以下特性:第一,聲紋識(shí)別是一種非接觸的識(shí)別技術(shù),用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。第二。用語音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一,一個(gè)麥克風(fēng)即可,而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。第三,適合遠(yuǎn)程身份確認(rèn),通過網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;第四,聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;第五,在基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中,具有獨(dú)特的優(yōu)勢(shì)。當(dāng)然,聲紋識(shí)別有一些缺點(diǎn):同一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;不同的麥克風(fēng)和信道對(duì)識(shí)別性能有影響;比如環(huán)境噪音對(duì)識(shí)別有干擾;混合說話人的情形下人的聲紋特征不易提取。聲紋識(shí)別應(yīng)用聲紋識(shí)別產(chǎn)品的市場(chǎng)占有率為15.8%,僅次于指紋識(shí)別和掌形識(shí)別。(1)信息領(lǐng)域(2)電話交易(3)在保安系統(tǒng)以及證件防偽中的應(yīng)用(4)公安司法模式匹配目前針對(duì)各種特征而提出的模式匹配方法的研究越來越深入。這些方法大體可歸為下述幾類:概率統(tǒng)計(jì)方法語音中說話人信息在短時(shí)內(nèi)較為平穩(wěn),通過對(duì)穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析,可以利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。其優(yōu)點(diǎn)是不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整,比較適合文本無關(guān)的說話人識(shí)別。動(dòng)態(tài)時(shí)間規(guī)整方法說話人信息不僅有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),而且有時(shí)變因素(語速、語調(diào)、重音和韻律)。將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整DTW。矢量量化方法矢量量化最早是基于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于聲紋識(shí)別,把每個(gè)人的特定文本編成碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。Bell實(shí)驗(yàn)室的Rosenberg和Soong用VQ進(jìn)行了孤立數(shù)字文本的聲紋識(shí)別研究。這種方法的識(shí)別精度較高,且判斷速度快。隱馬爾可夫模型方法隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型,最早在CMU和IBM被用于語音識(shí)別。它把語音看成由可觀察到的符號(hào)序列組成的隨機(jī)過程,符號(hào)序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用HMM識(shí)別時(shí),為每個(gè)說話人建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出概率矩陣。識(shí)別時(shí)計(jì)算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。HMM不需要時(shí)間規(guī)整,可節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量,在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量較大。聲紋識(shí)別分類分類(按類型)文本相關(guān)的(Text-Dependent)文本無關(guān)的(Text-Independent)文本有關(guān)的聲紋識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果,但系統(tǒng)需要用戶配合。文本無關(guān)的聲紋識(shí)別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便,可應(yīng)用范圍較寬。聲紋識(shí)別特性聲紋識(shí)別除具有不會(huì)遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外,還具有以下特性:第一,聲紋識(shí)別是一種非接觸的識(shí)別技術(shù),用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。第二。用語音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一,一個(gè)麥克風(fēng)即可,而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。第三,適合遠(yuǎn)程身份確認(rèn),通過網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;第四,聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;第五,在基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中,具有獨(dú)特的優(yōu)勢(shì)。聲紋識(shí)別應(yīng)用前景與其他生物識(shí)別技術(shù),諸如指紋識(shí)別、掌形識(shí)別、虹膜識(shí)別等相比較,聲紋識(shí)別除具有不會(huì)遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外,還具有以下特性:用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。利用語音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一。聲音輸入設(shè)備造價(jià)低廉,甚至無費(fèi)用(電話),而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。在基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中,如電話銀行、電話炒股、電子購物等,與其他生物識(shí)別技術(shù)相比,聲紋識(shí)別更為擅長(zhǎng),得天獨(dú)厚。由于與其他生物識(shí)別技術(shù)相比,聲紋識(shí)別具有更為簡(jiǎn)便、準(zhǔn)確、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢(shì),可廣泛應(yīng)用于安全驗(yàn)證、控制等各方面,特別是基于電信網(wǎng)絡(luò)的身份識(shí)別。聲紋識(shí)別的應(yīng)用有一些缺點(diǎn),比如同一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風(fēng)和信道對(duì)識(shí)別性能有影響;比如環(huán)境噪音對(duì)識(shí)別有干擾;又比如混合說話人的情形下人的聲紋特征不易提??;……等等。盡管如此,與其他生物特征相比,聲紋識(shí)別的應(yīng)用有一些特殊的優(yōu)勢(shì):(1)蘊(yùn)含聲紋特征的語音獲取方便、自然,聲紋提取可在不知不覺中完成,因此使用者的接受程度也高;(2)獲取語音的識(shí)別成本低廉,使用簡(jiǎn)單,一個(gè)麥克風(fēng)即可,在使用通訊設(shè)備時(shí)更無需額外的錄音設(shè)備;(3)適合遠(yuǎn)程身份確認(rèn),只需要一個(gè)麥克風(fēng)或電話、手機(jī)就可以通過網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;(4)聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;(5)配合一些其他措施,如通過語音識(shí)別進(jìn)行內(nèi)容鑒別等,可以提高準(zhǔn)確率;……等等。這些優(yōu)勢(shì)使得聲紋識(shí)別的應(yīng)用越來越收到系統(tǒng)開發(fā)者和用戶青睞,聲紋識(shí)別的世界市場(chǎng)占有率15.8%,僅次于指紋和掌紋的生物特征識(shí)別,并有不斷上升的趨勢(shì)。聲紋識(shí)別(VoiceprintRecognition,VPR),也稱為說話人識(shí)別(SpeakerRecognition),有兩類,即說話人辨認(rèn)(SpeakerIdentification)和說話人確認(rèn)(SpeakerVerification)。前者用以判斷某段語音是若干人中的哪一個(gè)所說的,是“多選一”問題;而后者用以確認(rèn)某段語音是否是指定的某個(gè)人所說的,是“一對(duì)一判別”問題。不同的任務(wù)和應(yīng)用會(huì)使用不同的聲紋識(shí)別技術(shù),如縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù),而銀行交易時(shí)則需要確認(rèn)技術(shù)。不管是辨認(rèn)還是確認(rèn),都需要先對(duì)說話人的聲紋進(jìn)行建模,這就是所謂的“訓(xùn)練”或“學(xué)習(xí)”過程。從另一方面,聲紋識(shí)別有文本相關(guān)的(Text-Dependent)和文本無關(guān)的(Text-Independent)兩種。與文本有關(guān)的聲紋識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無法正確識(shí)別該用戶。而與文本無關(guān)的識(shí)別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便,可應(yīng)用范圍較寬。根據(jù)特定的任務(wù)和應(yīng)用,兩種是有不同的應(yīng)用范圍的。比如,在銀行交易時(shí)可以使用文本相關(guān)的聲紋識(shí)別,因?yàn)橛脩糇约哼M(jìn)行交易時(shí)是愿意配合的;而在刑偵或偵聽?wèi)?yīng)用中則無法使用文本相關(guān)的聲紋識(shí)別,因?yàn)槟銦o法要求犯罪嫌疑人或被偵聽的人配合。在對(duì)說話的人辨認(rèn)方面,根據(jù)待識(shí)別的說話人是否在注冊(cè)的說話人集合內(nèi),說話人辨認(rèn)可以分為開集(open-set)辨認(rèn)和閉集(close-set)辨認(rèn)。前者假定待識(shí)別說話人可以在集合外,而后者假定待識(shí)別說話人在集合內(nèi)。顯然,開集辨認(rèn)需要有一個(gè)對(duì)集外說話人的“拒識(shí)問題”,而且閉集辨認(rèn)的結(jié)果要好于開集辨認(rèn)結(jié)果。本質(zhì)上講,說話人確認(rèn)和開集說話人辨認(rèn)都需要用到拒識(shí)技術(shù),為了達(dá)到很好的拒識(shí)效果,通常需要訓(xùn)練一個(gè)假冒者模型或背景模型,以便拒識(shí)時(shí)有可資比較的對(duì)象,閾值容易選定。而建立背景模型的好壞直接影響到拒識(shí)甚至聲紋識(shí)別的性能。一個(gè)好的背景模型,往往需要通過預(yù)先采集好的若干說話人的數(shù)據(jù),通過某種算法去建立。如果技術(shù)達(dá)到一定的水平,可以把文本相關(guān)識(shí)別并入文本無關(guān)識(shí)別,把閉集辨認(rèn)并入開集辨認(rèn),從而提供更為方便的使用方法。實(shí)際應(yīng)用系統(tǒng)結(jié)構(gòu)方案背景社保社會(huì)化以后,因?yàn)榫蜆I(yè)單位的搬遷、變更、關(guān)閉,退休人員異地養(yǎng)老等原因,造成投保人員頻繁流動(dòng)、分散。所以確定投保人的生存狀況一直是社保支付理賠工作中的一個(gè)難題,全國(guó)各地陸續(xù)出現(xiàn)了社?;鸨幻邦I(lǐng)的現(xiàn)象,尤其是養(yǎng)老保險(xiǎn)金被冒領(lǐng)的情況更為嚴(yán)重;解決這一難題的唯一出路在于采用生物識(shí)別技術(shù)進(jìn)行身份認(rèn)證,而語音生物特征(聲紋)識(shí)別是唯一可用于非接觸式、通過電話網(wǎng)絡(luò)遠(yuǎn)程安全控制的生物識(shí)別方法。語音生物特征識(shí)別,又稱說話人識(shí)別,俗稱聲紋識(shí)別,是根據(jù)說話人的發(fā)音生理和行為特征,自動(dòng)識(shí)別說話人身份的一種生物識(shí)別方法。聲紋識(shí)別所提供的安全性可與其他生物識(shí)別技術(shù)(如:指紋、掌形和虹膜)相媲美,而且語音采集裝置造價(jià)低廉,只需電話/手機(jī)或麥克風(fēng)即可,無需特殊的設(shè)備;它與說話語言無關(guān),與方言腔調(diào)無關(guān),不涉及隱私問題,適應(yīng)人群范圍很廣;聲音信號(hào)便于遠(yuǎn)程傳輸和獲取,在基于電信和網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中,聲紋識(shí)別更為擅長(zhǎng),得天獨(dú)厚。系統(tǒng)結(jié)構(gòu)整個(gè)系統(tǒng)的物理結(jié)構(gòu)如圖所示,主要由三大部分組成:電話通信終端:主要由養(yǎng)老金領(lǐng)取人使用,通過移動(dòng)/電話進(jìn)行遠(yuǎn)程非接觸式聲紋認(rèn)證;電腦操控終端:主要由社保管理機(jī)構(gòu)的工作人員使用,通過它可以查詢每期的聲紋認(rèn)證結(jié)果,維護(hù)用戶信息和聲紋數(shù)據(jù)庫,對(duì)于已經(jīng)不具備養(yǎng)老金發(fā)放資格的人員辦理停止發(fā)放手續(xù)等;聲紋認(rèn)證系統(tǒng):聲紋認(rèn)證是一個(gè)融合多種技術(shù)的服務(wù),它由一系列分工協(xié)作的服務(wù)子系統(tǒng)構(gòu)成,包括:電話語音交互應(yīng)答、聲紋自動(dòng)識(shí)別、應(yīng)用信息查詢和數(shù)據(jù)庫,另外還可選擇性地包括語音合成、語音識(shí)別等子系統(tǒng)。采用這種高科技手段來開展社保身份認(rèn)證與管理,只需要在社保機(jī)構(gòu)的總部安裝一臺(tái)帶有語音通信板卡硬件和軟件系統(tǒng)的工控機(jī)、服務(wù)器或者PC兼容機(jī),連接普通電話線或者ISDN數(shù)字專線即可工作,客戶端則僅需要一臺(tái)普通的固定電話或者移動(dòng)電話,使用操作簡(jiǎn)單,認(rèn)證準(zhǔn)確安全可靠。四語音增強(qiáng)語音增強(qiáng)是指當(dāng)語音信號(hào)被各種各樣的噪聲干擾、甚至淹沒后,從噪聲背景中提取有用的語音信號(hào),抑制、降低噪聲干擾的技術(shù)。一句話,從含噪語音中提取盡可能純凈的原始語音。語音增強(qiáng)是指語音質(zhì)量的改善或提高。因?yàn)閷?shí)際語音都是在有噪聲和干擾的情況下產(chǎn)生的,所以語音增強(qiáng)的目的就是去掉語音信號(hào)中的噪聲和干擾。語音增強(qiáng)技術(shù)有廣泛的應(yīng)用,如作為語音編碼和語音識(shí)別的預(yù)處理,消除語音中的混響,從錄音中恢復(fù)出高質(zhì)量的語音。語音增強(qiáng)的意義保證通信的正常進(jìn)行,需要語音增強(qiáng)。日常生活中,經(jīng)常會(huì)遇到在噪聲干擾下進(jìn)行語音通信的問題。例如在汽車、火車上使用移動(dòng)電話,馬路旁和市場(chǎng)里的公用電話等。軍事通信中,指揮員的作戰(zhàn)命令和戰(zhàn)斗員的戰(zhàn)情匯報(bào)都需要用語言來表達(dá),由于戰(zhàn)斗環(huán)境惡劣,特別是炸彈產(chǎn)生的沖擊性噪聲,使有用信號(hào)完全淹沒在噪聲中。幅度譜平方運(yùn)算的原因噪聲與語音信號(hào)不相關(guān)。利用功率譜的統(tǒng)計(jì)進(jìn)行有聲和無聲的檢測(cè)。含噪語音信號(hào)的短時(shí)功率譜統(tǒng)計(jì),對(duì)每一幀輸入信號(hào),通過與預(yù)先設(shè)定的一系列門限值比較來判斷該幀是信號(hào)幀還是噪聲幀。應(yīng)用于研究的語音數(shù)據(jù)大都在無噪環(huán)境下采集的。1)實(shí)際環(huán)境存在各種各樣的干擾噪聲,最常見的是背景噪聲,噪聲干擾下的語音,其特征參數(shù)發(fā)生了很大的扭曲,噪聲干擾下的語音識(shí)別率大大降低、合成語音質(zhì)量急劇惡化等。2)語音增強(qiáng)的目的:從帶噪語音中提取盡可能純凈的原始語音,從主觀度量上講,就是改善語音質(zhì)量、消除背景噪聲,從客觀度量講,即提高語音可懂度。3)針對(duì)不同的噪聲,采用不同的語音增強(qiáng)方法,因噪聲種類繁多,不可能有通用的語音增強(qiáng)方案。語音特性:1.是時(shí)變的、非平穩(wěn)、非遍歷的隨機(jī)過程,短時(shí)相對(duì)平穩(wěn);2.分濁音和清音,前者表現(xiàn)出周期性,在頻域有共振峰,能量大都集中在較低頻段內(nèi);后者類于白噪聲,無明顯的時(shí)域和頻域特性。可用統(tǒng)計(jì)分析特性描述。人耳感知特性目前,用于語音增強(qiáng)的語音感知方面的一些結(jié)論:1.幅度譜對(duì)感知起決定性影響,相位譜對(duì)不敏感;2.人耳對(duì)頻率高低的感受近似與該頻率的對(duì)數(shù)成正比;3.人耳有掩蔽效應(yīng),即強(qiáng)信號(hào)對(duì)弱信號(hào)起抑制作用。人耳有掩蔽效應(yīng):即指一個(gè)聲音的存在會(huì)影響對(duì)另一個(gè)較弱聲音的聽覺,另外,當(dāng)一個(gè)聲音突然停止時(shí),人耳約在150ms內(nèi)對(duì)其它弱音聽不清楚,甚至聽不見。因此提高語音的SNR,就可在語音與噪聲共存時(shí),感覺不到噪聲的存在。4.共振峰對(duì)語音感知非常重要,特別是第二共振峰比第一共振峰更為重要,因此對(duì)語音信號(hào)進(jìn)行一定的高通濾波不會(huì)對(duì)可懂度產(chǎn)生影響。5.人耳在多人的說話環(huán)境中,能分辨出所需聲音。濾波法語音增強(qiáng)技術(shù)陷波器法對(duì)于周期噪聲采用陷波器是比較簡(jiǎn)便和有效的方法,設(shè)計(jì)的陷波器的幅頻曲線的凹處對(duì)應(yīng)于周期噪聲的基頻和各次諧波,并使這些頻率處的限波寬度足夠窄。自適應(yīng)濾波器自適應(yīng)濾波器能有效地在未知環(huán)境中跟蹤時(shí)變的輸入信號(hào)。使輸出信號(hào)達(dá)到最優(yōu),所以可以用來構(gòu)成自適應(yīng)的噪聲消除器。標(biāo)準(zhǔn)純?cè)肼曉肼曁匦约有栽肼暃_激噪聲:例如打火、放電都會(huì)引起沖激噪聲。它的時(shí)域波形是類似于沖激函數(shù)的窄脈沖。消除沖激噪聲的方法通常有兩種:對(duì)帶噪語音信號(hào)的幅度求均值,將該均值作為閾值,超過該閾值則判斷為噪聲,在時(shí)域?yàn)V除;當(dāng)沖激脈沖不太密的時(shí)候,也可以通過內(nèi)插的方法避開或平滑掉沖激點(diǎn),從而在重建語音時(shí)去掉沖激噪聲。周期噪聲:例如發(fā)動(dòng)機(jī)產(chǎn)生的干擾、市電干擾都是周期性的干擾。在頻譜上表現(xiàn)為離散的窄譜,通常可以采用陷波器方法進(jìn)行消除。寬帶噪聲:例如說話時(shí)同時(shí)伴隨著呼吸引起的噪聲,隨機(jī)噪聲源產(chǎn)生的噪聲,以及量化噪聲等。應(yīng)用中常近似為高斯噪聲或白噪聲。噪聲頻譜遍布于語音信號(hào)頻譜中,消除比較困難,一般需要采用非線性處理方法,減譜法,Weiner濾波法。語音干擾:干擾語音信號(hào)和待傳語音信號(hào)同時(shí)在一個(gè)信道中傳輸所造成的干擾(如在通信中串話引起的)。區(qū)別它們的方法是利用基音差別??梢杂檬釥顬V波器提取基音和各次諧波,再恢復(fù)出有用的信號(hào)。2.非加性噪聲傳輸噪聲:傳輸系統(tǒng)的電路噪聲。與背景噪聲不同,它在時(shí)域中是語音和噪聲的卷積。處理這種噪聲可以用同態(tài)處理的方法,把非加性噪聲變換為加性噪聲來處理。來自環(huán)境的噪聲具有幀間相關(guān)性小,能量分布頻率范圍廣且數(shù)值較小,在語音信號(hào)主分量特征中對(duì)應(yīng)于貢獻(xiàn)率較小的分量的特點(diǎn)。因此可以利用復(fù)數(shù)幀段主分量特征提高抗噪性。復(fù)數(shù)幀段特征是采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為語音識(shí)別輸入特征量,由于噪聲成分具有幀間相關(guān)性小的特征,所以利用復(fù)數(shù)幀段特征量等于相應(yīng)的減弱了噪聲的影響。語音增強(qiáng)的原理和方法頻域語音增強(qiáng)技術(shù)頻域語音增強(qiáng)技術(shù)是語音信號(hào)中的一種重要技術(shù),由于其原理簡(jiǎn)單所以被廣泛使用,如手機(jī)中的降噪處理就是采用的此方法,其中譜相減法是頻域語音增強(qiáng)技術(shù)的常用方法。時(shí)域語音增強(qiáng)技術(shù)時(shí)頻語音增強(qiáng)技術(shù)麥克風(fēng)陣列語音降噪技術(shù)語音增強(qiáng)的意義保證通信的正常進(jìn)行,需要語音增強(qiáng)。1.日常生活中,經(jīng)常會(huì)遇到在噪聲干擾下進(jìn)行語音通信的問題。例如在汽車、火車上使用移動(dòng)電話,馬路旁和市場(chǎng)里的公用電話等。2.軍事通信中,指揮員的作戰(zhàn)命令和戰(zhàn)斗員的戰(zhàn)情匯報(bào)都需要用語言來表達(dá),由于戰(zhàn)斗環(huán)境惡劣,特別是炸彈產(chǎn)生的沖擊性噪聲,使有用信號(hào)完全淹沒在噪聲中。3.偵聽技術(shù)中需要語音增強(qiáng)4.語音識(shí)別技術(shù)需要語音增強(qiáng)在實(shí)際生活中,語音信號(hào)無時(shí)無地不受各種噪聲干擾。人們正常的生活環(huán)境就是一個(gè)聲級(jí)為60dB左右的噪聲環(huán)境。被強(qiáng)噪聲污染的場(chǎng)合,噪聲達(dá)120dB以上。減譜法語音增強(qiáng)技術(shù)減譜法是假定加性噪聲與短時(shí)平穩(wěn)的語音信號(hào)相互獨(dú)立的條件下,從帶噪語音的功率譜中減去噪聲功率譜,從而得到較為純凈的語音頻譜。減譜法假定語音信號(hào)短時(shí)平穩(wěn),所以需要對(duì)輸入語音加窗后處理。語音增強(qiáng)的一個(gè)主要目標(biāo)是從帶噪語音信號(hào)中提取盡可能純凈的原始語音。然而,由于干擾通常都是隨機(jī)的,從帶噪語音中提取完全純凈的語音幾乎不可能。在這種情況下,語音增強(qiáng)的目的主要有兩個(gè):一是改進(jìn)語音質(zhì)量,消除背景噪音,使聽者樂于接受
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度樹木砍伐與生態(tài)修復(fù)綜合承包協(xié)議書(二零二五年度)3篇
- 八年級(jí)上冊(cè)全程數(shù)學(xué)試卷
- 2025年度手混凝土罐車轉(zhuǎn)讓與道路運(yùn)輸安全評(píng)估合同3篇
- 安徽桐城八升九數(shù)學(xué)試卷
- 《保溫杯市場(chǎng)調(diào)查》課件
- 孟加拉語專業(yè)大學(xué)生職業(yè)生涯發(fā)展
- 民族學(xué)類專業(yè)就業(yè)能力展示
- 2024版校園施工安全責(zé)任合同書版B版
- 信息安全專業(yè)就業(yè)能力展示
- 學(xué)校家訪工作總結(jié)范文
- 中華人民共和國(guó)殘疾評(píng)定表
- 人教版美術(shù)五年級(jí)上冊(cè)《第2課 色彩的和諧》說課稿2
- 2024年6月浙江省高考?xì)v史試卷(真題+答案)
- 住友(SWS)汽車連接器(Connectors)產(chǎn)品配套手冊(cè)
- 辦公樓室內(nèi)裝飾工程施工設(shè)計(jì)方案技術(shù)標(biāo)范本
- 2023年香港華夏杯六年級(jí)競(jìng)賽初賽數(shù)學(xué)試卷
- 高中數(shù)學(xué)放縮法
- 上海市閔行區(qū)2024-2025學(xué)年八年級(jí)(上)期末物理試卷(解析版)
- 2024年國(guó)考行測(cè)真題-言語理解與表達(dá)真題及完整答案1套
- 人教版三年級(jí)上冊(cè)數(shù)學(xué)期末測(cè)試卷可打印
- 醫(yī)療高級(jí)職稱評(píng)審論文答辯
評(píng)論
0/150
提交評(píng)論