基于MATLAB的語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)畢業(yè)論文_第1頁(yè)
基于MATLAB的語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)畢業(yè)論文_第2頁(yè)
基于MATLAB的語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)畢業(yè)論文_第3頁(yè)
基于MATLAB的語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)畢業(yè)論文_第4頁(yè)
基于MATLAB的語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)畢業(yè)論文_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于matlab的語(yǔ)音信號(hào)的端點(diǎn)檢測(cè) 摘要:語(yǔ)音端點(diǎn)檢測(cè)是指從一段語(yǔ)音信號(hào)中準(zhǔn)確的找出語(yǔ)音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn),它的目的是為了使有效的語(yǔ)音信號(hào)和無(wú)用的噪聲信號(hào)得以分離,因此在語(yǔ)音識(shí)別、語(yǔ)音增強(qiáng)、語(yǔ)音編碼、回聲抵消等系統(tǒng)中得到廣泛應(yīng)用。目前端點(diǎn)檢測(cè)方法大體上可以分成兩類(lèi),一類(lèi)是基于閾值的方法,另一類(lèi)方法是基于模式識(shí)別的方法,本文主要對(duì)基于閥值的方法進(jìn)行研究。端點(diǎn)檢測(cè)在語(yǔ)音識(shí)別中占有十分重要的地位,直接影響著系統(tǒng)的性能。本文首先對(duì)語(yǔ)音信號(hào)進(jìn)行簡(jiǎn)單的時(shí)域和頻域分析及預(yù)處理,其次利用基于短時(shí)能量和短時(shí)過(guò)零率的雙門(mén)限算法進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),并對(duì)這幾種用這種算法進(jìn)行端點(diǎn)檢測(cè),進(jìn)行實(shí)驗(yàn)分析,分析此方法的優(yōu)缺點(diǎn)

2、。關(guān)鍵詞:語(yǔ)音信號(hào)處理;語(yǔ)音端點(diǎn)檢測(cè);雙門(mén)限;短時(shí)能量;短時(shí)過(guò)零率voice signal endpoint detection based on matlababstract:endpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and un-useful noise. so, in the sp

3、eech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used.in current the endpoint detection can be roughly divided into two categories, one is based on the threshold method, another method is based on the method of pattern recognition , the main

4、in this paper is based on the method of threshold method. the endpoint detection is take a very important position in the speech recognition, it directly affects the performance of the system. in this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum

5、 algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental analysis points and analysis the advantages and disadvantages of this method. key word:signal processing; voice activity detection; double threshold; short-time energy ;t

6、he rate of short-time zero-passing 1.緒論語(yǔ)音,即語(yǔ)言的聲音,是語(yǔ)言符號(hào)系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出,負(fù)載著一定的語(yǔ)言意義,語(yǔ)言依靠語(yǔ)音實(shí)現(xiàn)它的社會(huì)功能。語(yǔ)音是人們交流思想和進(jìn)行社會(huì)活動(dòng)的最基本手段,因此我們要對(duì)語(yǔ)音信號(hào)進(jìn)行處理分析,優(yōu)化人類(lèi)通信交流。語(yǔ)音信號(hào)處理包括語(yǔ)音通信、語(yǔ)音增強(qiáng)、語(yǔ)音合成、語(yǔ)音識(shí)別和說(shuō)話(huà)人識(shí)別等方面。語(yǔ)音信號(hào)的好壞、語(yǔ)音識(shí)別率的高低,都取決于語(yǔ)音信號(hào)處理的好壞。因此,語(yǔ)音信號(hào)處理是一項(xiàng)非常有意義的研究課程,而語(yǔ)音端點(diǎn)檢測(cè)是語(yǔ)音語(yǔ)音信號(hào)處理中非常重要的一步。語(yǔ)音端點(diǎn)檢測(cè)是語(yǔ)音分析、合成和識(shí)別中的一個(gè)重要環(huán)節(jié),目的是從包含語(yǔ)音的一段信

7、號(hào)中找出語(yǔ)音的起始點(diǎn)及結(jié)束點(diǎn),從而只存儲(chǔ)和處理有效語(yǔ)音信號(hào)。所謂語(yǔ)音端點(diǎn)檢測(cè),就是從一段給定的語(yǔ)音信號(hào)中找出語(yǔ)音的起始點(diǎn)和結(jié)束點(diǎn)。在語(yǔ)音識(shí)別系統(tǒng)中,正確、有效的進(jìn)行端點(diǎn)檢測(cè)不僅可以減少計(jì)算量和縮短處理時(shí)間,而且能排除無(wú)聲段的噪聲干擾、提高語(yǔ)音識(shí)別的正確率。研究表明1,即使是在安靜的環(huán)境下,語(yǔ)音識(shí)別系統(tǒng)一半以上的錯(cuò)誤可能主要來(lái)源于端點(diǎn)檢測(cè)。除此之外,在語(yǔ)音合成、編碼等系統(tǒng)中,高效的端點(diǎn)檢測(cè)也直接影響甚至決定著系統(tǒng)的主要性能。因此,端點(diǎn)檢測(cè)的效率、質(zhì)量在語(yǔ)音處理系統(tǒng)中顯得至關(guān)重要,廣泛開(kāi)展端點(diǎn)檢測(cè)實(shí)現(xiàn)手段方面的研究,有一定的現(xiàn)實(shí)意義2。有效的端點(diǎn)檢測(cè)不僅可以減少數(shù)據(jù)的存和處理時(shí)間,而且能排除無(wú)聲段

8、的噪聲干擾。端點(diǎn)檢測(cè)的困難在于無(wú)聲段或者語(yǔ)音段前后人為呼吸等產(chǎn)生的雜音、語(yǔ)音開(kāi)始處的弱摩擦音或弱爆破音以及終點(diǎn)處的鼻音,這些使得語(yǔ)音的端點(diǎn)比較模糊,需要綜合利用語(yǔ)音的各種信號(hào)特征,從而確保定位的精確性,避免包含噪音信號(hào)和丟失語(yǔ)音信號(hào)。近年來(lái)出現(xiàn)了很多種端點(diǎn)檢測(cè)的方法如短時(shí)能量、短時(shí)過(guò)零率、傳統(tǒng)的雙門(mén)限法、倒譜特征的檢測(cè)方法、譜熵的檢測(cè)方法法、分形法等。本文借助matlab3采用短時(shí)能量和短時(shí)過(guò)零率結(jié)合的雙門(mén)限法語(yǔ)來(lái)進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),此算法在純語(yǔ)音和高信噪比的情況下都檢測(cè)得比較好,但在低信噪比下檢測(cè)結(jié)果就不盡人意。盡管語(yǔ)音端點(diǎn)檢測(cè)技術(shù)在安靜的環(huán)境中已經(jīng)達(dá)到了令人鼓舞的準(zhǔn)確率,但是在實(shí)際應(yīng)用時(shí)由于

9、聲的引入和環(huán)境的改變通常會(huì)使系統(tǒng)性能顯著下降。研究表明,即使在安靜的環(huán)境中,語(yǔ)音識(shí)別系統(tǒng)一半以上的識(shí)別錯(cuò)誤來(lái)自端點(diǎn)檢測(cè)器。因此,作為語(yǔ)音識(shí)別系統(tǒng)的第一步,端點(diǎn)檢測(cè)的關(guān)鍵性不容忽視,尤其是噪聲環(huán)境下語(yǔ)音的端點(diǎn)檢測(cè),實(shí)驗(yàn)室的研究結(jié)果與復(fù)雜的實(shí)用環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)仍存在一定的差距,它的準(zhǔn)確性很大程度上直接影響著后續(xù)的工作能否有效進(jìn)行,如何準(zhǔn)確地檢測(cè)出帶噪語(yǔ)音的端點(diǎn)至今仍是一個(gè)難題。1.1 研究背景及意義語(yǔ)音4是語(yǔ)言的聲學(xué)表現(xiàn)形式,語(yǔ)言是人類(lèi)特有的功能,聲音是人類(lèi)常用的信息交語(yǔ)言學(xué)、聲學(xué)、生理學(xué)、心理學(xué)和數(shù)學(xué)等諸多領(lǐng)域的內(nèi)容。隨著現(xiàn)代科學(xué)的蓬勃發(fā)展,人類(lèi)社會(huì)越來(lái)越顯示出信息社會(huì)的特點(diǎn),猶如衣、食、住

10、、行對(duì)于人類(lèi)是必要的一樣,通信和信息交換也成為了人類(lèi)社會(huì)存在的必要條件,不但在人與人之間,而且在人與機(jī)器之間每時(shí)每刻都需要進(jìn)行大量的信息交換。讓計(jì)算機(jī)聽(tīng)懂人類(lèi)的語(yǔ)言,是人類(lèi)自計(jì)算機(jī)誕生以來(lái)夢(mèng)寐以求的想法。計(jì)算機(jī)越來(lái)越向便攜化方向發(fā)展,計(jì)算環(huán)境的日趨復(fù)雜化,人們?cè)絹?lái)越迫切要求擺脫鍵盤(pán)的束縛。在電子計(jì)算機(jī)和人工智能機(jī)器的廣泛應(yīng)用中,人們發(fā)現(xiàn),人和機(jī)器之間最好的通訊方式是直接進(jìn)行語(yǔ)言通訊,實(shí)現(xiàn)人機(jī)自由對(duì)話(huà),賦予機(jī)器以聽(tīng)覺(jué),辨別話(huà)音的內(nèi)容或者辨別說(shuō)話(huà)人的身份,使機(jī)器能夠按照人的意志進(jìn)行各種操作,把人類(lèi)從繁重或危險(xiǎn)的勞動(dòng)中解脫出來(lái)。用現(xiàn)代手段研究語(yǔ)音處理技術(shù),使人們能更加有效地產(chǎn)生、傳輸、存儲(chǔ)、獲取和應(yīng)

11、用語(yǔ)音信息,這對(duì)于促進(jìn)社會(huì)的發(fā)展十分重要。語(yǔ)音技術(shù)的應(yīng)用己經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的高新技術(shù)產(chǎn)業(yè),它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語(yǔ)音咨詢(xún)與管理,工業(yè)生產(chǎn)部門(mén)的語(yǔ)聲控制,電話(huà)、電信系統(tǒng)的自動(dòng)撥號(hào)、輔助控制與查詢(xún)以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實(shí)際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng)用程序的用戶(hù)界面。語(yǔ)音處理內(nèi)容涉及到計(jì)算機(jī)科學(xué)、模式識(shí)別、信號(hào)處理、生理學(xué)、語(yǔ)音學(xué)、心理學(xué)等學(xué)科,還涉及到信號(hào)和信息處理系統(tǒng)、通信和電子系統(tǒng)等具體應(yīng)用領(lǐng)域。多媒體技術(shù)的發(fā)展,使語(yǔ)音技術(shù)逐漸在越來(lái)越多的場(chǎng)合中推廣使用,語(yǔ)音信號(hào)處理技術(shù)發(fā)展迅速,其研究成果具有重要的學(xué)術(shù)及應(yīng)用價(jià)值,涉

12、及一系列前沿課題。語(yǔ)音信號(hào)處理與信息科學(xué)中最活躍的前沿科學(xué)密切聯(lián)系,并且共同發(fā)展。例如,神經(jīng)網(wǎng)絡(luò)理論、模糊集理論、小波理論是當(dāng)前熱門(mén)的研究領(lǐng)域,這些領(lǐng)域的研究常常把語(yǔ)音處理任務(wù)作為一個(gè)應(yīng)用實(shí)例,而語(yǔ)音處理研究者也從這些領(lǐng)域的研究進(jìn)展中找到突破口,使語(yǔ)音處理技術(shù)研究取得進(jìn)展5。從技術(shù)角度講,語(yǔ)音信號(hào)處理是信息高速公路、多媒體技術(shù)、辦公自動(dòng)化、現(xiàn)代通信及智能系統(tǒng)等新興領(lǐng)域應(yīng)用的核心技術(shù)之一。經(jīng)過(guò)幾十年的努力,語(yǔ)音信號(hào)處理在語(yǔ)音識(shí)別、語(yǔ)音增強(qiáng)、語(yǔ)音編碼、說(shuō)話(huà)人識(shí)別、說(shuō)話(huà)人情感識(shí)別、語(yǔ)音合成等方面取得了巨大的進(jìn)步,然而,一旦這些技術(shù)應(yīng)用在實(shí)際環(huán)境中,由于環(huán)境噪聲、信道、說(shuō)話(huà)人自身因素等方面的影響,性能

13、急劇下降,因?yàn)樵趯?shí)際環(huán)境中沒(méi)有完全純凈的語(yǔ)音信號(hào),一般都會(huì)伴有噪聲或其它干擾。例如,辦公室環(huán)境下,電腦風(fēng)扇轉(zhuǎn)動(dòng)的聲音,鍵盤(pán)敲打的聲音等都是噪聲,而語(yǔ)音信號(hào)處理系統(tǒng)的處理對(duì)象是有效語(yǔ)音信號(hào),即排除了純?cè)肼暥蔚恼Z(yǔ)音信號(hào)段。語(yǔ)音端點(diǎn)檢測(cè)6的任務(wù)就是判斷待處理信號(hào)是語(yǔ)音還是非語(yǔ)音,從輸入信號(hào)中找到語(yǔ)音部分的起止點(diǎn)。端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別、語(yǔ)音增強(qiáng)以及語(yǔ)音編碼等中的一個(gè)重要環(huán)節(jié)。有效的端點(diǎn)檢測(cè)技術(shù)不僅能減少系統(tǒng)的處理時(shí)間、提高系統(tǒng)的處理實(shí)時(shí)性,而且能排除無(wú)聲段的噪聲干擾,從而使后續(xù)工作的性能得以較大提高。語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確性對(duì)于語(yǔ)音識(shí)別系統(tǒng)的性能有著較大的影響。在一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)中,許多相關(guān)因素影響著

14、整個(gè)系統(tǒng)的識(shí)別精度和效率,由于在自然環(huán)境中,純凈的語(yǔ)音信號(hào)總伴隨著各種不同類(lèi)型的噪聲,而語(yǔ)音識(shí)別系統(tǒng)處理的對(duì)象是有效的語(yǔ)音信號(hào),因此,由于噪聲的干擾,往往使得整個(gè)系統(tǒng)的識(shí)別率下降,有學(xué)者用一個(gè)多話(huà)者的數(shù)字識(shí)別系統(tǒng)做了如下一個(gè)實(shí)驗(yàn)。首先對(duì)所有記錄的語(yǔ)音用手工找出準(zhǔn)確的端點(diǎn),得到它們的識(shí)別率;然后逐幀(幀長(zhǎng)為15ms)加大端點(diǎn)檢測(cè)的誤差,在每次加大誤差的同時(shí)得到它們的識(shí)別率。結(jié)果表明在端點(diǎn)檢測(cè)準(zhǔn)確時(shí)識(shí)別率為93%的系統(tǒng),當(dāng)端點(diǎn)檢測(cè)的誤差在士60ms(4幀)時(shí),識(shí)別率降低了3%;在士90ms(6幀)時(shí),降低了10%;而當(dāng)誤差在進(jìn)一步加大時(shí),識(shí)別率急劇下降。研究表明,即使在安靜環(huán)境下語(yǔ)音識(shí)別系統(tǒng)中一半

15、以上的識(shí)別錯(cuò)誤都是因?yàn)檎Z(yǔ)音端點(diǎn)檢測(cè)的不準(zhǔn)確所造成的。所以,對(duì)于語(yǔ)音識(shí)基于強(qiáng)背景噪聲下的語(yǔ)音端點(diǎn)檢測(cè)算法及實(shí)現(xiàn)別系統(tǒng)來(lái)說(shuō),有效的端點(diǎn)識(shí)別不僅能夠減輕系統(tǒng)的運(yùn)算負(fù)載,使得處理時(shí)間減少,提高了系統(tǒng)的實(shí)時(shí)性,而且能夠去除靜音時(shí)背景噪聲的干擾,從而大大提高系統(tǒng)的識(shí)別性能。因此,從混有不同噪聲的信號(hào)中準(zhǔn)確提取純凈的語(yǔ)音信號(hào)就成了語(yǔ)音識(shí)別系統(tǒng)中的一個(gè)重要的環(huán)節(jié)。另外在通信系統(tǒng)中,典型的會(huì)話(huà)信道大約有40%的時(shí)間真正用于傳輸語(yǔ)音,其余60%的時(shí)間傳輸?shù)亩际庆o默和背景噪聲。由于可利用的頻譜資源隨著移動(dòng)用戶(hù)的飛速發(fā)展而急劇下降。如何開(kāi)發(fā)其余60%被浪費(fèi)的信道資源就成為了提高系統(tǒng)容量的有效手段之一。如果在發(fā)送端設(shè)立

16、一個(gè)語(yǔ)音端點(diǎn)檢測(cè)器來(lái)區(qū)分語(yǔ)音和靜默以及背景噪聲,在接收端用舒適噪聲發(fā)生器來(lái)重構(gòu)背景噪聲,這樣就可以極大的提高信道的利用率,而且也能保證重構(gòu)語(yǔ)音的可懂度和自然度,因此準(zhǔn)確的語(yǔ)音端點(diǎn)檢測(cè)是非常重要的。1.2 語(yǔ)音端點(diǎn)檢測(cè)研究現(xiàn)狀及存在的問(wèn)題語(yǔ)音端點(diǎn)檢測(cè)和語(yǔ)音增強(qiáng)不同,它的任務(wù)是判斷待處理信號(hào)是語(yǔ)音還是非語(yǔ)音。語(yǔ)音端點(diǎn)檢測(cè)作為一種語(yǔ)音信號(hào)預(yù)處理技術(shù),在實(shí)際應(yīng)用中起著非常重要的作用,有效地進(jìn)行端點(diǎn)檢測(cè)不僅可以減少計(jì)算量和縮短處理時(shí)間,而且能排除無(wú)聲段的噪聲干擾、提高語(yǔ)音識(shí)別的正確率,因此它廣泛應(yīng)用于語(yǔ)音識(shí)別、語(yǔ)音增強(qiáng)、語(yǔ)音編碼、回聲抵消等系統(tǒng)中。而語(yǔ)音增強(qiáng)的目的是在語(yǔ)音和干擾中增強(qiáng)語(yǔ)音部分,同時(shí)抑制干

17、擾,對(duì)語(yǔ)音檢測(cè)的研究最早可以追溯到上個(gè)世紀(jì)的50年代。當(dāng)時(shí)是在一個(gè)實(shí)時(shí)語(yǔ)音翻譯系統(tǒng)中,為了解決語(yǔ)音段和無(wú)語(yǔ)音段的檢測(cè)問(wèn)題而提出來(lái)的。那時(shí)的算法名稱(chēng)叫vad(voice aotivity detection),指的是將語(yǔ)音段和無(wú)語(yǔ)音段分開(kāi)的處理過(guò)程。傳統(tǒng)的語(yǔ)音端點(diǎn)檢測(cè)算法都是針對(duì)實(shí)驗(yàn)室安靜環(huán)境,直到近年來(lái),噪聲環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)才開(kāi)始研究。開(kāi)發(fā)出了許多不同的算法,有基lpc倒譜距離的算法,自相關(guān)系數(shù),基于能量、基音檢測(cè)、過(guò)零率和頻能比等各種語(yǔ)音特征的算法,基于自適應(yīng)模型的算法,基于倒譜分析的算法等。各有不同的延時(shí)、敏感度和運(yùn)算量,這在實(shí)驗(yàn)室環(huán)境下己經(jīng)得到了很好的效果。但是當(dāng)環(huán)境背景噪聲存在的情

18、況下,傳統(tǒng)的檢測(cè)算法都會(huì)因?yàn)槭艿轿廴径斐蓢?yán)重的誤判和漏判。 一般來(lái)說(shuō),理想的語(yǔ)音端點(diǎn)檢測(cè)算法應(yīng)當(dāng)能夠滿(mǎn)足以下幾點(diǎn):(1)門(mén)限值應(yīng)該可以對(duì)背景噪聲的變化有一定的適應(yīng)性。(2)將短時(shí)沖擊噪聲和人的順嘴等瞬間超過(guò)門(mén)限的信號(hào)納入無(wú)聲段而不是有聲段。(3)對(duì)于爆破音的寂靜段,應(yīng)將其納入語(yǔ)音的范圍而不是無(wú)聲段。(4)應(yīng)該盡可能避免在檢測(cè)中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語(yǔ)音。(5)應(yīng)該避免使用過(guò)零率作為判決標(biāo)準(zhǔn)而帶來(lái)的負(fù)面影響。這幾點(diǎn)可以總結(jié)為:可靠性,魯棒性,精確性,自適應(yīng)性,實(shí)時(shí)性和對(duì)噪聲特征無(wú)需先驗(yàn)知識(shí)。在所有這些特征中,魯棒性是最難達(dá)到的。因此,如何在噪聲環(huán)境下設(shè)計(jì)一種魯棒的端

19、點(diǎn)檢測(cè)算法是一個(gè)非常棘手的問(wèn)題。傳統(tǒng)算法中大都根據(jù)語(yǔ)音信號(hào)的時(shí)域特征,如基于能量和短時(shí)過(guò)零率等,在較強(qiáng)噪聲環(huán)境下,人類(lèi)語(yǔ)言中的清音和摩擦音往往和背景噪聲混合在一起,無(wú)法準(zhǔn)確的分辨出語(yǔ)音和噪聲的端點(diǎn),容易發(fā)生漏檢和虛檢的情況。另外由于漢語(yǔ)詞語(yǔ)的特殊性,音節(jié)的末尾大都是濁音,只用短時(shí)能量就能較好地判斷一個(gè)詞語(yǔ)的末點(diǎn)。而音節(jié)的起點(diǎn)聲母大多都是清聲母,還有送氣與不送氣的塞音和塞差音,當(dāng)背景噪聲較大時(shí),清音電平與噪聲電平相差無(wú)幾,將它們與環(huán)境噪聲分辨是比較困難的,這也是雙門(mén)限法的不足之處。現(xiàn)有的算法存在的主要問(wèn)題有兩點(diǎn):一、在具有較強(qiáng)噪聲的環(huán)境下,語(yǔ)音端點(diǎn)檢測(cè)往往存在著大量的誤判,不利于后續(xù)的處理過(guò)程;

20、二、在高噪聲的環(huán)境下不能有效的檢測(cè)出語(yǔ)音信號(hào)段,造成了有效信息的丟失。以上兩個(gè)問(wèn)題也得到了廣大研究者的重視,進(jìn)幾年來(lái),研究者們經(jīng)過(guò)了不懈的努力,提出了各種區(qū)別語(yǔ)音和噪聲的特征參數(shù),用來(lái)提高算法的抗噪聲性能,或是將幾種特征組合成一個(gè)新的特征參數(shù)來(lái)進(jìn)行端點(diǎn)檢測(cè),而對(duì)語(yǔ)音端點(diǎn)的判決也由原來(lái)的單一門(mén)限發(fā)展到多門(mén)限以至于自適應(yīng)門(mén)限,使得算法精度不斷得到提高。1.3 本文主要研究?jī)?nèi)容由于語(yǔ)音端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別和語(yǔ)音增強(qiáng)等語(yǔ)音處理重要的一步,語(yǔ)音端點(diǎn)檢測(cè)的好壞直接影響到下一步工作的進(jìn)行,所以本課主題要研究語(yǔ)音起點(diǎn)和終點(diǎn)的檢測(cè),以短時(shí)能量和短時(shí)過(guò)零率相結(jié)合的雙門(mén)限語(yǔ)音端點(diǎn)檢測(cè)算法進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)。 2語(yǔ)音信號(hào)

21、處理2.1 語(yǔ)音信號(hào)特點(diǎn)語(yǔ)音信號(hào)是隨時(shí)間變化的一維信號(hào),由一連串的音組成,各個(gè)音的排列有一定的規(guī)則。語(yǔ)音具有聲學(xué)特征的物理性質(zhì),聲音質(zhì)量與它的頻率范圍有關(guān),語(yǔ)音信號(hào)的頻率一般是在200hz3500hz范圍內(nèi),隨著帶寬的增加,信號(hào)的自然度將逐步得到改善。語(yǔ)音信號(hào)本身的冗余度是較大的,少數(shù)輔音清晰度下降并不明顯影響語(yǔ)句的可懂度,比如通常的模擬電話(huà)帶寬只有3khz4khz。語(yǔ)音信號(hào)的特性是隨時(shí)間變化的,所以是一種典型的非穩(wěn)態(tài)信號(hào)。但是,從另一方面來(lái)看,由于語(yǔ)音的形成過(guò)程與發(fā)音器官的運(yùn)動(dòng)密切相關(guān),這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來(lái)講要緩慢得多,因此,語(yǔ)音信號(hào)常??杉俣槎虝r(shí)平穩(wěn)的。研究表明,在5ms-40

22、ms的范圍內(nèi),語(yǔ)音信號(hào)的頻譜特性和一些物理特征參數(shù)基本保持不變。這樣,我們就可以將平穩(wěn)過(guò)程的處理方法和理論引入到語(yǔ)音信號(hào)的短時(shí)處理中。因此,“短時(shí)分析技術(shù)”貫穿于語(yǔ)音分析的全過(guò)程。2.2 語(yǔ)音信號(hào)預(yù)處理為了消除因?yàn)槿祟?lèi)發(fā)聲器官本身和因一些采集語(yǔ)音信號(hào)的設(shè)備等所引起的混疊、高次諧波失真現(xiàn)象,在對(duì)語(yǔ)音信號(hào)進(jìn)行分析和處理之前,必須對(duì)其進(jìn)行預(yù)處理。語(yǔ)音信號(hào)的預(yù)處理應(yīng)盡可能地保證處理后得到的信號(hào)更均勻、平滑,且能提高語(yǔ)音的質(zhì)量。2.2.1預(yù)加重在進(jìn)行語(yǔ)音信號(hào)數(shù)字處理時(shí),為了獲取一段語(yǔ)音信號(hào)的時(shí)域波形,首先要將語(yǔ)音信號(hào)轉(zhuǎn)換成電信號(hào),再用a/d轉(zhuǎn)換器將其變換為離散的數(shù)字化采樣信號(hào)。己經(jīng)數(shù)字化的語(yǔ)音信號(hào)將依次

23、進(jìn)入一個(gè)數(shù)據(jù)區(qū)。由于語(yǔ)音信號(hào)的平均功率受聲門(mén)激勵(lì)和口鼻輻射影響,高頻端大約在800hz以上按6db/倍頻程跌落,即6db/oct(2倍頻)或20db/dec(10倍頻),所以求語(yǔ)音信號(hào)頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進(jìn)行預(yù)加重處理。目的是提升高頻部分,使信號(hào)變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,而且預(yù)加重零點(diǎn)與輻射零點(diǎn)將抵消聲門(mén)波的影響,使語(yǔ)音信號(hào)中只包含聲道部分,以便于頻譜分析或聲道參數(shù)分析。圖2.1表明了語(yǔ)音預(yù)處理的過(guò)程采樣量化預(yù)加重加窗分幀算法處理語(yǔ)音圖2.1 語(yǔ)音信號(hào)的預(yù)處理預(yù)加重一般是在語(yǔ)音信號(hào)數(shù)字化之后,用具

24、有6db/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器來(lái)實(shí)現(xiàn),它一般是一階的數(shù)字濾波器: (2-1)式中的取值接近于1。有時(shí)要恢復(fù)原信號(hào),需要從做過(guò)預(yù)加重的信號(hào)頻譜來(lái)求實(shí)際的頻譜時(shí),要對(duì)測(cè)量值進(jìn)行去加重處理,即加上6db/倍頻程的下降的頻率特性來(lái)還原成原來(lái)的特性。2.2.2加窗分幀語(yǔ)音端點(diǎn)檢測(cè)首先要進(jìn)行分幀處理,然后依次判斷每一幀是否為語(yǔ)音的端點(diǎn)。在端點(diǎn)檢測(cè)時(shí)如果采用較大的窗長(zhǎng),則幀長(zhǎng)長(zhǎng),幀數(shù)少,這樣計(jì)算量會(huì)小些,而且進(jìn)行端點(diǎn)檢測(cè)時(shí)速度也會(huì)快些,但是這樣端點(diǎn)檢測(cè)的誤差容易增加。如果采用較小的窗長(zhǎng),則計(jì)算量增加,語(yǔ)音識(shí)別的速度會(huì)降低。我們可以在語(yǔ)音靜音段時(shí),采用較長(zhǎng)的窗 ;在語(yǔ)音和靜音的過(guò)渡段時(shí)采用較

25、小的窗 ,可以確切判斷語(yǔ)音的起始點(diǎn) ;一旦確定語(yǔ)音的起點(diǎn),就改用常規(guī)窗長(zhǎng)。在進(jìn)行了預(yù)加重后,接下來(lái)就要對(duì)語(yǔ)音信號(hào)進(jìn)行加窗分幀處理。將語(yǔ)音信號(hào)劃分為許多短時(shí)的語(yǔ)音段,每個(gè)短時(shí)的語(yǔ)音段稱(chēng)為一個(gè)分析幀。幀和幀之間既可以連續(xù),也可以重疊。另外,由于不同語(yǔ)音信號(hào)的基音周期不同,在女性?xún)和?ms到老年男子的14ms之間變化,為了兼顧男聲和女聲的最高和最低基音頻率,且能準(zhǔn)確地描述語(yǔ)音能量自身的實(shí)際變化規(guī)律,通常將窗寬選為10ms20ms。圖2.2 幀長(zhǎng)和幀移如圖2.2所示分幀一般采用交疊分段的方法,這是為了使幀與幀之間能平滑過(guò)渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱(chēng)為幀移,幀移與幀長(zhǎng)的比值一般取為00

26、.5之間。分幀是用可移動(dòng)的有限窗口長(zhǎng)度進(jìn)行加權(quán)實(shí)現(xiàn)的,即用窗函數(shù)7乘以語(yǔ)音信號(hào)s(n),從而形成加窗的語(yǔ)音信號(hào): (2-2)由于窗函數(shù)一般取為s(n)中間大兩頭小的光滑函數(shù),這樣的沖激響應(yīng)所對(duì)應(yīng)的濾波器具有低通特性,其帶寬和頻率取決于窗函數(shù)的選取。用得最多的三種窗函數(shù)是矩形窗、漢明窗(hamming)和漢寧窗(hanning),它們的定義如下:矩形窗: (2-3)漢明窗: (2-4)漢寧窗: (2-5)式中n為窗長(zhǎng),窗函數(shù)的選取(形狀和長(zhǎng)度)對(duì)于短時(shí)分析參數(shù)的特性影響很大,為此應(yīng)該選擇合適的窗口,使其短時(shí)參數(shù)能更好地反映語(yǔ)音信號(hào)的特性變化。以上這些窗函數(shù)的幅度頻率響應(yīng)都具有低通特性,它們的主瓣

27、寬度和旁瓣高度如表2-1所示。表2-1 1s長(zhǎng)的各種窗的主瓣寬度和旁瓣高度矩形漢明漢寧主瓣寬度0.81hz1.19hz1.87hz旁瓣寬度-13db-43db-32db從表中可知:矩形窗的主瓣寬度最小,但其旁瓣高度最高;漢明窗的主瓣最寬,而旁瓣高度最低。矩形窗的旁瓣太高,會(huì)產(chǎn)生嚴(yán)重的泄漏現(xiàn)象(gibbs),所以只有在某些特殊場(chǎng)合中采用。漢明窗旁瓣最低,可以有效地克服泄漏現(xiàn)象,具有更平滑的低通特性,因此,一般在語(yǔ)音信號(hào)預(yù)處理中,都選用漢明窗來(lái)進(jìn)行語(yǔ)音分幀處理。2.3 語(yǔ)音信號(hào)分析語(yǔ)音信號(hào)處理包括語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音編碼、說(shuō)話(huà)人識(shí)別等方面,但是其前提和基礎(chǔ)是對(duì)語(yǔ)音信號(hào)進(jìn)行分析。只有將語(yǔ)音信號(hào)分

28、析成表示其本質(zhì)特性的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語(yǔ)音通信,以及建立用于識(shí)別的模板或知識(shí)庫(kù)。而且,語(yǔ)音識(shí)別率的高低,語(yǔ)音合成的音質(zhì)好壞,都取決于對(duì)語(yǔ)音信號(hào)分析的準(zhǔn)確性和精度。2.3.1短時(shí)時(shí)域分析語(yǔ)音信號(hào)本身就是時(shí)域信號(hào),因此,時(shí)域分析方法是應(yīng)用最為廣泛的一種方法,這種方法直接利用語(yǔ)音信號(hào)的時(shí)域波形。時(shí)域分析通常用于最基本的參數(shù)分析以及用于語(yǔ)音的分割、預(yù)處理等。語(yǔ)音信號(hào)的時(shí)域參數(shù)有短時(shí)能量、短時(shí)平均幅度、短時(shí)過(guò)零率、短時(shí)自相關(guān)函數(shù)等,這些是語(yǔ)音信號(hào)中一組最基本的短時(shí)參數(shù),在各種語(yǔ)音信號(hào)數(shù)字處理技術(shù)中都有重要應(yīng)用。進(jìn)行語(yǔ)音信號(hào)分析時(shí),最先接觸到且最直觀的就是它的時(shí)域波形。時(shí)域分析通常用于最

29、基本的參數(shù)分析,語(yǔ)音的分割、預(yù)處理和大分類(lèi)。這種分析方法的特點(diǎn)是(1)表示語(yǔ)音信號(hào)比較直觀、物理意義明確;(2)實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單、運(yùn)算量少;(3)可得到語(yǔ)音的一些重要參數(shù);(4)可采用示波器等通用設(shè)備進(jìn)行觀測(cè)。取樣之后要對(duì)信號(hào)進(jìn)行量化,而量化過(guò)程不可避免地會(huì)產(chǎn)生量化誤差,即量化后的信號(hào)值與原信號(hào)之間的差值。2.3.2頻域分析語(yǔ)音信號(hào)頻域分析,主要是對(duì)一些頻域的參數(shù)進(jìn)行分析,常用的一些頻域參數(shù)有頻譜、功率譜、倒譜等等,最常用的頻域分析方法有傅立葉變換法、線(xiàn)性預(yù)測(cè)法等。1、傅立葉變換法8傅里葉頻譜變換是語(yǔ)音信號(hào)頻域分析中廣泛使用的方法,是分析線(xiàn)性系統(tǒng)和平穩(wěn)信號(hào)穩(wěn)態(tài)特性強(qiáng)有力的手段,對(duì)分幀加窗后的語(yǔ)

30、音信號(hào),進(jìn)行傅里葉變換和逆傅里葉變換,可以相應(yīng)的得到頻譜,功率譜,倒譜距離,嫡等特征。由于語(yǔ)音信號(hào)的特性是隨著時(shí)間緩慢變化,所以采用短時(shí)傅里葉變換,相應(yīng)的求得特征為短時(shí)頻域特征,這里的窗函數(shù)都使用漢明窗。(1)短時(shí)頻譜和短時(shí)功率譜設(shè)信號(hào)經(jīng)過(guò)傅里葉變換后在頻域記為,則與的關(guān)系見(jiàn)公式2-6。 (2-6)語(yǔ)音的頻譜為的幅度,則有 (2-7)語(yǔ)音的短時(shí)功率譜的是幅度的平方,所以短時(shí)功率譜的計(jì)算方法為 (2-8)2、線(xiàn)性預(yù)測(cè)法線(xiàn)性預(yù)測(cè)分析的基本思想是:由于語(yǔ)音樣點(diǎn)之間存在相關(guān)性,所以可以用過(guò)去的樣點(diǎn)值來(lái)預(yù)測(cè)現(xiàn)在或未來(lái)的樣點(diǎn)值,即一個(gè)語(yǔ)音的抽樣能夠用過(guò)去若干個(gè)語(yǔ)音抽樣或它們的線(xiàn)性組合來(lái)逼近。通過(guò)使實(shí)際語(yǔ)音

31、抽樣和線(xiàn)性預(yù)測(cè)抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值來(lái)決定唯一的一組預(yù)測(cè)系數(shù)。而這組預(yù)測(cè)系數(shù)就反映了語(yǔ)音信號(hào)的特征,可以作為語(yǔ)音信號(hào)特征參數(shù)用與語(yǔ)音識(shí)別、語(yǔ)音合成等。將線(xiàn)性預(yù)測(cè)應(yīng)用與語(yǔ)音信號(hào)處理,不僅是因?yàn)樗念A(yù)測(cè)功能,而且更重要的是因?yàn)樗芴峁┮粋€(gè)非常好的聲道模型及模型參數(shù)估計(jì)方法。線(xiàn)性預(yù)測(cè)的基本原理和語(yǔ)音信號(hào)數(shù)字模型密切相關(guān)。3語(yǔ)音端點(diǎn)檢測(cè)算法原理及實(shí)驗(yàn)仿真分析3.1 語(yǔ)音端點(diǎn)檢測(cè)算法原理端點(diǎn)檢測(cè)最早的應(yīng)用是在貝爾實(shí)驗(yàn)室開(kāi)發(fā)的電話(huà)傳輸和轉(zhuǎn)換系統(tǒng)中,用于通信信道的時(shí)間分配,通過(guò)語(yǔ)音檢測(cè)實(shí)現(xiàn)在空閑的信道中插入其他人的話(huà)音信息。從那以后,各種各樣的語(yǔ)音端點(diǎn)檢測(cè)算法在許多語(yǔ)音指令識(shí)別、自動(dòng)語(yǔ)音識(shí)別、

32、說(shuō)話(huà)人認(rèn)證、遠(yuǎn)程通訊和語(yǔ)音編碼等方面被提出來(lái)。通常不同的系統(tǒng)需要不同的算法以滿(mǎn)足在精度、復(fù)雜度、魯棒性、敏感性和響應(yīng)時(shí)間等方面的需求。這些方法包括基于能量、過(guò)零率、頻譜分析、倒譜分析等算法。本文采用基于短時(shí)能量和短時(shí)過(guò)零率結(jié)合的雙門(mén)限法,該方法根據(jù)語(yǔ)音信號(hào)和噪聲信號(hào)的不同特征,提取每一段語(yǔ)音信號(hào)的特征,然后把這些特征值與設(shè)定的閾值進(jìn)行比較,從而達(dá)到語(yǔ)音端點(diǎn)檢測(cè)的目的。1、基于特征的語(yǔ)音端點(diǎn)檢測(cè)的算法步驟大致如下 :(1)預(yù)處理:包括濾波,預(yù)加重,分幀,加窗等,這里要考慮濾波器參數(shù)的選擇,分幀時(shí)幀長(zhǎng)長(zhǎng)度的選擇,加窗窗函數(shù)的選擇。(2)特征提取:在時(shí)域或者頻域提取能反映語(yǔ)音本質(zhì)特征的聲學(xué)參數(shù),如短

33、時(shí)能量,短時(shí)過(guò)零率等。特征提取目的是將輸入信號(hào)轉(zhuǎn)化為特征參數(shù),然后利用特征參數(shù)進(jìn)行語(yǔ)音段與無(wú)聲段的區(qū)分。特征提取是語(yǔ)音端點(diǎn)檢測(cè)的關(guān)鍵問(wèn)題,特征參數(shù)選擇的好壞直接影響到語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率的高低。(3)確定門(mén)限:語(yǔ)音段最開(kāi)始的幾幀一般為無(wú)聲段,根據(jù)無(wú)聲段的特征值大小確定門(mén)限值,一般選擇較大和較小兩個(gè)門(mén)限值tmax和tmin,且tmintmin過(guò)渡段,記錄起點(diǎn) c加15幀內(nèi)有一幀tmax語(yǔ)音段s+dtmaxc加1dminc記錄終點(diǎn)返回y回n回n回y回y回n回yy回n回n回圖3.1 語(yǔ)音端點(diǎn)檢測(cè)流程圖3.2 基于短時(shí)能量和短時(shí)過(guò)零率的語(yǔ)音端點(diǎn)檢測(cè)語(yǔ)音和噪聲的區(qū)別可以體現(xiàn)在它們的能量上,對(duì)于一列疊加有

34、噪聲干擾的語(yǔ)音信號(hào)而言,其語(yǔ)音段的能量是噪聲段能量疊加語(yǔ)音聲波能量之和。因此,語(yǔ)音段能量要大于噪聲段的能量。如果環(huán)境噪聲和系統(tǒng)輸入噪聲比較小,以致于能夠保證系統(tǒng)的輸入信噪比很高時(shí)(即使最低電平語(yǔ)音的能量也比噪聲能量要高),那么只需要計(jì)算輸入信號(hào)的短時(shí)平均能量或短時(shí)平均幅度就能夠把語(yǔ)音段和背景噪聲區(qū)分開(kāi)來(lái)。如圖3.2就是在比較純凈的內(nèi)容為“端點(diǎn)檢測(cè)” 的原始語(yǔ)音信號(hào)用傳統(tǒng)的短時(shí)能量和過(guò)零率的語(yǔ)音端點(diǎn)檢測(cè),圖中可以很直觀的觀察到語(yǔ)音的短時(shí)能量的大小和其過(guò)零率的高低,如圖3.2所示:圖3.2 語(yǔ)音信號(hào)原始波形圖和其短時(shí)能量和過(guò)零率波形圖短時(shí)能量函數(shù)可用來(lái)區(qū)分清音段和濁音段,值大的對(duì)應(yīng)于濁音段,而值小

35、的對(duì)應(yīng)于清音段。如當(dāng)語(yǔ)音段的開(kāi)始和結(jié)束都是弱摩擦音、爆破音或語(yǔ)音段末尾是鼻音時(shí),這些音的短時(shí)能量一般很小,往往與背景噪聲處于相同的電平。在這些情況下,只依靠短時(shí)能量來(lái)檢測(cè)語(yǔ)音段的起止點(diǎn)常常會(huì)把語(yǔ)音信號(hào)起始和末尾的這些音素漏掉。而采用短時(shí)能量和短時(shí)過(guò)零率相結(jié)合可以很好的克服檢測(cè)時(shí)可能漏掉的起始和末尾這些音素,從而更好的檢測(cè)出語(yǔ)音的端點(diǎn)。3.2.1短時(shí)平均能量語(yǔ)音和噪聲的主要區(qū)別在它們的能量上,所以能量是經(jīng)常使用的音頻特征參數(shù),是對(duì)語(yǔ)音信號(hào)最直觀的表示。語(yǔ)音信號(hào)一般可分為無(wú)聲段(靜音段)、清音段和濁音段。由于語(yǔ)音是不穩(wěn)定的,所以我們采用“短時(shí)能量”。所謂短時(shí)能量9 10,就是先對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處

36、理,然后對(duì)每一幀分別求其能量。短時(shí)能量是隨機(jī)參數(shù),在無(wú)聲段,清音段和濁音段,它們分別具有不同的概率密度函數(shù),圖3.3給出了短時(shí)能量在清音、無(wú)聲和濁音三種情況下的條件概率密度函數(shù)。圖3.3 短時(shí)能量在清音無(wú)聲和濁音三種情況下條件概率密度函數(shù)示意圖從圖3.3中可以看出,在三種情況中,濁音的短時(shí)能量最大,清音的短時(shí)能量次之,無(wú)聲的短時(shí)能量最小。 n時(shí)刻某語(yǔ)音信號(hào)x(n)的短時(shí)平均能量定義為: (3-1)式中,為漢明窗。令,則有: (3-2)式中,為可移動(dòng)的有限長(zhǎng)度的窗函數(shù),用來(lái)實(shí)現(xiàn)分幀處理,是低通濾波器的單位沖激響應(yīng)。上式表明,經(jīng)過(guò)窗口加權(quán)的短時(shí)能量相當(dāng)于將“語(yǔ)音平方”信號(hào)通過(guò)一個(gè)線(xiàn)性濾波器的輸出,

37、這個(gè)濾波器的取樣響應(yīng)為。短時(shí)能量函數(shù)可用來(lái)區(qū)分清音段和濁音段。值大的對(duì)應(yīng)于濁音段,而值小的對(duì)應(yīng)于清音段。對(duì)于高信噪比的語(yǔ)音信號(hào),無(wú)語(yǔ)音信號(hào)的噪聲能量很小,而語(yǔ)音信號(hào)的能量顯著增大到某一數(shù)值,由此可以區(qū)分語(yǔ)音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)。語(yǔ)音信號(hào)的短時(shí)平均幅度11定義為: (3-3)和都反映語(yǔ)音信號(hào)的強(qiáng)度,但是其特性有所不同。在實(shí)際應(yīng)用中往往很難保證有很高的信噪比,而且在某些特殊情況下,如當(dāng)語(yǔ)音段的開(kāi)始和結(jié)束都是弱摩擦音、爆破音或語(yǔ)音段末尾是鼻音時(shí),這些音的短時(shí)能量一般很小,往往與背景噪聲處于相同的電平。在這些情況下,只依靠短時(shí)能量或短時(shí)平均幅度來(lái)檢測(cè)語(yǔ)音段的起止點(diǎn)常常會(huì)把語(yǔ)音信號(hào)起始和末尾的這些音素漏

38、掉。因此,rbainezr提出了在短時(shí)能量的基礎(chǔ)上結(jié)合短時(shí)平均過(guò)零率的雙門(mén)限端點(diǎn)檢測(cè)算法。語(yǔ)音信號(hào)的短時(shí)能量可用以下幾種算法得到: (3-4) (3-5) (3-6)它們分別為絕對(duì)值的累加、平方累加和平方的對(duì)數(shù)的累加12 13,本文采用的是絕對(duì)值的累加進(jìn)行計(jì)算的,本文在matlab軟件中實(shí)現(xiàn)求語(yǔ)音短時(shí)能量的關(guān)鍵代碼為%計(jì)算短時(shí)能量amp = sum(abs(enframe(filter(1 -0.9375, 1, x), framelen, frameinc), 2);通過(guò)matlab仿真得出其短時(shí)能量值幅度如圖3.4所示:圖3.4 短時(shí)能量波形圖從圖中可以看出“端點(diǎn)檢測(cè)”語(yǔ)音信號(hào)中語(yǔ)音部分的

39、能量是最高的,而語(yǔ)音部分又分成靜音段、清音段、濁音段。短時(shí)能量函數(shù)可用來(lái)區(qū)分清音段和濁音段。值大的對(duì)應(yīng)于濁音段,而值小的對(duì)應(yīng)于清音段。對(duì)于高信噪比的語(yǔ)音信號(hào),無(wú)語(yǔ)音信號(hào)的噪聲能量很小,而有語(yǔ)音信號(hào)的能量顯著增大到某一數(shù)值,由此可以區(qū)分語(yǔ)音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)。3.2.2短時(shí)過(guò)零率短時(shí)過(guò)零率表示一幀語(yǔ)音信號(hào)波形穿過(guò)橫軸(零電平)的次數(shù)14。過(guò)零分析是語(yǔ)音時(shí)域分析中最簡(jiǎn)單的一種。對(duì)于連續(xù)語(yǔ)音信號(hào),過(guò)零即意味著時(shí)域波形通過(guò)時(shí)間軸;而對(duì)于離散信號(hào),如果相鄰的取樣值改變符號(hào)則稱(chēng)為過(guò)零。過(guò)零率就是樣本改變符號(hào)的次數(shù)。定義語(yǔ)音信號(hào)的短時(shí)過(guò)零率為: (3-7)其中,sgn為符號(hào)函數(shù),即: (3-8)過(guò)零率有三

40、類(lèi)重要應(yīng)用:第一,用于粗略地描述信號(hào)的頻譜特性,就是用多帶濾波器將信號(hào)分為若干個(gè)通道,對(duì)各通道進(jìn)行短時(shí)平均過(guò)零率和短時(shí)能量的計(jì)算,即可粗略地估計(jì)頻譜特性。第二,用于判別清音和濁音、有話(huà)和無(wú)話(huà)。第三,區(qū)分清音和濁音,對(duì)語(yǔ)音信號(hào)進(jìn)行分析,發(fā)現(xiàn)發(fā)濁音時(shí),盡管聲道有若干個(gè)共振峰,但由于聲門(mén)波引起譜的高頻跌落,所以其語(yǔ)音能量約集中在3khz以下。而發(fā)清音時(shí),多數(shù)能量出現(xiàn)在較高頻率上。高頻就意味著高的平均過(guò)零率,低頻就意味著低的平均過(guò)零率,所以可以認(rèn)為濁音時(shí)具有較低的過(guò)零率,而清音時(shí)具有較高的過(guò)零率。當(dāng)然,這種高低僅是相對(duì)而言的,并沒(méi)有精確的數(shù)值關(guān)系。本文在matlab軟件中實(shí)現(xiàn)求語(yǔ)音短時(shí)過(guò)零率的關(guān)鍵代碼

41、為.%計(jì)算過(guò)零率tmp1=enframe(x(l:length(x)-l),framelen,framelne);tmp2=enframe(x(2:length(x),framelen,framelne);signs=(tmp1.*tmp2)0.02;zcr=sum(signs.*diffs,2);和短時(shí)能量一樣,短時(shí)過(guò)零率也是隨機(jī)參數(shù),對(duì)應(yīng)于無(wú)聲段、清音段以及濁音段,它們分別具有的短時(shí)過(guò)零率概率函數(shù)如圖3.5所示。圖3.5 短時(shí)過(guò)零率在清音無(wú)聲和濁音三種情況下條件概率密度函數(shù)示意圖對(duì)于短時(shí)過(guò)零率,由于清音的多數(shù)能量出現(xiàn)在較高的頻率上,因此清音的過(guò)零率較高,而濁音語(yǔ)音具有高頻跌落的頻譜,所以濁

42、音的過(guò)零率低,噪聲的過(guò)零率大小處于清音和濁音之間。短時(shí)過(guò)零率可以區(qū)別語(yǔ)音是清音還是濁音,它還可以從背景噪聲中找出語(yǔ)音信號(hào),如下圖3.6所示:圖3.6 語(yǔ)音信號(hào)短時(shí)過(guò)零率波形圖從圖3.6中可以看出“端點(diǎn)檢測(cè)”語(yǔ)音信號(hào)的過(guò)零率,在語(yǔ)音信號(hào)中清音段的過(guò)零率情況,圖中幅度變化反映了過(guò)零率次數(shù)的高低。另外,利用短時(shí)過(guò)零率還可以從背景噪聲中找出語(yǔ)音信號(hào),判斷寂靜無(wú)聲段和有聲段的起點(diǎn)和終點(diǎn)的位置。在背景噪聲較小時(shí)用短時(shí)平均能量識(shí)別較為有效,而在背景噪聲較大時(shí)用短時(shí)平均過(guò)零率識(shí)別較為有效。基于短時(shí)能量和短時(shí)過(guò)零率的雙門(mén)限語(yǔ)音端點(diǎn)檢測(cè)方法充分利用能量和過(guò)零率的優(yōu)點(diǎn),使用過(guò)零率檢測(cè)清音,用短時(shí)能量檢測(cè)濁音,兩者配

43、合來(lái)進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)。這種方法在高信噪比時(shí),能有效的檢測(cè)出語(yǔ)音信號(hào)的端點(diǎn),但是隨著信噪比的下降,檢測(cè)的準(zhǔn)確率下降,特別是在噪聲很大時(shí),完全不能檢測(cè)出語(yǔ)音端點(diǎn)。3.2.3基于短時(shí)能量和短時(shí)過(guò)零率的雙門(mén)限端點(diǎn)檢測(cè)原理雙門(mén)限法是利用短時(shí)能量和過(guò)零率的乘積進(jìn)行檢測(cè)的。在基于短時(shí)能量和過(guò)零率的雙門(mén)限端點(diǎn)檢測(cè)算法中首先為短時(shí)能量和過(guò)零率分別確定兩個(gè)門(mén)限,一個(gè)為較低的門(mén)限,對(duì)信號(hào)的變化比較敏感,另一個(gè)是較高的門(mén)限。當(dāng)?shù)烷T(mén)限被超過(guò)時(shí),很有可能是由于很小的噪聲所引起的,未必是語(yǔ)音的開(kāi)始,當(dāng)高門(mén)限被超過(guò)并且在接下來(lái)的時(shí)間段內(nèi)一直超過(guò)低門(mén)限時(shí),則意味著語(yǔ)音信號(hào)的開(kāi)始。本文采用短時(shí)能量和短時(shí)過(guò)零率相結(jié)合的方法, 利用

44、短時(shí)能量和短時(shí)過(guò)零率兩個(gè)門(mén)限來(lái)確定語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn), 目的是從采集到的語(yǔ)音信號(hào)中分離出真正的語(yǔ)音信號(hào)作為系統(tǒng)處理的對(duì)象。該算法的原理簡(jiǎn)述如下:對(duì)上述兩種特征作一個(gè)統(tǒng)計(jì)估計(jì),得到兩個(gè)門(mén)限值,利用短時(shí)能量檢測(cè)濁音,短時(shí)過(guò)零率檢測(cè)清音,兩者配合從而確定語(yǔ)音的端點(diǎn)。由于采集的聲音信號(hào)中最初的短時(shí)段多為無(wú)聲或背景噪聲,這樣就可以利用已知為“靜態(tài)”的最初幾幀(一般取10幀)信號(hào)計(jì)算其過(guò)零率閥值z(mì)cr及高、低能量閥值amp2(低能量閥)和amp1 (高能量閥)。過(guò)零率公式 15: (3-9)計(jì)算amp2和amp1時(shí),首先計(jì)算最初10幀信號(hào)中每幀的短時(shí)平均能量或平均幅度,最大值記為max,最小值記為min

45、。本文在計(jì)算短時(shí)能量之前,先經(jīng)過(guò)一個(gè)濾波器,高通濾波器,此為預(yù)加重濾波器,目的在于濾除低頻干擾 ,尤其是50hz或60hz的工頻干擾,將對(duì)于語(yǔ)言識(shí)別更為有用的高頻部分的頻率進(jìn)行提升,在計(jì)算短時(shí)能量之前應(yīng)用該濾波器,還可以起到消除直流漂移、抑制隨機(jī)噪聲和提升清音部分能量的效果。其關(guān)鍵代碼為amp=sum(abs(enframe(filter(1-0.98,1,x),framelen,frameinc),2)。文中能量門(mén)限調(diào)整代碼為: amp1=min(amp1,max(amp)/4); amp2=min(amp2,max(amp)/8);根據(jù)語(yǔ)音信號(hào)的實(shí)際情況對(duì)門(mén)限值進(jìn)行調(diào)整,以便更好的對(duì)語(yǔ)音端

46、點(diǎn)進(jìn)行檢測(cè)。其端點(diǎn)檢測(cè)的流程如下所述:開(kāi)始進(jìn)行端點(diǎn)檢測(cè)之前,首先為短時(shí)能量和過(guò)過(guò)零率分別確定兩個(gè)門(mén)限amp1、amp2、zcr1、zcr2, 其中amp2、zcr2分別為短時(shí)能量和過(guò)零率比較低的門(mén)限,其數(shù)值比較小,對(duì)信號(hào)的變化比較敏感,很容易就會(huì)超過(guò)。另外amp1、zcr1是比較高的門(mén)限,數(shù)值比較大,信號(hào)必須達(dá)到一定的強(qiáng)度,該門(mén)限才可能被超過(guò)。低門(mén)限被超過(guò)未必就是語(yǔ)音信號(hào)的開(kāi)始,有可能是時(shí)間很短的噪聲引起的。高門(mén)限被超過(guò)則可以基本確信是由于語(yǔ)音信號(hào)引起的。整個(gè)語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)可以分為四段:靜音、過(guò)度段、語(yǔ)音段、結(jié)束。程序中使用一個(gè)變量status來(lái)表示當(dāng)前所處的狀態(tài)。在靜音段,如果能量或過(guò)零

47、率超越了低門(mén)限,就應(yīng)該開(kāi)始標(biāo)記起始點(diǎn),進(jìn)入過(guò)渡段。在過(guò)渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語(yǔ)音段,因此只要個(gè)參數(shù)的數(shù)值都回落到低門(mén)限以下,就可以確信進(jìn)入語(yǔ)音段落。而如果在過(guò)渡段中兩個(gè)參數(shù)中的任一個(gè)超過(guò)了高門(mén)限,就可以確信進(jìn)入語(yǔ)音段了。一些突發(fā)性的噪聲也可以引起短時(shí)能量或過(guò)零率的數(shù)值很高,但是往往不能維持足夠的長(zhǎng)的時(shí)間,如門(mén)窗的開(kāi)關(guān)、物體的碰撞等引起的噪聲。這些都可以通過(guò)設(shè)定最短時(shí)間門(mén)限來(lái)判別。當(dāng)前狀態(tài)處于語(yǔ)音時(shí),如果兩個(gè)參數(shù)的值下降低到低門(mén)限以下,而且總的記時(shí)長(zhǎng)度小于最短時(shí)間門(mén)限,則認(rèn)為這是一段噪音,繼續(xù)掃描以后的語(yǔ)音數(shù)據(jù),否則就標(biāo)記好結(jié)束端點(diǎn),并返回?,F(xiàn)以孤立“檢”字的發(fā)音為

48、例, 說(shuō)明雙門(mén)限檢測(cè)法的原理, 如圖1 所示。該方法需做出兩級(jí)判斷: 首先利用濁音的短時(shí)能量最大的特點(diǎn), 由能量定位語(yǔ)音的大致位置。根據(jù)語(yǔ)音短時(shí)能量設(shè)定一個(gè)較高的門(mén)限t h , 若信號(hào)的能量大于t h , 則可確定2 個(gè)端點(diǎn)a 、b, 并可認(rèn)為這2個(gè)端點(diǎn)之間是語(yǔ)音信號(hào), 這樣相當(dāng)于完成初判。再根據(jù)背景噪聲的平均能量設(shè)定一個(gè)比th 稍低的門(mén)限t l , 如果信號(hào)的能量大于tl ,則所對(duì)應(yīng)的端點(diǎn)c、d 之間仍是語(yǔ)音信號(hào), 至此完成了第一級(jí)判斷。接下來(lái)進(jìn)行第二級(jí)判斷, 由于語(yǔ)音的起點(diǎn)很可能是能量很弱的清音, 此時(shí)還采用短時(shí)能量來(lái)區(qū)分清音和無(wú)聲顯然已不合適, 應(yīng)采用過(guò)零率。根據(jù)短時(shí)過(guò)零率設(shè)定一個(gè)新的較

49、低門(mén)限t , 求越過(guò)該門(mén)的過(guò)零率, 從c、d 兩點(diǎn)分別向前、向后搜索,找到短時(shí)平均過(guò)零率與門(mén)限t 的2個(gè)交點(diǎn)e 、f, 這2個(gè)點(diǎn)就是語(yǔ)音的真正起點(diǎn)和終點(diǎn)16 。圖3.7 雙門(mén)限檢測(cè)法原理示意圖3.2.4雙門(mén)限語(yǔ)音端點(diǎn)檢測(cè)實(shí)驗(yàn)仿真及分析1、實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置雙門(mén)限語(yǔ)音端點(diǎn)檢測(cè)是在matlab軟件環(huán)境下進(jìn)行仿真實(shí)驗(yàn)。文中語(yǔ)音信號(hào)樣本是在實(shí)驗(yàn)室安靜環(huán)境下采用麥克風(fēng)進(jìn)行錄音,以wav格式存儲(chǔ)為較純凈的語(yǔ)音樣本。在語(yǔ)音端點(diǎn)檢測(cè)之前首先要對(duì)被測(cè)的語(yǔ)音信號(hào)進(jìn)行預(yù)處理等,包括分幀加窗等。文中加hmmaing窗,通過(guò)特性為(1-0.94)的濾波器預(yù)加重。對(duì)其他參數(shù)進(jìn)行設(shè)置,如設(shè)置語(yǔ)音幀長(zhǎng)度,幀移長(zhǎng)度,fft取5

50、12,門(mén)限閥值設(shè)置等。3、實(shí)驗(yàn)分析基于短時(shí)能量和短時(shí)過(guò)零率的雙門(mén)限語(yǔ)音端點(diǎn)檢測(cè)算法是結(jié)合短時(shí)能量和過(guò)零率各自?xún)?yōu)點(diǎn)來(lái)進(jìn)行檢測(cè),根據(jù)上述方法進(jìn)行實(shí)驗(yàn)仿真,程序代碼在附錄中給出,其仿真結(jié)果如下:圖3.8語(yǔ)音信號(hào)的仿真結(jié)果 上述實(shí)驗(yàn)結(jié)果較好地展示了雙門(mén)限檢測(cè)法的工作原理: 首先利用短時(shí)平均能量門(mén)限值( 先高后低) 定位語(yǔ)音端點(diǎn)的大致位置17 18, 之后再利用短時(shí)過(guò)零率門(mén)限尋找端點(diǎn)的精確位置, 從中可看出實(shí)驗(yàn)效果還是基本讓人滿(mǎn)意的。4分析總結(jié)語(yǔ)音信號(hào)端點(diǎn)檢測(cè)是語(yǔ)音信號(hào)處理中非常重要的一項(xiàng)預(yù)處理技術(shù),因此是語(yǔ)音信號(hào)處理中不可缺少的一步。本文主要圍繞端點(diǎn)檢測(cè)方法進(jìn)行研究,詳細(xì)闡述短時(shí)能量和短時(shí)過(guò)零率結(jié)合的雙門(mén)限法,并用此方法進(jìn)行實(shí)驗(yàn)仿真,取得了較好的實(shí)驗(yàn)結(jié)果。隨著語(yǔ)音相關(guān)學(xué)科的發(fā)展和新興技術(shù)的不斷出現(xiàn)必將使得未來(lái)的語(yǔ)音系統(tǒng)逐漸智能化,而

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論