【matlab編程代做】短時幅度譜估計在語音增強中的研究和應用_第1頁
【matlab編程代做】短時幅度譜估計在語音增強中的研究和應用_第2頁
【matlab編程代做】短時幅度譜估計在語音增強中的研究和應用_第3頁
【matlab編程代做】短時幅度譜估計在語音增強中的研究和應用_第4頁
【matlab編程代做】短時幅度譜估計在語音增強中的研究和應用_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、短時幅度譜估計在語音增強中的研究和應用摘要語音處理過程中受到各種各樣噪聲的干擾,不但降低了語音質(zhì)量,而且還將使整個系統(tǒng)無法正常工作。因此,為了消除噪聲干擾,在現(xiàn)代語音處理技術(shù)中,工業(yè)上一般采用語音增強技術(shù)來改善語音質(zhì)量從而提高系統(tǒng)性能。本論文基于短時幅度譜估計來研究語音增強,主要介紹了功率譜相減、維納濾波法,并介紹了這幾種語音增強方法的基本原理和實現(xiàn)方法。通過研究,我們得到在白噪聲的條件下,這些語音增強方法具有很好的增強效果,可作為開發(fā)實用語音增強方法的基礎(chǔ)。關(guān)健詞:語音增強,短時幅度譜估計,功率譜相減,維納濾波,白噪聲AbstractVoice processing is always in

2、flucenced by a variety of noise, which not only reduces the voice quality, but also make the whole system break. Therefore, in order to eliminate the noise interference, in the modern voice processing technology, we generally use the voice enhancement technology to improve voice quality and system p

3、erformance. In this paper, we will study the speech enhancement which is based short-term rate spectral estimation, we mainly introduce spectral phase, Wiener filtering method, and also introduced several methods of the realization and basic principles of speech enhancement. Through researching, we

4、get the result that in the conditions of white noise, these speech enhancement method has a best effect, can be used as the basement of speech enhancement realiaztion. Key words: speech enhancement, short-term rate spectral estimation, power spectral subtraction, Wiener filtering, white noise第一章 語音增

5、強的研究背景及意義1.1語音增強的應用背景人們在語音通信過程中不可避免的會受到來自周圍環(huán)境和傳輸媒介引入的噪聲、通信設(shè)備內(nèi)部電噪聲乃至其他講話者的千擾。這些干擾最終將使接收者接收到的語音己非純凈的原始語音信號,而是受噪聲污染的帶噪語音信號。例如安裝在汽車、飛機或艦船上的電話,街道、機場的公用電話,常受到很強背景噪聲的干擾,嚴重影響通話質(zhì)量。又如有歷史價值的舊唱片、舊錄音帶的噪聲和失真等,都是帶噪語音信號的例子。而且環(huán)境噪聲的污染,使得許多語音處理系統(tǒng)的性能急劇惡化。例如,語音識別己取得重大進展,正步入實用階段。但目前的語音識別系統(tǒng)大都是在安靜環(huán)境中工作的。在噪聲環(huán)境中,尤其是強噪聲環(huán)境,語音識

6、別系統(tǒng)的識別率將受到嚴重影響。低速率語音編碼,特別是參數(shù)編碼,也遇到類似問題。由于語音生成模型是低速率編碼的基礎(chǔ),當模型參數(shù)的提取受到混雜在語音中背景噪聲嚴重干擾時,重建語音的質(zhì)量將急劇惡化,甚至變得完全不可懂。在上述情況下,語音增強或者作為一種預處理,不失為解決噪聲污染的一種有效手段。因此,或者為抑制背景噪聲,提高語音質(zhì)目前,語音增強已在語音處理系統(tǒng)、通信、研究語音增強技術(shù)在實際中有重要價多媒體技術(shù)、數(shù)字化家電等領(lǐng)域得到了量值越來越廣泛的應用。語音增強的一個主要目標,就是從帶噪語音信號中提取盡可能純凈的原始語音。然而,由于干擾通常是隨機的,從帶噪語音中提取完全純凈的語音幾乎是不可能。在這種情

7、況下,語音增強的目的主要有兩個:一是改進語音質(zhì)量,消除背景噪聲,使聽者樂于接受,沒有疲勞感,這是一種主觀測量:二是提高語音的可懂度,這是一個客觀測量。但這兩個目的往往不能兼得,所以實際應用中總是視具體情況而有所側(cè)重的。在語音信號的理論和應用中,所用的語音數(shù)據(jù)大部分都是在接近理想的條件下采集的。大多數(shù)語音識別和語音編碼在開始研究時都要在高保真設(shè)備上錄制語音,尤其要在無噪環(huán)境下錄音。然而,在語音通信過程中會不可避免的受到各種噪聲的干擾,這種干擾將最終導致接收者接收到的語音信號已非純凈的原始語音,而是受到噪聲污染后的帶噪語音。正是由于這些污染,使得許多語音處理系統(tǒng)的性能急劇惡化。語音識別正在步入實用

8、階段,但識別系統(tǒng)大都是在安靜環(huán)境中工作的,在噪聲環(huán)境中尤其是強噪聲環(huán)境,語音識別系統(tǒng)的識別率將受到嚴重影響。例如,在單個孤立詞識別的系統(tǒng)中,用純凈語音訓練后,其識別率可達到100%,但在以行駛的汽車噪聲為背景的環(huán)境中,其識別率將會降至30%;低速率編碼,特別是參數(shù)編碼例如基于語音生成模型中涉及的LPCC系數(shù)求解,由于該系數(shù)對語音的編解碼質(zhì)量有重要的影響,而噪聲的干擾使得求得的LPCC系數(shù)的準確度下降,從而使重建后的語音質(zhì)量大幅下降,甚至變的完全不可懂。而特別遺憾的是,線性預測技術(shù)作為語音處理中最有效的手段,恰恰是最容易受到噪聲影響的。因此,如何從帶噪語音中盡可能的恢復原始純凈語音、去除噪聲信號

9、就成了語音信號預處理過程中的重要環(huán)節(jié)。在實際需求的推動下,早在60年代,語音增強這個課題就已經(jīng)引起了人們的注意,此后的30年間人們一直契而不舍地進行這方面的研究。隨著數(shù)字信號處理理論的成熟,70年代曾形成一個研究高潮,并取得一些基礎(chǔ)性成果,并使語音增強成為語音信號處理理論的一個重要分支。這之后,隨著超大規(guī)模集成電路和計算機技術(shù)的發(fā)展,為語音增強算法得以實驗仿真和實時實現(xiàn)提供了可能,語音增強的研究進入了一個新階段。然而,由于干擾通常都是隨機的,從帶噪語音過程中提取出完全純凈的語音幾乎不可能。在這種情況下,語音增強的目的主要有兩個:一是改進語音質(zhì)量,消除背景噪聲,使聽者樂于接受,不感覺疲勞,這是一

10、種主觀度量;二是提高語音可懂度,這是一種客觀度量。這兩個目的往往不能兼得。語音增強不僅與信號處理技術(shù)有關(guān),而且涉及到人的聽覺感知和語音學。另外,噪聲來源眾多,隨應用場合不同,其特性也各不相同。即使在實驗室仿真條件下,也很難找出一種通用的語音增強算法適用于各種噪聲環(huán)境。必須針對不同噪聲,采取不同的語音增強對策。目前國外已產(chǎn)生的幾種算法也都是針對不同的噪聲源處理,減少和消除它們對原始語音的干擾。1.2 對語音增強的研究的發(fā)展歷史語音增強這個研究課題早在60年代即引起人們的注意,隨著數(shù)字信號處理理論的成熟,70年代取得了一些基礎(chǔ)性成果,并使語音增強發(fā)展成為語音信信號處理領(lǐng)域的一個重要分支;80年代及

11、90年代初這十幾年間,各種語音增強方法不斷提出,進而奠定了語音增強理論的基礎(chǔ)并使之逐漸走向成熟。隨著數(shù)字信號處理的發(fā)展,以及DSP,FPGA的發(fā)展,越來越滿足復雜的語音信號處理了?,F(xiàn)將這些語音增強方法給予簡單的介紹:自適應梳狀濾波由于語音中的濁音具有明顯的周期性,這種周期性反映到頻域中為一系列分別對應基頻(基音)及其諧波的一個個峰值分量,這些頻率分量占具了語音的大部分能量。這時可采用自適應梳狀濾波器來提取基音及其諧波分量,抑制其他周期性噪聲和非周期的寬帶噪聲。由于語音是時變的,語音的基音周期也是不斷變化的,能否準確地估計出基音周期以及能否及時跟蹤基音變化,是這種基于諧波增強法的關(guān)鍵。對人耳的聽

12、覺特性起主要作用的是語音頻譜的幅度,而人耳對語音的相位是不敏感的。這樣在進行語音增強處理的時候,就可將重點放在對語音幅度譜的精確估計上,對于語音的相位譜則允許有一定的誤差(實際中,經(jīng)常直接將帶噪語音的相位譜作為語音信號的相位譜),以此為出發(fā)點,可以得到以下一些基于語音短時幅度譜的語音增強方法。幅度譜相減對帶噪語音信號進行傅立葉變換,在頻域中從帶噪語音的幅度譜上減去噪聲的幅度譜來作為語音信號的幅度譜,而語音相位譜則近似用帶噪語音的相位譜代替,這正利用了人耳對語音相位的不敏感性,這樣即達到了消除噪聲的目的,這就是幅度譜相減方法的基本原理這種方法針對的是加性不相關(guān)噪聲。功率譜相減法這種方法是從帶噪語

13、音功率譜中減去噪聲的功率譜,從而得到語音信號的功率譜,進而決定語音信號各頻譜分量增益,最終得到語音信號的估計。維納濾波法維納濾波法是為得到語音信號的時域波形,在最小均方誤差準則下得到的最優(yōu)估計器。實際應用中,多采用非因果維納濾波器的頻域?qū)崿F(xiàn)形式。最小均方誤差短時譜幅度估計器這種方法力圖獲得語音信號頻譜幅度的最優(yōu)估計,是從觀測序列中依最小均方誤差準則估計語音信號正交展開系數(shù)的模值。與兩態(tài)軟判決最大似然包絡(luò)估計器一樣,若考慮語音存在的不確定性,則可得到性能更優(yōu)的最小均方誤差短時譜幅度估計器。隱馬爾科夫模型語音增強方法語音信號可細分為不同的類型,如鼻音、摩擦音、爆破音等。對不同類型的語音,如果采用不

14、同的最優(yōu)濾波器進行濾波則能得到更好的效果。要表示這些語音類型,人們提出了語音的混合源模型,人們將語音看成由一定數(shù)量的子源組成的,每個子源代表一種語音類型。不同的語音類型也可理解為不同的語音狀態(tài),則一段語音可看成一個在不同狀態(tài)間轉(zhuǎn)移的馬爾科夫過程,這就是語音的隱馬爾科夫模型思想。同樣對噪聲也有其隱馬爾科夫模型。這樣在語音增強過程中就可針對不同語音狀態(tài)選擇不同的濾波器,這樣就得到了隱馬爾科夫模型語音增強方法。如果能正確建立語音和噪聲的隱馬爾科夫模型,用隱馬爾科夫模型方法進行語音增強處理,只要噪聲不是十分強,就能得到很好的結(jié)果。1.3噪聲特性隨著人們對語音增強研究的發(fā)展,人們越來越認識到語音增強不僅

15、僅是一個單純的語音信號數(shù)字處理問題,而且還涉及到人的聽覺感知、語音學和語言學。另外,噪聲來源很多,隨運用場合而異,其特性也各不相同.因此,要想對語音增強有比較充分的了解,必須首先對語音和噪聲的重要特性進行一番了解和分析。我們還必須認識到,要想得到一種可以適用于各種情形的語音增強算法是不可能的,必須針對不同的實際情況,采取不同的語音增強算法。下面我們先分別簡略的敘述一下語音和噪聲的主要特性。本章我們首先從語音和噪聲的特性入手,對最常用也是最基本的譜相減法進行研究。以上我們介紹了聽覺系統(tǒng)的生理機制以及聽覺的基本特征,下面我們接著介紹一下常見的噪聲。噪聲來源取決于實際的應用環(huán)境, 因而噪聲特性可以說

16、是變化無窮。噪聲可以是加性的,也可以是非加性的,但是對于非加性的噪聲,我們可以通過一些相應的變換(如同態(tài)變換和偽隨機擾動)將其轉(zhuǎn)化為加性噪聲,所以我們這里討論的主要是加性噪聲。加性噪聲大致上分為:周期性噪聲、脈沖噪聲、寬帶噪聲和同聲道其他語音的干擾。1.周期性噪聲其特點是具有許多離散的線譜,主要來源于發(fā)動機等周期性運轉(zhuǎn)的機械。電氣干擾,特別是電源交流聲,也會引起周期性噪聲.這種噪聲可以通過梳狀濾波器予以抑制。實際環(huán)境中的周期性噪聲并非簡單地只含線譜分量,而是由許多窄譜帶組成,而且往往是時變的。2.脈沖噪聲脈沖噪聲表現(xiàn)為時域波形中突然出現(xiàn)的窄脈沖。它來源于爆炸、撞擊和放電等。對它們的消除可以通過

17、時域上設(shè)置閉值來加以抑制,也可以通過內(nèi)插法進行平滑處理。3.背景噪聲對發(fā)音的影響噪聲使語音質(zhì)量下降,可懂度降低。強噪聲會使人產(chǎn)生聽覺疲勞。不僅如此,強噪聲環(huán)境還對講話人產(chǎn)生影響,使講話人改變在安靜環(huán)境或低噪聲環(huán)境中的發(fā)音方式,從而改變了語音的特征參數(shù),這稱為Lombard效應,它對語音識別系統(tǒng)有很大的影響。隨著人們對語音增強知識的認識和發(fā)展,各種各樣的語音增強算法都相應的發(fā)展起來。如前所述,由于噪聲特性各異,總的來說,現(xiàn)在比較流行的算法主要有以下幾種:1) 小波分解法;2) 聽覺屏蔽法;3) 噪聲對消法;4) 諧波增強法;5) 基于語音生成模型的增強算法;6) 基于短時譜估計的增強算法;以上的

18、各種語音增強算法雖然在具體實現(xiàn)上是有差別的,但從另一個方面來說,它們都不得不在語音的可懂度和主觀度量這兩個方向上做一番權(quán)衡。至于到底側(cè)重與哪一方面,就要看算法內(nèi)部的參數(shù)選取了。其中,噪聲對消法的基本原理是從帶噪語音中減去噪聲。這一原理是顯而易見的,但問題是如何得到噪聲的復制品。如果可以用兩個麥克風(或多個麥克風)的信號采集系統(tǒng),一個采集帶噪語音,另一個(或多個)采集噪聲,則這一任務(wù)比較容易得到解決。并且在強噪聲環(huán)境下,這種方法可以得到很好的消除噪聲結(jié)果。如果采集到的噪聲足夠“逼真”,甚至可以與帶噪語音在時域上直接進行相減。噪聲對消法可以用于平穩(wěn)噪聲相消,也可以用于準平穩(wěn)噪聲。采用噪聲對消法時,

19、兩個話筒之間必須要有相當?shù)母綦x度,但采集到的兩路信號之間不可避免地會有時間差,因此實時采集到的兩路信號中所包含的噪聲段是不同的,回聲及其它可變衰減特性也將影響所采集噪聲的“純凈”性。因而,采集到的噪聲必須經(jīng)過數(shù)字濾波器,以得到盡可能接近帶噪語音中的噪聲。通常,這就需要采用自適應濾波器曰,使相減噪聲與帶噪語音中的噪聲一致,其原理類似于回波抵消器。自適應濾波器通常采用FIR濾波器,其系數(shù)可以采用最小均方(LMS)法進行估計,使如下信號的能量最小。 (1-1)這里,是帶噪信號濾波后的結(jié)果,是第二個話筒采集到的噪聲信號,為濾波器系數(shù),N為FIR濾波器的抽頭數(shù)。只要噪聲與話音相互獨立,使的平均值最小,就

20、能得到最接近與帶噪語音中的噪聲復制品。但若采集到的噪聲與語音是相關(guān)的,則濾波器系數(shù)只應在語音間歇期進行刷新。但噪聲對消法的一個缺點是增強后的語音中含有明顯的“音樂噪聲”,這是由頻譜相減而產(chǎn)生的一種殘留噪聲,具有一定的節(jié)奏性起伏感,故而得名“音樂噪聲”。語音信號的濁音段有明顯的周期性,利用這一特點,可以采用諧波增強法構(gòu)造自適應梳狀濾波器來提取語音分量,抑制噪聲。梳狀濾波器可以在時域?qū)崿F(xiàn),表達式為:這里,L為基頻周期;M 為常數(shù)(通常不大);是濾波器輸入信號序列;為輸出信號序列;為系數(shù),隨信號周期而變化。輸出信號是輸入信號的延時加權(quán)和的平均值。當延時與周期一致時,這個平均過程將使周期性分量得到加強

21、,而其它非周期性分量或與信號周期不同的其它周期性分量受到抑制或消除。顯然,上述方法的關(guān)鍵是要精確估計出語音信號的基音周期,這在強背景噪聲干擾下是件困難的事情。在基音發(fā)生變化的過渡段,這種方法會受到嚴重影響。選擇M=1可以減少影響,但增強效果下降。M 與梳狀濾波器的帶寬成反比。梳狀濾波器也可以在頻域?qū)崿F(xiàn)。對語音進行傅立葉變換后可以鑒別出需要提取的各次諧波分量,然后經(jīng)傅立葉反變換恢復為時域信號。梳狀濾波器不但可增強語音信號,也可以用于抑制各種噪聲干擾,包括消除同聲道的其它語音的千擾。同時對兩個語音進行梳狀濾波器的主要困難是:存在另一個人講話干擾時,如何跟蹤并精確估計講話者的基音。小波分解語音增強法

22、和聽覺掩蔽法是比較新興的算法。很明顯,小波分解法是隨著小波分解這一新的數(shù)學分析工具的發(fā)展而發(fā)展起來的。同時它又結(jié)合了譜相減的一些基本原理。聽覺掩蔽是利用人耳的聽覺特性的一種增強算法,目前人們對它的研究還處于初級階段。就近幾年的發(fā)展趨勢而言,小波分解法和聽覺掩蔽法是人們研究的熱點。人們對小波分解法的興趣是與小波分解有關(guān)的,團為人們對小波的研究也還是比較新的,隨著人們對小波分解研究的深入,自然也會導致對小波分解增強算法研究的深入。聽覺屏蔽法是隨著人們對人耳聽覺系統(tǒng)的認識發(fā)展而發(fā)展起來的。人耳有很多優(yōu)點:它可以在強噪聲的干擾下分辨出需要聆聽的信號,它也可以在多個說話者同時發(fā)聲時分別將它們提取出來,同

23、時,它也是一個很復雜的系統(tǒng),人們現(xiàn)在對它的認識還是很浮淺的。正是由于以上這些原因,人們對聽覺屏蔽法寄予了厚望,有理由相信,隨著人們對人耳特性了解的加深,聽覺屏蔽法會更深入的發(fā)展。另外,人們也在嘗試將人工智能、隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)等理論用于語音增強,但目前尚未取得實質(zhì)性的進展。1.4 本課題主要工作基于短時幅度譜估計的語音增強方法,如幅度譜相減、維納濾波等方法具有適應信噪比范圍大、增強效果好、方法簡單易于實時處理等優(yōu)點。并成為應用最廣泛的語音增強方法。所以進行基于短時幅度譜估計的語音增強方法的研究具有重要意義。本文的主要研究步驟和主要研究內(nèi)容如下所示:第一章: 語音增強的研究背景及意義第二章

24、: MATLAB簡介和語音信號特點介紹第三章: 減譜法語音增強第四章: 語音增強的維納濾波研究第五章: 短時幅度譜估計在語音增強方面的性能對比分析第六章: 總結(jié)第二章 MATLAB以及語音信號特點簡介2.1 MATLAB簡介Matlab,Matrix Laboratory的簡稱,是美國Mathworks公司于1984年推出的數(shù)值計算機仿真軟件,經(jīng)過不斷的發(fā)展和完善,如今已成為覆蓋多個學科、具有超強數(shù)值計算能力和仿真分析能力的軟件。Matlab應用較為簡單,用大家非常熟悉的數(shù)學表達式來表達問題和求解方法。它把計算、圖示和編程集成到一個環(huán)境中,用起來非常方便。同時,Matlab具有很強的開放性和適

25、應性,在保持內(nèi)核不變的情況下,Matlab推出了適合不同學科的工具箱,如圖像處理工具箱,小波分析工具箱、信號處理工具箱、神經(jīng)網(wǎng)絡(luò)工具箱等,極大地方便了不同學科的研究工作。Matlab強大的繪圖功能,簡單的命令形式,使其越來越受到國內(nèi)外科技人員的青睞,得到越來越廣泛的應用。一. MATLAB的特點一種語言之所以如此迅速地普及,顯示出如此旺盛的生命力,是由于它有著不同于其它語言的特點。正如同F(xiàn)ortran和C等高級語言使人們擺脫了需要直接對計算機硬件資源進行操作一樣,被稱為第4代計算機語言的MATLAB,利用其豐富的函數(shù)資源,使編程人員從繁瑣的程序代碼中解放出來。1功能強大MATLAB具有功能強勁

26、的工具箱,其包含兩個部分:核心部分和各種可選的工具箱。核心部分中,有數(shù)百個核心內(nèi)部函數(shù)。其工具箱又可分為兩類:功能性工具箱和學科性工具箱。功能性工具箱主要用來擴充其符號計算功能、圖示建模仿真功能、文字處理功能以及與硬件實時交互功能。功能性工具箱能用于多種學科,而學科性工具箱是專業(yè)性比較強的,例如control toolbox,image processing toolbox,signal processing toolbox等。這些工具箱都是由該領(lǐng)域內(nèi)的學術(shù)水平很高的專家編寫的,所以用戶無需編寫自己學科范圍內(nèi)的基礎(chǔ)程序,就能夠直接進行高、精、尖的研究。2. 界面友好,編程效率高MATLAB突出

27、的特點就是簡潔。它用更直觀的、符合人類思維習慣的代碼代替了C和Fortran語言的冗長代碼,給用戶帶來的是最直觀、最簡潔的程序開發(fā)環(huán)境。MATLAB語言簡潔緊湊,使用方便靈活,庫函數(shù)極其豐富,程序書寫形式自由,利用其豐富的庫函數(shù)避開繁雜的子程序編程任務(wù),壓縮了一切不必要的編程工作。由于庫函數(shù)都是由本領(lǐng)域的專家編寫的,因此用戶不必擔心函數(shù)的可靠性??梢哉f,用MATLAB進行科學開發(fā)是站在專家的肩膀上來完成的。3. 開放性強MATLAB有很好的可擴充性,可以把它當成一種更高級的語言去使用。各種工具箱中的函數(shù)可以互相調(diào)用,也可以由用戶更改。MATLAB支持用戶對其函數(shù)進行二次開發(fā),用戶的應用程序可以

28、作為新的函數(shù)添加到相應的工具箱中。二 MATLAB的主要功能MATLAB之所以成為世界頂級的科學計算與數(shù)學應用軟件,是因為它隨著版本的升級與不斷完善而具有越來越強大的功能。2 數(shù)值計算功能MATLAB出色的數(shù)值計算功能是使之優(yōu)于其他數(shù)學應用軟件的決定性因素之一。2符號計算功能MATLAB符號運算的獨特之處:無需事先對變量賦值,而所得的結(jié)果以標準的符號形式表達,符號計算的整個過程以字符進行。3數(shù)據(jù)分析功能MATLAB可以將計算數(shù)據(jù)以二維、三維乃至四維的圖形表現(xiàn)。這不僅使數(shù)據(jù)間的關(guān)系清晰、明了,而且對于揭示其內(nèi)在本質(zhì)有著非常重要的作用。4動態(tài)仿真功能MATLAB提供了一個模擬動態(tài)系統(tǒng)的交互程序SI

29、MULINK,用戶通過簡單的鼠標操作,就可建立起直觀的系統(tǒng)模型,并進行仿真。5圖形文字統(tǒng)一處理功能MATLAB Notebook成功地將Microsoft Work與MATLAB集成為一個整體,為文字處理、科學計算、工程設(shè)計營造了一個完美、統(tǒng)一的工作環(huán)境。它既擁有Word強大的文字處理功能,又能通過Word訪問MATLAB的數(shù)據(jù)計算和可視化結(jié)果。2.2 語音信號特點介紹隨著人們對語音增強研究的發(fā)展,人們越來越認識到語音增強不僅僅是一個單純的語音信號數(shù)字處理問題,而且還涉及到人的聽覺感知、語音學和語言學。另外,噪聲來源很多,隨運用場合而異,其特性也各不相同.因此,要想對語音增強有比較充分的了解,

30、必須首先對語音和噪聲的重要特性進行一番了解和分析。我們還必須認識到,要想得到一種可以適用于各種情形的語音增強算法是不可能的,必須針對不同的實際情況,采取不同的語音增強算法。下面我們先分別簡略的敘述一下語音和噪聲的主要特性。本章我們首先從語音和噪聲的特性入手,對最常用也是最基本的譜相減法進行研究。語音是由一連串的音所組成的,這些音以及相互間的過渡就是代表信息的符號。這些音的排列是由語音的規(guī)則和人的發(fā)聲器官決定的。人類的發(fā)聲系統(tǒng)可以描述如下:聲道起始于聲帶的開口即聲門處而中止于嘴,它包含了咽喉和口腔。聲道的截面積取決于舌、唇、領(lǐng)以及小舌的位置。當小舌下垂時,鼻道與聲道發(fā)生耦合而產(chǎn)生語音中的鼻音。為

31、了便于理論分析,人們將發(fā)聲系統(tǒng)簡化,認為主要由三部分組成:喉、聲道和嘴。在此基礎(chǔ)上,人們又構(gòu)造了一個既符合實際又便于處理的離散時域生成模型,它包括三部分:激勵源、聲道模型和輻射模型。進一步簡化得到最常用的語音信號LPC全極點生成模型(如圖2-1所示)。圖2-1語音的全極點生成模型圖中u(n)為激勵源,g為增益因子,H(z)=1 /A(z)為全極點濾波,其中:這里,p為階數(shù),為LPC系數(shù)。根據(jù)這個模型,可以得到離散時域語音信號s(n)的統(tǒng)一表達式:語音的聲音按照其激勵形式的不同可以分為三類:第一類是濁音,當氣流通過聲門時,如果聲帶的張力剛好使聲帶發(fā)生張弛振蕩式的振動,那么就可以產(chǎn)生準周期的空氣脈

32、沖,這一空氣脈沖激勵聲道得到濁音,對應于圖中就是u(n)為間隔是基音周期T的脈沖串;第二類是摩擦音或清音,如果聲道在某處發(fā)生收縮,同時迫使空氣以高速沖過這一收縮部分而產(chǎn)生湍流,就得到這種音,此時建立的寬帶噪聲源激勵了聲道,對應于圖中就是u(n)為寬帶噪聲;如果使聲道完全閉合,在閉合后產(chǎn)生氣壓,然后突然釋放,這就得到爆破音。一般而言,語音信號可以看作是由濁音、清音以及它們之間的過渡組成的。1.語音信號的頻譜分量比較集中通過對語音信號發(fā)聲過程的研究以及觀察記錄的各種語音波形,人們發(fā)現(xiàn)語音信號的頻譜分量主要集中在3003400Hz的范圍內(nèi),這是因為人的聲道的變化不可能太快。這一點給我們的語音研究和計

33、算帶來了很大的便利,我們只要把注意力放在這一區(qū)域就可以了。2.語音是一個時變的、非平穩(wěn)的隨機過程人類發(fā)聲系統(tǒng)的生理結(jié)構(gòu)的變化速度是有一定的限度的,在一段短時間內(nèi)(5-50ms)人的聲帶和聲道形狀有相對穩(wěn)定性,可近似認為其特征不變,因而語音的短時譜分析也有相對穩(wěn)定性。短時譜的這種平穩(wěn)性是很多語音處理算法和技術(shù)的基礎(chǔ)。3.語音大體上可以分為清音和濁音兩大類一般而言,人類的語音信號往往在有些時段表現(xiàn)出明顯的周期性(濁音),這種語段在頻域上有共振峰結(jié)構(gòu),其能量大部分集中在較低頻段內(nèi);而在另一些時段表現(xiàn)出完全的隨機性(清音),這種語段在頻域上沒有明顯的共振峰結(jié)構(gòu),其頻譜類似于白噪聲;其余的就是由兩者相混

34、合而成。這一點反映在圖2-1就是:激勵源u(n)要么就是由脈沖發(fā)生器發(fā)出,要么就是由白噪聲發(fā)生器發(fā)出,要么就是由兩者按一定比例混合后發(fā)出。4.作為一個隨機過程,語音信號可以用統(tǒng)計分析特性來描述在高斯模型假設(shè)下,傅立葉展開系數(shù)被認為是獨立的高斯隨機變量,均值為0,而方差是時變的。這種高斯模型應用于有限幀長時只是一種近似的描述,在寬帶噪聲污染的帶噪語音的語音增強中,這種假設(shè)可用于分析的前提。第三章 減譜法語音增強3.1信噪比介紹信噪比(Signal-to-Noise Ratio,SNR)一直是衡量針對寬帶噪聲失真的語音增強算法的常規(guī)方法,有許多變種,如分段式信噪比、頻域加權(quán)型信噪比等。值得注意的是

35、,基于信噪比的衡量方法只對試圖復制原來的輸入波形的編碼或者增強算法有效。假設(shè)表示帶噪信號,表示其中的純凈語音信號,表示相對應的增強信號,所有這些信號都假設(shè)是能量信號,則時域誤差信號如公式:誤差能量公式:純凈語音信號的能量公式:經(jīng)典形式的信噪比定義公式:從上式可以看出,需要知道純凈語音信號才有可能決定信噪比的值,這在實際的環(huán)境下是不可能的。因此,上述方法主要用于純凈語音信號和噪聲信號都是已知的算法的仿真中。3.2 基本減譜法處理寬帶噪聲的最通用技術(shù)是譜減法,即從帶噪語音估值中減去噪聲頻譜估值,而得到純凈語音的頻譜。由于人耳對語音頻譜分量的相位不敏感,因而這種方法主要針對短時幅度譜。假定語音為平穩(wěn)

36、信號,而噪聲和語音為加性信號且彼此不相關(guān)。此時帶噪語音信號可表示為。上式中,s(t)為純凈語音信號,n(t)為噪聲信號。而用Y(w)、S(w)和N(w)表示y(t)、s(t)和n(t)的傅立葉變換,則有下列關(guān)系存在。對于功率譜則有,因為假定噪聲是不相關(guān)的,所以不會出現(xiàn)有信號與噪聲的乘積項。只要從中減去便可恢復。之所以能這樣做是基于人耳對語音相位不敏感(相聾)這一特點。因為噪聲是局部平穩(wěn)的,故可以認為發(fā)語音前的噪聲與發(fā)語音期間的噪聲功率譜相同,因而可以利用發(fā)語音前(或后)的“寂靜幀”來估計噪聲。然而,語音是不平穩(wěn)的,而且實際上只能用一小段加窗信號。此時上式應寫為上式中,下標w表示加窗信號,*表示

37、復共軛??梢愿鶕?jù)觀測數(shù)據(jù)估計,其余各項必須近似為統(tǒng)計均值。由于n(t)和s(t)獨立,則互譜的統(tǒng)計均值為0。為了用傅立葉逆變換再現(xiàn)語音,還需要的相位,這里用表示。此時可借用帶噪語音相位,即的相位來近似。因而則恢復的語音是估值的傅立葉反變換,如下所示:圖3-1 基本結(jié)構(gòu)3.3 一般形式的功率譜相減估計器設(shè)帶噪語音的觀測模型對上式兩邊做傅立葉變換得進一步可得式中“*”代表復共軛。由于s(n)與w(n)獨立,所以與獨立。又因為為零均值高斯分布,所以有對于一個分析幀內(nèi)的短時平穩(wěn)過程,則其中為噪聲的功率譜密度,即無語音時的統(tǒng)計平均值。由此可得原始語音幅度譜的估計為:為了維持估計器在無噪聲時系統(tǒng)的同一性,

38、在幅度譜上加上帶噪語音的相位信息,則得到完整的功率譜相減估計器為:3.4 減譜法的改進形式實際上噪聲譜服從高斯分布其中,m為x的均值,為標準偏差。噪聲的幀功率譜隨機變化范圍很寬,在頻域中的最大、最小值之比往往達到幾個數(shù)量級,而最大值與均值之比也達68倍。因此,在減去噪聲譜后,會有些較大的功率譜分量的剩余部分,在頻譜上呈現(xiàn)出隨機出現(xiàn)的尖峰,在聽覺上形成殘留噪聲。這種噪聲具有一定的節(jié)奏性起伏感,所以稱之為“音樂噪聲”。為有效地減少寬帶和音樂噪聲,可對減譜法進行改進。噪聲的能量往往分布于整個頻率范圍,而語音能量則較集中于某些頻率或頻段,尤其在元音的共振峰處。因此可在元音段等幅度較高的時幀去除噪聲時,

39、減去,則可更好的相對突出語音的功率譜。這種改進也稱為被減項權(quán)值處理。同時,將功率譜計算及改為和計算(這里a不一定為整數(shù)),可以增加靈活性。這種方法稱為功率譜修正處理。經(jīng)分析和實驗得知,當a2時,它具有與被減項加權(quán)處理相同的結(jié)果。綜合上面兩種處理,減譜法改進形式修正為引入、兩個參數(shù)為算法提供了很大的靈活性。當=2,=1時即變?yōu)榛镜臏p譜法。實際的增強實驗表明,適當調(diào)節(jié)、,可以獲得比原始的減譜法更好的增強效果。3.5 利用MATLAB實現(xiàn)減譜法語音增強上面我們簡單的介紹了減譜法語音增強的基本理論,下面我們將利用MATLAB來設(shè)計減譜法并選取一個音頻信號進行增強處理并對比前后結(jié)果得到增強的效果,并對

40、前后兩次進行時域和頻域信號分析。*%對每幀fftfor i=1:frame_num; fft_frame(:,i)=fft(window.*inframe(:,i); abs_frame(:,i)=abs(fft_frame(:,i); ang_frame(:,i)=angle(fft_frame(:,i);end;%平滑處理abs_frame_f=abs_frame;for i=2:(frame_num-1); abs_frame_f(:,i)=mean(abs_frame(:,(i-1):(i+1),2);end;abs_frame=abs_frame_f;%取前20幀,做為噪聲幅值abs

41、_noise=mean(abs_frame(:,1:20),2);res_noise=max(abs_frame(:,1:20)-abs_noise*ones(1,20),2);for i=1:frame_num; sub_frame(:,i)=abs_frame(:,i)-0.8*abs_noise;end;zero_frame=zeros(len,frame_num); sub_frame_z=sub_frame;%將sub_frame距陣中小于0的點置0I,J=find(sub_frame_zzero_frame);sub_frame_z(sub2ind(size(sub_frame_z

42、),I,J)=zero_frame(sub2ind(size(sub_frame_z),I,J);sub_frame=sub_frame_z;%殘余噪聲消去for i=2:(frame_num-1); I=find(sub_frame(:,i)res_noise); sub_frame(I,i)=min(sub_frame_z(I,(i-1):(i+1),2);end; 通過如上代碼,我們可以得到仿真結(jié)果,具體仿真結(jié)果如下所示:圖3-2 原始語音的頻譜 通過運行程序,通聽覺上可以感受到該語音信號有明顯的雜音,聽起來很不舒服。通過運行后結(jié)果,我們可以看到,該語音信號的時域部分,在每次人發(fā)音間隔之

43、間具有明顯的噪聲干擾也就是我們所謂的噪聲。圖3-3語音增強以后的頻譜 通過語音濾波以后,從聽覺好可以聽到語音已經(jīng)變的清晰,沒用明顯的雜音干擾,分析其信號頻譜,可以看到,其有效頻率和高頻的幅度比變大,說明通過語音增強后音質(zhì)得到了明顯的改善。3.6 總結(jié)譜減技術(shù)可以被視為一種濾波操作,它對估計譜的高信噪比區(qū)域做較少的衰減而對低信噪比區(qū)域做較大的衰減。通過采用后文所述的短時傅立葉變換技術(shù)對譜減算法進一步改進,發(fā)現(xiàn):譜減算法對噪聲抑制有著一個重要的特性,就是其衰減特性隨分析窗長度的變化而變化。并且與帶噪語音相比,雖然增強后的信號“清晰度”有所提高,但是卻對起伏噪聲(音樂噪聲)的濾除效果并不明顯。從人耳

44、感知度角度來說,甚至能明顯感到起伏噪聲的存在,這說明譜減算法作為一種基本通用方法并不能很好抑制噪聲,需要我們對算法做進一步改進,我們首先想到的是利用語音識別技術(shù)對待操作語音進行端點識別預操作:對已知語音段進行端點檢測預操作,可有效濾除“語音”之外的噪聲。針對語音分為清音和濁音的特性,我們采取短時能量和過零率這兩種方法。在開始進行端點檢測之前,首先為短時能量和過零率分別確定兩個門限。短時能量用于區(qū)分數(shù)據(jù)段內(nèi)的清音和濁音部分,過零率用于區(qū)分白噪聲和清音部分。一個是比較低的門限,其數(shù)值比較小,對信號的變化比較敏感,很容易就會被超過。另一個是比較高的門限,數(shù)值比較大,信號必須達到一定強度,該門限才可能

45、被超過。低門限被超過未必就是語音的開始,有可能是時間很短的噪聲引起的。高門限被超過則可以基本確信是由于信號引起的。整個語音信號的端點檢測可以分為4段:靜音、過度段、語音段、結(jié)束。程序中使用一個變量status來表示當前所處的狀態(tài)。在靜音段,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要兩個參數(shù)的數(shù)值都回落到低門限以下,就將當前狀態(tài)恢復到靜音狀態(tài)。而如果在過渡段中兩個參數(shù)中的任一個超過了高門限,就可以確定進入語音段了。第四章 語音增強的維納濾波研究4.1 維納濾波的發(fā)展從連續(xù)的(或離散的)輸入數(shù)據(jù)中濾除噪聲和干擾以提取有用信息的過程稱為濾波,而相應的裝置稱為濾波器。根據(jù)濾波器的輸出

46、是否為輸入的線性函數(shù),可將它分為線性濾波器和非線性濾波器兩種。濾波器研究的一個基本課題就是:如何設(shè)計和制造最佳的或最優(yōu)的濾波器。所謂最佳濾波器是指能夠根據(jù)某一最佳準則進行濾波的濾波器。利用平穩(wěn)隨機過程的相關(guān)特性和頻譜特性對混有噪聲的信號進行濾波的方法,1942年美國科學家N.維納為解決對空射擊的控制問題所建立。維納濾波是40年代在線性濾波理論方面所取得的最重要的成果。從噪聲中提取引號波形的各種估計方法中,維納(Wiener)濾波是一種最基本的方法,適用于需要從噪聲中分離出的有用信號是整個信號(波形),而不只是它的幾個參量。其基本依據(jù)就是最小均方誤差準則。設(shè)維納濾波器的輸入為含噪聲的隨機信號。期

47、望輸出與實際輸出之間的差值為誤差,對該誤差求均方,即為均方誤差。因此均方誤差越小,噪聲濾除效果就越好。為使均方誤差最小,關(guān)鍵在于求沖激響應。如果能夠滿足維納霍夫方程,就可使維納濾波器達到最佳。根據(jù)維納霍夫方程,最佳維納濾波器的沖激響應,完全由輸入自相關(guān)函數(shù)以及輸入與期望輸出的互相關(guān)函數(shù) 所決定。維納濾波器的優(yōu)缺點 維納濾波器的優(yōu)點是適應面較廣,無論平穩(wěn)隨機過程是連續(xù)的還是離散的,是標量的還是向量的,都可應用。對某些問題,還可求出濾波器傳遞函數(shù)的顯式解,并進而采用由簡單的物理元件組成的網(wǎng)絡(luò)構(gòu)成維納濾波器。維納濾波器的缺點是,要求得到半無限時間區(qū)間內(nèi)的全部觀察數(shù)據(jù)的條件很難滿足,同時它也不能用于噪

48、聲為非平穩(wěn)的隨機過程的情況,對于向量情況應用也不方便。因此,維納濾波在實際問題中應用不多。4.2 維納濾波的理論介紹如果在頻域采樣點上對信號進行處理,可得如下估計器式中和分別為第n個頻點上信號和噪聲功率譜,為第n個頻點上語音頻譜的估計值,為帶噪語音在相應頻點上的頻譜值。的估計為,那么上面式子可以寫成 現(xiàn)在假設(shè)為系統(tǒng)的后驗信噪比,那么上式我們可以修改為,這是一個基于后驗信噪比的估計方法。可見上式是基于后驗信噪比的估計方法?,F(xiàn)在假設(shè)為先驗信噪比,那么上式,這是一個基于先驗信噪比的估計方法。本論文用一個性能上好一些的估計先驗信噪比的方法,使得基于先驗信噪比估計的維納濾波器得到了比較好的效果。先驗信噪

49、比的估計方法我們通常采用最大概率釋然估計法,對于第k個譜分量,我們以L個連續(xù)幀帶噪語音譜分量元,為觀測信號第i幀的第k個譜分量)和噪聲的譜分量為參量,推導在第n分析幀第k個譜分量的最大似然先驗信噪比估計方法。根據(jù)中心極限定理,語音和噪聲的譜分量可以認為是統(tǒng)計獨立的隨機變量,這樣在給定和的情況下,的概率密度函數(shù)為:從上式對進行最大似然估計得:將上式兩邊除以得上式即為先驗信噪比的最大似然估計。4.3維納濾波增強理論從加性噪聲bn干擾的序列(即序列yn=xn+bn)中恢復目標信號xn,除了譜減方法之外,另一種方法是尋找一個線性濾波器hn,使得通過濾波操作后的序列達到的最小期望值。在xn和bn不相關(guān)且均為平穩(wěn)信號的假設(shè)前提下,對于這個隨機優(yōu)化問題的頻域解可用抑制濾波器表示:這就是維納濾波器(Wiener filter)。當信號xn和bn滿

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論