數(shù)字信號(hào)在語(yǔ)音處理上的應(yīng)用_第1頁(yè)
數(shù)字信號(hào)在語(yǔ)音處理上的應(yīng)用_第2頁(yè)
數(shù)字信號(hào)在語(yǔ)音處理上的應(yīng)用_第3頁(yè)
數(shù)字信號(hào)在語(yǔ)音處理上的應(yīng)用_第4頁(yè)
數(shù)字信號(hào)在語(yǔ)音處理上的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 一 、研究背景和價(jià)值語(yǔ)言是人類交流信息的基本手段,在人們?nèi)找鏀U(kuò)大的交流中占據(jù)著重要地位。在如今高度發(fā)達(dá)的信息社會(huì)中用數(shù)字化的方法進(jìn)行語(yǔ)音的傳送、儲(chǔ)存識(shí)別、合成、增強(qiáng)等是整個(gè)數(shù)字化通信網(wǎng)中最重要、最基本的組成部分之一隨著信息科學(xué)技術(shù)的飛速發(fā)展,語(yǔ)音信號(hào)處理的研究也日益顯示出它的要性,并取得了重大進(jìn)展。雖然語(yǔ)音信號(hào)處理作為研究用數(shù)字信號(hào)處理技術(shù)和語(yǔ)音學(xué)知識(shí)對(duì)語(yǔ)音信號(hào)進(jìn)行處理的新興的學(xué)科,是目前發(fā)展最為迅速的信息科學(xué)研究領(lǐng)域的核心技術(shù)之一。通過(guò)語(yǔ)音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息的形式。同時(shí),語(yǔ)言也是人與機(jī)器之間進(jìn)行通信的重要工具,他是一種理想的人機(jī)通信方式,因而可為信息處理

2、系統(tǒng)建立良好的人機(jī)交互環(huán)境,進(jìn)一步推進(jìn)計(jì)算機(jī)和其智能機(jī)器的應(yīng)用,提高社會(huì)的信息化程度。數(shù)字信號(hào)外理是許多科學(xué)和工程技術(shù)領(lǐng)域中不可缺少的一個(gè)方面,在通信 、雷達(dá)、語(yǔ)音處理、圖象處理、聲學(xué)、地震學(xué)、地質(zhì)勘探、氣象學(xué)、遙感、生物醫(yī)學(xué)工程、核工程、航天工程等領(lǐng)域中都離不開(kāi)數(shù)字信號(hào)處理。隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)字信號(hào)處理技術(shù)得到飛速發(fā)展?,F(xiàn)在,已經(jīng)從最初的只是用數(shù)字方法去完成模擬信號(hào)處理的基本功能發(fā)展成為一門(mén)獨(dú)立的學(xué)科。數(shù)字信號(hào)處理在其發(fā)展初期是與模擬信號(hào)處理密切相關(guān)的。模擬信號(hào)處理討論的兩個(gè)主要問(wèn)題是濾波器設(shè)計(jì)和頻譜分析。模擬信號(hào)處理所研究的問(wèn)題主要局限在這兩個(gè)方面,這是與當(dāng)時(shí)信號(hào)處理的數(shù)學(xué)基礎(chǔ)和物理

3、依托有關(guān)的。當(dāng)時(shí)能夠完成電信號(hào)濾波的主要手段是依靠LC網(wǎng)絡(luò),相應(yīng)的數(shù)學(xué)分析工具是傅里葉變換。數(shù)字信號(hào)處理在其發(fā)展的初期只是試圖用數(shù)字方法代替模擬方法去完成上述任務(wù)。20世紀(jì)60年代形成的一系列數(shù)字信號(hào)處理的理論和算法,如數(shù)字濾波器、快速傅里葉變換等是語(yǔ)音信號(hào)數(shù)字處理的理論和技術(shù)基礎(chǔ)。隨著信息科學(xué)技術(shù)的發(fā)展,語(yǔ)音信號(hào)處理取得了重大的進(jìn)展。70年代提出了用于語(yǔ)音信號(hào)的信息壓縮和特征提取的線性預(yù)測(cè)技術(shù),成為語(yǔ)音信號(hào)處理的有力工具。近年來(lái)人工神經(jīng)網(wǎng)絡(luò)的研究取得了迅速發(fā)展語(yǔ)音信號(hào)處理的各項(xiàng)課題是促進(jìn)其發(fā)展的重要?jiǎng)恿χ唬瑫r(shí)它的許多成果也體現(xiàn)在有關(guān)語(yǔ)音信號(hào)處理的各項(xiàng)技術(shù)中。因此,在60年代和70年代初期

4、,數(shù)字信號(hào)處理領(lǐng)域中的大量研究工作以及發(fā)表的大量論文和著作都集中于兩個(gè)方面。一方面是數(shù)字濾波器 (仍限于低通、高通、帶通、帶阻等類型)的設(shè)計(jì),即各種FIR、nR數(shù)字濾波器設(shè)計(jì)硬件實(shí)現(xiàn)結(jié)構(gòu)以及穩(wěn)定性。有限字長(zhǎng)效應(yīng)等問(wèn)題;另一方面是FFT的各種算法。二 、研究任務(wù) 首先是要對(duì)所需處理的語(yǔ)音信號(hào)的采集,運(yùn)用MATLAB對(duì)其時(shí)域、頻率響應(yīng)、幅值、相位、頻譜做出分析。然后對(duì)獲取到的語(yǔ)音信號(hào)進(jìn)行倒譜處理,接著用濾波器對(duì)加信號(hào)進(jìn)行濾波。最后進(jìn)行數(shù)據(jù)轉(zhuǎn)換,使用不同的采樣頻率對(duì)信號(hào)進(jìn)行處理得到不同頻率下的時(shí)域波形及其頻譜。對(duì)比不同采樣率下語(yǔ)音信號(hào)的差別。完成各部分任務(wù)的程序設(shè)計(jì),并做出仿真分析。三、任務(wù)實(shí)施1、

5、語(yǔ)音信號(hào)采集 由于條件限制,本實(shí)驗(yàn)中采集的語(yǔ)音是通過(guò)音樂(lè)播放器截取的一段語(yǔ)音,文件名為“guxiang1”,然后通過(guò)軟件處理轉(zhuǎn)換成wav格式的語(yǔ)音信號(hào)并保存,以作為實(shí)驗(yàn)處理的語(yǔ)音信號(hào),完成后續(xù)實(shí)驗(yàn)分析。 2、工具選擇 在本次仿真使用的工具是MATLAB,MATLAB(矩陣實(shí)驗(yàn)室)是MATrix LABoratory的縮寫(xiě),是一款由美國(guó)The MathWorks公司出品的商業(yè)數(shù)學(xué)軟件。MATLAB是一種用于算法開(kāi)發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)技術(shù)計(jì)算語(yǔ)言和交互式環(huán)境。除了矩陣運(yùn)算、繪制函數(shù)/數(shù)據(jù)圖像等常用功能外,MATLAB還可以用來(lái)創(chuàng)建用戶界面及與調(diào)用其它語(yǔ)言(包括C,C+和FOR

6、TRAN)編寫(xiě)的程序。 MATLAB具有很多優(yōu)點(diǎn),編程環(huán)境比較簡(jiǎn)單,容易實(shí)現(xiàn),易于操作,而且處理能力特別強(qiáng),它的內(nèi)部包含了許多模塊集合小工具,可以編程,也可以進(jìn)行建模,完成許多方面的仿真分析。而且編程即支持匯編,也支持C+,有豐富的圖形庫(kù),所以在本實(shí)驗(yàn)中,選取MATLAB作為仿真工具。四、仿真及分析1. 語(yǔ)音信號(hào)時(shí)域和頻譜時(shí)域是描述數(shù)學(xué)函數(shù)或物理信號(hào)對(duì)時(shí)間的關(guān)系。例如一個(gè)信號(hào)的時(shí)域波形可以表達(dá)信號(hào)隨著時(shí)間的變化。本文分析的語(yǔ)音信號(hào)“guxiang1”的時(shí)域圖如圖1所示,還包含該信號(hào)的幅值及相位。圖1 語(yǔ)音信號(hào)的波形、幅值和相位頻率響應(yīng)函數(shù)頻率響應(yīng)函數(shù)是描述測(cè)試系統(tǒng)動(dòng)態(tài)特性的重要參數(shù),通過(guò)頻率響

7、應(yīng)函數(shù)進(jìn)行頻率分析也是進(jìn)行數(shù)字濾波器設(shè)計(jì)的重要方法。頻率響應(yīng)函數(shù)是系統(tǒng)輸出與輸入的傅里葉變換之比Hj=Y()X()實(shí)驗(yàn)時(shí)用沖激函數(shù)作為系統(tǒng)激勵(lì)信號(hào),用各種數(shù)字濾波器作為測(cè)試系統(tǒng)。沖激函數(shù)具有無(wú)限寬廣的頻譜,用沖激函數(shù)做激勵(lì)信號(hào)相當(dāng)于對(duì)測(cè)試系統(tǒng)輸入所有頻率的信號(hào),系統(tǒng)必然有對(duì)應(yīng)的輸出。計(jì)算出系統(tǒng)輸出與輸入的傅里葉變換之比,就是系統(tǒng)的頻率響應(yīng)函數(shù)。語(yǔ)音信號(hào)“guxiang1”的頻率響應(yīng)圖如圖2所示。圖2 信號(hào)頻率響應(yīng)圖頻譜任一信號(hào),只要符合一定條件都可以分解為一系列不同頻率的正弦(或余弦)分量的線性疊加;每一個(gè)特定頻率的正弦分量都有它相應(yīng)的幅度和相位。因此對(duì)于一個(gè)信號(hào),它的各分量的幅度和相位分別是

8、頻率的函數(shù);或者合起來(lái),它的復(fù)數(shù)幅度是頻率的函數(shù)。這種幅度(或相位)關(guān)于頻率的函數(shù),就稱為信號(hào)的頻譜。當(dāng)把信號(hào)頻譜,即幅度(或相位)關(guān)于頻率的變化關(guān)系用圖來(lái)表示,就形成頻譜圖。從頻譜圖上,我們既可以看到這個(gè)周期信號(hào)由哪些頻率的諧波分量(正弦分量)組成;也可以看到,對(duì)應(yīng)各個(gè)諧波分量的幅度,它們的相對(duì)大小就反映了各諧波分量對(duì)信號(hào)貢獻(xiàn)的大小或所占比重的大小。信號(hào)的頻譜是信號(hào)的一種新的表示方法,從頻譜可以看到這個(gè)周期信號(hào)由哪些頻率的諧波分量(正弦分量)組成;也可以看到,對(duì)應(yīng)各個(gè)諧波分量的幅度,它們的相對(duì)大小就反映了各諧波分量對(duì)信號(hào)貢獻(xiàn)的大小或所占比重的大小。語(yǔ)音信號(hào)“guxiang1”的頻譜如圖3所示

9、。圖3 語(yǔ)音信號(hào)的頻譜2. 語(yǔ)音信號(hào)倒譜分析語(yǔ)音信號(hào)不是加性信號(hào),而是卷積信號(hào)。為了能用線性系統(tǒng)對(duì)其進(jìn)行處理,可以先采用卷積同態(tài)系統(tǒng)處理。經(jīng)過(guò)卷積同態(tài)系統(tǒng)后輸出的偽時(shí)域序列稱為原序列的“復(fù)倒頻譜”。它的定義式可以表示為:xn=IFTlnFTxn倒譜或稱 “倒頻譜”的定義為 :cn=IFTlnFTxn同態(tài)信號(hào)處理法就是設(shè)法將非線性問(wèn)題轉(zhuǎn)化為線性問(wèn)題來(lái)處理的一種方法。按照被處理的信號(hào)來(lái)分類,大體上可以分為乘積同態(tài)信號(hào)處理和卷積同態(tài)信號(hào)處理。由于語(yǔ)音信號(hào)可以視為聲門(mén)激勵(lì)信號(hào)和聲道響應(yīng)信號(hào)的卷積結(jié)果。我們僅討論卷積同態(tài)信號(hào)處理系統(tǒng)的問(wèn)題。同態(tài)信號(hào)處理也稱為同態(tài)濾波,實(shí)現(xiàn)將卷積關(guān)系變換為求和關(guān)系的分離處

10、理,即解卷。解卷算法可以分為兩大類:第一類是首先為線性系統(tǒng)V(Z)建立一個(gè)模型,然后對(duì)模型參數(shù)按照某種最佳準(zhǔn)則進(jìn)行估計(jì),這種方法稱為參數(shù)解卷方法。采用的模型可以分為全極點(diǎn)模型(AR模型)和零極點(diǎn)模型(ARMA模型),如果采用最小均方誤差準(zhǔn)則對(duì)AR模型進(jìn)行估計(jì),就得到線性預(yù)測(cè)編碼算法(LPC)。第二類算法稱為非模型解卷。同態(tài)信號(hào)處理完成解卷任務(wù)就是其中最重要的一種。對(duì)信號(hào)進(jìn)行分析得出它的倒譜參數(shù)的過(guò)程稱為同態(tài)處理。對(duì)于語(yǔ)音信號(hào)進(jìn)行解卷,可將語(yǔ)音信號(hào)的聲門(mén)激勵(lì)信息及聲道響應(yīng)信息分離開(kāi)來(lái),從而求得聲道共振特征和基音周期,用于語(yǔ)音編碼、合成和識(shí)別。語(yǔ)音信號(hào)“guxiang1”的頻譜如圖4所示,圖中上圖

11、為“guxiang1”的原始信號(hào),下圖為頻譜圖。圖4 語(yǔ)音信號(hào)的頻譜圖它和復(fù)倒譜的主要區(qū)別是對(duì)序列對(duì)數(shù)幅度譜的傅立葉逆變換,它是復(fù)倒譜 中的偶對(duì)稱分量。它們都將卷積運(yùn)算,變?yōu)閭螘r(shí)域中的加法運(yùn)算,使得信號(hào)可運(yùn)用滿足疊加性的線性系統(tǒng)進(jìn)行處理。復(fù)倒一潛涉及復(fù)對(duì)數(shù)運(yùn)算,而倒譜只進(jìn) 行實(shí)數(shù)的對(duì)數(shù)運(yùn)算,較復(fù)倒譜的運(yùn)算量大大減少。對(duì)語(yǔ)音信號(hào)的某一幀同樣可以分析出它的短時(shí)倒譜參數(shù),總的說(shuō)來(lái),無(wú)論對(duì)于語(yǔ)音通信、語(yǔ)音合成或語(yǔ)音識(shí)別,倒譜參數(shù)所含的信息比其他參數(shù)多,也就是語(yǔ)音質(zhì)量好,識(shí)別正確率高。但其缺點(diǎn)是運(yùn)算量比其他參數(shù)大,盡管如此,倒譜分析方法仍不失為一種有效的語(yǔ)音信號(hào)的分析方法。3.語(yǔ)音信號(hào)數(shù)字濾波數(shù)字濾波是

12、數(shù)字信號(hào)分析中最重要的組成部分之一,與模擬濾波相比,它具有精度和穩(wěn)定性高、系統(tǒng)函數(shù)容易改變、靈活性強(qiáng)、便于大規(guī)模集成和可實(shí)現(xiàn)多維濾波等優(yōu)點(diǎn)。在信號(hào)的過(guò)濾、檢測(cè)和參數(shù)的估計(jì)等方面,經(jīng)典數(shù)字濾波器是使用最廣泛的一種線性系統(tǒng)。 數(shù)字濾波器是指完成信號(hào)濾波處理功能的,用有限精度算法實(shí)現(xiàn)的離散時(shí)間線性非時(shí)變系統(tǒng),其輸入是一組數(shù)字量,其輸出是經(jīng)過(guò)變換的另一組數(shù)字量。因此,數(shù)字濾波器本身既可以是用數(shù)字硬件裝配成的一臺(tái)完成給定運(yùn)算的專用的數(shù)字計(jì)算機(jī),也可以將所需要的運(yùn)算編成程序,讓通用計(jì)算機(jī)來(lái)執(zhí)行。從數(shù)字濾波器的單位沖擊響應(yīng)來(lái)看,可以分為兩大類:有限沖擊響應(yīng)(FIR)數(shù)字濾波器和無(wú)限沖擊響應(yīng)(IIR

13、)數(shù)字濾波器。濾波器按功能上分可以分為低通濾波器(LPF)、高通濾波器(HPF)、帶通濾波器(BPF)、帶阻濾波器(BSF)。在很多實(shí)際應(yīng)用中如語(yǔ)音和音頻信號(hào)處理中,數(shù)字濾波器來(lái)實(shí)現(xiàn)選頻功能。因此,指標(biāo)的形式應(yīng)為頻域中的幅度和相位響應(yīng)。在通帶中,通常希望具有線性相位響應(yīng)。在FIR濾波器中可以得到精確的線性相位。FIR濾波器傳遞函數(shù)的極點(diǎn)是固定在原點(diǎn),是不能動(dòng)的,它只能靠改變零點(diǎn)位置來(lái)改變它的性能,所以要達(dá)到高的選擇性,必須用高的階數(shù),對(duì)于同樣的濾波器設(shè)計(jì)指標(biāo),F(xiàn)IR濾波器所要求的階數(shù)可能比IIR濾波器高5-10倍,結(jié)果成本高信號(hào)延時(shí)也較大,如果按線性相位要求來(lái)說(shuō),則IIR濾波器就必須加全通網(wǎng)絡(luò)

14、進(jìn)行相位校正,同樣大大增加了濾波器的階數(shù)和復(fù)雜性。而FIR濾波器卻可以得到嚴(yán)格的線性相位。語(yǔ)音信號(hào)“guxiang1”的時(shí)域及頻譜濾波后的圖形如圖5所示。圖5語(yǔ)音信號(hào)的時(shí)域及頻譜濾波后波形圖由圖可知,濾波對(duì)波形影響不大,但對(duì)高頻有較大衰減。在討論由模擬濾波器變換為數(shù)字濾波器時(shí),普遍采用的是雙線性變換法,它保留的是從模擬到數(shù)字域的系統(tǒng)函數(shù)表示。在濾波器的選取時(shí),由于設(shè)計(jì)方法的側(cè)重點(diǎn)不同,作出比較是困難的。如果在IIR 濾波器情況下,最優(yōu)的設(shè)計(jì)將是橢圓濾波器。我們以雙線性變換法設(shè)計(jì)數(shù)字橢圓濾波器為例,分別給出低通、高通、帶通、帶阻四種情況下濾波前后信號(hào)的波形和頻譜進(jìn)行比較。4. 數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是

15、指改變音頻格式中的采樣頻率或量化位數(shù)。轉(zhuǎn)換原理是:先用矩陣插值或抽取技術(shù)實(shí)現(xiàn)變量變換,如果是抽取數(shù)據(jù)還需在變換前作濾波處理使之滿足采樣定理;變量變換完成后再用 audiowrite 函數(shù)重新定義量化位數(shù)和采樣頻率即可實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換過(guò)程中,要注意采樣頻率與原始采樣頻率及插值或抽取系數(shù)的關(guān)系。語(yǔ)音信號(hào)“guxiang1”的不同采樣頻率下的波形圖,圖中上部分為時(shí)域及其頻譜圖,中間圖為原采樣率下的波形圖及頻譜圖,下面的圖為新采樣頻率下的新波形圖及頻譜圖。圖6 不同采樣率下的波形圖及頻譜圖由圖可知,在滿足采樣定律條件下,實(shí)現(xiàn)數(shù)據(jù)抽取,在原采樣率下波形變密、頻譜變寬且幅度減半,但在新采樣率下波形和

16、頻譜都很好。 通過(guò)試聽(tīng)輸出文件還可感受處理效果。五、總結(jié)語(yǔ)音信號(hào)采集與分析是以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處理為基礎(chǔ)而形成的一門(mén)涉及面很廣的綜合性學(xué)科。語(yǔ)音是一種信號(hào),是一種特殊的向量matlab軟件是進(jìn)行數(shù)字信號(hào)分析與處理必不可少的一門(mén)工具。利用matlab豐富的應(yīng)用函數(shù)如:audioread,audioplay,audiowrite,fopen,fprintf, fclose等,實(shí)現(xiàn)了對(duì)wav類型的音頻文件的信號(hào)采集和綜合分析,借助matlab 程序設(shè)計(jì)實(shí)現(xiàn)對(duì)音頻信號(hào)的密碼設(shè)置,借matlab 數(shù)據(jù)接口建立文本文檔,利用相關(guān)分析函數(shù)對(duì)預(yù)留語(yǔ)音信號(hào)頻譜和試驗(yàn)者語(yǔ)音信號(hào)頻譜進(jìn)行相關(guān)分析從而實(shí)現(xiàn)語(yǔ)音識(shí)別,為文本文檔加密。從而對(duì)整個(gè)數(shù)字音頻信號(hào)的處理方法做了一個(gè)全面而系統(tǒng)的實(shí)踐。雖然在仿真過(guò)程中我遇到了許多困難與挫折,對(duì)matlab了解不足致使編寫(xiě)matlab程序困難等。通過(guò)查找資料向師兄請(qǐng)教,不斷和同學(xué)討論,以及大量查找文獻(xiàn)資料,不斷調(diào)試程序等努力,最終也自己操作運(yùn)行了一些實(shí)例,但是還是知道自己欠缺很多,運(yùn)行的這些實(shí)例沒(méi)沒(méi)有很強(qiáng)的系統(tǒng)性。通過(guò)這些實(shí)例的結(jié)果驗(yàn)證了課本上的知識(shí),對(duì)這些知識(shí)的理解有了更深的理解,加深了印象。不過(guò)時(shí)間有限,自己本身的能力也有欠缺的地方,不能將所學(xué)的知識(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論