《數(shù)字語音處理》課件_第1頁
《數(shù)字語音處理》課件_第2頁
《數(shù)字語音處理》課件_第3頁
《數(shù)字語音處理》課件_第4頁
《數(shù)字語音處理》課件_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)字語音處理李香春?數(shù)字語音處理?教學(xué)大綱課程名稱:數(shù)字語音處理課程英文名稱:DIGITALSPEECHPROCESSING總學(xué)時:32講課學(xué)時:32學(xué)分:2開課單位:信息學(xué)部通信工程系授課對象:電子信息工程專業(yè)及通信工程專業(yè)先修課程:信號與系統(tǒng)數(shù)字信號處理根底

?數(shù)字語音處理?教學(xué)大綱學(xué)時安排學(xué)時安排第五章短時傅里葉分析〔共4學(xué)時〕第六章語音信號的線性預(yù)測〔共3學(xué)時〕 線性預(yù)測分析根本原理,基于自相關(guān)的線性預(yù)測分析。第七章語音信號的同態(tài)預(yù)測和倒譜分析〔共4學(xué)時〕第八章矢量量化〔共4學(xué)時〕 矢量量化的根本原理、特征矢量及畸變準那么的選擇,LBG算法。第九章隱馬爾科夫模型〔共4學(xué)時〕第十章數(shù)字語音處理的應(yīng)用〔共2學(xué)時〕考核方式方式1:平時:小測驗4次,占總成績的70%-80%期末:總結(jié)報告,占總成績的20%-30%方式2:平時:報告1份,占總成績的20%-30%期末:閉卷考試,總成績的70%-80%1.緒論語音信號處理的研究內(nèi)容語音信號處理的開展歷史講授內(nèi)容語音信號處理的研究內(nèi)容語音信號的數(shù)字表示方法如何選擇表示方法?保存消息內(nèi)容便于傳輸和貯存便于變換和處理不能嚴重損害消息內(nèi)容波形表示法波形表示法

取樣波形表示法量化后的波形參數(shù)表示法參數(shù)表示法:語音信號看成是某個模型在一定鼓勵作用下產(chǎn)生的輸出,而鼓勵源和模型的參數(shù)便作為語音信號的表示。 W=f(A,B)A鼓勵,B模型參數(shù) 例:產(chǎn)生“信息學(xué)部〞的語音信號 W=f〔信息學(xué)部,140〕

語音信號處理的應(yīng)用語音壓縮和編碼:語音通信數(shù)字化;語音合成:自動報站、自動報時、自動警告、自動查詢和語音提示等;語音識別:聲控應(yīng)用、自動口語翻譯;說話認識別:平安加密、銀行信息查詢效勞以及破案和法庭取證;語音增強:通常作為語音處理的前端。1874年的創(chuàng)造,貝爾〔Bell〕;1939年聲碼器的研制成功—語音是由人的聲帶振動而產(chǎn)生的聲源〔載波〕受到運動的聲道控制〔調(diào)制〕產(chǎn)生的;語音處理的開展歷史〔1〕語音處理的開展歷史〔2〕1947年貝爾實驗室創(chuàng)造語譜圖儀—語音信號研究的開始;一男性說“歡送光臨〞的寬帶語譜圖語音處理的開展歷史〔3〕講授內(nèi)容語音信號產(chǎn)生的數(shù)字模型語音信號處理方法語音波形編碼方法短時處理方法〔時頻域〕線性預(yù)測、倒譜、矢量量化隱含馬爾科夫模型〔HMM〕語音信號處理的應(yīng)用語音壓縮、合成、識別、增強2.語音信號產(chǎn)生的數(shù)字模型人類語音的產(chǎn)生過程復(fù)雜信息豐富多樣至今尚未找到理想模型來描述語音產(chǎn)生過程Fant于1960年提出的線性模型是模擬語音主要特征的比較成功的模型之一人類發(fā)音的生理過程語音信號的聲學(xué)特性2.1人類的語言器官人體發(fā)音器官—肺、氣管、喉〔包括聲帶〕和聲道肺是語音產(chǎn)生的能源所在;聲帶為產(chǎn)生語音提供主要的鼓勵源;聲道是指聲門至嘴唇的所有器官:咽、鼻腔、口腔等,它們具有非均勻截面,且隨時間變化,起共鳴器〔或諧振器〕的作用。人類的語言器官(a)閉合狀態(tài)-濁音(b)張開狀態(tài)-清音甲狀腺軟骨2.2語音產(chǎn)生過程〔1〕濁音產(chǎn)生機理濁音——聲帶繃緊,氣流使聲帶產(chǎn)生張弛振動,即聲帶將周期性的啟開和閉合。例如:a,o,e。聲帶開啟:氣流從聲門噴射出來,形成脈沖。聲帶閉合:對應(yīng)于脈沖序列的間隙期。開啟閉合2.2語音產(chǎn)生過程〔2〕清音和爆破音產(chǎn)生機理清音——聲帶完全舒展,聲道某個部位收縮形成的狹窄通道,氣流被迫以高速通過,并在附近產(chǎn)生空氣的湍流,形成摩擦音〔清音〕,例如:s、x。爆破音——聲帶完全舒展,聲道某個部位完全閉合,氣流遇阻產(chǎn)生壓力,一旦閉合點突然開啟便會讓氣壓快速釋放,形成爆破音,例如:b、p。2.2語音產(chǎn)生過程〔3〕語音:空氣流鼓勵聲道產(chǎn)生激勵源聲道氣流2.2語音產(chǎn)生過程〔4〕鼓勵源濁音:位于聲門處的準周期脈沖,由聲帶振動形成。脈沖周期、脈沖寬度以及脈沖形狀與聲帶的長度、厚度及張力等參數(shù)有關(guān)。聲帶越短、厚度越薄、張力越大,聽起來的感覺的音調(diào)越高。清音:位于聲道的某個收縮區(qū)的聲音湍流〔類似于噪聲〕爆破音:位于聲道某個閉合點處建立起來的氣壓及其突然釋放。2.2聲道聲道:一根具有非均勻截面的聲管,在發(fā)音時起著共鳴器的作用。2.2共振峰〔formant):聲道是一個諧振腔,當鼓勵的頻率到達至聲道的固有頻率,那么聲道會以最大的振幅振蕩,此時的頻率稱之為共振峰或共振峰頻率。聲道具有一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個峰的頻帶寬度。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸,因而不同的語音對應(yīng)于一組不同的共振峰參數(shù)。實際應(yīng)用中,頭三個共振峰最重要。2.2共振峰與語譜圖一男性說“歡送光臨〞的寬帶語譜圖2.2共振峰的計算理想狀態(tài)下共振峰的計算:假設(shè)聲道截面是均勻的〔此時可把聲道看作一個粗細均勻的圓筒〕,從喉到唇的距離L=17cm,音速c=340m/s,那么共振峰將發(fā)生在:2.3語音信號的線性產(chǎn)生模型2.3語音信號的線性產(chǎn)生模型由此模型框圖,我們可將語音信號看成準周期序列或隨機噪聲序列作為鼓勵的線性非移變系統(tǒng)的輸出,此模型可分為三個部分:(1)鼓勵模型(2)聲道模型(3)輻射模型2.3.1鼓勵模型濁音鼓勵模型:發(fā)濁音時聲帶繃緊,聲帶不斷張開和關(guān)閉產(chǎn)生的脈沖波,類似于斜三角波清音鼓勵模型:聲帶處于松弛狀態(tài),不發(fā)生振動,氣流通過聲門直接進入聲道,氣流被阻礙形成湍流,相當于隨機白噪聲

2.3.1鼓勵模型(a)濁音鼓勵數(shù)字模型中可用周期為T0單位取樣序列串作為聲門脈沖模型g(n)的輸入,其輸出就是濁音鼓勵。由于人類語音的頻率范圍主要集中在300Hz~3400Hz,數(shù)字模型中的信號取樣率一般為8KHz。2.3.1鼓勵模型L為三角波斜上升時間,K為斜三角波下降時間,兩者均為整數(shù)那么鼓勵為:是一個以基音周期T0為周期的斜三角波脈沖串序列。聲門脈沖模型2.3.1鼓勵模型由左邊的頻譜圖可知聲門脈沖模型是一個低通濾波器,一個二級點模型。2.3.1鼓勵模型(b)清音鼓勵在發(fā)清音時,聲帶處于松弛狀態(tài),不發(fā)生振動,氣流通過聲門直接進入聲道,所有的清輔音都屬于這種情況。無論是擦音還是塞音,聲道都被阻礙形成湍流,所以鼓勵信號相當于隨機白噪聲。實際上可以用均值為0,均方差為1并在幅值上為平穩(wěn)分布的序列,具體實現(xiàn)時可采用隨機噪聲發(fā)生器來產(chǎn)生此序列。鼓勵模型應(yīng)該指出,單純的將語音信號分成受周期脈沖鼓勵和受噪音鼓勵兩種情況,與實際情況不完全相符。有時即便將兩種鼓勵情況按照一定比例疊加,也不能刻畫某些語音,如濁擦音。模型的內(nèi)部結(jié)構(gòu)并不和語音產(chǎn)生的物理過程一致,這種模型和真實模型只是在輸出處等效。模型是“短時的〞,其中G(Z)和R(Z)不變,而基音頻率、清濁開關(guān)、增益、聲道參數(shù)ak都是時變的;

聲道參數(shù)在10~30ms的范圍內(nèi)近似不變;

鼓勵參數(shù)在5ms左右近似不變。語音信號處理的兩個根本問題:語音分析與合成,都是基于這個模型來實現(xiàn)的。還有更復(fù)雜更精細的模型。2.3.2聲道模型兩種建模方法:(a)聲管模型(b)共振峰模型

共振峰模型將聲道視為一個諧振腔,基于各種音素發(fā)音的不同諧振特點可建立起三種實用的共振峰模型: (a)級聯(lián)型(b)并聯(lián)型(c)混合型由于人耳聽覺的柯蒂氏器官的毛細胞是按照頻率感受來排列其位置的,所以共振峰模型很有效,經(jīng)常被使用。2.3.2聲道模型--共振峰模型

1、級聯(lián)型:適用于一般單元音,認為聲道是一組串聯(lián)的二階諧振器:這是一個全極點模型,極點就是這個多項式的根:假設(shè)P為偶數(shù),解其根會得到共扼復(fù)數(shù)(conjugatecomplex)的根,表示成:2.3.2聲道模型--共振峰模型上式中,P是全極點濾波器的階,一般在8-12范圍內(nèi)取值,它的每一對極點對應(yīng)一個共振峰。a為聲道模型參數(shù),它隨聲道的調(diào)音運動而不斷變化。2.3.2聲道模型--共振峰模型2、并聯(lián)型適用于鼻音、復(fù)合元音及大局部輔音,發(fā)這些音時發(fā)音腔體具有反諧振特性,必須在模型中參加零點以減弱諧振強度,故要考慮用零、極點模型:通常P>R,假設(shè)分子與分母無公因子且分母無重根,那么此式可分解為以下局部分式之和的形式:這就是并聯(lián)型共振峰模型,每一個二階因式對應(yīng)一個共振峰。每個二階諧振器的幅度可單獨控制。2.3.2聲道模型--共振峰模型前面兩種共振峰模型各自都只能適用于局部語音,級聯(lián)或并聯(lián)的級數(shù)取決于聲道的長度,一般成人取3到5級。級聯(lián)型結(jié)構(gòu)較為簡單,并聯(lián)型各諧振器幅度可獨立控制,綜合考慮兩者的優(yōu)缺點可將兩種共振峰模型有機地結(jié)合起來就得到一種較為完備的共振峰模型?;旌闲凸舱穹迥P筒⒙?lián)局部,從第一到第五共振峰的幅度都可以獨立的進行控制和調(diào)節(jié),用來模擬輔音頻譜特性中的能量集中區(qū)。此外,在并聯(lián)局部還有一條直通路徑,其幅度為控制因子AB,這是專門為一些頻譜特性比較平坦的音素〔如f,p,b等〕而考慮的。2.3.3輻射模型

在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出來,到達聽者耳朵的這段過程,聲音信號會衰減,而且有高通濾波的特性。常用一個一階的數(shù)字高通濾波器模擬這個現(xiàn)象,這個濾波器又叫做輻射模型(radiationmodel):完整的數(shù)字模型的系統(tǒng)函數(shù):鼓勵模型聲道模型輻射模型2.3語音信號的線性產(chǎn)生模型-小結(jié)1.語音產(chǎn)生的線性模型并非最完備的模型,因為它對一些音是不適用的如濁音中的摩擦音,這種音要有發(fā)濁音和清音的兩種鼓勵,而不是簡單的疊加關(guān)系,對這些音我們可用更精確的模型來模擬。2.語音產(chǎn)生的數(shù)字模型中增益控制〔對Av或AN〕代表了輸出語音的音響強度;時變線性系統(tǒng)主要用來模擬聲道的特性;3.數(shù)字語音處理中兩個根本問題,--語音分析和語音合成,都是基于這個模型來實現(xiàn)的;4.線性產(chǎn)生模型的特點:系統(tǒng)參數(shù)固定不變—短時分析;全極點性質(zhì)—零點可由多個極點逼近;鼓勵源和聲道互相獨立—適用于大多數(shù)數(shù)字語音處理。2.4語音信號的特性語音學(xué)和語言學(xué)概要語音的聲學(xué)特性語音的時間波形和頻譜特性語音信號的統(tǒng)計特性語言學(xué)和語音學(xué)概要對語音學(xué)和語言學(xué)的詳盡討論對我們來講離題太遠,但是對語音信號加以處理以改善或提取信息時,如果我們對語音信號的結(jié)構(gòu)(信號中信息編碼的方法)有盡可能多的知識那么是很有幫助的。1.語言學(xué):是以人類的語言為研究對象的一門科學(xué),主要對控制語音中各個音的排列規(guī)那么及其含義進行研究。語言(Language)是從千百萬個人的言語(Speech)中概括總結(jié)出來的規(guī)律性的符號系統(tǒng)。所以,研究語言首先要了解一下人的言語(說話)過程。語言學(xué)和語音學(xué)概要人的說話過程分為五個階段(1)想說階段:人的說話首先是客觀現(xiàn)實在大腦中的反映,經(jīng)大腦的決策產(chǎn)生了說話的動機;接著講話神經(jīng)中樞選擇恰當?shù)膯卧~、短語以及按語法規(guī)那么的組合,以表達他想說的內(nèi)容和情感。這個階段與大腦中樞的活動有關(guān)。(2)說出階段:由上階段中樞的決策,以脈沖形式向發(fā)音器官發(fā)出指令,使它們各自相關(guān)的肌肉協(xié)調(diào)地動作發(fā)出聲音來。另外還開動另一個“反響系統(tǒng)〞即講話者的聽覺系統(tǒng),來幫助修正語音。(3)傳送階段:說出來的話語是一連串的聲波,憑借空氣為媒介傳到聽話者耳中。(4)接收階段:聽話者從外耳收集到的聲波信息,經(jīng)過中耳的放大作用,到達內(nèi)耳,經(jīng)內(nèi)耳基底內(nèi)膜振動轉(zhuǎn)化為耳蝸內(nèi)的毛細胞的電位變化,由聽覺神經(jīng)傳給大腦。(5)理解階段:講話者大腦聽覺神經(jīng)中樞收到脈沖信息后,識別出說話的人及其所說的信息,從而聽懂講話者的話。語言學(xué)和語音學(xué)概要從五個階段來看,言語的過程包含著相當復(fù)雜的因素,其中有心理的、生理的、物理的以及個人的和社會的因素。這里,個人的因素還指講話者的口音和用詞造句的特色以及聽話者的聽音和理解能力;社會的因素那么是指講話者和聽話音對用于進行交際的手段有共同的理解的社會根底。語言是從言語中概括出來的一個符號系統(tǒng)。包括形式和內(nèi)容兩個方面,即語音的形式和語義的內(nèi)容。將這兩個根本要素相結(jié)合起來,可以構(gòu)成語言的語素、詞、短語和句子等的不同層次的單位;這個構(gòu)成規(guī)那么就是語法。目前我們可以利用語法和語義信息減小語音識別中搜索匹配范圍,提高語音識別率。語言學(xué)和語音學(xué)概要2.語音學(xué):研究語音中各個音的物理特征和分類的學(xué)科。從某種意義上講,語音學(xué)與語音信號處理這門學(xué)科聯(lián)系更緊密。大多數(shù)語言包括漢語在內(nèi)可以用一組不同的音即音素來加以描述。對于漢語來說約有六十個音素,包括元音、復(fù)合元音和輔音。研究語音學(xué)的途徑有很多種,例如語言學(xué)家研究音素的不同特性或特征。而對我們來講,只要研究不同的聲學(xué)特征就夠了,這包括發(fā)音的部位、姿態(tài)、波形和這些聲音的頻譜即語譜特征。本章后面幾個話題均以語音學(xué)為根底。語音的聲學(xué)特性1.物理屬性—音色、音調(diào)、音強和音長;音色:也叫音質(zhì),是一種聲音區(qū)別于另一種聲音的根本特征,是由聲道的位置和形狀決定。音調(diào):聲音的上下,決定于聲波的頻率的上下,而聲波頻率的上下又由語音的基音頻率F0所決定。F0高那么音調(diào)高,低那么音調(diào)低。一般說來,老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強:聲音的強弱,由聲波的振幅所決定。音長:聲音的長短,取決于發(fā)音時間的長短。2.4.2語音的聲學(xué)特性2.語音的構(gòu)成—音節(jié)(syllable)、音素音素(phoneme):語音發(fā)音的最小單位。分類:(1)國際標準分類清音:發(fā)清音時聲帶不振動。濁音:發(fā)濁音時聲帶振動。(2)我國傳統(tǒng)分類元音(韻母):是當聲帶振動發(fā)出的聲音氣流在聲道中不受阻礙,這種情況下產(chǎn)生的語音稱為元音。元音屬于濁音。輔音(聲母):從聲門呼出的聲音氣流,在聲道通路中某一局部封閉起來或受到阻礙不能暢通,為克服發(fā)音器官的這種阻礙而產(chǎn)生的語音稱為輔音。2.4.2語音的聲學(xué)特性音節(jié):說話時一次發(fā)出的,具有一個響亮的中心,并被明顯感覺到的語音片段。一個音節(jié)可由一個音素或幾個音素構(gòu)成。音節(jié)最典型的結(jié)構(gòu),就是以一個元音或雙元音(diphthong)為主體,其前面或后面可能連接一個或多個輔音。3.漢語語音的特點—聲、韻、調(diào),音節(jié)在漢語中占有主要地位,它是由聲母、韻母和聲調(diào)按一定的方式構(gòu)成的,是語言的最小使用單位;音節(jié)結(jié)構(gòu)簡單,與其它語言相比漢語語音音節(jié)和音素都很少。2.4.2語音的聲學(xué)特性4.語義:語音總是和一定的意義相聯(lián)系著,一定的語音要表達一定的思想和意義;另外,語音還能表達出一定的語氣、情感,甚至表達許多“言外之意〞。5.元音的共振峰特性:元音構(gòu)成一個音節(jié)的主干,無論從發(fā)音長度還是從能量看,元音在音節(jié)中都占主要局部。所以有必要在此研究一下元音的共振峰特性或者說研究其頻譜特性。2.4.2語音的聲學(xué)特性影響元音共振峰特性的發(fā)音機制:(1)舌頭的形狀——卷舌音〔e〕、平舌音(2)舌頭在口腔中的位置,簡稱舌位;(3)嘴唇的形狀,即口形;其中由舌位的上下前后位置改變,可以發(fā)出不同的音素,也就是說舌位與元音的共振峰特性有密切關(guān)系。男人60~200Hz女人150~300Hz小孩200~4002.4.2語音的聲學(xué)特性圖4-1漢語單元音舌位梯形圖(1)F1與舌位上下有關(guān),舌位越高F1越低;由于舌位越低嘴張得越大,也稱舌位上下為開口度。(2)F2與舌位前后密切相關(guān),舌位越靠前F2就越高。(3)F1、F2和嘴唇的圓展程度有關(guān),嘴唇越圓,F1、F2越低。(4)F3與舌位關(guān)系不密切,但受舌尖活動影響;舌尖抬高卷起時F3就明顯下降。1、語音信號的時頻特性波形特性語音信號幅度動態(tài)范圍一般最大為40分貝,實際由于說話人的差異可以到達60~70分貝。元音幅度較大,有準周期性;清輔音幅度小,和噪聲特性相似。在長時間的語音信號中有相當多的無信號區(qū)間,即所謂的語音寂靜區(qū)間。幅度概率密度函數(shù)以零幅和近似零幅的概率高,而幅度非常高的情況概率很小。長時平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽瑪(Gamma)分布逼近。對于短時幅度概率密度用高斯分布逼近就夠了。語音信號波形是語音聲波經(jīng)過聲-電轉(zhuǎn)換器得到的連續(xù)時間函數(shù);波形圖是語音幅度隨時間變化的二維圖。波形以振幅隨時間變化為特征,綜合的表達了語音的全部信息:包括語音的內(nèi)容、音調(diào)、音質(zhì)、相對音量變化等;長時平均幅度的概率密度分布伽瑪函數(shù)逼近的效果最好,其次是拉普拉斯函數(shù),而高斯分布逼近效果最差。語音信號的振幅通常都趨向于集中在低電平范圍內(nèi)。語音信號相鄰樣值之間存在很大的相關(guān)性短時自相關(guān)函數(shù)和長時自相關(guān)函數(shù)可以用來描述語音的幅度特性語音信號的相鄰取樣值之間的相關(guān)性是很大的;相關(guān)性隨著取樣值之間的間隔的加大而迅速減弱;頻率特性帶寬有限

一般為20~3400Hz,有限的帶寬特性決定了可以用有限的奈奎斯特取樣速率,把語音信號離散化功率譜密度語音中不同頻譜分量的平均概率可以用長時平均譜密度來表示。語音波形高頻分量對語音總能量的奉獻很小,但是高頻分量帶有重要的語音信息,平均功率譜約在250-500Hz處最大,而高于此頻率的功率譜約以每倍頻程6~10dB下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論