工學(xué)數(shù)字語(yǔ)音處理1-2章課件_第1頁(yè)
工學(xué)數(shù)字語(yǔ)音處理1-2章課件_第2頁(yè)
工學(xué)數(shù)字語(yǔ)音處理1-2章課件_第3頁(yè)
工學(xué)數(shù)字語(yǔ)音處理1-2章課件_第4頁(yè)
工學(xué)數(shù)字語(yǔ)音處理1-2章課件_第5頁(yè)
已閱讀5頁(yè),還剩149頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語(yǔ)音信號(hào)處理天行健君子以自強(qiáng)不息

語(yǔ)音信號(hào)處理天行健君子以自強(qiáng)不息1教材1.

《語(yǔ)音信號(hào)處理》(修訂版)胡航哈爾濱工業(yè)大學(xué)出版社教材1.《語(yǔ)音信號(hào)處理》(修訂版)胡航2參考資料1.《語(yǔ)音信號(hào)數(shù)字處理》LawrenceRabiner,19832.《語(yǔ)音識(shí)別基本原理》LawrenceRabiner,1999參考資料1.《語(yǔ)音信號(hào)數(shù)字處理》LawrenceRabi3第一章緒論數(shù)字語(yǔ)音處理研究的內(nèi)容語(yǔ)音處理的發(fā)展歷史返回

下一章第一章緒論數(shù)字語(yǔ)音處理研究的內(nèi)容4語(yǔ)音信息的重要性人類從大自然獲取信息的分布圖語(yǔ)音信息的重要性人類從大自然獲取信息的分布圖5數(shù)字語(yǔ)音處理研究的內(nèi)容語(yǔ)音信號(hào)處理的實(shí)質(zhì)語(yǔ)音信號(hào)的數(shù)字表示語(yǔ)音信號(hào)數(shù)字處理的方法和技術(shù)數(shù)字語(yǔ)音處理的應(yīng)用返回?cái)?shù)字語(yǔ)音處理研究的內(nèi)容語(yǔ)音信號(hào)處理的實(shí)質(zhì)61.語(yǔ)音信號(hào)處理的實(shí)質(zhì)1.實(shí)質(zhì):是研究用數(shù)字信號(hào)處理技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行處理的一門學(xué)科2目的:通過處理得到一些反映語(yǔ)音信號(hào)重要特征的語(yǔ)音參數(shù)以便高效地傳輸或儲(chǔ)存語(yǔ)音信號(hào)所包含的信息。通過對(duì)語(yǔ)音信號(hào)進(jìn)行某種運(yùn)算以達(dá)到某種要求。1.語(yǔ)音信號(hào)處理的實(shí)質(zhì)1.實(shí)質(zhì):是研究用數(shù)字信號(hào)處理技術(shù)對(duì)語(yǔ)71.語(yǔ)音信號(hào)處理的實(shí)質(zhì)3.學(xué)科基礎(chǔ):以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處理為基礎(chǔ)而形成的一門涉及面很廣的學(xué)科,與心理學(xué)、生理學(xué)、計(jì)算機(jī)科學(xué)、通信與信息科學(xué)、模式識(shí)別和人工智能等學(xué)科均有密切的關(guān)系。

返回1.語(yǔ)音信號(hào)處理的實(shí)質(zhì)3.學(xué)科基礎(chǔ):以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處81.語(yǔ)音信號(hào)處理的基本內(nèi)容說的是什么內(nèi)容?是誰(shuí)在說話?計(jì)算機(jī)去說話?怎么把話說好?····語(yǔ)音識(shí)別··········說話人識(shí)別/確認(rèn)········文語(yǔ)轉(zhuǎn)換···說話水平評(píng)估說的是什么語(yǔ)言?····語(yǔ)種識(shí)別1.語(yǔ)音信號(hào)處理的基本內(nèi)容說的是什么內(nèi)容?是誰(shuí)在說話?計(jì)算機(jī)92.語(yǔ)音信號(hào)的數(shù)字表示語(yǔ)音表示方法的選擇要保存語(yǔ)音信號(hào)中的消息內(nèi)容;表示形式要便于傳輸和存儲(chǔ)、變換和處理,不至于嚴(yán)重?fù)p害消息的內(nèi)容,有用信息更易于被提??;2.語(yǔ)音信號(hào)數(shù)字表示的優(yōu)點(diǎn)數(shù)字技術(shù)能完成許多很復(fù)雜的信號(hào)處理工作;語(yǔ)音可以看成是音素的組合,具有離散的性質(zhì),特別適合于數(shù)字處理;2.語(yǔ)音信號(hào)的數(shù)字表示語(yǔ)音表示方法的選擇102.語(yǔ)音信號(hào)的表示數(shù)字系統(tǒng)具有高可靠性、價(jià)廉、緊湊、快速等特點(diǎn),很容易完成實(shí)時(shí)處理任務(wù);數(shù)字語(yǔ)音適于在強(qiáng)干擾信道中傳輸,易于和數(shù)據(jù)一起在通信網(wǎng)中傳輸,也易于進(jìn)行加密傳輸。語(yǔ)音信號(hào)的數(shù)字表示方法波形表示—采樣和量化,保持波形參數(shù)表示—激勵(lì)源和模型參數(shù)(第二章)2.語(yǔ)音信號(hào)的表示數(shù)字系統(tǒng)具有高可靠性、價(jià)廉、緊湊、快速等11語(yǔ)音信號(hào)波形表示示例一些常用的語(yǔ)音波形分析與處理的軟件CooleditGoldenwaveSFSNerowaveeditPraat語(yǔ)音信號(hào)波形表示示例一些常用的語(yǔ)音波形分析與處理的軟件12CooleditPro界面返回CooleditPro界面返回133.語(yǔ)音信號(hào)的數(shù)字處理方法語(yǔ)音信號(hào)的特點(diǎn)—短時(shí)平穩(wěn)性短時(shí)時(shí)域處理方法—短時(shí)能量、短時(shí)平均過零率以及短時(shí)自相關(guān)函數(shù)計(jì)算短時(shí)頻域分析—短時(shí)傅立葉分析線性預(yù)測(cè)技術(shù)—本質(zhì)上屬于時(shí)域分析方法,但其結(jié)果可以是頻域參數(shù)倒譜和同態(tài)分析、矢量量化和隱馬爾可夫模型3.語(yǔ)音信號(hào)的數(shù)字處理方法語(yǔ)音信號(hào)的特點(diǎn)—短時(shí)平穩(wěn)性14語(yǔ)音信號(hào)的特點(diǎn)—短時(shí)平穩(wěn)性語(yǔ)音信號(hào)的特點(diǎn)—短時(shí)平穩(wěn)性15語(yǔ)音信號(hào)數(shù)字處理基本過程以降低語(yǔ)音發(fā)音速率的處理過程為例語(yǔ)音信號(hào)數(shù)字處理基本過程以16語(yǔ)音信號(hào)數(shù)字處理基本過程連續(xù)語(yǔ)音波形->A/D轉(zhuǎn)換->離散時(shí)間信號(hào)->用數(shù)字系統(tǒng)進(jìn)行處理->修改后的離散時(shí)間信號(hào)->D/A變換->模擬波形

返回語(yǔ)音信號(hào)數(shù)字處理基本過程連續(xù)語(yǔ)音波形174.數(shù)字語(yǔ)音處理的應(yīng)用語(yǔ)音壓縮和編碼—語(yǔ)音通信數(shù)字化;語(yǔ)音合成—自動(dòng)報(bào)站、自動(dòng)報(bào)時(shí)、自動(dòng)警告、電話自動(dòng)查詢和語(yǔ)音提示等;語(yǔ)音識(shí)別—聲控應(yīng)用、自動(dòng)口語(yǔ)翻譯;說話人識(shí)別—安全加密、銀行信息電話查詢服務(wù)以及破案和法庭取證;語(yǔ)音增強(qiáng)—通常作為語(yǔ)音處理的前端。

4.數(shù)字語(yǔ)音處理的應(yīng)用語(yǔ)音壓縮和編碼—語(yǔ)音通信數(shù)字化;18各種語(yǔ)音產(chǎn)品返回各種語(yǔ)音產(chǎn)品返回19語(yǔ)音處理的發(fā)展歷史1876年電話的發(fā)明,貝爾(Bell);1939年聲碼器的研制成功—聲源+聲道;1947年貝爾實(shí)驗(yàn)室發(fā)明語(yǔ)譜圖儀—語(yǔ)音識(shí)別研究的開始;50年代第一臺(tái)口授打字機(jī)和英語(yǔ)單詞語(yǔ)音識(shí)別器;60年代出現(xiàn)了第一臺(tái)以數(shù)字計(jì)算機(jī)為基礎(chǔ)的孤立詞語(yǔ)音識(shí)別器和有限連續(xù)語(yǔ)音識(shí)別器;語(yǔ)音處理的發(fā)展歷史1876年電話的發(fā)明,貝爾(Bell);20語(yǔ)音處理的發(fā)展歷史70年代動(dòng)態(tài)規(guī)劃技術(shù)、隱馬爾可夫模型、線性預(yù)測(cè)技術(shù)和矢量量化碼書生成方法用于語(yǔ)音編碼和識(shí)別;80、90年代語(yǔ)音處理技術(shù)產(chǎn)品化—IBMTangora-5和Tangora-20英語(yǔ)聽寫機(jī),DragonDictate詞匯翻譯系統(tǒng)(70000),viavoice漢語(yǔ)聽寫機(jī)。CMU語(yǔ)音組研制成功SPHINX系統(tǒng)(識(shí)別率達(dá)95.8%);國(guó)內(nèi),清華大學(xué)、中科院聲學(xué)所和中科院自動(dòng)化所在漢語(yǔ)聽寫機(jī)研究方面有一定成果。返回語(yǔ)音處理的發(fā)展歷史70年代動(dòng)態(tài)規(guī)劃技術(shù)、隱馬爾可夫模型、線性21第二章基礎(chǔ)知識(shí)人類的語(yǔ)言器官語(yǔ)音產(chǎn)生過程語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型語(yǔ)音信號(hào)的特性人類的聽覺功能返回

下一章第二章基礎(chǔ)知識(shí)人類的語(yǔ)言器官221.人類的語(yǔ)言器官人類能以語(yǔ)言溝通,進(jìn)而累積知識(shí),形成文化,其中一個(gè)主要的原因,就是人類具有較其它生物優(yōu)越的發(fā)音器官。人類的發(fā)音器官能夠產(chǎn)生多樣性的聲音,構(gòu)成豐富的詞匯,無(wú)疑是最關(guān)鍵的因素。1.人類的語(yǔ)言器官人類能以語(yǔ)言溝通,進(jìn)而累積知231.人類的語(yǔ)言器官人體發(fā)音器官—肺、氣管、喉(包括聲帶)和聲道,肺是語(yǔ)音產(chǎn)生的能源所在;聲帶為產(chǎn)生語(yǔ)音提供主要的激勵(lì)源;聲道是指聲門至嘴唇的所有器官:咽、鼻腔、口腔等,它們具有非均勻截面,且隨時(shí)間變化,起共鳴器(或諧振器)的作用。1.人類的語(yǔ)言器官人體發(fā)音器官—肺、氣管、喉(包括聲帶)和241.人類的語(yǔ)言器官注:喉部以上的部分統(tǒng)稱為聲道;氣管和肺在聲門以下1.人類的語(yǔ)言器官注:喉部以上的部分統(tǒng)稱為聲道;氣管和肺在251.人類的語(yǔ)言器官圖2-2

最重要的發(fā)音器官之一:聲帶(a)閉合狀態(tài)(b)張開狀態(tài)甲狀軟骨杓狀軟骨環(huán)狀軟骨聲門聲帶(聲襞)返回1.人類的語(yǔ)言器官圖2-2最重要的發(fā)音器官之一:聲帶262.

語(yǔ)

產(chǎn)

程發(fā)音機(jī)理肺聲帶聲道恒定氣流聲音嘴唇聲壓波速度波能源激勵(lì)源諧振腔輻射源變化氣流2.

語(yǔ)

產(chǎn)

程發(fā)音機(jī)理肺聲帶聲道恒定氣流聲音嘴272.語(yǔ)音產(chǎn)生過程語(yǔ)音的形成過程—空氣由肺部排入喉部,經(jīng)過聲帶進(jìn)入聲道,最后由嘴輻射出聲波,形成語(yǔ)音。濁音:聲帶繃緊,氣流通過時(shí)會(huì)使得開口變成一開一閉的周期性動(dòng)作,這時(shí)候就造成周期性的激發(fā)氣流,如a,o;清音:聲帶完全舒展,聲道某部位收縮形成一個(gè)狹窄的通道,產(chǎn)生空氣湍流,如h,d;爆破音:聲帶完全舒展,聲道的某部位完全閉合,一旦閉合點(diǎn)突然開啟,空氣壓力快速釋放,如b,p。2.語(yǔ)音產(chǎn)生過程語(yǔ)音的形成過程—空氣由肺部排入喉部,經(jīng)282.語(yǔ)音產(chǎn)生過程語(yǔ)音的兩個(gè)重要聲學(xué)特性:濁音的基音頻率(F0):由聲帶的尺寸、特性和聲帶所受張力決定,其值等于聲帶張開和閉合一次的時(shí)間的倒數(shù)。人類基音頻率的范圍在60Hz至450Hz左右。2.語(yǔ)音產(chǎn)生過程語(yǔ)音的兩個(gè)重要聲學(xué)特性:292.語(yǔ)音產(chǎn)生過程語(yǔ)音的兩個(gè)重要聲學(xué)特性:共振峰(Fn,n=1,2,...):聲道是一個(gè)諧振腔,它放大聲音氣流的某些頻率分量而衰減其他頻率分量,被放大的頻率我們稱之為共振峰或共振峰頻率。聲道具有的一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個(gè)峰的頻帶寬度。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸,因而不同的語(yǔ)音對(duì)應(yīng)于一組不同的共振峰參數(shù)。實(shí)際應(yīng)用中,頭三個(gè)共振峰最重要。2.語(yǔ)音產(chǎn)生過程語(yǔ)音的兩個(gè)重要聲學(xué)特性:302.語(yǔ)音產(chǎn)生過程理想狀態(tài)下共振峰的計(jì)算:假設(shè)聲道截面是均勻的(此時(shí)可把聲道看作一個(gè)粗細(xì)均勻的圓筒),從喉到唇的距離L=17cm,音速c=340m/s,則共振峰將發(fā)生在:

返回2.語(yǔ)音產(chǎn)生過程理想狀態(tài)下共振峰的計(jì)算:假設(shè)聲道截面是均勻312.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音可以直接用它的時(shí)間波形來(lái)表示,根據(jù)時(shí)間波形可以看出語(yǔ)音信號(hào)的一些主要特性。就其本性而言,語(yǔ)音波形是時(shí)間的連續(xù)函數(shù),其統(tǒng)計(jì)特性是隨時(shí)間而變化的,但比較緩慢,10~30ms2.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音可以直接用它的時(shí)間波形來(lái)322.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音的頻譜特性由聲道的形狀和尺寸決定,隨時(shí)間變化——短時(shí)譜(清濁音的不同、對(duì)數(shù)和線性振幅譜);語(yǔ)譜圖(濁音和清音的不同、寬帶和窄帶語(yǔ)譜圖)2.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音的頻譜特性由聲道的形狀和尺332.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性342.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性352.3語(yǔ)音的時(shí)間波形和頻譜特性元音信號(hào)的頻譜2.3語(yǔ)音的時(shí)間波形和頻譜特性元音信號(hào)的頻譜362.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性372.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性382.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性392.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音信號(hào)時(shí)域波形示意圖:靜息波

脈沖波(清塞音)準(zhǔn)周期波(濁音)噪聲波(摩擦音)2.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音信號(hào)時(shí)域波形示意圖:402.3語(yǔ)音的時(shí)間波形和頻譜特性聲音的語(yǔ)譜圖2.3語(yǔ)音的時(shí)間波形和頻譜特性聲音的語(yǔ)譜圖412.3語(yǔ)音的時(shí)間波形和頻譜特性窄頻帶的語(yǔ)譜圖(narrowbandspectrograms)語(yǔ)譜圖的產(chǎn)生是用傅里葉轉(zhuǎn)換(Fouriertransform),當(dāng)我們用較長(zhǎng)的分析窗口(analysiswindows),約20ms,對(duì)應(yīng)頻寬約為45Hz,得到的頻率分辨率較高,頻譜上可以看到諧振的成分。在語(yǔ)譜圖上呈現(xiàn)等距的黑白相間橫線條,其間距就是基頻(F0)。2.3語(yǔ)音的時(shí)間波形和頻譜特性窄頻帶的語(yǔ)譜圖(narrowb422.3語(yǔ)音的時(shí)間波形和頻譜特性寬頻帶的語(yǔ)譜圖(widebandspectrograms)若是在轉(zhuǎn)換演算時(shí)用較少的取樣點(diǎn),分析窗口大約3ms,對(duì)應(yīng)頻寬約300Hz,則頻譜上看不到諧振成分,在語(yǔ)譜圖上看不到等距的黑白相間。頻率分辨率較低,反而是時(shí)軸上的分辨率較高,看到明顯的垂直線條。2.3語(yǔ)音的時(shí)間波形和頻譜特性寬頻帶的語(yǔ)譜圖(wideban432.3語(yǔ)音的時(shí)間波形和頻譜特性共振峰(formant)在頻域上,能量集中處就是共振峰(formant)之所在,在語(yǔ)譜圖上就是顏色較深的位置。在發(fā)元音時(shí),音強(qiáng)較大,聲帶振動(dòng)而呈現(xiàn)出基頻及其諧振頻率,也可以明顯看到共振峰,能量集中在低頻。如果是發(fā)輔音,而且聲帶不振動(dòng),就看不到諧振頻率。通常輔音的音強(qiáng)小,顏色看來(lái)就比較淡,而且能量較集中在高頻。若是在沒有語(yǔ)音的空檔,則語(yǔ)譜圖上呈現(xiàn)的,就是有一段空白。2.3語(yǔ)音的時(shí)間波形和頻譜特性共振峰(formant)442.3語(yǔ)音的時(shí)間波形和頻譜特性元音與輔音的聲學(xué)特性(一)元音發(fā)元音的聲音時(shí),聲帶是振動(dòng)的,音強(qiáng)也較大,波形上可以看到大的振幅,而且呈現(xiàn)周期性。其周期就是音高周期,對(duì)應(yīng)的頻率就是基頻,通常以F0表示。正常說話時(shí),元音的音長(zhǎng)大約是50到400ms之間。元音在頻譜上會(huì)呈現(xiàn)能量集中的現(xiàn)象,集中處的頻帶稱為共振峰。在5kHz的語(yǔ)音頻帶范圍內(nèi),會(huì)有5個(gè)共振峰,分別以F1﹑F2﹑F3﹑F4﹑與F5代表,其中F1﹑F2與F3比較明顯。2.3語(yǔ)音的時(shí)間波形和頻譜特性元音與輔音的聲學(xué)特性452.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-3三個(gè)元音的語(yǔ)譜圖(分別對(duì)應(yīng)漢語(yǔ)拼音的元音i,a,u)2.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-3三個(gè)元音的語(yǔ)譜圖(462.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-4雙元音在語(yǔ)譜圖上共振峰轉(zhuǎn)移(過渡)的現(xiàn)象分別對(duì)應(yīng)漢語(yǔ)拼音的雙元音ai,ei,ao,ou2.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-4雙元音在語(yǔ)譜圖上共472.3語(yǔ)音的時(shí)間波形和頻譜特性(二)輔音輔音是對(duì)元音的前或后作修飾。帶聲的輔音會(huì)有類似元音的共振峰,因?yàn)槁晭д駝?dòng),所以和元音一樣有諧振的成分,但相對(duì)于元音,能量小得多。不帶聲的摩擦音(如f,s,sh,x,h)類似噪音,能量?jī)A向在高頻。發(fā)鼻音時(shí),鼻腔的共振效果使得低頻成分受到壓抑,雖然是聲帶振動(dòng)而有共振峰,但低頻的共振峰能量較弱。下圖分別對(duì)應(yīng)漢語(yǔ)拼音輔音:b,p,m,f,j,q,x,zh,ch,sh2.3語(yǔ)音的時(shí)間波形和頻譜特性(二)輔音482.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-5塞音(或爆破音)出現(xiàn)在元音前的例子下圖分別對(duì)應(yīng)ba,da,ga,pa,ta,ka在一個(gè)音節(jié)的開始若有塞音,當(dāng)氣流放出之后,隨著就發(fā)元音,聲帶開始振動(dòng),在語(yǔ)譜圖上可以觀察到一小段時(shí)間之后,才有明顯的共振峰出現(xiàn),這一小段時(shí)間就叫做嗓音的起始時(shí)間(voiceonsettime),簡(jiǎn)稱VOT。返回2.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-5塞音(或爆破音)出492.3語(yǔ)音信號(hào)的統(tǒng)計(jì)特性語(yǔ)音信號(hào)可以看成是一個(gè)遍歷性隨機(jī)過程的樣本函數(shù);語(yǔ)音信號(hào)的統(tǒng)計(jì)特性可以用它的振幅概率密度函數(shù)和一些平均量(均值和自相關(guān)函數(shù))來(lái)描述——概率密度的估算、逼近方法及意義;自相關(guān)函數(shù)的估計(jì)及影響因素(語(yǔ)音段和濾波情況);語(yǔ)音信號(hào)的統(tǒng)計(jì)特性也可以用功率譜來(lái)描述——長(zhǎng)期平均功率譜可以用周期圖來(lái)估計(jì);返回2.3語(yǔ)音信號(hào)的統(tǒng)計(jì)特性語(yǔ)音信號(hào)可以看成是一個(gè)遍歷性隨機(jī)過程502.3語(yǔ)音信號(hào)的統(tǒng)計(jì)特性長(zhǎng)時(shí)平均幅度的概率密度分布2.3語(yǔ)音信號(hào)的統(tǒng)計(jì)特性長(zhǎng)時(shí)平均幅度的概率密度分布512.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型在研究了發(fā)聲器官和語(yǔ)音的產(chǎn)生過程以后,便可以建立一個(gè)離散時(shí)域的語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型,它將是我們將數(shù)字信號(hào)處理技術(shù)應(yīng)用于語(yǔ)音信號(hào)的基礎(chǔ)。下圖是一個(gè)完整的語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型:2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型在研究了發(fā)聲器官和語(yǔ)音的產(chǎn)生522.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型由此模型框圖,我們可將語(yǔ)音信號(hào)看成準(zhǔn)周期序列或隨機(jī)噪聲序列作為激勵(lì)的線性非移變系統(tǒng)的輸出,此模型可分為三個(gè)部分:(1)激勵(lì)模型(2)聲道模型(3)輻射模型(1)激勵(lì)模型根據(jù)發(fā)濁音和發(fā)清音的機(jī)理又分為:(a)濁音激勵(lì)(b)清音激勵(lì)2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型由此模型框圖,我們可將語(yǔ)音信532.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)濁音激勵(lì)由前面所講發(fā)音過程可知,發(fā)濁音時(shí)聲帶不斷地張開和閉合將產(chǎn)生間歇的準(zhǔn)周期性脈沖波,其周期為基音周期,單個(gè)脈沖的波形類似于斜三角波,故數(shù)字模型中可用周期為T0單位取樣序列串作為聲門脈沖模型g(n)的輸入,其輸出就是濁音激勵(lì)。由于人類語(yǔ)音的頻率范圍主要集中在300Hz~3400Hz,數(shù)字模型中的信號(hào)取樣率一般為8KHz。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)濁音激勵(lì)542.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型聲門脈沖模型數(shù)學(xué)表達(dá)式(L為斜三角波上升時(shí)間,K為斜三角波下降時(shí)間,兩者均為整數(shù))由語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型激勵(lì)部分可知是一個(gè)以基音周期T0為周期的斜三角波脈沖串序列。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型聲門脈沖模型數(shù)學(xué)表達(dá)式(L為552.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型上述公式中參數(shù)T0為數(shù)字信號(hào)的取樣間隔,由左邊聲門脈沖模型的頻譜圖可知聲門脈沖模型是一個(gè)低通濾波器,一個(gè)二級(jí)點(diǎn)模型。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型上述公式中參數(shù)T0為562.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)清音激勵(lì)發(fā)清音時(shí)聲道被阻礙形成湍流,所以可把清音激勵(lì)模擬成隨機(jī)白噪聲。此處用均值為0方差為1并在幅值上為平穩(wěn)分布的序列,具體實(shí)現(xiàn)時(shí)可采用隨機(jī)噪聲發(fā)生器來(lái)產(chǎn)生此序列。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)清音激勵(lì)572.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型兩種建模方法:(a)聲管模型(b)共振峰模型共振峰模型將聲道視為一個(gè)諧振腔,按此原則導(dǎo)出?;诟鞣N音素發(fā)音的不同諧振特點(diǎn)可建立起三種實(shí)用的共振峰模型:(a)級(jí)聯(lián)型(b)并聯(lián)型(c)混合型2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型582.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2)聲管模型2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2)聲管模型592.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)級(jí)聯(lián)型:適用于一般單元音,認(rèn)為聲道是一組串聯(lián)的二階諧振器:這是一個(gè)全極點(diǎn)模型,極點(diǎn)就是這個(gè)多項(xiàng)式的根:若P為偶數(shù),解其根會(huì)得到共軛復(fù)數(shù)對(duì)的根,表示成:2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)級(jí)聯(lián)型:這是一個(gè)全極點(diǎn)602.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型F=1/T--取樣頻率

i/--共振峰的頻寬。Fi是--共振峰(formant)的中心頻率這樣分解則每一個(gè)二階因式均對(duì)應(yīng)一個(gè)共振峰,其幅頻特性是典型的二階諧振特性,諧振中心頻率值等于共振峰。若把語(yǔ)音的各個(gè)共振峰所對(duì)應(yīng)的二階系統(tǒng)級(jí)聯(lián)起來(lái)就形成了一個(gè)完整的級(jí)聯(lián)型聲道模型,且具有明顯的諧振特性。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型F=1/T--取樣612.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)級(jí)聯(lián)型:2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)級(jí)聯(lián)型:622.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)并聯(lián)型適用于鼻音、復(fù)合元音及大部分輔音,發(fā)這些音時(shí)發(fā)音腔體具有反諧振特性,必須在模型中加入零點(diǎn)以減弱諧振強(qiáng)度,故要考慮用零、極點(diǎn)模型:通常P>R,假設(shè)分子與分母無(wú)公因子且分母無(wú)重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個(gè)二階因式對(duì)應(yīng)一個(gè)共振峰。每個(gè)二階諧振器的幅度可單獨(dú)控制。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)并聯(lián)型通常P>R,假設(shè)632.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)并聯(lián)型2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)并聯(lián)型642.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型前面兩種共振峰模型各自都只能適用于部分語(yǔ)音,級(jí)聯(lián)或并聯(lián)的級(jí)數(shù)取決于聲道的長(zhǎng)度,一般成人取3到5級(jí)。級(jí)聯(lián)型結(jié)構(gòu)較為簡(jiǎn)單,并聯(lián)型各諧振器幅度可獨(dú)立控制,綜合考慮兩者的優(yōu)缺點(diǎn)可將兩種共振峰模型有機(jī)地結(jié)合起來(lái)就得到一種較為完備的共振峰模型。(c)混合型我們可以根據(jù)發(fā)音的需要自動(dòng)切換串聯(lián)或并聯(lián)通路,此外并聯(lián)部分還有一條直通路徑,其幅度控制因子為AB,這是專為一些頻譜特性較為平坦的音素如[f]、[p]、[b]而考慮的,以增強(qiáng)反諧振特性。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型前面兩種共振峰模型各自都只能652.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(c)混合型幅度控制因子AB專為一些頻譜特性比較平坦的音素,如[f],[p],[b]所考慮的。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(c)混合型幅度控制因子AB662.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(3)輻射模型在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出來(lái),到達(dá)聽者耳朵的這段過程,聲音信號(hào)會(huì)衰減,而且有高通濾波的特性,我們常用一個(gè)一階的數(shù)字高通濾波器擬這個(gè)現(xiàn)象,這個(gè)濾波器又叫做輻射模型(radiationmodel),其數(shù)學(xué)式如下完整的數(shù)字模型的系統(tǒng)函數(shù):2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(3)輻射模型完整的數(shù)字模型672.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型總結(jié):1.此模型并非最完備的模型,因?yàn)樗鼘?duì)一些音是不適用的如濁音中的摩擦音,這種音要有發(fā)濁音和清音的兩種激勵(lì),而不是簡(jiǎn)單的疊加關(guān)系,對(duì)這些音我們可用更精確的模型來(lái)模擬。2.語(yǔ)音產(chǎn)生的數(shù)字模型中增益控制(對(duì)Av或AN)代表了輸出語(yǔ)音的音響強(qiáng)度;時(shí)變線性系統(tǒng)主要用來(lái)模擬聲道的特性;3.數(shù)字語(yǔ)音處理中兩個(gè)基本問題,即語(yǔ)音分析和語(yǔ)音合成,都是基于這個(gè)模型來(lái)實(shí)現(xiàn)的;4.此數(shù)字模型的特點(diǎn):系統(tǒng)參數(shù)固定不變—短時(shí)分析;全極點(diǎn)性質(zhì)—零點(diǎn)可由多個(gè)極點(diǎn)逼近;激勵(lì)源和聲道互相獨(dú)立—適用于大多數(shù)數(shù)字語(yǔ)音處理。返回2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型總結(jié):682.5.人類的聽覺功能用語(yǔ)言作溝通,就是說話的人能讓對(duì)方聽懂他在說些什么,雙方用說與聽來(lái)達(dá)成信息交換與感情交流。而語(yǔ)言的學(xué)習(xí)過程,更是不斷地聽,然后學(xué)習(xí)會(huì)說,所以語(yǔ)言與聽覺有密切的關(guān)聯(lián)性。本節(jié)將說明人類聽覺器官的構(gòu)造,以及如何聽聲音。并且對(duì)于人耳在聽覺上的一個(gè)重要特性,聽覺掩蔽效應(yīng)做了簡(jiǎn)要敘述,這是語(yǔ)音處理中常常會(huì)用到的聽覺特性。2.5.人類的聽覺功能用語(yǔ)言作溝通,就是說話的人能692.5.人類的聽覺功能圖5-1聽覺器官簡(jiǎn)圖2.5.人類的聽覺功能圖5-1聽覺器官簡(jiǎn)圖702.5.人類的聽覺功能圖5-2聽覺過程2.5.人類的聽覺功能圖5-2聽覺過程712.5.人類的聽覺功能外耳

從耳翼(pinnas)到鼓膜(eardrum)這一段叫做外耳。耳翼的功能在幫助判斷聲音的來(lái)源方向,它對(duì)于聽者前方來(lái)的聲音比較敏感。

耳翼到鼓膜之間的通道叫做耳道(meatus)

,這是一個(gè)長(zhǎng)約2.7公分直徑約0.7公分的通道。對(duì)于聲波的傳播而言,這條通道等于是一個(gè)四分之一波長(zhǎng)的共振腔,它的第一個(gè)共振頻率大約是3kHz,這個(gè)共振作用將3~5kHz的聲波放大15dB左右,因此使得我們的聽覺對(duì)于3~5kHz的頻率范圍比較敏感。2.5.人類的聽覺功能外耳722.5.人類的聽覺功能中耳

在鼓膜與耳蝸之間有一個(gè)大約6立方公分的小空間,稱之為中耳。在這個(gè)小空間內(nèi),有三塊小骨頭,分別是槌骨(hammer,或稱為malleus),砧骨(anvil或稱為incus)與鐙骨(stapes,或稱為stirrup)。槌骨黏接在鼓膜上,聲波造成的空氣振動(dòng)會(huì)使鼓膜振動(dòng),進(jìn)而推動(dòng)槌骨的振動(dòng),鐙骨貼在耳蝸的橢圓形窗(ovalwindow)上,槌骨的振動(dòng)經(jīng)過砧骨與鐙骨的傳遞,將振動(dòng)信號(hào)傳到耳蝸內(nèi)的淋巴液,所以中耳可以看成是聲波到淋巴液的信號(hào)轉(zhuǎn)換,在此轉(zhuǎn)換過程中,對(duì)于1kHz以上的信號(hào)做了-15dB/10倍頻程的衰減,可以看成是一個(gè)低通濾波器(lowpassfilter)。2.5.人類的聽覺功能中耳732.5.人類的聽覺功能人類在分辨聲音時(shí),是取決于頻域上的分辨率,聽覺器官等于是將時(shí)域的聲音波形轉(zhuǎn)換成在頻域的頻譜,能否聽到聲音或分辨聲音,是取決于音強(qiáng)(intensity)與頻譜(spectrum)。一般人的聽覺器官可以感知頻率范圍16Hz到18kHz的聲音,動(dòng)態(tài)范圍約1000倍。超出人類聽覺感知范圍,如20kHz以上的聲波,我們稱之為超音波(ultrasonic)。人耳對(duì)于1kHz到5kHz的聲音最為敏感,但是對(duì)于1kHz以下與5kHz以上的聲音,就要較大的音強(qiáng)才聽得到。2.5.人類的聽覺功能人類在分辨聲音時(shí),是取決于頻域上的分742.5.人類的聽覺功能人類聽覺的范圍2.5.人類的聽覺功能人類聽覺的范圍752.5.人類的聽覺功能掩蔽效應(yīng)(maskingeffect)當(dāng)一個(gè)聲音存在時(shí),它會(huì)將另一個(gè)聲音的感知臨界值提高,也就是說當(dāng)某一頻率的聲音,有一特定音強(qiáng)存在時(shí),另一個(gè)不同頻率的聲音要將音強(qiáng)提高才會(huì)被聽到,這就是聽覺掩蔽效應(yīng)。

同時(shí)存在的聲音,常常是低頻的聲音傾向于掩蔽掉高頻的聲音,這是一種頻率掩蔽(frequencymasking)的現(xiàn)象。某一段時(shí)間存在一個(gè)聲音,在此聲音剛結(jié)束的一小段時(shí)間內(nèi),其它的聲音會(huì)聽不見這種掩蔽現(xiàn)象叫做時(shí)間掩蔽(temporalmasking)。這個(gè)現(xiàn)象也會(huì)發(fā)生在此存在聲音之前,這是由于聲音在聽覺器官中傳遞時(shí)延遲所造成的。2.5.人類的聽覺功能掩蔽效應(yīng)(maskingeffec762.5.人類的聽覺功能頻率掩蔽的情形2.5.人類的聽覺功能頻率掩蔽的情形77語(yǔ)音信號(hào)處理天行健君子以自強(qiáng)不息

語(yǔ)音信號(hào)處理天行健君子以自強(qiáng)不息78教材1.

《語(yǔ)音信號(hào)處理》(修訂版)胡航哈爾濱工業(yè)大學(xué)出版社教材1.《語(yǔ)音信號(hào)處理》(修訂版)胡航79參考資料1.《語(yǔ)音信號(hào)數(shù)字處理》LawrenceRabiner,19832.《語(yǔ)音識(shí)別基本原理》LawrenceRabiner,1999參考資料1.《語(yǔ)音信號(hào)數(shù)字處理》LawrenceRabi80第一章緒論數(shù)字語(yǔ)音處理研究的內(nèi)容語(yǔ)音處理的發(fā)展歷史返回

下一章第一章緒論數(shù)字語(yǔ)音處理研究的內(nèi)容81語(yǔ)音信息的重要性人類從大自然獲取信息的分布圖語(yǔ)音信息的重要性人類從大自然獲取信息的分布圖82數(shù)字語(yǔ)音處理研究的內(nèi)容語(yǔ)音信號(hào)處理的實(shí)質(zhì)語(yǔ)音信號(hào)的數(shù)字表示語(yǔ)音信號(hào)數(shù)字處理的方法和技術(shù)數(shù)字語(yǔ)音處理的應(yīng)用返回?cái)?shù)字語(yǔ)音處理研究的內(nèi)容語(yǔ)音信號(hào)處理的實(shí)質(zhì)831.語(yǔ)音信號(hào)處理的實(shí)質(zhì)1.實(shí)質(zhì):是研究用數(shù)字信號(hào)處理技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行處理的一門學(xué)科2目的:通過處理得到一些反映語(yǔ)音信號(hào)重要特征的語(yǔ)音參數(shù)以便高效地傳輸或儲(chǔ)存語(yǔ)音信號(hào)所包含的信息。通過對(duì)語(yǔ)音信號(hào)進(jìn)行某種運(yùn)算以達(dá)到某種要求。1.語(yǔ)音信號(hào)處理的實(shí)質(zhì)1.實(shí)質(zhì):是研究用數(shù)字信號(hào)處理技術(shù)對(duì)語(yǔ)841.語(yǔ)音信號(hào)處理的實(shí)質(zhì)3.學(xué)科基礎(chǔ):以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處理為基礎(chǔ)而形成的一門涉及面很廣的學(xué)科,與心理學(xué)、生理學(xué)、計(jì)算機(jī)科學(xué)、通信與信息科學(xué)、模式識(shí)別和人工智能等學(xué)科均有密切的關(guān)系。

返回1.語(yǔ)音信號(hào)處理的實(shí)質(zhì)3.學(xué)科基礎(chǔ):以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處851.語(yǔ)音信號(hào)處理的基本內(nèi)容說的是什么內(nèi)容?是誰(shuí)在說話?計(jì)算機(jī)去說話?怎么把話說好?····語(yǔ)音識(shí)別··········說話人識(shí)別/確認(rèn)········文語(yǔ)轉(zhuǎn)換···說話水平評(píng)估說的是什么語(yǔ)言?····語(yǔ)種識(shí)別1.語(yǔ)音信號(hào)處理的基本內(nèi)容說的是什么內(nèi)容?是誰(shuí)在說話?計(jì)算機(jī)862.語(yǔ)音信號(hào)的數(shù)字表示語(yǔ)音表示方法的選擇要保存語(yǔ)音信號(hào)中的消息內(nèi)容;表示形式要便于傳輸和存儲(chǔ)、變換和處理,不至于嚴(yán)重?fù)p害消息的內(nèi)容,有用信息更易于被提取;2.語(yǔ)音信號(hào)數(shù)字表示的優(yōu)點(diǎn)數(shù)字技術(shù)能完成許多很復(fù)雜的信號(hào)處理工作;語(yǔ)音可以看成是音素的組合,具有離散的性質(zhì),特別適合于數(shù)字處理;2.語(yǔ)音信號(hào)的數(shù)字表示語(yǔ)音表示方法的選擇872.語(yǔ)音信號(hào)的表示數(shù)字系統(tǒng)具有高可靠性、價(jià)廉、緊湊、快速等特點(diǎn),很容易完成實(shí)時(shí)處理任務(wù);數(shù)字語(yǔ)音適于在強(qiáng)干擾信道中傳輸,易于和數(shù)據(jù)一起在通信網(wǎng)中傳輸,也易于進(jìn)行加密傳輸。語(yǔ)音信號(hào)的數(shù)字表示方法波形表示—采樣和量化,保持波形參數(shù)表示—激勵(lì)源和模型參數(shù)(第二章)2.語(yǔ)音信號(hào)的表示數(shù)字系統(tǒng)具有高可靠性、價(jià)廉、緊湊、快速等88語(yǔ)音信號(hào)波形表示示例一些常用的語(yǔ)音波形分析與處理的軟件CooleditGoldenwaveSFSNerowaveeditPraat語(yǔ)音信號(hào)波形表示示例一些常用的語(yǔ)音波形分析與處理的軟件89CooleditPro界面返回CooleditPro界面返回903.語(yǔ)音信號(hào)的數(shù)字處理方法語(yǔ)音信號(hào)的特點(diǎn)—短時(shí)平穩(wěn)性短時(shí)時(shí)域處理方法—短時(shí)能量、短時(shí)平均過零率以及短時(shí)自相關(guān)函數(shù)計(jì)算短時(shí)頻域分析—短時(shí)傅立葉分析線性預(yù)測(cè)技術(shù)—本質(zhì)上屬于時(shí)域分析方法,但其結(jié)果可以是頻域參數(shù)倒譜和同態(tài)分析、矢量量化和隱馬爾可夫模型3.語(yǔ)音信號(hào)的數(shù)字處理方法語(yǔ)音信號(hào)的特點(diǎn)—短時(shí)平穩(wěn)性91語(yǔ)音信號(hào)的特點(diǎn)—短時(shí)平穩(wěn)性語(yǔ)音信號(hào)的特點(diǎn)—短時(shí)平穩(wěn)性92語(yǔ)音信號(hào)數(shù)字處理基本過程以降低語(yǔ)音發(fā)音速率的處理過程為例語(yǔ)音信號(hào)數(shù)字處理基本過程以93語(yǔ)音信號(hào)數(shù)字處理基本過程連續(xù)語(yǔ)音波形->A/D轉(zhuǎn)換->離散時(shí)間信號(hào)->用數(shù)字系統(tǒng)進(jìn)行處理->修改后的離散時(shí)間信號(hào)->D/A變換->模擬波形

返回語(yǔ)音信號(hào)數(shù)字處理基本過程連續(xù)語(yǔ)音波形944.數(shù)字語(yǔ)音處理的應(yīng)用語(yǔ)音壓縮和編碼—語(yǔ)音通信數(shù)字化;語(yǔ)音合成—自動(dòng)報(bào)站、自動(dòng)報(bào)時(shí)、自動(dòng)警告、電話自動(dòng)查詢和語(yǔ)音提示等;語(yǔ)音識(shí)別—聲控應(yīng)用、自動(dòng)口語(yǔ)翻譯;說話人識(shí)別—安全加密、銀行信息電話查詢服務(wù)以及破案和法庭取證;語(yǔ)音增強(qiáng)—通常作為語(yǔ)音處理的前端。

4.數(shù)字語(yǔ)音處理的應(yīng)用語(yǔ)音壓縮和編碼—語(yǔ)音通信數(shù)字化;95各種語(yǔ)音產(chǎn)品返回各種語(yǔ)音產(chǎn)品返回96語(yǔ)音處理的發(fā)展歷史1876年電話的發(fā)明,貝爾(Bell);1939年聲碼器的研制成功—聲源+聲道;1947年貝爾實(shí)驗(yàn)室發(fā)明語(yǔ)譜圖儀—語(yǔ)音識(shí)別研究的開始;50年代第一臺(tái)口授打字機(jī)和英語(yǔ)單詞語(yǔ)音識(shí)別器;60年代出現(xiàn)了第一臺(tái)以數(shù)字計(jì)算機(jī)為基礎(chǔ)的孤立詞語(yǔ)音識(shí)別器和有限連續(xù)語(yǔ)音識(shí)別器;語(yǔ)音處理的發(fā)展歷史1876年電話的發(fā)明,貝爾(Bell);97語(yǔ)音處理的發(fā)展歷史70年代動(dòng)態(tài)規(guī)劃技術(shù)、隱馬爾可夫模型、線性預(yù)測(cè)技術(shù)和矢量量化碼書生成方法用于語(yǔ)音編碼和識(shí)別;80、90年代語(yǔ)音處理技術(shù)產(chǎn)品化—IBMTangora-5和Tangora-20英語(yǔ)聽寫機(jī),DragonDictate詞匯翻譯系統(tǒng)(70000),viavoice漢語(yǔ)聽寫機(jī)。CMU語(yǔ)音組研制成功SPHINX系統(tǒng)(識(shí)別率達(dá)95.8%);國(guó)內(nèi),清華大學(xué)、中科院聲學(xué)所和中科院自動(dòng)化所在漢語(yǔ)聽寫機(jī)研究方面有一定成果。返回語(yǔ)音處理的發(fā)展歷史70年代動(dòng)態(tài)規(guī)劃技術(shù)、隱馬爾可夫模型、線性98第二章基礎(chǔ)知識(shí)人類的語(yǔ)言器官語(yǔ)音產(chǎn)生過程語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型語(yǔ)音信號(hào)的特性人類的聽覺功能返回

下一章第二章基礎(chǔ)知識(shí)人類的語(yǔ)言器官991.人類的語(yǔ)言器官人類能以語(yǔ)言溝通,進(jìn)而累積知識(shí),形成文化,其中一個(gè)主要的原因,就是人類具有較其它生物優(yōu)越的發(fā)音器官。人類的發(fā)音器官能夠產(chǎn)生多樣性的聲音,構(gòu)成豐富的詞匯,無(wú)疑是最關(guān)鍵的因素。1.人類的語(yǔ)言器官人類能以語(yǔ)言溝通,進(jìn)而累積知1001.人類的語(yǔ)言器官人體發(fā)音器官—肺、氣管、喉(包括聲帶)和聲道,肺是語(yǔ)音產(chǎn)生的能源所在;聲帶為產(chǎn)生語(yǔ)音提供主要的激勵(lì)源;聲道是指聲門至嘴唇的所有器官:咽、鼻腔、口腔等,它們具有非均勻截面,且隨時(shí)間變化,起共鳴器(或諧振器)的作用。1.人類的語(yǔ)言器官人體發(fā)音器官—肺、氣管、喉(包括聲帶)和1011.人類的語(yǔ)言器官注:喉部以上的部分統(tǒng)稱為聲道;氣管和肺在聲門以下1.人類的語(yǔ)言器官注:喉部以上的部分統(tǒng)稱為聲道;氣管和肺在1021.人類的語(yǔ)言器官圖2-2

最重要的發(fā)音器官之一:聲帶(a)閉合狀態(tài)(b)張開狀態(tài)甲狀軟骨杓狀軟骨環(huán)狀軟骨聲門聲帶(聲襞)返回1.人類的語(yǔ)言器官圖2-2最重要的發(fā)音器官之一:聲帶1032.

語(yǔ)

產(chǎn)

程發(fā)音機(jī)理肺聲帶聲道恒定氣流聲音嘴唇聲壓波速度波能源激勵(lì)源諧振腔輻射源變化氣流2.

語(yǔ)

產(chǎn)

程發(fā)音機(jī)理肺聲帶聲道恒定氣流聲音嘴1042.語(yǔ)音產(chǎn)生過程語(yǔ)音的形成過程—空氣由肺部排入喉部,經(jīng)過聲帶進(jìn)入聲道,最后由嘴輻射出聲波,形成語(yǔ)音。濁音:聲帶繃緊,氣流通過時(shí)會(huì)使得開口變成一開一閉的周期性動(dòng)作,這時(shí)候就造成周期性的激發(fā)氣流,如a,o;清音:聲帶完全舒展,聲道某部位收縮形成一個(gè)狹窄的通道,產(chǎn)生空氣湍流,如h,d;爆破音:聲帶完全舒展,聲道的某部位完全閉合,一旦閉合點(diǎn)突然開啟,空氣壓力快速釋放,如b,p。2.語(yǔ)音產(chǎn)生過程語(yǔ)音的形成過程—空氣由肺部排入喉部,經(jīng)1052.語(yǔ)音產(chǎn)生過程語(yǔ)音的兩個(gè)重要聲學(xué)特性:濁音的基音頻率(F0):由聲帶的尺寸、特性和聲帶所受張力決定,其值等于聲帶張開和閉合一次的時(shí)間的倒數(shù)。人類基音頻率的范圍在60Hz至450Hz左右。2.語(yǔ)音產(chǎn)生過程語(yǔ)音的兩個(gè)重要聲學(xué)特性:1062.語(yǔ)音產(chǎn)生過程語(yǔ)音的兩個(gè)重要聲學(xué)特性:共振峰(Fn,n=1,2,...):聲道是一個(gè)諧振腔,它放大聲音氣流的某些頻率分量而衰減其他頻率分量,被放大的頻率我們稱之為共振峰或共振峰頻率。聲道具有的一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個(gè)峰的頻帶寬度。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸,因而不同的語(yǔ)音對(duì)應(yīng)于一組不同的共振峰參數(shù)。實(shí)際應(yīng)用中,頭三個(gè)共振峰最重要。2.語(yǔ)音產(chǎn)生過程語(yǔ)音的兩個(gè)重要聲學(xué)特性:1072.語(yǔ)音產(chǎn)生過程理想狀態(tài)下共振峰的計(jì)算:假設(shè)聲道截面是均勻的(此時(shí)可把聲道看作一個(gè)粗細(xì)均勻的圓筒),從喉到唇的距離L=17cm,音速c=340m/s,則共振峰將發(fā)生在:

返回2.語(yǔ)音產(chǎn)生過程理想狀態(tài)下共振峰的計(jì)算:假設(shè)聲道截面是均勻1082.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音可以直接用它的時(shí)間波形來(lái)表示,根據(jù)時(shí)間波形可以看出語(yǔ)音信號(hào)的一些主要特性。就其本性而言,語(yǔ)音波形是時(shí)間的連續(xù)函數(shù),其統(tǒng)計(jì)特性是隨時(shí)間而變化的,但比較緩慢,10~30ms2.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音可以直接用它的時(shí)間波形來(lái)1092.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音的頻譜特性由聲道的形狀和尺寸決定,隨時(shí)間變化——短時(shí)譜(清濁音的不同、對(duì)數(shù)和線性振幅譜);語(yǔ)譜圖(濁音和清音的不同、寬帶和窄帶語(yǔ)譜圖)2.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音的頻譜特性由聲道的形狀和尺1102.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性1112.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性1122.3語(yǔ)音的時(shí)間波形和頻譜特性元音信號(hào)的頻譜2.3語(yǔ)音的時(shí)間波形和頻譜特性元音信號(hào)的頻譜1132.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性1142.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性1152.3語(yǔ)音的時(shí)間波形和頻譜特性2.3語(yǔ)音的時(shí)間波形和頻譜特性1162.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音信號(hào)時(shí)域波形示意圖:靜息波

脈沖波(清塞音)準(zhǔn)周期波(濁音)噪聲波(摩擦音)2.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音信號(hào)時(shí)域波形示意圖:1172.3語(yǔ)音的時(shí)間波形和頻譜特性聲音的語(yǔ)譜圖2.3語(yǔ)音的時(shí)間波形和頻譜特性聲音的語(yǔ)譜圖1182.3語(yǔ)音的時(shí)間波形和頻譜特性窄頻帶的語(yǔ)譜圖(narrowbandspectrograms)語(yǔ)譜圖的產(chǎn)生是用傅里葉轉(zhuǎn)換(Fouriertransform),當(dāng)我們用較長(zhǎng)的分析窗口(analysiswindows),約20ms,對(duì)應(yīng)頻寬約為45Hz,得到的頻率分辨率較高,頻譜上可以看到諧振的成分。在語(yǔ)譜圖上呈現(xiàn)等距的黑白相間橫線條,其間距就是基頻(F0)。2.3語(yǔ)音的時(shí)間波形和頻譜特性窄頻帶的語(yǔ)譜圖(narrowb1192.3語(yǔ)音的時(shí)間波形和頻譜特性寬頻帶的語(yǔ)譜圖(widebandspectrograms)若是在轉(zhuǎn)換演算時(shí)用較少的取樣點(diǎn),分析窗口大約3ms,對(duì)應(yīng)頻寬約300Hz,則頻譜上看不到諧振成分,在語(yǔ)譜圖上看不到等距的黑白相間。頻率分辨率較低,反而是時(shí)軸上的分辨率較高,看到明顯的垂直線條。2.3語(yǔ)音的時(shí)間波形和頻譜特性寬頻帶的語(yǔ)譜圖(wideban1202.3語(yǔ)音的時(shí)間波形和頻譜特性共振峰(formant)在頻域上,能量集中處就是共振峰(formant)之所在,在語(yǔ)譜圖上就是顏色較深的位置。在發(fā)元音時(shí),音強(qiáng)較大,聲帶振動(dòng)而呈現(xiàn)出基頻及其諧振頻率,也可以明顯看到共振峰,能量集中在低頻。如果是發(fā)輔音,而且聲帶不振動(dòng),就看不到諧振頻率。通常輔音的音強(qiáng)小,顏色看來(lái)就比較淡,而且能量較集中在高頻。若是在沒有語(yǔ)音的空檔,則語(yǔ)譜圖上呈現(xiàn)的,就是有一段空白。2.3語(yǔ)音的時(shí)間波形和頻譜特性共振峰(formant)1212.3語(yǔ)音的時(shí)間波形和頻譜特性元音與輔音的聲學(xué)特性(一)元音發(fā)元音的聲音時(shí),聲帶是振動(dòng)的,音強(qiáng)也較大,波形上可以看到大的振幅,而且呈現(xiàn)周期性。其周期就是音高周期,對(duì)應(yīng)的頻率就是基頻,通常以F0表示。正常說話時(shí),元音的音長(zhǎng)大約是50到400ms之間。元音在頻譜上會(huì)呈現(xiàn)能量集中的現(xiàn)象,集中處的頻帶稱為共振峰。在5kHz的語(yǔ)音頻帶范圍內(nèi),會(huì)有5個(gè)共振峰,分別以F1﹑F2﹑F3﹑F4﹑與F5代表,其中F1﹑F2與F3比較明顯。2.3語(yǔ)音的時(shí)間波形和頻譜特性元音與輔音的聲學(xué)特性1222.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-3三個(gè)元音的語(yǔ)譜圖(分別對(duì)應(yīng)漢語(yǔ)拼音的元音i,a,u)2.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-3三個(gè)元音的語(yǔ)譜圖(1232.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-4雙元音在語(yǔ)譜圖上共振峰轉(zhuǎn)移(過渡)的現(xiàn)象分別對(duì)應(yīng)漢語(yǔ)拼音的雙元音ai,ei,ao,ou2.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-4雙元音在語(yǔ)譜圖上共1242.3語(yǔ)音的時(shí)間波形和頻譜特性(二)輔音輔音是對(duì)元音的前或后作修飾。帶聲的輔音會(huì)有類似元音的共振峰,因?yàn)槁晭д駝?dòng),所以和元音一樣有諧振的成分,但相對(duì)于元音,能量小得多。不帶聲的摩擦音(如f,s,sh,x,h)類似噪音,能量?jī)A向在高頻。發(fā)鼻音時(shí),鼻腔的共振效果使得低頻成分受到壓抑,雖然是聲帶振動(dòng)而有共振峰,但低頻的共振峰能量較弱。下圖分別對(duì)應(yīng)漢語(yǔ)拼音輔音:b,p,m,f,j,q,x,zh,ch,sh2.3語(yǔ)音的時(shí)間波形和頻譜特性(二)輔音1252.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-5塞音(或爆破音)出現(xiàn)在元音前的例子下圖分別對(duì)應(yīng)ba,da,ga,pa,ta,ka在一個(gè)音節(jié)的開始若有塞音,當(dāng)氣流放出之后,隨著就發(fā)元音,聲帶開始振動(dòng),在語(yǔ)譜圖上可以觀察到一小段時(shí)間之后,才有明顯的共振峰出現(xiàn),這一小段時(shí)間就叫做嗓音的起始時(shí)間(voiceonsettime),簡(jiǎn)稱VOT。返回2.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-5塞音(或爆破音)出1262.3語(yǔ)音信號(hào)的統(tǒng)計(jì)特性語(yǔ)音信號(hào)可以看成是一個(gè)遍歷性隨機(jī)過程的樣本函數(shù);語(yǔ)音信號(hào)的統(tǒng)計(jì)特性可以用它的振幅概率密度函數(shù)和一些平均量(均值和自相關(guān)函數(shù))來(lái)描述——概率密度的估算、逼近方法及意義;自相關(guān)函數(shù)的估計(jì)及影響因素(語(yǔ)音段和濾波情況);語(yǔ)音信號(hào)的統(tǒng)計(jì)特性也可以用功率譜來(lái)描述——長(zhǎng)期平均功率譜可以用周期圖來(lái)估計(jì);返回2.3語(yǔ)音信號(hào)的統(tǒng)計(jì)特性語(yǔ)音信號(hào)可以看成是一個(gè)遍歷性隨機(jī)過程1272.3語(yǔ)音信號(hào)的統(tǒng)計(jì)特性長(zhǎng)時(shí)平均幅度的概率密度分布2.3語(yǔ)音信號(hào)的統(tǒng)計(jì)特性長(zhǎng)時(shí)平均幅度的概率密度分布1282.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型在研究了發(fā)聲器官和語(yǔ)音的產(chǎn)生過程以后,便可以建立一個(gè)離散時(shí)域的語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型,它將是我們將數(shù)字信號(hào)處理技術(shù)應(yīng)用于語(yǔ)音信號(hào)的基礎(chǔ)。下圖是一個(gè)完整的語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型:2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型在研究了發(fā)聲器官和語(yǔ)音的產(chǎn)生1292.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型由此模型框圖,我們可將語(yǔ)音信號(hào)看成準(zhǔn)周期序列或隨機(jī)噪聲序列作為激勵(lì)的線性非移變系統(tǒng)的輸出,此模型可分為三個(gè)部分:(1)激勵(lì)模型(2)聲道模型(3)輻射模型(1)激勵(lì)模型根據(jù)發(fā)濁音和發(fā)清音的機(jī)理又分為:(a)濁音激勵(lì)(b)清音激勵(lì)2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型由此模型框圖,我們可將語(yǔ)音信1302.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)濁音激勵(lì)由前面所講發(fā)音過程可知,發(fā)濁音時(shí)聲帶不斷地張開和閉合將產(chǎn)生間歇的準(zhǔn)周期性脈沖波,其周期為基音周期,單個(gè)脈沖的波形類似于斜三角波,故數(shù)字模型中可用周期為T0單位取樣序列串作為聲門脈沖模型g(n)的輸入,其輸出就是濁音激勵(lì)。由于人類語(yǔ)音的頻率范圍主要集中在300Hz~3400Hz,數(shù)字模型中的信號(hào)取樣率一般為8KHz。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)濁音激勵(lì)1312.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型聲門脈沖模型數(shù)學(xué)表達(dá)式(L為斜三角波上升時(shí)間,K為斜三角波下降時(shí)間,兩者均為整數(shù))由語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型激勵(lì)部分可知是一個(gè)以基音周期T0為周期的斜三角波脈沖串序列。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型聲門脈沖模型數(shù)學(xué)表達(dá)式(L為1322.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型上述公式中參數(shù)T0為數(shù)字信號(hào)的取樣間隔,由左邊聲門脈沖模型的頻譜圖可知聲門脈沖模型是一個(gè)低通濾波器,一個(gè)二級(jí)點(diǎn)模型。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型上述公式中參數(shù)T0為1332.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)清音激勵(lì)發(fā)清音時(shí)聲道被阻礙形成湍流,所以可把清音激勵(lì)模擬成隨機(jī)白噪聲。此處用均值為0方差為1并在幅值上為平穩(wěn)分布的序列,具體實(shí)現(xiàn)時(shí)可采用隨機(jī)噪聲發(fā)生器來(lái)產(chǎn)生此序列。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)清音激勵(lì)1342.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型兩種建模方法:(a)聲管模型(b)共振峰模型共振峰模型將聲道視為一個(gè)諧振腔,按此原則導(dǎo)出?;诟鞣N音素發(fā)音的不同諧振特點(diǎn)可建立起三種實(shí)用的共振峰模型:(a)級(jí)聯(lián)型(b)并聯(lián)型(c)混合型2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型1352.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2)聲管模型2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2)聲管模型1362.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)級(jí)聯(lián)型:適用于一般單元音,認(rèn)為聲道是一組串聯(lián)的二階諧振器:這是一個(gè)全極點(diǎn)模型,極點(diǎn)就是這個(gè)多項(xiàng)式的根:若P為偶數(shù),解其根會(huì)得到共軛復(fù)數(shù)對(duì)的根,表示成:2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)級(jí)聯(lián)型:這是一個(gè)全極點(diǎn)1372.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型F=1/T--取樣頻率

i/--共振峰的頻寬。Fi是--共振峰(formant)的中心頻率這樣分解則每一個(gè)二階因式均對(duì)應(yīng)一個(gè)共振峰,其幅頻特性是典型的二階諧振特性,諧振中心頻率值等于共振峰。若把語(yǔ)音的各個(gè)共振峰所對(duì)應(yīng)的二階系統(tǒng)級(jí)聯(lián)起來(lái)就形成了一個(gè)完整的級(jí)聯(lián)型聲道模型,且具有明顯的諧振特性。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型F=1/T--取樣1382.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)級(jí)聯(lián)型:2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(a)級(jí)聯(lián)型:1392.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)并聯(lián)型適用于鼻音、復(fù)合元音及大部分輔音,發(fā)這些音時(shí)發(fā)音腔體具有反諧振特性,必須在模型中加入零點(diǎn)以減弱諧振強(qiáng)度,故要考慮用零、極點(diǎn)模型:通常P>R,假設(shè)分子與分母無(wú)公因子且分母無(wú)重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個(gè)二階因式對(duì)應(yīng)一個(gè)共振峰。每個(gè)二階諧振器的幅度可單獨(dú)控制。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)并聯(lián)型通常P>R,假設(shè)1402.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)并聯(lián)型2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(b)并聯(lián)型1412.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型前面兩種共振峰模型各自都只能適用于部分語(yǔ)音,級(jí)聯(lián)或并聯(lián)的級(jí)數(shù)取決于聲道的長(zhǎng)度,一般成人取3到5級(jí)。級(jí)聯(lián)型結(jié)構(gòu)較為簡(jiǎn)單,并聯(lián)型各諧振器幅度可獨(dú)立控制,綜合考慮兩者的優(yōu)缺點(diǎn)可將兩種共振峰模型有機(jī)地結(jié)合起來(lái)就得到一種較為完備的共振峰模型。(c)混合型我們可以根據(jù)發(fā)音的需要自動(dòng)切換串聯(lián)或并聯(lián)通路,此外并聯(lián)部分還有一條直通路徑,其幅度控制因子為AB,這是專為一些頻譜特性較為平坦的音素如[f]、[p]、[b]而考慮的,以增強(qiáng)反諧振特性。2.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型前面兩種共振峰模型各自都只能1422.4.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(c)混合型幅度控制因子AB專為一些頻譜特性比較平坦的音素,如[f],[p],[b]所考慮的。2.4.語(yǔ)音信號(hào)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論