語(yǔ)音信號(hào)處理課件_第1頁(yè)
語(yǔ)音信號(hào)處理課件_第2頁(yè)
語(yǔ)音信號(hào)處理課件_第3頁(yè)
語(yǔ)音信號(hào)處理課件_第4頁(yè)
語(yǔ)音信號(hào)處理課件_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章語(yǔ)音的聲學(xué)模型與聽覺感知22.1語(yǔ)音信號(hào)的產(chǎn)生語(yǔ)音的發(fā)音器官3語(yǔ)音的發(fā)音器官肺(lung)與氣管(trachea):

聲音產(chǎn)生的能量來(lái)源聲帶(vocalcords),又稱為喉(larynx):

控制氣流從氣管到口腔的流動(dòng),周期性的振動(dòng)(濁音)或不振動(dòng)(清音)聲道(vocaltract),包括咽(pharynx)、口腔(oralcavity)、鼻腔(nasalcavity):包括舌頭、牙齒、軟腭、唇等主要發(fā)音器官(articulator);其形狀和位置決定了所發(fā)的聲音;作用類似于聲學(xué)管道(濾波器);長(zhǎng)度約17cm(成年男子)5激勵(lì)源三種不同的激勵(lì)方式:聲帶周期振動(dòng)產(chǎn)生周期脈沖激勵(lì)信號(hào)發(fā)出濁音:類似音樂聲,有基頻,如漢語(yǔ)的元音聲帶不振動(dòng),放松狀態(tài)摩擦形成湍流(turbulence)發(fā)出摩擦音:類似噪聲,如漢語(yǔ)的輔音/c/,/s/,/h/等聲帶放松,舌頭和嘴唇先緊閉再突然放開產(chǎn)生短脈沖發(fā)出爆破音,如漢語(yǔ)的/b/,/p/,/t/等6聲帶的周期振動(dòng)聲門波波形語(yǔ)音波形7NormalhighfalsettofrydiphthongbreathyModalharshFalsettocreakybreathywhisper8聲道通常被認(rèn)為是一個(gè)截面積隨時(shí)間和位置而改變的管道起到類似濾波器的功能,對(duì)激勵(lì)源信號(hào)進(jìn)行濾波多個(gè)共振峰(formant):對(duì)某一頻率的信號(hào)產(chǎn)生共鳴(resonance),對(duì)應(yīng)頻譜的波峰聲道調(diào)制10鼻腔耦合與嘴唇輻射鼻腔耦合產(chǎn)生鼻音能量集中在低頻部分和口腔產(chǎn)生的共鳴反應(yīng)(共振)相反,出現(xiàn)反共鳴(anti-resonance),對(duì)應(yīng)頻譜的波谷嘴唇輻射通過(guò)改變管道的邊界條件(開口或閉口)改變氣流的傳遞方式12舌位與元音高、前低、后高、后14舌位與元音的共振峰0200400600800100012001400第一個(gè)共振峰F1的頻率(Hz)第二個(gè)共振峰F1的頻率(Hz)

50010001500200025004000舌位高-----F1低舌位低-----F1高舌位前-----F2高舌位后-----F2低15語(yǔ)譜圖16語(yǔ)譜圖對(duì)給定的語(yǔ)音信號(hào)畫對(duì)應(yīng)的語(yǔ)譜圖是語(yǔ)音分析的經(jīng)典方法。雖然目前在語(yǔ)音工程應(yīng)用上已經(jīng)很少使用語(yǔ)譜圖,但它卻是初學(xué)者認(rèn)識(shí)語(yǔ)音的最好的工具與分析方法。語(yǔ)譜圖通常會(huì)分為寬帶語(yǔ)譜圖和窄帶語(yǔ)譜圖,從二者可以得到關(guān)于語(yǔ)音信號(hào)的不同的特征。我們會(huì)在第三章介紹語(yǔ)音信號(hào)的特征分析時(shí)再詳細(xì)介紹語(yǔ)譜圖的產(chǎn)生方法17liquid:邊音;glide:滑音()內(nèi)是漢語(yǔ)拼音,()外是國(guó)際音標(biāo)(IPA)漢語(yǔ)語(yǔ)音的基本音素18漢語(yǔ)語(yǔ)音的韻律特征

語(yǔ)音的聲學(xué)特征:音色、音高(聲調(diào))、音長(zhǎng)、音強(qiáng)

音色和音高決定漢語(yǔ)的語(yǔ)義,音強(qiáng)和音長(zhǎng)不區(qū)分語(yǔ)義

漢語(yǔ)語(yǔ)音在音高、音強(qiáng)、音長(zhǎng)方面所顯示出來(lái)的抑揚(yáng)頓挫特性成為漢語(yǔ)的韻律特性

漢語(yǔ)的韻律特性是漢語(yǔ)非常重要的一個(gè)特征,也是目前漢語(yǔ)語(yǔ)音信號(hào)處理研究的重要問(wèn)題20其中:激勵(lì)模型濁音:斜三角脈沖清音:高斯白噪聲聲道模型全極點(diǎn)模型輻射模型綜上,語(yǔ)音信號(hào)的數(shù)字模型:實(shí)際上,正常語(yǔ)音的激勵(lì)模型通常是這二者的混合體21經(jīng)典的語(yǔ)音信號(hào)產(chǎn)生的線性模型提出已經(jīng)有近50年的時(shí)間雖然不能很完美的體現(xiàn)真實(shí)的語(yǔ)音產(chǎn)生機(jī)理,但卻是語(yǔ)音處理工程應(yīng)用上最常用的、最成功的模型現(xiàn)有的大多數(shù)語(yǔ)音處理技術(shù),如語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別等仍然要用到這個(gè)經(jīng)典的線性模型雖然近年來(lái)有不少學(xué)者提出了更精細(xì)的非線性模型,但是由于模型的復(fù)雜度,仍然只停留在實(shí)驗(yàn)研究階段。23外耳:聲音的收集、定位、放大定位:雙耳結(jié)構(gòu)可以實(shí)現(xiàn)水平方向的定位;耳翼的不規(guī)則結(jié)構(gòu)則可以實(shí)現(xiàn)垂直方向的定位放大:外耳道可以看作是一個(gè)均勻管道(長(zhǎng)25mm),其共振峰頻率約為3400Hz。外耳可以實(shí)現(xiàn)聲音放大約20dB中耳:包括錘骨、砧骨和鐙骨三塊聽小骨,聲音的傳導(dǎo)、放大、保護(hù)內(nèi)耳,中耳可以放大聲音約30dB內(nèi)耳:包含半規(guī)管、前庭窗以及耳蝸,其中耳蝸跟聽覺密切相關(guān)耳蝸根據(jù)接收到的聲音來(lái)相應(yīng)地刺激聽神經(jīng),實(shí)現(xiàn)機(jī)械振動(dòng)到神經(jīng)信號(hào)的轉(zhuǎn)換耳蝸根據(jù)頻率選擇特性向聽神經(jīng)傳遞信號(hào)耳蝸是聽覺系統(tǒng)中最脆弱、最重要的部分。

通常,人的左、右耳對(duì)聲音的感知是不太一樣的,這種差異性因人而異人耳的構(gòu)造與功能:24人耳的聽覺過(guò)程示意圖26人耳對(duì)聲音響度的感知與聲音的能量成非線性關(guān)系(對(duì)數(shù)感知關(guān)系):272、聽覺的頻率分辨率人耳對(duì)不同頻率信號(hào)的聽覺分辨率是不一樣的,對(duì)低頻信號(hào)的分辨率高,對(duì)高頻信號(hào)的分辨率低,一般來(lái)說(shuō),人耳對(duì)不同頻率信號(hào)的分辨率是一個(gè)定Q值例如:對(duì)頻率差別最敏感的人在100Hz頻率附近可以區(qū)分99Hz和101Hz信號(hào)的不同,但是在1000Hz附近,只能區(qū)分990Hz和1010Hz的頻率成分頻率(Hz):1001021051101501000101010501100283、音調(diào)(音高)的感知音調(diào)也是一種主觀的感知概念,它與客觀物理量頻率有關(guān)。音調(diào)的主觀感知與聲音的頻率也是非線性的對(duì)數(shù)關(guān)系。音調(diào)的感知單位為美爾(Mel)由上式可得1000Hz的純音所產(chǎn)生的音調(diào)為1000Mel;而其音調(diào)高一倍(2000Mel)的聲音所對(duì)應(yīng)的頻率約為3429Hz。音調(diào)-頻率感知曲線30聽覺的頻率掩蔽(同時(shí)掩蔽)一個(gè)強(qiáng)純音會(huì)掩蔽在其附近頻率同時(shí)發(fā)聲的弱純音,這種特性稱為頻域掩蔽,也稱同時(shí)掩蔽(simultaneousmasking)。一般來(lái)說(shuō),弱純音離強(qiáng)純音越近就越容易被掩蔽。一個(gè)聲強(qiáng)為60dB、頻率為1000Hz的純音的掩蔽曲線無(wú)掩蔽時(shí)的聽閾曲線受掩蔽時(shí)的聽閾曲線31在250Hz、1kHz、4kHz和8kHz純音附近,對(duì)其他純音的掩蔽效果最明顯;低頻純音可以有效地掩蔽高頻純音,但高頻純音對(duì)低頻純音的掩蔽作用則不明顯。

聲強(qiáng)為60dB、頻率為250Hz、1kHz、4kHz和8kHz純音的掩蔽效應(yīng)掩蔽曲線32噪聲對(duì)語(yǔ)音感知的影響噪聲對(duì)純音的屏蔽作用噪聲對(duì)語(yǔ)音的屏蔽作用33聽覺的時(shí)域掩蔽(異時(shí)掩蔽)除了同時(shí)發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時(shí)間上相鄰的聲音之間也有掩蔽現(xiàn)象,并且稱為時(shí)域掩蔽時(shí)域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking)。一般來(lái)說(shuō),超前掩蔽很短,只有大約5~20ms,而滯后掩蔽可以持續(xù)50~200ms時(shí)域掩蔽曲線34聽覺的響度、音調(diào)感知特性、頻率分辨率

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論