![speech2--basicppt_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/94170a9b-b382-4044-912b-45a1230026a5/94170a9b-b382-4044-912b-45a1230026a51.gif)
![speech2--basicppt_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/94170a9b-b382-4044-912b-45a1230026a5/94170a9b-b382-4044-912b-45a1230026a52.gif)
![speech2--basicppt_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/94170a9b-b382-4044-912b-45a1230026a5/94170a9b-b382-4044-912b-45a1230026a53.gif)
![speech2--basicppt_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/94170a9b-b382-4044-912b-45a1230026a5/94170a9b-b382-4044-912b-45a1230026a54.gif)
![speech2--basicppt_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/94170a9b-b382-4044-912b-45a1230026a5/94170a9b-b382-4044-912b-45a1230026a55.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、語音信號處理語音信號處理Speech signal processing張磊張磊 Speech signal processingLecture 2: 語音知識基礎(chǔ)語音知識基礎(chǔ)123語音聲學基礎(chǔ)語音聲學基礎(chǔ)人耳的聽覺基礎(chǔ)人耳的聽覺基礎(chǔ)信號處理的基礎(chǔ)信號處理的基礎(chǔ)Speech signal processingq 什么是聲音聲音是一種空氣振動產(chǎn)生的波。q 頻率(Frequency) 單位時間內(nèi),聲波的周期數(shù),Hz表示q 振幅(Amplitude )波振動的大小,一般用dB表示1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)Speech signal processingq示意圖1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生
2、的聲學基礎(chǔ)機械振動壓力波傳感器振動時變的電壓信號Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ) 食道 環(huán)狀軟骨 聲帶 喉管 會咽 舌根 小舌 口腔 軟腭 鼻咽 硬腭 鼻腔 氣管 甲狀軟骨 舌骨 下顎骨 下唇 牙齒 上唇 齒齦 鼻 Speech signal processingq聲帶(Vocal Cords ) 1014mm在喉部的從喉結(jié)到杓狀軟骨之間的韌帶褶 q聲門(Glottis) 兩個聲帶之間形成一個開閉自如的聲門 q 聲道(vocal tract) 17cm 由咽腔、口腔和鼻腔三個空氣腔體組成 1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)Speech
3、signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ) 聲門脈沖聲門脈沖 聲道聲道 語音信號語音信號 激勵信號激勵信號 聲道濾波器聲道濾波器 語音信號語音信號 頻譜頻譜 傳遞函數(shù)傳遞函數(shù) 頻譜頻譜 Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)Speech signal processingSpeech signal processingSpeech signal processingSpeech signal processingq聲帶源-元音當氣流通過氣管和支氣管經(jīng)過咽喉時,收緊的聲帶由于氣流的沖擊產(chǎn)生振動,不斷的張開;由于聲帶具有
4、一定的韌性,又迅速閉合。這使聲門向上送出一連串噴流。這時的氣流被截斷成準周期的脈沖,一般用非對稱的三角波表示。q 渦流聲源-輔音;摩擦音1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲源聲源Speech signal processingq振動(Oscillations)簡單的純音(pure tone)-音叉發(fā)出的音復合音(complex tone)-語音;音樂1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲源聲源Speech signal processingq聲帶振動(Relaxation Oscillations)State1: 隨空氣壓力增大而擴張階段State2: 由于聲帶自身的彈性恢復階段1語
5、音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲源聲源Speech signal processingSpeech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲源聲源其它21112110 02)(cos)/cos(1 21)(NNnNNnN/n-NNnng T T t1 t2 T T1 (a) 三角波 (b) 多項式波 (c) 濾波器沖激響應 0 Speech signal processingSpeech signal processingq濁音(Voiced Sound )當聲帶處于收緊狀態(tài)時,流經(jīng)的氣流使聲帶振動,這時產(chǎn)生的聲音稱之為濁音 。元音一般全是濁音。q清音
6、(Unvoiced Sound) 不伴有聲帶振動的音稱為清音 ,除了m、n、l、r、ng外的輔音基本上是清音。1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲源聲源Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲源聲源開始/ai/k/Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲源聲源Speech signal processingq基頻(Pitch frequency )聲帶開合一次的時間為基音周期(pitch period)。它的倒數(shù)稱為基頻。q 基頻大小其大小取決于聲帶的大小、厚薄、松緊程度以及聲門上下的氣壓
7、差效應。聲帶拉的越長、越薄、越緊,基頻值越高。1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-基頻基頻Speech signal processing1基頻-音調(diào)語音學家用五度表示方法,五度制就分成5個音區(qū)。每個音區(qū)是平等的。將陰平、陽平、去聲、上聲等聲調(diào)描述成 55、 35、 214、 51 q聲調(diào)的調(diào)型表示聲調(diào)的調(diào)型表示-五度表示方法五度表示方法 Speech signal processingq聲調(diào)的調(diào)型表示聲調(diào)的調(diào)型表示-三音區(qū)表示方法三音區(qū)表示方法1基頻-音調(diào)將聲調(diào)音域分成三個音區(qū),它們是“高、中、低”音區(qū),用英文字母“H、M、L”代表。 Speech signal processingq聲
8、調(diào)的調(diào)型表示方法的對比聲調(diào)的調(diào)型表示方法的對比 1基頻-音調(diào)Speech signal processingq聲調(diào)軌跡縱軸刻度表示方法聲調(diào)軌跡縱軸刻度表示方法-半音表示半音表示 1基頻-音調(diào)鋼琴鍵盤上相鄰的 7 個白鍵和 5 個黑鍵組成“十二半音”。從 Hz 數(shù)值看,半音之間是 2 開 12 次方根的關(guān)系,也就是 1.059463 倍的關(guān)系。把它自乘 12 次,應該等于 2 。 F0=64.66Hz )/(log1202ffstSpeech signal processing1基頻-音調(diào)q聲調(diào)軌跡縱軸刻度表示方法聲調(diào)軌跡縱軸刻度表示方法-D-D值表示值表示 )/log(50ffD)/(log6
9、1.162log/ )/(log501010010ffffD可以選55赫茲為男聲的參考頻率,80赫茲為女聲的參考頻率 Speech signal processing1基頻-音調(diào)q聲調(diào)軌跡時間軸的規(guī)整聲調(diào)軌跡時間軸的規(guī)整 對規(guī)整后的基頻軌跡進行插值以及重新采樣,01之間進行等間隔采樣,一般可以采樣10個點左右。 )/()(00TtFFjjSpeech signal processing1基頻-音調(diào)q聲調(diào)曲拱的特征點的選擇聲調(diào)曲拱的特征點的選擇 音域的表示用先取四十個音高D值的平均值及標準離差,用平均值加減兩倍的標準差表示音域 ;進一步用特征點之間的音高變化來表示曲線的升降 Speech sig
10、nal processingq調(diào)音(Articulation)為了發(fā)出各種各樣的聲音,需要調(diào)整聲道的形狀,稱之為調(diào)音q調(diào)音器官(Articulation Organ) 舌、顎、唇和嘴等聲道中可以自由活動的部分q共鳴/共振 1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道q自然現(xiàn)象把鋼筆帽放在嘴邊吹,可以吹出簫音來。吹瓶子可以吹出悅耳的聲音。 q為什么? 物理學家認為,是管子里彈性的空氣柱體發(fā)生了共振。 Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道S
11、peech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道與聲學特征的關(guān)系聲道與聲學特征的關(guān)系Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道Speech signal processingq 500 Hz 正弦波的波長是 68 厘米,正好是管長的 4 倍,那個正弦波從管口到瓶底,又從瓶底反射回來到達管口,正好是半個波長的距離
12、,相距半個周期的振幅位置正好在那里相遇。 q 1500 Hz 正弦波的波長是 17*4/3 厘米,它跟管長有 4 : 3 的關(guān)系,正弦波 2*3/4 周期的振幅又有機會相遇,產(chǎn)生共振。q 。 1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道特性聲道特性Speech signal processingq 共振峰-物不平則鳴 舌面隆起的元音發(fā)音部位調(diào)節(jié)了空腔的形位,從而改變了聲道共振特性。它決定了元音共振峰 q 共振峰與舌位關(guān)系舌位高低決定了F1共振頻率。舌位越高,F(xiàn)1 的頻率越低,反則反之 。舌位前后決定了F2共振頻率舌位越后,F(xiàn)2 的頻率越低,反則反之。 1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲
13、道特性聲道特性Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)基頻的大小影響譜密度曲線的疏密男和女由于聲道長度不同,因而包絡線有所不同Speech signal processingq共振峰頻率 F共振峰頻率是一條包絡線上的峰值位置 q共振峰強度 L q共振峰帶寬 B 1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)- -聲道聲道- -共振峰(共振峰(formantformant)Speech s
14、ignal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道Speech signal processingq帶寬不同共振峰輪廓線的改變1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道對于語音來說,元音帶寬窄的,聲音清晰,相反就聲音含混。帶寬加大以后,共振峰強度減弱,也就使聲音質(zhì)量降低。 Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道q共振峰頻率提高,共振峰強度也隨著提升 在一定范圍內(nèi)共振峰頻率提高,人耳的敏感程度也在提高,聽起來就特別響亮。從中國傳統(tǒng)音韻學來說,細音主要是低音共振峰頻率低,洪音主要是低音共振峰頻率高。元音
15、a 比元音 i 、u 、 響亮,是跟這種變化有關(guān)系的。 Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道q “集聚”特征 細線畫出了元音 a 三個共振峰的曲線。最后得到的輪廓線是它們相加的結(jié)果。那是 dB 值的代數(shù)加法。F3 遇到了F1 的負值,相加的結(jié)果反而降低了。請注意,圖中 F1 與 F2 相近 ,它們相加的結(jié)果是互相抬高對方,使這一頻段的能量加強。 Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道q共振峰預測零極值法圖解 Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語
16、音產(chǎn)生的聲學基礎(chǔ)-聲道聲道q共振峰預測零極值法圖解 Speech signal processing1語音產(chǎn)生的聲學基礎(chǔ)語音產(chǎn)生的聲學基礎(chǔ)-聲道聲道q共振峰預測零極值法圖解 Speech signal processing1漢語語音的韻律特性漢語語音的韻律特性q音色也叫音質(zhì);由混入基音中的倍音決定q音高聲音的高低;主要用基頻反映。基頻值越大,反映出的音高越高Speech signal processing1漢語語音的韻律特性漢語語音的韻律特性q音強發(fā)音的輕重;可以用聲壓或聲強來表示聲音的強度,一般用相對聲壓或相對聲強表示。q音長 聲音的長短,取決于發(fā)音持續(xù)時間的長短。聲壓級:)dB()/(lo
17、g20010PPL 聲強級:)dB()/(log10010IIL Speech signal processing2聽覺系統(tǒng)聽覺系統(tǒng)Speech signal processing2聽覺系統(tǒng)聽覺系統(tǒng)Speech signal processing2聽覺系統(tǒng)聽覺系統(tǒng)q 聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化為機械振動,傳入內(nèi)耳。Speech signal processing2聽覺系統(tǒng)聽覺系統(tǒng)-耳蝸耳蝸q 內(nèi)耳來的機械振動引起基底膜上的行波?;湍ぴ诳拷伩撞糠周浂鴮挘诳拷巴ゴ安糠钟捕?。從而引起不同頻率的聲音產(chǎn)生不同的行波,其峰值出現(xiàn)在基低膜不同的位置Speech signal
18、 processing2聽覺系統(tǒng)聽覺系統(tǒng)-基低膜上的柯蒂氏器官基低膜上的柯蒂氏器官q 相當于傳感器,毛細胞上面微絨毛受到耳蝸內(nèi)流體變化速度的影響,引起毛細胞膜兩邊電位的變化,造成神經(jīng)的發(fā)放和抑制。耳蝸覆膜內(nèi)毛細胞外毛細胞基低膜耳蝸Speech signal processing2q 響度(Londness)-方(phon)是一種主觀心理量,主觀感覺到的聲音強弱的一種衡量標準,它與頻率有關(guān)。一樣的音強,不一樣的頻率,則響度也會有所不同。0dB聲強級的1000Hz純音的響度級為0phon;ndB聲強級的1000Hz純音的響度級為nphon;語音處理的聽覺感知語音處理的聽覺感知Speech sign
19、al processing2語音處理的聽覺感知語音處理的聽覺感知q 等響度曲線Speech signal processing2q 響度可以看成是帶寬的函數(shù) 語音處理的聽覺感知語音處理的聽覺感知Speech signal processing2聽覺掩蔽效應聽覺掩蔽效應q 同時掩蔽(Simultaneous masking) 一個更響的音調(diào)可以將其頻率附近的較低的音調(diào)掩蔽Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 異時掩蔽(non-Simultaneous masking) 前掩蔽(Pre-masking)后掩蔽(Post-masking)Speec
20、h signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 掩蔽閾值和聲壓級、頻率、時間的關(guān)系 聲壓級(dB) 頻率 掩蔽音調(diào) 時間 聽不見的音調(diào)(曲線下面) Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 各種不同掩蔽效果-純音調(diào)信號間的掩蔽 測試音頻率(kHz) 0 20 40 60 80 20 10 5 2 1 0.5 0.2 0.1 0.05 0.02 dB90ML 70 50 30 測試聲壓級(dB) 頻率為1 kHz不同聲壓級的純音調(diào)對純音調(diào)產(chǎn)生的掩蔽曲線。從圖中可以看出,掩蔽閾值曲線的低頻段陡峭,高頻段比較平坦。 Sp
21、eech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 各種不同掩蔽效果-寬帶噪聲對純音調(diào)的掩蔽 LWN =50dB 測試音頻率(kHz) 10dB 每 十倍頻程 測試聲壓級(dB) 0.02 0.05 0.1 0.2 0.5 1 2 5 10 20 80 60 40 20 0 -10 0 10 20 30 40 雖然白噪聲的功率譜是平坦的,但是它產(chǎn)生的掩蔽閾值卻只在低頻段保持水平。在大約500Hz以上,掩蔽閾值隨著頻率的增大而提高,每十倍頻程大約提高10dB。 Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 各種不同掩蔽
22、效果-窄帶噪聲對純音調(diào)的掩蔽 掩蔽者是窄帶噪聲,被掩蔽者是純音調(diào)信號。這是一種比較復雜的掩蔽效應,掩蔽閾值隨聲壓級的不同而有所變化,并且隨著窄帶噪聲的中心頻率的變化掩蔽閾值也相應地隨之變化。 聲壓級不同中心頻率不同 Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q聲壓級不同曲線的峰值出現(xiàn)在掩蔽者的中心頻率處,在聲壓級大于80dB時,掩蔽閾值曲線在高頻段出現(xiàn)嚴重的非線性特性,有谷點出現(xiàn)。 LCB =100dB 測試音頻率(kHz) 測試聲壓級(dB) 0.02 0.05 0.1 0.2 0.5 1 2 5 10 20 80 60 40 20 0 20 40 80 60 Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q中心頻率不同 測試音頻率(kHz) 0 2 4 6 10 12 14 8 0 20 40 60 80
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 英語學科核心素養(yǎng)背景下高中生英語閱讀深度學習的調(diào)查研究
- 老年護理機器人的倫理問題研究
- 電子商務在各行業(yè)的運營經(jīng)驗分享
- 勞動仲裁工傷申請書
- 汽車同步器齒轂項目建議書寫作參考范文
- 涪陵區(qū)智能電網(wǎng)項目評估報告
- 2025年八角手鐲座行業(yè)深度研究分析報告
- 2025年中國彩印機行業(yè)發(fā)展?jié)摿Ψ治黾巴顿Y方向研究報告
- 2025-2030年中國精鑄不銹鋼管件行業(yè)深度研究分析報告
- 人才公司項目可行性研究報告
- 許曉峰版電機拖動電子教案(全)課件
- 塑膠件噴油作業(yè)指導書
- 人員安全行為觀察管理制度
- Pt催化劑ECSA計算方法
- 汽車運行材料ppt課件(完整版)
- GB∕T 1732-2020 漆膜耐沖擊測定法
- 我國油菜生產(chǎn)機械化技術(shù)(-119)
- 2022《化工裝置安全試車工作規(guī)范》精選ppt課件
- 吞咽障礙篩查表
- 汽車系統(tǒng)動力學-輪胎動力學
- 艾琳歆日內(nèi)交易2011-2月至4月份圖表
評論
0/150
提交評論