




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1第二章語音信號的產(chǎn)生模型
一.語音產(chǎn)生的過程二.語音信號的特性三.語音信號產(chǎn)生的數(shù)字模型四.語音感知
2一、
語音產(chǎn)生的過程
聲音是一種波,能被人耳聽到,它的振動(dòng)頻率在20~20000Hz之間。語音是聲音的一種由人的發(fā)音器官發(fā)出的,具有一定語法和意義的聲音
振動(dòng)頻率最高可達(dá)15000Hz左右大腦對發(fā)音器官發(fā)出運(yùn)動(dòng)神經(jīng)指令,發(fā)音器官各種肌肉運(yùn)動(dòng),振動(dòng)空氣而形成語音波。
神經(jīng)和肌肉的生理學(xué)階段+產(chǎn)生和傳遞語音波的物理階段31、人體的發(fā)音器官
肺、氣管、喉(包括聲帶)、咽、鼻、口等(P7圖2-1)肺和氣管是語音產(chǎn)生的能源所在;聲門
(喉):主要的聲音生成機(jī)構(gòu),喉部的聲帶為產(chǎn)生語音提供主要的激勵(lì)源;聲道(喉以上的部分,聲門至嘴唇的所有器官:咽、鼻腔、口腔等):對生成的語音進(jìn)行調(diào)制。
它們具有非均勻截面,且隨時(shí)間變化,起共鳴器(或諧振器)的作用。42、語音產(chǎn)生過程肺聲帶聲道聲音嘴唇聲壓波能源激勵(lì)源諧振源輻射源語音的形成過程—空氣由肺部排入喉部,經(jīng)過聲帶進(jìn)入聲道,最后由嘴輻射出聲波,形成語音。52、語音產(chǎn)生過程濁音:聲帶繃緊,氣流通過時(shí)會(huì)使得開口變成一開一閉的周期性動(dòng)作,這時(shí)候就造成周期性的激發(fā)氣流。激勵(lì)源是位于聲門處的準(zhǔn)周期脈沖序列。清音:聲帶完全舒展,聲道某部位收縮形成一個(gè)狹窄的通道,產(chǎn)生空氣湍流。激勵(lì)源是位于聲道的某個(gè)收縮區(qū)的空氣湍流(類似于噪聲)。爆破音:聲帶完全舒展,聲道的某部位完全閉合,一旦閉合點(diǎn)突然開啟,空氣壓力快速釋放。激勵(lì)源是位于聲道某個(gè)閉合點(diǎn)處建立起來的氣壓及其突然釋放。63、語音的兩個(gè)聲學(xué)特性基音周期:聲帶開啟和閉合使氣流形成一系列脈沖,每開啟和閉合一次的時(shí)間稱為基因周期。(a)閉合狀態(tài)(b)張開狀態(tài)73、語音的兩個(gè)聲學(xué)特性基音頻率(基頻):聲帶振動(dòng)的頻率,是基音周期的倒數(shù)?;纛l率取決于聲帶的尺寸和特性,也決定于它所受的張力?;纛l率決定了聲音頻率的高低,頻率快則音調(diào)高,頻率低則音調(diào)低。基音頻率的范圍約為80~500Hz
,它隨發(fā)音人的性別和年齡等而定,老年男性偏低,小孩和青年女性偏高。肺聲帶聲道聲音嘴唇能源激勵(lì)源諧振源輻射源83、語音的兩個(gè)聲學(xué)特性聲道是一個(gè)分布參數(shù)系統(tǒng),它是一個(gè)諧振腔,有許多諧振頻率,諧振頻率由每一瞬間的聲道外形決定,這些諧振頻率稱為共振峰頻率,簡稱共振峰。聲道對于一個(gè)激勵(lì)信號的響應(yīng),可用一個(gè)含有多對極點(diǎn)的線性系統(tǒng)來近似描述。每對極點(diǎn)都對應(yīng)一個(gè)共振峰頻率。這個(gè)線性系統(tǒng)的頻率響應(yīng)特性稱為共振峰特性,它決定信號頻譜的包絡(luò)。肺聲帶聲道聲音嘴唇能源激勵(lì)源諧振源輻射源93、語音的兩個(gè)聲學(xué)特性共振峰和聲道的形狀與大小有關(guān),一種形狀對應(yīng)著一套共振峰,當(dāng)聲音沿著聲道傳播時(shí),其頻譜形狀就會(huì)隨聲道而改變。聲道的共振峰特性決定所發(fā)聲音的頻譜特性,即音色。元音的音色和區(qū)別特征主要取決于聲道的共振峰特性。共振峰特性可以從語音信號頻譜分析得到的幅頻特性觀察到。103、語音的兩個(gè)聲學(xué)特性聲學(xué)語音學(xué)中通??紤]F1和F2,語音識別技術(shù)中至少要考慮三個(gè)共振峰,語音合成技術(shù)中考慮五個(gè)共振峰是最為現(xiàn)實(shí)的。共振峰頻率范圍/Hz成年男子成年女子帶寬F1200~800250~100040~70F2600~2800700~330050~90F31300~34001500~400060~180理想狀態(tài)下共振峰的計(jì)算:P8(2-1)11影響元音共振峰特性的發(fā)音機(jī)制:(1)舌頭的形狀;(2)
舌頭在口腔中的位置,簡稱舌位;
由舌位的高低前后位置改變,可以發(fā)出不同的音素,
也就是說舌位與元音的共振峰特性有密切關(guān)系。(3)
嘴唇的形狀,即口形;3、語音的兩個(gè)聲學(xué)特性12漢語單元音舌位梯形圖(1)
F1與舌位高低有關(guān),舌位越高F1越低;由于舌位越低嘴張得越大,也稱舌位高低為開口度。(2)
F2與舌位前后密切相關(guān),舌位越靠前F2就越高。(3)
F1、F2和嘴唇的圓展程度有關(guān),嘴唇越圓,F1、F2越低。(4)
F3與舌位關(guān)系不密切,但受舌尖活動(dòng)影響;舌尖抬高卷起時(shí)F3就明顯下降。3、語音的兩個(gè)聲學(xué)特性13語音的基本特性語音的時(shí)間波形和頻譜特性語音信號的統(tǒng)計(jì)特性二、
語音信號的特性
141、語音的基本特性語言學(xué):是以人類的語言為研究對象的一門科學(xué),主要對控制語音中各個(gè)音的排列規(guī)則及其含義進(jìn)行研究。語言(Language)是從千百萬個(gè)人的語音(Speech)中概括總結(jié)出來的規(guī)律性的符號系統(tǒng)。所以,研究語言首先要了解一下人的言語(說話)過程。語音:由一連串的音所組成.語音學(xué):研究語音中各個(gè)音的物理特征和分類的學(xué)科語音學(xué)與語音信號處理這門學(xué)科聯(lián)系更緊密。15人的說話過程分為五個(gè)階段(1)想說階段:人的說話首先是客觀現(xiàn)實(shí)在大腦中的反映,經(jīng)大腦的決策產(chǎn)生了說話的動(dòng)機(jī);接著講話神經(jīng)中樞選擇恰當(dāng)?shù)膯卧~、短語以及按語法規(guī)則的組合,以表達(dá)他想說的內(nèi)容和情感。這個(gè)階段與大腦中樞的活動(dòng)有關(guān)。(2)說出階段:由上階段中樞的決策,以脈沖形式向發(fā)音器官發(fā)出指令,使它們各自相關(guān)的肌肉協(xié)調(diào)地動(dòng)作發(fā)出聲音來。另外還開動(dòng)另一個(gè)“反饋系統(tǒng)”即講話者的聽覺系統(tǒng),來幫助修正語音。(3)傳送階段:說出來的話語是一連串的聲波,憑借空氣為媒介傳到聽話者耳中。1、語音的基本特性16(1).物理屬性—音色、音調(diào)、音強(qiáng)和音長1、語音的基本特性音色:也叫音質(zhì),是一種聲音區(qū)別于另一種聲音的基本
特征,是由聲道的位置和形狀決定。音調(diào):聲音的高低,決定于聲波的頻率的高低,
而聲波頻率的高低又由語音的基音頻率F0所決定。
F0高則音調(diào)高,低則音調(diào)低。
一般說來,老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強(qiáng):聲音的強(qiáng)弱,由聲波的振幅所決定。音長:聲音的長短,取決于發(fā)音時(shí)間的長短。17(2).語音的構(gòu)成—音節(jié)(syllable)、音素(phoneme)1、語音的基本特性音節(jié):說話時(shí)一次發(fā)出的,具有一個(gè)響亮的中心,聽的
時(shí)候被明顯感覺到的語音片段。一個(gè)音節(jié)可由一個(gè)音素或幾個(gè)音素構(gòu)成。音節(jié)是由音素結(jié)合而構(gòu)成的語音流最小單位,是發(fā)聲的最小單位.音節(jié)最典型的結(jié)構(gòu),就是以一個(gè)元音或雙元音為主體,其前面或后面可能連接一個(gè)或多個(gè)輔音。音素:是語音的最小、最基本的組成單位。18b.元音(韻母):是當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流在聲道中不受阻礙,這種情況下產(chǎn)生的語音稱為元音。
元音屬于濁音。輔音(聲母):從聲門呼出的聲音氣流,在聲道通路中
某一部分封閉起來或受到阻礙不能暢通,為克服發(fā)
音器官的這種阻礙而產(chǎn)生的語音稱為輔音。1、語音的基本特性音素的分類:清音:發(fā)清音時(shí)聲帶不振動(dòng)。
濁音:發(fā)濁音時(shí)聲帶振動(dòng)。發(fā)輔音如果聲帶不振動(dòng),則稱為清音;
如果聲帶振動(dòng),則稱為濁輔音.19
語音總是和一定的意義相聯(lián)系著,一定的語音要表達(dá)一定的思想和意義;另外,語音還能表達(dá)出一定的語氣、情感,甚至表達(dá)許多“言外之意”。1、語音的基本特性(3).語義:
漢語的自然單位為音節(jié),每一個(gè)字都是單音節(jié)字.即漢語的一個(gè)音節(jié)就是一個(gè)字的音.
漢語具有四種聲調(diào):陽平,陰平,上聲,去聲20語音可以直接用它的時(shí)間波形來表示根據(jù)時(shí)間波形可以看出語音信號的一些主要特性。就其本性而言,語音波形是時(shí)間的連續(xù)函數(shù),是隨時(shí)間而變化的,但比較緩慢,10~30
ms清音的波形類似于白噪聲;元音具有較明顯的準(zhǔn)周期性.2、語音的時(shí)間波形和頻譜特性21語音信號時(shí)域波形示意圖:
2、語音的時(shí)間波形和頻譜特性222、語音的時(shí)間波形和頻譜特性男聲a女聲a23語音的頻譜特性由聲道的形狀和尺寸決定,語音的頻譜特性隨時(shí)間變化——
短時(shí)平穩(wěn)特性短時(shí)譜——清濁音的不同、對數(shù)和線性振幅譜;語譜圖——濁音和清音的不同、寬帶和窄帶語譜圖2、語音的時(shí)間波形和頻譜特性肺聲帶聲道聲音嘴唇能源激勵(lì)源諧振源輻射源P11圖2-4,2-5,2-6242、語音的時(shí)間波形和頻譜特性男聲a女聲a25元音的聲學(xué)特性發(fā)元音的聲音時(shí),聲帶是振動(dòng)的,音強(qiáng)也較大.2、語音的時(shí)間波形和頻譜特性波形上可以看到大的振幅,而且呈現(xiàn)周期性。其周期就是音高周期,對應(yīng)的頻率就是基頻,通常以F0表示。正常說話時(shí),元音的音長大約是50~400ms之間。元音在頻譜上會(huì)呈現(xiàn)能量集中的現(xiàn)象,集中處的頻帶出現(xiàn)共振峰。在5kHz的語音頻帶范圍內(nèi),會(huì)有5個(gè)共振峰,分別以F1﹑F2﹑F3﹑F4﹑與F5代表,其中F1﹑F2與F3比較明顯。26輔音的聲學(xué)特性輔音是對元音的前或后作修飾。2、語音的時(shí)間波形和頻譜特性帶聲的輔音會(huì)有類似元音的共振峰,因?yàn)槁晭д駝?dòng),所以和元音一樣有諧振的成分,但相對于元音,能量小得多。不帶聲的摩擦音(如f,s,sh,x,h)類似噪音,能量傾向在高頻。發(fā)鼻音時(shí),鼻腔的共振效果使得低頻成分受到壓抑,雖然是聲帶振動(dòng)而有共振峰,但低頻的共振峰能量較弱。271.語音信號可以看成是一個(gè)遍歷性隨機(jī)過程的樣本函數(shù);2.語音信號的統(tǒng)計(jì)特性可以用它的幅度分布的概率密
度函數(shù)和一些平均量(均值和自相關(guān)函數(shù))來描述;3.語音信號的統(tǒng)計(jì)特性也可以用功率譜來描述——長
期平均功率譜可以用周期圖來估計(jì);3、語音信號的統(tǒng)計(jì)特性28語音信號幅度的概率密度函數(shù)(pdf)
3、語音信號的統(tǒng)計(jì)特性1.修正Gamma概率密度2.Laplacian分布3.高斯(Gaussian)分布4.混合高斯分布(GMM)P15圖2-10,2-1129三、
語音感知
人的說話過程分為五個(gè)階段30三、
語音感知
人類在分辨聲音時(shí),是取決于頻域上的分辨率,聽覺器官等于是將時(shí)域的聲音波形轉(zhuǎn)換成在頻域的頻譜,能否聽到聲音或分辨聲音,是取決于音強(qiáng)與頻譜。一般人的聽覺器官可以感知頻率范圍16Hz~18kHz的聲音,動(dòng)態(tài)范圍約1000倍。超出人類聽覺感知范圍,如20kHz以上的聲波,我們稱之為超聲波(ultrasonic)。人耳對于1kHz~5kHz的聲音最為敏感,但是對于1kHz以下與5kHz以上的聲音,就要較大的音強(qiáng)才聽得到。31三、
語音感知
掩蔽效應(yīng)(maskingeffect)1.聽覺掩蔽效應(yīng):當(dāng)一個(gè)聲音存在時(shí),它會(huì)將另一個(gè)聲音的感知臨界值提高,也就是說當(dāng)某一頻率的聲音,有一特定音強(qiáng)存在時(shí),另一個(gè)不同頻率的聲音要將音強(qiáng)提高才會(huì)被聽到。2.頻率掩蔽:同時(shí)存在的聲音,常常是低頻的聲音傾向于掩蔽掉高頻的聲音。3.時(shí)間掩蔽:某一段時(shí)間存在一個(gè)聲音,在此聲音剛結(jié)束的一小段時(shí)間內(nèi),其它的聲音會(huì)聽不見。這個(gè)現(xiàn)象也會(huì)發(fā)生在此存在聲音之前,這是由于聲音在聽覺器官中傳遞時(shí)延遲所造成的。32四、
語音信號產(chǎn)生的數(shù)字模型
語音信號產(chǎn)生的數(shù)字模型:利用數(shù)字技術(shù)模擬語音
信號的產(chǎn)生。模型可分為三個(gè)部分:激勵(lì)模型、聲道模型、輻射模型33根據(jù)發(fā)濁音和發(fā)清音的機(jī)理分為:
(1)濁音激勵(lì)單個(gè)脈沖的波形類似于斜三角波1、激勵(lì)模型(2)清音激勵(lì):發(fā)清音時(shí)聲道被阻礙形成湍流,所以可把
清音激勵(lì)模擬成隨機(jī)白噪聲。342、聲道模型兩種建模方法:(1)聲管模型(2)共振峰模型共振峰模型將聲道視為一個(gè)諧振腔,基于各種音素發(fā)音的不同諧振特點(diǎn)可建立起三種實(shí)用的共振峰模型:(a)
級聯(lián)型
(b)
并聯(lián)型(c)
混合型將聲道視為由多個(gè)不同截面積的管子串聯(lián)而成的系統(tǒng)(p18圖2-14)35(a)
級聯(lián)型:適用于一般單元音,認(rèn)為聲道是一組串聯(lián)的二階諧振器:2、聲道模型36(b)
并聯(lián)型適用于鼻音、復(fù)合元音及大部分輔音,發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《拾秋》幼兒園小學(xué)少兒美術(shù)教育繪畫課件創(chuàng)意教程教案
- 2025年西寧a2貨運(yùn)資格證考試題
- 法律經(jīng)濟(jì)法概論測試題
- 三農(nóng)產(chǎn)品電子商務(wù)作業(yè)指導(dǎo)書
- 培訓(xùn)班租賃民房合同
- S-NH2-Pyridine-piperazine-Me-Boc-生命科學(xué)試劑-MCE
- Opioid-receptor-antagonist-1-生命科學(xué)試劑-MCE
- Eutypenes-I-生命科學(xué)試劑-MCE
- CDK4-6-HDAC-IN-1-生命科學(xué)試劑-MCE
- 公司企業(yè)咨詢服務(wù)合同
- 高考報(bào)名資格審查表
- 幽門螺桿菌的診治規(guī)范課件
- DB15T 1459.4-2018 人工落葉松一元立木材積表
- 微信公眾號運(yùn)營方案
- 中醫(yī)藥文化知識考核試題及答案
- 數(shù)學(xué)基礎(chǔ)模塊上冊課件
- 有機(jī)化學(xué)(高占先)習(xí)題答案
- 中國化學(xué)家侯德榜市公開課獲獎(jiǎng)?wù)n件
- 【課件】第7課 西方古典美術(shù)的傳統(tǒng)與成就 課件高中美術(shù)魯美版美術(shù)鑒賞
- 《抽樣技術(shù)》課件(完整版)
- 工程力學(xué)ppt課件(完整版)
評論
0/150
提交評論