版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
13.1概述13.2耳語音的聲學(xué)特征分析13.3耳語音增強(qiáng)
13.4耳語音轉(zhuǎn)換正常音13.5耳語音識(shí)別13.6今后的研究方向
第十三章耳語語音信號(hào)處理13.1概述耳語語音通常稱為耳語音,它是人們常見的語言交流方式之一,在會(huì)場(chǎng)、音樂廳、圖書館等禁止大聲喧嘩的場(chǎng)所被廣泛應(yīng)用;在移動(dòng)通信系統(tǒng)廣泛發(fā)展的今天,人們也常常采用耳語的方式來保證通話的保密性并防止打擾他人。因此,耳語音的研究具有廣泛的應(yīng)用前景。隨著科學(xué)技術(shù)的發(fā)展,近年來對(duì)耳語音的研究逐漸走向多領(lǐng)域和實(shí)際應(yīng)用,例如耳語音轉(zhuǎn)換為正常音、耳語音的語音識(shí)別和說話人識(shí)別、耳語音的語音增強(qiáng)等等。 耳語語音信號(hào)處理將綜合多年來語音語言學(xué)、生理學(xué)、心理學(xué)、認(rèn)知科學(xué)等多學(xué)科對(duì)耳語音的研究成果,更深層次的揭示耳語音的發(fā)音機(jī)理和聽覺關(guān)于耳語音信息的感知過程和處理機(jī)制;進(jìn)一步揭示耳語音聲學(xué)特性的變化特點(diǎn)和變化規(guī)律;建立和完善耳語語音信號(hào)處理的理論基礎(chǔ)。同時(shí)在應(yīng)用方面,對(duì)耳語音的研究可以應(yīng)用于喉部切除的失音患者的語音交流以及安全場(chǎng)所的身份識(shí)別、犯罪鑒定等多個(gè)方面;在公安、司法等領(lǐng)域,耳語語音研究將有利于破譯語音內(nèi)容,識(shí)別罪犯身份等。13.2耳語音的聲學(xué)特征分析
漢語的音節(jié)一般由一個(gè)元音前后附加一個(gè)或兩個(gè)輔音構(gòu)成,音節(jié)前部的輔音稱為聲母,聲母后面的部分稱為韻母。任何語言的語音都有元音和輔音兩種音素,根據(jù)發(fā)音機(jī)理的不同,輔音又可以分為清輔音和濁輔音。耳語音的清擦音、塞擦音和塞音聲母部分與正常音的發(fā)音方式?jīng)]有大的差異。而韻母部分發(fā)音時(shí),聲門保持半開狀態(tài),聲門前部完全靠攏,后部的氣聲門有一個(gè)寬三角裂隙,聲帶不振動(dòng),從肺部出來的氣流通過開放區(qū)產(chǎn)生摩擦噪聲,故聲源為噪聲。
由于發(fā)耳語音時(shí),偽聲帶區(qū)域變窄,聲門保持半開狀態(tài),使得聲道增加了氣管和肺部分,產(chǎn)生附加的零極點(diǎn),改變了聲道傳輸函數(shù),所以耳語音的韻母部分與正常音的韻母部分有較大的差異。圖為耳語音與正常音發(fā)音時(shí)聲門狀態(tài)的比較。 正常音聲門狀態(tài)
耳語音聲門狀態(tài)
由于韻母部分的發(fā)音方式不同,耳語音的聲學(xué)特征表現(xiàn)在:
激勵(lì)源是噪聲,聲帶不振動(dòng),韻母部分和濁聲母部分沒有基頻,又由于耳語音是氣聲發(fā)音,其能量比正常發(fā)音大約低20dB,信噪比更低,而且發(fā)音時(shí)需要大量氣流,因而語速較慢,音長(zhǎng)較長(zhǎng)。
聲道傳輸函數(shù)改變,耳語音韻母共振峰的位置和帶寬發(fā)生變化。耳語音的頻譜較正常音平坦,500Hz以下被衰減,對(duì)耳語識(shí)別感知起重要作用的頻率段主要集中在500~4000Hz之間。
正常音與耳語音的時(shí)域波形圖和語譜圖的比較
正常音 耳語音
由于耳語音的元音和濁輔音在發(fā)音時(shí)不產(chǎn)生聲帶振動(dòng),沒有基頻,所以此前一些適用于正常音識(shí)別的特征參數(shù)就需要重新評(píng)估或者尋找新的替代參數(shù)。就目前而言,對(duì)耳語音聲學(xué)特性分析研究的對(duì)象主要包括:音長(zhǎng)、音高、聲調(diào)和共振峰等。13.2.1音長(zhǎng)
這里的音長(zhǎng)即為所發(fā)音音節(jié)的時(shí)長(zhǎng)。根據(jù)研究,不同語言的耳語音語速都比正常音語速要慢。通過對(duì)漢語耳語音為實(shí)驗(yàn)對(duì)象的驗(yàn)證實(shí)驗(yàn)指出漢語耳語音平均每秒鐘比正常音慢0.63個(gè)音節(jié),如表所示。而對(duì)漢語輔音的音長(zhǎng)的早期研究也證明漢語耳語音的聲韻母音長(zhǎng)比正常音的都要長(zhǎng)。
耳語音的音長(zhǎng)
發(fā)音人觀測(cè)數(shù)均值標(biāo)準(zhǔn)差最小值最大值△均值△標(biāo)準(zhǔn)差HHK10218631703873237JF103273328438660-9GL102142518324850SZQ1017924157238-1-6WLT1020721172240226WYS1020134138255-112XB1022230166268318XH102262117524923-5YT102522421128669-28ZSP102461821627040-13ZW1019518163213404Total1102264813838728813.2.2音高
雖然耳語音的元音和濁輔音沒有基頻,但是人們?cè)谟枚Z交流時(shí),還是可以感受到聲音的高低,即音高。研究發(fā)現(xiàn)對(duì)后元音[u]、[o]、[a],音高頻率接近后元音的第一共振峰頻率,前元音[]、[γ]、[e]、[i],音高接近其第二共振峰頻率,而其它元音的音高更接近第二共振峰。表2和表3即為不同元音下基頻及前三個(gè)共振峰值比較。人們通過改變第一、第二共振峰頻率值發(fā)現(xiàn),對(duì)音高的感知隨共振峰的提高而提高,隨共振峰的下降而下降,尤其第二共振峰的改變對(duì)音高感知的影響更大,第一共振峰和第二共振峰同時(shí)改變時(shí)對(duì)音高感知的影響最大。表2男性耳語音元音基頻及前三個(gè)共振峰值VowelPerceivedpitchF1F2F3i232035023002750I187043018902300ε185061018702230?166080016202210136089014102120a1220100012502110o112088010902190U9204609102250u900370870\表3女性耳語音元音基頻及前三個(gè)共振峰值VowelPerceivedpitchF1F2F3i273035027003330I225070022902950ε228089022602900?202092020402710156097015802610a1320109013402680o122095012202430U127065013002810u840390870\13.2.3聲調(diào)
1958年Jensen對(duì)挪威語、瑞典語、斯洛文尼亞語和中國(guó)普通話這四種有聲調(diào)特性的語音進(jìn)行了一系列的聲調(diào)辨認(rèn)實(shí)驗(yàn),有人也對(duì)28個(gè)耳語音節(jié)的聲調(diào)進(jìn)行測(cè)聽實(shí)驗(yàn),結(jié)果都表明孤立字詞耳語音是含有聲調(diào)信息的,這為耳語音的孤立字識(shí)別提供一定依據(jù)。而聲調(diào)信息主要由音節(jié)中的元音部分決定,所以主要考慮韻母部分的相關(guān)參數(shù)。研究表明在重構(gòu)語音過程中發(fā)現(xiàn)幅值包絡(luò)和音長(zhǎng)對(duì)三聲、四聲的聲調(diào)識(shí)別有著重要作用,同時(shí)加大幅值包絡(luò)和音長(zhǎng)可以提高人們對(duì)聲調(diào)的感知,后來許多研究者對(duì)音長(zhǎng)和幅值包絡(luò)的研究進(jìn)一步證實(shí)了這兩個(gè)參數(shù)的有效性。此外還發(fā)現(xiàn)共振峰也在一定程度上提供了聲調(diào)信息。13.2.4共振峰
各國(guó)研究者對(duì)英語、塞爾維亞語、日語和漢語耳語音的主要元音研究表明,不同人、不同語種和不同元音的共振峰偏移量都不同,但也有相同的規(guī)律:耳語音的第一、二共振峰頻率高于正常音,第三共振峰頻率和正常音差不多,耳語音的共振峰帶寬變寬。目前大多數(shù)耳語音共振峰估計(jì)算法都是對(duì)正常音算法的改進(jìn)。例如將共振峰估計(jì)分為三步:自相關(guān)函數(shù)(ACF)、分段線性預(yù)測(cè)濾波(SegmenttheACFspectrum)、逆濾波(IFC),最終根據(jù)逆濾波系數(shù)直接得到共振峰值。算法流程
除了共振峰的估計(jì),修改和偏移共振峰也對(duì)耳語音到正常音的轉(zhuǎn)化起著重要作用。由于耳語音轉(zhuǎn)換正常音研究的需要,常要將共振峰進(jìn)行修改,方法主要有直接法和間接法:前者先求出共振峰值,然后對(duì)其進(jìn)行修改;后者通過極點(diǎn)位置或線譜對(duì)頻率的改變間接修改共振峰值。通過比較直接法和極點(diǎn)間接修改法的性能,發(fā)現(xiàn)極點(diǎn)法更靈活、更有效,而線譜對(duì)修改法則可避免極點(diǎn)法中的極點(diǎn)交叉問題。
13.2.5耳語音美爾頻率倒譜特征參數(shù)分析
考慮到耳語音發(fā)音的特殊性,目前的研究大多集中在對(duì)正常語音特征參數(shù)的修正上。例如采用特征彎折將MFCC、LPCC和小波參數(shù)的分布轉(zhuǎn)換為正態(tài)分布,用改進(jìn)的GMM進(jìn)行耳語音識(shí)別,可獲得較好的識(shí)別率。徐柏齡等人基于對(duì)耳語音共振峰位置、能量以及人耳對(duì)耳語音聽覺模型的研究提出了修正MFCC參數(shù)MFCCM和MFCCExp-log。 通過分析發(fā)現(xiàn)共振峰頻率F1、F3較之其他共振峰參數(shù)對(duì)說話人識(shí)別更具有重要作用,通過對(duì)現(xiàn)有三種頻域尺度下LPCC、MFCC和ASCC(AccentSensitiveScaleCoefficient,口音敏感尺度系數(shù))的研究,提出一種新的頻域尺度WSS(WhisperSensitiveScale,耳語敏感尺度),并在此尺度下提取新的特征參數(shù)WSSC(WhisperSensitiveScaleCoefficient,耳語敏感尺度系數(shù))用于基于HMM的說話人識(shí)別系統(tǒng)。WSS尺度與線性尺度關(guān)系如下式:13.3耳語音增強(qiáng)
耳語音的信噪比很低,因此在對(duì)其進(jìn)行識(shí)別和轉(zhuǎn)換時(shí),必須進(jìn)行耳語音的增強(qiáng)。雖然正常語音的增強(qiáng)方法也適用于耳語音,但由于耳語音更容易受背景噪聲的干擾,所以需要尋求更適合耳語音的增強(qiáng)方法。傳統(tǒng)的正常語音增強(qiáng)方法如維納濾波和譜減法對(duì)提高信噪比有很好的效果,但都?xì)埩袅撕艽蟮摹耙魳吩肼暋?,?duì)耳語音來說無法很好適用。因此蘇州大學(xué)的趙鶴鳴提出兩種增強(qiáng)耳語音信噪比的算法,“基于AD神經(jīng)網(wǎng)絡(luò)的耳語音增強(qiáng)”和“基于LMS自適應(yīng)濾波的耳語音增強(qiáng)”。
“基于AD神經(jīng)網(wǎng)絡(luò)的耳語音增強(qiáng)”利用神經(jīng)網(wǎng)絡(luò)具有模仿人腦結(jié)構(gòu)來處理信息的自適應(yīng)線性神經(jīng)元(ADAptiveLINearNeuron,ADLINE)網(wǎng)絡(luò)的線性預(yù)測(cè)來自適應(yīng)地消除由譜減法產(chǎn)生的“音樂噪聲”。ADALINE是線性神經(jīng)網(wǎng)絡(luò)的典型代表,它以LMS為學(xué)習(xí)算法,使均方誤差最小,獲得具有較強(qiáng)抗噪能力網(wǎng)絡(luò)。
耳語音增強(qiáng)系統(tǒng)原理框圖“基于LMS自適應(yīng)濾波的耳語音增強(qiáng)算法”也采用譜減法得到一個(gè)增強(qiáng)耳語音信號(hào),得到較好的譜包絡(luò)之后對(duì)增強(qiáng)信號(hào)進(jìn)行LMS自適應(yīng)濾波,消除由譜減法產(chǎn)生的音樂噪聲。這種方法在低信噪比的情況下,信噪比可以提高20dB左右。
LMS自適應(yīng)噪聲對(duì)消原理13.4耳語音轉(zhuǎn)換正常音
由于耳語音獨(dú)特的發(fā)音機(jī)理和聲學(xué)特性,使得耳語音的變換不同于正常音下不同說話人之間的語音變換,也不同于氣管食管語音的增強(qiáng)。后兩種語音變換都是在基頻存在的情況下進(jìn)行相應(yīng)處理,而耳語音的變換是從無基頻到有基頻的轉(zhuǎn)變,因此有兩個(gè)關(guān)鍵問題需要解決。一是如何添加基頻,二是如何修正聲道傳輸函數(shù)。
漢語耳語音轉(zhuǎn)換為正常音的系統(tǒng)框圖 上圖是漢語耳語音轉(zhuǎn)換為正常音的系統(tǒng)框圖。首先把8KHz,16bit采集的耳語音進(jìn)行預(yù)加重去除噪聲,然后分幀加海明窗,窗長(zhǎng)20ms,窗移10ms。通過計(jì)算各幀信號(hào)的對(duì)稱相對(duì)熵進(jìn)行聲韻分割,分別獲得耳語音的聲母部分和韻母部分。韻母部分通過同態(tài)信號(hào)處理正系統(tǒng)后,用短時(shí)窗提取聲道響應(yīng)序列的復(fù)倒譜,然后通過同態(tài)信號(hào)處理逆系統(tǒng)恢復(fù)出聲道傳遞時(shí)序序列,再把漢語普通話的歸一字調(diào)模型根據(jù)音調(diào)加入基頻。將處理過的韻母和聲母連接起來就可基本恢復(fù)出正常
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)參考:近代漢文中國(guó)行紀(jì)與全球文學(xué)關(guān)系研究
- 2025年度個(gè)人與公司租賃合同稅費(fèi)承擔(dān)協(xié)議4篇
- 二零二五版金融服務(wù)保密協(xié)議范本修訂6篇
- 2025年保定怎么考貨運(yùn)從業(yè)資格證
- 二零二五年城投小貸與農(nóng)業(yè)產(chǎn)業(yè)合作框架協(xié)議4篇
- 2025年度農(nóng)村土地流轉(zhuǎn)經(jīng)營(yíng)權(quán)抵押貸款合同示范文本4篇
- 二零二五年度充電樁安裝工程知識(shí)產(chǎn)權(quán)保護(hù)合同4篇
- 二零二五年度出境領(lǐng)隊(duì)旅游目的地考察合同4篇
- 二零二五年度城市綜合體建設(shè)項(xiàng)目承包商安全作業(yè)管理協(xié)議4篇
- 2025年度葡萄采摘季節(jié)臨時(shí)工采購(gòu)合同范本3篇
- 垃圾處理廠工程施工組織設(shè)計(jì)
- 天皰瘡患者護(hù)理
- 2025年蛇年新年金蛇賀歲金蛇狂舞春添彩玉樹臨風(fēng)福滿門模板
- 《建筑制圖及陰影透視(第2版)》課件 4-直線的投影
- 2024-2030年中國(guó)IVD(體外診斷)測(cè)試行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- 損失補(bǔ)償申請(qǐng)書范文
- 壓力與浮力的原理解析
- 鐵路損傷圖譜PDF
- 裝修家庭風(fēng)水學(xué)入門基礎(chǔ)
- 移動(dòng)商務(wù)內(nèi)容運(yùn)營(yíng)(吳洪貴)任務(wù)二 社群的種類與維護(hù)
- 《詩詞寫作常識(shí) 詩詞中國(guó)普及讀物 》讀書筆記思維導(dǎo)圖
評(píng)論
0/150
提交評(píng)論