緒論語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)【共62張】_第1頁(yè)
緒論語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)【共62張】_第2頁(yè)
緒論語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)【共62張】_第3頁(yè)
緒論語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)【共62張】_第4頁(yè)
緒論語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)【共62張】_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

緒論語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)優(yōu)選緒論語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)該門(mén)課程的教學(xué)要求:大綱:選修課考查(考試方式)全書(shū)12章(32學(xué)時(shí),講10章)第1章緒論第2章語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)第3章語(yǔ)音信號(hào)分析第4章矢量量化技術(shù)第5章隱馬爾可夫模型第7章語(yǔ)音編碼第8章語(yǔ)音合成第9章語(yǔ)音識(shí)別第10章說(shuō)話人識(shí)別與語(yǔ)種辨識(shí)第14章語(yǔ)音增強(qiáng)1.語(yǔ)音信號(hào)處理技術(shù)的應(yīng)用2.語(yǔ)音信號(hào)處理技術(shù)的發(fā)展概況第1章緒論§1.1語(yǔ)音信號(hào)處理技術(shù)的應(yīng)用

語(yǔ)音是人類最重要、最有效、最常用和最方便的交換信息的方式;讓計(jì)算機(jī)能聽(tīng)懂人類的語(yǔ)言,是人類自計(jì)算機(jī)誕生以來(lái)夢(mèng)寐以求的想法;語(yǔ)音信號(hào)處理技術(shù)始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系,并且一起發(fā)展。下面介紹語(yǔ)音信號(hào)處理技術(shù)的廣泛應(yīng)用。(1)語(yǔ)音編碼(語(yǔ)音壓縮編碼、語(yǔ)音壓縮)必要性:數(shù)字化語(yǔ)音信號(hào)的存儲(chǔ)要占用一定的空間,傳輸要占用一定的帶寬。為了節(jié)省空間和帶寬需要對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮編碼。如果只按照傳統(tǒng)的模數(shù)轉(zhuǎn)換技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化,那就必須傳輸或存儲(chǔ)大量的數(shù)據(jù)。假定采樣速率為8kHz,對(duì)每個(gè)樣本進(jìn)行16位A/D轉(zhuǎn)換,則每秒的語(yǔ)音數(shù)據(jù)量將達(dá)到128kbps。這么高的位率通常是不允許的,必須對(duì)其進(jìn)行壓縮。發(fā)展現(xiàn)狀:自從30年代末提出脈沖編碼調(diào)制(PCM)原理以及聲碼器的概念后,語(yǔ)音編碼一直沿著兩個(gè)方向發(fā)展:語(yǔ)音信號(hào)波形編碼與聲碼化編碼,或者是非參數(shù)化編碼與參數(shù)化編碼。參數(shù)編碼有時(shí)也稱為模型編碼。1)波形編碼語(yǔ)音信號(hào)波形編碼的特點(diǎn)是:力圖使重建的語(yǔ)音波形保持原始語(yǔ)音信號(hào)的波形形狀。這類編碼器通常將語(yǔ)音信號(hào)當(dāng)作一般的波形信號(hào)來(lái)處理,具有適應(yīng)能力強(qiáng)、話音質(zhì)量好等優(yōu)點(diǎn),但是所需要的編碼速率高。如:PCM、增量調(diào)制、自適應(yīng)增量調(diào)制等。2)參數(shù)編碼參數(shù)編碼通過(guò)對(duì)語(yǔ)音信號(hào)特征參數(shù)的提取及編碼,力圖使重建的語(yǔ)音信號(hào)具有盡可能高的可懂度,即保持原語(yǔ)音的語(yǔ)意,但是重建信號(hào)的波形同原語(yǔ)音信號(hào)的波形相比可能會(huì)有相當(dāng)大的差別。參數(shù)編碼的主要問(wèn)題是:合成語(yǔ)音質(zhì)量低,自然度較差,有時(shí)甚至連連熟人也不一定能聽(tīng)出講話人是誰(shuí)。另外,這類編碼器對(duì)講話的環(huán)境噪聲比較敏感,需要安靜的講話環(huán)境才能給出較高的可懂度。如:線性預(yù)測(cè)聲碼器等。3)混合編碼混合編碼克服了原有波形編碼與參數(shù)編碼的弱點(diǎn),結(jié)合了它們各自的長(zhǎng)處,在4~16kbps速率上能夠得到質(zhì)量比較好的合成語(yǔ)音,在本質(zhì)上具有波形編碼的優(yōu)點(diǎn)。如:多脈沖激勵(lì)線性預(yù)測(cè)編碼、規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼、碼本激勵(lì)線性預(yù)測(cè)編碼等。應(yīng)用:帶寬受限信道的數(shù)字話音傳輸(蜂窩移動(dòng)通信、衛(wèi)星通信等)、可視、語(yǔ)音的數(shù)字存儲(chǔ)、呼叫服務(wù)(數(shù)字錄音、語(yǔ)音信箱等);方向:低碼率高質(zhì)量的音頻編碼技術(shù)和算法。語(yǔ)音壓縮通常根據(jù)實(shí)際應(yīng)用情況,進(jìn)行三方面的均衡,即位率、質(zhì)量和清晰度、編解碼算法的復(fù)雜度。例如,有的數(shù)字語(yǔ)音錄放系統(tǒng)對(duì)編碼器實(shí)時(shí)性要求不高,但希望有較高的壓縮效率,以降低所需存儲(chǔ)器的容量;對(duì)于解碼器,則要求算法盡量簡(jiǎn)單、成本低,并能夠?qū)崟r(shí)或基本實(shí)時(shí)解碼;數(shù)字通信系統(tǒng)則要求能夠?qū)崟r(shí)編解碼。(2)語(yǔ)音識(shí)別作用:將語(yǔ)音轉(zhuǎn)換成等價(jià)的書(shū)面信息,即讓計(jì)算機(jī)聽(tīng)懂人說(shuō)話。語(yǔ)音識(shí)別是建立計(jì)算機(jī)聽(tīng)覺(jué)系統(tǒng)的基礎(chǔ),它使得任何計(jì)算機(jī)之間利用自然語(yǔ)言進(jìn)行通信成為可能。語(yǔ)音識(shí)別的一般過(guò)程:在訓(xùn)練階段,用戶將詞匯表中的每個(gè)詞依次說(shuō)一遍,語(yǔ)音分析單元對(duì)輸入語(yǔ)音進(jìn)行分析,并將其特征矢量序列作為模板存入模板庫(kù)。在識(shí)別階段,將對(duì)輸入語(yǔ)音分析得到的特征序列與模板庫(kù)中的每一個(gè)模板相匹配比較,將相似度最高者作為識(shí)別結(jié)果輸出。預(yù)處理包括反混疊濾波、數(shù)模轉(zhuǎn)換、自動(dòng)增益控制、噪聲消除、去除聲門(mén)激勵(lì)及口唇輻射影響,以及端點(diǎn)檢測(cè)和自動(dòng)分段。其中,端點(diǎn)檢測(cè)和自動(dòng)分段決定于系統(tǒng)選擇的識(shí)別單元的大小?;梢允且羲?、音節(jié)字、或詞。基元選得小,存儲(chǔ)的模板量可以減少,但對(duì)分割技術(shù)要求會(huì)提高,并會(huì)影響識(shí)別率。提取各種聲學(xué)參數(shù),包括時(shí)域參數(shù)、頻域參數(shù)、倒譜域參數(shù)和超音段信息。時(shí)域參數(shù):短時(shí)平均能量、短時(shí)平均過(guò)零率、和短時(shí)自相關(guān)函數(shù)。頻域參數(shù):濾波器組平均譜、線譜、共振峰信息共振峰頻率、帶寬、幅值、和線性預(yù)測(cè)系數(shù)。倒譜域參數(shù):倒譜系數(shù)。超音段信息:音長(zhǎng)、音調(diào)、聲調(diào)用統(tǒng)計(jì)模型通常是隱馬爾可夫模型,由訓(xùn)練樣本得到各類的模型參數(shù)。參考模板就是由訓(xùn)練或聚類的方法得到的語(yǔ)音庫(kù)。未知的語(yǔ)音樣本要通過(guò)與語(yǔ)音庫(kù)中的各個(gè)模板進(jìn)行比較才能得到識(shí)別。應(yīng)用前景:A、聲控應(yīng)用,計(jì)算機(jī)識(shí)別語(yǔ)音內(nèi)容,并實(shí)施相應(yīng)的動(dòng)作。典型系統(tǒng):聲控轉(zhuǎn)換、聲控語(yǔ)音撥號(hào)、聲控智能玩具、信息網(wǎng)絡(luò)查詢、、家庭服務(wù)等;B、聽(tīng)寫(xiě)系統(tǒng),以口授方式將文字輸入計(jì)算機(jī);C、自動(dòng)口語(yǔ)翻譯,將一種語(yǔ)言翻譯成另一種語(yǔ)言,如中科院開(kāi)展的CSTAR計(jì)劃;D、人機(jī)交互;E、移動(dòng)計(jì)算設(shè)備語(yǔ)音輸入;F、說(shuō)話人識(shí)別,安全加密、法庭取證、信息查詢、公安機(jī)關(guān)破案等。(3)說(shuō)話人識(shí)別根據(jù)語(yǔ)音辨別說(shuō)話人。說(shuō)話人識(shí)別分為訓(xùn)練階段和識(shí)別階段。這兩個(gè)階段都必須根據(jù)說(shuō)話人的特征建立模型進(jìn)行識(shí)別。根據(jù)判決模式不同可以將說(shuō)話人識(shí)別分為說(shuō)話人辨識(shí)和說(shuō)話人確認(rèn)兩類。根據(jù)對(duì)訓(xùn)練和測(cè)試語(yǔ)音內(nèi)容的要求不同,還可以將說(shuō)話人識(shí)別分為固定文本的說(shuō)話人識(shí)別和任意文本的說(shuō)話人識(shí)別。說(shuō)話人識(shí)別的主要方法:基于模板的方法:DTW、矢量量化基于隨機(jī)模板的方法:混合高斯模型、隱馬爾科夫模型基于人工神經(jīng)網(wǎng)絡(luò)的方法基于支持向量機(jī)的方法應(yīng)用:廣泛應(yīng)用于人機(jī)接口、保安、軍事、司法等方面。(保密設(shè)施的門(mén)禁系統(tǒng)、個(gè)人賬戶的身份驗(yàn)證、司法調(diào)查中的聲音認(rèn)證等)說(shuō)話人識(shí)別和語(yǔ)音識(shí)別比較同:都是語(yǔ)音信號(hào)處理技術(shù)同計(jì)算機(jī)技術(shù)相結(jié)合的產(chǎn)物;都是應(yīng)用機(jī)器設(shè)備(主體是計(jì)算機(jī))來(lái)模仿人對(duì)語(yǔ)音的感知和處理能力;都是基本的模式識(shí)別問(wèn)題;都可以分為訓(xùn)練與測(cè)試兩個(gè)階段,訓(xùn)練時(shí)提取出某些語(yǔ)音特征,建立相應(yīng)的模型,測(cè)試時(shí)提取出相同的語(yǔ)音特征,再根據(jù)一定的相似性準(zhǔn)則作出判斷;兩者有時(shí)采用相同的語(yǔ)音特征。異:(l)對(duì)于說(shuō)話人識(shí)別,語(yǔ)音信號(hào)在特征空間中是按照說(shuō)話人來(lái)劃分的,而語(yǔ)音識(shí)別是按照單詞或句子劃分的。(2)說(shuō)話人識(shí)別是想要挖掘出包含在語(yǔ)音信號(hào)中的有關(guān)說(shuō)話人的個(gè)性因素,力圖強(qiáng)調(diào)不同人之間的差別;而語(yǔ)音識(shí)別則是想要得到語(yǔ)音信號(hào)的語(yǔ)義內(nèi)容,而忽略掉不同說(shuō)話人的個(gè)性因素。兩者差異體現(xiàn)在語(yǔ)音特征和建模方法的選擇上。(4)語(yǔ)音合成目的:讓計(jì)算機(jī)說(shuō)話。語(yǔ)音合成是語(yǔ)言合成中最基本的部分,它相當(dāng)于“人工嘴巴”。最簡(jiǎn)單的語(yǔ)音合成是語(yǔ)音相應(yīng)系統(tǒng):在計(jì)算機(jī)內(nèi)建立一個(gè)語(yǔ)音庫(kù),將可能用到的單字、詞組或一些句子的聲音信號(hào)編碼后存入計(jì)算機(jī),當(dāng)鍵入所要的字、詞組或句子代碼時(shí),就能調(diào)出對(duì)應(yīng)的數(shù)碼信號(hào),并轉(zhuǎn)換成聲音。語(yǔ)音合成器:從理論上講,它可完全模仿人類發(fā)聲器官動(dòng)作和發(fā)聲過(guò)程,實(shí)時(shí)地產(chǎn)生所需的語(yǔ)音。但在事實(shí)上,由于很難找出定量描述發(fā)聲器官動(dòng)作的精確數(shù)字模型和實(shí)際語(yǔ)音產(chǎn)生規(guī)律,因此實(shí)現(xiàn)起來(lái)還有一定困難。語(yǔ)音合成技術(shù)經(jīng)歷了一個(gè)逐步發(fā)展的過(guò)程,從參數(shù)合成到拼接合成再到兩者的逐步結(jié)合,其不斷發(fā)展主要是人們認(rèn)知水平以及要求的不斷提高的結(jié)果。目前,常用的語(yǔ)音合成技術(shù)主要有:共振峰合成技術(shù)、LPC合成技術(shù)、PSOLA拼接合成技術(shù)和LMA聲道模型技術(shù)。各種合成技術(shù)各有自己的優(yōu)缺點(diǎn),人們?cè)趹?yīng)用的過(guò)程中往往將多種技術(shù)有機(jī)的結(jié)合在一起,或者將一種技術(shù)的優(yōu)點(diǎn)運(yùn)用到另一種技術(shù)上,以克服另一種技術(shù)的不足。應(yīng)用:公共交通自動(dòng)報(bào)站,各種場(chǎng)合的自動(dòng)報(bào)時(shí)、自動(dòng)告警等,文本校對(duì)中的語(yǔ)音提示,查詢服務(wù);應(yīng)用新領(lǐng)域:與Internet結(jié)合,有聲EMAIL,網(wǎng)上信息的有聲獲取、語(yǔ)音聊天等;與機(jī)器翻譯技術(shù)結(jié)合的語(yǔ)音翻譯;與圖象、視頻技術(shù)結(jié)合的視覺(jué)(visualspeech)語(yǔ)音。研究方向:高質(zhì)量、高清晰度自然語(yǔ)音合成,以及表達(dá)人類的情感語(yǔ)音。(5)語(yǔ)音增強(qiáng)為了從帶噪信號(hào)中獲得盡可能純凈的語(yǔ)音信號(hào),減少噪音的干擾,就需要進(jìn)行語(yǔ)音增強(qiáng)。目標(biāo):對(duì)收聽(tīng)人而一言主要是減少疲勞感,改善語(yǔ)音質(zhì)量,提高語(yǔ)音可懂度;對(duì)語(yǔ)音處理系統(tǒng)(識(shí)別器、聲碼器、)而言是提高系統(tǒng)的識(shí)別率和抗干擾能力。語(yǔ)音增強(qiáng)在許多方面有著廣泛的應(yīng)用,例如:.在國(guó)家和社會(huì)安全方面,偵聽(tīng)信號(hào)常常含有較大的噪聲,語(yǔ)音增強(qiáng)有助于提高偵聽(tīng)系統(tǒng)的效果,可以幫助偵察破案或獲取情報(bào)。.飛機(jī)駕駛?cè)藛T與地面指揮的語(yǔ)音通訊常常因飛機(jī)螺旋槳、發(fā)動(dòng)機(jī)等強(qiáng)噪聲而受到干擾,需要進(jìn)行語(yǔ)音增強(qiáng)以保證語(yǔ)音信息的可靠傳達(dá)。語(yǔ)音增強(qiáng)的主要方法:1)噪聲對(duì)消法顯而易見(jiàn),如果能直接從帶噪語(yǔ)音中,在時(shí)域中或者在頻域中,將噪聲分量減去,則能有效增強(qiáng)帶噪語(yǔ)音。噪聲對(duì)消法就是以此作為出發(fā)點(diǎn)。其最大特點(diǎn)是需要采集背景噪聲作為參考信號(hào),參考信號(hào)準(zhǔn)確與否直接決定著噪聲對(duì)消法的性能。在采集背景噪聲時(shí),往往采用自適應(yīng)濾波技術(shù),以便使參考信號(hào)盡可能接近帶噪語(yǔ)音中的噪聲分量。2)自適應(yīng)梳狀濾波由于語(yǔ)音中的濁音具有明顯的周期性,這種周期性反映到頻域中則為一系列分別對(duì)應(yīng)基頻(基音)及其諧波的一個(gè)個(gè)峰值分量,這些頻率分量占據(jù)了語(yǔ)音的大部分能量,我們自然可以利用這種周期性來(lái)進(jìn)行語(yǔ)音增強(qiáng)。這時(shí)可采用自適應(yīng)梳狀濾波器來(lái)提取基音及其諧波分量,抑制其他周期性噪聲和非周期的寬帶噪聲。由于語(yǔ)音是時(shí)變的,語(yǔ)音的基音周期也是不斷變化的,能否準(zhǔn)確地估計(jì)出基音周期以及能否及時(shí)跟蹤基音變化,是這種基于諧波增強(qiáng)法的關(guān)鍵。可設(shè)定其平均值為0,其自相關(guān)函數(shù)是一個(gè)單位沖激函數(shù)?;旌暇幋a克服了原有波形編碼與參數(shù)編碼的弱點(diǎn),結(jié)合了它們各自的長(zhǎng)處,在4~16kbps速率上能夠得到質(zhì)量比較好的合成語(yǔ)音,在本質(zhì)上具有波形編碼的優(yōu)點(diǎn)。參數(shù)編碼有時(shí)也稱為模型編碼。于是,可以從中截取一小段進(jìn)行頻譜分析。50年代后,語(yǔ)音信號(hào)處理得到新的進(jìn)展。顯而易見(jiàn),如果能直接從帶噪語(yǔ)音中,在時(shí)域中或者在頻域中,將噪聲分量減去,則能有效增強(qiáng)帶噪語(yǔ)音。超音段信息:音長(zhǎng)、音調(diào)、聲調(diào)——截取一段進(jìn)行付氏變換,求其短時(shí)譜。如:PCM、增量調(diào)制、自適應(yīng)增量調(diào)制等。未知的語(yǔ)音樣本要通過(guò)與語(yǔ)音庫(kù)中的各個(gè)模板進(jìn)行比較才能得到識(shí)別。(12)數(shù)字語(yǔ)音安全性、完整性研究(新發(fā)展方向)目標(biāo):對(duì)收聽(tīng)人而一言主要是減少疲勞感,改善語(yǔ)音質(zhì)量,提高語(yǔ)音可懂度;對(duì)語(yǔ)音處理系統(tǒng)(識(shí)別器、聲碼器、)而言是提高系統(tǒng)的識(shí)別率和抗干擾能力。第10章說(shuō)話人識(shí)別與語(yǔ)種辨識(shí)基于語(yǔ)音生成模型可以得到一系列語(yǔ)音增強(qiáng)方法,比如時(shí)變參數(shù)維納濾濁音的聲帶振動(dòng)基本頻率稱為基音頻率,一般用F0表示。3)幅度譜相減法對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行傅立葉變換,在頻域中從帶噪語(yǔ)音的幅度譜上減去噪聲的幅度譜來(lái)作為語(yǔ)音信號(hào)的幅度譜。利用人耳對(duì)語(yǔ)音相位的不敏感性,語(yǔ)音相位譜則近似用帶噪語(yǔ)音的相位譜代替。4)功率譜相減法這種方法是從帶噪語(yǔ)音功率譜中減去噪聲的功率譜,從而得到語(yǔ)音信號(hào)的功率譜,進(jìn)而決定語(yǔ)音信號(hào)各頻譜分量增益,最終得到語(yǔ)音信號(hào)的估計(jì)。5)維納濾波法維納濾波法是為得到語(yǔ)音信號(hào)的時(shí)域波形,在最小均方誤差準(zhǔn)則下得到的最優(yōu)估計(jì)器。實(shí)際應(yīng)用中,多采用非因果維納濾波器的頻域?qū)崿F(xiàn)形式。6)語(yǔ)音參數(shù)模型法語(yǔ)音的發(fā)聲過(guò)程可以建模為一個(gè)線性時(shí)變?yōu)V波器。對(duì)不同類型的語(yǔ)音采用不同的激勵(lì)源。例如對(duì)于濁音,激勵(lì)源為周期與基音周期相同的脈沖串;而對(duì)于清音,激勵(lì)源為高斯白噪聲。在語(yǔ)音的生成模型中,應(yīng)用最廣泛的是全極點(diǎn)模型。基于語(yǔ)音生成模型可以得到一系列語(yǔ)音增強(qiáng)方法,比如時(shí)變參數(shù)維納濾波及卡爾曼濾波方法??柭鼮V波就是基于語(yǔ)音生成模型的一種有效語(yǔ)音增強(qiáng)方法,它能有效消除有色噪聲。(6)基于語(yǔ)音的信息檢索(新方向)動(dòng)機(jī):網(wǎng)絡(luò)技術(shù)和數(shù)字圖書(shū)館技術(shù);方向:基于語(yǔ)音內(nèi)容的信息檢索(7)基于語(yǔ)音識(shí)別的廣播新聞的自動(dòng)文摘技術(shù)、自動(dòng)謄寫(xiě)技術(shù)(新發(fā)展方向)(8)IP技術(shù)(新發(fā)展方向)研究領(lǐng)域:研究網(wǎng)絡(luò)環(huán)境下的語(yǔ)音識(shí)別,即對(duì)網(wǎng)絡(luò)上以數(shù)據(jù)包形式傳輸?shù)恼Z(yǔ)音進(jìn)行識(shí)別。應(yīng)用領(lǐng)域:電子商務(wù)、國(guó)防,移動(dòng)計(jì)算(9)語(yǔ)音訓(xùn)練與校正技術(shù)(新方向)應(yīng)用:輔助教學(xué)、發(fā)音校正。(10)語(yǔ)種識(shí)別(新發(fā)展方向)通過(guò)分析一個(gè)語(yǔ)音片段來(lái)判別其所屬語(yǔ)言的種類,屬語(yǔ)音識(shí)別范疇。(11)基于語(yǔ)音的情感處理研究(新發(fā)展方向)(12)數(shù)字語(yǔ)音安全性、完整性研究(新發(fā)展方向)(13)音頻作品安全性、完整性研究(新發(fā)展方向)§1.2.語(yǔ)音信號(hào)處理技術(shù)的發(fā)展概況1.語(yǔ)音信號(hào)處理的發(fā)展標(biāo)志是在1940年產(chǎn)生的通道聲碼器技術(shù),打破了以前的“波形原則”,提出了一種全新的語(yǔ)音通信技術(shù),即提取參數(shù)加以傳輸,在收端重新合成語(yǔ)音。其后,產(chǎn)生“語(yǔ)音參數(shù)模型”的思想。2.40年代后期,研制成功了“語(yǔ)譜儀”,為語(yǔ)音信號(hào)分析提高了有力工具。3.50年代后,語(yǔ)音信號(hào)處理得到新的進(jìn)展。主要標(biāo)志是貝爾實(shí)驗(yàn)室英文數(shù)字語(yǔ)音識(shí)別裝置的研究成功。其后隨著數(shù)字計(jì)算機(jī)和數(shù)字信號(hào)處理技術(shù)(FFT)的突破性發(fā)展,產(chǎn)生了第一臺(tái)孤立詞語(yǔ)音識(shí)別器、有限連續(xù)語(yǔ)音識(shí)別器。4.70年代初,隨著倒譜分析技術(shù)和線性預(yù)測(cè)技術(shù)的成功應(yīng)用,微電子學(xué)、微處理機(jī)芯片和專用信號(hào)處理芯片的不斷問(wèn)世,進(jìn)一步推動(dòng)了語(yǔ)音信號(hào)處理技術(shù)的發(fā)展。5.80年代初,矢量量化VQ應(yīng)用于語(yǔ)音信號(hào)處理;隱式馬爾可夫模型HMM是80年代語(yǔ)音信號(hào)處理技術(shù)的重大發(fā)展。6近年來(lái),人工神經(jīng)網(wǎng)絡(luò)研究取得了迅速的發(fā)展,語(yǔ)音識(shí)別是神經(jīng)網(wǎng)絡(luò)的一個(gè)重要應(yīng)用領(lǐng)域第2章語(yǔ)音信號(hào)處理的基礎(chǔ)知識(shí)語(yǔ)音的產(chǎn)生過(guò)程語(yǔ)音信號(hào)的特性分析語(yǔ)音信號(hào)生成的數(shù)學(xué)模型§2.1語(yǔ)音的產(chǎn)生過(guò)程什么是語(yǔ)音?語(yǔ)音的產(chǎn)生過(guò)程1.

什么是語(yǔ)音語(yǔ)音是帶有語(yǔ)言信息的聲音(聲波)。人們講話時(shí)發(fā)出的話語(yǔ)叫語(yǔ)音,它是一種聲音,具有稱為聲學(xué)特征的物理特性。語(yǔ)音(Speech)是聲音(Acoustic)和語(yǔ)言(Language)的組合體??梢赃@樣定義語(yǔ)音:語(yǔ)音是由一連串的音組成語(yǔ)言的聲音。經(jīng)過(guò)聲電轉(zhuǎn)換得到電信號(hào);經(jīng)過(guò)聲光轉(zhuǎn)換得到光信號(hào)。2.語(yǔ)音的產(chǎn)生過(guò)程語(yǔ)音的產(chǎn)生依賴于人類的發(fā)聲器官。發(fā)聲器官主要由喉、聲道和嘴構(gòu)成。人的說(shuō)話過(guò)程可以分為五個(gè)階段:(1)想說(shuō)階段(2)說(shuō)出階段(3)傳送階段(4)理解階段(5)接收階段§2.2語(yǔ)音信號(hào)的特性分析語(yǔ)音信號(hào)的聲學(xué)特性語(yǔ)音信號(hào)的時(shí)域波形語(yǔ)音信號(hào)的頻譜特性語(yǔ)音信號(hào)的統(tǒng)計(jì)特性語(yǔ)音信號(hào)的聲學(xué)特性語(yǔ)音是人的發(fā)聲器官發(fā)出的一種聲波,它具有一定的音色,音調(diào),音強(qiáng)和音長(zhǎng)。音色也叫音質(zhì),是一種聲音區(qū)別于另一種聲音的基本特征。音調(diào)是指聲音的高低,它取決于聲波的頻率。聲音的強(qiáng)弱叫音強(qiáng),它由聲波的振動(dòng)幅度決定。聲音的長(zhǎng)短叫音長(zhǎng),它取決于發(fā)音時(shí)間的長(zhǎng)短。說(shuō)話時(shí)一次發(fā)出的,具有一個(gè)響亮的中心,并被明顯感覺(jué)到的語(yǔ)音片段叫音節(jié)(Syllable)。一個(gè)音節(jié)可以由一個(gè)音素構(gòu)成,也可以由幾個(gè)音素構(gòu)成。音素是語(yǔ)音發(fā)音的最小單位。任何語(yǔ)言都有語(yǔ)音的元音(Vowel)和輔音(Consonant)兩種音素。元音:當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí),這些聲腔完全開(kāi)放,氣流順利通過(guò)產(chǎn)生的音素?!獦?gòu)成一個(gè)音節(jié)的主干,長(zhǎng)度和能量看,元音在音節(jié)中都占主要部分。輔音:呼出的聲流,由于通路的某一部分封閉起來(lái)或受到阻礙,氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素?!怀霈F(xiàn)在音節(jié)的前端、后端或前后兩端發(fā)輔音時(shí)由聲帶是否振動(dòng)引起濁音和清音的區(qū)別:聲帶振動(dòng)的是濁音聲帶不振動(dòng)的是清音基音頻率當(dāng)發(fā)濁音時(shí),氣流通過(guò)聲門(mén)時(shí)使聲帶發(fā)生振動(dòng),產(chǎn)生準(zhǔn)周期激勵(lì)脈沖串,這個(gè)脈沖串的周期稱為基音周期,其倒數(shù)稱為基音頻率。濁音的聲帶振動(dòng)基本頻率稱為基音頻率,一般用F0表示。無(wú)論一個(gè)音節(jié)或是一段連續(xù)語(yǔ)音,各個(gè)音節(jié)的元音段的F0都是隨時(shí)間變化的,該變化產(chǎn)生了聲調(diào),其變化軌跡稱為聲調(diào)軌跡?;纛l率與個(gè)人聲帶的長(zhǎng)短、厚薄、韌性、勁度和發(fā)音習(xí)慣等有關(guān),在很大程度上反映了個(gè)人的特征。一般來(lái)說(shuō),男性說(shuō)話者的基音頻率大致分布在50-200Hz,女性和小孩的基音頻率在200-450Hz之間。共振峰共振峰是一組諧振頻率:聲道可以看成是一根具有非均勻截面的聲管,在發(fā)音時(shí)起共鳴器的作用,當(dāng)元音激勵(lì)進(jìn)入聲道時(shí)會(huì)引起共振特性,產(chǎn)生一組共振頻率,稱為共振峰頻率(簡(jiǎn)稱共振峰)。元音的一個(gè)重要聲學(xué)特性是共振峰(Formant)。共振峰參數(shù)是區(qū)別不同元音的重要參數(shù),它一般包括共振峰頻率(FormantFrequency)的位置和頻帶寬度(FormantBandwidth)。元音的共振峰與發(fā)音機(jī)制(舌位高低、前后;舌尖的狀態(tài)等)有關(guān)。語(yǔ)音信號(hào)的時(shí)域波形和頻譜特性

在時(shí)間域里,語(yǔ)音信號(hào)可以直接用它的時(shí)間波形表示出來(lái),通過(guò)觀察時(shí)間波形可以看出語(yǔ)音信號(hào)的一些重要特性。觀察語(yǔ)音信號(hào)時(shí)間波形的特性,可以通過(guò)對(duì)語(yǔ)音波形的振幅和周期性來(lái)觀察不同性質(zhì)的音素的差別。下圖是漢語(yǔ)拼音“souke”的時(shí)間波形。表示這段語(yǔ)音波形時(shí)采用的采樣頻率是8kHz,量化精度是16bit。圖上標(biāo)明了時(shí)間及各個(gè)音節(jié)的起始位置。由于在時(shí)域波形里各個(gè)單音節(jié)間不好明顯地分界,因此,圖上標(biāo)出的某個(gè)音的起點(diǎn)只是粗略的。從上圖可以看出,清輔音[s][k]和元音[ou][e]這兩類音的時(shí)間波形有很大區(qū)別。例如,從A點(diǎn)開(kāi)始的音節(jié)[s],以及從C點(diǎn)開(kāi)始的[k]都是清輔音,它們的波形類似于白噪聲,振幅很小,沒(méi)有明顯的周期性;而從B點(diǎn)開(kāi)始的元音[ou]以及從D點(diǎn)開(kāi)始的[e]都具有明顯的周期性,且振幅較大。它們的周期對(duì)應(yīng)的就是聲帶振動(dòng)的頻率,即基音頻率,它是聲門(mén)脈沖的間隔。如果考察其中一小段元音語(yǔ)音波形,從它的頻譜特性大致可以看出它們的共振峰特性。

語(yǔ)音信號(hào)具有很強(qiáng)的時(shí)變特性,有些波形具有很強(qiáng)的周期性,有些波形具有很強(qiáng)的噪聲特性,且周期性語(yǔ)音和噪聲性語(yǔ)音的特征也在不斷變化之中。但在較短的時(shí)間內(nèi),語(yǔ)音信號(hào)的特征可以認(rèn)為基本不變,所以,語(yǔ)音信號(hào)屬于短時(shí)平穩(wěn)信號(hào),一般認(rèn)為在10~30ms內(nèi)語(yǔ)音信號(hào)特性基本上是不變的,或者變化很緩慢?!厝∫欢芜M(jìn)行付氏變換,求其短時(shí)譜。下面分別看一下元音和輔音的短時(shí)頻譜。于是,可以從中截取一小段進(jìn)行頻譜分析。下圖給出“sou”中音素“ou”的傅里葉變換:頻率/kHz幅度/dB語(yǔ)音信號(hào)的語(yǔ)譜圖

短時(shí)譜只能反映語(yǔ)音信號(hào)的靜態(tài)頻率特性,不能反映語(yǔ)音信號(hào)的動(dòng)態(tài)頻率特性。因此,人們致力于研究語(yǔ)音的時(shí)頻分析特性,把和時(shí)序相關(guān)的傅立葉分析的顯示圖形稱為語(yǔ)譜圖。語(yǔ)譜圖是一種三維頻譜,它是表示語(yǔ)音頻譜隨時(shí)間變化的圖形,其縱軸為頻率,橫軸為時(shí)間,圖像的黑白度對(duì)應(yīng)信號(hào)的能量。聲道的諧振頻率在圖上表現(xiàn)為黑帶,濁音部分則以出現(xiàn)條紋圖形為特征。記錄這種譜圖的儀器就是語(yǔ)譜儀。(3)混合型聲道模型語(yǔ)音信號(hào)處理技術(shù)始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系,并且一起發(fā)展。第2章語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)這兩個(gè)階段都必須根據(jù)說(shuō)話人的特征建立模型進(jìn)行識(shí)別。兩者差異體現(xiàn)在語(yǔ)音特征和建模方法的選擇上。也就是說(shuō)濁音激勵(lì)波是一個(gè)以基音周期為周期的斜三角脈沖串。語(yǔ)音是人的發(fā)聲器官發(fā)出的一種聲波,它具有一定的音色,音調(diào),音強(qiáng)和音長(zhǎng)。基于模板的方法:DTW、矢量量化大綱:選修課考查(考試方式)基音頻率與個(gè)人聲帶的長(zhǎng)短、厚薄、韌性、勁度和發(fā)音習(xí)慣等有關(guān),在很大程度上反映了個(gè)人的特征。語(yǔ)音是帶有語(yǔ)言信息的聲音(聲波)。語(yǔ)音信號(hào)處理技術(shù)的應(yīng)用語(yǔ)音壓縮通常根據(jù)實(shí)際應(yīng)用情況,進(jìn)行三方面的均衡,即位率、質(zhì)量和清晰度、編解碼算法的復(fù)雜度。語(yǔ)音信號(hào)處理技術(shù)的應(yīng)用與機(jī)器翻譯技術(shù)結(jié)合的語(yǔ)音翻譯;語(yǔ)音信號(hào)的統(tǒng)計(jì)特性語(yǔ)音信號(hào)的統(tǒng)計(jì)特性可以用它的波形振幅概率密度函數(shù)和一些統(tǒng)計(jì)量如均值和自相關(guān)函數(shù)來(lái)描述。表示語(yǔ)音信號(hào)的統(tǒng)計(jì)特性的概率密度的估算方法是根據(jù)長(zhǎng)時(shí)間范圍內(nèi)一段語(yǔ)音信號(hào)的大量取樣數(shù)據(jù)的幅度絕對(duì)值計(jì)算出其幅度直方圖,然后,根據(jù)統(tǒng)計(jì)的振幅直方圖,尋找近似的概率密度表達(dá)式。通過(guò)對(duì)語(yǔ)音信號(hào)的統(tǒng)計(jì)特性的研究表明,語(yǔ)音信號(hào)振幅分布的概率密度有兩種逼近方法,一種是修正伽瑪(Gamma)分布概率密度函數(shù)另一種是拉普拉斯(Laplace)分布概率密度函數(shù)對(duì)于長(zhǎng)期統(tǒng)計(jì)來(lái)說(shuō),用拉普拉斯分布描述語(yǔ)音信號(hào)的統(tǒng)計(jì)特性不及用伽瑪分布描述精確,但其函數(shù)式卻簡(jiǎn)單一些。也可以用高斯分布(Gaussian)來(lái)近似。這三個(gè)分布函數(shù)中,伽瑪函數(shù)逼近的效果最好,其次是拉普拉斯函數(shù),而高斯分布逼近效果最差。

§2.3語(yǔ)音信號(hào)生成的數(shù)學(xué)模型語(yǔ)音信號(hào)是一個(gè)非平穩(wěn)的隨機(jī)過(guò)程,但隨時(shí)間的變化很緩慢,可做一些合理的假設(shè),將語(yǔ)音信號(hào)分成短段處理,在這些短段中可視為平穩(wěn)隨機(jī)過(guò)程,采用線性時(shí)不變模型。可將語(yǔ)音生成系統(tǒng)分成三個(gè)部分,在聲門(mén)(聲帶)以下,稱為聲門(mén)子系統(tǒng),負(fù)責(zé)產(chǎn)生激勵(lì)振動(dòng),是激勵(lì)系統(tǒng);從聲門(mén)到嘴唇的呼氣通道是聲道,是聲道系統(tǒng);語(yǔ)音從嘴唇輻射出去,嘴唇以外是輻射系統(tǒng)。下面分別介紹激勵(lì)模型、聲道模型、輻射模型,再介紹語(yǔ)音信號(hào)產(chǎn)生的數(shù)學(xué)模型。激勵(lì)模型激勵(lì)模型一般分成濁音激勵(lì)和清音激勵(lì)兩種。濁音時(shí),激勵(lì)信號(hào)由一個(gè)周期脈沖發(fā)生器產(chǎn)生,產(chǎn)生的序列是一個(gè)頻率等于基音頻率的沖激序列。清音時(shí),激勵(lì)信號(hào)由一個(gè)隨機(jī)噪聲發(fā)生器產(chǎn)生。可設(shè)定其平均值為0,其自相關(guān)函數(shù)是一個(gè)單位沖激函數(shù)。發(fā)濁音時(shí),由于聲帶不斷張開(kāi)和關(guān)閉,將產(chǎn)生間歇的脈沖波。這個(gè)脈沖波的波形類似于斜三角形的脈沖,它的數(shù)學(xué)表達(dá)式如下:式中,N1為斜三角波上升部分的時(shí)間,N2為其下降部分的時(shí)間。單個(gè)斜三角波波形的頻譜的圖形如圖2-18所示。由圖可見(jiàn),它是一個(gè)低通濾波器。它的變換的全極模型的形式是:這里,c是一個(gè)常數(shù)。顯然,上式表示斜三角波形可描述為一個(gè)二極點(diǎn)的模型。因此,斜三角波形串可視為加權(quán)了單位脈沖串激勵(lì)上述單個(gè)斜三角波模型的結(jié)果。而該單位脈沖串及幅值因子則可表示成下面的z變換形式:所以,整個(gè)濁音激勵(lì)模型可表示為:也就是說(shuō)濁音激勵(lì)波是一個(gè)以基音周期為周期的斜三角脈沖串。調(diào)節(jié)濁音信號(hào)的幅度聲道模型關(guān)于聲道部分的數(shù)學(xué)模型,有多種觀點(diǎn),目前最常用的有兩種建模方法。一是把聲道視為由多個(gè)等長(zhǎng)的不同截面積的管子串聯(lián)而成的系統(tǒng)。按此觀點(diǎn)推導(dǎo)出的叫“聲管模型”。另一個(gè)是把聲道視為一個(gè)諧振腔,按此推導(dǎo)出的叫“共振峰模型”。

共振峰模型,把聲道視為一個(gè)諧振腔。共振峰就是這個(gè)腔體的諧振頻率。由于人耳聽(tīng)覺(jué)的柯替氏器官的纖毛細(xì)胞就是按頻率感受而排列其位置的,所以這種共振峰的聲道模型方法是非常有效的。一般來(lái)說(shuō),一個(gè)元音用前三個(gè)共振峰來(lái)表示就足夠了;而對(duì)于較復(fù)雜的輔音或鼻音,大概要用到前五個(gè)以上的共振峰才行?;谖锢砺晫W(xué)的共振峰理論,可以建立起三種實(shí)用的共振峰模型:級(jí)聯(lián)型、并聯(lián)型和混合型。(1)級(jí)聯(lián)型聲道模型這時(shí)認(rèn)為聲道是一組串聯(lián)的二階諧振器。從共振峰理論來(lái)看,整個(gè)聲道具有多個(gè)諧振頻率和多個(gè)反諧振頻率,所以它可被模擬為一個(gè)零極點(diǎn)的數(shù)學(xué)模型;但對(duì)于一般元音,則用全極點(diǎn)模型就可以了。它的傳輸函數(shù)可分解表示為多個(gè)二階極點(diǎn)的網(wǎng)絡(luò)的串聯(lián):

N=10,M=5時(shí)的聲道模型如圖所示。(2)并聯(lián)型聲道模型

對(duì)于非一般元音以及大部分輔音,必須考慮采用零極點(diǎn)模型。此時(shí),模型的傳輸函數(shù)如下:通常,N>R,且設(shè)分子與分母無(wú)公因子及分母無(wú)重根,則上式可分解為如下部分分式之和的形式:這就是并聯(lián)型的共振峰模型。如圖2-21所示(M=5)。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論