版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
引言眾所周知,語(yǔ)言是人們之間彼此交流溝通的最方便最快捷的手段之一。在如今這個(gè)信息時(shí)代中用數(shù)字化的方式來(lái)實(shí)施語(yǔ)音的傳輸、儲(chǔ)存、識(shí)別、合成、增強(qiáng)是整個(gè)數(shù)字通信系統(tǒng)中最為關(guān)鍵的要素之一REF_Ref450503226\r\h[1]。連續(xù)語(yǔ)音的自動(dòng)分割是我們?cè)谶M(jìn)行語(yǔ)音信號(hào)處理的過(guò)程中遇到的首個(gè)需要解決的復(fù)雜難點(diǎn)。之所以要進(jìn)行語(yǔ)音的自動(dòng)分割,就是為了減少語(yǔ)音識(shí)別的計(jì)算量并提高語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度。我們?cè)趯?duì)語(yǔ)音進(jìn)行過(guò)分割之后就可以將語(yǔ)音段和噪聲段別離開(kāi)來(lái),這樣后續(xù)再進(jìn)行語(yǔ)音識(shí)別的時(shí)候識(shí)別系統(tǒng)只需要對(duì)語(yǔ)音段進(jìn)行檢測(cè)。如果語(yǔ)音自動(dòng)分割出現(xiàn)錯(cuò)誤,那么語(yǔ)音信號(hào)的識(shí)別也就無(wú)法實(shí)現(xiàn)。這在許多語(yǔ)音處理領(lǐng)域中是一個(gè)十分根本的問(wèn)題。特別是在進(jìn)行獨(dú)立的單個(gè)文字自動(dòng)識(shí)別的時(shí)候,能否準(zhǔn)確的找到每個(gè)單字的語(yǔ)音信號(hào)范圍,以及能否將聲母、韻母分割開(kāi)都是十分重要的。語(yǔ)音信號(hào)分割的準(zhǔn)確與否對(duì)于一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)具有重要意義,不僅算法會(huì)影響其最終實(shí)現(xiàn)和使用效果,最終結(jié)果在很大程度上受外界環(huán)境的影響是非常大的。因?yàn)檩斎胄盘?hào)的時(shí)候根本不可能是純粹的語(yǔ)音輸入,多多少少都會(huì)帶有一定的背景噪聲。研究人員通過(guò)實(shí)驗(yàn)比照發(fā)現(xiàn),語(yǔ)音自動(dòng)分割的準(zhǔn)確性會(huì)直接影響到語(yǔ)音識(shí)別的結(jié)果,因?yàn)槿绻指钏惴▽?duì)于語(yǔ)音和噪聲的判斷出現(xiàn)錯(cuò)誤那么之后對(duì)所謂語(yǔ)音段進(jìn)行的識(shí)別也就變得毫無(wú)意義。因此一個(gè)優(yōu)秀的語(yǔ)音自動(dòng)分割結(jié)果就意味著語(yǔ)音識(shí)別過(guò)程的一個(gè)好的開(kāi)始。進(jìn)行自動(dòng)分割為了達(dá)成的目的就是,在各種各樣的應(yīng)用環(huán)境下的信號(hào)流中將人聲段和噪聲段分開(kāi),并進(jìn)一步確定語(yǔ)音信號(hào)的起始點(diǎn)及結(jié)束點(diǎn)REF_Ref450565110\r\h[2]。1948年香農(nóng)〔C.E.Shannon〕把關(guān)于熵的概念引入到信息論中,把熵看作是一個(gè)隨機(jī)事件的不確定性的度量REF_Ref450565551\r\h[3]。熵的大小和一個(gè)系統(tǒng)的有序度直接相關(guān),有序度越高,熵就越低;反之,一個(gè)系統(tǒng)隨機(jī)性越高,其熵就越高。本課題是要提出一種相對(duì)簡(jiǎn)便并具有一定準(zhǔn)確率的語(yǔ)音自動(dòng)分割算法。綜合比照各類算法后決定采用一種子帶譜熵的改進(jìn)算法來(lái)進(jìn)行語(yǔ)音分割。算法的總體流程主要包括輸入語(yǔ)音文件、進(jìn)行預(yù)處理、選擇適宜參數(shù)、分析確定閾值、檢測(cè)語(yǔ)音信號(hào)端點(diǎn)。該算法在傳統(tǒng)譜熵法的根底上進(jìn)行了改進(jìn),提出了一些經(jīng)驗(yàn)性的約束,設(shè)定了歸一化譜概率密度的上限,并引入了子帶譜熵的思想從而進(jìn)一步提高了語(yǔ)音自動(dòng)分割的準(zhǔn)確性REF_Ref451160971\r\h[12]。概述2.1課題背景語(yǔ)音自動(dòng)分割技術(shù)在語(yǔ)音識(shí)別系統(tǒng)中占有重要地位,是整個(gè)系統(tǒng)的重要組成局部。所謂語(yǔ)音自動(dòng)分割技術(shù),就是通過(guò)計(jì)算機(jī)的智能識(shí)別將人說(shuō)話的音節(jié)局部和說(shuō)話人所處的背景噪聲相別離,從而為下一步進(jìn)行的語(yǔ)音識(shí)別打好根底。如果對(duì)于語(yǔ)音的分割不準(zhǔn)確,語(yǔ)音信號(hào)識(shí)別就會(huì)因?yàn)橐艄?jié)錯(cuò)誤而無(wú)法實(shí)現(xiàn)或出現(xiàn)大量錯(cuò)誤。在實(shí)際工程應(yīng)用中,我們需要在進(jìn)行語(yǔ)音內(nèi)容識(shí)別之前先對(duì)輸入系統(tǒng)的連續(xù)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,將每個(gè)音節(jié)的起始點(diǎn)和終止點(diǎn)劃分出來(lái)。這樣識(shí)別系統(tǒng)才能有效的針對(duì)每個(gè)音節(jié)分別進(jìn)行識(shí)別操作,不會(huì)盲目識(shí)別噪聲信號(hào)的內(nèi)容,使得語(yǔ)音識(shí)別系統(tǒng)能夠盡可能的做到對(duì)語(yǔ)音信號(hào)實(shí)時(shí)、準(zhǔn)確的判斷。隨著數(shù)字信號(hào)處理技術(shù)和計(jì)算機(jī)性能的不斷開(kāi)展,一些具有自適應(yīng)、人工智能特性的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)可以在不是特別復(fù)雜的環(huán)境下對(duì)語(yǔ)音信號(hào)做出較為精確的判斷。隨著市場(chǎng)需求的不斷增加,各研發(fā)機(jī)構(gòu)在相關(guān)硬件和軟件配套設(shè)施的投入上越來(lái)越大,各類高魯棒性的新型算法正不斷走進(jìn)我們的日常生活。雖然我們?cè)谌粘J褂弥袝?huì)發(fā)現(xiàn)內(nèi)置于各類終端中的語(yǔ)音識(shí)別功能并不是十分好用,很多時(shí)候都會(huì)出現(xiàn)錯(cuò)誤,但我們?nèi)匀粦?yīng)該對(duì)語(yǔ)音識(shí)別技術(shù)為我們生活提供的方便表示感謝,并對(duì)該領(lǐng)域技術(shù)的開(kāi)展持有樂(lè)觀態(tài)度。語(yǔ)音識(shí)別技術(shù)的市場(chǎng)應(yīng)用還處于初期階段,為了使該技術(shù)的市場(chǎng)化應(yīng)用更為便利,目前需要為語(yǔ)音輸入通道硬件和軟件的根本引擎和平臺(tái)建立相應(yīng)的標(biāo)準(zhǔn)和標(biāo)準(zhǔn),這樣一來(lái)語(yǔ)音識(shí)別技術(shù)就可以通過(guò)統(tǒng)一標(biāo)準(zhǔn)的結(jié)構(gòu)集成到各種各樣需要語(yǔ)音功能的軟件、操作系統(tǒng)中去,從而改變電子產(chǎn)品傳統(tǒng)的人機(jī)交互模式,實(shí)現(xiàn)大量的語(yǔ)音控制。隨著語(yǔ)音電子產(chǎn)品的不斷開(kāi)展,語(yǔ)音識(shí)別技術(shù)為了適應(yīng)市場(chǎng)的現(xiàn)實(shí)需求,其在研究和開(kāi)發(fā)中還有著大量的工作要做。2.2語(yǔ)音信號(hào)簡(jiǎn)述通過(guò)對(duì)人們講話語(yǔ)音在時(shí)域和頻域兩個(gè)方面進(jìn)行研究分析,發(fā)現(xiàn)無(wú)論人們的年齡處于哪個(gè)階段,語(yǔ)音的頻率分布都是相對(duì)密集的,大局部都集中分布在300~3400Hz的頻率范圍內(nèi)?;谶@一特征,研究人員可以在對(duì)語(yǔ)音進(jìn)行識(shí)別之前先將其通過(guò)一個(gè)帶通濾波器,將處于300~3400Hz的語(yǔ)音信號(hào)別離出來(lái)得到所需要的頻譜,這樣的初步篩選將有利于提高語(yǔ)音自動(dòng)分割算法和語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確性以及運(yùn)行效率。然后我們需要對(duì)選定頻譜范圍內(nèi)的連續(xù)語(yǔ)音信號(hào)進(jìn)行采樣,使其變成計(jì)算機(jī)能夠處理的離散時(shí)域的語(yǔ)音信號(hào),采樣率通常取8kHz左右,也可以根據(jù)具體情況進(jìn)行相應(yīng)的調(diào)節(jié)。當(dāng)實(shí)驗(yàn)或應(yīng)用對(duì)采樣出來(lái)的信號(hào)有更為苛刻的要求時(shí),我們就可以通過(guò)提高語(yǔ)音信號(hào)的采樣率或者擴(kuò)大語(yǔ)音信號(hào)的采樣范圍等手段提供更為精確、更為全面的采樣結(jié)果。由于為了適應(yīng)實(shí)際應(yīng)用的要求,實(shí)現(xiàn)在低信噪比條件下的準(zhǔn)確語(yǔ)音自動(dòng)分割,現(xiàn)在的語(yǔ)音自動(dòng)分割算法多采用自適應(yīng)的采樣率而不再是傳統(tǒng)的系統(tǒng)指定的采樣率。由于人體的發(fā)聲特性使得語(yǔ)音信號(hào)是一個(gè)非穩(wěn)態(tài)的、時(shí)變的信號(hào)。眾所周知,計(jì)算機(jī)和人耳不同,對(duì)于這類信號(hào)是無(wú)法進(jìn)行處理的,研究人員為了解決這個(gè)問(wèn)題就發(fā)現(xiàn)了可以利用“短時(shí)特性〞來(lái)進(jìn)行語(yǔ)音信號(hào)處理。所謂短時(shí)特性之所以存在就是因?yàn)槿说目谇辉诎l(fā)出各種聲音的時(shí)候需要進(jìn)行緩慢的肌肉運(yùn)動(dòng),和肌肉運(yùn)動(dòng)的時(shí)間相比幾十毫秒就相當(dāng)于是一個(gè)短時(shí)間,在這個(gè)短時(shí)間內(nèi)我們就可以認(rèn)為語(yǔ)音信號(hào)是穩(wěn)定的、時(shí)不變的。語(yǔ)音信號(hào)必須要保持它的短時(shí)特點(diǎn)才能進(jìn)行語(yǔ)音信號(hào)處理,所有的語(yǔ)音信號(hào)處理系統(tǒng)都是根據(jù)這種短時(shí)特性開(kāi)發(fā)出來(lái)的。根據(jù)這種短時(shí)特性就相應(yīng)的產(chǎn)生了一系列的語(yǔ)音信號(hào)處理的參數(shù),如短時(shí)能量、短時(shí)過(guò)零率、短時(shí)頻譜以及短時(shí)自相關(guān)函數(shù)等,根據(jù)這些參數(shù)我們才能對(duì)語(yǔ)音信號(hào)實(shí)施有效的處理。對(duì)整段信號(hào)進(jìn)行分幀處理后我們就可以得到這些短時(shí)參數(shù)特征,整個(gè)信號(hào)中的每一段叫作“一幀〞,幀長(zhǎng)一般取10~30ms,通常情況下我們可以將這段短時(shí)間內(nèi)的語(yǔ)音信號(hào)看作是相對(duì)平穩(wěn)的。這樣一來(lái)從整個(gè)語(yǔ)音的角度來(lái)看,每一幀的特征參數(shù)就共同組合成了特征參數(shù)的時(shí)間序列。從另一個(gè)方面看,語(yǔ)音信號(hào)另有一個(gè)相對(duì)較為簡(jiǎn)單的分類方式,就是根據(jù)人們發(fā)聲的音素進(jìn)行分類。根據(jù)這種分類方法,無(wú)論語(yǔ)音的發(fā)聲者使用何種語(yǔ)言、帶有何種音調(diào),從聲學(xué)上來(lái)看都可以按照清音和濁音來(lái)進(jìn)行分類。我們對(duì)這兩種類型語(yǔ)音的短時(shí)特性進(jìn)行分析就可以發(fā)現(xiàn)這種分類方式的依據(jù)。清音的短時(shí)能量要遠(yuǎn)高于濁音,濁音的短時(shí)過(guò)零率那么遠(yuǎn)高于清音。在進(jìn)行語(yǔ)音自動(dòng)分割時(shí),噪聲一般具有較小的能量和較低的過(guò)零率,我們只需要結(jié)合這兩個(gè)參數(shù)就可以在信噪比條件不是很差的條件下對(duì)語(yǔ)音信號(hào)做出較為準(zhǔn)確的分割。2.3語(yǔ)音自動(dòng)分割現(xiàn)狀對(duì)語(yǔ)音自動(dòng)分割算法的研究最初能夠上溯到上世紀(jì)50年代。那個(gè)時(shí)候?yàn)榱四軌驅(qū)⒄Z(yǔ)音段和噪聲段區(qū)分開(kāi)來(lái),從而實(shí)現(xiàn)一個(gè)實(shí)時(shí)語(yǔ)音翻譯系統(tǒng),該算法應(yīng)運(yùn)而生,并把該算法定名為VAD(voiceActivityDetection),指的是將語(yǔ)音段和背景噪聲段別離開(kāi)來(lái)的處理過(guò)程REF_Ref451181087\r\h[16]。要想實(shí)現(xiàn)一次高準(zhǔn)確性、高可靠性的語(yǔ)音自動(dòng)分割或者語(yǔ)音識(shí)別,影響其結(jié)果的因素不僅僅局限于所采用的算法。除了語(yǔ)音識(shí)別外,還有語(yǔ)音自動(dòng)分割,他們對(duì)于大局部整體系統(tǒng)最終結(jié)果的影響都是非常大的。語(yǔ)音識(shí)別以及語(yǔ)音自動(dòng)分割應(yīng)用的領(lǐng)域是很廣的,除了用于實(shí)驗(yàn)、商業(yè)還有一些高精度的檢測(cè)或者識(shí)別需要用到他們,在識(shí)別過(guò)程中產(chǎn)生的一些誤差也許對(duì)于實(shí)驗(yàn)的影響不是很大,但是對(duì)于那些要求很高的高精度檢測(cè)來(lái)說(shuō)這些誤差將是不能接受的。為了實(shí)現(xiàn)高精度的檢測(cè),我們需要根據(jù)識(shí)別系統(tǒng)對(duì)性能要求的不同而采用專門的算法,否那么語(yǔ)音識(shí)別的準(zhǔn)確性將無(wú)法得到保證REF_Ref450571688\r\h[5]。在21世紀(jì),電子信息技術(shù)伴隨著摩爾定律飛速開(kāi)展,各類語(yǔ)音數(shù)字信號(hào)處理技術(shù)也取得了日新月異的成就,尤其是語(yǔ)音識(shí)別技術(shù)在和電腦上的應(yīng)用實(shí)踐最為出眾,讓人們真正體會(huì)到了科學(xué)技術(shù)的進(jìn)步為生活帶來(lái)的便利。但是,由于人們的語(yǔ)音輸入經(jīng)常伴有較大的背景噪音,在這些噪聲的干擾下語(yǔ)音識(shí)別的準(zhǔn)確性就會(huì)大大降低,在一些專業(yè)領(lǐng)域的語(yǔ)音識(shí)別同樣面臨著嚴(yán)峻的問(wèn)題。而語(yǔ)音信號(hào)處理是為了識(shí)別純潔的人聲設(shè)計(jì)出來(lái)的,或者通過(guò)各種手段將沒(méi)有用處的噪聲信號(hào)去除。為了實(shí)現(xiàn)這一目標(biāo),語(yǔ)音自動(dòng)分割技術(shù)就是一個(gè)有效的手段。語(yǔ)音自動(dòng)分割就是指通過(guò)設(shè)計(jì)好的算法,將一段連續(xù)的語(yǔ)音信號(hào)分割為有用的語(yǔ)音〔人聲等〕和無(wú)用的噪聲,并且將每個(gè)語(yǔ)音音節(jié)的起始點(diǎn)和終止點(diǎn)進(jìn)行標(biāo)記處理。語(yǔ)音自動(dòng)分割是各類語(yǔ)音信號(hào)處理的應(yīng)用中不可缺少的環(huán)節(jié)。一段混雜著噪聲的語(yǔ)音信號(hào)經(jīng)過(guò)自動(dòng)分割以后會(huì)極大的改善識(shí)別系統(tǒng)的整體性能和識(shí)別精度REF_Ref450571739\r\h[6]。隨著應(yīng)用前景的日漸廣闊,語(yǔ)音自動(dòng)分割技術(shù)已經(jīng)日益成為眾多學(xué)者研究的熱點(diǎn)方向,研究人員提出了很多新型語(yǔ)音自動(dòng)分割算法,如:基于混淆網(wǎng)絡(luò)、基于仿生識(shí)別、基于短時(shí)分形維數(shù)、基于神經(jīng)網(wǎng)絡(luò)等的算法。不僅有許多新型、先進(jìn)的分割算法,而且每種算法的具體實(shí)現(xiàn)也是多種多樣的。2.4本文內(nèi)容和章節(jié)安排論文要做的內(nèi)容主要是綜合評(píng)估了各種語(yǔ)音分割算法的優(yōu)缺點(diǎn)后,采用改進(jìn)后的譜熵法來(lái)進(jìn)行語(yǔ)音信號(hào)自動(dòng)分割。算法分析語(yǔ)音的時(shí)頻域特性,選取適宜的參數(shù),計(jì)算出當(dāng)前語(yǔ)音文件的參數(shù)值,再用適宜的算法確定閾值,最后實(shí)現(xiàn)語(yǔ)音自動(dòng)分割。第1章引言主要介紹語(yǔ)音自動(dòng)分割算法的概況。第2章簡(jiǎn)要概述了語(yǔ)音自動(dòng)分割算法的課題背景、研究現(xiàn)狀等。第3章語(yǔ)音信號(hào)的根本處理方法和經(jīng)典語(yǔ)音自動(dòng)分割算法。前者從時(shí)域和頻域兩個(gè)角度介紹了語(yǔ)音信號(hào)分析的根本模式。后者詳細(xì)分析、介紹了幾種具代表性的語(yǔ)音自動(dòng)分割算法。第4章基于語(yǔ)音熵的自動(dòng)分割方法的分析與研究深入介紹了熵的概念以及譜熵法在語(yǔ)音自動(dòng)分割中的應(yīng)用,并最終確定了本文的語(yǔ)音分割方案。第5章算法實(shí)現(xiàn)與仿真主要介紹了算法的具體實(shí)現(xiàn)過(guò)程以及仿真結(jié)果。第6章結(jié)論主要是對(duì)實(shí)驗(yàn)結(jié)果的總結(jié)分析以及對(duì)算法開(kāi)展的展望。經(jīng)典語(yǔ)音自動(dòng)分割算法所謂語(yǔ)音自動(dòng)分割就是在一段連續(xù)語(yǔ)音中,把有用的語(yǔ)音音節(jié)和構(gòu)成干擾的背景噪聲區(qū)分開(kāi)來(lái),明確每個(gè)音節(jié)的起始點(diǎn)和終止點(diǎn)。隨著語(yǔ)音信號(hào)處理技術(shù)的不斷開(kāi)展,語(yǔ)音自動(dòng)分割方法越來(lái)越多,每種算法都有各自的特點(diǎn)和應(yīng)用場(chǎng)景。比較經(jīng)典的語(yǔ)音自動(dòng)分割算法包括短時(shí)能量檢測(cè)法、自相關(guān)函數(shù)法、倒譜距離檢測(cè)法等。本章將對(duì)各類算法進(jìn)行詳細(xì)的分析總結(jié),進(jìn)而引出一種魯棒性較好的語(yǔ)音自動(dòng)分割算法。語(yǔ)音信號(hào)的時(shí)域分析語(yǔ)音信號(hào)是時(shí)域信號(hào),時(shí)域在對(duì)語(yǔ)音信號(hào)進(jìn)行分析時(shí)是最直觀的,通常來(lái)說(shuō)語(yǔ)音信號(hào)處理的仿真結(jié)果都是以時(shí)間為橫坐標(biāo)的。所謂時(shí)域分析一般就是指基于短時(shí)能量、短時(shí)過(guò)零率、短時(shí)功率譜等參數(shù),來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行相應(yīng)的分析。通過(guò)對(duì)這些短時(shí)參數(shù)的提取、利用,我們就能夠?qū)崿F(xiàn)語(yǔ)音信號(hào)的時(shí)域分析。再對(duì)任何一種數(shù)字信號(hào)進(jìn)行分析處理時(shí),時(shí)域波形總是我們最早了解到的而且是最直觀的語(yǔ)音狀態(tài)描述。時(shí)域分析方法的特點(diǎn)有:〔1〕能夠直接觀察語(yǔ)音信號(hào)的波形;〔2〕不需要進(jìn)行復(fù)雜的計(jì)算就能夠?qū)崿F(xiàn);〔3〕能獲得重要的短時(shí)特征;〔4〕信號(hào)特征能夠直觀表達(dá)出來(lái),減小理解難度。連續(xù)信號(hào)數(shù)字化語(yǔ)音信號(hào)之所以要進(jìn)行預(yù)濾波的主要原因有二:(1)抑制系統(tǒng)輸入的語(yǔ)音信號(hào)中高于二分之一采樣頻率fs的頻域分量;(2)抑制50Hz的電源工頻干擾。因此只有帶通濾波器才能符合預(yù)濾波器的使用要求。設(shè)其上截止頻率為fh,下截止頻率為fl。一般情況下,眾多語(yǔ)音編譯碼器上截止頻率和下截止頻率都設(shè)定為=3400Hz、=60~100Hz、采樣率為=8kHz。而對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),當(dāng)應(yīng)用的場(chǎng)景不一樣的時(shí)候,選用的參數(shù)也是不同的。當(dāng)用于用戶時(shí),指標(biāo)通常采用fh=3400Hz、fl=60~100Hz、采樣率為fs=8kHz。當(dāng)用于對(duì)語(yǔ)音識(shí)別系統(tǒng)要求很高的場(chǎng)所時(shí),通常就要采用更狂的頻譜范圍、更高的采樣率。語(yǔ)音信號(hào)通過(guò)預(yù)處理之后就會(huì)轉(zhuǎn)化為二進(jìn)制數(shù)字碼。模擬信號(hào)需要通過(guò)采樣量化轉(zhuǎn)化為數(shù)字信號(hào),在這個(gè)過(guò)程中,由于量化過(guò)程的根本原理導(dǎo)致其必然會(huì)有一定的誤差出現(xiàn)。當(dāng)語(yǔ)音信號(hào)波形的變化幅度特別大或者量化間隔Δ特別小時(shí),可以發(fā)現(xiàn)量化噪聲與輸入信號(hào)是不存在相關(guān)關(guān)系的,根據(jù)這個(gè)特點(diǎn)就可以實(shí)現(xiàn)相關(guān)法的語(yǔ)音自動(dòng)分割。數(shù)模變換又可以稱作數(shù)字化的反過(guò)程,他的核心意思就是指從已經(jīng)進(jìn)行過(guò)數(shù)字化的語(yǔ)音信號(hào)中重新構(gòu)建起模擬的語(yǔ)音信號(hào)波形。在進(jìn)行了A/D、D/A轉(zhuǎn)換之后語(yǔ)音信號(hào)會(huì)產(chǎn)生高次諧波失真,為了有效地防止這種情況的發(fā)生,我們必須在數(shù)模轉(zhuǎn)換之后加一個(gè)平滑濾波器。這個(gè)平滑濾波器將對(duì)語(yǔ)音波形的高次諧波起到平滑作用,從而有效消除高次諧波失真。預(yù)加重處理根據(jù)人的發(fā)聲原理可以得知,聲門鼓勵(lì)和口鼻輻射等因素都將對(duì)語(yǔ)音信號(hào)的平均功率譜產(chǎn)生較為明顯的影響。這種影響主要表達(dá)在,輸入的語(yǔ)音信號(hào)會(huì)因此在高頻端產(chǎn)生較為嚴(yán)重信號(hào)衰減,這就有可能導(dǎo)致信號(hào)高頻端的信噪比居高不下,不能滿足語(yǔ)音信號(hào)識(shí)別的要求,與低頻段產(chǎn)生鮮明的比照。當(dāng)衰減到達(dá)一定程度時(shí)就會(huì)出現(xiàn)高頻局部的語(yǔ)音頻譜求不出來(lái)的問(wèn)題。怎么才能減小高頻端的信號(hào)低落程度,或者能夠通過(guò)某種方式抵消信號(hào)衰減帶來(lái)的影響成為了研究人員需要解決的問(wèn)題。目前,較為行之有效的一種方式就是對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理。預(yù)加重成功的利用語(yǔ)音信號(hào)與噪聲信號(hào)具有不同特性的特點(diǎn),對(duì)輸入信號(hào)高于800Hz的高頻分量進(jìn)行人為的加重處理。這樣一來(lái)高頻局部的信噪比就會(huì)得到相應(yīng)的提高,使其滿足系統(tǒng)要求,這樣將有助于之后進(jìn)行的頻譜分析或聲道參數(shù)分析過(guò)程。在進(jìn)行預(yù)加重的同時(shí),為了有效地提高語(yǔ)音信號(hào)信噪比,壓縮信號(hào)的動(dòng)態(tài)范圍,我們可以在語(yǔ)音信號(hào)數(shù)字化時(shí)在反混疊濾波器之前進(jìn)行預(yù)加重處理。但大多數(shù)情況下,預(yù)加重處理是放在語(yǔ)音信號(hào)數(shù)字化之后進(jìn)行,常有6dB/器REF_Ref451417797\r\h[6]:(3-1)式中μ值接近于1REF_Ref450576492\r\h[9]。在進(jìn)行信號(hào)處理的過(guò)程中,我們不僅需要對(duì)信號(hào)進(jìn)行預(yù)加重處理,很多時(shí)候我們也需要將信號(hào)恢復(fù)成原始信號(hào),這個(gè)時(shí)候就要使用去加重。去加重技術(shù)的思想和預(yù)加重根本相同,只不過(guò)實(shí)現(xiàn)方式不同。分幀加窗處理對(duì)語(yǔ)音信號(hào)實(shí)施過(guò)預(yù)加重之后,下一步就是要對(duì)其實(shí)施分幀加窗處理。通過(guò)實(shí)驗(yàn),我們發(fā)現(xiàn)語(yǔ)音信號(hào)在30~100ms的范圍內(nèi),其頻譜特征以及一些物理特征根本保持不變。為了方便計(jì)算機(jī)的處理,只要將語(yǔ)音信號(hào)按此長(zhǎng)度進(jìn)行分幀處理,就可以將平穩(wěn)過(guò)程的處理方法和理論引入到語(yǔ)音短時(shí)處理中。在進(jìn)行分幀處理時(shí),如果幀與幀之間是連續(xù)分段的,那么有可能發(fā)生幀與幀之間的信號(hào)發(fā)生突變的情況,為了防止這種情況的發(fā)生,在分幀時(shí)通常使用如圖3.1所示的交疊分段法。圖3.1中兩幀之間的重疊局部稱為幀移。我們大多數(shù)情況下都將幀移與幀長(zhǎng)的比設(shè)為0~1/2。所謂分幀其實(shí)就是用選定的窗函數(shù)乘以,類似于一個(gè)濾波器,在窗以外的語(yǔ)音信號(hào)都會(huì)被抑制掉,只有窗內(nèi)的信號(hào)可以通過(guò),這樣就得到了加窗語(yǔ)音信號(hào)。圖幀長(zhǎng)與幀移的例如矩形窗和海明窗是我們經(jīng)常使用的兩種窗函數(shù),它們的表達(dá)式如式(3-2)、(3-3)所示:矩形窗:(3-2)海明窗:(3-3)其中N為幀長(zhǎng)。我們對(duì)語(yǔ)音信號(hào)進(jìn)行加窗分幀處理就是為了得到對(duì)之后的語(yǔ)音識(shí)別有用的各項(xiàng)短時(shí)參數(shù),短時(shí)參數(shù)會(huì)受到多方面因素的影響,窗函數(shù)的選擇是否正確就是其中的一個(gè)重要因素。為了解決這個(gè)問(wèn)題,我們接下來(lái)就從窗函數(shù)的形狀和長(zhǎng)度來(lái)仔細(xì)討論這個(gè)問(wèn)題。1.窗口形狀通常情況下,窗函數(shù)應(yīng)該能夠盡量減小語(yǔ)音幀的截?cái)嘈?yīng)〔波形峰起值趨于總跳變值的9%〕,為了實(shí)現(xiàn)這一目標(biāo)我們需要盡量減小時(shí)間窗兩端的坡度;在頻域上3dB帶寬要盡量寬,而邊帶最大值那么要做的盡量小。雖然基于時(shí)域、頻域、倒譜域等不同的短時(shí)分析方法對(duì)于窗函數(shù)的要求各有不同,但該標(biāo)準(zhǔn)還是適用于大多數(shù)一般情況的。本文只以最為典型的矩形窗和海明窗〔Hamming〕為例進(jìn)行比較:矩形窗:(3-4)數(shù)字濾波器的頻率響應(yīng)為:(3-5)它具有線性的相位,其頻率響應(yīng)為:(3-6)這里,fs為采樣頻率,為采樣周期。海明窗:(3-7)通過(guò)窗函數(shù)可以發(fā)現(xiàn)海明窗頻率響應(yīng)的帶寬以及通帶外衰減都遠(yuǎn)大于矩形窗。矩形窗與海明窗的比照見(jiàn)表3.1中。表矩形窗與海明窗的比照窗函數(shù)類型旁瓣峰值主瓣寬度最小阻帶衰減矩形窗-134π/N-21海明窗-418π/N-532.窗口長(zhǎng)度頻率分辨率Δ可表示為:(3-8)式〔3-8〕中,為采樣周期〔采樣頻率的倒數(shù)〕,N為窗長(zhǎng)。通過(guò)式〔3-8〕可知,在采樣周期一定的情況下,頻率分辨率與窗口寬度成反比例,當(dāng)窗口寬度N增加時(shí)頻率分辨率Δ會(huì)隨之減小;由此可見(jiàn)這兩者之間是矛盾的,如果窗口取得短,那么Δ會(huì)減小,而時(shí)間分辨率那么會(huì)提高。所以需要根據(jù)實(shí)際應(yīng)用場(chǎng)景來(lái)進(jìn)行衡量,因此,窗口的長(zhǎng)度選擇應(yīng)適宜。而有時(shí)基音周期也會(huì)對(duì)窗口長(zhǎng)度的選擇產(chǎn)生至關(guān)重要的影響。語(yǔ)音信號(hào)的數(shù)字化和預(yù)處理過(guò)程對(duì)于整個(gè)系統(tǒng)來(lái)說(shuō)是十分關(guān)鍵的一個(gè)環(huán)節(jié),正因?yàn)槿绱嗽趯?duì)一整個(gè)系統(tǒng)進(jìn)行性能評(píng)定的時(shí)候,必須要詳細(xì)交代系統(tǒng)的采樣頻率、精度、預(yù)加重方法、窗函數(shù)、幀長(zhǎng)以及幀移等語(yǔ)音參數(shù)。綜上所述,通過(guò)對(duì)以上處理過(guò)程的詳細(xì)介紹,語(yǔ)音信號(hào)就從一整段連續(xù)的信號(hào)被分割為以幀為單位的短時(shí)信號(hào)了,之后再將每個(gè)短時(shí)語(yǔ)音幀看成是近似平穩(wěn)的隨機(jī)信號(hào),再來(lái)提取出其中的語(yǔ)音特征參數(shù)。在處理過(guò)程中,將以幀為單位從整段數(shù)據(jù)中逐幀取出數(shù)據(jù),逐幀處理,全部幀都處理完成后進(jìn)行匯總REF_Ref450576492\r\h[9]。語(yǔ)音信號(hào)的頻域分析頻域分析是從另一個(gè)方面對(duì)信號(hào)進(jìn)行分析,雖然頻域分析方法沒(méi)有時(shí)域分析形象、直觀,但它卻有著更為簡(jiǎn)練、剖析問(wèn)題更加深刻等時(shí)域分析無(wú)法比較的優(yōu)勢(shì)。兩者共同組成了語(yǔ)音信號(hào)分析。目前,。然而,它們是互相聯(lián)系,缺一不可,相輔相成的。傅立葉變換法傅里葉變換〔FourierTransform,FT〕不僅僅在數(shù)學(xué)上廣泛應(yīng)用,同時(shí)也應(yīng)用于工學(xué)的各個(gè)領(lǐng)域,語(yǔ)音信號(hào)頻域分析就是其中之一,是對(duì)線性系統(tǒng)進(jìn)行分析時(shí)最有效的手段。要想得到語(yǔ)音信號(hào)相應(yīng)的功率譜、頻譜、倒譜距離、譜熵等特征,我們可以將加窗分幀后的語(yǔ)音信號(hào)做傅氏變變換再做傅氏反變換。如上文所述,因?yàn)檎Z(yǔ)音信號(hào)的特性是時(shí)變的,為了便于計(jì)算機(jī)處理所以采用短時(shí)傅氏變換,由此得出的為短時(shí)頻域特征,窗函數(shù)均選取Hamming。(1)短時(shí)頻譜和短時(shí)功率譜假設(shè)信號(hào)經(jīng)傅氏變換后在頻域記為,那么與的關(guān)系如公式(4-1):(3-9)語(yǔ)音的頻譜為的幅度,那么有: (3-10)語(yǔ)音信號(hào)的短時(shí)功率譜取值實(shí)際上就是幅度的平方,公式為: (3-11)(2)倒譜距離在低信噪比條件下,可以使用倒譜系數(shù)求得倒譜距離,并以此為參數(shù)進(jìn)行語(yǔ)音自動(dòng)分割。語(yǔ)音信號(hào)的倒譜可定義為: (3-12)為語(yǔ)音信號(hào)能量譜密度函數(shù),為倒譜系數(shù),通過(guò)可得到倒譜距離為: (3-13)(3)熵熵是一個(gè)用來(lái)描述物質(zhì)的概率程度的物理量。熵是用來(lái)表示的信息量的,當(dāng)?shù)姆植几怕氏嗤瑫r(shí),熵取最大值,也就是說(shuō),的隨機(jī)性越高,其所包含的信息量就越大,熵值越高。取的概率函數(shù)可以表示為: (3-14)那么的熵為: (3-15)線性預(yù)測(cè)法由于語(yǔ)音信號(hào)各個(gè)樣點(diǎn)之間存在著一定的聯(lián)系,所以在進(jìn)行信號(hào)分幀采樣之后,我們可以根據(jù)樣點(diǎn)之間的聯(lián)系預(yù)測(cè)當(dāng)前幀或者之后幾幀的樣點(diǎn)值。也就是說(shuō)可以通過(guò)線性組合用先前幀的參數(shù)值近似估計(jì)出后面幀的采樣值。語(yǔ)音信號(hào)前后幀之間的聯(lián)系可以總結(jié)為一組參數(shù)特征,而噪聲信號(hào)那么因?yàn)榍昂蟛淮嬖谙嚓P(guān)性所以沒(méi)有這種參數(shù)特征。這樣一來(lái)我們就找到了語(yǔ)音段和噪聲段之間的區(qū)別,這種區(qū)別能夠?yàn)楹罄m(xù)的語(yǔ)音信號(hào)處理工作提供相關(guān)依據(jù)。線性預(yù)測(cè)分析的重要性不是其預(yù)測(cè)功能,而是它能夠提供一組簡(jiǎn)潔的語(yǔ)音信號(hào)模型參數(shù)。該方法的有效運(yùn)用能夠提高語(yǔ)音識(shí)別率并減少計(jì)算時(shí)間。經(jīng)典語(yǔ)音自動(dòng)分割算法的分析所謂的語(yǔ)音自動(dòng)分割,就是講人說(shuō)話的有用的語(yǔ)音信號(hào)段從帶有背景噪聲的整段音頻信號(hào)中別離出來(lái),將語(yǔ)音段和噪聲段通過(guò)算法自動(dòng)別離。目前這種自動(dòng)分割技術(shù)的準(zhǔn)確性還會(huì)受到很多因素的影響,分割效果普遍沒(méi)有人工分割準(zhǔn)確,但這種技術(shù)有巨大的市場(chǎng)需求,隨著相關(guān)領(lǐng)域的研發(fā)投入日益加大,各類能夠在低信噪比條件下對(duì)語(yǔ)音進(jìn)行準(zhǔn)確分割的新型算法不斷涌現(xiàn)。不過(guò)這些算法還是以最為經(jīng)典的語(yǔ)音自動(dòng)分割算法為根底開(kāi)展而來(lái)的,本章就先來(lái)詳細(xì)介紹一下包括短時(shí)能量、短時(shí)過(guò)零率、倒譜距離在內(nèi)的幾種經(jīng)典算法。在下一章那么會(huì)對(duì)MATLAB仿真實(shí)驗(yàn)所采用的改進(jìn)后的譜熵法做詳細(xì)介紹。語(yǔ)音自動(dòng)分割簡(jiǎn)述可靠性、自適應(yīng)性、實(shí)時(shí)性、魯棒性和精確性是有效的自動(dòng)分割算法應(yīng)當(dāng)具備的幾個(gè)根本要素。當(dāng)語(yǔ)音音節(jié)端點(diǎn)被準(zhǔn)確的檢測(cè)出來(lái)以后,才有可能實(shí)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)的根本功能,實(shí)現(xiàn)高效、準(zhǔn)確的語(yǔ)音識(shí)別,還能夠減小系統(tǒng)計(jì)算量,排除無(wú)聲段干擾。實(shí)驗(yàn)發(fā)現(xiàn),無(wú)論在什么環(huán)境下,語(yǔ)音端點(diǎn)分割錯(cuò)誤都會(huì)對(duì)整體的語(yǔ)音識(shí)別準(zhǔn)確性產(chǎn)生巨大的影響。不僅如此,在語(yǔ)音合成、編碼等各種各樣的語(yǔ)音信號(hào)處理系統(tǒng)中,語(yǔ)音自動(dòng)分割算法的準(zhǔn)確性、魯棒性等性能指標(biāo)都對(duì)整體系統(tǒng)發(fā)揮著至關(guān)重要的作用,因此不斷研究語(yǔ)音自動(dòng)分割算法并對(duì)其進(jìn)行改進(jìn)具有重大意義。語(yǔ)音自動(dòng)分割原理語(yǔ)音自動(dòng)分割所依據(jù)的原理就是:通過(guò)對(duì)各種特征參數(shù)的提取可以發(fā)現(xiàn),語(yǔ)音段和噪聲段的參數(shù)值具有一定的差異,越為優(yōu)秀的算法其兩局部特征參數(shù)所表達(dá)出來(lái)的差異就會(huì)越大,這樣語(yǔ)音自動(dòng)分割才會(huì)更加精準(zhǔn)。而且這種差異要盡量不會(huì)因?yàn)橥饨绫尘霸肼暤挠绊懚a(chǎn)生大幅變化,如果容易受到背景噪聲的影響那么說(shuō)明算法的魯棒性不是很好。為了便于提取所說(shuō)的特征參數(shù)并對(duì)其進(jìn)行有效地分析,每個(gè)語(yǔ)音信號(hào)段進(jìn)入系統(tǒng)后都需要先對(duì)其進(jìn)行預(yù)處理。需要進(jìn)行預(yù)加重,這樣才能使語(yǔ)音信號(hào)的低頻段和高頻段的信噪比參數(shù)表現(xiàn)的平滑。需要進(jìn)行分窗加幀,這樣語(yǔ)音信號(hào)才能具有短時(shí)性。在進(jìn)行分幀的時(shí)候,為了保證信號(hào)的連續(xù)變化、防止突變,我們通常會(huì)在兩幀之間設(shè)置好幀移,使起短時(shí)特性能夠表現(xiàn)的更加平滑,易于分析。預(yù)處理完成后就可以對(duì)信號(hào)提取特征參數(shù),并根據(jù)語(yǔ)音段和噪聲段特征參數(shù)的差異來(lái)對(duì)其進(jìn)行分割。根據(jù)特征參數(shù)差異的大小,以及使用的參數(shù)的個(gè)數(shù),可以分為單參數(shù)或者雙參數(shù)、單門限或者雙門限。一般來(lái)說(shuō),用于判斷的參數(shù)越多自動(dòng)分割的準(zhǔn)確性也越高,但同時(shí)我們也要考慮到計(jì)算量大小的問(wèn)題,不能盲目的增加算法中的特征參數(shù)個(gè)數(shù)。參數(shù)提取是對(duì)語(yǔ)音和噪聲信號(hào)進(jìn)行提取的參數(shù)。聲音是人體的聲音,人體發(fā)聲的原理是來(lái)自人體器官聲帶的振動(dòng)。而噪聲信號(hào)的出現(xiàn),多是由大自然、完結(jié)物體碰撞等因素引起的,在頻率和能量上有很大的不同。本文基于能量差分,對(duì)該算法的短時(shí)能量和短時(shí)過(guò)零率進(jìn)行了分析,并根據(jù)其它特征參數(shù)進(jìn)行頻譜和頻譜熵的研究。語(yǔ)音可分為兩類:清音和濁音。,度比較低,而濁音正好與之相反。短時(shí)幅度這項(xiàng)參數(shù)適合在信噪比較高的環(huán)境中使用,但當(dāng)背景噪聲較大、較為復(fù)雜的時(shí)候,短時(shí)平均過(guò)零率就可以發(fā)揮出它的優(yōu)勢(shì),獲得較好的判斷結(jié)果。由此可見(jiàn),參數(shù)提取的是否正確,該參數(shù)能否真正有效的反映出人聲和背景噪聲之間的區(qū)別對(duì)于整個(gè)系統(tǒng)最終效果有著十分重要的作用。語(yǔ)音自動(dòng)分割流程如下圖:圖3.2語(yǔ)音自動(dòng)分割流程圖說(shuō)話人的語(yǔ)音信號(hào)和噪聲信號(hào)在特征參數(shù)上有明顯的差異,不同環(huán)境下的噪聲信號(hào)特征參數(shù)也有差異,自動(dòng)分割系統(tǒng)就根據(jù)這些提取出來(lái)的各不相同的特征參數(shù)來(lái)設(shè)置相應(yīng)的門限,在滿足一定的規(guī)那么后就會(huì)被判定為語(yǔ)音開(kāi)始或者語(yǔ)音結(jié)束。門限值設(shè)定好之后,當(dāng)信號(hào)超過(guò)預(yù)先設(shè)定的門限值時(shí),語(yǔ)音信號(hào)有可能已經(jīng)開(kāi)始,但是這里還需要對(duì)其持續(xù)時(shí)間做一個(gè)判決。假設(shè)信號(hào)連續(xù)超過(guò)設(shè)定的門限幾幀都沒(méi)有衰落回去,那么說(shuō)明信號(hào)進(jìn)入了語(yǔ)音段。對(duì)于結(jié)束點(diǎn)的判斷與起始點(diǎn)根本類似。當(dāng)檢測(cè)到語(yǔ)音信號(hào)低于預(yù)先設(shè)定的門限值且連續(xù)幾幀均低于該門限時(shí),那么說(shuō)明語(yǔ)音信號(hào)結(jié)束。由于單門限、單參數(shù)的語(yǔ)音自動(dòng)分割算法準(zhǔn)確性有限,所以各類新型算法層出不窮,實(shí)際應(yīng)用中根本上不再會(huì)看到機(jī)遇單門限、單參數(shù)的自動(dòng)分割算法。基于短時(shí)能量和短時(shí)過(guò)零率的語(yǔ)音自動(dòng)分割在常用的短時(shí)能量和過(guò)零率相結(jié)合的語(yǔ)音自動(dòng)分割算法中,濁音通常使用短時(shí)能量來(lái)進(jìn)行檢測(cè)、清音那么使用短時(shí)過(guò)零率,當(dāng)背景噪聲較為復(fù)雜時(shí)那么通常采用兩者相配合以便實(shí)現(xiàn)語(yǔ)音信號(hào)自動(dòng)分割的準(zhǔn)確性。這個(gè)算法在進(jìn)行輸入語(yǔ)音信號(hào)的檢測(cè)過(guò)程中短時(shí)能量和短時(shí)過(guò)零率是分步開(kāi)展的。根據(jù)人聲的發(fā)音特征,可以把語(yǔ)音信號(hào)劃分為濁音、清音和無(wú)聲三類音。由于清音所攜帶的能量相對(duì)較小,會(huì)比較容易將其與無(wú)聲區(qū)混淆,但過(guò)零率檢測(cè)恰好能夠彌補(bǔ)能量檢測(cè)的缺乏之處,它能夠清晰的分辨出清音和無(wú)聲。綜合兩種特征參數(shù)的特點(diǎn)可知,在信噪比良好的條件下將它們結(jié)合起來(lái)進(jìn)行自動(dòng)分割能夠得到較為準(zhǔn)確的結(jié)果。短時(shí)平均能量首先,從能量大小的角度上來(lái)看,語(yǔ)音信號(hào)的能量在一般情況下是遠(yuǎn)大于噪聲能量的,這樣一來(lái)就可以通過(guò)能量值來(lái)區(qū)分噪聲和語(yǔ)音或者進(jìn)行語(yǔ)音自動(dòng)分割。由于人的發(fā)聲方式的物理原因,未經(jīng)處理的人聲信號(hào)是時(shí)變的,為了能夠應(yīng)用平穩(wěn)狀態(tài)下的各種研究方法,我們需要對(duì)語(yǔ)音信號(hào)進(jìn)行加窗分幀,從而使一整段語(yǔ)音信號(hào)分成以幾十ms為一幀的眾多語(yǔ)音幀,在每個(gè)語(yǔ)音幀內(nèi)我們認(rèn)為語(yǔ)音信號(hào)是相對(duì)平穩(wěn)的。之后,我們就可以對(duì)每幀的能量幅度做集合運(yùn)算,從而得到我們需要的短時(shí)特征參數(shù)——短時(shí)能量。對(duì)短時(shí)能量進(jìn)行分析可以發(fā)現(xiàn),濁音、清音、靜音的短時(shí)能量依次遞減,我們可以以此為依據(jù),設(shè)置相應(yīng)的門限進(jìn)行自動(dòng)分割。語(yǔ)音信號(hào){x(n)}在n時(shí)刻的為: (3-16)式〔3-16〕中,為Hamming。令,那么有: (3-17)式中,為窗函數(shù),語(yǔ)音信號(hào)一般取10~30ms,我們可以把每幀語(yǔ)音信號(hào)看成是近似平穩(wěn)的。通過(guò)分幀加窗處理,我們就可以對(duì)原來(lái)無(wú)法進(jìn)行處理的一整段語(yǔ)音信號(hào)進(jìn)行逐幀處理了。每次只對(duì)一幀內(nèi)的短時(shí)信號(hào)進(jìn)行分析,得出相應(yīng)的短時(shí)參數(shù)。短時(shí)能量可作為清音和濁音的區(qū)分標(biāo)準(zhǔn)進(jìn)行使用。短時(shí)平均幅度可以定義為:(3-18)通常情況下,信噪比較高的語(yǔ)音信號(hào)只需要依據(jù)短時(shí)能量就能夠較為準(zhǔn)確的檢測(cè)出語(yǔ)音端點(diǎn),但如果語(yǔ)音不是十分的純潔,帶有一定的背景噪聲,結(jié)果就很容易出現(xiàn)錯(cuò)誤。因?yàn)榍逡舻哪芰窟h(yuǎn)遠(yuǎn)小于濁音,但是清音和靜音的能量比起來(lái)就相差不多了,如果有一定的背景噪聲存在,那么清音和噪聲的判斷很容易發(fā)生錯(cuò)誤。根據(jù)這點(diǎn),為了提高自動(dòng)分割算法的準(zhǔn)確性,便提出兩種參數(shù)相結(jié)合的方法??梢酝ㄟ^(guò)以下幾種算法實(shí)現(xiàn): (3-19) (3-20) (3-21)在計(jì)算機(jī)上進(jìn)行仿真出圖時(shí),波形的高度就代表著語(yǔ)音信號(hào)的幅度,能量越高的信號(hào)波峰越高,而能量較小的信號(hào)波峰也比較低,在進(jìn)行語(yǔ)音自動(dòng)分割的時(shí)候,涉及到具體的門限就需要依據(jù)語(yǔ)音信號(hào)波峰的高度來(lái)進(jìn)行設(shè)置。雙門限是指需要設(shè)定兩個(gè)閾值,先設(shè)定一個(gè)低一點(diǎn)的幅度值對(duì)語(yǔ)音信號(hào)實(shí)施第一次判決,再選擇一個(gè)高一點(diǎn)的值實(shí)施第二次判決。短時(shí)過(guò)零率短時(shí)過(guò)零率就是指每幀信號(hào)改變符號(hào)次數(shù)。根據(jù)輸入系統(tǒng)語(yǔ)音信號(hào)的最大值與最小值之間的變化,對(duì)語(yǔ)音信號(hào)實(shí)施歸一化處理。這樣就能將語(yǔ)音信號(hào)波峰波谷的變化轉(zhuǎn)換為穿過(guò)坐標(biāo)橫軸的次數(shù)。將語(yǔ)音信號(hào)的定義為:(3-22)式〔3-22〕中,,即:(3-23)短時(shí)過(guò)零率可以通過(guò)比較語(yǔ)音信號(hào)和噪聲信號(hào)之間頻率的差異來(lái)進(jìn)行自動(dòng)分割。當(dāng)發(fā)清音時(shí),頻率較高,而頻率高就意味著平均過(guò)零率高。這和平均過(guò)零率很低的噪聲信號(hào)形成鮮明比照,這樣在短時(shí)能量很難準(zhǔn)確判別的清音和噪聲問(wèn)題上,短時(shí)過(guò)零率卻能夠做出有效的識(shí)別??梢缘弥?,這兩個(gè)特征參數(shù)如果一同使用的話自動(dòng)分割的準(zhǔn)確率就能大幅提高?;诙虝r(shí)能量和短時(shí)過(guò)零率的雙門限自動(dòng)分割圖雙門限自動(dòng)分割程序流程圖所示的方法是將短時(shí)能量和短時(shí)過(guò)零率結(jié)合起來(lái)進(jìn)行語(yǔ)音分割的方法,在信噪比良好的情況下,能對(duì)語(yǔ)音信號(hào)實(shí)現(xiàn)較為準(zhǔn)確的自動(dòng)分割。與之前介紹的單門限的判斷流程不同,雙門限檢測(cè)對(duì)于每個(gè)特征參數(shù)都設(shè)定有兩個(gè)門限。當(dāng)語(yǔ)音信號(hào)參數(shù)值高于設(shè)定的第一個(gè)較低的門限時(shí),說(shuō)明有一定可能進(jìn)入人聲段,此時(shí)判決繼續(xù)。當(dāng)語(yǔ)音信號(hào)在此根底上超過(guò)了預(yù)先設(shè)置好的第二個(gè)較高的門限,并且持續(xù)有幾幀的時(shí)長(zhǎng)時(shí),我們就認(rèn)為語(yǔ)音信號(hào)進(jìn)入了人聲段。對(duì)人聲段終止點(diǎn)的判決大體上就是它的逆過(guò)程。當(dāng)語(yǔ)音信號(hào)的參數(shù)值低于設(shè)定的第一個(gè)較高的門限時(shí),說(shuō)明人聲段有可能結(jié)束,算法繼續(xù)對(duì)其進(jìn)行檢測(cè),假設(shè)參數(shù)值又低于了設(shè)定好的第二個(gè)較低的門限并持續(xù)了幾幀的時(shí)長(zhǎng)那么說(shuō)明語(yǔ)音信號(hào)進(jìn)入了背景噪聲段。這里所說(shuō)的“幾幀〞就是指算法預(yù)先設(shè)定好的最短語(yǔ)音和最短靜音兩個(gè)參數(shù)。因?yàn)橛行┰肼暱赡苁峭话l(fā)性的、大功率的,這類噪聲很有可能同時(shí)滿足雙門限的條件,為了防止此類噪聲對(duì)語(yǔ)音自動(dòng)分割的準(zhǔn)確性產(chǎn)生不利影響才設(shè)置了這兩個(gè)參數(shù)。一旦語(yǔ)音信號(hào)超過(guò)了較高的判決門限,檢測(cè)系統(tǒng)就會(huì)認(rèn)為語(yǔ)音信號(hào)已經(jīng)進(jìn)入了語(yǔ)音階段,但是判定還沒(méi)有結(jié)束。系統(tǒng)會(huì)繼續(xù)判斷當(dāng)前的狀態(tài)是否能夠滿足最短語(yǔ)音和最短靜音的條件,如果不滿足那么會(huì)被認(rèn)定為噪聲信號(hào),所有參數(shù)值歸零,算法重新開(kāi)始判斷REF_Ref451288797\r\h[15]?;诘棺V特征的語(yǔ)音自動(dòng)分割倒譜特征在語(yǔ)音識(shí)別系統(tǒng)中,很多時(shí)候短時(shí)能量和短時(shí)過(guò)零率所包含的信息并不能進(jìn)行準(zhǔn)確的語(yǔ)音自動(dòng)分割,尤其是在說(shuō)話人所處環(huán)境較為復(fù)雜、信噪比較低的情形下,基于短時(shí)能量和短時(shí)過(guò)零率的自動(dòng)分割算法通常都會(huì)出現(xiàn)很多錯(cuò)誤,不能準(zhǔn)確識(shí)別出語(yǔ)音音節(jié)的起始點(diǎn)和終止點(diǎn)。而倒譜特征所包含的信息量要遠(yuǎn)遠(yuǎn)大于它們,同時(shí)由于倒譜的定義方式與其不同,使得基于倒譜特征進(jìn)行的語(yǔ)音自動(dòng)分割根本上不用考慮噪聲大小的影響。使其能夠在低信噪比條件下獲得準(zhǔn)確的分割結(jié)果。倒譜距離設(shè)語(yǔ)音信號(hào)為,其倒譜變換為。語(yǔ)音信號(hào)倒譜的一種定義為: (3-24)式中,為倒譜系數(shù),且是實(shí)數(shù)。S(ω)與S′(ω),利用帕塞瓦爾定理,數(shù): (3-25)式〔3-25〕中,與分別代表S(w)和S′(w)的,兩個(gè)信號(hào)譜的差異大小可以用對(duì)數(shù)譜的均方距離來(lái)進(jìn)行描述,因此可以采用倒譜距離為特征參數(shù)來(lái)識(shí)別語(yǔ)音音節(jié)的區(qū)間。基于倒譜距離的語(yǔ)音自動(dòng)分割算法流程和短時(shí)能量作為特征參數(shù)的算法十分相似,只不過(guò)變換了特征參數(shù)而已。由于極少有語(yǔ)音信號(hào)從第一幀開(kāi)始就進(jìn)入說(shuō)話人語(yǔ)音段,故將語(yǔ)音前幾幀默認(rèn)為噪聲段。通過(guò)對(duì)這段噪聲進(jìn)行分析可以得出倒譜系數(shù)矢量,噪聲倒譜矢量的近似值可以根據(jù)公式〔3-26〕所述進(jìn)行不斷更新: (3-26)式〔3-26〕中,,。計(jì)算倒譜距離: (3-27)式中,譜。式中處理語(yǔ)音信號(hào)所采用的倒譜特征是復(fù)倒譜特征,F(xiàn)FT復(fù)倒譜就是由語(yǔ)音信號(hào)先經(jīng)過(guò)傅里葉變換,然后求其復(fù)對(duì)數(shù)的傅氏變換就可以得到相應(yīng)信號(hào)的復(fù)倒譜。此種檢測(cè)方法相較于短時(shí)能量和短時(shí)過(guò)零率的方法雖然具有很多優(yōu)點(diǎn),但它同時(shí)也具有計(jì)算復(fù)雜、運(yùn)算量大的缺點(diǎn),將其應(yīng)用于語(yǔ)音自動(dòng)分割時(shí)實(shí)時(shí)問(wèn)題不易解決。4基于語(yǔ)音熵的自動(dòng)分割算法設(shè)計(jì)上文所述的基于短時(shí)能量和短時(shí)過(guò)零率等特征參數(shù)的語(yǔ)音自動(dòng)分割算法,雖然計(jì)算簡(jiǎn)便,且易于實(shí)現(xiàn)。但是該算法在低信噪比條件下,對(duì)于語(yǔ)音音節(jié)起始點(diǎn)和終止點(diǎn)的檢測(cè)準(zhǔn)確程度是無(wú)法到達(dá)預(yù)期效果的,從而導(dǎo)致自動(dòng)分割準(zhǔn)確性低下,整個(gè)語(yǔ)音識(shí)別系統(tǒng)出現(xiàn)大量錯(cuò)誤。如果單從分割準(zhǔn)確性的角度來(lái)考察,基于模式識(shí)別的方法準(zhǔn)確性是很高的,但是在實(shí)際應(yīng)用的過(guò)程中我們不能僅僅考慮精確性一方面問(wèn)題,還要考慮諸如實(shí)時(shí)性、計(jì)算量等多方面因素。為了在它們之間尋找一個(gè)平衡點(diǎn),既能保證自動(dòng)分割的準(zhǔn)確性又可以防止大規(guī)模的運(yùn)算,本章介紹一種基于語(yǔ)音熵的語(yǔ)音自動(dòng)分割算法,并對(duì)其進(jìn)行了一定的改進(jìn)。4.1本文設(shè)計(jì)方案圖4.1改進(jìn)的譜熵法語(yǔ)音自動(dòng)分割算法過(guò)程框圖首先讀入之前錄制好的連續(xù)語(yǔ)音文件;對(duì)語(yǔ)音信號(hào)進(jìn)行包括預(yù)加重、加窗分幀在內(nèi)的預(yù)處理;為了取得更精確地語(yǔ)音分割結(jié)果,人為添加一些經(jīng)驗(yàn)性約束,如頻譜范圍設(shè)定在250~3500Hz,歸一化譜概率密度上限設(shè)置為0.9;求出子帶能量概率分布密度;求出子帶譜熵;通過(guò)平滑處理設(shè)置閾值;應(yīng)用雙門限端點(diǎn)檢測(cè)法檢測(cè)出音節(jié)起始點(diǎn)和終止點(diǎn);對(duì)各個(gè)音節(jié)起始點(diǎn)和終止點(diǎn)進(jìn)行標(biāo)記;語(yǔ)音自動(dòng)分割完成。譜熵的定義4.2.1熵的定義及概念,最初是熱力學(xué),,。一個(gè)系統(tǒng)混亂度越高,它的信息熵就越高,一個(gè)系統(tǒng)越是有一定規(guī)律可循,它的信息熵就越低。在語(yǔ)音信號(hào)中語(yǔ)音段因?yàn)槭侨税l(fā)出的聲音,幀與幀之間存在著一定的聯(lián)系,所以語(yǔ)音段的信息熵就低。相反,背景噪聲根本上都是隨機(jī)的,所以信息熵就高。充分利用這個(gè)差異,就能實(shí)現(xiàn)基于譜熵的語(yǔ)音自動(dòng)分割算法。,它們獨(dú)立特征,N,那么為REF_Ref450809458\r\h[13]; (4-1)其中 (4-2)需要注意的是,最初輸入系統(tǒng)的語(yǔ)音信號(hào)是連續(xù)的,在計(jì)算它的信息熵之前需要對(duì)其進(jìn)行采樣量化,將連續(xù)信號(hào)轉(zhuǎn)化為離散信號(hào),然后才能對(duì)其進(jìn)行求解。4.2.2譜熵,得到的第,那么FFT變換后,其中第kfkYi(k),那么每個(gè)頻率分量的歸一化譜概率密度函數(shù)為 (4-3)式中,pi(k)為第i幀第k個(gè)頻率分量fk對(duì)應(yīng)的概率密度;N為FFT長(zhǎng)度。:(4-4)4.2.3譜熵的特征設(shè)X為離散信源,其概率空間為(4-5)那么信源X的熵函數(shù)為 (4-6)式中,P=(p1,p2,…,pq)是q維矢量,并且滿足和,故常稱P為概率矢量。從上述譜熵的定義中可以發(fā)現(xiàn)譜熵表達(dá)了信源在頻域幅值分布中的“無(wú)序性〞。假設(shè)熵函數(shù)有 (4-7)也就是等概分布的時(shí)候,語(yǔ)音信號(hào)的熵到達(dá)最大值,這一特征稱為最大離散熵定理。4.3譜熵法語(yǔ)音自動(dòng)分割的改進(jìn)算法基于最根本的譜熵原理在語(yǔ)音信號(hào)中的應(yīng)用,為了提高區(qū)分語(yǔ)音信號(hào)和非語(yǔ)音段的能力、消除某些能量集中噪聲某個(gè)特定頻率對(duì)傳統(tǒng)譜熵方法的影響,改進(jìn)的譜熵法語(yǔ)音自動(dòng)分割算法。區(qū)分語(yǔ)音段和噪聲段的能力,做出了一些經(jīng)驗(yàn)性的約束。由于大局部語(yǔ)音信號(hào)都在250~3500Hz頻帶內(nèi),設(shè)第k條譜線頻率為fk,有 (4-8)2.為了防止某些噪聲集中在某個(gè)頻率對(duì)譜熵方法的影響,需設(shè)定歸一化譜概率密度的上限: (4-9)3.為了消除每幀信號(hào)快速傅里葉變換〔FFT〕后的譜線幅值受噪聲影響,把每條譜線的譜熵改為子帶的譜熵,x(n),加窗ixi(m),他的離散傅里葉變換〔DFT〕為 (4-10)式中,Xi(k)是語(yǔ)音幀xi(m)的短時(shí)傅里葉變換,每個(gè)分量的能量。這樣歸一化譜概率密度函數(shù)定義為 (4-11)將每幀的前半段的信息熵計(jì)算出來(lái) (4-12)H(i)是第i幀的譜熵。子帶譜熵的思想是將一幀又進(jìn)一步分成幾個(gè)子帶,再分別求出每一個(gè)子帶譜熵,這樣一來(lái)就消除了每一條譜線幅值會(huì)受到噪聲影響的問(wèn)題。設(shè)每個(gè)子帶由4條譜線組成,共有Nb個(gè)子帶,這樣第i幀中的第m子帶的子帶能量為 (4-13)相應(yīng)地,子帶能量的概率pb(m,i)和子帶譜熵Hb(i)分別為 (4-14) (4-15)4.在譜熵的計(jì)算中引入一個(gè)正常量K到概率分布式〔6-14〕中,得到新的子帶能量的概率分布密度公式 (4-16)比較式〔6-14〕可得出新的子帶譜熵(4-17)綜上所述,噪聲負(fù)熵的減小程度與語(yǔ)音的負(fù)熵減小程度相比要明顯很多,而且,不同的噪聲的譜熵區(qū)別不是十清楚顯,這就使得容易設(shè)定自動(dòng)分割的門限值。因此在噪聲環(huán)境下
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 重慶市七校聯(lián)考2024-2025學(xué)年高二上學(xué)期期末考試英語(yǔ)試題(無(wú)答案)
- 06上半年-信息技術(shù)處理員-上午(含答案)
- 2025便鄰士便利店會(huì)員積分系統(tǒng)開(kāi)發(fā)及合作協(xié)議3篇
- 2025年度大米產(chǎn)業(yè)鏈綠色物流體系構(gòu)建合同3篇
- 2024版杭州辦公場(chǎng)所租賃合同
- 2024租賃合同標(biāo)的物詳細(xì)描述
- 2024股權(quán)管理文件:轉(zhuǎn)讓與托管專項(xiàng)合同版B版
- 2024美容美發(fā)行業(yè)勞動(dòng)合同服務(wù)協(xié)議3篇
- 2024版快手電商合作的協(xié)議書(shū)范本
- 2024研學(xué)旅行導(dǎo)游及講解服務(wù)合同范本3篇
- 采購(gòu)組織內(nèi)部架構(gòu)圖
- 雷達(dá)測(cè)距原理與應(yīng)用研究
- 湖南省懷化市2022-2023學(xué)年高二上學(xué)期期末考試政治試題(含解析)
- 干部履歷表(中共中央組織部2015年制)
- 2024年吉林電力股份有限公司招聘筆試參考題庫(kù)含答案解析
- 基樁靜荷載試驗(yàn)理論考試題庫(kù)(含答案)
- 道路工程停車位鋪裝工程施工方案
- 標(biāo)識(shí)牌單元工程施工質(zhì)量驗(yàn)收評(píng)定表
- GB/T 3519-2023微晶石墨
- (承諾書(shū))變壓器售后服務(wù)承諾書(shū)
- 人教版七年級(jí)上冊(cè)數(shù)學(xué)期末動(dòng)點(diǎn)問(wèn)題壓軸題專項(xiàng)訓(xùn)練(含答案)
評(píng)論
0/150
提交評(píng)論