時延估計(jì)算法綜述_第1頁
時延估計(jì)算法綜述_第2頁
時延估計(jì)算法綜述_第3頁
時延估計(jì)算法綜述_第4頁
時延估計(jì)算法綜述_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

時延估計(jì)算法綜述

聲源定位技術(shù)在過去,隨著各種電子設(shè)備的智能,語音輸入和源跟蹤技術(shù)已經(jīng)成為語音通信領(lǐng)域不可或缺的兩種技術(shù)。例如,在視頻會議中,通過聲源定位技術(shù)控制攝像頭,使其自動轉(zhuǎn)向感興趣的說話人方向;對于高速行駛的車輛,為避免駕駛員用手去接聽電話,車載免提電話應(yīng)運(yùn)而生。然而,當(dāng)車中坐有多個說話人時,語音識別系統(tǒng)就無法辨別實(shí)際命令的來源,此時就需要一種定位系統(tǒng)來提取駕駛員方位的語音,進(jìn)而對其命令作出響應(yīng);助聽器的出現(xiàn)為有聽覺障礙的殘疾人提供了幫助,基于陣列的語音增強(qiáng)技術(shù)利用聲源的位置信息進(jìn)行空間濾波,可以進(jìn)一步抑制除說話人以外的其他方向的噪聲,使得助聽器話音更加清晰。近年來,基于聲源定位技術(shù)的電子筆系統(tǒng)成為研究熱點(diǎn),用于接收的麥克陣列以不同方式集成在顯示器邊緣,此時設(shè)計(jì)出的電子筆就可以在屏幕上進(jìn)行書寫或者相應(yīng)地控制操作。時延估計(jì)(Timedelayestimation,TDE)是語音增強(qiáng)與聲源定位領(lǐng)域內(nèi)的一項(xiàng)關(guān)鍵技術(shù)。所謂時間延遲,是指傳感器陣列中不同傳感器接收到的同源信號之間由于傳輸距離不同而引起的時間差。TDE就是利用參數(shù)估計(jì)和信號處理的理論和方法,對上述時間延遲進(jìn)行估計(jì)和測定?;赥DE的雙步聲源定位就是先估計(jì)出信號在不同陣元處的到達(dá)時間差(Timedelayofarrival,TDOA),進(jìn)而再利用這些參數(shù)通過雙曲線方程進(jìn)行定位。由于誤差擴(kuò)散效應(yīng),TDE估計(jì)精度關(guān)系著整個定位系統(tǒng)的性能,因而成為語音通信領(lǐng)域內(nèi)關(guān)注的熱點(diǎn)。從20世紀(jì)70年代開始,許多大學(xué)和實(shí)驗(yàn)室就已經(jīng)投入到了該領(lǐng)域的研究中,例如布朗大學(xué),貝爾實(shí)驗(yàn)室以及以色列技術(shù)學(xué)院等,他們先后提出了不同的TDE方法。最初得到廣泛應(yīng)用的包括廣義互相關(guān)(GCC)方法和自適應(yīng)最小均方(LMS)方法。鑒于GCC受混響的影響比較嚴(yán)重,文獻(xiàn)分別對其作了改進(jìn)。文獻(xiàn)提出了倒譜預(yù)濾波(Cepstralprefiltering,CEP)技術(shù),通過對通道特性的分析,有目的地去除信號中受反射影響嚴(yán)重的部分,再將預(yù)濾波后的信號通過GCC方法進(jìn)行TDE。與CEP方法不同,文獻(xiàn)提出的基音加權(quán)的GCC方法更多地考慮了信號本身的特性,特別適用于具有周期特性的信號源(如語音)。近年來,文獻(xiàn)[15,16,17,18,19,20]又分別提出了基于控間的特征值分解(EVD)和基于傳遞函數(shù)比(ATF-sratio)的TDE方法,前一種是基于子空間的技術(shù),后一種是利用信號到達(dá)兩個麥克風(fēng)的傳遞函數(shù)比來求解。然而,一個好的時延估計(jì)算法不僅要能夠在低信噪比和強(qiáng)混響的條件下精確地估計(jì)出時延,而且應(yīng)該具有較低的運(yùn)算量。1i,i和nit模型的不同理想情況下,陣列接收信號的模型可以用圖1(a)來表示。第i個麥克所接收到的信號為xi(t)=αis(t-τi)+ni(t)(1)式中:s(t)為源信號;τi,αi和ni(t)分別表示從聲源到第i個麥克風(fēng)的時間延遲、幅度衰減和加性噪聲。然而,由于方向性噪聲以及混響的存在,實(shí)際環(huán)境中的模型(圖1(b))會更復(fù)雜。此時接收信號為xi(t)=p∑l=1hil(t)*s(t-dil)+ni(t)(2)式中:hil(t)為聲源到第i個麥克風(fēng)處的第l條傳播路徑的脈沖響應(yīng);dil為相應(yīng)的傳播時延;*表示線性卷積。直達(dá)路徑的時間差τij=dil-djl給出了TDOA值,這一參數(shù)將被用于雙曲定位中。2不同延遲估算方法2.1gcc方法的基本原理文獻(xiàn)提出的GCC方法是一種傳統(tǒng)的TDE估計(jì)方法。由于來自同一聲源的信號存在一定的相關(guān)性,通過計(jì)算不同麥克風(fēng)所接收到的信號之間的相關(guān)函數(shù),就可以估計(jì)出TDOA值。然而在實(shí)際環(huán)境中,由于噪聲和混響的影響,相關(guān)函數(shù)的最大峰會被弱化,有時還會出現(xiàn)多個峰值,這些都造成了實(shí)際峰值檢測的困難。GCC法就是在功率譜域?qū)π盘栠M(jìn)行加權(quán),突出相關(guān)的信號部分而抑制受噪聲干擾的部分,以便使相關(guān)函數(shù)在時延處的峰值更為突出。就兩個麥克風(fēng)而言,接收到的信號x1(t)和x2(t)的互相關(guān)函數(shù)可以表示為Rx12(τ)=E(x1(t)x2(t-τ))≈α1α2Rs(τ-τ12)+Rn(τ)(3)式中:E為數(shù)學(xué)期望;近似項(xiàng)對于無混響和空間平穩(wěn)的噪聲成立。式(3)表明,如果信號的信噪比足夠大,TDOA可以從相關(guān)函數(shù)中獲得。相關(guān)函數(shù)的傅里葉變換給出了兩通道信號的互相關(guān)譜Gx12(f)=α1α2Gs(f)e-j2πfτ12+Gn(f)(4)然而,混響的存在使得信號中包含了多個回波分量,此時計(jì)算出的互相關(guān)函數(shù)會包含直達(dá)波與反射波形成的峰值,這些峰在低信噪比的條件下都會造成TDOA檢測的困難。特別對于寬帶語音信號,基音周期的存在使得互相關(guān)函數(shù)更加復(fù)雜。為了使TDOA估計(jì)不受信號本身特性的影響,并盡可能地抑制混響和噪聲,需要對觀察信號的頻譜做特殊處理,這就是GCC方法的出發(fā)點(diǎn),并且由此得到的互相關(guān)函數(shù)被稱為GCC函數(shù)。GCC方法的基本思想如圖2所示。圖中:(·)′為共軛運(yùn)算;ψg(f)為GCC的加權(quán)函數(shù)。文獻(xiàn)列舉了6種通用的加權(quán)函數(shù),如表1所示??梢钥闯?GCC方法建立在非混響模型基礎(chǔ)上。由于受模型誤差的影響,它不能正確辨識多個說話人和方向性的干擾噪聲,并且更傾向于估計(jì)比較強(qiáng)的信號的TDOA值,所以GCC方法只能用于低混響和非相關(guān)噪聲的場合。然而在視頻會議中,絕大部分的噪聲均來自于方向性的干擾源,例如CPU風(fēng)扇、投影儀和空調(diào)等。盡管如此,低的計(jì)算復(fù)雜度和易于實(shí)現(xiàn)的特點(diǎn)使得GCC方法還是得到了比較廣泛的應(yīng)用。2.2cep方法的改進(jìn)GCC方法盡管考慮了噪聲影響,但它假定聲源到麥克之間的通道響應(yīng)為一簡單的延遲和衰減,文獻(xiàn)指出這樣的近似是不準(zhǔn)確的。特別當(dāng)混響超過一定限度時,TDE異常估計(jì)的百分比會突然增加(所謂異常,是指偏離實(shí)際時延較大的TDOA估計(jì))。這是由于隨著混響程度的增加,反射波在相關(guān)函數(shù)計(jì)算中的峰值會隨之增加,加上噪聲的影響最終很有可能超過真實(shí)的峰值,造成相關(guān)估計(jì)器的輸出產(chǎn)生大的偏差。例如:圖3(a)是在10dB信噪比、無混響條件下的GCC函數(shù),其真實(shí)的峰值出現(xiàn)在零時刻;圖3(b)是有混響條件下的GCC函數(shù)??梢钥闯?除了零時刻以外,在其他幾個時刻也同時出現(xiàn)了一些峰,這些峰是由反射波引起的,通常被稱作偽峰。圖3表明混響對時延估計(jì)造成了很大的干擾。針對這一問題,文獻(xiàn)對GCC算法做了進(jìn)一步的改進(jìn)。文獻(xiàn)提出了一種CEP的預(yù)濾波技術(shù)。由于任何一個系統(tǒng)都可以表示為最小相位系統(tǒng)和全通系統(tǒng)的級聯(lián),即Η(ω)=Ηmin(ω)?Ηap(ω)(5)文獻(xiàn)指出,路徑中的混響主要包含在系統(tǒng)的最小相位分量(Minimumphasecomponent,MPC)中,而全通分量(All-passcomponent,APC)則解釋了信號傳播的時延。如果將通道響應(yīng)分解為APC和MPC兩部分,并保留其中的APC分量用于GCC求相關(guān),就可以在一定程度上抑制混響的影響,提高時延估計(jì)算法的抗混響性能。然而,CEP方法也存在一些問題:(1)幀長的選擇比較困難。在分幀處理過程中,幀長的選擇不能過大以確保通道的特性是時不變或者是慢變的,另一方面,幀長要足夠大才能使功率譜的計(jì)算不受幀長的影響,也就是要避免當(dāng)前幀的反射出現(xiàn)在下一幀或者前一幀的反射出現(xiàn)在當(dāng)前幀。通常倒譜的估計(jì)需要比較長的幀長(200ms),同時還需要幾幀的平滑,因此需要將近1s的語音信號,從而導(dǎo)致了較大的延遲。(2)認(rèn)為通道的MPC固定不變,而語音信號的MPC是時變且為零均值的,這樣的假設(shè)通常難以滿足。實(shí)際上,人的走動和開門等一些因素都會導(dǎo)致房間混響的變化。對于運(yùn)動的源來說,幀間疊接可以保證跟蹤精度,但兩幀之間的時移并不能保證信號MPC的均值為零。(3)從計(jì)算量上來講,倒譜的計(jì)算需多做2次FFT和1次求對數(shù)運(yùn)算,而且要隨著通道特性的變化不斷更新,這都增加了額外的計(jì)算量。所以,CEP-GCC方法雖然能夠取得較好的效果,但要實(shí)現(xiàn)實(shí)時處理還是比較困難。2.3tde的加標(biāo)回收互功率譜相位(Cross-powerspectrumphase,CSP)是利用互功率譜的相位信息來估計(jì)時延,它對信號互功率譜的加權(quán)函數(shù)為ψCSΡ(f)=1|Gx12(f)|(6)式(6)相當(dāng)于一白化變換。比較表1可以看出,這一方法等價(jià)于PHAT加權(quán)的GCC方法。在實(shí)際環(huán)境中,由于受噪聲和混響的影響,通過兩個麥克得到的TDE精度都不會很高。為改善TDE的性能,可以考慮利用多個麥克風(fēng),通過加入冗余的空間信息來獲得。文獻(xiàn)給出了一種多通道的廣義互功率譜相位(GeneralizedCSP,GCSP)時延估計(jì)方法。它將多通道信號的相關(guān)矩陣分解為信號部分和噪聲部分,再利用其中的信號部分估計(jì)互功率譜。由于增加了空間信息,利用GCSP進(jìn)行時延估計(jì)的性能要優(yōu)于CSP,通常被認(rèn)為是一種改進(jìn)的CSP方法。2.4tde信號加權(quán)利用互相關(guān)進(jìn)行時延估計(jì)的方法都沒有考慮信號本身的特性。文獻(xiàn)中作者指出,信號中具有明顯周期特性的部分受到外圍噪聲和多徑干擾的影響比較小,如果對信號中表現(xiàn)出周期特性的頻譜給以適當(dāng)?shù)募訌?qiáng),就可以在一定程度上提高抗噪和抗混響的性能,這便是基音加權(quán)的TDE方法,比較符合語音信號的特點(diǎn)。這種方法相當(dāng)于改進(jìn)的PHAT加權(quán),它將兩通道中共同的信號分量加強(qiáng),而其他(更可能為噪聲)部分被抑制,從而提高了噪聲和混響下的時延估計(jì)性能。另一方面,由于考慮了信號自身的特性,它也適合于多源檢測問題,此時處理器的復(fù)雜度會相應(yīng)地增加,用以提取每個源的基音和諧波分量。2.5提取信號的初始段根據(jù)神經(jīng)生物學(xué),人耳利用兩耳間強(qiáng)度差(Interauralleveldifference,ILD)和兩耳間時間差(Interauraltimedifference,ITD)來確定聲源的位置。人在有混響的房間里也能正確辨認(rèn)出聲源的位置,這主要是利用了聲音的超前效應(yīng),即聲音的直接分量總是先于反射分量到達(dá)人耳,也就是說人耳利用了未被反射污染的聲音段來定位,這段聲音稱為初始段。而在求時延時,通過提取這段聲音求GCC,就能較好地抑制混響的影響。包含混響的語音信號通常會呈現(xiàn)周期特性,然而語音段的包絡(luò)卻不會因?yàn)榛祉懚尸F(xiàn)周期性,或者說包絡(luò)可以部分地掩蓋反射。如果在包絡(luò)中提取信號的初始段,就可以有效去除后端的反射分量。具體的包絡(luò)和其初始段的提取可以通過式(7,8)進(jìn)行。envi(n)=max[β?envi(n-1),|xi(n)|]i=1,2(7)onseti(n)=max[0,envi(n)-envi(n-1)]i=1,2(8)式中β為包絡(luò)衰減因子(0<β<1)。圖4通過單位沖激響應(yīng)信號描述了信號包絡(luò)和初始段的提取過程??梢钥闯?初始段信號去除了經(jīng)反射形成的第2個脈沖。通過提取包絡(luò)初始段來進(jìn)行時延估計(jì)受外圍環(huán)境的影響比較大,例如房屋幾何尺寸、聲源和麥克風(fēng)位置以及麥克風(fēng)特性等。2.6lms自適應(yīng)方法自適應(yīng)的LMS濾波能夠根據(jù)當(dāng)前輸入信號的采樣來自適應(yīng)地調(diào)整濾波器系數(shù),使輸出誤差信號達(dá)到最小,而不需要輸入信號譜的先驗(yàn)知識。因此LMS算法被廣泛地用于輸入信號的統(tǒng)計(jì)特性未知的情況下,基于同樣的考慮,LMS算法也被成功地引入到TDE中來。在雙麥克陣列中,如果以一個通道的信號為目標(biāo)信號,另一個通道的信號為參考信號,就可以利用LMS方法來進(jìn)行TDOA估計(jì),其實(shí)現(xiàn)框圖見圖5。圖中z-p是為了保證系統(tǒng)的因果性而引入的,以便計(jì)算負(fù)的時延。從圖5可以看出,LMS時延估計(jì)器自動調(diào)節(jié)h(n),使其輸出逼近x1(n),實(shí)質(zhì)上相當(dāng)于在信號x2(n)中插入一個延遲來使兩個通道的信號對齊。在理想情況下,h(n)中對應(yīng)于實(shí)際時延處的加權(quán)系數(shù)會收斂到1,而其他部分則收斂到0。最后,為獲得分?jǐn)?shù)倍采樣的TDE,可以對h(n)進(jìn)行插值操作。在觀察數(shù)據(jù)足夠多的情況下,LMS可以達(dá)到統(tǒng)計(jì)意義下的最優(yōu)濾波器,即Wiener濾波器,其頻域表達(dá)式為Η(ω)=G-122(ω)G12(ω)比較表1中的Roth處理器可以看出,在統(tǒng)計(jì)意義下,LMS方法與Roth加權(quán)的GCC估計(jì)法相似,但是兩者的出發(fā)點(diǎn)和前提條件不同。GCC是從信號互相關(guān)的角度來進(jìn)行時延估計(jì),它基于信號和噪聲的先驗(yàn)知識,需要大量數(shù)據(jù)運(yùn)用統(tǒng)計(jì)的方法得出,而實(shí)際操作中,GCC方法往往只用一幀數(shù)據(jù)就獲得信號的功率譜和互功率譜的估計(jì),因此該估計(jì)的精度不高。而LMS自適應(yīng)濾波則通過一定的誤差準(zhǔn)則,讓一個通道的信號去逼近另一個,在收斂的情況下給出時延估計(jì),它不需要信號譜的任何先驗(yàn)知識,因此LMS時延估計(jì)方法可以看作Roth處理器的自適應(yīng)實(shí)現(xiàn)。對于LMS方法,它的缺陷在于:(1)自適應(yīng)算法需要一個學(xué)習(xí)過程,而且運(yùn)算量要遠(yuǎn)遠(yuǎn)大于GCC方法,所以不適合跟蹤快速移動的聲源,其時延估計(jì)的精度同樣會受到混響和回波的限制;(2)由于信號x1(n)和x2(n)都是通過房屋的反射形成,用x2(n)直接去逼近x1(n)而得到兩者的關(guān)系將比較困難;(3)LMS濾波器雖然不需要預(yù)先知道輸入信號的統(tǒng)計(jì)特性,但卻依賴于其統(tǒng)計(jì)特性,信號分布越接近于白化,TDE的性能越好;(4)它的性能還與濾波器長度有關(guān),長度越長,TDE的精度越精確,但是計(jì)算復(fù)雜度也隨之快速地增長,從而導(dǎo)致處理速度過慢??傊?利用LMS進(jìn)行時延估計(jì)的最大問題就是計(jì)算量太大。2.7基于evd的tdoa估計(jì)方法基于子空間分解的時延估計(jì)方法主要包括了自適應(yīng)EVD算法和自適應(yīng)廣義EVD(GeneralizedEVD,GEVD)算法。EVD方法用于處理空間非相關(guān)噪聲,而GEVD方法將其擴(kuò)展到空間相關(guān)噪聲的情景?;贓VD的時延估計(jì)方法針對有混響的環(huán)境模型,其接收信號表示為xi(n)=gi(n)*s(n)i=1,2(9)式中g(shù)i(n)包括了環(huán)境混響的影響。取i=1,并在方程兩邊同時卷積g2(n)有x1(n)*g2(n)=[g1(n)*s(n)]*g2(n)=x2(n)*g1(n)(10)經(jīng)適當(dāng)推導(dǎo)和變形有Rxxu=0,其中u=[g2,-g1]T,Rxx為信號的相關(guān)矩陣。可以看出矢量u為相關(guān)矩陣Rxx對應(yīng)于零特征值的特征矢量。如果能夠估計(jì)出相關(guān)矩陣的特征矢量,就可以獲得兩個通道的通道響應(yīng),從而可以進(jìn)一步估計(jì)出TDOA值。仿照LMS方法,如果定義誤差函數(shù)為e(n)=x1(n)*g2(n)-x2(n)*g1(n)=uΤ(n)x(n)(11)基于EVD的TDOA估計(jì)方法也可以通過自適應(yīng)濾波的方法來實(shí)現(xiàn),如圖6所示。比較式(11)與LMS方法的誤差信號e(n)=x1(n)-x2(n)*h(n)可以看出,EVD方法又加入了一個調(diào)整項(xiàng)g2(n)。從原理上講,LMS方法相當(dāng)于將x1(n)看作目標(biāo)信號,用x2(n)去逼近x1(n),然而這樣做沒有考慮到x1(n)中反射及噪聲的影響。而自適應(yīng)的EVD方法同時調(diào)整兩個通道的脈沖響應(yīng),讓兩者的輸出相互逼近,從而更接近實(shí)際模型,所以EVD方法可以看作是改進(jìn)的LMS方法。基于EVD的方法通過觀察信號的相關(guān)矩陣來估計(jì)聲源到達(dá)兩個麥克風(fēng)的脈沖響應(yīng),進(jìn)而獲得TDOA估計(jì)。與LMS方法及PHAT加權(quán)的GCC方法相比,EVD方法是建立在帶有混響的模型基礎(chǔ)之上,所以具有更好的抗混響性能。然而EVD方法也存在不足:(1)在實(shí)現(xiàn)過程中它需要計(jì)算7次FFT,是GCC+PHAT方法的3倍多,而且還需要幾幀的平滑,大大增加了計(jì)算量;(2)它在模型假設(shè)中忽略了噪聲的影響,如果有噪聲存在,脈沖響應(yīng)的峰值將受到噪聲影響而產(chǎn)生誤差;(3)這一時延估計(jì)法主要考慮兩個通道響應(yīng)的峰值位置,對其余分量的估計(jì)不夠精確,因此無法通過對通道響應(yīng)的插值來提高時延估計(jì)的精度。限于EVD方法只能處理空間白噪聲的情景,文獻(xiàn)在EVD方法的基礎(chǔ)上做了改進(jìn),提出了GEVD方法,主要針對空間有色噪聲信號模型yi(n)=gi(n)*s(n)+ni(n)=xi(n)+ni(n)i=1,2(12)式中ni(n)為相關(guān)性噪聲。一般來講,對于空間有色噪聲處理方法有兩種:(1)對信號協(xié)方差矩陣進(jìn)行廣義特征值分解;(2)對信號相關(guān)函數(shù)進(jìn)行預(yù)白化變換。GEVD方法就是從這兩方面出發(fā),使得TDE性能有了進(jìn)一步改善,文獻(xiàn)給出了具體的TDOA估計(jì)過程。無論是GEVD還是預(yù)白化變換,都是建立在空間有色噪聲模型的基礎(chǔ)上,因此其應(yīng)用于實(shí)際環(huán)境中的性能要優(yōu)于EVD方法。然而它需要對噪聲的統(tǒng)計(jì)特性進(jìn)行預(yù)先估計(jì),并且由于加入了噪聲相關(guān)矩陣,GEVD算法加大了計(jì)算量。另一方面,噪聲的相關(guān)矩陣是利用無聲段語音進(jìn)行估計(jì)的,如果數(shù)據(jù)量不夠或者更新太慢,噪聲矩陣的估計(jì)就不夠準(zhǔn)確,這樣反而會引入誤差。2.8tdoa估計(jì)方法文獻(xiàn)給出了一種利用兩個通道的ATF比來進(jìn)行時延估計(jì)的方法。與GEVD方法相同,它同樣建立在有混響和相關(guān)性噪聲模型的基礎(chǔ)上。定義聲源到達(dá)第i個麥克風(fēng)與第1個麥克風(fēng)的ATF比為Ηi(ω)=Ai(ω)A1(ω)(13)式中Ai(ω)為第i個通道的傳遞函數(shù),如果假定Ai(ω)=αi0e-jωτi0+Li∑j=1αije-jωτiji=1,?,Μ(14)式中(αi0,τi0)和(αij,τij)分別表示Ai(ω)中直達(dá)路徑和反射路徑的幅度和時延,則Ηi(ω)=αi0e-jωτi0α10e-jωτ10?e(ω)(15)從式(15)可以看出,在低混響的情況下,e(ω)近似等于1,從而TDOA估計(jì)可以從Hi(ω)的傅里葉反變換hi(n)的峰值位置提取。針對不同的噪聲空間,有很多獲得Hi(ω)估計(jì)的方法,如最小二乘(Leastsquare,LS)、線形解相關(guān)(Lineardecorrelation,LD)、迭代高斯(RecursiveGauss,RG),以及各種算法的迭代實(shí)現(xiàn)等,這些都基于語音的準(zhǔn)平穩(wěn)特性,以及噪聲和通道響應(yīng)的平穩(wěn)假設(shè)。利用傳遞函數(shù)比進(jìn)行TDOA估計(jì)具有以下幾方面的特點(diǎn):(1)ATF-sratio的基本模型是針對有混響和方向性噪聲的信號模型而建立的,這更符合實(shí)際環(huán)境;(2)傳遞函數(shù)比算法的處理是在頻域進(jìn)行,其計(jì)算效率要比基于子空間的特征值分解算法高;(3)在估計(jì)Hi(ω)的過程中,ATF比方法并不需要做語音活動檢測(Voiceactivitydetection,VAD)來區(qū)分噪聲段和語音段,也不需要有關(guān)噪聲統(tǒng)計(jì)特性的先驗(yàn)知識;(4)ATF比方法的迭代實(shí)現(xiàn)(如RLS,RLD,RGS等)可以用于動源的跟蹤,其相對較小的計(jì)算量使得它的跟蹤能力要優(yōu)于GEVD方法。然而在估計(jì)過程中,hi(n)峰值位置的精度受到采樣頻率的限制,文獻(xiàn)用插值的方法來提高TDOA估計(jì)精度。然而hi(n)是對應(yīng)的兩通道的傳遞函數(shù)的比值,并非實(shí)際信號,所以一種合理的插值方法需要進(jìn)一步研究。關(guān)于TDE估計(jì),文獻(xiàn)給出了用高斯混合模型來處理說話人和方向性噪聲,而針對非高斯聲源和相關(guān)性的高斯噪聲環(huán)境,高階統(tǒng)計(jì)量(Highorderstatistic,HOS)也被用于TDOA估計(jì)問題,由于這些方法計(jì)算復(fù)雜度比較高,沒有得到普遍的應(yīng)用和進(jìn)一步地推廣,故本文不做過多介紹。3[2,3.5,5,5,5,5,4.5]仿真環(huán)境為4m×7m×2.75m的矩形房屋,聲源為8kHz采樣的語音信號。兩個麥克風(fēng)被放置在[1.7,3.5,1.375]和[2,3.5,1.375]兩個位置。實(shí)驗(yàn)分別針對定源和動源兩種情景,定源位于[2.53,4.03,2.67],動源的運(yùn)動軌跡滿足{x=2+0.9cos(0.1πt)y=3.5+0.9sin(0.1πt)z=1+t300≤t≤30(16)其中,通道的脈沖響應(yīng)由ImageMethod方法產(chǎn)生。3.1tdoa參數(shù)的提取首先在信噪比(SNR)為10dB,反射時間(RT60)為250ms環(huán)境下仿真了各種算法對定源和動源的TDOA跟蹤特性,如圖7所示,主要包括PHAT加權(quán)的GCC方法、自適應(yīng)的特征值分解/廣義特征值分解(AEVD/AGEVD)方法、基于最小二乘的ATF比方法(ATF-LS1)、線性解相關(guān)以及迭代高斯的ATF比方法(ATF-LD、ATF-GS1)。為提高精度,實(shí)驗(yàn)在提取TDOA參數(shù)的過程中對相應(yīng)的相關(guān)函數(shù)和脈沖響應(yīng)做了10倍的插值。在1200次仿真實(shí)驗(yàn)之后,參數(shù)的估計(jì)誤差通過式(17)計(jì)算。RΜSE=√1ΝΝ∑i=1(?τi-τ0)2(17)式中:?τi為第i個估計(jì)值;τ0為實(shí)際的TDOA(τ^i和τ0的大小以采樣值來衡量)。當(dāng)估計(jì)結(jié)果偏離實(shí)際的TDOA一個采樣時,就認(rèn)為是異常點(diǎn),實(shí)驗(yàn)同時統(tǒng)計(jì)了各種算法在TDOA估計(jì)過程中異常點(diǎn)發(fā)生的機(jī)率(Ra

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論