




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、到達時差估計(gj)的頻域模型Jesper Rindom Jensen1, Jesper Kjr Nielsen23, Mads Grsbll Christensen1, Sren Holdt Jensen31Aalborg University 2Bang & Olufsen A/S 3Aalborg Universit Audio Analysis Lab, AD:MT Struer, Denmark Dept. of Electronic Systemsjrj,mgccreate.aau.dk jkn,shjes.aau.dkt摘 要到達(dod)時差(TDOA)估計(gj)是音頻信號處
2、理應(yīng)用中的一類重要問題,以前可以通過互相關(guān)方法解決。但本文表明,互相關(guān)方法實際上是通用的方法中的一個受約束的特例。因此,本文設(shè)置了條件使互相關(guān)方法成為統(tǒng)計有效的估算方法。其中一項條件是源信號為基本頻率是rad/樣本的周期信號,其中是數(shù)據(jù)點的個數(shù)或已知的諧波個數(shù)。而更通用的方法只要求源信號具有周期性,因此在對合成數(shù)據(jù)以及人工延遲的語音信號的估計準確度方面優(yōu)于互相關(guān)方法。仿真代碼可在網(wǎng)上獲取。索引詞(分數(shù))到達時差估計,基頻估計,廣義互相關(guān)引言在許多應(yīng)用中,對一個未知信源的角度和位置的估計是一項重要課題。例如,在音頻應(yīng)用中,此類估計可用于區(qū)分說話人、抑制非所需的背景噪聲和估算房屋的幾何結(jié)構(gòu)1-3。
3、此類對到達方向和信源位置的估計問題可以歸結(jié)為估算一個傳感器陣列中各個傳感器之間的到達時差,文中考慮兩個傳感器之間的到達時差。傳感器對的到達時差估計通常需要將它輸入用于處理至少兩個擴音器記錄的數(shù)據(jù)的算法(譬如流行的SRP-PHAT算法1)中 2。目前,在語音應(yīng)用中計算到達時差估計最廣泛應(yīng)用的方法是基于相關(guān)方法的集合,或稱廣義互相關(guān)4(GCC)方法。與雷達和聲吶應(yīng)用相比,此處的源信號是典型的寬帶信號,因此一些對于窄帶信號統(tǒng)計有效的算法不能在這直接使用,例如MUSIC5和ESPRIT6。另外,寬帶版MUSIC方法的計算代價7比GCC方法的更高,并且當(dāng)采用快速傅里葉變換算法的GCC方法在頻域得以論證后
4、,這類方法能夠高效地應(yīng)用。構(gòu)建信號頻域模型的另一項優(yōu)勢在于可以從源信號中提取延遲參數(shù)并將其模擬成連續(xù)參數(shù)。因此,大多數(shù)關(guān)于音頻應(yīng)用中的到達方向的估計和信源定位的論文都從頻域模型開始研究。如果考慮最簡單的到達時差(shch)估計參數(shù)模型,則本文(bnwn)的主要觀點(gundin)可以簡單闡述。 (1),其中信號,和分別為第個傳感器信號、源信號和傳感器上的噪聲。標量,分別是樣本源信號從傳感器1到2的衰減和相對延遲。如果源信號是一個基頻為rad/樣本(或其整數(shù)倍)的周期信號,則公式(1)中的模型在頻域內(nèi)可寫成: (2),其中,分別為是信號,和的離散傅里葉變換系數(shù)。公式(2)中的頻域模型存在一些問題
5、。首先是局限性太強,雖然音頻應(yīng)用中的信號源通常在較短的時間范圍內(nèi)近似具有周期性,但實際中,該假設(shè)在基頻上通常難以令人滿意,會產(chǎn)生邊緣效應(yīng)8-10。通過適當(dāng)?shù)匮a零可以避免邊緣效應(yīng),但是會通過一個秩虧相關(guān)矩陣豐富噪聲頻譜8。另一個問題是,由于一個實數(shù)源信號中的非整數(shù)延遲會產(chǎn)生一個復(fù)數(shù)的傳感器信號,公式(2)中的頻域模型沒法用于分數(shù)TDOA估計!針對這些問題,本文提出一種不同的模型,假定源信號具有周期性但基頻不是rad/樣本。將基頻模擬成一個未知的參數(shù)并聯(lián)合TDOA和DOA對其估計已經(jīng)不是新思想11-15。然而本文表明,該模型比傳統(tǒng)頻域模型更具廣泛性,因為后者是前者的一個特例。本文還設(shè)立了條件使互相
6、關(guān)方法成為統(tǒng)計有效的估計方法。由此,本文為聯(lián)合基頻和到達時差估計提出了一種新型的近似最大似然估計方法,在處理合成數(shù)據(jù)和人工延遲的聲音數(shù)據(jù)方面的性能均優(yōu)于互相關(guān)方法。相比于傳統(tǒng)互相關(guān)算法,該估計方法無需使用內(nèi)插方法就能產(chǎn)生分數(shù)延遲估值。聯(lián)合基頻與到達時差估計正如引言中所提到的,本文不對基頻信號的模型做任何假設(shè)。如下文中詳述,本文假定源信號是具有一個未知基頻和數(shù)量未知的諧波成分的周期性信號。本文還假定噪聲為高斯白噪聲。盡管可能導(dǎo)致對大混響音頻的估計性能不佳,這些假設(shè)已經(jīng)足以論證本文的主要觀點。2.1 模型任意(rny)一個平均值為0的實數(shù)周期性源信號(xnho)可以寫成 (3)其中(qzhng),
7、分別是幅度、相位、基頻和復(fù)振幅。記,相當(dāng)于實際中源信號無直流分量。如果將源信號延遲,得 (4)此處定義。公式(1)中的信號模型可寫成矩陣向量形式 (5)此處定義另外,假設(shè)噪聲是方差為的高斯白噪聲,則觀測模型符合標準正態(tài)分布,概率密度函數(shù)(pdf)為 (6)其中是的單位矩陣。2.2 一種近似最大似然估計方法公式(6)中的觀測模型包含線性參數(shù),噪聲方差和非線性參數(shù),和。如果觀測模型關(guān)于這些參數(shù)進行最大化,可以得到這些參數(shù)的最大似然估計。線性參數(shù)和噪聲方差容易從最優(yōu)化問題中分離出來,還剩下非凸函數(shù)最優(yōu)化的問題 (7)此時(c sh)代價(diji)函數(shù)如下(rxi) (8)這個代價函數(shù)有時也稱為非線
8、性最小平方(NLS)代價函數(shù)。雖然對公式(8)中高度非線性的代價函數(shù)進行3D搜索尋求全局最大值在理論上是可行的,但是計算上并不合適。但是可以采用下文所述的一種更快的近似方法。當(dāng)基頻不在0或(與有關(guān))附近時,的積近似于一個縮放的單位矩陣 (9)該近似值精確漸進于或者如果基頻位于傅里葉柵點。在該近似關(guān)系下,有 (10)并且公式(8)中的代價函數(shù)的結(jié)果可以寫成 (11)建議代價函數(shù)按以下步驟進行優(yōu)化:1.若所有非線性參數(shù)均未知,可通過一個多通道距估計函數(shù)16估得基頻的初始估計值。若諧波的數(shù)量也未知,聯(lián)合基頻和模型階數(shù)估計函數(shù)17可以通過模型比較框架18進行擴展,用來處理多通道數(shù)據(jù)。若衰減和已估得(見
9、以下兩步),可以同過對公式(11)中的代價函數(shù)求最大值來重新估計基頻。2.若基頻已知或已經(jīng)估得,的代價函數(shù)不依賴于,且減小到 (12)可以用一種帶有一維線性搜索(比如斐波那契搜索)的快速傅里葉變換算法進行有效地優(yōu)化。3.若基頻已知或已經(jīng)估得并且的估值已經(jīng)算出,衰減參數(shù)的估值可通過解關(guān)于的二階方程 (13)求得。重復(fù)(chngf)以上三個步驟,就可以(ky)得到最大似然估計值。實驗(shyn)發(fā)現(xiàn),迭代一次的結(jié)果已經(jīng)可以接受,下一章仿真時也會這樣設(shè)置。2.3 一個重要的特例當(dāng)基頻設(shè)為,諧波數(shù)量設(shè)為,公式(9)中的近似值是精確的,且的代價函數(shù)于無關(guān),寫成 (14)其中。如果是整數(shù),是偶數(shù),則代價函
10、數(shù)可寫成 (15)即互相關(guān)到達時差估計方法的代價函數(shù)?;ハ嚓P(guān)估計函數(shù)15是一種最大似然估計方法,且在滿足以下條件時是一種有效的估計函數(shù):源信號是均值為0的周期信號源信號的基頻為rad/樣本源信號的諧波數(shù)量為延遲是整數(shù)對于為偶數(shù),的特例,互相關(guān)估計方法是一種次優(yōu)估計方法。然而在實際應(yīng)用中,抗鋸齒濾波器幾乎可以確保,因此該特例不符合實際情況。 分數(shù)到達時差估計公式(gngsh)(15)的互相(h xing)關(guān)函數(shù)(hnsh)也可以從公式(2)中的頻域模型中得到。但是,如引言中所述,即便是連續(xù)參數(shù),代價函數(shù)也不能用于估算分式到達時差。為了證明這一點,假設(shè)沒有噪聲,則, for其中是真實延遲。如果將其
11、代入公式(15)并利用,代價函數(shù)變成復(fù)數(shù),除非是整數(shù)。這個的問題可以采用不同的插值法19-21、分數(shù)延遲濾波器22,23和分數(shù)傅里葉變換24解決。但是用公式(14)的代價函數(shù)可以不用這些啟發(fā)式算法,因為它對任意延遲的結(jié)果都是實數(shù)。仿真本文提出的達到時差估計方法(以下表示為AML)在合成數(shù)據(jù)和人工延遲語音數(shù)據(jù)上與其他估計方法進行了評估和對比,用以實驗性地展示該方法與傳統(tǒng)估計方法的差異。其他方法包括NLS25,以及分別帶有單位和相位變化(PHAT)加權(quán)的廣義互相關(guān)(GCC) 4方法。這幾種GCC方法已經(jīng)過修正,比如考慮到分數(shù)到達時差估計,代價函數(shù)中帶有對稱指數(shù)14,下文中稱為GCC和GCCP。近似
12、最大似然估計法與NLS的不同在于NLS沒有求出公式(9)中的漸進近似值,但是假定信號源在遠端(例如)。這幾種方法的基音和諧波模型階數(shù)都可以用文獻17的方法估得。首先對合成數(shù)據(jù)(shj)進行評估。實驗(shyn)中,選取(xunq)的100個實數(shù)周期樣本信號包含5個帶有單位振幅和隨機相位的諧波分量,基頻從中采樣。然后將所選取信號延遲約0.6個樣本并乘以,產(chǎn)生一個附加信號來得到一段合成立體聲音信號。兩個信號都在高斯白噪聲中進行觀察,高斯白噪聲的方差與首通道信噪比對應(yīng)。設(shè)置完成后,對不同的首通道信噪比進行100次Monte-Carlo仿真,結(jié)果如圖1a所示。標簽“NLS(oracle)”和“CRB”
13、分別代表裝配有oracle基音信息和克拉美羅界的NLS方法。(a)(b) (c)圖.1. (A)NLS和GCC(P)分別在不同信噪比下的立體聲諧波信號(a)、不同信噪比下的立體聲高斯白噪聲(b)和不同基頻偏移(c)情況下的性能結(jié)果顯示,不管使用的是真實(zhnsh)的還是估計的基音(jyn),NLS性能(xngnng)都差不多(除了低信噪比)。另外,NLS比ANLS性能略好。更重要的是對于傳統(tǒng)頻域模型來說,這些方法都比GCC(P)性能好。這清楚地表明了采用本文提出的模型的優(yōu)點。(A)NLS信噪比高于,原因是ANLS使用了公式(9)中的大樣本近似值,NLS方法中采用了遠場假設(shè)(例如)。接下來的實
14、驗中選取的信號是寬帶高斯白噪聲信號(以為周期),對應(yīng)和一個階諧波模型。與之前同樣通過延遲和衰減得到一段立體聲片段。在每個頻道上加高斯白噪聲,首通道信噪比各不相同。設(shè)置完成后,得到的結(jié)果如圖1b所示。這種情況下,所有方法效果類似,在信噪比超過時達到克拉美羅界,表明公式(2)中廣泛應(yīng)用的頻域模型只是本文提出的到達時差估計模型的一個特例,印證了本文的觀點,。此外,實信號不可能嚴格以為周期,因此在實際應(yīng)用中GCC(P)方法通常無法達到最佳效果。還需注意,在類似這樣的寬帶情況下,基頻很低且難以估計26。盡管如此,在基頻已估得時,AML和NLS方法也能取得最佳效果。最后一次實驗和第一次對合成數(shù)據(jù)的實驗一樣
15、帶有諧波信號。但是本次試驗中,基頻加上了一個變化的頻偏,首通道的信噪比也隨之改變,采樣頻率為。對不同的頻偏進行Monte-Carlo仿真,結(jié)果如圖1c所示。當(dāng)基頻位于點頻率柵格點(例如無頻偏)時,GCC、AML和NLS方法效果相似,且都到達克拉美羅界?,F(xiàn)實場景中,隨著頻偏增大,所有方法效果都會下降。頻偏超過時,AML和NLS的效果明顯好于GCC(P)。無衰減()情況下,即使有頻偏,NLS也能達到克拉美羅界,因此具有衰減系數(shù)估值的NLS在一切情況下效果都明顯優(yōu)于GCC(P)。圖.2. 用(A)NLS和GCC(P)方法得到的真實語音合成信號的到達時差估計GCCGCCPAMLNLS均方根誤差樣本0.
16、1480.2010.0560.036表1. 對應(yīng)(duyng)圖2中估值的均方根(fnggn)誤差本文還用人工(rngng)延遲語音數(shù)據(jù)對該方法進行了評估,所用的數(shù)據(jù)集是一段女性說“Why were you away a year ,Roy?”的語音信號。為了評估所獲得的到達時差估計值的精確度,用RIR發(fā)生器27將這段語音延遲,合成了立體聲片段,這樣實際的到達時差約為0.75個樣本。整個過程中沒有回聲和額外的噪聲。用上述方法每12.5ms從兩個頻道內(nèi)對100個樣本區(qū)進行采樣,采樣頻率為。估值結(jié)果如圖2所示,對應(yīng)表1中的均方根誤差。這些結(jié)果表明,在現(xiàn)實場景中GCC(P) 會產(chǎn)生許多虛假的TDOA
17、估值,AML和NLS效果明顯優(yōu)于GCC(P)。這說明本文提出的達到時差估計模型在實際應(yīng)用中確實有效。結(jié)論(jiln)本文(bnwn)將傳統(tǒng)(chuntng)互相關(guān)方法和一種通用的最大似然估計方法聯(lián)系在一起,其中最大似然估計方法中周期信號的基頻設(shè)置成一個參數(shù)未知且連續(xù)的模型。在此聯(lián)系中設(shè)立了四個條件使互相關(guān)方法成為統(tǒng)計學(xué)上有效的估計方法,并實驗證實了采用最大似然估計方法能取得顯著的提升。條件十分苛刻,要求未知源信號的基頻為rad/樣本,其中是數(shù)據(jù)點的個數(shù),諧波數(shù)量為,且延遲是一個整數(shù)值。本文說明了用零點附近的對稱頻率指數(shù)就能推翻后一種假設(shè)。自然而然地引出本文提出的模型,基頻和諧波數(shù)量都是未知參數(shù)
18、。此外,證實了由此推導(dǎo)得來的該模型的近似最大似然估計方法在合成數(shù)據(jù)和現(xiàn)實數(shù)據(jù)上均優(yōu)于互相關(guān)方法。參考文獻1 J. H. DiBiase, H. F. Silverman, and M. S. Brandstein, “Robust localization in reverberant rooms,” in Microphone Arrays - Signal Processing Techniques and Applications, M. S. Brandstein and D. B. Ward, Eds., chapter 8, pp. 157180. Springer-Verlag
19、, 2001.2 J. Chen, J. Benesty, and Y. A. Huang, “Time delay estimation in room acoustic environments: An overview,” EURASIP J. onAdvances in Signal Process., vol. 2006, pp. 119, May 2006.3 J. Benesty, J. Chen, and Y. A. Huang, Microphone array signal processing, Berlin, Germany: Springer-Verlag, 2008
20、.4 C. Knapp and G. Carter, “The generalized correlation method for estimation of time delay,” IEEE Trans. Acoust., Speech Signal Process., vol. 24, no. 4, pp. 320327, Aug. 1976.5 R. O. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Trans. Antennas Propag., vol. 34, no. 3,
21、 pp.276280, Mar. 1986.6 A. Paulraj, R. Roy, and T. Kailath, “Estimation of signal parameters via rotational invariance techniques- ESPRIT,” Rec. Asilomar Conf. Signals, Systems, and Computers, pp. 8389, Nov. 1985.7 J. P. Dmochowski, J. Benesty, and S. Affes, “Broadband MUSIC: opportunities and chall
22、enges for multiple source localization,” in Proc. IEEE Workshop on Appl. of Signal Process. to Aud. and Acoust. IEEE, 2007, pp. 1821.8 J. C. Chen, R. E. Hudson, and K. Yao, “Maximum-likelihood source localization and unknown sensor location estimation for wideband signals in the near-field,” vol. 50
23、, no. 8,pp. 18431854, 2002.9 Y. Isbi and A. J. Weiss, “DFT model errors for finite length observations with spatially distributed sensors,” in IEEE Conv. Electrical and Electronics Engineers in Isreal. IEEE, 2008, pp. 080084.10 A. Yeredor, “Analysis of the edge-effects in frequency-domain TDOA estim
24、ation,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2012, pp. 35213524.11 X. Qian and R. Kumaresan, “Joint estimation of time delay and pitch of voiced speech signals,” Rec. Asilomar Conf. Signals, Systems, and Computers, vol. 1, pp. 735739, Oct. 1995.12 G. Liao, H. C. So, and P. C. C
25、hing, “Joint time delay and frequency estimation of multiple sinusoids,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., May 2001, vol. 5, pp. 31213124.13 L. Y. Ngan, Y. Wu, H. C. So, P. C. Ching, and S. W. Lee, “Joint time delay and pitch estimation for speaker localization,” in Proc. IE
26、EE Int. Symp. Circuits and Systems, May 2003, vol. 3,pp. 722725.14 J. X. Zhang, M. G. Christensen, S. H. Jensen, and M. Moonen, “Joint DOA and multi-pitch estimation based on subspace techniques,” EURASIP J. on Advances in Signal Process., vol. 2012, no. 1, pp. 111, Jan. 2012.15 M. Wohlmayr and M. K
27、pesi, “Joint position-pitch extraction from multichannel audio,” in Proc. Interspeech, Aug. 2007, pp. 16291632.16 M. G. Christensen, “Multi-channel maximum likelihood pitch estimation,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. IEEE, 2012, pp. 409412.17 J. K. Nielsen, M. G. Christens
28、en, and S. H. Jensen, “Default Bayesian estimation of the fundamental frequency,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 3, pp. 598610, Mar. 2013.18 J. K. Nielsen, M. G. Christensen, A. T. Cemgil, and S. H. Jensen, “Bayesian model comparison with the g-prior,” IEEE Trans. Signal Pro
29、cess., vol. 62, no. 1, pp. 225238, 2014.19 G. Jacovitti and G. Scarano, “Discrete time techniques for time delay estimation,” IEEE Trans. Signal Process., vol. 41, no. 2,pp. 525533, Feb. 1993.20 M. M. McCormick and T. Varghese, “An approach to unbiased subsample interpolation for motion tracking,” U
30、ltrasonic Imaging, vol. 35, no. 2, pp. 7689, 2013.21 F. Viola and W. F. Walker, “A spline-based algorithm for continuous time-delay estimation using sampled data,” IEEE Trans. Ultrason., Ferroelectr., Freq. Control, vol. 52, no. 1, pp.8093, 2005.22 M. Olsson, Contributions to delay, gain, and offset est
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 濟寧物理面試真題及答案
- 《藍鯨增長策略》課件
- 《骨代謝疾病概述》課件
- 建筑成本控制與管理課件
- 《全球化商業(yè)策略》課件
- 《營養(yǎng)強化劑與食品安全》課件
- 絲綢之路與東方文化課件
- 中國共產(chǎn)黨的最高理想和現(xiàn)階段的奮斗目標(黨的綱領(lǐng))
- 豪華旅游度假酒店案例分析
- 盤石網(wǎng)盟上線經(jīng)典案例(按區(qū)域按行業(yè)劃分)
- 藥用植物學(xué)智慧樹知到答案2024年浙江中醫(yī)藥大學(xué)
- 評職稱業(yè)績合同協(xié)議書
- 廣東省佛山2022-2023學(xué)年外研版八年級下學(xué)期英語期末模擬試卷(二)
- 四年級《爺爺?shù)臓敔攺哪睦飦怼烽喿x測評題
- 2020-2024年安徽省初中學(xué)業(yè)水平考試中考英語試卷(5年真題+答案解析)
- 2024年福建省泉州市中考二模地理試題
- 2024年重慶八中中考數(shù)學(xué)一模試卷
- MOOC 中國特色文化英語教學(xué)-蘇州大學(xué) 中國大學(xué)慕課答案
- 職業(yè)道德與法律說課稿市公開課一等獎省賽課微課金獎?wù)n件
- 《電力建設(shè)施工技術(shù)規(guī)范 第2部分:鍋爐機組》DLT 5190.2
- 新人教版八年級上冊數(shù)學(xué)期中考試試卷及答案-文檔
評論
0/150
提交評論