基于聽覺感知特性的信號(hào)子空間麥克風(fēng)陣列語音增強(qiáng)算法_圖文

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-02-10 格式：DOC 頁數(shù)：5 大?。?32KB 積分：15 舉報(bào) 版權(quán)申訴

基于聽覺感知特性的信號(hào)子空間麥克風(fēng)陣列語音增強(qiáng)算法_圖文_第2頁

基于聽覺感知特性的信號(hào)子空間麥克風(fēng)陣列語音增強(qiáng)算法_圖文_第3頁

基于聽覺感知特性的信號(hào)子空間麥克風(fēng)陣列語音增強(qiáng)算法_圖文_第4頁

基于聽覺感知特性的信號(hào)子空間麥克風(fēng)陣列語音增強(qiáng)算法_圖文_第5頁

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 1486 自動(dòng) 化學(xué) 報(bào) 35 卷 (a 目標(biāo)語音 (a Target speech (a 目標(biāo)語音 (a Target speech (b 中間麥克風(fēng)的帶噪輸入 (b Noisy input of the central microphone (c Ephaim 算法取 µi = 2 的實(shí)驗(yàn)結(jié)果 (c Result of the Ephaim algorithm with µi = 2 (b 中間麥克風(fēng)的帶噪輸入 (b Noisy input of the central microphone (d Ephaim 算法取本文所提的 µi 的實(shí)驗(yàn)結(jié)果 (d

2、Result of the Ephaim algorithm with the proposed µi 圖2 Fig. 2 語句 “beeoer” 的波形圖 The waveforms of the utterance “beeoer” 表3 Table 3 帶噪輸入算法在 CMU 數(shù)據(jù)庫上的平均測(cè)試結(jié)果 Experimental results on CMU database SSNRE (dB 5.07 4.47 10.40 IS 2.16 26.48 8.68 2.59 LAR 8.70 11.31 11.41 5.27 LLR 0.68 1.43 1.00 0.57 (c

3、McCowan 算法增強(qiáng)結(jié)果 (c Result of the McCowan algorithm McCowan Ephaim 算法本文算法從表 3 中可以看到, 本文算法在各項(xiàng)評(píng)價(jià)指標(biāo) 上都比比較算法要好. 相對(duì)于比較算法中的最好算法, 本文算法在各項(xiàng)評(píng)價(jià)指標(biāo)上的改進(jìn)分別為: 分段信噪比增強(qiáng) 5.33 dB, IS 距離 70.2 %, LAR 指標(biāo) 53.4 %, LLR 指標(biāo) 43 %. 從圖 3 中可以看出, McCowan 算法具有較大的目標(biāo)信號(hào)失真, 且對(duì)于噪聲能量集中的低頻噪聲消噪效果較差. Ephaim 算法比 McCowan 算法有較小的目標(biāo)信號(hào)失真, 但低頻

4、消噪效果也較差. 相對(duì)于比較算法, 本文算法在不增加目標(biāo)信號(hào)失真的情況下更好地消除了噪聲能量集中的低頻噪聲. 在進(jìn)行了語音客觀質(zhì)量評(píng)價(jià)后, 為進(jìn)一步驗(yàn)證本文算法增強(qiáng)語音給人的聽覺效果, 本文又進(jìn)行了主觀聽覺評(píng)價(jià)實(shí)驗(yàn). 本文在 CMU 數(shù)據(jù)庫中選取了 20 句帶噪語音 (10 個(gè)人每人兩句, 用本文的算法和比較算法分別進(jìn)行處理得到增強(qiáng)后的語音. 一共有 (d Ephaim 算法增強(qiáng)結(jié)果 (d Result of the Ephaim algorithm (e 本文算法增強(qiáng)結(jié)果 (e Result of the proposed algorithm 圖3 Fig. 3 語句 “beeoe

5、r” 的語譜圖 The spectrograms of the utterance “beeoer” 12 期程寧等: 基于聽覺感知特性的信號(hào)子空間麥克風(fēng)陣列語音增強(qiáng)算法 1487 5 個(gè)人參加了該聽覺實(shí)驗(yàn). 每個(gè)人都要求在增強(qiáng)后的語音中按給定的標(biāo)準(zhǔn)選擇自己認(rèn)為最理想的語音. 標(biāo)準(zhǔn)有兩個(gè): 1 噪聲最小; 2 語音失真最小. 對(duì)于標(biāo)準(zhǔn) 1 和 2 分別統(tǒng)計(jì)在該標(biāo)準(zhǔn)下各個(gè)算法結(jié)果被選中的百分比. 實(shí)驗(yàn)結(jié)果如表 4 所示. 表4 Table 4 2 Hansen P C, Jensen S H. Prewhitening for rank-decient noise in subspac

6、e methods for noise reduction. IEEE Transactions on Signal Processing, 2005, 53(10: 37183726 3 You C H, Rahardja S, Koh S N. Audible noise reduction in eigendomain for speech enhancement. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(6: 17531765 4 Jabloun F, Champagne B. Inco

7、rporating the human hearing properties in the signal subspace approach for speech enhancement. IEEE Transactions on Speech and Audio Processing, 2003, 11(6: 700708 5 Virag N. Single channel speech enhancement based on masking properties of the human auditory system. IEEE Transactions on Speech and A

8、udio Processing, 1999, 7(2: 126137 6 Udrea R M, Vizireanu N D, Ciochina S. An improved spectral subtraction method for speech enhancement using a perceptual weighting lter. Digital Signal Processing, 2008, 18(4: 581587 7 Anderson T W. Asymptotic theory for principal component analysis. The Annals of

9、 Mathematical Statistics, 1963, 34(1: 122148 8 Chen Xi-Ru. Probability and Mathematical Statistics. Hefei: University of Science and Technology of China Press, 2004. 102 (陳希孺. 概率論與數(shù)理統(tǒng)計(jì). 合肥: 中國科學(xué)技術(shù)大學(xué)出版社, 2004. 102 9 Hendriks R C, Jensen J, Heusdens R. Noise tracking using DFT domain subspace decompos

10、itions. IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(3: 541553 10 Sullivan T. CMU microphone array database Online, available: /databases/micarray, August 12, 2008 11 Hansen J H L, Pellom B. An eective evaluation protocol for speech enhancement alg

11、orithms. In: Proceedings of the 5th International Conference on Spoken Language Processing. Sydney, Australia: ISCA, 1998. 28192822 12 McCowan I A, Bourlard H. Microphone array post-lter based on noise eld coherence. IEEE Transactions on Speech and Audio Processing, 2003, 11(6: 709716 主觀聽覺實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果 Su

12、bjective auditory experimental results 噪聲最小 (% 語音失真最小 (% McCowan Ephaim 算法本文算法 11 8 81 12 27 61 從表 4 中可以看出, 相對(duì)于比較算法的增強(qiáng)語音結(jié)果而言, 本文所提算法增強(qiáng)后的語音包含的噪聲最少, 與目標(biāo)語音也最為接近. 最后, 本文對(duì)算法的計(jì)算復(fù)雜度進(jìn)行簡(jiǎn)單的分析. 本文所提的算法是對(duì)信號(hào)子空間算法的改進(jìn). 信號(hào)子空間算法的計(jì)算量主要集中在對(duì)于矩陣特征值和特征向量的求解以及矩陣乘法上. 對(duì)于大小為 n × n 的矩陣而言, 進(jìn)行矩陣特征值和特征向量求解的算法復(fù)雜度和矩陣乘法

13、的算法復(fù)雜度都是 O(n3 , 所以信號(hào)子空間算法的復(fù)雜度是 O(n3 . 相對(duì)于傳統(tǒng)的信號(hào)子空間算法如 Ephaim 算法而言, 本文只在求取信號(hào)子空間維度、噪聲功率譜和拉格朗日乘子時(shí)增加了兩個(gè)計(jì)算復(fù)雜度為 O(n2 的操作, 所以本文算法的復(fù)雜度也是 O(n3 , 與其他信號(hào)子空間算法在同一個(gè)量級(jí)上. 而 McCowan 算法由于不存在矩陣運(yùn)算, 計(jì)算量主要集中在對(duì)信號(hào)的功率譜、場(chǎng) 函數(shù)和后濾波器的估計(jì)上, 其算法復(fù)雜度在 O(n2 量級(jí). 3 結(jié)論本文首先改進(jìn)了信號(hào)子空間算法, 用置信度判斷噪聲子空間中特征值是否相等來確定噪聲子空間維度, 根據(jù)噪聲子空間中噪聲功率譜小

14、于信號(hào)子空間中帶噪信號(hào)功率譜的特點(diǎn), 在噪聲子空間上, 用條件概率估計(jì)出噪聲功率譜. 在此基礎(chǔ)上, 結(jié)合人耳的聽覺掩蔽效應(yīng), 在合理地估計(jì)了線性濾波器中拉格朗日乘子的基礎(chǔ)上, 給出了線性濾波器的一種新的估計(jì)方式, 得到了一種新的基于聽覺掩蔽效應(yīng)的信號(hào)子空間麥克風(fēng)陣列語音增強(qiáng)算法. 實(shí)驗(yàn)結(jié)果表明, 本文算法相對(duì)于傳統(tǒng)算法, 有更好的消噪效果, 在多項(xiàng)客觀語音質(zhì)量評(píng)價(jià)指標(biāo)上都有明顯的改進(jìn), 在主觀聽覺實(shí)驗(yàn)中也取得了更好的聽覺實(shí)驗(yàn)結(jié)果. 程寧中國科學(xué)院自動(dòng)化研究所博士研究生. 主要研究方向?yàn)檎Z音信號(hào)處理. 本文通信作者. E-mail: kinchengning (CHENG

15、Ning Ph. D. candidate at the Institute of Automation, Chinese Academy of Sciences. His main research interest is speech signal processing. Corresponding author of this paper. 劉文舉中國科學(xué)院自動(dòng)化研究所副研究員. 主要研究方向?yàn)檎Z音識(shí)別, 語音信號(hào)處理. E-mail: lwj (LIU Wen-Ju Associate professor at the Institute of Automation, Chinese Academy of Sciences

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于聽覺感知特性的信號(hào)子空間麥克風(fēng)陣列語音增強(qiáng)算法_圖文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于聽覺感知特性的信號(hào)子空間麥克風(fēng)陣列語音增強(qiáng)算法_圖文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔