在人工耳蝸中對(duì)頻譜信息進(jìn)行有效的語音處理(渣翻譯)_第1頁
在人工耳蝸中對(duì)頻譜信息進(jìn)行有效的語音處理(渣翻譯)_第2頁
在人工耳蝸中對(duì)頻譜信息進(jìn)行有效的語音處理(渣翻譯)_第3頁
在人工耳蝸中對(duì)頻譜信息進(jìn)行有效的語音處理(渣翻譯)_第4頁
在人工耳蝸中對(duì)頻譜信息進(jìn)行有效的語音處理(渣翻譯)_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、利用頻譜信息的人工耳蝸語音處理作者,作者*小四號(hào)楷體,居中,擬作報(bào)告者在作者名下添加下劃線學(xué)校專業(yè), ,通訊作者郵箱5號(hào)宋體/Times New Roman,居中摘要 基于對(duì)普通話的聲學(xué)研究成果,利用頻譜信息的人工耳蝸語音處理的兩種新的算法在聲學(xué)仿真實(shí)驗(yàn)得到有效的認(rèn)證。我們提出的新算法傳送基于所述頻帶的選擇的頻譜信息。這些新的算法不僅可以提高在嘈雜的環(huán)境中人工耳蝸植入者的語音識(shí)別能力,同時(shí)也降低了復(fù)雜度的計(jì)算和所占用的內(nèi)存,并使其更適合于臨床治療。關(guān)鍵詞 人工耳蝸,語音信號(hào)處理,信號(hào)處理人工耳蝸植入簡稱助聽器是唯一可以通過提取編碼振幅調(diào)制一個(gè)固定頻率的電刺激脈沖時(shí)域語音信號(hào)的包絡(luò),以恢復(fù)聽力的

2、能力,幫助完全失聰人士的可用醫(yī)療設(shè)備。在中國160余人成功地恢復(fù)了自己的聽覺通過助聽器。雖然現(xiàn)代的助聽器能夠在安靜的環(huán)境中識(shí)別識(shí)75左右的語句,但是大多數(shù)的助聽器用戶在嘈雜環(huán)境中識(shí)別語言的能力還相當(dāng)差,尤其是在普通話的語音識(shí)別方面,因?yàn)榧词故且粋€(gè)單音節(jié)的色調(diào)是也可能是一個(gè)有意義的詞匯。許多研究者致力于開發(fā)新的語音處理算法,它不僅可以傳送時(shí)間包絡(luò)信息,而且傳送的頻譜信息,以提高助聽器用戶的語音識(shí)別能力。 Chen等人與仁王克拉人。從聽力正常的受試者的聲音信號(hào)中導(dǎo)出了調(diào)幅AM 和調(diào)頻FM 信息,并進(jìn)行了聲學(xué)仿真實(shí)驗(yàn),。他們發(fā)現(xiàn),調(diào)頻額外的編碼可以顯著提高噪聲英語語音識(shí)別。伊恩克拉人。通過提取和編碼

3、的窄帶信號(hào)的手兩個(gè)信封和語音信號(hào)的根本頻率F0 開發(fā)了一種新穎的算法。 F0是用于調(diào)制的正弦波的中心頻率在聲學(xué)模擬實(shí)驗(yàn)。該算法可以顯著改善對(duì)漢語的識(shí)別。所有這些研究證明了頻譜信息可以顯著提高言語感知的助聽器用戶的能力。而根據(jù)語音學(xué)研究,我們假設(shè)每個(gè)通道中傳輸信息時(shí)三個(gè)方面都會(huì)有冗余信息。更緊湊的算法可以減少輸送頻譜信息的冗余信息。首先,輸送普通話色調(diào)信息的管道有冗余。時(shí)域包絡(luò)信息和頻譜信息有助于在語音信號(hào)處理中息識(shí)別普通話的4個(gè)聲調(diào)。許多研究中別離出的頻譜信息和時(shí)域包絡(luò)信息顯示,比方元音持續(xù)時(shí)間和幅度輪廓有助于普通話聲調(diào)識(shí)別。這方面的作用,有時(shí)很顯著,但是在多個(gè)管道傳送音調(diào)信息時(shí)由根本頻率及其

4、諧波引起的頻譜間距時(shí)作用相對(duì)較弱。即使有些管道中可以得到別離完美的鈴聲識(shí)別,所以輸送普通話的聲調(diào)信息的管道有冗余。其次,完美的聲調(diào)識(shí)別可以通過只提取和編碼速度類和頻譜信息的范圍在低頻率相實(shí)現(xiàn)。以前的研究發(fā)現(xiàn),直接獲取識(shí)別完美的音色的根本頻率和低通在300赫茲的間接由剩余瀝青的諧波結(jié)構(gòu),可以由低頻率濾波實(shí)現(xiàn)。因此,在低頻段輸送的時(shí)域和頻譜的信息有可能足以獲得完美的語音識(shí)別。最后,傳統(tǒng)的頻譜算法在高頻段不能感知聲音。許多研究人員專注于如何提取頻譜的信息來提高語音識(shí)別能力。兩種類型的頻譜信息,如F0和FM語音信號(hào)的每個(gè)頻帶編碼信號(hào)。但在高頻段,F(xiàn)0和FM采用了助聽器用戶無法感知的頻譜信息的傳統(tǒng)算法的

5、編碼算法。因?yàn)闊o論是在低頻或高頻波段,光譜信息,而在低的頻率范圍約100赫茲,是用來調(diào)節(jié)中心頻率的正弦波聲模擬實(shí)驗(yàn)。因此,在高頻波段,頻譜中形成的變化范圍相對(duì)于正弦波對(duì)應(yīng)于這些頻帶的中心頻率例如,光譜信息對(duì)中心頻率比8通道人工耳蝸植入正弦波從最低到最高頻帶如下:47.4%,28.4%,17.5%,11.1%,7%,4.5%,3.96% 1.9%是微缺乏道。這使得在高頻段使用傳統(tǒng)算法編碼后助聽器用戶很難識(shí)別。基于這三個(gè)方面的研究,我們認(rèn)為完美的語音識(shí)別可以實(shí)現(xiàn),我們?cè)谳^低的頻率編碼的時(shí)域包絡(luò)和頻譜信息中提取,但只有在較高的頻帶編碼的時(shí)域包絡(luò)。這使得頻帶的選擇中的頻譜信息提取和編碼為頻率調(diào)制在低頻

6、局部的原理靠近耳蝸的頂點(diǎn),頻譜信息計(jì)算或使用在高頻局部防暴基地附近的數(shù)目與頻譜信息的頻率范圍從頂點(diǎn)定義為參數(shù)S是德測定的聲學(xué)模擬實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)。我們提取和編碼的頻譜信息有兩種方式,即選擇性的根本頻率控制 SFFC 算法和選擇性頻率振幅調(diào)制編碼 SFAME 算法。通過不同的語音材料在不同環(huán)境中來證明在聲學(xué)仿真實(shí)驗(yàn)算法的有效性。在這項(xiàng)研究中進(jìn)行的聲學(xué)仿真實(shí)驗(yàn)擴(kuò)展了調(diào)頻,形成在白噪聲和混合環(huán)境下的語音識(shí)別普通話貝絲效果的研究,并且擴(kuò)大了在F0的在多信噪比白噪聲環(huán)境中,在多TMR混合的語音環(huán)境下的研究。類似的結(jié)果已經(jīng)從使用不同的頻譜信息得到與傳統(tǒng)算法相比連續(xù)交替取樣。它還說明使用頻譜信息提高人工耳蝸植入

7、者的語音識(shí)別能力的巨大潛力。1. 算法存在于所有主要的臨床人工耳蝸產(chǎn)品CIS算法。輸入的語音信號(hào)首先被1.2 kHz于6分貝/月,然后被別離為幾個(gè)頻帶4,6 ,8,12等通過的帶通濾波器組。低頻率的頻帶對(duì)應(yīng)于耳蝸的頂部,而高頻段對(duì)應(yīng)于刺激耳蝸的底電極上的電極。在每個(gè)頻帶的包絡(luò)信號(hào)可以整流器和低通濾波后得到。在電刺激模式,電刺激脈沖串的幅度是由從各頻率波段的輸出中提取的包絡(luò)信號(hào)進(jìn)行調(diào)制。在聲學(xué)仿真模型模式,包絡(luò)我們用來調(diào)制的正弦信號(hào)進(jìn)入濾波器頻帶的中心頻率,然后重新合成的調(diào)制信號(hào)轉(zhuǎn)換成模擬信號(hào)。因此,從不同的頻帶語音信號(hào)的包絡(luò)的線索可被發(fā)送到助聽器用戶。SFFC和SFAME兩種算法可以提取編碼后

8、的頻譜信息,這防止了現(xiàn)有算法的缺點(diǎn)。SFFC算法提取和編碼語音的根本頻率。該算法有兩個(gè)信號(hào)通路,包括傳統(tǒng)的帶包膜提取像CIS算法和額外的基頻處理。在一個(gè)信號(hào)通路,類似于標(biāo)準(zhǔn)的CIS算法,對(duì)語音信號(hào)已經(jīng)預(yù)先處理過之后,頻段劃分包絡(luò)提取執(zhí)行的過程;在其他信號(hào)轉(zhuǎn)導(dǎo)途徑,根本頻率是通過使用提升提取并用的電刺激脈沖調(diào)制后期下的頻帶選擇的原那么控制的速率。在聲學(xué)仿真模型中,當(dāng)模擬信號(hào)被重新合成時(shí),基頻信息的頻帶的選擇的作為調(diào)制的正弦波信號(hào)的中心頻率,從而重新合成的語音的原理。見圖1圖1 SFFC算法示意圖同樣, SFAME算法使用的頻率的調(diào)制信息,以改善語音識(shí)別。該算法還具有兩個(gè)信號(hào)通路。在每個(gè)頻帶中的第

9、一途徑中,傳統(tǒng)的包絡(luò)提取,采用類似標(biāo)準(zhǔn)CIS算法和SFFC 。但是不同于SFFC, SFAME沒有采用快速頻率傳送的頻譜信息,而是緩慢變化的頻率變化的信息進(jìn)行調(diào)制的脈沖頻率在所述第二信號(hào)通路。通過刪除子帶信號(hào)的中心頻率,并且限制了頻率調(diào)制的范圍和速度,SFAME算法變換的快速變化的時(shí)域細(xì)微結(jié)構(gòu)成一個(gè)緩慢變化的頻率調(diào)制FM 的信息。在聲學(xué)仿真模型中,當(dāng)模擬信號(hào)被重新合成時(shí),F(xiàn)M信息的頻帶的選擇的作為調(diào)制的正弦波信號(hào)的中心頻率,從而重新合成的語音。見圖2圖2 SFAME算法示意圖2.聲學(xué)模擬實(shí)驗(yàn)人工耳蝸語言處理器的聲學(xué)模型已經(jīng)被很多研究者進(jìn)行正常聽力受試者的實(shí)驗(yàn),我們?cè)诼晫W(xué)仿真實(shí)驗(yàn)驗(yàn)證兩個(gè)語音處理

10、算法,試圖證明普通話的語音識(shí)別的頻譜信息,特別是在白噪聲和混合的語音的情況下更為有效。在本文中進(jìn)行的聲學(xué)仿真實(shí)驗(yàn),無論是在白噪聲還是混合的語音環(huán)境中,擴(kuò)大調(diào)頻信息的效果在文獻(xiàn)中都沒有普通話的研究。而這些實(shí)驗(yàn)也擴(kuò)大了在識(shí)別多信噪比白噪聲環(huán)境和多TMR混合的語音環(huán)境中研究F0的漢語語音的影響,這也是文獻(xiàn)沒有提及的。二十四個(gè)以普通話為母語的年輕人參加了這個(gè)實(shí)驗(yàn)。所有受試者聽力正常。實(shí)驗(yàn)在一個(gè)非常安靜的實(shí)驗(yàn)室進(jìn)行,所有的模擬聲音是通過一個(gè)森海塞爾的HD457耳機(jī)播放。發(fā)音材料采用元音特寫集,字開集和句子開集。兩個(gè)條件分別為白噪聲背景和混合的語音背景男-FE男性重疊,采樣率為16 kHz,通道數(shù)是8。每

11、個(gè)實(shí)驗(yàn)100個(gè)問題,有元音,詞,句和混合。重疊的白噪聲TMR混合講話實(shí)驗(yàn)的信噪比為 5分貝,0分貝時(shí),0分貝和5分貝。元音實(shí)驗(yàn)的識(shí)別率等于通過提問的總數(shù)除以人數(shù)。這些的字,句,混合的語音實(shí)驗(yàn),用正確的關(guān)鍵字的總數(shù)計(jì)算。3.結(jié)果基于VAN-OUS算法,在使用不同的語言不同的材料5個(gè)級(jí)別的識(shí)別率的結(jié)果示于圖3-圖5。表1和表2分別給出由SFFC算法和在SFAME算法計(jì)算得到的數(shù)據(jù)首先,可以從這個(gè)聲學(xué)仿真實(shí)驗(yàn)結(jié)果的分析得出以下結(jié)論:在無頻率波段選擇S=8的原那么的影響。白噪聲被添加后,無論什么講話材料被采用,根據(jù)方差分析與CIS算法的兩個(gè)算法參見圖中的表1和3和4行1和2可以得到顯著改善。當(dāng)語音材料

12、是男女重疊TMR - 5分貝,SFFC和FAME也將獲得顯著改善與CIS算法相比參見圖5和行1在表1和表2。因此,提取和編碼頻譜信息對(duì)使用類似普通話這類有聲調(diào)的語言人工耳蝸植入者非常重要。根據(jù)普通話的頻譜特性的語音處理算法比傳統(tǒng)算法有更好的語音識(shí)別效果。它可以提高人工耳蝸植入者的識(shí)別能力。分析頻段選擇的原那么后見第2行的表1和表2至6行基于單因素方差分析,我們可以就如何更有效地使用頻譜信息得出以下結(jié)論。(1). 無論背景噪聲是白噪聲還是掩蔽講話,不管講話材料是元音字母,單詞或句子,普通話的識(shí)別率持續(xù)降低,S持續(xù)減少。(2). 當(dāng)前頻譜中,形成的通道數(shù)量等于或大于55 =5中,在頻段選擇S-8情

13、況下大多數(shù)情況下有一個(gè)在識(shí)別率之間用不同的S的算法與沒有采用S算法的效果的識(shí)別率相比無顯著差異。(3) 當(dāng)信道數(shù)S小于5S 5 ,有顯著減少。因此,我們基于所述頻率范圍的選擇的頻譜信息提出新的算法。一方面,對(duì)頻譜信息的提取是類似于通過的原始算法的方法;另一方面,只用在一個(gè)特定的通道s = 5,在對(duì)應(yīng)于電極的低頻段中提取的頻譜信息不遠(yuǎn)的地方的頻率編碼機(jī)理耳蝸的頂點(diǎn) - “時(shí)空代碼提供了適用方面取得了很好的效果 。這些新的頻譜信息的算法不僅可以有效提高在嘈雜的環(huán)境中人工耳蝸植入者的語音識(shí)別能力,同時(shí)也降低了計(jì)算和占用的內(nèi)存的復(fù)雜性例如,通過調(diào)頻的計(jì)算量減少了37.5 和F0和FM發(fā)射量減少了,從而

14、使之更適合在臨床實(shí)踐中進(jìn)行。參考文獻(xiàn)Dorman M.F., Loizou P.C.,Fitzke J . et at. The recognition of sentences in noise by normal-hearing listeners using simulations of cochlear-implant signal processors with 620 channels. J . Acoust . Soc. Am. , 1998, 104 : 35833585A. Gelman, J. B. Carlin, H. S. Stern et al., J Xxx, 20

15、21, 44(6):77-83Fu Q. I. and Shannon R.V. Phoneme recognition by cochlear im- plant users as a function of signal-to-noise ratio and nonlinear ampli - tude mapping. J . Acoust. Soc. Am. , 1999, 106 : L182.Stickney G. , Zeng F.G. , Litovsky R . et at. Cochlear implant speech recognition with speech ma

16、sker. I. Acoust. Soc. Am . , 2004, 116 : 10811091 .Wei C.G. Cao K .L. Wang Z . Z. et at . Rate discrimination and tone recognition in mandarin-speaking cochlear-implant listeners.Chin . J . Otorhinolaryngol. , 1999, 34 : 8488.Wei W . I . , Wong R. , Hut Y . et at. Chinese tonal language reha- bilita

17、tion following cochlear implantation in children. Acta Otolaryngol. , 2000, 120 : 218221.Wu I. L. and Yang H. M . Speech perception of Mandarin Chinese speaking young children after cochlear implant use: effect of age at implantation. Int. J . Pediatr. Otorhinolaryngol. , 2003, 67 : 247253.Chen H.B. and Zeng F.G. Frequency modulation detection in cochlear implant subjects. I. Acoust . Soc . Am . , 2004,116 :22692277.Nie K . , Stickney G. and Zeng F. G . Encoding frequency mod

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論