真實場景與合成場景的分析比較_第1頁
真實場景與合成場景的分析比較_第2頁
真實場景與合成場景的分析比較_第3頁
真實場景與合成場景的分析比較_第4頁
真實場景與合成場景的分析比較_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、.真實場景與合成場景的分析比較摘要:作者:謝峰 - 相關文章關鍵詞:的分析類別:專題技術來源:牛檔搜索(Niudown.COM)本文系牛檔搜索(Niudown.COM)根據(jù)用戶的指令自動搜索的結果,文中內(nèi)涉及到的資料均來自互聯(lián)網(wǎng),用于學習交流經(jīng)驗,作品其著作權歸原作者所有。不代表牛檔搜索(Niudown.COM)贊成本文的內(nèi)容或立場,牛檔搜索(Niudown.COM)不對其付相應的法律責任!;真實與合成場景對語音識別系統(tǒng)性能影響的分析比較謝峰1,2 王向東1,2 錢躍良1 劉群1( 1.中國科學院計算技術研究所 北京 100080;2.中國科學院研究生院 北京 100085)摘要:在國內(nèi)外語音

2、識別評測中,評測語音識別系統(tǒng)在真實噪音環(huán)境中的性能是一個重要的評測任務。評測數(shù)據(jù)通常是由純凈語音與不同噪音疊加形成的合成場景。本文首先用訓練模型不同的各種語音識別系統(tǒng)對真實場景與合成場景進行識別實驗,得到實驗數(shù)據(jù),然后運用統(tǒng)計學方法對數(shù)據(jù)進行分析,分析并比較了真實與合成場景對不同識別系統(tǒng)的性能影響效應,同時得出了一些新穎的結論。關鍵字:語音識別;真實與合成場景;性能影響效應;方差分析。中圖法分類號:TP39 文獻標識碼:AAnalysis of for Speech Recognition SystemXIE Feng1, 2 WANG Xiangdong1, 2 QIAN Yueliang1

3、 LIU Qun1 (1.Institute of Computing Technology, Chinese Academy of Sciences, Beijing, 100080, China 2.Graduate University of the Chinese Academy of Sciences, Beijing, 100085, China)xiefeng, xdwang, ylqian, liuqunAbstract:.Keywords: Speech Recognition; ANOVA. 1引言目前關于提高語音識別系統(tǒng)在真實噪音環(huán)境下的魯棒性問題已經(jīng)成為了語音識別技術的

4、研究熱點123。因此在國內(nèi)外的語音識別評測中,評測語音識別系統(tǒng)在真實噪音環(huán)境下的性能是重要的評測任務之一。評測語音識別系統(tǒng)在真實噪音環(huán)境下的系統(tǒng)性能,需要有大量的測試數(shù)據(jù)。理想的測試數(shù)據(jù)應該是在各種真實的噪音環(huán)境中錄制的含噪語音,我們稱為真實場景。然而由于背景噪音不同的真實場景有很多,要錄制這些真實場景即耗時又耗力。所以通常采用將純凈語音數(shù)據(jù)與噪音數(shù)據(jù)線性疊加形成的含噪語音作為測試數(shù)據(jù)。我們稱這樣的含噪語音為合成場景。我們只需要在安靜的地方錄制一遍純凈語音,在不同噪音環(huán)境下錄制單純的噪音,再拿不同的噪音分別和純凈語音作疊加就可以形成各種含背景噪音的語音數(shù)據(jù)了。這要比錄制真實含噪語音簡單方便的多

5、。合成的含噪語音是用噪音與純凈語音進行線性疊加形成的。但實際上在真實環(huán)境下的含噪語音里噪音和話音之間可能還存在一些諸如卷積之類的一些復雜關系。雖然在聲學條件上合成與真實場景可能存在一些差異,但是在本文中我們希望通過實驗證明含同種噪音的真實與合成場景在統(tǒng)計學意義里對系統(tǒng)性能的影響效應是沒有顯著差異的,即我們可以用合成場景模擬真實應用場景進行我們的研究。對真實與合成場景的分析比較就是運用統(tǒng)計學方法,分析比較在真實環(huán)境下錄制的含噪語音與在純凈語音上疊加噪音形成的合成含噪語音兩者對不同的語音識別系統(tǒng)的性能影響效應。其中真實場景與合成場景的背景噪音類型是一致的。本文首先進行語音識別實驗,把真實與合成場景

6、數(shù)據(jù)作為測試集進行測試得到測試結果,然后運用統(tǒng)計學中的析因設計法對實驗結果進行分組,得到分析數(shù)據(jù),再運用方差分析法對數(shù)據(jù)進行分析。具體流程如圖1所示。圖1 總體流程圖2實驗原理介紹本文主要運用統(tǒng)計學方法對語音識別測試結果進行分析,比較真實與合成兩種場景對于不同的語音識別系統(tǒng),其識別性能是否有顯著的差異。首先介紹幾個基本概念,將影響語音識別系統(tǒng)性能的語音數(shù)據(jù)屬性稱為因素。如噪音場景、信噪比(SNR)、說話人性別、說話人口音、語速等。因素的取值或分類稱為因素的水平,如“說話人性別”有兩個水平:“男”和“女”。本文運用析因試驗設計方法進行語音識別實驗并統(tǒng)計分析數(shù)據(jù),運用方差分析法進行實驗結果分析。析

7、因設計也叫做全因子實驗設計,是根據(jù)因素的全組合安排試驗的試驗優(yōu)化設計方法。析因設計就是實驗中所涉及到的全部實驗因素的各個水平的全面組合形成不同的實驗條件,在每個實驗條件下進行兩次或兩次以上的獨立重復實驗。析因設計的最大優(yōu)點是所獲得的信息量很多,可以準確地估計各實驗因素的主效應的大小,還可估計因素之間各級交互作用效應的大小。方差分析(analysis of variance,簡稱ANOVA)又稱變異數(shù)分析或F檢驗,其目的是推斷兩組或多組資料的總體均數(shù)是否相同,檢驗兩個或多個樣本均數(shù)的差異是否有統(tǒng)計學意義,是進行假設檢驗的一種很有效的方法。方差分析在一個或多個因素的不同水平或水平組合下測量一個定量

8、反應變量,將對這個反應變量的總效應分解為由各因素引起的效應或因素的組合產(chǎn)生的交互效應以及隨機誤差效應;同時將總自由度分解為對應各部分自由度之和。例如在單因素方差分析中,統(tǒng)計量為F值,在一定的顯著水平下如果F值大于F界值,說明該因素有統(tǒng)計學意義,即由它引起的效應是顯著的,這就是方差分析的基本思想。方差分析的基本應用條件是各樣本是相互獨立的,各樣本數(shù)據(jù)必須滿足正態(tài)性和方差齊性。 析因設計的雙因素方差分析模型可以由如下公式描述: (1)i表示第一個因素的第i個水平,j表示第二個因素的第j個水平,表示第k次實驗當?shù)谝粋€因素取i水平,第二個因素取j水平時的性能指標值。表示第一個因素取i水平時對

9、性能指標的效應。表示第二個因素取j水平對性能指標的效應。表示兩個因素間交互作用的效應。表示第k次實驗的隨機實驗誤差。由于人說話音量的改變或背景噪聲的強度變化都會導致錄制語音的信噪比變化,所以在分析真實場景與合成場景的差異時也要同時考慮信噪比因素。因此本文將場景當成第一個因素,信噪比當成第二個因素,應用雙因素方差分析模型進行如下假設檢驗:對場景因素,檢驗:對信噪比因素,檢驗:對交互作用,檢驗:方差分析采用分離偏差平方和以及自由度的方法,采用F分布檢驗以上幾個原假設是否成立。兩因素析因試驗方差分析過程:將方差的來源分解為因素A、因素B、交互因素A*B和誤差四個部分。對每一個部分分別計算離均差平方和

10、(SS)、自由度(DF)以及均方(MS)。三個因素(交互作用也看成一個因素)各自對應的均方與誤差均方的比值就是每個因素對應的F值,代表了因素各自的效應。根據(jù)F值和F分布函數(shù)可以計算相應的顯著性概率Pr,如果Pr<0.05,則認為該因素的效應是顯著的,具有統(tǒng)計學意義,對試驗指標有顯著影響。3語音識別實驗介紹本文旨在分析比較真實與合成場景對于語音識別系統(tǒng)性能的影響是否有顯著性差異。為了得到分析數(shù)據(jù),我們需要進行語音識別實驗,即訓練出不同的語音識別系統(tǒng),并用由真實與合成場景組成測試集去作測試,得到測試結果作為我們的分析數(shù)據(jù)。3.1語音識別實驗工具本文用的語音識別工具是利用劍橋大學開發(fā)的HTK開

11、源工具搭建的大詞匯連續(xù)語音識別系統(tǒng)LVCSR;聲學模型采用三音子的隱馬爾可夫模型,聲學特征采用MFCC特征。語言模型采用二元語法。用HTK搭建語音識別系統(tǒng)的步驟大致是首先準備訓練數(shù)據(jù),然后用HTK提供的工具可以對數(shù)據(jù)進行初始化、提特征以及重估等一系列訓練步驟,最終訓練出一個語音識別系統(tǒng)模型。HTK同時還提供測試及打分工具。HTK是基于HMM的語音識別工具,是目前比較通用和公認的一個工具,大多數(shù)的語音識別系統(tǒng)都是在它基礎上搭建的。所以利用由它搭建而來的這個基線系統(tǒng)進行我們的研究是比較有代表性和通用性的。3.2語音識別實驗中的訓練數(shù)據(jù)和測試數(shù)據(jù)訓練數(shù)據(jù)是用噪音數(shù)據(jù)與無噪音的原始語音數(shù)據(jù)疊加而成。無

12、噪音的原始語音數(shù)據(jù)是863基礎語音庫,是標準普通話發(fā)音。具體信息如表1所示。語音數(shù)據(jù)按16kHz采樣頻率數(shù)字化,各個采樣點用16位進行量化,都是PCM WAV編碼格式。表1 原始無噪音訓練數(shù)據(jù)集說話人個數(shù)總時長單句個數(shù)男女訓練集100100100小時71639噪音數(shù)據(jù)是在各種自然場景中現(xiàn)場錄音采集而來,采集的噪音場景數(shù)據(jù)包括室內(nèi)、室外及交通工具各種場景。錄入設備采用IBM筆記本電腦外加Sound BLASTER Audigy 2 ZS專業(yè)聲卡,錄入軟件采用Cool Edit pro 2.0,按16kHz采樣頻率數(shù)字化,各個采樣點用16位進行量化,存儲到計算機中。首先用某一種噪音場景數(shù)據(jù)按固定信

13、噪比(語音與噪音的能量比)對無噪音的原始語音數(shù)據(jù)進行線性疊加,就形成了一份訓練數(shù)據(jù)。然后利用HTK工具對訓練數(shù)據(jù)進行訓練,就得到了語音識別的一個訓練模型。對每一種噪音場景都形成一份訓練數(shù)據(jù),分別拿去訓練就能得到多個語音識別的訓練模型了。于是我們用多個不同的噪音場景形成了不同的訓練數(shù)據(jù),再利用HTK工具去訓練從而搭建出了多個不同的語音識別系統(tǒng)。在本文中我們一共訓練了9個識別系統(tǒng),分別是直接用原始語音數(shù)據(jù)作為訓練數(shù)據(jù)(無噪音)、由公交車、出租車、工廠、餐廳、食堂、庭院、超市七種噪音場景作背景噪音與原始無噪語音疊加形成訓練數(shù)據(jù),再用HTK工具訓練而來的。最后一個訓練模型的訓練數(shù)據(jù)是由餐廳、工廠、出租

14、車、白噪音四種噪音場景按分布比例與原始無噪語音疊加而成,我們稱之為設計訓練集。3.3測試數(shù)據(jù)測試數(shù)據(jù)是由真實場景與合成場景組成。真實場景是我們在真實環(huán)境中錄制的含噪語音數(shù)據(jù)。合成場景是我們在真實環(huán)境中錄制背景噪音,在安靜環(huán)境中錄制純凈語音數(shù)據(jù)(無背景噪音),再把兩者按信噪比進行線性疊加形成的。真實場景的數(shù)據(jù)采集在一個肯德基店進行,時間是中午吃飯時間,此時人流多,背景噪音較大。一共召集五位同學,每人在店里帶耳機錄制一段文字,每個人讀60句話。這樣就采集到了真實場景的含噪語音數(shù)據(jù)了。合成場景的數(shù)據(jù)采集和處理是首先在錄制真實場景的數(shù)據(jù)同時,單獨錄制了肯德基店里中午時段的背景噪音,然后在下午同樣的五個

15、人回到安靜的會議室中分布帶耳機錄制與在肯德基店同樣的一段文字,得到純凈語音數(shù)據(jù)(無背景噪音)。在錄制的時候,盡量保持說話的語速、音量與在肯德基店錄制的時候一樣。這樣做的目的是為了盡量消除其他因素對系統(tǒng)性能的影響。之后分別計算真實場景語音的信噪比并用在肯德基錄制的純背景噪音與純語音進行加噪。這樣我們就得到了合成的含噪語音數(shù)據(jù)了。同時我們保證了進行比較的真實場景的背景噪音與合成場景中的背景噪音是在同一時間范圍同一場景下采集的。3.4實驗結果采集而來的數(shù)據(jù)組成測試集包含真實場景和合成場景,測試集的背景噪音是肯德基店內(nèi)的噪音。用幾個不同的訓練模型訓練而成的系統(tǒng)分別對其進行測試,得到測試結果。表2列出了

16、在不同系統(tǒng)下對真實場景和合成場景的測試結果。表2 不同訓練集識別下的真實場景與合成場景測試結果比較測試總字錯誤率訓練模型真實場景合成場景無噪音66.64%71.72%公交車內(nèi)57.17%61.27%出租車內(nèi)59.78%67.28%工廠82.20%75.37%餐廳67.15%67.44%食堂72.28%70.95%庭院67.81%68.24%超市71.40%66.96%設計訓練集60.65%61.32%4實驗結果分析以用餐廳噪音進行加噪訓練的語音識別系統(tǒng)為例,分析比較真實場景與合成場景對此系統(tǒng)的性能影響效應。首先先將信噪比因素分成五個水平(-, 13)、13, 16)、16, 18)、18, 2

17、1)、21, +),場景因素就是分為兩個水平:真實的與合成的。然后根據(jù)兩因素析因設計原理,按照兩因素各水平的全組合對測試結果分組統(tǒng)計字錯誤率,對每一組統(tǒng)計6個字錯誤率作為重復實驗的結果,這樣做可以考察兩個因素間的交互作用。對連續(xù)定量因素進行水平分組的原則是盡可能保證各個組合內(nèi)的數(shù)據(jù)個數(shù)相近,即要避免存在某一組有數(shù)據(jù)稀疏的現(xiàn)象。得到的待分析數(shù)據(jù)如表3(a)所示:表3 餐廳訓練集識別下的分組測試結果(a)(每組統(tǒng)計6個字錯誤率)信噪比< 1313, 16)16, 18)18, 21)>= 21真實場景0.47830.73630.55880.74270.88060.82610.74140

18、.62160.71010.88430.68750.66670.57140.60000.75890.50000.47980.69130.62000.69180.61540.62570.74760.64610.68750.66670.62380.53970.65470.6824合成場景0.68630.71550.73230.75000.76920.71740.73600.63160.85860.50000.76790.79090.55240.78670.45450.54490.67890.60640.62900.57690.65130.60690.75200.66950.48150.59180.6

19、3110.60160.64340.2500表3(b)列出的是餐廳訓練集識別下的場景與信噪比按各水平分組統(tǒng)計的總測試結果,即每組統(tǒng)計一個總錯誤率,便于我們作直觀分析。(b)(每組統(tǒng)計一個總字錯誤率)場景信噪比真實場景合成場景(-, 13)0.6344090.66013113, 16)0.6515800.69868616, 18)0.6183010.65063618, 21)0.6651790.71114621, +)0.7589930.507937運用雙因素方差分析法分析表3(a)數(shù)據(jù),可以估計在餐廳訓練的情況下,場景、信噪比及二者交互作用對系統(tǒng)性能的影響效應,得到相應的Pr值,如表4所示。如果

20、Pr值小于0.05,則在統(tǒng)計學上認為此因素對系統(tǒng)性能的影響效應是顯著的。表4 雙因素方差分析表(餐廳訓練模型)SourceSSdfFProb>FModel0.254692.850.0087信噪比因素0.031040.780.5431場景因素0.005510.550.4618交互作用0.218045.490.0010隨機誤差0.496450表4是對表3(a)數(shù)據(jù)的雙因素方差分析結果。可以用MATLAB或SAS等統(tǒng)計工具去計算。Model代表整個模型,即代表信噪比、場景以及交互作用三者的綜合效應。上述結果是對模型的有效性以及三個假設作F檢驗。各列分別列出了各部分變異所對應的離均差平方和SS(

21、Sum of Squares)、自由度df、均方MS(Mean Square)、F值以及顯著性概率Pr值。本例中整個模型的F=2.85,Pr=0.0087<0.05,這表明包含信噪比、場景兩因素以及二者交互作用的模型總體上來說有統(tǒng)計學意義。場景因素對應的F=0.55,pr=0.4618>0.05,這表明了我們的假設1:成立,場景因素的主效應沒有統(tǒng)計學意義,即真實場景與合成場景對系統(tǒng)性能的影響差異是不顯著的。同理信噪比因素也是不顯著因素。但是二者的交互效應是顯著的,具有統(tǒng)計意義(F=5.4911,Pr=0.0010),即用信噪比與場景的不同組合作測試,會使得系統(tǒng)性能差異顯著。如果將信

22、噪比限制在13,21的范圍內(nèi),即只分析表3(a)中數(shù)據(jù)項里的第二、三、四列。這時信噪比因素只有三個水平、場景仍然是兩個水平。用SAS統(tǒng)計軟件進行雙因素方差分析,結果如圖2所示。圖2 SAS雙因素方差分析結果其中Model代表整個模型,A代表場景因素,B代表信噪比因素、A*B代表二者的交互因素。從圖中可以看出整個模型是沒有統(tǒng)計學意義的(Pr=0.2999>0.05)。同時兩個因素的效應與交互效應都不顯著(相應Pr值都大于0.05)。即表明了在用餐廳作訓練模型的系統(tǒng)中,如果測試數(shù)據(jù)的信噪比限制在13, 21)范圍時,測試數(shù)據(jù)的場景因素、信噪比因素以及二者交互因素對于系統(tǒng)性能的影響效應都是不顯

23、著的。我們可以用同樣步驟和方法考察場景與信噪比因素對其他語音識別系統(tǒng)的性能影響效應。表5(a)和(b)列出了在幾種不同的噪音場景訓練情況下的場景、信噪比及二者交互作用對系統(tǒng)性能的影響效應Pr值以及總效應的Pr值,表5(b)是只考慮信噪比的三個水平,不考慮左右邊界兩水平。表5 不同訓練集識別下的場景、信噪比及二者交互作用對系統(tǒng)性能的影響效應Pr值(a)(信噪比分五水平(-, 13)、13, 16)、16, 18)、18, 21) 、21, +))Pr值場景效應信噪比效應交互效應總效應無噪音0.17093e-0070.00274e-007公交車0.36397e-0060.00234e-006出租車

24、0.20833e-0090.00012e-009工廠0.05050.01130.00780.0011餐廳0.46180.54310.00100.0087食堂0.45560.01050.00010.0001庭院0.79550.04339e-0050.0002超市0.04030.82130.00250.0101設計訓練集0.1790.00020.04830.0001(b)(信噪比分三水平13, 16)、16, 18)、18, 21))Pr值場景效應信噪比效應交互效應總效應無噪音0.46320.00520.18030.0158公交車0.91210.01900.15380.0446出租車0.53850

25、.00570.09920.0123工廠0.73510.01120.25220.0398餐廳0.10680.20910.85310.2999食堂0.10300.01700.68200.0459庭院0.22170.03970.32940.0791超市0.94890.48440.62450.7816設計訓練集0.76050.04490.38500.1448從表5(a)和(b)可以看出場景因素對于上述所有系統(tǒng)的性能影響效應是不顯著的,也就是說真實場景與合成場景作為測試集對系統(tǒng)性能沒有顯著地影響,不論系統(tǒng)是用什么背景噪音加噪訓練而成的。我們還可以發(fā)現(xiàn)信噪比對于某些系統(tǒng)性能的影響效應是顯著的,而對某些系統(tǒng)

26、的性能影響效應是不顯著的,不顯著的系統(tǒng)有以餐廳為訓練模型的系統(tǒng),如果把顯著性水平定為0.01,則以食堂為訓練模型的系統(tǒng)和以設計訓練集為訓練模型的系統(tǒng)都是信噪比影響效應不顯著的系統(tǒng)。這幾個系統(tǒng)的訓練模型的噪音恰好了與測試集背景噪音相似或者說訓練模型包含了與測試集背景噪音相似的噪音。這一點發(fā)現(xiàn)也許可以說明:只要測試集與訓練集背景噪音一致的話,信噪比因素對系統(tǒng)產(chǎn)生影響效應就會減弱。我們也可以作一個大膽地假設:訓練與測試場景的交互作用(一致性)對系統(tǒng)性能的影響效應較強,可以超越信噪比等其他一些因素的影響效應。這一點結論還有待具體實驗論證。5結論上一節(jié)運用雙因素方差分析法對實驗結果進行了分析,我們可以得到一些新穎的結論:1背景噪音一致的場景不論是真實環(huán)境下錄制的還是后期人工合成的,作為測試集時對不同系統(tǒng)的性能影響效應是不顯著的。即如果忽略其他因素影響,對同一個系統(tǒng)而言,用兩種場景測試其系統(tǒng)性能是差異不大的。也就是說在設計測試數(shù)據(jù)的時候,用人工加噪的合成場景可以替代真實場景。2第1個結論是在忽略其他因素影響情況下得出的,但是實際上有背景噪音就必然存在信噪比。由于信噪比的存在會對系統(tǒng)性能產(chǎn)生影響。如表6.1所示,我們的實驗表明了有幾個系統(tǒng)(如工廠、公交車等)在兩種場景測試下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論