語音識別基礎(chǔ)講義07_第1頁
語音識別基礎(chǔ)講義07_第2頁
語音識別基礎(chǔ)講義07_第3頁
語音識別基礎(chǔ)講義07_第4頁
語音識別基礎(chǔ)講義07_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第七章連續(xù)語音識別系統(tǒng)7.1連續(xù)語音識別問題的難點連續(xù)語音識別有兩個重要問題是孤立(字)詞識別所沒有的。(1) 單詞切分任何語言中,短語(或詞組)和句子的數(shù)量都是非常人的。因此,一般情況下,以短句和句子為單位進行模式識別是不恰當(dāng)?shù)?。這就需要把連續(xù)語音分割成比短語更小的單位,例如單詞甚至“子詞”(所謂子詞(Subword)是指建立在語言學(xué)意義上的小于詞的語音單元,比如:音素、雙音、類雙音、半音節(jié)和音節(jié)等單元)。以單詞為單位進行模式匹配來識別連續(xù)語音,這就是所謂連續(xù)單詞語音識別。但是,對連續(xù)語音進行分割是困難的,主要因為連續(xù)語音句子中各單詞的發(fā)音之間通常是沒有停頓的,即各單詞之間不存在明顯的邊界。圖7.1給出了對同一數(shù)字串的孤立發(fā)聲和連續(xù)發(fā)聲的例子。(2) 發(fā)音變化連續(xù)語音中各單詞的發(fā)音通常都比較自然和隨便(不像發(fā)孤立單詞語音那樣專注和認(rèn)真),因而,各單詞受協(xié)同發(fā)音的影響也更為嚴(yán)重。圖7.1同一數(shù)字串的孤立發(fā)聲(上部)

和連續(xù)發(fā)聲(下部)的例子7.2連續(xù)單詞語音識別的幾種典型算法在連續(xù)單詞語音識別系統(tǒng)中,假設(shè)輸入連續(xù)語音是單詞間沒有停頓的單詞組成的時河序列。該時間序列通常是以句子為單位的的(句子間通常有停頓),但句子中各單詞間無間隔,因而存在著以下幾個問題點:(1)單詞序列的長度未知(不知有幾個單詞,但通??扇?到7個單詞的長度)。(3)單詞序列中各單詞之間的邊界未知,即我們只知道單詞序列的起始點和終止點,但序列內(nèi)的各單詞之間的邊界是無以知曉的。由于協(xié)同發(fā)音的影響,導(dǎo)致單詞邊界的模糊性。從而無法明確地確定單詞的邊界。當(dāng)給定M個單詞參考模式和L長的待識語音模式時,就可能有卜卩種組合的匹配序列。在實際應(yīng)用中,這樣的計算近乎不可能。連續(xù)單詞語音識別可以用孤立單詞語音識別技術(shù)來進行識別,但要對處理方法作一些修正。如比較流行的算法有:兩級DP法(two-leveldynamicprogianuiuiig)>分層構(gòu)造法(levelbuildmg)和一次通過法(onepass)。其基本思路是:連續(xù)單詞語音識別系統(tǒng)的參考模式由孤立單詞的參考模式按時間順序動態(tài)接續(xù)組合而成,識別系統(tǒng)把待識連續(xù)單詞語音和被接續(xù)起來的單詞模式序列進行匹配比較,距離最短的單詞參考模式之序列就為識別結(jié)果。圖7.2為連續(xù)單詞語音識別問題的示意圖。即:設(shè)7= t(2),…,t(M)}表示待識語音的特征矢量的時間序列(待識語音模式),Rv= rv(2),rv(Nv)}表示單詞v(v=l,2,?…V)的參考矢量的時間序列(單詞參考模式),則連續(xù)單詞語音識別問題就是如何尋找與卩最為匹配、最佳的單詞參照模式的序列。這里,若設(shè)最佳單詞參照模式的序列R*由L個單詞參照模式連接組成的話,則R*={Rq"QRqqQ.ORqg},(1Wq*(l)WV)圖7?2連續(xù)單詞語音識別問題的示意圖7.2.1兩級DP法(two-leveldynamicprogramming)(1)第一級計算以輸入語音的所有時點為始端b,在所有單詞參考模式之間,把終端自由的單端點e移動進行DP匹配,計算并存儲該部分區(qū)間(b,e)的最小匹配距離及與之對應(yīng)的單詞指針。這一級的具體計算步驟為:將各單詞的參考模式…,V)與待識模式T中的任意部分(b,e)進行DP匹配,求出最小匹配距離D(v,b,e)。eD(v,b,e)=iiun{Lr/w(m))},(b=l,…,M;e(>b)=l,M)

何m)m?b (V=l,…,V)對所有&逑D(v、b,e)的最小匹配距離D(b,e),并記錄與該參考模式所對應(yīng)的單詞編號用(b,e)oD(b,e)=niin{D(v,b,e)}v^V

N(b、e)=arginin{D(v,b,e)}

嚴(yán)v^V圖7.3為如何計算任意起始幀b和終止幀e之間的最佳累計距離$?亡)的示意圖。終止幀C終it幀終止幀C終it幀e圖7.3計算任意起始更b和終止幀e之間的

最佳累計距離D(b,e)的示意圖第二級計算圖7.4以e為終止幀的路徑序列根據(jù)(1)圖7.4以e為終止幀的路徑序列如圖7.4所示,先著眼于e點,利用k個連接的參考模式序列來定義到達(dá)e點(幀)的最佳路徑的距離瓦(亡)。Dk(e)=mm{D(b,e)+Dk-i(b-1)}即:在幀e終止、且由k個參考模式連接而成的最佳路徑,正好相當(dāng)于使用k-1個參考模式連接到達(dá)b?l點的距離,再加上從b點到達(dá)e點的最佳路徑的距離,然后找出全體距離為最小的b點。這一級的具體計算步驟為:初始化 Do(O)=0,Dk(0)=8,1WkWKg置k=l,計算Di(e)=D(l,e),2WeWM迭代計算(k=I,…,KZD2(e)=nmi{D(b,e)+Di(b-1)},3WeWMl^b<e^(e)=nun{D(b,e)+D2(b-1)},4WeWMl^b<eDt(e)=min{D(b,e)+Dk-i(b-1)},k+1WeWMl^b<e④最終解D*=inin{Dk(m)}最后,通過路徑回溯,便町得到實際參考模式的單詞序列。7.2.1分層構(gòu)造法(levelbuilding)這里的層,指的是假設(shè)單詞序列中單詞的數(shù)目。分層構(gòu)造法就是一個一個地增加連接的單詞數(shù)量(層數(shù)),一邊求出輸入語音和連接單詞序列的匹配距離,找出最佳單詞序列。因此,為了識別一個由L個單詞構(gòu)成的單詞序列,至少要構(gòu)造L層。分層構(gòu)造法算法的具體步驟為:(1)在第1層,以輸入語音的起始點為始端,對所有單詞參考模式進行終端自由DP匹配。如圖7.5所示,從T的第1幀起,采用DTW方法先將其與最初的參考模式Ri進行非線性時河匹配。在待識語音幀mn(l)WmW 的范I韋I內(nèi),非線性時間伸縮路徑將與皿最后的幀(第巴幀)相交。對每個非線性伸縮路徑的終端幀,分別記錄其各自的最小累計距離5/(111)0同樣,從T的第1幀起,再將其與長度為N,的參考模式忌進行非線性時間匹配。這樣通過匹配,便可以得到在m21(l)WmW】心(1)范圍內(nèi)的最佳匹配路徑。這樣,反復(fù)進行匹配計算,直到第1層V個單詞的匹配全部結(jié)束為止。因此,作為第1層的輸出就為與各參考模式相匹配而得到的最小累計距離及對應(yīng)于其的終止幀的范附。即:Dd(m),mn(l)WmW11112(1)Dr(m),m2i(l)WmWDiv(m),mVi(l)WmWmV2(l)這里,將第1層的終端范ffl(mi(l)WmW1112(1))定義為如下:mi(l)=min{mvi(l)}l^v^V1112(1)=max{mV2(1)}l^v^V并記錄以下列舉的參數(shù):D盧(m)=nun{D/V(m)}:第/層、到達(dá)第m幀時的最佳距離嚴(yán)產(chǎn)VN盧(m)=argnmi{D/V(m)}:與D盧(m)相對應(yīng)的參考模式之指針到0^(111)之前的層的、最佳終端幀之路徑回溯指針(2)接著從第2層后開始,把前一層獲得的終端范圍的最佳累枳距離看成是卞一層的始端匹配的初始值,然后進行兩端點移動性DP匹配。如圖7.6所示,在計算第2層時,其始端匹配的初始值范圍就為:mg)WmW口⑴。然而,從第2層后開始,除了其初始值范鬧變寬以外,所采用的DTW方法與第1層的DTW方法在本質(zhì)上是完全一致的。因此在第2層,對于參考模式乩的終端范闈是:mu(2)WmWmi:(2),而對于參考模式的終端范圍則為:m2i(2)WmWm?2⑵。這樣進行下去,便可得出第2層的終端范圍:m】(2)=niui{mvi(2)}l^v^Vm:(2)=max{liiv:(2)}l^v^V并對mR2)WmWm?2)范闈內(nèi)的各個幀,可以求得:D2B(m)>5^(01)和F2B(m)o重復(fù)操作至能夠允許的最大層數(shù)Lmax,把輸入語音終端的累計距離作為單詞的識別結(jié)果。這里若用D*來表示最終結(jié)果的話,則D*就可以由下式求得。D*=nun{D盧(m)}圖7.5分層構(gòu)造法第1層計算方法示意圖圖7?6分層構(gòu)造法第2層計算方法示意圖為便于對分層構(gòu)造法的基本概念有進一步的理解,圖7.7給出了一個兩單詞參考模式(等長)的說明例子。在這個例子中,假設(shè)兩單詞分別為A和E,相應(yīng)的參考模式分別為Ra和另外,假設(shè)僅計算到第4層,即:1=4。如圖7.7所示,對這個例子來說,在第1層有6個終端幀存在,待識語音的起始2幀的最佳匹配對應(yīng)于參考模式接下去4幀的最佳匹配則對應(yīng)于參考模式R”在第2層有10個,第3層有6個,第4層則有1個對應(yīng)于第M幀的終端存在。這樣,再通過沿著一條在m=M幀終止的最佳路徑向前回溯,就可以得到如下所示的最佳的參考模式序列尺叫這時,待識語音的幀5e2,6和6就對應(yīng)于序列M中的4個單詞的最后一個幀。R*={RQR.GRQ心}7.2.3一次通過法(onepass)識別系統(tǒng)的輸入是連續(xù)語音,參考模式是孤立單詞模式。連續(xù)語音與孤立單詞參考模式比較仍采用動態(tài)規(guī)劃的算法,即找出最佳時間匹配路徑。如圖7.8所示,與孤立單詞識別不同的是,現(xiàn)在的時間匹配路徑可以離開一個參考模式的終點并進入另一參考模式的起點。為此,動態(tài)規(guī)劃

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論