語(yǔ)音識(shí)別基礎(chǔ)講義07_第1頁(yè)
語(yǔ)音識(shí)別基礎(chǔ)講義07_第2頁(yè)
語(yǔ)音識(shí)別基礎(chǔ)講義07_第3頁(yè)
語(yǔ)音識(shí)別基礎(chǔ)講義07_第4頁(yè)
語(yǔ)音識(shí)別基礎(chǔ)講義07_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章連續(xù)語(yǔ)音識(shí)別系統(tǒng)7.1連續(xù)語(yǔ)音識(shí)別問(wèn)題的難點(diǎn)連續(xù)語(yǔ)音識(shí)別有兩個(gè)重要問(wèn)題是孤立(字)詞識(shí)別所沒(méi)有的。(1) 單詞切分任何語(yǔ)言中,短語(yǔ)(或詞組)和句子的數(shù)量都是非常人的。因此,一般情況下,以短句和句子為單位進(jìn)行模式識(shí)別是不恰當(dāng)?shù)摹_@就需要把連續(xù)語(yǔ)音分割成比短語(yǔ)更小的單位,例如單詞甚至“子詞”(所謂子詞(Subword)是指建立在語(yǔ)言學(xué)意義上的小于詞的語(yǔ)音單元,比如:音素、雙音、類(lèi)雙音、半音節(jié)和音節(jié)等單元)。以單詞為單位進(jìn)行模式匹配來(lái)識(shí)別連續(xù)語(yǔ)音,這就是所謂連續(xù)單詞語(yǔ)音識(shí)別。但是,對(duì)連續(xù)語(yǔ)音進(jìn)行分割是困難的,主要因?yàn)檫B續(xù)語(yǔ)音句子中各單詞的發(fā)音之間通常是沒(méi)有停頓的,即各單詞之間不存在明顯的邊界。圖7.1給出了對(duì)同一數(shù)字串的孤立發(fā)聲和連續(xù)發(fā)聲的例子。(2) 發(fā)音變化連續(xù)語(yǔ)音中各單詞的發(fā)音通常都比較自然和隨便(不像發(fā)孤立單詞語(yǔ)音那樣專注和認(rèn)真),因而,各單詞受協(xié)同發(fā)音的影響也更為嚴(yán)重。圖7.1同一數(shù)字串的孤立發(fā)聲(上部)

和連續(xù)發(fā)聲(下部)的例子7.2連續(xù)單詞語(yǔ)音識(shí)別的幾種典型算法在連續(xù)單詞語(yǔ)音識(shí)別系統(tǒng)中,假設(shè)輸入連續(xù)語(yǔ)音是單詞間沒(méi)有停頓的單詞組成的時(shí)河序列。該時(shí)間序列通常是以句子為單位的的(句子間通常有停頓),但句子中各單詞間無(wú)間隔,因而存在著以下幾個(gè)問(wèn)題點(diǎn):(1)單詞序列的長(zhǎng)度未知(不知有幾個(gè)單詞,但通??扇?到7個(gè)單詞的長(zhǎng)度)。(3)單詞序列中各單詞之間的邊界未知,即我們只知道單詞序列的起始點(diǎn)和終止點(diǎn),但序列內(nèi)的各單詞之間的邊界是無(wú)以知曉的。由于協(xié)同發(fā)音的影響,導(dǎo)致單詞邊界的模糊性。從而無(wú)法明確地確定單詞的邊界。當(dāng)給定M個(gè)單詞參考模式和L長(zhǎng)的待識(shí)語(yǔ)音模式時(shí),就可能有卜卩種組合的匹配序列。在實(shí)際應(yīng)用中,這樣的計(jì)算近乎不可能。連續(xù)單詞語(yǔ)音識(shí)別可以用孤立單詞語(yǔ)音識(shí)別技術(shù)來(lái)進(jìn)行識(shí)別,但要對(duì)處理方法作一些修正。如比較流行的算法有:兩級(jí)DP法(two-leveldynamicprogianuiuiig)>分層構(gòu)造法(levelbuildmg)和一次通過(guò)法(onepass)。其基本思路是:連續(xù)單詞語(yǔ)音識(shí)別系統(tǒng)的參考模式由孤立單詞的參考模式按時(shí)間順序動(dòng)態(tài)接續(xù)組合而成,識(shí)別系統(tǒng)把待識(shí)連續(xù)單詞語(yǔ)音和被接續(xù)起來(lái)的單詞模式序列進(jìn)行匹配比較,距離最短的單詞參考模式之序列就為識(shí)別結(jié)果。圖7.2為連續(xù)單詞語(yǔ)音識(shí)別問(wèn)題的示意圖。即:設(shè)7= t(2),…,t(M)}表示待識(shí)語(yǔ)音的特征矢量的時(shí)間序列(待識(shí)語(yǔ)音模式),Rv= rv(2),rv(Nv)}表示單詞v(v=l,2,?…V)的參考矢量的時(shí)間序列(單詞參考模式),則連續(xù)單詞語(yǔ)音識(shí)別問(wèn)題就是如何尋找與卩最為匹配、最佳的單詞參照模式的序列。這里,若設(shè)最佳單詞參照模式的序列R*由L個(gè)單詞參照模式連接組成的話,則R*={Rq"QRqqQ.ORqg},(1Wq*(l)WV)圖7?2連續(xù)單詞語(yǔ)音識(shí)別問(wèn)題的示意圖7.2.1兩級(jí)DP法(two-leveldynamicprogramming)(1)第一級(jí)計(jì)算以輸入語(yǔ)音的所有時(shí)點(diǎn)為始端b,在所有單詞參考模式之間,把終端自由的單端點(diǎn)e移動(dòng)進(jìn)行DP匹配,計(jì)算并存儲(chǔ)該部分區(qū)間(b,e)的最小匹配距離及與之對(duì)應(yīng)的單詞指針。這一級(jí)的具體計(jì)算步驟為:將各單詞的參考模式…,V)與待識(shí)模式T中的任意部分(b,e)進(jìn)行DP匹配,求出最小匹配距離D(v,b,e)。eD(v,b,e)=iiun{Lr/w(m))},(b=l,…,M;e(>b)=l,M)

何m)m?b (V=l,…,V)對(duì)所有&逑D(v、b,e)的最小匹配距離D(b,e),并記錄與該參考模式所對(duì)應(yīng)的單詞編號(hào)用(b,e)oD(b,e)=niin{D(v,b,e)}v^V

N(b、e)=arginin{D(v,b,e)}

嚴(yán)v^V圖7.3為如何計(jì)算任意起始幀b和終止幀e之間的最佳累計(jì)距離$?亡)的示意圖。終止幀C終it幀終止幀C終it幀e圖7.3計(jì)算任意起始更b和終止幀e之間的

最佳累計(jì)距離D(b,e)的示意圖第二級(jí)計(jì)算圖7.4以e為終止幀的路徑序列根據(jù)(1)圖7.4以e為終止幀的路徑序列如圖7.4所示,先著眼于e點(diǎn),利用k個(gè)連接的參考模式序列來(lái)定義到達(dá)e點(diǎn)(幀)的最佳路徑的距離瓦(亡)。Dk(e)=mm{D(b,e)+Dk-i(b-1)}即:在幀e終止、且由k個(gè)參考模式連接而成的最佳路徑,正好相當(dāng)于使用k-1個(gè)參考模式連接到達(dá)b?l點(diǎn)的距離,再加上從b點(diǎn)到達(dá)e點(diǎn)的最佳路徑的距離,然后找出全體距離為最小的b點(diǎn)。這一級(jí)的具體計(jì)算步驟為:初始化 Do(O)=0,Dk(0)=8,1WkWKg置k=l,計(jì)算Di(e)=D(l,e),2WeWM迭代計(jì)算(k=I,…,KZD2(e)=nmi{D(b,e)+Di(b-1)},3WeWMl^b<e^(e)=nun{D(b,e)+D2(b-1)},4WeWMl^b<eDt(e)=min{D(b,e)+Dk-i(b-1)},k+1WeWMl^b<e④最終解D*=inin{Dk(m)}最后,通過(guò)路徑回溯,便町得到實(shí)際參考模式的單詞序列。7.2.1分層構(gòu)造法(levelbuilding)這里的層,指的是假設(shè)單詞序列中單詞的數(shù)目。分層構(gòu)造法就是一個(gè)一個(gè)地增加連接的單詞數(shù)量(層數(shù)),一邊求出輸入語(yǔ)音和連接單詞序列的匹配距離,找出最佳單詞序列。因此,為了識(shí)別一個(gè)由L個(gè)單詞構(gòu)成的單詞序列,至少要構(gòu)造L層。分層構(gòu)造法算法的具體步驟為:(1)在第1層,以輸入語(yǔ)音的起始點(diǎn)為始端,對(duì)所有單詞參考模式進(jìn)行終端自由DP匹配。如圖7.5所示,從T的第1幀起,采用DTW方法先將其與最初的參考模式Ri進(jìn)行非線性時(shí)河匹配。在待識(shí)語(yǔ)音幀mn(l)WmW 的范I韋I內(nèi),非線性時(shí)間伸縮路徑將與皿最后的幀(第巴幀)相交。對(duì)每個(gè)非線性伸縮路徑的終端幀,分別記錄其各自的最小累計(jì)距離5/(111)0同樣,從T的第1幀起,再將其與長(zhǎng)度為N,的參考模式忌進(jìn)行非線性時(shí)間匹配。這樣通過(guò)匹配,便可以得到在m21(l)WmW】心(1)范圍內(nèi)的最佳匹配路徑。這樣,反復(fù)進(jìn)行匹配計(jì)算,直到第1層V個(gè)單詞的匹配全部結(jié)束為止。因此,作為第1層的輸出就為與各參考模式相匹配而得到的最小累計(jì)距離及對(duì)應(yīng)于其的終止幀的范附。即:Dd(m),mn(l)WmW11112(1)Dr(m),m2i(l)WmWDiv(m),mVi(l)WmWmV2(l)這里,將第1層的終端范ffl(mi(l)WmW1112(1))定義為如下:mi(l)=min{mvi(l)}l^v^V1112(1)=max{mV2(1)}l^v^V并記錄以下列舉的參數(shù):D盧(m)=nun{D/V(m)}:第/層、到達(dá)第m幀時(shí)的最佳距離嚴(yán)產(chǎn)VN盧(m)=argnmi{D/V(m)}:與D盧(m)相對(duì)應(yīng)的參考模式之指針到0^(111)之前的層的、最佳終端幀之路徑回溯指針(2)接著從第2層后開(kāi)始,把前一層獲得的終端范圍的最佳累枳距離看成是卞一層的始端匹配的初始值,然后進(jìn)行兩端點(diǎn)移動(dòng)性DP匹配。如圖7.6所示,在計(jì)算第2層時(shí),其始端匹配的初始值范圍就為:mg)WmW口⑴。然而,從第2層后開(kāi)始,除了其初始值范鬧變寬以外,所采用的DTW方法與第1層的DTW方法在本質(zhì)上是完全一致的。因此在第2層,對(duì)于參考模式乩的終端范闈是:mu(2)WmWmi:(2),而對(duì)于參考模式的終端范圍則為:m2i(2)WmWm?2⑵。這樣進(jìn)行下去,便可得出第2層的終端范圍:m】(2)=niui{mvi(2)}l^v^Vm:(2)=max{liiv:(2)}l^v^V并對(duì)mR2)WmWm?2)范闈內(nèi)的各個(gè)幀,可以求得:D2B(m)>5^(01)和F2B(m)o重復(fù)操作至能夠允許的最大層數(shù)Lmax,把輸入語(yǔ)音終端的累計(jì)距離作為單詞的識(shí)別結(jié)果。這里若用D*來(lái)表示最終結(jié)果的話,則D*就可以由下式求得。D*=nun{D盧(m)}圖7.5分層構(gòu)造法第1層計(jì)算方法示意圖圖7?6分層構(gòu)造法第2層計(jì)算方法示意圖為便于對(duì)分層構(gòu)造法的基本概念有進(jìn)一步的理解,圖7.7給出了一個(gè)兩單詞參考模式(等長(zhǎng))的說(shuō)明例子。在這個(gè)例子中,假設(shè)兩單詞分別為A和E,相應(yīng)的參考模式分別為Ra和另外,假設(shè)僅計(jì)算到第4層,即:1=4。如圖7.7所示,對(duì)這個(gè)例子來(lái)說(shuō),在第1層有6個(gè)終端幀存在,待識(shí)語(yǔ)音的起始2幀的最佳匹配對(duì)應(yīng)于參考模式接下去4幀的最佳匹配則對(duì)應(yīng)于參考模式R”在第2層有10個(gè),第3層有6個(gè),第4層則有1個(gè)對(duì)應(yīng)于第M幀的終端存在。這樣,再通過(guò)沿著一條在m=M幀終止的最佳路徑向前回溯,就可以得到如下所示的最佳的參考模式序列尺叫這時(shí),待識(shí)語(yǔ)音的幀5e2,6和6就對(duì)應(yīng)于序列M中的4個(gè)單詞的最后一個(gè)幀。R*={RQR.GRQ心}7.2.3一次通過(guò)法(onepass)識(shí)別系統(tǒng)的輸入是連續(xù)語(yǔ)音,參考模式是孤立單詞模式。連續(xù)語(yǔ)音與孤立單詞參考模式比較仍采用動(dòng)態(tài)規(guī)劃的算法,即找出最佳時(shí)間匹配路徑。如圖7.8所示,與孤立單詞識(shí)別不同的是,現(xiàn)在的時(shí)間匹配路徑可以離開(kāi)一個(gè)參考模式的終點(diǎn)并進(jìn)入另一參考模式的起點(diǎn)。為此,動(dòng)態(tài)規(guī)劃

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論