下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、漢語普通話雙音子和三音子結構系統(tǒng)以及相關語料庫的設計摘要 自然語音處理最感頭疼的問題, 就是難以對付連續(xù)話語中復雜的語音變化. 語音學界和言語工程學界經(jīng)過長期的探索發(fā)現(xiàn), 雙音子和三音子是比較理想的、能夠較好地覆蓋各崐種語音變化現(xiàn)象的處理單元. 所以, 在語音合成和語音識別中, 特別是在波形拼接合成方崐面已經(jīng)得到廣泛的應用. 但是, 在國內(nèi), 人們尚不十分熟悉它們.本文將扼要地介紹這些概崐念, 并概括描寫漢語普通話的雙音子和三音子結構系統(tǒng)及相關語料庫的設計.1.0 綜述 當前, 言語的合成和識別都已進入連續(xù)話語的階段, 而影響合成音質(zhì)和識別率提高的攔路虎就是語音的多變性問題. 因為自然話語并不
2、是各種語音單位諸如音素或音節(jié)的簡單機械的串列, 而是按照一定語音結合和變化規(guī)則構成的有機體系. 在這個體系里,各相鄰語音單元之間由于協(xié)同發(fā)音(coarticulation)作用而彼此滲透, 在空間和時間域里形成了相互套疊(telescope or overlap)的局面(Zsiga, 1994; Wood, 1991), 其中相互疊接的部分叫做音聯(lián)(juncture)(許毅, 1989), 它通常都是對應于一個聲學上極其易變的區(qū)域. 不同語音單元之間的音聯(lián)既是它們相互連接和分界的表現(xiàn), 又是體現(xiàn)它們隨環(huán)境而變化的實體. 正是這個部分給自然言語處理帶來了極大的困難. 所以, 無論是合成還是識別方
3、面, 都迫切希望能夠定量地獲得這種音聯(lián)的規(guī)律及相關的模式. 然而, 無論從哪個角度看, 目前尚未達到能夠控制對應于這種語音變化的所有參量的水準. 在這種情況下, 基于語料庫的統(tǒng)計研究方法被廣泛采用, 語料庫的價值已經(jīng)獲得廣泛的認可. 而且, 國際上還創(chuàng)立了語料庫建設的協(xié)調(diào)組織(COCOSDA). 那么, 就合成和識別而言, 語料庫究竟怎樣選取言語樣本才能夠全面覆蓋上述音聯(lián)現(xiàn)象呢? 我們認為, 這同合成和識別的單元選擇密切相關. 長期以來, 人們在合成和識別的單元選擇方面下了不少功夫. 起初, 音位或音素被認為是最合適的處理單元. 因為在任何語言里, 音位的數(shù)目總是相當有限的, 以它們作單元最為
4、經(jīng)濟. 但是, 實踐證明, 假如采用音位作為拼接合成的單元, 合成言語的音質(zhì)低劣, 就是加上音位變體也還是不行. 一個主要的原因就在于無法含蓋音位邊界上那個聲學上易變區(qū)域的特性. 同樣, 音位也不適宜用作連續(xù)話語識別的單元. 因為在連續(xù)話語里, 音位之間相互疊接, 彼此的界限不分明, 這樣的單元在信號處理上是很難定位、 很難進行自動切分的. 為了解決這個問題, 有的系統(tǒng)就采用較大的言語單位如音節(jié)或詞作為處理單元.盡管同音位相比, 音節(jié)和詞是相對穩(wěn)定的語音單位, 但是, 類似于音位方面的問題在這里依然存在. 因為至少在音節(jié)或詞的邊界上, 仍然存在相鄰音位之間的音聯(lián)問題, 因而每個音節(jié)或詞在語流中
5、也是隨環(huán)境而變的. 如果要用它們來生成連續(xù)話語或者以它們作為識別單 元的話, 那么, 所需的語料庫就必須存儲每個音節(jié)和詞的所有可能的環(huán)境變體. 顯然, 這在實際上是很難做到的, 更不用說怎樣滿足無限詞匯的話語生成和大詞匯量、非特定人、連續(xù)話語識別的需要了. 即使在有限詞匯的小型系統(tǒng)中可以采用這種方法建庫的話, 其中也必然包含大量不必要的存儲消耗, 因為各個環(huán)境變體無法共享語料. 于是, 言語工程方面又轉(zhuǎn)向某些低于詞(subword)的、甚至次音位(subphoneme)的探索. 終于發(fā)現(xiàn), 半音節(jié)或雙音子和三音子大小的單元是能夠覆蓋言語中音聯(lián)現(xiàn)象、 便于建立協(xié)同發(fā)音模型的、比較理想的語音處理單
6、元(Lee, 1990). 引進隨環(huán)境而定的音子的概念開創(chuàng)了一個建立低于詞的模型的新方法. 所謂音子(phone), 是語音之間在聲學上連貫的、粘著的部分, 它對應于聲學上的音段(Keller, 1995). 它跟音位或音素不同. 音位是區(qū)別性的語音, 對應于聽覺上的音段. 通常, 聲學上的音段多于聽覺上的音段. 例如, 漢語的音節(jié)"八"在聽感上是由/b/和/a/兩個區(qū)別性的音段構成的; 然而, 在聲學上, 則除了/b/和/a/以外, 在它們之間還存在著音聯(lián), 即那個由于協(xié)同發(fā)音而產(chǎn)生的過渡音段, 這些在聲學上就叫作音子. 它們雖然不是區(qū)別性的語音, 但卻是自然言語中普遍存
7、在的、語音處理上難于回避的語音現(xiàn)象. 雙音子(diphone) 通常是由一個語音單元的末尾部分跟下一個單元的開頭部分構成的, 它可以當 做相鄰語音音段之間的過渡音來用(Klatt, 1987; Olive & Spickenagel, 1976). 三音子(triphone)是另一種理想的聲學音段, 它考慮了一個音位或音素左右兩方面的語音環(huán)境 (Lee, 1990), 通常包括這個音素與它的左鄰音素之間的過渡段、這個音素本身以及它跟右鄰音素之間的過渡段.作為一種聲學音段, 雙音子已經(jīng)在合成和識別中、尤其是在拼接式 (concatinative) 合成系統(tǒng)中得到廣泛運用(Bhaskara
8、rao et al, 1991; Levre,1986), 因為這種音段能夠捕獲語音的所有瞬間狀態(tài)及過渡信息, 能夠有效地提高合成語音的音質(zhì)和對連續(xù)話語的識別率. 所以,在漢語識別方面,人們也已經(jīng)開始嘗試運用這種方法,而且取得了較好的效果。2.0 漢語雙音子和三音子結構系統(tǒng) 2.1 漢語語音的結構特點與語音處理單元的選擇 人們常說, 漢語是個音節(jié)語言. 一個漢字對應于一個音節(jié), 清清楚楚, 在言語處理上采用音節(jié)作單元應該是最理想的. 而且, 漢語的音節(jié)數(shù)目有限, 相應的語料庫最多存儲一千多個音節(jié)就行了. 然而, 語音畢竟不同于文字, 言語畢竟不同于文本. 文本包含數(shù)目有限的分列符號, 而言語卻
9、包含著無數(shù)連續(xù)變化的語音信號. 漢語音節(jié)的語音同樣也是隨環(huán)境而變的, 語流中音節(jié)的邊界上同樣也存在著復雜的音聯(lián)現(xiàn)象. 所以, 就漢語連續(xù)話語而 言, 以音節(jié)作為合成單元或者在音節(jié)平面上建立識別模型都行不通. 在這種情況下, 人們只好另辟蹊徑. 半音節(jié)的方法就是其中之一, 它首先是在拼接合成中應用的, 現(xiàn)在已開始 被自動識別方面采用. 以半音節(jié)為單元跟以聲母和韻母為單元很相似, 但又不完全相同. 以半音節(jié)為單元可以較好地解決音節(jié)內(nèi)聲母韻母的平滑連接問題, 不過, 仍然不能很好地解決音節(jié)之間的音聯(lián)問題. 雙音子和三音子就能彌補這個缺陷. 而且, 已經(jīng)有試驗表明,在連續(xù)話語識別中采用雙音子和三音子可
10、以明顯地提高識別率(祖漪清, 1995). 還有人主張在識別中采用半音節(jié)跟三音子相結合的辦法(Lee, 1990), 這應該是一條更好的出路. 因此, 搞清楚漢語的雙音子和三音子結構系統(tǒng), 對于漢語語音處理顯然是具有現(xiàn)實意義的. 2.2 漢語的雙音子結構 漢語普通話共有1000多個音節(jié), 即使不計聲調(diào)區(qū)別, 也有400多個, 它們是由38個韻母跟22個聲母結合而成的. 一般說來, 多數(shù)音節(jié)內(nèi)部都包含著2-3個雙音子結構. 不過, 多數(shù)雙音子是可以為不同音節(jié)共享的. 例如,音節(jié)"金"/jin/里的第一個雙音子可以跟 "京" /jing/里的第一個(這里用j
11、'i表示)共享. 所以, 音節(jié)內(nèi)部的雙音子總數(shù)只有100多個. 漢語音節(jié)之間的雙音子結構就比較復雜一些, 因為每一個音節(jié)都有可能跟包括它自身在內(nèi)的音節(jié)毗鄰. 例如, 音節(jié)"介"/jie/與"紹"/shao/相連, 就會產(chǎn)生一個音節(jié)間的雙音子(這里用e-sh表示); 相反, 如果是"紹"與"介" 鄰接, 它們之間又會產(chǎn)生另一個雙音子o-j. 但是, 這種音節(jié)間的雙音子大多數(shù)也是能共享的, 因而可以大幅度地歸納合并. 根據(jù)普通話的語音結構規(guī)則, 音節(jié)間雙音子的總數(shù)可以歸納為300余個. 2.3 漢語的三音子結構
12、 三音子涉及一個音素左右兩方面的語音環(huán)境, 所以, 這種結構的數(shù)目要比雙音子的多得多. 特別是音節(jié)間的三音子, 不但數(shù)目多, 而且結構復雜. 根據(jù)初步研究結果, 普通話里有270多個音節(jié)內(nèi)三音子和3700余個音節(jié)間三音子,它們在結構上可以分為兩類. 2.3.1 1+2式: 這類三音子是由一個單音子(monophone)和一個雙音子構成, 它以后音節(jié)的起首音為核心,可以用前一個音節(jié)末尾的音素跟后一個音節(jié)起首的兩個音素來代表,所以叫做1+2式。例如, "這" 與 "類" 兩個音節(jié)間的三音子就可用e-l'e來代表, 通常寫作l(e,e), 它表示這兩個
13、音節(jié)邊界上的/l/在左右兩個/e/的環(huán)境中生成的聲學音段. 由此可見,這類三音子實際上是由前音節(jié)的尾音跟后音節(jié)的起首雙音子結合而成的。在普通話里,所有的尾音可以歸納為11個,所有音節(jié)的起首雙音子可以歸納為110個。因此,由它們結合而成的音節(jié)間三音子共有1200多個。 2.3.2 2+1式: 這類三音子是以前音節(jié)的尾音為核心,它可以用前一個音節(jié)末尾的兩個音素跟后一個音節(jié)起始的音素來代表,所以叫做2+1式. 例如, "這" 與 "類" 之間的另一個三音子就是zh'e-l,它表示邊界上的/e/ 在左右環(huán)境分別為/zh/ 和 /l/時產(chǎn)生的聲學音段. 這
14、類三音子實際上是由前音節(jié)的收尾雙音子和后音節(jié)的起首音結合而成的。在普通話里,所有音節(jié)的收尾雙音子可以歸納為93個,所有音節(jié)的起首音可以歸納為28個,因而這樣構成的音節(jié)間三音子共有2500多個。 根據(jù)上述分析,漢語普通話里雙、三音子結構從絕對數(shù)目來看似乎相當大, 但是, 若從它們的實際應用價值來看還是相當?shù)湫途毜? 這是因為: 第一, 從結構上看, 上述音節(jié)間三音子實際上不但包括了音節(jié)間的雙音子,而且還涵蓋了所有的基本音節(jié)的音韻結構,因而也就包含了所有的音節(jié)內(nèi)雙音子和三音子。因此,漢語里雙音子和三音子結構的總數(shù)實際上只有3700多個。 第二, 這個系統(tǒng)的歸納是建立在相對窮盡的原則基礎上的. 就
15、是說, 它是根據(jù)普通話語音結構規(guī)律, 給出了所有可能出現(xiàn)的雙、三音子, 能夠全面覆蓋普通話里的音聯(lián)現(xiàn)象, 滿足連續(xù)話語合成和識別的需要. 從這個角度看, 3000多個結構應該是非常有限的了; 第三, 這個系統(tǒng)所包含的是理論上可能存在的最多的數(shù)目, 在實際語言里, 有許多語音環(huán)境是非常相似的, 比如,在某一語音環(huán)境里,相同發(fā)音部位的一組輔音具有相似的聲學過渡,因而可以共享一組音子. 這樣, 經(jīng)過合理的歸并, 就可以獲得本質(zhì)上較少的、隨環(huán)境而定的、概括的音子結構。 第四, 根據(jù)現(xiàn)有的語音研究結果來看, 某些語音單元之間的音聯(lián)關系不太密切, 也就是說, 在它們交界處的語音變化不明顯, 在語音處理上或
16、許可以忽略不計. 因此, 相應的雙音子或三音子就可進一步簡化. 總之, 普通話的雙音子和三音子結構最多可能有3000多個, 根據(jù)不同語音處理系統(tǒng)的具體要求, 可以進行不同程度的簡化和歸并, 最少可以合并為十幾個主要的結構模式.3.0 普通話雙音子、三音子結構語料集的設計 3.1 語音樣本收集的原則一般說來,、最大覆蓋面和最小冗余度是語料庫收集語料的一個基本原則。普通話雙、三音子結構語料庫的語料收集也不例外。但是,要實現(xiàn)這個原則并不那么容易。通常,語料庫的語料收集往往采取隨機取樣的辦法,選用一定范圍內(nèi)的自然語料作為基礎,然后通過逐步擴大規(guī)模來達到盡可能擴大語言信息覆蓋面的目的。這種方法的主要缺陷
17、就是語料的冗余量太大,而且只能大致覆蓋所需要的語言信息。為了克服這種局限性,人們在建設語料庫的時候,已經(jīng)越來越重視運用語言學知識來指導語料庫的設計,以便運用已經(jīng)掌握的、顆粒較大的語言結構知識來生成尚未掌握的、顆粒較細的語言變化知識。這正是我們這里的語料設計所貫徹的根本原則。本文涉及的語料庫實際上是個語音音聯(lián)樣本集,主要是為研究語音的環(huán)境變異用的,同時也為自然語音處理方面建立更加實用的語料庫提供一個應用的基礎。根據(jù)這個具體目的,所謂達到最大覆蓋面,就是要保證所用的語料能夠全面覆蓋普通話里所有的雙音子和三音子結構,從而達到相對窮盡地反映實際話語里可能存在的語音變化現(xiàn)象。所謂最小冗余度,就是所收的語
18、料要盡可能做到語音上的簡潔(compact),實現(xiàn)音節(jié)間或詞間的資料共享。為此,我們根據(jù)普通話的音韻配列規(guī)則,有計劃、有目的地選編語料。這樣,既保證了相對窮盡地覆蓋連續(xù)話語里可能存在的各種語音搭配,又避免了不必要的語料重復,可供語音處理各方參考應用。3.2 語料組織雙音子或三音子存在于不同層次上各種語音單元之間, 例如, 在音節(jié)內(nèi)部,它們存在 于不同的音位或音素之間; 在詞或短語內(nèi)部, 它們還存在于音節(jié)或詞之間,但是,歸根結蒂還是存在于兩個音節(jié)的相鄰音段之間. 由于普通話音節(jié)間的三音子就能夠包括音節(jié)內(nèi)外全部的雙音子和三音子, 因此, 這個庫所需要的語料,只要能夠包含這3700多個音節(jié)間三音字所
19、代表的語音搭配就可以了。當然, 在自然話語中, 不同層次上音聯(lián)關系的緊密程度不同,因而相應的雙音子或三音子所代表的語音變化的程度也有差異。如若完全采用自然的連續(xù)話語作為這個庫的語音樣本, 那是最為理想的。可是,自然話語是個隨機過程,各種語音信息的分布也是隨機的,而語料庫的語音樣本收集是有選擇的,這種隨機性跟選擇性之間的矛盾,決定了我們不可能完全采用自然語料,而只能夠選、編結合;同時,根據(jù)初步的觀察分析,相同的語音搭配之間盡管由于所在語音層次的不同,其協(xié)同發(fā)音的程度有所不同,但是,由協(xié)同發(fā)音引起的音變方向卻是一致的。所以,作為基本的音聯(lián)樣本集,可以暫不考慮不同層次上的細微差異。因此,本語料集本著
20、從簡的原則,只用3700余個兩音節(jié)結構作為基本語料。從某種意義上說,這個樣本雞是一個關于普通話連續(xù)語音搭配的、顆粒較粗的知識庫,有關方面可以根據(jù)這些基本的搭配模式,通過選用更為理想的自然語料而獲得有關連續(xù)語音變化的、更加精細的知識和規(guī)則。3.3 樣本舉例 3.3.1 1+2式: 狹隘 玩偶 把握 播音 均勻 馬匹 司法 華北 項目 煥發(fā) 華燈 旅途 智能 順路 工農(nóng) 八股 字庫 落后 篡改 恭候 制造 歌詞 綠色 短促 譴責 法制 駁斥 往事 應酬 通融 割據(jù) 時期 東西 驚奇 垃圾 3.3.2 2+1式: 同意 產(chǎn)物 可愛 刺耳 機遇 代碼 虛胖 失敗 破滅 庫房 液體 發(fā)難 提煉 本地 熱
21、帶 挖苦 罷工 特刊 詞匯 坑害 懊喪 摩擦 得罪 庫存 勤雜 牙齒 把守 列入 鼓掌 竟然 云霞 班級 泥鰍 和諧 查詢參考文獻 許毅, 1989, 音節(jié)和音聯(lián), 實驗語音學概要, 高等教育出版社, 北京.Bhaskararao, P., S. J. Eady, and J. H. Esling, 1991. Use of triphones for demisyllable -based speech synthesis, Proc. of ICASSP-1991, 11.Keller, E., 1995. Fundamentals of Speech Synthesis and Speech Recognition, John Wiley & Sons, New York
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《陜西省物業(yè)服務合同(示范文本)》
- epc合同財務審核要點
- 《北京市志愿服務協(xié)議書》示范文本
- 《山東工商學院人才引進合同》
- 2025借款抵押合同范文
- 2025教學科研崗位聘任合同范本
- 二零二五年度汽車行業(yè)實習生試用服務協(xié)議3篇
- 2024年版環(huán)保工程分包合作協(xié)議書
- 二零二五年度人工智能項目合作協(xié)議范本2篇
- 2024智慧城市數(shù)據(jù)采集與分析服務合同
- 中醫(yī)護理技術之耳針法課件
- 人工開挖土方施工方案
- 佛山市順德區(qū)2023-2024學年四上數(shù)學期末質(zhì)量檢測模擬試題含答案
- 環(huán)境毒理學(全套課件499P)
- 成品煙道安裝施工方案
- 耳部銅砭刮痧技術評分標準
- 2022年初中歷史課程標準電子版
- 數(shù)據(jù)庫原理與應用課后習題答案李春葆 編
- 因公出國教育談話記錄
- 工程勘察設計收費標準(2002年修訂本)完整版
- 湖北世界最大跨度三塔全懸吊懸索長江大橋建設移交B投標文件
評論
0/150
提交評論