



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、https:/基于規(guī)則及基于規(guī)則及 N gram 模型的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成哈薩克模型的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成哈薩克語讀音文字的方法語讀音文字的方法摘要:語音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域。哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音文本是語音合成中重要的預(yù)備工作。該文利用規(guī)則庫和 N-gram,實(shí)現(xiàn)了文本當(dāng)中的各類數(shù)字正確的轉(zhuǎn)換到讀音,為哈薩克語語音合成研究,提供了高質(zhì)量的數(shù)字讀音文本。希望通過該文提供的方法來提高哈薩克文以及相似特性的其他語種的語音合成的質(zhì)量。關(guān)鍵詞:哈薩克語;數(shù)字讀音;規(guī)則庫;N-gram中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)14-015
2、8-021 概述哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,拼音文字,中國(guó)的哈薩克文借用了阿拉伯語和部分波斯文字母。哈薩克文信息處理技術(shù)在近幾年來國(guó)家的支持下已取得了很多的進(jìn)步,但現(xiàn)有成果離真正實(shí)現(xiàn)中國(guó)語言文字信息處理的要求還有很大的距離。語音識(shí)別是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域,在當(dāng)今信息社會(huì)有著廣泛的應(yīng)用前景。把哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為文本(下文均簡(jiǎn)稱數(shù)字轉(zhuǎn)文本)是哈薩克語語音合成當(dāng)中不可缺少的前期工作,其轉(zhuǎn)換質(zhì)量直接影響到語音合成的合成效果。雖然到目前為止在語音合成方面的研究工作取得了很多成果,但是數(shù)字轉(zhuǎn)文本方面還存在很多問題,并且影響到了語音合成的質(zhì)量。本文把哈薩克阿拉
3、伯文作為主要處理對(duì)象,把哈薩克文本當(dāng)中的數(shù)字轉(zhuǎn)換為哈薩克阿拉伯文字形式。這為建立哈薩克文本的發(fā)音詞典起了重要的輔助作用。本文把底職炊練治三大類:每一位單獨(dú)轉(zhuǎn)換,每?jī)晌灰黄疝D(zhuǎn)換和所有位數(shù)一起轉(zhuǎn)換。按數(shù)字類型人工收集了包含八種基本數(shù)據(jù)類型的規(guī)則庫,分別為:年、月、日、固定電話號(hào)碼(不包含地區(qū)號(hào))、固定電話號(hào)碼(包含地區(qū)號(hào))、地區(qū)號(hào)、手機(jī)號(hào)和身份證號(hào)。利用此規(guī)則庫,權(quán)重累加的方式確定當(dāng)前數(shù)字類型。按數(shù)字類型確定讀法,并轉(zhuǎn)換為文本。本文還考慮一個(gè)句子出現(xiàn)多種數(shù)字類型的情況,利用 N-gram 模型限制每種數(shù)字類型上下文匹配長(zhǎng)度,減少數(shù)字類型判斷的錯(cuò)誤。2 哈薩克文數(shù)字讀法規(guī)則相同的數(shù)字在不同的文本中可
4、有不同的含義和類型,因此讀法也不一樣。本文把數(shù)字讀法類型分為三類,分別為:第一種,是數(shù)量、等級(jí)、年、月、日之類的,讀音有所有位數(shù)共同確定。比如:https:/3 數(shù)字轉(zhuǎn)換讀音的方法3.1 建立數(shù)字讀音庫為了通過組合的方式方便快速地確定哈薩克文中的數(shù)字文本,建立了數(shù)字的哈薩克語讀音庫。詞庫包含了哈薩克語當(dāng)中基本數(shù)字的讀音,通過組合就能得到較為復(fù)雜數(shù)字的發(fā)音。用此數(shù)字讀音庫,遞歸的方式,進(jìn)行各類數(shù)字的組合。基本數(shù)字讀音庫如表 1 所示。3.2 創(chuàng)建規(guī)則庫為了準(zhǔn)確判斷每一種數(shù)字的類型,按照一定的格式,以人工的方式建立的規(guī)則庫。此規(guī)則庫包含了數(shù)字該有的基本特性,可能有的次要特性和文本中要判斷的 N-g
5、ram 模型的長(zhǎng)度。下面以年這個(gè)數(shù)據(jù)類型為例,規(guī)則庫的規(guī)則模版如表 2 所示:表 1 中每一項(xiàng)具體含義如下:1)規(guī)則數(shù)量:此規(guī)則庫包含的 N6-數(shù)字類型2)規(guī)則名:當(dāng)前規(guī)則名稱3)最少位數(shù):當(dāng)前類型數(shù)字最小的位數(shù)4)最長(zhǎng)位數(shù):當(dāng)前類型數(shù)字最長(zhǎng)的位數(shù)5)最小值:當(dāng)前類型數(shù)字的最小值6)最大值:當(dāng)前類型數(shù)字的最大值7)OR 中間字符:數(shù)字之間可能包含的次要字符(多個(gè)字符用空格分開,沒有時(shí)填 None)8)OR 前驅(qū)字符:數(shù)字之前可能包含的次要字符(多個(gè)字符用空格分開,沒有時(shí)填 None)9)OR 后驅(qū)字符:數(shù)字之后可能包含的次要字符(多個(gè)字符用空格分開,沒有時(shí)填 None)10)AND 中間字符:
6、數(shù)字之間可能包含的必要字符(多個(gè)字符用空格分開,沒有時(shí)填 None)11)AND 前驅(qū)字符:數(shù)字之前可能包含的必要字符(多個(gè)字符用空格分開,沒有時(shí)填 None)12)AND 后驅(qū)字符:數(shù)字之后可能包含的必要字符(多個(gè)字符用空格分開,沒有時(shí)填 None)https:/13)Ngram:判斷數(shù)字類型時(shí)搜索的上下文長(zhǎng)度(0 表示全句,其他數(shù)字表示實(shí)際搜索上下文長(zhǎng)度)14)讀法:當(dāng)前類型數(shù)字的讀法類型(Alhogather)規(guī)則庫中的規(guī)則數(shù)量值固定為 8,代表本文涉及的 8 種數(shù)據(jù)類型(在規(guī)則庫首部);規(guī)則名表示該規(guī)則類型名,便于建立和觀察,如年。最少位數(shù)、最長(zhǎng)位數(shù)、最小值、最大值用于判斷數(shù)字類型基本
7、性質(zhì)。OR 中間字符、OR 前驅(qū)字符、OR 后驅(qū)字符、AND 中間字符、AND 前驅(qū)字符和 AND 后驅(qū)字符用于計(jì)算數(shù)字類型的權(quán)重。每一種字符的權(quán)重賦為一,數(shù)據(jù)的權(quán)重是通過判斷當(dāng)前數(shù)據(jù)滿足幾個(gè)字符條件而累加得到。Ngram 和讀法用于搜索長(zhǎng)度和確定該類型相應(yīng)的讀法規(guī)則。3.3 判別數(shù)字類型根據(jù)規(guī)則庫對(duì)哈薩克文本語料中的每一句按 N-gram 長(zhǎng)度進(jìn)行匹配,確定當(dāng)前句子符合規(guī)則庫中的幾條,從而得到當(dāng)前判斷選項(xiàng)相應(yīng)的權(quán)重。重復(fù)以上步驟,得到所有數(shù)字類型的權(quán)重以后,選出權(quán)重最大的數(shù)字類型。按此類型的讀法規(guī)則進(jìn)行數(shù)字轉(zhuǎn)文本并用阿拉伯?dāng)?shù)字的文本表示替換原文中的數(shù)字表示。實(shí)驗(yàn)的總流程圖如下圖 1 所示:流
8、程圖所示,輸入一句哈薩克語句,第一步:先判斷當(dāng)前句子是否包含數(shù)字,如果是,則確定句子中數(shù)字的位置,記錄開始位置和結(jié)束位置。如果一個(gè)句子中有一個(gè)以上的數(shù)字,分別都記錄開始和結(jié)束位置;第二步:按 N-gram 長(zhǎng)度進(jìn)行規(guī)則庫的匹配,按規(guī)則庫中條件字符是否存在,包含幾條,來計(jì)算出相應(yīng)的權(quán)重;第三步:按權(quán)重值的大小確定數(shù)字類型,利用數(shù)字類型和讀法規(guī)則組成此數(shù)字的標(biāo)準(zhǔn)讀音文本,并替換到原文本中。4 實(shí)驗(yàn)結(jié)果與分析按上述流程圖進(jìn)行實(shí)驗(yàn),用 4000 句哈薩克文本進(jìn)行數(shù)字轉(zhuǎn)文本。得到的實(shí)驗(yàn)結(jié)果如下表 3 所示:由以上實(shí)驗(yàn)結(jié)果可以看出,用本文中提出的方法能夠成功的把哈薩克文本中的大部分阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音的文本。5 結(jié)論語音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域,在當(dāng)今信息社會(huì)有著廣泛的應(yīng)用前景。本文用規(guī)則庫和 N-gram,模型,把哈薩克文本中的數(shù)字轉(zhuǎn)文本。此技術(shù)在哈薩克語語音合成的研究當(dāng)中,為建立哈薩克文本的發(fā)音詞典起到重要的輔助作用。本研究為用少量的工作量得到大部分?jǐn)?shù)字讀音,做出了正確的策略。與此同時(shí)本研究中的方法均可用在于阿爾泰語系的其他語言,如柯爾克孜語、烏茲別克語等。https
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《生物與環(huán)境的關(guān)系》教學(xué)設(shè)計(jì)
- 2025年人教版小學(xué)數(shù)學(xué)一年級(jí)下冊(cè)期中考試卷(帶答案)
- 2025版合同管理員聘用合同
- 初中歷史明朝的統(tǒng)治課件+2024-2025學(xué)年統(tǒng)編版七年級(jí)歷史下冊(cè)
- 初中歷史明朝的滅亡和清朝的建立課件 2024-2025學(xué)年統(tǒng)編版七年級(jí)歷史下
- 阿米巴病的臨床護(hù)理
- 2025聘用圖書館管理員的合同
- 2025茶葉購銷合同范本
- 新質(zhì)生產(chǎn)力發(fā)酵
- 2025國(guó)際貿(mào)易公司合同模板
- 2023-2024年《勞務(wù)勞動(dòng)合同樣本范本書電子版模板》
- 中國(guó)居民口腔健康狀況第四次中國(guó)口腔健康流行病學(xué)調(diào)查報(bào)告
- MOOC 數(shù)據(jù)挖掘-國(guó)防科技大學(xué) 中國(guó)大學(xué)慕課答案
- 中藥注射劑合理使用培訓(xùn)
- 第13課+清前中期的興盛與危機(jī)【中職專用】《中國(guó)歷史》(高教版2023基礎(chǔ)模塊)
- 2024年國(guó)家糧食和物資儲(chǔ)備局直屬事業(yè)單位招聘筆試參考題庫附帶答案詳解
- 蘇軾臨江仙課件大學(xué)語文完美版
- 《施工測(cè)量》課件
- 情緒健康管理服務(wù)規(guī)范
- 【環(huán)氧樹脂復(fù)合材料研究進(jìn)展文獻(xiàn)綜述6000字】
- 人行道混凝土專項(xiàng)施工方案
評(píng)論
0/150
提交評(píng)論