




免費(fèi)預(yù)覽已結(jié)束,剩余22頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
非監(jiān)督式學(xué)習(xí)於中文電視新聞自動(dòng)轉(zhuǎn)寫之初步應(yīng)用,郭人瑋、蔡文鴻、陳柏琳國立臺灣師範(fàn)大學(xué)資訊工程研究所,ExploitingUnsupervisedLearningtoMandarinTVNewsTranscription:AnInitialStudy,Jen-WeiKuo,Wen-HungTsai,BerlinChenSpeechLab,NationalTaiwanNormalUniversity,序論,動(dòng)機(jī)日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統(tǒng)上使用這些資訊,人工轉(zhuǎn)寫往往不易取得。解決方法非監(jiān)督式學(xué)習(xí)利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進(jìn)行自動(dòng)轉(zhuǎn)寫,並使用信心度評評估來加以篩選。非監(jiān)督式學(xué)習(xí)包含非監(jiān)督式聲學(xué)模型訓(xùn)練利用發(fā)音確認(rèn)技術(shù)來挑選較正確的語料。非監(jiān)督式聲學(xué)模型調(diào)適引入信心度評估來作聲學(xué)模型調(diào)適。非監(jiān)督式語言模型調(diào)適使用自動(dòng)轉(zhuǎn)寫的文字語料來作語言模型調(diào)適。非監(jiān)督式學(xué)習(xí)之流程與技術(shù),Introduction,Motivation日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統(tǒng)上使用這些資訊,人工轉(zhuǎn)寫往往不易取得。SolutionUnsupervisedLearning利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進(jìn)行自動(dòng)轉(zhuǎn)寫,並使用信心度評評估來加以篩選。非監(jiān)督式學(xué)習(xí)包含UnsupervisedAcousticModelTraining利用發(fā)音確認(rèn)技術(shù)來挑選較正確的語料。UnsupervisedAcousticModelAdaptation引入信心度評估來作聲學(xué)模型調(diào)適。UnsupervisedLanguageModelAdaptation使用自動(dòng)轉(zhuǎn)寫的文字語料來作語言模型調(diào)適。,臺師大資工所新聞?wù)Z音辨識系統(tǒng),大詞彙連續(xù)語音辨識系統(tǒng)詞典建立:利用前後雙連機(jī)率來作為複合詞合併的依據(jù)。詞彙樹複製搜尋:為一種結(jié)合語言模型與聲學(xué)模型的動(dòng)態(tài)規(guī)劃搜尋演算法,配合語言模型前看分?jǐn)?shù)及光束剪栽能有效率的建立詞圖。詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進(jìn)行一次動(dòng)態(tài)規(guī)劃搜尋,找出最佳的詞句。,NTNULVCSRSystem,LargeVocabularyContinuousSpeechRecognitionSystem詞典建立:利用前後雙連機(jī)率來作為複合詞合併的依據(jù)。詞彙樹複製搜尋:為一種結(jié)合語言模型與聲學(xué)模型的動(dòng)態(tài)規(guī)劃搜尋演算法,配合語言模型前看分?jǐn)?shù)及光束剪栽能有效率的建立詞圖。詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進(jìn)行一次動(dòng)態(tài)規(guī)劃搜尋,找出最佳的詞句。,詞圖,圖一、語音辨識器所產(chǎn)生的詞圖,對應(yīng)的轉(zhuǎn)寫為豪雨不斷臺東兩人死亡,非監(jiān)督式學(xué)習(xí)之流程,大量語料,語音辨識,對應(yīng)的自動(dòng)轉(zhuǎn)寫(第一名詞序列),篩選,篩選,非監(jiān)督式聲學(xué)模型訓(xùn)練,聲學(xué)模型,語言模型,詞典,語音辨識系統(tǒng),詞彙樹複製搜尋,語音輸入,文字輸出,詞圖,詞彙樹複製搜尋,詞圖,MLLR,非監(jiān)督式聲學(xué)模型調(diào)適,詞圖搜尋,篩選,非監(jiān)督式語言模型調(diào)適,文字語料,語型言建模立,語言模型,少量人工轉(zhuǎn)寫語料,聲型學(xué)建模立,聲學(xué)模型,非監(jiān)督式學(xué)習(xí)技術(shù),候選詞事後機(jī)率,聲學(xué)信心,候選詞信心度評估,發(fā)音確認(rèn),非監(jiān)督式聲學(xué)模型訓(xùn)練,非監(jiān)督式語言模型調(diào)適,非監(jiān)督式聲學(xué)模型調(diào)適,候選詞事後機(jī)率,候選詞事後機(jī)率,根據(jù)觀察,以愈高階的語言模型進(jìn)行詞圖搜尋,候選詞之間的事後機(jī)率差異愈是懸殊,例如以三連語言模型進(jìn)行詞圖搜尋時(shí),第一名詞序列(Top1WordSequence)中的候選詞往往佔(zhàn)有超過0.95的事後機(jī)率,換句話說,語言模型所用的階層(Order)愈高,則候選詞事後機(jī)率愈受語言模型所影響。將式子作一點(diǎn)修正,引入信心度比例係數(shù)來解決。,候選詞事後機(jī)率,其中為信心度比例係數(shù)(ConfidenceScaleFactor),介於0與1之間,表示對聯(lián)合機(jī)率施以壓縮,使候選詞間的事後機(jī)率差異變小。當(dāng)?shù)褥?時(shí),則表示刻度不變;當(dāng)?shù)褥?時(shí),事後機(jī)率為均勻機(jī)率(UniformProbability)。,聲學(xué)信心,臺東(taa_iduueng),ta,a_i,du,ueng,sic_a,sic_o,sil,候選詞信心度評估,候選詞信心度評估為候選詞事後機(jī)率與聲學(xué)信心的線性組合。,其中與為權(quán)重參數(shù),在以下的非監(jiān)督式聲學(xué)模型訓(xùn)練中,我們均設(shè)為0.5。,發(fā)音確認(rèn),決定某語句是否予以挑選成為非監(jiān)督式訓(xùn)練的語料。發(fā)音確認(rèn)可視為一個(gè)決斷函數(shù),根據(jù)平均候選詞信心度評估,來決定自動(dòng)轉(zhuǎn)寫產(chǎn)生的第一名詞序列是否能成為訓(xùn)練語料。其中為篩選的基準(zhǔn)閥值。,非監(jiān)督式聲學(xué)模型調(diào)適,大多數(shù)的非監(jiān)督式聲學(xué)模型調(diào)適僅取第一次辨識所產(chǎn)生的第一名詞序列來做聲學(xué)模型調(diào)適的依據(jù)。然而語音辨識的錯(cuò)誤可能會對聲學(xué)模型調(diào)適造成影響,使得調(diào)適效果有限。我們嘗試使用候選詞信心度評估為詞圖上的候選詞進(jìn)行加權(quán),使得每一個(gè)候選詞依其信心度評估分?jǐn)?shù)對模型調(diào)適都有不同程度的貢獻(xiàn)。,非監(jiān)督式聲學(xué)模型調(diào)適,演算法:測試語句經(jīng)由詞彙樹複製搜尋(Tree-CopySearch),產(chǎn)生詞圖(WordGraph)。利用Forward-Backward演算法在詞圖上進(jìn)行詞圖搜尋(WordGraphRescoring),為詞圖上的每一候選詞求出其對應(yīng)的信心度評估。針對每一候選詞的語音段落,再使用一次狀態(tài)層次(StateLevel)Forward-Backward演算法,為每一音框(Frame)t及狀態(tài)(State)i求其事後機(jī)率。,非監(jiān)督式聲學(xué)模型調(diào)適,演算法:最後,將乘上所屬候選詞的事後機(jī)率,並對所有候選詞語音段落加總??傻靡艨驎r(shí)t,狀態(tài)i的事後機(jī)率。重覆上述步驟,收集MLLR模型調(diào)適時(shí)所需的統(tǒng)計(jì)量,並進(jìn)行MLLR模型調(diào)適。,廣播及電視新聞?wù)Z料,初始聲學(xué)模型:大約4小時(shí)語料收錄於1998至1999年之間。所有的語料都經(jīng)由人工切割為一則一則的新聞?wù)Z音檔,每一則新聞均由一個(gè)主播所播報(bào),性別上男女都有。某些檔案因錄音的關(guān)係,含有相當(dāng)大的背景雜訊。初始語言模型:收錄2000及2001年中央社的新聞。約含有162M個(gè)中文字。,廣播及電視新聞?wù)Z料,公視新聞?wù)Z料為中央研究院資訊所口語小組耗時(shí)三年與公共電視臺合作錄製完成,預(yù)計(jì)將收錄200小時(shí)的廣播新聞。公視新聞?wù)Z料大致上可分內(nèi)場及外場兩個(gè)部份,內(nèi)場部分主要為主播(StudioAnchors)的語料,外場部分主要為記者(FieldReporters)與受訪者(Interviewees)的語料。經(jīng)由統(tǒng)計(jì),MATBN2002與MATBN2003共120小時(shí)的語料內(nèi),只含有五位主播,其中以葉明蘭主播的語料佔(zhàn)絕大多數(shù),約85%,使得要在內(nèi)場中定義出一套較具代表性的訓(xùn)練及測試語料,顯得有些困難。,廣播及電視新聞?wù)Z料,本實(shí)驗(yàn)的訓(xùn)練語料,廣播及電視新聞?wù)Z料,本實(shí)驗(yàn)的測試語料,非監(jiān)督式聲學(xué)模型調(diào)適基礎(chǔ)實(shí)驗(yàn),基礎(chǔ)實(shí)驗(yàn)與非監(jiān)督式聲學(xué)模型調(diào)適之語音辨識結(jié)果:嘗試改變信心度比例係數(shù)與計(jì)算候選詞事後機(jī)率時(shí)語言模型的階層。MLLR(Top1)為傳統(tǒng)只取用第一名辨識結(jié)果詞序列來做MLLR調(diào)適;MLLR(CM)為引入信心度評估的MLLR調(diào)適。字錯(cuò)誤率減少百分比為相對於無聲學(xué)模型調(diào)適之字錯(cuò)誤率。,MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),非監(jiān)督式聲學(xué)模型訓(xùn)練實(shí)驗(yàn)結(jié)果,非監(jiān)督式聲學(xué)模型訓(xùn)練在使用不同基準(zhǔn)閥值下的語音辨識結(jié)果。Thr為非監(jiān)督式聲學(xué)模型訓(xùn)練用以選取語句之基準(zhǔn)閥值,MLLR(CM)為引入信心度評估的MLLR調(diào)適,信心度比例係數(shù)在此設(shè)為1/16。同一列中,MLLR括弧內(nèi)的數(shù)據(jù)為相對於無聲學(xué)模型調(diào)適時(shí)字錯(cuò)誤率減少百分比。最後一列的監(jiān)督式訓(xùn)練為對照組。,非監(jiān)督式語言模型調(diào)適實(shí)驗(yàn)結(jié)果,自動(dòng)轉(zhuǎn)寫用於語言模型調(diào)適的語音辨識結(jié)果。Thr為非監(jiān)督式聲學(xué)模型訓(xùn)練用以選取語句之基準(zhǔn)閥值,括弧內(nèi)之?dāng)?shù)據(jù)為相對於無語言模型調(diào)適之字錯(cuò)誤率減少百分比。,領(lǐng)域內(nèi)之語言模型調(diào)適實(shí)驗(yàn)結(jié)果,領(lǐng)域內(nèi)語言模型調(diào)適的語音辨識結(jié)果。MLLR(CM)為引入信心度評估的MLLR調(diào)適,信心度比例係數(shù)在此設(shè)為1/16。,結(jié)論與未來展望,發(fā)音確認(rèn)能有效地挑選較為可靠的語料來進(jìn)行訓(xùn)練,節(jié)省大量的人力進(jìn)行人工轉(zhuǎn)寫,使龐大的語料能被運(yùn)用。信心度評估也使得詞圖上更多的資訊能應(yīng)用在非監(jiān)督式聲學(xué)模型調(diào)適上,不再只侷限於
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中化學(xué)課程跨學(xué)科實(shí)踐活動(dòng)案例設(shè)計(jì)與實(shí)施研究
- 生物化學(xué)(第4版)課件 第10章 基因的遺傳和表達(dá)
- 基于脾腎互贊理論從miR-335-LATS1-YAP-β-catenin通路探討補(bǔ)腎健脾方干預(yù)失重性O(shè)S的機(jī)制研究
- 電芯極耳超聲焊接技術(shù)及應(yīng)用
- 《社會財(cái)務(wù)共享服務(wù)實(shí)務(wù)》課件-領(lǐng)域1任務(wù)2-05.票據(jù)錄入-費(fèi)用類票據(jù)
- 燈具設(shè)計(jì)創(chuàng)新
- 健康秋天的果實(shí)
- 糖尿病的營養(yǎng)治療與護(hù)理
- 腎內(nèi)科護(hù)理教學(xué)
- 《網(wǎng)頁設(shè)計(jì)與制作》課件-第8章Dreamweaver入門
- 中小學(xué)家長會期中期末家長會253
- 驅(qū)動(dòng)電機(jī)與電機(jī)控制器
- 2024年便攜式儲能行業(yè)分析報(bào)告
- 醫(yī)聯(lián)體協(xié)議書(2024版)
- 2023年全國職業(yè)院校技能大賽-中藥傳統(tǒng)技能賽項(xiàng)規(guī)程
- 11 《愛蓮說》對比閱讀-2024-2025中考語文文言文閱讀專項(xiàng)訓(xùn)練(含答案)
- 動(dòng)物園野生動(dòng)物馴養(yǎng)繁殖或馴養(yǎng)觀賞可行性研究報(bào)告
- 煤礦開掘技術(shù)操作規(guī)程
- 2023年上海市長寧區(qū)高三年級下冊二模英語試卷含詳解
- 肺功能進(jìn)修總結(jié)匯報(bào)
- GB/T 3428-2024架空導(dǎo)線用鍍鋅鋼線
評論
0/150
提交評論