![中文語音文件摘要使用主題混合模型_第1頁](http://file4.renrendoc.com/view/c41ea6790ec7c5c9bf6eb6142d085666/c41ea6790ec7c5c9bf6eb6142d0856661.gif)
![中文語音文件摘要使用主題混合模型_第2頁](http://file4.renrendoc.com/view/c41ea6790ec7c5c9bf6eb6142d085666/c41ea6790ec7c5c9bf6eb6142d0856662.gif)
![中文語音文件摘要使用主題混合模型_第3頁](http://file4.renrendoc.com/view/c41ea6790ec7c5c9bf6eb6142d085666/c41ea6790ec7c5c9bf6eb6142d0856663.gif)
![中文語音文件摘要使用主題混合模型_第4頁](http://file4.renrendoc.com/view/c41ea6790ec7c5c9bf6eb6142d085666/c41ea6790ec7c5c9bf6eb6142d0856664.gif)
![中文語音文件摘要使用主題混合模型_第5頁](http://file4.renrendoc.com/view/c41ea6790ec7c5c9bf6eb6142d085666/c41ea6790ec7c5c9bf6eb6142d0856665.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
中文語音文件摘要使用主題混合模型陳怡婷、游斯涵、李家豪、陳柏琳GraduateInstituteofComputerScience&InformationEngineeringNationalTaiwanNormalUniversity1outline前言摘要模型詞層次混合模型(w-TMM)實驗設(shè)定餘弦評估ROUGE評估實驗結(jié)果結(jié)論與未來展望前言網(wǎng)際網(wǎng)路已成為現(xiàn)代人獲取資訊的主要來源,大量的資訊傳遞與分享於全球各地。而一些具時序系的多媒體影音內(nèi)容,往往長達(dá)數(shù)分鐘或數(shù)小時,造成使用者在瀏覽及查詢上,花費大量的時間。自動語音文件摘要的目的即在解決此種問題,讓使用者可以快速且方便地了解影音文件或檔案的要點與主題資訊。目前一般常見的摘要式自動摘要方法大致上可分為三大類,分別是:以文句結(jié)構(gòu)或位置為基礎(chǔ)以索引特徵統(tǒng)計值為基礎(chǔ)以機率模型為基礎(chǔ)摘要模型詞層次混合模型(w-TMM)
詞層次主題混合模型將每個詞視為包含K潛藏主題的機率模型,每ㄧ個詞對於不同的潛藏主題有不同權(quán)重值,並且同時在不同的潛藏主題下每ㄧ個詞的機率分佈亦有所不同。每ㄧ個詞與另ㄧ個詞之間的關(guān)係可透過K個潛藏主題來表示:
:為unigrammodel,表示詞於潛藏主題中的機率分佈:詞的對於潛藏主題的權(quán)重值:詞的詞模型生成詞的機率摘要模型對於一篇被摘要語音文件D,文件D與文件D中的任ㄧ文句的相關(guān)程度,可由文句中所有的詞的主題混合機率模型生成文件D中所有詞的機率來決定::滿足:詞對於潛藏主題的權(quán)重:文件中詞於潛藏主題中的機率分佈實驗設(shè)定1.實驗語料文件語音文件收集於News98新聞網(wǎng)2001年8月1日至
8月24日中午12:00到13:00的FM廣播新聞,ㄧ共200則廣播新聞。自動轉(zhuǎn)寫部分為師大資工所LVCSR辨識後之結(jié)果,其辨識字正確率達(dá)85.83%。實驗設(shè)定2.評估方式:
我們所採用的人工摘要結(jié)果包含有摘錄式摘要及非摘錄式摘要。摘錄式摘要依不同的摘要比例而產(chǎn)生不同長度的摘要內(nèi)容,例如:10%、20%、30%、50%等摘要比例。非摘錄式摘要根據(jù)特別摘要比例(例如:20%~30%)且針對文件內(nèi)容所重寫的摘要內(nèi)容。
實驗設(shè)定2.1餘弦評估此評估方法是以計算自動摘要與人工摘要結(jié)果的相關(guān)度作為評估標(biāo)準(zhǔn)。:某篇文章D之自動摘要m%摘要比例的結(jié)果:第z個人對文件D以摘錄方式選取m%摘要比例的結(jié)果:第z個人對文件D重寫摘要結(jié)果實驗設(shè)定2.2ROUGE評估
ROUGE是計算自動摘要結(jié)果與人工摘要結(jié)果的重疊單位元次數(shù),單位元可為N-連詞(N-gram)、詞順序(WordSequences)、詞對(WordPairs)。
以詞N-連單位元的評估為例,其計算公式如下::人工摘要結(jié)果集合:個別的人工摘要結(jié)果:自動摘要結(jié)果與人工摘要的重疊單位元次數(shù):單位元:人工摘要結(jié)果的單位元次數(shù)實驗結(jié)果1.基礎(chǔ)實驗結(jié)果:分別以向量空間模型(SVM)、最大臨界相關(guān)(MMR)、潛藏語意分析模型(LSA)、文句特徵值分?jǐn)?shù)方法(SIG)。機率式模型-隱藏式馬可夫模型(HMM)與主題混合模型(TMM)。實驗結(jié)果2.詞層次混合模型實驗結(jié)果我們將訓(xùn)練語料中的全部文件,共一萬四千多個檔案,與其對應(yīng)關(guān)係用於訓(xùn)練詞層次主題混合模型所需之機率值及。在使用詞層次主題混合模型於語音文件摘要時,我們會同時考慮每ㄧ個詞實際上出現(xiàn)於文句的機率分佈,並將其與式(3)結(jié)合成為:
之後,根據(jù)式(12)的機率值來進(jìn)行文句的排名。實驗結(jié)果實驗結(jié)果結(jié)論與未來展望多數(shù)的摘要方法均屬於逐字比對的方式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝批發(fā)居間合同委托書
- 知識產(chǎn)權(quán)運營股權(quán)居間合同
- 專業(yè)運動器材銷售與推廣合同
- 弱電項目總結(jié)
- 游戲規(guī)則與操作指南發(fā)布平臺建設(shè)作業(yè)指導(dǎo)書
- 農(nóng)業(yè)產(chǎn)業(yè)鏈社會責(zé)任履行實戰(zhàn)指導(dǎo)書
- 三農(nóng)村集體資產(chǎn)管理方案
- 體育訓(xùn)練與比賽作業(yè)指導(dǎo)書
- 安能轉(zhuǎn)讓合同
- 消防安全技術(shù)服務(wù)項目合同
- 2023高考語文實用類文本閱讀-新聞、通訊、訪談(含答案)
- 人工智能在商場應(yīng)用
- (完整word版)大格子作文紙模板(帶字?jǐn)?shù)統(tǒng)計)
- 高考語文復(fù)習(xí):小說閱讀主觀題題型探究-解讀《理水》
- 物流營銷(第四版) 課件 第一章 物流營銷概述
- 藍(lán)印花布鑒賞課件
- 血液灌流流程及注意事項詳細(xì)圖解
- 5A+Chapter+2+Turning+over+a+new+leaf 英語精講課件
- 相交線教學(xué)課件
- 注水井洗井操作規(guī)程
- 貝克曼梁測定路基路面回彈彎沉
評論
0/150
提交評論