中文語音文件摘要使用主題混合模型_第1頁
中文語音文件摘要使用主題混合模型_第2頁
中文語音文件摘要使用主題混合模型_第3頁
中文語音文件摘要使用主題混合模型_第4頁
中文語音文件摘要使用主題混合模型_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中文語音文件摘要使用主題混合模型陳怡婷、游斯涵、李家豪、陳柏琳GraduateInstituteofComputerScience&InformationEngineeringNationalTaiwanNormalUniversity1outline前言摘要模型詞層次混合模型(w-TMM)實驗設(shè)定餘弦評估ROUGE評估實驗結(jié)果結(jié)論與未來展望前言網(wǎng)際網(wǎng)路已成為現(xiàn)代人獲取資訊的主要來源,大量的資訊傳遞與分享於全球各地。而一些具時序系的多媒體影音內(nèi)容,往往長達(dá)數(shù)分鐘或數(shù)小時,造成使用者在瀏覽及查詢上,花費大量的時間。自動語音文件摘要的目的即在解決此種問題,讓使用者可以快速且方便地了解影音文件或檔案的要點與主題資訊。目前一般常見的摘要式自動摘要方法大致上可分為三大類,分別是:以文句結(jié)構(gòu)或位置為基礎(chǔ)以索引特徵統(tǒng)計值為基礎(chǔ)以機率模型為基礎(chǔ)摘要模型詞層次混合模型(w-TMM)

詞層次主題混合模型將每個詞視為包含K潛藏主題的機率模型,每ㄧ個詞對於不同的潛藏主題有不同權(quán)重值,並且同時在不同的潛藏主題下每ㄧ個詞的機率分佈亦有所不同。每ㄧ個詞與另ㄧ個詞之間的關(guān)係可透過K個潛藏主題來表示:

:為unigrammodel,表示詞於潛藏主題中的機率分佈:詞的對於潛藏主題的權(quán)重值:詞的詞模型生成詞的機率摘要模型對於一篇被摘要語音文件D,文件D與文件D中的任ㄧ文句的相關(guān)程度,可由文句中所有的詞的主題混合機率模型生成文件D中所有詞的機率來決定::滿足:詞對於潛藏主題的權(quán)重:文件中詞於潛藏主題中的機率分佈實驗設(shè)定1.實驗語料文件語音文件收集於News98新聞網(wǎng)2001年8月1日至

8月24日中午12:00到13:00的FM廣播新聞,ㄧ共200則廣播新聞。自動轉(zhuǎn)寫部分為師大資工所LVCSR辨識後之結(jié)果,其辨識字正確率達(dá)85.83%。實驗設(shè)定2.評估方式:

我們所採用的人工摘要結(jié)果包含有摘錄式摘要及非摘錄式摘要。摘錄式摘要依不同的摘要比例而產(chǎn)生不同長度的摘要內(nèi)容,例如:10%、20%、30%、50%等摘要比例。非摘錄式摘要根據(jù)特別摘要比例(例如:20%~30%)且針對文件內(nèi)容所重寫的摘要內(nèi)容。

實驗設(shè)定2.1餘弦評估此評估方法是以計算自動摘要與人工摘要結(jié)果的相關(guān)度作為評估標(biāo)準(zhǔn)。:某篇文章D之自動摘要m%摘要比例的結(jié)果:第z個人對文件D以摘錄方式選取m%摘要比例的結(jié)果:第z個人對文件D重寫摘要結(jié)果實驗設(shè)定2.2ROUGE評估

ROUGE是計算自動摘要結(jié)果與人工摘要結(jié)果的重疊單位元次數(shù),單位元可為N-連詞(N-gram)、詞順序(WordSequences)、詞對(WordPairs)。

以詞N-連單位元的評估為例,其計算公式如下::人工摘要結(jié)果集合:個別的人工摘要結(jié)果:自動摘要結(jié)果與人工摘要的重疊單位元次數(shù):單位元:人工摘要結(jié)果的單位元次數(shù)實驗結(jié)果1.基礎(chǔ)實驗結(jié)果:分別以向量空間模型(SVM)、最大臨界相關(guān)(MMR)、潛藏語意分析模型(LSA)、文句特徵值分?jǐn)?shù)方法(SIG)。機率式模型-隱藏式馬可夫模型(HMM)與主題混合模型(TMM)。實驗結(jié)果2.詞層次混合模型實驗結(jié)果我們將訓(xùn)練語料中的全部文件,共一萬四千多個檔案,與其對應(yīng)關(guān)係用於訓(xùn)練詞層次主題混合模型所需之機率值及。在使用詞層次主題混合模型於語音文件摘要時,我們會同時考慮每ㄧ個詞實際上出現(xiàn)於文句的機率分佈,並將其與式(3)結(jié)合成為:

之後,根據(jù)式(12)的機率值來進(jìn)行文句的排名。實驗結(jié)果實驗結(jié)果結(jié)論與未來展望多數(shù)的摘要方法均屬於逐字比對的方式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論