JSCL2007論文格式樣板word樣板-基于相關(guān)性模型的中文話題.pdf_第1頁
JSCL2007論文格式樣板word樣板-基于相關(guān)性模型的中文話題.pdf_第2頁
JSCL2007論文格式樣板word樣板-基于相關(guān)性模型的中文話題.pdf_第3頁
JSCL2007論文格式樣板word樣板-基于相關(guān)性模型的中文話題.pdf_第4頁
JSCL2007論文格式樣板word樣板-基于相關(guān)性模型的中文話題.pdf_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于相關(guān)性模型的中文話題跟蹤研究 鄭偉 張宇 鄒博偉 洪宇 劉挺 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 哈爾濱 150001 E mail zw zhangyu bwzou hy tliu 摘要 作為話題檢測(cè)與跟蹤的重要研究子課題 話題跟蹤針對(duì)特定話題 識(shí)別后續(xù)信息流中的相關(guān)報(bào)道 針對(duì) 話題本身的漂移現(xiàn)象 本文基于改進(jìn)的相關(guān)性模型 對(duì)跟蹤中偽相關(guān)反饋包含的新穎信息進(jìn)行檢測(cè)和建模 并 在此基礎(chǔ)上動(dòng)態(tài)調(diào)整話題空間 跟蹤話題漂移 降低漏檢率 實(shí)驗(yàn)采用TDT4語料中文資源及TDT2003 的評(píng)測(cè) 標(biāo)準(zhǔn) 結(jié)果驗(yàn)證此方法可以有效地改進(jìn)話題跟蹤的效果 關(guān)鍵詞 話題跟蹤 相關(guān)性模型 向量空間模型 新穎檢測(cè) Research of Chinese Topic Tracking Based on Relevance Model Wei Zheng Yu Zhang Bowei Zou Yu Hong Ting Liu Department of Computer Science and Technology Harbin Institute of Technology Harbin 150001 E mail zw zhangyu bwzou hy tliu Abstract As an important subtask of topic detection and tracking topic tracking identifies and collects relevant stories on certain topics from information stream To find and track topic shift in topic tracking task this paper proposes the improved relevance model to detect the novelty information in topic tracking feedback and modifies topic model based on this novelty information This method can track the topic shift and decrease high miss rate in topic tracking This paper u the Chinese source in TDT4 and the TDT2003 evaluation criterion the result proves this approach can improve the effect of topic tracking Keywords Topic Tracking Relevance Model Vector Space Model Novelty Detection 1 前言 隨互聯(lián)網(wǎng)信息的膨脹 用戶難以從眾多信息中快捷地獲取自己需要的信息 話題跟蹤 Topic Tracking Task TTT 作為話題檢測(cè)與跟蹤 Topic Detection and Tracking TDT 的重要子課題 任務(wù)是跟蹤預(yù)先給定的話題相關(guān)的后續(xù)報(bào)道 從而幫助人們把分散的信息按照話題組織起來 在TDT中 話題定義為由一個(gè)種子事件或活動(dòng)以及與其直接相關(guān)的事件或活動(dòng)組成的報(bào)道集 合 因此 若報(bào)道論述的事件與話題的種子事件有直接聯(lián)系 則其與話題相關(guān) 而隨時(shí)間發(fā)展 媒體對(duì)某話題報(bào)道的側(cè)重點(diǎn)會(huì)發(fā)生變化 例如 某話題描述2000年韓國總統(tǒng)金大中獲得諾貝爾和 平獎(jiǎng) 頒獎(jiǎng)前 報(bào)道側(cè)重對(duì)諾貝爾獎(jiǎng)得主的猜測(cè)上 頒獎(jiǎng)時(shí)集中于頒獎(jiǎng)情況的描述 頒獎(jiǎng)后側(cè)重 揭示金大中獲獎(jiǎng)原因以及韓國和朝鮮對(duì)其獲獎(jiǎng)的反應(yīng)上 這些報(bào)道都與話題相關(guān) 因此話題存在 隨時(shí)間逐漸漂移的現(xiàn)象 而原始話題模型無法跟蹤到漂移現(xiàn)象 需要利用后續(xù)報(bào)道不斷檢測(cè)相關(guān) 而新穎 1 2 Novelty 的信息對(duì)話題模型進(jìn)行調(diào)整 同時(shí)屏蔽話題模型更新過程中引入的噪聲 2 研究現(xiàn)狀 在話題跟蹤任務(wù)中 如何利用偽相關(guān)反饋報(bào)道對(duì)話題進(jìn)行調(diào)整以跟蹤話題漂移是一個(gè)重要的 研究課題 UMass 3 的跟蹤系統(tǒng)基于統(tǒng)計(jì)策略計(jì)算話題模型與報(bào)道流的相關(guān)度并據(jù)此判斷話題的 本文承國家自然科學(xué)基金項(xiàng)目 基金號(hào) 60435020 60575042 60503072 的資助 相關(guān)報(bào)道 然后將相關(guān)報(bào)道嵌入話題模型并改進(jìn)其特征權(quán)重 從而實(shí)現(xiàn)自學(xué)習(xí)功能 但此方法對(duì) 跟蹤反饋不加任何鑒別地用于話題模型的更新 引入大量噪聲 導(dǎo)致對(duì)話題的錯(cuò)誤調(diào)整 LIMSI 4 通過在調(diào)整話題過程中設(shè)置閾值對(duì)偽相關(guān)反饋的報(bào)道進(jìn)行二次截取的方法減少噪聲的引入 東北大學(xué) 5 利用初始追蹤器與后續(xù)報(bào)道計(jì)算相似度 利用相關(guān)報(bào)道生成新的弱追蹤器 并利 用報(bào)道距離先驗(yàn)知識(shí)的時(shí)間差對(duì)新追蹤器的權(quán)重進(jìn)行衰減 再將所有追蹤器融合成強(qiáng)追蹤器 此 方法通過追蹤器的動(dòng)態(tài)構(gòu)建與合并追蹤話題的漂移 并保證話題模型核心的恒定 但只利用時(shí)間 信息對(duì)追蹤器價(jià)值進(jìn)行判定 而沒有基于內(nèi)容的相關(guān)性和新穎性衡量其價(jià)值 基于上述方法的不足 本文將相關(guān)性模型 6 應(yīng)用到話題跟蹤中 此方法基于報(bào)道內(nèi)容的相關(guān) 性對(duì)其在話題調(diào)整時(shí)作用進(jìn)行衡量 針對(duì)其缺點(diǎn) 本文提出基于向量空間的相關(guān)性模型 其次 本文采用話題核心與新穎部分分離策略 利用偽相關(guān)反饋中對(duì)話題漂移有益的新穎信息并屏蔽噪 聲 本文組織如下 第3節(jié)介紹相關(guān)性模型 并提出基于向量空間相關(guān)性模型概念 第4節(jié)論述基 于話題核心與新穎部分劃分的話題漂移跟蹤策略 第5節(jié)介紹實(shí)驗(yàn)及結(jié)果分析 第6節(jié)總結(jié)與展望 3 基于向量空間模型的相關(guān)性模型 針對(duì)話題漂移現(xiàn)象 本文采用相關(guān)性模型 Relevance Model RM 基于偽相關(guān)反饋與話題 內(nèi)容相關(guān)性對(duì)話題進(jìn)行自適應(yīng)調(diào)整 針對(duì)RM存在的對(duì)詞重要性評(píng)定不全面以及對(duì)話題調(diào)整力度 不夠的缺點(diǎn) 本文提出了基于向量空間改進(jìn)的相關(guān)性模型 VSM based Relevance Model VRM 3 1 相關(guān)性模型 RM 最初用于關(guān)聯(lián)檢測(cè)任務(wù) 對(duì)任意給定的兩篇報(bào)道是否相關(guān)于同一話題進(jìn)行判定 RM 利 用待測(cè)報(bào)道的相關(guān)報(bào)道內(nèi)容及相似度構(gòu)建待測(cè)報(bào)道的話題模型 通過比較話題模型判定兩報(bào)道是 否相關(guān) 此方法通過偽相關(guān)反饋與話題內(nèi)容的相似度決定其對(duì)話題建模的重要性 使得構(gòu)建話題 更加準(zhǔn)確 由于話題跟蹤本質(zhì)也是將構(gòu)建話題的報(bào)道與后續(xù)報(bào)道進(jìn)行相關(guān)性判定 即關(guān)聯(lián)檢測(cè)任 務(wù)是話題跟蹤的本原問題 因此本文探討將RM 應(yīng)用到話題跟蹤中 RM 構(gòu)建話題模型的公式為 Q RD Q QDPDwPRwP 公式1 其中 RQ為與報(bào)道Q 相關(guān)的報(bào)道集合 包括Q 本身 D 為RQ中的報(bào)道 P D Q 為Q 產(chǎn)生 D 的概率 是采用貝葉斯變換 利用詞概率的連乘 P qi D 其中qi是Q 中包含的詞 得到 sizecoll cf D tf wPDwPDwp w Dw bgml 1 1 公式2 公式 2 計(jì)算報(bào)道產(chǎn)生詞 w 的概率 P w D 其中 tfw D是詞 w 在報(bào)道 D 中出現(xiàn)的次數(shù) cfw是 詞在背景語料集coll 中的出現(xiàn)次數(shù) 公式中的第二項(xiàng)作為對(duì)詞出現(xiàn)概率的平滑 是平滑系數(shù) 相關(guān)性模型參考報(bào)道與話題的相關(guān)度描述其對(duì)話題調(diào)整過程產(chǎn)生的不同影響 但存在如下缺 點(diǎn) 首先 公式1 利用語言模型計(jì)算話題模型產(chǎn)生報(bào)道的概率P D Q 而P D Q 通過詞概率的 連乘得到 其指標(biāo)往往很小 因此利用相關(guān)報(bào)道對(duì)話題的調(diào)整力度有限 對(duì)話題的影響很小 無 法達(dá)到有效調(diào)整話題以跟蹤話題漂移的目的 此外 概率值 P D Q 隨報(bào)道和話題長(zhǎng)度的變化會(huì) 發(fā)生顯著變化 無法以統(tǒng)一標(biāo)準(zhǔn)描述不同話題和不同報(bào)道的相似度 因此需要對(duì)報(bào)道和話題長(zhǎng)度 進(jìn)行統(tǒng)一 而對(duì)長(zhǎng)度進(jìn)行限制對(duì)于篇幅較長(zhǎng)的報(bào)道往往遺漏重要特征 對(duì)于篇幅較短的報(bào)道則需 要進(jìn)行平滑 但平滑往往在泛化重要特征的同時(shí)引入噪聲 同時(shí) 利用公式 2 計(jì)算 P w D 只利 用D 中包含特征w 的頻率信息并利用背景語料進(jìn)行平滑得到 而沒有有效利用詞在語料中的idf 值 因此詞的價(jià)值評(píng)定不全面 往往給停用詞賦予較大的權(quán)重作為噪聲嵌入話題模型 3 2 基于向量空間模型的改進(jìn)相關(guān)性模型 針對(duì)相關(guān)性模型的上述缺陷 本文提出了基于向量空間模型的改進(jìn)相關(guān)性模型 VSM based Relevance Model VRM 代替RM 模型 VRM 中利用偽相關(guān)反饋對(duì)話題調(diào)整的公式如下 RTSj jSjiTi TSSimWW 公式3 其中 T 為話題 RT是與 T 相關(guān)的報(bào)道集合 包含T 本身 Sim Sj T 是對(duì)公式1 中P D Q 的替換 采用向量空間模型的余弦夾角公式計(jì)算得到的報(bào)道 Sj與 T 的相關(guān)度 具體見公式 4 Wi Sj為詞 i 在報(bào)道 Sj中的權(quán)重 通過計(jì)算詞的 tf idf 得到 用來代替公式 1 中的 P w D 可以 更好地刻畫詞在報(bào)道中的重要度 Wi T為詞i 在經(jīng)過自適應(yīng)調(diào)整后的話題中的新權(quán)重 向量空間 模型中 兩文檔相似度計(jì)算公式為 t j j t i i t i ii WW WW Sim 1 2 1 2 1 公式4 其中 和 分別是兩個(gè)待測(cè)的向量空間模型 Wi 和 Wj 為兩向量空間模型中詞的權(quán)重 Sim 為 與 的相似度 如果相似度大于閾值 則認(rèn)為 與 是相關(guān)的 采用公式3 代替公式1 有如下優(yōu)點(diǎn) 首先 Sim 通過權(quán)重乘積的連加得到 其粒度相 比于使用詞概率連乘得到的P D Q 值更適于更新話題空間 可以敏感地識(shí)別話題的漂移 其次 概率值 P D Q 隨報(bào)道和話題長(zhǎng)度的變化會(huì)發(fā)生顯著變化 無法以統(tǒng)一標(biāo)準(zhǔn)描述不同話題和不同 報(bào)道的相似度 而Sim 取值范圍在0 到1 之間 不會(huì)隨報(bào)道及話題長(zhǎng)度的不同而急劇變化 不需要對(duì)話題與報(bào)道長(zhǎng)度進(jìn)行限制 可以準(zhǔn)確刻畫話題與報(bào)道之間的相似度 有利于利用統(tǒng)一標(biāo) 準(zhǔn)判定報(bào)道與話題是否相關(guān) 4 基于話題核心與新穎部分的話題跟蹤 由于偽相關(guān)反饋中存在一些誤判 在話題調(diào)整過程中會(huì)引入噪聲信息 這些噪聲會(huì)導(dǎo)致更多 誤判而形成錯(cuò)誤的累積 因此在對(duì)話題進(jìn)行調(diào)整的同時(shí)需要減小引入的噪聲對(duì)話題的影響 基于上述問題 本文提出基于話題核心與新穎部分的話題跟蹤系統(tǒng) Core and Novelty based Topic Tracking System 簡(jiǎn)稱CNTTS CNTTS 將話題模型劃分為核心 Core 與新穎 Novelty 兩部分 其中 Core 由訓(xùn)練集合中事先給定的與話題相關(guān)的報(bào)道訓(xùn)練得到 是對(duì)主題思想的核 心描述 在整個(gè)話題跟蹤過程中恒定不變 話題的Novelty 由偽相關(guān)反饋中的相關(guān)報(bào)道構(gòu)建 是 對(duì)新出現(xiàn)與話題相關(guān)的事件描述 用于跟蹤話題漂移現(xiàn)象 其在跟蹤過程中由偽相關(guān)反饋動(dòng)態(tài)調(diào) 整 話題的Core 與Novelty 共同構(gòu)成了話題模型 由于話題包含有動(dòng)態(tài)調(diào)整的Novelty 使話題 跟蹤過程中可以有效跟蹤話題漂移的內(nèi)容 而通過 Core 保持先驗(yàn)給定的主題思想不變 因此話 題模型不僅具備可擴(kuò)展性 并可以防止動(dòng)態(tài)調(diào)整Novelty 時(shí)引入的噪聲干擾話題核心思想的正確 描述 CNTTS 系統(tǒng)的框架圖如下 圖1 CNTTS系統(tǒng)框架圖 如圖1 所示CNTTS 系統(tǒng)共分為4 個(gè)模塊 其中 話題核心構(gòu)建模塊利用事先給定的相關(guān)報(bào) 道集構(gòu)建話題的核心部分 話題新穎部分調(diào)整模塊利用偽相關(guān)反饋的相關(guān)報(bào)道構(gòu)建話題的新穎部 分并在后續(xù)跟蹤中不斷對(duì)新穎部分進(jìn)行動(dòng)態(tài)調(diào)整 話題模型構(gòu)建模塊利用話題的核心與新穎部分 對(duì)話題模型進(jìn)行融合 相關(guān)性判定模塊利用VSM 相似度計(jì)算公式4 計(jì)算話題與報(bào)道的相似度 并設(shè)置閾值 如果相似度大于 則認(rèn)為此報(bào)道與話題相關(guān) 4 1 話題核心的構(gòu)建 TDT 的話題跟蹤任務(wù)中 話題由給定的 Nt個(gè)相關(guān)報(bào)道描述 因此首先需要通過訓(xùn)練報(bào)道構(gòu) 建話題模型 本文選取Nt 4 由第一節(jié)分析了解到 TDT 給定的相關(guān)報(bào)道涉及話題若干側(cè)重點(diǎn) 各側(cè)重點(diǎn)可能各不相同 相似度不大 但其對(duì)話題的跟蹤具有同樣的重要性 所以直接將4 篇相 關(guān)報(bào)道的向量空間模型融合而構(gòu)建話題 即把公式3 中的Sim Sj T 設(shè)為1 從而生成話題模型 同 時(shí)由于給定的相關(guān)報(bào)道對(duì)話題跟蹤具有重要作用 因此本文把初始構(gòu)建的向量空間模型作為話題 的核心部分保留 后續(xù)對(duì)話題的調(diào)整是對(duì)話題新穎部分的調(diào)整 并不改變核心部分 保留話題核 心的穩(wěn)定可以防止偽相關(guān)反饋中引入噪聲而對(duì)話題最重要內(nèi)容的錯(cuò)誤調(diào)整 避免錯(cuò)誤累積現(xiàn)象 4 2 利用改進(jìn)相關(guān)性模型調(diào)整話題的新穎部分 保持話題核心穩(wěn)定的前提下 需要對(duì)話題進(jìn)行適當(dāng)?shù)恼{(diào)整以追蹤話題的漂移 話題新穎部分 是由偽相關(guān)反饋報(bào)道構(gòu)建并在追蹤過程中動(dòng)態(tài)調(diào)整 功能就是對(duì)話題的漂移進(jìn)行追蹤 話題的新 穎部分與核心部分共同組成話題的完整描述 CNTTS 對(duì)話題模型進(jìn)行調(diào)整的過程中 利用后續(xù)報(bào)道中與話題相關(guān)的報(bào)道對(duì)話題的新鮮部 分進(jìn)行動(dòng)態(tài)調(diào)整 由于對(duì)與話題相關(guān)的某一事件或側(cè)重點(diǎn)的報(bào)道往往集中于特定時(shí)間段內(nèi)并頻繁 出現(xiàn) 而在該時(shí)間段之外的分布則很稀疏 7 因此本文采用的話題調(diào)整策略是每判斷一篇相關(guān)報(bào) 道則立即用此報(bào)道對(duì)話題新穎部分進(jìn)行調(diào)整 以便更加靈敏地跟蹤話題漂移 對(duì)于跟蹤系統(tǒng)反饋 的每篇偽相關(guān)報(bào)道 CNTTS 利用 VRM 模型的公式通過偽相關(guān)反饋的內(nèi)容及其與話題空間的相 似度對(duì)新穎部分進(jìn)行更新 而不是VRM 中對(duì)話題直接調(diào)整 對(duì)新穎部分的更新公式如下 TSSimWWW jSiNiNi j 公式5 其中 T 是話題模型 由核心與新穎部分 N 組成 通過公式 5 直接把詞 i 在報(bào)道 S 中的權(quán)重 Wi Sj乘以報(bào)道與話題相似度 加上詞 i 在原話題新穎部分 N 中的權(quán)重 Wi N 結(jié)果作為詞 i 在調(diào)整 后的新穎部分N 中的權(quán)重Wi N 其中報(bào)道與話題的相似度Sim Sj T 由下節(jié)的公式6 計(jì)算得到 4 3 話題模型的構(gòu)建 本文將話題分為核心部分與新穎部分 其中核心部分由先驗(yàn)相關(guān)的訓(xùn)練語料組成 用于描述 話題中的種子事件 在跟蹤過程中不發(fā)生變化 新穎部分描述新出現(xiàn)的與種子事件直接相關(guān)的后 續(xù)事件 根據(jù)上節(jié)所述方法利用后續(xù)報(bào)道對(duì)話題模型進(jìn)行動(dòng)態(tài)調(diào)整 當(dāng)計(jì)算報(bào)道與話題的相關(guān)度 時(shí) CNTTS 將報(bào)道與話題核心及新穎部分分別計(jì)算相關(guān)度 利用相關(guān)度的線性加權(quán)和描述報(bào)道 與整體話題模型的相關(guān)性 如果相關(guān)度大于閾值 則認(rèn)為報(bào)道與話題相關(guān) 此時(shí)利用上節(jié)所述 方法對(duì)話題新穎部分進(jìn)行調(diào)整 報(bào)道與話題的相關(guān)度計(jì)算公式如下 1 NSSimCSSimTSSim 公式6 其中Sim S C 是報(bào)道S 與話題核心C 的相似度 Sim S N 是S 與新穎部分N 的相似度 是 刻畫話題核心在話題模型中所占比例的系數(shù) 由第5 節(jié)實(shí)驗(yàn)得知 取0 5 Sim S T 是S 與話題T 的相似度 如果大于閾值 則認(rèn)為報(bào)道與話題相關(guān) 則利用上節(jié)所述方法對(duì)新穎部分進(jìn)行調(diào)整 5 實(shí)驗(yàn)及結(jié)果分析 5 1 實(shí)驗(yàn)語料及評(píng)測(cè)機(jī)制 本文實(shí)驗(yàn)采用 TDT4 語料及 TDT2003 的評(píng)測(cè)方法 8 對(duì)話題跟蹤進(jìn)行評(píng)測(cè) 其中 TDT4 包含 從 2000 年 10 月到 2001 年 1 月的報(bào)道 Nt 4 的中文語料評(píng)測(cè)給出 54 個(gè)待測(cè)話題 本實(shí)驗(yàn)選取 其中的TDT2002 的10 個(gè)話題做訓(xùn)練 TDT2003 的24 個(gè)話題做測(cè)試 TDT 評(píng)測(cè)公式定義如下 min argargargargettnonFAettMissettnonFAFAettMissMissNormDet PCPCPPCPPCC 公式7 其中 CMiss CFA Ptarget和Pnon target是事先定義的值 分別取1 0 1 0 02 和0 98 PMiss和 PFA是系統(tǒng)漏檢率和錯(cuò)檢率 CDet Norm是系統(tǒng)性能損耗代價(jià) 此值越小則系統(tǒng)性能越好 5 2 實(shí)驗(yàn)結(jié)果 本實(shí)驗(yàn)以基于相關(guān)性模型的話題跟蹤系統(tǒng)作為baseline 考察VRM 模型和CNTTS 策略對(duì)跟 蹤系統(tǒng)的影響 實(shí)驗(yàn)中以RM VRM 和VRM CNTTS 分別表示相關(guān)性模型系統(tǒng) 改進(jìn)的相關(guān)性 模型系統(tǒng)和基于VRM 模型的CNTTS 系統(tǒng) 圖2 VRM模型對(duì)話題跟蹤的影響 圖3 在不同閾值下 取值對(duì)實(shí)驗(yàn)效果的影響 圖2 是在訓(xùn)練集上考察VRM 對(duì)話題追蹤效果的影響 黑線和紅線分別是RM 和VRM 構(gòu)建 的系統(tǒng) DET 曲線越靠近左下角效果越好 從圖中可以看出 VRM 效果較RM 有了一定的提高 圖3 是對(duì)CNNTS 系統(tǒng)的參數(shù) 的訓(xùn)練 是刻畫話題核心在話題模型中所占比例的系數(shù) 圖中 橫坐標(biāo)為 的取值 縱坐標(biāo)為 CDet Norm指標(biāo) 曲線上的點(diǎn)越靠下說明效果越好 其中0 是直接采用改進(jìn)的相關(guān)性模型的話題跟蹤系統(tǒng) 每條曲線代表不同的相似度閾值 實(shí)驗(yàn)結(jié)果 顯示相關(guān)性閾值較大的情況下 系統(tǒng)的跟蹤性能 相對(duì)偏低 其原因在于閾值較大時(shí) 系統(tǒng)無法檢 測(cè)到主題相關(guān)但核心內(nèi)容發(fā)生漂移的報(bào)道 無法 針對(duì)漂移現(xiàn)象修正話題模型 此外 當(dāng)相關(guān)性閾 值較高時(shí) 隨著 指標(biāo)的提高 跟蹤系統(tǒng)的性能 逐漸衰減 其原因在于 指標(biāo)越高 跟蹤系統(tǒng)越 趨近于將特征空間更近似于核心的報(bào)道進(jìn)行反 饋 在調(diào)整話題的過程中不斷削弱新鮮信息的比 重 從而逐步偏離對(duì)漂移現(xiàn)象的追蹤 當(dāng)相關(guān)性 閾值 降低為0 1 時(shí) 跟蹤系統(tǒng)的性能隨著 的 增加逐漸提高 當(dāng) 為0 5 時(shí)性能最佳 然后逐 漸衰減 跟蹤系統(tǒng)性能的這一變化過程近似地反 映了報(bào)道流的話題漂移現(xiàn)象 即當(dāng)相關(guān)性閾值較 圖4 測(cè)試集上的DET 曲線 低的情況下 系統(tǒng)反饋中包含主題相關(guān)但特征空間相似度較低的報(bào)道 將這種報(bào)道作為新鮮信息 并通過 調(diào)整其在話題空間中的分布 有助于跟蹤系統(tǒng)識(shí)別和追蹤話題漂移現(xiàn)象 話題空間必 須保證核心內(nèi)容的適當(dāng)分布 過分依賴新鮮信息將造成話題空間的偏差 圖3 顯示當(dāng) 取0 1 和 取0 5 時(shí)系統(tǒng)損耗代價(jià)達(dá)到最小 因此 在CNTTS 中選擇5 0 圖4 給出了在測(cè)試集上不同方法的DET 曲線圖 采用VRM 模型使系統(tǒng)的效果有所提高 在測(cè)試集上將系統(tǒng)的性能最小開銷從RM 的0 1694 降低到0 1366 在VRM 基礎(chǔ)上使用CNNTS 方法在測(cè)試集上對(duì)系統(tǒng)效果有了一定提高 將系統(tǒng)最小開銷從采用VRM的0 1366降低到0 1137 5 3 結(jié)果分析 從實(shí)驗(yàn)圖中可以看出 采用改進(jìn)前的相關(guān)性模型性能較低 其原因在于相關(guān)性模型對(duì)話題 調(diào)整的幅度較小而無法有效跟蹤話題漂移 使得話題跟蹤的漏檢率較高 而VRM 模型利用詞的 tf idf 值作為權(quán)重 利用報(bào)道與話題向量空間的相似度區(qū)分不同報(bào)道對(duì)話題調(diào)整的重要性 可以 發(fā)現(xiàn)報(bào)道中的新穎信息并對(duì)話題進(jìn)行適度的調(diào)整 有效跟蹤了話題漂移 使用 CNTTS 策略在測(cè)試集上使得系統(tǒng)的效果有了一定改善 主要原因是 VRM 利用偽相 關(guān)報(bào)道對(duì)話題進(jìn)行調(diào)整以跟蹤話題漂移過程中 偽相關(guān)反饋中存在很多相關(guān)性判定錯(cuò)誤的報(bào)道 使用此類報(bào)道對(duì)話題調(diào)整的過程中會(huì)在話題模型中嵌入噪聲信息 會(huì)對(duì)話題進(jìn)行錯(cuò)誤調(diào)整而導(dǎo)致 更多的誤判 而CNTTS 策略將話題分為核心與新穎部分 其中動(dòng)態(tài)調(diào)整的新穎部分使話題跟蹤 過程中可以有效跟蹤話題漂移的內(nèi)容 而通過穩(wěn)定不變的核心保持先驗(yàn)給定的主題思想不變 屏 蔽噪聲對(duì)話題核心內(nèi)容的改動(dòng) 因此話題模型不僅具備可擴(kuò)展性 并可以防止動(dòng)態(tài)調(diào)整 Novelty 時(shí)引入的噪聲干擾話題核心思想的正確描述 6 未來工作 針對(duì)話題跟蹤中存在的話題漂移現(xiàn)象 本文探討將相關(guān)性模型應(yīng)用到話題跟蹤任務(wù)中的方 法 并針對(duì)其缺點(diǎn)提出基于向量空間的相關(guān)性模型 實(shí)驗(yàn)證明此模型可以提高話題跟蹤效果 同 時(shí)針為減少噪聲影響 本文提出將話題分為核心與新鮮部分 屏蔽噪聲對(duì)話題核心內(nèi)容的影響 結(jié)果顯示此方法使實(shí)驗(yàn)效果有了提高 但在訓(xùn)練集上效果有限 因此在未來的工作中可以嘗試使 用TDT5 自適應(yīng)話題跟蹤任務(wù)的語料 研究在噪聲較多的情況下此方法對(duì)話題跟蹤效果的影響 參考文獻(xiàn) 1 X Li WB Croft Novelty detection based on sentence level patterns Proceedings

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論