基于公共詞集對長篇小說相似度的研究_第1頁
基于公共詞集對長篇小說相似度的研究_第2頁
基于公共詞集對長篇小說相似度的研究_第3頁
基于公共詞集對長篇小說相似度的研究_第4頁
基于公共詞集對長篇小說相似度的研究_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、    基于公共詞集對長篇小說相似度的研究    郭濤 霸元婕 李紹昂摘 要:傳統(tǒng)的文本相似度計算基于向量空間模型(vsm),文本映射成獨(dú)立的、互不關(guān)聯(lián)的詞構(gòu)成的向量。由于長篇小說具有比普通文本更為復(fù)雜的構(gòu)成元素,以及更加緊密的上下文聯(lián)系,傳統(tǒng)算法忽略詞項的上下文聯(lián)系,并且產(chǎn)生高維向量,因此算法的效率和精度不理想。為此,本文基于公共詞集對長篇小說進(jìn)行相似度計算,并對公共詞集進(jìn)行上下文約束檢查,得到關(guān)聯(lián)比較緊密的詞集,作為小說的主要特征。實(shí)驗(yàn)結(jié)果表明,對于某些小說類型,效果有很大的提升。關(guān)鍵詞:公共詞集;小說相似度;上下文約束:tp391.1 :aabst

2、ract:traditional text similarity computation is based on vector space model (vsm),where the text is mapped into independent and unrelated words.because novels have more complex elements and much closer context than ordinary texts,the traditional algorithm ignores the context of the words and produce

3、s the high dimensional vector,so that the efficiency and accuracy of the algorithm are not ideal.for this reason,this paper calculates the similarity of the novels based on the common word set,and carries out the context constraint check on the common word set to achieve a more closely related word

4、set as the main feature of the novel.the experimental results show that for some types of novels,the effect is greatly improved.keywords:common word set;novel similarity;context constraint1 引言(introduction)隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上的文本數(shù)據(jù)呈現(xiàn)爆炸式增長,文本處理算法的相關(guān)研究也隨之發(fā)展起來。其中,文本相似度計算成為熱點(diǎn)研究方向,其目的在于建立一個合理的衡量模型,對文本間的相似程度進(jìn)行量

5、化。小說作為一種文學(xué)作品,與普通文本有較大區(qū)別,小說的構(gòu)成要素要比普通文本復(fù)雜很多,比如時間、地點(diǎn)、人物、社會、環(huán)境等等,并且小說的上下段落、上下情節(jié)之間聯(lián)系十分緊密。所以,必須要從新的角度建立小說相似度的衡量模型。目前經(jīng)典的文本相似度計算算法大部分基于向量空間模型(vsm)1。向量空間模型將文本視作由獨(dú)立的、互不關(guān)聯(lián)的詞構(gòu)成的一個向量,并且把詞語在文中出現(xiàn)的頻數(shù)作為文本的主要特征。通過將文本映射成一個向量模型,文本相似度計算也就轉(zhuǎn)換成向量之間的相似度計算。小說作為一種特殊的文本類型,詞語之間的關(guān)聯(lián)比普通的文本更加緊密,如果依然將小說表示成向量空間模型,將失去很多重要的特征信息,尤其是詞條間的

6、上下文信息,詞語之間的關(guān)聯(lián)隱含著情節(jié)信息,對文義的理解起著至關(guān)重要的作用2。不僅如此,對于長篇小說而言,向量空間模型將產(chǎn)生一個維數(shù)十分巨大的向量,嚴(yán)重影響算法的效率,問題將變得不可行。本文主要介紹了一種基于公共詞集對長篇小說相似度研究的算法3。對小說進(jìn)行預(yù)處理后,建立map映射結(jié)構(gòu),在構(gòu)建公共詞集的過程中,加入上下文約束,最終得到滿足上下文約束的若干詞集簇,并以此作為衡量相似度的依據(jù),建立相似度衡量算法,并通過實(shí)驗(yàn)驗(yàn)證算法可行。2 相關(guān)工作(related work)2.1 向量空間模型文本的內(nèi)容特征常常用它所含有的基本語言單位,如字、詞或者短語等來表示,這些基本的語言單位被統(tǒng)稱為文本的項4。

7、向量空間模型(vector space model,vsm)將文本d轉(zhuǎn)化為由詞項w構(gòu)成的m維向量,即:文本中的每個項相互獨(dú)立,可以通過計算向量之間的距離來衡量文本之間的相似度。每個詞項往往都賦予一個權(quán)重(term weight),表示該詞項在文本中的重要程度。tf-idf(term frequency-inverse document frequency)是使用最廣泛的一種權(quán)重計算方法,公式如下:其中,表示詞項的出現(xiàn)頻數(shù),表示文檔集中文本數(shù)量,表示詞項在文檔集中包含該詞項的文本數(shù)量。在文本中的出現(xiàn)頻率反映該詞項的重要程度,詞項在多個文本中的出現(xiàn)情況反映了詞項的文義甄別能力,tf-idf綜合考慮

8、了以上兩點(diǎn),每一個詞項的權(quán)重由tf權(quán)值和idf權(quán)值兩個部分組成。通過計算向量之間的余弦角,可以得到兩個文本向量之間的相似程度,定義如下:2.2 公共詞集從小說的詞法方面研究其文本特征,如果不考慮詞項之間的先后順序,可以比較小說詞域之間的相交程度來衡量相似度。將小說的詞集提取出來,兩篇小說的公共詞集可以反映小說在用詞造句方面的相似性5。相對于兩篇小說的平均文本長度而言,如果公共詞集包含的詞項數(shù)越多,小說的相似程度越高,兩篇小說的用詞方式更為接近;反之,若公共詞集包含的詞項數(shù)越少,相似程度越低。在對小說進(jìn)行文本預(yù)處理操作后,分別統(tǒng)計詞項的頻數(shù)和位置信息,可以得到小說n1和n2的公共詞集cws,公共詞集中的元素由詞項和詞項在小說中的頻數(shù)構(gòu)成。可以用采取如下計算公式計算相似度:軟件工程2018年10期軟件工程的其它文章一類廣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論