文本相似度計(jì)算

上傳人：d*** IP屬地：天津上傳時(shí)間：2022-08-03 格式：DOCX 頁(yè)數(shù)：31 大小：339.57KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩26頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、文本相似度計(jì)算系統(tǒng)摘要在中文信息處理中，文本相似度的計(jì)算廣泛應(yīng)用于信息檢索、機(jī)器翻譯、自動(dòng)問(wèn)答系統(tǒng)、文本挖掘等領(lǐng)域，是一個(gè)非?；A(chǔ)而關(guān)鍵的問(wèn)題，長(zhǎng)期以來(lái)一直是人們研究的熱點(diǎn)和難點(diǎn)。本次畢設(shè)的設(shè)計(jì)目標(biāo)就是用兩種方法來(lái)實(shí)現(xiàn)文本相似度的計(jì)算。本文采用傳統(tǒng)的設(shè)計(jì)方法，第一種是余弦算法。余弦算法是一種易于理解且結(jié)果易于觀察的算法。通過(guò)余弦算法可以快捷的計(jì)算出文本間相似度，并通過(guò)余弦算法的結(jié)果（0、1之間）判斷出相似度的大小。由于余弦計(jì)算是在空間向量模型的基礎(chǔ)上，所以說(shuō)要想用余弦算法來(lái)完成本次系統(tǒng)，那么必須要將文本轉(zhuǎn)化成空間向量模型。而完成空間向量模型的轉(zhuǎn)換則要用到加權(quán)。在空間向量模型實(shí)現(xiàn)之前，必須要進(jìn)

2、行文本的去停用詞處理和特征選擇的處理。第二種算法是BM25算法，本文將采用最基礎(chǔ)的循環(huán)來(lái)完成，目的是觀察余弦算法中使用倒排索引效率是否提高有多大提高。本次文本相似度計(jì)算系統(tǒng)的主要工作是去除停用詞、文本特征選擇、加權(quán)，在加權(quán)之后用余弦算法計(jì)算文本的相似度。在文本特征選擇之后用BM25計(jì)算相似度。由于為了使系統(tǒng)的效率提高，在程序設(shè)計(jì)中應(yīng)用了大量的容器知識(shí)以及內(nèi)積、倒排算法。關(guān)鍵詞：文本相似度；余弦；BM25；容器TextSimilarityAlgorithmResearchAbstractInChineseinformationprocessing，textsimilaritycomputatio

3、niswidelyusedintheareaofinformationretrieval，machinetranslation,automaticquestionanswering，textminingandetcItisaveryessentialandimportantissuethatpeoplestudyasahotspotanddifficultyforalongtimeCurrently，mosttextsimilarityalgorithmsarebasedonvectorspacemodel(VSM)However,thesemethodswillcauseproblemsof

4、highdimensionandsparsenessMoreover，thesemethodsdonoteffectivelysolvenaturallanguageproblemsexistedintextdataThesenaturallanguageproblemsaresynonymandpolysemeTheseproblemssidturbtheefficiencyandaccuracyoftextsimilarityalgorithmsandmaketheperformanceoftextsimilaritycomputationdeclineThispaperusesanewt

5、houghtwhichgetssemanticsimiralitycomputationintotraditionaltextsimilaritycomputationtoprovetheperformanceoftextsimilarityalgorithmsThispaperdeeplydiscussestheexistingtextsimilarityalgorithmsandsamentictextcomputationandgivesaChinesetextsimilarityalgorithmwhichisbasedonsemanticsimilarityThereisanonli

6、neinformationmanagementsystemwhichisusedtomanagestudentsgraduatedesignpapersThosepapersaleusedtocalculatesimilaritybythatthealgorithmtovalidatethatalgorithmThistextsimilaritycomputingsystemsmainjobistostopwordremoval,textfeatureselection,weighting,afterweightingusingcosinealgorithmtocalculatethesimi

7、larityofthetext.AfterthetextfeatureselectioncalculationofsimilaritywiththeBM25.Becauseinorderforthesystemsefficiency,knowledgeapplicationinprogrammingalotofcontainersaswellastheinnerproduct,theinversionalgorithmKEYWORDS：Textsimilarity；cosine；BM25；container目錄1緒論錯(cuò)誤！未定義書簽1.1開發(fā)背景錯(cuò)誤！未定義書簽1.2課題研究意義錯(cuò)誤！未定義書

8、簽1.3本課題要解決的問(wèn)題錯(cuò)誤！未定義書簽2研究方法錯(cuò)誤！未定義書簽2.1根據(jù)研究的側(cè)重點(diǎn)闡述相關(guān)的研究方法錯(cuò)誤！未定義書簽2.2歷史以及研究現(xiàn)狀錯(cuò)誤！未定義書簽3關(guān)鍵問(wèn)題及分析（一）（余弦）錯(cuò)誤！未定義書簽3.1研究設(shè)計(jì)中的關(guān)鍵問(wèn)題錯(cuò)誤！未定義書簽3.2具體實(shí)現(xiàn)中采用的關(guān)鍵技術(shù)錯(cuò)誤！未定義書簽3.2.1容器錯(cuò)誤！未定義書簽3.2.2倒排錯(cuò)誤！未定義書簽3.2.3內(nèi)積錯(cuò)誤！未定義書簽3.2.4算法錯(cuò)誤！未定義書簽3.3本章小結(jié)錯(cuò)誤！未定義書簽4關(guān)鍵問(wèn)題及分析（二）（BM25）錯(cuò)誤！未定義書簽4.1研究設(shè)計(jì)中的關(guān)鍵問(wèn)題錯(cuò)誤！未定義書簽4.2具體實(shí)現(xiàn)中采用的關(guān)鍵技術(shù)錯(cuò)誤！未定義書簽。4.2.1容器

9、錯(cuò)誤！未定義書簽4.2.2算法錯(cuò)誤！未定義書簽4.3本章小結(jié)錯(cuò)誤！未定義書簽5系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)錯(cuò)誤！未定義書簽5.1設(shè)計(jì)實(shí)現(xiàn)的策略和關(guān)鍵技術(shù)描述錯(cuò)誤！未定義書簽5.2分模塊詳述系統(tǒng)各部分的實(shí)現(xiàn)方法錯(cuò)誤！未定義書簽5.2.1文檔載入模塊錯(cuò)誤！未定義書簽5.2.2去除停用詞模塊錯(cuò)誤！未定義書簽5.2.3特征選擇模塊錯(cuò)誤！未定義書簽5.2.4加權(quán)模塊錯(cuò)誤！未定義書簽5.2.5余弦計(jì)算模塊錯(cuò)誤！未定義書簽5.2.6BM25計(jì)算模塊錯(cuò)誤！未定義書簽5.2.7相似度顯示模塊錯(cuò)誤！未定義書簽5.2.8相似度導(dǎo)出模塊錯(cuò)誤！未定義書簽5.3程序流程錯(cuò)誤！未定義書簽5.4界面設(shè)計(jì)錯(cuò)誤！未定義書簽5.5測(cè)試環(huán)境與測(cè)試

10、條件錯(cuò)誤！未定義書簽5.6實(shí)例測(cè)試（表格）錯(cuò)誤！未定義書簽5.7性能分析錯(cuò)誤！未定義書簽6結(jié)論與展望錯(cuò)誤！未定義書簽參考文獻(xiàn)錯(cuò)誤！未定義書簽致謝錯(cuò)誤！未定義書簽1緒論隨著計(jì)算機(jī)的廣泛應(yīng)用和Intemet的普及，各類信息都在急速地膨脹。信息量的增長(zhǎng)給人們帶來(lái)了方便，同時(shí)也帶來(lái)了信息過(guò)量的問(wèn)題。面對(duì)海量信息，人們?cè)絹?lái)越希望能夠在數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策和企業(yè)管理，帶來(lái)經(jīng)濟(jì)效益或社會(huì)效益。在現(xiàn)實(shí)世界中，文本是最重要的信息載體。因此對(duì)文本文檔的處理和分析成為當(dāng)今數(shù)據(jù)挖掘和信息檢索技術(shù)的熱點(diǎn)之一。處理和研究文本文檔的技術(shù)有很多，其中重要的一個(gè)技術(shù)就是文本相似度，它在文本聚類、Web智能檢索

11、、問(wèn)答系統(tǒng)、網(wǎng)頁(yè)去重、自然語(yǔ)言處理等很多領(lǐng)域中有著重要的應(yīng)用，文本相似度是這些應(yīng)用的關(guān)鍵。本次目標(biāo)就是做出文本相似度的計(jì)算工具，用兩種算法來(lái)計(jì)算文本間的相似度。11開發(fā)背景：文本相似度有著比較廣泛的應(yīng)用，典型的應(yīng)用有：(1)信息智能檢索：搜索引擎對(duì)用戶輸入關(guān)鍵字的反應(yīng)是列出所有與該關(guān)鍵字相匹配的網(wǎng)頁(yè)。這些網(wǎng)頁(yè)的數(shù)量之大，往往要以十萬(wàn)百萬(wàn)來(lái)計(jì)量，而且對(duì)于某一關(guān)鍵字檢索出來(lái)的網(wǎng)頁(yè)有可能對(duì)應(yīng)于不同的主題。這些各種主題的網(wǎng)頁(yè)有些沒有相關(guān)性，有些內(nèi)容很相似。這種各類主題雜亂在一起的搜索結(jié)果和冗余頁(yè)面給用戶找到自己感興趣的信息帶來(lái)極大的不便。如果利用文本相似度技術(shù)，對(duì)搜索結(jié)果進(jìn)行進(jìn)一步的處理，在搜索結(jié)果中

12、將相似度很高的信息分為不同類別，或者去掉相似度很高的重復(fù)的信息，為用戶提供一個(gè)清晰的導(dǎo)航。這將大大的有利于用戶發(fā)現(xiàn)自己感興趣的信息，提高信息檢索的質(zhì)量。(2)自動(dòng)問(wèn)答系統(tǒng)：在這種系統(tǒng)中，問(wèn)題是多種多樣，且非常巨大的，有些問(wèn)題是非常相似的，如果用人工來(lái)回答，將耗費(fèi)大量的時(shí)間和人力，如果在這種系統(tǒng)中應(yīng)用文本相似度技術(shù)，將相似度很高的問(wèn)題歸為一類，使系統(tǒng)對(duì)這類問(wèn)題自動(dòng)做出答復(fù)，將節(jié)省大量的時(shí)間。(3)文本查重：在某些領(lǐng)域，考慮到隱私性和獨(dú)創(chuàng)性，要求文本不能重復(fù)出現(xiàn)，那么應(yīng)用文本相似度技術(shù)，對(duì)這類文本進(jìn)行相似度的計(jì)算，就可以看出哪些文本多次出現(xiàn)。因此，研究文本相似度的算法具有重要的實(shí)際價(jià)值。12課題研

13、究意義文本相似度計(jì)算系統(tǒng)是自然語(yǔ)言處理的一部分，可以計(jì)算一個(gè)文本中不同詞條的相似度，可以計(jì)算倆個(gè)文本間的相似度也可以進(jìn)行批處理，對(duì)多個(gè)文本之間進(jìn)行兩兩計(jì)算，并輸出文本間相似度的最后結(jié)果。文本相似度除了簡(jiǎn)單的計(jì)算相似度外，還可以在其基礎(chǔ)上進(jìn)一步發(fā)展，成為其他的功能軟件。其中最主要的體現(xiàn)就是檢索工具與信息挖掘，例如：語(yǔ)義檢索、招聘信息檢索等。在這些軟件中，文本相似度計(jì)算系統(tǒng)起到了決定性的作用。文本相似度計(jì)算系統(tǒng)中的去除停用詞功能、文本特征選擇以及加權(quán)功能還可以單個(gè)的拿出，作為單獨(dú)的一個(gè)程序或者成為其他系統(tǒng)的一部分。13本課題要解決的問(wèn)題文本相似度計(jì)算系統(tǒng)包括去除停用詞、文本特征選擇、加權(quán)、余弦算法

14、、BM25算法。在去除停用詞中，主要的問(wèn)題就是選詞范圍和set容器的使用。由于給出的詞語(yǔ)前面是有詞性的，所以在選詞的時(shí)候要注意將詞性去掉。這樣才能得到準(zhǔn)確的結(jié)果。雖然去除停用詞這一功能十分的簡(jiǎn)單。但是由于它是第一個(gè)功能，所以一定要保持它的正確性。文本的特征選擇目的是選出那些重要但是又不是每行都有的詞，并且輸出該詞語(yǔ)的特征量。所以在特征選擇這一項(xiàng)，我在程序中做了三個(gè)模塊，選出那些特征為一的特殊詞語(yǔ)，并且刪除。由于BM25計(jì)算方法是在特征選擇之后進(jìn)行的，所以在這一部分還特別為BM25就算出了不為一的文本等。加權(quán)是在文本特征選擇之后，是為余弦做準(zhǔn)備。通過(guò)加權(quán)可以得到文本的空間向量模型，由于該結(jié)果為全

15、數(shù)字，所以要十分的主要加權(quán)的準(zhǔn)確性。余弦算法作為該程序的兩個(gè)算法之一，是該程序的靈魂所在，在余弦算法中除了VC基本知識(shí)、容器之外還用到了倒排索引和內(nèi)積。余弦算法也是該程序的難點(diǎn)之一。BM25算法是一種很陌生的算法，很多人都可能是第一次聽過(guò)，BM25算法具有準(zhǔn)確這一特點(diǎn)，是一種十分專業(yè)的算法。BM25算法中只用到了循環(huán)，目的是驗(yàn)證倒排索引、內(nèi)積等方法可以提高多少效率。2研究方法21根據(jù)研究的側(cè)重點(diǎn)闡述相關(guān)的研究方法目前較為常用的相似度計(jì)算方法有許多，例如本次程序要用到的余弦相似度就算方法和BM25相似度計(jì)算方法。除此之外內(nèi)積相似度計(jì)算方法，SMART相似度計(jì)算方法、PivotedNormalis

16、ation相似度計(jì)算方法、Log-linear相似度計(jì)算方法等。但是由于相似度的用途、方法等原因，很多方法都是不常見的。余弦算法作為大家熟知的計(jì)算方法而被廣泛的應(yīng)用。在本次程序中，主要的流程就是將語(yǔ)料去除停用詞，之后進(jìn)行文本的特征選擇，將特征項(xiàng)為一的和特征項(xiàng)與文本數(shù)相同的去掉。接下來(lái)進(jìn)行文本加權(quán)，將語(yǔ)料變?yōu)橐粋€(gè)空間向量模型。最后通過(guò)內(nèi)積與倒排索引按照余弦公式最終計(jì)算出文本間的相似度大小。BM25算法是一種嚴(yán)謹(jǐn)?shù)挠?jì)算方法，在此次項(xiàng)目中，進(jìn)行特征選擇之后就可以開始進(jìn)行計(jì)算了。BM25比余弦好的地方在于其不用經(jīng)過(guò)加權(quán)形成空間向量模型，但是它在公式中也有一部類似加權(quán)的計(jì)算步驟。22歷史以及研究現(xiàn)狀目前

17、，國(guó)內(nèi)外很多學(xué)者在研究文本相似度計(jì)算問(wèn)題，并提出了一些解決方案和技術(shù)，在這些技術(shù)中，Salton等人(1975)提出的向量空間模型(VSM)是最常用的方法。Salton等人(1975)的觀點(diǎn)是，向量空間模型VSM的基本思想是把文檔簡(jiǎn)化為以特征項(xiàng)的權(quán)重為分量的向量表示，它假設(shè)詞與詞間不相關(guān)，用向量來(lái)表示文本，從而簡(jiǎn)化了文本中的關(guān)鍵詞之間的復(fù)雜關(guān)系，文檔用十分簡(jiǎn)單的向量表示，使得模型具備了可計(jì)算性。這種機(jī)制通過(guò)為文檔中的索引項(xiàng)分配權(quán)重來(lái)實(shí)現(xiàn)。權(quán)重應(yīng)該能體現(xiàn)關(guān)鍵詞的重要程度，是對(duì)整個(gè)文檔的描述能力，和區(qū)別其他文檔的區(qū)分能力的量化。特征項(xiàng)的權(quán)重計(jì)算一般利用統(tǒng)計(jì)的方法獲得，通常使用詞頻來(lái)表示?；谙蛄康?/p>

18、文本相似度計(jì)算方法是最常用的文本相似度計(jì)算方法，該方法將要比較相似度的文本根據(jù)文本中的詞語(yǔ)將文本映射為n維空間向量，然后通過(guò)比較向量間的關(guān)系來(lái)確定文本間的相似度，其中最為常用的方法是計(jì)算向量間的余弦系數(shù)。Frakes等人(1992)的觀點(diǎn)是，向量空間模型的最大優(yōu)點(diǎn)在于它在知識(shí)表示方法上的巨大優(yōu)勢(shì)，在該模型中，文本內(nèi)容被形式化為多維空間中的一個(gè)點(diǎn)，通過(guò)向量的形式給出，把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中向量的運(yùn)算。潘有能(2002)，魯松(2000)等人的觀點(diǎn)是，向量的權(quán)重計(jì)算可以通過(guò)簡(jiǎn)單的頻數(shù)統(tǒng)計(jì)來(lái)完成，使問(wèn)題的復(fù)雜性大為降低。向量空間模型的缺點(diǎn)在于關(guān)鍵詞之間的線性無(wú)關(guān)的假說(shuō)前提。在自然語(yǔ)義中，

19、詞或短語(yǔ)間存在十分密切的聯(lián)系，很難滿足假定的條件，因此對(duì)計(jì)算結(jié)果的可靠性造成一定的影響。此外，將復(fù)雜的語(yǔ)義關(guān)系歸結(jié)為簡(jiǎn)單的向量結(jié)構(gòu)，丟失了許多有價(jià)值的線索。因此，引進(jìn)改進(jìn)技術(shù)以獲取深層語(yǔ)義結(jié)構(gòu)是有必要的。同時(shí)權(quán)值計(jì)算是相似度計(jì)算里面關(guān)鍵的部分，如何定義最準(zhǔn)確的權(quán)值也是向量空間模型要考慮的一大問(wèn)題。此外其他學(xué)者在文本相似度計(jì)算方法上也提出了不同的見解，如哥倫比亞大學(xué)的CarbonellJ.等人(1998)提出的最大邊緣相關(guān)的方法MMR(MaximalMarginalRelevance)方法。Lambms等人(1994)提出同時(shí)依據(jù)句子的表層結(jié)構(gòu)和內(nèi)容計(jì)算相似度的方法。在計(jì)算相似度時(shí)，系統(tǒng)使用了兩

20、級(jí)動(dòng)態(tài)規(guī)劃技術(shù)，應(yīng)用動(dòng)態(tài)規(guī)劃算法允許在兩個(gè)長(zhǎng)度不同的句子之間計(jì)算語(yǔ)句相似度。Nirenburg等人(1993)提出了兩種串匹配的方法，即更規(guī)范的“切塊+匹配+重組”方法和整句級(jí)匹配的方法，這兩種方法所采用的相似度衡量機(jī)制都是詞組合法。該系統(tǒng)的相似度計(jì)算采用罰分制，兩個(gè)句子匹配所得到的總罰分值由句子中每個(gè)對(duì)應(yīng)單詞對(duì)的比較所得的罰分組合而成。其它方法還有根據(jù)Ricardo(2005)所提到的Belkin和Croft于1992年提出的概率型。Lee(2005)、Lipika(2006)、0ng(2006)和Blaz(2006)等人的觀點(diǎn)是，一個(gè)類別主要是以用機(jī)器學(xué)習(xí)的方法，比如聚類分析和模糊邏輯去構(gòu)

21、造文本的本體模型，然后用這些模型，根據(jù)Navigli(2005)、Sugumaran(2005)等人的觀點(diǎn)，對(duì)文本進(jìn)行處理。但是，這些方法需要分析整個(gè)文檔語(yǔ)料庫(kù)去構(gòu)造一個(gè)好的本體模型，而且文本處理的好壞取決于構(gòu)造本體模型的良好程度。在語(yǔ)料分析中，一些項(xiàng)在文本中很少出現(xiàn)，因?yàn)樗麄兊某霈F(xiàn)頻率很低，而往往被忽視。然而，根據(jù)信息理論，這些少見的項(xiàng)卻對(duì)文本處理來(lái)說(shuō)是有價(jià)值的。忽視他們?cè)跇?gòu)建本體模型的時(shí)候可能會(huì)影響文本處理的性能。這些基于本體的方法也沒有完全能和LSI抗衡。3關(guān)鍵問(wèn)題及分析(一)(余弦)研究設(shè)計(jì)中的關(guān)鍵問(wèn)題余弦:關(guān)鍵問(wèn)題是先要明確余弦的相關(guān)定義，理解公式每個(gè)地方代表了什么，之后理解相關(guān)定義

22、的內(nèi)容，最后結(jié)合C+中的容器知識(shí)解決問(wèn)題。去除停用詞預(yù)處理：在計(jì)算余弦算法之前，必須要有預(yù)處理的過(guò)程，其中包括去除停用詞和特征選擇。去除停用詞主要就是按照停用詞表中的詞語(yǔ)將語(yǔ)料中不常見的符號(hào)，標(biāo)點(diǎn)級(jí)亂碼去掉。在去除停用詞中除了用到基本的輸入輸出流，還用到了set容器。set容器重要作用在本次去除停用詞過(guò)程中存儲(chǔ)“哈工大停用詞表”，在用循環(huán)輸入“三類語(yǔ)料”，如果在set容器中就去掉，不在就輸出。set容器是容器中最常用也是最基礎(chǔ)的知識(shí)，下面具體介紹了set容器的基本操作。set容器：定義一個(gè)元素為整數(shù)的集合a,可以用seta;基本操作：對(duì)集合a中元素的有插入元素：a.insert(1);刪除元素

23、(如果存在)：a.erase(1);判斷元素是否屬于集合：if(a.find(1)!=a.end()特征選擇：特征選擇的目的：特征選擇也屬于預(yù)處理中的一部分，其最終的目的是將文本中只在一行出現(xiàn)的詞語(yǔ)和在每行都出現(xiàn)的詞語(yǔ)去掉。特征選擇的實(shí)現(xiàn)方法：在特征選擇中用到了set、map、multimap三中容器。首先用set容器來(lái)存放去停用詞后的文本。在這里set起到的功能與去除停用詞中功能是一樣的。map是STL的一個(gè)關(guān)聯(lián)容器，它提供一對(duì)一（其中第一個(gè)可以稱為關(guān)鍵字，每個(gè)關(guān)鍵字只能在map中出現(xiàn)一次，第二個(gè)可能稱為該關(guān)鍵字的值）的數(shù)據(jù)處理能力，由于這個(gè)特性map內(nèi)部的實(shí)現(xiàn)自建一顆紅黑樹（一種非嚴(yán)格意義

24、上的平衡二叉樹），這顆樹具有對(duì)數(shù)據(jù)自動(dòng)排序的功能。由于map容器排序的特性，得到得特征排序的很亂的，所以用到了multimap。Multimap所起到的作用就是一個(gè)排序的作用，他使得最終結(jié)果按特征選擇的值來(lái)排序，為后面的去除做一個(gè)準(zhǔn)備。在進(jìn)行文本的特征選擇之后要像去除停用詞一樣去除特征為1的和特征數(shù)等于文本行數(shù)的特征。因?yàn)樘卣鳛?的表示特征過(guò)小，只在一行出現(xiàn)，對(duì)文本的影響不大。而特征數(shù)過(guò)大的與文本行數(shù)相等的說(shuō)明每一行都出現(xiàn)了，不具有代表行。加權(quán)：由于用余弦來(lái)計(jì)算相似度，所以引入了空間模型的概念。G.Salton提出的向量空間模型（VSM）有較好的計(jì)算性和可操作性，是近年來(lái)應(yīng)用較多且效果較好的一

25、種模型，向量空間模型最早成功應(yīng)用于信息檢索領(lǐng)域，后來(lái)又在文本分類領(lǐng)域得到了廣泛的運(yùn)用。向量空間模型的假設(shè)是，一份文檔所屬的類別僅與某些特定的詞或詞組在該文檔中出現(xiàn)的頻數(shù)有關(guān)，而與這些單詞或詞組在該文檔中出現(xiàn)的位置或順序無(wú)關(guān)。也就是說(shuō)，如果將構(gòu)成文本的各種詞義單位（如單詞i、詞組）統(tǒng)稱為“詞項(xiàng)”以及詞頻在文本中出現(xiàn)的頻數(shù)稱為“詞頻”，那么一份文檔中蘊(yùn)含的各個(gè)詞項(xiàng)的詞頻信息足以用來(lái)對(duì)其進(jìn)行正確的分類。在向量空間模型中的文本被形式化為n維空間中的向量：其中略利為第i個(gè)特征的權(quán)重。向量空間模型：向量空間模型重簡(jiǎn)單方面說(shuō)就是一個(gè)完全由向量所組成的文本，由于余弦算法是按照向量的夾角來(lái)計(jì)算的，所以必須通過(guò)加

26、權(quán)來(lái)計(jì)算出每個(gè)詞語(yǔ)的權(quán)重。加權(quán)公式：IDF（q）logN其中N為文本的總行數(shù)，n為出現(xiàn)該詞語(yǔ)的總行in（q）i數(shù)。具體實(shí)現(xiàn)中采用的關(guān)鍵技術(shù)容器本系統(tǒng)主要運(yùn)用的map容器和vector容器的相關(guān)知識(shí)。下面先介紹map容器相關(guān)的知識(shí)：map容器：Map是STL的一個(gè)關(guān)聯(lián)容器，它提供一對(duì)一(其中第一個(gè)可以稱為關(guān)鍵字，每個(gè)關(guān)鍵字只能在map中出現(xiàn)一次，第二個(gè)可能稱為該關(guān)鍵字的值)的數(shù)據(jù)處理能力，由于這個(gè)特性，它完成有可能在我們處理一對(duì)一數(shù)據(jù)的時(shí)候，在編程上提供快速通道。這里說(shuō)下map內(nèi)部數(shù)據(jù)的組織，map內(nèi)部自建一顆紅黑樹(一種非嚴(yán)格意義上的平衡二叉樹)，這顆樹具有對(duì)數(shù)據(jù)自動(dòng)排序的功能，所以在map內(nèi)

27、部所有的數(shù)據(jù)都是有序的，后邊我們會(huì)見識(shí)到有序的好處。下面舉例說(shuō)明什么是一對(duì)一的數(shù)據(jù)映射。比如一個(gè)班級(jí)中，每個(gè)學(xué)生的學(xué)號(hào)跟他的姓名就存在著一一映射的關(guān)系，這個(gè)模型用map可能輕易描述，很明顯學(xué)號(hào)用int描述，姓名用字符串描述。Vector容器的相關(guān)知識(shí)如下：vector是C+標(biāo)準(zhǔn)模板庫(kù)中的部分內(nèi)容，它是一個(gè)多功能的，能夠操作多種數(shù)據(jù)結(jié)構(gòu)和算法的模板類和函數(shù)庫(kù)。vector是一個(gè)容器，它能夠存放各種類型的對(duì)象，簡(jiǎn)單地說(shuō)，vector是一個(gè)能夠存放任意類型的動(dòng)態(tài)數(shù)組，可以動(dòng)態(tài)改變大小。倒排索引倒排索引的概念：這種索引表中的每一項(xiàng)都包括一個(gè)屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來(lái)確定屬性值

28、，而是由屬性值來(lái)確定記錄的位置，因而稱為倒排索引(invertedindex)。帶有倒排索引的文件我們稱為倒排索引文件，簡(jiǎn)稱倒排文件倒排的應(yīng)用：倒排的目的是為了使計(jì)算的方法簡(jiǎn)便，使程序的效率提高。倒排就是用mapint,mapdp這樣一個(gè)大的復(fù)合容器來(lái)將結(jié)果顯示為3列。for(mapint,map:iteratori=dp.begin();i!=dp.end();i+)for(map:iteratorj=i-second.begin();j!=i-second.end();j+)writefirstfirstsecondn;這樣就將文件成一個(gè)3列的輸出，為后面的內(nèi)積計(jì)算做了一個(gè)鋪墊。內(nèi)積內(nèi)積(

29、innerproduct)，又稱數(shù)量積(scalarproduct)、點(diǎn)積(dotproduct)他是一種矢量運(yùn)算，但其結(jié)果為某一數(shù)值，并非向量。設(shè)矢量A二al,a2,.an,B二bl,b2.bn則矢量A和B的內(nèi)積表示為：AB=alXbl+a2Xb2+anXbnAB=|A|X|B|Xcos0|A|=(al2+a22+.+an2)(1/2);|B|=(b12+b22+.+bn2)(1/2).其中，|A|和|B|分別是向量A和B的模，是0向量A和向量B的夾角(0e0,n)。若B為單位向量，即|B|=1時(shí)，AB=|A|Xcos0，表示向量A在B方向的投影長(zhǎng)度。向量A為單位向量時(shí)同理。算法初看余弦相似

30、度的公式，不明所以的人一定會(huì)對(duì)復(fù)雜的數(shù)學(xué)符號(hào)感到頭疼，其實(shí)大可不必，下面我摘錄了一個(gè)比較通俗易懂的余弦相似度的解釋：在向量空間模型中，文本泛指各種機(jī)器可讀的記錄。用D(Document)表示,特征項(xiàng)(Term，用t表示)是指出現(xiàn)在文檔D中且能夠代表該文檔內(nèi)容的基本語(yǔ)言單位，主要是由詞或者短語(yǔ)構(gòu)成，文本可以用特征項(xiàng)集表示為D(T1,T2,Tn)，其中Tk是特征項(xiàng)，1二k二N。例如一篇文檔中有a、b、c、d四個(gè)特征項(xiàng)，那么這篇文檔就可以表示為D(a，b，c，d)。對(duì)含有n個(gè)特征項(xiàng)的文本而言，通常會(huì)給每個(gè)特征項(xiàng)賦予一定的權(quán)重表示其重要程度。即D=D(T1,W1；T2,W2；，Tn，Wn),簡(jiǎn)記為D=

31、D(W1,W2,Wn),我們把它叫做文本D的向量表示。其中Wk是Tk的權(quán)重，1二k=N。在上面那個(gè)例子中，假設(shè)a、b、c、d的權(quán)重分別為30，20，20，10，那么該文本的向量表示為D(30，20，20，10)。在向量空間模型中，兩個(gè)文本D1和D2之間的內(nèi)容相關(guān)度Sim(Dl,D2)常用向量之間夾角的余弦值表示，公式為：珀門.花V丘1出1其中，Wlk、W2k分別表示文本D1和D2第K個(gè)特征項(xiàng)的權(quán)值，1=k=No在自動(dòng)歸類中，我們可以利用類似的方法來(lái)計(jì)算待歸類文檔和某類目的相關(guān)度。例如文本D1的特征項(xiàng)為a，b，c，d,權(quán)值分別為30，20，20，10，類目Cl的特征項(xiàng)為a，c，d，e，權(quán)值分別為

32、40，30，20，10，貝UD1的向量表示為D1(30,20,20,10,0),C1的向量表示為C1(40，0，30，20，10)，則根據(jù)上式計(jì)算出來(lái)的文本D1與類目C1相關(guān)度是0.86那么0.86具體是怎么推導(dǎo)出來(lái)的呢？在數(shù)學(xué)當(dāng)中，n維向量是Vv1,v2,v3,.,vn他的模：|v|=sqrt(v1*v1+v2*v2+.+vn*vn)兩個(gè)向量的點(diǎn)擊m*n=n1*m1+n2*m2+nn*mn相似度=(m*n)/(|m|*|n|)物理意義就是兩個(gè)向量的空間夾角的余弦數(shù)值下面是代入公式的過(guò)程：d1*c1=30*40+20*0+20*30+10*20+0*10=2000|d1|=sqrt(30*30

33、+20*20+20*20+10*10+0*0)=sqrt(1800)|c1|=sqrt(40*40+0*0+30*30+20*20+10*10)=sqrt(3000)相似度=d1*c1/(|d1|*|c1|)=2000/sqrt(1800*3000)=0.860663.3本章小結(jié)本章主要介紹了余弦相似度的具體算法，余弦計(jì)算前去除停用詞、文本特征選擇、加權(quán)和如何利用C+中的容器來(lái)書寫程序描述這個(gè)算法。對(duì)于一個(gè)給定的算法，我們主要的精力是研究如何用程序來(lái)實(shí)現(xiàn)這個(gè)算法，我個(gè)人覺得這個(gè)有些南轅北轍的味道，我們應(yīng)該從最深處理解算法的精髓，能寫出算法的人是大師，而用程序?qū)崿F(xiàn)算法的人只是一個(gè)程序員，由于個(gè)人

34、的原因，本人的數(shù)學(xué)功底有些差，但是我會(huì)再以后的道路上努力彌補(bǔ)自己的不足，完善自我。4關(guān)鍵問(wèn)題及分析（三）（BM25）研究設(shè)計(jì)中的關(guān)鍵問(wèn)題本章節(jié)主要面對(duì)的問(wèn)題是1.BM25的數(shù)學(xué)公式是什么？2.BM25公式的主要的參數(shù)是什么意思？3.用程序?qū)崿F(xiàn)BM25的算法用到哪些相關(guān)的知識(shí)？具體實(shí)現(xiàn)中采用的關(guān)鍵技術(shù)4.2.1容器本章主要用到了map容器和vector容器。解釋map容器：Map是STL的一個(gè)關(guān)聯(lián)容器，它提供一對(duì)一（其中第一個(gè)可以稱為關(guān)鍵字，每個(gè)關(guān)鍵字只能在map中出現(xiàn)一次，第二個(gè)可能稱為該關(guān)鍵字的值）的數(shù)據(jù)處理能力，由于這個(gè)特性，它完成有可能在我們處理一對(duì)一數(shù)據(jù)的時(shí)候，在編程上提供快速通道。這

35、里說(shuō)下map內(nèi)部數(shù)據(jù)的組織，map內(nèi)部自建一顆紅黑樹（一種非嚴(yán)格意義上的平衡二叉樹），這顆樹具有對(duì)數(shù)據(jù)自動(dòng)排序的功能，在map內(nèi)部所有的數(shù)據(jù)都是有序的。Vector容器的相關(guān)知識(shí)如下：vector是C+標(biāo)準(zhǔn)模板庫(kù)中的部分內(nèi)容，它是一個(gè)多功能的，能夠操作多種數(shù)據(jù)結(jié)構(gòu)和算法的模板類和函數(shù)庫(kù)。vector是一個(gè)容器，它能夠存放各種類型的對(duì)象，簡(jiǎn)單地說(shuō)，vector是一個(gè)能夠存放任意類型的動(dòng)態(tài)數(shù)組，可以動(dòng)態(tài)改變大小。算法BM25通常用于信息檢索的領(lǐng)域，它是一種用于排序跟搜索關(guān)鍵詞相關(guān)的文本的一種排序的函數(shù)，最早在1970年，由S.E.Robertson等提出的，基于概率檢索的框架(probabilis

36、ticretrievalframework)發(fā)展。BM25是一個(gè)bag-of-words的檢索函數(shù)，綜合了特征在文本中的詞頻、以及在語(yǔ)料中的文檔頻度、平衡了文檔的長(zhǎng)度等特征。這個(gè)函數(shù)有很多變種，其中應(yīng)用最普遍的計(jì)算方法，如公式(5.2所示：score(D,Q)=蘭i=iIDF(q)-if(q,D)-(k+1)if(q,D)+k-(1-b+b-iDL)i1avgdl5.2)其中Q是用來(lái)計(jì)算的檢索的query的向量Q=q,qn,n代表向量Q的關(guān)鍵詞的個(gè)數(shù)；D是語(yǔ)料中的一個(gè)樣本向量D=W1,-Wm，M代表向量D特征個(gè)數(shù)；f(qi,D)是檢索詞qi的在樣本D中的出現(xiàn)的次數(shù)；1D|表示文檔D的長(zhǎng)度(指文

37、檔中詞語(yǔ)的個(gè)數(shù)，包括重復(fù)的詞語(yǔ))；avgdl是Q中的query檢索到的全部樣本的平均長(zhǎng)度。匕和b是自由參數(shù)，通常情況下，ki取值為2.0，b取值為0.75。IDF(qi)5.3)是文檔頻度的倒數(shù)，是檢索詞qi的權(quán)重，計(jì)算如公式(5.3)所示：IDF(q)=log“-叫+0.5in(q)+0.5i其中N是整個(gè)數(shù)據(jù)集上的文檔總數(shù)，n(qi)是指包含檢索詞qi的文檔數(shù)。在實(shí)際計(jì)算中，耐值有可能是負(fù)數(shù)，使得的BM25值也有可能是負(fù)數(shù)，由于BM25公式中IDF(q.)偏重于未出現(xiàn)檢索詞qi和出現(xiàn)索引詞qi的樣本數(shù)的比重，對(duì)于DF值較高的索引詞，未出現(xiàn)索引詞qi的文檔個(gè)數(shù)有小于DF值，取log之后IDF(

38、qi)的值變?yōu)樨?fù)值。在本文的實(shí)驗(yàn)中去掉了BM25值為負(fù)數(shù)的樣本。4.3本章小結(jié)BM25算法計(jì)算相比余弦算法過(guò)程要簡(jiǎn)單的多，但是我只是運(yùn)用了一個(gè)循環(huán)的方法，目的是看用“倒排”的效率，結(jié)果“不看不知道,一看下一跳”。結(jié)果不是差了一點(diǎn)半點(diǎn)啊。使用“倒排”的效率大大提高。關(guān)于BM25算法的結(jié)果，個(gè)人表示沒有余弦好理解，因?yàn)樗慕Y(jié)果是無(wú)規(guī)律且大小相差很多，非專業(yè)人員(我)無(wú)法用BM25來(lái)看出相似度到底有多少，而余弦的結(jié)果是01之間的，可以一目了然的看到兩篇文本的相似度是多少。通過(guò)了BM25的實(shí)現(xiàn)，使我的數(shù)學(xué)有了提高，而且更加深入的了解到了如何編算法，以前總感覺算法是很難實(shí)現(xiàn)的，但是現(xiàn)在感覺已將給了公式，

39、這樣邏輯就很明了了。相信下次我會(huì)編的更好。5系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)本章從系統(tǒng)的實(shí)現(xiàn)過(guò)程，各模塊的功能、各模塊間的關(guān)系、界面設(shè)計(jì)及測(cè)試等幾個(gè)方面闡釋了系統(tǒng)的具體實(shí)現(xiàn)。5.1設(shè)計(jì)實(shí)現(xiàn)的策略和關(guān)鍵技術(shù)描述在上邊的講解里提出了關(guān)于本程序的相關(guān)模塊，在這一節(jié)里將對(duì)每個(gè)模塊進(jìn)行詳細(xì)講解，并對(duì)其實(shí)現(xiàn)方法進(jìn)行描述。通過(guò)設(shè)計(jì)方案可以確定出本程序主要分為如下模塊：文檔載入模塊、去除停用詞模塊、加權(quán)模塊、特征選擇模塊、余弦算法模塊、BM25算法模塊、相似度顯示模塊，相似度導(dǎo)出模塊。分模塊詳述系統(tǒng)各部分的實(shí)現(xiàn)方法5.2.1文檔載入模塊獲取文件的信息可包括兩個(gè)方面，一個(gè)是獲取原文本文檔（三類語(yǔ)料.txt）中的翻譯信息，一個(gè)是獲

40、取停用詞表（哈工大停用詞表txt）中的信息。下面分別對(duì)獲取文本文檔中的原文信息和獲取停用詞表中的信息進(jìn)行詳細(xì)的介紹。1）獲取文本文檔（三類語(yǔ)料.txt）中的翻譯信息文本文件（txt）文件的格式相對(duì)比較簡(jiǎn)單，本程序用C+語(yǔ)言讀取文本文件的方法讀取原文的信息。用了C+語(yǔ)言中的getline方法讀取文件信息，之后用C+語(yǔ)言中的istringstream函數(shù)進(jìn)行分詞操作。原文格式如下：濟(jì)濟(jì)沢丘濟(jì)濟(jì)一經(jīng)經(jīng)弓經(jīng)經(jīng).定菜合產(chǎn)發(fā)賓決蔬綜生快怦院、的隔加陶彩食源制心報(bào)匡糧資及中本.，竹料為.:加大監(jiān)管力度確尿用藥歪全本報(bào)評(píng)論員最近:中西部地區(qū)外商投資優(yōu)勢(shì)產(chǎn)業(yè)目錄山西省1尿鮮和加工2.林木營(yíng)造及林木良種引進(jìn)3.3

41、.民族特需產(chǎn)品、工藝美術(shù)、包裝及容器材:圧紀(jì)云在黑龍江考察時(shí)強(qiáng)調(diào)堅(jiān)持以經(jīng)濟(jì)建設(shè):武警黑龍江省森林愿隊(duì)調(diào)集官兵投農(nóng)撲.火戰(zhàn)斗2）獲取文本文檔（哈工大停用詞表.txt）中的翻譯信息獲取停用的操作相對(duì)來(lái)說(shuō)簡(jiǎn)單了些，因?yàn)槊總€(gè)停用詞獨(dú)占一行，用C+語(yǔ)言的讀一行文件的操作即可，此處就不做詳述了。去除停用詞模塊去除停用詞的目的是去除停用詞表中的詞語(yǔ)，因?yàn)橐粋€(gè)剛剛分好詞的文本會(huì)有許多不重要的詞或符號(hào)。去除停用詞的操作是一個(gè)非常常見的教科書程序，而且在我的印象中還做過(guò)相關(guān)課設(shè)，去除停用詞的方法主要就是一個(gè)循環(huán)，但是由于這次要去除的詞是在一個(gè)文本中，所以要用到一個(gè)set容器。特征選擇模塊特征選擇模塊的最終目的一共

42、有兩個(gè)，一個(gè)是輸出每個(gè)詞的特征，即在文本中有多少行含有該詞。另一個(gè)目的就是去除特征為一的詞語(yǔ)和特征等于該文本的總行數(shù)的詞語(yǔ)，因?yàn)槌绦虻淖罱K目的是比較相似度，特征為一的就表示該詞不是一個(gè)由代表性的詞語(yǔ)，而特征數(shù)與總行數(shù)相等則說(shuō)明了有無(wú)該詞對(duì)相似度的結(jié)果是沒有影響的。所以我們對(duì)原文做了如下特征選擇的操作，去除每篇文章都出現(xiàn)的單詞或者有且僅有只在一篇文章中出現(xiàn)的單詞。5.2.4加權(quán)模塊對(duì)權(quán)值的解釋：權(quán)值就是指這個(gè)指標(biāo)在整個(gè)分析過(guò)程中所占的重要程度，比如你買輛車你對(duì)車的屬性有幾方面認(rèn)識(shí)假定只有3個(gè)方面質(zhì)量?jī)r(jià)格舒適程度你認(rèn)為這個(gè)質(zhì)量對(duì)你最重要你賦權(quán)值為0.5價(jià)格其次重要賦值0.3舒適程度適當(dāng)考慮并賦值0

43、.2OK我們可以以此為標(biāo)準(zhǔn)來(lái)評(píng)判你看中了車A給它三方面打分質(zhì)量90價(jià)格80舒適80車B質(zhì)量80價(jià)格90舒適80然后你把這些分?jǐn)?shù)乘以相應(yīng)的權(quán)值可以有A的得分90*0.5+80*0.3+80*0.2=85B的得分80*0.5+90*0.3+80*0.2=83故A車對(duì)你是較好的選擇權(quán)值就是這樣在問(wèn)題分析中起到重要作用一般的權(quán)值累加為1實(shí)際上這只是習(xí)慣不為1而為任意正數(shù)都沒有關(guān)系我們?cè)诖颂幱昧巳缦碌募訖?quán)公式：(寫公式)下面是對(duì)公式的通俗解釋(摘錄自維基百科)：有很多不同的數(shù)學(xué)公式可以用來(lái)計(jì)算TF-IDF。這邊的例子以上述的數(shù)學(xué)公式來(lái)計(jì)算。詞頻(TF)是一詞語(yǔ)出現(xiàn)的次數(shù)除以該文件的總詞語(yǔ)數(shù)。假如一篇文件

44、的總詞語(yǔ)數(shù)是100個(gè)，而詞語(yǔ)“母?！背霈F(xiàn)了3次，那么“母?！币辉~在該文件中的詞頻就是0.03(3/100)。一個(gè)計(jì)算文件頻率(DF)的方法是測(cè)定有多少份文件出現(xiàn)過(guò)“母?！币辉~，然后除以文件集里包含的文件總數(shù)。所以，如果“母?！币辉~在1,000份文件出現(xiàn)過(guò)，而文件總數(shù)是10,000,000份的話，其逆向文件頻率就是4(ln(10,000,000/1,000)。最后的TF-IDF的分?jǐn)?shù)為0.12(0.03*4)。5.2.5余弦計(jì)算模塊此處利用了余弦公式求解了預(yù)先相似度的值，公式如下：和向量余弦的計(jì)算方法是文本相似度計(jì)算中最常見的一種方法，標(biāo)記為cosine。用向量空間模型表示文本Di和文本D2，兩

45、個(gè)向量的余弦計(jì)算，如公式6.1)所示：小r、d-dcos(D,D)=i212|d|dII125.1)工(weigh(d,t)-weightd,t)1i2ii=0weigh(d,t)2-eigh(d,t)21i2ji=0其中k表示樣本Di和樣本D2兩個(gè)向量的共現(xiàn)特征的個(gè)數(shù),n、m分別表示向量Di和D2的向量的維數(shù)。此處求的的余弦的相似度在01之間。5.2.6BM25計(jì)算模塊BM25是一個(gè)bag-of-words的檢索函數(shù)，綜合了特征在文本中的詞頻、以及在語(yǔ)料中的文檔頻度、平衡了文檔的長(zhǎng)度等特征。這個(gè)函數(shù)有很多變種，其中應(yīng)用最普遍的計(jì)算方法，如公式(5.2)所示：score(D,Q)二蘭IDF(q

46、)-ii=1f(q,D)(k+1)i1f(q,D)+k(1-b+b1D)i1avgdl5.2)其中Q是用來(lái)計(jì)算的檢索的query的向量Q=q，,q,n代表向量Q的關(guān)鍵詞1n的個(gè)數(shù)；D是語(yǔ)料中的一個(gè)樣本向量D=w.w,M代表向量D特征個(gè)數(shù)；1,Mf(q,D)是檢索詞q的在樣本D中的出現(xiàn)的次數(shù)；IDI表示文檔D的長(zhǎng)度(指文檔ii中詞語(yǔ)的個(gè)數(shù)，包括重復(fù)的詞語(yǔ))；avgdi是Q中的query檢索到的全部樣本的平均長(zhǎng)度。k和b是自由參數(shù)，通常情況下，k取值為2.0，b取值為0.75。IDF(q)11i是文檔頻度的倒數(shù)，是檢索詞q的權(quán)重。iIDF(q)=log叫+0.5in(q)+0.5i其中N是整個(gè)數(shù)據(jù)

47、集上的文檔總數(shù)，叫是指包含檢索詞qi的文檔數(shù)。本模塊利用BM25算法對(duì)輸入的文章進(jìn)行比對(duì)，并將生成的相似度結(jié)果顯示在ClistCtrl控件上。5.2.7相似度顯示模塊本模塊的主要作用是將兩篇文檔的余弦（BM25）的相似度結(jié)果顯示在ClistCtrl控件中，使用戶能方便快速的看到兩篇文章的余弦（BM25）相似度對(duì)比的結(jié)果。5.2.8相似度導(dǎo)出模塊本模塊主要做的是，將兩篇文章的余弦相似度的結(jié)果保存在文本文檔中。保存格式如下圖所示：1：111:20-02193341:30-14845二和第二篇文章的相似度之比以第二行為例：，1：20廿193己表示第一篇文章0.0219334OS1:50-136715

48、5.3程序流程（50-219212本系統(tǒng)的主要流程如下圖所示：69842581:80-1051圖1.1系統(tǒng)總的流程圖界面設(shè)計(jì)本程序的主要功能是文本相似度的計(jì)算，為了方便用戶操作，本系統(tǒng)將所有用戶需要的功能都放在了程序的顯著位置即界面的上方，并以按鈕的形式和用戶交換。下圖為用戶的主界面部分：圖1.2主界面圖當(dāng)用戶按下“打開語(yǔ)料”按鈕時(shí)系統(tǒng)將彈出Windows文件管理工具菜單如圖所示：打開三類語(yǔ)料操作圖中選擇打開的是文本文檔（*.txt）。選擇三類語(yǔ)料這個(gè)文本文件，之后點(diǎn)擊打開”按鈕。打開停用詞的操作上步操作打開了“三類語(yǔ)料”，之后點(diǎn)擊“打開停用詞”按鈕，系統(tǒng)同樣會(huì)彈出Windows文件管理工具菜

49、單，如圖所示：選擇停用詞的操作選擇“哈工大停用詞表.txt”，點(diǎn)擊“打開”按鈕。界面如下圖所示:待輸入算法前的界面之后就可以選擇計(jì)算文本相似度的算法了，如果選擇想選擇余弦算法的話，點(diǎn)擊“余弦”按鈕。之后系統(tǒng)會(huì)在后臺(tái)計(jì)算余弦的相似度，并在下半部分的表格中顯示出來(lái)。顯示結(jié)果如下圖所示：EM251去停用詞1特征為一余弦序號(hào)對(duì)比行1冠比毎I卷弦駆5相似度A0111.0000001120.021933LSII2130.1484903140.0131334150.136T155160.2192126170.0698437180.10510081y0.22419191100.05723310210.02193311221.00000012230.063175V特征枷一去特征選擇加權(quán)顯示余弦相似度的界面第一列的序號(hào)代表比較的次序，第二列表示的對(duì)比行一所在的行數(shù)，第三列表示的對(duì)比行二所在的行數(shù)，第四列表示二、三列所表示的文件的余弦相似度。同樣，如果想選擇BM25算法的話，可以點(diǎn)擊“BM2

人人文庫(kù)> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

文本相似度計(jì)算

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔