




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、文本相似性檢索調(diào)研一、相似性檢索調(diào)研從查看的資料來看,文本相似性檢索大致有幾個階段,1)分詞等文檔處理階段2)特征提取3)相似度計(jì)算。1. P2P環(huán)境下的文本檢索綜述本文屬于綜述,沒有具體的操作方法。主要是加入一層語義覆蓋網(wǎng)以及如何構(gòu)建。一些研究者提出了語義覆蓋網(wǎng)(Semantic Overlay Networks SONS)的概念,即在P2P網(wǎng)絡(luò)之上構(gòu)建了一個語義層,也就是預(yù)先定義好一個層次結(jié)構(gòu)的主題分類,然后根據(jù)結(jié)點(diǎn)包含內(nèi)容與主題的相關(guān)程度將結(jié)點(diǎn)聚類,收到查詢消息后,檢索主題找到相應(yīng)的結(jié)點(diǎn)?;赟ONS的研究已經(jīng)有很多,方法1定義一個樹狀的主題層次結(jié)構(gòu)和一些主結(jié)點(diǎn)和從結(jié)點(diǎn),主結(jié)點(diǎn)的信息映射
2、到主題層次結(jié)構(gòu)中并維護(hù)從結(jié)點(diǎn)的連接信息;方法2將網(wǎng)絡(luò)中的結(jié)點(diǎn)劃分成不同的區(qū)域(Zone,在域內(nèi)根據(jù)文檔的相似度將結(jié)點(diǎn)聚類,并選出一個中心結(jié)點(diǎn)作為區(qū)域的代表,然后將不同的區(qū)域合并形成一個語義覆蓋網(wǎng);方法3運(yùn)用潛在語義索引(Latent Semantic Indexing, LSI方法將文檔映射到一個語義邏輯層,然后通過支持向量機(jī)(Support Vector Machine, SVM)模型進(jìn)行訓(xùn)練,將結(jié)點(diǎn)劃分到不同的語義覆蓋網(wǎng)內(nèi);方法4利用結(jié)點(diǎn)的請求和應(yīng)答的歷史記錄構(gòu)建語義覆蓋網(wǎng),經(jīng)常為某一查詢提供解答的結(jié)點(diǎn)被認(rèn)為具有相似的內(nèi)容,將被劃為同一類別;(我們有沒有可能做)方法5通過對鄰居結(jié)點(diǎn)的語義相
3、似度、信任程度、重合度和連接頻率等指標(biāo)的統(tǒng)計(jì)進(jìn)行鄰居結(jié)點(diǎn)的排序,排序靠前的結(jié)點(diǎn)劃為同一類別,構(gòu)建語義覆蓋網(wǎng)。2. 基于HNC句子分析 這篇主要是句子分析,HNC是一種新的語言表示方法。HNC (hierarchical network of concepts,概念層次網(wǎng)絡(luò))理論是一個關(guān)于自然語言理解處理的理論體系,以概念聯(lián)想脈絡(luò)為主線,由中國科學(xué)院聲學(xué)研究生黃曾陽先生創(chuàng)立?;贖NC語義塊的句子相似度計(jì)算(本文采用)把句子的類型劃分為作用句、過程句、轉(zhuǎn)移句、效應(yīng)句、關(guān)系句、狀態(tài)句和判斷句七大句類,每個句子是由四種主語義塊和七種輔語義塊構(gòu)成的,根據(jù)HNC理論進(jìn)行句子的表示和相似度計(jì)算。HNC有自
4、己的一套表示和計(jì)算方式,可以分析同義詞,例如,句子A:題目是對的。句子B:題目是不錯的。兩個句子相似度HNC計(jì)算為1。下圖是一個語義塊識別,可以直接生成HNC方式的表示。簡單舉例:句子A張三吃了李四的番茄。 句子B張三把李四的西紅柿吃了。本文所作的句子相似度研究的背景是主觀題自動批閱系統(tǒng),在主觀題自動批閱中句子相似度是一個關(guān)鍵的理論基礎(chǔ)。句子相似度在主觀題自動批閱系統(tǒng)中的應(yīng)用主要體現(xiàn)在:老師的參考答案和學(xué)生回答的答案之間的相似度計(jì)算,從而得到學(xué)生的得分,結(jié)果顯示能夠比較好的理解句子的內(nèi)部語義。目前對句子語義相似度計(jì)算的方法主要有:基于相同詞匯的句子相似度計(jì)算方法;基于相似詞語的句子相似度計(jì)算方
5、法(基于各種詞典,區(qū)別詞性);基于詞形和詞序的方法計(jì)算句子相似度(當(dāng)一個分句或短語整體發(fā)生長距離移動后,仍與原來的句子很相似);基于向量空間模型的TF-IDF句子相似度計(jì)算方法(使用較多且效果較好)。3. 基于LDA主題模型的文本相似度計(jì)算該方法利用LDA模型對文本集進(jìn)行建模,即利用文本的統(tǒng)計(jì)特性,將文本語料庫映射到各個主題空間,挖掘隱藏在文本內(nèi)的不同主題與詞之間的關(guān)系,得到文本的主題概率分布,通過此分布來計(jì)算主題的相似度(本文采用JS距離)。在文木相似度計(jì)算方面,利用LDA建立了文木主題空間,增強(qiáng)了文木的向量表示,大大縮小了文檔的維度,加快了計(jì)算速度。LDA的結(jié)果與選取的主題個數(shù)有關(guān),本文3
6、200篇文章,當(dāng)主題數(shù)為250最好。LDA多用于主題聚類、文本分類,以及主題詞聯(lián)想擴(kuò)展等。LDA基于這樣一種前提假設(shè):文檔是由若干個隱含主題構(gòu),而這些主題是由文木中若干個特定詞匯構(gòu)成,忽略文檔中構(gòu)成的句法結(jié)構(gòu)和詞語出現(xiàn)的先后順序。4. 基于潛在語義分析的文本檢索算法研究 潛在語義分析(Latent Semantic Analysis LSA)是一種通過分析大量的文本集,自動生成關(guān)鍵字一概念(語義)之間映射規(guī)則的方法。這篇文本用向量空間模型進(jìn)行文本表示,再應(yīng)用潛在語義索引模型進(jìn)行奇異值分解,把文本表示在低維潛在語義空間中,對大容量文本進(jìn)行非相關(guān)性排除(LSA有一個投影計(jì)算公式,閾值以下認(rèn)為不相關(guān)
7、),之后以查詢文本與檢索文本之間的相似度作為適應(yīng)度函數(shù)值(本文中采用余弦距離,距離越小越好,使用這些距離之和最小作為適應(yīng)度函數(shù),或者迭代到一定次數(shù)即停止),利用遺傳算法檢索,按相似度排序后輸出檢索結(jié)果。結(jié)果顯示,比傳統(tǒng)沒有潛在語義分析的方法有明顯提高。468篇文本,F(xiàn)值提高了大約20%。還有其他潛在語義分析的文章,如基于潛在語義索引的中文文本檢索研究,具體方法是:在使用LSI時,給LSI增加了一個權(quán)重函數(shù),優(yōu)化LSI模型。權(quán)重函數(shù),TF-IDF方法(平滑處理,對頻次的變化緩慢),同時增加“位置因子”,認(rèn)為標(biāo)題、摘要等位置對權(quán)重更有影響。(但是,針對“位置因子”的確定,往往是開發(fā)者通過大量實(shí)驗(yàn)得
8、出的經(jīng)驗(yàn)值,還缺乏堅(jiān)實(shí)的理論基礎(chǔ))?;跐撛谡Z義索引的檢索己經(jīng)被證明是對傳統(tǒng)的向量空間技術(shù)的一種改良,可以達(dá)到消除詞之間相關(guān)性,化簡文檔向量的目的。用潛在語義索引進(jìn)行檢索,不是基于文檔集中表層的詞匯信息而是潛在語義結(jié)構(gòu),其性能比關(guān)鍵字匹配方法要高出許多。5.基于層次聚類的論文相似性檢索本文介紹了一種對論文關(guān)鍵詞進(jìn)行層次聚類的算法,首先把論文關(guān)鍵詞聚類為概念(論文關(guān)鍵詞是葉子節(jié)點(diǎn)),從而生成一個概念樹,然后用概念向量表示論文,每篇論文對應(yīng)一個概念子樹。在相似性檢索時,采用改進(jìn)的余弦相似性方法(跟概念樹的結(jié)構(gòu)有關(guān),如考慮節(jié)點(diǎn)的共同祖先),根據(jù)概念向量計(jì)算論文的相似性,把與給定論文最相似的論文返回給
9、用戶。用這種算法,能很好的對論文進(jìn)行基于概念的相似性檢索。將論文關(guān)鍵詞作為聚類的項(xiàng),進(jìn)行層次聚類。6.詞語位置加權(quán)TextRank的關(guān)鍵詞抽取研究無指導(dǎo)關(guān)鍵詞抽取方法的研究,主流方法可歸納為三種:基于TF-IDF統(tǒng)計(jì)特征的關(guān)鍵詞抽取、基于主題模型的關(guān)鍵詞抽取和基于詞圖模型的關(guān)鍵詞抽取方法。(主題模型中以基于LDA的關(guān)鍵詞抽取方法應(yīng)用最為廣泛,LDA是一種無指導(dǎo)機(jī)器學(xué)習(xí)技術(shù)圖,通過大量已知的“詞語一文檔”矩陣和一系列訓(xùn)練,推理出隱藏在內(nèi)部的“文檔一主題”分布和“主題一詞語”分布,出現(xiàn)在文檔中主要主題中的主要詞語更有可能被識別為關(guān)鍵詞。關(guān)鍵詞抽取的任務(wù)就是從一段給定的文本中自動抽取出若干有意義的詞
10、語或詞組,抽取方法既可以通過訓(xùn)練語料構(gòu)建模型實(shí)現(xiàn),也可以借助于詞語之間的關(guān)系直接從文本本身抽取,后者因無需訓(xùn)練過程,應(yīng)用較為方便,TextRank是其中的典型代表。)TextRank的思想來源于PageRank,通過把文本分割成若干組成單元并建立圖模型,利用投票機(jī)制對文本中的重要成分進(jìn)行排序,僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞抽取,把詞語按照表達(dá)文檔意圖的強(qiáng)度遞減排序,前n個詞語即可作為文檔的關(guān)鍵詞。本文從詞語的覆蓋影響力、位置影響力和頻度影響力三個方而加權(quán)計(jì)算詞語的重要性。(初始時各節(jié)點(diǎn)值為1)覆蓋重要性是平均分配的,似乎用處不大,從結(jié)果數(shù)據(jù)來看,以位置信息為主的詞語本身的重要性起了最為
11、重要的作用,而詞語頻度信息所起作用較小。LDA算法基于詞袋假設(shè),未考慮詞語的位置信息,適用于文檔集背后存在較有規(guī)律的主題分布的情況,主題分布不明顯的情況下,準(zhǔn)確率不高。7.基于多特征的中文關(guān)鍵詞抽取方法本文選擇詞語的頻率、關(guān)聯(lián)度、詞性以及位置四個特征融合,抽取中文網(wǎng)頁文本的關(guān)鍵詞。詞頻使用TF-IDF;詞性分為名詞、動詞、形容詞;位置通常關(guān)鍵詞位于標(biāo)題和起始段的概率較高,按照標(biāo)題、起始段、其他的順序分別賦給不同的權(quán)重;詞語網(wǎng)絡(luò)中節(jié)點(diǎn)的度和聚集度系數(shù)可以描述詞語在文本中的連接特性,即關(guān)聯(lián)度(文中沒有給出具體操作方式,應(yīng)該在其參考文獻(xiàn)中)上述特征進(jìn)行模型融合,融合參數(shù)采用遺傳算法進(jìn)行優(yōu)化,適應(yīng)度函
12、數(shù)采用F值。實(shí)驗(yàn)測試數(shù)據(jù)集1500篇互聯(lián)網(wǎng)文檔,在新聞、財(cái)經(jīng)、科技中效果不錯,體育和娛樂領(lǐng)域中稍差。8.基于語用信息的中文專利檢索系統(tǒng)自然語言包括語法、語義、語用三個互相聯(lián)系又互相區(qū)別的層次。術(shù)語上,通常把與事物運(yùn)動狀態(tài)及其變化方式的形式因素相聯(lián)系的認(rèn)識論信息稱為語法信息,把與含義因素相聯(lián)系的認(rèn)識論信息稱為語義信息,把與效用因素相聯(lián)系的認(rèn)識論信息稱為語用信息,而把語法、語義、語用信息的有機(jī)整體稱為全信息。人們在獲取信息的時候,不能只考查信息的形式因素(語法信息)和信息的內(nèi)容(語義信息),還必須考查信息的價(jià)值(語用信息)。“事物運(yùn)動狀態(tài)及其變化方式對于認(rèn)識主體的目的而言的效用方面”,稱為事物的語
13、用信息。而語法信息、語義信息和語用信息的整體,則稱為“全信息”。(北京郵電大學(xué)信息工程學(xué)院的吳云設(shè)計(jì)了一個基于全信息的自動文本傾向識別系統(tǒng)。該系統(tǒng)從語法,語義,語用三個層次出發(fā),進(jìn)行文本中的信息標(biāo)注與抽取。最后將這些標(biāo)注信息作為文本特征逐一添加到一個SVM文本分類器中去,進(jìn)行文本分類計(jì)算。)在本文中,我們將對語法、語義、語用信息分別提取出來,再層層進(jìn)行疊加,并將最終實(shí)現(xiàn)了三層信息標(biāo)注后的文本放入專利語料庫中用于后續(xù)專利信息的檢索。在語用層,利用全信息理論中對效用度的理解,手動對專利語料進(jìn)行效用度語用信息的抽取作為語用層信息標(biāo)注。(語用信息很難自動提取,目前看到的都依賴外部人工標(biāo)注)語用和語義的
14、區(qū)別在于語義并不關(guān)心說話者和聽眾,也不注意說話者的環(huán)境以及背景知識,只是單純的字面意思的表達(dá)。語用正好與其相反。語用不僅包含了句子的字面意思,還包含了更深層次的內(nèi)在含義以及說話者和聽眾所在的環(huán)境和背景。比如,專利“未來香煙”,提取的語用信息“維持人體神經(jīng)體液、美容保健排毒養(yǎng)顏、消除疲勞、提高精神、戒煙者的首選用品、可攜帶性強(qiáng)的營養(yǎng)”,注意該文中語用信息是人工提取。本文的處理流程:中文分詞以及詞性標(biāo)注,去停用詞等,IPC分類、關(guān)鍵詞抽取,檢索時對關(guān)鍵詞進(jìn)行語用信息的擴(kuò)展。9.基于知識發(fā)現(xiàn)的專利檢索系統(tǒng)分析與設(shè)計(jì)(大連理工大學(xué)的樸紅吉(2010)提出了面向應(yīng)用的索引池概念,討論了索引項(xiàng)對檢索結(jié)果的
15、影響,提出并實(shí)現(xiàn)了一個基于Nutch索引池的應(yīng)用,通過融合現(xiàn)有的語義檢索方法與關(guān)鍵詞檢索方法的檢索結(jié)果,提高了一次檢索的查全率,同時在融合過程中采用結(jié)果集相關(guān)性調(diào)整策略,使得相關(guān)專利在檢索結(jié)果中的排名靠前,提高了查詢精度,方便檢索用戶進(jìn)行查閱12)本文主要采用數(shù)據(jù)挖掘中的關(guān)聯(lián)分析,關(guān)聯(lián)分析是數(shù)據(jù)挖掘技術(shù)中的一個重要研究方向,用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系,所發(fā)現(xiàn)的聯(lián)系可以用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集的形式表示,最經(jīng)典的就是超市購物籃數(shù)據(jù)分析,如尿布->啤酒。(Apriori算法是關(guān)聯(lián)規(guī)則挖掘中最經(jīng)典的算法。)本文1)首先對專利文檔進(jìn)行分詞,(由于中文文本的特性,使得中文文本在分詞時
16、存在著諸多問題,其中最為重要的兩個難點(diǎn)是歧義詞切分和未登錄詞識別),本文選擇了武漢大學(xué)Rost wordpasser中文分詞及詞頻統(tǒng)計(jì)軟件,這款軟件集成了分詞、詞頻統(tǒng)計(jì)、濾詞三項(xiàng)功能;2)再通過關(guān)聯(lián)規(guī)則對查詢關(guān)鍵詞進(jìn)行擴(kuò)展,具體的是先以原始檢索關(guān)鍵詞進(jìn)行檢索,對結(jié)果中的專利數(shù)據(jù)集中的詞語進(jìn)行關(guān)聯(lián)分析,找出與原始關(guān)鍵詞關(guān)系最為密切的語詞,并將其作為擴(kuò)展關(guān)鍵詞,擴(kuò)展檢索標(biāo)準(zhǔn)。(其中關(guān)聯(lián)分析的使用了某些約束需要人工交互,以防止關(guān)聯(lián)的結(jié)果可能會造成的“信息爆炸”;)3)空間向量余弦相似度計(jì)算,向量表示采用tf-idf權(quán)重表示。實(shí)驗(yàn)數(shù)據(jù)選用國家知識產(chǎn)權(quán)局網(wǎng)站專利數(shù)據(jù)庫中部分專利數(shù)據(jù)。10.基于小波變換的
17、文檔相似性檢索方法這篇主要介紹的是一種相似性比較的方法,并不是文本處理的方法。將文檔分為8個部分,每個部分統(tǒng)計(jì)頻次,之后對8個部分進(jìn)行小波變換,如果兩文檔中的詞信號在相同位置出現(xiàn)則說明兩篇文檔比較相似,位置相鄰則相似性次之。對查詢關(guān)鍵詞在文章中計(jì)算詞信號(計(jì)算關(guān)鍵詞在文檔每個部分的詞頻);利用WordNet詞典計(jì)算的方法和詞頻對關(guān)鍵詞進(jìn)行加權(quán);對詞信號進(jìn)行小波變換;計(jì)算信號幅值和相位;文檔的幅值越大其相似性越大,而其相位值越相似,則信號位置越接近。文章中沒有與其他方法的橫向比較。2、 工作方向 以下只是下一步的可能工作方向,具體的方式算法需要進(jìn)一步查看相關(guān)資料來確定。 1. 詞語擴(kuò)展類似于主題
18、模型或者同義詞擴(kuò)展,在Finger檢索中使用cluster進(jìn)行詞擴(kuò)展,可以將每一個cluster當(dāng)成一個主題進(jìn)行映射,若干詞包含于一個主題當(dāng)中。在70w數(shù)據(jù)測試中,finger前2000名的召回率為0.731852,匹配后的前100名的召回率為0.423749,比之前的檢索結(jié)果明顯提高。 下一步可以考慮繼續(xù)完善finger中的cluster使用,另外,在匹配算法中嘗試使用cluster進(jìn)行次擴(kuò)展。 2. 增加現(xiàn)有詞典的使用 詞向量模型是通過現(xiàn)有的語料進(jìn)行訓(xùn)練而得到的,考慮到數(shù)據(jù)語料完善性可能不會太好,從而導(dǎo)致有些詞語沒有詞向量,影響最終的檢索結(jié)果??梢栽黾邮褂闷渌F(xiàn)有比較成熟的詞典,如HowWet、同義詞詞林等中文詞典,希望能彌補(bǔ)語料不足的缺點(diǎn),更完整的解釋詞語的語義關(guān)系。 基于同樣的考慮,cluster的使用可以適當(dāng)增加現(xiàn)有同義詞詞典的使用,以提高現(xiàn)有的檢索效果。 3. 有效關(guān)鍵詞提取現(xiàn)有文本檢索系統(tǒng)中,無論指紋還是匹配時,總是有不少的干擾詞。所謂干擾詞,指的是特征提取出來的關(guān)鍵詞,但是并不能有效地表達(dá)文本內(nèi)容,這樣的情況下會嚴(yán)重影響檢索的結(jié)果。考慮計(jì)算提取的關(guān)鍵詞之間的相似度,去除重復(fù)的關(guān)鍵詞(語義
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深信服aES產(chǎn)品技術(shù)白皮書-V1.5
- 3.3汽化和液化 說課稿2025年初中人教版物理八年級上冊
- 我奮斗我幸福心得體會
- 積極心理學(xué)理論下護(hù)理在細(xì)菌性陰道炎患者中的應(yīng)用
- 《會計(jì)信息系統(tǒng)應(yīng)用》課件 學(xué)習(xí)情境5 薪資管理系統(tǒng)應(yīng)用
- 餐廚垃圾收運(yùn)合作協(xié)議書
- 二零二五圖書倉儲與倉儲物流信息化合同樣本
- 二零二五年度辦公大樓自來水供應(yīng)與智能抄表服務(wù)合同
- 健康飲食規(guī)劃實(shí)踐指南
- 三農(nóng)村資源利用優(yōu)化方案設(shè)計(jì)
- TSGD7002-2023-壓力管道元件型式試驗(yàn)規(guī)則
- DB11T 1833-2021 建筑工程施工安全操作規(guī)程
- 信息檢索課件 第2章 文獻(xiàn)檢索方法(1)-2
- 汽車維修行業(yè)服務(wù)標(biāo)準(zhǔn)及規(guī)范
- 民間借貸利息計(jì)算表
- 智鼎在線測評題庫28題
- 網(wǎng)絡(luò)安全事件應(yīng)急預(yù)案演練方案
- 廣告導(dǎo)視標(biāo)牌項(xiàng)目重難點(diǎn)施工方案
- 液壓站操作說明書
- 醫(yī)院圍手術(shù)期管理制度培訓(xùn)課件
- 幼兒園主題探究活動設(shè)計(jì)和指導(dǎo)
評論
0/150
提交評論