基于計算基準詞對與詞匯相似度的詞匯激勵偏向識別_第1頁
基于計算基準詞對與詞匯相似度的詞匯激勵偏向識別_第2頁
基于計算基準詞對與詞匯相似度的詞匯激勵偏向識別_第3頁
基于計算基準詞對與詞匯相似度的詞匯激勵偏向識別_第4頁
基于計算基準詞對與詞匯相似度的詞匯激勵偏向識別_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于計算基準詞對與詞匯相似度的詞匯激勵偏向識別

1語義傾向識別在文學處理中的應用事實上,比較詞匯意義的傾向是為了計算特定詞的比較價值。為了便于處理,將測量值定義為[1和[1]之間的數值。當度量值高于某閾值時,判別為褒義傾向;反之,則判為貶義傾向。這樣,可以通過對句子中詞匯的語義傾向值求平均的方式,獲得句子的語義傾向,而句子又是構成篇章的基礎,以此類推可獲得篇章的語義傾向;另外,句子褒貶傾向性識別又是文本傾向性識別的基礎,文本傾向性識別在信息過濾、自動文摘、文本分類等領域有廣泛的應用前景。因此,對詞匯的語義褒貶傾向性研究是此類研究中的關鍵工作。自20世紀90年代,詞匯傾向性的研究在國外得到了普遍的關注,并迅速發(fā)展起來。1997年,Hatzivassiloglou和McKeown通過對訓練語料的學習進行形容詞語義傾向判別,準確率達到82%。2003年,Turney采用計算基準詞對與詞匯相似度的方法識別詞匯傾向性,其準確率在包含形容詞、副詞、名詞、動詞的完整測試集上達到82.8%。2002年,由劉群等人提出了基于《知網》詞匯語義相似度計算方法,成為目前中文詞匯傾向性計算的主要依據。在朱嫣嵐論文詞匯語義褒貶傾向性研究的基礎上,指出了該算法中存在的一些不足之處,并對該算法進行一定的改進,通過實驗證明該改進后的算法比原算法在準確率上有了較大的提高。2比較語言意義的喜前后傾向的計算2.1義原層次的相似度知網(英文名稱為HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫?!吨W》中兩個主要的概念:“概念”與“義原”?!案拍睢笔菍υ~匯語義的一種描述。每一個詞可以表達為幾個概念?!案拍睢笔怯靡环N“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”?!傲x原”是用于描述一個“概念”的最小意義單位。義原一方面作為描述概念的最基本單位,另一方面,義原之間又存在復雜的關系。在《知網》中,一共描述了義原之間的8種關系:上下位關系、同義關系、反義關系、對義關系、屬性-宿主關系、部件-整體關系、材料-成品關系、事件-角色關系??梢钥闯觯x原之間組成的是一個復雜的網狀結構,而不是一個單純的樹狀結構。不過,義原關系中最重要的還是上下位關系。根據義原的上下位關系,所有的“基本義原”組成了一個義原層次體系。這個義原層次體系是一個樹狀結構,這也是進行語義相似度計算的基礎。在劉群論文中提出兩個孤立詞語之間的相似度計算最終歸結到了兩個概念之間的相似度計算。對于兩個漢語詞語W1和W2,如果W1有n個義項(概念):S11,S12,…,S1n,W2有m個義項(概念):S21,S22,…,S2m,則W1和W2的相似度等于各個概念的相似度之最大值,即而任一個義項可由四個部分組成:第一獨立義原、其他獨立義原、關系義原和符號義原,其中義原相似度的計算公式如下:其中p1和p2表示兩個義原(primitive),d是p1和p2在義原層次體系中的路徑長度,是一個正整數。α是一個可調節(jié)的參數。這樣兩個義項(概念)語義表達式的整體相似度公式如下:其中,βi(1≤i≤4)是可調節(jié)的參數,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。Sim1(S1,S2)是第一獨立義原描述式,Sim2(S1,S2)是其他獨立義原描述式,Sim3(S1,S2)是關系義原描述式,Sim4(S1,S2)是符號義原描述式。2.2語義至浚的基準詞在朱嫣嵐論文中對某一詞匯W的語義褒貶傾向性計算指導思想是:先給定k對基準詞(其中k個褒義詞,k個貶義詞),利用《知網》語義相似度計算公式,求出詞匯W與k對基準詞中每個詞的語義相似度,并統計出k個褒義詞語義相似度的和S1、k個貶義詞語義相似度的和S2,若S1-S2>0則認為詞匯W更加接近褒義傾向,認定為褒義詞,若S1-S2<0則認為詞匯W更加接近貶義傾向,認定為貶義詞。詞匯W的語義褒貶傾向值計算公式如下:其中k表示k對基準詞,每對基準詞包括一個褒義詞和一個貶義詞。褒義基準詞表示為key-p,貶義基準詞表示為等于公式(3)中的。用于實驗的40對基準詞如表1所示。朱嫣嵐論文中通過實驗選用詞頻最高的一部分詞作為測試集3,而基準詞根據詞頻選取前1對、4對、5對、10對、15對、20對、30對、40對褒貶詞進行測試,隨著基準詞對的變化,準確率也從22%變化到87%左右。最終得出的結論是:基于《知網》的語義傾向判別,只需利用《知網》的本地資源和少量的基準詞,比較容易實現且不受外界條件(如網絡環(huán)境)的干擾。從實驗結果來看,基準詞的增加對判別的準確性提高有明顯作用,但即使是極少量基準詞,在常用詞集中同樣可以達到80%以上的準確率。最后也提到了兩方面存在的不足:(1)基準詞的選取不夠科學全面;(2)算法比較直觀,不夠科學。2.3實驗結果及分析針對朱嫣嵐論文中算法存在的問題,將從基準詞的選取和算法的改進兩方面著手,最后通過實驗證明在同樣基準詞對下,準確率得到了很大的提高,達到98.94%。2.3.1基準詞vac表1中基準詞的選取原則是按照Google搜索返回Hits數,即它們在Web上的詞頻前40組褒貶詞得到。但使用頻率高不等于詞匯的覆蓋面廣,這樣就造成了基準詞中許多詞匯在《知網》中的語義是相同的。如褒義詞中的“天下第一”、“優(yōu)秀”、“漂亮”、“優(yōu)質”、“良好”、“出色”、“完善”在《知網》中的義項都是“aValue|屬性值,GoodBad|好壞,good|好,desired|良”、“高級”、“最好”、“最佳”在《知網》中的義項都是“aValue|屬性值,rank|等級,HighRank|高等,desired|良”,而貶義詞中的“不良”、“落后”、“有害”、“惡劣”在《知網》中的義項都是“aValue|屬性值,GoodBad|好壞,bad|壞,undesired|莠”,“瘋狂”、“野蠻”、“無情”、“殘酷”在《知網》中的義項都是“aValue|屬性值,behavior|舉止,fierce|暴,undesired|莠”,等。由于表1基準詞中有不少詞匯的語義是相同的,在一定程度上影響了基準詞詞匯的覆蓋面,結果也影響了需判別詞匯語義褒貶傾向性的準確率?;鶞试~選取的原則是基于朱嫣嵐論文基準詞選取原則,將表1中語義重復的詞替換成新的有較高Hits數的褒義詞或貶義詞,最后得到新的40組褒貶基準詞(見表2),這40組褒貶基準詞的特點是在保留較高使用頻率外,排除了語義相同的情況,提高了詞匯的覆蓋面。2.3.2對策三:實驗2加語義相似度的加分法在朱嫣嵐論文中,詞匯語義褒貶傾向性計算方法是根據所要判斷詞匯W與預先設定的褒貶基準詞對中的每一個詞進行語義相似度計算,累加詞匯W和所有褒義基準詞的語義相似度S1,累加詞匯W和所有貶義基準詞的語義相似度S2,最后判斷S1和S2的大小,若S1>S2,則認為詞匯W更具有褒義傾向性,否則若S1<S2,則詞匯W更具有貶義傾向性。該算法采用了統計方法,即利用詞匯W與褒貶義基準詞集合的相似度和進行比較,最后得到詞匯W更傾向于哪一邊。但實驗發(fā)現,對貶義詞處理的準確率較高,而褒義詞的準確率偏低,出現這種結果的原因在于詞匯語義褒貶傾向性計算值比實際偏小,這估計與褒貶基準詞對的選擇有關。但要選擇計算值與實際完全一致的褒貶基準詞對是很困難的,通過加入語義相似度最大值并進行適當的調節(jié),且能獲得這種整體的平衡。具體思想方法如下:假設詞匯W是褒義的,則一般該詞的S1應該大于S2,而該詞與褒義詞集合中語義相似度的最大值M1一般也應該大于該詞與貶義詞集合中語義相似度最大值M2。而且實驗發(fā)現,如果直接采用M1與M2來代替S1與S2之間的比較,準確率也較高。另外,還發(fā)現該方法對褒義詞處理的準確率較高,而貶義詞的準確率較低,即詞匯語義褒貶傾向性計算值比實際偏大。能否通過(S1+M1)-(S2+M2)代替原S1-S2,獲得一種平衡,從而提高詞匯語義褒貶傾向性判別的準確率。但實驗又發(fā)現,單純地將原算法S1-S2改成(S1+M1)-(S2+M2)準確率并沒有得到很大改觀,這是因為一般S比M要大很多,如果不適當調低S的值,M所起的作用將不會很大。經過綜合考慮,最后將公式(4)改成公式(5),改進后的算法如下:其中k表示k對基準詞,每對基準詞包括一個褒義詞和一個貶義詞。褒義基準詞表示為key-p,貶義基準詞表示為key-n,Similarity(key,W)等于公式(3)中的Sim(key,W)。α,β是可調節(jié)參數,根據給定的基準詞對,可通過對α,β的調節(jié)提高算法的準確率。3實驗與結果分析3.1算法效果測試采用相同的算法,都是使用原算法公式(4),但分別采用表1和表2中的褒貶基準詞。在實驗中(包括后面的實驗),默認使用0為閾值,即傾向值大于0則判斷為褒義,小于0則判斷為貶義。語義傾向判別準確率=判別正確的詞數/測試集總詞數,以此來衡量算法效果。測試集使用了《知網》2000中文詞表中標注“良”(褒義),“莠”(貶義)屬性的詞匯。排除了既有“良”又有“莠”的詞,因為這些詞匯在不同語境下,或為褒義,或為貶義,并不能簡單地將其判斷為褒義詞或貶義詞。例如:詞語“好看”,在描述事物時,可作褒義,如“這花真好看”,而在“要你好看”這樣的語句中,顯然帶有強烈的貶義。這樣共選用5930個詞。其中褒義詞2884個,貶義詞3046個。詞匯語義相似度計算使用基于《知網》語義相似度的方法,下同。實驗結果如表3所示。從表3實驗結果可以比較明顯地看出,用相同的算法,當采用改進后的褒貶基準詞后,平均準確率提高了6.19%。3.2算法優(yōu)化后的實驗結果在算法之間的比較實驗中,包含兩個子實驗,第一個是通過相同基準詞,不同算法之間的比較,第二個是通過不同算法,不同褒貶基準詞集合之間的比較。子實驗1,采用原算法公式(4)和改進算法公式(5)兩種不同的算法,基準詞集合采用表2中的40組褒貶基準詞,測試集同前。公式(5)中α取12,β取1。實驗結果如表4所示。子實驗2,采用原算法公式(4)和改進算法公式(5)兩種不同的算法,而基準詞集á??áá?合áá?áá?采用表2中根據順序選取前1對、4對、5對、10對?á、áá1??áááá5??對、20áá?á?á對á?á?、30對、40對褒貶詞進行測試。測試集同前。公式(áá5??áááá)??中α??取èá?éá?áá1á?á?2,β取1。從表4實驗1結果可以比較明顯地發(fā)現,用相同的褒貶基準詞,但當采用改進算法處理后,平均準確率提高了5.72%,達到98.94%。另外,從圖1實驗2結果發(fā)現,隨著基準詞數量的增加,詞匯語義褒貶傾向性準確率都得到相應的改善,且改善情況改進算法明顯比原算法要好。3.3問題求解實驗前面幾個實驗測試集是采用《知網》中已經明確的褒貶詞匯,那么對于那些未明確標識的褒貶詞,在使用原算法和改進算法進行語義褒貶傾向性判別時的效果如何。下面是針對這個問題進行的實驗。測試集是一組由10個褒義詞和10個貶義詞組成的數據集,且這些詞沒有在《知網》中被標識為“良”或“莠”,褒貶基準詞同表2,分別使用原算法和改進算法進行語義褒貶傾向性計算,最后實驗結果如下:從表5的實驗結果看,采用原算法在處理普通的褒貶詞時,褒義詞中“拜壽”、“出生”、“放心”的計算結果為負值,判別為貶義詞,這樣褒義詞的準確率只有70%,平均準確率為85%,而采用改進算法則達到100%。4語義重復率的調節(jié)在采用計算基準詞對與詞匯相似度的方法識別詞匯褒貶傾向性計算中,準確率的高低將取決于褒貶基準詞集合的選擇和計算算法,可以看出,褒貶基準詞集合中的詞匯在保證較高的使用頻率情況下,覆蓋面越廣,準確率越高。而詞匯的覆蓋面可從數量上和詞匯間語義的重復率上去考慮,一般是數量越大,語義重復率越低,詞匯覆蓋面就越廣,反之就越低,但數量越大,計算效果就越低,所以,在固定的數量下,只能尋求語義重復率低的詞匯。另外,在計算公式(5)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論