中文篇章級句間語義關(guān)系識別_第1頁
中文篇章級句間語義關(guān)系識別_第2頁
中文篇章級句間語義關(guān)系識別_第3頁
中文篇章級句間語義關(guān)系識別_第4頁
中文篇章級句間語義關(guān)系識別_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中皿章級句間語義關(guān)系識別張牧宇;宋原;秦兵;劉挺【摘要】篇章句間關(guān)系識別(DiscourseRelationRecognition)是篇章分析的重要內(nèi)容,該文對中文篇章句問關(guān)系識別任務(wù)進(jìn)行初步探索,包括顯式篇章句間關(guān)系識別與隱式篇章句間關(guān)系識別兩類任務(wù).針對顯武篇章句問關(guān)系,我們提出基于關(guān)聯(lián)詞規(guī)則的方法進(jìn)行識別,取得了很好的效果;針對隱式篇章句間關(guān)系,我們抽取詞匯、句法、語義等特征,采用有指導(dǎo)模型進(jìn)行識別.該文的分析和實(shí)驗(yàn)結(jié)果為后續(xù)研究提供了參考和基本對照系統(tǒng).【期刊名稱】《中文信息學(xué)報》【年(卷),期】2013(027)006【總頁數(shù)】7頁(P51-57)【關(guān)鍵詞】中文篇章級語義分析;顯式篇章句間關(guān)系;隱式篇章句間關(guān)系【作者】張牧宇;宋原;秦兵瀏挺【作者單位】哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001;哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001;哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001;哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001【正文語種】中文【中圖分類】TP3911引言隨著詞匯語義、句子語義研究的逐漸成熟,篇章級語義分析逐漸成為研究熱點(diǎn)。作為篇章語義分析的重要內(nèi)容,篇章句間關(guān)系識別(DiscourseRelationRecognition)也受到了越來越多的關(guān)注。該研究檢測同一篇章內(nèi),兩個文本單元(片段、分句、復(fù)句、句群、段落等)之間的邏輯語義關(guān)聯(lián)(例如,因果關(guān)系)。通過定義層次化的語義關(guān)系類型體系將句內(nèi)的語義分析結(jié)果擴(kuò)展為篇章級的語義信息,從而成為語義分析的重要解決途徑之一,對自動文摘[1]、自動問答[2]、傾向性分析[3-4]以及文本質(zhì)量評價[5]、文本連貫性評價[6]等許多NLP任務(wù)起到了很大的幫助。根據(jù)文本單元間是否存在篇章連接詞(也稱作篇章關(guān)聯(lián)詞),可將篇章句間關(guān)系分為顯式篇章句間關(guān)系(ExplicitDiscourseRelation,簡稱顯式關(guān)系)與隱式篇章句間關(guān)系(ImplicitDiscourseRelation,簡稱隱式關(guān)系)兩類。其中顯式關(guān)系包含篇章關(guān)聯(lián)詞,如例1所示,篇章關(guān)聯(lián)詞〃因?yàn)椤敝甘疽蚬愋偷年P(guān)系實(shí)例;隱式關(guān)系缺少顯式關(guān)聯(lián)詞,需要根據(jù)上下文推測語義類型,如例2所示。例1:因?yàn)槲沂悄惆职郑以敢鉃槟阕鏊幸磺?。(顯式因果關(guān)系)例2:他生病了,今天沒有來上課。(隱式因果關(guān)系)已有篇章句間關(guān)系識別研究主要針對英文[7],印度語[8]、土耳其語[9]和阿拉伯語[10]。雖然已有一些面向中文的研究[11-13],但主要集中在分析和語料標(biāo)注,對關(guān)系識別研究不足;另外,已有研究大都直接使用了英文關(guān)系類型體系,忽略了中文本身的特點(diǎn)。本文對中文篇章句間關(guān)系識別進(jìn)行了探索,包括顯式關(guān)系識別和隱式關(guān)系識別兩方面。針對顯式關(guān)系識別,我們提出一種基于關(guān)聯(lián)詞的識別方案,通過分析中文篇章句間關(guān)系語料獲得關(guān)聯(lián)詞對關(guān)系類型的指示能力,并根據(jù)關(guān)聯(lián)詞指示規(guī)則決定顯式關(guān)系的語義關(guān)系類型。針對隱式關(guān)系識別,由于缺少篇章關(guān)聯(lián)詞,我們主要采用機(jī)器學(xué)習(xí)方法,抽取詞匯、句法和語義等特征訓(xùn)練分類模型,根據(jù)模型輸出判定最終的關(guān)系類型。以上識別研究均采用面向中文的篇章句間關(guān)系體系,更好的適應(yīng)中文特點(diǎn)。實(shí)驗(yàn)結(jié)果顯示,基于關(guān)聯(lián)詞的顯式關(guān)系識別方法取得了非常好的效果,取得了90%左右的識別準(zhǔn)確率,F(xiàn)值達(dá)到80%;此外,我們的隱式關(guān)系識別方法也取得了較好的效果。文章內(nèi)容組織如下:第2節(jié)介紹相關(guān)工作;第3節(jié)介紹顯式關(guān)系識別方法,給出實(shí)驗(yàn)結(jié)果與分析;第4節(jié)介紹隱式關(guān)系特征、識別方法及實(shí)驗(yàn)結(jié)果;第5節(jié)分給出結(jié)論。2相關(guān)工作篇章句間關(guān)系體系及語料:作為有指導(dǎo)方法的基礎(chǔ),英文中已經(jīng)出現(xiàn)一些篇章句間關(guān)系語料[14-16]。這些語料采用不同的關(guān)系類型體系[14-17]描述文本單元之間的語義關(guān)系。典型的篇章句間關(guān)系語料包括以下兩種:基于RST理論[17]的修辭結(jié)構(gòu)理論樹庫(RhetoricalStructureTheoryDiscourseTreebank)[15]和基于PDTB體系的賓州篇章樹庫(PennDiscourseTreeBank)[16],它們采用不同的關(guān)系類型體系和標(biāo)注標(biāo)準(zhǔn)[18]。目前已有的語料和標(biāo)注理論關(guān)注英語、印度語[8]、土耳其語[9]和阿拉伯語[10]。Xue[11].Zhou和Xue[12]、Huang和Chen[13]在中文上做了部分分析工作,不過這些研究直接將英文關(guān)系類型體系平移到中文,忽略了中文本身的特點(diǎn)。本文采用了Zhang在2012年提出的面向中文的篇章句間關(guān)系類型體系[19],更好的適應(yīng)中文問題。顯式篇章句間關(guān)系識別:顯式篇章句間關(guān)系通常由篇章關(guān)聯(lián)詞作為指示,Pitleretal.[7]使用無指導(dǎo)方法,僅僅利用關(guān)聯(lián)詞的統(tǒng)計特征識別顯式篇章句間關(guān)系類型,取得了較好的效果,證明關(guān)聯(lián)詞對顯式關(guān)系識別的重要性。除無指導(dǎo)方法之外,有指導(dǎo)模型也被用于顯式關(guān)系識別,Pitleretal.[20]使用關(guān)聯(lián)詞相關(guān)的標(biāo)準(zhǔn)句法特征幫助提高顯式關(guān)系識別性能;Wellner和Pustejovsky[21]采用有指導(dǎo)方法識別篇章句間關(guān)系元素范圍;Elwell和Baldridge[22]使用關(guān)聯(lián)詞排序器識別關(guān)系元素范圍。本文提出基于中文關(guān)聯(lián)詞統(tǒng)計信息的識別方案探索顯式關(guān)系識別,并且取得比較好的效果。隱式篇章句間關(guān)系識別:隱式篇章句間關(guān)系通常存在于相鄰句子之間,同時缺少關(guān)聯(lián)詞。類似于顯式關(guān)系識別,隱式關(guān)系識別的相關(guān)研究最早出現(xiàn)在英文中,主要關(guān)注詞匯特征,例如,詞匯之間的依存關(guān)系[23-24]、詞匯的語義類別[20]和關(guān)聯(lián)詞預(yù)測[25]。由于隱式關(guān)系識別不同于顯式關(guān)系[26],除了詞匯特征之外,一些額外信息被逐漸引入,例如,句法限制[20,27]、核函數(shù)[28]、實(shí)體特征[29]以及事件配對特征[30]。這些研究提高了隱式關(guān)系識別效果,但到目前為止,隱式關(guān)系識別效果依然不佳,而且缺少面向中文的隱式關(guān)系識別研究。本文提出基于中文篇章句間關(guān)系體系的隱式關(guān)系識別模型,通過引入詞匯、句法和語義特征識別隱式篇章句間關(guān)系。3顯式篇章句間關(guān)系識別顯式關(guān)系的具體類型通常由關(guān)聯(lián)詞標(biāo)識,如例3、例4所示。例3:如果大家都同意這個方案,咱們就按照它來執(zhí)行;(條件關(guān)系)例4:因?yàn)榇蠹叶纪膺@個方案,咱們就按照它來執(zhí)行;(因果關(guān)系)例3、例4中,除關(guān)聯(lián)詞外的句子成分完全一在顯式關(guān)系識別中,關(guān)聯(lián)詞往往作為關(guān)系類型的指示標(biāo)志出現(xiàn)。本文提出基于關(guān)聯(lián)詞的中文顯式關(guān)系識別模型,利用關(guān)聯(lián)詞規(guī)則識別顯式關(guān)系。3.1基于關(guān)聯(lián)詞的識別方案致,但不同的關(guān)聯(lián)詞使得兩個句子具有不同的語義和關(guān)系類型??梢酝茰y:關(guān)聯(lián)詞標(biāo)識了具體關(guān)系類型?;谶@種想法,我們提出了基于關(guān)聯(lián)詞的顯式篇章句間關(guān)系識別方案。據(jù)我們了解,這是首個利用中文篇章關(guān)聯(lián)詞識別顯式關(guān)系類型的研究工作。3.1.1識別方案我們將中文篇章句間關(guān)系語料分為兩部分:Set1包含996篇文本,用于抽取篇章關(guān)聯(lián)詞和對應(yīng)的關(guān)系類型;Set2包含100篇文本,用于測試識別方案。首先,我們從Set1中抽取所有的篇章關(guān)聯(lián)詞和相應(yīng)的關(guān)系類型;之后采用極大似然估計計算關(guān)聯(lián)詞對各關(guān)系類型的指示能力,獲得“關(guān)聯(lián)詞一關(guān)系類型”矩陣:其中橫軸對應(yīng)某一篇章關(guān)聯(lián)詞,縱軸對應(yīng)某一具體關(guān)系類型。具體的計算方法如式(1)所示。其中ci對應(yīng)某一關(guān)聯(lián)詞;sj表示待計算的關(guān)系類型;S是所有關(guān)系類型的集合。對Set2中的每一個測試實(shí)例,我們首先抽取篇章關(guān)聯(lián)詞;隨后查找〃關(guān)聯(lián)詞一關(guān)系類型”矩陣,獲得該關(guān)聯(lián)詞對各關(guān)系類型的指示能力,從中選取最大值;并將該類型作為測試實(shí)例的最終標(biāo)簽。3.2實(shí)驗(yàn)設(shè)置3.2.1類型體系及語料獲取為了支持關(guān)聯(lián)詞分析和后續(xù)的有指導(dǎo)識別方法,我們采用Zhang[19]提出的中文篇章句間關(guān)系體系,我們從OntoNotes4.0[31]中隨機(jī)篩選出1096篇文本并進(jìn)行了人工標(biāo)注。在這份語料中,三名標(biāo)注人員獨(dú)立標(biāo)注了顯式關(guān)系和隱式關(guān)系。為了驗(yàn)證標(biāo)注質(zhì)量,檢驗(yàn)標(biāo)注一致性,我們計算了用于統(tǒng)計多類、多標(biāo)注人員標(biāo)注—致性的FleissKappa指標(biāo)[32]。在最終的計算結(jié)果中,我們獲得了66.52%的Fleiss’Kappa值,根據(jù)Fleiss’Kappa指標(biāo)的性能分布區(qū)間,該數(shù)值反映了較好的標(biāo)注一致性;此外,該結(jié)果包括顯式關(guān)系和隱式關(guān)系在所有類別上的標(biāo)注一致性,如果單獨(dú)計算顯式關(guān)系的標(biāo)注一致性,我們會獲得更好的結(jié)果。據(jù)我們所知,這是第一份中文篇章句間關(guān)系語料。3.2.2實(shí)驗(yàn)結(jié)果訓(xùn)練語料中共標(biāo)記出1273個不同的篇章關(guān)聯(lián)詞,利用這1273個關(guān)聯(lián)詞構(gòu)成“關(guān)聯(lián)詞-關(guān)系類型”矩陣,并根據(jù)該矩陣對測試實(shí)例進(jìn)行分類。對每一個測試實(shí)例,我們抽取相應(yīng)的篇章關(guān)聯(lián)詞,之后檢索矩陣,找到概率最大的關(guān)系類別作為最終結(jié)果。我們在中文篇章句間關(guān)系體系[19]的六個頂層類別進(jìn)行實(shí)驗(yàn),包括〃時序關(guān)系”、“因果關(guān)系”、“條件關(guān)系”、“比較關(guān)系”、“擴(kuò)展關(guān)系”、“并列關(guān)系”,采用標(biāo)準(zhǔn)P、R、F進(jìn)行評價,結(jié)果如表1所示。表1基于關(guān)聯(lián)詞的顯式關(guān)系識別方法實(shí)驗(yàn)結(jié)果時序關(guān)系因果關(guān)系條件關(guān)系比較關(guān)系擴(kuò)展關(guān)系并列關(guān)系P0.95120.96860.98900.99230.86830.6364R0.71560.88760.90450.84310.82240.5060F0.81670.92630.94490.91160.84470.5638分析表1,我們在“因果關(guān)系”、“條件關(guān)系”、“比較關(guān)系”三類獲得了非常好的效果:準(zhǔn)確率均高于0.96,F值均高于0.91。效果最好的“條件關(guān)系”精確率達(dá)到0.9890,召回率為0.9045,F值則是0.9449。這意味著絕大多數(shù)情況下,〃條件關(guān)系”對應(yīng)的篇章關(guān)聯(lián)詞(例如,如果)都是無歧義的;一旦這些關(guān)聯(lián)詞出現(xiàn),我們可以以非常高的概率將該關(guān)系實(shí)例判定為條件關(guān)系。類似的情況同樣存在于〃因果關(guān)系”和〃比較關(guān)系”中?!〞r序關(guān)系”的實(shí)驗(yàn)結(jié)果略有不同,我們獲得了較高的準(zhǔn)確率(0.9512),但召回率較低(0.7156)。高準(zhǔn)確率說明〃時序關(guān)系”對應(yīng)的篇章關(guān)聯(lián)詞歧義性較小,低召回率說明統(tǒng)計信息的覆蓋率較差。對于〃擴(kuò)展關(guān)系”和〃并列關(guān)系”情況則比較復(fù)雜。在這兩類中,準(zhǔn)確率和召回率都相對較低,這意味著除了覆蓋率問題外,兩類關(guān)系對應(yīng)的篇章關(guān)聯(lián)詞歧義性也比較高。對于歧義問題,很難單純通過語料擴(kuò)充或分析解決,需要后續(xù)工作的更多關(guān)注??偟膩碚f,基于關(guān)聯(lián)詞的識別方案在各個類別上的平均表現(xiàn)較好。但是,最高的F值(0.9449)和最低的F值(0.5638)之間差距較大,說明不同的關(guān)系類型之間差異非常明顯,這提示我們:不同的關(guān)系類型適合不同的處理方法。3.2.3錯誤分析與討論進(jìn)一步分析實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn),大部分篇章關(guān)聯(lián)詞歧義較??;識別錯誤主要由少部分高歧義導(dǎo)致。這些關(guān)聯(lián)詞種類較少,但常用關(guān)聯(lián)詞較多(例如,而)。圖1描述出現(xiàn)次數(shù)Top10的篇章關(guān)聯(lián)詞在各關(guān)系類型上的分布情況:柱狀圖的不同顏色代表關(guān)聯(lián)詞對應(yīng)的關(guān)系類型;不同的高度代表對應(yīng)關(guān)系類型所占的比例;同一關(guān)聯(lián)詞對應(yīng)的關(guān)系類型越少、類型越集中,該詞的歧義性越小。從圖中可知,大部分關(guān)聯(lián)詞(例如,因?yàn)?的歧義性較小,90%以上指示同一關(guān)系類型,但同時存在部分高歧義關(guān)聯(lián)詞。圖1Top10關(guān)聯(lián)詞的關(guān)系類型分布情況以關(guān)聯(lián)詞〃而”為例,它對應(yīng)的關(guān)系類型分布情況包括以下幾類:48.6%對應(yīng)〃擴(kuò)展關(guān)系”;41.8%對應(yīng)“比較關(guān)系”;7.6%對應(yīng)〃并列關(guān)系”;2%對應(yīng)“因果關(guān)系”。根據(jù)3.1.1的計算公式,〃擴(kuò)展關(guān)系”對應(yīng)的得分最高。在分類過程中,所有由〃而”標(biāo)識的篇章句間關(guān)系實(shí)例都被分為〃擴(kuò)展關(guān)系”類別。對于48.6%的實(shí)例而言,我們獲得了正確結(jié)果;然而對于剩余的51.4%,則發(fā)生了分類錯誤。實(shí)驗(yàn)分析發(fā)現(xiàn),大部分分類錯誤都和該類關(guān)聯(lián)詞有關(guān)。這提示我們對于歧義性大,出現(xiàn)次數(shù)較多的關(guān)聯(lián)詞,需要特殊的處理方案。4隱式篇章句間關(guān)系識別隱式篇章句間關(guān)系缺少篇章關(guān)聯(lián)詞,沒有明顯的語義類型標(biāo)志,需要人類推理才能判斷關(guān)系的存在和具體類型。這使得隱式篇章句間關(guān)系具有不同于顯式關(guān)系的分布特點(diǎn)。4.1隱式關(guān)系分析在很多情況下,關(guān)聯(lián)詞不僅僅起銜接作用,還會影響關(guān)系類型的分布,如例5、例6所示。例5:如果你身體還沒恢復(fù),就先不用來上班了。(條件關(guān)系)例6:你身體還沒恢復(fù),先不用來上班了。(因果關(guān)系)例5首先描述某一假設(shè)條件,隨后說明假設(shè)成立時的結(jié)果,屬于〃條件關(guān)系”;例6首先描述某一事實(shí),隨后指出事實(shí)引發(fā)的結(jié)果,屬于〃因果關(guān)系”。除關(guān)聯(lián)詞〃如果……就……”之外兩個例句內(nèi)容完全相同,但卻具有完全不同的語義類型。換言之,對某些關(guān)系類型來說(例如,條件關(guān)系),如果刪除篇章句間關(guān)系關(guān)聯(lián)詞,句子語義會發(fā)生翻轉(zhuǎn)。這種現(xiàn)象使得對應(yīng)類型的隱式關(guān)系實(shí)例大大減少,形成和顯式關(guān)系完全不同的分布特征。圖2描述了隱式關(guān)系和顯式關(guān)系在中文篇章句間關(guān)系體系[19]中六個頂層類別上的分布情況,其中圖2(a)為顯式關(guān)系分布圖,圖2(b)為隱式關(guān)系分布圖。分析圖2可知,相較于顯式關(guān)系,隱式關(guān)系的分布非常不均衡,其中〃擴(kuò)展關(guān)系”的比例大大增加,占到了總數(shù)的60.37%;而〃條件關(guān)系”、“時序關(guān)系”、〃比較關(guān)系”的數(shù)量則大大壓縮,其中“條件關(guān)系”和“時序關(guān)系”分別只占0.72%和2.57%;只有〃并列關(guān)系”和“因果關(guān)系”比例相對穩(wěn)定。分析原因,對“條件關(guān)系”和“時序關(guān)系”而言,由于關(guān)聯(lián)詞的省略導(dǎo)致了語義翻轉(zhuǎn),使得對應(yīng)類型很少出現(xiàn)在隱式關(guān)系中,而〃擴(kuò)展關(guān)系”則非常適合用隱式關(guān)系來表達(dá),這導(dǎo)致了圖2中分布現(xiàn)象的出現(xiàn)。該特點(diǎn)提示我們,在隱式關(guān)系識別中,不同關(guān)系類型具有不同的分布特性,適合不同的識別方法??紤]到隱式關(guān)系中〃條件關(guān)系”和〃時序關(guān)系”數(shù)量極少,我們主要識別〃擴(kuò)展關(guān)系”、“因果關(guān)系”、〃比較關(guān)系”、“并列關(guān)系”四類。圖2顯式/隱式關(guān)系類型分布圖4.2基于有指導(dǎo)方法的隱式關(guān)系識別模型根據(jù)以上的分析,對隱式關(guān)系識別主要集中在〃擴(kuò)展關(guān)系”、“因果關(guān)系”、“比較關(guān)系”、“并列關(guān)系”四類。我們抽取了詞匯、句法、語義等多層次的特征,采用最大熵和SVM兩類學(xué)習(xí)方法訓(xùn)練四元分類模型,根據(jù)模型輸出判定隱式篇章句間關(guān)系類型。4.2.1特征集合核心動詞:作為句子的主要成分,動詞往往在語義表達(dá)中起很重要的作用,動詞之間的關(guān)系常常反映了句子間的語義關(guān)系。如例7所示。例7:塔利班10日晚襲擊了阿富汗北部一個村落,導(dǎo)致18人喪生。(因果關(guān)系)上例中,〃襲擊一喪生”之間存在因果聯(lián)系,同時也指示了兩個分句之間的因果關(guān)系。通過挖掘動詞之間的搭配特性,有助于識別篇章句間關(guān)系類型。這兩詞在依存句法分析結(jié)果中均作為“SBV(主謂關(guān)系)”的謂語動詞出現(xiàn),因此我們利用依存句法分析找到前后分句中的“SBV”關(guān)系,抽取其中的謂語動詞;同時為了避免稀疏,我們將兩個謂語動詞在同義詞詞林中泛化至第三層,并將泛化結(jié)果配對構(gòu)成核心動詞特征。極性特征:不同的極性信息常常指示特定的篇章句間關(guān)系類型,如例8所示。例8:他很喜歡蘋果公司的產(chǎn)品,遺憾的是價格太高了。(轉(zhuǎn)折關(guān)系)例8中〃喜歡”指示“Positive”的極性信息;〃價格太高”指示“Negative”的極性信息,前后分句的極性信息相反,指示該實(shí)例屬于“轉(zhuǎn)折關(guān)系”?;谶@種現(xiàn)象,我們引入了篇章單元的極性特征,采用極性詞匹配的方法判定篇章單元極性,并作為特征使用。依存句法特征:篇章單元的句法結(jié)構(gòu)中,最核心的關(guān)系包括“SBV(主謂)”和“VOB(動賓)”兩類,它們描述了文本單元的主要信息。本文將兩個篇章單元中的“SBV”和“VOB”關(guān)系抽取出來,并將對應(yīng)詞匯在同義詞詞林中泛化至第三層,作為特征使用。Unigram(句首):在中文里,句首詞語通常起承上啟下的作用,對篇章句間關(guān)系類型具有一定的指示作用。本文分別抽取兩個篇章單元中的第一個詞,作為識別特征使用。Bigram(句首):中文里承上啟下的可以是單個詞,也可以是雙詞或短語。因此除Unigram特征之外,本文還抽取兩個篇章單元中的前兩個詞,作為識別特征使用。4.3實(shí)驗(yàn)結(jié)果我們?nèi)匀徊捎?.2.1中提到的中文篇章句間關(guān)系語料庫進(jìn)行實(shí)驗(yàn),該語料庫包含1096篇文本,手工標(biāo)注了顯式篇章句間關(guān)系和隱式篇章句間關(guān)系兩類信息。我們將其中996篇作為訓(xùn)練語料,另外100篇作為測試語料,抽取前文提出的詞匯、句法、語義等特征,分別訓(xùn)練最大熵和SVM兩種模型進(jìn)行分類。我們在中文篇章句間關(guān)系體系的四個頂層類別進(jìn)行分類,包括:〃擴(kuò)展關(guān)系”、“因果關(guān)系”、〃比較關(guān)系”、“并列關(guān)系”,結(jié)果如表2所示。分析表2,除〃擴(kuò)展關(guān)系”夕卜,其他類型存在高準(zhǔn)確率、低召回率的特性。以最大熵模型下的“因果關(guān)系”為例,識別準(zhǔn)確率達(dá)到0.6875,召回率卻只有0.0803。而〃擴(kuò)展關(guān)系”情況恰恰相反。這說明數(shù)據(jù)不均衡性使得模型傾向于將測試實(shí)例分為〃擴(kuò)展關(guān)系”,導(dǎo)致〃擴(kuò)展關(guān)系”類型召回率增加,準(zhǔn)確率下降;同時使得其他類型召回率降低。系統(tǒng)的整體性能不佳,很大一個原因是由于低召回率導(dǎo)致的。這提示我們在類別分布嚴(yán)重不均衡的情況下,傳統(tǒng)的統(tǒng)一識別思路存在很大的困難。表2隱式篇章句間關(guān)系識別結(jié)果學(xué)習(xí)算法評價指標(biāo)因果關(guān)系比較關(guān)系擴(kuò)展關(guān)系并列關(guān)系P0.68750.60000.58490.3231最大熵R0.08030.03900.93820.3182F0.14380.07320.72060.3206P0.46270.77780.63240.3365SVMR0.22630.09090.84550.5303F0.30390.16280.72360.4117注意到SVM實(shí)驗(yàn)結(jié)果普遍高于最大熵,這主要是由于隱式關(guān)系在各類型上分布不均衡,而SVM模型對邊界實(shí)例敏感,但對數(shù)據(jù)不平衡有較強(qiáng)的容忍度,因此取得了相對較好的效果。此外,對比前文的顯式關(guān)系識別結(jié)果,我們發(fā)現(xiàn)〃并列關(guān)系”識別效果始終不佳,這在一定程度上反映該類型的特征不明顯,區(qū)分度較弱;同時考慮圖1,主要的關(guān)聯(lián)詞歧義集中在〃擴(kuò)展關(guān)系”和〃并列關(guān)系”,說明這兩個類別特征接近。從語義體系定義上來說,是否有必要將〃擴(kuò)展關(guān)系”和〃并列關(guān)系”區(qū)分開來,是值得考慮的一個問題。5結(jié)論與展望本文首次探索面向中文的篇章句間關(guān)系識別任務(wù),嘗試了顯式篇章句間關(guān)系識別和隱式篇章句間關(guān)系識別兩方面研究。對于顯式篇章句間關(guān)系識別,我們首次提出基于篇章關(guān)聯(lián)詞的顯式關(guān)系識別方法,在關(guān)聯(lián)詞統(tǒng)計的基礎(chǔ)上識別關(guān)系類型,取得了非常好的效果。對于隱式篇章句間關(guān)系識別,我們首先分析了隱式關(guān)系和顯式關(guān)系在類型分布上的差別,指出隱式關(guān)系的特點(diǎn),并在識別過程中進(jìn)行了針對性處理;隨后我們提出詞匯、句法、語法等一系列特征,采用最大熵和SVM兩種方案嘗試了隱式篇章句間關(guān)系識別。本文的分析和實(shí)驗(yàn)結(jié)果為后續(xù)的工作提供了參考,推動了中文篇章分析研究,尤其是篇章句間關(guān)系分析的進(jìn)一步發(fā)展。參考文獻(xiàn)DMarcu.Therhetoricalparsingofunrestrictedtexts:Asurface-basedapproach[J].ComputationalLinguistics,2000,26(3):395-448.RGirju.Automaticdetectionofcausalrelationsforquestionanswering[C]//ProceedingsoftheACL2003workshoponmultilingualsummarizationandquestionanswering.2003,12:76-83.SSomasundaran,JWiebe,JRuppenhofer.Discourselevelopinioninterpretation[C]//ProceedingsofColing2008.[4]ZhouL,LiB,GaoW,etal.UnsupervisedDiscoveryofDiscourseRelationsforEliminatingIntra-sentencePolarityAmbiguities[C]//ProceedingsoftheEMNLP2011(Oralpresentation),Edinburgh,Scotland,July:27-31.EPitler,ANenkova.Revisitingreadability:Aunifiedframeworkforpredictingtextquality[C]//ProceedingsofEMNLP2008:186-195.[6]ZihengLin,HweeTouNG,Min-YenKan.AutomaticallyEvaluatingTextCoherenceUsingDiscourseRelations.[C]//ProceedingsofACL-HLT,2011:997-1006.[7]EPitler,MRaghupathy,HMehta,etal.Easilyidentifiablediscourserelations[C]//ProceedingsofCOLING08.[8]RashmiPrasad,SamarHusain,DiptiSharma,etal.TowardsanannotatedcorpusofdiscourserelationsinHindi[C]//ProceedingsoftheIJCNLP2008,Hyderabad,India,2008.[9]DenizZeyrek,BonnieWebber.ADiscourseResourceforTurkish:AnnotatingDiscourseConnectivesintheMETUCorpus[C]//ProceedingsofIJCNLP-2008.Hyderabad,India,2008.[10]AAlSaif,KMarkert.Theleedsarabicdiscoursetreebank:Annotatingdiscourseconnectivesforarabic[C]//ProceedingsofLREC2010.[11]XueNianwen.AnnotatingdiscourseconnectivesintheChineseTreebank[C]//ProceedingsoftheACLWorkshopinFrontiersinAnnotationII.2005.[12]Hen-HsenHuang,Hsin-HsiChen.ChineseDiscourseRelationRecognition[C]//ProceedingsofIJCNLP2011:1442-1446.[13]YupingZhou,NianwenXue.PDTB-styleDiscourseAnnotationofChineseText[C]//ProceedingsofACL2012.[14]J.R.Hobbs.Onthecoherenceandstructureofdis-course[M].CSLI,1985:37-85.[15]CarlsonL,MarcuD,OkurowskiME.Buildingadiscourse-taggedcorpusintheframeworkofrhetoricalstructuretheory[M].SpringerNetherlands,2003:85-112.[16]RPrasad,NDinesh,ALee,etal.ThePenndiscoursetreebank2.0[C]//ProceedingsofLREC2008.[17]WilliamMann,SandraThompson.Rhetoricalstructuretheory:Towardafunctionaltheoryoftextorganization[J].Text,1988,8(3):243-281.AAlSaif,KMarkert.Theleedsarabicdis-coursetreebank:Annotatingdiscourseconnectivesforarabic[C]//ProceedingsofLREC2010.張牧宇,秦兵,劉挺.中文篇章級句間語義關(guān)系體系及標(biāo)注[C]//ProceedingsofCCIR2012.[20]PitlerE,LouisA,NenkovaA.AutomaticSensePredicationforImplicitDiscourseRelationsinText[C]//ProceedingsofACL-IJCNLP2009.[21]BenWellner,JamesPustejovsky.Automati-callyidentifyingtheargumentsofdiscourseconnectives[C]//ProceedingsofEMNLP-CoNLL2007,Prague,CzechRepublic.RElwell,JBaldridge.Discourseconnectiveargumentidentificationwithconnectivespecificrankers[C]//ProceedingsoftheInternationalConferenceonSemanticComputing.2008.DMarcu,AEchihabi.Anunsupervisedapproachtorecognizingdiscourserelations[C]//ProceedingsofACL2001:368-375.SBlair-Goldensohn,KRMc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論