2013合肥工大-依存句法改進中文問題里中心詞識別研究_第1頁
2013合肥工大-依存句法改進中文問題里中心詞識別研究_第2頁
2013合肥工大-依存句法改進中文問題里中心詞識別研究_第3頁
2013合肥工大-依存句法改進中文問題里中心詞識別研究_第4頁
2013合肥工大-依存句法改進中文問題里中心詞識別研究_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

中文問題里的中心詞識別研究ResearchontheRecognitionofFocusWordinChineseQuestion 者 學歷 科、專 計算機應用技術 向 人工智能與數(shù)據(jù)挖掘導師及田20134ResearchontheRecognitionofFocusWordinChineseQuestionQuestionclassificationisakeystepinautomaticallyunderstandingquestionwithnaturallanguageinQuestionAnsweringSystem.Findingfeaturescloselyrelatedtothequestion’scategoryisveryimportantintheimprovementofperformanceandefficiency.Focusword,whichisawordorphraseinaquestionandcanbestexpresswhatthequestionasks,containsrichsemanticinformationandareusefulforclassifyingquestions.StudiesinthisthesisaremainlyaboutfocuswordinChinesequestion.Indetail,studiesareabouttofindanewfocuswordrecognitionmethodwhiakesuseofcharacteristicsofChinesequestionsforbetterrecognitionaccuracy,andaimtoimprovequestionclassificationperformance.Ourcontributionsareas characteristicssuchaspart-of-speech(POS)andlocation,andthelimitationsbeingeasilyaffected bythetraining newrecognition combiningtheconditionrandomfields(CRF)andtransformation-basederror-drivenlearning(TBL)isproposedintermsoftheinvestigationonthecorrelationbetweenfocuswordandPOS,dependencyrelationsorinterrogativeinthesyntacticstructureofquestion. usesTBL, andrectifiestherecognitionresultofCRFuntiltherecognitionresultsconvergencesteadily,andfinallygetsorderedrulesthatcanrestrainthenegativeresultsofCRF.Besides,TBLisrefinedtosavetimeduringtrainingorderedrules.Empiricalresultsshowthevalidityofthemethod.Tofurther ethe ingsoffocuswordrecognition,thesemanticrelationshipoffocuswordandcorrespondingcategoryforaquestionisstudiedandafocuswordrecognitionmethodbasedoncategoryandsemanticsimilarityisdesigned.Inthismethod,semanticrelationshipbetweenfocuswordandquestioncategoriesisusedasanewtrainingfeaturesfortheCRFalgorithmtoimprovefocuswordrecognitionaccuracy.Empiricalresultsshowthevalidityofthemethod.Keywords:Chinesequestions;Focusword;Conditionrandomfields;Transformation-basederror-drivenlearning;Semanticsimilarity致謝時光如白駒過隙,三年的生涯即將結束了。還記得三年前的我,帶著一份欣喜與激動,一份惘然與憧憬,由此開始了我期待已久的生活。研究生的這三年,是艱辛并的三年,是付出與收獲的三年。然而,在我進步與成長的,一直都有老師和的陪伴。在成文之際,我要由衷地感謝一直陪伴我,鼓勵我,給我?guī)椭c指導的人們。首先我要感謝導師田 。田老師擁有嚴謹?shù)闹螌W態(tài)度,豐富的項目經驗。在學術研究方面,他指引我進入了數(shù)據(jù)挖掘領域,并在研究工作的過程中,給予我悉心的指導,鼓勵和幫助。在項目工作方面,他帶領進入多個應用項目組,鍛煉了的實際動手能力,讓具備了一定的項目經驗并進一步鞏固了專業(yè)知識。在生活方面,田老師也給予很多關心。感謝田老師三年的辛勤付出與栽培。他的認真的工作作風和積極的生活態(tài)度讓我受益終生。其次我要感謝胡學鋼教授。胡老師知識淵博,思維開闊,學術見解獨到。他不僅在學術上給予指導,也在生活中給予。作為的主要,他認真地工作態(tài)度也對產生了深遠的影響。在這里,我還要感謝人工智能與數(shù)據(jù)挖掘的其他老師和,他們是張玉紅老師、師兄,和紀允,以及師弟師妹們。正是由于大家的共同努力,才擁有良好的學術氛圍和學習環(huán)境。特別是試驗室的學術交流,大家共同研究的心得與體會,在此過程中,我受益良多。同時,我還要感謝計算機與信息學院的老師們,感謝這三年來對指導與幫助。習的征途上毫無顧慮地一路前行。作者:20134目錄第1章緒 研究背景與意 研究背 研究意 國內外研究現(xiàn) 國外研究現(xiàn) 國內研究現(xiàn) 本文研究的主要內 本文使用的問題集和平 本文的組織結 本章小 第2章中文問題的中心 中心詞的概 問題中心詞的特性分 中心詞與類別的關 中心詞與它的位置之間的關 中心詞的標注準 幾種主要的中心詞識別方 基于詞性和位 基于句法結 條件隨機 CRF在中心詞識別中的應 幾個主要的步 特征提 特征模 傳統(tǒng)中心詞識別方法的比 本章小 第3章基于CRF和錯誤驅動的中心詞識 問題中疑問詞的提 中文問題中的疑問詞的特 攻讀期間參加研究的課題和的插圖圖1-1模塊之間的依賴關 圖2-1相似度值大于閾值的中心詞比 圖2-2各類別中相似度值大于閾值的中心詞比 圖2-3鏈式CRF結 圖3-1子句與主句存在VV關 圖3-2子句與主句存在SBV關 圖3-3依存關系 圖3-4基于轉化的錯誤驅動學 圖3-5不同類別的中心詞標注錯誤的數(shù)目占整個錯誤數(shù)目的比 圖4-1樹狀的義原層次結 圖4-2《同義詞詞林》的層次結 圖4-3CRF+類別+相似度方法在各個小類上的識別精 圖4-4識別精度發(fā)生變化的類 表格表2-1兩種中心詞識別精度對 表2-2一個中文問題的詞匯和詞法分析的結 表2-3CRF模型的特 表2-4中文問題的特 表2-5特征模板格 表3-1疑問詞表 表3-2詞性不同的疑問詞占整個疑問詞的比 表3-3疑問詞識別的結 表3-4LIP平臺中的依存關系類 表3-5規(guī)則模 表3-6中心詞的初始規(guī) 表3-7評價函數(shù)①、②取不同閾值時中心詞提取準確 表3-8CRF+錯誤驅動學習與CRF學習的封閉測試 表3-9CRF+錯誤驅動學習與CRF學習的開放測試 表3-10訓練集中實例較多、較少和難以確定中心詞的類別的實例數(shù)目.表4-1TREC分類體 表4-2中文問題分類體 表4-3《知網》義原的類 表4-4中心詞與類別體系間的語義相似 表4-5類別特征的不同組合對中心詞識別的影 表4-6不同的方法對中心詞識別結果的影 第1章緒論研究背景與意義隨著的飛速發(fā)展,網絡上數(shù)據(jù)資源呈式增長,如何快速搜索到有用的信息成為互聯(lián)網亟待解決的難題。對此,傳統(tǒng)的解決方法是采用搜索引擎,例如BaiduahooSoho等。但是各種傳統(tǒng)搜素引擎在為用戶獲取信息提供很大便利的同時,也存在許多缺陷。傳統(tǒng)的搜索引擎依據(jù)關鍵字和關鍵字的組合進行信息檢索,查詢一般停留在語法層和淺層語義上,沒有觸及語義和語用層,搜索的結果并不能讓人滿意。通常,搜索引擎返回的結果是相關的網頁,而不是針對用戶問題的答案,用戶仍需要從大量的信息中查找自己需要的信息,費時費力,當用戶希望得到一個比較準確的答案而不希望去大量相關文檔中去查找時,傳統(tǒng)搜索引擎的局限性就很明顯了。為了克服傳統(tǒng)搜索引擎的缺陷,國內外一些科研機構和公司正在探索新的搜索工具。國內的“知道、“搜索問答”等,可以接收用戶的自然語言提問,并給出相應的答案,但是答案仍需要人為手動編輯,檢索的結果不具有客觀性和靈活性。相比,Akvs公司開發(fā)了一款比較成功的搜索工具,用戶用自是網頁或文檔,從而使得信息搜索更加人性化、自動化和智能化。在此基礎上,逐漸發(fā)展出自動的機器問答系統(tǒng)(QuestionAnsweringSystem,QA)。問答系統(tǒng)作為信息檢索和自然語言處理領域的一個研究熱點,它的主要任務是從海量信息中進行答案的準確定位查找和答案。一個完整的問答系統(tǒng)通常包括:問題分類、問題擴展、搜索引擎、答案抽取、答案選擇。問題分類作為整個問答系統(tǒng)的第一步,任務是將一個問題分到一個特定的類別中去,為后期答案抽取提供約束。例如,對“人口最多的大陸在哪里?”,可將其歸于地點類中的大陸類(LOC_CONTINENT),從而縮小答案的搜索范圍??梢园褑栴}分類表示成一個函數(shù):F:Q→C,其中Q代表問題集合,C={c1,c2…cn},代表由n個問題類別組成的分類體系。對于輸入的任何問題,F(xiàn)利用先驗知識將q到相應的問題類別ci中。問題分類研究大多借鑒文本分類的思想,問題分類和文本分類都可以通過分析自然語言所包含的信息來確定它們所屬的類別。然而,它們之間有許多差異。與文本相比,問題中包含的詞較少,并且詞語本身所包含的詞匯信息不足,沒有足夠多的上下文環(huán)境信息,這使得問題分類更加。突出表現(xiàn)在,詞袋(Bag-of-Word)和N-grams這些表面特征上,這些特征在文本分類中常被選為分 很好的分類效果,然而在問題分類中,如果僅僅選用這些表面特征,分類效果并不理想[1]。所以,針對自然語言問題尋找有效的更合理的特征集,進而構造相應的分類方法非常有必要。在最初的研究中,問題分類采用基于手工規(guī)則的方法[2],該方法由所屬領域的根據(jù)自己的專業(yè)知識,借助正則表達式制定出分類規(guī)則。然而由于問題本身存在復雜性,且不可能窮舉出所有的規(guī)則,所以該方法具有擴展性、適應性差及費事費力等問題。目前,問題分類大多采用基于統(tǒng)計的方法,它通過對已標注的語料進行分析、處理、統(tǒng)計學習,建立分類模型,并訓練出對應的分類器。該方法更強的適用性和更好的分類效果。利用統(tǒng)計學方法進行分類時,特征的選擇非常重要。特征選擇的目的是從原始的一組特征中找到帶有強類別信息的特征子集,避免或減少原始特征中不相關的信息所帶來的噪音,為問題分類提供方便。在特征集合中,疑問詞和中心詞保留了的問題信息,在問題分類中有著舉足輕重的地位。在大多數(shù)問題中,僅僅利用這兩個特征就可以將問題準確分類[3,4]。但是,雖然疑問詞標注的準確率已經很高,達到了98.97%[5],中心詞的標注準確率卻沒有那么理想,為此需要研究新的有效方法來提高中心詞的標注精度。目前,關于問題分類、文本分類、短文本分類、抽取、特征提取等相關的研究比較多,但是關于中心詞的研究很少,所以本文希望借助已有的相關研究來探索中心詞識別的問題。中心詞提取可以被看成一個分類問題,即判斷一個詞是否是中心詞。在已有研究心詞的抽取主要是采用基于自定義規(guī)則[3,6-10]的方法。該方法不需要已標記的語料庫,在特定類別中具有較高的準確性和針對性。由于問題里的中心詞在語義、語法和詞性角色上都比較復雜,且中心詞的位置比較靈活,因此手動總結的規(guī)則具有和類別的關系過于密切、工作量大且不靈活的缺點,尤其當語料庫發(fā)生改變時,規(guī)則需重新制定?;诮y(tǒng)計的機器學習方法是另一類中心詞抽取方法,可以自動對問題中的特征進行統(tǒng)計分析,既可以自動識別中心詞,又避免規(guī)則的誤差。機器學習方法和規(guī)則的方法都有各自的優(yōu)點,可以將這兩種方法結合起來用到中心詞識別中。條件隨機場模型在關于有序標記任務的許多研究中都表現(xiàn)出較好的分類效果,經過預處理的問題可以看為一組有序標記,本文希望在此研究的基礎上通過組合規(guī)則的方法來提高中心詞識別的準確率。除此之外,傳統(tǒng)的中心詞識別方法基本上是基于詞匯的表面特征,準確率不高,因此需要對問題進行更次的分析來提高識別精度,如語義關系、語法關系等。本文將研究借鑒的抽取策略及其它分類方法,并利用語義和語法關系來達到想要的結果。國內外研究現(xiàn)狀中心詞抽取是一個很有性的工作,在許多問題分類研究中都有所涉及國外研究現(xiàn)狀國際上對英文的問題分類研究開始比較早,中心詞的識別問題也隨之而產生。在英文問題分類中,許多研究者對中心詞重要性的確定和識別做出了許多貢獻。在英文問題分類中,Li等人[11,12]首次提出用中心詞塊作為重要的分類特征之一,他們將疑問詞后第一個動詞詞塊或第一個名詞詞塊作為中心詞塊。Krishnan等[13]用一個可以指示問題信息的續(xù)跨度的短語作為分類特征,稱作通知跨度。這兩種方法對許多問題分類比較有效,但是在一些情況下可能會導致特征集被引入噪音信息。如問題“Whatisagroupofturkeyscalled?”,該問題的中心詞塊和通知跨度都是“groupofturkeys”。詞“turkeys”有利于將該問題分到類別“ENTY:animal”中,然而,詞“group”可能會導致該問題被錯誤分到類別“HUMAN:group”中。為解決以上問題,研究者提出了中心詞概念[14]。它是一個能夠反映問題所問內容的單一的詞。對于上例,確切的中心詞是“turkeys”,這樣可以防止引入有誤導性的詞。在大多數(shù)實例中,中心詞都包含在中心詞塊或通知跨度中。雖然中心詞塊或通知跨度相對于其他誤導性詞在分類體系中扮演的角色更有力,然而,在分類中卻沒有中心詞有效。中心詞抽取方法的一個主要代表是基于問題的句法結構。為了抽取中心詞,首先要對問題進行語法分析來構建一個語法樹。語法樹是一個基于語則的可以描繪一個句子語法結構的樹。PFG(ProbbiliticContext-FreGrammars)[15-17]語法樹通常被用來對一個英文問題進行語法分析,并比較好的效果。Collins[18]首次提到了基于語法樹的中心詞抽取方法。一些ollins規(guī)則來確定問題的中心詞。對于一個語則X→Y1…Yn,其中X和Yi在語法樹中不處在末端。中心詞規(guī)則指定語法樹右手方向的非末端為規(guī)則X的中心,在結果子樹上循環(huán)執(zhí)行這個過程,直到到達一個末端結點為止。然而,Collins規(guī)則在某些情況下并不恰當。ollins規(guī)則認為動詞短語的優(yōu)先級比名詞短語的優(yōu)先級高,但是在問答系統(tǒng)中,主語和賓語比動詞含有的語義信息,在一些情況下,一個問題的中心詞是名詞。隨后,為了提高中心詞規(guī)則的更廣的覆蓋面,Klein[19]等人通過修改Collins的語則,根據(jù)需要重新定義了語義中心詞規(guī)則來抽取中心詞。特別重新定義了關于抽取SBARQ、SQ、VP、SINV短語里的中心詞的規(guī)則,認為名詞、名詞短語的優(yōu)先級大于動詞、動詞短語的優(yōu)先級。但是該方法也存在缺陷。如果抽取的中心詞是名稱、類型、種類等時,該中心詞對分類沒有實際的意義。Huang[14為補充以上中心詞的識別方法,提出了一些依賴問題類別的有規(guī)律的表達式模式。用一個有規(guī)律的字符串表達式創(chuàng)建了一個二元特征。如果一個問題符合這個表達式,一個二元特征將會被放入到這個問題的特征集中。在訓練集中,如果這個特征是有效的,它將被分類器挑選出來。實驗證明這種方法是有效的,可以取得較好的分類效果。國內研究現(xiàn)狀中文問答系統(tǒng)起步較晚,相對于英文而言,無論在研究規(guī)模還是在所達到的水平上,都有很大的差距。國內研究問答系統(tǒng)的主要機構有哈爾濱工業(yè)大學[20]、復旦大學[21]、 [22]等,它們都為國內問答系統(tǒng)的發(fā)展做出了卓越的貢獻。問答系統(tǒng)的發(fā)展勢必造成研究者對問題分類的重視,但是有關問題分類的重要特征之一的中心詞研究卻還很少。最初,中心詞的抽取主要基于自定義規(guī)則。孫景廣、等[6]人將中詞定義為疑問意向詞,即表達“問題問的是什么”這么一個含義的詞。首先選取疑問詞右邊標記為“n”的詞作為疑問意向詞,并最多選取兩個,如果疑問詞的右邊沒有標記為“n”的詞,則選取疑問詞左邊的“n”詞作為疑問意向詞,并最多選取兩個。田等[3]根據(jù)疑問詞在問題中出現(xiàn)的位置采用不同的中心詞搜索策略,若疑問詞是問題的第一個或者最后一個詞,尋找離疑問詞最近的“n”作為中心詞,若疑問詞出現(xiàn)在問題的其它位置,從疑問詞位置開始往后搜索,若能夠搜索到“n”“n”作為中心詞,若找不到則認為句子沒有中心詞。然而由于中心詞的詞性的復雜性和位置的靈活性,給中心詞識別準確率的進一步提高帶來很大;另外,自定義的規(guī)則也具有局限性、覆蓋面窄的缺點。隨著中文自然語言處理技術的發(fā)展,為了得到有用的信息,人們希望從更次去分析問題的語義、結構特征。段利國等[8]通過分析問題的語法結構來提取問題的中心詞。其中依存關系為“HED”的詞為中心詞。例如問題“哪個機構負責救助難民?”,通過語法分析后,“機構”和“Root”的關系為“HED”,所以機構是中心詞。然而,依存關系為“HED”的詞不一定是中心詞,同樣,許多中心詞的依存關系不是“HED”。所以該方法的覆蓋面仍然較窄。為了充分利用問題詞匯的詞性、語義、語法等特征,文獻[5]助CRF模型,選用每個詞的詞匯本身、詞性、修飾詞、修飾詞詞性、依存關系作為分類特征來識別中心詞,在很大程度上提高了中心詞識別的準確率,同時使問題分類的精度[4]得到了明顯的提高。F模型在關于有序標記任務的許多研究中都較好的分類效果,雖然統(tǒng)計學方法適用于大多數(shù)類型問題的中心詞識別,但是對于少數(shù)類型問題,中心詞識別效果并不是很好。所以仍需要在這種方法的基礎上做一些改進。中心詞在問題里的作用類似于在文本里的作用,它們都高度概括了問題或文本的主要內容,中心詞的抽取可以參考的研究方法。文獻[23]在詞匯間語義關聯(lián)(相似距離和共現(xiàn)距離)的基礎上,通過語義距離的計算,實現(xiàn)一種非監(jiān)督的自動抽取方法,可以準確便捷地處理大量的文本,并獲取對應的。由于問題所含的詞通常比較少,所以簡單的通過統(tǒng)計詞的共現(xiàn)頻率的方法更適合。雖然中心詞或都可以表達一句話或一段文本所要表達的信息。但是的研究通常是基于文本的,且通常不是一個詞,而是幾個詞夠成的字符串,因此中心詞研究并不能直接借鑒的研究成果。本文研究的主要內容問題分類一直是自動問答系統(tǒng)研究領域的一個重要課題,中心詞作為除疑問詞外最能表達問題語義信息的詞,如何準確提取中心詞成為一個非常有研究價值的問題。本文的主要研究內容如下:針對基于規(guī)則方法以及機器學習方法在問題中心詞識別上的優(yōu)劣問題。研究利用條件隨機場的機器學習方法進行中心詞初始標注,并根據(jù)問題中心詞的語法特征,選擇一種有效的習規(guī)則方法,對最初分類的結果進行校正。通過試驗,以提高中心詞識別的準確率。由于語料庫有限,而從語法角度得到的習規(guī)則過多依賴于訓練集的規(guī)模以及不同類型問題的分布情況,因此對于某些問題,規(guī)則集中可能沒有與之對應的規(guī)則,導致識別性能不夠穩(wěn)定。為此,試圖分析中心詞與類別間的語義相似度規(guī)律,對機器學習方法分類的結果進行校正,以降低規(guī)則的依賴性,提高中心詞識別的準確性。本文使用的問題集和平臺本文實驗所采用的問題集①是哈爾濱工業(yè)大學信息檢索提供的,在中文問題研究中有一定的代表性,總共有6312個問題。本文實驗所用到的第平臺是哈爾濱工業(yè)大學的LTP平臺,見圖1-1。LTP平臺是哈爾濱工業(yè)大學開發(fā)的漢語語言處理平臺,底層以XML表示DOM處理文本。包含分句、分詞及詞性標注、命名實體識別、依存分析器、語義角色標注等八個模塊,各個模塊間相互依賴,用戶可以通過接口調用各個模塊,模塊的調用沒有嚴格的規(guī)定,唯一要求分句模塊在其它模塊之前調用。文本經LTP平臺處理后,以XML的格式存放在內存中。LTP平臺可以在VC2003(VC7.1、VC.NET、VS2008、VC6平臺下運行。本文評價中心詞的性能指標如下,即在所有實例中正確標記中心詞的實例所占的比例,其中FP表示中心詞識別的準確率:① FP=正確標記中心詞的實例個數(shù)/所有實例個 (式1-分分分分圖1-1本文的組織結構本文共分為五章:第一章簡單介紹了本文的研究背景,問答系統(tǒng)里中心詞識別的研究意義和國內外現(xiàn)狀,以及給出了本文的主要研究內容和所需要的問題集和平臺。第二章主要對中心詞的概念和特點進行了詳細的介紹,包括條件隨機場的原理及其在中心詞識別中的應用,并介紹了如何使用CRF工具。第三章為解決中文問題里中心詞識別確的問題,提出了一種基于條件隨機場和錯誤驅動學習相結合的識別方法。首先給定了問題中疑問詞的提取方法,并探討了依存關系在中心詞識別中的作用。最后利用錯誤驅動方法對條件隨機場標注結果進行校正,并給出了錯誤驅動的學習過程。另外,在訓練有序規(guī)則的過程中,對錯誤驅動算法進行了改進。最后通過實驗證明該方法的有效性以及存在的問題。第四章探討了類別體系和語義相似度在中心詞識別中的應用。提出了一種將問題的每個詞和類別體系之間的語義關系作為訓練條件隨機場模型的分類特征。給出了中心詞識別的具體過程。通過大量實驗對比,取得了預期的效果。第五章對本文的進行了總結,介紹本文方法的主要思想以及遇到的問題,最后對未來的工作進行了展望。本章小結本章首先介紹了中心詞識別的研究背景和意義,并給出了國內外研究現(xiàn)狀。然后,針對中心詞識別確的問題,給出了本文主要的研究工作。接著,介紹本文所使用到的集和評價標準。最后,給出了本文的組織結構。第2章中文問題的中心詞中心詞識別問題類似于傳統(tǒng)數(shù)據(jù)挖掘的分類問題,但是它們也有許多不同之處。首先,相對于傳統(tǒng)數(shù)據(jù)挖掘分類,用于中心詞分類的特征數(shù)據(jù)之間是有聯(lián)系的、非獨立的;其次,中心詞分類的類別只有兩類,分類的目的是確認待分類的詞匯是否是中心詞;最后,傳統(tǒng)的數(shù)據(jù)不考慮次序問題,而中心詞識別考慮次序問題。本章首先分析介紹了中心詞的概念和特性,接著介紹了幾種常用的中心詞識別方法及其效果,最后,為了深入了解條件隨機場模型在問題里中心詞識別中的應用,本章就條件隨機場模型和使用方法進行了詳細的分析和研究。中心詞的概念中心詞(headword)的定義最初出現(xiàn)在英文問題中,中心詞被定義[14]為“singlewordthatspecifiestheobjectthatthequestionseeks”。而在中文問題里,中心詞一直都沒有明確的定義,本文參照已有的國內外文獻,規(guī)定本文的中心詞為問題中最能體現(xiàn)答案類型的詞或詞組。中心詞是最能體現(xiàn)答案類型的一個詞,也可以是由多個詞構成的詞組,但是不包括疑問詞。不論是基于統(tǒng)計的機器學習還是規(guī)則的問題分類,中心詞和疑問詞一樣,都是對分類結果起決定性作用的重要特征。在許多文獻心詞也可以被稱為焦點詞[4]、詞[8]。例如,問題“那達慕/n在/p/nz中/nd的/u意思/n是/v什么/r”的類別為描述類的意思類(DES_MEANING,因為它的中心詞為“意思”,可以直接通過該中心詞將其分類到意思類中。中文問題的中心詞比較復雜。首先,中心詞的詞性比較復雜,除了名詞(n)外,還可能是數(shù)詞(m、量詞(q)等,或者是它們的組合。例如:“/ni占地/v多少/r平方米/q”,希望得到一個有關面積類的答案,因此它屬于類別體系中數(shù)字類別里的面積類(NUM_AREA,問題中“平方米”可以表示面積,因此量詞“平方米”是中心詞。其次,一個問題中的中心詞可能有一個、多個或者沒有,如“登/v上/nd/u月球/n的/u人/n有/v哪/r幾/m位/q”,希望得到一個人物(HUM_)的答案,“人”和“位”都可以代表人的特征,因此可以選擇“|位”作為中心詞;問題“2012年/m/nh獎/n的/u貨幣/n價值/n是/v多/r”(NUM_MONEY),“價值”是一個抽象概念,可以作為任何一個事物的屬性,因此它不能單獨地被認為是中心詞來表示答案的類型,需要一個限定詞來縮小范圍,并使中心詞的語義表達更準確,所以選取“貨幣|價值”作為中心詞。問題“為什么/r鴕鳥/n不/d能/v飛/v”屬于描述類里的原因類(DES_REASON,除疑問詞“為什么/r”外,沒有可以確定其類別的詞,因此該問題沒有中心詞。問題中心詞的特性分析中心詞與類別的關系中心詞是可以反映問題所含信息并能無歧義地表達問題本質的詞的組合。例如“中國/ns的/u首都/n在/p哪兒/r”,該問題的本質是詢問城市的名稱,因此首都是中心詞,它可以對該問題所屬的類別進行限定,哪兒是疑問詞,除此之外的其它詞對問題的分類都沒有實質性的幫助,甚至會產生誤導。在本文的研究中,可以把中心詞識別看成一個分類問題,即判斷每個候選中心詞是中心詞還是不是中心詞,需要解決的問題就是如何正確地區(qū)分候選中心詞是兩個類別中的哪一類。本文將中心詞用“1”表示,非中心詞用“0”表示。中心詞和類別之間的關系比較緊密,通過計算語料庫里每個問題的中心詞和它所屬類別之間的語義相似度,圖2-1給出了相似度值大于某個閾值的中心詞比例。其中,語義相似度大于0.5的中心詞占68.87%。圖2-2給出了各類別中相似度值大于某個閾值的中心詞比例。對于某些類別,語料庫中找不到與之相對應的類別,如TIME_HOLIDAY(時間_節(jié)假日)類,因此該類別滿足閾值的中心詞占該類別所有中心詞的比例為0,對于一些中心詞常為命名實體、名稱等的類別,如LOC_LAKE(地點_湖泊)類,其比例也比較低。除此之外的其它類別的比例相對較高,大于80%。所占比例0 閾圖2-1中心詞與它的位置之間的關系中心詞通常和疑問詞關系比較密切,在中文問題中,中心詞的語法結構比較靈活。中文問題里的中心詞的語義角色可能為:疑問詞的修飾語;當疑問詞包含在賓語中時,整個問句的主語是中心詞;當疑問詞包含在主語中時,整個問句的賓語是中心詞;問題中詞的位置不同,它所代表的權重也不同,慮的問題。 0 圖2-2中心詞的標注準則本文中心詞的提取至少滿足以下幾個準則:中心詞不能是停用詞停用詞在一個句子中只是為了滿足語法或功能的需要而存在,其本身并沒有實際的詞匯含義。通常停用詞可以分成兩類。一類是文本中包含的功能詞,這些詞比較普遍,與其他詞相比較,沒有什么實際含義,例如“于是”“仍”“在”等。另一類雖然包含詞匯信息,但是應用十分廣泛,對處理自然語言數(shù)據(jù)沒有什么幫助,有時反而會降低處理效果,例如“它們”、“全體”、“別人”等。與停用詞相比,實詞不僅可以單獨充當句法成分,而且與問題本身的關聯(lián)度大于停用詞,尤其是專有名詞、動詞、時間地點詞、量詞等。可以通過常用停用詞表來去除無意義的詞。中心詞不能是疑問詞疑問詞作為問句提問的語言成分,雖然對問題分類非常重要,但是不希望它在包含答案的文本中出現(xiàn),因此讓它有別于中心詞。在本文,可以通過構建疑問詞表來過濾候選中心詞。高頻詞優(yōu)先大部分中心詞(除了停用詞)都在多個問題中出現(xiàn),因此可以/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論