網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第1頁
網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第2頁
網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第3頁
網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第4頁
網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、漢語股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)學(xué) 生:學(xué) 號(hào):專 業(yè)導(dǎo) 師: 學(xué)校代碼:上海交通大學(xué)網(wǎng)絡(luò)教育學(xué)院二四年十一月摘要本文介紹了一個(gè)基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(SBIES)的設(shè)計(jì)與實(shí)現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動(dòng)分詞、自動(dòng)標(biāo)注和模板填充三個(gè)階段組成的簡(jiǎn)化模型。簡(jiǎn)單介紹了自動(dòng)分詞的常用算法和自動(dòng)標(biāo)注中的標(biāo)注規(guī)范。重點(diǎn)探討了模板填充的具體算法。文中分別討論了采用基于規(guī)則的結(jié)構(gòu)主義方法和基于語料庫概率統(tǒng)計(jì)的功能主義方法。著重討論了采用隱馬爾科夫模型進(jìn)行信息抽取的具體算法。對(duì)模型的參數(shù)獲取算法作了討論,改進(jìn)了Baum-Welch算法以

2、適應(yīng)信息抽取的應(yīng)用。對(duì)領(lǐng)域文本做了人工標(biāo)注,通過計(jì)算機(jī)處理獲取所需的統(tǒng)計(jì)數(shù)據(jù)。利用統(tǒng)計(jì)數(shù)據(jù)完善HMM模型。關(guān)鍵詞:信息抽取,隱馬爾科夫模型,自然語言THE DESIGN AND IMPLEMENTATION OF CHINESE STOCK BULLETIN INFORMATION EXTRACTION SYSTEMAbstractThis article introduced the design and implementation of a Chinese IE Technology based stock bulletin information extraction system (

3、SBIES). The framework and deployment of the system were described. The structure of the Chinese information extraction model was discussed in detail. We proposed a simplified 3 tiers IE model consisting of automatic word segmentation, automatic annotation, and template filling. The algorithms used i

4、n automatic word segmentation and annotation were briefly introduced while algorithms used in template filling were focused on. In this article, the rule-based structuralism methods and the corpus-based statistical functionalism methods were discussed respectively. The Hidden Markov Model (HMM) was

5、introduced to extract information and the algorithm was explained at length. The algorithm for model parameter acquisition was also analyzed and the Baum-Welch iteration algorithm was modified. Domain texts were annotated manually to acquire statistical data via computation. With these data, HMM-bas

6、ed IE was implemented.KEY WORDS:information extraction, hidden Markov model, natural language目錄自動(dòng)生成1 概述1.1 信息抽取技術(shù)(Information Extraction)信息技術(shù)高速發(fā)展的時(shí)代中,信息的獲取、處理和應(yīng)用已經(jīng)成為了經(jīng)濟(jì)、科學(xué)、軍事、文化等各個(gè)領(lǐng)域發(fā)展的關(guān)鍵活動(dòng)。而其中,信息的獲取是三個(gè)步驟的開端,在信息技術(shù)領(lǐng)域中具有尤其重要的地位。近年來,隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,各領(lǐng)域可及信息量呈指數(shù)級(jí)增長(zhǎng)。如何高效獲取有用信息成為有效利用信息的關(guān)鍵。信息抽?。↖nformation

7、 Extraction,簡(jiǎn)稱IE)技術(shù),是自然語言處理領(lǐng)域中一種新興的技術(shù)。該技術(shù)通過抽取、過濾無關(guān)信息,使文本信息以用戶關(guān)心的形式得以再組織,實(shí)現(xiàn)高效重組。將結(jié)構(gòu)松散的自然語言信息,通過抽取轉(zhuǎn)為結(jié)構(gòu)嚴(yán)謹(jǐn)、語義明確的表現(xiàn)形式,利用計(jì)算機(jī)進(jìn)行高效存儲(chǔ)并加以利用。 1.1.1 信息抽取技術(shù)的發(fā)展信息抽取技術(shù)的雛形最早出現(xiàn)在二十年前。下面介紹一些信息抽取發(fā)展上重要的研究成果以及國(guó)內(nèi)外的研究現(xiàn)狀7。l ATRANS 系統(tǒng)ATRANS 系統(tǒng)是早在1981年由Cowie研究出來關(guān)于動(dòng)植物正規(guī)結(jié)構(gòu)描述數(shù)據(jù)庫的系統(tǒng)及其商用化產(chǎn)品。該系統(tǒng)采用了概念句子分析技術(shù),通過一些簡(jiǎn)單的語言處理技術(shù)能夠完成限制在小規(guī)模,特

8、定專業(yè)領(lǐng)域的信息抽取任務(wù)。l FRUMP系統(tǒng)FRUMP系統(tǒng)由Gerald Dejong在80年代初實(shí)現(xiàn)。該系統(tǒng)把有限新聞網(wǎng)絡(luò)作為數(shù)據(jù)源,使用一些新聞故事的簡(jiǎn)單腳本來對(duì)有限新聞網(wǎng)絡(luò)進(jìn)行監(jiān)控。它采用關(guān)鍵字檢索、概念句子分析、腳本匹配等方法來尋找新聞故事。FRUMP系統(tǒng)是一個(gè)面向語義的系統(tǒng),采用了一個(gè)特定專業(yè)領(lǐng)域的事件描述腳本知識(shí)庫。l SCISOR系統(tǒng)80年代末,美國(guó)GE研究與開發(fā)中心的Lisa F.Rau等研制的SCISOR(System for Conceptual Information,Organization and Retrieval)系統(tǒng)所處理的對(duì)象是有關(guān)公司合并的新聞報(bào)導(dǎo)。SCIS

9、OR首先采用關(guān)鍵詞過濾和模式匹配的方法對(duì)待處理文獻(xiàn)進(jìn)行主題分析,以便判定該報(bào)道的內(nèi)容是否與公司合并有關(guān);然后采用自底向上的分析器識(shí)別句子結(jié)構(gòu),生成概念表示;最后應(yīng)用自頂向下的預(yù)期驅(qū)動(dòng)分析器提取預(yù)期內(nèi)容。l MUC(Message Understanding Conference)是一個(gè)ARPA資助的、為推動(dòng)IE技術(shù)發(fā)展的一個(gè)重要的系列工程。有許多大學(xué)、研究所參加。1987年的MUC-1和1989年的MUC-2主要集中在從小規(guī)模的海軍信息文本中抽取相關(guān)的信息。1991年的MUC-3和1992年的MUC-4采用的文本主題和類型發(fā)生了變化,采用關(guān)于拉丁美洲國(guó)家恐怖事件通用主題的報(bào)紙和有線新聞文本作為

10、語料源,系統(tǒng)包括預(yù)定義好的信息模板和輔助抽取規(guī)則,基本任務(wù)是從在線文本中抽取有關(guān)信息填入預(yù)定義的模板中的屬性槽中。1993年的MUC-5的文本主題是關(guān)于合資企業(yè)的商業(yè)新聞以及微電子芯片的制作方面的新聞,涉及英語和日語文檔。所抽取的信息包括合資企業(yè)的合資者、合資公司的名稱、所有權(quán)和資本以及預(yù)期的活動(dòng),或者微電子芯片的制作活動(dòng)的性質(zhì)和狀態(tài)等有關(guān)項(xiàng)。涉及到多語言和多領(lǐng)域的文檔,以便進(jìn)行抽取信息的性能評(píng)價(jià)比較。1995年的MUC-6的信息抽取任務(wù)第一次涉及到用SGML語言所標(biāo)記的文本中的名稱項(xiàng)(named entity)和指同項(xiàng)(coreference)的處理。除了場(chǎng)景模板(scenario)任務(wù)以外

11、,名稱項(xiàng)、指同項(xiàng)和模板元素(template element)信息抽取任務(wù)均與特定專業(yè)領(lǐng)域無關(guān)。測(cè)試的語料采用華爾街雜志中的文本。1998年的MUC-7是最近的一次信息理解會(huì)議。它的信息抽取任務(wù)涉及抽取文檔中的名稱項(xiàng)(人名、組織名和地點(diǎn)名);指同項(xiàng);確定模板元素之間的關(guān)系,如地點(diǎn)關(guān)系、雇傭關(guān)系和生產(chǎn)關(guān)系等;抽取文檔中的事件。文檔包含多語種的新聞稿。訓(xùn)練用的文檔專業(yè)領(lǐng)域是關(guān)于飛機(jī)墜毀報(bào)道,而測(cè)試用的文檔專業(yè)領(lǐng)域是關(guān)于發(fā)射事件報(bào)道。l FASTUS系統(tǒng)FASTUS系統(tǒng)(Finite State Automaton Text Understanding System)是美國(guó)加里福尼亞斯坦福研究所人工

12、智能中心從1991年開始開發(fā)的一個(gè)基于多層、非確定有限狀態(tài)自動(dòng)機(jī)模型的自然語言文本信息抽取系統(tǒng)。它共有六層轉(zhuǎn)換機(jī)制,即:切分標(biāo)記層、預(yù)處理層、名稱項(xiàng)識(shí)別層、簡(jiǎn)單短語識(shí)別層、復(fù)雜短語識(shí)別層、指同求解層。分解的語言處理使此系統(tǒng)能夠處理大量的與專業(yè)領(lǐng)域無關(guān)的句法結(jié)構(gòu),以致于與專業(yè)領(lǐng)域相關(guān)的語義和語用處理能被應(yīng)用到相當(dāng)大部分的語言結(jié)構(gòu)上。正因?yàn)镕ASTUS系統(tǒng)具有這樣的特點(diǎn),它已被成功地運(yùn)用于許多應(yīng)用中。l TIPSTER計(jì)劃由美國(guó)國(guó)防部(DoD)、Defense Advanced Research Projects Agency(DARPA)和Central Intelligence Agency

13、(CIA)共同資助的TIPSTER計(jì)劃包括至少15個(gè)與工業(yè)和學(xué)術(shù)有關(guān)的項(xiàng)目。目的是改進(jìn)文本處理的流行技術(shù)。TIPSTER的體系結(jié)構(gòu)使用一組通用的文本處理模塊已能滿足不同的文本處理應(yīng)用的需要。這些應(yīng)用主要是文本檢測(cè)(定位包含某一信息類型的文本)和信息抽取(定位文本中的特定信息)。在TIPSTER研究的第一階段,參與者通過一些活動(dòng)如MUC和TREC(Text Retrieval Conferences)對(duì)文本檢測(cè)和信息抽取所建立算法進(jìn)行改進(jìn)以及提高對(duì)評(píng)價(jià)這些改進(jìn)的技術(shù)。在第二階段的研究中,TIPSTER參與者為了使技術(shù)組成構(gòu)件標(biāo)準(zhǔn)化,將注意力轉(zhuǎn)向軟件體系結(jié)構(gòu)的開發(fā)上。使各種所開發(fā)的工具具有即插即用

14、的性能,增加軟件的共享程度。在目前進(jìn)行的第三階段的研究中,一種稱為ACP(Architecture Capabilities Platform)的平臺(tái)被開發(fā),它支持評(píng)價(jià)、擴(kuò)展和探索進(jìn)展中的TIPSTER體系結(jié)構(gòu)。ACP將采用CORBA(Common Object Request Broker Architecture)結(jié)構(gòu)為研究者提供魯棒及相配的TIPSTER組成構(gòu)件。它將支持TIPSTER體系結(jié)構(gòu)的擴(kuò)展,以便與機(jī)器翻譯、語音和光學(xué)字符識(shí)別、圖象觀察、用戶界面構(gòu)件以及大規(guī)模信息系統(tǒng)相適應(yīng)。l SMES系統(tǒng)由德國(guó)人工智能研究中心語言技術(shù)實(shí)驗(yàn)室(DFKI-LT)在Paradime 項(xiàng)目中所開發(fā)的S

15、MES(Saarbrcken Information Extraction System)系統(tǒng)是一個(gè)聯(lián)機(jī)的德語文擋信息抽取智能系統(tǒng)。文檔的專業(yè)領(lǐng)域包括通訊稿、經(jīng)濟(jì)報(bào)告和技術(shù)說明書。SMES系統(tǒng)擁有大量的語言知識(shí)資源(如電子詞典包括12萬條詞項(xiàng)以及可擴(kuò)展性很強(qiáng)的專門語法)以及極其快速和魯棒的自然語言構(gòu)件。它還能利用機(jī)器學(xué)習(xí)機(jī)制使自身能為實(shí)現(xiàn)新功能得到訓(xùn)練和配置,并能適應(yīng)所需的信息數(shù)量和各種文檔長(zhǎng)度。它被集成了圖形可視化技術(shù)、服務(wù)器體系結(jié)構(gòu)和英特網(wǎng)訪問技術(shù)。SMES作為一個(gè)有效的智能信息檢索的核心系統(tǒng)已經(jīng)成功地運(yùn)用于科學(xué)和工業(yè)項(xiàng)目中。國(guó)內(nèi)對(duì)信息抽取的研究才剛剛起步。1998年月在東北大學(xué)學(xué)報(bào)(自然

16、科學(xué)版)發(fā)表了中文信息自動(dòng)抽取一文,介紹了中文信息抽取的概念和對(duì)一些問題進(jìn)行了初步的探索。國(guó)內(nèi)對(duì)涉及中文和其他語種的多語種信息抽取技術(shù)還未見報(bào)道。 1.1.2 信息抽取技術(shù)的特點(diǎn)信息抽取技術(shù)不同于傳統(tǒng)的信息檢索和自動(dòng)摘要技術(shù)。 l 與信息檢索(Information Retrieval,簡(jiǎn)稱IR)技術(shù)的區(qū)別與傳統(tǒng)的信息檢索技術(shù)比較,信息抽取技術(shù)有明顯的優(yōu)勢(shì):信息檢索只是通過單純的匹配檢索得到相關(guān)的文檔,而并不真正理會(huì)文檔的實(shí)際內(nèi)容信息,文檔被等同于無意義的詞匯堆砌物;而信息抽取則是通過文本分析、語段分析、模板生成等過程抽取出有效的信息內(nèi)容。l 與自動(dòng)摘要(Automatic Abstracti

17、on)技術(shù)的區(qū)別與傳統(tǒng)的自動(dòng)文摘(Automatic Abstraction)技術(shù)比較,信息抽取技術(shù)的應(yīng)用前景更好:自動(dòng)文摘產(chǎn)生的文摘往往質(zhì)量較低,而且容易產(chǎn)生不全面、不連貫和冗余多等等問題;而信息抽取則針對(duì)有價(jià)值的相關(guān)領(lǐng)域的文本進(jìn)行結(jié)構(gòu)分析,其效率和質(zhì)量顯著提高,也更容易面向?qū)嶋H應(yīng)用。信息抽取技術(shù)具有其獨(dú)有的優(yōu)勢(shì)。利用淺層的自然語言處理技術(shù)(Shallow Natural Language Processing Technology,簡(jiǎn)稱SNLPT),可以實(shí)現(xiàn)高效率的自然語言處理;將非結(jié)構(gòu)化的信息改變?yōu)槔谟?jì)算機(jī)存儲(chǔ)、處理的結(jié)構(gòu)化形式,有利于信息的重復(fù)高效利用。1.2 股市公告信息抽取系統(tǒng)(

18、SBIES) 1.2.1 應(yīng)用背景隨著我國(guó)改革開放的深入,市場(chǎng)經(jīng)濟(jì)的發(fā)展,證券市場(chǎng)的到了空前的繁榮。目前,在滬深兩地上市的公司數(shù)目已達(dá)幾千家。每天在兩地市場(chǎng)公布的股市公告少則幾十條,多則百余條,文本量較大。如果需要在若干年的公告紀(jì)錄中,迅速查找各種相關(guān)的公告,如采取傳統(tǒng)的關(guān)鍵字查找技術(shù),恐怕難以獲取很高效率??紤]到信息抽取技術(shù)能夠有效地從大量文本中過濾出用戶可能關(guān)心的信息,并進(jìn)行結(jié)構(gòu)化存儲(chǔ)以便迅速查詢,希望基于信息抽取技術(shù)構(gòu)造股市公告信息抽取系統(tǒng)(Stock Bulletin Information Extraction System,簡(jiǎn)稱SBIES)。由于股市公告文本具有以下一些特點(diǎn),故認(rèn)為

19、采取信息抽取技術(shù)能夠大幅度提高系統(tǒng)的性能表現(xiàn)。l 句法簡(jiǎn)單。在一般股市公告中,通常以簡(jiǎn)單而表意清楚陳述句式為主。幾乎不出現(xiàn)具有二義性的語句。這為自然語言處理和信息抽取提供了較好的先決條件。l 格式規(guī)整。常見的股市公告大致可以分為若干種,如:停牌公告、財(cái)務(wù)指數(shù)公告、董事會(huì)決議公告、配送股公告、新股上市公告、等等。每一種公告都有相對(duì)固定的組成要素,容易構(gòu)造模板加以描述。l 文本量大。僅以上海證券交易所為例,每天的臨時(shí)性公告文本量平均約20KB(以漢字記約1萬字)。一年累計(jì)的公告文本約有6MB(約300萬漢字)。對(duì)于計(jì)算機(jī)而言,這個(gè)數(shù)量可謂及其微小,而對(duì)于人工閱讀而言卻是一個(gè)繁復(fù)而耗時(shí)的工作。l 多

20、語種特性。股票市場(chǎng)使金融的重要組成部分,而在全球金融一體化的今天,世界各大證券市場(chǎng)之間的息息相關(guān)。而各國(guó)的證券市場(chǎng)在第一時(shí)間通常只能以一種或有限的幾種語言發(fā)布公告信息,這就給股市公告帶來了天生的多語種特性。設(shè)計(jì)一個(gè)股票文本的信息抽取系統(tǒng)具有較高的實(shí)用價(jià)值。股市公告的文本量龐大,但結(jié)構(gòu)固定、內(nèi)容單一,這正適合于計(jì)算機(jī)處理。信息抽取技術(shù)能夠自動(dòng)的從龐大的文本庫中,動(dòng)態(tài)地根據(jù)用戶關(guān)心的內(nèi)容提取文本蘊(yùn)含的信息。同時(shí),信息抽取能夠采用獨(dú)立于語種的方式存儲(chǔ)信息。這樣,用戶就不必關(guān)心原始文本的語種,可以用他(她)所熟悉的語種進(jìn)行抽取請(qǐng)求,并得到以他(她)希望語種表示的信息抽取結(jié)果。 1.2.2 系統(tǒng)框架結(jié)構(gòu)

21、如上所述,該系統(tǒng)將基于信息抽取技術(shù)進(jìn)行構(gòu)建。但是為了實(shí)現(xiàn)真正可用的應(yīng)用系統(tǒng),還需要其它一些模塊的進(jìn)行協(xié)同工作。圖一種給出了本系統(tǒng)的基本框架結(jié)構(gòu)。原始文本采集用戶需求分析模塊信息抽取模塊獨(dú)立于語種的信息存儲(chǔ)自然語言生成(漢語)自然語言生成(英語)自然語言生成()控制數(shù)據(jù)系統(tǒng)結(jié)構(gòu)圖用戶其它結(jié)果表現(xiàn)形式結(jié)果表示圖一:SBIES結(jié)構(gòu)框架圖圖中,信息抽取模塊是整個(gè)系統(tǒng)的核心所在,他將根據(jù)用戶的需求將原始文本經(jīng)信息抽取后,以獨(dú)立于語種的方式存入信息庫中。對(duì)該模塊的設(shè)計(jì)與實(shí)現(xiàn),是本文的重點(diǎn),將在后面進(jìn)行詳細(xì)論述。用戶需求分析模塊,是能夠收集用戶需求,控制其它個(gè)模塊進(jìn)行協(xié)同工作的智能人機(jī)界面。該模塊是系統(tǒng)的控

22、制中心,體現(xiàn)了以用戶需求為核心的設(shè)計(jì)思想。該模塊能為用戶提供一個(gè)智能化的易用界面。用戶只需以自然語言形式輸入詢問的問題,該模塊即可將詢問轉(zhuǎn)化為一系列的內(nèi)部指令,控制各模塊針對(duì)詢問做出響應(yīng)。結(jié)果表示模塊,是將查詢結(jié)果以用戶易于理解的方式進(jìn)行表示的模塊。其中主要采用了自然語言生成(Natural Language Generation,簡(jiǎn)稱NLG)技術(shù)。自然語言生成的主要目標(biāo)是研究計(jì)算機(jī)如何根據(jù)信息在機(jī)器內(nèi)部的表達(dá)形式生成一段高質(zhì)量的自然語言文本。所謂高質(zhì)量是指生成的文本與人工文本比較接近,形式多樣,而且能適應(yīng)外部應(yīng)用的變化而做相應(yīng)的調(diào)整,整個(gè)系統(tǒng)的維護(hù)性好2。在本系統(tǒng)中,根據(jù)用戶詢問,從信息庫中

23、查詢獲取的結(jié)果,對(duì)用戶而言仍然是晦澀難懂的。因此需要一種較好的方式來將查詢結(jié)果反饋給用戶。由于信息抽取技術(shù)的結(jié)果能夠使信息以獨(dú)立于語種的方式進(jìn)行存儲(chǔ),如果結(jié)合相應(yīng)的不同語種的自然語言生成技術(shù),即可使根據(jù)用戶的要求,獲得以各種語言表述的查詢結(jié)構(gòu)。除了結(jié)合自然語言生成技術(shù),以自然語言形式生成結(jié)果外,還可以用圖表等形式輸出一些數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,這也是表示模塊的功能之一。 1.2.3 系統(tǒng)分布結(jié)構(gòu)RobotINTERNET信息抽取信息庫XML數(shù)據(jù)庫預(yù)處理數(shù)據(jù)分析(可選)查詢分析查詢界面結(jié)果表示圖二給出了系統(tǒng)的整體分布圖。圖二:SBIES分布圖由圖可見,本系統(tǒng)直接掛接在Internet上,數(shù)據(jù)來源和用戶界

24、面主要都通過Web實(shí)現(xiàn)。由一個(gè)Robot程序自動(dòng)通過Web進(jìn)行股票公告文本的自動(dòng)搜集,搜集的文本經(jīng)過預(yù)處理成為信息抽取模塊能夠接受的文本后,采用IE技術(shù)進(jìn)行信息抽取,將結(jié)果存放入信息庫中。如果必要,可以對(duì)信息庫數(shù)據(jù)進(jìn)行分析。用戶通過Internet訪問該系統(tǒng),查詢的結(jié)果也通過Internet返回給用戶。1.3 本文內(nèi)容簡(jiǎn)介本文將詳細(xì)論述股市公告信息抽取系統(tǒng)中,信息抽取模塊的設(shè)計(jì)和實(shí)現(xiàn)。第一章,概述。簡(jiǎn)介信息抽取技術(shù)的歷史和特點(diǎn),與傳統(tǒng)的NLP技術(shù)做了優(yōu)缺點(diǎn)比較。提出SBIES的應(yīng)用背景,介紹整體結(jié)構(gòu)框架和模塊分布情況。第二章,信息抽取模塊的設(shè)計(jì)。提出SBIES中信息抽取模塊(也就是本系統(tǒng)的核心

25、模塊)的具體結(jié)構(gòu)。第三章,信息抽取的關(guān)鍵算法。這是本文的重點(diǎn)章節(jié)。具體探討了信息抽取模塊中信息抽取的幾種關(guān)鍵算法。比較了采用傳統(tǒng)語言學(xué)方法和統(tǒng)計(jì)學(xué)方法進(jìn)行信息抽取的優(yōu)缺點(diǎn)和適用情況。第四章,實(shí)現(xiàn)與結(jié)果分析。將給出部分統(tǒng)計(jì)數(shù)據(jù)和結(jié)果總結(jié)。262 信息抽取模塊的設(shè)計(jì)2.1 模塊內(nèi)部結(jié)構(gòu) 2.1.1 串行化的模塊內(nèi)部結(jié)構(gòu)及其問題自然語言信息抽取是一系列淺層自然語言處理技術(shù)的結(jié)合體。為了將非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)化到結(jié)構(gòu)化的信息庫中,需要多種自然語言處理技術(shù)的協(xié)同工作。從某種意義上說,這些處理技術(shù)將以串行的方式運(yùn)行,即前一個(gè)步驟的處理輸出結(jié)果將作為后一步驟的輸入。這種工作方式優(yōu)點(diǎn)是模塊內(nèi)部結(jié)構(gòu)簡(jiǎn)單,便

26、于分級(jí)調(diào)試。根據(jù)傳統(tǒng)的自然語言處理技術(shù),漢語的信息抽取模塊中大致應(yīng)包含的處理步驟應(yīng)當(dāng)包括了分詞處理、名稱分析、語法分析、語義分析、場(chǎng)景匹配、一致性分析、推理判斷、模板匹配填充,等等。但子過程的串聯(lián),帶來的問題是,各個(gè)階段處理的準(zhǔn)確性高度依賴于前端輸出的正確性。例如:假設(shè)信息抽取全過程由n個(gè)串聯(lián)子過程組成,第k個(gè)子過程的查準(zhǔn)率(或者查全率)分別為,則整個(gè)模塊的查準(zhǔn)率(或者查全率)應(yīng)為:一般而言,目前自然語言處理技術(shù)中雖然存在眾多不同的算法,進(jìn)行不同層次的分析處理,但其查準(zhǔn)率和查全率卻大都不是很高17。通常在60%90%之間不等。當(dāng)前MUC英文信息提取的各項(xiàng)指標(biāo)(最好水平)大體上如下SAIC 99

27、 Chinchor 99:實(shí)體(Entities)識(shí)別90%,屬性識(shí)別(Attributes) 80% (TE任務(wù));事實(shí)識(shí)別(Facts) 70% (TR任務(wù));事件識(shí)別(Events)60% (ST任務(wù))。這些指標(biāo)也自然地反映了自然語言處理在各個(gè)層次上的難度。在最近一屆MUC上表現(xiàn)最好的是SRA公司的系統(tǒng)Aone et al, 98,其所有3項(xiàng)IE指標(biāo)都是最高的。其評(píng)測(cè)結(jié)果如下:RecallPrecisionF-ScoreTE86%87%86.76TR67%86%75.63ST42%65%50.79表一:MUC-7測(cè)評(píng)結(jié)果可以看出,在這樣的查準(zhǔn)率和查全率下,整個(gè)模塊的性能表現(xiàn)將隨著串聯(lián)模塊

28、數(shù)量的增加迅速下降。顯然,過低的查準(zhǔn)率和查全率,對(duì)于一個(gè)應(yīng)用系統(tǒng)是缺乏實(shí)用意義的。因此,要構(gòu)建可實(shí)用的信息抽取系統(tǒng),有兩個(gè)種途徑:其一,進(jìn)一步探討各個(gè)處理模塊的更有效的處理方法,以達(dá)到更高的查準(zhǔn)率和查全率;其二,改變信息抽取模型結(jié)構(gòu),根據(jù)應(yīng)用領(lǐng)域的特殊性,簡(jiǎn)化串行結(jié)構(gòu)的長(zhǎng)度,以提高模塊整體的性能表現(xiàn)。第一種途徑顯然是信息抽取技術(shù)逐步發(fā)展成熟的必然途徑,但是在短期內(nèi)恐怕還難以在這一方向上取得突破性的發(fā)展。而第二種途徑卻是目前可能做到的。因?yàn)椴煌膽?yīng)用領(lǐng)域具有不同的特性,結(jié)合這些特性可以有力地提高各個(gè)模塊的處理正確性,簡(jiǎn)化信息抽取模型。以下將結(jié)合股市公告文本信息抽取的特點(diǎn),討論信息抽取模型的簡(jiǎn)化。

29、 2.1.2 簡(jiǎn)化的高性能信息抽取模型在我們即將設(shè)計(jì)和實(shí)現(xiàn)的股市公告信息抽取系統(tǒng)中,希望通過縮短處理子過程的路徑長(zhǎng)度,來提高信息抽取模型的性能。由于股市公告文本具有以下一些特性,所以簡(jiǎn)化信息抽取模型是可能的。一方面,股市公告文本的主題分類比較明顯。一般而言,股市公告主要包括了停牌公告、財(cái)務(wù)指數(shù)公告、董事會(huì)決議公告、配送股公告、新股上市公告等若干種類型。每種公告文本類別論述的主題比較固定,利于用抽取模板加以描述。另一方面,各類公告文本的格式相對(duì)簡(jiǎn)單、固定。通常很少出現(xiàn)句式的變化,陳述過程中句法規(guī)則也相對(duì)簡(jiǎn)單。同時(shí),簡(jiǎn)化后的模型應(yīng)該能夠比原模型具有更好的性能表現(xiàn)。首先,縮短了處理過程路徑的長(zhǎng)度,避

30、免了過長(zhǎng)的串行系統(tǒng)結(jié)構(gòu)可能導(dǎo)致的低查準(zhǔn)率和查全率。其次,合并簡(jiǎn)化處理子過程,減少了處理所需的時(shí)間,提高了處理的效率。分詞處理詞典股市公告文本A類文本自動(dòng)標(biāo)注B類文本自動(dòng)標(biāo)注C類文本自動(dòng)標(biāo)注A類模板填充B類模板填充C類模板填充文本自動(dòng)分類信息庫基于以上觀點(diǎn),考慮將信息抽取中的某些步驟合并簡(jiǎn)化。簡(jiǎn)化后的高性能系統(tǒng)結(jié)構(gòu)如圖三所示。圖三:簡(jiǎn)化后的信息抽取模型從圖中可以看出,處理過程的長(zhǎng)度大大縮短了。一篇中文文檔一般只需經(jīng)過分詞處理、自動(dòng)標(biāo)注和模板填充三個(gè)步驟即可完成信息抽取。文本自動(dòng)分類主要是根據(jù)關(guān)鍵詞進(jìn)行的,由于股市公告文本的特殊性,其準(zhǔn)確率可達(dá)到98%以上。而在正確分類的前提下,對(duì)已知文本類型進(jìn)行

31、詞類自動(dòng)標(biāo)注和模板填充將變得更為容易,也具有更高的準(zhǔn)確性。本章的余下部分,將對(duì)自動(dòng)分詞和文本自動(dòng)標(biāo)注的實(shí)現(xiàn)做部分介紹。而模板填充算法的實(shí)現(xiàn),是本模塊的關(guān)鍵環(huán)節(jié),將在下一章中詳細(xì)論述。2.2 自動(dòng)分詞近年來,國(guó)內(nèi)眾多研究機(jī)構(gòu)已經(jīng)在計(jì)算機(jī)漢語文本自動(dòng)分詞方面進(jìn)行了大量的研究,并取得了很多成就。二十年來,已經(jīng)提出了許多分詞算法。我們可以將現(xiàn)有的分詞算法分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。l 基于字符串匹配的分詞方法這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別

32、出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的詞數(shù)最小)。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/

33、169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。由于分詞是一個(gè)智能決策過程,機(jī)械分詞方法無法解決分詞階段的兩大基本問題:歧義切分問題和未登錄詞識(shí)別問題。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過程中又反過來對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、

34、調(diào)整,從而極大地提高切分的準(zhǔn)確率。l 基于理解的分詞方法通常的分析系統(tǒng),都力圖在分詞階段消除所有歧義切分現(xiàn)象。而有些系統(tǒng)則在后續(xù)過程中來處理歧義切分問題,其分詞過程只是整個(gè)語言理解過程的一小部分。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過程。這種分詞方法需要使用大量的語言知識(shí)和信息。由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞

35、系統(tǒng)還處在試驗(yàn)階段。l 基于統(tǒng)計(jì)的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫?duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息為: ,其中 是漢字X、Y的相鄰共現(xiàn)概率, 、 分別是X、Y在語料中出現(xiàn)的概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性,會(huì)經(jīng)常抽

36、出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開銷大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。這些算法各具特色,需結(jié)合具體的應(yīng)用領(lǐng)域進(jìn)行綜合利用。已見諸報(bào)道的研究成果如:北京航空航天大學(xué)計(jì)算機(jī)系的CDWS分詞系統(tǒng),山西大學(xué)的現(xiàn)代漢語自動(dòng)分詞及詞性標(biāo)注系統(tǒng)1,北京大學(xué)計(jì)算語言學(xué)研究所的漢語切分與標(biāo)注軟件,清華大學(xué)SEG分

37、詞系統(tǒng)和SEGTAG系統(tǒng),哈工大統(tǒng)計(jì)分詞系統(tǒng),杭州大學(xué)改進(jìn)的MM分詞系統(tǒng),Microsoft Research漢語句法分析器中的自動(dòng)分詞,等等15。這些切分與標(biāo)注軟件大都通過大量跨領(lǐng)域文本的測(cè)試,具有較為穩(wěn)定的性能表現(xiàn)。但是在我們的特殊領(lǐng)域的應(yīng)用系統(tǒng)中,并不需要對(duì)任意領(lǐng)域文本都能進(jìn)行準(zhǔn)確切分的能力。不僅如此,在我們的應(yīng)用領(lǐng)域中,期望的文本切分效果也不同于普通文本。在股市公告中,普遍存在大量的術(shù)語和慣用語。我們當(dāng)然希望不要將這些詞切碎,以利于更好的進(jìn)行信息抽取。因此,設(shè)想構(gòu)造一個(gè)規(guī)模較小的,能夠較好識(shí)別領(lǐng)域詞匯的小型分詞子系統(tǒng)。在構(gòu)造自動(dòng)分詞子系統(tǒng)時(shí),以人工分詞得到得語料庫為標(biāo)準(zhǔn)。統(tǒng)計(jì)各類詞匯出

38、現(xiàn)的概率,構(gòu)造詞典。在分詞時(shí)處于性能考慮,采用了較簡(jiǎn)單的最長(zhǎng)匹配法分詞規(guī)則。經(jīng)過測(cè)試,自動(dòng)分詞的結(jié)果完全能夠滿足信息抽取的需求。由于分詞模塊并非本系統(tǒng)的重點(diǎn)核心所在,故在此僅作簡(jiǎn)短介紹。2.3 詞類自動(dòng)標(biāo)注在分詞的結(jié)果上,還應(yīng)該為各個(gè)詞匯標(biāo)注上一些表明詞匯作用或?qū)傩缘男畔?,以便利用這些信息去填充模板。進(jìn)行自動(dòng)標(biāo)注的方式和層次有多種。例如,可以對(duì)詞性進(jìn)行標(biāo)注,如名詞、動(dòng)詞、形容詞、數(shù)量詞等等;也可以對(duì)識(shí)別的命名實(shí)體(Named Entity)、專有名詞(Proper Noun)等進(jìn)行標(biāo)注,主要取決于后續(xù)處理階段的需要。傳統(tǒng)的自然語言處理過程中,通常認(rèn)為,對(duì)詞類的標(biāo)注應(yīng)該從詞性的層次上開始,其他自

39、然語言的處理過程都將建筑在對(duì)詞性的分析之上。但是,我們認(rèn)為在特定領(lǐng)域的信息抽取任務(wù)中,從詞性開始的詞類標(biāo)注并非必要。由于信息抽取實(shí)際上是在給定語義框架(用模板描述)的基礎(chǔ)上,對(duì)語義框架中的關(guān)鍵部分(屬性槽Slot)以相應(yīng)內(nèi)容(填槽物Slot Filler)填充,所以可以期望直接標(biāo)注出全部或部分的關(guān)鍵內(nèi)容。出于這種想法,我們希望能夠在此采用一個(gè)直接標(biāo)注包含語義信息的詞類自動(dòng)標(biāo)注子系統(tǒng)。其中最重要的一項(xiàng)工作就是確定標(biāo)注的詞類。從圖三可以看出,詞類自動(dòng)標(biāo)注是在文本分類之后才進(jìn)行的,所以應(yīng)該根據(jù)不同的文本類別來進(jìn)行不同的詞類標(biāo)注。信息抽取的任務(wù)就是根據(jù)不同的文本類別,以合適的抽取模板加以刻畫。我們就可

40、以嘗試根據(jù)模板的屬性槽來定義詞類。例如,如下所示是一個(gè)描述停牌公告抽取模板的DTD文件: 其中定義了一系列元素(如停牌時(shí)間、時(shí)間跨度、股票名稱等等),這些都是需要抽取的模板屬性槽??紤]根據(jù)以上的模板,抽取以下的公告實(shí)例:“東盛科技”(600771)因刊登公告,9月11日上午停牌半天。將獲取如下XML文檔作為結(jié)果:東盛科技6007719月11日上午半天刊登公告此例充分體現(xiàn)了股市公告文本句法特殊,結(jié)構(gòu)固定的特點(diǎn)。對(duì)此例原文分詞后,我們可以期望獲取如下自動(dòng)標(biāo)注的XML文檔:“東盛科技”(600771)因刊登公告,9月11日上午停牌半天。其中punctuation標(biāo)注標(biāo)點(diǎn),stockname標(biāo)注股票名

41、稱,stockid標(biāo)注股票id,date標(biāo)注日期,length標(biāo)注時(shí)間跨度,sw是模板特殊詞(Special Word)的縮寫,na標(biāo)注的是本模板中無需關(guān)心的詞(Not Available)。在同課題組的許多老師和同學(xué)的共同努力和大力幫助下,我們對(duì)近年來上海證券交易所的公告進(jìn)行了人工分詞和標(biāo)注。通過計(jì)算機(jī)程序統(tǒng)計(jì),構(gòu)造起了自動(dòng)分詞和標(biāo)注所需的小規(guī)模領(lǐng)域詞典,包含領(lǐng)域常用詞匯約1200詞,另外還有滬深兩地各類股票名稱和編號(hào)等。針對(duì)不同類型(模版)的文本,將具有不同的標(biāo)注標(biāo)準(zhǔn)。對(duì)標(biāo)注文本統(tǒng)計(jì)數(shù)目見表二。公告類別公告文本量(篇)百分比決議公告9315.7%財(cái)務(wù)指數(shù)公告41570.1%停牌公告213.

42、5%其它公告6310.6%共計(jì)592100%表二:人工標(biāo)注文本量統(tǒng)計(jì)在進(jìn)行了自動(dòng)分詞和詞類標(biāo)注的基礎(chǔ)上,下一章將詳細(xì)探討如何利用標(biāo)注信息填充模板的具體算法。3 信息抽取的關(guān)鍵算法在前一章里,已經(jīng)將信息抽取的問題歸結(jié)為對(duì)文本的自動(dòng)分詞、自動(dòng)標(biāo)注和模板填充三個(gè)步驟,并且已經(jīng)簡(jiǎn)單介紹了前兩個(gè)步驟的設(shè)計(jì)和實(shí)現(xiàn)方法。本章中將要詳細(xì)論述的是模板的自動(dòng)填充算法。將分別討論采用傳統(tǒng)語言學(xué)方法以及統(tǒng)計(jì)學(xué)方法進(jìn)行的模板填充算法。3.1 傳統(tǒng)語言學(xué)方法 3.1.1 基于規(guī)則的信息抽取算法根據(jù)傳統(tǒng)的語言學(xué)方法,一般采用語法分析的方式來填充模板。語言學(xué)中語法分析的理論和方法眾多,各有優(yōu)缺點(diǎn)。比較著名的如Kaplan和B

43、resnan(1982)的詞匯功能語法(LFG)、Shieber(1984)的PART-II,Kay(1985)的功能合一語法(FUG),Gazdar(1985)的廣義短語結(jié)構(gòu)語法(GPSG),Polland和Sag(1987)的中心詞去動(dòng)的短語結(jié)構(gòu)語法(H-DPSG)等等38913。上述的各種分析方法從理論上,對(duì)自然語言本質(zhì)性問題進(jìn)行了較深入的研究。然而在一個(gè)中文的信息抽取的實(shí)用系統(tǒng)中充分應(yīng)用這些分析方法,卻存在著困難。首先,信息抽取技術(shù)應(yīng)當(dāng)避免采用深層自然語言處理技術(shù)(DNLPT)。這一方面是出于性能考慮,信息抽取系統(tǒng)往往要對(duì)大量文本進(jìn)行高效率的處理,另一方面則是考慮到信息抽取系統(tǒng)往往不需

44、要完全明晰一片文檔的內(nèi)容,而只需直起大概即可。所以采用淺層自然語言處理技術(shù)(SNLPT)將使系統(tǒng)具有更好的性能表現(xiàn)。其次,中文語法分析存在著特殊的復(fù)雜性。例如,漢語中存在著多動(dòng)詞連用問題、詞性歧義問題、句子的詞序問題、漢語特殊模式(“把”、“被”字句)問題、漢語語義歧義問題,等等。如果逐層分析語法關(guān)系,可能相當(dāng)困難。此外,上述分析方法應(yīng)用于實(shí)際時(shí),往往難以有很高的準(zhǔn)確率。而這對(duì)于一個(gè)實(shí)用系統(tǒng)而言,卻往往是致命的缺陷。因此,可以采用較簡(jiǎn)單的語法規(guī)則,來抽取相關(guān)的基本語義信息。例如14,制定以下若干規(guī)則,來對(duì)股市停牌公告進(jìn)行抽取。(1)S- NS C comma D v len fstp(2)N-

45、 sn (3)N- sn sid(4)NS- N (5)NS- NS cae N(6)C- conj un (7)C- C un(8)D- date (9)D- year date其中,S表示整個(gè)停牌公告;N表示單個(gè)股票,可以由股票名或連同其代碼構(gòu)成;NS是股票的集合,可以有一系列任意個(gè)連續(xù)單個(gè)股票用頓號(hào)串接構(gòu)成;C表示停牌原因,是由關(guān)鍵連詞“因”或“因?yàn)椤币鸬脑驙钫Z從句;D表示日期,既可是單獨(dú)的月日格式,也可是年月日格式;sn是股票名稱;sid是股票代碼;date是月日格式日期;year是年份;conj是關(guān)鍵連詞“因”或“因?yàn)椤保籰en是時(shí)間跨度;cae是頓號(hào);comma是逗號(hào);fstp

46、是句號(hào);v是中心動(dòng)詞“停牌”;un是其它與本模板信息抽取無關(guān)的詞匯。不難驗(yàn)證,該文法可以無沖突地采用SLR分析法進(jìn)行分析,參見表三。ACTIONGOTOSnSidConjvlendateYearCaeCommaFstpun$SNNSCD0S41231ACC2R4R53S6S754S8R3R35S9S106S117S4128R4R49S14S151310R8R811R7R712R6R613S1614R915S1716S1817R1018S1919R2表三:LR分析表利用以上分析表,我們實(shí)現(xiàn)了機(jī)與簡(jiǎn)單語法規(guī)則的信息抽取。由于在根據(jù)分析表分析過程中,自然地構(gòu)造起了一棵語法分析樹,圖四中給出一個(gè)例句的

47、分析樹。四砂股份600783、上海醫(yī)藥600849因未刊登股東大會(huì)決議公告,9月13日停牌一天。fstpC 四砂股份因刊登NSCcommavlenNSCununsndate股東大會(huì)決議公告,9月13日DSS停牌一天。conjun未caeNsn、sidN上海醫(yī)藥600849sid600783圖四:分析樹示例在獲取分析樹的結(jié)果上,可以通過對(duì)樹的遍歷來填充模板。此步驟顯然比較簡(jiǎn)單,在此不再贅述。 3.1.2 基于規(guī)則信息抽取面臨的嚴(yán)峻問題對(duì)于停牌公告這樣語法極其簡(jiǎn)單的公告而言,采用簡(jiǎn)單的分析規(guī)則已經(jīng)足以完成信息抽取任務(wù)。但是,對(duì)于其它結(jié)構(gòu)較為復(fù)雜的公告文本,要構(gòu)造這樣一套規(guī)則卻并不永遠(yuǎn)是件容易的事。

48、隨著公告文本的復(fù)雜化,規(guī)則數(shù)目將大大增加。而隨著規(guī)則的增加,如果仍然采用LR分析法分析,分析表的規(guī)模(行數(shù))將以指數(shù)級(jí)速度擴(kuò)充。不僅如此,分析表中還很容易出現(xiàn)沖突項(xiàng),這一方面是由于自然語言中普遍存在著文法的二義性,另一方面是由于自然語言中存在著很大的自由性,語言意義的表達(dá)并非完全受限于固定的文法規(guī)則,這也是自然語言和形式文法的最大區(qū)別。對(duì)于這個(gè)問題,有兩條解決途徑。其一,對(duì)LR分析法進(jìn)行擴(kuò)充。傳統(tǒng)的LR分析法通常只有移進(jìn)(Shift)和歸約(Reduce)兩個(gè)動(dòng)作。如果在某些情況下添加若干特殊擴(kuò)充分析動(dòng)做,將對(duì)增強(qiáng)分析能力有所幫助1416。在此方面的研究結(jié)果表明,擴(kuò)充的LR分析法的確能夠加強(qiáng)分

49、析能力,尤其是加強(qiáng)了處理自然語言過程中的魯棒性。但是這樣的擴(kuò)充畢竟還是基于原有LR分析法進(jìn)行的,擴(kuò)充的幅度有限。其二,采用非基于規(guī)則的分析方法?;谝?guī)則的方法在處理自然語言時(shí)遇到的困難,是分析形式文法時(shí)的難度無法相比的。改變分析方法可以從根本上突破形式文法的局限性。下一節(jié)就將討論采用統(tǒng)計(jì)方法來設(shè)計(jì)信息抽取模塊中的模板匹配算法。3.2 統(tǒng)計(jì)學(xué)方法 3.2.1 基于語料庫的統(tǒng)計(jì)語言學(xué)方法近年來,基于語料庫分析的自然語言處理方法受到了越來越多的計(jì)算語言學(xué)家的重視和應(yīng)用。在規(guī)則方法即理性主義方法屢受挫折的事實(shí)面前,語料庫語言學(xué)的發(fā)展促使計(jì)算語言學(xué)家們?cè)絹碓街匾晹?shù)理統(tǒng)計(jì)在語言學(xué)中的應(yīng)用。應(yīng)該說,統(tǒng)計(jì)方法

50、并不是包治百病的良藥,而是人類由于認(rèn)識(shí)能力和認(rèn)識(shí)范圍的有限迫不得已采用的方法11。傳統(tǒng)語言學(xué)給我們積累了豐富的語言實(shí)例,但對(duì)于語言規(guī)律的把握,人類至今仍未找到最好的方法。但是,數(shù)理統(tǒng)計(jì)方法已經(jīng)發(fā)展的比較成熟,值得信賴。語料庫是經(jīng)過處理的大量領(lǐng)域文本的集合,通過對(duì)語料庫中的文本進(jìn)行統(tǒng)計(jì)分析,可以獲取該類文本的某些整體特征或規(guī)律。如果能夠充分地利用這些統(tǒng)計(jì)現(xiàn)象、規(guī)律,就可以構(gòu)造基于語料庫的統(tǒng)計(jì)學(xué)信息抽取算法?,F(xiàn)代語言學(xué)研究已經(jīng)形成兩個(gè)大的陣營(yíng),結(jié)構(gòu)主義和功能主義(或稱為理性主義和功能主義)。多年來結(jié)構(gòu)主義一直占上風(fēng),西方學(xué)者稱為“語言學(xué)主流”(mainstream linguistics)。功能主

51、義相比之下處于劣勢(shì)、守勢(shì)。兩陣對(duì)壘的天平近十幾年來似乎在發(fā)生變化。如果我們把新興學(xué)科如社會(huì)語言學(xué)、語用學(xué)、會(huì)話分析、語篇分析等都劃入功能主義(因?yàn)檫@些都是研究語言的各種功能的),那么功能主義大有取代結(jié)構(gòu)主義成為語言學(xué)主流之勢(shì)。語料庫和語料庫語言學(xué)可以說是兩陣對(duì)壘的天平上的一個(gè)舉足輕重的砝碼。統(tǒng)計(jì)的分析方法多種多樣,近期研究的熱點(diǎn)主要集中于由隨機(jī)過程發(fā)展而來的理論和方法。其中最重要的,是應(yīng)用隱馬爾科夫模型(HMM)進(jìn)行自然語言處理的方法。 3.2.2 隱馬爾科夫模型(HMM)簡(jiǎn)介l 馬爾科夫(Markov)過程的定義一般地,考慮只取有限個(gè)(或可數(shù)個(gè))值的隨機(jī)過程:若,就說過程在n時(shí)刻處于狀態(tài)i,

52、假設(shè)每當(dāng)過程處于狀態(tài)i,則過程在下一時(shí)刻處于狀態(tài)j的概率為一定值,即有:這樣的隨機(jī)過程稱為Markov鏈(給定過去的狀態(tài)和現(xiàn)在的狀態(tài),將來的狀態(tài)的條件分布獨(dú)立于過去的狀態(tài),只依賴于現(xiàn)在的狀態(tài)這就是Markov性)。一個(gè)馬爾科夫模型(MM)M就是一個(gè)Markov鏈加上一個(gè)轉(zhuǎn)移概率矩陣。顯然,它可被視為一個(gè)隨機(jī)有限狀態(tài)自動(dòng)機(jī),其每個(gè)狀態(tài)都代表一個(gè)可觀察的事件,之間的轉(zhuǎn)換都對(duì)應(yīng)一定的概率。l 隱馬爾科夫模型(HMM)的概念10對(duì)于馬爾科夫模型而言,每個(gè)狀態(tài)都是決定性地對(duì)應(yīng)于一個(gè)可觀察的物理事件,所以其狀態(tài)的輸出是有規(guī)律的。然而,這種模型限制條件過于嚴(yán)格,在許多實(shí)際問題中無法應(yīng)用。于是人們將這種模型加以推廣,提出了隱馬爾科夫模型(HMM)。隱馬爾科夫過程是一種雙重隨機(jī)過程。即:觀察事件是依存于狀態(tài)的概率函數(shù),這是在HMM中的一個(gè)基本隨機(jī)過程,另一個(gè)隨機(jī)過程為狀態(tài)轉(zhuǎn)移隨機(jī)過程,但這一過程是隱藏著的,不能直接觀察到,而只有通過生成觀察序列的另外一個(gè)概率過程才能間接地觀察到。對(duì)于隱馬爾科夫模型的應(yīng)用,在語音識(shí)別領(lǐng)域已經(jīng)取得了很好的成效,在信息抽取領(lǐng)域的應(yīng)用也正在不斷的嘗試和推廣中。l 隱馬爾科夫模型(HMM)的模型參數(shù)1. N:模型狀態(tài)數(shù)。2. M:每個(gè)狀態(tài)可能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論