網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第1頁
網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第2頁
網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第3頁
網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第4頁
網(wǎng)絡(luò)教育學(xué)院畢業(yè)論文范文_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn)學(xué) 生:學(xué) 號:專 業(yè)導(dǎo) 師: 學(xué)校代碼:上海交通大學(xué)網(wǎng)絡(luò)教育學(xué)院二四年十一月摘要本文介紹了一個基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(SBIES)的設(shè)計與實現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動分詞、自動標注和模板填充三個階段組成的簡化模型。簡單介紹了自動分詞的常用算法和自動標注中的標注規(guī)范。重點探討了模板填充的具體算法。文中分別討論了采用基于規(guī)則的結(jié)構(gòu)主義方法和基于語料庫概率統(tǒng)計的功能主義方法。著重討論了采用隱馬爾科夫模型進行信息抽取的具體算法。對模型的參數(shù)獲取算法作了討論,改進了Baum-Welch算法以

2、適應(yīng)信息抽取的應(yīng)用。對領(lǐng)域文本做了人工標注,通過計算機處理獲取所需的統(tǒng)計數(shù)據(jù)。利用統(tǒng)計數(shù)據(jù)完善HMM模型。關(guān)鍵詞:信息抽取,隱馬爾科夫模型,自然語言THE DESIGN AND IMPLEMENTATION OF CHINESE STOCK BULLETIN INFORMATION EXTRACTION SYSTEMAbstractThis article introduced the design and implementation of a Chinese IE Technology based stock bulletin information extraction system (

3、SBIES). The framework and deployment of the system were described. The structure of the Chinese information extraction model was discussed in detail. We proposed a simplified 3 tiers IE model consisting of automatic word segmentation, automatic annotation, and template filling. The algorithms used i

4、n automatic word segmentation and annotation were briefly introduced while algorithms used in template filling were focused on. In this article, the rule-based structuralism methods and the corpus-based statistical functionalism methods were discussed respectively. The Hidden Markov Model (HMM) was

5、introduced to extract information and the algorithm was explained at length. The algorithm for model parameter acquisition was also analyzed and the Baum-Welch iteration algorithm was modified. Domain texts were annotated manually to acquire statistical data via computation. With these data, HMM-bas

6、ed IE was implemented.KEY WORDS:information extraction, hidden Markov model, natural language目錄自動生成1 概述1.1 信息抽取技術(shù)(Information Extraction)信息技術(shù)高速發(fā)展的時代中,信息的獲取、處理和應(yīng)用已經(jīng)成為了經(jīng)濟、科學(xué)、軍事、文化等各個領(lǐng)域發(fā)展的關(guān)鍵活動。而其中,信息的獲取是三個步驟的開端,在信息技術(shù)領(lǐng)域中具有尤其重要的地位。近年來,隨著計算機和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,各領(lǐng)域可及信息量呈指數(shù)級增長。如何高效獲取有用信息成為有效利用信息的關(guān)鍵。信息抽?。↖nformation

7、 Extraction,簡稱IE)技術(shù),是自然語言處理領(lǐng)域中一種新興的技術(shù)。該技術(shù)通過抽取、過濾無關(guān)信息,使文本信息以用戶關(guān)心的形式得以再組織,實現(xiàn)高效重組。將結(jié)構(gòu)松散的自然語言信息,通過抽取轉(zhuǎn)為結(jié)構(gòu)嚴謹、語義明確的表現(xiàn)形式,利用計算機進行高效存儲并加以利用。 1.1.1 信息抽取技術(shù)的發(fā)展信息抽取技術(shù)的雛形最早出現(xiàn)在二十年前。下面介紹一些信息抽取發(fā)展上重要的研究成果以及國內(nèi)外的研究現(xiàn)狀7。l ATRANS 系統(tǒng)ATRANS 系統(tǒng)是早在1981年由Cowie研究出來關(guān)于動植物正規(guī)結(jié)構(gòu)描述數(shù)據(jù)庫的系統(tǒng)及其商用化產(chǎn)品。該系統(tǒng)采用了概念句子分析技術(shù),通過一些簡單的語言處理技術(shù)能夠完成限制在小規(guī)模,特

8、定專業(yè)領(lǐng)域的信息抽取任務(wù)。l FRUMP系統(tǒng)FRUMP系統(tǒng)由Gerald Dejong在80年代初實現(xiàn)。該系統(tǒng)把有限新聞網(wǎng)絡(luò)作為數(shù)據(jù)源,使用一些新聞故事的簡單腳本來對有限新聞網(wǎng)絡(luò)進行監(jiān)控。它采用關(guān)鍵字檢索、概念句子分析、腳本匹配等方法來尋找新聞故事。FRUMP系統(tǒng)是一個面向語義的系統(tǒng),采用了一個特定專業(yè)領(lǐng)域的事件描述腳本知識庫。l SCISOR系統(tǒng)80年代末,美國GE研究與開發(fā)中心的Lisa F.Rau等研制的SCISOR(System for Conceptual Information,Organization and Retrieval)系統(tǒng)所處理的對象是有關(guān)公司合并的新聞報導(dǎo)。SCIS

9、OR首先采用關(guān)鍵詞過濾和模式匹配的方法對待處理文獻進行主題分析,以便判定該報道的內(nèi)容是否與公司合并有關(guān);然后采用自底向上的分析器識別句子結(jié)構(gòu),生成概念表示;最后應(yīng)用自頂向下的預(yù)期驅(qū)動分析器提取預(yù)期內(nèi)容。l MUC(Message Understanding Conference)是一個ARPA資助的、為推動IE技術(shù)發(fā)展的一個重要的系列工程。有許多大學(xué)、研究所參加。1987年的MUC-1和1989年的MUC-2主要集中在從小規(guī)模的海軍信息文本中抽取相關(guān)的信息。1991年的MUC-3和1992年的MUC-4采用的文本主題和類型發(fā)生了變化,采用關(guān)于拉丁美洲國家恐怖事件通用主題的報紙和有線新聞文本作為

10、語料源,系統(tǒng)包括預(yù)定義好的信息模板和輔助抽取規(guī)則,基本任務(wù)是從在線文本中抽取有關(guān)信息填入預(yù)定義的模板中的屬性槽中。1993年的MUC-5的文本主題是關(guān)于合資企業(yè)的商業(yè)新聞以及微電子芯片的制作方面的新聞,涉及英語和日語文檔。所抽取的信息包括合資企業(yè)的合資者、合資公司的名稱、所有權(quán)和資本以及預(yù)期的活動,或者微電子芯片的制作活動的性質(zhì)和狀態(tài)等有關(guān)項。涉及到多語言和多領(lǐng)域的文檔,以便進行抽取信息的性能評價比較。1995年的MUC-6的信息抽取任務(wù)第一次涉及到用SGML語言所標記的文本中的名稱項(named entity)和指同項(coreference)的處理。除了場景模板(scenario)任務(wù)以外

11、,名稱項、指同項和模板元素(template element)信息抽取任務(wù)均與特定專業(yè)領(lǐng)域無關(guān)。測試的語料采用華爾街雜志中的文本。1998年的MUC-7是最近的一次信息理解會議。它的信息抽取任務(wù)涉及抽取文檔中的名稱項(人名、組織名和地點名);指同項;確定模板元素之間的關(guān)系,如地點關(guān)系、雇傭關(guān)系和生產(chǎn)關(guān)系等;抽取文檔中的事件。文檔包含多語種的新聞稿。訓(xùn)練用的文檔專業(yè)領(lǐng)域是關(guān)于飛機墜毀報道,而測試用的文檔專業(yè)領(lǐng)域是關(guān)于發(fā)射事件報道。l FASTUS系統(tǒng)FASTUS系統(tǒng)(Finite State Automaton Text Understanding System)是美國加里福尼亞斯坦福研究所人工

12、智能中心從1991年開始開發(fā)的一個基于多層、非確定有限狀態(tài)自動機模型的自然語言文本信息抽取系統(tǒng)。它共有六層轉(zhuǎn)換機制,即:切分標記層、預(yù)處理層、名稱項識別層、簡單短語識別層、復(fù)雜短語識別層、指同求解層。分解的語言處理使此系統(tǒng)能夠處理大量的與專業(yè)領(lǐng)域無關(guān)的句法結(jié)構(gòu),以致于與專業(yè)領(lǐng)域相關(guān)的語義和語用處理能被應(yīng)用到相當大部分的語言結(jié)構(gòu)上。正因為FASTUS系統(tǒng)具有這樣的特點,它已被成功地運用于許多應(yīng)用中。l TIPSTER計劃由美國國防部(DoD)、Defense Advanced Research Projects Agency(DARPA)和Central Intelligence Agency

13、(CIA)共同資助的TIPSTER計劃包括至少15個與工業(yè)和學(xué)術(shù)有關(guān)的項目。目的是改進文本處理的流行技術(shù)。TIPSTER的體系結(jié)構(gòu)使用一組通用的文本處理模塊已能滿足不同的文本處理應(yīng)用的需要。這些應(yīng)用主要是文本檢測(定位包含某一信息類型的文本)和信息抽?。ǘㄎ晃谋局械奶囟ㄐ畔ⅲ?。在TIPSTER研究的第一階段,參與者通過一些活動如MUC和TREC(Text Retrieval Conferences)對文本檢測和信息抽取所建立算法進行改進以及提高對評價這些改進的技術(shù)。在第二階段的研究中,TIPSTER參與者為了使技術(shù)組成構(gòu)件標準化,將注意力轉(zhuǎn)向軟件體系結(jié)構(gòu)的開發(fā)上。使各種所開發(fā)的工具具有即插即用

14、的性能,增加軟件的共享程度。在目前進行的第三階段的研究中,一種稱為ACP(Architecture Capabilities Platform)的平臺被開發(fā),它支持評價、擴展和探索進展中的TIPSTER體系結(jié)構(gòu)。ACP將采用CORBA(Common Object Request Broker Architecture)結(jié)構(gòu)為研究者提供魯棒及相配的TIPSTER組成構(gòu)件。它將支持TIPSTER體系結(jié)構(gòu)的擴展,以便與機器翻譯、語音和光學(xué)字符識別、圖象觀察、用戶界面構(gòu)件以及大規(guī)模信息系統(tǒng)相適應(yīng)。l SMES系統(tǒng)由德國人工智能研究中心語言技術(shù)實驗室(DFKI-LT)在Paradime 項目中所開發(fā)的S

15、MES(Saarbrcken Information Extraction System)系統(tǒng)是一個聯(lián)機的德語文擋信息抽取智能系統(tǒng)。文檔的專業(yè)領(lǐng)域包括通訊稿、經(jīng)濟報告和技術(shù)說明書。SMES系統(tǒng)擁有大量的語言知識資源(如電子詞典包括12萬條詞項以及可擴展性很強的專門語法)以及極其快速和魯棒的自然語言構(gòu)件。它還能利用機器學(xué)習機制使自身能為實現(xiàn)新功能得到訓(xùn)練和配置,并能適應(yīng)所需的信息數(shù)量和各種文檔長度。它被集成了圖形可視化技術(shù)、服務(wù)器體系結(jié)構(gòu)和英特網(wǎng)訪問技術(shù)。SMES作為一個有效的智能信息檢索的核心系統(tǒng)已經(jīng)成功地運用于科學(xué)和工業(yè)項目中。國內(nèi)對信息抽取的研究才剛剛起步。1998年月在東北大學(xué)學(xué)報(自然

16、科學(xué)版)發(fā)表了中文信息自動抽取一文,介紹了中文信息抽取的概念和對一些問題進行了初步的探索。國內(nèi)對涉及中文和其他語種的多語種信息抽取技術(shù)還未見報道。 1.1.2 信息抽取技術(shù)的特點信息抽取技術(shù)不同于傳統(tǒng)的信息檢索和自動摘要技術(shù)。 l 與信息檢索(Information Retrieval,簡稱IR)技術(shù)的區(qū)別與傳統(tǒng)的信息檢索技術(shù)比較,信息抽取技術(shù)有明顯的優(yōu)勢:信息檢索只是通過單純的匹配檢索得到相關(guān)的文檔,而并不真正理會文檔的實際內(nèi)容信息,文檔被等同于無意義的詞匯堆砌物;而信息抽取則是通過文本分析、語段分析、模板生成等過程抽取出有效的信息內(nèi)容。l 與自動摘要(Automatic Abstracti

17、on)技術(shù)的區(qū)別與傳統(tǒng)的自動文摘(Automatic Abstraction)技術(shù)比較,信息抽取技術(shù)的應(yīng)用前景更好:自動文摘產(chǎn)生的文摘往往質(zhì)量較低,而且容易產(chǎn)生不全面、不連貫和冗余多等等問題;而信息抽取則針對有價值的相關(guān)領(lǐng)域的文本進行結(jié)構(gòu)分析,其效率和質(zhì)量顯著提高,也更容易面向?qū)嶋H應(yīng)用。信息抽取技術(shù)具有其獨有的優(yōu)勢。利用淺層的自然語言處理技術(shù)(Shallow Natural Language Processing Technology,簡稱SNLPT),可以實現(xiàn)高效率的自然語言處理;將非結(jié)構(gòu)化的信息改變?yōu)槔谟嬎銠C存儲、處理的結(jié)構(gòu)化形式,有利于信息的重復(fù)高效利用。1.2 股市公告信息抽取系統(tǒng)(

18、SBIES) 1.2.1 應(yīng)用背景隨著我國改革開放的深入,市場經(jīng)濟的發(fā)展,證券市場的到了空前的繁榮。目前,在滬深兩地上市的公司數(shù)目已達幾千家。每天在兩地市場公布的股市公告少則幾十條,多則百余條,文本量較大。如果需要在若干年的公告紀錄中,迅速查找各種相關(guān)的公告,如采取傳統(tǒng)的關(guān)鍵字查找技術(shù),恐怕難以獲取很高效率。考慮到信息抽取技術(shù)能夠有效地從大量文本中過濾出用戶可能關(guān)心的信息,并進行結(jié)構(gòu)化存儲以便迅速查詢,希望基于信息抽取技術(shù)構(gòu)造股市公告信息抽取系統(tǒng)(Stock Bulletin Information Extraction System,簡稱SBIES)。由于股市公告文本具有以下一些特點,故認為

19、采取信息抽取技術(shù)能夠大幅度提高系統(tǒng)的性能表現(xiàn)。l 句法簡單。在一般股市公告中,通常以簡單而表意清楚陳述句式為主。幾乎不出現(xiàn)具有二義性的語句。這為自然語言處理和信息抽取提供了較好的先決條件。l 格式規(guī)整。常見的股市公告大致可以分為若干種,如:停牌公告、財務(wù)指數(shù)公告、董事會決議公告、配送股公告、新股上市公告、等等。每一種公告都有相對固定的組成要素,容易構(gòu)造模板加以描述。l 文本量大。僅以上海證券交易所為例,每天的臨時性公告文本量平均約20KB(以漢字記約1萬字)。一年累計的公告文本約有6MB(約300萬漢字)。對于計算機而言,這個數(shù)量可謂及其微小,而對于人工閱讀而言卻是一個繁復(fù)而耗時的工作。l 多

20、語種特性。股票市場使金融的重要組成部分,而在全球金融一體化的今天,世界各大證券市場之間的息息相關(guān)。而各國的證券市場在第一時間通常只能以一種或有限的幾種語言發(fā)布公告信息,這就給股市公告帶來了天生的多語種特性。設(shè)計一個股票文本的信息抽取系統(tǒng)具有較高的實用價值。股市公告的文本量龐大,但結(jié)構(gòu)固定、內(nèi)容單一,這正適合于計算機處理。信息抽取技術(shù)能夠自動的從龐大的文本庫中,動態(tài)地根據(jù)用戶關(guān)心的內(nèi)容提取文本蘊含的信息。同時,信息抽取能夠采用獨立于語種的方式存儲信息。這樣,用戶就不必關(guān)心原始文本的語種,可以用他(她)所熟悉的語種進行抽取請求,并得到以他(她)希望語種表示的信息抽取結(jié)果。 1.2.2 系統(tǒng)框架結(jié)構(gòu)

21、如上所述,該系統(tǒng)將基于信息抽取技術(shù)進行構(gòu)建。但是為了實現(xiàn)真正可用的應(yīng)用系統(tǒng),還需要其它一些模塊的進行協(xié)同工作。圖一種給出了本系統(tǒng)的基本框架結(jié)構(gòu)。原始文本采集用戶需求分析模塊信息抽取模塊獨立于語種的信息存儲自然語言生成(漢語)自然語言生成(英語)自然語言生成()控制數(shù)據(jù)系統(tǒng)結(jié)構(gòu)圖用戶其它結(jié)果表現(xiàn)形式結(jié)果表示圖一:SBIES結(jié)構(gòu)框架圖圖中,信息抽取模塊是整個系統(tǒng)的核心所在,他將根據(jù)用戶的需求將原始文本經(jīng)信息抽取后,以獨立于語種的方式存入信息庫中。對該模塊的設(shè)計與實現(xiàn),是本文的重點,將在后面進行詳細論述。用戶需求分析模塊,是能夠收集用戶需求,控制其它個模塊進行協(xié)同工作的智能人機界面。該模塊是系統(tǒng)的控

22、制中心,體現(xiàn)了以用戶需求為核心的設(shè)計思想。該模塊能為用戶提供一個智能化的易用界面。用戶只需以自然語言形式輸入詢問的問題,該模塊即可將詢問轉(zhuǎn)化為一系列的內(nèi)部指令,控制各模塊針對詢問做出響應(yīng)。結(jié)果表示模塊,是將查詢結(jié)果以用戶易于理解的方式進行表示的模塊。其中主要采用了自然語言生成(Natural Language Generation,簡稱NLG)技術(shù)。自然語言生成的主要目標是研究計算機如何根據(jù)信息在機器內(nèi)部的表達形式生成一段高質(zhì)量的自然語言文本。所謂高質(zhì)量是指生成的文本與人工文本比較接近,形式多樣,而且能適應(yīng)外部應(yīng)用的變化而做相應(yīng)的調(diào)整,整個系統(tǒng)的維護性好2。在本系統(tǒng)中,根據(jù)用戶詢問,從信息庫中

23、查詢獲取的結(jié)果,對用戶而言仍然是晦澀難懂的。因此需要一種較好的方式來將查詢結(jié)果反饋給用戶。由于信息抽取技術(shù)的結(jié)果能夠使信息以獨立于語種的方式進行存儲,如果結(jié)合相應(yīng)的不同語種的自然語言生成技術(shù),即可使根據(jù)用戶的要求,獲得以各種語言表述的查詢結(jié)構(gòu)。除了結(jié)合自然語言生成技術(shù),以自然語言形式生成結(jié)果外,還可以用圖表等形式輸出一些數(shù)據(jù)的統(tǒng)計結(jié)果,這也是表示模塊的功能之一。 1.2.3 系統(tǒng)分布結(jié)構(gòu)RobotINTERNET信息抽取信息庫XML數(shù)據(jù)庫預(yù)處理數(shù)據(jù)分析(可選)查詢分析查詢界面結(jié)果表示圖二給出了系統(tǒng)的整體分布圖。圖二:SBIES分布圖由圖可見,本系統(tǒng)直接掛接在Internet上,數(shù)據(jù)來源和用戶界

24、面主要都通過Web實現(xiàn)。由一個Robot程序自動通過Web進行股票公告文本的自動搜集,搜集的文本經(jīng)過預(yù)處理成為信息抽取模塊能夠接受的文本后,采用IE技術(shù)進行信息抽取,將結(jié)果存放入信息庫中。如果必要,可以對信息庫數(shù)據(jù)進行分析。用戶通過Internet訪問該系統(tǒng),查詢的結(jié)果也通過Internet返回給用戶。1.3 本文內(nèi)容簡介本文將詳細論述股市公告信息抽取系統(tǒng)中,信息抽取模塊的設(shè)計和實現(xiàn)。第一章,概述。簡介信息抽取技術(shù)的歷史和特點,與傳統(tǒng)的NLP技術(shù)做了優(yōu)缺點比較。提出SBIES的應(yīng)用背景,介紹整體結(jié)構(gòu)框架和模塊分布情況。第二章,信息抽取模塊的設(shè)計。提出SBIES中信息抽取模塊(也就是本系統(tǒng)的核心

25、模塊)的具體結(jié)構(gòu)。第三章,信息抽取的關(guān)鍵算法。這是本文的重點章節(jié)。具體探討了信息抽取模塊中信息抽取的幾種關(guān)鍵算法。比較了采用傳統(tǒng)語言學(xué)方法和統(tǒng)計學(xué)方法進行信息抽取的優(yōu)缺點和適用情況。第四章,實現(xiàn)與結(jié)果分析。將給出部分統(tǒng)計數(shù)據(jù)和結(jié)果總結(jié)。262 信息抽取模塊的設(shè)計2.1 模塊內(nèi)部結(jié)構(gòu) 2.1.1 串行化的模塊內(nèi)部結(jié)構(gòu)及其問題自然語言信息抽取是一系列淺層自然語言處理技術(shù)的結(jié)合體。為了將非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)化到結(jié)構(gòu)化的信息庫中,需要多種自然語言處理技術(shù)的協(xié)同工作。從某種意義上說,這些處理技術(shù)將以串行的方式運行,即前一個步驟的處理輸出結(jié)果將作為后一步驟的輸入。這種工作方式優(yōu)點是模塊內(nèi)部結(jié)構(gòu)簡單,便

26、于分級調(diào)試。根據(jù)傳統(tǒng)的自然語言處理技術(shù),漢語的信息抽取模塊中大致應(yīng)包含的處理步驟應(yīng)當包括了分詞處理、名稱分析、語法分析、語義分析、場景匹配、一致性分析、推理判斷、模板匹配填充,等等。但子過程的串聯(lián),帶來的問題是,各個階段處理的準確性高度依賴于前端輸出的正確性。例如:假設(shè)信息抽取全過程由n個串聯(lián)子過程組成,第k個子過程的查準率(或者查全率)分別為,則整個模塊的查準率(或者查全率)應(yīng)為:一般而言,目前自然語言處理技術(shù)中雖然存在眾多不同的算法,進行不同層次的分析處理,但其查準率和查全率卻大都不是很高17。通常在60%90%之間不等。當前MUC英文信息提取的各項指標(最好水平)大體上如下SAIC 99

27、 Chinchor 99:實體(Entities)識別90%,屬性識別(Attributes) 80% (TE任務(wù));事實識別(Facts) 70% (TR任務(wù));事件識別(Events)60% (ST任務(wù))。這些指標也自然地反映了自然語言處理在各個層次上的難度。在最近一屆MUC上表現(xiàn)最好的是SRA公司的系統(tǒng)Aone et al, 98,其所有3項IE指標都是最高的。其評測結(jié)果如下:RecallPrecisionF-ScoreTE86%87%86.76TR67%86%75.63ST42%65%50.79表一:MUC-7測評結(jié)果可以看出,在這樣的查準率和查全率下,整個模塊的性能表現(xiàn)將隨著串聯(lián)模塊

28、數(shù)量的增加迅速下降。顯然,過低的查準率和查全率,對于一個應(yīng)用系統(tǒng)是缺乏實用意義的。因此,要構(gòu)建可實用的信息抽取系統(tǒng),有兩個種途徑:其一,進一步探討各個處理模塊的更有效的處理方法,以達到更高的查準率和查全率;其二,改變信息抽取模型結(jié)構(gòu),根據(jù)應(yīng)用領(lǐng)域的特殊性,簡化串行結(jié)構(gòu)的長度,以提高模塊整體的性能表現(xiàn)。第一種途徑顯然是信息抽取技術(shù)逐步發(fā)展成熟的必然途徑,但是在短期內(nèi)恐怕還難以在這一方向上取得突破性的發(fā)展。而第二種途徑卻是目前可能做到的。因為不同的應(yīng)用領(lǐng)域具有不同的特性,結(jié)合這些特性可以有力地提高各個模塊的處理正確性,簡化信息抽取模型。以下將結(jié)合股市公告文本信息抽取的特點,討論信息抽取模型的簡化。

29、 2.1.2 簡化的高性能信息抽取模型在我們即將設(shè)計和實現(xiàn)的股市公告信息抽取系統(tǒng)中,希望通過縮短處理子過程的路徑長度,來提高信息抽取模型的性能。由于股市公告文本具有以下一些特性,所以簡化信息抽取模型是可能的。一方面,股市公告文本的主題分類比較明顯。一般而言,股市公告主要包括了停牌公告、財務(wù)指數(shù)公告、董事會決議公告、配送股公告、新股上市公告等若干種類型。每種公告文本類別論述的主題比較固定,利于用抽取模板加以描述。另一方面,各類公告文本的格式相對簡單、固定。通常很少出現(xiàn)句式的變化,陳述過程中句法規(guī)則也相對簡單。同時,簡化后的模型應(yīng)該能夠比原模型具有更好的性能表現(xiàn)。首先,縮短了處理過程路徑的長度,避

30、免了過長的串行系統(tǒng)結(jié)構(gòu)可能導(dǎo)致的低查準率和查全率。其次,合并簡化處理子過程,減少了處理所需的時間,提高了處理的效率。分詞處理詞典股市公告文本A類文本自動標注B類文本自動標注C類文本自動標注A類模板填充B類模板填充C類模板填充文本自動分類信息庫基于以上觀點,考慮將信息抽取中的某些步驟合并簡化。簡化后的高性能系統(tǒng)結(jié)構(gòu)如圖三所示。圖三:簡化后的信息抽取模型從圖中可以看出,處理過程的長度大大縮短了。一篇中文文檔一般只需經(jīng)過分詞處理、自動標注和模板填充三個步驟即可完成信息抽取。文本自動分類主要是根據(jù)關(guān)鍵詞進行的,由于股市公告文本的特殊性,其準確率可達到98%以上。而在正確分類的前提下,對已知文本類型進行

31、詞類自動標注和模板填充將變得更為容易,也具有更高的準確性。本章的余下部分,將對自動分詞和文本自動標注的實現(xiàn)做部分介紹。而模板填充算法的實現(xiàn),是本模塊的關(guān)鍵環(huán)節(jié),將在下一章中詳細論述。2.2 自動分詞近年來,國內(nèi)眾多研究機構(gòu)已經(jīng)在計算機漢語文本自動分詞方面進行了大量的研究,并取得了很多成就。二十年來,已經(jīng)提出了許多分詞算法。我們可以將現(xiàn)有的分詞算法分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。l 基于字符串匹配的分詞方法這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別

32、出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的幾種機械分詞方法如:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的詞數(shù)最?。?。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/

33、169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。由于分詞是一個智能決策過程,機械分詞方法無法解決分詞階段的兩大基本問題:歧義切分問題和未登錄詞識別問題。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。一種方法是改進掃描方式,稱為特征掃描或標志切分,優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、

34、調(diào)整,從而極大地提高切分的準確率。l 基于理解的分詞方法通常的分析系統(tǒng),都力圖在分詞階段消除所有歧義切分現(xiàn)象。而有些系統(tǒng)則在后續(xù)過程中來處理歧義切分問題,其分詞過程只是整個語言理解過程的一小部分。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞

35、系統(tǒng)還處在試驗階段。l 基于統(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息為: ,其中 是漢字X、Y的相鄰共現(xiàn)概率, 、 分別是X、Y在語料中出現(xiàn)的概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽

36、出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。這些算法各具特色,需結(jié)合具體的應(yīng)用領(lǐng)域進行綜合利用。已見諸報道的研究成果如:北京航空航天大學(xué)計算機系的CDWS分詞系統(tǒng),山西大學(xué)的現(xiàn)代漢語自動分詞及詞性標注系統(tǒng)1,北京大學(xué)計算語言學(xué)研究所的漢語切分與標注軟件,清華大學(xué)SEG分

37、詞系統(tǒng)和SEGTAG系統(tǒng),哈工大統(tǒng)計分詞系統(tǒng),杭州大學(xué)改進的MM分詞系統(tǒng),Microsoft Research漢語句法分析器中的自動分詞,等等15。這些切分與標注軟件大都通過大量跨領(lǐng)域文本的測試,具有較為穩(wěn)定的性能表現(xiàn)。但是在我們的特殊領(lǐng)域的應(yīng)用系統(tǒng)中,并不需要對任意領(lǐng)域文本都能進行準確切分的能力。不僅如此,在我們的應(yīng)用領(lǐng)域中,期望的文本切分效果也不同于普通文本。在股市公告中,普遍存在大量的術(shù)語和慣用語。我們當然希望不要將這些詞切碎,以利于更好的進行信息抽取。因此,設(shè)想構(gòu)造一個規(guī)模較小的,能夠較好識別領(lǐng)域詞匯的小型分詞子系統(tǒng)。在構(gòu)造自動分詞子系統(tǒng)時,以人工分詞得到得語料庫為標準。統(tǒng)計各類詞匯出

38、現(xiàn)的概率,構(gòu)造詞典。在分詞時處于性能考慮,采用了較簡單的最長匹配法分詞規(guī)則。經(jīng)過測試,自動分詞的結(jié)果完全能夠滿足信息抽取的需求。由于分詞模塊并非本系統(tǒng)的重點核心所在,故在此僅作簡短介紹。2.3 詞類自動標注在分詞的結(jié)果上,還應(yīng)該為各個詞匯標注上一些表明詞匯作用或?qū)傩缘男畔?,以便利用這些信息去填充模板。進行自動標注的方式和層次有多種。例如,可以對詞性進行標注,如名詞、動詞、形容詞、數(shù)量詞等等;也可以對識別的命名實體(Named Entity)、專有名詞(Proper Noun)等進行標注,主要取決于后續(xù)處理階段的需要。傳統(tǒng)的自然語言處理過程中,通常認為,對詞類的標注應(yīng)該從詞性的層次上開始,其他自

39、然語言的處理過程都將建筑在對詞性的分析之上。但是,我們認為在特定領(lǐng)域的信息抽取任務(wù)中,從詞性開始的詞類標注并非必要。由于信息抽取實際上是在給定語義框架(用模板描述)的基礎(chǔ)上,對語義框架中的關(guān)鍵部分(屬性槽Slot)以相應(yīng)內(nèi)容(填槽物Slot Filler)填充,所以可以期望直接標注出全部或部分的關(guān)鍵內(nèi)容。出于這種想法,我們希望能夠在此采用一個直接標注包含語義信息的詞類自動標注子系統(tǒng)。其中最重要的一項工作就是確定標注的詞類。從圖三可以看出,詞類自動標注是在文本分類之后才進行的,所以應(yīng)該根據(jù)不同的文本類別來進行不同的詞類標注。信息抽取的任務(wù)就是根據(jù)不同的文本類別,以合適的抽取模板加以刻畫。我們就可

40、以嘗試根據(jù)模板的屬性槽來定義詞類。例如,如下所示是一個描述停牌公告抽取模板的DTD文件: 其中定義了一系列元素(如停牌時間、時間跨度、股票名稱等等),這些都是需要抽取的模板屬性槽??紤]根據(jù)以上的模板,抽取以下的公告實例:“東盛科技”(600771)因刊登公告,9月11日上午停牌半天。將獲取如下XML文檔作為結(jié)果:東盛科技6007719月11日上午半天刊登公告此例充分體現(xiàn)了股市公告文本句法特殊,結(jié)構(gòu)固定的特點。對此例原文分詞后,我們可以期望獲取如下自動標注的XML文檔:“東盛科技”(600771)因刊登公告,9月11日上午停牌半天。其中punctuation標注標點,stockname標注股票名

41、稱,stockid標注股票id,date標注日期,length標注時間跨度,sw是模板特殊詞(Special Word)的縮寫,na標注的是本模板中無需關(guān)心的詞(Not Available)。在同課題組的許多老師和同學(xué)的共同努力和大力幫助下,我們對近年來上海證券交易所的公告進行了人工分詞和標注。通過計算機程序統(tǒng)計,構(gòu)造起了自動分詞和標注所需的小規(guī)模領(lǐng)域詞典,包含領(lǐng)域常用詞匯約1200詞,另外還有滬深兩地各類股票名稱和編號等。針對不同類型(模版)的文本,將具有不同的標注標準。對標注文本統(tǒng)計數(shù)目見表二。公告類別公告文本量(篇)百分比決議公告9315.7%財務(wù)指數(shù)公告41570.1%停牌公告213.

42、5%其它公告6310.6%共計592100%表二:人工標注文本量統(tǒng)計在進行了自動分詞和詞類標注的基礎(chǔ)上,下一章將詳細探討如何利用標注信息填充模板的具體算法。3 信息抽取的關(guān)鍵算法在前一章里,已經(jīng)將信息抽取的問題歸結(jié)為對文本的自動分詞、自動標注和模板填充三個步驟,并且已經(jīng)簡單介紹了前兩個步驟的設(shè)計和實現(xiàn)方法。本章中將要詳細論述的是模板的自動填充算法。將分別討論采用傳統(tǒng)語言學(xué)方法以及統(tǒng)計學(xué)方法進行的模板填充算法。3.1 傳統(tǒng)語言學(xué)方法 3.1.1 基于規(guī)則的信息抽取算法根據(jù)傳統(tǒng)的語言學(xué)方法,一般采用語法分析的方式來填充模板。語言學(xué)中語法分析的理論和方法眾多,各有優(yōu)缺點。比較著名的如Kaplan和B

43、resnan(1982)的詞匯功能語法(LFG)、Shieber(1984)的PART-II,Kay(1985)的功能合一語法(FUG),Gazdar(1985)的廣義短語結(jié)構(gòu)語法(GPSG),Polland和Sag(1987)的中心詞去動的短語結(jié)構(gòu)語法(H-DPSG)等等38913。上述的各種分析方法從理論上,對自然語言本質(zhì)性問題進行了較深入的研究。然而在一個中文的信息抽取的實用系統(tǒng)中充分應(yīng)用這些分析方法,卻存在著困難。首先,信息抽取技術(shù)應(yīng)當避免采用深層自然語言處理技術(shù)(DNLPT)。這一方面是出于性能考慮,信息抽取系統(tǒng)往往要對大量文本進行高效率的處理,另一方面則是考慮到信息抽取系統(tǒng)往往不需

44、要完全明晰一片文檔的內(nèi)容,而只需直起大概即可。所以采用淺層自然語言處理技術(shù)(SNLPT)將使系統(tǒng)具有更好的性能表現(xiàn)。其次,中文語法分析存在著特殊的復(fù)雜性。例如,漢語中存在著多動詞連用問題、詞性歧義問題、句子的詞序問題、漢語特殊模式(“把”、“被”字句)問題、漢語語義歧義問題,等等。如果逐層分析語法關(guān)系,可能相當困難。此外,上述分析方法應(yīng)用于實際時,往往難以有很高的準確率。而這對于一個實用系統(tǒng)而言,卻往往是致命的缺陷。因此,可以采用較簡單的語法規(guī)則,來抽取相關(guān)的基本語義信息。例如14,制定以下若干規(guī)則,來對股市停牌公告進行抽取。(1)S- NS C comma D v len fstp(2)N-

45、 sn (3)N- sn sid(4)NS- N (5)NS- NS cae N(6)C- conj un (7)C- C un(8)D- date (9)D- year date其中,S表示整個停牌公告;N表示單個股票,可以由股票名或連同其代碼構(gòu)成;NS是股票的集合,可以有一系列任意個連續(xù)單個股票用頓號串接構(gòu)成;C表示停牌原因,是由關(guān)鍵連詞“因”或“因為”引起的原因狀語從句;D表示日期,既可是單獨的月日格式,也可是年月日格式;sn是股票名稱;sid是股票代碼;date是月日格式日期;year是年份;conj是關(guān)鍵連詞“因”或“因為”;len是時間跨度;cae是頓號;comma是逗號;fstp

46、是句號;v是中心動詞“停牌”;un是其它與本模板信息抽取無關(guān)的詞匯。不難驗證,該文法可以無沖突地采用SLR分析法進行分析,參見表三。ACTIONGOTOSnSidConjvlendateYearCaeCommaFstpun$SNNSCD0S41231ACC2R4R53S6S754S8R3R35S9S106S117S4128R4R49S14S151310R8R811R7R712R6R613S1614R915S1716S1817R1018S1919R2表三:LR分析表利用以上分析表,我們實現(xiàn)了機與簡單語法規(guī)則的信息抽取。由于在根據(jù)分析表分析過程中,自然地構(gòu)造起了一棵語法分析樹,圖四中給出一個例句的

47、分析樹。四砂股份600783、上海醫(yī)藥600849因未刊登股東大會決議公告,9月13日停牌一天。fstpC 四砂股份因刊登NSCcommavlenNSCununsndate股東大會決議公告,9月13日DSS停牌一天。conjun未caeNsn、sidN上海醫(yī)藥600849sid600783圖四:分析樹示例在獲取分析樹的結(jié)果上,可以通過對樹的遍歷來填充模板。此步驟顯然比較簡單,在此不再贅述。 3.1.2 基于規(guī)則信息抽取面臨的嚴峻問題對于停牌公告這樣語法極其簡單的公告而言,采用簡單的分析規(guī)則已經(jīng)足以完成信息抽取任務(wù)。但是,對于其它結(jié)構(gòu)較為復(fù)雜的公告文本,要構(gòu)造這樣一套規(guī)則卻并不永遠是件容易的事。

48、隨著公告文本的復(fù)雜化,規(guī)則數(shù)目將大大增加。而隨著規(guī)則的增加,如果仍然采用LR分析法分析,分析表的規(guī)模(行數(shù))將以指數(shù)級速度擴充。不僅如此,分析表中還很容易出現(xiàn)沖突項,這一方面是由于自然語言中普遍存在著文法的二義性,另一方面是由于自然語言中存在著很大的自由性,語言意義的表達并非完全受限于固定的文法規(guī)則,這也是自然語言和形式文法的最大區(qū)別。對于這個問題,有兩條解決途徑。其一,對LR分析法進行擴充。傳統(tǒng)的LR分析法通常只有移進(Shift)和歸約(Reduce)兩個動作。如果在某些情況下添加若干特殊擴充分析動做,將對增強分析能力有所幫助1416。在此方面的研究結(jié)果表明,擴充的LR分析法的確能夠加強分

49、析能力,尤其是加強了處理自然語言過程中的魯棒性。但是這樣的擴充畢竟還是基于原有LR分析法進行的,擴充的幅度有限。其二,采用非基于規(guī)則的分析方法?;谝?guī)則的方法在處理自然語言時遇到的困難,是分析形式文法時的難度無法相比的。改變分析方法可以從根本上突破形式文法的局限性。下一節(jié)就將討論采用統(tǒng)計方法來設(shè)計信息抽取模塊中的模板匹配算法。3.2 統(tǒng)計學(xué)方法 3.2.1 基于語料庫的統(tǒng)計語言學(xué)方法近年來,基于語料庫分析的自然語言處理方法受到了越來越多的計算語言學(xué)家的重視和應(yīng)用。在規(guī)則方法即理性主義方法屢受挫折的事實面前,語料庫語言學(xué)的發(fā)展促使計算語言學(xué)家們越來越重視數(shù)理統(tǒng)計在語言學(xué)中的應(yīng)用。應(yīng)該說,統(tǒng)計方法

50、并不是包治百病的良藥,而是人類由于認識能力和認識范圍的有限迫不得已采用的方法11。傳統(tǒng)語言學(xué)給我們積累了豐富的語言實例,但對于語言規(guī)律的把握,人類至今仍未找到最好的方法。但是,數(shù)理統(tǒng)計方法已經(jīng)發(fā)展的比較成熟,值得信賴。語料庫是經(jīng)過處理的大量領(lǐng)域文本的集合,通過對語料庫中的文本進行統(tǒng)計分析,可以獲取該類文本的某些整體特征或規(guī)律。如果能夠充分地利用這些統(tǒng)計現(xiàn)象、規(guī)律,就可以構(gòu)造基于語料庫的統(tǒng)計學(xué)信息抽取算法?,F(xiàn)代語言學(xué)研究已經(jīng)形成兩個大的陣營,結(jié)構(gòu)主義和功能主義(或稱為理性主義和功能主義)。多年來結(jié)構(gòu)主義一直占上風,西方學(xué)者稱為“語言學(xué)主流”(mainstream linguistics)。功能主

51、義相比之下處于劣勢、守勢。兩陣對壘的天平近十幾年來似乎在發(fā)生變化。如果我們把新興學(xué)科如社會語言學(xué)、語用學(xué)、會話分析、語篇分析等都劃入功能主義(因為這些都是研究語言的各種功能的),那么功能主義大有取代結(jié)構(gòu)主義成為語言學(xué)主流之勢。語料庫和語料庫語言學(xué)可以說是兩陣對壘的天平上的一個舉足輕重的砝碼。統(tǒng)計的分析方法多種多樣,近期研究的熱點主要集中于由隨機過程發(fā)展而來的理論和方法。其中最重要的,是應(yīng)用隱馬爾科夫模型(HMM)進行自然語言處理的方法。 3.2.2 隱馬爾科夫模型(HMM)簡介l 馬爾科夫(Markov)過程的定義一般地,考慮只取有限個(或可數(shù)個)值的隨機過程:若,就說過程在n時刻處于狀態(tài)i,

52、假設(shè)每當過程處于狀態(tài)i,則過程在下一時刻處于狀態(tài)j的概率為一定值,即有:這樣的隨機過程稱為Markov鏈(給定過去的狀態(tài)和現(xiàn)在的狀態(tài),將來的狀態(tài)的條件分布獨立于過去的狀態(tài),只依賴于現(xiàn)在的狀態(tài)這就是Markov性)。一個馬爾科夫模型(MM)M就是一個Markov鏈加上一個轉(zhuǎn)移概率矩陣。顯然,它可被視為一個隨機有限狀態(tài)自動機,其每個狀態(tài)都代表一個可觀察的事件,之間的轉(zhuǎn)換都對應(yīng)一定的概率。l 隱馬爾科夫模型(HMM)的概念10對于馬爾科夫模型而言,每個狀態(tài)都是決定性地對應(yīng)于一個可觀察的物理事件,所以其狀態(tài)的輸出是有規(guī)律的。然而,這種模型限制條件過于嚴格,在許多實際問題中無法應(yīng)用。于是人們將這種模型加以推廣,提出了隱馬爾科夫模型(HMM)。隱馬爾科夫過程是一種雙重隨機過程。即:觀察事件是依存于狀態(tài)的概率函數(shù),這是在HMM中的一個基本隨機過程,另一個隨機過程為狀態(tài)轉(zhuǎn)移隨機過程,但這一過程是隱藏著的,不能直接觀察到,而只有通過生成觀察序列的另外一個概率過程才能間接地觀察到。對于隱馬爾科夫模型的應(yīng)用,在語音識別領(lǐng)域已經(jīng)取得了很好的成效,在信息抽取領(lǐng)域的應(yīng)用也正在不斷的嘗試和推廣中。l 隱馬爾科夫模型(HMM)的模型參數(shù)1. N:模型狀態(tài)數(shù)。2. M:每個狀態(tài)可能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論