初等數(shù)學(xué)問題題意理解關(guān)鍵技術(shù)研究及其應(yīng)用_第1頁
初等數(shù)學(xué)問題題意理解關(guān)鍵技術(shù)研究及其應(yīng)用_第2頁
初等數(shù)學(xué)問題題意理解關(guān)鍵技術(shù)研究及其應(yīng)用_第3頁
初等數(shù)學(xué)問題題意理解關(guān)鍵技術(shù)研究及其應(yīng)用_第4頁
初等數(shù)學(xué)問題題意理解關(guān)鍵技術(shù)研究及其應(yīng)用_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、初等數(shù)學(xué)問題題意理解關(guān)鍵技術(shù)研究及其應(yīng)用摘要近年來,隨著計(jì)算機(jī)信息處理和加工技術(shù)的迅速發(fā)展,基于自動(dòng)求解和自動(dòng)輔 導(dǎo)的智能教學(xué)系統(tǒng)得到了越來越多的關(guān)注。實(shí)現(xiàn)計(jì)算機(jī)的自動(dòng)求解和智能輔導(dǎo)等 功能,其中一個(gè)重要的前提是如何讓計(jì)算機(jī)理解以文本形式輸入的數(shù)學(xué)語言,將其 轉(zhuǎn)換為計(jì)算機(jī)能夠進(jìn)行推理的知識(shí)表示形式。因此,針對初等數(shù)學(xué)問題題意理解的 研究具有十分重要的意義。本文對初等數(shù)學(xué)題意理解的研究工作主要分為兩個(gè)部分:一般數(shù)學(xué)語言理解 方法的研究及應(yīng)用題題意理解方法的研究。在一般初等數(shù)學(xué)語言的理解中,由于數(shù)學(xué)語言具有簡練性、邏輯性、通用性, 初等數(shù)學(xué)知識(shí)體系已確定。基于以上特點(diǎn),使用基于謂詞邏輯的知識(shí)表示方

2、法和基 于句模的題意理解方法。使用機(jī)器學(xué)習(xí)中的方法和理論,在人工標(biāo)注的語料庫基礎(chǔ) 上,訓(xùn)練數(shù)學(xué)命名實(shí)體識(shí)別模型。再經(jīng)過同義詞的歸一化處理后,把一個(gè)句子轉(zhuǎn)換 為以詞為基本單位,并且包含具有特殊意義的符號(hào)序列。基于有限自動(dòng)機(jī)的原理實(shí) 現(xiàn)句模的匹配。句模匹配與數(shù)學(xué)語句成功匹配后,生成正確的知識(shí)表示形式,完成 對一般性數(shù)學(xué)語言的理解。初等數(shù)學(xué)應(yīng)用題涉及的類型很多,本文選用概率應(yīng)用題作為研究對象。通過分 析概率題的語言特點(diǎn)和信息構(gòu)成,在Kintsch提出的表征模型上進(jìn)行擴(kuò)展,提出了 一套適合初等數(shù)學(xué)概率題的表征框架模型。該模型能夠有效表示概率題中的對象、 對象之間關(guān)系和求解問題。借鑒在一般數(shù)學(xué)題中使用的

3、句模題意理解方法,并在其 基礎(chǔ)上增加詞性和動(dòng)詞分類等信息,進(jìn)一步抽象數(shù)學(xué)概率題語言。為句模添加語義 信息后,實(shí)現(xiàn)了一套基于語義句模的概率題理解的理論和方法。在對大量的一般初等數(shù)學(xué)問題的測試和分析中,基于句模的題意理解方式能 夠有效理解句模庫已覆蓋句型。主要原因是一般數(shù)學(xué)問題中使用的語句較為廣泛 和通用,在此基礎(chǔ)上編寫的句模具有一定的健壯性。對概率相關(guān)的應(yīng)用題進(jìn)行測試 和分析。在對句模已經(jīng)覆蓋的情況下,理解正確率較高。雖然健壯性不強(qiáng),但是通 過對句模進(jìn)一步增加和完善能一定程度上解決這個(gè)問題。目錄 TOC o 1-5 h z HYPERLINK l bookmark34 o Current Doc

4、ument h 第一章緒論1 HYPERLINK l bookmark37 o Current Document h 1.1研究工作的背景和意義1 HYPERLINK l bookmark40 o Current Document h 1.2國內(nèi)外研究現(xiàn)狀2 HYPERLINK l bookmark43 o Current Document h 1.2.1自然語言處理的國內(nèi)外研究現(xiàn)狀2 HYPERLINK l bookmark46 o Current Document h 1.2.2知識(shí)表示的國內(nèi)外研究現(xiàn)狀3 HYPERLINK l bookmark52 o Current Document

5、h 1.2.3智能教學(xué)系統(tǒng)的國內(nèi)外研究現(xiàn)狀4 HYPERLINK l bookmark55 o Current Document h 1.3本文的主要內(nèi)容6 HYPERLINK l bookmark58 o Current Document h 第二章初等數(shù)學(xué)自然語言理解的理論基礎(chǔ)7 HYPERLINK l bookmark61 o Current Document h 2.1自然語言處理方法7 HYPERLINK l bookmark64 o Current Document h 2.1.1自然語言處理基本處理方法7 HYPERLINK l bookmark71 o Current Docu

6、ment h 2.1.2字標(biāo)注8 HYPERLINK l bookmark76 o Current Document h 2.1.3中文自然語言處理工具82.2語言模型102.2.1隱馬爾可夫模型10 HYPERLINK l bookmark94 o Current Document h 2.2.2條件隨機(jī)場模型11 HYPERLINK l bookmark97 o Current Document h 2.3知識(shí)表示13 HYPERLINK l bookmark100 o Current Document h 2.3.1產(chǎn)生式表示法13 HYPERLINK l bookmark109 o C

7、urrent Document h 2.3.2邏輯謂詞表示法14 HYPERLINK l bookmark115 o Current Document h 2.3.3框架表示法14 HYPERLINK l bookmark121 o Current Document h 2.4本章小結(jié)15 HYPERLINK l bookmark124 o Current Document h 第三章一般初等數(shù)學(xué)問題題意理解研究16 HYPERLINK l bookmark127 o Current Document h 3.1初等數(shù)學(xué)語言的特點(diǎn)16 HYPERLINK l bookmark133 o Cur

8、rent Document h 3.2初等數(shù)學(xué)的知識(shí)表示方式研究17 HYPERLINK l bookmark142 o Current Document h 3.3基于句模的題意理解方法19 HYPERLINK l bookmark145 o Current Document h 3.3.1初等數(shù)學(xué)語言預(yù)處理方法19 HYPERLINK l bookmark158 o Current Document h 3.3.2句子模板24 HYPERLINK l bookmark165 o Current Document h 3.4謂詞邏輯的生成27 HYPERLINK l bookmark168

9、o Current Document h 3.4.1數(shù)學(xué)自然語言處理28 HYPERLINK l bookmark174 o Current Document h 3.4.2句模匹配28 HYPERLINK l bookmark180 o Current Document h 3.4.3知識(shí)表示生成29 HYPERLINK l bookmark183 o Current Document h 3.5本章小節(jié)29 HYPERLINK l bookmark186 o Current Document h 第四章初等數(shù)學(xué)概率應(yīng)用題題意理解研究31 HYPERLINK l bookmark189 o

10、Current Document h 4.1初等數(shù)學(xué)應(yīng)用題的特點(diǎn)及信息構(gòu)成31 HYPERLINK l bookmark192 o Current Document h 4.1.1語言特點(diǎn)31 HYPERLINK l bookmark199 o Current Document h 4.1.2信息構(gòu)成32 HYPERLINK l bookmark202 o Current Document h 4.2初等數(shù)學(xué)概率應(yīng)用題的模型研究32 HYPERLINK l bookmark205 o Current Document h 4.2.1 Knitsch的應(yīng)用題表征模型33 HYPERLINK l

11、bookmark208 o Current Document h 4.2.2數(shù)學(xué)概率題的表征模型34 HYPERLINK l bookmark217 o Current Document h 4.3基于語義句模理解38 HYPERLINK l bookmark220 o Current Document h 4.3.1概率應(yīng)用題語言預(yù)處理方法及步驟38 HYPERLINK l bookmark229 o Current Document h 4.3.2語義句模構(gòu)建原則40 HYPERLINK l bookmark236 o Current Document h 4.3.3概率應(yīng)用題語義句模及其

12、分類41 HYPERLINK l bookmark246 o Current Document h 4.4框架表征的生成44 HYPERLINK l bookmark249 o Current Document h 4.4.1語義句模匹配45 HYPERLINK l bookmark252 o Current Document h 4.4.2框架生成和填充46 HYPERLINK l bookmark258 o Current Document h 4.4.3指代的處理47 HYPERLINK l bookmark268 o Current Document h 4.5本章小節(jié)51 HYPER

13、LINK l bookmark271 o Current Document h 第五章初等數(shù)學(xué)問題題意理解應(yīng)用52 HYPERLINK l bookmark274 o Current Document h 5.1初等數(shù)學(xué)問題題意理解的系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)52 HYPERLINK l bookmark277 o Current Document h 5.1.1總體功能設(shè)計(jì)52 HYPERLINK l bookmark280 o Current Document h 5.1.2各模塊詳細(xì)設(shè)計(jì)53 HYPERLINK l bookmark288 o Current Document h 5.2一般初等數(shù)學(xué)

14、問題題意理解58 HYPERLINK l bookmark291 o Current Document h 5.2.1初等數(shù)學(xué)問題題意理解測試58 HYPERLINK l bookmark297 o Current Document h 5.2.2初等數(shù)學(xué)函數(shù)題題意理解測試61 HYPERLINK l bookmark303 o Current Document h 5.3初等數(shù)學(xué)概率題題意理解測試64 HYPERLINK l bookmark306 o Current Document h 5.4本章小節(jié)67 HYPERLINK l bookmark309 o Current Documen

15、t h 第六章總結(jié)與展望68 HYPERLINK l bookmark312 o Current Document h 6.1本文的主要研究結(jié)果和創(chuàng)新點(diǎn)68 HYPERLINK l bookmark319 o Current Document h 6.2研究的不足和展望68 HYPERLINK l bookmark328 o Current Document h 致謝70 HYPERLINK l bookmark331 o Current Document h 參考文獻(xiàn)71 HYPERLINK l bookmark381 o Current Document h 攻讀碩士學(xué)位期間取得的成果74

16、第一章緒論1.1研究工作的背景和意義教育問題一直都受到全世界各個(gè)國家關(guān)注,培養(yǎng)學(xué)生解決數(shù)學(xué)問題的能力更 是受到教育界的重視。關(guān)國課程標(biāo)準(zhǔn)從1989年開始,規(guī)定的學(xué)校教學(xué)五個(gè)標(biāo)準(zhǔn)之 一就是“能夠解決數(shù)學(xué)問題;日本數(shù)學(xué)教學(xué)大綱(1994年)把以“問題解決”為 特征的數(shù)學(xué)課列為大綱內(nèi)容;全日制義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)于2000年正式頒 布,該標(biāo)準(zhǔn)也是首次將數(shù)學(xué)思考能力作為對學(xué)生的重點(diǎn)培養(yǎng)目標(biāo)。許多研究者已經(jīng)從數(shù)學(xué)教育學(xué)、認(rèn)知心理學(xué)、計(jì)算機(jī)科學(xué)等不同領(lǐng)域?qū)?學(xué)生在問題的求解過程囹、問題的解決策略和影響問題解決的障礙因素等方面 進(jìn)行了研究,為如何培養(yǎng)學(xué)生并提高他們的解題能力提供了理論依據(jù)。同時(shí)在這些 研究中

17、也發(fā)現(xiàn)學(xué)生在解決問題過程中存在的一些不利因素。尤其當(dāng)學(xué)生身邊沒有 家長或老師進(jìn)行輔導(dǎo)的時(shí)候,問題就顯得更加嚴(yán)重。在我國當(dāng)前的教育模式和教學(xué) 環(huán)境中,在課堂上依然是一名教師對多名學(xué)生進(jìn)行教學(xué)。教師不可能針對課堂上的 每個(gè)學(xué)生進(jìn)行專業(yè)輔導(dǎo),許多學(xué)生存在的問題都不能得到針對性的解決。這樣就導(dǎo) 致了課外輔導(dǎo)這種特殊教育形態(tài)的產(chǎn)生。課外輔導(dǎo)雖然在一定程度上能滿足對學(xué) 生的個(gè)性化輔導(dǎo),但課外輔導(dǎo)昂貴的費(fèi)用卻不是每個(gè)學(xué)生都能承受的。加之我國教 育資源的分布問題,使得地理和經(jīng)濟(jì)成為影響學(xué)生接受教育的重要因素之一。自 “互聯(lián)網(wǎng)+”概念被提出以后,出現(xiàn)了一些互聯(lián)網(wǎng)和教育結(jié)合的教學(xué)輔助軟件和教 學(xué)輔助軟件,并得到學(xué)

18、生和老師的廣泛使用。單從這一方面就可以看出教育雙方對 個(gè)性化智能教學(xué)輔助系統(tǒng)的需求。通過上面對我國教育存在問題的分析,一個(gè)智能化、個(gè)性化的教學(xué)輔助系統(tǒng)應(yīng) 解決以下問題:(1)對學(xué)生能進(jìn)行智能化和個(gè)性化的輔導(dǎo);(2)不受地域限制;(3) 絕大多數(shù)學(xué)生能夠接受的費(fèi)用。雖然近幾年出現(xiàn)了許多針對學(xué)生的教學(xué)輔助軟件, 但是都還不能滿足上述條件,存在各種各樣的問題:有些教輔系統(tǒng)只是提供一些教 學(xué)視頻資源,這種形式只不過將受教育的地點(diǎn)從教室里面搬到了網(wǎng)上,并不能針對 學(xué)生進(jìn)行有效的互動(dòng)和個(gè)性化的學(xué)習(xí);雖然目前已有能夠?qū)W(xué)生作題答案進(jìn)行判 卷和分析的教輔系統(tǒng),但前提是題目已事先存儲(chǔ)或者在判卷過程中過多加入人工

19、 處理環(huán)節(jié),并不能自動(dòng)求解用自然語言描述的題目。要解決以上問題,就需要有一 個(gè)能自動(dòng)解題的教育輔助系統(tǒng)。要讓計(jì)算機(jī)學(xué)會(huì)怎么樣去自動(dòng)解題,其中的難點(diǎn)就 是怎么讓計(jì)算機(jī)去理解用數(shù)學(xué)問題的題意。自然語言處理是一個(gè)龐大而復(fù)雜并且涉及計(jì)算機(jī)科學(xué)、語言學(xué)、邏輯學(xué)等領(lǐng)域 的工程刀。目前自然語言處理在某些特定領(lǐng)域取得很好的效果。數(shù)學(xué)領(lǐng)域中的自然 語言處理是面向數(shù)學(xué)特性的語言處理方法,數(shù)學(xué)語言的特性使得對數(shù)學(xué)語言的處 理會(huì)有所不同。在進(jìn)行數(shù)學(xué)自然語言處理的時(shí)候,首先要考慮怎樣才算計(jì)算機(jī)理解 了數(shù)學(xué)題意。這種理解并不是自然語言處理中句法或語法層面的理解,而是根據(jù)理 解后的表示形式,計(jì)算機(jī)能夠?qū)ζ溥M(jìn)行推理和演算等。

20、其次,要考慮怎么去理解數(shù) 學(xué)題意。目前自動(dòng)解題系統(tǒng)的研究大多都是針對小學(xué)應(yīng)用題或代數(shù)應(yīng)用題等特定 題型。對初等數(shù)學(xué)的自動(dòng)解題系統(tǒng)卻很少有成功的案例,原因有:(1)初等數(shù)學(xué)涉 及的知識(shí)龐大。按照初等數(shù)學(xué)對知識(shí)進(jìn)行分類,分為三類:代數(shù)問題、幾何問題、 函數(shù)問題,每一類都是一個(gè)龐大的知識(shí)體系。從小學(xué)的基本運(yùn)算轉(zhuǎn)變?yōu)槌醯葦?shù)學(xué)中 的邏輯推理不僅僅是量的增加更是質(zhì)的飛躍;(2)初等數(shù)學(xué)語言更為復(fù)雜:一方面 是因?yàn)橹R(shí)量的擴(kuò)大,使得在初等數(shù)學(xué)中所涉及的知識(shí)更為豐富。另一方面在語句 結(jié)構(gòu)上由于解答初等數(shù)學(xué)題的學(xué)生在語言理解能力上比小學(xué)生更好,從而在描述 問題上句式和句型可以更豐富。對初等數(shù)學(xué)問題題意的理解的關(guān)

21、鍵就是怎么去處 理上述這些問題。數(shù)學(xué)題意理解是所有利用計(jì)算機(jī)在數(shù)學(xué)領(lǐng)域方面應(yīng)用的前提和基礎(chǔ)。只有把 數(shù)學(xué)自然語言轉(zhuǎn)換為計(jì)算機(jī)能夠進(jìn)行識(shí)別和推理的知識(shí)表示,才能實(shí)現(xiàn)計(jì)算機(jī)對 數(shù)學(xué)題目的自動(dòng)判卷或者自動(dòng)解題等功能。因此,如何自然語言處理技術(shù)實(shí)現(xiàn)對初 等數(shù)學(xué)問題題意的理解是一個(gè)十分有意義的研究目標(biāo)。1.2國內(nèi)外研究現(xiàn)狀本節(jié)從自然語言處理、知識(shí)表示和智能教輔系統(tǒng)這三個(gè)領(lǐng)域介紹國內(nèi)外研究 現(xiàn)狀。1.2.1自然語言處理的國內(nèi)外研究現(xiàn)狀1956年在達(dá)特茅斯會(huì)議上,人工智能這一術(shù)語被研究者首次提出,目的是為 了讓機(jī)器能夠完成更多的智力工作。其中一個(gè)重要的任務(wù)就是使計(jì)算機(jī)與人類的 交流更加自然和高效,而自然語言

22、處理就是為解決這個(gè)問題而產(chǎn)生的關(guān)鍵技術(shù)。在 研究初期,人們研究的自然語言處理方法是基于規(guī)則的理性主義方法,并取得了一 些成果。近年來隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展以及計(jì)算機(jī)硬件的不斷更新,產(chǎn)生了許 多基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的自然語言處理技術(shù)和方法?;谝?guī)則的理性主義是最先被研究者提出的一種自然語言處理方法,基于此 種方法發(fā)展出了有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)、遞歸轉(zhuǎn)移網(wǎng)絡(luò)、短語結(jié)構(gòu)語法、一階謂詞演算、 語義網(wǎng)絡(luò)等技術(shù)罔。基于規(guī)則的方法表達(dá)清晰、描述準(zhǔn)確,但往往需要各種專家配 合進(jìn)行知識(shí)秘籍研究,并且研究工作強(qiáng)度大,效果卻往往沒有基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義 好。基于規(guī)則的理性主義有普適性很強(qiáng)的優(yōu)點(diǎn),在某些特殊專業(yè)領(lǐng)域的應(yīng)用中的

23、表 現(xiàn)確是差強(qiáng)人意的。基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法是借鑒于概率與統(tǒng)計(jì)來建立的概率模型罔。隨著計(jì)算 機(jī)的計(jì)算能力和存儲(chǔ)能力等技術(shù)的快速發(fā)展以及機(jī)器學(xué)習(xí)的深入研究和應(yīng)用,使 得以統(tǒng)計(jì)機(jī)器學(xué)習(xí)為基礎(chǔ)的自然語言處理方法取得了不錯(cuò)的成果9】。但這種方法效 果的好與壞都過度依賴語料摩的規(guī)模與質(zhì)量U。語料庫的標(biāo)注往往沒有一個(gè)理性 的標(biāo)準(zhǔn)來指導(dǎo):如果語料庫標(biāo)注類別劃分標(biāo)準(zhǔn)過于粗,則沒有對語言進(jìn)行全面、細(xì) 致的描述;如果類別劃分標(biāo)準(zhǔn)過細(xì),則需要標(biāo)注的信息過于復(fù)雜和龐大,不僅標(biāo)注 效率大大降低,還會(huì)導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)的稀疏問題,在此基礎(chǔ)訓(xùn)練出來的模型健壯性差。如何準(zhǔn)確理解自然語言的語義是自然語言處理技術(shù)中的另外一個(gè)難題。目前

24、 常用的自然語言語義分析有兩種:一種是基于規(guī)則的語義分析方法,另一種是基于 統(tǒng)計(jì)學(xué)的語義分析方法UH。這兩種方法都在自然語言語義的推導(dǎo)上有一定的研究 成果,但又各自存在一定的局限性:基于規(guī)則的方法無法全面覆蓋,無法處理不確 定事件,并且隨著規(guī)則的擴(kuò)大,規(guī)則之間的相容性也存在缺陷和限制;而基于統(tǒng)計(jì) 學(xué)的方法則需要大規(guī)模的語料庫支持,在前文的介紹中可以了解到建立大規(guī)模優(yōu) 質(zhì)語料庫已經(jīng)成為一個(gè)瓶頸問題。目前國外已有GATE、UIMA、NLTK等著名的自然語言處理平臺(tái)。GATE (General Architecture for Text Engineering)是由 The University o

25、f Sheffield 基于 Java開發(fā)的自然語言處理平臺(tái),它的特點(diǎn)是采用基于組件的結(jié)構(gòu)方式,為研究和教 學(xué)自然語言處理提供了大量的組件mi o UIMA( Unstructured Information Management Architecture)是一個(gè)信息管理應(yīng)用的軟件框架,特點(diǎn)是能夠?qū)σ恍┓墙Y(jié)構(gòu)化信息 (如文本、視頻、圖片等)進(jìn)行分析并產(chǎn)生架構(gòu)化的數(shù)據(jù)13oNLTK(Natural Language Toolkit)是基于python研發(fā)的一套用于自然語言處理的工具包,NLTK包含一整套 擴(kuò)展文檔,并提供了圖形化的樣本數(shù)據(jù)和演示功能ML國內(nèi)也有許多中文自然語言處理平臺(tái)。其中ICT

26、CLAS是中國科學(xué)院研制的一 套針對中文的自然語言處理平臺(tái),通過層疊型馬爾科夫模型用于分詞,并取得了不 錯(cuò)的效果戚。LTP (Language Technology Platform )是由哈工大研發(fā)的集詞法分析、 句法分析、語義分析的中文處理平臺(tái)U6。采用了與傳統(tǒng)方式不同的自然語言處理 方法,成了國內(nèi)外最具影響力之一的中文處理平臺(tái)。122知識(shí)表示的國內(nèi)外研究現(xiàn)狀知識(shí)表示在智能教輔系統(tǒng)中十分的重要,因?yàn)橹R(shí)表示是計(jì)算機(jī)對數(shù)學(xué)語言 進(jìn)行理解中后的存儲(chǔ)形式,并且這樣的存儲(chǔ)形式可以支撐智能教輔系統(tǒng)更進(jìn)一步 的高級使用,例如自動(dòng)推理、自動(dòng)判題等。知識(shí)表示的形式直接影響整個(gè)系統(tǒng)的知 識(shí)存取效率及解決問題

27、的準(zhǔn)確率和難度。文獻(xiàn)U7中對知識(shí)表示方法進(jìn)行了詳細(xì)的 介紹。在智能教輔系統(tǒng)中要依據(jù)其功能以及數(shù)學(xué)這門學(xué)科的特點(diǎn)來決定應(yīng)該采用什 么樣的形式來進(jìn)行知識(shí)表示。根據(jù)漢語知識(shí)的特點(diǎn),阮曉剛使用框架和語義網(wǎng)絡(luò)相 結(jié)合的方式進(jìn)行知識(shí)表示UR張景中院士在完成幾何定理證明的時(shí)候,采用的是 謂詞邏輯法對幾何進(jìn)行知識(shí)表示世。程志采在解決小學(xué)一步、兩步應(yīng)用題的時(shí)候 則是采用框架表示法2o某些情況下,單一的知識(shí)表示方法并不能滿足系統(tǒng)需求,就可以采用組合的方 式進(jìn)行知識(shí)表示。規(guī)則一案例表示法。產(chǎn)生式規(guī)則的知識(shí)表示模擬了人腦對固定形式知識(shí)的 存儲(chǔ)方式,并且便于理解和進(jìn)行推理。但這種表示方法也存在一些缺點(diǎn),例如要求 系統(tǒng)規(guī)

28、則庫必須是完備的,否則一旦出現(xiàn)規(guī)則庫以外的條件推理就不能繼續(xù)進(jìn)行 下去。Andrew為了解決這樣的問題,提出了將規(guī)則表示方法和基于案例的表示方 法進(jìn)行結(jié)合的方式,在出現(xiàn)規(guī)則庫中沒有任何規(guī)則匹配的時(shí)候時(shí)候,則使用案 例的推理方法,這樣便彌補(bǔ)了單一使用規(guī)則表示法的不足。規(guī)則神經(jīng)網(wǎng)絡(luò)表示法。相對于產(chǎn)生式系統(tǒng),神經(jīng)網(wǎng)絡(luò)表示方法具有其獨(dú) 特的優(yōu)勢。神經(jīng)網(wǎng)絡(luò)在經(jīng)過訓(xùn)練以后,能夠?qū)Σ痪_、不完整的輸入進(jìn)行接受并得 出結(jié)論,但神經(jīng)網(wǎng)絡(luò)從輸入到輸出之間的過程是不可見的。為了彌補(bǔ)規(guī)則表示法和 神經(jīng)網(wǎng)絡(luò)表示法各自存在的缺點(diǎn),loannis結(jié)合產(chǎn)生式規(guī)則和神經(jīng)網(wǎng)絡(luò)的特點(diǎn)心】, 使得系統(tǒng)技能應(yīng)對未預(yù)期、不完整的輸入也能

29、夠讓系統(tǒng)解釋推理過程。描述邏輯表示法。描述邏輯表示法就是把框架、邏輯表示法和語義網(wǎng)絡(luò)表 示法結(jié)合起來而形成的一種混合知識(shí)表示方法,包括概念集、關(guān)系集、Abos和Tbos 斷言集、Abos和Tbos推理機(jī)。描述邏輯表示法主要有語義描述清晰、推理功能強(qiáng) 大等特點(diǎn),因而常用于關(guān)系復(fù)雜、結(jié)構(gòu)復(fù)雜系統(tǒng)中。曹存根等人開發(fā)的NKI系統(tǒng) 中,就是基于描述邏輯的方法來進(jìn)行數(shù)學(xué)中的概念知識(shí)表示的,這樣就保持了概念 性知識(shí)的推理能力。1.2.3智能教學(xué)系統(tǒng)的國內(nèi)外研究現(xiàn)狀1964年,最早能夠理解并對問題進(jìn)行求解的智能教學(xué)系統(tǒng)STUDENT系 統(tǒng)是由Bobrow等開發(fā)的,該系統(tǒng)能夠理解用英語表述的代數(shù)問題。STUDE

30、NT 系統(tǒng)問題理解是將自然語言表述形式的文本轉(zhuǎn)換成一種關(guān)系模型,通過對這些關(guān) 系模型進(jìn)行一些操作來實(shí)現(xiàn)問題的自動(dòng)求解。STUDENT系統(tǒng)中對數(shù)學(xué)題意理解的 步驟是:(1)事先在計(jì)算機(jī)中存儲(chǔ)一些句式,并且將復(fù)句轉(zhuǎn)換為單句的形式;(2) 自定義字典,抽取句子中的關(guān)鍵詞;(3)將單句統(tǒng)一轉(zhuǎn)換為關(guān)系模型。由于 STUDENT系統(tǒng)中存儲(chǔ)的句式十分有限,對一些句式和語法復(fù)雜的問題并不能覆蓋。 盡管如此,STUDENT開創(chuàng)了計(jì)算機(jī)能夠理解數(shù)學(xué)語言并進(jìn)行自動(dòng)求解的先河。80年代后,隨著認(rèn)知心理學(xué)的發(fā)展特別是從語義層面對問題的分類研究,促 進(jìn)了語義理解進(jìn)一步發(fā)展。從應(yīng)用題語義角度出發(fā),1983年RilleyW等

31、將一步加 減類應(yīng)用題分為三大類:組合問題、轉(zhuǎn)移問題和比較問題,并從這三大類中又細(xì)分 出14個(gè)小類。1985年Kintsch25等人對一步加減應(yīng)用題的認(rèn)知過程進(jìn)行了深入研 究并提出了一步加減應(yīng)用題問題框架的表征模型。Dellarosa等人的研究基于以上 兩個(gè)理論,于1986年開發(fā)了 ARITHPRO系統(tǒng)仲】,模擬人的認(rèn)知過程,實(shí)現(xiàn)對一 步加減應(yīng)用題的題意理解和自動(dòng)求解。ARITHPRO系統(tǒng)對題意理解的步驟為:首 先將輸入的句子與事先定義好的字典進(jìn)行匹配,根據(jù)字典理解出句子中每個(gè)詞的 所屬類型;根據(jù)字典對詞生成的所屬類型去激活相應(yīng)的命題規(guī)則;最后使用激活命 題規(guī)則集合生成相應(yīng)的問題框架,并且填充問

32、題框架中的槽值。通過上面幾步生成 的問題框架就能實(shí)現(xiàn)問題的自動(dòng)求解。雖然ARITHPRO系統(tǒng)只能夠解決一步加減 應(yīng)用題,但從整個(gè)計(jì)算機(jī)自動(dòng)解題領(lǐng)域來發(fā)展的角度來看,ARITHPRO是第一個(gè) 基于人的認(rèn)知過程進(jìn)行模擬的問題求解系統(tǒng),相對于之前基于句法的分類,首次提 出使用詞的語義進(jìn)行分類的方法。90年代后,建立在大量語料庫基礎(chǔ)上的統(tǒng)計(jì)自然語言處理方法在自然語言理 解研究領(lǐng)域被廣泛應(yīng)用并且取得了不錯(cuò)的成果。在2007年LIM-G系統(tǒng)由Wing- Kwong Wong等人開發(fā),通過構(gòu)建Info-map本體知識(shí)庫,成功的實(shí)現(xiàn)對一步加減 幾何應(yīng)用題的自動(dòng)解答。LIM-G系統(tǒng)的知識(shí)庫中包含了 CATEGO

33、RY節(jié)點(diǎn)、 PROPERTY節(jié)點(diǎn)、Lexicon節(jié)點(diǎn)。LIM-G系統(tǒng)進(jìn)行題意理解的步驟為:首先使用 Info-Map中的詞對一步加減幾何應(yīng)用題題目中的詞進(jìn)行匹配,找出其中涉及的數(shù) 學(xué)概念;然后根據(jù)這些數(shù)學(xué)概念計(jì)算出問題的類型;最后在多個(gè)問題類型中找出概 率最大的類型作為該問題的類型。馬玉慧在構(gòu)建我國小學(xué)數(shù)學(xué)應(yīng)用題自動(dòng)解題系統(tǒng)中28,基于Kintsch等的問題 表征模型和漢語言學(xué)中提出的句模,成功實(shí)現(xiàn)對小學(xué)第一階段的計(jì)算應(yīng)用題的自 動(dòng)求解。該系統(tǒng)中對數(shù)學(xué)自然語言的理解是基于句模的方式,使用表征模型對的數(shù) 學(xué)問題進(jìn)行知識(shí)表示。1.3本文的主要內(nèi)容由于現(xiàn)有的數(shù)學(xué)題意理解技術(shù)主要是針對一些代數(shù)應(yīng)用題和

34、幾何應(yīng)用題,并 且針對中文描述的問題進(jìn)行理解的效果有限。本文首先分析了一種對于一般數(shù)學(xué) 問題(非應(yīng)用題)理解效果很好的方法。并且在該方法基礎(chǔ)上進(jìn)行擴(kuò)展,實(shí)現(xiàn)了初 等數(shù)學(xué)概率應(yīng)用題的理解,并且取得了不錯(cuò)的效果。本文利用現(xiàn)有的自然語言處理方法在初等數(shù)學(xué)問題題意的理解中的具體應(yīng)用 進(jìn)行了相關(guān)研究。首先從一般數(shù)學(xué)問題出發(fā),分析了一般數(shù)學(xué)語言的特點(diǎn)。提出了 一套基于謂詞邏輯的知識(shí)表示方法,并且討論了使用句模的方式對數(shù)學(xué)語言進(jìn)行 理解的可行性研究。其次介紹了基于句模的數(shù)學(xué)語言理解的關(guān)鍵技術(shù),在對初等數(shù) 學(xué)應(yīng)用題的研究中,選擇其中的概率應(yīng)用題為研究對象,分析了概率題中數(shù)學(xué)語言 的特點(diǎn)及其信息構(gòu)成,提出一套適

35、用于概率題的知識(shí)表示方法。然后還在一般數(shù)學(xué) 問題的基礎(chǔ)上,通過對句模的擴(kuò)展和對數(shù)學(xué)語言的進(jìn)一步處理,提出了基于語義句 模的概率題題意理解的理論和方法,并且對其中的實(shí)現(xiàn)方式進(jìn)行了闡述。同時(shí)通過 實(shí)際的數(shù)學(xué)題進(jìn)行了測試,得出了句模針對不同類型題的理解效果及其原因分析。 最后提出了本文研究中存在的局限和不足及對后續(xù)工作的展望。本論文共由6個(gè)章節(jié)組成,其中:第1章,緒論。介紹課題的研究背景和意義。對自然語言處理、知識(shí)表示、智 能教輔系統(tǒng)的國內(nèi)外研究現(xiàn)狀做簡要分析;第2章,初等數(shù)學(xué)自然語言理解的理論基礎(chǔ)。對本論文中所涉及的初等數(shù)學(xué) 自然語言理解的理論進(jìn)行分析。介紹了自然語言處理中的常用方式、語言模型,分

36、 析了常用知識(shí)表示的優(yōu)缺點(diǎn);第3章,基于句模的一般初等數(shù)學(xué)問題題意理解。通過介紹一般初等數(shù)學(xué)問 題中使用的數(shù)學(xué)語言的特征進(jìn)行分析,提出了針對一般初等數(shù)學(xué)問題理解后的知 識(shí)表示,使用句模對其理解的方法及其實(shí)現(xiàn)細(xì)節(jié);第4章,基于語義的初等數(shù)學(xué)概率應(yīng)用題題意理解。通過分析初等數(shù)學(xué)應(yīng)用 題中使用的自然語言的特征,得出以表征框架為基礎(chǔ)的知識(shí)表示,用基于語義句模 的方法實(shí)現(xiàn)對初等數(shù)學(xué)概率題進(jìn)行題意理解;第5章,初等數(shù)學(xué)問題題意理解應(yīng)用。分析該系統(tǒng)的架構(gòu)進(jìn)行和其中關(guān)鍵的 類信息。然后通過幾何、函數(shù)、概率題的具體例子,對該整個(gè)系統(tǒng)的關(guān)鍵輸入和輸 出作出了介紹。并且整個(gè)題庫中的進(jìn)行了句模理解效果分析。第6章,總

37、結(jié)。提出本文的內(nèi)容和創(chuàng)新點(diǎn),同時(shí)指出整個(gè)設(shè)計(jì)需要改進(jìn)的地 方,并對后續(xù)工作進(jìn)行展望。第二章初等數(shù)學(xué)自然語言理解的理論基礎(chǔ)2.1自然語言處理方法自然語言處理旨在使用計(jì)算機(jī)正確分析及處理人類交流中使用的語言。隨著 近年來互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)的快速發(fā)展,自然語言處理在語音識(shí)別、機(jī)器翻譯、 信息檢索、文本挖掘等多個(gè)研究方向取得了突破性進(jìn)展29,3。,并且許多新的研究方 向也不斷出現(xiàn)。本論文就是自然語言處理在數(shù)學(xué)語言理解中的應(yīng)用。2.1.1自然語言處理基本處理方法在智能教輔系統(tǒng)中,無論要讓計(jì)算機(jī)完成什么樣的教學(xué)任務(wù),首先要處理的是 讓計(jì)算機(jī)能理解人類自然語言。自然語言處理一般有:詞法分析、句法分析和語

38、義 分析。分詞。分詞任務(wù)是在自然語句中,把詞與詞彼此之間分隔開來。漢語并不 像一些其他西方語言,詞與詞之間有天然的、顯示的分割符。最近幾年,大規(guī)模計(jì) 算技術(shù)和新的機(jī)器學(xué)習(xí)方法的出現(xiàn)及其在漢語分詞中的應(yīng)用,分詞的效果不斷得 到提高。雖然在通用的書面文本上的分詞性能達(dá)到相當(dāng)高的水平,但是對跨領(lǐng)域測 試的效果仍然不能令人滿意。因此漢語分詞仍然是中文信息處理研究工作的基礎(chǔ), 雖然現(xiàn)在取得了不錯(cuò)的成績,但還是面臨很多挑戰(zhàn)。詞性標(biāo)注。詞性是詞的基本語法屬性之一,詞性標(biāo)注的任務(wù)是針對句子中 每個(gè)詞,標(biāo)注一個(gè)具體的詞性類別,詞性是對詞的一種泛化。詞性標(biāo)注是中文信息 處理過程中的一項(xiàng)十分重要的基礎(chǔ)性工作。命名實(shí)

39、體識(shí)別。命名實(shí)體指的是在文本信息中識(shí)別出具體特殊指代性的實(shí) 體,主要包括一些特殊的人名、地名、專有名詞等/I。漢語命名實(shí)體識(shí)別作為分詞 任務(wù)的延續(xù),是中文信息處理的一個(gè)基礎(chǔ)任務(wù),在信息抽取、信息檢索、機(jī)器翻譯 等領(lǐng)域中都有廣泛、成功的應(yīng)用。句法分析。句法分析是自然語言處理中一項(xiàng)十分關(guān)鍵的技術(shù),句法分析的 基本任務(wù)是確定句子中詞與詞之間的依存關(guān)系,這些依存關(guān)系也揭示該句子的句 法結(jié)構(gòu)。句法結(jié)構(gòu)通常使用樹狀結(jié)構(gòu)表示,詞與詞之間通過關(guān)系連接,因此也叫做 句法分析樹。句法分析雖然不是自然語言處理的最終目標(biāo),但卻往往是實(shí)現(xiàn)最終目 標(biāo)道路上的一個(gè)重要甚至關(guān)鍵的部分。因此圍繞這一問題不斷提出各種新的理論 和

40、方法。2.1.2字標(biāo)注自上個(gè)世紀(jì)漢語自動(dòng)分詞的問題被提出以來,研究者就發(fā)明了很多分詞的方 法,其中主要基于詞表的分詞方法:正向最大匹配法,逐詞掃描法、雙向掃描法、 逆向最大匹配算法。而基于字標(biāo)注(Character-based Tagging)的名字第一次出現(xiàn)在 人的視野中是在2002年第一屆SIGHAN研討會(huì)上。在Bakeoff-2005上大放異彩, 讓研究者越來越重視該方法34】。下面介紹兩種常用的字標(biāo)注方法。最簡單標(biāo)注方法一2-tag2-tag標(biāo)注方法是最簡單的字標(biāo)注法。通過將詞首標(biāo)記設(shè)計(jì)為B,而將詞的其 他位置設(shè)計(jì)為I。例如“我們”就可以標(biāo)記為“我/B們/I”,“天安門”就可以標(biāo)記 為

41、“天/B安/I門/I?!靶氯A社/北京/3月/9日/電沖共中央/辦公廳/近日/發(fā)出/通知”對應(yīng)的2-tag的標(biāo)注為:“新/B華/I初7日B京/I3/B月仕9/B日/I電/B中/B共/I中/I央/I辦公/廳/I近 B日/I切出/I通 B知/I 常用標(biāo)注方法T-tag4-tag是漢語分詞中比較常用的一種標(biāo)注方式。該標(biāo)注方式是基于2-tag方法, 對單字成詞和多字成詞的情況增加了新的構(gòu)詞位置,即B表示詞首,M表示詞中, E表示詞尾,S表示單獨(dú)成詞。那么上面例子中使用4-tag的方法可標(biāo)注為:“新/B 華/M和E日B京/E3/B月壓9/B日/E電/S中/B共/M中/M央/E 辦 IB 公/M Jf/E

42、近B 日/E 加出/E ig/B 知/E 字標(biāo)注方法的使用不僅僅是在分詞中,在其他很多序列標(biāo)注的問題中都有相 關(guān)應(yīng)用,文獻(xiàn)35使用字標(biāo)注的方式用于命名實(shí)體識(shí)別。本文就有借鑒字標(biāo)注的思 想來實(shí)現(xiàn)對數(shù)學(xué)命名實(shí)體的識(shí)別。2.1.3中文自然語言處理工具哈工大社會(huì)計(jì)算與信息檢索研究中心的語言技術(shù)平臺(tái)(Language Technology Platform, LTP)提供了一整套包括詞法分析、句法分析、語義分析等中文處理服 務(wù)。LTP已經(jīng)成為國內(nèi)外最具影響力的中文處理基礎(chǔ)平臺(tái),語音技術(shù)平臺(tái)LTP的 框架如圖2-1所示。DLL APIWeb Service分析結(jié)果可視化基于XML的應(yīng)用程序接口語義分析句法

43、分析數(shù)據(jù)操作傳輸與共享詞法分析依存句法分析基于XML的語言學(xué)知識(shí)資源和語料庫資源圖2-1語言技術(shù)平臺(tái)架構(gòu)LTP語言處理的基礎(chǔ)技術(shù)有:分詞。在中文分詞中,采用基于統(tǒng)計(jì)的序列標(biāo)注模型和基于CRF的分詞方 法,能夠較好的解決未登錄詞的問題。詞性標(biāo)注。采用最大嫡馬爾科夫模型(Maximum Entropy Markov models, 簡稱MEMM) Ml為判別模型,使用特征更豐富和準(zhǔn)確率更高的支持向量機(jī)作為分 類器,提升了詞性標(biāo)注的準(zhǔn)確率。依存句法分析。解碼算法是米用基于柱狀搜索,并且米用基于標(biāo)點(diǎn)的兩階 段句法分析方法,在保證精確度的前提下提高了句法分析的效率。語義角色標(biāo)注。采用最大嫡分類器識(shí)別語義

44、角色,采用基于整數(shù)線性規(guī)劃 的解碼方法,提高系統(tǒng)的分析進(jìn)度。除了 LTP提供了一整套包括詞法分析、句法分析、語義分析等中文處理服務(wù) 以外,還有以下特點(diǎn):提供了一整套自底向上的高效、高精確度的自然語言處理模塊。提供了可視化的工具,能夠幫助研究人員對處理結(jié)果進(jìn)行各種分析。LTP處 理“國內(nèi)專家學(xué)者40余人參加研討會(huì)”的可視化結(jié)果如圖2-2所示?;赬ML的語言處理表示。XML能夠清晰的對數(shù)據(jù)表示方式、層次化的 結(jié)構(gòu)表示出處理結(jié)果印。如圖2-3所示為LTP處理的“國內(nèi)專家學(xué)者40余人參加 研討會(huì)處理結(jié)果的XML表示形式。基于HTTP請求的方式獲得分析結(jié)果。這樣的好處是不需要配置高性能的 機(jī)器,且支持

45、跨平臺(tái)、跨語言編程。對用于研究的用戶免費(fèi)提供服務(wù)?;谝陨戏治觯疚闹惺褂肔TP提供的自然語言處理服務(wù),在此基礎(chǔ)上提供 一套針對數(shù)學(xué)語言理解的理論和方法。圖2-2語言技術(shù)平臺(tái)可視化結(jié)果圖 word 6=2n cont=F,學(xué)者pos=,nN ne=F,OFI parent=5F, relate=NATT, semparent=,l6,1, semrelate=AgfA arg id二0 type二”AO” begp(T end二57 圖2-3語言技術(shù)平臺(tái)處理后的XML結(jié)構(gòu)2.2語言模型2.2.1隱馬爾可夫模型隱馬爾科夫模型(HMM)是一種馬爾科夫過程的概率函數(shù)。HMM記為一個(gè) 五元組:A =(

46、匕(2-1)其中,Y是狀態(tài)(輸出)的集合,X是觀察值(輸入)的集合,是初始狀態(tài)的 概率,A是狀態(tài)轉(zhuǎn)移概率矩陣,B是輸出觀察值概率矩陣。NP(XJ) = Hp(刃T)P(&M)(2-2)t=l用概率圖模型表示如圖2-4所示。圖2-4隱馬爾可夫概率圖模型隱馬爾科夫模型在自然語言處理研究中已經(jīng)非常成熟,有著效率高、容易訓(xùn)練 等優(yōu)點(diǎn),并且在序列標(biāo)注任務(wù)中有著廣泛的應(yīng)用,例如分詞、詞性標(biāo)注、語音識(shí)別、 基因序列分析等等El,隱馬爾可夫模型的局限性有:隱馬爾可夫模型定義的是一個(gè)聯(lián)合概率,因此必須列舉出觀察序列的所有 可能值,這對許多科學(xué)研究領(lǐng)域中來說是有一定難度的。隱馬爾可夫模型研究的前提是觀察序列中的元

47、素是互相條件獨(dú)立的,但在 現(xiàn)實(shí)世界中,這樣的假設(shè)肯定是不符合實(shí)際情況。2.2.2條件隨機(jī)場模型定義:設(shè)G = (VfE)是一個(gè)無向圖,其中V表示無向圖中所有的節(jié)點(diǎn)集合,E 表示無向邊的集合。丫 = Yvv G U是以G中節(jié)點(diǎn)為索引的隨機(jī)變量匕構(gòu)成的集合。 在給定X的條件下,如果每個(gè)隨機(jī)變量灼都服從馬爾科夫特性:P(YvXfYUfu。u) = P(YvXfYUfu(2-3)其中,uv表示u和v兩個(gè)結(jié)點(diǎn)在G是相鄰的結(jié)點(diǎn)的邊,則(X,Y)就構(gòu)成一個(gè) 條件隨機(jī)場。條件隨機(jī)場是在規(guī)定需要標(biāo)記的觀察序列值的條件下,計(jì)算整個(gè)標(biāo)記序列的 聯(lián)合概率,即條件概率P(X|K),而不像隱馬爾可夫模型那樣,在給定當(dāng)前狀

48、態(tài)條件 下,定義下一個(gè)狀態(tài)的分布,即求聯(lián)合分布P(X,K)。線性條件隨機(jī)場(Linear-chainCRFs)是對序列進(jìn)行建模形成的最普通、最簡 單的一種鏈?zhǔn)浇Y(jié)構(gòu)的特殊條件隨機(jī)場模型,結(jié)構(gòu)圖如下圖表示:X=Xi,.,X圖2-5線性條件隨機(jī)場概率圖模型令X = xlfx2f,啟表示觀察序列,Y = ylfy2f表示有限狀態(tài)的集合,則該序列的概率定義為:p(Y|X, A) oc exp Aj(y(-1,X, i) + ksk(yhX, (2-4)其中,與對于觀察序列的標(biāo)記位i - 1與i間的轉(zhuǎn)移特征函數(shù), Sk(X, 0觀察序列的i位置的狀態(tài)特征函數(shù)將兩個(gè)特征函數(shù)統(tǒng)一為: TOC o 1-5 h

49、z 方(必-1 況,X”)(2-5)并且記n弓.(匕X)= 方T況,X”)(2-6)i=l則有P(Y|XM)=亦exp(4仍(匕X)(2-7)其中2以)=密(4仍(匕乂)(2.8)J條件隨機(jī)場使用一種概率圖模型,具有表達(dá)長距離依賴性和交疊性特征的能 力,能夠較好的解決標(biāo)注偏置等問題的優(yōu)點(diǎn),而且所有特征都可以全局歸一化,能 夠求得全局的最優(yōu)解。相對于隱馬爾科夫模型,條件隨機(jī)場具有條件隨機(jī)性,沒有 獨(dú)立性的嚴(yán)格要求。缺點(diǎn)在于模型訓(xùn)練時(shí)收斂速度較慢。2.3知識(shí)表示知識(shí)表示是現(xiàn)實(shí)智能教輔系統(tǒng)的基礎(chǔ)。要想讓計(jì)算機(jī)能夠模擬人類的思考,知 識(shí)就必不可少。但是計(jì)算機(jī)不能直接接收和理解人的知識(shí),只有將人類的知識(shí)

50、通過 一定的轉(zhuǎn)換后,才能讓計(jì)算機(jī)理解并對其進(jìn)一步處理。知識(shí)表示就是解決這樣的問 題。知識(shí)表示就是對知識(shí)進(jìn)行描述和規(guī)定,把人類理解的知識(shí)轉(zhuǎn)換為計(jì)算機(jī)能夠進(jìn) 行處理的數(shù)據(jù)結(jié)構(gòu)I。本文涉及到的知識(shí)表示方法有:產(chǎn)生式表示法、謂詞邏輯表示法、框架表示法。2.3.1產(chǎn)生式表示法“產(chǎn)生式”這一術(shù)語最早是由關(guān)國數(shù)學(xué)家博斯特在1943年提出的。Post機(jī)的 計(jì)算模式就是串替代規(guī)則,其中的每一條規(guī)則就是一個(gè)產(chǎn)生式。產(chǎn)生式表示法是日 前人工智能應(yīng)用領(lǐng)域中使用最多的一種知識(shí)表示法。由于該方法適用于表示規(guī)則 性和事實(shí)性的知識(shí),因此基于產(chǎn)生式表示法的許多專家系統(tǒng)都取得了成功。產(chǎn)生式的基本形式是:p T Q其中,P稱為產(chǎn)生

51、式的條件,Q稱為產(chǎn)生式的結(jié)果。該產(chǎn)生式就是指出在滿足 P的條件下得出Q或者執(zhí)行Q。對于不確定性知識(shí),產(chǎn)生式的形式為P - Q(置信度)只要“置信度與P達(dá)到一定程度上的相似即可得出Q。產(chǎn)生式表示法的優(yōu)點(diǎn)有:清晰性。產(chǎn)生式表示法的格式都是由條件得出結(jié)論這種固定形式。在知識(shí) 庫的設(shè)計(jì)上比較簡單,且能夠保證知識(shí)的一致性和完整性。自然性。產(chǎn)生式表示法的這種因果關(guān)系與人類的推理的方式一致,這是產(chǎn) 生式表示法成為人工智能領(lǐng)域應(yīng)用最多的知識(shí)表示法的原因。模塊性??梢园延卯a(chǎn)生式表示法的知識(shí)單獨(dú)從系統(tǒng)中分離出來,這樣使得 對知識(shí)庫的維護(hù)更為容易。產(chǎn)生式表示法的不足有:不能對結(jié)構(gòu)性知識(shí)進(jìn)行有效表達(dá)。產(chǎn)生式知識(shí)表示法

52、雖然能夠有效的對因 果關(guān)系的知識(shí)進(jìn)行有效的表示,但對于結(jié)構(gòu)關(guān)系的知識(shí)卻不能滿足需求,產(chǎn)生式表 示法不能有效的表達(dá)事物之間的關(guān)系。擴(kuò)展性差。盡管產(chǎn)生式表示法中產(chǎn)生的知識(shí)之間是相互獨(dú)立的,但在現(xiàn)實(shí) 世界中,知識(shí)之間往往是具有相互關(guān)聯(lián)的。隨著知識(shí)庫的不斷擴(kuò)大,要使得新的規(guī) 則與已有的規(guī)則間沒有矛盾會(huì)越來越困難。效率不高。產(chǎn)生式系統(tǒng)求解過程是:首先將事實(shí)庫中的事實(shí)與知識(shí)庫的規(guī) 則進(jìn)行匹配。但有可能同時(shí)匹配上多個(gè)規(guī)則的條件,此時(shí)就需要使用一定的策略來 進(jìn)行沖突消解,再執(zhí)行消解后的規(guī)則。當(dāng)知識(shí)庫達(dá)到一定的規(guī)模時(shí),其效率會(huì)越來 越低。通過上述分析,產(chǎn)生式表示法適用于知識(shí)之間是相互獨(dú)立的,且求解過程是可 以被

53、相對獨(dú)立的操作知識(shí)。2.3.2邏輯謂詞表示法謂詞邏輯表示法是一種更接近人類自然語言的知識(shí)表示方法,是目前能夠最 精確表示人類思維活動(dòng)的形式語言。謂詞邏輯是基于命題中的謂詞來進(jìn)行分析的 一種邏輯。一個(gè)謂詞由謂詞名和個(gè)體兩個(gè)部分組成。個(gè)體用于表示某個(gè)事物或?qū)ο? 謂詞名則是用于描述個(gè)體的性質(zhì)以及個(gè)體之間的關(guān)系。謂詞的一般形式為:P(X2,其中P是謂詞名,.fxn是個(gè)體。若xlfx2, .fxn中的所有個(gè)體都是常量 或變元,則該謂詞也叫一階謂詞。如果個(gè)體之中又存在一階謂詞,那么該謂詞為二 階謂詞,以此類推可以得到更高階的謂詞。用謂詞連接符將多個(gè)謂詞連接起來形成 的公式稱為謂詞公式。謂詞公式可以表示事

54、實(shí)性的知識(shí),也可以用于表示規(guī)則性知 識(shí)。謂詞表示法優(yōu)點(diǎn)有:自然性、精確性和易實(shí)現(xiàn)性。但也有其局限性,具體有:邏輯謂詞表示法不適合表示不確定的知識(shí)。當(dāng)一個(gè)知識(shí)中包含多個(gè)關(guān)系時(shí),則需要高階邏輯才能對其進(jìn)行表達(dá),但對 高階邏輯謂詞進(jìn)行推理是很復(fù)雜的。邏輯謂詞表示的推理機(jī)制是基于形式邏輯進(jìn)行推理的,因此使得推理與知 識(shí)語義分開,這樣就使得推理的過程太冗長,進(jìn)而較低了系統(tǒng)的效率。2.3.3框架表不法1975年明斯基首次提出了框架理論,而框架表示法則是基于框架理論發(fā)展起 來的知識(shí)表示方法??蚣鼙硎痉ň哂懈爬ㄐ院谩⑦m應(yīng)性好、結(jié)構(gòu)化高、推理方式靈 活的優(yōu)點(diǎn),能夠有效的結(jié)合陳述性知識(shí)和過程性知識(shí)。在框架理論中,

55、認(rèn)為人腦對 大量事物是以典型情境方式存儲(chǔ),而情境是以一種框架形式的結(jié)構(gòu)存儲(chǔ)在記憶中。 當(dāng)人面對一個(gè)新的情境時(shí),就會(huì)從記憶中選取一個(gè)相應(yīng)的框架4。框架的內(nèi)容會(huì) 依據(jù)面臨的情境不同而改變。框架表示法就是模擬人記憶中的框架形式產(chǎn)生的結(jié) 構(gòu)化的知識(shí)表示方法。一般而言,一個(gè)框架由名、槽、側(cè)面及其對應(yīng)的值組成。框 架包含若干數(shù)量的槽,每個(gè)槽又可以劃分為多個(gè)側(cè)面。槽用于描述對象的屬性,側(cè) 面描述屬性的某個(gè)方面。槽中對象的屬性值稱為槽值,側(cè)面中對象的屬性值稱為側(cè) 面值??蚣鼙硎痉ǖ闹饕攸c(diǎn)有:結(jié)構(gòu)性??蚣鼙硎痉ㄖ兄R(shí)的基本單位是框架,框架由槽組成,槽根據(jù)實(shí) 際情況可劃分出多個(gè)側(cè)面??蚣鼙硎痉ㄗ蠲黠@的特點(diǎn)是能清

56、晰的表示出知識(shí)內(nèi)部 的關(guān)系,知識(shí)之間的相互關(guān)系也能表示出來。繼承性??蚣鼙硎痉ㄖ?,槽的值又可以是另外一個(gè)框架。框架的繼承性大 大減少了知識(shí)的冗余,保證了知識(shí)的一致性。自然性。框架表示法能夠較好的體現(xiàn)人腦在觀察事物時(shí)的思維活動(dòng)。當(dāng)遇 到全新的事物,人腦會(huì)搜索記憶中與之類似的事物框架,通過對其補(bǔ)充和修改,生 成了新的事物框架,完成對新事物的認(rèn)識(shí)??蚣鼙硎痉ㄅc人的認(rèn)識(shí)過程是類似的。2.4本章小結(jié)本章介紹了初等數(shù)學(xué)問題題意理解方法中將涉及的理論基礎(chǔ)。由于初等數(shù)學(xué) 問題是以文本形式作為輸入,對文本進(jìn)行處理就涉及到自然語言處理中的理論和 方法。主要包括詞法分析、句法分析和語義分析的處理方法。因本文不是針對

57、自然 語言處理的研究,而是在已有自然語言處理的基礎(chǔ)上的進(jìn)一步應(yīng)用。因而選用哈工 大的語言技術(shù)平臺(tái)所提供的自然語言處理服務(wù)。然后介紹了自然語言處理中的比 較常見兩個(gè)語言模型:隱馬爾可夫模型和條件隨機(jī)場。條件隨機(jī)場在序列標(biāo)注問題 上的效果不錯(cuò),將會(huì)用于后面數(shù)學(xué)實(shí)體的識(shí)別中。數(shù)學(xué)題意理解的根本目的是把自 然語言處理表示形式的數(shù)學(xué)問題轉(zhuǎn)換為計(jì)算可以進(jìn)行推理的數(shù)據(jù)結(jié)構(gòu),知識(shí)表示 的選擇就尤為重要。介紹了產(chǎn)生式表示法、謂詞邏輯表示法、框架表示法這三種常 見的知識(shí)表示法,并分別分析了其優(yōu)缺點(diǎn)。第三章一般初等數(shù)學(xué)問題題意理解研究3.1初等數(shù)學(xué)語言的特點(diǎn)數(shù)學(xué)語言是數(shù)學(xué)思想的具體表現(xiàn)形式,數(shù)學(xué)語言是一種各科學(xué)、各

58、領(lǐng)域之間溝 通交流的通用性語言41。數(shù)學(xué)語言相對日常用語(也就是自然語言)的特點(diǎn)在于數(shù) 學(xué)語言中除了文字以外,還充滿了各種數(shù)字,具有特殊意義的符號(hào)。它們按照一定 的規(guī)則和順序表達(dá)特定的數(shù)學(xué)意義。數(shù)學(xué)語言的基本特點(diǎn)有:簡練性自然語言本身就具有概括性,而數(shù)學(xué)語言則是對自然語言的進(jìn)一步概括。數(shù)學(xué) 語言以盡可能用最少的語句、最簡單的語法來表示數(shù)學(xué)意義。在數(shù)學(xué)語言中,數(shù)字、 字母、符號(hào)表示自然語言中用詞組成句表示的東西,即用一組由這種語言的字母表 中的字母有限序列表示的東西。這樣可以大大的簡化和縮短語言表示的長度。例如“大于這個(gè)概念的符號(hào)是“”,如果數(shù)字a比數(shù)字b更大,漢語記作 “a大于b”,英語記作a

59、 is greater than b,顯然都沒有“ab”來得簡練明確。 可見數(shù)學(xué)語言不僅是最簡單,最易理解的,而且還是最精煉的語言通用性。數(shù)學(xué)語言和自然語言的本質(zhì)區(qū)別之一是變元的使用,使得數(shù)學(xué)語言能夠很好 的表示一般性。無論哪個(gè)國家,哪個(gè)民族,從最簡單的數(shù)字到復(fù)雜的組合符號(hào)、數(shù) 學(xué)公式,盡管各國的發(fā)音不一樣,但歸根結(jié)底其表示的意義是相同的。例如符號(hào)意義表示一個(gè)三角形,漢語記作“三角形”,英語記作“triangle”。 顯然,雖然符號(hào)翻譯成不同國家的語言的形式不一樣,但是對“”符號(hào)的 理解都相同。嚴(yán)密性數(shù)學(xué)語言是一種特殊的科學(xué)語言。數(shù)學(xué)科學(xué)、數(shù)學(xué)思維的嚴(yán)密性、邏輯性的必 然要求數(shù)學(xué)語言具有嚴(yán)密性

60、。自然語言中句子常常存在多義性,而數(shù)學(xué)語言不允許 語句不完整或有歧義等不嚴(yán)密的形式。數(shù)學(xué)語言中的一字之差則表示截然不同的 兩個(gè)概念。例如在數(shù)學(xué)語言中表示一個(gè)方程存在一個(gè)解,首先要說明是哪個(gè)方程,其次是 說明解是什么。但如果表述為“解為x = 1”或者x +y = 2的解為1等都是不 嚴(yán)密,讓人模棱兩可?!敖鉃? = 1”會(huì)讓人疑惑具體是哪個(gè)方程的解是“x = 1, 而“x + y=N的解為1中,并沒有說明是哪個(gè)變量的,到底是“x = 1”還是“V =綜上所述,數(shù)學(xué)語言作為數(shù)學(xué)理論的基本構(gòu)成成分,具有高度的簡練性、廣泛 的通用性、邏輯的嚴(yán)密性。其中“高度的簡練性決定了在數(shù)學(xué)語言中,不會(huì)存在 多余

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論