自然語言理解_第1頁
自然語言理解_第2頁
自然語言理解_第3頁
自然語言理解_第4頁
自然語言理解_第5頁
已閱讀5頁,還剩87頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

自然語言理解第一頁,共九十二頁,編輯于2023年,星期二第十章自然語言理解自然語言理解和處理是人工智能的早期的和活躍的研究領(lǐng)域之一。用自然語言進行高級通信,是人類固有的本領(lǐng)?,F(xiàn)在還不知道動物界是否也能用“口語”進行通信,例如鳥類之間是否有這種能力。至于書面語言,那肯定只有人類才具有。本章將首先討論自然語言理解的概念、發(fā)展簡史以及系統(tǒng)組成與模型等;然后,逐一研究語言的自動分析、句子的自動理解、語言的自動生成和機器翻譯等重要問題;最后舉例介紹自然語言理解系統(tǒng)。2第二頁,共九十二頁,編輯于2023年,星期二10.1語言及其理解的一般問題什么是語言和語言理解?自然語言理解與人類的哪些智能是否有關(guān)?自然語言理解研究是如何發(fā)展的?理解自然語言的計算機系統(tǒng)是如何組成的以及它們的模型為何?等等。這些是研究自然語言理解時感興趣的問題。3第三頁,共九十二頁,編輯于2023年,星期二10.1.1語言與語言理解語言是人類進行通信的自然媒介,它包括口語、書面語以及動作語(如啞語和旗語)等。一種比較正規(guī)的提法是:語言是用于傳遞信息的表示方法、約定和規(guī)則的集合,它由語句組成,每個語句又由單詞組成;在組成語句和語言時,應遵循一定的語法與語義規(guī)則。如果沒有各種口語和書面語,如英語、漢語、法語和德語等,人類之間的充分而有效的交流就難以想象。語言是隨著人類社會和人類自身的發(fā)展而不斷進化的?,F(xiàn)代語言允許任何一個具有正常語言能力的人與他人交流思想感情和技術(shù)等。要研究自然語言理解,首先必須對自然語言的構(gòu)成有一個基本認識。4第四頁,共九十二頁,編輯于2023年,星期二語言是音義結(jié)合的詞匯和語法體系,是實現(xiàn)思維活動的物質(zhì)形式。語言是一個符號體系,但與其他符號體系又有所區(qū)別。語言是以詞為基本單位的,詞匯又受到語法的支配才可構(gòu)成有意義的、可理解的句子,句子按一定的形式再構(gòu)成篇章等。詞匯又可分為詞和熟語。熟語就是一些詞的固定組合,如漢語中的成語。詞又由詞素構(gòu)成,如“教師”是由“教”和“師”這兩個詞素構(gòu)成。同樣在英語中“teacher"也是由"teach"和"-er"這兩個詞素所構(gòu)成。詞素是構(gòu)成詞的最小的、有意義的單位?!敖獭边@個詞素本身有教育和指導的意義,而“師”則包含了“人”的意義。同樣,英語中的“-er”也是一個表示“人”的后綴。5第五頁,共九十二頁,編輯于2023年,星期二語法是語言的組織規(guī)律。語法規(guī)則制約著如何把詞素構(gòu)成詞、詞構(gòu)成詞組和句子。語言正是在這種嚴密的制約關(guān)系中構(gòu)成的。用詞素構(gòu)成詞的規(guī)則叫做構(gòu)詞規(guī)則,如教+師→教師,teach+er→teacher。一個詞又有不同的詞形、單數(shù)、復數(shù)、陰性、陽性和中性等。這種構(gòu)造詞形的規(guī)則稱為構(gòu)形法,如教師+們→教師們,teacher+s→teachers。這里只是在原來的詞后面加上一個復數(shù)意義的詞素,所構(gòu)成的并不是一個新的詞,而是同一詞的復數(shù)形式。構(gòu)形法和構(gòu)詞法稱為詞法。詞法中的另一部分就是句法。句法也可分成兩部分:詞組構(gòu)造法和造句法。詞組構(gòu)造法是詞搭配成詞組的規(guī)則,如紅+鉛筆→紅鉛筆,red+pencil→redpencil.這里“紅”是一個修飾鉛筆的形容詞,它與名詞“鉛筆”組合成了一個新的名詞。造句法則是用詞或詞組造句的規(guī)則,“我是計算機科學系的學生”,這是按照漢語造句法構(gòu)造的句子,“Iamastudentinthedepartmentofcomputerscience"是英語造句法產(chǎn)生的同等句子。雖然漢語和英語的造句法不同,但它們都是正確和有意義的句子。圖10.1就是上述構(gòu)造的一個完整的圖解。6第六頁,共九十二頁,編輯于2023年,星期二圖10.1語言的構(gòu)成語言詞匯詞熟語詞素構(gòu)形法構(gòu)詞法語法詞法句法詞組構(gòu)造法造句法7第七頁,共九十二頁,編輯于2023年,星期二另一方面,語言是音義結(jié)合的,每個詞匯有其語音形式。一個詞的發(fā)音由一個或多個音節(jié)組合而成,音節(jié)又由音素構(gòu)成,音素分為元音音素和輔音音素。自然語言中所涉及的音素并不多,一種語言一般只有幾十個音素。由一個發(fā)音動作所構(gòu)成的最小的語音單位就是音素。迄今為止,對語言理解尚無統(tǒng)一和權(quán)威的定義。按照考慮問題角度的不同而有不同的解釋。從微觀上講,語言理解是指從自然語言到機器(計算機系統(tǒng))內(nèi)部之間的一種映射。從宏觀上看·,語言理解是指機器能夠執(zhí)行人類所期望的某些語言功能。這些功能包括:①回答有關(guān)提問;②提取材料摘要;③不同詞語敘述;④不同語言翻譯。8第八頁,共九十二頁,編輯于2023年,星期二然而,對自然語言的理解卻是一個十分艱難的任務。即使建立一個只能理解片言斷語的計算機系統(tǒng),也是很不容易的。這中間存在著大量的極為復雜的編碼和解碼問題。一個能夠理解自然語言的計算機系統(tǒng)就像一個人那樣需要上下文知識以及根據(jù)這些知識和信息進行推理的過程。自然語言不僅存在著語義、語法和語音問題,而且還存在模糊性等間題。具體地說,自然語言理解的困難是由下列三個因素引起的:①目標表示的復雜性;②映射類型的多樣性;③源表達中各元素間交互程度的差異性。9第九頁,共九十二頁,編輯于2023年,星期二自然語言理解是語言學、邏輯學、生理學、心理學、計算機科學和數(shù)學等相關(guān)學科發(fā)展和結(jié)合而形成的一門交叉學科:它能夠理解口頭語言或書面語言。語言交流是一種基于知識的通信。怎樣才算理解了語言呢?歸納起來主要包括下列幾個方面:(1)既能夠理解句子的正確詞序規(guī)則和概念,又能理解不含規(guī)則的句子。(2)知道詞的確切含義、形式、詞類及構(gòu)詞法。(3)了解詞的語義分類以及詞的多義性和歧義性。(4)指定和不定特性及所有(隸屬)特性。(5)問題領(lǐng)域的結(jié)構(gòu)知識和時間概念。(6)語言的語氣信息和韻律表現(xiàn)。(7)有關(guān)語言表達形式的文學知識。(8)論域的背景知識。10第十頁,共九十二頁,編輯于2023年,星期二10.1.2自然語言理解研究的進展隨著計算機技術(shù)和人工智能總體技術(shù)的發(fā)展,對自然語言的理解不斷取得進展。由于電子計算機的出現(xiàn)才使得自然語言理解和處理成為可能。由于計算機能夠進行符號處理,所以有可能應用計算機來處理和理解語言。機器翻譯是自然語言理解最早的研究領(lǐng)域。20世紀40年代末期,人們期望能夠用計算機翻譯劇增的科技資料。美蘇兩國在1949年開始俄-英和英-俄的機器翻譯研究。由于早期研究中理論和技術(shù)存在一定的局限性,所開發(fā)的機譯系統(tǒng)的技術(shù)水平較低,不能滿足實際應用的要求。1966年在美國科學院發(fā)表的一份報告中,認為全自動機譯在較長時期內(nèi)不會取得成功。此后,機器翻譯研究工作進入低潮。11第十一頁,共九十二頁,編輯于2023年,星期二到了20世紀70年代初期,對語言理解對話系統(tǒng)的研究取得進展。伍茲(Woods)的LUNAR系統(tǒng)、威諾甘德(Winogand)的SHRDLU系統(tǒng)和香克(Schank)的MARGIE系統(tǒng)等是語言理解對話系統(tǒng)的典型實例。其中,SHRDLU系統(tǒng)是一個限定性的人機對話系統(tǒng),它把句法、語義、推理、上下文和背景知識靈活地結(jié)合于一體,成功地實現(xiàn)了人機對話,并被用于指揮機器人的積木分類和堆疊試驗。機器人系統(tǒng)能夠接受人的自然語言指令,進行積木的堆疊操作,并能回答或者提出比較簡單的問題。進入20世紀80年代之后,自然語言理解的應用研究廣泛開展,機器學習研究又活躍起來,并出現(xiàn)了許多具有較高水平的實用化系統(tǒng)。其中比較著名的有美國的METAL和LOGOS,日本的PIVOT和HICAT,法國的ARIANE以及德國的SUSY等,這些系統(tǒng)是自然語言理解研究的重要成果,表明自然語言理解在理論和應用上取得了12第十二頁,共九十二頁,編輯于2023年,星期二

突破性進展。20世紀80年代以來提出和進行的智能計算機研究,也對自然語言理解提出了新的要求。近年來又提出了對多媒體計算機的研究。新型的智能計算機和多媒體計算機均要求設計出更為友好的人機界面,使自然語言、文字、圖像和聲音等信號都能直接輸入計算機。要求計算機能以自然語言與人進行對話交流,就需要計算機具有自然語言能力,尤其是口語理解和生成能力。口語理解研究促進人機對話系統(tǒng)走向?qū)嵱没?。自然語言是表示知識最為直接的方法。因此,自然語言理解的研究也為專家系統(tǒng)的知識獲取提供了新的途徑。此外,自然語言理解的研究已促進計算機輔助語言教學(CALI)和計算機語言設計(CLD)等的發(fā)展??梢灶A料,21世紀自然語言理解的研究有可能取得新的突破,并獲得廣泛應用。13第十三頁,共九十二頁,編輯于2023年,星期二10.1.3自然語言理解過程的層次語言雖然表示成一連串的文字符號或者一串聲音流,但其內(nèi)部實際上是一個層次化的結(jié)構(gòu),從語言的構(gòu)成中就可以清楚地看到這種層次性。一個文字表達的句子是由詞素→詞或詞形→詞組或句子構(gòu)成,而用聲音表達的句子則是由音素→音節(jié)→音詞→音句構(gòu)成,其中每個層次都受到語法規(guī)則的制約。因此,語言的分析和理解過程也應當是一個層次化的過程。許多現(xiàn)代語言學家把這一過程分為三個層次:詞法分析、句法分析和語義分析。如果接收到的是語音流,那么在上述三個層次之前還應當加入一個語音分析層。雖然這種層次之間并非是完全隔離的,但是這種層次化的劃分的確有助于更好地體現(xiàn)語言本身的構(gòu)成。14第十四頁,共九十二頁,編輯于2023年,星期二1.語音分析在有聲語言中,最小的、可獨立的聲音單元是音素,音素是一個或一組音,它可與其他音素相區(qū)別。如pin和bin中分別有/p/和/b/這兩個不同的音素,但pin,spin和tip中的音素/p/是同一個音素,它對應了一組略有差異的音。語音分析則是根據(jù)音位規(guī)則,從語音流中區(qū)分出一個個獨立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個個音節(jié)及其對應的詞素或詞。2.詞法分析詞法分析的主要目的是找出詞匯的各個詞素,從中獲得語言學信息,如unchangeable是由un-change-able構(gòu)成的。在英語等語言中,找出句子中的一個個詞匯是一件很容易的事情,因為詞與詞之間是由空格來分隔的。但是要找出各個詞素就復雜得多,如importable,它可以是im-port-able或import-able。這是因為im,port和import都是詞素。而在漢語中要找出一個個詞素則是再容易不過的事情,因為漢語中的每個字就是一個詞素。但是要切分出各個詞就遠不是那么容易。如“我們研究所有東西”,可以是“我們—研究所—有—東西”也可以是“我們—研究—所有—東西”。15第十五頁,共九十二頁,編輯于2023年,星期二通過詞法分析可以從詞素中獲得許多語言學信息。英語中詞尾中的詞素“s"通常表示名詞復數(shù),或動詞第三人稱單數(shù),“l(fā)y"是副詞的后綴,而“ed"通常是動詞的過去式與過去分詞等,這些信息對于句法分析都是非常有用的。另一方面,一個詞可有許多的派生、變形,如work,可變化出works,worked,working,worker,workings,workable,workability等。這些詞若全部放入詞典將是非常龐大的,而它們的詞根只有一個。3.句法分析句法分析是對句子和短語的結(jié)構(gòu)進行分析。在語言自動處理的研究中,句法分析的研究是最為集中的,這與喬姆斯基(Chomsky)的貢獻是分不開的。自動句法分析的方法很多,有短語結(jié)構(gòu)語法、格語法、擴充轉(zhuǎn)移網(wǎng)絡、功能語法等。句法分析的最大單位就是一個句子。分析的目的就是找出詞、短語等的相互關(guān)系以及各自在句子中的作用等,并以一種層次結(jié)構(gòu)來加以表達。這種層次結(jié)構(gòu)可以是從屬關(guān)系、直接成分關(guān)系,也可以是語法功能關(guān)系。16第十六頁,共九十二頁,編輯于2023年,星期二4.語義分析對于語言中的實詞而言,每個詞都用來稱呼事物,表達概念。句子是由詞組成的,句子的意義與詞義是直接相關(guān)的,但也不是詞義的簡單相加。“我打他”和“他打我”的詞是完全相同的,但表達的意義是完全相反的。因此,還應當考慮句子的結(jié)構(gòu)意義。英語中aredtable(一張紅色的桌子),它的結(jié)構(gòu)意義是形容詞在名詞之前修飾名詞,但在法語中卻不同,onetablerouge(一張桌子紅色的),形容詞在被修飾的名詞之后。語義分析就是通過分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達的真正含義或概念。在語言自動理解中,語義越來越成為一個重要的研究內(nèi)容。17第十七頁,共九十二頁,編輯于2023年,星期二10.2句法和語義的自動分析10.2.1句法模式匹配和轉(zhuǎn)移網(wǎng)絡句法分析最為簡單、直觀的方法也許就是模式匹配。英語句子bearslovehoney可以用句法模式noun+verb+noun來匹配。但是自然語言是非常多樣化的:

bearslovehoneywoolybearslovehoneyfericiouswoolybearslovehoneyhungryfericiouswoolybearslovestickyhoney

這里,單是主語部分就有很多模式:noun,adj.+noun,adj.+adj.+noun,adj.+adj.+adj.+noun,…,對此可采用形式化的表達方式(adj.*noun),其中二表示可有可無且可重復出現(xiàn)。18第十八頁,共九十二頁,編輯于2023年,星期二一個句子則可以表示成:

(pronounV(adj.*noun))verb(pronounV(adj.*noun))

也可以用狀態(tài)轉(zhuǎn)移圖來表示,稱為轉(zhuǎn)移網(wǎng)絡(transitionnetwork,TN)。如圖10.2所示,圖中,q0,q1,…,qT是狀態(tài),q0是初態(tài),qT是終態(tài)?;∩辖o出了狀態(tài)轉(zhuǎn)移的條件以及轉(zhuǎn)移的方向。該網(wǎng)絡可用于分析句子,也可用于生成句子。用TN來識別句子"Thelittleorangeducksswallowflies"的過程見表10.1(這里忽略了詞法分析,網(wǎng)絡如圖10.3所示)。19第十九頁,共九十二頁,編輯于2023年,星期二識別過程到達f狀態(tài)(終態(tài)),所以該句子被成功地識別了。分析結(jié)果如圖10.4所示。從上述過程中可以看出,這個句子還可以在網(wǎng)絡中走其他弧,如詞ducks也可以走弧c→d,但接下來的swallow就找不到合適的弧了。此時對應于這個路徑,該句子就被拒識了。由此可以看出,網(wǎng)絡識別的過程中應找出各種可能的路徑,因此算法要采用并行或回溯機制。表10.1句子識別過程詞當前狀態(tài)弧新狀態(tài)20第二十頁,共九十二頁,編輯于2023年,星期二(1)并行算法。并行算法的關(guān)鍵是在任何一個狀態(tài)都要選擇所有可以到達下一個狀態(tài)的弧,同時進行試驗。(2)回溯算法?;厮菟惴▌t是在所有可以通過的弧中選出一條往下走,并保留其他可能性,以便必要時可以回過來選擇之。這種方式需要一個堆棧結(jié)構(gòu)。21第二十一頁,共九十二頁,編輯于2023年,星期二10.2.2擴充轉(zhuǎn)移網(wǎng)絡擴充轉(zhuǎn)移網(wǎng)絡ATN是由伍茲(Woods)在1970年提出來的,1975年卡普蘭(Kaplan)對其作了一些改進。ATN是由一組網(wǎng)絡所構(gòu)成的,每個網(wǎng)絡都有一個網(wǎng)絡名,每條弧上的條件擴展為條件加上操作。這種條件和操作采用寄存器的方法來實現(xiàn),在分析樹的各個成分結(jié)構(gòu)上都放上寄存器,用來存放句法功能和句法特征,條件和操作將對它們不斷地進行訪問和設置。ATN弧上的標記也可以是其他網(wǎng)絡的標記名,因此ATN是一種遞歸網(wǎng)絡。在ATN中還有一種空弧jump,它不對應任意句法成分也不對應任意輸入詞匯。22第二十二頁,共九十二頁,編輯于2023年,星期二

ATN的每個寄存器由兩部分構(gòu)成:句法特征寄存器和句法功能寄存器。在特征寄存器中,每一維特征都由一個特征名和一組特征值以及一個缺省值來表示。如“數(shù)”的特征維可有兩個特征值“單數(shù)”和“復數(shù)”,缺省值可以是空值。英語中動詞的形式可以用一維特征來表示:

Form:present,past,present-participle,past-participle.Default:present.

功能寄存器則反映了句法成分之間的關(guān)系和功能。分析樹的每個節(jié)點都有一個寄存器,寄存器的上半部分是特征寄存器,下半部分是功能寄存器。23第二十三頁,共九十二頁,編輯于2023年,星期二圖10.5所示是一個簡單的名詞短語(NP)的擴充轉(zhuǎn)移網(wǎng)絡,網(wǎng)絡中弧上的條件和操作如下所示:24第二十四頁,共九十二頁,編輯于2023年,星期二該網(wǎng)絡主要是用來檢查NP中的數(shù)的一致值問題。其中用到的特征是Number(數(shù)),它有兩個值singular(單數(shù))和plural(復數(shù)),缺省值是(空)。C是弧上的條件,A是弧上的操作,*是當前詞,proper是專用名詞,det是限定詞,PP是介詞短語,*.Number是當前詞的“數(shù)”。該擴充轉(zhuǎn)移網(wǎng)絡有一個網(wǎng)絡名NP。網(wǎng)絡NP可以是其他網(wǎng)絡的一個子網(wǎng)絡,也可以包含其他網(wǎng)絡,如其中的PP就是一個子網(wǎng)絡,這就是網(wǎng)絡的遞歸性?;P-1將當前詞的Number放入當前NP的Number中,而弧NP-4則要求當前noun的Number與NP的Number是相同時,或者NP的Number為空時,將noun作為NP的Number,這就要求det的數(shù)和noun的數(shù)是一致的。因此,thisbook,thebook,thebooks,thesebooks都可順利通過這一網(wǎng)絡,但是thisbooks,或thesebook就無法通過。如果當前NP是一個代詞(pron.)或者專用名詞(proper),那么網(wǎng)絡就從NP-5或NP-6通過,這時NP的數(shù)就是代詞或?qū)S妹~的數(shù)。PP是一個修飾前面名詞的介詞短語,一旦到達PP弧就馬上轉(zhuǎn)入子網(wǎng)絡PP.25第二十五頁,共九十二頁,編輯于2023年,星期二圖10.6是一個句子的ATN,主要用來識別主、被動態(tài)的句子,從中可以看到功能寄存器的應用。S網(wǎng)絡中所涉及的功能名和特征維包括:功能名:Subject(主語),Direct-Obj(直接賓語),Main-Verb(謂語動詞),Auxs.(助動詞),Modifiers(修飾語)。特征維:Voice(語態(tài)):Active(主動態(tài)),Passive(被動態(tài)),缺省值是Active。

Type(動詞類型):Be,Do,Have,Modal,Non-Aux,缺省值是Non-AuxaForm(動詞式):Inf不定式),Present(現(xiàn)在式),Past(過去式),Pres-part(現(xiàn)在分詞),Past-part(過去分詞),缺省值是Present。26第二十六頁,共九十二頁,編輯于2023年,星期二27第二十七頁,共九十二頁,編輯于2023年,星期二其中S-8:d→NoConditions,actionsorinitializations.是賦值操作,Subject←*即把當前成分放入名為Subject的功能寄存器(當前成分作主語)。是一種添加操作,Auxs.Main-Verb就是將當前的謂語動詞添加到Auxs功能寄存器中(原來Auxs中可能已有內(nèi)容)。在S網(wǎng)絡中,當弧S-2遇到第一個動詞時,就把它置入Main-Verb,但是在接下來的弧S-3中發(fā)現(xiàn)Main-Verb中剛才被置入的是助動詞,網(wǎng)絡操作就把Main-Verb中的內(nèi)容添加到Auxs寄存器的尾部。若Auxs為空,添加操作與賦值是相同的,但是當Auxs非空時(有幾個助動詞),這即是一個添加操作。另外,網(wǎng)絡中有一種dummy節(jié)點,這是一種空節(jié)點,用來表示一種形式上的或者預示的成分,如形式上的主語等。弧S-4和S-7就是對于被動態(tài)句子的分析和處理。弧S-4主要是識別被動態(tài)的謂語動詞,一旦確認是被動態(tài),則將當前的主語作為直接賓語,弧S-7用來處理被動態(tài)句子中by所引導的介詞短語,該介詞的賓語就是實際上的主語。當然,作為一個完整的ATN是相當復雜的,在實現(xiàn)過程中還必須解決許多問題,如非確定性分析、弧的順序、非直接支配關(guān)系的處理等。ATN方法在自然語言理解的研究中得到了廣泛應用。28第二十八頁,共九十二頁,編輯于2023年,星期二10.2.3詞匯功能語法(LFG)詞匯功能語法是由卡普蘭和布魯斯南(Bresnan)在1982年提出來的,它是一種功能語法,但更強調(diào)詞匯的作用。LFG用一種結(jié)構(gòu)來表達特征、功能、詞匯和成分的順序。ATN語法和轉(zhuǎn)換語法都是有方向性的,ATN語法的條件和操作要求語法的使用是有方向的,因為寄存器只有在被設置過之后才可被訪問。LFG的一個重要工作就是通過互不矛盾的多層描述來消除這種有序性限制。29第二十九頁,共九十二頁,編輯于2023年,星期二

LFG對句子的描述分為兩部分:直接成分結(jié)構(gòu)(constituentstructure,C-Structure)和功能結(jié)構(gòu)(functionalstructure,F-structure),C-Structure是由上下文無關(guān)語法產(chǎn)生的表層分析結(jié)果。在此基礎(chǔ)上,經(jīng)一系列代數(shù)變換產(chǎn)生F-Structure。LFG采用兩種規(guī)則:加入下標的上下文無關(guān)語法規(guī)則和詞匯規(guī)則。表10.2給出了一些詞匯功能語法的規(guī)則和詞條,其中↑表示當前成分的上一層次的直接成分,如規(guī)則中NP的↑就是S,VP的↑也是S;↓則表示當前成分。因此,(↑Subject)=↓就表示S的主語是當前NP?!啊础怠敝斜磉_的是句法模式,Hand=〈(↑Subject),(↑Object),(↑Object-2)〉,表示謂語動詞hand要有一個主語、一個直接賓語和一個間接賓語。用LFG語法對句子進行分析的過程如下:(1)用上下文無關(guān)語法分析獲得C-Structure,不考慮語法中的下標;該C-Structure就是一棵直接成分樹;(2)將各個非葉節(jié)點定義為變量,根據(jù)詞匯規(guī)則和語法規(guī)則中的下標,建立功能描述(一組方程式);(3)對方程式做代數(shù)變換,求出各個變量,獲得功能結(jié)構(gòu)F-Structure.30第三十頁,共九十二頁,編輯于2023年,星期二上述過程如果能夠得到一組以上的解,則句子就是可識別的,并獲得一個以上的分析結(jié)果。分析獲得多個解則說明原句子中存在著歧義現(xiàn)象,無解則說明無法識別。圖10.7就是句子“Agirlhandedherbabythetoys”的分析過程。方程的建立只要將↑用父節(jié)點變量來替代,令↓當前節(jié)點來代替即可。規(guī)定SNPVP的下標有兩組:一是(↑Subject)=↓,替換得到(x1,Subject)=x2;另一個是↑=↓即x1=x3。方程式(x1Subject)=x2的意義就是“x1的主語是x2”,因此,上面兩個方程式直接可用方程變換得到x1=x3=[Subject=x2]。在詞匯規(guī)則中,詞a對應了兩條規(guī)則(↑Definiteness)=Indefinite,(↑Number)=Singular,詞a的父節(jié)點就是NP,即x2,所以得到方程式(x2Definiteness)=Indefinite,(x2Number)=Singular.上述方程式通過解的合并和替代最終可以獲得如圖10.7所示的F-Structure。31第三十一頁,共九十二頁,編輯于2023年,星期二表10.2LFG語法與詞典32第三十二頁,共九十二頁,編輯于2023年,星期二

LFG同樣也可以用于句子的生成。分析和生成的區(qū)別僅在于第一步,分析是由句子到C-Structure,而生成則是由上下文無關(guān)語法直接產(chǎn)生C-Structure和句子。同樣,如果通過求解最終可有一個以上的解,則該句子就是正確的。33第三十三頁,共九十二頁,編輯于2023年,星期二10.2.4語義的解析建立句法結(jié)構(gòu)只是語言理解模型中的一個步驟,進一步則要求獲得語言所表達的意義。第一步是要確定每個詞在句子中所表達的詞義,這涉及詞義和句法結(jié)構(gòu)上的歧義問題,如英語詞go可有50種以上的意義。但即使一個詞的詞義很多,在一定的上下文條件下,在詞組中,其意義通常也是惟一的。這是由于受到了約束的原因。這種約束關(guān)系可以用一個邏輯形式來表示,通過這種邏輯形式來獲得詞義和句子的意義。第二步則更為復雜,即要根據(jù)已有的背景知識來確定語義,這就需要進一步的推理以得出正確的結(jié)果。如已知“張經(jīng)理開車去了商店”,要回答“張經(jīng)理是否坐進汽車?”這樣的問題,就首先要從“開車”這個詞義中得出“開車”與“坐進汽車”這兩個概念之間的關(guān)系,只有這樣才能正確地回答這個問題。34第三十四頁,共九十二頁,編輯于2023年,星期二邏輯形式表達是一種框架式的結(jié)構(gòu),它表達一個特定形式的事例及其一系列附加的事實,如“JackkissedJill"可以用如下邏輯形式來表達:

(PASTS1KISS-ACTION[AGENT(NAMEj1PERSON“Jack”)][THEMENAME(NAMEj2PERSON“Jill”)])

它表達了一個過去的事例S1。PAST是一個操作符,表示結(jié)構(gòu)的類型是過去的,S1是事例的名,KISS-ACTION是事例形式,AGENT和THEME是對象的描述,有施事和主位。邏輯形式表達對應的句法結(jié)構(gòu)可以是不同的,但表達意義應當是不變的。thearrivalofGeorgeatthestation和Georgearrivedatthestation在句法上一個是名詞短語,另一個是句子,但它們的邏輯形式是相同的。35第三十五頁,共九十二頁,編輯于2023年,星期二

(DEF/SINGa1ARRIVE-EVENT(AGENTa1(NAMEg1PERSON“George”))(TO-LOCa1(DEFS4STATION)))(PASTa2ARRIVE-EVENT[AGENTa1(NAMEg1PERSON“George")]TO-LOCa1(NAMES4STATION)])

在句法結(jié)構(gòu)和邏輯形式定義的基礎(chǔ)上,就可以運用語義解析規(guī)則,從而使最終的邏輯形式能夠有效地約束歧義。解析規(guī)則也是一種模式的映射變換。

(SSUBJ+animateMAIN-V+action-verb)

這一模式可以匹配任何有一個動作和一個有生命的主語體的句子。映射規(guī)則的形式為:

(SSUBJ+animateMAIN-V+action-verb)(?*T(MAIN-V))[AGENTV(SUBJ)]36第三十六頁,共九十二頁,編輯于2023年,星期二其中?表示尚無事件的時態(tài)信息,*代表一個新的事例。如果有下面這樣一個句法結(jié)構(gòu):

(SMAIN-VranSUBJ(NPTDEtheHEADman)TENSEpast)運用上述映射(這里假設NP的映射是用其他規(guī)則)得到:

(?r1RUN1[AGENT(DEF/SINGm1MAN)])時態(tài)信息可采用另一個映射規(guī)則:

(STENSEpast)(PAST??)合并上述的映射就可最終獲得邏輯形式表示:

(PASTr1RUN1[AGENT(DEF/SINGm1MAN)])

這里只是一個簡單的例子。在規(guī)則的應用中,還需要有很多的解析策略。37第三十七頁,共九十二頁,編輯于2023年,星期二10.3句子的自動理解句子一般有簡單句和復合句之分。簡單句的理解比復合句要容易,也是理解復合句的基礎(chǔ)。因此,下面首先討論簡單句的理解,然后討論復合句的理解。38第三十八頁,共九十二頁,編輯于2023年,星期二10.3.1簡單句的理解方法由于簡單句是可以獨立存在的,因而為了理解一個簡單句,即建立起一個和該簡單句相對應的機內(nèi)表達,需要做以下兩方面的工作:

(1)理解語句中的每一個詞。

(2)以這些詞為基礎(chǔ)組成一個可以表達整個語句意義的結(jié)構(gòu)。39第三十九頁,共九十二頁,編輯于2023年,星期二第一項工作看起來很容易,似乎只是查一下字典就可以解決。而實際上,由于許多單詞有不只一種含義,因而只由單詞本身往往不能確定其在句中的確切含義,需要通過語法分析和上下文關(guān)系等才能最終確定。例如,單詞:“diamond"有“菱形”、“棒球場”和“鉆石”三種意思,在語句

"JohnsawSusan’sdiamondshimmeringfromacrosstheroom.”中,由于“shimmering"的出現(xiàn),顯然可以確定"diamond"是“鉆石”的含義,因為“菱形”和“棒球場”都不會閃光。再如在語句“I’llmeetyouatthediamond.”中,由于“at”后面需要一個時間或地點名詞作為它的賓語,因而顯然這里的“diamond"是“棒球場”的含義,而不可能是其他含義。40第四十頁,共九十二頁,編輯于2023年,星期二第二項也是一個比較困難的工作。因為要聯(lián)合單詞來構(gòu)成表示一個句子意義的結(jié)構(gòu),需要依賴各種信息源,其中包括所用語言的知識、語句所涉及領(lǐng)域的知識以及有關(guān)該語言使用者應共同遵守的習慣用法的知識。由于這個解釋過程涉及許多事情,因而常常將這項工作分成以下三個部分來進行:(1)句法分析將單詞之間的線性次序變換成一個顯示單詞如何與其他單詞相關(guān)聯(lián)的結(jié)構(gòu)。(2)語義分析各種意義被賦予由句法分析程序所建立的結(jié)構(gòu),即在句法結(jié)構(gòu)和任務領(lǐng)域內(nèi)的對象之間進行映射變換。(3)語用分析用于確定真正含義,對表達的結(jié)構(gòu)重新加以解釋。實際上,這三個階段之間是相互關(guān)聯(lián)的,總是以各種方法相互影響著。盡管在某種程度上把它們分開是有效的,但絕對分開是不可能的。41第四十一頁,共九十二頁,編輯于2023年,星期二1.關(guān)鍵字匹配法最簡單的自然語言理解方法,也許要算是關(guān)鍵字匹配法了,它在一些特定場合下是有效的。其方法簡單歸納起來是這樣的:在程序中規(guī)定匹配和動作兩種類型的樣本,然后建立一種由匹配樣本到動作樣本的映射。當輸入語句與匹配樣本相匹配時,就去執(zhí)行相應樣本所規(guī)定的動作,這樣從外表看來似乎機器真正實現(xiàn)了能理解用戶問話的目的。例如,在一個列車運行數(shù)據(jù)庫系統(tǒng)中,規(guī)定了以下幾個匹配樣本:

(1)從<處所>到<處所>有<車種>嗎?

(2)從<處所>到<處所>有<?數(shù)量><車種>?

(3)從<處所>到<處所>有<?指數(shù)量><車種>?

(4)<車次>在<處所>停嗎?42第四十二頁,共九十二頁,編輯于2023年,星期二

(5)<車次>經(jīng)過<處所>嗎?

(6)<車次>有<車組>嗎?

(7)到<處所>的<車種>都有<車組>嗎?

(8)<車次><?原因>沒有<車組>?

(9)<車次><?原因>有<車組>?

(10)<車次><?時刻>從<處所>開出?

(11)<車次><?時刻>到達<處所>?

(12)從<處所>到<處所><?指數(shù)量><車次>最快?43第四十三頁,共九十二頁,編輯于2023年,星期二其中,<…>可與任何具有規(guī)定特性的單詞匹配,如<處所>可以和“北京”、“上?!钡缺硎镜攸c的單詞匹配;<車種>可以和“特快”、“直快”等匹配;<?數(shù)量>可與“幾趟”等匹配;<?指數(shù)量>可與“哪幾趟”等匹配;<車組>可與“餐車”、“臥鋪”等匹配,<?原因>可與“為什么”、“怎么”等匹配;<?時刻>可與“什么時候”、“幾點”等匹配。如果你輸入:“從北京到上海有特快嗎?”該語句剛好與第一個匹配樣本相匹配,從而系統(tǒng)也就“理解”了你的問話,并去檢索數(shù)據(jù)庫,查看從北京到上海是否有特快,然后給出回答。這種關(guān)鍵字匹配的方法,在類似的數(shù)據(jù)庫咨詢系統(tǒng)中作為自然語言接口,顯得特別有效,雖然它不具有任何意義下的理解。44第四十四頁,共九十二頁,編輯于2023年,星期二2.句法分析樹法關(guān)鍵字匹配法雖然簡單,但卻忽略了語句中的大量信息。為確保語句含義的細節(jié)不被忽略,必須確定其語句結(jié)構(gòu)上的細節(jié),即要進行文法分析。為此,必須首先給出說明該特定語言中符號串結(jié)構(gòu)的文法,以便為每個符合文法規(guī)則的語句產(chǎn)生一個稱為文法分析樹的結(jié)構(gòu)。關(guān)于文法的形式,在許多自然語言處理程序中提出過很多各不相同的定義,作為一個例子,下面給出一種文法的形式化定義。文法G在其形式上為如下的四元組:

G=(V,,P,S)

其中,V為有窮非空集,稱為總詞匯表,為V的一個非空子集,稱為終結(jié)字母表,而N=V-,稱為非終結(jié)字母表;P為如下形式的有窮產(chǎn)生式集:

式中V*NV*,V*,*表示它前面的字符可以重復出現(xiàn)任意次;S為非終結(jié)字母表的一個元素,稱為起始符。45第四十五頁,共九十二頁,編輯于2023年,星期二下面給出的是一個英語子集的簡單文法:

SNPVPNPtheNP1NPNP1ADJS

|ADJADJSVPVVPVNPNJoe|boy|ballADJlittle|digVhit|ran其中,大寫的是非終結(jié)符,小寫的是終結(jié)符,C-表示空字符串。圖10.8是使用該文法對語句“Joehittheball.”進行句法分析而建立的文法分析樹。46第四十六頁,共九十二頁,編輯于2023年,星期二使用給定文法,對輸入語句進行分析找到一個文法分析樹的過程,可以看成是一個搜索過程。為實現(xiàn)該過程,可以使用自頂向下的處理方法,這和正向推理有些相像。它首先從起始符開始,然后應用P中的規(guī)則,一層一層地向下產(chǎn)生樹的各個分支,直到一個完整的句子結(jié)構(gòu)被生成出來為止。如果該結(jié)構(gòu)與輸入語句相匹配,則成功結(jié)束;否則,便從頂層重新開始,生成其他句子結(jié)構(gòu),直到結(jié)束為止。也可以使用自底向上的處理方法,這和逆向推理有些相像。它以輸入語句的詞為基礎(chǔ),首先從P中查找規(guī)則,試圖把這些詞歸并成較大的結(jié)構(gòu)成分,如短語或子句等,然后再對這些成分進行進一步的組合,反向生成文法分析樹,直到樹的根節(jié)點是起始符為止。無論使用哪種處理方法,都要遇到像詞性選擇這類問題。比如can這個詞,既可以是助動詞,又可以是名詞,對于這樣從多重選擇中作出判斷的問題,可以使用與搜索過程相似的控制策略。假如使用回溯策略,可首先假定can是一個助動詞,當在以后的分析出現(xiàn)矛盾時,再進行回溯,重新選擇can的詞性為名詞。47第四十七頁,共九十二頁,編輯于2023年,星期二3.語義分析只是根據(jù)詞性信息來分析一個語句文法結(jié)構(gòu),是不能保證其正確性的,這是因為有些句子的文法結(jié)構(gòu)需要借助于詞義信息來確定,也就是要進行語義分析。進行語義分析的一種簡單方法是使用語義文法。所謂語義文法是在傳統(tǒng)的短語結(jié)構(gòu)文法的基礎(chǔ)上,將N(名詞),V(動詞)等語法類別的概念,用所討論領(lǐng)域的專門類別來代替。下面給出的是為艦船管理數(shù)據(jù)庫系統(tǒng)提供自然語言接口的示例系統(tǒng)中的語義文法片斷:S→whatisSHIP-PROPERTYofSHIP?SHIP-PROPERTY→

theSHIP-PROP|SHIP-PROPSHIP-PROP→speed|length|draft|beam|typeSHIP→SHIP-NAME|thefastestSHIP2|thebiggestSHIP2|SHIP2SHIP-NAME→Huanghe|Changjiang|Jinshajiang|…48第四十八頁,共九十二頁,編輯于2023年,星期二SHIP2→COUNTRYSSHIP3|SHIP3SHIP3→SHIPTYPELOC|SHIPTYPESHIPTYPE→carrier|submarine|rowboatCOUNTRYS→American|French|British|Russian…LOC→inthepacific|intheMediterranean|…從上例可以看出,該文法使用的語義類別為SHIP和LOC,而不包括文法的非終結(jié)類別,如NP和VP等。對于語義文法的分析方法,可以使用與分析純的文法結(jié)構(gòu)相類似的方法。以上介紹的只是處理簡單句理解問題的一些較簡單的方法,使用這些方法,能夠解決一些實際問題,但也存在很多的不足,如關(guān)鍵字匹配法會遺失語句中的很多信息;語義文法由于要用語義類別來代替文法類別,從而失去了許多文法上的高度概括,使得規(guī)則數(shù)量龐大,導致文法分析過程變得“昂貴”起來。49第四十九頁,共九十二頁,編輯于2023年,星期二10.3.2復合句的理解方法如上所述,簡單句的理解不涉及句與句之間的關(guān)系,它的理解過程首先是賦單詞以意義,然后再給整個語句賦以一種結(jié)構(gòu)。而一組語句的理解,無論它是一個文章選段還是一段對話節(jié)錄,均要求發(fā)現(xiàn)句子之間的相互關(guān)系。在特定的文章中,這些關(guān)系的發(fā)現(xiàn),對于理解起著十分重要的作用。這種關(guān)系包括以下幾種:(1)相同的事物,例如,“珊珊有只紅氣球。莎莎想要它?!眴卧~“它”和“紅氣球”指的是同一物體。50第五十頁,共九十二頁,編輯于2023年,星期二(2)事物的一部分,例如,“小琴翻開她剛買的書。扉頁已被撕壞了?!薄办轫摗敝傅氖恰皠傎I的書”的一部分。(3)行動的一部分,例如,“王剛出差去上海。他乘早班飛機動身”。乘飛機應看成是出差的一部分。(4)與行動有關(guān)的事物,例如,“李明決定騎車去商店。他走到車棚,可是發(fā)現(xiàn)他的自行車沒氣了?!崩蠲鞯淖孕熊噾斫鉃槭桥c他騎車去商店這一行動有關(guān)的事物。(5)因果關(guān)系,例如,“昨天有一場暴風雪。所以學校今天停課”。下雪應理解為是停課的原因。51第五十一頁,共九十二頁,編輯于2023年,星期二(6)計劃次序,例如,“小麗想買輛新車。她決定找一份工作干?!毙←愅蝗粚ぷ鞲信d趣,應理解為是由她想買一輛新車,買新車需要錢而引起的。要能做到理解這些復雜的關(guān)系,必須具有相當廣泛的領(lǐng)域知識才行,也就是要依賴于大型的知識庫,而且知識庫的組織形式對能否正確理解這些關(guān)系,起著很重要的作用。如果知識庫的容量較大,則有一點比較重要,即如何將問題的焦點集中于知識庫的相關(guān)部分。例如,我們來看如下的文章片段:“接著,把水泵固定到工作臺上。螺栓就放在小塑料袋中?!钡诙渲械穆菟?應該理解為是用來固定水泵的螺栓。因此,如果在理解全句時,把需用的螺栓置于“焦點”之中,則全句的理解就不成問題了。為此,我們需要表示出和“固定”有關(guān)的知識,以便當見到“固定”時,能方便地提取出來。52第五十二頁,共九十二頁,編輯于2023年,星期二圖10.9給出的是一個與固定水泵有關(guān)的分區(qū)語義網(wǎng)絡。所謂分區(qū)語義網(wǎng)絡,就是將語義網(wǎng)絡中的有關(guān)弧和節(jié)點集中起來,組成一個分區(qū)。圖10.9所示的分區(qū)語義網(wǎng)絡具有4個分區(qū):S0分區(qū)含有一些一般的概念,如美元、兌換和螺栓等;S1分區(qū)含有與購買螺栓有關(guān)的特殊實體;S2分區(qū)含有與把水泵固定在工作臺上這一操作有關(guān)的特殊實體;S3分區(qū)含有與同一固定操作有關(guān)的特殊實體等。運用分區(qū)語義網(wǎng)絡,利用其分區(qū)在某些層次上的關(guān)聯(lián),可以較好地處理集中焦點的問題。當某一分區(qū)為焦點時,則某高層分區(qū)內(nèi)的元素即變?yōu)榭捎^察的了。對于上例,當?shù)诙浔焕斫鈺r,因其講的是“將水泵固定在工作臺上”這一事件,因而圖10.9中分區(qū)語義網(wǎng)絡示例焦點處于S2分區(qū)。由于S0分區(qū)的層次高于S2分區(qū),所以S0分區(qū)是可以觀察的。當理解第二句時,顯然“螺栓”不能與S2分區(qū)的任何元素匹配,因而焦點區(qū)由S2變成更低一級的S3分區(qū),并且使得“螺栓”與B1匹配,匹配的結(jié)果使得第二句中的“螺栓”必定是第一句中用來進行固定的螺栓,從而使得前后兩個句子成為一個前后連貫的文章片斷。53第五十三頁,共九十二頁,編輯于2023年,星期二54第五十四頁,共九十二頁,編輯于2023年,星期二當輸入的文章片斷描述的是有關(guān)人或物的行為等情節(jié)時,可以使用目標結(jié)構(gòu)的方法來幫助理解。例如,“王強很想喝汽水。他向行人打聽最近的冷飲店在哪里?!睂τ谶@樣的情節(jié),弄清楚人物的目標及其如何達到目標是理解的重點。在上例中,目標是要得到汽水喝,為此,王強必須去冷飲店,而要去冷飲店則必須知道冷飲店的位置,為了達到這一新的子目標,王強應該去詢問別人。從而得出達到目標的行為規(guī)則:詢問某人→得知冷飲店→去冷飲店→買汽水→喝汽水為了便于理解,對于這些常常出現(xiàn)的各種目標,可以編寫好相應的規(guī)劃,一旦需要時就去調(diào)用它們。這樣,當情節(jié)中某些信息省略時,也可以通過這些規(guī)劃推導出來。55第五十五頁,共九十二頁,編輯于2023年,星期二10.4語言的自動生成語言生成就是把在計算機內(nèi)部以某種形式存放的需要交流的信息,以自然語言的形式表達出來,因而從某種意義上來說,語言生成是自然語言理解的一個逆過程。一般包括以下兩部分:(1)建立一種結(jié)構(gòu),以表達出需要交流的信息。也就是進行“構(gòu)思”,確定要“說”的內(nèi)容。(2)以適當?shù)脑~匯和一定的句法規(guī)則,把需要交流的信息以句子形式表達出來。與自然語言理解一樣,語言生成的處理方法有很多種,這不僅由于它們所采用的內(nèi)部表達結(jié)構(gòu)不同(如采用語義網(wǎng)絡或者概念從屬等),而且由于語言生成的目的也有所不同(如有的是為了對輸入文章做摘要,有的是為了作為問題回答系統(tǒng)的人機界面等)。56第五十六頁,共九十二頁,編輯于2023年,星期二語言生成也有許多難點,特別是第一部分,顯得更加困難一些。有時,要交流的信息由問題回答系統(tǒng)在回答問題時加以估計。在這些系統(tǒng)中,信息的生成過程要受到回答問題的約束。在語言生成系統(tǒng)中遇到的許多問題與在自然語言理解系統(tǒng)中所遇到的問題是一樣的。例如,在自然語言理解系統(tǒng)中必須消除頭語(字詞或短語)的重復引用問題,為生成好的文章,也必須解決好這個問題。請看下面的短文:“李強看到商店櫥窗里的一輛自行車。李強想要那輛自行車。”這篇短文顯得不太自然,其原因就是沒有使用代詞。若用代詞替代已出現(xiàn)過的事物,則生成的短文就自然一些:“李強看到商店櫥窗里的一輛自行車,他想要它?!钡?也不是對任何句子都可以這樣簡單地處理,其必要條件是所得到的句子不至于因代詞的出現(xiàn)而產(chǎn)生多義性。例如,假定原文為:57第五十七頁,共九十二頁,編輯于2023年,星期二“王飛看到閃光的推車里的一個藍氣球。王飛想要這個藍氣球?!比艉唵蔚厥褂么~,則會產(chǎn)生:“王飛看到閃光的推車里的一個藍氣球,他想要它?!边@里的“它”就有二義性,它有可能是指氣球,也可能是指小推車。為了使得短文不至于產(chǎn)生二義性,這里應該生成以下這樣的短文:“王飛看到閃光的推車里的一個藍氣球,他想要這個氣球。”這樣得到的文章就顯得既自然,又沒有二義性了??傊?語言生成需要解決幾乎所有的在自然語言理解中遇到的問題,其處理方法也可以使用在自然語言理解中所使用的各種方法。58第五十八頁,共九十二頁,編輯于2023年,星期二10.5文本的自動翻譯-機器翻譯電子計算機出現(xiàn)之后不久,人們就想使用它來進行機器翻譯。只有在理解的基礎(chǔ)上才能進行正確的翻譯,否則,將遇到一些難以解決的困難:(1)詞的多義性。源語言可能一詞多義,而目的語言要表達這些不同的含義需要使用不同的詞匯。為選擇正確的詞,必須了解所表達的含義是什么。(2)文法多義性。對源語言中合乎文法規(guī)則但具有多義的句子,其每一可能的意思均可在目的語言中使用不同的文法結(jié)構(gòu)來表達。(3)頭語重復使用。源語言中的一個代詞可以指多個事物,但在目的語言中要有不同的代詞,正確地選用代詞需要了解其確切的指代對象。(4)成語。必須識別源語言中的成語,它們不能直接按字面意思翻譯成目的語言。59第五十九頁,共九十二頁,編輯于2023年,星期二機器翻譯,就是讓機器模擬人的翻譯過程。人在進行翻譯之前,必須掌握兩種語言的詞匯和語法。機器也是這樣,它在進行翻譯之前,在它的存儲器中已經(jīng)存儲了語言學工作者編好并由數(shù)學工作者加工過的機器詞典和機器語法。人進行翻譯時所經(jīng)歷的過程,機器也同樣遵照執(zhí)行:先查詞典得到詞的意義和一些基本的語法特征(如詞類等),如果查到的詞不止一個意義,那么就要根據(jù)上下文選取所需要的意義。在弄清詞匯意義和基本語法特征之后,就要進一步明確各個詞之間的關(guān)系。此后,根據(jù)譯語的要求組成譯文(包括改變詞序、翻譯原文詞的一些形態(tài)特征及修辭)。機器翻譯的過程一般包括4個階段:原文輸入、原文分析(查詞典和語法分析)、譯文綜合(調(diào)整詞序、修辭和從譯文詞典中取詞)和譯文輸出。下面以英漢機器翻譯為例,簡要地說明一下機器翻譯的整個過程。60第六十頁,共九十二頁,編輯于2023年,星期二1.原文輸入由于計算機只能接受二進制數(shù)字,所以字母和符號必須按照一定的編碼法轉(zhuǎn)換成二進制數(shù)字。例如Whatarecomputers這三個詞就要變?yōu)橄旅孢@樣三大串二進制代碼:

What110110100111100000110011are100000110001110100computers1000101011101011001011111101001100111001001100011100102.原文分析原文分析包括兩個階段:查詞典和語法分析。(1)查詞典。通過查詞典,給出詞或詞組的譯文代碼和語法信息,為以后的語法分析及譯文的輸出提供條件。機器翻譯中的詞典按其任務不同分成以下幾種:

①綜合詞典:它是機器所能翻譯的文獻的詞匯大全,一般包括原文詞及其語法特征(如詞類)、語義特征和譯文代碼,以及對其中某些詞進一步加工的指示信息(如同形詞特征、多義詞特征等)。

②成語詞典:為了提高翻譯速度和質(zhì)量,可以把成語詞典放到綜合詞典前面。例如,atthesametime,不必經(jīng)過綜合詞典得到每個詞的信息后再到成語詞典去找,可直接得到“副詞狀語”特征和“同時”的譯文。61第六十一頁,共九十二頁,編輯于2023年,星期二

③同形詞典:專門用來區(qū)分英語中有語法同形現(xiàn)象的詞。例如close一詞,經(jīng)過綜合詞典加工未得到任何具體的詞類,而只得到該詞是形/動同形詞的指示信息。該詞轉(zhuǎn)到這里后,按照同形詞典所提供的檢驗方法,來確定它在句中到底是用作形容詞還是動詞。同形詞典是根據(jù)語言中各類詞的形態(tài)特征和分布規(guī)律構(gòu)成的。例如,動詞、形容詞同形的圖示中,就有這樣的規(guī)則:close后有er,est為形容詞,處于“冠詞+close+名詞”和“形容詞+close+名詞”等環(huán)境時也為形容詞,……。

④(分離)結(jié)構(gòu)詞典:某些詞在語言中與其他詞可構(gòu)成一種可嵌套的固定格式,我們稱這類詞為分離結(jié)構(gòu)詞。根據(jù)這種固定搭配關(guān)系,可以簡便而又切實地給出一些詞的詞義和語法特征(尤其是介詞),從而減輕了語法分析部分的負擔。例如:effectof...on.62第六十二頁,共九十二頁,編輯于2023年,星期二

⑤多義詞典:語言中一詞多義現(xiàn)象很普遍,為了解決多義詞問題,必須把源語的各個詞劃分為一定的類屬組。例如,名詞就要細分為專有名詞、物體類名詞、不可數(shù)物質(zhì)名詞、抽象名詞、方式方法類名詞、時間類名詞、地點類名詞等。利用這樣的語義類別來區(qū)分多義現(xiàn)象,是一種比較普遍的方法。例如effect一詞,當它前面是專有名詞(例如人名)時,要選擇“效應”為其詞義,如Barreteffect"巴勒特效應”;當它處在表示“過程”意義的動名詞之后時就要譯為“作用”,如Deoxidizingeffect“脫氧作用”。這種利用語義搭配的辦法并非萬能,但能解決相當一部分問題。通過查詞典,原文句中的詞在語法類別上即可成為單功能的詞,在詞義上成為單義詞(某些介詞和連詞除外)。這樣就給下一步語法分析創(chuàng)造了有利條件。63第六十三頁,共九十二頁,編輯于2023年,星期二(2)語法分析。在詞典加工之后,輸入句就進入語法分析階段。語法分析的任務是:進一步明確某些詞的形態(tài)特征;切分句子;找出詞與詞之間句法上的聯(lián)系,同時得出英漢語的中介成分。一句話,為下一步譯文綜合做好充分準備。根據(jù)英漢語對比研究發(fā)現(xiàn),翻譯英語句子除了翻譯各個詞的意義之外,主要是調(diào)整詞序和翻譯一些形態(tài)成分。為了調(diào)整詞序,首先必須弄清需要調(diào)整什么,即找出調(diào)整的對象。根據(jù)分析,英語句子一般可以分為這樣一些詞組:動詞詞組,名詞詞組,介詞詞組,形容詞詞組,分詞詞組,不定式詞組,副詞詞組。正是這些詞組承擔著各種句法功能:謂語,主語,賓語,定語,狀語,…,其中除謂語外,都可以作為調(diào)整的對象。64第六十四頁,共九十二頁,編輯于2023年,星期二如何把這些詞組正確地分析出來,是語法分析部分的一個主要任務。上述幾種詞組中需要專門處理的,實際上只是動詞詞組和名詞詞組。不定式詞組和分詞詞組可以說是動詞詞組的一部分,可以與動詞同時加工:動詞前有to,且又不屬于動詞詞組,一般為不定式詞組;-ed詞如不屬于動詞詞組,又不是用作形容詞,便是分詞詞組;-ing詞比較復雜,如不屬于動詞詞組,還可能是某種動名詞,如既不屬于動詞詞組,又不為動名詞,則是分詞詞組。形容詞詞組確定起來很方便,因為可以構(gòu)成形容詞詞組的形容詞在詞典中已得到“后置形容詞”特征。只要這類形容詞出現(xiàn)在“名詞+后置形容詞+介詞+名詞”這樣的結(jié)構(gòu)中,形容詞詞組便可確定。介詞詞組更為簡單,只要同其后的名詞詞組連結(jié)起來也就構(gòu)成了。比較麻煩的是名詞詞組的構(gòu)成,因為要解決由連詞and和逗號引起的一系列問題。65第六十五頁,共九十二頁,編輯于2023年,星期二3.譯文綜合譯文綜合比較簡單,事實上,它的一部分工作(如該調(diào)整哪些成分和調(diào)整到什么地方)在上一階段已經(jīng)完成。這一階段的任務主要是把應該移位的成分調(diào)動一下。如何調(diào)動,即采取什么樣的加工方法,是一個不平常的問題。根據(jù)層次結(jié)構(gòu)原則,下述方法被認為是一種合理的加工方法:首先加工間接成分,從后向前依次取詞加工,也就是從句子的最外層向內(nèi)層加工;其次是加工直接成分,依成分取詞加工;如果是復句,還要分別情況進行加工:對一般復句,在調(diào)整各分句內(nèi)部各種成分之后,各分句都作為一個相對獨立的語段處理,采用從句末(即從句點)向前依次選取語段的方法加工;對包孕式復句,采用先加工插入句,再加工主句的方法。因為若不提前加工插入句,主句中跟它有聯(lián)系的那個成分一旦移位,它就失去了自己的聯(lián)系詞,整個關(guān)系就要混亂。66第六十六頁,共九十二頁,編輯于2023年,星期二譯文綜合的第二個任務是修辭加工,即根據(jù)修辭的要求增補或刪掉一些詞,比如可以根據(jù)英語不定冠詞、數(shù)詞與某類名詞搭配增補漢語量詞“個”、“種”、“本”、“條”、“根”等;再如若有even(甚至)這樣的詞出現(xiàn),謂語前可加上“也”字;又如若主語中有every(每個)、each(每個)、all(所有)、everybody(每個人)等詞,謂語前可加上“都”字,等等。譯文綜合的第三個任務是查漢文詞典,根據(jù)譯文代碼(實際是漢文詞典中漢文詞的順序號)找出漢字的代碼。67第六十七頁,共九十二頁,編輯于2023年,星期二4.譯文輸出通過漢字輸出裝置將漢字代碼轉(zhuǎn)換成文字,打印出譯文來。目前世界上已有十多個面向應用的機器翻譯規(guī)則系統(tǒng)。其中一些是機助翻譯系統(tǒng),有的甚至只是讓機器幫助查詞典,但是據(jù)說也能把翻譯效率提高50%。這些系統(tǒng)都還存在一些問題,有的系統(tǒng),人在其中參與太多,有所謂“譯前加工”、“譯后加工”、“譯間加工”,與真正的實際應用還有一段距離。68第六十八頁,共九十二頁,編輯于2023年,星期二10.6自然語言理解系統(tǒng)的主要模型語言交流是一種基于知識的通信處理過程,說話者和聽話者都是在做信息處理。確切地說,人類尚未揭開人腦處理和理解語言的奧秘,要想用計算機的符號處理和推理功能來實現(xiàn)語言理解,首先要具備一些基本的處理能力。下面討論語言理解的模型。1.基本模型說話者都有一個明確的說話目的,如表達一個觀點,傳達某一信息,或指使對方去干某事,然后通過處理生成一串文字或聲音供接收者處理。其中說話者要選擇用詞、句子結(jié)構(gòu)、重音、語調(diào)等,還必須融入以前或上一段談話時所積累的知識等。圖10.10表示自然語言理解的基本模型。69第六十九頁,共九十二頁,編輯于2023年,星期二70第七十頁,共九十二頁,編輯于2023年,星期二2.單邊模型從語言產(chǎn)生或接收單邊來看,認知處理過程如圖10.11所示。對于語言輸入來說,首先是聲音或文字識別,然后是語言的句法分析,建立句法結(jié)構(gòu),最后是語義概念的表達和推理。71第七十一頁,共九十二頁,編輯于2023年,星期二3.層次模型語言的構(gòu)成是層次化的,語言的處理也應當是一個層次化的過程。分層可以使一個非常復雜的過程分解為一個個模塊化的、模塊間相互獨立的、有步驟的過程,如圖10.12所示。從圖上方向下走是一個語言理解的過程,而自底向上是一個語言生成的過程。圖中左邊的知識是長期存儲的,而右邊的數(shù)據(jù)則是短期存儲的。上述分層模型提供了一個順序逐層處理的過程,但是正如上面已經(jīng)提到的,事實上,人對語言的處理也并不是完全依此逐層進行的。人們常常要從語義的角度來理解句法結(jié)構(gòu),從句法結(jié)構(gòu)的角度來分析詞類,不然則無法理解。在生活中經(jīng)常會碰到一些話,它們完全不合傳統(tǒng)的語法,但卻同樣可以被人聽懂和理解就是這個道理。因此,如果系統(tǒng)嚴格地按照這種逐層方式來工作是很不可靠的,只要在低層次上稍有問題,整個理解過程就會完全崩潰。比如在輸入時,文字中只要有一個詞拼寫錯誤,整個句子就變成無法理解的了。而事實上,人在處理時完全具備了這種容錯的能力。72第七十二頁,共九十二頁,編輯于2023年,星期二73第七十三頁,共九十二頁,編輯于2023年,星期二更為完善的模型可以通過保留上述分層模型,但打破層次界限來建立,典型地可采用“黑板”系統(tǒng)的方式進行。在上述分層模型中,將所有的數(shù)據(jù)存取都放入“黑板”,各個處理層都可以訪問,而且處理結(jié)果再寫入“黑板”。這樣,每個處理器不限于只能用上一級的結(jié)果,而可以使用所有層次的信息。74第七十四頁,共九十二頁,編輯于2023年,星期二10.7自然語言理解系統(tǒng)應用舉例自然語言理解研究雖然尚存在不少困難,但已有較大進展,并已獲得越來越廣泛的應用。下面介紹三個應用實例,即自然語言自動理解系統(tǒng)、機器翻譯系統(tǒng)和自然語言問答系統(tǒng)。75第七十五頁,共九十二頁,編輯于2023年,星期二10.7.1自然語言自動理解系統(tǒng)1.指揮機器人的自然語言理解系統(tǒng)SHRDLUSHRDLU系統(tǒng)是由MIT研制的,這個系統(tǒng)可用自然語言來指揮機械手在桌面上擺弄積木,按一定的要求重新安排積木塊的空間位置。SHRDLU可與用戶進行人機對話,接收自然語言,把它變?yōu)橄鄳闹噶?并進行邏輯推理,從而回答關(guān)于桌面上積木世界的各種問題。系統(tǒng)在LISP語言的基礎(chǔ)上設計了一種MICRO-PLANNER程序語言,用它來表示各種指令、事實和推理過程。如“thepyramidisonthetable“(棱錐體在桌子上),MICRO-PLANNER可以把它變換成如下形式(ONPYRAMIDTABLE)。如果要把積木x放到另一塊積木y上,則可以進行如下推理:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論