版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
人工智能與機器翻譯
單詞與詞組分析
主講:楊憲澤
第5章單詞與詞組的處理與分析
第5章單詞與詞組的處理與分析
對于機器翻譯研究來說,本章的第一任務是要建立語言的
機器詞典,這一機器詞典是多語言的。例如各自的藏,英,漢語
機器詞庫。
單詞與詞組的處理與分析,對于漢語來說,首先必須要進行
單詞的自動切分。自動切分歧義部分是解決的難點,不但可能
用到規(guī)則推理,而且還可能用到語法分析,語義用分析,更詳細
的過程可以結合第六章等一起研究。
詞語分類和兼類的分析與處理是本章研究的又一重點。
本章的最后將研究詞處理的一些細節(jié)問題。
-0^^第5章單詞與詞組的處理與分析
5.1機器詞典概述
人工翻譯離不開詞典,當然,機器翻譯也離
不開機器詞典。機器詞典也被稱為電子詞典,簡
稱詞典。機器詞典的作用在機器翻譯中是最重要
的,因為做任何機器翻譯工作都必須通過查機器
詞典來得到相關的翻譯元素---單詞和詞組。如何
有效的組織、建立機器詞典,如何更好地利用機
器詞典中包含的各種知識,是一個值得深入研究
的課題。
第5章單詞與詞組的處理與分析
5.1.1基于分析和轉(zhuǎn)換的機器翻譯方法
機器詞典的作用:
(1)機器詞典的好壞是更好的實現(xiàn)實用化機器翻譯系統(tǒng)軟件的障礙之一。現(xiàn)
有的一些機器翻譯系統(tǒng)在達到實用化階段時往往因為機器詞典規(guī)模的限制阻礙了
性能的進一步提高。因為語言詞匯是一個開放的集合,無論建立多么龐大的詞
典,都不可能窮舉所有的詞。而且,隨著時間的推移,還會出現(xiàn)大量的新詞。因
比,只有盡可能的擴充機器詞典的規(guī)模,才可能使機器翻譯系統(tǒng)更實用,更會被
更多的行業(yè)、更多的人所接受。
(2)機器詞典是機器翻譯的質(zhì)量的關鍵,要達到機器翻譯的全自動、高質(zhì)量,
就必須有一部信息豐富、易于使用的機器詞典。一部好的機器詞典不僅要有龐大
為數(shù)量,而且要有盡可能高的質(zhì)量,只要這樣,才可能是機器翻譯的質(zhì)量更高。
(3)電子詞典(機器詞典)不僅可以用于機器翻譯,而且也可以用在自然語
言理解、自然語言處理諸多方面。因此,電子詞典(機器詞典)是大峽知識工
程的基礎工作,它可以為知識系統(tǒng)提供一個基本的知識超1
第5章單詞與詞組的處理與分析
對于機器翻譯系統(tǒng)來說,為了適應不同專業(yè)領域的翻譯要求,需要配有大
量的專業(yè)詞匯。因此,機器翻譯系統(tǒng)的詞典又可以分為通用詞典和專業(yè)詞典兩部
分。如專門的縮略語詞典、特殊字詞典等等。還可以把通用詞典再細分為名詞詞
典、動詞詞典、成語詞典等等。
機器詞典的組織機構對于提高詞語的檢索速度是非常主要的。一定的組織結
構形式和相應的算法相配合,可以節(jié)約存儲空間,提高檢索速度,從而提高機器
翱譯系統(tǒng)的整體翻譯速度。
機器詞典從存儲形式來看,可以分為定長字段型、變長字段型和定變長混
合型三種類型;從索引格式看,可以分為一級索引和多級索引等等。
詞語的長短是不同的,例如,某些常用詞的信息特別豐富,書本詞典可以占
滿幾頁,而有一些詞語卻只要一行。這樣,如果所有詞語都使用定長字段,則必
須依據(jù)最長詞語確定字段長度,而相當多的短詞語將浪費巨大的存儲空間。所以,
般情況下一條詞語的有關信息的存儲都采用變長形式,這可以用鏈罌作實現(xiàn)。
第5章單詞與詞組的處理與分析
5.2自動分詞
漢語自動分詞是我國計算機科學研究的重要課題之一,它是自然語言理
解、自動翻譯、電子詞典等信息處理的基礎性工件。所謂分詞,就是要把一
句話,一篇文章甚至一部著作中的詞語逐個逐個的切分出來。漢語不象拼音
文字那樣有自然切分標志,而且詞語長短不一,詞語的定義也不統(tǒng)一,語言
學中對詞的定義多種多樣,造成切分的多樣性,這也自然給自動分詞的同一性
帶來很大困難。漢語中詞語本身的詞素、詞、詞組無明顯的區(qū)分界限,沒有
一個統(tǒng)一的標準,許多東西都是憑經(jīng)驗和語感來劃分。.這項工作如果全部交
給計算機來作,就沒有那么簡單了。
盡管計算機自動分詞在諸多方面存在著許多困難,但是由于自動分詞是
許多應用工作的第一步(也是自動翻譯的第一步),這就促進了研究的持續(xù)不斷,
提出了不少方法,它們各有優(yōu)缺點,也可能是基于特定環(huán)境的。
第5章單詞與詞組的處理與分析
5.2.1典型的自動分詞方法
5.2.1.1正向最大匹配法和逆向最大匹配法
正向最大匹配法是最早提出的自動分詞方法,它的基本思想是先取一句話
的前六個字查字庫,若不是一個詞,則刪除六個字的最后一個字再查,這樣一直
查下去,至找到一個詞為止。句子剩余部分重復此工作,直到把所有的詞都分
出為止。逆向最大匹配法也一樣,每次匹配不成功時去掉漢字串中最前面的一
個字。
兩法思路清晰,易于計算機實現(xiàn),但由于試圖用相對穩(wěn)定的詞表來代替靈
活多變,充滿活力的詞匯,把詞庫搜索作為判詞的唯一標準,因而具有很大的
主觀性和局限性。另外,這兩種方法實際上否認了語言中的歧義現(xiàn)象。
在實際應用中,方法有所變化。如下述算法我們初始不是取六個字而是取長
度最短詞的個數(shù)。
第5章單詞與詞組的處理與分析
A1:一條漢語語句分劃成單一字符XI,X2,…,XM。
A2:決定語詞中可能出現(xiàn)的詞最大字符長度Lmax,最小字符
長度Lmino
A3:逆向匹配,取語句最后的Lmin個字查關鍵詞庫,若查不到,
加入一個字重復此工作,直至字符數(shù)為Lmax為止。
A4:若實施A3查不到詞,去掉語句中最后一個字,再實施A3,直
至整個語句只剩下Lmin為止。
第5章單詞與詞組的處理與分析
5.2.1.2高頻優(yōu)選法
這一方法基于詞頻的統(tǒng)計、字與字之間的構成結合律和歧
義切分等現(xiàn)象的分析而提出來的。根據(jù)《現(xiàn)代漢語頻率詞典》,
對于報刊和政論性文章,不同音節(jié)詞的詞頻構成為:雙音節(jié)詞大
約有74%;三音節(jié)詞大約有3.7%;單音節(jié)詞大約有17.2%;而
五以上字音節(jié)詞則大約只有0.4%左右。漢語是一字一音節(jié),因
而也可以說,兩字組詞的頻率比其它所有方式的概率加起來都還
要多。自動分詞時首先考慮兩字詞,然后再考慮單字詞,如此頻
率低的詞語最后才考慮。這種方法提高了分詞效率,對歧義問
題也無能為力,出錯率并不低?!觯?—"
■第5章單詞與詞組的處理與分析
HJA--------------------------------------------------------------------------------
5.2.1.3其它方法
設立切分標志
切分標志有自然和非自然之分。自然切分標志是指文章的非
文字符號,例如標點符號等等;非自然切分標志是利用詞綴和不
構成詞的詞(單字詞等等)。設立切分標志方法的基本思想就是
通過建立非自然切分標志的一張表存儲于計算機中用程序來識別
所有的非自然標志。這樣一來,一個句子鏈將被化為若干短鏈,
然后再用其它切分方法進行各種細加工,這種多方法合作的綜合
應用,途徑增多,可以大大提高效率。
藍缸第5章單詞與詞組的處理與分析______________
擴充轉(zhuǎn)移網(wǎng)絡分詞法
它是以有限狀態(tài)機概念為基礎的方法。有限狀態(tài)機只能識別正
則語言,對有限狀態(tài)機作的第一次擴充可以使其具有遞歸能力,這
樣就形成遞歸轉(zhuǎn)移網(wǎng)絡(RTN)。在RTN中,弧線上的標志不僅可
以是終極符(語言語句中的各種詞語)或非終極符(還沒有推導完
的詞類、符號等等,例如名詞N,動詞V,形容詞A等等),還可以
調(diào)用另外的子網(wǎng)絡名字的非終極符(例如字或字串的成語條件)。
這樣,計算機在運行某個子網(wǎng)絡時,就可以調(diào)用另外的子網(wǎng)絡,還
可以遞歸調(diào)用。目前大多數(shù)的自然語言理解系統(tǒng)都把詞典組織成一
個表,表是靜態(tài)的。使用擴充轉(zhuǎn)移網(wǎng)絡來組織詞典就可以構成一個
動態(tài)的詞典,詞法擴充轉(zhuǎn)移網(wǎng)絡的使用,它使分詞處理和自然語言
理解系統(tǒng)的句法處理階段交互成為可能,并且有效地解決了漢語分
詞的歧義。'%—e
會第5章單詞與詞組的處理與分析
--------------------------------------
全自動詞典切詞
這種方法完全使用切詞規(guī)則切分詞語,其規(guī)則中的參數(shù)由詞
典提供。該方法可以部分解決歧義問題,但因是匹配切詞,效率
不高。
規(guī)則描述語言切詞法
規(guī)則描述語言是用以描述漢語分詞、分析和生成規(guī)則的一種
工具。其中,整個規(guī)則語言將由若干個不同性質(zhì)的規(guī)則塊構成,
而每一個規(guī)則塊又包括多條規(guī)則,這些規(guī)則塊的結構一般采用多
層次的樹型結構(當然,也可以采用其它結構,例如鏈式結構)。
該方法對正確描述漢語是一種有意義的嘗試,值得深入研究
第5章單詞與詞組的處理與分析
多遍掃描聯(lián)想法
這種方法是使用切分標志把文本切分成若干子串。它一般分成兩步進行:第
一步,使用自然切分標志對文本進行預處理;第二步,利用非自然切分標志結合
玦想庫對文本進行有效的分割。這兩布完成以后,再利用實詞的詞庫和聯(lián)想庫將
所有詞群細分為詞。在這種方法的操作中,分詞時將要充分利用各種語法知識、
玦想和回溯機制同時作用分割和細分階段,其目的在于更有效的解決歧義組合結
構的切分問題,并且兼有自動糾錯和檢錯這樣的特殊功能。這種方法屬于組合方
法,方法的基點立足于可靠性、實用性和通用性。
神經(jīng)網(wǎng)絡分詞法
這種方法是模擬人腦功能采用并行、分布處理和建立數(shù)值計算模型工作的
方法。它將分詞知識所分散隱蔽式的方法存入神經(jīng)網(wǎng)絡內(nèi)部,然后再通過各種自
學習和訓練修改內(nèi)部的權值,以達到正確的分詞效果,最后給出神經(jīng)網(wǎng)絡自動分
詞結果。由于神經(jīng)網(wǎng)絡這一學科的研究有許多問題尚未解決,所以此方法還處于
探索之中。_____
第5章單詞與詞組的處理與分析
專家系統(tǒng)分詞法
這種方法從專家系統(tǒng)角度把分詞的知識(包括常識性分詞知識與消除歧義
切分的啟發(fā)性知識,即歧義切分規(guī)則)從實現(xiàn)分詞過程的推理機中獨立出來,從
而使知識庫的維護與推理機的實現(xiàn)互不干擾,以達到使知識庫易于維護和管理。
這種方法還具有發(fā)現(xiàn)交集歧義字段和多義組合歧義字段的能力和一定的自學習功
輪。雖然專家系統(tǒng)研究相對成熟,但真正要把這一方法作為完善的機器翻譯自動
分詞方法,還有很長的路要走。
綜上所述,由于漢語的復雜性。我們很難以某種方法正確地、徹底地自動分
同。這些不同的方法,它們各有不同的優(yōu)點和缺點,適合不同的環(huán)境。但是如何
比較正確的評價、度量一個方法,則顯得尤為重要,這一點將在后面迨述。
第5章單詞與詞組的處理與分析
5.2.3自動分詞的歧義問題
自動分詞的難點是歧義切分,而歧義切分字段
從構成形式上可分為兩類:一類是交集型歧義切分字
段,一類是多義組合型歧義切分字段。
后第5章單詞與詞組的處理與分析
-OSCKIO-------------------------------------------------------------------------------------------------
5.2.3.1交集型歧義切分字段與解決方法
一般情況下,在多義組合型歧義切分字段中,歧義字段就是
一個歧義詞,而非歧義詞被包含在歧義詞當中。例如,歧義字段
“語言學”同時也就是一個歧義詞,而非歧義詞“語言”和“學”
包含在歧義詞“語言學”中。在這種情況下,機器很難根據(jù)多義組
上型歧義切分字段本身來獲得非歧義詞的特征信息,程序只有跳出
多義組合型歧義切分字段自身的框架,參考歧義字段與其前趨字串
或后繼字串之間的關系,才有可能發(fā)現(xiàn)正確的切分。這就說明,為
了對多義組合型歧義切分字段本身作出唯一正確的切分,不能只考
察歧義字段內(nèi)部的情況,還必須考察歧義字段與其前后字串之間的
關系。而在交集型歧義切分字段中,歧義字段本身就可以給我們提
k共非歧義切分的特征信息,因此,多義組合型歧義切分字段的自動
切分比交集型歧義切分字段的自動切分要難得多。
藍虬第5章單詞與詞組的處理與分析______________
有些歧義切分字段具有二重性。例如,在例句“乒乓球拍賣完
了”中,由名詞“乒乓球”和動詞“拍”串聯(lián)組合而產(chǎn)生出多義組
合型歧義切分字段“乒乓球拍”,而“乒乓球拍”又與動詞“拍賣”
交叉組合而產(chǎn)生交集型歧義切分字段“乒乓球拍賣”,這樣一來,
在“乒乓球拍賣”這個字段中,既有多義組合型歧義切分字段,又
有交集型歧義切分字段。對于這樣的具有二重性的歧義切分字段,
切分時也不能只考慮字段本身提供的信息,還應該考慮該字段與其
前趨字串和后繼字串的關系。
為了正確地切分多義組合型歧義切分字段,可以利用前趨字串
和后繼字串的句法、語義、語用3個方面信息。
我們來討論如何利用句法信息:有些多義組合型歧義切分字段
與其前趨字串和后繼字串之間,存在著密切的搭配關系,這時就可以
利用有關的句法信息得到正確的切分。=rtt
第5章單詞與詞組的處理與分析
(1)名詞+名詞
例如,在句子“用樹形圖形式加以描述”中,歧義字段
“圖形式”是由名詞“圖”與名詞“形式”之間的交叉組合產(chǎn)
生的——“圖形”十“形式”。事實上,“圖形”是歧義詞,
它是歧義字段“圖形式”在給定句子中錯誤地切分出來的片段,
“形式”是非歧義詞,它是歧義字段“圖形式”在給定句子中,
按正確的切分方式切分出來的片段。
(2)動詞十名詞
例如,在句子“研究生命的本質(zhì)”中,歧義字段“研究生
命”是由動詞“研究”與名詞“生命”之間的交叉組合產(chǎn)生的一
--“研究生”(歧義詞)十“生命”(非歧義到2Ok
第5章單詞與詞組的處理與分析
(3)形容詞十名詞
例如,在句子“白天鵝游過來了"中,歧義字段“白天鵝”
是由形容詞“白”與名詞“天鵝”之間的交叉組合產(chǎn)生的——
“白天”(歧義詞)十“天鵝”(非歧義詞)。
(4)介詞十名詞
例如,在句子“讓位移等于50厘米”中,歧義字段“讓位
移”是由介詞“讓”與名詞“位移”之間的交叉組合產(chǎn)生的——
,,讓位”(歧義詞)十“位移”(非歧義詞)。
(5)連詞十名詞
例如,在短語“獨立自主和平等互利的原則”中,歧義字
段“和平等”是由連詞“和”與名詞“平等”的交叉組合產(chǎn)生
的——“和平”(歧義詞)十“平等”(非歧義詞)。一
第5章單詞與詞組的處理與分析
(6)副詞十形容詞
例如,在句子“這本小說的情節(jié)太平淡了"中,歧義字段
“太平淡”是由副詞“太”與形容詞“平淡”的交叉組合產(chǎn)生的一
一一“太平”(歧義詞)十“平談”(非歧義詞)。
(7)助詞十形容詞
例如,在短語“對這種現(xiàn)象的確切描述”中,歧義字段,
“的確切”是由助詞“的”與形容詞“確切”的交叉組合產(chǎn)生的一
——“的確”(歧義詞)+“確切”(非歧義同)。
(8)名詞十連詞
例如,在句子“社會需求和生產(chǎn)水平有矛盾”中,歧義字段
“需求和”是由名詞“需求”與連詞“和”的交叉組合產(chǎn)生的?一
L“需求”(非歧義詞)十“求和”(歧義詞)。
第5章單詞與詞組的處理與分析
(9)動詞十介詞
例如,在句子“他們看中和日本人做生意的機會”中,歧
義字段“看中和”是由動詞“看中”與介詞“和”的交叉組合產(chǎn)
生的------“看中”(非歧義詞)十“中和”(歧義詞)。
由以上例子可以看出,交集型歧義切分字段aL..ai.bl...bj,
cL?.ck的交段bL?.bj與其后繼字串cL?.ck所組成的非歧義詞的詞
類,可以從歧義切分字段本身提供出來,例如,在歧義切分字段
“白天鵝”中,交段為“天”,它與后繼字串“鵝”組成的非歧
義詞“天鵝”,其詞類為名詞。歧義切分字段本身為我們提供了
非歧義詞,天鵝”的詞類信息。交集型歧義切分字段,
al...ai.bl...bj,cL??ck的交段bL??bj與其前趨字串a(chǎn)L??ai所組成
的非歧義詞的詞類,也可以從歧義切分字段本身提供出來。例如,
在歧義切分字段“需求和”中,交段為“求”,它與前趨字串
“需”組成非歧義詞“需求”,其詞類為名詞,歧義切分字段本
身也為我們提供了非歧義詞“需求”的詞類信息。
息第5章單詞與詞組的處理與分析
--------------------------------------------
交集型歧義切分字段可以為我們提供非歧義切分的特征信息,這是交集型歧義
切分字段非常寶貴而重要的特點。根據(jù)這個特點,我們可以事先為漢語詞匯中
的每個詞建立詞法知識庫,并在該知識庫中為可能產(chǎn)生歧義切分的詞條加上歧
義標志和歧義類型編號,這樣,在實際切分歧義字段時,只要利用該字段中的
交段bL.?bj與后繼字串cL..ck(或其前趨字串a(chǎn)L.?ai)所組成的非歧義詞的已
知詞類信息,再通過適當?shù)倪壿嬐评?,就可以對這類歧義切分字段作出唯一正
確的切分。
例如,在上述第(3)種類型的歧義切分字段“白天鵝”中,因交叉組合產(chǎn)生
的歧義詞是“白天”,交段是“天”,該交段的后繼字串為“鵝”,二者組成
非歧義詞“天鵝”,并已知其詞類信息為名詞。如果在詞法知識庫中,對歧義
詞“白天”加上歧義標志和相應的歧義類型編號,并建立如下的規(guī)則:如果交
段與其后繼字串組成名詞,則將該歧義詞的首字單切,否則,確認該歧義詞為
詞。4一
第5章單詞與詞組的處理與分析
血助于是;根據(jù)歧義詞"白天”的歧義類型編號調(diào)用上述規(guī)則,并利用詞法知
識庫中有關該歧義切分字段的交段“天”與其后繼子串“鵝”組成詞的知識,檢
查這個詞是否為名詞,并進行邏輯推理,就可以確定,在切分歧義字段“白天鵝”
時,應將歧義詞“白天”的首字“白”單切,“白天鵝”應切分為“白/天鵝”。
這是對歧義切分字段“白天鵝”作出的唯一正確的切分。
又如,在上述第(8)種類型的歧義切分字段“需求和”中,因交叉組合產(chǎn)生
的歧義詞是“求和”,交段是“求”,該文段的前趨字串為“需”,二者組成非
歧義詞“需求”,并已知其詞類信息為名詞。如果在詞法知識庫中,對歧義詞
“求和”加上歧義標志和相應伯歧義類型編號,井建立如下的規(guī)則:如果交段與
其前趨字串組成名詞,則將該歧義詞的尾字單切,否則,確認該歧義詞為詞。
于是,根據(jù)歧義詞“求和”的歧義類型編號,調(diào)用上述規(guī)則,在詞法知識庫
中查詢,得知該歧義切分字段的交段“求”與其前趨字串“需”所組成的詞為名
同,進行邏輯推理,就可以確定,在切分歧義字段“需求和”時,應將歧義詞
“求和”的尾字單切,“需求和”應切分為“需求/和”。這是對歧字段
“需求和”作出的正確的切分。*一二一)
第5章單詞與詞組的處理與分析
對于其它類型的交集型歧義切分字段,不難建立相應的規(guī)
則,并為其中的歧義詞設置相應的歧義類型編號,然后利用詞
法知識庫中有關詞類信息的知識,進行類似的邏輯推理,就可
以作出唯一正確的切分。
由于對交集型歧義切分字段的正確切分,僅只需要關于詞
類的信息,所以,可以把這類歧義切分字段。從性質(zhì)上劃為
“與詞類有關的歧義切分字段”,簡稱為“詞法歧義字段”。
第5章單詞與詞組的處理與分析
5.23.2多義組合型歧義切分字段與解決方法
多義組合型歧義切分字段比較復雜,這種歧義切分字段是由詞與詞之間的
串聯(lián)組合產(chǎn)生的。在字段S=aL?.ai.bL..bj中,由于aL??i,bL?.bj和S三者都
能分別成詞,字串a(chǎn)L..ai與字串bL..bj形成了串聯(lián)組合,才產(chǎn)生歧義切分。從
產(chǎn)生的根源上看,有下列幾種不同的類型:
(1)量詞十名詞
例如,在句子“一陣風吹過來了”中,歧義切分字段“陣風”是由量詞
“陣”和名詞“風”的串聯(lián)組合產(chǎn)生的。(2)介詞十名詞
例如,在句子“請把手抬高一點兒”中,歧義切分字段“把手”是由介詞“把”
和名詞“手”的串聯(lián)組合產(chǎn)生的。
(3)動詞十名詞
例如,在句子“他喜歡吃烤白薯,中,歧義切分字段“烤白薯,是由動詞
“烤”和名詞“白薯”的串聯(lián)組合產(chǎn)生的。
第5章單詞與詞組的處理與分析
(4)名詞十方位詞
例如,在句子“他騎在馬上”中,歧義切分字段“馬上”是由名詞“馬”
和方位詞“上”的串聯(lián)組合產(chǎn)生的。
(5)名詞十動詞
例1,在句子“語言學起來并不十分容易”中,歧義切分字段“語言學”
是由名詞“語言”和動詞“學”的串聯(lián)組合產(chǎn)生的。
例2,在句子“學生會興奮得手舞足蹈”中,歧義切分字段“學生會”
是由名詞“學生”和動詞“會”的串聯(lián)組合產(chǎn)生的。
例3,在句子“乒乓球拍賣完了”中,歧義切分字段“乒乓球拍”是由
名詞“乒乓球”和動詞“拍”的串聯(lián)組合產(chǎn)生的。
例4,在句子“美國會采取措施提高工業(yè)競爭力”中,歧義切分字段
“美國會”是由名詞“美國”和動詞“會”的串聯(lián)組合產(chǎn)生的。
第5章單詞與詞組的處理與分析
(6)方位詞十動詞
例如,在句子“他在莊稼地里間麥苗”中,歧義切分字段“里間”是由
方位詞“里”和動詞“間”的串聯(lián)組合產(chǎn)生的。
(7)副詞十動詞
例如,在句子“他將來北京探親”中,歧義切分字段“將來”是由副詞
“將”和動詞“來”的串聯(lián)組合產(chǎn)生的。
(8)助詞十動詞
例1,在句子“他學會了解數(shù)學難題”中,歧義切分字段“了解”是由助
詞“了”和動詞“解”的串聯(lián)組合產(chǎn)生的。
例2,在句子“只要努力地學就可以學會”中,歧義切分字段“地學”是
由助詞“地”和動詞“學”的串聯(lián)組合產(chǎn)生的。一
第5章單詞與詞組的處理與分析
(9)連詞十副詞
例如,在句子“日本保留和尚使用的古代廟宇已經(jīng)不多了”中,歧義
切分字段“和尚”是由連詞“和”與副詞“尚”的串聯(lián)組合因此,可以先
在詞法知識庫中對歧義詞“陣風”加上歧義標志與相應的歧義類型編號,并
建立如下的規(guī)則:如果歧義字段的直接前趨字串是數(shù)詞,則歧義字段的首
段單切,否則,該歧義字段成詞。
然后根據(jù)“陣風”的歧義類型編號調(diào)用這條規(guī)則,并利用詞法知識庫
中的有關該字段前趨字串的信息,進行邏輯推理,就可以作出唯一正確的切
分。
上面例中的歧義切分字段“把手”是由介詞“把”和名詞“手”的串
聯(lián)組合而產(chǎn)生的,按非歧義切分時的詞間搭配關系,該歧義字段的后繼字串
中必須有及物動詞,根據(jù)這樣的句法知識建立相應的規(guī)則,再使用^
似的推理方法,就可以作出唯一正確的切分。公
第5章單詞與詞組的處理與分析
上面例中的歧義切分字段“白薯”是由動詞“烤”和名詞“白薯”的串聯(lián)
組合而產(chǎn)生的,按非歧義切分時的詞間搭配關系,該歧義字段的前趨字串中應該
有動詞,根據(jù)這樣的句法知識建立相應規(guī)則,再使用與上述類似的推理方法,就可
以得到唯一正確的切分。
上面例中的歧義切分字段“馬上”是由名詞“馬”和方位詞“上”串聯(lián)組
合而產(chǎn)生的,按非歧義切分時的詞間搭配關系,該歧義字段的前趨字串中應該有介
詞,根據(jù)這樣的句法知識建立相應的規(guī)則,再使用類似的推理方法,就可以得到唯
一正確的切分。
類似地,切分上面例中的歧義字段“語言學”時,要使用“該字段的后繼字
串中應有趨向動詞或助詞”這樣的句法知識;切分上面例中的歧義字段“里間”
時,要使用“該字段的前趨字串中應有介詞”這樣的句法知識;切分生命例中的
歧義字段“將來”時,要使用“該字段的前趨字串中應有人名或人稱代詞”這樣
的句法知識;切分上面例中的歧義字段“地學”時,要使用“該字段的直接前趨
字串應該是形容詞或副詞”這樣的句法知識。根據(jù)句法知識建立相應的切分規(guī)則
通過一定的邏輯推理,就可以實現(xiàn)對這些歧義字段的正確切分。
外第5章單詞與詞組的處理與分析
Oro------------------------------------------------------------------------------------
現(xiàn)在討論如何利用語義信息:例中歧義切分字段“學生會”是由名詞
“學生”與動詞“會”串聯(lián)組會產(chǎn)生的,可以有兩種切分結果:
學生/會/興奮/得/手舞足蹈
學生會/興奮/得/手舞足蹈
這兩種切分結果在詞類與句法結構上都十分相似,因此,僅僅利用詞法
和句法的知識,難以對這兩種切分結果作出正確的判別,也就難以作出正確
的切分。這時,也就需要利用語義方面的知識了。從語義上來看,動詞“興
奮”的義項中,要求動作的發(fā)出者應具有“人”這個義素,在名詞“學生會”
的義項中不具有這個義素,而在名詞“學生”的義項中則具有這個義素,利
用這樣的語義知識,可建立如下的語義規(guī)則:如果歧義切分字段后繼動詞的義
項中含有動作發(fā)出者為“人”這個義素,則歧義字段的尾字單切,否則早該歧
義字段成詞。弋
-0^^第5章單詞與詞組的處理與分析
在自動切分時,根據(jù)歧義切分字段“學生會”的歧義類型編號,調(diào)用這條語
義規(guī)則,進行邏輯推理,就可以得到如下正確的切分:
學生/會/興奮/得/手舞足蹈
例中歧義切分字段“了解”是由助詞“了”和動詞“解”的串聯(lián)組合而產(chǎn)
生的,它們可以有兩種切分結果:
他/學會/了/解/數(shù)學/難題
他/學會/了解/數(shù)學/難題
這兩種切分結果的詞類和句法結構都是十分相似的,如果僅僅只根據(jù)詞法
和句法知識,是難以得到正確的切分的,但是只要根據(jù)語義分析就可以知道,
在動詞“解”的義項中,它要求賓語應該具有“數(shù)學公式”或者“扣子”這樣
的義素,然而動詞“了解”則對賓語則就沒有這樣的要求,由于作賓語的“數(shù)學
難題”符合動詞“解”的義項這樣的要求,因此機器可以判定前二種藝分是正
確的,從而也就排除了第2種切分。f
第5章單詞與詞組的處理與分析
我們最后來討論任何使用語用信息:所謂語用信息,就是必須結合上下
文不同的情況的信息才能確定語句含義。歧義切分字段“乒乓球拍”僅只根
據(jù)詞法、句法和語義知識,都不足以判斷賣完的東西究竟是“乒乓球”還是
“乒乓球拍”,這時,就得根據(jù)語言交際的具體環(huán)境的語用方面的知識,才能
決定究竟什么才是正確的切分。
例中的歧義切分字段“美國會”,僅只根據(jù)詞法、句法和語義知識,也不
足以判斷采取措施提高工業(yè)競爭力的是“美國”還是“美國會”,這時,就得
根據(jù)語言交際的具體環(huán)境的語用方面的知識,才能作出正確的切分。
在上面的例中的歧義切分字段“和尚”,如果僅只根據(jù)詞法、句法和語義
知識,也不足以判斷古代廟宇是“和尚”使用還是“尚”使用的,這也只好根
據(jù)語言交際的具體環(huán)境的語用方面的知識,才能作出正確的切分。
第5章單詞與詞組的處理與分析
根據(jù)上面所述的歧義切分字段的性質(zhì),可以把它們分為4種不同的類型:
(1)利用詞法知識就能判斷的歧義切分字段,叫做"詞法歧義字段”。
(2)利用句法知識才能判斷的歧義切分字段,叫做”句法歧義字段”。
(3)利用語義知識才能判斷的歧義切分字段,叫做”語義歧義字段1
(4)利用語用知識才能判斷的歧義切分字段,叫做"語用歧義字段”。
在這其中,詞法歧義字段與交集型歧義切分字段完全對應,其余三類
則與多義組合型歧義切分字段相對應。
第5章單詞與詞組的處理與分析
5.3詞語的排序,檢索,詞庫
5.3.1詞語的排序,檢索簡敘
漢語的詞語由漢字組成,詞語的數(shù)量大,僅常用詞條將達到4萬左右。
要使自動翻譯快速、有效,必須對大量的詞條使用好的排序和檢索算法
進行處理.
按漢字筆畫權值對詞語進行排序是根據(jù)vv辭?!饭P畫查字表中的漢
字排列來定義漢字的類,再給每一類漢字賦一個數(shù)值,這個數(shù)值就稱為
該漢字的筆畫權值。由于漢字筆畫權值不超過787個,采用映射式排序算
法是好的方法。而檢索方法采用直接映射式字符檢索算法。
會第5章單詞與詞組的處理與分析
jA------------------------------
5.3.2詞庫設計原則
(1)略縮詞詞典
例如英語文句中經(jīng)常出現(xiàn)的a.m;當自動切分句子遇到帶“.”的詞時,
通過查找略縮詞詞典時,找出相對應詞組。
(2)省略詞詞典
如英文的it,s;they1ve等。當自動切分句子遇到帶”…的詞時,通過查
找省略詞詞典時,找出相對應詞組。
(3)特殊詞典
如英語的介詞,副詞,連詞等,用法非常靈活,在不同語言條件下,由
于其前后搭配成份不同,其中文譯文和中文生成的詞序都很不一樣,極易產(chǎn)
生歧義,而且這類詞的頻率極高.對這些結構詞進行特殊處理,對提高譯文處
理質(zhì)量是十分重要的。
(4)專業(yè)詞典1WL
為使翻譯能根據(jù)不同專業(yè)有更準確的譯文,應建半專業(yè)詞典。
第5章單詞與詞組的處理與分析
5.4詞語的分類與兼類問題
5.4.1詞語的分類
在目前情況下,自然語言信息處理的技術水平要求對每個詞語給出它的
詞類(范疇)乃至次范疇分類,語言學理論與信息處理技術之間有著明顯的差
距。為滿足機器翻譯的實用需求,也為了更深入研究,機器詞典將所收的詞
語及符號劃分為26類,它們名稱及代碼如下:名詞n,時間詞t,處所詞s.方
位詞f,數(shù)詞m,量詞q,區(qū)別詞b,代詞r,動詞v,形容詞a,狀態(tài)詞z,副詞d,
介詞p,連詞c,助詞u,語氣詞y,象聲詞o,嘆詞e,前綴h,后綴k,成語i,簡稱略
語j,習用語1,語素g,字x,標點符號w。當然,由于沒有一個統(tǒng)一的標準,可
能這一種劃分與其它文獻中的劃分可能有不同之處。這并不影響實際使用,
但是我們應用時要注意這個問題。
顯然,僅僅規(guī)定出這些詞類還遠遠不夠,更重要的是要決定詞典手的每
-個具體的詞屬于哪-類。這的確是-件頗費斟酌特別是-
動詞、形容詞、狀態(tài)詞、區(qū)別詞、副詞的辨別可以說量相雪困難的。
第5章單詞與詞組的處理與分析
盡管詞典中的詞語數(shù)目是有限的,盡管有判別準則,盡管
研究者親自確定詞語的歸類,但是仍有少數(shù)詞一時仍難以決定下
來。機器只有用語法方法對這些問題作必要的處理。當然,這
也為進一步研究準備了條件。
隨著人們多年研究的深入,還可以考慮對某些詞類進一步劃
分子類。這個問題看上去更困難,主要是我們不容易把握按哪
一種標準進行子類劃分更好、更為妥當。其中人們提出的一種
方法是按照名詞與量詞的關系將名詞劃分為可數(shù)名詞,不可數(shù)名
詞、集合名詞、抽象名詞及專有名詞。這一種方法還比較科學。
沿著這個方向進一步研究,發(fā)現(xiàn)這些子類不在同一個層次上,且
有些名詞不能受數(shù)量詞修飾?,F(xiàn)在的劃分準則如下
第5章單詞與詞組的處理與分析
凡是個體名詞都應該有自己特有的個體量詞,而且該量詞前的數(shù)詞可
以是“一”,如“一本書”,“一頭?!保耙晃唤淌凇保晃镔|(zhì)名詞不可以用
個體量詞計數(shù),但是可以使用度量詞或容器量詞等來計量,如“兩碗水”,
“三公尺布”,“一身泥土”等等。集合量詞可以細劃分為兩個子類,一類
是可以分的,即可以進行個體化的,例如“四十位師生”,“三個兄弟”等
等,但是其個體量詞的數(shù)詞不能是“一”。而另一類是不可分的,即在它
們前面只能使用非個體量詞之外的其它量詞,例如“兩車軍火”,“一隊車
輛”。抽象名詞前一般只可以使用“種類量詞”與“不定量詞”,例如
,,一些勇氣,,,“一種精神,,,而且有一部分抽象名詞作動詞“有”的賓語
構成述賓詞組后還可以受“很”一類副詞修飾,例如“很有勇氣”,“非常
有精神”。無量名詞不能接在任何數(shù)詞或數(shù)量詞組之后。專有名詞的特
點就是在于它的專有性,專有名詞在用漢語拼音字母表示時或這被譯成英
語時,其中首字母必須大寫,我們認為將專有名詞單分一個子巡牘意
義的。專有名詞一般不受數(shù)量詞修飾,但是在某些語境之中,它布麗以
接在數(shù)量詞之后。0
第5章單詞與詞組的處理與分析
綜上所述,名詞與量詞之間的搭配關系為劃分名詞子類
提供了相當明確的準則。但是,有些語言現(xiàn)象人們處理起來仍
會感到棘手。首先我們來討論個體量詞,“個”這個量詞用得非
常廣泛,可以這樣說“一個理論”,“兩個學說”,非常顯然,
在這里的“個”與“一個蘋果”,“兩個梨”,“五個同學”中
的“個”很難區(qū)分。但是又不適宜據(jù)此我們就將“理論”,“學
說”也劃分到個體名詞中去,還是劃分到抽象名這一類詞較為合
適。又如不可分的集合名詞,“人口”,“大軍”,不能接在數(shù)
量詞之后,卻可以說“十億人口”,“十萬大軍”。
第5章單詞與詞組的處理與分析
5.4.2詞語的屬性描述
語法的屬性描述將反映名詞的特殊性質(zhì)。分類法刻劃事物
雖然簡潔、清晰、信息密度大,但是屬于同一類的事物仍然可能
各自具有不同的特點,例如,“魚”和“?!蓖瑢賯€體名詞,但
是“魚”卻具有專用個體量詞“尾”,而牛具有專用個體量詞
“頭"然而,心魚”通常還可以與度量詞“斤,克”搭配,“?!?/p>
就不行。因此,這就要依靠語法屬性描述來刻劃每一詞語的語
法信息。對于名詞,除了確定每個詞的子類外,還應該詳細描
述每個名詞可以搭配的各類量詞。此外,我們注意和應用某些
個體名詞的特殊性質(zhì)也是非常必要的。
就第5章單詞與詞組的處理與分析______________
屬性描述可以對每一類詞的語法屬性進行相當充分的發(fā)掘。
例如,對于作為研究重點的動詞人們共確定了近40項屬性。這
些屬性大致可歸納為7類:第一類是關于動詞本身特性的,例如
該動詞是不是系動詞、助動詞,趨向動詞。第二類是關于動詞
變化形態(tài)的。第三類描述該動詞有無名詞特性,例如能不能直
接修飾名詞,能不能直接受名詞修飾、能不能后接趨向動詞,能
帶什么樣的賓語--謂詞,雙賓等等。第四類反映該動詞同一些
虛詞的關系,例如它前面能不能受“不,沒,很”修飾,后面能
不能帶“著,了,過"。第五類描述動詞在句子中的各種功能,
即該動詞在句子中能否具有單獨的屬性。第六類刻劃動詞與后
繼成分的關系,即該動詞能否后接作動詞“有”的賓語等等。
第七類包含其它特性。當然,這樣確定的蹴是不是看k完
整還值得研究。4?■
第5章單詞與詞組的處理與分析
下面列出詞典中量詞庫中的各個屬性字段及其簡單的解釋。
個體量詞:個體量詞填“個“,如,個,本。
集合量詞:集合量詞填”集”,如;套,系列。
度量詞:度量詞(單位量詞)填“度”如,尺,公斤,度,分,秒。
最近高位:如尺的最近高位是丈,填“丈”。
最近低位:如尺的最近低位是寸,填”寸
容器量詞:容器量詞填“容”如:瓶,杯。
種類量詞:種類量詞填“種”,如;種,類。
成形量詞:成形量詞填“形”,如;攤,堆。
不定量詞:不定量詞填“不“,如,些,點兒。
任一:只能受數(shù)詞“一”修飾的,填“一”,如:系列。
后接名詞:擇要填寫該量詞后可接的名詞.例如,對“艘“可填“輪船,軍艦”。
云第5章單詞與詞組的處理與分析
-----------------------------------------------
動量詞:動量詞填“動",如;次,下。
時量詞:時量詞填”時”,如年,月,時,分。
表示順序:該量詞前接數(shù)詞可表示順序的填“序”,如,月,年。
表示數(shù)量:該量詞前接數(shù)詞可表示數(shù)量的填“數(shù)”,如,斤,天,年。
5.4.3詞語的兼類
兼類系指同一個詞具有不同的詞類語法功能,即這個詞兼屬不同的詞類.
⑴兼類詞只占詞匯的很小一部分。
(2)常用詞兼類現(xiàn)象嚴重。往往越是常用的詞,不同的用法就越多,兼類現(xiàn)象也
就越多。所以,盡管兼類現(xiàn)象只占了詞匯的很小一部分,但兼類詞使用的頻繁程
度并不很低。
(3)兼類現(xiàn)象紛繁,覆蓋面很廣,涉及了大部分詞類。._—
(4)兼類現(xiàn)象的分布很不一致。一??二一
第5章單詞與詞組的處理與分析
two-------------------------------------------------------------------------------
上面情況說明,不同的詞類在兼類問題中的地位不是等同
的。有些詞類,兼類現(xiàn)象很嚴重,解決其兼類問題比較困難,而
這些困難的兼類問題,恰恰是兼類現(xiàn)象中最基本的問題,可以把
這些詞類叫做“基本兼類詞類”。它們是:名詞、方位詞、代詞、
動詞、能愿動詞、形容詞、副詞、介詞、連詞等9類詞。另一些
詞類,或者其兼類問題的解決比較容易,或者其兼類現(xiàn)象極少,
例如時間詞中,僅僅“過去”一詞兼屬“時間(詞)一趨向(動詞)一
動(詞)”3類,我們可以把這些詞類,叫做“非基本兼類詞類L它
們是:時間詞、數(shù)詞、量詞、區(qū)別詞、趨向動詞、助詞等6類詞。
顯然,對于兼類問題的研究也是很重要的,而且有較大的用途。
后第5章單詞與詞組的處理與分析
-oScHro-----------------------------------------------------------
兼類詞所包含兼類詞類的個數(shù)各有不同,有的兼類詞可能
只含兩個兼類詞類,有的兼類詞可能就含有三個兼類詞類。某一
類兼類現(xiàn)象所包含兼類詞類的個數(shù)叫做兼類長度。兼類長度等于
2,而且所含兼類詞類均屬基本兼類詞類的兼類類型,叫做“,兼
類基本型”。如果我們解決了兼類基本型的兼類問題,實際上就
等于解決了大部分的兼類問題。而且其它的兼類問題,也可以設
法將它們轉(zhuǎn)化為兼類基本型,這樣,我們就可以抓住兼類現(xiàn)象中的
核心問題,通過少量的規(guī)則來處理盡可能多的兼類現(xiàn)象。否則,
需要的規(guī)則就多得多。
第5章單詞與詞組的處理與分析
兼類基本型有以下幾種:
(1)“動一名”兼類
這種兼類基本型我們最為常見。兼類詞多由動詞轉(zhuǎn)化而來。例如“報告,編
用,裝備,愛好,刺激,工作,”等等。
(2)“動一形”兼類
這種兼類基本型我們也是常見的。兼類詞主要由形容詞轉(zhuǎn)化而來,形容詞后若
帶賓語,則認為其兼有動詞的類。例如,”多,苦.嚴肅,繁榮,普及,鞏固”等。
(3)“名一形”兼類
這種兼類基本型我們還是比較常見的。兼類詞多由形容詞轉(zhuǎn)化而來,例如“秘
密,規(guī)矩,痛苦,困難,煩惱,科學”等。
下面幾種兼類基本型也是比較常見的。
(4)“形一副”兼類.
有的形容詞在修飾謂詞性成分時,意義有所改變,句法功能與副詞相同,形成”
形一副”兼類。例如J直、怪、老、全、白、光、快、偏、死、真、干”等:
試比較:路很直(“直”為形容詞).
他直哭(“直”為副詞).F.二0
后第5章單詞與詞組的處理與分析
-tmcHro-------------------------------------------------------------------------------------
⑸“動一介”兼類
很多介詞是由動詞發(fā)展而成的,因此,介詞常常與動詞兼類。例如”在、朝、向、
往、順、對、為、跟、隨著”等:
試比較;我在家「在”為動詞).
我在辦公室開會(“在”為介詞)
(6)“介一副”兼類
這種兼類基本型數(shù)目有限。例如J連、就、至、從”等。
試比較:他從日本來「從”為介詞).
他從不抽煙「從"為副詞).
(7)“名一副”兼類
這種兼類詞不多見。例如J極端”。
試比較:你不要走另一個極端(“極端”為名詞)
.他對顧客極端熱忱(“極端”為副詞)5a
第5章單詞與詞組的處理與分析
(8)“動一副”兼類.
這種兼類基本型數(shù)目有限。例如J斷、還、越、比較”等。
試比較;老人斷了氣(“斷”為動詞);斷無此事(“斷"為副詞).
(9)“代一副”兼類
在代詞中,有些我們常見的指別詞,亦可修飾謂詞性成分。例如“每、各、本、
另、另外”等等,屬于此類。
試比較:本編輯部概不負責(“本”為代詞).
我本姓馮(“本”為副詞).
(10)”能愿(動詞)一動”兼類
有的能愿動詞可以帶體詞性賓語。例如”要、會、得、想、該、配”等,屬于此類。
試比較他要去美國要”為能愿動詞)
他要這本書(“要”為動詞).
后第5章單詞與詞組的處理與分析
trnuJo--------------------------------------------------
(11)“介一連”兼類
這一類兼類僅有“跟、和、同、與”幾個詞,它們使用頻率很高,區(qū)別起來相當
困難。
試比較:我和小張都會德語(“和”為連詞).
我和小張說了這件事和”為介詞).
(12)“副一連”兼類
這一類兼類有''不過、或、或者、并、盡管、只是“等,區(qū)別起來比較困難。
試比較;這個建議對他們或有好處(“或“為副詞),
你或他都可以出國(“或"為連詞).
(13)”方位(詞)一動”兼類
這一類兼類只包含“上,下”兩句詞,但由于”在……上在?一類
搭配很常見,有時可能產(chǎn)生混亂,所以將其列為兼類基本型。
第5章單詞與詞組的處理與分析
試比較:我上學(,,上”為動詞).
我在昆明上學(“上”為動詞).
我在床上(”上”為方位詞).
我在床上看書(”上”為方位詞).
非基本兼類詞類的兼類問題我們比較容易解決,因為它們的前一個或者
后一個句法單元(通常是一個單詞)有十分強的黏附性,可以根據(jù)這些句法單
元來區(qū)別兼類現(xiàn)象。例如,“本”兼屬代詞、副詞、量詞3類,我們只要看它
的直接前趨詞是否為數(shù)詞,就可以判斷它是否為量詞。又如,“微”兼屬區(qū)
別詞、副詞兩類,如果它的直接后繼詞為名詞,就馬上可以判斷它為區(qū)別詞。
因此,在處理兼類問題時,我們可以根據(jù)先易后難的原則,它先解決這一部
分的問題,就可以大大簡化處理的過程。這種方法,我們把叫做”兼類詞過濾
,,
一詞多類,形成了詞的兼類現(xiàn)象,詞類標注,要解決詞的兼類問題。
一詞多義,形成了詞的多義現(xiàn)象,語義標注,主要戛解決詞的多義問題.
后第5章單詞與詞組的處理與分析
-oScHro-----------------------------------------------------------
5.5詞語處理的其它問題
5.5.1生詞處理
在機器翻譯過程中,肯定免不了輸入的原文中有機器詞典不
存在的生詞,這就要求機器翻譯系統(tǒng)有較好的生詞處理功能,當
然這必須有好的方法、好的程序能夠?qū)υ撛~進行自動處理,包括
生成句法分折需要的各種信息。
目前的系統(tǒng)對查找不到的詞都按照名詞處理,語法、語義信
息與普通的名詞同,中文譯文為英文原文。生詞處理進一步完善
方法是,處理過程由構詞分析,句法、語義信息假定,用,確肯定
定,詞典添加等幾個子過程構成。---
第5章單詞與詞組的處理與分析
構詞分析應該按照構詞法分析各種不同的構詞形式,建立
基本的詞根、詞綴字典,歸納出適合于機器分析的基本構詞規(guī)
則。由規(guī)則驅(qū)動構詞分析,經(jīng)過構詞分析就可以推導出可能的
基本的語法語義信息和譯文譯義。詞處理模塊可以據(jù)此生成詞
表,用于句法分析,處理結束后,機器可以按照用戶的要求修
改、確認系統(tǒng)對生詞的處理結果,并決定是否可以將該詞條增
加到主詞典中。另外,在生詞處理中,還應該包括建立生詞詞
典,對主詞典中不存在的詞條進行登記,然后成批增加到主詞
典中,以提高效率。當然,為了盡可能減少機器翻譯中出現(xiàn)的生
詞,我們還應該有一些特殊詞類的處理方法,這是下二2所要
介紹的。_6°*^
第5章單詞與詞組的處理與分析
5.5.2中國人名的處理
實際上,漢語自動分詞有兩個基本困難,一個是歧義切分問題,
另一個就是生詞的處理問題。漢語詞匯變化太多,無論建立多么龐
大的詞典,都不可能窮舉所有的詞語。而且,隨著時間的推移,還
會源源不斷地出現(xiàn)大量的新詞。對于應該收入機器詞典而沒有被收
入進去的詞,實際上這是指一些被遺漏的詞,或者是一些未被收入
的新詞等等,這基本上是不可避免的,應納入生詞處理的范圍。這
里主要討論中國人名的處理。
給人初步的感覺,中國人名太多太多,處理可能也非常難。的
確,中文的名字選取隨心所欲,沒有任何可以遵循的規(guī)則,完全根
據(jù)個人的喜好,可以使用任何漢字或者漢字串作為名字。由此可見,
除了少數(shù)著名人物以外,要把所有的中文名字都收入某一詞典模塊
基本上是不可能的,這只能讓機器翻譯系統(tǒng)具有這方面處理也功能。
第5章單詞與詞組的處理與分析
中文姓名的處理的確是一個非常復雜的問題,不僅僅數(shù)量
太多,而且隨時間的變化而不斷變化。中文姓名的結構也復雜,
表現(xiàn)形式多樣,姓名用字不僅可以自身成詞,而且也可以與相鄰
的字構成詞。例如“馬”,可以當作名詞來指一種家畜,也可以
作姓。所有的這些問題都增加了姓名的處理難度,也成為一個研
究難題。
目前大多數(shù)姓名處理的方法都是利用姓名的分布規(guī)則、姓
名的用字規(guī)律、姓氏用字、名字用字的出現(xiàn)頻率和概率估值,以
及姓名的前后約束用詞等等信息綜合進行推斷,也提出了一種基
于變換的方法(還不十分成熟)。
?k第5章單詞與詞組的處理與分析______________
下面,我們介紹基于語料庫和規(guī)則庫的中文人名處理方法:
(1)建立中文人名語料庫,對人名語料庫進行統(tǒng)計,列出可以用作雙名
的字極其在雙名中的位置,列出單名用字;
(2)采用最大匹配法進行自動分詞;
(3)如果句子中出現(xiàn)在詞典中標為姓氏的詞,則可以找出其待定的中文
人名,檢測條件為:姓氏字或詞(復姓)后跟一個可以用作雙名的詞,或者
后跟一個雙名首字,再跟一個雙名末字;或者后跟一個單名字;
(4)利用可以依的規(guī)則對待定的中文人名進行調(diào)整,這里的規(guī)則其實就
是一些用于人名處理的啟發(fā)信息,包括:
稱謂詞,如“女士、先生、老師”;
地名和單位,人名前用單位名稱和地名表示所在地笠|
人名前加“的”的定語,如“年過四十的李力"
第5章單詞與詞組的處理與分析
(5)分詞規(guī)范里對于“小李”、“老王”、“劉總”、“張
大爺”、“何大媽”、“鐘哥”、“林姐”等等簡稱和尊稱都劃為
分詞單位,這些表示的人名分詞單位可以采用如下一些簡單的規(guī)則
進行處理和分析:
設X為當前詞,F(xiàn)為當前詞的前一個詞,B為當前詞的后一個
詞,SN為姓氏集,則可以有這樣的處理規(guī)則:
設Kl={小、老、大},若X£SN,并且F£K1
則FX是姓名
設K2={總、工、頭、…},若X&SN,并且B£K2
貝ljXB是姓名。*
云第5章單詞與詞組的處理與分析
-----------------------------------------------
5.5.3中國地名的處理
機器翻譯中如果存在沒有被檢索到的中國地名,將會出現(xiàn)嚴重的分詞錯誤。
例如以下句子:
這是篷萊縣小門家鄉(xiāng)政府所在地。
如果沒有地名專門處理,容易被切分成:
這/是/篷/萊/縣/小/門/家鄉(xiāng)/政府/所在地。
地名不像人名那樣又多又復雜,無法枚舉,目前有的機器翻譯系統(tǒng)的漢語
自動分詞是通過機器詞典中窮舉地名來實現(xiàn)這一處理的。這對于面向真實文
本的自動分詞是不可取的。因為地名,或者都市洲府,或者市井鄉(xiāng)村,或者
名川大澤,或者窮鄉(xiāng)僻壤,理論上雖然可以窮舉,但是實際上是不可能窮舉
完全的。而且即使可以窮舉完全,地名的數(shù)量必然極其龐大,如果都收入分
詞自字典中,一方面它會使分詞詞典的規(guī)模急劇增加,增加系統(tǒng)的開銷,降
低了機器翻譯的效率;另一方面也會增加各種歧義現(xiàn)象出現(xiàn)的概率,;附切分
精度也有影響。-
第5章單詞與詞組的處理與分析
例如“于山”如果是一個地名,那么加入詞典中,貝U對“由于山區(qū)”
的切分變成鏈長為2的交集歧義問題。因此,有必要研究中國地名特點、
用字規(guī)律、用詞規(guī)律、構詞規(guī)律和地名的上下文規(guī)律,實現(xiàn)真實文本中中
國地名的自動處理。
中國地名的特點,有一些對處理構成一定的難度。例如,中國地名的長
度沒有一定的限制,從一個到多個不等,像“京、津”這樣的簡稱,長度
為1;而“北京”長度為2,“內(nèi)蒙古”長度為3等等。另外,漢語的常用
字經(jīng)常出現(xiàn)在地名之中,例如“大直街”、“馬家溝”中的漢字都是常用
字。此外,地名中含有的多字詞也不利于地名的處理,例如“黃果樹瀑布”
中的“果樹”本身就是一個詞,這肯定增加了難度。
但是,中國地名的處理過程中也有可以利用的信息,例如一些后綴有利于
地名的處理,像“鄉(xiāng)、村、市、縣”等。一—一
第5章單詞與詞組的處理與分析
對于地名的處理,雖然已經(jīng)有不少的方法,但是一般可以采用統(tǒng)計
與規(guī)則相結合的方法,現(xiàn)在舉例說明如下:
(1)先建立一個包括省、自治區(qū)、直轄市、市、縣、區(qū)、鎮(zhèn)、鄉(xiāng)、村,
以及山脈、河流、湖泊、峽谷、島嶼等等的中國地名庫,收集盡可能多
的地名。越多、越詳細越好,這將為以后的高質(zhì)量機器翻譯打下好的基
礎。
(2)可以先統(tǒng)計出地名庫中地名用字以及地名的首、中、尾用字規(guī)律
及頻率,然后再建立地名用字庫,最后統(tǒng)計出地名用字庫中各個字用做
地名的首字、地名的中間字、地名的尾字的概率。這里面主要采用統(tǒng)計
的方法。
(3)采用某一分詞方法進行分詞。
(4)對于那些單字詞,如果它確實屬于地名用字庫,則可以激活地名
處理過程。先去尋找占據(jù)中文地名首字的詞或者字,然后再尋找中間的
和末尾的字或者詞。利用字頻和中文地名用字的統(tǒng)計規(guī)律確定中文地
名的邊界。
后第5章單詞與詞組的處理與分析
(5)在地名初步處理結束以后,可以進一步調(diào)整其正確率。比如對于
連續(xù)的地名“黑龍江省哈爾濱市”,應該將它們分開。對于連續(xù)地名的分開可以
采用如下的兩種方法:
[1]我們可以使用規(guī)則進行處理。中文名的末尾字“省、市、縣、鄉(xiāng)、村”等等
都有很強的顯性特征可以方便地用于地名的右邊界,所以我們可以以它們?yōu)殛P
鍵字,然后采用規(guī)則的方法加以處理。當然,還有其他的規(guī)律可以采用規(guī)則表
示出來,并且也可以用于地名處理的過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024幼兒園校車司機應急處理與安全教育聘用合同范本3篇
- 專項貸款及連帶責任擔保協(xié)議法律認證版A版
- 2023-2024學年高中信息技術選修2(浙教版2019)-網(wǎng)絡基礎-說課稿-2.1-網(wǎng)絡拓撲結構
- 20 陀螺 說課稿-2024-2025學年統(tǒng)編版語文四年級上冊
- 2024施工人工費承包協(xié)議-城市更新項目專用3篇
- 23 走近工程師 說課稿-2023-2024學年科學三年級下冊青島版
- 福建省南平市外屯中學2022年高二數(shù)學理聯(lián)考試卷含解析
- 福建省南平市松溪縣第一中學高一英語上學期期末試卷含解析
- 7 2024電子商務平臺安全防護與合規(guī)性評估服務合同
- 碩士研究之旅
- 人力資源許可證制度(服務流程、服務協(xié)議、收費標準、信息發(fā)布審查和投訴處理)
- 借條的正規(guī)模板(2024版)
- 建設工程監(jiān)理費計算器(免費)
- 洗胃操作流程及評分標準
- CRISPR基因編輯技術PPT課件
- 地下連續(xù)墻拆除方案
- 二年級上冊數(shù)學期中試卷
- 工廠供配電技術習題
- 春節(jié)期間安全管理實施方案與春節(jié)期間施工現(xiàn)場維穩(wěn)方案匯編
- 建材公司財務管理制度
- 作業(yè)布置批改檢查量化評分細則(完整版)
評論
0/150
提交評論