淺談中朝韓在語言處理中的問題_第1頁
淺談中朝韓在語言處理中的問題_第2頁
淺談中朝韓在語言處理中的問題_第3頁
淺談中朝韓在語言處理中的問題_第4頁
淺談中朝韓在語言處理中的問題_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

淺談中朝韓在語言處理中的問題

1保護計算機間的交流與其他學(xué)科一樣,計算語言研究有兩個層次:基礎(chǔ)研究和應(yīng)用研究?;A(chǔ)研究的目的是發(fā)現(xiàn)語言的內(nèi)在規(guī)律、探索語言理解和生成的計算方法、建設(shè)語言信息處理的基礎(chǔ)資源;而應(yīng)用研究則在應(yīng)用目標(biāo)的驅(qū)動下,根據(jù)社會的實際需要,設(shè)計和開發(fā)實用的語言信息處理系統(tǒng)。自然語言處理的應(yīng)用目標(biāo)是使人與計算機之間用自然語言進行交流。具體說,是建立各種處理自然語言的計算機應(yīng)用軟件系統(tǒng),例如,機器翻譯、自然語言理解、語音自動識別與合成、文字自動識別、計算機輔助教學(xué)、信息檢索、文本自動分類、自動文摘,文本信息提取、互聯(lián)網(wǎng)上的智能搜索,以及各種電子詞典和術(shù)語數(shù)據(jù)庫。朝鮮語是中、朝、韓三國使用的跨境語言,在中國和朝鮮稱作朝鮮語,在韓國稱作韓國語。三者在語音、詞匯和語法方面都存在一定的差異。對于朝鮮語的自然語言處理,中、朝、韓三國都分別進行了研究,但進度不一。筆者根據(jù)相關(guān)研究資料總結(jié)了韓國、朝鮮及中國在朝鮮語自然語言處理基礎(chǔ)研究和應(yīng)用研究方面的成果,以及韓國各大重要自然語言處理實驗室的研究成果和重要課題;總結(jié)了朝鮮自然語言處理研究方面的基礎(chǔ)語言學(xué)理論探索;最后總結(jié)我國在朝鮮語自然語言處理領(lǐng)域所取得的一些進展,并結(jié)合韓國、朝鮮所取得的研究成果,展望了我國朝鮮語自然語言處理研究的發(fā)展前景。2韓國的研究2.1語言學(xué)研究多年來韓國自然語言處理發(fā)展的特點是,進行了一些基礎(chǔ)理論研究,應(yīng)用型研究和實用系統(tǒng)開發(fā)投入相對較多,也取得了一些成果。研究力量比較集中的領(lǐng)域有:文本信息檢索、文獻自動分類、自動文摘、語音自動識別與合成、機器翻譯,還有文本信息提取和過濾。另外,語言資源的建設(shè)和基于語料庫的語言分析方法也受到了格外關(guān)注,取得了比較快的進展。在面向自然語言處理應(yīng)用的語言學(xué)研究方面,韓國方面的研究主要集中在形態(tài)素分析、詞性標(biāo)注、句法分析和語義分析等方面。形態(tài)素分析的研究起步較早,高麗大學(xué)自然語言處理研究實驗室通過構(gòu)建詞綴詞典和制定詞綴規(guī)則體制來進行形態(tài)素分析,構(gòu)建了韓國語形態(tài)分析模型。隨著網(wǎng)絡(luò)的發(fā)展,開發(fā)了服務(wù)于網(wǎng)絡(luò)搜索引擎的形態(tài)素分析器和加權(quán)模塊,實現(xiàn)了網(wǎng)絡(luò)環(huán)境下的形態(tài)素分析。延世大學(xué)開發(fā)了國語形態(tài)素分析器和詞性標(biāo)注器。梨花女子大學(xué)開發(fā)了形態(tài)素分析器MACH1.0,它的分析速度是一般形態(tài)素分析器的10倍以上。另外,釜山大學(xué)和浦項工業(yè)大學(xué)等許多機構(gòu)和學(xué)者都進行過相關(guān)研究。句法分析方面,韓國主要在基本句識別、組塊識別、依存分析、短語結(jié)構(gòu)分析等方面進行了大量研究,早期的研究都是以句子為單位,組塊識別和短語結(jié)構(gòu)分析是近年來關(guān)注的焦點,韓國語名詞組塊的研究以基本名詞短語的相關(guān)研究為主。語義分析方面,韓國主要在詞匯消歧、語義角色標(biāo)注、命名實體識別、傾向性分析等方面開展研究,對語義的分析往往要借助于語義詞典和概念詞典,其中高麗大學(xué)自然語言處理研究實驗室構(gòu)建了韓國語K-概念網(wǎng)絡(luò),這是一個面向韓國語信息處理提出來的語義和概念體系,該理論建立了一個計算機可操作的符號體系。2.2韓國的信息文化建設(shè)自1998年起,韓國文化觀光部同國立國語研究院及相關(guān)學(xué)界自1998年起推進的韓國語信息化項目——《21世紀(jì)世宗計劃》是《韓國語信息化中長期計劃》的環(huán)節(jié)之一,其主要目的是奠定語言信息文化的基礎(chǔ)并構(gòu)建相關(guān)資源,建設(shè)以韓國語言和文字為基礎(chǔ)的信息化社會,提升自身在國家間信息化競爭中的主導(dǎo)權(quán),自主體現(xiàn)韓國語的先進信息文化。該計劃分為韓國語信息基礎(chǔ)構(gòu)建和信息化環(huán)境建設(shè)兩個部分。其中韓國語信息基礎(chǔ)構(gòu)建項目分為基礎(chǔ)語料庫資源建設(shè)、特殊語料庫資源建設(shè)、電子詞典開發(fā)、民族語言信息化、專業(yè)術(shù)語標(biāo)準(zhǔn)化等內(nèi)容;韓國語信息化環(huán)境建設(shè)分為非標(biāo)準(zhǔn)化文字登入、信息化人才培養(yǎng)、字庫開發(fā)普及等內(nèi)容。經(jīng)過10年的建設(shè),基本達到了預(yù)期目標(biāo),大大夯實了韓國語言信息化的基礎(chǔ),為進一步的深化研究創(chuàng)造了良好條件。另外,隨著本體研究的升溫,很多單位開始了這方面的研究,其中韓國科學(xué)技術(shù)院(KAIST)專業(yè)術(shù)語語言工學(xué)研究中心(KORTERM,目前該機構(gòu)更名為“語義Web技術(shù)研究中心”)在構(gòu)建大規(guī)模通用雙語詞典和專業(yè)領(lǐng)域術(shù)語雙語詞典的基礎(chǔ)上,構(gòu)建了韓—日—中多語種概念詞網(wǎng)(CoreNet);蔚山大學(xué)自然語言處理研究室、釜山大學(xué)韓國語信息處理研究室等多家單位正在構(gòu)建韓國語詞網(wǎng)。目前浦項工業(yè)大學(xué)KLE實驗室、語義網(wǎng)絡(luò)研究中心和KAIST聯(lián)手展開的“國家信息本體結(jié)構(gòu)技術(shù)發(fā)展計劃”是目前有關(guān)本體研究的重要在研項目。2.3韓國的研究與開發(fā)在韓國語信息處理技術(shù)的支撐下,各種應(yīng)用性研究和實用系統(tǒng)開發(fā)得到了迅速的發(fā)展。機器翻譯方面,韓國在該領(lǐng)域的研究始于20世紀(jì)80年代,最初的研究集中在韓日機器翻譯方向。20世紀(jì)80年代中期,首爾大學(xué)開發(fā)出了韓英機器翻譯系統(tǒng)KEMTS(Korean-EnglishMachineTranslationSystem),從此,韓英機器翻譯就成為了韓國語信息處理領(lǐng)域的主要研究方向。1988年開始,韓國系統(tǒng)工學(xué)研究所和韓國科學(xué)技術(shù)院人工智能研究中心聯(lián)合開發(fā)了MATES/EK(Machine-AidedTranslationEnvironmentforEnglish-to-Korean)系統(tǒng),該系統(tǒng)采用了間接轉(zhuǎn)化的方法作為系統(tǒng)構(gòu)建的主要方法,于1992年完成。此外,1991年韓國科學(xué)技術(shù)院電子系與日本NEC共同開發(fā)了英韓以及日韓機器翻譯系統(tǒng)。與此同時,首爾大學(xué)計算機系也與IBM展開合作,共同開發(fā)了英韓機器翻譯系統(tǒng),該系統(tǒng)的測試版于1991年完成。目前很多韓國研究機構(gòu)都在進行相關(guān)方面的研究。此后,韓國知識產(chǎn)權(quán)局(KIPO)推出了比較成熟的專利文獻機器翻譯工具K-PION(韓國專利信息在線服務(wù)系統(tǒng)),韓國電子通信研究所(ETRI)的評估結(jié)果顯示,該工具的整體準(zhǔn)確率達到了80%以上。目前,韓國在該領(lǐng)域的研究和開發(fā)主要有ETRI投資研發(fā)的韓英中日多國語自動翻譯系統(tǒng)和浦項工業(yè)大學(xué)研制的韓中/中韓機器翻譯系統(tǒng)。韓國語信息處理領(lǐng)域的另外一個熱點就是語音識別,其關(guān)注點主要集中在連續(xù)語音識別、電話語音識別、雜音處理技術(shù)及核心詞摘取技術(shù)等方面。韓國科學(xué)技術(shù)院語音處理實驗室研制的語音識別系統(tǒng)對韓國語語音的識別率達到96.7%,但單詞的規(guī)模限制在3064以內(nèi)。由Sensory公司研制的ICRSC-164系統(tǒng)是韓國國內(nèi)識別率最高的語音識別系統(tǒng),該系統(tǒng)可以用于識別非特定話者的語音或特定話者的語音、合成語音及音樂等方面。目前高麗大學(xué)自然語言處理實驗室也在進行語音識別方面的相關(guān)研究,旨在開發(fā)出適用于移動環(huán)境的韓國語語音技術(shù)。文字識別同樣也備受研究者的關(guān)注。韓國文字的識別困難主要可以概括為以下四個方面:(1)多種文字混用;(2)字形相似;(3)字體、筆跡繁多;(4)分詞本身難度較大。韓國科學(xué)技術(shù)院人工智能研究室針對如何提高文字識別系統(tǒng)的準(zhǔn)確率問題,提出了結(jié)合上下文信息進行文字識別的可能性篩選方法,并構(gòu)建了以N-gram為基礎(chǔ)的語言模型。通過實驗,得出了可供選擇的拆分語素越多、識別率越高的結(jié)論。另外,針對印刷體的文字識別系統(tǒng)OCR已經(jīng)投入市場,但市場滿意度偏低。目前屬于離線識別體系的文字識別系統(tǒng)正在研制中。3朝鮮的語言信息處理由于眾所周知的原因,我們很難獲取朝鮮在自然語言處理研究方面的第一手資料。筆者的資料主要源于在中國召開的中朝韓三國“Korean計算機處理國際學(xué)術(shù)會議”論文集(1994~2004年)以及韓國學(xué)者的一些介紹。朝鮮的主要研究機構(gòu)有朝鮮社會科學(xué)院(KCC)、平壤計算機中心、金日成綜合大學(xué)等單位。1984年金日成訪問歐洲之后,朝鮮才開始重視語言信息處理技術(shù)。1988年,朝鮮啟動科學(xué)技術(shù)研發(fā)3年計劃,開始向信息科學(xué)和信息產(chǎn)業(yè)領(lǐng)域注入資金并推動相關(guān)建設(shè)。目前語言信息處理已經(jīng)成為朝鮮的“朝陽產(chǎn)業(yè)”,非常受政府重視。朝文信息處理的目標(biāo)是在信息化時代的大背景下實現(xiàn)朝鮮語的計算機處理?;A(chǔ)研究方面,朝鮮對于自然語言處理(計算語言學(xué))的研究主要集中在面向自然語言處理的語言學(xué)研究方面,研究內(nèi)容主要包括朝文文字的構(gòu)成特點和形態(tài)特征、句法結(jié)構(gòu)特點和構(gòu)造規(guī)則及語義表達形式等,同時也對機器翻譯、信息檢索等技術(shù)有所涉及。語言資源的建設(shè)方面主要在語料庫建設(shè)方面有一定的進展。近年來朝鮮的語料庫語言學(xué)發(fā)展迅速,并且依據(jù)相關(guān)理論知識構(gòu)建了生語料庫、標(biāo)記語料庫,進而通過語料庫獲得形態(tài)知識、詞性知識、句法知識和語義知識。此外,朝鮮也在積極建設(shè)各種機器詞典,逐步完善基礎(chǔ)資源建設(shè)。應(yīng)用研究方面,在文字處理和人工智能的軟件技術(shù)上具有一定的水平,在智能檢索、自然語言處理系統(tǒng)、醫(yī)療信息系統(tǒng)的開發(fā)等方面成績突出。1994年朝鮮開發(fā)的“昌德文字處理器”與韓國的訓(xùn)民正音文字處理器相比毫不遜色,其開發(fā)的多語種文字編輯器可用于朝鮮語、英語、俄語和葡萄牙語的編輯。在2000年朝鮮電腦中心峰會上,朝鮮計算機中心開發(fā)的語音識別系統(tǒng)已具有很高的準(zhǔn)確率。朝鮮科學(xué)院開發(fā)了“鷹”朝鮮文字自動識別系統(tǒng)和“彩虹”計算機輔助朝英翻譯系統(tǒng);平壤信息中心開發(fā)了“檀君”朝鮮語預(yù)處理系統(tǒng)、識別率高達95%的“Insik”朝鮮語自動識別系統(tǒng)以及“Tamjing”朝日機器翻譯系統(tǒng)。4中國研究4.1編碼編碼方案為推動我國朝鮮語信息處理技術(shù)的發(fā)展,我國一直致力于朝鮮語信息技術(shù)標(biāo)準(zhǔn)化的研究工作。1977年,國務(wù)院決定成立東三省朝鮮語文工作協(xié)調(diào)小組(三協(xié)),統(tǒng)一管理中國朝鮮語文工作,在“三協(xié)”的指導(dǎo)下,我國制定了朝鮮語規(guī)范統(tǒng)一方案,這為朝鮮語計算機輸入標(biāo)準(zhǔn)化提供了保障。1989年,延邊電子信息中心設(shè)計完成了國家標(biāo)準(zhǔn)《信息交換用朝鮮文字編碼字符集》的編寫任務(wù)。此外,中國朝鮮語信息學(xué)會還同朝鮮及韓國相關(guān)機構(gòu)合作完成了《基于ISO2382標(biāo)準(zhǔn)的英朝韓日信息技術(shù)術(shù)語詞典》的編纂。朝鮮語作為一種跨境語言,中國朝鮮語、朝鮮的朝鮮語、韓國的韓國語三者之間編碼各不相同,韓國在2011年6月提出三套輸入編碼方案,朝鮮在2009年也發(fā)布了朝鮮語數(shù)字鍵盤布局標(biāo)準(zhǔn),與韓國提出三種方案差異也很大。針對朝鮮、韓國制定的兩個標(biāo)準(zhǔn)4種布局方案,經(jīng)我國朝鮮文信息技術(shù)專家分析后認(rèn)為,無論是從朝鮮語正音正字法原則,還是從朝鮮語基本語素角度看,4種方案均存在較大缺陷。目前,我國正根據(jù)國內(nèi)朝鮮語正音正字法及相關(guān)朝鮮語言文字規(guī)范制定科學(xué)合理的朝鮮文信息技術(shù)標(biāo)準(zhǔn)。4.2優(yōu)化了語義編碼機制,初步構(gòu)建了俄語有體系語言資源主要指語料庫和語言知識庫。關(guān)于語言資源建設(shè)的基礎(chǔ)研究包括語料的標(biāo)注、語料的分析和處理,以及用于語言資源建設(shè)的各種字表、詞表和規(guī)范、標(biāo)準(zhǔn)。語料庫方面,延邊大學(xué)朝鮮韓國學(xué)院在教育部重點項目支持下完成了“中國朝鮮語語料庫”的建設(shè),該語料庫依據(jù)通用性、描述性、實用性和抽樣性等4個原則,分別構(gòu)建了3個庫,即文本語料庫,平行語料庫和病句、中介語語料庫。在語料庫加工和規(guī)范方面,首先進行了總體規(guī)劃,制定了統(tǒng)一的數(shù)據(jù)格式和編碼標(biāo)準(zhǔn),并根據(jù)中國朝鮮語的特點開發(fā)了詞性自動標(biāo)注系統(tǒng),實現(xiàn)了文本語料庫的詞性標(biāo)注加工。同時,還借助中國朝鮮族的地域優(yōu)勢,初步構(gòu)建了“中—朝—韓”三國的語料庫資源共享機制,集成了朝鮮、韓國語料庫及相關(guān)工具??傮w來看,該語料庫設(shè)計規(guī)范,標(biāo)準(zhǔn)統(tǒng)一,建設(shè)規(guī)模超過了預(yù)定目標(biāo),是我國第一個朝鮮語語料庫。筆者所在單位朝鮮語信息處理研究團隊長期以來依靠語言學(xué)優(yōu)勢,在國家社科基金、國家自然科學(xué)基金以及本系統(tǒng)基金項目的支持下,面向語言信息處理,深入挖掘語言內(nèi)在規(guī)律,經(jīng)過3個階段的努力設(shè)計完成了“朝鮮語動詞句法語義層次框架”,并構(gòu)建了規(guī)模達5000個朝鮮語形態(tài)動詞(19200余條句法語義項)的“現(xiàn)代朝鮮語動詞句法語義信息詞典”。該框架以動詞為核心整合了句法、語義等信息,實現(xiàn)了句法語義信息的一體化描寫。目前以此框架理論為基礎(chǔ)的語義角色標(biāo)注、朝漢機器(輔助)翻譯研究正在有計劃地展開。另外,還在韓國科學(xué)技術(shù)院術(shù)語工學(xué)研究中心與北京大學(xué)計算語言學(xué)研究所共同研究的國際合作項目“英中韓三國語詞匯語義網(wǎng)的構(gòu)建”基礎(chǔ)上,充分考慮到構(gòu)建多語種詞匯語義網(wǎng)的難度,利用CCD(中文概念詞典)以及英韓、漢韓等雙語詞典資源,采用半自動方式構(gòu)建了“基于WordNet的英中韓多語種詞匯語義網(wǎng)”。在第一次匹配基礎(chǔ)上,通過專家干預(yù)方式實現(xiàn)了中英韓多語種詞匯語義網(wǎng)中韓語名詞概念的精確匹配,匹配度達到了95.6%,共計填充了121032個韓語詞語。該語義網(wǎng)的構(gòu)建可以大大提高多語種信息檢索、文本分類及翻譯的精確度。4.2中英韓機譯系統(tǒng)東北大學(xué)自然語言處理實驗室針對朝鮮語信息處理做了不少研究,具體有:中韓多國語機器翻譯系統(tǒng)(與韓國浦項工業(yè)大學(xué)合作,1995~2000年)、漢韓機器翻譯系統(tǒng)(科學(xué)技術(shù)部,國家外字0016)、中英韓多國語機譯系統(tǒng)的設(shè)計與實現(xiàn)等。2008年筆者所在朝鮮語信息處理研究團隊在完成大規(guī)模朝漢雙語詞典的基礎(chǔ)上,基于實例、片段翻譯以及翻譯記憶技術(shù)開發(fā)了面向領(lǐng)域的朝漢輔助翻譯系統(tǒng)。5俄語相關(guān)信息化研究的缺失這些年來,我國在朝鮮語自然語言處理研究方面還屬于發(fā)展階段,相關(guān)研究相對于韓國乃至朝鮮還比較滯后。目前朝鮮語語言資源建設(shè)方面還沒

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論