中文信息處理教案_第1頁
中文信息處理教案_第2頁
中文信息處理教案_第3頁
中文信息處理教案_第4頁
中文信息處理教案_第5頁
已閱讀5頁,還剩141頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中文信息處理教案亢世勇編著漢語言文學(xué)院緒論一、什么是中文信息處理?語言信息處理(languageinformationprocessing)是指用計算機對自然語言的音、形、義等信息進行處理。即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作與加工。中文信息處理(chineseinformationprocessing)是用計算機對漢語的音、形、義等信息進行處理,也稱“漢語信息處理”。漢字信息處理(chinesecharacterinformationprocessing)用計算機對漢字所表示的信息進行的操作和加工。中文信息處理是語言信息處理的一部分,或者一個分支。漢語信息處理解決的首要問題是漢字的信息處理,這是漢語的獨特任務(wù),也就是說,漢字信息處理是漢語信息處理的第一步,因此在很長一段時間“中文信息處理”主要任務(wù)是“漢字信息處理”,有人干脆把“中文信息處理”稱為“漢字信息處理”,現(xiàn)在比較多的稱為“漢語漢字信息處理”。語言信息處理與計算語言學(xué)同屬于一個學(xué)科,是一個問題的兩個方面,經(jīng)常指同一個東西。如果要分開、相對而言的話,語言信息處理主要指偏重于語言問題的討論,比如字詞句篇章的知識、語料庫以及語言信息處理的應(yīng)用等等,而計算語言學(xué)偏重于語言問題在計算機上實現(xiàn)的方法、理論等。二、語言信息處理的發(fā)展與學(xué)科性質(zhì)(一)語言信息處理的發(fā)展計算機語言在不斷發(fā)展,自從有了高級語言后,各種人都可以很快地學(xué)會使用計算機,可以完全不顧機器指令,也可以不必懂得計算機的內(nèi)部結(jié)構(gòu)和工作原理就能得心應(yīng)手地使用計算機進行各種科學(xué)計算、事務(wù)管理或語言文字的信息處理。而且,高級語言的通用性很高,可以適用于不同的計算機。語言信息處理(包括計算語言學(xué))是一門研究如何運用計算機和計算機技術(shù)研究自然語言、處理自然語言的學(xué)問,也就是研究在自然語言的研究領(lǐng)域和自然語言的運用領(lǐng)域中如何運用計算機和計算機技術(shù)。計算語言學(xué)一方面利用計算機對語言文字進行各種定量化與精密化的研究;另一方面又要求語言學(xué)家為計算機進行自然語言處理提供可計算的語法模型,以支持自然語言的分析與生成、計算機系統(tǒng)的自然語言人機接口和機器翻譯等各種應(yīng)用。自然語言處理系統(tǒng)研制開發(fā)過程有三個大的領(lǐng)域和三個相應(yīng)的層次,即理論語言學(xué)和語法層,計算語言學(xué)和形式化層,計算機科學(xué)和實現(xiàn)層。其中語法層關(guān)心的是語言本身的特征,它的主要任務(wù)是為后面的模塊提供基礎(chǔ)。實現(xiàn)層關(guān)心的焦點是如何控制計算機的各種執(zhí)行過程,它也負責(zé)向其他層次的人員提供效的開發(fā)工具和環(huán)境。形式化層是語法層與實現(xiàn)層之間的接口界面,它的主要任務(wù)是將語法層提供的普通語法模型改寫為更易于計算機處理的形式化語法模型。將語法形式化是計算語言學(xué)家的任務(wù)。語言文字信息處理最早起源于美國,經(jīng)過半個世紀(jì)的努力,語言信息處理的研究不斷發(fā)展,取得了比較多的成果,出現(xiàn)了一些應(yīng)用成果,比如:自然語言理解、情報檢索、機器翻譯、計算機輔助教學(xué)等。(二)語言信息處理的學(xué)科性質(zhì)從語言信息處理(包括計算語言學(xué))學(xué)科本身來看,它是一門交叉學(xué)科。計算機對自然語言的研究和處理,一般應(yīng)經(jīng)過以下三個方面的過程:第一、把需要研究的問題用語言學(xué)的方法加以形式化,使之能以一定的數(shù)學(xué)形式嚴(yán)密而規(guī)整地表示出來;第二,把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為算法,使之在計算上形式化;第三,根據(jù)算法編寫計算機程序,使之在計算機上加以實現(xiàn)。因此,研究計算語言學(xué),不僅要有語言學(xué)知識,還要有數(shù)學(xué)和計算機科學(xué)知識。這樣,計算語言學(xué)處于文科、理科和工科的交叉點上,是建立在語言學(xué)、數(shù)學(xué)和計算機科學(xué)這三門學(xué)科基礎(chǔ)上的邊緣性學(xué)科。有專家(龔彥如等,1994)認為,計算語言學(xué)由基礎(chǔ)理論領(lǐng)域、應(yīng)用領(lǐng)域和相關(guān)學(xué)科領(lǐng)域三部分構(gòu)成,其中:基礎(chǔ)理論領(lǐng)域包括:1、詞法學(xué),2、句法學(xué),3、語義學(xué),4、語音學(xué),5、統(tǒng)計學(xué),6、信息論,7、數(shù)理邏輯,8、集論,9、格論,10、詞匯學(xué),11、語用學(xué),12、言談分析,13、認知論,14、文字學(xué),等等;應(yīng)用領(lǐng)域包括:1、自然語言理解,2、機器翻譯,3、人工智能,4、電子詞典,5、專家系統(tǒng),6、知識工程,7、數(shù)據(jù)庫與系統(tǒng)設(shè)計,8、大文本語料庫,9、語音識別與合成,10、文本處理,11、情報檢索,12、文字識別,13、自然語言的人機接口,等等;相關(guān)學(xué)科領(lǐng)域包括:1、計算機科學(xué),2、心理學(xué),3、病理學(xué),4、術(shù)語學(xué),5、邏輯學(xué),6、社會學(xué),7、語言教學(xué),8、翻譯學(xué),9、文學(xué),10、哲學(xué),等等。馮志偉先生曾著重考察了英國的計算語言學(xué)研究和教學(xué)情況。據(jù)他介紹,在曼徹斯特大學(xué)設(shè)有計算語言學(xué)專業(yè)的學(xué)士學(xué)位和機器翻譯專業(yè)的碩士學(xué)位。計算語言學(xué)專業(yè)的學(xué)士課程有:語言學(xué)導(dǎo)論,現(xiàn)代語言學(xué),語法理論,比較語法、詞匯學(xué)、社會語言學(xué)、語言交際學(xué)、語言學(xué)中的數(shù)學(xué)方法、統(tǒng)計語言學(xué);計算語言學(xué)、計算機在語言研究中的應(yīng)用;計算機導(dǎo)論、信息科學(xué)導(dǎo)論,自然語言處理中的高級計算機技術(shù),信息系統(tǒng)的自然語言接口、術(shù)語學(xué)。機器翻譯專業(yè)的碩士課程有:翻譯理論、機器翻譯理論、機器翻譯實驗、機器翻譯中的語言學(xué)問題;計算語言學(xué)、信息系統(tǒng)的自然語言接口、術(shù)語學(xué)、程序設(shè)計、科技英語結(jié)構(gòu)、英語文書自動處理等?!坝嬎阏Z言學(xué)”這門課程的內(nèi)容有:形式語言理論、上下文自由語言的識別與分析、非上下文自由語言的分析、廣義短語結(jié)構(gòu)語法、詞匯功能語法、詞跡理論與確定性分析、知識與語義的表示法、概念依存理論、優(yōu)先語義學(xué)等。從計算語言學(xué)教育的上述情況來看,計算語言學(xué)這門學(xué)科的確具有綜合性、交叉性極強的特點。三、中文信息處理的發(fā)展中文信息處理的發(fā)展經(jīng)歷四個階段:漢字的信息處理:漢字屬性的統(tǒng)計與研究;漢字編碼理論與技術(shù);漢字常用字表和通用字表的制定;漢字字形庫的研究,等等。漢語詞語的信息處理:漢語分詞規(guī)范,漢語總詞表,詞頻統(tǒng)計;漢語自動分詞系統(tǒng),分詞質(zhì)量評估軟件;漢語詞類劃分規(guī)范,帶有詞性標(biāo)注的漢語詞典;漢語詞類的自動標(biāo)注系統(tǒng);漢語基本詞匯信息庫;漢語的語義詞典和概念詞典。漢語句子的信息處理:漢語的詞組及句型規(guī)范,句型統(tǒng)計;漢語適用的句法分析算法:漢語的句法規(guī)則庫(包括兼類詞處理規(guī)則、虛詞處理規(guī)則、動詞處理規(guī)則、同形詞類處理規(guī)則等等);漢語的格——價研究,漢語的詞格辭典;漢語時、體、量等形態(tài)的表達與判別;漢語的受限語言及子語言研究。話語篇章的信息處理:漢語句間關(guān)系研究;漢語不同語體的話語模型;話語分析與生成系統(tǒng)。目前,在字處理、詞處理己陸續(xù)取得相對突破的基礎(chǔ)上,漢語句處理已成關(guān)鍵。這時句法知識、語義知識、語用知識的基礎(chǔ)理論研究都是中文信息處理實踐和中國計算語言學(xué)的前沿課題。其中,句法知識、語義知識的獲取是當(dāng)前的重點,而語義知識又是二者的難點,難的基礎(chǔ)是詞匯一級語言單位的語義。四、當(dāng)前漢語信息處理需要研究基礎(chǔ)問題黃昌寧先生(1992)認為我國當(dāng)前計算語言學(xué)在基礎(chǔ)理論方面面臨兩個重大的前沿課題:第一、語法理論問題。我國計算語言學(xué)的研究人員,尤其是語言學(xué)家,有責(zé)任針對漢語與印歐語系之間的深刻差別,逐步創(chuàng)立適合漢語的語法理論,這是我們踏上計算語言學(xué)這個世界學(xué)術(shù)大舞臺的關(guān)鍵一步。第二、語義學(xué)問題。國內(nèi)在語義學(xué)方面的研究幾乎是空白的。當(dāng)前首要的任務(wù)是給出詞典中每個詞條(義項)的語義描寫。詞義描寫的策略:一是要建立一個概念分類體系;二是采用屬性(或特征)描寫來補充分類體系的不足,屬性描寫應(yīng)當(dāng)是開放的,可以隨時根據(jù)需要加以補充和延伸。詞義描寫既是為句法分析服務(wù)的,又是最終建立句子意義表達的基礎(chǔ)。在語言信息處理中,句法的結(jié)構(gòu)歧義和多義的判別等問題的解決都離不開詞典提供的語義信息。所以這方面的研究對于提高語言信息處理系統(tǒng)的質(zhì)量和走向?qū)嵱没哂胁豢傻凸赖闹匾饬x。在基本技術(shù)方面,今后10年里,要建立三級平臺。第一級是中文信息處理基礎(chǔ)研究平臺;第二級是中文信息炒理應(yīng)用關(guān)鍵技術(shù)平臺(如自動標(biāo)引系統(tǒng)中蘊含概念分析及權(quán)值評價模型、自動文摘生成系統(tǒng)的話語模型及句間聯(lián)系分析);第三級是應(yīng)用系統(tǒng)開發(fā)平臺(如人機接口和問答系統(tǒng))(袁崎、陳力為,1992)。這是中國計算語言學(xué)的基礎(chǔ)性研究工作。早在1989年,董振東先生受中文信息學(xué)會計算語言學(xué)專業(yè)委員會的委托,起草了一個計算機界和語言學(xué)界合作,共同進行中文信息處理研究的設(shè)想。其內(nèi)容為六個主課題:1、語料庫系統(tǒng)語料庫子系統(tǒng)是中文信息處理各相關(guān)領(lǐng)域的語言素材庫。為標(biāo)注自動分詞系統(tǒng)、提取和驗證詞典信息、編制句法語義規(guī)則提供翔實的統(tǒng)計素材,并且最終成為中文信息處理基礎(chǔ)研究用的綜合統(tǒng)計分析的數(shù)據(jù)庫。語料庫系統(tǒng)的研究包括3個子課題:(1)分詞規(guī)范。包括兩個專門課題:分詞規(guī)范制定;規(guī)范測試檢驗。(2)自動分詞。(3)語料庫。2、電子詞典系統(tǒng)包括句法詞典、語義詞典和搭配詞典三部分。3、句法語義分析和生成系統(tǒng)句法語義分析和生成系統(tǒng)中的詞語知識庫。句法語義分析子系統(tǒng)將包括一個全面覆蓋漢語短語和句型結(jié)構(gòu)的規(guī)則庫,并且通過語言分析器產(chǎn)生句法樹和語義網(wǎng)。這是漢語語句的最終分析結(jié)果。包括3個子課題:(1)分析規(guī)則庫。包括三個專門課題:A、句型與短語,又包括:分類體系與層次;描述方法;動態(tài)與靜態(tài)特征描述方法。主要文法屬性研究等四項專門研究。B、歧義類型;C、分析器,又包含流程、模塊兩項專門研究.(2)生成規(guī)則庫。包括3個專門課題:A、詞序;B、搭配關(guān)系;C、以生成器(3)軟件。包括兩個專門課題:A、文法描述語言;B、解釋器。4.受限語言系統(tǒng)這一系統(tǒng)包括:文法受限規(guī)格、詞匯受限規(guī)格、用戶選擇與測試3個子課題。5.集成系統(tǒng)這一系統(tǒng)包括:文件管理、信息傳輸、系統(tǒng)間接口3個子課題。6.輔助工具系統(tǒng)這一系統(tǒng)包括光學(xué)字符閱讀器、詞處理機、語音識別系統(tǒng)3個子課題。參考書目1、《自然語言的計算機處理》馮志偉上海外語教育出版社2、《應(yīng)用語言學(xué)》劉涌泉湖南教育出版社3、《漢語計算語言學(xué)》吳蔚天羅建林電子工業(yè)出版社4、《人工智能原理》石純一清華大學(xué)出版社5、《現(xiàn)代漢語語法信息詳解詞典》俞士汶清華大學(xué)出版社6、《自然語言理解》姚天順清華大學(xué)出版社7、《信息處理用現(xiàn)代漢語分詞規(guī)范及自動分詞方法》劉源等,清華大學(xué)出版社8、《計算語言學(xué)概論》翁富良等中國社會科學(xué)出版社9、《當(dāng)代西方語法理論》俞如珍上海外語教育出版社10、《語言文字應(yīng)用》,1992年至今各期11、《中文信息處理》,傅永和,廣東教育出版社12、《應(yīng)用語言學(xué)綜論》,馮志偉,廣東教育出版社13、《語料庫語言學(xué)》,黃昌寧,商務(wù)印書館14、《計算語言學(xué)探索》,馮志偉,黑龍江教育出版社15、《計算語言學(xué)基礎(chǔ)》,劉穎,清華大學(xué)出版社第一章漢字信息處理?第一節(jié)漢字屬性信息?漢字的屬性信息包括字量、字頻、字序、字形、字音(參考傅永和《中文信息處理》廣東教育出版社)?一、漢字的字量?1、歷代大型字典收字數(shù)量?說文解字9353字匯33179?聲類11520康熙字典47043?字林12824中華大字典48200?玉篇22726中文大字典53768?廣韻26194漢語大字典53768?集韻53525?2、現(xiàn)代通用字和常用漢字的數(shù)量?1981國標(biāo)GB2312《信息交換用漢字編碼字符集》收6763個,其中一級字3755個,二級字3008個。?1988年1月國家語委《現(xiàn)代漢語常用字表》?收字3500個,一級常用字2500個,二級常用字1000個。選取的根據(jù):(1)頻率(2)學(xué)科分布廣(3)構(gòu)詞或構(gòu)字能力強(4)漢字的實際使用情況。?1998年3月國家語委和新聞出版署《現(xiàn)代漢語通用字表》,7000字。包括了常用字表的3500個。?3、現(xiàn)代通用漢字和常用漢字的覆蓋率?漢字序號1040160950240038005200?覆蓋率%112550909999.999.99?經(jīng)測試,常用字表中2500個常用字覆蓋率為97.97%,1000個次常用字覆蓋率為1.5%,兩者合計99.48%。?二、漢字字頻?1、70年代“748工程”對2100萬漢字語料統(tǒng)計,形成《現(xiàn)代漢字綜合使用頻度表》。?2、1982—1985北航等10個單位對3億漢字語料統(tǒng)計《三千高頻度漢字字表》?3、1988年出版的《漢字頻度統(tǒng)計》5991字分為五級,有筆畫、出現(xiàn)次數(shù)、累計次數(shù)、累計百分比?4、1986年北京語言學(xué)院出版《現(xiàn)代漢語頻率詞典》其中列《漢字頻率表》從180萬字語料中得出單字4574個。?字頻屬性是選擇字符、確定漢字字符數(shù)量和進行漢字分級的依據(jù)。?三、漢字字序?現(xiàn)代漢語用字排列的順序.?(1)義序法(2)音序法(3)形序法?四、漢字字形?1、漢字的筆畫?(1)漢字筆畫數(shù)統(tǒng)計:簡化字和被簡化的繁體字以及未簡化的漢字集(16339):8畫至15畫的字書較多,其中12畫的字數(shù)最多。16339個漢字的平均筆畫數(shù)為12.7061畫。?(2)漢字基本筆畫使用頻度。?(3)漢字起筆統(tǒng)計。?2、漢字的部件?(1)分析漢字的方法?A、分析到筆畫B、分析到偏旁?C、分析到部首D、分析到部件?主張:獨體字構(gòu)成成分分析到筆畫,合體字的構(gòu)成成分應(yīng)分析到部件.?(2)漢字部件的定義(3)漢字部件的名稱.?(4)漢字部件名稱的規(guī)范.(5)漢字部件的分級統(tǒng)計.?(6)漢字末級部件組字頻度?3、漢字的結(jié)構(gòu)方式?(1)平面分析法的結(jié)構(gòu)方式(2)層次分析法的結(jié)構(gòu)方式?五、漢字的字音參見傅永和《中文信息處理》廣東教育出版社漢字輸入、編碼、輸出一、漢字輸入的方法類型漢字輸入是指利用漢字的形、音或相關(guān)信息通過各種方式把漢字輸人到計算機中去的過程,漢字輸入技術(shù)是漢字信息處理的關(guān)鍵技術(shù)。漢字輸入的方法有三類:(一)漢字字形識別輸入什么是漢字字形識別輸入?也稱漢字自動識別。即利用光學(xué)掃描方法將漢字的圖形信息直接輸入計算機,也就是用計算機自動辨別印刷或書寫在紙(或其他介質(zhì))上的漢字。它屬于模式識別和人工智能的范疇,是新一代計算機智能接口的一個重要組成部分,在應(yīng)用上它是漢字信息處理系統(tǒng)高速自動輸入的手段和根本出路,是漢語中文信息處理的一種好方法。2、漢字字形識別輸入的類型:(1)聯(lián)機手寫漢字的識別。人一面寫,機器一面認。這是最簡單的一種漢字識別類型。(2)印刷體漢字的識別。包括兩小類:單體印刷體漢字識別,識別印刷在紙上的一種印刷漢字;多體印刷體漢字識別,同時能識別印刷在紙上的宋、仿宋、黑、楷等印刷體漢字。(3)手寫漢字的識別。包括三個小類:手寫印刷體漢字識別;特定人寫漢字識別和人機交互式手寫漢字識別。3、漢字識別的基本思想與步驟漢字識別的基本思想是匹配判別。步驟:第一步把需要識別的漢字集合中每一個漢字字符的字形特征存貯在機器中)形成已知的漢字模。第二步用圖形輸入板或光電設(shè)備(如圖文掃描、光導(dǎo)攝象管掃描、激光掃描等裝置)掃描輸入一個未知的需要識別的漢字字符,抽取它的特征。第三步將抽取到的代表未知漢字模式本質(zhì)的表達形式(即各種特征)和預(yù)先存貯在機器中的所有漢字特征一個一個地匹配,匹配用一定的準(zhǔn)則進行。最后在機器存貯的標(biāo)準(zhǔn)漢字模式表達形式的集合中,找出最接近輸入漢字特征的那一個,該特征所對應(yīng)的漢字就是識別結(jié)果,最后用相應(yīng)的內(nèi)部碼來表示它。4、漢字自動識別的優(yōu)點漢字自動識別的方法有許多優(yōu)點。首先是實現(xiàn)了漢字的高速自動輸入,大大減輕了人的腦力和體力勞動強度。其次是突破了人工輸入的速度局限性,徹底解決了漢字信息處理系統(tǒng)中手工輸入效率低的問題。再次是為辦公自動化和下一代印刷技術(shù)的文字信息自動輸入打下了基礎(chǔ)。它還可作為新一代計算機智能接口的重要組成部分。最后它有助于漢字文本高倍壓縮存貯和傳輸。5、漢字自動識別的研究進展陳敏和王翠葉最近(1995)報道了我國漢字識別技術(shù)的進展情況。這項技術(shù)自70年代未起步、目前正向?qū)嵱没l(fā)展,印刷體漢字識別是我國漢字識別研究的主流。1988年已有五六個系統(tǒng)基本達到實用化,并形成商品,它們的主要技術(shù)指標(biāo)達到了世界先進水平。識別字數(shù)可達3755—4000個,識別速度為20字/秒左右,對中等印刷質(zhì)量文本識別率達到95%~99%,識別字號為3~6號,識別字體的宋、仿宋、楷、黑等,有一定版面分析和后處理能力,初步具備了適用的人機界面。聯(lián)機手寫識別1988年已有幾個初步實用的裝置,其主要技術(shù)指標(biāo)為:識別字數(shù)可達6763——12000個,識別速度與人書寫的速度基本相當(dāng);初次使用的識別率為80%左右,經(jīng)常使用可達95%。書寫時要求筆形與筆畫數(shù)比較正確,極常用的少數(shù)筆形與筆畫可以連筆書寫,筆順不嚴(yán)格要求。手寫漢字識別1988年才開始認真研究,近幾年進入高潮,全國已有幾個實驗性系統(tǒng)進行了裟定。特定人手寫識別已在小范圍試用。識別速度用386微機為1字/秒。接近實用的交互式自學(xué)習(xí)手寫漢字識別系統(tǒng),可識別3755個字,其前10位候選正確率為80%~95%。手寫印刷體漢字識別已從方法研究轉(zhuǎn)向?qū)嵱孟到y(tǒng)的研究。6、漢字識別存在的問題——識別的準(zhǔn)確率受到各種限制印刷質(zhì)量掃描時的位置看以下實例:陳敏和王翠葉最近(1995)報道了我國漢字識別技術(shù)的進展情況。這項技術(shù)自70年代未起步、目前正向?qū)嵱没l(fā)展,印刷體漢字識別是我國漢字識別研究的主流。1988年已有五六個系統(tǒng)基本達到實用化,并形成商品,它們的主要技術(shù)指標(biāo)達到了世界先進水平。識別字數(shù)可達376(3755)~4000個,識別速度為20字/忿(秒)左右,對中等印刷質(zhì)量文本識別率達到95%~99%,識別字號為3~6號,識別字體的宋、訪宋(仿宋)、槽(楷)、票(黑)等,有一定版面分析和盾處埋(后處理)能力,初步具備了適用的人機界面。聯(lián)機手寫識別1988年已有幾個初步實用的裝置,其主要技術(shù)指標(biāo)為;(:)識別字數(shù)可達6763~D000(12000)個,識別速度與人書寫的速度基本相當(dāng);初次使用的識別率為80%左右,經(jīng)常使用可這(達)95%。書寫則要求筆形與筆畫數(shù)比較正確,極常用的少數(shù)筆形與筆畫可以連筆書寫,筆順不嚴(yán)格要求。7、漢字識別技術(shù)今后研究的主要方向(1)人工神經(jīng)網(wǎng)絡(luò)技術(shù)用于漢字識別人工神經(jīng)網(wǎng)絡(luò)技術(shù)具有高度的自組織、自適應(yīng)和自學(xué)習(xí)能力。在我國手寫漢字識別和印刷體漢字識別的研究中已得到了應(yīng)用,今后將發(fā)揮更大的作用。(2)語言學(xué)知識用于漢字識別識別實際文本時,文中大部分字及其相鄰字要受到詞、句法、語義的限制,因而是相關(guān)的。識別系統(tǒng)利用這些相關(guān)性的知識,可改善孤立字識別時的性能,這樣,把單字識別技術(shù)同語言學(xué)知識結(jié)合起來,能提高識別系統(tǒng)的水平。在已有的印刷體漢字識別系統(tǒng)中,后處理便利用了漢語的詞進行自動糾錯。今后將進一步利用詞的上下文匹配和基本句法、語義的上下文匹配,來提高對實際文本的識別率。(3)多種識別方法集成將多種識別方法集成在一起表決判別,可大大降低系統(tǒng)的誤識率,提高總的識別率。(二)漢字語音識別輸入什么是漢字語音識別輸入?漢字語音識別輸入就是通過“說”和“聽”來和計算機交換信息,即利用聲音識別技術(shù),抽取漢字的語音特征,實現(xiàn)對漢語語音的自動識別。其目的是讓計算機“聽懂”用漢語語音所表示的漢字信息,以便通過口授將包含有漢字的程序、數(shù)據(jù)、命令、文稿等送入計算機。語音識別輸入的優(yōu)點(1)輸入速度快,說比寫約快10倍,比打字約快4倍;(2)工作強度低,使用最方便,將手解放了。(3)使用最方便,不會受到編碼規(guī)則對思維習(xí)慣的干擾。使用語音是人機對話的最自然的方式,也是名副其實的人機對話。語音識別的類型語音識別的類型,按不同的標(biāo)準(zhǔn)分類,有如下三種不同的分類結(jié)果。按使用人分類按使用人分類,有特定人語音識別和非特定人語音識別。特定人語音識別指使用前由使用者對系統(tǒng)進行訓(xùn)練,讓系統(tǒng)記住事先選好的字或詞的發(fā)音特征,識別時由這個使用者將字或詞讀進系統(tǒng)。非特定人語音識別是供許多人使用的系統(tǒng),使用者不用對系統(tǒng)進行訓(xùn)練。系統(tǒng)要能聽懂任何人說的話,就必須讓系統(tǒng)獲取許多人說話的共性特征,并在處理中進行強化,使許多人說的同一語音的特征有極高的穩(wěn)定性,對不同的語音有極大的區(qū)別度。按詞匯量分類按詞匯量分類,有小詞匯量語音識別、中詞匯量語音識別和大詞匯量語音識別。小詞匯量指幾十個字或詞,中詞匯量指幾百個字或詞,大詞匯量指幾千甚至上萬的字或詞。按發(fā)音方式分類按發(fā)音方式分類,有孤立詞語音識別和連續(xù)語音識別。孤立詞語音識別指識別時將字或詞孤立地讀進系統(tǒng)。連續(xù)語音識別指識別時將整個句子連續(xù)讀進系統(tǒng)。要求系統(tǒng)既具備處理連續(xù)造成的同化、異位、脫落、換位等音變問題的能力,又具有通過語義、語法知識分析得出正確識別結(jié)果的能力。另外,還有使用環(huán)境優(yōu)劣的區(qū)分,也就是指噪聲輕重情況。目前噪聲下的語音識別還只是在初步研究階段。通常所說的語音識別都是有較好的使用環(huán)境。從技術(shù)上的難易程度說,上述每小類語音識別,后者都比前者難。如果將上述三小類排列組合起來,應(yīng)該有12大類,即特定人小詞匯量孤立詞的識別、特定人中詞匯量孤立詞的識別、特定人大詞匯量孤立詞的識別、非特定人小詞匯量孤立詞的識別、非特定人中詞匯量孤立詞的識別、非特定人大詞匯量孤立詞的識別、特定人小詞匯量連續(xù)語音的識別、特定人中詞匯量連續(xù)語音的識別、特定人大詞匯量連續(xù)語音的識別、非特定人小詞匯量連續(xù)語音的識別、非特定人中詞匯量連續(xù)語音的識別、非特定人大詞匯量連續(xù)語音的識別。這12大類一類比一類難。4、語音識別研究的進展我國語音識別技術(shù)經(jīng)十多年的發(fā)展,目前已開始走向?qū)嵱谩R詽h語全音節(jié)識別的成績最為顯著。特定人大詞匯量孤立詞語音識別系統(tǒng),具有較高的識別正確率和響應(yīng)速度,有的已初步商品化,識別率基本能達到80%以上,有的還可達到95%以上?;谏窠?jīng)網(wǎng)絡(luò)方法進行的漢語聲母、韻母、聲調(diào)的識別,已取得了可喜的成果,有些單位四聲識別已達到近100%的水平。利用聲學(xué)信息進行的語音識別,有一些中、小詞匯量的語音識別系統(tǒng)已投入實際應(yīng)用,如口呼語音輸入的自動查報電話號碼系統(tǒng)、聲控電話查號系統(tǒng)等。非特定人中、小詞匯量孤立詞語音識別已取得優(yōu)異的成果,利用適合于漢語特點的概率統(tǒng)計模型對不同話者和話流速度的變異有相當(dāng)強的適應(yīng)性,目前正向大詞匯量孤立詞語音識別系統(tǒng)邁進。連續(xù)語音識別剛剛開始,特定人小詞匯量的連呼識別,特別是連續(xù)數(shù)字串語音的識別在實驗室里已做到實時識別,并有較高的識別率。連續(xù)語音識別的后處理工作,也取得了一定的進展。噪聲下的語音識別已在做初步的方法研究。5、語音識別研究今后努力的方向語音識別今后需努力做到能用且好用,應(yīng)開展以下幾個方面的研究工作。(1)加強識別方法和處理手段的研究,“提高語音識別的魯棒性”(2)加強非特定人、大詞匯量、連續(xù)漢語語音識別的研究(3)開展建立語音庫和語音特征庫的研究(4)注意計算機聽覺模型的研究(5)注意研究模糊數(shù)學(xué)理論在語音識別中的應(yīng)用(6)加強人工神經(jīng)網(wǎng)絡(luò)方法用于語音識別的研究(7)研究語言學(xué)知識在語音識別中的應(yīng)用目前語音識別的方法主要是利用語音信號中的聲學(xué)信息和模式匹配。語音識別的終極目的是語音理解。語音識別和語音理解一樣,不能僅依賴于聲學(xué)信息,還須依賴于語言學(xué)的信息。如利用漢語的詞法、句法、語義和語用知識來解決語音信號多變性的問題。語音調(diào)味品困達到高級水平,必須利用語言學(xué)知識。(三)漢字編碼鍵盤輸入其做法大多以原有西文計算機系統(tǒng)為基礎(chǔ),利用計算機所使用的ASCII字符來對漢字進行編碼,使?jié)h字符號化,并借助鍵盤輸入計算機。這是目前語言信息輸入的最主要方法。二、電腦鍵盤的匹配與漢字編碼1.漢字的鍵盤輸入如何在國際通用的小鍵盤上用不同的鍵位組合把6763個不同的漢字從字庫里“檢索”出來、“敲打”出來,這是漢字信息處理的首要問題;而鍵位組合的設(shè)計就是平常所說的“漢字編碼”。1978年12月,我國召開了“第一屆全國漢字編碼學(xué)術(shù)交流會”,會上提出了漢字輸入編碼方案約40個。專家們介紹,當(dāng)時內(nèi)地第一種漢字輸人編碼叫做“支碼”(唐旬,1995)?!爸ヂ殚_門”,是古代阿拉伯神話中取得深山財富的神奇的咒語?!爸Тa”的命名反映了人們打開現(xiàn)代電腦技術(shù)與中國語言文字結(jié)合的道路。到1983年,已達400個,其中40多個已在各種類型的漢字信息處理系統(tǒng)中獲得了應(yīng)用,形成了萬“碼”奔騰的“戰(zhàn)國時代”。漢字與鍵盤匹配有很大的困難。張普(1993)對其作了全面論述。計算機在處理西文以及漢字以外的其他類型的文字都比處理中文(漢字)容易得多?!白帧笔侵形奶赜械母拍?,中文由字組成詞,由詞構(gòu)成句子。字母比漢字的結(jié)構(gòu)簡單,且數(shù)量很少。如希臘字母24個,拉丁字母26個,斯拉夫字母43個,阿拉伯字母28個,梵文字母46個,日本字母片假名、平假名各50個等。即使加上大寫、小寫、印刷體、手寫體的區(qū)別,每個文種也都不超過200個符號;按筆畫計,每個字母多為一兩筆,很少超過三筆。而漢字的平均筆畫為12筆,簡化后的漢字平均筆畫也有9畫多。漢字總數(shù)遠在3000年前的甲骨文時期就已達到4000個以上,就是只計算現(xiàn)代通用的漢字,國家語委公布的《現(xiàn)代漢語通用字表》也有7000個字,《信息交換用漢字編碼字符集·基本集》也收字6763個字,加上第二、第四兩個《輔助集》,已達21039個字。漢字的字數(shù)之多、筆畫之繁、結(jié)構(gòu)之復(fù)雜,堪為世界之最。漢字的這種實際情況造成了與計算機鍵盤匹配上的困難。計算機的鍵盤上有26個拉丁字母鍵,10個數(shù)字鍵,還有數(shù)目不等的功能鍵和符號鍵,加在一起有幾十個鍵,人們靠這幾十個鍵來輸入各種文字符號,這在以拉丁字母為基礎(chǔ)的西文自然不成問題,可以在鍵上直接輸入,至多在鍵盤和軟件上作些小的改造。但對于漢字輸入來講,就遇到了極大麻煩。張普追述道:開始,人們仿照老式中文打字機的辦法,把漢字印在鍵上,鍵數(shù)不夠,就造更大的鍵盤,以至于鍵盤大得像寫字臺,按起鍵來極不方便,找起字又麻煩,造價也貴了許多,于是人們想了許多辦法來縮小鏈盤。有的將字體縮微,印在一張膜上,下面是壓敏電阻,因為字小,又密集,手指不能按了,就用一支特制的筆來“點字”。更有人把常用的字放在第一頁壓膜上,不常用的或罕見的字放在第二頁、第三頁上,這樣,經(jīng)常在第一頁上“點字”,偶爾到其他頁上去點,這就進一步縮小了“字盤”。還有人把平面的“字盤”做成一個圓筒,左手搖筒管前后找字,右手拉坐標(biāo)左右找字,字找到了就用腳將機關(guān)一踏,字就“點”進去了。這些方法顯然不便于普及推廣。于是有人仍在用手按鍵的方式上打主意,比如,在每個鍵上都印6個漢字(這叫主鍵),這樣,就可以把鍵數(shù)減到1/6,但右手一按此鍵,就有同時鍵人該鍵的6個漢字的可能,因此,左手這邊又設(shè)了6個數(shù)字鍵(這叫輔鍵,排列位置和右手主鍵上6個字的排列相對應(yīng),按哪個對應(yīng)的輔鍵,主鍵上相應(yīng)的字鍵就被鍵人。主鍵上的字有6個的,還有9個的,12個的,最多的每個主鍵上設(shè)計了30個漢字,當(dāng)然對應(yīng)的輔鍵也要有同樣多個漢字才行。這些方法叫“大鍵盤輸入法”,或叫“整字輸入法”,各種縮小鍵盤的法子分別叫做:“筆觸式”、“翻頁式”“滾筒式”“主鍵輔鍵式”。大鍵盤方式?jīng)]有很好地解決漢字與鍵盤匹配問題,人們再來攻小鍵盤。漢語拼音文字是在26個拉丁字母的基礎(chǔ)上設(shè)計的,原有的計算機鍵盤不必做大多改造就可以鍵人漢語拼音。但有三個問題。第一個問題是漢語的同音字大多,與鍵盤的匹配問題,打了一個zhang1,計算機仍不知道是“張”,還是“章、樟、樟”。一般的方法就是靠軟件在顯示屏幕下設(shè)一個“提示行”,把同音字編上號,高頻字在前,低頻字在后,全顯示在下面,是第幾號再按一下對應(yīng)的數(shù)字鍵:提示行每次顯示10個漢字,若第一組10個字中沒有要找的字,再按鍵要求看第二組10個字,碰上有100多個同音字的yi音節(jié),找個字可就費周折了。第二個問題是:漢語音節(jié)的聲調(diào)與鍵盤的匹配問題。西文鍵盤的拉丁字母上沒有聲調(diào)符號,人們開始用數(shù)字鍵1、2、3、4代替聲調(diào)。,“媽、麻、馬、罵”分別打成“ma1、ma2、ma3、ma4”后來,人們對聲調(diào)不加區(qū)別,把聲母、韻母相同、而聲調(diào)不同的漢字看成是同音字,靠提示行來解決問題。這樣拼音方式的聲調(diào)與鍵盤匹配問題,也就成了同音字與健盤的匹配問題了。第三個問題是漢語拼音的拼式大長,像“莊Zhuang、床chuang、雙shuang”這些常用字都要按7鍵,加上1個空格鍵,要打8鍵才是1個漢字,如有同音字還得看提示行,就是9鍵1字。后來有人想讓選字鍵兼有空格的功能,也仍需打8鍵。漢字與計算機鍵盤匹配上的這些問題,最后還導(dǎo)致了人們通過拆分漢字字形來解決漢字與鍵盤的匹配問題。這就是漢字編碼中的字形碼的起由。漢字編碼的類型可以按在編碼方法中所使用的漢字主要屬性來劃分。目前較多地使用的漢字屬性有字音、字形、字義、字頻等屬性,特別是字音、字形這兩種屬性。這樣,漢字編碼的類型就可分為形碼、音碼和音形碼3種。2.漢字編碼的類型(1)拼音編碼按漢字的讀音將其轉(zhuǎn)換成漢語拼音的聲母、韻母(或加上聲調(diào)符號以及區(qū)分同音字的符號),或?qū)㈦p字母聲母、復(fù)合韻母用單字母替代組成的編碼。拼音編碼可分為全拼音式和壓縮拼音式。拼音編碼的優(yōu)點是易學(xué);缺點:一是重碼多,導(dǎo)致輸入效率低,令人不勝其煩,且極易造成視覺疲勞;二是對用戶要求很高;三是難于處理生字。(2)字形編碼將漢字分解為部件或筆畫,并按照規(guī)定的順序排列、用相應(yīng)的字母數(shù)字等符號替代,按一定的規(guī)則取舍的符號組合,就是字形編碼。屬于字形編碼的有筆形碼、前三未一碼和五筆畫碼。又分兩種:筆畫式編碼:即將漢字分解為筆畫,每種筆畫用一個數(shù)字代替編碼,每字取6碼或5碼。例如將漢字的筆畫分解為“橫、豎、撤、點(捺)、折”等五種筆畫,分別用1、2、3、4、5替代,按筆畫的書寫順序排列,每個字最多取五碼。字根代碼類:五筆字型漢字編碼主要是字根碼。錄入人員根據(jù)《五筆字型鍵盤字根總圖》中所確立的字根,按照每個漢字字根的排列組合順序(根序)遞次編碼輸入計算機。在鍵盤上用字根輸入漢字,首先是字根的歸類記憶難。把幾百個字根歸類到二三十個鍵位上,并牢牢記住,絕不是輕松愉快的事;其次是輸入操作時的拆字難,拆字需要耗費較多的心理操作,增加了大腦的負擔(dān)。目前已問世的各種形碼系統(tǒng),一般是采用了“字根歸類和拆分”的設(shè)計思路。這些字根的歸類和拆分,絕大多數(shù)與中國人大腦中的漢字認知結(jié)構(gòu)不統(tǒng)一,與國民知識背景不統(tǒng)一,與淵源流長的漢字文化傳統(tǒng)缺乏內(nèi)在的繼承性,這就使得形碼系統(tǒng)的學(xué)習(xí)難上加難。許多形碼系統(tǒng)的設(shè)計沒有恰當(dāng)和充分利用中國人大腦中已具備的漢字認知結(jié)構(gòu),這是對國民主體知識資源的巨大浪費。(3)音形編碼音形碼是以拼音為主、以字形為輔的編碼方法,目的是為了保留拼音編碼的優(yōu)點而又能區(qū)分同音字,一般是在拼音碼的前面或后面添加字形碼。添加形碼中,有的提取字的偏旁或部首的信息,有的提取字的起末筆,有的采用字的四角號碼或字頻順序,有的采用語義類別,等等。漢字編碼發(fā)展到今天,形碼仍然在為降低學(xué)習(xí)難度奮斗,音碼仍然在為降低重碼奮斗。這種情況,不適應(yīng)中文信息處理技術(shù)的普及,特別是在90年代以后,電腦開始走人尋常百姓的家庭,電腦的使用者不是用它去“高速表達別人”,而是用它“述說自己的思維”?!罢f得出,就打得出”是他們最基本的愿望。讓人們?nèi)ケ成习賯€字根確實困難;而音碼全拼式又太慢、太費力。時代呼喚更科學(xué)、更簡便、更合理的漢字輸入方案。3.漢字編碼的誤區(qū)漢字編碼存在一些誤區(qū)(張普,1992):一是重碼率越低越好,甚至追求無重碼方案。實際上,“無重碼”都是以犧牲易學(xué)性為代價的,郵電通訊中一直在使用的四碼電碼就是一種簡單的無重碼的設(shè)計。而我們完全可以發(fā)揮軟硬件的優(yōu)勢,采用提示行選擇、高頻先見等方法在一定程度上容忍重碼。二是速度越快越好。實際上不同的人員、不同的工作性質(zhì)有不同的要求,最廣大的一般用戶要求不看鍵盤,以邊想邊打的方式輸入漢字,對輸入速度則只有一個最低要求,即只要每分鐘輸入30個字以上,而第一位的希望是越容易學(xué)越不容易忘越好。1986年有一次漢字編碼的測評活動,以輸入速度和重碼率為主要指標(biāo)來測評漢字編碼方案的優(yōu)劣。這種標(biāo)準(zhǔn)的選定就顯示出某種認識上的局限性。三是詞庫越大越好。進入詞處理階段后,各種輸入方法紛紛關(guān)注詞庫的大小。因為詞少了不行,往往打了詞語碼以后,詞庫中沒有該詞,又得退回來用字的方式輸入。為了減少這種事情的發(fā)生,詞庫從5000條詞發(fā)展到1萬、2萬、3萬、7萬、9萬……甚至更大。但是,詞庫越大,占的內(nèi)存也就越多,而且,絕大多數(shù)人使用計算機都是在一定領(lǐng)域范圍內(nèi)工作的,他們所使用的詞語也是有一定范圍的。所以,最佳的詞庫設(shè)計是:“通用詞庫”十“專業(yè)詞庫”十“個人詞庫”。個人詞庫是個人自己生成的獨用的習(xí)慣“詞語”,現(xiàn)有詞頻統(tǒng)計結(jié)果表明,通用詞庫有4萬條左右詞已足夠了,專業(yè)詞語則各領(lǐng)域詞語多少不一。因此,簡單地認為詞庫的詞越多就越好也不全面的。4.漢字編碼的原則(1)社會學(xué)原則漢字編碼研究的目的之一是為了信息處理技術(shù)的普及,這一普及首先要面向教育?!度珖行W(xué)教學(xué)用漢字編碼規(guī)范及計算機漢字輸入系統(tǒng)》經(jīng)國家教委批準(zhǔn)已列入“八五”重點攻關(guān)項目。從1993年開始,計算機逐步列為我國中小學(xué)的必修課程。自此,計算機和語文、數(shù)學(xué)、外語一樣成為青少年必須掌握的四個工具之一。漢字輸入系統(tǒng)進入中小學(xué)課堂是培養(yǎng)跨世紀(jì)人才的根本大計,教學(xué)的規(guī)范化相應(yīng)地要求漢字編碼研究的規(guī)范化。在規(guī)范化的前提下,將中小學(xué)的“識字、定字、查字、打字”教學(xué)統(tǒng)一起來。漢字是我國悠久歷史文化的一個象征,研究漢字的分解原則,必須聯(lián)系我國社會的文化背景,千百年來,人們通過漢字了解歷史,了解社會,對漢字的記憶和應(yīng)用有著一定的習(xí)慣,如人們常說的“弓長張、立早章”等,是人們稱說漢字的習(xí)慣,與傳統(tǒng)的字謎、測字一樣有著深厚的群眾基礎(chǔ),之所以能相沿習(xí)用,必有其合理的一面。現(xiàn)在,中文信息處理在拆分漢字,設(shè)計漢字編碼方案時,就要充分考慮到這種文化傳統(tǒng)和社會基礎(chǔ)。(2)文字學(xué)原則漢字編碼作為漢字的計算機語言或代碼,必須準(zhǔn)確而簡潔地反映和體現(xiàn)漢字的特點和規(guī)律。在實際運用過程中,人們?nèi)菀子浝蔚牟皇谴a,而是字的結(jié)構(gòu)規(guī)律,電腦容易識別的不是字的結(jié)構(gòu)規(guī)律,而是代碼。這兩者雖有不同,但應(yīng)統(tǒng)一。如果認為可以考慮漢字的特點,不遵循漢字的客觀規(guī)律而任意拆分漢字,進行漢字編碼設(shè)計,則是極片面的做法。對于漢字編碼來講,漢字的特點和規(guī)律中,尤其要考慮現(xiàn)代漢字的構(gòu)形特點和規(guī)律,所以,漢字的分解一要以形為主,兼顧音義,二要以現(xiàn)代字形為主,兼顧歷史。(3)工程學(xué)原則漢字編碼是一項涉及多種因素的復(fù)雜工作,所以,應(yīng)將漢字編碼當(dāng)作一項系統(tǒng)工程來抓。首先,要根據(jù)頻率統(tǒng)計來確定字根的數(shù)量。對6737個漢字分解所得字根進行動態(tài)統(tǒng)計,根據(jù)字根出現(xiàn)次數(shù),按出現(xiàn)頻率的降頻排列,到第200個字根時,其累計頻率已達93.5%。由此可見,以200個左右的字根組成基本字根集是科學(xué)的。其次要正確處理字根和偏旁部首的關(guān)系。偏旁與字根相比,一般來說,偏旁要大于字根,偏旁產(chǎn)生的概念多半基于對整字一次性二分,字根是對整字不斷地二分,一直分到基本字根為止。對6763個漢字二分得到的們旁約為1500個,而目前所需的電腦字根為200個左右,因而偏旁數(shù)遠遠超過所需的電腦字根數(shù),其中一些復(fù)合偏旁就是由幾個字根組成的。字根是組字的基本單位。部首是一部分漢字中共同的部件,具有很強的定形性,已成為人們文化常識的一部分。因此,在確定字根數(shù)量時,應(yīng)以傳統(tǒng)部首為核心來切分漢字編碼方案中的字根。對6763個漢字分解所得字根進行的動態(tài)統(tǒng)計中,前200個字根中大約60%都是傳統(tǒng)部首,前10個高頻字根“口、一、日、亻、白、勺、土、又、木”,只有“勺”不是部首,由此可以看出,傳統(tǒng)部首是字根的核心。三、漢字的存貯和漢字的輸出(一)漢字的存貯漢字存貯有兩層意思;一是指漢字內(nèi)部碼、交換碼等漢字代碼的存貯,這與漢字的數(shù)據(jù)結(jié)構(gòu)有關(guān);二是指漢字字形的存貯,它與漢字字形庫(簡稱漢字庫)設(shè)計有關(guān)。這里主要指后者。漢字字形庫是建立在計算機存貯媒體上的漢字的字模數(shù)據(jù)集合,它是漢字信息處理系統(tǒng)用來產(chǎn)生漢字字形和各種圖形符號的基礎(chǔ)部件,也是西文計算機和信息處理所沒有的特殊情況,所以,漢字字形存貯是漢語漢字信息處理的一項關(guān)鍵技術(shù):分析和研究漢字字形存貯是中國計算語言學(xué)的一個重要內(nèi)容。漢字存貯的關(guān)鍵在于字形描述。所謂字形描述就是將人可以認讀和書寫的字形表示成可供計算機存諸和處理的信息的加工過程(劉連元,1994)。漢字字形描述是中國計算語言學(xué)的一項基礎(chǔ)研究。漢字字形描述存在更大的困難。陸致極(1990)通過具體設(shè)計和編寫表現(xiàn)筆畫順序的漢字顯示程序,論述了計算機漢字的設(shè)計與顯示的問題。首先,確定漢字的結(jié)構(gòu)形體。計算機內(nèi)的字符是以點陣的形式設(shè)計出來的。在點陣中,每個線條由連貫的點構(gòu)成。拉丁字母一般用7*或8*16的方陣就能分辨出所有的字形來。但漢字的形體復(fù)雜,需要用16*16、24*24甚至32*32、48*48的方陣來表現(xiàn)。漢字字形分解的層次結(jié)構(gòu)是單字、字根、筆畫、位點。從漢字的這些屬性著手,根據(jù)漢字字形描述技術(shù)的不同,可將數(shù)字式字形存貯方式分成“點陣式存貯”、“筆畫式存貯”和“字根式存貯”3種方式,與此相對應(yīng),漢字庫也就有了3種類型:1.點陣字形描述是用“點”組字的點陣漢字庫。現(xiàn)在廣泛使用點陣形式的漢字庫,用來存放數(shù)字化的漢字點陣數(shù)據(jù)。計算機的打印輸出,不是把漢字一筆一畫地寫出,而是靠針打?qū)崿F(xiàn)的。即將漢字的一筆一畫一個點一個點地打出,打出點越密,就越接近漢字的筆畫形狀,這就要設(shè)計點陣字模。所謂點陣字模就是在若干個等距離垂直線和水平線交叉線形成的柵槍內(nèi),將漢字的筆畫結(jié)構(gòu)用點的形式描出。點陣字模設(shè)計好以后,再把它數(shù)據(jù)化,即利用計算機輔助設(shè)計的方法、在通用漢字終端屏幕上由造字軟件先畫出放大的柵格,通過鍵盤嚴(yán)格按事先設(shè)計的點陣字模一筆一畫地在柵格內(nèi)打點、畫線,并及時地將這些點、線轉(zhuǎn)換成數(shù)據(jù)存入。經(jīng)過上述處理,計算機就可實現(xiàn)漢字顯示或打印輸出了(傅永和,1989)。根據(jù)點陣密度的大小,漢字庫可分為通用型和精密型兩種:通用型使用16*16、24*24、32*32、48*48點陣結(jié)構(gòu)來描述漢字字形。其字形質(zhì)量較低e主要用來打印一般文件和報表偽文字。精密型漢字庫對字形、字體、字號、變倍等都有嚴(yán)格要求,并能反映漢字筆畫粗細以及起落筆的筆鋒,達到印刷出版業(yè)的規(guī)定。其點陣規(guī)格一般在128*128以上。因為上千個漢字的點陣信息量大,所以,常常采用信息壓縮技術(shù),將漢字的點陣數(shù)據(jù)壓縮后存于漢字庫中或直接采用輪廓漢字庫,可以獲得高精度的漢字。采用點陣來描述漢字字形,數(shù)據(jù)儲量大大。字形點陣中的每一個都處于兩種狀態(tài)中的一種:或者在筆畫上面,或者在筆畫外面。這兩種狀態(tài)分別用二進制的1和0表示。存貯二進制的兩個數(shù)字需要一個比特的存貯空間,這就意味著點陣中每個點的存貯量為1比特。如果一個漢字字形是用32*32的點陣描述的,那么就需要32*32=1024個比特的存貯量。這種漢字字形描述的點陣技術(shù),將成千上萬個漢字的點陣圖形預(yù)先存在計算機系統(tǒng)中,計算機的存貯空間大量占用。此外,近年來,漢字信息處理的需要與技術(shù)都有很大的發(fā)展,公種打印機、印刷機對漢字點陣提出了更高的要求,從字體上看,至少要有來、仿宋、楷體和黑體四種字體;從點陣規(guī)格上看,要求有離、中、低各種點陣字字模;從點陣制作上看,不同字體、字號、規(guī)格的點陣而不能一副一副地制作,這就要求提供無級縮放的全系列點陣,還要成倍地增加內(nèi)存。為了節(jié)省存貯空間,滿足漢字信息處理的需要,常常采用信息壓縮技術(shù),將漢字的點陣數(shù)據(jù)壓縮后存于漢字庫中或直接采用輪廓漢字庫,可以獲得高精度的漢字。但經(jīng)壓縮的數(shù)據(jù)在進行字形輸出時,又需要先進行數(shù)據(jù)的還原操作。2、曲線輪廓字形描述就是筆畫矢量漢字庫,又分兩類:一類是筆畫組合成字的單線條矢量漢字庫,即漢字字形描述的矢量技術(shù);一類是筆畫輪廓漢字庫,即漢字字形描述的曲線輪廓技術(shù)(劉連元,1994)。這種技術(shù)將漢字字形看作平面幾何圖形,采用特定的數(shù)學(xué)曲線描繪漢字的筆畫輪廓,從而得到整個漢字字形的曲線輪廓。與點陣字形描述相比,曲線輪廓字形描述有較大優(yōu)點。不同規(guī)格的字形不需要分別描述。一個漢字只需要一條輪廓曲線,不同規(guī)格和不同字號的字形都是通過這一主輪廓曲線的變換得到。由于不同規(guī)格的字形不需要分別存貯,所以,字形庫整體存貯量小。3.用字根組字的字根漢字庫也叫部件漢字庫。(二)漢字的輸出經(jīng)過計算機加工處理的漢字信息是以數(shù)據(jù)形式貯存在計算機內(nèi)的,這種漢字信息只有通過輸出系統(tǒng)處理后才能提供給人們。這一過程就是漢字輸出。漢字輸出系統(tǒng)包括漢字終端的輸出設(shè)備、輸出方式和漢字輸出控制程序部分。所謂漢字終端是指具有漢字輸入、漢字顯示、漢字打印以及漢字屏幕編輯、文件管理等功能的終端設(shè)備,終端和主機之間都有一個通信接口。接口有兩個意思:一、在硬件上是指在終端和主機之間有一條信息傳輸?shù)耐罚薪獭⑦h程之分;二、在軟件上是指軟件規(guī)定的通信方式,如中斷方式和詢問方式等。漢字輸出方式有顯示、打印、語音合成和通信傳輸4種。不同的輸出方式要借助不同的漢字輸出設(shè)備來實現(xiàn)。運用漢字顯示器,比如屏幕顯示輸出是一種最常見的方式。如想要保留輸出的信息就必須采用打印或印刷設(shè)備,早期的打印機只是打字機的變種,利用電子信號控制刻有不同字模的金屬小錘,通過色帶打印在空白紙上,得到不同的字符。由于漢字的數(shù)量大大,這么復(fù)雜的機械設(shè)備用于漢字打印缺乏技術(shù)上的可行性乙后來發(fā)明了點陣打印機,小錘換成了一排極細的小針,因此可以在電子信號的控制下打印出許多極小的黑點,組成各種圖形,包括漢字。這樣,漢字打印就有了技術(shù)上的可行性。漢字語音合成輸出裝置進行語音輸出是一種自然的直接的輸出方法。還有用于漢字信息交換傳輸?shù)耐ㄐ沤涌诘容敵鲈O(shè)備。第三節(jié)《漢字屬性字典》的開發(fā)與應(yīng)用一、系統(tǒng)概述1、作為電子辭典,具有容量大、查找快的特點,收集了現(xiàn)代漢字形、音、義及其應(yīng)用的各種信息,可以從不同角度進行快速檢索。2、具有多種功能,除了正字形、標(biāo)注音、作釋義之外,還增加了字音示范朗讀、筆順動態(tài)靜態(tài)演示、部件拆分圖示、古今文字演變圖示、字理講解,等等。聲形共呈,動靜相配,圖文并茂,充分體現(xiàn)出多媒體的神奇魅力。3、嚴(yán)格遵從國家有關(guān)的規(guī)范標(biāo)準(zhǔn),包括字級、字形、讀音、部首、筆畫數(shù)、筆順、部件等多種規(guī)范。4、適應(yīng)面寬,雅俗共賞。既能供中、小學(xué)生使用,又可供大專學(xué)生、文字工作者查閱;既能用于個人學(xué)習(xí),又能用于課堂教學(xué);既能作少兒識字、外國留學(xué)生學(xué)漢字的工具,又可供文字工作者進一步探索漢字的奧秘。5、為了幫助外國留學(xué)生學(xué)習(xí)漢字,本辭典每個頁面的各個欄目都加有英文注釋。二、本辭典的內(nèi)容1、本辭典的內(nèi)容包括三大部分:檢字、正文和附錄。2、檢字。供查找7000個通用字和1681個備用字,還能查找通用字的繁體字、常見異體字、舊字形和二簡字,以及備用字的繁體字。3、檢字的渠道是多方面的,有輸入漢字、拼音檢字、筆畫檢字、部首檢字,可根據(jù)你的習(xí)慣來選擇。4、正文。收有《現(xiàn)代漢語通用字表》7000字及其屬性和相關(guān)信息。包括字音字義、字形分析、部件圖示、筆順演示、字理講解、詞匯成語、字謎諺語,共7個頁面。5、另外,還收集1681個備用字,即《現(xiàn)代漢語通用字表》以外的部分生僻字。只作簡要的釋義,字音仍有男女聲示范朗讀。三、本辭典的頁面1、本辭典的頁面,除片頭和封面之外,可分為三組:檢字、信息和其他。2、檢字頁面包括:拼音檢字、筆畫檢字和部首檢字,還有一個輸入檢字框。3、信息頁面包括:字音字義、字形分析、部件圖示、筆順演示、字理講解、詞匯成語、字謎諺語,以及附錄。以上各頁面的內(nèi)容,請看各頁面的介紹。四、字形分析1、按該鍵鈕之后,就會轉(zhuǎn)到字形分析頁面。本頁面分別對7000通用字的規(guī)范字形和不規(guī)范字形逐一進行分折。2、提供該字規(guī)范字形的基本屬性。含字級(分為常用、次常用、通用三級)、字頻(據(jù)國家語委的統(tǒng)計)、結(jié)構(gòu)、起筆和筆畫數(shù)、部件和部件數(shù)、四角號碼(第五位為附號)、五筆型碼、部首(含《新華字典》、《現(xiàn)代漢語詞典》、《漢語大字典》和《漢語統(tǒng)一部首表(草案)》4種部首),等等。3、并且分析該字的不規(guī)范字形。列出其繁體字、常見異體字、舊字形、二簡字(指已經(jīng)被撤銷的《第二次漢字簡化方案(草案)》中第一表所收的字)、音別字(指因音同或音近而寫別的字)、形別字(指因形近而寫別的字)、詞語別字(指在詞語中因形、音、義而寫別的字)。4、此外還針對容易寫錯的字作字形說明,以辨析正誤。由于錯字往往因人而異,實在無法窮舉。5、有的繁體字、異體字、舊字形的筆畫比較多,為方便看五、部件圖示1、對7000通用字進行部件分析,提供該字的結(jié)構(gòu)、部件數(shù)、部件,以及部件拆分樹形圖。2、依據(jù)的文件是《信息處理用GB13000.1字符集漢字部件規(guī)范》?;A(chǔ)部件完全按照該部件規(guī)范;中間層次的拆分也遵循該規(guī)范中提出的“從形出發(fā)、尊重理據(jù)、立足現(xiàn)代、參考歷史”的原則。目前有關(guān)中間層次的拆分,存在不少分歧,還有待進一步探討。本辭典的拆分,雖作了探討,并請教了有關(guān)專家,但難免有不妥之處。3、動態(tài)的演示采用電影慢鏡頭的方式,形象地表現(xiàn)了書寫的過程。靜態(tài)的圖示以筆畫為單位,各有一幅圖,表示筆順的先后。它們各有所長,互為補充。六、字理講解1、對7000通用字的字理作扼要的講解。2、講解中按照“立足現(xiàn)代,參考歷史”的原則。既遵循文字學(xué)的原理,又結(jié)合實際應(yīng)用的需要,把造字的規(guī)律、字體的演變、簡繁的對應(yīng)、異體的變遷以及音義的流變,作扼要的交代。3、為配合字理的講解,選取了一些甲骨文、金文、小篆、隸書、楷書(取廣義概念,這里用宋體表示)的圖示(無則缺之),以加深對漢字源流的理解。七、詞匯成語1、現(xiàn)代漢字的使用,除了作為單音詞使用之外,往往出現(xiàn)在雙音詞、多音詞以及成語中。為了方便您用字組詞造句,本頁面特地提供含有該字的詞匯和成語。2、這些詞匯和成語,是從大量語料中挑選出來的,在11萬條中只選了65858條,其中成語7036條。八、字謎諺語1、您會喜歡猜字謎和抄名言、諺語。的確它們有助于啟發(fā)思路、加強修養(yǎng),而且能提高對學(xué)習(xí)漢字的興趣。為此,本頁面收集了以該字為謎底的字謎和含有該字的名言和諺語,供您欣賞。字謎6349條,諺語和名言共9689條。第四節(jié)漢字語義屬性——《漢字義類信息庫》的研究與實現(xiàn)1.建立《漢字義類信息庫》的基本思想1.1以目前現(xiàn)代漢語及漢語信息處理研究的權(quán)威理論與成果為指導(dǎo),博采眾長,描述“國標(biāo)GB-2312”的6763個常用漢字讀音、義項、同音、同形、語義類、詞性、成詞與否等信息,建立信息庫。具體說以中國社會科學(xué)院語言研究所詞典編輯室編、商務(wù)印書館出版的96版的《現(xiàn)代漢語詞典》字詞的立條、注音、釋義為基礎(chǔ),以梅家駒、竺一鳴、高蘊琦、殷鴻翔編,上海辭書出版社出版的83版的《同義詞詞林》的語義分類和歸類為漢字語義類的基本框架和基本標(biāo)準(zhǔn),以俞士汶等著、清華大學(xué)出版社出版的《現(xiàn)代漢語語法信息詞典詳解》的詞類體系和詞類標(biāo)準(zhǔn)為標(biāo)注詞性的基本體系和基本標(biāo)準(zhǔn),并參考了《新華字典》、《辭源》、《辭?!?、《反義詞詞林》《詞匯語義學(xué)》(張志毅等著)、《現(xiàn)代漢語詞匯》(符淮青著)、《漢語類義詞典》等的立條、注音、釋義、分類及語素與詞的有關(guān)理論,根據(jù)實際情況確立字條、確立描述框架,集眾家之長來完成這一工作。我們希望在先進理論的指導(dǎo)下把《漢字義類信息庫》建成一個高質(zhì)量、高水平的信息庫。1.2人機兩用的全新研究理念?!稘h字義類信息庫》的建立不僅要滿足人學(xué)習(xí)、研究漢字的某些需要,而且要滿足計算機進行漢字、漢語信息處理的某些需要,因此漢字義類信息庫的建立不僅要適合于人讀,而且要適合于機讀,在信息庫的收字立條、結(jié)構(gòu)的設(shè)計、屬性的確定、屬性的描述及信息的存儲等方面充分都考慮到“人機”兩用的特點。我們殷切地希望《漢字義類信息庫》能夠成為漢語、漢字信息處理的有效資源。1.3以“字位”為描述的基點。“字位”這個概念是仿語音學(xué)的“音位”、詞匯語義學(xué)的“義位”而確立的,是指特定的形、特定的音、特定的義相結(jié)合的形音義一體化的漢字。通俗地說,一個單音單義的漢字就是一個字位,一個多音多義的漢字就可以形成多個字位,比如“打”有兩個讀音“da3”“da2”,讀“da3”時又有兩個同音字,包括動詞類的“打”和介詞類的“打”,而在動詞類的“打”里又有25個義項,這樣,一個字形“打”就衍生出27個字位“打”。一個字位就是一個單音、單義的漢字。漢字的形音義之間的關(guān)系非常復(fù)雜,造成了大量的同形字、同音字、多義字,而在實際使用中一個特定的環(huán)境里,只可能有一個字位,這種情況為計算機語言信息處理帶來了更多的排歧的困難。如果以字為基點進行描述,一則描述信息比較粗疏,實用價值不大,二則因為描述的對象本身復(fù)雜,描述可能無法進行。因此,我們選擇了以字位為描述的基點,使描述的信息顆粒度更小,獲得的知識更細致,更具有實用價值。2.《漢字義類信息庫》收字、立條原則以96版的《現(xiàn)代漢語詞典》的立條、注音、字義詞義解釋為基礎(chǔ),以“國標(biāo)GB—2312”6763個常用漢字為基準(zhǔn)收字、立條,具體原則如下。2.1一字一條的原則堅持一個字立一條,同形字、同形同音字、完全同義字都分別立條?!昂脡摹钡摹昂谩焙汀跋埠谩钡摹昂谩?,同形但不同音,分別立條,記為“好A”“好B”;類似的還有“挨A、挨B,艾A、艾B”等?!皠e去”的“別”和“把花別上”的“別”同形同音,但不同義,是不同的字,分別立條,記為“別1”“別2”;類似的還有“艾1、艾2、艾3、艾4、艾5”等?!稗摺绷x同“挨(aí)”,“案”其中一個義同“按”,“驁”義同“傲”,都單獨立條,不因義同而合并為一個字條。2.2一義一條的原則如果這個字是一個實義的多義字,一個義項立一個條。比如:“搭”,《現(xiàn)代漢語詞典》解釋為7個義項:(1)支,架,比如“搭橋”;(2)把柔軟的東西放在可以支架的東西上,比如“把東西搭在竹竿上”;(3)連接在一起,比如“兩根電線搭上了”;(4)湊上、加上,比如“把這些錢搭上就夠了”;(5)搭配,配合,比如“粗糧和細糧搭著吃”;(6)共同抬起,比如“書柜已經(jīng)搭走了”;(7)乘、坐(飛機、汽車等),比如“搭輪船到上海”。我們將這些解釋和其他詞典進行對比,認為是準(zhǔn)確合適的,就立為7個字條。少部分字的一些義項解釋為“原指----,也指(或喻指)---”,“原指”與“也指”的意思差別較大,無法歸入一類,也考慮將其各自單獨立條;比如“祟:原指鬼怪或鬼怪害人(迷信),借指不正當(dāng)?shù)男袆印薄?.3義項(語法意義)與詞性相結(jié)合的原則虛詞與虛語素,沒有詞匯意義,只表示語法意義。一個字自成虛詞或虛語素,如果詞性不同,就單獨立條;如果詞性一致,所表示的語法意義不同,從現(xiàn)有語義分類體系中比較容易標(biāo)注的也單獨立條;如果詞性一致,所表示的語法意義有所差別,并且有些語法意義從現(xiàn)有的分類體系不好歸類時則考慮合為一個字條,不單獨立條。比如“從2”,《現(xiàn)代漢語詞典》解釋為:(1)介詞,起于,“從---”表示“拿---做起”,例如“從北京到上?!薄#?)介詞,表示經(jīng)過,用在表示處所的詞語前面,如“從窗縫里往外望”。(3)副詞,從來,用在否定詞前面,如“從沒聽說過”?!皬?”的(1)(2)義項為介詞,語法意義差別比較大,容易標(biāo)注,(3)為副詞,因此分別立條。“的(de)1”《現(xiàn)代漢語詞典》的解釋為:(1)助詞((2)—(5)同),用在定語的后面。(2)用來構(gòu)成沒有中心語的“的”字結(jié)構(gòu)。(3)用在謂語動詞的后面,強調(diào)這動作的施事者或時間、地點、方式等。(4)用在陳述句末尾,表示肯定的語氣。(5)用在兩個同類的詞或詞組之后,表示“等等、之類”的意思。(6)用在兩個數(shù)詞中間,表示相乘、相加。義項(6)有實在的詞匯意義,是實詞,單獨立條。義項(1)—(5)都是虛詞,其中(4)是表示語氣,是語氣詞,單獨立為一個字條;其他四個都是助詞,表示的語法意義有所差別,但標(biāo)注起來并不容易,合并為一個字條?!岸?”,《現(xiàn)代漢語詞典》解釋為:副詞,(1)用在疑問句里,問程度,如“他多大年紀(jì)?”;(2)用在感嘆句里,表示程度高,如“你看他老人家多有精神啊!”;(3)指某種程度,如“無論山有多高,路有多陡,他都走在前頭?!绷x項(1)有“問程度”的意思,而(2)(3)都是指“程度”,故將(1)單獨立為一條,而將(2)(3)合并為一條。關(guān)于虛詞的語義分類,現(xiàn)有的分類體系不夠全面,需要進一步研究,并對這一部分字進行重新立條歸類,當(dāng)然這一部分字畢竟比較少,不會影響全局,以后補做起來,也不會有太大的困難。2.4補充原則以上兩條主要處理實詞字、實語素字、虛詞字和虛語素字,此外還有非語素字。非語素字即單獨沒有意義的字,如“葡”“萄”“咖”“啡”等,也同樣立一個條。這些字形成詞的功能比較單一,一般都是和另外一個或兩個同性質(zhì)的字合在一起代表一個語素或詞。這樣,這些字在進行語義歸類時是按照他們所形成的詞或語素的意義歸類的。根據(jù)上述原則,我們將“國標(biāo)GB-2123”的6763個常用漢字按同音、同形區(qū)別為8568個漢字、確立為17429個字條。3.《漢字義類信息庫》屬性信息的確立《漢字義類信息庫》的建立主要是為人識讀、研究漢字的語義和計算機語言信息處理中對漢語字詞句的識別、理解、分析、合成建立基本資源。為此目的,信息庫屬性信息確立的總原則是:以漢字語義為中心,重點考察漢字的語義分類;圍繞對漢字語義分類的區(qū)分,涉及到漢字的讀音、同形、同音、詞性、是否成詞等方面的信息。具體確立的屬性信息如下。3.1、語義分類信息語義分類信息是《漢字義類信息庫》的核心信息。以梅家駒等人編的《同義詞詞林》的語義分類標(biāo)準(zhǔn)和框架為基礎(chǔ),根據(jù)實際情況有所增加。《同義詞詞林》在“以詞義為主,兼顧詞類,并充分注意題材的集中”(《同義詞詞林·自序》,P5頁)的分類原則指導(dǎo)下,將漢語的字詞分為具有層級體系三級類別,首先分出大類12個(用大寫A、B、C---表示),各個大類內(nèi)部又按詞義之間的同義程度分出若干中類,12個大類共分出94個中類(在大類字母后用小寫a、b、c---表示),各個中類內(nèi)部進一步按詞義的之間的同義程度分出小類,94個中類共分出1428個小類(大類、種類字母之后用數(shù)字01、02、03---表示)。這個分類標(biāo)準(zhǔn)和分類體系從它自身的分類、歸類實踐以及我們對漢字語義歸類的實踐來看是可行的。但在歸類中,我們發(fā)現(xiàn)“天干地支”類、“有機物、無機物”類、“非金屬元素”類、“八卦”類、“語法范疇”類、“詞綴”類等六類字無法歸入現(xiàn)有的類中,故增加了六個小類,按《同義詞詞林》的分類體系分別歸入第三大類的第一中類、第二大類的第一中類、第二大類的第十三中類、第四大類的第九中類、第四大類的第十一中類、第十一大類第四中類中,分別標(biāo)記為Ca32、Ba11、Bm19、Di27、DK33、Kd06。這樣《漢字義類信息庫》的語義分類體系就分為12大類、94中類、1434個小類(具體的分類及各類的代碼見本文第六部分的“語義分類信息”和《同義詞詞林》)。在這個分類體系中從“大類”到“中類”再到“小類”體現(xiàn)的是字詞語義的上下位關(guān)系,而每一類內(nèi)部體現(xiàn)的是字詞之間的同義或反義關(guān)系。在這種描述框架指導(dǎo)下,我們的《漢字義類信息庫》實際上構(gòu)筑了漢語字詞的語義網(wǎng)絡(luò)關(guān)系。3.2讀音信息漢字是形音義一體化的文字符號,相同的字形讀音不同所表示的意義就不同,比如“的”讀“de”、“dì”和“dí”,“了”讀“l(fā)e”和“l(fā)iǎo”意義就不相同。漢字的讀音有區(qū)別意義的作用,也決定了所屬的語義類、詞類等,因此,有必要標(biāo)注語音信息。3.3同音信息這里的同音信息不是指一般的同音字詞,而是特指同形同音字詞。這些字詞形音完全相同,但意義毫無聯(lián)系,語言學(xué)稱其為同音詞,字典、詞典一般都單獨立條。他們所屬的語義類和詞類也會有一定的差異。這一部分字為數(shù)不少,為了人和計算機能夠?qū)@種現(xiàn)象作出正確的區(qū)分,有必要描述這一信息。3.4同形信息有一部分字,字形相同,但字音、字義均不同。這一部分字就字本身來看,難以與同音同形字區(qū)別,因此描述這一信息,以示區(qū)別。3.5詞性信息《漢字義類信息庫》繼承了《現(xiàn)代漢語語法信息詞典》詞的分類標(biāo)準(zhǔn)和詞類體系以及詞類標(biāo)記。劃分詞類的標(biāo)準(zhǔn)是語法功能,詞類體系及標(biāo)記(括號內(nèi)的大寫字母為詞類標(biāo)記)如下:名詞(N)、時間詞(T)、方位詞(F)、處所詞(S)、動詞(V)、形容詞(A)、狀態(tài)詞(Z)、區(qū)別詞(B)、副詞(D)、代詞(R)、數(shù)詞(M)、量詞(Q)、介詞(P)、連詞(C)、助詞(U)、語氣詞(Y)、象聲詞(O)、嘆詞(E)?!稘h字義類信息庫》又有其特殊之處,因為我們收錄的對象是字。字有的是詞,有的不是詞;有的在某些義項上是詞,而在另一些義項上不是詞;當(dāng)其不是詞時,又有能否單獨表示意義的差別。能單獨表示一定意義的是語素,不能單獨表示意義的是非語素字。語素又可按照構(gòu)詞能力分為詞根語素和詞綴語素。詞根語素根據(jù)在構(gòu)詞中的功能及其所表示的意義進一步分為若干類。詞綴語素根據(jù)在構(gòu)詞中出現(xiàn)的位置又可分為前綴、后綴,根據(jù)所構(gòu)成的詞所屬的詞類又可分為名詞詞綴、動詞詞綴---等。對這些差異進行區(qū)分,也是《漢字義類信息庫》關(guān)注的一個重點。根據(jù)以上分析及我們的《漢字義類信息庫》的標(biāo)注實踐,又補充了以下類別及相應(yīng)的標(biāo)記。我們的指導(dǎo)思想是將以上多種差別用一套符號標(biāo)記出來,各類別后括號里的符號為該類別的標(biāo)記。名詞語素(Ng)、時間詞語素(Tg)、方位詞語素(Fg)、代詞語素(Rg)、數(shù)詞語素(Mg)、動詞語素(Vg)、形容詞語素(Ag)、狀態(tài)詞語素(Zg)、區(qū)別詞語素(Bg)、副詞語素(Dg)、名詞前綴(Nh)名詞后綴(Nk)動詞后綴(Vk)、形容詞后綴(Ak)、方位詞后綴(Fk)、副詞后綴(Dk)、非語素字(X)、偏旁(L)。有些字主要作姓名、地名、山名、河流名等用,我們將“姓名”分為一類,標(biāo)記為“Nr”;將地名、山名、河流名歸為一類,標(biāo)記為“Ns”。綜合以上分析,本文所講的詞性信息實際上包含了詞類、語素類、人名、地名等信息,共三個部分37類。3.6備注信息有些字是專門用于書面語的,比如:因(沿襲)、處(居住)、斯(這、此)、匡(幫助)等;有些字是專門用于口語的,比如:飛(揮發(fā))、翻(翻臉)、炸(因憤怒而激烈發(fā)作)、吹(說大話)等;有些字是專門用于方言的,比如:匡(粗略計算)、誑(謊)、臥(使嬰兒躺下)、臥(比喻人體所占的位置)等;有些字是文言保留,比如:行(路程)、俞(表示允許)、?。ㄌ自诠撞耐獾拇蠊撞模?、縞(白絹)、食(給別人吃)、將(帶兵)等。這些書面語、方言、文言的字詞使用的范圍有限,是特殊一族,也要標(biāo)注出來。有一部分字詞是兼類的,比如“本”有一個意義“原來、本來”,比如“本色、本義、本不想去”,前兩個是區(qū)別詞語素的用法,后一個是副詞的用法,屬于兩個功能性質(zhì)不同的類,也應(yīng)該標(biāo)注出來。4.《漢字義類信息庫》的結(jié)構(gòu)及屬性描述4.1《漢字義類信息庫》的結(jié)構(gòu)《漢字義類信息庫》采用成熟的關(guān)系數(shù)據(jù)庫結(jié)構(gòu)(在access環(huán)境下實現(xiàn)),用簡單明了的漢字、字母、數(shù)字描述各種屬性信息,便于理解、識讀。軟件(access)容易學(xué)習(xí)、掌握,而且功能強大,不僅為信息的儲存帶來方便,而且便于各種信息的管理,比如修改、刪除、添加以及信息的抽取、分類等。4.2《漢字義類信息庫》屬性字段及屬性信息的描述以下“[]”中的是“字段名”,“<>”中的是“數(shù)據(jù)值類型”,“()”中的是“寬度”,其他文字表述是每個字的“屬性信息描述”。[字]<文本>(2)填寫相應(yīng)的漢字。[拼音]<文本>(7)只有一個讀音的不填,有兩個或兩個以上讀音的一般是最常見的一個不填,其他的讀音都填聲韻調(diào),其中陰平、陽平、上聲、去聲、輕聲分別用1、2、3、4、5表示。比如:挨,讀陰平的不填,讀陽平的,在該字段中填“ai2”;的,讀輕聲的,該字段不填,讀陽平和去聲的,該字段分別填“di2、di4”。[同音]<文本>(2)同形同音字,一般按《現(xiàn)代漢語詞典》的編號在該字段填1、2、3---,同時為了統(tǒng)計的方便,在“字”里也標(biāo)上了1、2、3---比如:艾,讀“ai4”時,《現(xiàn)代漢語詞典》分列了艾1、艾2、艾3、艾4四個詞條,那么在由這些字分立的字條的該字段中也相應(yīng)地分別填了1、2、3、4[同形]<文本>(2)只同形不同音的字,在該字段填A(yù)、B、C---,同時為了統(tǒng)計方便在“字”里也標(biāo)上了A、B、C---,比如“的”字,分別讀“de5”“di2”“di4”,那么在各讀音下所立的字條的該字段中相應(yīng)地填了“A”“B”“C”。[義項]<文本>(50)用簡單的漢語詞句表述該字的意義,不求完備,只求與其他意義區(qū)別開來。比如:的,共立了五個字條,該字段分別填寫了:助詞,語氣詞,相加、相乘,的確,目的。非語素字,填由其形成的詞或語素,比如“葡”“萄”的“義項”中都填“葡萄”。[大類]<文本>(2)填該字詞所屬的語義分類的大類的代碼。比如:“語氣詞”的“的”填“K”,“助詞”的“的”填“K”,“相加、相乘”的“的”填“H”,“的確”的“的”填“K”,“目的”的“的”填“D”。[中類]<文本>(2)填該字詞所屬的語義分類的中類的代碼。比如:“語氣詞”的“的”填“d”,“助詞”的“的”填“d”,“相加、相乘”的“的”填“j”,“的確”的“的”填“a”,“目的”的“的”填“b”。[小類]<文本>(2)填該字詞所屬的語義分類的小類的代碼。比如:“語氣詞”的“的”填“03”,“助詞”的“的”填“01”,“相加、相乘”的“的”填“29”,“的確”的“的”填“30”,“目的”的“的”填“05”。[詞性]<文本>(2)填該字詞的詞性代碼。比如:“語氣詞”的“的”填“Y”,“助詞”的“的”填“U”,“相加、相乘”的“的”填“V”,“的確”的“的”填“Dg”,“目的”的“的”填“Ng”。[頻率]<數(shù)字>填清華大學(xué)在一定的語料庫中統(tǒng)計得到的頻率。這個頻率沒有區(qū)分同音字、同形字以及多義字的各個意義。[備注]<文本>(2)方言字詞填“方”,書面語字詞填“書”,口語字詞填“口”,文言保留的字詞填“文”,兼類的字詞填兼類的標(biāo)記。5.字的歸類以上說明了《漢字義類信息庫》開發(fā)的一些基本原則。把按義項確立的17429個字條歸入各個類實在是一件非常復(fù)雜的事,還有一些問題需要研究。5.1語素與詞的分別區(qū)分詞還是語素的標(biāo)準(zhǔn)是:自己獨立成詞的則是詞,和別的語素合在一起構(gòu)成詞的,一律看作語素。漢語當(dāng)中的一個字,特別是落實到字的每一個義項上來看是詞還是語素按照這一標(biāo)準(zhǔn)可以解決絕大部分字詞的歸類問題,但也存在一些糾纏的現(xiàn)象。在一個義項里,有時用為詞,有時作語素用,該如何處理?比如:“藏(cang2)”有一個義項是“躲藏、隱藏”,舉例是(1)包藏(2)暗藏(3)他藏起來了?!氨 庇幸粋€義項是“輕微,少”,舉例是(1)薄技(2)廣種薄收(3)這份禮太薄。例(1)(2)里的“藏”和“薄”是語素,因為它們是構(gòu)詞成分;例(3)的“藏”和“薄”是詞,因為它可以獨立充當(dāng)句子成分。對這類現(xiàn)象有三種處理辦法:(1)定為語素,(2)定為詞,(3)分開來,例(1)(2)的定為語素,例(3)的定為詞。這三種辦法都是有道理的。辦法(1)的根據(jù)是現(xiàn)代漢語中有一類語素即“自由語素”,既可以獨立成詞,也可以作為語素構(gòu)詞;辦法(2)的根據(jù)是現(xiàn)代漢語中有一類詞叫基本詞匯,它既本身是詞,又可以作為語素構(gòu)詞;辦法(3)是把兩種情況分開來,區(qū)別對待;總的來說辦法(3)更細致地描述了語言現(xiàn)象的差異,但這樣的話就造成了比較多的兼類(此處的兼類是指兼語素和詞兩類)。處理這類現(xiàn)象我們堅持的原則是:當(dāng)這個字和別的語素構(gòu)成的詞的詞性和其原來的詞性保持一致,并且也保留了它原有的意義時,將其定為詞;否則,分開來,處理為兼類詞(詳細參看下節(jié)“詞性的兼類”)。依據(jù)這一原則將上述的“藏”“薄”統(tǒng)一定為詞,主要考慮三個方面:一是這些語素和詞的功能類一致(都是動詞類或形容詞類的),而且由這些語素構(gòu)成的詞一般的語文詞典和電子詞典都會收錄,將其定為語素,實際意義不大;二是從語言學(xué)的角度來看詞可以保留原有的意義而降格去構(gòu)詞,這是普遍的,而且將其定為詞,當(dāng)作語素用時,可以理解為降格使用,也不妨礙意義的理解和句子的分析;而語素獨立成詞有比較多的限制,而且將其定為語素,當(dāng)單獨作詞用時,不利于句子的分析。三是為了簡潔、明了,如果兼類較多,會造成分析、理解上的麻煩。5.2詞性的兼類以義項立條的《漢字義類信息庫》里的字大多數(shù)只有一個詞性,但也有很少一部分是兼類的。比如“本”的一個義項是“本來、原來,如(1)本意,(2)本色,(3)本不想去”;“別”有一個義項是“另外,如(1)別名,(2)別稱,(3)別有一番滋味在心頭”。以上兩個字在前兩個例子中作區(qū)別語素用,而在后一個例子中用作副詞,這是兩個功能性質(zhì)不同的類,不能合為一個,必須分開來,這就出現(xiàn)了兼類。對這類現(xiàn)象,目前信息庫中通過“備注”字段作兼類處理,但并沒有分開來立條。以后考慮分開來立條,以解決兼類的問題,也使對于“字”的信息描述顆粒度更小。5.3語素的劃類與歸類語素的劃類與歸類是指語素“詞性”的劃分與確定。依據(jù)的標(biāo)準(zhǔn)是語素的意義和其所構(gòu)成詞的詞性。一般來說依據(jù)語素的抽象意義來分類和歸類,如果語素表示的是“人或

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論