項目三 漢字信息化處理_第1頁
項目三 漢字信息化處理_第2頁
項目三 漢字信息化處理_第3頁
項目三 漢字信息化處理_第4頁
項目三 漢字信息化處理_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

項目三漢字信息化處理一、什么是漢字信息處理

漢字的信息處理(Chinesecharacterinformationprocessing),指的是用電子計算機對漢字進行轉(zhuǎn)換、傳輸、存貯、分析等加工過程。漢字信息處理與漢語信息處理共同組成中文信息處理。

中文信息處理是指用計算機對中文的音、形、義等信息進行處理和加工。中文信息處理是自然語言信息處理的一個分支,是一門與語言學、計算機科學、心理學、數(shù)學、控制論、信息論、聲學、自動化技術(shù)等多種學科相關聯(lián)的邊緣交叉性學科。信息處理技術(shù)在現(xiàn)代有廣泛的應用,從上世紀八十年代開始,中文信息處理進入了快速發(fā)展階段,并極大地提高了中文社會的信息處理效率。二、漢字信息處理過程(一)漢字信息處理過程的三個階段1.漢字信息的輸入2.漢字信息的處理3.漢字信息的輸出(二)漢字信息處理的歷史據(jù)統(tǒng)計,全世界使用漢字的人數(shù)約占世界總?cè)丝诘?6%。雖然漢字是世界上使用人數(shù)最多的文字之一,但早期的計算機是不能處理漢字信息的。拼音文字如英文,其單詞可以由為數(shù)不多的字母通過不同的排列來構(gòu)成。因此,用計算機來處理就比較簡單。而表意文字如漢字,其構(gòu)成詞的符號是獨立的。不但符號數(shù)量多,而且結(jié)構(gòu)復雜,計算機處理起來就比較困難。

自20世紀60年代以來,日本、中國及其他一些國家相繼開展了漢字信息處理的研究。1974年,我國將漢字信息處理研究課題“748工程”列為國家重點工程,研制漢字精密照排系統(tǒng)和漢字情報檢索系統(tǒng)。20世紀70年代末到80年代初,我國在漢字基本屬性、編碼和存儲、輸入與輸出設備和漢字應用系統(tǒng)等方面的研究取得了迅速的進展。尤其是激光精密照排系統(tǒng)已達到世界領先水平,微型機漢字信息處理技術(shù)進入了實用階段,使我國計算機應用的深度和廣度都向前邁進了一大步。

漢字的信息處理首先要求把漢字輸人電子計算機。這一輸入遇到了很大的困難。因為電子計算機是西方人發(fā)明的,應該說就是為了西文的處理而產(chǎn)生的。而西文,如電子計算機的創(chuàng)始國美國和英國使用的英文與漢字有較大的不同。

這種不同主要表現(xiàn)在漢字是一種獨特的“方塊字”上,這種方塊字更接近于原始“繪畫文字”的形態(tài),它是由點、撇、橫等各種“筆畫”在平面上組合而成的,筆畫在平面上的位置有重要的意義,同一筆畫放在不同的位置上就組成不同的字,漢字的筆畫間必須斷開,“一筆畫”寫不出漢字(個別的除外),因此,只有在一個“面”上才能識別漢字。而拼音文字(如英文)則不然,其字母是可以“一筆畫”寫出的(個別的除外),因此在“線”上就能識別。此外,漢字的字型不變和具有表意性也是與拼音文字不同的。漢字還有一字多音和一音多字,一字多義和一義多字的特點,也是拼音文字所沒有的。這為向適于輸入、處理拼音文字的電子計算機輸入漢字帶來了困難。

要想把漢字輸入適于輸入英文的電子計算機,就要把漢字向西文字母或數(shù)字組合轉(zhuǎn)化(這里指印度一阿拉伯數(shù)字,它們的輸入也早已解決了)。這是什么原因呢?這是因為,在電子計算機中,機器所能識別的只有兩種狀態(tài)(最基本的如接通電路和斷開電路),我們可用二進制數(shù)1和0來表示與此相對應的計算機能執(zhí)行的機器“語言”,一種不斷接通和斷開的脈沖電流,就可以用1和0的序列來表示,因此,人們就把用1和0的序列的表述稱為機器語言。最初的計算機使用人員的確就用這種機器語言為計算機編制程序。這是十分困難的工作。

為了更有效地編制程序,人們發(fā)明了程序設計語言,這樣源程序就可以用這種語言編寫——它們用英文字母和十進阿拉伯數(shù)字,而利用一種編譯程序使機器能自動地把英文字母和十進制數(shù)字轉(zhuǎn)變成機器語言,即0和1的序列,再由機器執(zhí)行。為了快速輸入英文字母、十進制數(shù)字和少量標點符號和運算符號,人們發(fā)明了“鍵盤”,前述每一個字母、符號設一個“鍵”,按鍵就輸入了相應的字母或符號。

漢字的“方塊”卻不是由簡單的字母構(gòu)成的(這是拼音文字的特點),它有6萬多個字,從字形上來看,雖然基本筆畫也不太多,但由于筆畫的位置有意義,所以一個同樣的筆畫放在不同的位置上應該有不同的意義,應算不同的部件,這樣下來,“形”的構(gòu)件就多達600余種,怎么把它們作為基本字母如英文那樣作編譯處理呢?這么多的字母,是既無法用二進制代碼表達,又無法用鍵盤輸入(600鍵的大盤),況且人們根本無法記憶和拆解這些“字母”。

三、漢字編碼方案的設計

作為漢字編碼的實踐,最早的工作不僅遠在碼化理論提出之前,甚至遠在電子計算機或電動式計算機產(chǎn)生之前。那是1880年,為了在中國應用電報,一位丹麥工程師發(fā)明了漢字的電報碼,正是每個漢字4個數(shù)字,每個數(shù)字表示成不同的點劃構(gòu)成的。由于每個位置上的數(shù)字都有10種可能,所以4位數(shù)碼可區(qū)分出1萬個漢字,就日常生活來看基本夠用。其具體做法是按某一漢語字典順序順次編排,與語音、筆畫等都沒有直接的關系,被稱為“無理”編碼。它只能死記硬背,效率較低,但重碼率也較低,一個熟練的報務員,每分鐘可輸入130個漢字,因而,現(xiàn)在還有人用電報碼在電子計算機上輸入漢字。

1928年,中國出現(xiàn)了“四角號碼”,它的一個問題是重碼率太高。一部字典收入的8877個漢字中,一組碼代表兩個及兩個以上漢字的比例達88%。1959年原蘇聯(lián)科學院研制“漢一俄”翻譯機時,將四角號碼原來規(guī)定的10種筆畫增至15種,每個漢字用5位數(shù),前4位表示漢字的四角筆畫,末位數(shù)區(qū)分重碼。1963年,美國IBM公司采用林語堂的“上下形檢字法”,取漢字的左上角筆形和右下角筆形編碼。1970年,江德耀對上述方案加以改進,確定34個“起筆”和22個“末筆”進行編碼,重碼字選擇輸入,此即首尾碼,但輸入速度較慢。

把字形拆開進行編碼,以1961年杜定友的“字根研究”為較早的成果,他歸納出504個字根,可用來組成全部通用字,以此來編碼。接著,胡立人等提出“三角編號法”,取每字三個角的筆形(字根)編碼,字根定為300個,合并為99個部首,排在100鍵的鍵盤上,每字擊3次鍵便可輸入。此法后由美國王安公司購買使用。20世紀70年代末樂秀章發(fā)明一種類似的256鍵輸入方案。楊聯(lián)升提出“筆畫字母”編碼法,把所有的漢字分解成21種筆畫,以求與拉丁字母對應,按漢字書寫順序輸入,為不等長碼。

形碼發(fā)展的一個范例是王永民于1983年推出的“五筆字型”編碼法,按起筆(5種)概括漢字“形”的字根。與此同時,王永民還提出漢字形碼的有關理論,如“漢字字根組字頻度表”和“漢字字根實用頻度表”(1982),“形碼設計三原理”和“漢字字根周期表”等,不僅把形碼組字法推向高級階段,而且在漢字基礎理論上做出了開創(chuàng)性工作。五筆字型碼獲得極大成功,錄入員的盲打速度可達200字/分。1987年,美國數(shù)字設備公司(DEC)購買了“五筆字型”專利,同年又獲英國發(fā)明專利,在中文電腦打字機用戶中有50%以上自主選用“五筆字型”編碼。

嶧山刻石

泰山刻石

在音碼方面,人們也做了大量的研究,提出不少編碼方案。1958年,中國頒布了《漢語拼音方案》,每個字有規(guī)定的讀音,這對音碼的編制特別有利。1965年周有光提出了《電報拼音化》音碼,這是一個全拼音的編碼,有很好的可讀性,在1萬字內(nèi)沒有重碼。由于全拼,漢字字音有多至6個字母的,平均2.97個字母,因而輸入時擊鍵次數(shù)太多影響速度,后來廣泛發(fā)展了各種雙拼方案,即聲母用一個字母,韻母用一個字母,多字母的用一個字母代替。最早提出雙拼的是黎錦熙、唐藝等,后來扶良文、李金愷等設計的都是聲韻雙拼法。

漢字一字多音和一音多字情況相當嚴重,例如在1980年商務印書館出版的《現(xiàn)代漢語詞典》中,發(fā)bì(畢)音的字有65個,發(fā)shì(是)音的字有44個,因而要選擇字,降低了效率。為解決這個問題,人們又設計了音形碼,以音形互補,郭淑珍等人較早設計出音形碼,后來亦有很大的發(fā)展。進而,人們又開展詞語輸入、聯(lián)想功能等,都使?jié)h字的輸入更加容易?,F(xiàn)在的各種編碼方案已達700余種,常用的有“五筆字型”、“聲數(shù)碼”、"CW語詞系統(tǒng)”、“前三末一法”、“拆聲三碼”、“自然碼”、“五十字元法”、“雙音碼”、“大眾碼”、“二維

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論