計算機導(dǎo)論第五講字符編碼及漢字輸入方法_第1頁
計算機導(dǎo)論第五講字符編碼及漢字輸入方法_第2頁
計算機導(dǎo)論第五講字符編碼及漢字輸入方法_第3頁
計算機導(dǎo)論第五講字符編碼及漢字輸入方法_第4頁
計算機導(dǎo)論第五講字符編碼及漢字輸入方法_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

計算機導(dǎo)論第五講字符編碼及漢字輸入方法第一頁,共三十一頁,編輯于2023年,星期一(1)前32個ASCII碼為控制字符(不可顯示字符)

NULL(空字符)——0CR或ENTER(回車鍵)——13LF(換行)——10(2)英文字母

大寫A-Z:65——90小寫a-z:97——122(3)數(shù)字字符

0,1,…,9:48——57(4)空格鍵

ASCII碼為32常用ASCII字符如下:第二頁,共三十一頁,編輯于2023年,星期一一、漢字GB2312-80字符集漢字是一種象形文字,其字?jǐn)?shù)之多居世界各國文字首位。目前通用的漢字,按1979年版《新華字典》計算約12,000個,按1990年版《漢語大字典》計算為54,678個。而日常生活中最常用的漢字也有大約3,500個。為了規(guī)范文字以適應(yīng)計算機信息處理的需要,國家技術(shù)監(jiān)督局于1980年頒布了國家標(biāo)準(zhǔn)《信息交換用漢字編碼字符集基本集》,即國標(biāo)GB2312-80,作為我國漢字系統(tǒng)必須遵守的國家規(guī)范。3.2GB2312-80中文字符集與編碼第三頁,共三十一頁,編輯于2023年,星期一國標(biāo)GB2312-80共收漢字、字母和圖形等符號7445個,按94行94列排列在一張大碼表中。其行號稱為區(qū)號,列號稱為位號。國標(biāo)GB2312-80中的全部符號包括:(1)一般符號202個。包括:標(biāo)點、間隔符、運算符、制表符等。(2)復(fù)合型序號60個,包括:⒈-⒛和⑴-⒇各20個,①-⑩和㈠-㈩各10個。(3)數(shù)字22個。包括數(shù)字0-9,羅馬數(shù)字I-Ⅻ。(4)大小寫英文字母52個、希臘字母48個、俄文字母66個。日文假名169個。第四頁,共三十一頁,編輯于2023年,星期一(5)漢語拼音符號26個。(6)漢語注音字母37個。(7)漢字6763個。其中,一級漢字3755個,二級漢字3008個。國標(biāo)GB2312-80中非,非漢字符號存放在第1區(qū)到9區(qū)。一級漢字存放在第16區(qū)到55區(qū),按拼順序排列,同音字按起筆橫、豎、撇、點、折存放。二級漢字存放在第56到87區(qū),按部首順序排列。第五頁,共三十一頁,編輯于2023年,星期一

二、漢字編碼1.區(qū)位碼:一個漢字可由區(qū)號和位號唯一決定,稱為漢字的區(qū)位號碼。使用時,先指定是區(qū)號,然后指定位號。區(qū)號與位號都從1開始編號,1-94。例:漢字‘啊’(第一個漢字),存放在16區(qū),第1位,其區(qū)位碼為(16,01)。第六頁,共三十一頁,編輯于2023年,星期一2.國標(biāo)碼:將區(qū)位碼中的區(qū)號和位號分別加上十進(jìn)制數(shù)32,形成一個2字節(jié)編碼,即

第1字節(jié)為:區(qū)號+32,第2字節(jié)為位號+32。

如:漢字‘啊’的國標(biāo)碼為(48,33)。3.內(nèi)碼:一個漢字字符存儲在計算機的存儲器中的編碼,其作用與ASCII碼相似。內(nèi)碼也是一個兩字節(jié)編碼,編碼方法如下:

第1字節(jié)=區(qū)號+160,第2字節(jié)=位號+160

如:漢字‘啊’的內(nèi)碼是(176,161)第七頁,共三十一頁,編輯于2023年,星期一區(qū)位碼/國標(biāo)碼/內(nèi)碼轉(zhuǎn)換實例:例1:

某漢字在GB2312-80碼表中位于30區(qū)19位,試求該漢字的國標(biāo)碼與內(nèi)碼。解:國標(biāo)碼為區(qū)號、位號分別加32,故對應(yīng)國標(biāo)碼是

(30+32,19+32)=(62,51)

內(nèi)碼為區(qū)號、位號分別加160,故對應(yīng)內(nèi)碼是

(30+160,19+160)=(190,179)=(-66,-77)1字節(jié)補碼第八頁,共三十一頁,編輯于2023年,星期一例2:

某漢字的兩字節(jié)內(nèi)碼的存儲順序用十六進(jìn)制表示為(C9H,BEH),試求該漢字的區(qū)位碼。解:內(nèi)碼減去160得區(qū)位碼,故對應(yīng)的區(qū)位碼是

(C9H-160,BEH-160)=(C9H-A0H,BEH-A0H)=(29H,1EH)=(41,31)

即該漢字在GB2312-80碼表中位于41區(qū)第31位。第九頁,共三十一頁,編輯于2023年,星期一3.3中文大字符集一、GBK字符集

全稱《漢字內(nèi)碼擴(kuò)展規(guī)范》(GBK),英文名稱ChineseInternalCodeSpecification

,中華人民共和國全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會1995年12月1日制訂,國家技術(shù)監(jiān)督局標(biāo)準(zhǔn)化司、電子工業(yè)部科技與質(zhì)量監(jiān)督司1995年12月15日聯(lián)合以技監(jiān)標(biāo)函[1995]229號文件的形式,將它確定為技術(shù)規(guī)范指導(dǎo)性文件,發(fā)布和實施。這一版的GBK規(guī)范為1.0版。GB即“國標(biāo)”,K是“擴(kuò)展”的漢語拼音第一個字母。

GBK

亦采用雙字節(jié)表示,總體編碼范圍為8140H-FEFEH,首字節(jié)在81H-FEH之間,尾字節(jié)在40H-FEH之間。總計23940個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構(gòu)件)21003個,圖形符號883個。它向下兼收了GB2312以及臺灣的BIG-5.第十頁,共三十一頁,編輯于2023年,星期一推薦閱讀網(wǎng)址:/steelk/navigator/ref/gbk/gbindex.htm

微軟公司自Windows95簡體中文版開始,系統(tǒng)采用GBK代碼。二、GB18030

后來少數(shù)民族也要用電腦了,于是我們再擴(kuò)展,又加了幾千個新的少數(shù)民族的字,GBK擴(kuò)成了GB18030。從此之后,中華民族的文化就可以在計算機時代中傳承了。第十一頁,共三十一頁,編輯于2023年,星期一什么是DBCS?

DBCS(DoubleByteCharacterSet雙字節(jié)字符集)。DBCS最大的特點是兩字節(jié)長的漢字字符和一字節(jié)長的英文字符并存于同一套編碼方案里,因此他們寫的程序為了支持中文處理,必須要注意字串里的每一個字節(jié)的值,如果這個值是大于127(7FH)的,那么就認(rèn)為一個雙字節(jié)字符集里的字符出現(xiàn)了。推薦閱讀網(wǎng)址:/tilt/?p=151第十二頁,共三十一頁,編輯于2023年,星期一3.4國際標(biāo)準(zhǔn)化字符集UNICODEISO(InternationalStandardOrganization)重新搞一個包括了地球上所有文化、所有字母和符號的編碼,稱為”UniversalMultiple-OctetCodedCharacterSet”,簡稱UCS,俗稱“UNICODE”。

UNICODE編碼也是DBCS,總共可以組合出65535不同的字符,這大概已經(jīng)可以覆蓋世界上所有文化的符號。如果還不夠也沒有關(guān)系,ISO已經(jīng)準(zhǔn)備了UCS-4方案,就是四個字節(jié)來表示一個字符,這樣我們就可以組合出21億個不同的字符出來(最高位有其他用途)!第十三頁,共三十一頁,編輯于2023年,星期一ASCII里的那些“半角”字符,UNICODE包持其原編碼不變,只是將其長度由原來的8位擴(kuò)展為16位(第一字節(jié)填0),而其他文化和語言的字符則全部重新統(tǒng)一編碼。由于”半角”英文符號只需要用到低8位,所以其高8位永遠(yuǎn)是0,即只包括標(biāo)準(zhǔn)ASCII碼。從UNICODE開始,無論是半角的英文字母,還是全角的漢字,它們都是統(tǒng)一的”一個字符”!同時,也都是統(tǒng)一的”兩個字節(jié)”,請注意”字符”和”字節(jié)”兩個術(shù)語的不同,“字節(jié)”是一個8位的物理存貯單元,而“字符”則是一個文化相關(guān)的符號。第十四頁,共三十一頁,編輯于2023年,星期一UNICODE在制訂時沒有考慮與任何一種現(xiàn)有的編碼方案保持兼容,這使得GBK與UNICODE在漢字的內(nèi)碼編排上完全是不一樣的,沒有一種簡單的算術(shù)方法可以把文本內(nèi)容從UNICODE編碼和另一種編碼進(jìn)行轉(zhuǎn)換,這種轉(zhuǎn)換必須通過查表來進(jìn)行。從WindowsNT開始,MicroSoft把它們的操作系統(tǒng)改了一遍,把所有的核心代碼都改成了用UNICODE方式工作的版本,從這時開始,WINDOWS系統(tǒng)終于無需要加裝各種本土語言系統(tǒng),就可以顯示全世界上所有文化的字符。第十五頁,共三十一頁,編輯于2023年,星期一UNICODE來到時,一起到來的還有計算機網(wǎng)絡(luò)的興起,UNICODE如何在網(wǎng)絡(luò)上傳輸也是一個必須考慮的問題,于是面向傳輸?shù)谋姸?/p>

UTF(UCSTransferFormat)標(biāo)準(zhǔn)出現(xiàn)了,顧名思義,UTF8就是每次8個位傳輸數(shù)據(jù),而UTF16就是每次16個位,只不過為了傳輸時的可靠性,從UNICODE到UTF時并不是直接的對應(yīng),而是要過一些算法和規(guī)則來轉(zhuǎn)換。

在網(wǎng)絡(luò)里傳遞信息時有一個很重要的問題,就是對于數(shù)據(jù)高低位的解讀方式,一些計算機是采用低位先發(fā)送的方法,例如我們PC機采用的INTEL架構(gòu),而另一些是采用高位先發(fā)送的方式,在網(wǎng)絡(luò)中交換數(shù)據(jù)時,為了核對雙方對于高低位的認(rèn)識是否是一致的,采用了一種很簡便的方法,就是在文本流的開始時向?qū)Ψ桨l(fā)送一個標(biāo)志符——如果之后的文本是高位在位,那就發(fā)送”FEFF”,反之,則發(fā)送”FFFE”。第十六頁,共三十一頁,編輯于2023年,星期一Unicode轉(zhuǎn)換為UTF-8的方法UNICODE:0000–007FUTF-8:0xxxxxxx(2)UNICODE:0080–07FFUTF-8:110xxxxx

10xxxxxx(3)0800–FFFFUTF-8:1110xxxx

10xxxxxx

10xxxxxx第十七頁,共三十一頁,編輯于2023年,星期一2.3字符存儲、顯示與打印原理一、字符信息的存儲1.英文字符存儲:主要以ASCII碼方式存于存儲器,一個字符用一個ASCII碼,占用1個字節(jié),也可能采用兩字節(jié)編碼來存儲,如:UNICODE編碼。2.中文字符存儲:一個中文字符占用2字節(jié)存儲器,編碼采用GB2312-80內(nèi)碼、GBK或者UNICODE。二、字符顯示與打印原理

第十八頁,共三十一頁,編輯于2023年,星期一顯示和打印字符時,計算機必須獲得字符的圖象信息。存儲字符圖象信息的數(shù)據(jù)文件稱為字庫文件,簡稱字庫

計算機在顯示或打印字符時,首先得到字符的編碼(如:ASCII碼或內(nèi)碼),然后查找顯示或打印設(shè)置的字體所對應(yīng)的字庫,根據(jù)字符編碼在字庫文件中找到該字符的圖象數(shù)據(jù),取出圖象數(shù)據(jù)并描出圖形到顯示屏上或打印機中。根據(jù)圖象數(shù)據(jù)的存儲方式,可以分為點陣字庫與矢量字庫,其原理分別介紹如下。第十九頁,共三十一頁,編輯于2023年,星期一1.點陣字庫點陣顯示技術(shù)是計算機系統(tǒng)最基本、最快速的顯示方法。因為我們的顯示屏采用的是象素打點顯示方式,即由很多小點組成的矩形方陣,構(gòu)成了整個屏幕。顯示器的分辨率反映了顯示屏象素的多少。目前,在常用的PC機中的,點陣字型主要用于DOS操作系統(tǒng)、計算機啟動時的界面、CMOS參數(shù)設(shè)置界面等,其標(biāo)準(zhǔn)分辨率為640(寬)480(高)點陣。顯示和打印常用的點陣如下表所示:第二十頁,共三十一頁,編輯于2023年,星期一16×16點陣

有點與無點用一個二進(jìn)制位1/0表示,每行有16個點,因此需要16個bit,即2字節(jié);總共16行,因此一個16×16點陣的漢字圖象共需32個字節(jié)存儲空間。第二十一頁,共三十一頁,編輯于2023年,星期一思考:(1)存儲一個8×16點陣字符圖象數(shù)據(jù)需要多少字節(jié)?

答:16字節(jié)(2)在標(biāo)準(zhǔn)640×480分辨率的DOS屏幕上,每行可以顯示多少個ASCII字符或多少個內(nèi)碼字符?總共可以顯示多少行?

答:80個ASCII碼字符/行或40個內(nèi)碼字符/行共25行?。。。ㄒ驗橛?0線用于系統(tǒng)提示行和行間隔)極限是30行第二十二頁,共三十一頁,編輯于2023年,星期一2.矢量字庫采用筆劃、線條坐標(biāo)數(shù)據(jù)表示一個字符的圖象。矢量字庫也叫做向量字庫或曲線字庫。目前,矢量字庫在WINDOWS平臺上得到廣泛使用,WINDOWS平臺使用的TrueType字體,就是典型的矢量字庫。3.點陣與矢量字庫的對比第二十三頁,共三十一頁,編輯于2023年,星期一一、鍵盤初步2.4文字錄入方法第二十四頁,共三十一頁,編輯于2023年,星期一一、鍵盤初步1.可顯示字符2.常用控制鍵

Enter(CR或Return),SPACE,Shit,Alt,Ctrl,Tab,Esc,Del(Delete),Ins(Insert),Backspace(),NumLock,CapsLock,F1-F12,PrtSc,Home,PgUp,PgDn,End,四個方向箭頭第二十五頁,共三十一頁,編輯于2023年,星期一

3.組合鍵

Shift+可顯示字符鍵(上檔鍵)Ctrl+S

DOS下,暫停屏幕顯示

Ctrl+CDOS下,強行中止正在執(zhí)行的DOS命令

Ctrl+Alt+Del熱啟動,重新引導(dǎo)操作系統(tǒng)二、標(biāo)準(zhǔn)指法與英文錄入(自學(xué))第二十六頁,共三十一頁,編輯于2023年,星期一第二十七頁,共三十一頁,編輯于2023年,星期一第二十八頁,共三十一頁,編輯于2023年,星期一(1)“A、S、D、F、J、K、L、;”是八個基準(zhǔn)鍵。一開始雙手各手指應(yīng)分別放在這些基準(zhǔn)鍵上,并且當(dāng)敲擊完其他任何鍵后,手指應(yīng)迅速返回到基準(zhǔn)鍵位上。

(2)

每個手指只能擊分配給它的按

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論