計算機(jī)數(shù)據(jù)與編碼_第1頁
計算機(jī)數(shù)據(jù)與編碼_第2頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、計算機(jī)數(shù)據(jù)與編碼1.6.1信息和數(shù)據(jù)信息是人們對客觀世界的認(rèn)識,即對客觀世界的一種反映。數(shù)據(jù)是表達(dá)現(xiàn)實世界中各種信息的一組可以記錄、可以識別的記號或符號。它是信息的載體,是信息的具體表現(xiàn)形式。數(shù)據(jù)形式可以是字符、符號、表格、聲音、圖像等。數(shù)據(jù)可以在物理介質(zhì)上記錄或傳輸,并通過輸入設(shè)備傳送給計算機(jī)處理加工。數(shù)據(jù)的單位分為以下幾種:1)位(bit)計算機(jī)中最小的數(shù)據(jù)單位二進(jìn)制的一個數(shù)位,稱為比特位,簡稱位。1位二進(jìn)制只能表示兩種狀態(tài),即0或1。n位二進(jìn)制能表示2n種狀態(tài)2)字節(jié)(Byte)相鄰8個比特位組成一個字節(jié),用B表示。字節(jié)是計算機(jī)中用來表示存儲容量大小的基本單位。1B=8bits1KB=2

2、10B=1024B1MB=220B=1024KB1GB=230B=1024MB1TB=240B=1024GB3)字(Word)在計算機(jī)中作為一個整體被存取、傳送、處理的二進(jìn)制數(shù)位叫做一個字,每個字中二進(jìn)制位數(shù)的長度,稱為字長。用8位字長表示一個整數(shù)與用16位字長表示一個整數(shù),其所表示的數(shù)的上限和下限是不一樣的。字長所占位數(shù)其所表示的數(shù)的范圍8-128127即:-27(27-1)16-3276832767即:-215(215-1)32-21474836482147483647即:-231(231-1)1.6.2數(shù)字化信息編碼在計算機(jī)內(nèi)部,可用物理器件的高低電平代表二進(jìn)制的“0”和“1”,另外,脈

3、沖的正負(fù)極性,晶體管的導(dǎo)通和截止都可以用來表示二進(jìn)制的“0”和“1”。由于二進(jìn)制只有兩個狀態(tài),數(shù)據(jù)的傳輸和處理不容易出錯,另外二進(jìn)制數(shù)的記數(shù)、加減法運(yùn)算規(guī)則較為簡單,可用開關(guān)電路實現(xiàn),且二進(jìn)制的“0”和“1”正好與邏輯命題的兩個值“真”和“假”相對應(yīng),為計算機(jī)種中實現(xiàn)邏輯運(yùn)算和邏輯判斷提供了便利的條件。所以,在計算機(jī)中,廣泛采用的是只有“0”和“1”兩個基本符號組成的基二碼,或稱為二進(jìn)制碼。計算機(jī)最重要的功能是處理信息,這些信息包括數(shù)值、文字、圖形、符號、圖象、聲音等,所有這些信息都必須經(jīng)過編碼,轉(zhuǎn)換成計算機(jī)能夠識別和處理的二進(jìn)制碼的形式才能夠被存儲、傳送和加工。BCD碼是二進(jìn)制編碼的十進(jìn)制數(shù)

4、(BinaryCodedDecimal)的簡寫。有四位BCD碼、六位BCD碼和擴(kuò)展的BCD碼三種。(1)非數(shù)值數(shù)據(jù)的表示1)字符數(shù)據(jù)的表示ASCII碼(AmericaStandardCodeforInformationInterchage)是美國標(biāo)準(zhǔn)信息交換碼,被國際化組織指定為國際標(biāo)準(zhǔn),分為7位和8位兩種版本。國際通用的是7位ASCII碼,它已對大、小寫英文字母、阿拉伯?dāng)?shù)字、標(biāo)點符號及控制符等特殊符號編碼,共128個字符。表中特殊符號的意義如下:NUL空白SOH標(biāo)題開始STX正文開始EXT正文結(jié)束EOT傳輸結(jié)束ENQ詢問ACK承認(rèn)BEL告警BS退格HT橫向列表LF換行VT垂直列表FF換頁CR

5、回車SO移位輸出SI移位輸入SP空格DLE轉(zhuǎn)義DC1設(shè)備控制1DC2設(shè)備控制2DC3設(shè)備控制3DC4設(shè)備控制4NAK否認(rèn)SYN空轉(zhuǎn)同步ETB信息組傳送結(jié)束CAN作廢EM紙盡SUB取代ESC擴(kuò)展FS文字分隔符GS組分隔符RS記錄分隔符US單元分隔符DEL刪除(2)漢字的表示漢字與英文的主要區(qū)別:1)英文是拼音文字,漢字是表意文字。英文字母只有26個,漢字多達(dá)5萬個以上,常用漢字也有6000多個。2)漢字的同音字很多,一個音往往會有幾個甚至幾十個字。3)英文排序簡單,漢字排序非常復(fù)雜,而且與文字本身沒有本質(zhì)聯(lián)系。開發(fā)一個完善的中文信息處理系統(tǒng)必須解決以下三個主要問題:(1)漢字輸入(2)漢字輸岀(

6、3)漢字與西文的兼容性漢字的編碼和表示1)漢字交換碼(國標(biāo)碼)漢字交換碼(國標(biāo)碼)主要用于漢字信息交換。國標(biāo)碼:以國家標(biāo)準(zhǔn)局1980年頒布的信息交換用漢字編碼字符集"基本集(代號為GB231280)規(guī)定的漢字交換碼作為國家標(biāo)準(zhǔn)漢字編碼。GB231280中共有7445個字符符號:漢字符號6763個一級漢字3755個(按漢語拼音字母順序排列)二級漢字3008個(按部首筆劃順序排列)非漢字符號682個GB231280規(guī)定,所有的國標(biāo)碼漢字及符號組成一個9494的方陣。在此方陣中,每一行稱為一個”區(qū)",每一列稱為一個"位”。這個方陣實際上組成一個有94個區(qū)(編號由01到9

7、4),每個區(qū)有94個位(編號由01到94)的漢字字符集。一個漢字所在的區(qū)號和位號的組合就構(gòu)成了該漢字的”區(qū)位碼"。其中,高兩位為區(qū)號,低兩位為位號。這樣區(qū)位碼可以唯一地確定某一漢字或字符;反之,任何一個漢字或符號都對應(yīng)一個唯一的區(qū)位碼,沒有重碼。區(qū)位碼分布情況如下:區(qū)號內(nèi)容1區(qū)鍵盤上沒有的各種符號2區(qū)各種序號3區(qū)鍵盤上的各種符號(按中文方式給岀)4-5區(qū)日文字母6區(qū)希臘字母7區(qū)俄文字母8區(qū)標(biāo)識拼音聲調(diào)的母音及拼音字母名稱9區(qū)制表符號10-15區(qū)未用16-55區(qū)一級漢字(按拼音字母順序排列)56-87區(qū)二級漢字(按部首筆劃順序排列)88-94區(qū)自定義漢字由上可以看出,所有漢字與符號的9

8、4個區(qū),可以分為四個組: 1-15區(qū):為圖形符號區(qū)。其中19區(qū)為標(biāo)準(zhǔn)符號區(qū);1015區(qū)為自定義符號區(qū)。 16-55區(qū):為一級漢字區(qū),包含3755個漢字。這些區(qū)中的漢字按漢語拼音順序排序,同音字按筆畫順序列岀。 56-87區(qū):為二級漢字區(qū),包含3008個漢字。這些區(qū)中的漢字是按部首筆劃順序排序的。 88-94區(qū):為自定義漢字區(qū)。國標(biāo)碼規(guī)定,每個漢字(包括非漢字的一些符號)由2字節(jié)代碼表示。每個字節(jié)的最高位為0,只使用低7位,而低7位的編碼中又有34個適用于控制用的,這樣每個字節(jié)只有27-34=94個編碼用于漢字。2個字節(jié)就有9494=8836個漢字編碼。在表示一個漢字的2個字節(jié)中,高字節(jié)對應(yīng)編碼

9、表中的行號,稱為區(qū)號;低字節(jié)對應(yīng)編碼表中的列號,稱為位號。漢字國標(biāo)碼的范圍用二進(jìn)制表示是:00100001001000010111111001111110(1+32)10(1+32)10(94+32)10(94+32)107位ASCII碼是128個字符組成的字符集。其中編碼值031(0000000000011111)不對應(yīng)任何印刷字符,通常稱為控制符,用于計算機(jī)通信中的通信控制或?qū)τ嬎銠C(jī)設(shè)備的功能控制。編碼值32(00100000)是空格字符SP。編碼值127(1111111)是刪除字符DEL。漢字國標(biāo)碼的起始二進(jìn)制位置選擇00100001即(33)10是為了跳過ASCII碼的32個控制字符和

10、空格字符。所以,漢字國標(biāo)碼的高位和低位分別比對應(yīng)的區(qū)位碼大(32)10或(00100000)2或(20)H,即:國標(biāo)碼高位=區(qū)碼+20H(H表示十六進(jìn)制)國標(biāo)碼低位=位碼+20H2) 漢字機(jī)內(nèi)碼(內(nèi)碼)(漢字存儲碼)漢字機(jī)內(nèi)碼(內(nèi)碼)(漢字存儲碼)的作用是統(tǒng)一了各種不同的漢字輸入碼在計算機(jī)內(nèi)部的表示。為了將漢字的各種輸入碼在計算機(jī)內(nèi)部統(tǒng)一起來,就有了專用于計算機(jī)內(nèi)部存儲漢字使用的漢字機(jī)內(nèi)碼,用以將輸入時使用的多種漢字輸入碼統(tǒng)一轉(zhuǎn)換成漢字機(jī)內(nèi)碼進(jìn)行存儲,以方便機(jī)內(nèi)的漢字處理漢字機(jī)內(nèi)碼是在計算機(jī)內(nèi)部存儲、處理的代碼。計算機(jī)既要處理漢字,又要處理英文。因此計算機(jī)必須能區(qū)別漢字字符和英文字符。英文字符

11、的的機(jī)內(nèi)碼是最高為為0的8位ASCII碼。為了不與7位ASCII碼發(fā)生沖突,把國標(biāo)碼每個字節(jié)的最高位由0改為1,其余位不變的編碼作為漢字字符的機(jī)內(nèi)碼。漢字機(jī)內(nèi)碼的范圍用二進(jìn)制表示是:10100001101000011111111011111110機(jī)內(nèi)碼的高位和低位比對應(yīng)的國標(biāo)碼的高位和低位大(128)10或(10000000)2或(80)H即:機(jī)內(nèi)碼高位=國標(biāo)碼高位+80H機(jī)內(nèi)碼低位=國標(biāo)碼低位+80H又因為:國標(biāo)碼高位=區(qū)碼+20H國標(biāo)碼低位=位碼+20H所以:機(jī)內(nèi)碼高位=區(qū)碼+A0H機(jī)內(nèi)碼低位=位碼+A0H也就是說,機(jī)內(nèi)碼高位和機(jī)內(nèi)碼低位分別比對應(yīng)的區(qū)碼和位碼大(160)10或(10100

12、000)2或(A0)H例如:漢字"啊"的區(qū)位碼為"1601",其中區(qū)碼為(16)10或(10)H,位碼為(01)10或(01)H。貝U:機(jī)內(nèi)碼高位=10H+A0H=B0H機(jī)內(nèi)碼低位=01H+A0H=A1H所以:機(jī)內(nèi)碼=B0A1H3) 漢字輸入碼(外碼)漢字輸入碼(外碼)是為了通過鍵盤字符把漢字輸入計算機(jī)而設(shè)計的一種編碼。英文輸入時,相輸入什么字符便按什么鍵,輸入碼和機(jī)內(nèi)碼一致。漢字輸入時,可能要按幾個鍵才能輸入一個漢字。漢字輸入方案有成百上千個,但是這千差萬別的外碼輸入進(jìn)計算機(jī)后都會轉(zhuǎn)換成統(tǒng)一的內(nèi)碼。漢字輸入方案大致可分為以下4種類型:(1)音碼:如全拼、雙拼、微軟拼音等(2)形碼:如五筆字型、鄭碼、表形碼等(3)音形碼:如智能ABC、自然碼等(4)數(shù)字碼:如區(qū)位碼、電報碼等4) 漢字字形碼(輸出碼)漢字字形碼(輸出碼)用于漢字的顯示和打印,是漢字字形的數(shù)字化信息。漢字的內(nèi)碼是用數(shù)字代碼來表示漢字,但是為了在輸出時讓人們看到漢字,就必須輸出漢字的字形。在漢字系統(tǒng)中,一般采用點陣來表示字形。16*16漢字點陣示意16*16點陣字形的字要使用32個字節(jié)(16*16/8=32)存儲,24*24點陣字形的字要使用72個字節(jié)(24*24/8=72)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論