第五章信息編碼

上傳人：a*** IP屬地：湖北上傳時(shí)間：2023-02-05 格式：PPT 頁數(shù)：28 大?。?34.50KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩23頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章信息編碼5.1計(jì)算機(jī)的編碼與數(shù)據(jù)5.2進(jìn)制及其轉(zhuǎn)換5.3計(jì)算機(jī)中信息的表示及存儲(chǔ)5.1計(jì)算機(jī)的編碼與數(shù)據(jù)計(jì)算機(jī)能夠處理數(shù)值、文字、聲音、圖像等各種信息。目前計(jì)算機(jī)中所有的信息都用“0”和“1”兩個(gè)數(shù)字符號(hào)組合的二進(jìn)制數(shù)來表示。數(shù)值、圖形、文字等各種形式的信息，需要計(jì)算機(jī)進(jìn)行加工處理時(shí)，首先必須按一定的法則轉(zhuǎn)換成二進(jìn)制數(shù)。5.1.1計(jì)算機(jī)編碼1、ASCII碼在計(jì)算機(jī)內(nèi)部，所有的信息最終都表示為一個(gè)二進(jìn)制的字符串。每一個(gè)二進(jìn)制位（bit）有0和1兩種狀態(tài)，因此八個(gè)二進(jìn)制位就可以組合出256種狀態(tài)，這被稱為一個(gè)字節(jié)（byte）。也就是說，一個(gè)字節(jié)一共可以用來表示256種不同的狀態(tài)，每一個(gè)狀態(tài)對(duì)應(yīng)一個(gè)符號(hào)，就是256個(gè)符號(hào)，從0000000到11111111。上個(gè)世紀(jì)60年代，美國制定了一套字符編碼，對(duì)英語字符與二進(jìn)制位之間的關(guān)系，做了統(tǒng)一規(guī)定。這被稱為ASCII碼，一直沿用至今。

ASCII碼一共規(guī)定了128個(gè)字符的編碼，比如空格“SPACE”是32（二進(jìn)制00100000），大寫的字母A是65（二進(jìn)制01000001）。這128個(gè)符號(hào)（包括32個(gè)不能打印出來的控制符號(hào)），只占用了一個(gè)字節(jié)的后面7位，最前面的1位統(tǒng)一規(guī)定為0。下圖5-1為部分字符對(duì)應(yīng)的ASCII。2、非ASCII編碼英語用128個(gè)符號(hào)編碼就夠了，但是用來表示其他語言，128個(gè)符號(hào)是不夠的。比如，在法語中，字母上方有注音符號(hào)，它就無法用ASCII碼表示。于是，一些歐洲國家就決定，利用字節(jié)中閑置的最高位編入新的符號(hào)。比如，法語中的é的編碼為130（二進(jìn)制10000010）。這樣一來，這些歐洲國家使用的編碼體系，可以表示最多256個(gè)符號(hào)。但是，這里又出現(xiàn)了新的問題。不同的國家有不同的字母，因此，哪怕它們都使用256個(gè)符號(hào)的編碼方式，代表的字母卻不一樣。比如，130在法語編碼中代表了é，在希伯來語編碼中卻代表了字母Gimel(?)，在俄語編碼中又會(huì)代表另一個(gè)符號(hào)。但是不管怎樣，所有這些編碼方式中，0—127表示的符號(hào)是一樣的，不一樣的只是128—255的這一段。至于亞洲國家的文字，使用的符號(hào)就更多了，漢字就多達(dá)10萬左右。一個(gè)字節(jié)只能表示256種符號(hào)，肯定是不夠的，就必須使用多個(gè)字節(jié)表達(dá)一個(gè)符號(hào)。比如，簡(jiǎn)體中文常見的編碼方式是GB2312，使用兩個(gè)字節(jié)表示一個(gè)漢字，所以理論上最多可以表示256x256=65536個(gè)符號(hào)。3.Unicode

正如上一節(jié)所說，世界上存在著多種編碼方式，同一個(gè)二進(jìn)制數(shù)字可以被解釋成不同的符號(hào)。因此，要想打開一個(gè)文本文件，就必須知道它的編碼方式，否則用錯(cuò)誤的編碼方式解讀，就會(huì)出現(xiàn)亂碼。為什么電子郵件常常出現(xiàn)亂碼？就是因?yàn)榘l(fā)信人和收信人使用的編碼方式不一樣?？梢韵胂螅绻幸环N編碼，將世界上所有的符號(hào)都納入其中。每一個(gè)符號(hào)都給予一個(gè)獨(dú)一無二的編碼，那么亂碼問題就會(huì)消失。這就是Unicode，就像它的名字都表示的，這是一種所有符號(hào)的編碼。

Unicode當(dāng)然是一個(gè)很大的集合，現(xiàn)在的規(guī)?？梢匀菁{100多萬個(gè)符號(hào)。每個(gè)符號(hào)的編碼都不一樣，比如，U+0639表示阿拉伯字母Ain，U+0041表示英語的大寫字母A，U+4E25表示漢字“嚴(yán)”。具體的符號(hào)對(duì)應(yīng)表，可以查詢unicode-org，或者專門的漢字對(duì)應(yīng)表。4.UTF-8

互聯(lián)網(wǎng)的普及，強(qiáng)烈要求出現(xiàn)一種統(tǒng)一的編碼方式。UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種unicode的實(shí)現(xiàn)方式。其他實(shí)現(xiàn)方式還包括UTF-16和UTF-32，不過在互聯(lián)網(wǎng)上基本不用。重復(fù)一遍，這里的關(guān)系是，UTF-8是Unicode的實(shí)現(xiàn)方式之一。

UTF-8最大的一個(gè)特點(diǎn)，就是它是一種變長的編碼方式。它可以使用1~4個(gè)字節(jié)表示一個(gè)符號(hào)，根據(jù)不同的符號(hào)而變化字節(jié)長度。UTF-8的編碼規(guī)則很簡(jiǎn)單，只有二條：1）對(duì)于單字節(jié)的符號(hào)，字節(jié)的第一位設(shè)為0，后面7位為這個(gè)符號(hào)的unicode碼。因此對(duì)于英語字母，UTF-8編碼和ASCII碼是相同的。2）對(duì)于n字節(jié)的符號(hào)（n>1），第一個(gè)字節(jié)的前n位都設(shè)為1，第n+1位設(shè)為0，后面字節(jié)的前兩位一律設(shè)為10。剩下的沒有提及的二進(jìn)制位，全部為這個(gè)符號(hào)的unicode碼。下表總結(jié)了編碼規(guī)則，字母x表示可用編碼的位。Unicode符號(hào)范圍|UTF-8編碼方式

(十六進(jìn)制)|（二進(jìn)制）--------------------+---------------------------------------------00000000-0000007F|0xxxxxxx

00000080-000007FF|110xxxxx10xxxxxx

00000800-0000FFFF|1110xxxx10xxxxxx10xxxxxx

00010000-0010FFFF|11110xxx10xxxxxx10xxxxxx

10xxxxxx下面，還是以漢字“嚴(yán)”為例，演示如何實(shí)現(xiàn)UTF-8編碼。已知“嚴(yán)”的unicode是4E25（100111000100101），根據(jù)上表，可以發(fā)現(xiàn)4E25處在第三行的范圍內(nèi)（00000800-0000FFFF），因此“嚴(yán)”的UTF-8編碼需要三個(gè)字節(jié)，即格式是“1110xxxx10xxxxxx10xxxxxx”。然后，從“嚴(yán)”的最后一個(gè)二進(jìn)制位開始，依次從后向前填入格式中的x，多出的位補(bǔ)0。這樣就得到了，“嚴(yán)”的UTF-8編碼是“111001001011100010100101”，轉(zhuǎn)換成十六進(jìn)制就是E4B8A5。5.1.2漢字存放標(biāo)準(zhǔn)GB23125.2進(jìn)制及其轉(zhuǎn)換5.2.1進(jìn)制概述十進(jìn)制：日常生活中使用的數(shù)是十進(jìn)制數(shù)，它的特征是：有10個(gè)數(shù)字：0、1、2、3、4、5、6、7、8、9。運(yùn)算時(shí)逢十進(jìn)一。每個(gè)數(shù)字在不同的數(shù)位上，其值以10的倍數(shù)增。數(shù)位：個(gè)十百千萬……

數(shù)值：100101102103104……二進(jìn)制；計(jì)算機(jī)使用的是二進(jìn)制數(shù)，它的特征是：有2個(gè)數(shù)字：0，1。運(yùn)算時(shí)逢二進(jìn)一。每個(gè)數(shù)字在不同數(shù)位上，其值以2的倍數(shù)遞增。即20，21，22，23，24，……

用二進(jìn)制數(shù)表示一個(gè)數(shù)值時(shí)，因?yàn)槠湮粩?shù)比較長，不便書寫和記憶；由于又有下面的關(guān)系：23=824=16所以人們常用八進(jìn)制數(shù)或十六進(jìn)制數(shù)來表示二進(jìn)制數(shù)。八進(jìn)制數(shù)：有八個(gè)數(shù)字：0，1，2，3，4，5，6，7。運(yùn)算時(shí)逢八進(jìn)一。十六進(jìn)制數(shù)：有十六個(gè)數(shù)字：0，1，2，3，4，5，6，7，8，9，A，B，C，D，E，F(xiàn)。運(yùn)算時(shí)逢十六進(jìn)一。在十六進(jìn)制中，分別用A、B、C、D、E和F來表示十進(jìn)制數(shù)的10、11、12、13、14和15。由此可得出：二進(jìn)制、八進(jìn)制、十進(jìn)制與十六進(jìn)制的特征對(duì)照表如表5-1所示。表5-1二進(jìn)制、八進(jìn)制、十進(jìn)制與十六進(jìn)制的特征對(duì)照表進(jìn)制個(gè)位數(shù)字運(yùn)算規(guī)則數(shù)的表示方法二進(jìn)制0、1逢二進(jìn)一（1101）2八進(jìn)制0、1、2、3、4、5、6、7逢八進(jìn)一（17）8十進(jìn)制0、1、2、3、4、5、6、7、8、9逢十進(jìn)一（23）10十六進(jìn)制0、1、2、3、4、5、6、7、8、9、A、B、C、D、E、F逢十六進(jìn)一（2F）16表5-2二進(jìn)制、八進(jìn)制、十進(jìn)制與十六進(jìn)制的特征5.2.2進(jìn)制間的轉(zhuǎn)換進(jìn)制間的轉(zhuǎn)換有兩種方式可以完成，第一種，通過豎式計(jì)算可以進(jìn)行，這種方式相對(duì)比較復(fù)雜，理解有一定的難度，相對(duì)抽象點(diǎn)；第二種方式可以通過“程序”菜單欄中的“計(jì)算器”工具可以直接轉(zhuǎn)換，這種轉(zhuǎn)換比較直觀，結(jié)果準(zhǔn)確度高。下面詳細(xì)敘述這兩種轉(zhuǎn)換方式的轉(zhuǎn)換過程。第一種轉(zhuǎn)換方式、計(jì)算的方式完成進(jìn)制的轉(zhuǎn)換

R（R表示二、八、十六）進(jìn)制轉(zhuǎn)換成十進(jìn)制：任何一個(gè)數(shù)一般由：數(shù)值、位權(quán)與基數(shù)組成?！盎鶖?shù)”即為該數(shù)字采用何種進(jìn)制，則對(duì)應(yīng)的基數(shù)就是幾，如（101101）2表示采用二進(jìn)制，則基數(shù)即為“2”。“位權(quán)”是以小數(shù)點(diǎn)為基準(zhǔn)，向左每一位數(shù)字的位權(quán)從0開始變化，依次遞增1，分別為0、1、2……；向右依次遞減，分別為-1、-2……如（82.35）10中“8”的位權(quán)為1，“2”的位權(quán)為0，“3”的位權(quán)為-1，“5”的位權(quán)為-2?！皵?shù)值”是指?jìng)€(gè)、十、百位上的數(shù)字。例1：將二進(jìn)制數(shù)（101101）2轉(zhuǎn)換成十進(jìn)制數(shù)。先確定二進(jìn)制數(shù)（101101）2中的位權(quán)從左到右依次為5、4、3、2、1、0，由于基數(shù)為“2”，所以轉(zhuǎn)換后的十進(jìn)制數(shù)應(yīng)為：（101101）2=1х25+0х24+1х23+1х22+0х21+1х20=45例2：將十六進(jìn)制（2AF5）16換算成10進(jìn)制:第0位：5*160=5第1位：F*161=240第2位：A*162=2560第3位：2*163=8192＋————————————-10997十進(jìn)制數(shù)轉(zhuǎn)換成R進(jìn)制相對(duì)比較復(fù)雜些，前面將R進(jìn)制轉(zhuǎn)換成十進(jìn)制時(shí)采用的乘以基數(shù)的位權(quán)次方求和法，那么將十進(jìn)制轉(zhuǎn)換成R進(jìn)制則是一個(gè)逆過程，整數(shù)部分采用除以基數(shù)求余法，余數(shù)由低向高；小數(shù)部分采用乘R取整法，由高到低。具體步驟如下：步驟(整數(shù)部分)：（1）將十進(jìn)制數(shù)除r，保存余數(shù)。（2）如果商為0，則進(jìn)行第三步，否則，用商代替原十進(jìn)制數(shù)，重復(fù)第1步。（3）將所有的余數(shù)找出，最后得到的余數(shù)作為最高位，最先得出的余數(shù)作為最低位，由各余數(shù)依次排列而成的新的數(shù)據(jù)就是轉(zhuǎn)換成r進(jìn)制的結(jié)果。步驟(小數(shù)部分)：（1）、將十進(jìn)制小數(shù)部分乘以r，保存此時(shí)的整數(shù)（包含整數(shù)0）（2）、若積為一個(gè)整數(shù)或者所得的結(jié)果達(dá)到了題中要求的精度則進(jìn)入第三步，否則重復(fù)第一步（3）、將所有的整數(shù)找出，最先得到的整數(shù)作為最高位，最后得出的整數(shù)作為最低位，由各整數(shù)依次排列而成的新的數(shù)據(jù)就是轉(zhuǎn)換成R進(jìn)制的結(jié)果。例3、將(47.3215)10轉(zhuǎn)換為二進(jìn)制數(shù)。

①整數(shù)部分轉(zhuǎn)換將整數(shù)49“除二取余”法，由于后得到的“余”的權(quán)大于先得到的。因此，取余數(shù)的過程與計(jì)算過程相反，要從下向上取。如下圖5-2所示。

②小數(shù)部分轉(zhuǎn)換：

小數(shù)部分0.3125用“乘二取整”法，書寫順序：第一次乘以2所得整數(shù)是最高位

（即從上往下書寫）小數(shù)部分的轉(zhuǎn)換結(jié)果，如圖5-3所示。綜合上面兩步，最后得到的結(jié)果為：(47.3125)10=(101111.0101)2圖5-2整數(shù)部分轉(zhuǎn)換示意圖圖5-3小數(shù)部分轉(zhuǎn)換示意圖第二種轉(zhuǎn)換方式、計(jì)算器轉(zhuǎn)換法采用這種轉(zhuǎn)換方式比較直觀，通過Windows操作系統(tǒng)內(nèi)部提供的計(jì)算器進(jìn)行轉(zhuǎn)換。點(diǎn)擊開始菜單，“程序→附件→計(jì)算器”即可彈出如下圖5-4所示的窗口。例4、采用計(jì)算器的轉(zhuǎn)換方式將十六進(jìn)制（2AF5）16換算成10進(jìn)制:①、打開計(jì)算器軟件，進(jìn)入科學(xué)型窗口，如圖5-4所示；②、點(diǎn)擊圖中的“十六進(jìn)制”，從鍵盤輸入“2AF5”，如下圖5-6所示。圖5-6進(jìn)制轉(zhuǎn)換前的數(shù)據(jù)輸入③數(shù)據(jù)輸入完畢后，點(diǎn)擊“十進(jìn)制”即可得出答案，如圖5-7所示。圖5-7轉(zhuǎn)換后的數(shù)據(jù)結(jié)果圖5.3計(jì)算機(jī)中信息的表示及存儲(chǔ)計(jì)算機(jī)內(nèi)部采用二進(jìn)制的方式計(jì)數(shù)，一個(gè)二進(jìn)制位稱一個(gè)比特（bit）。不論是數(shù)值數(shù)據(jù)還是文字、圖形等，在計(jì)算機(jī)內(nèi)部都采用了一種編碼標(biāo)準(zhǔn)。通過編碼標(biāo)準(zhǔn)可以把它轉(zhuǎn)換成二進(jìn)制數(shù)來進(jìn)行處理，計(jì)算機(jī)將這些信息處理完畢再轉(zhuǎn)換成可視的信息顯示出來。計(jì)算機(jī)中數(shù)據(jù)為什么以二進(jìn)制表示呢？可行性:二進(jìn)制數(shù)只有0，1兩個(gè)數(shù)碼，采用電子器件很容易實(shí)現(xiàn)?？煽啃?二進(jìn)制的0，1兩種狀態(tài)，在傳輸和處理時(shí)不容易出錯(cuò)。簡(jiǎn)易性:使計(jì)算機(jī)的運(yùn)算器結(jié)構(gòu)大大簡(jiǎn)化，控制簡(jiǎn)單。

邏輯性:二進(jìn)制的0，1兩種狀態(tài)，代表邏輯運(yùn)算“假”和“真”兩種值。5.3.1英文文字符號(hào)編碼英文中的字母、符號(hào)通常采用ASCII（AmericanStandardCodeofInformationInterchange）碼，它原來是美國標(biāo)準(zhǔn)信息交換碼，1967年被定為國際標(biāo)準(zhǔn)碼。ASCII碼表見附錄。一個(gè)ASCII碼由8位二進(jìn)制數(shù)組成，占據(jù)一個(gè)字節(jié)空間。其中最高位為奇偶校驗(yàn)位，用于在傳輸過程檢驗(yàn)數(shù)據(jù)的正確性；其余7位二進(jìn)制數(shù)表示一個(gè)字符，共有27=128種組合。例如：回車的ASCII碼為0001101（13），空格的ASCII碼為0100000（32），“0”的ASCII碼為0110000（48），“A”的ASCII碼為1000001（65），“a”的ASCII碼為1100001（97）等。通常編碼打字符號(hào)代碼分布具有以下特點(diǎn)：1．空格符（SP）的代碼最小、刪除符（Del）的代碼最大。2．?dāng)?shù)字代碼小于字母代碼。3．大寫字母小于小寫字母，26個(gè)字母中A最小，Z最大。例：已知英文字母A的ASCII碼值為65，那么英文字母I的ASCII碼值是多少？分析：ASCII碼表中A和I相差8，已知A的ASCII碼是65，那么I的ASCII碼就是65+8=73；5.3.2中文文字編碼為了表示和交換漢字信息，1981年我國國家標(biāo)準(zhǔn)局制定了《信息交換用漢字編碼字符集》，代號(hào)為GB2312－80，簡(jiǎn)稱國標(biāo)碼。國標(biāo)碼共對(duì)7445個(gè)漢字和符號(hào)進(jìn)行了編碼，并根據(jù)使用的頻率將6763個(gè)漢字分為兩個(gè)等級(jí)：一級(jí)漢字包括3755個(gè)常用漢字，按漢語拼音順序排列；二級(jí)漢字包括3008個(gè)次常用漢字，按偏旁部首及筆畫順序排列。

GB2312－80國標(biāo)碼的編碼原則是：一個(gè)漢字用兩個(gè)字節(jié)表示，分別稱為前字節(jié)和后字節(jié)，每字節(jié)用低7位二進(jìn)制碼，共計(jì)14位二進(jìn)制碼，能組成214＝16384個(gè)不同的代碼，并將代碼分成94區(qū)，每個(gè)區(qū)94個(gè)漢字或符號(hào)。對(duì)每個(gè)漢字符號(hào)，前字節(jié)編碼稱為區(qū)碼，后字節(jié)編碼稱為位碼，即區(qū)位碼。在區(qū)位碼中01區(qū)到15區(qū)是非漢字圖形符號(hào)，16區(qū)到55區(qū)是一級(jí)漢字，56區(qū)到87區(qū)是二級(jí)漢字，87區(qū)以后空閑，可以存放標(biāo)準(zhǔn)庫中沒有的生偏漢字。

漢字的輸入?yún)^(qū)位碼和其國標(biāo)碼之間的轉(zhuǎn)換方法為：將一個(gè)漢字的十進(jìn)制區(qū)號(hào)和十進(jìn)制位號(hào)分別轉(zhuǎn)換成十六進(jìn)制；然后再分別加上20H，就成為此漢字的國標(biāo)碼。例：已知漢字“家”的區(qū)位碼是2850，其國標(biāo)碼是：3C52H本題中“家”的區(qū)位碼：285

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第五章信息編碼

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第五章信息編碼

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔