西文字符的編碼_第1頁
西文字符的編碼_第2頁
西文字符的編碼_第3頁
西文字符的編碼_第4頁
西文字符的編碼_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

西文字符的編碼西文字符集:由拉丁字母、數(shù)字、標(biāo)點(diǎn)符號及一些特殊符號組成。字符的編碼:字符集中每一個字符各有一個代碼,即字符的二進(jìn)制表示,稱為該字符的編碼。字符代碼表:字符集中不同字符的編碼互相區(qū)別,構(gòu)成該字符集的代碼表。ASCII字符集和ASCII碼美國標(biāo)準(zhǔn)信息交換碼(AmericanStandardCodeforInformationInterchange):使用7個二進(jìn)位對字符進(jìn)行編碼(叫做標(biāo)準(zhǔn)ASCII碼),稱為ISO-646標(biāo)準(zhǔn)?;镜腁SCII字符集共有128個字符,96個可打印字符(常用字母、數(shù)字、標(biāo)點(diǎn)符號等)32個控制字符,特殊字符的ASCII碼空格(32)、A(65)、a(97)、0(48)數(shù)字,字母的ASCII碼是連續(xù)的,對應(yīng)大小寫字母ASCII碼相差32。不同類型的ASCII碼的十進(jìn)制數(shù)值由小到大:數(shù)字、大寫字母、小寫字母漢字的編碼(一)GB2312-80漢字編碼第一部分:字母、數(shù)字和各種符號,包括拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個(統(tǒng)稱為GB2312圖形符號)第二部分:一級常用漢字,共3755個,按漢語拼音排列第三部分:二級常用字,共3008個,按偏旁部首排列區(qū)位碼:GB2312國標(biāo)字符集構(gòu)成一個二維平面,它分成94行、94列,行號稱為區(qū)號,列號稱為位號。每一個漢字或符號在碼表中都有各自的位置,字符的位置用它所在的區(qū)號(行號)及位號(列號)來表示。每個漢字的區(qū)號和位號分別用1個字節(jié)來表示{如:“大”字的區(qū)號20,位號83,區(qū)位碼是2083 用2個字節(jié)表示為:0001010001010011}國標(biāo)交換碼:問題:信息通信中,漢字的區(qū)位碼與通信使用的控制碼(00H~1FH)發(fā)生沖突。解決方案:為了避免漢字區(qū)位碼與通信控制碼的沖突,ISO2022規(guī)定,每個漢字的區(qū)號和位號必須分別加上32(20H)得到國標(biāo)交換碼。漢字文本的搜索UCS/Unicode與GB18030漢字編碼標(biāo)準(zhǔn)通用編碼字符集UCS/Unicode約有6800種語言和文字在使用,需要建立一個多文種(Multilingual)處理環(huán)境在ISO2022基礎(chǔ)上,使用代碼頁號切換不同字符集的方法過于繁瑣,且與其他系統(tǒng)不兼容目標(biāo)與途徑:實現(xiàn)所有字符在同一字符集中統(tǒng)一編碼UCS/Unicode與GB18030漢字編碼標(biāo)準(zhǔn)優(yōu)點(diǎn):編碼空間極大,能容納足夠多的各種字符集(13億字符)缺點(diǎn):4字節(jié)的字符編碼使存儲空間浪費(fèi)嚴(yán)重文字與文本文本(text):文字信息在計算機(jī)中的表示形式,組成文本的基本元素是字符,字符在計算機(jī)中采用二進(jìn)制編碼表示。文本處理過程文本在計算機(jī)中的處理過程:文本的準(zhǔn)備(例如漢字的輸入),文本編輯,文本處理,文本存儲與傳輸、文本展現(xiàn)等,根據(jù)應(yīng)用的不同,各個處理環(huán)節(jié)的內(nèi)容和要求可能有很大的差別。文本信息的輸入方法人工輸入:通過鍵盤、手寫筆或語音輸入方式輸入字符特點(diǎn):速度慢、成本高,不適合需處理大批量文字的應(yīng)用自動輸入:將紙介質(zhì)上的文本通過識別技術(shù)自動轉(zhuǎn)換為文字的編碼特點(diǎn):速度快,效率高文字的自動識別分為:印刷體識別和手寫體識別文本信息的輸入方法由于漢字字?jǐn)?shù)很多,無法使每個漢字與西文鍵盤上的鍵一一對應(yīng),因此必須使用一個或幾個鍵來表示漢字,這就稱為漢字的“鍵盤輸入編碼”。好的漢字鍵盤輸入編碼方案的特點(diǎn):易學(xué)習(xí)、易記憶、效率高(平均擊鍵次數(shù)較少)、重碼少、容量大(可輸入的漢字字?jǐn)?shù)多)等漢字的輸入編碼與漢字的內(nèi)碼是不同范疇的概念。使用不同的輸入編碼方法向計算機(jī)輸入的同一個漢字,它們的內(nèi)碼是相同的數(shù)字編碼:使用一串?dāng)?shù)字來表示漢字的編碼方法,例如電報碼、區(qū)位碼等。缺點(diǎn):難以記憶,不易推廣字音編碼:一種基于漢語拼音的編碼方法,簡單易學(xué),適合于非專業(yè)人員。缺點(diǎn):同音字引起的重碼多,需增加選擇操作字形編碼:將漢字的字形分解歸類而給出的編碼方法,重碼少、輸入速度較快,如五筆字形法和表形碼。缺點(diǎn):編碼規(guī)則不易掌握形音編碼:吸取了字音編碼和字形編碼的優(yōu)點(diǎn),使編碼規(guī)則適當(dāng)簡化、重碼減少。缺點(diǎn):不易掌握聯(lián)機(jī)手寫漢字識別(筆輸入)使用語音輸入文本的系統(tǒng)也叫做“聽寫機(jī)”或“語音打字機(jī)”印刷體漢字識別(漢字OCR)。印刷體漢字識別:將傳統(tǒng)紙介質(zhì)上的文字信息自動輸入計算機(jī)并轉(zhuǎn)換為數(shù)字文本形式的一種技術(shù),也叫做漢字OCR(OpticalCharacterRecognition)。脫機(jī)手寫漢字識別:手寫漢字識別。聯(lián)機(jī)與脫機(jī)(手寫漢字識別)的比較容易。使用計算機(jī)制作的數(shù)字文本,根據(jù)用途分為:簡單文本、豐富格式文本和超文本三類。簡單文本(plaintext):是由一連串的字符組成的,除了用于表達(dá)正文內(nèi)容的字符(包括漢字)及“回車”、“換行”、“制表”等有限的幾個打?。@示)控制字符之外,幾乎不包含任何其他格式信息和結(jié)構(gòu)信息。這種文本通常稱為純文本或ASCII文本,在PC機(jī)中的文件后綴名是.txt特性:呈現(xiàn)為一種線性結(jié)構(gòu),以行、字為單位,順序?qū)懽髋c閱讀是最通用的文本文件格式,文件體積小,閱讀不受限制,幾乎所有的文字處理軟件都能識別和處理不能插入圖片、表格等,不能建立超鏈接豐富格式文本豐富格式文本(richtext、fancytext、formattedtext),RTF格式,中間格式。超文本超文本(hypertext)的閱讀方式:傳統(tǒng)的順序式閱讀,通過鏈接、跳轉(zhuǎn)、導(dǎo)航、回溯等操作實現(xiàn)跳躍式閱讀超文本的結(jié)構(gòu)節(jié)點(diǎn)(node)節(jié)點(diǎn)包含的內(nèi)容超鏈(hyperlink)鏈源鏈宿超媒體(Hypermedia):超文本中的節(jié)點(diǎn)不單是文本節(jié)點(diǎn),還包含圖形、圖像、聲音或動畫節(jié)點(diǎn),這種基于多媒體信息結(jié)點(diǎn)的超文本,有時也稱為“超媒體”超文本的應(yīng)用:Windows等一些軟件中的“幫助”文件,使用瀏覽器從Web服務(wù)器上下載的網(wǎng)頁(html或htm文件),文本編輯與文本處理“所見即所得”(WhatYouSeeIsWhatYouGet,簡稱WYSIWYG):一方面所有的編輯操作效果立即可以在屏幕上看到,另一方面在屏幕上看到的效果與打印機(jī)的輸出結(jié)果相同。圖像與圖形圖像按生成方法分類從現(xiàn)實世界中通過數(shù)字化設(shè)備獲取的圖像,稱為:取樣圖像(sampledimage)、點(diǎn)陣圖像(dotmatriximage)、位圖圖像(bitmapimage)——簡稱圖像(image)計算機(jī)合成的圖像(syntheticimage),稱為:矢量圖形(vectorgraphics),簡稱圖形(graphics)圖像的數(shù)字化圖像獲取的過程實質(zhì)上是模擬信號的數(shù)字化過程,它的處理步驟:掃描取樣分色量化圖像的表示方法與主要參數(shù),從取樣圖像的獲取過程可以知道,一幅取樣圖像由M(行)*N(列)個取樣點(diǎn)組成,每個取樣點(diǎn)是組成取樣圖像的基本單位,稱為像素(pictureelement,簡寫為pel)。彩色圖像的像素是矢量,它由多個彩色分量組成,黑白圖像的像素只有1個亮度值圖像的屬性信息圖像大小,也稱圖像分辨率(包括垂直分辨率和水平分辨率)位平面的數(shù)目,即矩陣的數(shù)目,也就是彩色分量的數(shù)目顏色空間的類型,指彩色圖像所使用的顏色描述方法,也叫顏色模型。常用顏色模型:RGB(紅、綠、藍(lán))、CMYK(青、品紅、黃、黑)、HSV(色彩、飽和度、亮度)、YUV(亮度、色度)等像素深度,即像素的所有顏色分量的位數(shù)之和,它決定了不同顏色(亮度)的最大數(shù)目圖像的壓縮編碼一幅圖像的數(shù)據(jù)量可按下面的公式進(jìn)行計算(以字節(jié)為單位):圖像數(shù)據(jù)量=圖像水平分辨率×圖像垂直分辨率×像素深度/8數(shù)據(jù)壓縮類型無損壓縮:壓縮以后的數(shù)據(jù)進(jìn)行圖像還原(也稱為解壓縮)時,重建的圖像與原始圖像完全相同有損壓縮:使用壓縮后的數(shù)據(jù)進(jìn)行圖像重建時,重建后的圖像與原始圖像雖有一定的誤差,但不影響人們對圖像含義的正確理解。如變換編碼、矢量編碼等壓縮編碼方法優(yōu)劣的評價壓縮倍數(shù)的大小重建圖像的質(zhì)量(有損壓縮時)壓縮算法的復(fù)雜程度圖像的壓縮編碼圖像壓縮編碼方法的國際標(biāo)準(zhǔn)和工業(yè)標(biāo)準(zhǔn):ISO和IEC兩個國際機(jī)構(gòu)聯(lián)合組成了一個專家組(JointPhotographicExpertsGroup,JPEG),制定了一個靜止圖像數(shù)據(jù)壓縮編碼的國際標(biāo)準(zhǔn),稱為JPEG標(biāo)準(zhǔn)JPEG標(biāo)準(zhǔn)的特點(diǎn):適用范圍廣;能處理各種連續(xù)色調(diào)的彩色或灰度圖像;算法復(fù)雜度適中;既可用硬件實現(xiàn),也可用軟件實現(xiàn);圖像的壓縮比可控制(壓縮比越低,圖像質(zhì)量越好;壓縮比越高,圖像質(zhì)量越差)JPEG2000:適用于各種不同類型(黑白、灰度、彩色等)和不同特性(自然、醫(yī)學(xué)、遙感、合成)的圖像,可用于不同的應(yīng)用模式(實時傳輸、檢索、存檔等)。采用了小波分析等先進(jìn)算法,提供了更好的圖像質(zhì)量,更低的碼率,更適合在WWW網(wǎng)上傳輸?shù)?,它兼容JPEG常用圖像文件格式常用圖像文件格式BMP(BitMaP-file)圖像:微軟公司在Windows操作系統(tǒng)下使用的一種標(biāo)準(zhǔn)圖像文件格式,一個文件存放一幅圖像,可以使用行程長度編碼(RLC)進(jìn)行無損壓縮,也可不壓縮。不壓縮的BMP文件是一種通用的圖像文件格式,幾乎所有Windows應(yīng)用軟件都能支持。TIFF(TaggedImageFileFormat)圖像文件格式:用于掃描儀和桌面出版,能支持多種壓縮方法和多種不同類型的圖像,有許多圖像圖形應(yīng)用軟件支持這種文件格式。由文件頭、文件目錄、目錄條目三個部分組成。GIF(GraphicsInterchangeFormat):互聯(lián)網(wǎng)上廣泛使用的一種圖像文件格式,它的顏色數(shù)目較少(不超過256色),文件特別小,適合網(wǎng)絡(luò)傳輸。由于顏色數(shù)目有限,GIF適用于插圖、剪貼畫等色彩數(shù)目不多的應(yīng)用場合。GIF格式能夠支持透明背景,具有在屏幕上漸進(jìn)顯示的功能。尤為突出的是,它可以將許多張圖像保存在同一個文件中,顯示時按預(yù)先規(guī)定的時間間隔逐一進(jìn)行顯示,從而形成動畫的效果,因而在網(wǎng)頁制作中大量使用。由CompuServe公司1987年開發(fā),基于Lempel-ZivWalch(LZW)壓縮算法、使用特殊碼、可變長度。數(shù)字圖像處理數(shù)字圖像處理:使用計算機(jī)對來自照相機(jī)、攝像機(jī)、傳真機(jī)、掃描儀、醫(yī)用CT機(jī)、X光機(jī)等的圖像,進(jìn)行去噪、增強(qiáng)、復(fù)原、分割、提取特征、壓縮、存儲、檢索等操作處理對圖像進(jìn)行處理的主要目的提高圖像的視感質(zhì)量圖像復(fù)原與重建圖像分析圖像的存儲、管理、檢索,以及圖像內(nèi)容與知識產(chǎn)權(quán)的保護(hù)等圖像處理軟件:使用較多的是面向辦公、出版與信息發(fā)布的圖像處理軟件,也稱為圖像修飾(imageretouching)或圖像編輯軟件,支持多種不同的圖像文件格式,提供多種圖像編輯處理功能,可制作出生動形象的圖像。如美國Adobe公司的PhotoShop,集圖像掃描、圖像編輯、繪圖、圖像合成及圖像輸出等多種功能于一體,是一個流行的圖像處理工具。PhotoShop的主要功能包括數(shù)字圖像的應(yīng)用圖像通信遙感醫(yī)療診斷工業(yè)生產(chǎn)中的應(yīng)用機(jī)器人視覺軍事、公安、檔案管理計算機(jī)圖形景物的模型(model):景物在計算機(jī)內(nèi)的描述景物的建模(modeling):人們進(jìn)行景物描述的過程繪制(rendering):也稱圖像合成(imagesynthesis),根據(jù)景物的模型生成圖像的過程,所產(chǎn)生的數(shù)字圖像稱為計算機(jī)合成圖像計算機(jī)圖形學(xué)(ComputerGraphics):研究如何使用計算機(jī)描述景物并生成其圖像的原理、方法與技術(shù)計算機(jī)合成圖像的繪制,使用計算機(jī)合成圖像的主要優(yōu)點(diǎn):能生成實際存在的具體景物的圖像,還能生成假想或抽象景物的圖像,能生成靜止圖像,還能生成各種運(yùn)動、變化的動態(tài)圖像計算機(jī)合成圖像的應(yīng)用:計算機(jī)輔助設(shè)計和輔助制造(CAD/CAM)利用計算機(jī)生成各種地形圖、交通圖、天氣圖、海洋圖、石油開采圖等作戰(zhàn)指揮和軍事訓(xùn)練計算機(jī)動畫和計算機(jī)藝術(shù)其他:電子出版、數(shù)據(jù)處理、工業(yè)監(jiān)控、輔助教學(xué)(CAI)、軟件工程等矢量繪圖軟件矢量圖形:計算機(jī)合成圖像矢量繪圖軟件:制作矢量圖形的軟件:如:AutoCAD、MAPInfo、ARCInfo等2D的矢量繪圖軟件:Corel公司的CorelDraw。Adobe公司的Illustrator。Macromedia公司的FreeHand。微軟公司的MicrosoftVisio。微軟公司Office辦公套件中的Word和PowerPoint數(shù)字聲音及應(yīng)用聲音信號的數(shù)字化聲音:由振動而產(chǎn)生,通過空氣進(jìn)行傳播。它由許多不同頻率的諧波所組成,諧波的頻率范圍稱為聲音的帶寬(bandwidth),帶寬是聲音的一項重要參數(shù)。多媒體技術(shù)處理的聲音信號主要是人耳可聽到的20~20kHz的音頻信號(audio)言語(speech)/語音:人說話的聲音,其頻率范圍約為300~3400Hz全頻帶聲音:音樂聲、風(fēng)雨聲、汽車聲等其他聲音,其帶寬可達(dá)到20~20kHz聲音信號的數(shù)字化聲音信號的數(shù)字化:將模擬聲音信號轉(zhuǎn)換成數(shù)字編碼形式以便于計算機(jī)進(jìn)行處理的過程聲音信號數(shù)字化的過程:取樣量化編碼模擬的聲音信號轉(zhuǎn)變成數(shù)字形式進(jìn)行處理的優(yōu)點(diǎn):以數(shù)字形式存儲的聲音重放性能好,復(fù)制時沒有失真數(shù)字聲音的可編輯性強(qiáng),易于進(jìn)行效果處理數(shù)字聲音能進(jìn)行數(shù)據(jù)壓縮,傳輸時抗干擾能力強(qiáng)數(shù)字聲音容易與其他媒體相互結(jié)合(集成)數(shù)字聲音為自動提取“元數(shù)據(jù)”和實現(xiàn)基于內(nèi)容的檢索創(chuàng)造了條件波形聲音的獲取設(shè)備麥克風(fēng):將聲波轉(zhuǎn)換為電信號聲卡(soundcard):進(jìn)行數(shù)字化波形聲音的獲取:把模擬的聲音信號轉(zhuǎn)換為數(shù)字形式。(話筒或線路輸入、單雙道)波形聲音的重建與播放MIDI(MusicalInstrumentDigitalInterface)聲音的輸入MIDI聲音的合成與播放波形聲音的主要參數(shù)DVD,DTV,DVD,DTV,家庭影院5.1,7.164kbpsDolbyAC-3同MPEG-15.1,7.0與MPEG-1層1,層2,層3相同MPEG-2層audioInternet,MP3音樂2128~112kbps(壓縮10~12倍)MPEG-1層3DAB,VCD,DVD2256~192kbps(壓縮6~8倍)MPEG-1層2數(shù)字盒式錄音帶2384kbps(壓縮4倍)MPEG-1層1主要應(yīng)用聲道數(shù)目壓縮后的碼率(每個聲道)名稱全頻帶聲音的壓縮編碼第2代全頻帶聲音壓縮編碼標(biāo)準(zhǔn)量化位數(shù)聲道數(shù)目使用的壓縮編碼方法數(shù)碼率(bitrate):指的是每秒鐘的數(shù)據(jù)量,也稱比特率、碼率數(shù)字聲音未壓縮前,其計算公式為:波形聲音的碼率=取樣頻率×量化位數(shù)×聲道數(shù)壓縮編碼以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論