第5章51文本與文本處理_第1頁
第5章51文本與文本處理_第2頁
第5章51文本與文本處理_第3頁
第5章51文本與文本處理_第4頁
第5章51文本與文本處理_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第5章數(shù)字媒體及應(yīng)用5.1

文本與文本處理5.2

圖像與圖形5.3

數(shù)字聲音及應(yīng)用5.4數(shù)字視頻及應(yīng)用5.1文本與文本處理

5.1.1字符的編碼5.1.2文本準(zhǔn)備5.1.4文本編輯、排版與處理5.1.3文本的分類5.1.5文本的展現(xiàn)文字處理是計算機應(yīng)用的基礎(chǔ)計算機應(yīng)用=使用計算機進行信息處理其中,文字處理是涉及面最廣的一種計算機應(yīng)用,幾乎與任何領(lǐng)域任何人都有關(guān)。文字數(shù)值語言音樂圖像···信息的形態(tài)有多種計算機文字處理過程文字信息在計算機中稱為“文本”(text),文本是計算機中最常用的一種數(shù)字媒體文本由一系列“字符”(character)組成,每個字符均使用二進制編碼表示文本在計算機中的處理過程是:(文本編輯器)文本編輯與排版格式化的電子文本(2)文本展現(xiàn)(文本閱讀器)(5)文本處理

(文本處理)(3)文本準(zhǔn)備電子文本(1)(文字與圖表的輸入)文本存儲與傳輸(4)(存檔/通信軟件)5.1.1.

字符在計算機中的表示字符、字符集及其編碼表文字的基本元素是字母和符號,統(tǒng)稱為“字符”(character),它包括:字母、數(shù)字、標(biāo)點、符號等字符集:一組特定字符的集合不同的字符集包含的字符數(shù)目與內(nèi)容不同,如:中文字符集、西文字符集、日文字符集等字符的編碼:字符集中每個字符的二進位表示,稱為該字符的編碼或代碼(code)不同的字符其編碼各不相同西文字符的編碼——ASCII碼西文是表音文字(拼音文字),它由拉丁字母、數(shù)字、標(biāo)點符號以及一些特殊符號所組成美國標(biāo)準(zhǔn)信息交換碼(ASCII碼):ASCII字符集包含96個可打印字符和32個控制字符采用7個二進位進行編碼計算機中使用1個字節(jié)存儲1個ASCII字符存在問題:字符集太小(只有128個字符)不同國家和地區(qū)使用不同的字符集及其編碼,互不兼容0XXXXXXX漢字如何編碼?漢字是記錄漢語(國語,華語)的文字,屬于表意文字,它用符號直接表達詞或詞素,有多個國家和地區(qū)使用(中、日、韓、新、馬······)漢字的特點數(shù)量大;字形復(fù)雜,同音字多,異體字多如何編碼?確定收入多少字、哪些字?在字符集中如何排列?使用多少個二進位進行編碼?常用的漢字編碼字符集國家標(biāo)準(zhǔn)GB2312-1980漢字擴充規(guī)范GBK(已被GB18030取代)國家標(biāo)準(zhǔn)GB18030-2005港澳臺使用的漢字編碼字符集BIG5,俗稱“大五碼”UCS/Unicode多文種大字符集Unicode的UTF-8Unicode的UTF-16一級漢字(3755個)二級漢字(3008個)(擴充使用)字母、數(shù)字和各種符號 ………………19423位號…………191655568794區(qū)號(按漢語拼音排列)(按偏旁部首排列)GB2312漢字編碼字符集1980年頒布《信息交換用漢字編碼字符集·基本集》——GB2312-1980GB2312字符集由三個部分構(gòu)成:拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個共6763個漢字和682個符號,每個漢字和符號都有一個確定位置GB2312漢字的編碼每一個GB2312漢字使用16位(2個字節(jié))表示為了與ASCII字符相區(qū)別,每個字節(jié)的最高位均為“1”例如:“南”字的代碼是1100010011001111(用十六進制表示為C4CF)

11第1字節(jié)第2字節(jié)XXXXXXXXXXXXXXGBK漢字內(nèi)碼擴充規(guī)范GB2312的不足:漢字字數(shù)太少,缺少繁體字,無法滿足人名、地名、古籍整理、古典文獻研究等應(yīng)用的需要;與ASCII碼不兼容GBK漢字內(nèi)碼擴充規(guī)范(1995):在GB2312基礎(chǔ)上,增加了1萬多漢字(包括繁體字)和符號共有21003個漢字和883個圖形符號,如“計算機”、冃、冄、円、冇等繁體字和生僻字與GB8312保持向下兼容,也使用雙字節(jié)表示,第1字節(jié)最高位必須為“1”:1

X第1字節(jié)第2字節(jié)XXXXXXXXXXXXXXUCS/Unicode多文種大字符集背景:為了實現(xiàn)全球數(shù)以千計的不同語言文字的統(tǒng)一編碼方案:ISO將全球所有文字字母和符號集中在一個字符集中進行統(tǒng)一編碼(目前共收集了17x216=1,114,112個),稱為UCS/UnicodeUCS/Unicode的編碼方案:先實現(xiàn)部分字符的編碼(近11萬個字符)盡量與已有編碼標(biāo)準(zhǔn)兼容包含有中、日、韓、越統(tǒng)一整理出來的約7萬漢字(稱CJKV漢字)允許有若干不同的編碼方案,常用的兩種是:單字節(jié):ASCII字符雙字節(jié):拉丁、希臘、阿拉伯,···三字節(jié):CJKV漢字四字節(jié):其他Unicode:UTF-8單字節(jié)可變長編碼應(yīng)用:Linux,Web網(wǎng)頁,電子郵件雙字節(jié):ASCII字符、拉丁、希臘、阿拉伯,常用CJKV漢字,···四字節(jié):非常用CJKV漢字Unicode:UTF-16雙字節(jié)可變長編碼應(yīng)用:Windows,Mac,Java,···GB18030漢字編碼標(biāo)準(zhǔn)背景:無論是Unicode的UTF-8還是UTF-16,其CJK漢字字符集雖然覆蓋了我國已使用多年的GB2312和GBK標(biāo)準(zhǔn)中的漢字,但它們的編碼并不相同為了既能與UCS/Unicode編碼標(biāo)準(zhǔn)接軌,又能保護我國已有的大量漢字信息資源,我國在2000年和2005年兩次發(fā)布GB18030漢字編碼國家標(biāo)準(zhǔn)。GB18030實質(zhì)上是UCS/Unicode字符集的另一種編碼方案:單字節(jié)編碼(128個)表示ASCII字符雙字節(jié)編碼(23940個)表示漢字,與GBK(以及GB2312)保持向下兼容,GBK不再使用四字節(jié)編碼(約158萬個)用于表示UCS/Unicode中的其他字符GB18030目前已在我國信息處理產(chǎn)品中強制貫徹執(zhí)行。標(biāo)準(zhǔn)名稱GB2312GBKGB18030UCS-2(Unicode)字符集6763個漢字(簡體字)21003個漢字(包括GB2312漢字在內(nèi))近3萬漢字(包括GBK漢字和CJKV及其擴充中的漢字)包含近11萬字符,其中的漢字與GB18030相同編碼方法雙字節(jié)存儲和表示,每個字節(jié)的最高位均為“1”雙字節(jié)存儲和表示,第1個字節(jié)的最高位必為“1”部分雙字節(jié)、部分4字節(jié)表示,雙字節(jié)表示方案與GBK相同UTF-8采用單字節(jié)可變長編碼

UTF-16采用雙字節(jié)可變長編碼兼容性編碼不兼容!小結(jié):幾種漢字編碼的對比編碼保持向下兼容小結(jié):不同標(biāo)準(zhǔn),不同的表示!與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼標(biāo)準(zhǔn),如:國際標(biāo)準(zhǔn)(ISO)、國家標(biāo)準(zhǔn)(GB)、工業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)等,這也是信息處理復(fù)雜性的原因之一。由于經(jīng)濟利益和政治體制等多種原因,相同的信息在計算機中可以有不同的表示,即采用不同的編碼進行表示例如:“南京大學(xué)1234ABCD”的3種表示:C4CFBEA9B4F3D1A73132333441424344E58D97E4BAACE5A4A7E5ADA631323334414243445753AC4E2759665B31003200330034004100420043004400GBUTF-8UTF-165.1.2.文本準(zhǔn)備

——文稿如何輸入計算機

文字符號輸入計算機的方法鍵盤輸入自動識別輸入字符信息的輸入人工輸入(1)數(shù)字編碼,如電報碼、區(qū)位碼等,(2)字音編碼,如智能ABC等(3)字形編碼,如五筆字形和表形碼等,(4)形音編碼發(fā)展趨勢:基于統(tǒng)計和學(xué)習(xí)功能的以詞語(短語)或句子作為輸入單位的輸入方法文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入自動識別輸入字符信息的輸入人工輸入優(yōu)點:自然,流暢小型化,適合移動計算不足:識別速度和正確性還需提高書寫要求還要降低文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別輸入字符信息的輸入人工輸入優(yōu)點:自然,方便,適合移動計算不足:對說話人、說話方式、說話內(nèi)容的適應(yīng)能力要大大增強識別速度和正確性還需大大提高文字符號輸入計算機的方法光學(xué)字符識別鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別輸入字符信息的輸入人工輸入掃描儀OCR數(shù)字文本紙介質(zhì)文本文本的映象(image)識別率已達到98%功能:簡、繁體字混合識別中文、西文混合識別文字、表格混合識別智能校對功能文字符號輸入計算機的方法光學(xué)字符識別條形碼、磁卡、IC卡、RFID識別鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別輸入字符信息的輸入人工輸入

預(yù)先進行標(biāo)識掃描識別輸入漢字的鍵盤輸入

漢字與鍵盤上的鍵無法一一對應(yīng),因此必須使用幾個鍵來表示一個漢字,這就稱為漢字的“鍵盤輸入編碼”優(yōu)秀的漢字鍵盤輸入編碼應(yīng)具有的特點:易學(xué)習(xí)、易記憶效率高(平均擊鍵次數(shù)較少)重碼少容量大(可輸入的漢字字數(shù)多)條形碼定位標(biāo)志數(shù)據(jù)區(qū)

一維條形碼將寬度不等的黑條和白條按一定的編碼規(guī)則排列成平行線圖案,用以對物品進行標(biāo)識只在一個方向表達信息,信息量有限(幾十個字符),只能包含字母、數(shù)字和一些特殊符號

二維條形碼在平面(二維方向)上以黑白相間的圖形記錄文字和符號信息,信息容量大QR條碼可容納7089個數(shù)字,或者4296個字母,或者1800個漢字,也可以表示簽字、指紋等信息檢錯和糾錯功能較強,能360度全方位識讀,可靠性高可引入加密技術(shù),保密性、防偽性較好(QR條碼)(商品條碼)5.1.4文本的編輯與排版目的:確保文本內(nèi)容正確無誤操作:對字、詞、句和段落進行添加、刪除、修改等操作MSWord的功能:在文本的任何位置都可以插入新的文字從文本的任何位置都可以刪除不需要的文字將一段文字從一處移動到另一處將一段文字從一處復(fù)制到另一處在文本中自動查找指定的詞語用一個詞語自動替換文本中指定的詞語文本編輯(textediting)目的:使文本清晰、美觀、便于閱讀操作內(nèi)容:對文本中的字符、段落乃至整篇文章的格式進行設(shè)計和調(diào)整,分成3個層次:對字符格式進行設(shè)置對段落格式進行設(shè)置對文檔頁面進行格式設(shè)置文本排版(Typesetting)設(shè)置字符的格式字號(八號→初號,

5磅→72磅以上)1磅相當(dāng)于1/72英寸

字體(宋體、楷體、黑體、仿宋、隸書···)字符的修飾字符的形狀(字形):正常、加粗、傾斜、加粗傾斜字形的修飾:下劃線、著重號、上下標(biāo)、刪除線···字符的顏色字符的寬度字符的間距字符的效果字符的排列方向Demo1什么是段落?用“回車”相互隔開的一組文字段落格式的設(shè)置:段落的對齊方式(兩端對齊、分散對齊、居中對齊、左對齊、右對齊)段落的縮進方式(首行縮進、懸掛縮進、左縮進、右縮進)段間距和段內(nèi)行距使用編號和項目符號段落添加邊框和底紋首字下沉或懸掛段落與分頁的關(guān)系設(shè)置段落的格式Demo2控制段落的縮進段落縮進是指段落中的文本到正文區(qū)左、右邊界的距離,包括段落左縮進、右縮進和首行縮進。其縮進的距離可由水平標(biāo)尺上對應(yīng)的三個縮進標(biāo)記來指示左縮進標(biāo)記首行縮進標(biāo)記右縮進標(biāo)記右縮進左縮進首行縮進正文區(qū)右邊界正文區(qū)左邊界懸掛縮進標(biāo)記頁面格式的設(shè)置:設(shè)置紙張大小和頁邊距設(shè)置每頁的行、列數(shù)目設(shè)置分欄數(shù)目與格式設(shè)置頁碼設(shè)置頁眉和頁腳

設(shè)置頁面的格式設(shè)置頁面的分欄文本處理初步5.1.3文本的分類簡單文本(純文本)

本書由南京大學(xué)出

版社(Publishing

HouseofNanjin

gUniversity)出版

文本

沒有字體、字號的變化,無圖片和表格,也不能建立超鏈接,其文件后綴名是.txt

在計算機中.txt文件由一串字符代碼所組成,幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息例:本書由南京大學(xué)出版社(PublishingHouseofNanjingUniversity)出版文本在計算機中的表示

B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6

B0E6C9E7285075626C697368696E67

20486F757365206F66204E616E6A696E

6720556E697665727369747929B3F6B0E6

豐富格式文本本書由南京大學(xué)出版社(PublishingHouseofNanjingUniversity)出版

有字體字號等屬性變化、設(shè)置了段落和頁面排版格式的文本稱為“豐富格式文本”豐富格式文本中,除了正文內(nèi)容之外,還使用了許多“標(biāo)記”來描述字符的屬性和格式的設(shè)置舉例:下面標(biāo)題的格式為:中文用黑體,西文用ArialBlack體,居中

使用HTML語言描述為:<palign="center"><fontface="黑體">本書由南京大學(xué)出版社</font><fontface="ArialBlack">

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論