




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
中文信息處理的應用爭論報告在多元化的信息中,文字信息是一種最普遍的形式。例如:文件、信函、報表、記錄、印刷品等根本上承受文字表達的形式。“中文信息處理”2070年月流行起來的,實際上,自古以來,中文信息〔漢字從開頭編制第一部漢字字典和編寫第一篇文摘起就開頭了中文信息的分析與綜合處理的研“中文信息處理”加工、轉換、傳輸、復制、等各種處理的一項興的科學技術。其穿插性使之成為“信息科學”的分支;其綜合性應用使之成為“系統(tǒng)工程”的一個實例。它涉及到語言文字學、計算機科學、信息科學、工程心理學、數理統(tǒng)計學、聲學、自動識別技術、人工智能、網絡技術、用。7020多年,完成了由初級階段向比較成熟階段的過渡,這是微電子技術和IT技術高速進展以及迫切的應用需求所促成的?,F在,很多移動都已具備中文菜單和顯示中文短信息功能,但都有缺陷,還不是真正意義上的“全中文”。只有當它既能顯示中文又能輸入和處理中文,也就是說,能直接利用手機進展中文輸入時,才可以說是“全中文”。然而,一般移動僅有數字鍵,這無疑對漢字數字輸入法〔簡稱數字碼)WAP技術成為的熱點之時,連英文也面臨著需要編碼輸入的嚴峻事實。當前,美國、日本及我國香港特區(qū)都在大力進展一種雙向尋呼機,它同時具有輸入功能,即,它同樣也面臨著中文處理問題。還有電子詞典,如何高效、標準化地利用電子字典查找漢字和單詞,也是只能各位信息處理應當解決的問題。信息家電也會是一個熱門話題,它也面臨著中文信息處理的問題。另外,從計算機本身的進展來看,手持機〔包括PDA和汽車電腦〕和可佩帶式計算機的中文信息處理尚有諸多問題需要解決??膳鍘接嬎銠C還處于進展初期,其應用領域廣泛,尤其在軍事上有很大的用途,面臨軍事革命的挑戰(zhàn),我國在爭論其相應設備時,首先遇到的就是中文信息處理問題。微軟和IBM信息處理。在計算機網絡方面,中文信息處理將具有更加寬闊的前景。高效的中文搜尋引擎、電子郵件、中文電子商務等技術均與中文信息處理親熱相關。移動、信息終端等電子設備入方面,硬件的進一步微型化、連續(xù)語音識別、噪聲背景下的語音識別以及漢語口語理解等都是亟待解決的難點。手寫漢字識別技術方面,聯(lián)機狀態(tài)下的筆寫入方式,通常的麻煩就是寫得快了,或字與字之間的停頓太短,會將兩個單字拼湊成一個字,又成了錯字。盡管有調整轉變手寫速度“快速、中速、慢速”等技術措施,有用中卻使人感到頻繁換用鼠標時的不便乃至產生厭煩心情而不愿使用了。非特定的脫機手寫漢字識別的困難則更多。因此,在今后數十年內,中文鍵盤輸入方法任然會是處于主導地位的輸入技術。文字信息的表現形式是多元化的。文字信息是大多數信息表現形式的根底,而文字信的各種治理系統(tǒng)和效勞性系統(tǒng)。20世紀中期以來的事,它包含有輸入、存儲、處理、傳送、輸出等環(huán)節(jié)。下面著重介紹輸入和輸出兩個環(huán)節(jié)。漢字的輸入技術。單字、詞匯和語句的鍵盤輸入〔1〕專用型的中鍵盤或大鍵盤整字輸入方式大鍵盤:一鍵一字輸入方式。中鍵盤:一鍵多字輸入方式?!?〕通用小鍵盤拼音方式:利用字音編碼輸入。漢語拼音方式:全拼音方式。雙拼方式。拼形方式:利用字形特征編碼輸入。筆畫筆形式偏旁部首式字形構造式混合式。音形混合:以音為主,以形為輔形音混合:以形為主,以音為輔手寫輸入方式語音輸入方式掃描方式方式漢字的輸出技術漢字的輸出有多種方式屏幕顯示:顯像管顯示器、液晶顯示器;打印機:針打式、噴墨式、激光打?。徽Z音輸出;繪圖儀;機。漢字輸入輸出所必需的漢字庫計算機系統(tǒng)中存儲漢字字形信息的字庫,字庫分為三種類型:點陣字庫;(2)矢量字庫;曲線字庫:整字輪廓字庫、壓縮字庫。中文信息處理根底理論方面的爭論內容漢字識別〔包括印刷字體、限制性手寫字體及一般手寫字體〕;漢語語音識別〔包括語音波形編碼和解碼、語音的分解與合成〕;漢語自然語言的理解與處理;漢語的機器翻譯;中文文獻的自動訂正、自動標引和自動文摘;漢字的單字、詞匯使用頻度的爭論;漢語的詞語、語法、語料庫爭論;中文信息處理應用平臺爭論;漢字編碼理論爭論;漢字編碼方法爭論;漢字編碼方案評測標準爭論。中文文獻信息處理工作內容利用各種編輯軟件進展編輯排版。利用制表軟件編制各種表格。利用數據庫軟件建立各種各樣的文獻信息數據庫及其他各種應用軟件系統(tǒng),例如理系統(tǒng)、檢索系統(tǒng);出版社、書店的集成式治理系統(tǒng)、檢索系統(tǒng);各種書刊文獻、檔案的自動分類系統(tǒng)、自動編文摘系統(tǒng)或其他的智能式文獻處理系統(tǒng)。應用中文的各種治理系統(tǒng)和效勞性系統(tǒng)國家各部門、廠礦企業(yè)、銀行、醫(yī)院、酒店的治理系統(tǒng),專家系統(tǒng),信息詢問檢索系統(tǒng),電化教學系統(tǒng),遠程教育系統(tǒng),電子印刷排版系統(tǒng),辦公自動化系統(tǒng),翻譯系統(tǒng),通信系統(tǒng),財會系統(tǒng),售票系統(tǒng),詢問效勞系統(tǒng),系統(tǒng)等等,多不勝數。隨著計算機信息處理應用范圍的擴大,中文信息處理技術還將逐步深入和提高。中文信息處理的特點是與西文信息處理相比較而言的,特點和任務是相互聯(lián)系的。下面從文字、詞匯、語音、語法以及軟硬件系統(tǒng)等方面作一下介紹。一、中文信息處理的特點〔一〕大字符集“小字符集”。例如:拉丁字母2633個;日文假名號稱“五十音圖”48個,平假9610個元音字母,1424個;4026個字母。漢字屬于“大字符集350070006萬。千百年來,代有遞增:從東漢末年的《說文解字》到清代《康熙字典》,1500多年的時間9353470433007000多字。1994年《中華字典》制造了字典收字數量之最——86000個。國家標準《信息處理交換用漢字編碼字符集.根本集》〔GB2312-80〕共收漢字圖形676313053〔CJK〕收字20902個。這僅僅是中國〔包括臺灣〕、日本、韓國,當前電腦中所使用的漢字。要實現“全漢字”的信息處理大目標,單是漢字庫的研制就任重道遠?!捕尘幋a方案眾多使用字母數字鍵盤輸入漢字信息,必需通過漢字編碼。由于漢字是形音義的統(tǒng)一體,編碼時所承受的信息類型不同,會有不同的編碼規(guī)章和方案。因此,無論從編碼的角度,還是從使用者的角度,都面臨多樣化的選擇?!踩承误w多樣,構造簡單“橫”“豎”“撇”“點”“折”存在多種筆形變體。如:“千”、“面”、“令”、“木”、“才”等字中的“撇”,“方”、“房”、“放”、“芳”、“游”等字中的“方”。漢字構造層疊錯落,筆畫、字根、偏旁、部首、部件、字元,見仁見智,難以統(tǒng)一,這些漢字字庫的研制以及字形的標準化都帶來了相當打的困難。〔四〕漢字方言分歧嚴峻現代漢語有七大方言區(qū),每個方言區(qū)內又有次方言區(qū),次方言區(qū)下還有不同的方言點。一般話普及應用水平遠未到達語音識別、人機對話所要求的標準化和標準化的程度。因此,方言語音分歧成為語音信息處理的瓶頸?!参濉惩衄F象突出41256763個漢字計算,每個音節(jié)約16.454678132.7個?!擦硶婧袥]有分詞標志西方承受拼音文字,書面上詞與詞之間用空格加以分隔,因此很簡潔進展詞匯的統(tǒng)計分析和認知處理。〔七〕漢語沒有形態(tài)漢語的詞無論沖當什么成分,構成什么關系,詞形本身沒有任何變化,只有依靠虛詞、語序進展語法分析,不利于計算機的處理?!舶恕吃~的兼類與活用簡單詞類劃分不一,存在大量“兼類”?!簿拧痴Z法規(guī)章多有例外詞語搭配缺乏標準化的約束,人們習慣于意會而不留意形式標志的規(guī)章?!彩称缌x現象突出詞匯歧義原來是語言中的一個比較普遍的現象。二、中文信息處理的展望中文信息處理三十年來的進展,在幾個重要領域,如漢字編碼、漢字語音模式識別、字型技術中文電子辭典,計算機關心翻譯、全文檢索等方面,都取得了舉世矚目的成就。由于距離。將來中文信息處理的創(chuàng)進展,概括起來主要有以下幾個方面:〔一〕信息化當代世界已經進入信息網絡化時代,全面信息化是社會進展和科技進步的主流。信息處理技術的水平反映了一個國家和民族的生存力量、生存質量、綜合競爭力。在這樣一個時代,充分必要的信息和先進的信息處理技術都是極其重要的資源,假設不把握它、掌握它和利用它,無論對個人還是對整個社會,都將是一種悲劇。因此,一切競爭都集中反映在信息的獵取、傳輸、處理和運用技術上。應當把推動社會全面信息化作為中文信息處理根底應用爭論的首要任務?!捕持悄芑瘡挠嬎銠C實現由數據處理到信息處理跨越的那一刻,就竭力信息工程界的先驅者們開頭了計算靈巧能化的爭論。雖然歷史不長,但是,初始化的靈感與沖動給人們描述了奇特而迷人的前景。機器人戰(zhàn)勝國際象棋冠軍的實例,演示了計算靈巧能在與“個體人”的智能之間的一次較量,證明白計算機能夠戰(zhàn)勝“個體人”。從這個意義上說,計算靈巧能是具有無限前景的一個領域。計算機到底能不能獲得智能,如何獲得智能,以及計算靈巧能與人類智能的同質性和異質性,等等,盡管目前還沒有答案,但可以確定地說,計算機人工智能與語言文字信息處理智能化親熱相關。應當充分生疏到,中文信息處理智能化與我國的社會進展、科技進步、文化教育、經濟場關系到民族和國家生存、進展的競爭中,只能前進,不能后退,只能成功,不能失敗。〔三〕工程化學問經濟是計算機信息革命引發(fā)的概念,語言應用爭論成果的產品化和市場化是學問系。中國人對國外軟件硬件產品和技術漢化的過程,存在一個消化理解和改造創(chuàng)的問題。理領域,主動漢化與兼容,開放了全方位、友好界面的系統(tǒng)攻關,不斷推出訪用便利、效勞周到、技術含量高的包括簡繁兼容、中日韓漢字兼容等的應用系統(tǒng),成為市場的主流產品。著對我國中文信息處理軟件行業(yè)的生存和進展、對中文信息處理技術的進步和數據安全等,都是一個巨大的挑戰(zhàn)?!菜摹硣H化中國擁有世界四分之一的人口,中國改革開放和經濟騰飛不僅轉變了中國人民的生活水平和生存方式,也使中國的和平崛起戰(zhàn)略在全球一體化大潮中直接間接的影響和轉變著世界。中文信息處理技術已成為世界矚目的熱點。單純從經濟目的動身,也足以吸引世界興旺國家信息工程界有識之士的目光。微軟、IBM等多家外國計算機公司在我國設立爭論所,聘用我國信息處理人才,在漢字編碼、漢字識別、語音識別等很多領域,投入巨額經費,從事中文信息處理智能化的爭論。事實證明,中國要走向世界,中文也要走向世界,國際化是鮮紅
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2020-2025年中國網約專車行業(yè)市場前景預測及投資方向研究報告
- “十三五”重點項目-光學相機生產建設項目節(jié)能評估報告(節(jié)能專)
- 2025年彩色包裝紙印刷行業(yè)深度研究分析報告
- 醫(yī)療器械生產中的綠色制造理念考核試卷
- 中國手袋彈簧項目投資可行性研究報告
- 疏浚施工合同范本
- 2025年中國心電圖教學軟件行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年有機花生仁項目投資可行性研究分析報告
- 新能源汽車驅動系統(tǒng)考核試卷
- 綠色蔬菜產業(yè)化示范園可行性研究報告建議書立項
- 國家留學基金委國外大學邀請函
- QES三體系內審檢查表 含審核記錄
- 信息論與編碼 自學報告
- 二年級乘除法口訣專項練習1000題-推薦
- 貸款項目資金平衡表
- 唯美動畫生日快樂電子相冊視頻動態(tài)PPT模板
- 設計文件簽收表(一)
- 義務教育語文課程標準2022年版
- 公務員入職登記表
- 臨水臨電計算公式案例
- 2022新教科版六年級科學下冊第二單元《生物的多樣性》全部教案(共7節(jié))
評論
0/150
提交評論