標(biāo)準(zhǔn)解讀

《GB/T 20532-2006 信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范》是一項(xiàng)由中國(guó)國(guó)家標(biāo)準(zhǔn)局發(fā)布的技術(shù)標(biāo)準(zhǔn),旨在為自然語(yǔ)言處理、信息檢索、機(jī)器翻譯等領(lǐng)域的計(jì)算機(jī)信息系統(tǒng)提供一套統(tǒng)一的現(xiàn)代漢語(yǔ)詞匯分類及標(biāo)記方法。該標(biāo)準(zhǔn)詳細(xì)定義了現(xiàn)代漢語(yǔ)中各類詞的類別和相應(yīng)的標(biāo)記符號(hào),以便于計(jì)算機(jī)程序能夠準(zhǔn)確理解和處理中文文本數(shù)據(jù)。以下是該標(biāo)準(zhǔn)的主要內(nèi)容概述:

  1. 范圍:標(biāo)準(zhǔn)明確了其適用范圍,即針對(duì)信息處理領(lǐng)域中的現(xiàn)代漢語(yǔ)詞匯進(jìn)行分類和標(biāo)記,不涉及古漢語(yǔ)或其他漢語(yǔ)變體。

  2. 術(shù)語(yǔ)和定義:首先對(duì)基本術(shù)語(yǔ)如“詞類”、“標(biāo)記”等進(jìn)行了界定,為后續(xù)內(nèi)容奠定基礎(chǔ)。

  3. 詞類劃分原則:標(biāo)準(zhǔn)基于現(xiàn)代漢語(yǔ)語(yǔ)法特點(diǎn),將詞匯分為實(shí)詞和虛詞兩大類,并進(jìn)一步細(xì)分為若干小類。實(shí)詞包括名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、代詞、區(qū)別詞、副詞、嘆詞;虛詞則涵蓋介詞、連詞、助詞、語(yǔ)氣詞。每一類別都有明確的定義和特征描述。

  4. 詞類標(biāo)記符號(hào):為每個(gè)詞類分配了一個(gè)或多個(gè)簡(jiǎn)短的字母標(biāo)記,例如名詞用“n”表示,動(dòng)詞用“v”,形容詞用“a”等。這些標(biāo)記簡(jiǎn)潔明了,便于計(jì)算機(jī)程序識(shí)別和處理。

  5. 特殊詞和未登錄詞處理:標(biāo)準(zhǔn)還涉及了特殊詞匯(如專名、成語(yǔ))和未在詞庫(kù)中登錄的新詞、外來(lái)詞的處理規(guī)則,確保信息處理系統(tǒng)的靈活性和適應(yīng)性。

  6. 標(biāo)記規(guī)則與示例:提供了詳細(xì)的標(biāo)記規(guī)則說(shuō)明,并通過(guò)具體實(shí)例演示如何將文本中的詞語(yǔ)正確歸類并標(biāo)注。這有助于開(kāi)發(fā)者和研究人員準(zhǔn)確執(zhí)行標(biāo)準(zhǔn),保持?jǐn)?shù)據(jù)處理的一致性。

  7. 附錄:可能包含一些補(bǔ)充信息或參考詞匯表,以幫助使用者更好地理解和應(yīng)用標(biāo)準(zhǔn)中的規(guī)定。


如需獲取更多詳盡信息,請(qǐng)直接參考下方經(jīng)官方授權(quán)發(fā)布的權(quán)威標(biāo)準(zhǔn)文檔。

....

查看全部

  • 現(xiàn)行
  • 正在執(zhí)行有效
  • 2006-09-18 頒布
  • 2007-03-01 實(shí)施
?正版授權(quán)
GB/T 20532-2006信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范_第1頁(yè)
GB/T 20532-2006信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范_第2頁(yè)
GB/T 20532-2006信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范_第3頁(yè)
GB/T 20532-2006信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余8頁(yè)可下載查看

下載本文檔

GB/T 20532-2006信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范-免費(fèi)下載試讀頁(yè)

文檔簡(jiǎn)介

ICS01.040.01A22中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T20532—2006信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范StandardofPOStagofcontemporaryChineseforCiP2006-09-18發(fā)布2007-03-01實(shí)施中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局發(fā)布中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)

GB/T20532—2006三次前言:::·范圍2術(shù)語(yǔ)和定義3總則4詞類及其他切分單位分類5詞類及其他切分單位標(biāo)記代碼表

GB/T20532—2006前本標(biāo)準(zhǔn)由教育部語(yǔ)言文字信息管理司提出本標(biāo)準(zhǔn)由教育部語(yǔ)言文字信息管理司歸口。本標(biāo)準(zhǔn)起草單位:教育部語(yǔ)言文字應(yīng)用研究所。本標(biāo)準(zhǔn)主要起草人:靳光璜、肖航、郭曙倫、富麗、章云帆、于桂英、陳玉泉、王立.

GB/T20532-2006信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范范范圍本標(biāo)準(zhǔn)規(guī)定了信息處理中現(xiàn)代漢語(yǔ)詞類及其他切分單位的標(biāo)記代碼本標(biāo)準(zhǔn)適用于漢語(yǔ)信息處理.也可供現(xiàn)代漢語(yǔ)教學(xué)與研究參考。術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本標(biāo)準(zhǔn)漢語(yǔ)信息處理Chineseinformationprocessing;CIP用計(jì)算機(jī)對(duì)漢語(yǔ)形、音、義等信息進(jìn)行輸入、排序、存儲(chǔ)、輸出、統(tǒng)計(jì)、提取等。2.2切分單位Segmentunit漢語(yǔ)信息處理使用的、具有確定語(yǔ)法功能的基本單位。它包括本標(biāo)準(zhǔn)的規(guī)則所限定的詞、短語(yǔ)及其地單位。2.3詞類spartsorspeech:POS詞的語(yǔ)法分類,主要是根據(jù)語(yǔ)法功能劃分出來(lái)的類2.4標(biāo)記t對(duì)文本中切分單位的類別進(jìn)行標(biāo)注的代碼3總則3.1切切分單位的范圍本標(biāo)準(zhǔn)的切分單位包括詞、短語(yǔ)和其他切分單位,如習(xí)用語(yǔ)、縮略語(yǔ)、前接成分、后接成分、語(yǔ)素字非語(yǔ)素字、標(biāo)點(diǎn)符號(hào)、非漢字符號(hào)等3.2詞類劃分的原則本標(biāo)準(zhǔn)的詞類分類體系參考了呂叔湘、朱德熙、胡裕樹(shù)等先生的語(yǔ)法體系和《中學(xué)教學(xué)語(yǔ)法系統(tǒng)提本標(biāo)準(zhǔn)根據(jù)漢語(yǔ)信息處理的特點(diǎn)和要求.主要依據(jù)語(yǔ)法功能原則劃分詞類。3.3標(biāo)記代碼的制定原則依據(jù)國(guó)際通常做法,標(biāo)記代碼主要采用英文術(shù)語(yǔ)的字母。例如.名詞”.采用英文術(shù)語(yǔ)"noun2的首字母"n”作為標(biāo)記代碼;“數(shù)詞”,采用英文術(shù)語(yǔ)"numeral”的第三個(gè)字母"m”作為標(biāo)記代碼。漢語(yǔ)獨(dú)有的,或使用英文術(shù)語(yǔ)字母不便的,依據(jù)國(guó)內(nèi)通常做法,標(biāo)記代碼采用漢語(yǔ)拼音字母。如“縮略語(yǔ)".采用漢字“簡(jiǎn)“漢語(yǔ)拼音的首字母“作為標(biāo)記代碼:語(yǔ)素字”.采用漢字“根“漢語(yǔ)拼音的首字母“g”作為標(biāo)記代碼。詞類及其他切分單位分類本標(biāo)準(zhǔn)

溫馨提示

  • 1. 本站所提供的標(biāo)準(zhǔn)文本僅供個(gè)人學(xué)習(xí)、研究之用,未經(jīng)授權(quán),嚴(yán)禁復(fù)制、發(fā)行、匯編、翻譯或網(wǎng)絡(luò)傳播等,侵權(quán)必究。
  • 2. 本站所提供的標(biāo)準(zhǔn)均為PDF格式電子版文本(可閱讀打?。驍?shù)字商品的特殊性,一經(jīng)售出,不提供退換貨服務(wù)。
  • 3. 標(biāo)準(zhǔn)文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁(yè),非文檔質(zhì)量問(wèn)題。

最新文檔

評(píng)論

0/150

提交評(píng)論