標(biāo)準(zhǔn)解讀

GB/T 44217.11-2024 是一項(xiàng)中國(guó)國(guó)家標(biāo)準(zhǔn),專注于語(yǔ)言資源管理領(lǐng)域中的語(yǔ)義標(biāo)注框架,特別針對(duì)可度量數(shù)量信息(MQI)這一細(xì)分內(nèi)容進(jìn)行規(guī)范。該標(biāo)準(zhǔn)旨在為語(yǔ)言處理技術(shù)、自然語(yǔ)言理解和信息提取等應(yīng)用提供統(tǒng)一和標(biāo)準(zhǔn)化的指導(dǎo)原則,以促進(jìn)數(shù)據(jù)的互操作性和一致性。

標(biāo)準(zhǔn)核心內(nèi)容

  1. 范圍定義:本部分規(guī)定了在語(yǔ)言資源中如何對(duì)可度量數(shù)量信息進(jìn)行語(yǔ)義標(biāo)注的具體方法和要求。這包括但不限于數(shù)值、度量單位、以及它們?cè)谖谋局械谋磉_(dá)方式和上下文關(guān)聯(lián)。

  2. 術(shù)語(yǔ)和定義:首先明確了與MQI相關(guān)的專業(yè)術(shù)語(yǔ)和定義,確保所有使用者對(duì)關(guān)鍵概念有統(tǒng)一理解,如“可度量數(shù)量”、“度量單位標(biāo)識(shí)”、“數(shù)量表達(dá)”等。

  3. 標(biāo)注框架:詳細(xì)描述了一套語(yǔ)義標(biāo)注框架,用于標(biāo)記文本中的MQI元素。這框架可能涵蓋標(biāo)簽體系、元素結(jié)構(gòu)、屬性定義等,幫助用戶精確地識(shí)別和描述文本中的數(shù)量信息及其語(yǔ)義特征。

  4. 標(biāo)注指南:提供了詳細(xì)的標(biāo)注規(guī)則和示例,指導(dǎo)如何在不同類型的文本內(nèi)容中正確應(yīng)用這些標(biāo)注。這包括如何處理復(fù)雜或模糊的數(shù)量表述,以及如何處理跨語(yǔ)言和文化差異帶來(lái)的標(biāo)注挑戰(zhàn)。

  5. 數(shù)據(jù)模型與表示:介紹了一種或多種適用于MQI的數(shù)據(jù)模型,說明如何在計(jì)算機(jī)可讀的格式中表示這些標(biāo)注信息,以便于自動(dòng)化處理和信息交換。

  6. 互操作性與兼容性:討論了與其他語(yǔ)義標(biāo)注標(biāo)準(zhǔn)或語(yǔ)言資源管理框架的互操作性和兼容性問題,確保MQI標(biāo)注能夠融入更廣泛的語(yǔ)言技術(shù)生態(tài)系統(tǒng)中。

  7. 質(zhì)量控制與驗(yàn)證:提出了對(duì)MQI標(biāo)注質(zhì)量進(jìn)行評(píng)估和驗(yàn)證的方法,確保標(biāo)注數(shù)據(jù)的準(zhǔn)確性和一致性,為后續(xù)的自然語(yǔ)言處理任務(wù)提供可靠的基礎(chǔ)。

實(shí)踐意義

該標(biāo)準(zhǔn)的實(shí)施有助于提升語(yǔ)言資源的質(zhì)量和實(shí)用性,特別是在那些需要精準(zhǔn)處理數(shù)量信息的場(chǎng)景中,比如財(cái)經(jīng)報(bào)道分析、醫(yī)療記錄處理、科學(xué)文獻(xiàn)檢索等。它促進(jìn)了跨系統(tǒng)、跨領(lǐng)域的數(shù)據(jù)共享和比較研究,加速了自然語(yǔ)言處理技術(shù)的發(fā)展和應(yīng)用。此外,也為研究人員、開發(fā)者和數(shù)據(jù)標(biāo)注人員提供了一套共同遵循的準(zhǔn)則,簡(jiǎn)化了工作流程并降低了因標(biāo)注不一致導(dǎo)致的錯(cuò)誤率。


如需獲取更多詳盡信息,請(qǐng)直接參考下方經(jīng)官方授權(quán)發(fā)布的權(quán)威標(biāo)準(zhǔn)文檔。

....

查看全部

  • 現(xiàn)行
  • 正在執(zhí)行有效
  • 2024-07-24 頒布
  • 2025-02-01 實(shí)施
?正版授權(quán)
GB/T 44217.11-2024語(yǔ)言資源管理語(yǔ)義標(biāo)注框架第11部分:可度量數(shù)量信息(MQI)_第1頁(yè)
GB/T 44217.11-2024語(yǔ)言資源管理語(yǔ)義標(biāo)注框架第11部分:可度量數(shù)量信息(MQI)_第2頁(yè)
GB/T 44217.11-2024語(yǔ)言資源管理語(yǔ)義標(biāo)注框架第11部分:可度量數(shù)量信息(MQI)_第3頁(yè)
GB/T 44217.11-2024語(yǔ)言資源管理語(yǔ)義標(biāo)注框架第11部分:可度量數(shù)量信息(MQI)_第4頁(yè)
GB/T 44217.11-2024語(yǔ)言資源管理語(yǔ)義標(biāo)注框架第11部分:可度量數(shù)量信息(MQI)_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

GB/T 44217.11-2024語(yǔ)言資源管理語(yǔ)義標(biāo)注框架第11部分:可度量數(shù)量信息(MQI)-免費(fèi)下載試讀頁(yè)

文檔簡(jiǎn)介

ICS01.020

CCSA22

中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)

GB/T44217.11—2024/ISO24617?11:2021

語(yǔ)言資源管理語(yǔ)義標(biāo)注框架

第11部分:可度量數(shù)量信息(MQI)

Languageresourcemanagement—Semanticannotation

framework—Part11:Measurablequantitativeinformation(MQI)

[ISO24617?11:2021,Languageresourcemanagement—

Semanticannotationframework(SemAF)—Part11:

Measurablequantitativeinformation(MQI)IDT]

2024?07?24發(fā)布2025?02?01實(shí)施

國(guó)家市場(chǎng)監(jiān)督管理總局

國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)發(fā)布

GB/T44217.11—2024/ISO24617?11:2021

目次

前言··························································································································Ⅲ

引言··························································································································Ⅳ

1范圍·······················································································································1

2規(guī)范性引用文件········································································································1

3術(shù)語(yǔ)和定義··············································································································1

4QML的抽象規(guī)范······································································································3

4.1概述·················································································································3

4.2QML的特點(diǎn)·······································································································3

4.3元模型··············································································································3

4.4QML的抽象語(yǔ)法(QML_as)··················································································4

4.5QML及其子集的具體語(yǔ)法(QML_cs)·······································································5

5QML基于XML的具體語(yǔ)法(QML_csx)········································································5

5.1概述·················································································································5

5.2帶ID前綴的標(biāo)簽名稱···························································································5

5.3根〈MQI〉的屬性說明····························································································6

5.4基本元素類型的屬性說明······················································································6

5.5鏈接類型的屬性說明····························································································6

5.6QML_csx的說明·································································································7

6QML(QML_cst)基于TEI的具體語(yǔ)法···········································································9

6.1QML(QML_cst)的具體語(yǔ)法··················································································9

6.2QML_cst的說明································································································10

附錄A(資料性)QML_csx示例說明··············································································13

附錄B(資料性)可度量數(shù)量信息的不規(guī)則表達(dá)形式··························································15

附錄C(資料性)單位表示···························································································16

參考文獻(xiàn)····················································································································17

GB/T44217.11—2024/ISO24617?11:2021

前言

本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)

定起草。

本文件是GB/T44217的第11部分。GB/T44217已經(jīng)發(fā)布了以下部分:

——第6部分;語(yǔ)義標(biāo)注原則;

——第11部分:可度量數(shù)量信息(MQI)。

本文件等同采用ISO24617?11:2021《語(yǔ)言資源管理語(yǔ)義標(biāo)注框架(SemAF)第11部分:可度

量數(shù)量信息(MQI)》。

本文件做了下列最小限度的編輯性改動(dòng):

——為與系列標(biāo)準(zhǔn)協(xié)調(diào),更改了標(biāo)準(zhǔn)名稱,刪除了語(yǔ)義標(biāo)準(zhǔn)框架的簡(jiǎn)稱;

——解釋性注釋的表示方法由原文的{*…*},改為#..;

——改正4.5中印刷錯(cuò)誤,將ISO24617?11:2021原文中的“csf”更正為“cst”。

請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。

本文件由全國(guó)語(yǔ)言與術(shù)語(yǔ)標(biāo)準(zhǔn)化技術(shù)委員會(huì)(SAC/TC62)提出并歸口。

本文件起草單位:南方電網(wǎng)科學(xué)研究院有限責(zé)任公司、中國(guó)標(biāo)準(zhǔn)化研究院、華南師范大學(xué)、湖北省

標(biāo)準(zhǔn)化與質(zhì)量研究院、廈門三行電子有限公司、中國(guó)科學(xué)技術(shù)信息研究所、北京信息科技大學(xué)、中國(guó)質(zhì)

量標(biāo)準(zhǔn)出版?zhèn)髅接邢薰?、聊城大學(xué)、北京工業(yè)大學(xué)、上海對(duì)外經(jīng)貿(mào)大學(xué)、中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息

研究所、廣州智語(yǔ)信息科技有限公司、貴州電網(wǎng)有限責(zé)任公司興義供電局、四川語(yǔ)言橋信息技術(shù)有限公

司、北京集賢弘文文化傳媒有限公司。

本文件主要起草人:郝天永、王海濤、王昕、陳炎明、曹馨宇、魏潔、周育忠、黃景明、劉耀、呂學(xué)強(qiáng)、

魯曦、徐術(shù)坤、劉曉東、賈仰理、劉磊、劉亮亮、周洪偉、石嘉豪、劉潤(rùn)鵬、劉寧暢、瞿瑛瑛、朱憲超、賀莉麗。

GB/T44217.11—2024/ISO24617?11:2021

引言

語(yǔ)義標(biāo)注是計(jì)算機(jī)對(duì)自然語(yǔ)言深層次處理的重要技術(shù)之一,是對(duì)文本中的詞語(yǔ)或句子添加可供理

解的語(yǔ)義標(biāo)簽的過程。依據(jù)標(biāo)注的一般原則和具體標(biāo)注對(duì)象的不同,標(biāo)準(zhǔn)被劃分為不同的部分,

GB/T44217《語(yǔ)言資源管理語(yǔ)義標(biāo)注框架》擬由12個(gè)部分構(gòu)成。

——第1部分:時(shí)間和事件。目的在于提供一種通用的方法來(lái)描述文本中的時(shí)間和事件。

——第2部分:對(duì)話行為。目的在于提供一種表示對(duì)話行為的標(biāo)注語(yǔ)言以及一種將對(duì)話分割為語(yǔ)

義單元的方法。

——第4部分:語(yǔ)義角色。目的在于為語(yǔ)義角色提供一個(gè)協(xié)商一致的標(biāo)注方案。

——第5部分:篇章結(jié)構(gòu)。目的在于為話語(yǔ)實(shí)現(xiàn)和話語(yǔ)內(nèi)容提供一種表示方式。

——第6部分:語(yǔ)義標(biāo)注原則。目的在于確定以語(yǔ)義標(biāo)注框架為特征的語(yǔ)義標(biāo)注方法。

——第7部分:空間信息。目的在于提供一種通用的方法來(lái)描述自然語(yǔ)言文本中表達(dá)運(yùn)動(dòng)相關(guān)的

空間信息和時(shí)空信息。

——第8部分:篇章中的語(yǔ)義關(guān)系,核心標(biāo)注框架。目的在于為話語(yǔ)關(guān)系的表示和標(biāo)注提供一個(gè)

方案。

——第9部分:引用標(biāo)注框架。目的在于為自然語(yǔ)言文本和多模態(tài)交互中所指現(xiàn)象的標(biāo)注和表示

提供一個(gè)綜合模型。

——第11部分:可度量數(shù)量信息(MQI)。目的在于為可度量數(shù)量信息提供一種標(biāo)注方案。

——第12部分:數(shù)量。目的在于為數(shù)量信息語(yǔ)義表示提出一般形式化定義。

——第14部分:空間語(yǔ)義。目的在于通過為抽象語(yǔ)法建立形式語(yǔ)義提供標(biāo)注空間信息的方法。

——第15部分:可度量數(shù)量信息抽取。目的在于提供一種從自然語(yǔ)言文本中抽取可度量數(shù)量信

息的一般方法。

可度量數(shù)量信息(MQI),如“165cm”或“60kg”可用來(lái)描述人的身高或體重,其在常見語(yǔ)言表述中

普遍存在。MQI描述的是與量的大小方面相關(guān)的基本屬性之一,它主要特點(diǎn)是,數(shù)量信息是以一對(duì)

<n,u>表示的數(shù)量來(lái)呈現(xiàn)的,由一個(gè)數(shù)字表示的量n和一個(gè)單位u組成,單位u可以是基本單位,也

可以是派生單位,還可以是規(guī)范化單位,也可以是傳統(tǒng)使用的單位。此類信息在科學(xué)出版物或技術(shù)報(bào)

告中更為豐富,以至于構(gòu)成了一般語(yǔ)言交際片段的重要組成部分。因此,任何成功的語(yǔ)言資源管理都

需要對(duì)這些信息進(jìn)行處理。

在這樣一個(gè)大數(shù)據(jù)時(shí)代,產(chǎn)業(yè)界和學(xué)術(shù)界對(duì)準(zhǔn)確抽取MQI的要求越來(lái)越高。例如,商業(yè)投資公司

經(jīng)常需要從年報(bào)中識(shí)別并匯總目標(biāo)公司的凈銷售額、毛利潤(rùn)、營(yíng)業(yè)費(fèi)用、營(yíng)業(yè)利潤(rùn)、利息支出、稅前凈利

潤(rùn)、凈收入等各種信息??焖侔l(fā)展的醫(yī)學(xué)信息學(xué)研究也需要處理大量的醫(yī)學(xué)文本,以分析藥物的劑量、

臨床試驗(yàn)的納排標(biāo)準(zhǔn)、患者的表型特征、臨床記錄中的實(shí)驗(yàn)室檢查等。無(wú)論是在工業(yè)領(lǐng)域還是在醫(yī)學(xué)

研究領(lǐng)域,這些需求都需要準(zhǔn)確、一致地表示MQI,以便進(jìn)行自動(dòng)處理、計(jì)算和交換。

然而,在信息檢索和自然語(yǔ)言處理領(lǐng)域,目前還沒有標(biāo)準(zhǔn)化的方法來(lái)表示可度量數(shù)量信息。迄今

為止,工業(yè)領(lǐng)域開發(fā)的應(yīng)用系統(tǒng)通常使用自己的格式來(lái)標(biāo)注可度量數(shù)量信息。我們需要一個(gè)通用的、

可互操作的和標(biāo)準(zhǔn)化的可測(cè)量定量信息表示方法,以便與不同應(yīng)用系統(tǒng)協(xié)同工作。本文件旨在根據(jù)

ISO24617?6規(guī)定的語(yǔ)義注釋原則和ISO24611的基本要求,制定一個(gè)通用標(biāo)注框架,以便用科學(xué)的技

術(shù)語(yǔ)言表示MQI,并使其與ISO24617等其他語(yǔ)義標(biāo)注方案具有互操作性。它還利用了ISO有關(guān)詞

法資源和形態(tài)句法標(biāo)注框架的各種標(biāo)準(zhǔn),并與其他現(xiàn)有相關(guān)標(biāo)準(zhǔn)兼容。

注:例如ISO24617?1和ISO24617?7分別提出了時(shí)間(持續(xù)時(shí)間或時(shí)間量)和空間(距離)度量的標(biāo)注方法。

GB/T44217.11—2024/ISO24617?11:2021

ISO24612提供了一種圖形標(biāo)注框架,可使用這兩種標(biāo)注方法對(duì)時(shí)間或空間度量進(jìn)行標(biāo)注。

QML在抽象層面進(jìn)行了規(guī)范化,允許采用各種序列化格式來(lái)表示可度量數(shù)量信息的標(biāo)注,如基

于XML的表示法。本文件在注釋的抽象層面對(duì)數(shù)量信息標(biāo)注進(jìn)行了規(guī)范,在序列化的具體層面采用

了獨(dú)立標(biāo)注格式。

本文件聚焦科技語(yǔ)言中的數(shù)量信息,預(yù)計(jì)將有助于信息提取(IR)、問題解答(QA)、文本摘要(TS)

和其他自然語(yǔ)言處理(NLP)應(yīng)用。

GB/T44217.11—2024/ISO24617?11:2021

語(yǔ)言資源管理語(yǔ)義標(biāo)注框架

第11部分:可度量數(shù)量信息(MQI)

1范圍

本文件規(guī)定了信息檢索、問答、文本摘要和其他自然語(yǔ)言處理應(yīng)用中可度量數(shù)量信息的語(yǔ)義表示。

本文件適用于與語(yǔ)言相關(guān)的技術(shù)或?qū)嵺`,其他相關(guān)技術(shù)領(lǐng)域參照使用。

本文件還涉及ISO24617?1中討論的時(shí)間持續(xù)問題,以及ISO24617?7中處理的距離等空間度量,

同時(shí)使它們與其他度量類型具有互操作性。本文件還包括ISO24617?6:2016的8.3

溫馨提示

  • 1. 本站所提供的標(biāo)準(zhǔn)文本僅供個(gè)人學(xué)習(xí)、研究之用,未經(jīng)授權(quán),嚴(yán)禁復(fù)制、發(fā)行、匯編、翻譯或網(wǎng)絡(luò)傳播等,侵權(quán)必究。
  • 2. 本站所提供的標(biāo)準(zhǔn)均為PDF格式電子版文本(可閱讀打印),因數(shù)字商品的特殊性,一經(jīng)售出,不提供退換貨服務(wù)。
  • 3. 標(biāo)準(zhǔn)文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁(yè),非文檔質(zhì)量問題。

評(píng)論

0/150

提交評(píng)論