




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
ICS35.240.20
L60
團體標準
T/ISC0005—2020
針對內(nèi)容安全的人工智能
數(shù)據(jù)標注指南
GuidelinesforAIdataannotationincontentsecurity
2020-09-24發(fā)布2020-12-01實施
中國互聯(lián)網(wǎng)協(xié)會發(fā)布
T/ISC0005—2020
針對內(nèi)容安全的人工智能數(shù)據(jù)標注指南
1范圍
本文件規(guī)定了針對內(nèi)容安全的人工智能數(shù)據(jù)標注主要過程,以及過程中的相關活動。
本文件適用于因業(yè)務需要使用人工智能技術進行內(nèi)容安全審核,提供第三方數(shù)據(jù)標注服務,以及設
計開發(fā)數(shù)據(jù)標注服務平臺的組織等。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T35273-2020信息安全技術個人信息安全規(guī)范
GB/T37964-2019信息安全技術個人信息去標識化指南
3術語和定義
下列術語和定義適用于本文件。
3.1
數(shù)據(jù)標注dataannotation
對文本、圖像、語音、視頻、3D點云等原始數(shù)據(jù)進行歸類、整理、糾錯、轉(zhuǎn)錄、翻譯和添加標簽等
操作,以生成滿足機器學習訓練要求的、機器可識別的數(shù)據(jù)編碼。
3.2
標簽label
標識數(shù)據(jù)的特征、類別和屬性等,可用于建立數(shù)據(jù)及機器學習訓練要求所定義的機器可讀數(shù)據(jù)編碼
間的聯(lián)系。標簽是數(shù)據(jù)標注的結(jié)果,是機器學習訓練所需的輸入之一。
3.3
標注過程annotationprocess
按照數(shù)據(jù)標注規(guī)范對指定數(shù)據(jù)集進行標注的過程。
3.4
標注工具annotationtool
數(shù)據(jù)標注員完成標注任務產(chǎn)生標注結(jié)果時所需的工具和軟件。
1
T/ISC0005—2020
注1:標注工具可生成標簽并提供參考模板。
注2:不同的數(shù)據(jù)類型和標注任務需要不同的標注工具。標注工具按自動化程度可分為手動、半自動、自動三種。
3.5
標注平臺annotationplatform
開展標注任務的系統(tǒng)化框架。
注1:標注平臺在包含標注工具全部功能的基礎上將所有標注環(huán)節(jié)工具化,可有效地對標注任務進行全局管理和跟
蹤。
3.6
數(shù)據(jù)預處理datapreprocessing
為提升數(shù)據(jù)標注的效率、質(zhì)量、降低人力參與強度,對原始數(shù)據(jù)進行預先處理,其中包括:數(shù)據(jù)篩
選、數(shù)據(jù)切分、機器半自動預標等過程。
3.7
訓練樣本trainingsample
數(shù)據(jù)標注后提交給需求方做模型訓練樣本的數(shù)據(jù)。
3.8
數(shù)據(jù)標注員/團隊datalabeler/team
對文本、圖像、音頻、視頻、3D點云等原始數(shù)據(jù)進行歸類、整理、糾錯、轉(zhuǎn)錄、翻譯、編輯和添加
標簽等操作的工作人員或團隊。
4概述
本文件給出了針對內(nèi)容安全的人工智能數(shù)據(jù)標注的主要過程,其中包括:需求承接、標注準備、正
式標注、驗收交付、訓練模型、上線準備等。數(shù)據(jù)標注流程架構(gòu)見圖1:
圖1數(shù)據(jù)標注流程架構(gòu)
5需求承接
5.1需求接收
標注團隊與需求方應明確標注規(guī)模、標注形式、標注方法、標簽標準、數(shù)據(jù)安全要求、標注復雜度、
標注數(shù)據(jù)格式、工期約定、準確率要求、數(shù)據(jù)交付格式、說明文檔以及培訓細節(jié)。
2
T/ISC0005—2020
5.2需求評估
標注團隊應對承接的需求進行評估,形成評估結(jié)論。
評估結(jié)論應包括現(xiàn)有資源能否承接該需求,需求實現(xiàn)路徑,以及評估新增需求對現(xiàn)有需求的影響范
圍,需求承接方案等內(nèi)容。
5.3需求確認
標注團隊應與需求方協(xié)商一致,將最終確認的需求形成文檔并留存。
6標注準備
6.1數(shù)據(jù)獲取
標注團隊應根據(jù)需求內(nèi)容,識別可獲取的標注數(shù)據(jù)源渠道,評估數(shù)據(jù)源渠道的可行性,確認完成標
注需求所需標注數(shù)據(jù)源構(gòu)成。
數(shù)據(jù)獲取過程中個人信息保護,應滿足GB/T35273-2020。
數(shù)據(jù)去標識化處理的方法,應滿足GB/T37964-2019。
6.2數(shù)據(jù)預處理
標注團隊應根據(jù)標注需求以及標注數(shù)據(jù)的特性,通過數(shù)據(jù)聚類、組合排列、數(shù)據(jù)雜質(zhì)去除等方法,
提高標注數(shù)據(jù)的有效性、標注效率、標注質(zhì)量。數(shù)據(jù)預處理方法參見表1:
表1數(shù)據(jù)預處理方法
維度方法詳細內(nèi)容
數(shù)據(jù)去重MD5特征值去重,相似度去重
針對初步具備識別能力的模型,通過模型預
模型預處理
測結(jié)果進行篩選,進行樣本標注
通用數(shù)據(jù)預處理流程數(shù)據(jù)分類共性無效樣本分類識別
數(shù)據(jù)聚類基于相似度的聚類處理
針對初步具備識別能力的模型,通過模型標
主動學習
注,人工修正的方式,進行樣本標注
針對特殊業(yè)務形式,數(shù)據(jù)類型進行
專項數(shù)據(jù)預處理流程多模態(tài)技術疊加,多個數(shù)據(jù)預處理流程疊加
專項數(shù)據(jù)預處理流程研究
6.3操作規(guī)程
標注團隊應:
a)根據(jù)已確認的標注需求,形成標準化的操作規(guī)程;
b)確保執(zhí)行數(shù)據(jù)標注任務的相關人員了解操作規(guī)程。
6.4質(zhì)檢方案
標注團隊應:
a)制定質(zhì)檢方案,確保標注結(jié)果質(zhì)量。方案內(nèi)容包括但不限于:
——質(zhì)量責任人;
3
T/ISC0005—2020
——抽樣理論依據(jù),如置信度和誤差是否在可接受的范圍;
——抽樣方式,如隨機抽樣、分層抽樣等;
——抽樣量級,如確定整體抽樣量級、階段性抽樣量級等;
——抽樣頻次,如按時間周期抽樣、階段性抽樣等;
——反饋機制,如按時間周期反饋、階段性反饋等;
——指標/閾值的計算方法。
b)保留質(zhì)檢方案的相關成文信息。
6.5工具/平臺
標注團隊應根據(jù)需求準備相應的標注工具/平臺,如線下工具、平臺復用、平臺優(yōu)化、平臺新建等
方式。
標注工具/平臺應具備以下能力,具備包括但不限于如下能力:
a)對文本、圖像、視頻、音頻、3D點云數(shù)據(jù)等各類數(shù)據(jù)進行標注;
b)權(quán)限管理,包括:創(chuàng)建賬號、授權(quán)管理、權(quán)限審批、角色配置;
c)人員管理,包括:角色配置、績效管理;
d)流程管理,可以根據(jù)標注需求進行流程調(diào)整;
e)版本管理,對標注內(nèi)容和結(jié)果進行版本管理和控制。
6.6人員能力
標注團隊應:
a)確定數(shù)據(jù)標注員和質(zhì)檢人員所需具備的能力,這些人員從事的工作影響標注的質(zhì)量和有效性;
b)基于適當?shù)慕逃?、培訓和?jīng)驗(知識庫),確保這些人員是勝任的;
c)跟蹤培訓的效果,并評價其有效性;
d)保留適當?shù)某晌男畔ⅲ鳛槿藛T能力的證據(jù)。
6.7試標注
標注團隊應:
a)在正式標注前,小范圍抽取數(shù)據(jù)標注員進行試標注、質(zhì)檢團隊試質(zhì)檢,試運行標注的全過程;
b)對試標注的數(shù)據(jù)量的大小、百分比等因素進行限定;
c)保留試標注以及因試標注引起的對標注需求、標注操作規(guī)程、質(zhì)檢方案變更相關的成文信息。
6.8制定標注方案
標注團隊應針對特定需求制定相應的標注方案,包括但不限于:
a)資源規(guī)劃,如數(shù)據(jù)源、標注工具/平臺;
b)人力資源規(guī)劃;
c)項目進度規(guī)劃;
d)項目質(zhì)量規(guī)劃;
e)風險控制措施;
f)應急預案等。
7標注
7.1實施標注
4
T/ISC0005—2020
按照已定標注方案,協(xié)調(diào)安排標注人員進行正式標注活動。其中包括:
a)數(shù)據(jù)導入;
b)任務安排;
c)人工標注。
7.2進度管理
標注團隊應在標注過程中實時監(jiān)控、管理標注的實際進度,并根據(jù)實際進度分析、預警風險,制定
相應方案。
7.3質(zhì)量控制
標注團隊應按照已定的質(zhì)檢方案進行質(zhì)量控制。質(zhì)量控制方法包括但不限于如下方式,見表2:
表2質(zhì)量控制方法
質(zhì)量控制方法詳細描述
多人驗證多人做同一個子任務,通過標注工具的功能自動或人工輔助選
擇出最優(yōu)、最正確的標注結(jié)果。
埋題驗證在任務進行期間,除了常規(guī)標注子任務外,在任務中混進若干
已知結(jié)果的測試題,以此驗證一線操作標注人員的標注水平。
標注人員狀態(tài)驗證通過一定方法對標注人員的操作規(guī)范性、實時注意力狀態(tài)、標
注準確率等方面進行檢查與監(jiān)測,及時發(fā)現(xiàn)操作違規(guī)問題,保
證數(shù)據(jù)質(zhì)量。
機器驗證在任務進行期間使用機器學習方法,得到數(shù)據(jù)準確率,一旦發(fā)
現(xiàn)離群點或明顯的降低趨勢,及時對標注人員預警和警告。
7.4交付、驗收
標注團隊應按照事先確認的最終需求進行交付。
需求方應按照要求進行驗收,如驗收數(shù)據(jù)質(zhì)量未達到預期,數(shù)據(jù)需求方可要求標注團隊對標注數(shù)據(jù)
進行修正。
雙方應保留相關成文信息。
8模型訓練
8.1模型訓練
數(shù)據(jù)使用方通過運用人工標注結(jié)果數(shù)據(jù),利用卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡等算法模型學習標注后
的數(shù)據(jù)特征,實現(xiàn)對目標樣本具有一定的預測能力。
8.2模型驗證
數(shù)據(jù)使用方應對數(shù)據(jù)預測效果對模型能力進行分析評估,評價模型效果。
9上線運行
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高職單招職業(yè)技能測試政治常識??贾R點(75個)
- (高清版)DB12∕T 655-2016 規(guī)?;膛霏h(huán)境監(jiān)測技術規(guī)程
- 分析計劃經(jīng)濟與市場經(jīng)濟體制的利與弊
- 理解CPMM考試大綱的試題及答案
- 2025年鋁包鋼導線合作協(xié)議書
- 美術老師合同(2025年版)
- 專業(yè)中醫(yī)康復理論試題及答案
- 二零二五年度上海房屋租賃與提前終止合同
- 上虞區(qū)水務集團2025年度合同工工資待遇及員工福利提升合同
- 二零二五年度廣東省房屋租賃合同糾紛預防與處理協(xié)議
- 殘疾人法律援助知識講座
- 小紅書食用農(nóng)產(chǎn)品承諾書示例
- 父親角色對幼兒社會性發(fā)展的影響的研究
- 農(nóng)業(yè)技術員培訓培訓課件
- AVL-CRUISE-2019-整車經(jīng)濟性動力性分析操作指導書
- 幕墻層間防火封堵施工技術交底
- 地球科學課件:冰川及冰川作用
- 《扣件式鋼管腳手架安全技術規(guī)范》JGJ130-2023
- 英語電影賞析智慧樹知到課后章節(jié)答案2023年下上海杉達學院
- 未成年人違法犯罪的心理分析-以“四少年冷漠殺人案”為例
- VTE防治基礎知識辦公文檔事務文書
評論
0/150
提交評論