GB∕T 42755-2023 人工智能 面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程_第1頁(yè)
GB∕T 42755-2023 人工智能 面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程_第2頁(yè)
GB∕T 42755-2023 人工智能 面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程_第3頁(yè)
GB∕T 42755-2023 人工智能 面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程_第4頁(yè)
GB∕T 42755-2023 人工智能 面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Artificialintelligence—Codeofpracticefordatalabelingofmachinelearning國(guó)家市場(chǎng)監(jiān)督管理總局國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)IGB/T42755—2023 Ⅲ 12規(guī)范性引用文件 1 14數(shù)據(jù)標(biāo)注流程 2 35.1標(biāo)注任務(wù) 35.2標(biāo)注人員 45.3標(biāo)注環(huán)境 46標(biāo)注任務(wù)執(zhí)行 46.1過程控制 46.2質(zhì)量保證 56.3管理機(jī)制 67標(biāo)注結(jié)果輸出 77.1內(nèi)部質(zhì)檢 77.2數(shù)據(jù)交付 87.3后期維護(hù) 8圖1數(shù)據(jù)標(biāo)注流程框架 2Ⅲ本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。本文件由全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)(SAC/TC28)提出并歸口。潮軟件科技有限公司、山東省人工智能研究院、美的集團(tuán)(上海)有限公司、北京智譜華章科技有限公司、北京愛數(shù)智慧科技有限公司、騰訊云計(jì)算(北京)有限責(zé)任公司、北京航天自動(dòng)控制研究所、鄭州中業(yè)科技股份有限公司、東軟集團(tuán)股份有限公司、北京海天瑞聲科技股份有限公司、云從科技集團(tuán)股份有限公學(xué)院生物醫(yī)學(xué)工程研究所、平安科技(深圳)有限公司、上海商湯智能科技有限公司、上海人工智能實(shí)驗(yàn)量認(rèn)證中心、中汽數(shù)據(jù)(天津)有限公司、北京眼神科技有限公司、上海人工智能研究院有限公司、浙江大華技術(shù)股份有限公司、杭州趣鏈科技有限公司、常州微億智造科技有限公司、長(zhǎng)春博立電子科技有限公司、羅克佳華科技集團(tuán)股份有限公司、上海交通大學(xué)、上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心。本文件主要起草人:吳文峻、董建、馬珊珊、劉祥龍、徐洋、賈一君、孟令中、任健、陳斌、趙豪杰、劉海濤、李瑋、趙春昊、黃志龍、楊春林、王瀟蔓、施佳棵、舒明雷、王英龍、匡立中、陳曉豐、吳庚、蔣慧、蒲江波、馬元巍、邢警、喬宇、何聰輝、楊雅婷、馬博、陶劍、胡進(jìn)偉、楚思思、李軍、宋海濤、沈?yàn)⒊添?、鄭忠斌、李爽?GB/T42755—2023人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程1范圍本文件規(guī)定了人工智能領(lǐng)域面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注框架流程。本文件適用于指導(dǎo)人工智能領(lǐng)域面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注以及與之相關(guān)的研究、開發(fā)和應(yīng)用等。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T35274—2017信息安全技術(shù)大數(shù)據(jù)服務(wù)安全能力要求GB/T37973—2019信息安全技術(shù)大數(shù)據(jù)安全管理指南3術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。3.1數(shù)據(jù)標(biāo)注datalabeling給數(shù)據(jù)樣本指定目標(biāo)變量和賦值的過程。標(biāo)注任務(wù)labelingtask按照數(shù)據(jù)標(biāo)注說明對(duì)數(shù)據(jù)進(jìn)行標(biāo)注的活動(dòng)。3.3數(shù)據(jù)標(biāo)注方datalabeler承擔(dān)數(shù)據(jù)標(biāo)注任務(wù)的人員或機(jī)構(gòu)。3.4數(shù)據(jù)需求方datauser提出數(shù)據(jù)標(biāo)注需求的人員或機(jī)構(gòu)。3.5標(biāo)注管理方datalabelingadministrator3.6標(biāo)注工具labelingtool數(shù)據(jù)標(biāo)注方執(zhí)行數(shù)據(jù)標(biāo)注時(shí)使用的工具,標(biāo)注管理方管理數(shù)據(jù)標(biāo)注時(shí)使用的工具,數(shù)據(jù)需求方驗(yàn)收數(shù)據(jù)標(biāo)注時(shí)使用的工具等所有流程相關(guān)的工具。3.7標(biāo)注任務(wù)說明labelingtaskdescription數(shù)據(jù)需求方用于向標(biāo)注管理方以及數(shù)據(jù)標(biāo)注方明確標(biāo)注任務(wù)的書面表達(dá)。24數(shù)據(jù)標(biāo)注流程數(shù)據(jù)標(biāo)注涉及數(shù)據(jù)需求方、標(biāo)注管理方及數(shù)據(jù)標(biāo)注方三方人員,主要流程包括標(biāo)注任務(wù)前期準(zhǔn)備、標(biāo)注任務(wù)執(zhí)行、標(biāo)注結(jié)果輸出三個(gè)階段。數(shù)據(jù)標(biāo)注流程見圖1。過程控制標(biāo)注內(nèi)容確定標(biāo)注任務(wù)創(chuàng)建標(biāo)注任務(wù)分發(fā)標(biāo)注需求變更標(biāo)注人員標(biāo)注任務(wù)開展標(biāo)注人員范圍標(biāo)注任務(wù)回收質(zhì)量保證數(shù)據(jù)標(biāo)注方標(biāo)注任務(wù)質(zhì)量檢查標(biāo)注任務(wù)一致性檢查管理機(jī)制標(biāo)注任務(wù)進(jìn)度管理交付內(nèi)容交付安全保障交付驗(yàn)收是標(biāo)注結(jié)果是否符合預(yù)期否后期維護(hù)標(biāo)注環(huán)境選擇標(biāo)注工具標(biāo)注任務(wù)標(biāo)注人員培訓(xùn)標(biāo)注人員能力檔案是否需要變更需求標(biāo)注數(shù)據(jù)確定圖1數(shù)據(jù)標(biāo)注流程框架在標(biāo)注前期準(zhǔn)備階段,數(shù)據(jù)需求方和標(biāo)注管理方應(yīng)確定標(biāo)注任務(wù),完成標(biāo)注內(nèi)容和標(biāo)注數(shù)據(jù)的確定。標(biāo)注管理方評(píng)估標(biāo)注任務(wù),向數(shù)據(jù)需求方反饋是否需要變更需求,若需要?jiǎng)t變更標(biāo)注需求,并重新評(píng)估標(biāo)注任務(wù)。標(biāo)注前期準(zhǔn)備階段還應(yīng)根據(jù)標(biāo)注人員的要求確定數(shù)據(jù)標(biāo)注方,同時(shí)確定標(biāo)注環(huán)境,選擇合適的標(biāo)注工具和場(chǎng)景。在標(biāo)注任務(wù)執(zhí)行階段,數(shù)據(jù)需求方、標(biāo)注管理方及數(shù)據(jù)標(biāo)注方三方人員應(yīng)遵循管理機(jī)制。在標(biāo)注結(jié)果輸出階段,數(shù)據(jù)標(biāo)注方應(yīng)對(duì)數(shù)據(jù)標(biāo)注方標(biāo)注后的數(shù)據(jù)進(jìn)行內(nèi)部質(zhì)檢,質(zhì)檢合格后將標(biāo)注后的數(shù)據(jù)交付給數(shù)據(jù)需求方。若標(biāo)注后的數(shù)據(jù)符合預(yù)期,則數(shù)據(jù)標(biāo)注完成;否則進(jìn)行后期維護(hù)環(huán)3GB/T42755—20235標(biāo)注任務(wù)前期準(zhǔn)備標(biāo)注內(nèi)容由標(biāo)注需求方在標(biāo)注任務(wù)說明中提供,標(biāo)注任務(wù)說明一經(jīng)確認(rèn),不可修改,如需修改則進(jìn)入需求變更環(huán)節(jié),標(biāo)注任務(wù)應(yīng)包括但不限于:c)項(xiàng)目背景:明確數(shù)據(jù)標(biāo)注需求產(chǎn)生的原因,以及數(shù)據(jù)標(biāo)注結(jié)果的應(yīng)用場(chǎng)景;要求、指標(biāo)計(jì)算方式、驗(yàn)收流程、交付時(shí)間等;e)主客觀描述:明確說明數(shù)據(jù)標(biāo)簽是根據(jù)個(gè)人專業(yè)領(lǐng)域知識(shí)進(jìn)行標(biāo)注,還是客觀認(rèn)識(shí)進(jìn)行的f)標(biāo)注人員資質(zhì):約定標(biāo)注任務(wù)參與人員的資質(zhì)要求;g)標(biāo)注結(jié)果:明確數(shù)據(jù)標(biāo)注結(jié)果的交付形式;h)知識(shí)產(chǎn)權(quán):明確數(shù)據(jù)的知識(shí)產(chǎn)權(quán)歸屬。a)數(shù)據(jù)核查:檢查待標(biāo)注數(shù)據(jù)是否與標(biāo)注任務(wù)說明書中的數(shù)據(jù)定義相符,核查結(jié)果及時(shí)同步給數(shù)據(jù)需求方;c)數(shù)據(jù)處理:根據(jù)標(biāo)注任務(wù)以及標(biāo)注數(shù)據(jù)的特性,通過數(shù)據(jù)聚類、組合排列、數(shù)據(jù)雜質(zhì)去除等方法,提高標(biāo)注質(zhì)量。根據(jù)標(biāo)注任務(wù)中的數(shù)據(jù)安全描述,數(shù)據(jù)需求方應(yīng)根據(jù)GB/T37973—2019及GB/T35274—2017相關(guān)要求,確定標(biāo)注數(shù)據(jù)的安全等級(jí)。數(shù)據(jù)標(biāo)注前,標(biāo)注管理方應(yīng)對(duì)標(biāo)注任務(wù)進(jìn)行評(píng)估,包括:a)根據(jù)標(biāo)注任務(wù)說明,評(píng)估標(biāo)注任務(wù)可行性、標(biāo)注規(guī)則合理性;b)在數(shù)據(jù)需求方提供的小規(guī)模樣本上進(jìn)行預(yù)標(biāo)注,將標(biāo)注結(jié)果提交給數(shù)據(jù)需求方驗(yàn)收。在獲得數(shù)據(jù)需求方確認(rèn)后,再正式啟動(dòng)數(shù)據(jù)標(biāo)注任務(wù)。注:及時(shí)記錄數(shù)據(jù)預(yù)標(biāo)注流程中標(biāo)注規(guī)則與數(shù)據(jù)相悖、覆蓋不全或規(guī)則之間相悖的情況,并向數(shù)據(jù)需求方反饋完善標(biāo)注規(guī)則。標(biāo)注需求方需求變更時(shí),應(yīng)在標(biāo)注管理方評(píng)審?fù)夂蟾聵?biāo)注任務(wù)說明,重新進(jìn)入標(biāo)注任務(wù)評(píng)估4GB/T42755—2023數(shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)內(nèi)容中規(guī)定的標(biāo)注人員資質(zhì)需求,確定符合要求的人員進(jìn)入標(biāo)注人員培訓(xùn)環(huán)節(jié)。數(shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)說明,對(duì)標(biāo)注人員進(jìn)行崗前能力培訓(xùn)。標(biāo)注能力考試合格者,方能參與標(biāo)注任務(wù)。數(shù)據(jù)標(biāo)注方應(yīng)建立標(biāo)注人員能力檔案,記錄標(biāo)注人員承擔(dān)標(biāo)注任務(wù)的相關(guān)內(nèi)容,用于進(jìn)行標(biāo)注人員能力評(píng)估與標(biāo)注質(zhì)量追蹤。數(shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)難度、數(shù)據(jù)處理規(guī)模及數(shù)據(jù)屬性特征、數(shù)據(jù)安全控制層級(jí)與方式,合理選擇標(biāo)注工具,完成數(shù)據(jù)標(biāo)注任務(wù)。數(shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)中必要的數(shù)據(jù)安全要求,搭建數(shù)據(jù)標(biāo)注場(chǎng)地。標(biāo)注任務(wù)創(chuàng)建主要包括以下內(nèi)容:a)任務(wù)包創(chuàng)建:數(shù)據(jù)需求方應(yīng)以適應(yīng)標(biāo)注環(huán)境分發(fā)、標(biāo)注工具讀取為目標(biāo),將需要標(biāo)注的數(shù)據(jù)合理分組,保證數(shù)據(jù)標(biāo)注質(zhì)量以及后續(xù)的任務(wù)分配;b)任務(wù)賬戶創(chuàng)建:數(shù)據(jù)需求方應(yīng)以標(biāo)注人員數(shù)量為依據(jù),綜合標(biāo)注、質(zhì)量分析等任務(wù)需求,根據(jù)標(biāo)注環(huán)境或者標(biāo)注工具,創(chuàng)建標(biāo)注過程中所需要使用的用戶賬戶,并分配相應(yīng)的權(quán)限或賬戶使用c)任務(wù)創(chuàng)建保障:標(biāo)注管理方應(yīng)制定標(biāo)注任務(wù)創(chuàng)建和數(shù)據(jù)上傳相關(guān)制度,明確數(shù)據(jù)上傳分類分級(jí)、數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估和安全監(jiān)控制度,監(jiān)管上傳數(shù)據(jù)的合法合規(guī)性。標(biāo)注任務(wù)分發(fā)主要包括以下內(nèi)容:a)標(biāo)注任務(wù)分發(fā)類型:標(biāo)注管理方應(yīng)根據(jù)標(biāo)注任務(wù)要求的標(biāo)注環(huán)境、標(biāo)注工具,結(jié)合標(biāo)注質(zhì)量管理以及標(biāo)注速度管理,在保證標(biāo)注質(zhì)量的前提下,選擇主動(dòng)領(lǐng)取或系統(tǒng)自動(dòng)分發(fā)等任務(wù)分發(fā)類型,優(yōu)化標(biāo)注任務(wù)分發(fā)策略;b)標(biāo)注任務(wù)分發(fā)保障:標(biāo)注管理方應(yīng)制定標(biāo)注任務(wù)分發(fā)安全管理制度,明確標(biāo)注任務(wù)分發(fā)日志內(nèi)容,監(jiān)控標(biāo)注任務(wù)分發(fā)安全。5標(biāo)注任務(wù)開展主要包括以下內(nèi)容:a)標(biāo)注任務(wù)分配:數(shù)據(jù)標(biāo)注方應(yīng)安排數(shù)據(jù)標(biāo)注人員使用分配的標(biāo)注賬戶,對(duì)分配到的任務(wù)進(jìn)行b)標(biāo)注過程反饋:數(shù)據(jù)標(biāo)注方應(yīng)建立標(biāo)注過程反饋機(jī)制,將與標(biāo)注要求不符、標(biāo)注要求中未涵蓋的數(shù)據(jù)等情況,及時(shí)反饋給標(biāo)注管理方和數(shù)據(jù)需求方,確保標(biāo)注規(guī)則與數(shù)據(jù)的匹配度;c)標(biāo)注任務(wù)開展保障:數(shù)據(jù)標(biāo)注方應(yīng)明確數(shù)據(jù)脫敏和個(gè)人信息安全影響評(píng)估制度,在標(biāo)注前對(duì)個(gè)人信息進(jìn)行數(shù)據(jù)脫敏處理,保障數(shù)據(jù)標(biāo)注流程合法合規(guī)性,并對(duì)數(shù)據(jù)標(biāo)注結(jié)果進(jìn)行分級(jí)制度,適當(dāng)提高數(shù)據(jù)安全等級(jí)。在標(biāo)注任務(wù)完成后,數(shù)據(jù)標(biāo)注方的標(biāo)注團(tuán)隊(duì)負(fù)責(zé)人應(yīng)檢查標(biāo)注數(shù)量,確保所有任務(wù)包均被回收,對(duì)未能及時(shí)完成的任務(wù)包,要建立適當(dāng)?shù)臏贤ê突厥赵侔l(fā)放的管理機(jī)制,以確保標(biāo)注任務(wù)按期完成,保證任務(wù)進(jìn)度。6.2質(zhì)量保證6.2.1標(biāo)注任務(wù)質(zhì)量檢查在標(biāo)注過程中,應(yīng)采用多種檢查方法對(duì)標(biāo)注任務(wù)質(zhì)量進(jìn)行檢測(cè),對(duì)不滿足標(biāo)注任務(wù)要求的,及時(shí)預(yù)警反饋,并查明問題原因。根據(jù)項(xiàng)目特性,標(biāo)注任務(wù)質(zhì)量檢查方法可歸納為以下三種。果。結(jié)果選擇可通過下列方式。1)標(biāo)注工具自動(dòng)選擇:通過與標(biāo)注工具匹配的模型推理,或擬合若干個(gè)標(biāo)注結(jié)果,選擇其中置信度最高的標(biāo)注結(jié)果,作為最終結(jié)果;2)人工輔助選擇:人工對(duì)多個(gè)標(biāo)注結(jié)果進(jìn)行對(duì)比,從而挑選出置信度最高的標(biāo)注結(jié)果作為最終結(jié)果。對(duì)于需要特定專業(yè)知識(shí)標(biāo)注的領(lǐng)域,進(jìn)行人工輔助標(biāo)注時(shí)應(yīng)以多個(gè)專家的共同商議結(jié)果作為最終結(jié)果。此驗(yàn)證標(biāo)注質(zhì)量。在此操作的過程中注意以下事項(xiàng)。1)針對(duì)數(shù)據(jù)特征專題專用:對(duì)于埋題驗(yàn)證,應(yīng)保障測(cè)試題在真題中間處于混淆的狀態(tài)。因此,在出題的過程中,應(yīng)針對(duì)數(shù)據(jù)的自身特征(數(shù)據(jù)的類別、場(chǎng)景、內(nèi)容等),準(zhǔn)備相應(yīng)的題目,避免題目暴露于操作者,失去驗(yàn)證的效果。制題目的使用次數(shù)。尤其是擁有容易記憶的特征點(diǎn)的題目(如特定臉部特征、特定文字、特定場(chǎng)景等),應(yīng)嚴(yán)格限制出現(xiàn)的次數(shù)。c)標(biāo)注人員狀態(tài)驗(yàn)證:通過對(duì)標(biāo)注人員的操作規(guī)范性、實(shí)時(shí)注意力狀態(tài)、標(biāo)注準(zhǔn)確率等方面進(jìn)行檢查與監(jiān)測(cè),及時(shí)發(fā)現(xiàn)操作違規(guī)問題,保證數(shù)據(jù)質(zhì)量;在發(fā)現(xiàn)操作違規(guī)問題、數(shù)據(jù)質(zhì)量有下降時(shí),應(yīng)根據(jù)時(shí)間段等特征,對(duì)標(biāo)注人員在這一狀態(tài)內(nèi)操作的標(biāo)注數(shù)據(jù)進(jìn)行檢查或者返工等6.2.2標(biāo)注任務(wù)一致性檢查在標(biāo)注任務(wù)進(jìn)行期間應(yīng)使用統(tǒng)計(jì)規(guī)則或模型驗(yàn)證等方法,得到標(biāo)注任務(wù)一致性水平,一旦發(fā)現(xiàn)離群點(diǎn)或明顯的降低趨勢(shì),及時(shí)對(duì)標(biāo)注人員預(yù)警和警告。66.3管理機(jī)制6.3.1標(biāo)注任務(wù)進(jìn)度管理數(shù)據(jù)標(biāo)注方應(yīng)定期與標(biāo)注管理方同步數(shù)據(jù)標(biāo)注任務(wù)工作進(jìn)度。6.3.2標(biāo)注任務(wù)風(fēng)險(xiǎn)預(yù)估在標(biāo)注任務(wù)進(jìn)行過程中,數(shù)據(jù)標(biāo)注方應(yīng)對(duì)標(biāo)注人員是否能夠如期達(dá)到對(duì)應(yīng)的執(zhí)行進(jìn)度進(jìn)行預(yù)估和檢測(cè),并針對(duì)可能存在的標(biāo)注進(jìn)度延誤風(fēng)險(xiǎn),對(duì)數(shù)據(jù)需求方、標(biāo)注管理方進(jìn)行適當(dāng)?shù)奶崾?。任?wù)風(fēng)險(xiǎn)預(yù)估和提醒的方法可分為以下兩類。a)收集和更新:在任務(wù)進(jìn)行期間,對(duì)不同的時(shí)間節(jié)點(diǎn),對(duì)標(biāo)注人員任務(wù)完成時(shí)間的推測(cè)和預(yù)估進(jìn)行定期收集、更新,匯總于系統(tǒng)上,并對(duì)其中有風(fēng)險(xiǎn)的完成時(shí)間節(jié)點(diǎn)進(jìn)行顯著的提醒。這種預(yù)估和提醒的方式,應(yīng)遵守以下規(guī)則。1)收集、更新任務(wù)完成的推測(cè)時(shí)間的時(shí)間節(jié)點(diǎn):為了在標(biāo)注的工作全流程中得到盡量準(zhǔn)確的推測(cè)時(shí)間預(yù)估,同時(shí)也避免頻繁收集推測(cè)時(shí)間造成的效率損失,應(yīng)在任務(wù)未開始標(biāo)注、開始分配并啟動(dòng)標(biāo)注時(shí)和距離標(biāo)注結(jié)束較為接近時(shí)的節(jié)點(diǎn),對(duì)推測(cè)的任務(wù)完成時(shí)間進(jìn)行收集、更新。2)判定任務(wù)完成風(fēng)險(xiǎn):在上述若干類時(shí)間節(jié)點(diǎn)收集到推測(cè)完成標(biāo)注任務(wù)的時(shí)間節(jié)點(diǎn)之后,應(yīng)對(duì)收集到的標(biāo)注人員上報(bào)的時(shí)間節(jié)點(diǎn)進(jìn)行判定,從而推斷出標(biāo)注任務(wù)當(dāng)前的執(zhí)行是否存在逾期的風(fēng)險(xiǎn)。對(duì)于是否有逾期風(fēng)險(xiǎn)的判定,基本的判定規(guī)則是依據(jù)標(biāo)注管理方扣除預(yù)估充裕的驗(yàn)收、返工時(shí)間后給出的截止時(shí)間,將任務(wù)完成的推測(cè)時(shí)間與之進(jìn)行對(duì)比。如果推測(cè)時(shí)間晚于該截止時(shí)間,則任務(wù)存在風(fēng)險(xiǎn),應(yīng)進(jìn)行風(fēng)險(xiǎn)的提醒。行標(biāo)注效率的推測(cè)。效率的推測(cè)過程應(yīng)遵守以下規(guī)范。1)應(yīng)以天為單位,進(jìn)行時(shí)間尺度上的效率推算。標(biāo)注人員的工作時(shí)間并非全天候,在全日時(shí)2)應(yīng)以標(biāo)注人員整組的按天效率為粒度,進(jìn)行工作能力上的推算。以完成任務(wù)的整一組標(biāo)注人員為整體,進(jìn)行整體任務(wù)效率的預(yù)估,有效屏蔽標(biāo)注人員個(gè)體在效率上的差距,得到標(biāo)注任務(wù)在推進(jìn)上的總體效率,更有效地反映任務(wù)的推進(jìn)速度。3)宜在每日結(jié)束的時(shí)間點(diǎn),以天為單位對(duì)執(zhí)行風(fēng)險(xiǎn)進(jìn)行平均推算和提示。在每日結(jié)束的時(shí)間點(diǎn),對(duì)當(dāng)天的標(biāo)注人員整組的按天效率進(jìn)行計(jì)算,可通過歷史若干天的平均效率,以及當(dāng)前剩余的數(shù)據(jù)量,推算出標(biāo)注任務(wù)剩余的預(yù)估工作日數(shù)。若該日數(shù)已經(jīng)超過目前預(yù)計(jì)的截止時(shí)間,則認(rèn)為任務(wù)有可能存在逾期的風(fēng)險(xiǎn),此時(shí)應(yīng)進(jìn)行風(fēng)險(xiǎn)的及時(shí)暴露和提醒。在預(yù)估到標(biāo)注任務(wù)可能存在風(fēng)險(xiǎn)的情況下,數(shù)據(jù)標(biāo)注方應(yīng)對(duì)風(fēng)險(xiǎn)進(jìn)行及時(shí)的暴露和提醒,從而使得數(shù)據(jù)需求方、標(biāo)注管理方能及時(shí)對(duì)該逾期風(fēng)險(xiǎn)進(jìn)行處理。因此風(fēng)險(xiǎn)的暴露和提醒應(yīng)足夠清晰,應(yīng)保障消息能夠觸達(dá)數(shù)據(jù)需求方、標(biāo)注管理方。風(fēng)險(xiǎn)預(yù)估的消息提醒應(yīng)包含如下信息,以助于數(shù)據(jù)需求方、標(biāo)注管理方進(jìn)行恰當(dāng)?shù)那閯?shì)判斷:a)標(biāo)注任務(wù)的基本概況信息:包含足以識(shí)別面臨風(fēng)險(xiǎn)的標(biāo)注任務(wù)的信息,包括任務(wù)的名稱、需求b)執(zhí)行任務(wù)的標(biāo)注人員:包含足以識(shí)別面臨風(fēng)險(xiǎn)的標(biāo)注人員或團(tuán)隊(duì)的信息;7GB/T42755—2023c)目前預(yù)估的完成時(shí)間;d)完成時(shí)間的預(yù)估途徑:通過何種途徑預(yù)估得到完成時(shí)間,包括且不限于上述兩種途徑(收集和刷新/效率推測(cè));e)原本預(yù)計(jì)的截止時(shí)間。為了使得消息能夠及時(shí)傳遞到數(shù)據(jù)需求方、標(biāo)注管理方,標(biāo)注任務(wù)可能有風(fēng)險(xiǎn)的消息內(nèi)容應(yīng)通過各類手段進(jìn)行觸達(dá),包括但不限于:a)電子郵件;b)告警短信;c)告警電話;d)應(yīng)用消息推送。7標(biāo)注結(jié)果輸出數(shù)據(jù)標(biāo)注方應(yīng)在完成數(shù)據(jù)標(biāo)注,由內(nèi)部質(zhì)檢驗(yàn)收合格后,提交給標(biāo)注管理方。根據(jù)數(shù)據(jù)標(biāo)注任務(wù)說明,合格的數(shù)據(jù)標(biāo)注結(jié)果應(yīng)滿足:a)標(biāo)注數(shù)據(jù)核驗(yàn)滿足數(shù)據(jù)標(biāo)注任務(wù)說明中的要求;b)數(shù)據(jù)質(zhì)量滿足數(shù)據(jù)標(biāo)注任務(wù)說明中的要求。根據(jù)數(shù)據(jù)標(biāo)注任務(wù)說明,數(shù)據(jù)標(biāo)注方應(yīng)對(duì)標(biāo)注數(shù)據(jù)格式、內(nèi)容進(jìn)行合理性和正確性核驗(yàn),以確定其滿足標(biāo)注要求。標(biāo)注數(shù)據(jù)質(zhì)量檢查能夠確保數(shù)據(jù)標(biāo)注結(jié)果有價(jià)值,符合數(shù)據(jù)需求方的特定應(yīng)用目的。根據(jù)項(xiàng)目特性,質(zhì)量檢查方法可以歸納為以下幾種,標(biāo)注項(xiàng)目負(fù)責(zé)人應(yīng)根據(jù)場(chǎng)景需求及項(xiàng)目特點(diǎn)進(jìn)行選擇。a)逐條檢查:即對(duì)整個(gè)標(biāo)注項(xiàng)目所包含的所有標(biāo)注子任務(wù)逐一核查并確認(rèn)。適用于項(xiàng)目量級(jí)不大、人力資源充沛、時(shí)間節(jié)點(diǎn)不緊張、對(duì)標(biāo)注數(shù)據(jù)結(jié)果的準(zhǔn)確率要求極高的標(biāo)注項(xiàng)目。這種方法覆蓋的質(zhì)量檢查范圍最全,同時(shí)也適用于任何形式的數(shù)據(jù)標(biāo)注場(chǎng)景。該方法可確保標(biāo)注數(shù)據(jù)輸出的最高質(zhì)量,尤其對(duì)于數(shù)據(jù)格式主觀成分較多、應(yīng)用場(chǎng)景較復(fù)雜的任務(wù)更有效。b)按比例抽查:即從全部標(biāo)注數(shù)據(jù)中科學(xué)地抽取樣本,對(duì)樣本中的數(shù)據(jù)逐條檢查,以此評(píng)判全部標(biāo)注數(shù)據(jù)的質(zhì)量。樣本量的選擇應(yīng)符合統(tǒng)計(jì)學(xué)基本原理,足以代表全部標(biāo)注數(shù)據(jù),例如在逐包分配進(jìn)行標(biāo)注的同時(shí),可以確保每包均按一定比例進(jìn)行抽查,以確保抽樣足夠均勻,足以代表總體結(jié)果。抽查審核時(shí),項(xiàng)目負(fù)責(zé)人應(yīng)指定審核員完成,審核員應(yīng)明確標(biāo)注的詳細(xì)執(zhí)行要求,從而確保交付質(zhì)量。c)抽樣檢驗(yàn):即從整個(gè)標(biāo)注項(xiàng)目中隨機(jī)抽取少量標(biāo)注子任務(wù)進(jìn)行檢驗(yàn),據(jù)此判斷該標(biāo)注項(xiàng)目是否合格。抽樣檢驗(yàn)可分為簡(jiǎn)單抽樣、系統(tǒng)抽樣和分層抽樣三種方式。d)機(jī)器驗(yàn)證:通過機(jī)器學(xué)習(xí),包括使用已訓(xùn)練模型進(jìn)行檢查或使用遷移學(xué)習(xí)、在線學(xué)習(xí)等方法對(duì)人工標(biāo)注的數(shù)據(jù)做質(zhì)量檢查,實(shí)現(xiàn)全自動(dòng)或輔助人工質(zhì)量檢查方式。機(jī)器學(xué)習(xí)方法輸出的準(zhǔn)確率不能完全代表數(shù)據(jù)集的準(zhǔn)確率,但能在一定程度上反映數(shù)據(jù)集的質(zhì)量。e)第三方驗(yàn)證:醫(yī)學(xué)等專業(yè)領(lǐng)域,如需對(duì)標(biāo)注結(jié)果進(jìn)行第三方驗(yàn)證的,應(yīng)由有資質(zhì)的第三方邀請(qǐng)有資質(zhì)和從業(yè)經(jīng)驗(yàn)的專家進(jìn)行驗(yàn)證,從而確保標(biāo)注結(jié)果的質(zhì)量。8在質(zhì)量檢查過程中,為了防止一次性不合格數(shù)據(jù)積壓過多而導(dǎo)致延誤交付,同時(shí)防止檢查過于碎片免此類

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論