第4章 人工數(shù)據(jù)標(biāo)注_第1頁
第4章 人工數(shù)據(jù)標(biāo)注_第2頁
第4章 人工數(shù)據(jù)標(biāo)注_第3頁
第4章 人工數(shù)據(jù)標(biāo)注_第4頁
第4章 人工數(shù)據(jù)標(biāo)注_第5頁
已閱讀5頁,還剩75頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

浙江省普通本科高?!笆奈濉敝攸c教材大語言模型通識大語言模型通識周蘇教授QQ:81505050第4章人工數(shù)據(jù)標(biāo)識2022年底,ChatGPT引爆大語言模型,科技巨頭紛紛入局,將文生文、文生圖、文生音頻、文生視頻、圖生視頻等多模態(tài)技術(shù)“玩”出了新高度。作為大模型數(shù)據(jù)能力鏈條上的重要一環(huán),數(shù)據(jù)標(biāo)注受到前所未有的關(guān)注。數(shù)據(jù)是人工智能的基礎(chǔ),更是大模型源源不斷的養(yǎng)分來源,數(shù)據(jù)標(biāo)注這個環(huán)節(jié)做得如何,直接決定了大模型有多聰明。第4章人工數(shù)據(jù)標(biāo)注大模型領(lǐng)域的領(lǐng)跑者OpenAI在數(shù)據(jù)標(biāo)注上有一套自己的方法,他們的數(shù)據(jù)標(biāo)注方式是先做出預(yù)訓(xùn)練模型,再用強化學(xué)習(xí)加上人工反饋來調(diào)優(yōu),也就是RLHF(ReinforcementLearningfromHumanFeedback,從人類反饋中強化學(xué)習(xí))。他們找了很多家數(shù)據(jù)公司來共同完成數(shù)據(jù)標(biāo)注,自己組建了一個由幾十名哲學(xué)博士組成的質(zhì)檢團隊,對標(biāo)注好的數(shù)據(jù)進行檢查。第4章人工數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注不是以對錯來評估,而是給每個問題選出多個匹配的結(jié)果,再經(jīng)過多人多輪的結(jié)果排序,直至模型數(shù)據(jù)符合常人思維,甚至某些專業(yè)領(lǐng)域的結(jié)果要達到特定要求的知識水平。OpenAI成立的8年間,花費了10億美元用于模型訓(xùn)練,可見其對數(shù)據(jù)的重視程度。第4章人工數(shù)據(jù)標(biāo)注01知識與知識標(biāo)識02什么是數(shù)據(jù)標(biāo)識03數(shù)據(jù)標(biāo)識的分類04制定標(biāo)注規(guī)則目錄/CONTENTS05執(zhí)行數(shù)據(jù)標(biāo)注06標(biāo)注團隊管理PART01知識與知識表示知識是信息接受者通過對信息的提煉和推理而獲得的正確結(jié)論,是人對自然世界、人類社會以及思維方式與運動規(guī)律的認識與掌握,是人的大腦通過思維重新組合和系統(tǒng)化的信息集合。知識與知識表示是人工智能中的一項重要的基本技術(shù),它決定著人工智能如何進行知識學(xué)習(xí)。4.1知識與知識表示在信息時代,有許多可以處理和存儲大量信息的計算機系統(tǒng)。信息包括數(shù)據(jù)和事實。數(shù)據(jù)、事實、信息和知識之間存在著層次關(guān)系。最簡單的信息片是數(shù)據(jù),從數(shù)據(jù)中,我們可以建立事實,進而獲得信息。人們將知識定義為“處理信息以實現(xiàn)智能決策”,這個時代的挑戰(zhàn)是將信息轉(zhuǎn)換成知識,使之可以用于智能決策。4.1知識與知識表示從便于表示和運用的角度出發(fā),可將知識分為4種類型。(1)對象(事實):物理對象和物理概念,反映某一對象或一類對象的屬性,例如,桌子結(jié)構(gòu)=高度、寬度、深度。(2)事件和事件序列(關(guān)于過程的知識):時間元素和因果關(guān)系。不光有當(dāng)前狀態(tài)和行為的描述,還有對其發(fā)展的變化及其相關(guān)條件、因果關(guān)系等描述的知識。4.1.1知識的概念(3)執(zhí)行(辦事、操作行為):不僅包括如何完成(步驟)事情的信息,也包括主導(dǎo)執(zhí)行的邏輯或算法的信息。如下棋、證明定理、醫(yī)療診斷等。(4)元知識:即知識的知識,關(guān)于各種事實的知識,可靠性和相對重要性的知識,關(guān)于如何表示知識和運用知識的知識。例如,如果你在考試前一天晚上死記硬背,那么關(guān)于這個主題的知識的記憶就不會持續(xù)太久。以規(guī)則形式表示的元知識稱為元規(guī)則,用來指導(dǎo)規(guī)則的選用。運用元知識進行的推理稱為元推理。4.1.1知識的概念這里的知識涵義和我們的一般認識有所區(qū)別,它是指以某種結(jié)構(gòu)化方式表示的概念、事件和過程。因此,并不是日常生活中的所有知識都能夠得以體現(xiàn)的,只有限定了范圍和結(jié)構(gòu),經(jīng)過編碼改造的知識才能成為人工智能知識表示中的知識。4.1.1知識的概念從數(shù)據(jù)、事實、信息到知識的層次頻譜如圖4-1所示。數(shù)據(jù)可以是沒有附加任何意義或單位的數(shù)字,事實是具有單位的數(shù)字,信息則是將事實轉(zhuǎn)化為意義。最終,知識是高階的信息表示和處理,方便做出復(fù)雜的決策和理解。圖4-1數(shù)據(jù)、事實、信息和知識的分層關(guān)系4.1.1知識的概念表4-1中的3個例子顯示了數(shù)據(jù)、事實、信息和知識如何在日常生活中協(xié)同工作。表4-1知識層次結(jié)構(gòu)的示例4.1.1知識的概念舉例1:你嘗試確定是否適合在戶外游泳。所擁有的數(shù)據(jù)是整數(shù)21。在數(shù)據(jù)中添加一個單位時,你就擁有了事實:溫度是21℃。為了將這一事實轉(zhuǎn)化為信息,需賦予事實意義:室外溫度為21℃。應(yīng)用條件到這條信息中,就得到了知識:如果溫度超過21℃,就可以去游泳。4.1.1知識的概念舉例2:你想解釋誰有資格服兵役。數(shù)據(jù):整數(shù)18,事實:18歲,信息:18歲是資格年齡,知識:如果你的年齡大于或等于18歲,那么就符合服兵役條件。根據(jù)對條件真實性的測試,做出決定(或動作)就是我們所知的規(guī)則(或If-Then規(guī)則)??梢詫⑴e例2聲明為規(guī)則:如果征募依舊在進行中,你年滿18歲或大于18歲且沒有任何嚴(yán)重的慢性疾病,就有資格服兵役。4.1.1知識的概念舉例3:你想去校園拜訪張小明教授。只知道他是數(shù)學(xué)教授,大學(xué)網(wǎng)站可能提供了原始數(shù)據(jù):232室,即張小明教授在綜合樓232室。你了解到綜合樓坐落在校園的西南側(cè)。最終,你了解很多信息,獲得了知識:從西大門進入校園;假設(shè)你向東走,則綜合樓是第二座建筑。進入主入口后,張小明教授的辦公室在二樓、你的右手邊。很明顯,僅憑數(shù)據(jù)“232室”不足以找到教授的辦公室。知道辦公室在綜合樓的232室,這也沒有太大幫助。4.1.1知識的概念如果校園中有許多建筑物,或者你不確定從校園的哪一邊(東、南、西或北)進入,那么從提供的信息中也不足以找到綜合樓。但是,如果信息能夠得到仔細處理(設(shè)計),創(chuàng)建一個有邏輯、可理解的解決方案,那么你就可以很輕松地找到教授辦公室。4.1.1知識的概念“知識表示”是指把知識客體中的知識因子與知識關(guān)聯(lián)起來,便于人們識別和理解知識。知識表示是知識組織的前提和基礎(chǔ)。下面我們從內(nèi)涵和外延方法方面進行思考,從而了解表示方法的選擇、產(chǎn)生式系統(tǒng)、面向?qū)ο蟮雀拍?。知識的表示是對知識的一種描述,或者說是對知識的一組約定,一種計算機可以接受的用于描述知識的數(shù)據(jù)結(jié)構(gòu),是能夠完成對專家的知識進行計算機處理的一系列技術(shù)手段。從某種意義上講,表示可視為數(shù)據(jù)結(jié)構(gòu)及其處理機制的綜合:表示=數(shù)據(jù)結(jié)構(gòu)+處理機制4.1.2知識表示方法知識表示包含兩層含義:(1)用給定的知識結(jié)構(gòu),按一定的原則、組織表示知識;(2)解釋所表示知識的含義。4.1.2知識表示方法對于人類而言,一個好的知識表示應(yīng)該具有以下特征:(1)它應(yīng)該是透明的,即容易理解。(2)無論是通過語言、視覺、觸覺、聲音或者這些組合,都對我們的感官產(chǎn)生影響。(3)從所表示的世界的真實情況方面考查,它講述的故事應(yīng)該讓人容易理解。4.1.2知識表示方法良好的表示可以充分利用機器龐大的存儲器和極快的處理速度,即充分利用其計算能力(具有每秒執(zhí)行數(shù)十億計算的能力)。知識表示的選擇與問題的解理所當(dāng)然地綁定在一起,以至于可以通過一種表示使問題的約束和挑戰(zhàn)變得顯而易見(并且得到理解),但是如果使用另一種表示方法,這些約束和挑戰(zhàn)就會隱藏起來,使問題變得復(fù)雜而難以求解。4.1.2知識表示方法一般來說,對于同一種知識可以采用不同的表示方法。反過來,一種知識表示模式可以表達多種不同的知識。但在解決某一問題時,不同的表示方法可能產(chǎn)生不同的效果。人工智能中知識表示方法注重知識的運用,可以粗略地將其分為敘述式表示和過程式表示兩大類。4.1.2知識表示方法1.敘述式表示法把知識表示為一個靜態(tài)的事實集合,并附有處理它們的一些通用程序,即敘述式表示描述事實性知識,給出客觀事物所涉及的對象是什么。對于敘述式的知識表示,它的表示與知識運用(推理)是分開處理的。4.1.2知識表示方法敘述式表示法易于表示“做什么”,其優(yōu)點是:(1)形式簡單、采用數(shù)據(jù)結(jié)構(gòu)表示知識、清晰明確、易于理解、增加了知識的可讀性。(2)模塊性好、減少了知識間的聯(lián)系、便于知識的獲取、修改和擴充。(3)可獨立使用,這種知識表示出來后,可用于不同目的。其缺點是不能直接執(zhí)行,需要其他程序解釋它的含義,因此執(zhí)行速度較慢。4.1.2知識表示方法2.過程式表示法將知識用使用它的過程來表示,即過程式表示描述規(guī)則和控制結(jié)構(gòu)知識,給出一些客觀規(guī)律,告訴怎么做,一般可用一段計算機程序來描述。例如,矩陣求逆程序,其中表示了矩陣的逆和求解方法的知識。這種知識是隱含在程序之中的,機器無法從程序的編碼中抽出這些知識。4.1.2知識表示方法過程式表示法一般是表示“如何做”的知識。其優(yōu)點有:(1)可以被計算機直接執(zhí)行,處理速度快。(2)便于表達如何處理問題的知識,易于表達怎樣高效處理問題的啟發(fā)性知識。其缺點是:不易表達大量的知識,且表示的知識難于修改和理解。4.1.2知識表示方法3.知識表示的過程知識表示的過程如下圖所示。其中的“知識Ⅰ”是指隱性知識或者使用其他表示方法表示的顯性知識;“知識Ⅱ”是指使用該種知識表示方法表示后的顯性知識。“知識Ⅰ”與“知識Ⅱ”的深層結(jié)構(gòu)一致,只是表示形式不同。所以,知識表示的過程就是把隱性知識轉(zhuǎn)化為顯性知識的過程,或者是把知識由一種表示形式轉(zhuǎn)化成另一種表示形式的過程。4.1.2知識表示方法知識表示系統(tǒng)通常有兩種元素組成:數(shù)據(jù)結(jié)構(gòu)(包含樹、列表和堆棧等結(jié)構(gòu))和為了使用知識而需要的解釋性程序(如搜索、排序和組合)。換句話說,系統(tǒng)中必須有便利的用于存儲知識的結(jié)構(gòu),有用以快速訪問和處理知識的方式,這樣才能進行計算,得到問題求解、決策和動作。4.1.2知識表示方法我們來考慮漢諾塔問題的博弈樹(見圖4-3)。這里涉及到3個圓盤。問題的目標(biāo)是將所有3個圓盤從樁A轉(zhuǎn)移到樁C。這個問題有兩個約束:①一次只能轉(zhuǎn)移一個圓盤;②大圓盤不能放在小圓盤上面。圖4-3漢諾塔問題4.1.3表示方法的選擇在計算機科學(xué)中,這個問題通常用于說明遞歸。我們從多個角度,特別是知識表示的角度,來考慮這個問題的解。首先,考慮對于轉(zhuǎn)移3個圓盤到樁C這個特定問題的實際解。4.1.3表示方法的選擇獲取解需要7個動作,具體如下:(1)將圓盤1移動到C。(2)將圓盤2移動到B。(3)將圓盤1移動到B。(4)將圓盤3移動到C。(5)將圓盤1移動到A(解開)。(6)將圓盤2移動到C。(7)將圓盤1移動到C。這也是步數(shù)最少的解。4.1.3表示方法的選擇也就是說,從起始狀態(tài)到達目標(biāo)狀態(tài),這種方法的移動次數(shù)最少。解決這個難題所需的移動次數(shù)具體取決于所涉及的圓盤數(shù)量。如果要移動65個圓盤來構(gòu)造類似的塔,這要移動264-1次,即使移1個圓盤只需要1秒,這也需要264-1秒,這都超過了6418270000年。我們可以用語言表達算法來解決任何數(shù)量的圓盤問題,然后根據(jù)所涉及的數(shù)學(xué)知識來檢查解是否正確。4.1.3表示方法的選擇示例4-1概述求解漢諾塔問題的步驟。首先,隔離出原始樁中的最大圓盤。這允許最大的圓盤自行移動到目標(biāo)樁(一步移動)。接下來,可以“解開”暫時樁上剩余的N-1個圓盤(也就是,樁B——這要求N-1次移動),并移動到在目標(biāo)樁的最大圓盤頂部(N-1移動)。加上這些移動,可以得知總共需要2×(N-1)+1次移動;或者,如果為了解出難題,要將待移動的N個圓盤從起始樁移動到目標(biāo)樁,這需要2N-1次移動。概述求解漢諾塔問題的步驟是一種表示解的方式,因為所有步驟都是明確給出的,所以步驟是外延表示。4.1.3表示方法的選擇示例4-2求解漢諾塔問題的另一種外延表示。對于任何數(shù)目(N)的圓盤,如果主要目標(biāo)是將這N個圓盤從樁A移動到樁C,那么可能需要完成下列步驟:(1)將N-1個圓盤移動到中間樁(B),這需要2(N-1)-1次移動(例如,對于三個圓盤,需要移動兩個圓盤(22-1=3次)到樁B)。(2)將最大的圓盤從樁A移動到樁C(目標(biāo))。(3)將N-1個圓盤從樁B移動到樁C(目標(biāo),這需要移動3次)。4.1.3表示方法的選擇總之,移動3個圓盤,你需要7步;移動4個圓盤,你需要16步;移動5個圓盤,你需要31步(15+15+1);移動6個圓盤,你需要63步(31+31+1);等等。4.1.3表示方法的選擇示例4-3內(nèi)涵解:對解的更緊湊(內(nèi)涵)的描述。為了解決N個圓盤的漢諾塔問題,需要2N-1次移動,包括2×2(N-1)-1(將N-1個圓盤移到樁B或移出樁B)+1次移動(將待移動的大圓盤移動到樁C)。4.1.3表示方法的選擇示例4-4遞歸關(guān)系:一種緊湊的內(nèi)涵解。T(1)=1T(N)=2T(N-1)+1解為T(N)=2N-l。遞歸關(guān)系是簡潔的數(shù)學(xué)公式,通過將問題解中某個步驟與前面好幾個步驟聯(lián)系起來,表示所發(fā)生過程(遞歸)的本質(zhì)。遞歸關(guān)系通常用于分析遞歸算法(如快速排序、歸并排序和選擇排序)的運行時間。4.1.3表示方法的選擇示例4-5偽代碼:為了描述漢諾塔問題,可以使用下面的偽代碼(其中n是圓盤數(shù)):Start是開始樁Int是中間樁Dest是目標(biāo)樁或目的樁TOH(n,Start,Int,Dest)IFn=1,then將圓盤從Start移動到DestElseTOH(n-1,Start,Dest,Int)

TOH(1,Start,Int,Dest)

TOH(n-1,Int,Start,Dest)4.1.3表示方法的選擇求解漢諾塔問題說明了一些不同形式的知識表示,所有這些知識表示都涉及遞歸或者說是公式或模式的重復(fù)。但是用了不同的參數(shù)。確定最好的解取決于誰是學(xué)習(xí)者以及其喜歡學(xué)習(xí)的程度。每一種內(nèi)涵表示也是問題簡化的一個示例??雌饋睚嫶蠡驈?fù)雜的問題被分解成相對較小、可管理的問題,并且這些問題的解是可執(zhí)行、可理解的。4.1.3表示方法的選擇PART02什么是數(shù)據(jù)標(biāo)注數(shù)據(jù)是人工智能的“血液”。人工智能是通過機器學(xué)習(xí)方法大量學(xué)習(xí)已知樣本,有了預(yù)測能力之后再預(yù)測未知樣本,以達到智能化的效果,機器學(xué)習(xí)主要分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)因效果不可控而常常被用來做探索性的實驗。4.2什么是數(shù)據(jù)標(biāo)注實際應(yīng)用中,有監(jiān)督的深度學(xué)習(xí)方式是主流。監(jiān)督學(xué)習(xí)需要做數(shù)據(jù)標(biāo)注,對于標(biāo)注數(shù)據(jù)有著強依賴性需求。未經(jīng)標(biāo)注處理過的原始數(shù)據(jù)多以非結(jié)構(gòu)化數(shù)據(jù)為主,這些數(shù)據(jù)難以被機器識別和學(xué)習(xí)。只有經(jīng)過標(biāo)注處理后的結(jié)構(gòu)化數(shù)據(jù)才能被算法模型訓(xùn)練使用。人工數(shù)據(jù)標(biāo)注可以說是智能的前提與靈魂。簡單來說,數(shù)據(jù)標(biāo)注的過程就是通過人工標(biāo)注的方式,把需要機器識別和分辨的語音、圖片、文本、視頻等數(shù)據(jù)打上標(biāo)簽,進行加工處理,為機器系統(tǒng)提供大量的學(xué)習(xí)樣本,然后讓計算機不斷地學(xué)習(xí)這些數(shù)據(jù)的特征,最終實現(xiàn)計算機自主識別。4.2什么是數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注是大部分人工智能算法得以有效運行的關(guān)鍵環(huán)節(jié),想要實現(xiàn)人工智能就要先讓計算機學(xué)會理解并具備判斷事物的能力??梢哉f數(shù)據(jù)決定了AI的落地程度,精準(zhǔn)的數(shù)據(jù)集產(chǎn)品和高度定制化數(shù)據(jù)服務(wù)更是受到各大企業(yè)的重視。4.2什么是數(shù)據(jù)標(biāo)注大模型數(shù)據(jù)標(biāo)注的特點主要如下。(1)非結(jié)構(gòu)化。早期的數(shù)據(jù)標(biāo)注工作主要以“打點”和“畫框”為主,就是讓機器學(xué)習(xí)什么是“人臉”,什么是“障礙物”,需要嚴(yán)格按照客戶給定的標(biāo)注規(guī)范進行,標(biāo)注要求也偏客觀。大模型標(biāo)注則更像是在做閱讀理解,模型學(xué)習(xí)應(yīng)該給出什么樣的內(nèi)容,大模型生成的多個結(jié)果哪個更接近滿分答案,標(biāo)注要求偏主觀,難以形成統(tǒng)一的標(biāo)準(zhǔn)。4.2什么是數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)從客觀到主觀,使得標(biāo)注工作更困難,這非??简灅?biāo)注師的主觀能動性以及解決問題的能力,而且標(biāo)注師需要具備很廣的知識面,數(shù)據(jù)標(biāo)注工作不再是個結(jié)構(gòu)化的簡單工作,而變成了需要邏輯思維的非結(jié)構(gòu)化工作。4.2什么是數(shù)據(jù)標(biāo)注(2)知識密集型。大模型背景下的標(biāo)注工作主要分為兩類:通識大模型標(biāo)注、領(lǐng)域大模型標(biāo)注。目前的大模型產(chǎn)品多數(shù)是通識大模型,但即便如此,標(biāo)注工作也是非結(jié)構(gòu)化的,需要標(biāo)注師具備較強的自然語言能力。至于領(lǐng)域大模型標(biāo)注,對學(xué)歷、能力、專業(yè)度的要求則更高。大多數(shù)行業(yè)或企業(yè)需要具備領(lǐng)域知識的專業(yè)人才,他們要重點解決金融、醫(yī)療、科技等領(lǐng)域的專業(yè)問題,最終形成符合專業(yè)邏輯的高質(zhì)量數(shù)據(jù)。比如,政務(wù)大模型中,用戶通常會問很多“專精”的問題,“社保斷繳5年怎么辦”這類標(biāo)注問題就需要標(biāo)注師讀取大量的政府文件,并能從中找到準(zhǔn)確答案。4.2什么是數(shù)據(jù)標(biāo)注(3)學(xué)歷要求高。早期的數(shù)據(jù)標(biāo)注工作者算是人工智能領(lǐng)域的流水線工人,通常集中在東南亞、非洲或是中國的河南、山西、山東等人力資源豐富的地區(qū),以控制人力成本。如今的標(biāo)注師們屬于互聯(lián)網(wǎng)公司的白領(lǐng),甚至很多專業(yè)領(lǐng)域的標(biāo)注人員都是碩士或博士學(xué)歷,其身份是領(lǐng)域標(biāo)注專家。4.2什么是數(shù)據(jù)標(biāo)注PART03數(shù)據(jù)標(biāo)注的分類從不同的角度思考,數(shù)據(jù)標(biāo)注有許多不同的分類。(1)從難易程度方面,數(shù)據(jù)標(biāo)注可劃分為常識性標(biāo)注與專業(yè)性標(biāo)注。例如,地圖識別標(biāo)注多為常識性標(biāo)注,標(biāo)注道路、路牌、地圖等數(shù)據(jù),語音識別標(biāo)注也多為常識性標(biāo)注。這類標(biāo)注工作的難點在于需要大量標(biāo)注訓(xùn)練樣本,因為應(yīng)用場景多樣且復(fù)雜,一般對標(biāo)注員無專業(yè)技能要求,認真負責(zé),任務(wù)完成效率快、質(zhì)量高的即為好的標(biāo)注員。4.3數(shù)據(jù)標(biāo)注的分類醫(yī)療診斷領(lǐng)域標(biāo)注多為專業(yè)性標(biāo)注,因為病種、癥狀的分類與標(biāo)注需要有醫(yī)療專業(yè)知識的人才來完成,人力資源招聘領(lǐng)域的標(biāo)注也屬于專業(yè)性標(biāo)注,因為標(biāo)注員需要熟知招聘業(yè)務(wù)、各崗位所需的知識技能,還需了解人力資源經(jīng)理招人時的關(guān)注點,才能判斷簡歷是否符合職位的招聘要求。該類型的標(biāo)注工作需要有招聘專業(yè)知識的標(biāo)注員,或者稱為標(biāo)注專家。標(biāo)注工作的難點比較多,例如選拔培養(yǎng)合適的標(biāo)注員、標(biāo)注規(guī)則的界定、標(biāo)注質(zhì)量的控制等多方面。4.3數(shù)據(jù)標(biāo)注的分類(2)從標(biāo)注目的方面,數(shù)據(jù)標(biāo)注可劃分為評估型標(biāo)注與樣本型標(biāo)注。評估型標(biāo)注一般是為了評估模型的準(zhǔn)確率,發(fā)現(xiàn)一些不好的樣例,然后優(yōu)化算法模型。該類型的標(biāo)注工作為了節(jié)約標(biāo)注資源可控制標(biāo)注數(shù)量,一般情況下標(biāo)注千量級的數(shù)據(jù),樣本具有統(tǒng)計意義即可,標(biāo)注完成后需要統(tǒng)計正確率以及錯誤樣例。該類型標(biāo)注的重點是錯誤樣例的原因總結(jié),分析每個壞樣例出現(xiàn)的原因,并將原因歸納為不同分類,以方便算法分析分類型分批次的優(yōu)化模型。4.3數(shù)據(jù)標(biāo)注的分類樣本型標(biāo)注是為模型提供前期的訓(xùn)練樣本作為機器學(xué)習(xí)的輸入,該類型標(biāo)注工作需要標(biāo)注大量數(shù)據(jù),一般情況下需要標(biāo)注萬量級的數(shù)據(jù)。為了樣本的均衡性,標(biāo)注樣本大都是隨機抽取的。這樣做的優(yōu)點是可在一定程度上避免樣本偏差,但缺點是要標(biāo)注大量數(shù)據(jù)。如果是文本型樣本,有時可借助算法抽取一些高頻、高質(zhì)量樣本進行標(biāo)注,這樣可在一定程度上減少標(biāo)注工作量,但可能存在樣本偏差。數(shù)據(jù)標(biāo)注從標(biāo)注對象方面,可劃分為圖像標(biāo)注、語音標(biāo)注、視頻標(biāo)注、文本標(biāo)注。4.3數(shù)據(jù)標(biāo)注的分類圖像標(biāo)注是對未經(jīng)處理的圖片數(shù)據(jù)進行加工處理,轉(zhuǎn)換為機器可識別信息,然后輸送到人工智能算法和模型里完成調(diào)用(見圖4-4)。常見的圖像標(biāo)注方法有語義分割、矩形框標(biāo)注、多邊形標(biāo)注、關(guān)鍵點標(biāo)注、點云標(biāo)注、3D立方體標(biāo)注、2D/3D融合標(biāo)注、目標(biāo)追蹤等。圖4-4圖像標(biāo)注4.3.1圖像標(biāo)注語音標(biāo)注是標(biāo)注員把語音中包含的文字信息、各種聲音先“提取”出來,再進行轉(zhuǎn)寫或者合成(見圖4-5)。標(biāo)注后的數(shù)據(jù)主要用于人工智能機器學(xué)習(xí),使計算機可以擁有語音識別能力。常見的語音標(biāo)注類型有語音轉(zhuǎn)寫、語音切割、語音清洗、情緒判斷、聲紋識別、音素標(biāo)注、韻律標(biāo)注、發(fā)音校對等。

圖4-5語音標(biāo)注4.3.2語音標(biāo)注點云數(shù)據(jù)一般由激光雷達等3D掃描設(shè)備獲取空間若干點的信息,包括XYZ位置信息、RGB顏色信息和強度信息等(見圖4-6),是一種多維度的復(fù)雜數(shù)據(jù)集合。

圖4-63D點云標(biāo)注4.3.33D點云標(biāo)注3D點云數(shù)據(jù)可以提供豐富的幾何、形狀和尺度信息,并且不易受光照強度變化和其它物體遮擋等影響,可以很好地了解機器的周圍環(huán)境。常見的3D點云標(biāo)注類型有3D點云目標(biāo)檢測標(biāo)注、3D點云語義分割標(biāo)注、2D3D融合標(biāo)注、點云連續(xù)幀標(biāo)注等。4.3.4文本標(biāo)注文本標(biāo)注是對文本進行特征標(biāo)記的過程,對其打上具體的語義、構(gòu)成、語境、目的、情感等數(shù)據(jù)標(biāo)簽。通過標(biāo)注好的訓(xùn)練數(shù)據(jù),可以教會機器識別文本中所隱含的意圖或者情感,使機器可以更好地理解語言。常見的文本標(biāo)注有OCR轉(zhuǎn)寫、詞性標(biāo)注、命名實體標(biāo)注、語句泛化、情感分析、句子編寫、槽位提取、意圖匹配、文本判斷、文本匹配、文本信息抽取、文本清洗、機器翻譯等。4.3.4文本標(biāo)注PART04制定標(biāo)注規(guī)則常識性標(biāo)注的規(guī)則比較簡單,標(biāo)注一部分樣本即可總結(jié)出較通用的規(guī)則,但專業(yè)性標(biāo)注的規(guī)則比較復(fù)雜,制定專業(yè)的標(biāo)注規(guī)則需要遵循的原則主要如下。(1)多維分析與綜合分析相結(jié)合。簡歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經(jīng)歷或?qū)I(yè)要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結(jié)果。當(dāng)然,簡歷與職位的匹配標(biāo)注也不可能一上來就能給出綜合的評分。要先給單一因子打分,然后參考每個因子的評分結(jié)果,最終再進行綜合分析,給出評分結(jié)果。4.4制定標(biāo)注規(guī)則(2)因子權(quán)重影響因素場景化。簡歷與職位匹配度評估需要給每個因子打分,要結(jié)合具體場景把所有因子進行歸類分析,比如設(shè)定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經(jīng)歷代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,人力資源經(jīng)理想要1~3年經(jīng)驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結(jié)合場景進行歸類分析是十分必要的。4.4制定標(biāo)注規(guī)則(3)問題類型標(biāo)簽化、結(jié)構(gòu)化。一般情況下標(biāo)注結(jié)果會以分?jǐn)?shù)的形式展示,ABCD或者0123。前期制定標(biāo)注規(guī)則時,一定要把原因分析考慮進去,列出所有不匹配的原因,形成結(jié)構(gòu)化的原因標(biāo)簽,有利于最終分析壞樣例的分類與占比,然后,算法或者策略團隊在優(yōu)化時可以優(yōu)先解決占比高或影響惡劣的樣例。數(shù)據(jù)標(biāo)注是一項看似簡單實際卻十分復(fù)雜的工作,涉及標(biāo)注分類、標(biāo)注規(guī)則制定、標(biāo)注原因分析、標(biāo)注系統(tǒng)搭建、標(biāo)注團隊管理等,尤其涉及到專業(yè)領(lǐng)域的標(biāo)注則更困難。4.4制定標(biāo)注規(guī)則PART05執(zhí)行數(shù)據(jù)標(biāo)注圖像標(biāo)注專家阿德拉·巴里烏索于2007年開始使用標(biāo)簽系統(tǒng)地標(biāo)注SUN數(shù)據(jù)庫,標(biāo)注了超過25萬個物體。她記錄了標(biāo)注過程中曾遇到的困難和采用的解決方案,以便得到一致性高的注釋。巴里烏索在數(shù)據(jù)標(biāo)注中的主要心得如下。(1)在標(biāo)注圖像時,首先對圖像進行整體評估,衡量標(biāo)注難度。有些乍一看標(biāo)注難度較大的圖像,實際上圖中的元素很少,很容易標(biāo)記。4.5執(zhí)行數(shù)據(jù)標(biāo)注(2)標(biāo)注時,通常由大到小進行標(biāo)注(見圖4-7)。比如開放空間中先標(biāo)注天空,封閉空間內(nèi)先標(biāo)注天花板,然后再繼續(xù)添加其他東西。

圖4-7由大到小標(biāo)注4.5執(zhí)行數(shù)據(jù)標(biāo)注(3)標(biāo)記的順序不重要,但標(biāo)注時最好一行行地進行,將一行內(nèi)所有類型相同的對象全都標(biāo)注上,降低標(biāo)簽寫錯的可能。(4)一般不標(biāo)注鏡子里反射的物體,這很容易造成誤導(dǎo)。4.5執(zhí)行數(shù)據(jù)標(biāo)注(5)在圖像中有很多線條性物體時(如圖4-8中的扶手和欄桿),需要特別注意,有可能標(biāo)注出與所需完全相反的內(nèi)容(即孔內(nèi)被標(biāo)記為對象),標(biāo)注線在同一個位置經(jīng)過兩次是正常的,刻意避免可能會出現(xiàn)上述情況。

圖4-8扶手與欄桿4.5執(zhí)行數(shù)據(jù)標(biāo)注(6)標(biāo)注圖像中出現(xiàn)打開的門窗等情況時,不僅僅是標(biāo)注門窗,也應(yīng)將門窗內(nèi)的物體也標(biāo)注上,這有助于增加深度感。(7)標(biāo)注時的標(biāo)注線條要好看一些,盡量避免弄成一塊一塊的(見圖4-9)。

圖4-9標(biāo)注線條的處理4.5執(zhí)行數(shù)據(jù)標(biāo)注(8)對于過于復(fù)雜的圖片,如果對圖中的內(nèi)容不夠熟悉,就干脆跳過。(9)如果一個物體被另一個物體遮擋,在給兩個物體做標(biāo)注時,給兩個物體貼上標(biāo)簽,確保它們的邊緣重合(見圖4-10)。

圖4-10遮擋物體的處理4.5執(zhí)行數(shù)據(jù)標(biāo)注(10)在進行標(biāo)注時,有時需要放大和縮小。放大有助于標(biāo)注一些小細節(jié),但放大有可能造成錯亂,有些東西局部放大后變得像其他物體。因此,在標(biāo)注之后需縮放至原始大小進行審核。(11)標(biāo)注室內(nèi)空間時,一般單獨標(biāo)記不同方向的墻,即便它們是相互連接的。4.5執(zhí)行數(shù)據(jù)標(biāo)注(12)在圖4-11中,圖像的復(fù)雜性是由于墻壁和拱門形成的不同深度平面造成的,在標(biāo)記時需要給拱門內(nèi)的元素進行標(biāo)記。首先從兩堵墻開始,然后給墻壁和容易分辨的大物體進行標(biāo)注,最后再去標(biāo)注小的一些細節(jié),有時候遺漏是不可避免地。

圖4-11

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論