第4章 人工數(shù)據(jù)標(biāo)注_第1頁(yè)
第4章 人工數(shù)據(jù)標(biāo)注_第2頁(yè)
第4章 人工數(shù)據(jù)標(biāo)注_第3頁(yè)
第4章 人工數(shù)據(jù)標(biāo)注_第4頁(yè)
第4章 人工數(shù)據(jù)標(biāo)注_第5頁(yè)
已閱讀5頁(yè),還剩75頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

浙江省普通本科高?!笆奈濉敝攸c(diǎn)教材大語(yǔ)言模型通識(shí)大語(yǔ)言模型通識(shí)周蘇教授QQ:81505050第4章人工數(shù)據(jù)標(biāo)識(shí)2022年底,ChatGPT引爆大語(yǔ)言模型,科技巨頭紛紛入局,將文生文、文生圖、文生音頻、文生視頻、圖生視頻等多模態(tài)技術(shù)“玩”出了新高度。作為大模型數(shù)據(jù)能力鏈條上的重要一環(huán),數(shù)據(jù)標(biāo)注受到前所未有的關(guān)注。數(shù)據(jù)是人工智能的基礎(chǔ),更是大模型源源不斷的養(yǎng)分來(lái)源,數(shù)據(jù)標(biāo)注這個(gè)環(huán)節(jié)做得如何,直接決定了大模型有多聰明。第4章人工數(shù)據(jù)標(biāo)注大模型領(lǐng)域的領(lǐng)跑者OpenAI在數(shù)據(jù)標(biāo)注上有一套自己的方法,他們的數(shù)據(jù)標(biāo)注方式是先做出預(yù)訓(xùn)練模型,再用強(qiáng)化學(xué)習(xí)加上人工反饋來(lái)調(diào)優(yōu),也就是RLHF(ReinforcementLearningfromHumanFeedback,從人類反饋中強(qiáng)化學(xué)習(xí))。他們找了很多家數(shù)據(jù)公司來(lái)共同完成數(shù)據(jù)標(biāo)注,自己組建了一個(gè)由幾十名哲學(xué)博士組成的質(zhì)檢團(tuán)隊(duì),對(duì)標(biāo)注好的數(shù)據(jù)進(jìn)行檢查。第4章人工數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注不是以對(duì)錯(cuò)來(lái)評(píng)估,而是給每個(gè)問(wèn)題選出多個(gè)匹配的結(jié)果,再經(jīng)過(guò)多人多輪的結(jié)果排序,直至模型數(shù)據(jù)符合常人思維,甚至某些專業(yè)領(lǐng)域的結(jié)果要達(dá)到特定要求的知識(shí)水平。OpenAI成立的8年間,花費(fèi)了10億美元用于模型訓(xùn)練,可見(jiàn)其對(duì)數(shù)據(jù)的重視程度。第4章人工數(shù)據(jù)標(biāo)注01知識(shí)與知識(shí)標(biāo)識(shí)02什么是數(shù)據(jù)標(biāo)識(shí)03數(shù)據(jù)標(biāo)識(shí)的分類04制定標(biāo)注規(guī)則目錄/CONTENTS05執(zhí)行數(shù)據(jù)標(biāo)注06標(biāo)注團(tuán)隊(duì)管理PART01知識(shí)與知識(shí)表示知識(shí)是信息接受者通過(guò)對(duì)信息的提煉和推理而獲得的正確結(jié)論,是人對(duì)自然世界、人類社會(huì)以及思維方式與運(yùn)動(dòng)規(guī)律的認(rèn)識(shí)與掌握,是人的大腦通過(guò)思維重新組合和系統(tǒng)化的信息集合。知識(shí)與知識(shí)表示是人工智能中的一項(xiàng)重要的基本技術(shù),它決定著人工智能如何進(jìn)行知識(shí)學(xué)習(xí)。4.1知識(shí)與知識(shí)表示在信息時(shí)代,有許多可以處理和存儲(chǔ)大量信息的計(jì)算機(jī)系統(tǒng)。信息包括數(shù)據(jù)和事實(shí)。數(shù)據(jù)、事實(shí)、信息和知識(shí)之間存在著層次關(guān)系。最簡(jiǎn)單的信息片是數(shù)據(jù),從數(shù)據(jù)中,我們可以建立事實(shí),進(jìn)而獲得信息。人們將知識(shí)定義為“處理信息以實(shí)現(xiàn)智能決策”,這個(gè)時(shí)代的挑戰(zhàn)是將信息轉(zhuǎn)換成知識(shí),使之可以用于智能決策。4.1知識(shí)與知識(shí)表示從便于表示和運(yùn)用的角度出發(fā),可將知識(shí)分為4種類型。(1)對(duì)象(事實(shí)):物理對(duì)象和物理概念,反映某一對(duì)象或一類對(duì)象的屬性,例如,桌子結(jié)構(gòu)=高度、寬度、深度。(2)事件和事件序列(關(guān)于過(guò)程的知識(shí)):時(shí)間元素和因果關(guān)系。不光有當(dāng)前狀態(tài)和行為的描述,還有對(duì)其發(fā)展的變化及其相關(guān)條件、因果關(guān)系等描述的知識(shí)。4.1.1知識(shí)的概念(3)執(zhí)行(辦事、操作行為):不僅包括如何完成(步驟)事情的信息,也包括主導(dǎo)執(zhí)行的邏輯或算法的信息。如下棋、證明定理、醫(yī)療診斷等。(4)元知識(shí):即知識(shí)的知識(shí),關(guān)于各種事實(shí)的知識(shí),可靠性和相對(duì)重要性的知識(shí),關(guān)于如何表示知識(shí)和運(yùn)用知識(shí)的知識(shí)。例如,如果你在考試前一天晚上死記硬背,那么關(guān)于這個(gè)主題的知識(shí)的記憶就不會(huì)持續(xù)太久。以規(guī)則形式表示的元知識(shí)稱為元規(guī)則,用來(lái)指導(dǎo)規(guī)則的選用。運(yùn)用元知識(shí)進(jìn)行的推理稱為元推理。4.1.1知識(shí)的概念這里的知識(shí)涵義和我們的一般認(rèn)識(shí)有所區(qū)別,它是指以某種結(jié)構(gòu)化方式表示的概念、事件和過(guò)程。因此,并不是日常生活中的所有知識(shí)都能夠得以體現(xiàn)的,只有限定了范圍和結(jié)構(gòu),經(jīng)過(guò)編碼改造的知識(shí)才能成為人工智能知識(shí)表示中的知識(shí)。4.1.1知識(shí)的概念從數(shù)據(jù)、事實(shí)、信息到知識(shí)的層次頻譜如圖4-1所示。數(shù)據(jù)可以是沒(méi)有附加任何意義或單位的數(shù)字,事實(shí)是具有單位的數(shù)字,信息則是將事實(shí)轉(zhuǎn)化為意義。最終,知識(shí)是高階的信息表示和處理,方便做出復(fù)雜的決策和理解。圖4-1數(shù)據(jù)、事實(shí)、信息和知識(shí)的分層關(guān)系4.1.1知識(shí)的概念表4-1中的3個(gè)例子顯示了數(shù)據(jù)、事實(shí)、信息和知識(shí)如何在日常生活中協(xié)同工作。表4-1知識(shí)層次結(jié)構(gòu)的示例4.1.1知識(shí)的概念舉例1:你嘗試確定是否適合在戶外游泳。所擁有的數(shù)據(jù)是整數(shù)21。在數(shù)據(jù)中添加一個(gè)單位時(shí),你就擁有了事實(shí):溫度是21℃。為了將這一事實(shí)轉(zhuǎn)化為信息,需賦予事實(shí)意義:室外溫度為21℃。應(yīng)用條件到這條信息中,就得到了知識(shí):如果溫度超過(guò)21℃,就可以去游泳。4.1.1知識(shí)的概念舉例2:你想解釋誰(shuí)有資格服兵役。數(shù)據(jù):整數(shù)18,事實(shí):18歲,信息:18歲是資格年齡,知識(shí):如果你的年齡大于或等于18歲,那么就符合服兵役條件。根據(jù)對(duì)條件真實(shí)性的測(cè)試,做出決定(或動(dòng)作)就是我們所知的規(guī)則(或If-Then規(guī)則)??梢詫⑴e例2聲明為規(guī)則:如果征募依舊在進(jìn)行中,你年滿18歲或大于18歲且沒(méi)有任何嚴(yán)重的慢性疾病,就有資格服兵役。4.1.1知識(shí)的概念舉例3:你想去校園拜訪張小明教授。只知道他是數(shù)學(xué)教授,大學(xué)網(wǎng)站可能提供了原始數(shù)據(jù):232室,即張小明教授在綜合樓232室。你了解到綜合樓坐落在校園的西南側(cè)。最終,你了解很多信息,獲得了知識(shí):從西大門進(jìn)入校園;假設(shè)你向東走,則綜合樓是第二座建筑。進(jìn)入主入口后,張小明教授的辦公室在二樓、你的右手邊。很明顯,僅憑數(shù)據(jù)“232室”不足以找到教授的辦公室。知道辦公室在綜合樓的232室,這也沒(méi)有太大幫助。4.1.1知識(shí)的概念如果校園中有許多建筑物,或者你不確定從校園的哪一邊(東、南、西或北)進(jìn)入,那么從提供的信息中也不足以找到綜合樓。但是,如果信息能夠得到仔細(xì)處理(設(shè)計(jì)),創(chuàng)建一個(gè)有邏輯、可理解的解決方案,那么你就可以很輕松地找到教授辦公室。4.1.1知識(shí)的概念“知識(shí)表示”是指把知識(shí)客體中的知識(shí)因子與知識(shí)關(guān)聯(lián)起來(lái),便于人們識(shí)別和理解知識(shí)。知識(shí)表示是知識(shí)組織的前提和基礎(chǔ)。下面我們從內(nèi)涵和外延方法方面進(jìn)行思考,從而了解表示方法的選擇、產(chǎn)生式系統(tǒng)、面向?qū)ο蟮雀拍?。知識(shí)的表示是對(duì)知識(shí)的一種描述,或者說(shuō)是對(duì)知識(shí)的一組約定,一種計(jì)算機(jī)可以接受的用于描述知識(shí)的數(shù)據(jù)結(jié)構(gòu),是能夠完成對(duì)專家的知識(shí)進(jìn)行計(jì)算機(jī)處理的一系列技術(shù)手段。從某種意義上講,表示可視為數(shù)據(jù)結(jié)構(gòu)及其處理機(jī)制的綜合:表示=數(shù)據(jù)結(jié)構(gòu)+處理機(jī)制4.1.2知識(shí)表示方法知識(shí)表示包含兩層含義:(1)用給定的知識(shí)結(jié)構(gòu),按一定的原則、組織表示知識(shí);(2)解釋所表示知識(shí)的含義。4.1.2知識(shí)表示方法對(duì)于人類而言,一個(gè)好的知識(shí)表示應(yīng)該具有以下特征:(1)它應(yīng)該是透明的,即容易理解。(2)無(wú)論是通過(guò)語(yǔ)言、視覺(jué)、觸覺(jué)、聲音或者這些組合,都對(duì)我們的感官產(chǎn)生影響。(3)從所表示的世界的真實(shí)情況方面考查,它講述的故事應(yīng)該讓人容易理解。4.1.2知識(shí)表示方法良好的表示可以充分利用機(jī)器龐大的存儲(chǔ)器和極快的處理速度,即充分利用其計(jì)算能力(具有每秒執(zhí)行數(shù)十億計(jì)算的能力)。知識(shí)表示的選擇與問(wèn)題的解理所當(dāng)然地綁定在一起,以至于可以通過(guò)一種表示使問(wèn)題的約束和挑戰(zhàn)變得顯而易見(jiàn)(并且得到理解),但是如果使用另一種表示方法,這些約束和挑戰(zhàn)就會(huì)隱藏起來(lái),使問(wèn)題變得復(fù)雜而難以求解。4.1.2知識(shí)表示方法一般來(lái)說(shuō),對(duì)于同一種知識(shí)可以采用不同的表示方法。反過(guò)來(lái),一種知識(shí)表示模式可以表達(dá)多種不同的知識(shí)。但在解決某一問(wèn)題時(shí),不同的表示方法可能產(chǎn)生不同的效果。人工智能中知識(shí)表示方法注重知識(shí)的運(yùn)用,可以粗略地將其分為敘述式表示和過(guò)程式表示兩大類。4.1.2知識(shí)表示方法1.敘述式表示法把知識(shí)表示為一個(gè)靜態(tài)的事實(shí)集合,并附有處理它們的一些通用程序,即敘述式表示描述事實(shí)性知識(shí),給出客觀事物所涉及的對(duì)象是什么。對(duì)于敘述式的知識(shí)表示,它的表示與知識(shí)運(yùn)用(推理)是分開處理的。4.1.2知識(shí)表示方法敘述式表示法易于表示“做什么”,其優(yōu)點(diǎn)是:(1)形式簡(jiǎn)單、采用數(shù)據(jù)結(jié)構(gòu)表示知識(shí)、清晰明確、易于理解、增加了知識(shí)的可讀性。(2)模塊性好、減少了知識(shí)間的聯(lián)系、便于知識(shí)的獲取、修改和擴(kuò)充。(3)可獨(dú)立使用,這種知識(shí)表示出來(lái)后,可用于不同目的。其缺點(diǎn)是不能直接執(zhí)行,需要其他程序解釋它的含義,因此執(zhí)行速度較慢。4.1.2知識(shí)表示方法2.過(guò)程式表示法將知識(shí)用使用它的過(guò)程來(lái)表示,即過(guò)程式表示描述規(guī)則和控制結(jié)構(gòu)知識(shí),給出一些客觀規(guī)律,告訴怎么做,一般可用一段計(jì)算機(jī)程序來(lái)描述。例如,矩陣求逆程序,其中表示了矩陣的逆和求解方法的知識(shí)。這種知識(shí)是隱含在程序之中的,機(jī)器無(wú)法從程序的編碼中抽出這些知識(shí)。4.1.2知識(shí)表示方法過(guò)程式表示法一般是表示“如何做”的知識(shí)。其優(yōu)點(diǎn)有:(1)可以被計(jì)算機(jī)直接執(zhí)行,處理速度快。(2)便于表達(dá)如何處理問(wèn)題的知識(shí),易于表達(dá)怎樣高效處理問(wèn)題的啟發(fā)性知識(shí)。其缺點(diǎn)是:不易表達(dá)大量的知識(shí),且表示的知識(shí)難于修改和理解。4.1.2知識(shí)表示方法3.知識(shí)表示的過(guò)程知識(shí)表示的過(guò)程如下圖所示。其中的“知識(shí)Ⅰ”是指隱性知識(shí)或者使用其他表示方法表示的顯性知識(shí);“知識(shí)Ⅱ”是指使用該種知識(shí)表示方法表示后的顯性知識(shí)。“知識(shí)Ⅰ”與“知識(shí)Ⅱ”的深層結(jié)構(gòu)一致,只是表示形式不同。所以,知識(shí)表示的過(guò)程就是把隱性知識(shí)轉(zhuǎn)化為顯性知識(shí)的過(guò)程,或者是把知識(shí)由一種表示形式轉(zhuǎn)化成另一種表示形式的過(guò)程。4.1.2知識(shí)表示方法知識(shí)表示系統(tǒng)通常有兩種元素組成:數(shù)據(jù)結(jié)構(gòu)(包含樹、列表和堆棧等結(jié)構(gòu))和為了使用知識(shí)而需要的解釋性程序(如搜索、排序和組合)。換句話說(shuō),系統(tǒng)中必須有便利的用于存儲(chǔ)知識(shí)的結(jié)構(gòu),有用以快速訪問(wèn)和處理知識(shí)的方式,這樣才能進(jìn)行計(jì)算,得到問(wèn)題求解、決策和動(dòng)作。4.1.2知識(shí)表示方法我們來(lái)考慮漢諾塔問(wèn)題的博弈樹(見(jiàn)圖4-3)。這里涉及到3個(gè)圓盤。問(wèn)題的目標(biāo)是將所有3個(gè)圓盤從樁A轉(zhuǎn)移到樁C。這個(gè)問(wèn)題有兩個(gè)約束:①一次只能轉(zhuǎn)移一個(gè)圓盤;②大圓盤不能放在小圓盤上面。圖4-3漢諾塔問(wèn)題4.1.3表示方法的選擇在計(jì)算機(jī)科學(xué)中,這個(gè)問(wèn)題通常用于說(shuō)明遞歸。我們從多個(gè)角度,特別是知識(shí)表示的角度,來(lái)考慮這個(gè)問(wèn)題的解。首先,考慮對(duì)于轉(zhuǎn)移3個(gè)圓盤到樁C這個(gè)特定問(wèn)題的實(shí)際解。4.1.3表示方法的選擇獲取解需要7個(gè)動(dòng)作,具體如下:(1)將圓盤1移動(dòng)到C。(2)將圓盤2移動(dòng)到B。(3)將圓盤1移動(dòng)到B。(4)將圓盤3移動(dòng)到C。(5)將圓盤1移動(dòng)到A(解開)。(6)將圓盤2移動(dòng)到C。(7)將圓盤1移動(dòng)到C。這也是步數(shù)最少的解。4.1.3表示方法的選擇也就是說(shuō),從起始狀態(tài)到達(dá)目標(biāo)狀態(tài),這種方法的移動(dòng)次數(shù)最少。解決這個(gè)難題所需的移動(dòng)次數(shù)具體取決于所涉及的圓盤數(shù)量。如果要移動(dòng)65個(gè)圓盤來(lái)構(gòu)造類似的塔,這要移動(dòng)264-1次,即使移1個(gè)圓盤只需要1秒,這也需要264-1秒,這都超過(guò)了6418270000年。我們可以用語(yǔ)言表達(dá)算法來(lái)解決任何數(shù)量的圓盤問(wèn)題,然后根據(jù)所涉及的數(shù)學(xué)知識(shí)來(lái)檢查解是否正確。4.1.3表示方法的選擇示例4-1概述求解漢諾塔問(wèn)題的步驟。首先,隔離出原始樁中的最大圓盤。這允許最大的圓盤自行移動(dòng)到目標(biāo)樁(一步移動(dòng))。接下來(lái),可以“解開”暫時(shí)樁上剩余的N-1個(gè)圓盤(也就是,樁B——這要求N-1次移動(dòng)),并移動(dòng)到在目標(biāo)樁的最大圓盤頂部(N-1移動(dòng))。加上這些移動(dòng),可以得知總共需要2×(N-1)+1次移動(dòng);或者,如果為了解出難題,要將待移動(dòng)的N個(gè)圓盤從起始樁移動(dòng)到目標(biāo)樁,這需要2N-1次移動(dòng)。概述求解漢諾塔問(wèn)題的步驟是一種表示解的方式,因?yàn)樗胁襟E都是明確給出的,所以步驟是外延表示。4.1.3表示方法的選擇示例4-2求解漢諾塔問(wèn)題的另一種外延表示。對(duì)于任何數(shù)目(N)的圓盤,如果主要目標(biāo)是將這N個(gè)圓盤從樁A移動(dòng)到樁C,那么可能需要完成下列步驟:(1)將N-1個(gè)圓盤移動(dòng)到中間樁(B),這需要2(N-1)-1次移動(dòng)(例如,對(duì)于三個(gè)圓盤,需要移動(dòng)兩個(gè)圓盤(22-1=3次)到樁B)。(2)將最大的圓盤從樁A移動(dòng)到樁C(目標(biāo))。(3)將N-1個(gè)圓盤從樁B移動(dòng)到樁C(目標(biāo),這需要移動(dòng)3次)。4.1.3表示方法的選擇總之,移動(dòng)3個(gè)圓盤,你需要7步;移動(dòng)4個(gè)圓盤,你需要16步;移動(dòng)5個(gè)圓盤,你需要31步(15+15+1);移動(dòng)6個(gè)圓盤,你需要63步(31+31+1);等等。4.1.3表示方法的選擇示例4-3內(nèi)涵解:對(duì)解的更緊湊(內(nèi)涵)的描述。為了解決N個(gè)圓盤的漢諾塔問(wèn)題,需要2N-1次移動(dòng),包括2×2(N-1)-1(將N-1個(gè)圓盤移到樁B或移出樁B)+1次移動(dòng)(將待移動(dòng)的大圓盤移動(dòng)到樁C)。4.1.3表示方法的選擇示例4-4遞歸關(guān)系:一種緊湊的內(nèi)涵解。T(1)=1T(N)=2T(N-1)+1解為T(N)=2N-l。遞歸關(guān)系是簡(jiǎn)潔的數(shù)學(xué)公式,通過(guò)將問(wèn)題解中某個(gè)步驟與前面好幾個(gè)步驟聯(lián)系起來(lái),表示所發(fā)生過(guò)程(遞歸)的本質(zhì)。遞歸關(guān)系通常用于分析遞歸算法(如快速排序、歸并排序和選擇排序)的運(yùn)行時(shí)間。4.1.3表示方法的選擇示例4-5偽代碼:為了描述漢諾塔問(wèn)題,可以使用下面的偽代碼(其中n是圓盤數(shù)):Start是開始樁Int是中間樁Dest是目標(biāo)樁或目的樁TOH(n,Start,Int,Dest)IFn=1,then將圓盤從Start移動(dòng)到DestElseTOH(n-1,Start,Dest,Int)

TOH(1,Start,Int,Dest)

TOH(n-1,Int,Start,Dest)4.1.3表示方法的選擇求解漢諾塔問(wèn)題說(shuō)明了一些不同形式的知識(shí)表示,所有這些知識(shí)表示都涉及遞歸或者說(shuō)是公式或模式的重復(fù)。但是用了不同的參數(shù)。確定最好的解取決于誰(shuí)是學(xué)習(xí)者以及其喜歡學(xué)習(xí)的程度。每一種內(nèi)涵表示也是問(wèn)題簡(jiǎn)化的一個(gè)示例。看起來(lái)龐大或復(fù)雜的問(wèn)題被分解成相對(duì)較小、可管理的問(wèn)題,并且這些問(wèn)題的解是可執(zhí)行、可理解的。4.1.3表示方法的選擇PART02什么是數(shù)據(jù)標(biāo)注數(shù)據(jù)是人工智能的“血液”。人工智能是通過(guò)機(jī)器學(xué)習(xí)方法大量學(xué)習(xí)已知樣本,有了預(yù)測(cè)能力之后再預(yù)測(cè)未知樣本,以達(dá)到智能化的效果,機(jī)器學(xué)習(xí)主要分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)因效果不可控而常常被用來(lái)做探索性的實(shí)驗(yàn)。4.2什么是數(shù)據(jù)標(biāo)注實(shí)際應(yīng)用中,有監(jiān)督的深度學(xué)習(xí)方式是主流。監(jiān)督學(xué)習(xí)需要做數(shù)據(jù)標(biāo)注,對(duì)于標(biāo)注數(shù)據(jù)有著強(qiáng)依賴性需求。未經(jīng)標(biāo)注處理過(guò)的原始數(shù)據(jù)多以非結(jié)構(gòu)化數(shù)據(jù)為主,這些數(shù)據(jù)難以被機(jī)器識(shí)別和學(xué)習(xí)。只有經(jīng)過(guò)標(biāo)注處理后的結(jié)構(gòu)化數(shù)據(jù)才能被算法模型訓(xùn)練使用。人工數(shù)據(jù)標(biāo)注可以說(shuō)是智能的前提與靈魂。簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)標(biāo)注的過(guò)程就是通過(guò)人工標(biāo)注的方式,把需要機(jī)器識(shí)別和分辨的語(yǔ)音、圖片、文本、視頻等數(shù)據(jù)打上標(biāo)簽,進(jìn)行加工處理,為機(jī)器系統(tǒng)提供大量的學(xué)習(xí)樣本,然后讓計(jì)算機(jī)不斷地學(xué)習(xí)這些數(shù)據(jù)的特征,最終實(shí)現(xiàn)計(jì)算機(jī)自主識(shí)別。4.2什么是數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注是大部分人工智能算法得以有效運(yùn)行的關(guān)鍵環(huán)節(jié),想要實(shí)現(xiàn)人工智能就要先讓計(jì)算機(jī)學(xué)會(huì)理解并具備判斷事物的能力??梢哉f(shuō)數(shù)據(jù)決定了AI的落地程度,精準(zhǔn)的數(shù)據(jù)集產(chǎn)品和高度定制化數(shù)據(jù)服務(wù)更是受到各大企業(yè)的重視。4.2什么是數(shù)據(jù)標(biāo)注大模型數(shù)據(jù)標(biāo)注的特點(diǎn)主要如下。(1)非結(jié)構(gòu)化。早期的數(shù)據(jù)標(biāo)注工作主要以“打點(diǎn)”和“畫框”為主,就是讓機(jī)器學(xué)習(xí)什么是“人臉”,什么是“障礙物”,需要嚴(yán)格按照客戶給定的標(biāo)注規(guī)范進(jìn)行,標(biāo)注要求也偏客觀。大模型標(biāo)注則更像是在做閱讀理解,模型學(xué)習(xí)應(yīng)該給出什么樣的內(nèi)容,大模型生成的多個(gè)結(jié)果哪個(gè)更接近滿分答案,標(biāo)注要求偏主觀,難以形成統(tǒng)一的標(biāo)準(zhǔn)。4.2什么是數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)從客觀到主觀,使得標(biāo)注工作更困難,這非??简?yàn)標(biāo)注師的主觀能動(dòng)性以及解決問(wèn)題的能力,而且標(biāo)注師需要具備很廣的知識(shí)面,數(shù)據(jù)標(biāo)注工作不再是個(gè)結(jié)構(gòu)化的簡(jiǎn)單工作,而變成了需要邏輯思維的非結(jié)構(gòu)化工作。4.2什么是數(shù)據(jù)標(biāo)注(2)知識(shí)密集型。大模型背景下的標(biāo)注工作主要分為兩類:通識(shí)大模型標(biāo)注、領(lǐng)域大模型標(biāo)注。目前的大模型產(chǎn)品多數(shù)是通識(shí)大模型,但即便如此,標(biāo)注工作也是非結(jié)構(gòu)化的,需要標(biāo)注師具備較強(qiáng)的自然語(yǔ)言能力。至于領(lǐng)域大模型標(biāo)注,對(duì)學(xué)歷、能力、專業(yè)度的要求則更高。大多數(shù)行業(yè)或企業(yè)需要具備領(lǐng)域知識(shí)的專業(yè)人才,他們要重點(diǎn)解決金融、醫(yī)療、科技等領(lǐng)域的專業(yè)問(wèn)題,最終形成符合專業(yè)邏輯的高質(zhì)量數(shù)據(jù)。比如,政務(wù)大模型中,用戶通常會(huì)問(wèn)很多“專精”的問(wèn)題,“社保斷繳5年怎么辦”這類標(biāo)注問(wèn)題就需要標(biāo)注師讀取大量的政府文件,并能從中找到準(zhǔn)確答案。4.2什么是數(shù)據(jù)標(biāo)注(3)學(xué)歷要求高。早期的數(shù)據(jù)標(biāo)注工作者算是人工智能領(lǐng)域的流水線工人,通常集中在東南亞、非洲或是中國(guó)的河南、山西、山東等人力資源豐富的地區(qū),以控制人力成本。如今的標(biāo)注師們屬于互聯(lián)網(wǎng)公司的白領(lǐng),甚至很多專業(yè)領(lǐng)域的標(biāo)注人員都是碩士或博士學(xué)歷,其身份是領(lǐng)域標(biāo)注專家。4.2什么是數(shù)據(jù)標(biāo)注PART03數(shù)據(jù)標(biāo)注的分類從不同的角度思考,數(shù)據(jù)標(biāo)注有許多不同的分類。(1)從難易程度方面,數(shù)據(jù)標(biāo)注可劃分為常識(shí)性標(biāo)注與專業(yè)性標(biāo)注。例如,地圖識(shí)別標(biāo)注多為常識(shí)性標(biāo)注,標(biāo)注道路、路牌、地圖等數(shù)據(jù),語(yǔ)音識(shí)別標(biāo)注也多為常識(shí)性標(biāo)注。這類標(biāo)注工作的難點(diǎn)在于需要大量標(biāo)注訓(xùn)練樣本,因?yàn)閼?yīng)用場(chǎng)景多樣且復(fù)雜,一般對(duì)標(biāo)注員無(wú)專業(yè)技能要求,認(rèn)真負(fù)責(zé),任務(wù)完成效率快、質(zhì)量高的即為好的標(biāo)注員。4.3數(shù)據(jù)標(biāo)注的分類醫(yī)療診斷領(lǐng)域標(biāo)注多為專業(yè)性標(biāo)注,因?yàn)椴》N、癥狀的分類與標(biāo)注需要有醫(yī)療專業(yè)知識(shí)的人才來(lái)完成,人力資源招聘領(lǐng)域的標(biāo)注也屬于專業(yè)性標(biāo)注,因?yàn)闃?biāo)注員需要熟知招聘業(yè)務(wù)、各崗位所需的知識(shí)技能,還需了解人力資源經(jīng)理招人時(shí)的關(guān)注點(diǎn),才能判斷簡(jiǎn)歷是否符合職位的招聘要求。該類型的標(biāo)注工作需要有招聘專業(yè)知識(shí)的標(biāo)注員,或者稱為標(biāo)注專家。標(biāo)注工作的難點(diǎn)比較多,例如選拔培養(yǎng)合適的標(biāo)注員、標(biāo)注規(guī)則的界定、標(biāo)注質(zhì)量的控制等多方面。4.3數(shù)據(jù)標(biāo)注的分類(2)從標(biāo)注目的方面,數(shù)據(jù)標(biāo)注可劃分為評(píng)估型標(biāo)注與樣本型標(biāo)注。評(píng)估型標(biāo)注一般是為了評(píng)估模型的準(zhǔn)確率,發(fā)現(xiàn)一些不好的樣例,然后優(yōu)化算法模型。該類型的標(biāo)注工作為了節(jié)約標(biāo)注資源可控制標(biāo)注數(shù)量,一般情況下標(biāo)注千量級(jí)的數(shù)據(jù),樣本具有統(tǒng)計(jì)意義即可,標(biāo)注完成后需要統(tǒng)計(jì)正確率以及錯(cuò)誤樣例。該類型標(biāo)注的重點(diǎn)是錯(cuò)誤樣例的原因總結(jié),分析每個(gè)壞樣例出現(xiàn)的原因,并將原因歸納為不同分類,以方便算法分析分類型分批次的優(yōu)化模型。4.3數(shù)據(jù)標(biāo)注的分類樣本型標(biāo)注是為模型提供前期的訓(xùn)練樣本作為機(jī)器學(xué)習(xí)的輸入,該類型標(biāo)注工作需要標(biāo)注大量數(shù)據(jù),一般情況下需要標(biāo)注萬(wàn)量級(jí)的數(shù)據(jù)。為了樣本的均衡性,標(biāo)注樣本大都是隨機(jī)抽取的。這樣做的優(yōu)點(diǎn)是可在一定程度上避免樣本偏差,但缺點(diǎn)是要標(biāo)注大量數(shù)據(jù)。如果是文本型樣本,有時(shí)可借助算法抽取一些高頻、高質(zhì)量樣本進(jìn)行標(biāo)注,這樣可在一定程度上減少標(biāo)注工作量,但可能存在樣本偏差。數(shù)據(jù)標(biāo)注從標(biāo)注對(duì)象方面,可劃分為圖像標(biāo)注、語(yǔ)音標(biāo)注、視頻標(biāo)注、文本標(biāo)注。4.3數(shù)據(jù)標(biāo)注的分類圖像標(biāo)注是對(duì)未經(jīng)處理的圖片數(shù)據(jù)進(jìn)行加工處理,轉(zhuǎn)換為機(jī)器可識(shí)別信息,然后輸送到人工智能算法和模型里完成調(diào)用(見(jiàn)圖4-4)。常見(jiàn)的圖像標(biāo)注方法有語(yǔ)義分割、矩形框標(biāo)注、多邊形標(biāo)注、關(guān)鍵點(diǎn)標(biāo)注、點(diǎn)云標(biāo)注、3D立方體標(biāo)注、2D/3D融合標(biāo)注、目標(biāo)追蹤等。圖4-4圖像標(biāo)注4.3.1圖像標(biāo)注語(yǔ)音標(biāo)注是標(biāo)注員把語(yǔ)音中包含的文字信息、各種聲音先“提取”出來(lái),再進(jìn)行轉(zhuǎn)寫或者合成(見(jiàn)圖4-5)。標(biāo)注后的數(shù)據(jù)主要用于人工智能機(jī)器學(xué)習(xí),使計(jì)算機(jī)可以擁有語(yǔ)音識(shí)別能力。常見(jiàn)的語(yǔ)音標(biāo)注類型有語(yǔ)音轉(zhuǎn)寫、語(yǔ)音切割、語(yǔ)音清洗、情緒判斷、聲紋識(shí)別、音素標(biāo)注、韻律標(biāo)注、發(fā)音校對(duì)等。

圖4-5語(yǔ)音標(biāo)注4.3.2語(yǔ)音標(biāo)注點(diǎn)云數(shù)據(jù)一般由激光雷達(dá)等3D掃描設(shè)備獲取空間若干點(diǎn)的信息,包括XYZ位置信息、RGB顏色信息和強(qiáng)度信息等(見(jiàn)圖4-6),是一種多維度的復(fù)雜數(shù)據(jù)集合。

圖4-63D點(diǎn)云標(biāo)注4.3.33D點(diǎn)云標(biāo)注3D點(diǎn)云數(shù)據(jù)可以提供豐富的幾何、形狀和尺度信息,并且不易受光照強(qiáng)度變化和其它物體遮擋等影響,可以很好地了解機(jī)器的周圍環(huán)境。常見(jiàn)的3D點(diǎn)云標(biāo)注類型有3D點(diǎn)云目標(biāo)檢測(cè)標(biāo)注、3D點(diǎn)云語(yǔ)義分割標(biāo)注、2D3D融合標(biāo)注、點(diǎn)云連續(xù)幀標(biāo)注等。4.3.4文本標(biāo)注文本標(biāo)注是對(duì)文本進(jìn)行特征標(biāo)記的過(guò)程,對(duì)其打上具體的語(yǔ)義、構(gòu)成、語(yǔ)境、目的、情感等數(shù)據(jù)標(biāo)簽。通過(guò)標(biāo)注好的訓(xùn)練數(shù)據(jù),可以教會(huì)機(jī)器識(shí)別文本中所隱含的意圖或者情感,使機(jī)器可以更好地理解語(yǔ)言。常見(jiàn)的文本標(biāo)注有OCR轉(zhuǎn)寫、詞性標(biāo)注、命名實(shí)體標(biāo)注、語(yǔ)句泛化、情感分析、句子編寫、槽位提取、意圖匹配、文本判斷、文本匹配、文本信息抽取、文本清洗、機(jī)器翻譯等。4.3.4文本標(biāo)注PART04制定標(biāo)注規(guī)則常識(shí)性標(biāo)注的規(guī)則比較簡(jiǎn)單,標(biāo)注一部分樣本即可總結(jié)出較通用的規(guī)則,但專業(yè)性標(biāo)注的規(guī)則比較復(fù)雜,制定專業(yè)的標(biāo)注規(guī)則需要遵循的原則主要如下。(1)多維分析與綜合分析相結(jié)合。簡(jiǎn)歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經(jīng)歷或?qū)I(yè)要求一個(gè)因子,或者某幾個(gè)因子,要多維分析,最終再給出綜合評(píng)分結(jié)果。當(dāng)然,簡(jiǎn)歷與職位的匹配標(biāo)注也不可能一上來(lái)就能給出綜合的評(píng)分。要先給單一因子打分,然后參考每個(gè)因子的評(píng)分結(jié)果,最終再進(jìn)行綜合分析,給出評(píng)分結(jié)果。4.4制定標(biāo)注規(guī)則(2)因子權(quán)重影響因素場(chǎng)景化。簡(jiǎn)歷與職位匹配度評(píng)估需要給每個(gè)因子打分,要結(jié)合具體場(chǎng)景把所有因子進(jìn)行歸類分析,比如設(shè)定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經(jīng)歷代表的是一個(gè)人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會(huì)影響評(píng)分,有些因子時(shí)而重要時(shí)而不重要,比如年齡,人力資源經(jīng)理想要1~3年經(jīng)驗(yàn)的行政專員,候選人40歲,該情況肯定會(huì)影響最終評(píng)分且很有可能總分是0分。所以把所有影響因子結(jié)合場(chǎng)景進(jìn)行歸類分析是十分必要的。4.4制定標(biāo)注規(guī)則(3)問(wèn)題類型標(biāo)簽化、結(jié)構(gòu)化。一般情況下標(biāo)注結(jié)果會(huì)以分?jǐn)?shù)的形式展示,ABCD或者0123。前期制定標(biāo)注規(guī)則時(shí),一定要把原因分析考慮進(jìn)去,列出所有不匹配的原因,形成結(jié)構(gòu)化的原因標(biāo)簽,有利于最終分析壞樣例的分類與占比,然后,算法或者策略團(tuán)隊(duì)在優(yōu)化時(shí)可以優(yōu)先解決占比高或影響惡劣的樣例。數(shù)據(jù)標(biāo)注是一項(xiàng)看似簡(jiǎn)單實(shí)際卻十分復(fù)雜的工作,涉及標(biāo)注分類、標(biāo)注規(guī)則制定、標(biāo)注原因分析、標(biāo)注系統(tǒng)搭建、標(biāo)注團(tuán)隊(duì)管理等,尤其涉及到專業(yè)領(lǐng)域的標(biāo)注則更困難。4.4制定標(biāo)注規(guī)則PART05執(zhí)行數(shù)據(jù)標(biāo)注圖像標(biāo)注專家阿德拉·巴里烏索于2007年開始使用標(biāo)簽系統(tǒng)地標(biāo)注SUN數(shù)據(jù)庫(kù),標(biāo)注了超過(guò)25萬(wàn)個(gè)物體。她記錄了標(biāo)注過(guò)程中曾遇到的困難和采用的解決方案,以便得到一致性高的注釋。巴里烏索在數(shù)據(jù)標(biāo)注中的主要心得如下。(1)在標(biāo)注圖像時(shí),首先對(duì)圖像進(jìn)行整體評(píng)估,衡量標(biāo)注難度。有些乍一看標(biāo)注難度較大的圖像,實(shí)際上圖中的元素很少,很容易標(biāo)記。4.5執(zhí)行數(shù)據(jù)標(biāo)注(2)標(biāo)注時(shí),通常由大到小進(jìn)行標(biāo)注(見(jiàn)圖4-7)。比如開放空間中先標(biāo)注天空,封閉空間內(nèi)先標(biāo)注天花板,然后再繼續(xù)添加其他東西。

圖4-7由大到小標(biāo)注4.5執(zhí)行數(shù)據(jù)標(biāo)注(3)標(biāo)記的順序不重要,但標(biāo)注時(shí)最好一行行地進(jìn)行,將一行內(nèi)所有類型相同的對(duì)象全都標(biāo)注上,降低標(biāo)簽寫錯(cuò)的可能。(4)一般不標(biāo)注鏡子里反射的物體,這很容易造成誤導(dǎo)。4.5執(zhí)行數(shù)據(jù)標(biāo)注(5)在圖像中有很多線條性物體時(shí)(如圖4-8中的扶手和欄桿),需要特別注意,有可能標(biāo)注出與所需完全相反的內(nèi)容(即孔內(nèi)被標(biāo)記為對(duì)象),標(biāo)注線在同一個(gè)位置經(jīng)過(guò)兩次是正常的,刻意避免可能會(huì)出現(xiàn)上述情況。

圖4-8扶手與欄桿4.5執(zhí)行數(shù)據(jù)標(biāo)注(6)標(biāo)注圖像中出現(xiàn)打開的門窗等情況時(shí),不僅僅是標(biāo)注門窗,也應(yīng)將門窗內(nèi)的物體也標(biāo)注上,這有助于增加深度感。(7)標(biāo)注時(shí)的標(biāo)注線條要好看一些,盡量避免弄成一塊一塊的(見(jiàn)圖4-9)。

圖4-9標(biāo)注線條的處理4.5執(zhí)行數(shù)據(jù)標(biāo)注(8)對(duì)于過(guò)于復(fù)雜的圖片,如果對(duì)圖中的內(nèi)容不夠熟悉,就干脆跳過(guò)。(9)如果一個(gè)物體被另一個(gè)物體遮擋,在給兩個(gè)物體做標(biāo)注時(shí),給兩個(gè)物體貼上標(biāo)簽,確保它們的邊緣重合(見(jiàn)圖4-10)。

圖4-10遮擋物體的處理4.5執(zhí)行數(shù)據(jù)標(biāo)注(10)在進(jìn)行標(biāo)注時(shí),有時(shí)需要放大和縮小。放大有助于標(biāo)注一些小細(xì)節(jié),但放大有可能造成錯(cuò)亂,有些東西局部放大后變得像其他物體。因此,在標(biāo)注之后需縮放至原始大小進(jìn)行審核。(11)標(biāo)注室內(nèi)空間時(shí),一般單獨(dú)標(biāo)記不同方向的墻,即便它們是相互連接的。4.5執(zhí)行數(shù)據(jù)標(biāo)注(12)在圖4-11中,圖像的復(fù)雜性是由于墻壁和拱門形成的不同深度平面造成的,在標(biāo)記時(shí)需要給拱門內(nèi)的元素進(jìn)行標(biāo)記。首先從兩堵墻開始,然后給墻壁和容易分辨的大物體進(jìn)行標(biāo)注,最后再去標(biāo)注小的一些細(xì)節(jié),有時(shí)候遺漏是不可避免地。

圖4-11

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論