《數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例》教學(xué)課件-02數(shù)據(jù)標(biāo)注的概念、工具與方法_第1頁
《數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例》教學(xué)課件-02數(shù)據(jù)標(biāo)注的概念、工具與方法_第2頁
《數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例》教學(xué)課件-02數(shù)據(jù)標(biāo)注的概念、工具與方法_第3頁
《數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例》教學(xué)課件-02數(shù)據(jù)標(biāo)注的概念、工具與方法_第4頁
《數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例》教學(xué)課件-02數(shù)據(jù)標(biāo)注的概念、工具與方法_第5頁
已閱讀5頁,還剩43頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能技術(shù)應(yīng)用核心課程系列教材數(shù)據(jù)標(biāo)注工程——概念、方法、工具與案例第2章數(shù)據(jù)標(biāo)注概念、工具與方法2.2數(shù)據(jù)標(biāo)注對象人工智能技術(shù)應(yīng)用核心課程系列教材2.1數(shù)據(jù)標(biāo)注的概念及其對人工智能發(fā)展的意義

2.3數(shù)據(jù)標(biāo)注工具與平臺2.4典型數(shù)據(jù)標(biāo)注技術(shù)2.5數(shù)據(jù)標(biāo)注工程2.6本章小結(jié)2.7作業(yè)與練習(xí)2.1數(shù)據(jù)標(biāo)注的概念及其對人工智能發(fā)展的意義第2章數(shù)據(jù)標(biāo)注概念、工具與方法數(shù)據(jù)標(biāo)注(DataAnnotations)是指對收集到的、未處理的原始數(shù)據(jù)或初級數(shù)據(jù),包括語音、圖片、文本、視頻等類型的數(shù)據(jù)進(jìn)行加工處理,并轉(zhuǎn)換為機器可識別信息的過程。數(shù)據(jù)標(biāo)注與人工智能相伴而生,是大部分人工智能算法得以有效應(yīng)用的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)標(biāo)注越準(zhǔn)確、標(biāo)注的數(shù)據(jù)量越大,算法的性能就越好、準(zhǔn)確度就越高。根據(jù)國際數(shù)據(jù)公司(IDC)的監(jiān)測數(shù)據(jù)顯示,2018年全球大數(shù)據(jù)儲量達(dá)到33.0ZB,同比增長52.8%。到2020年,全球?qū)⒖偣矒碛谐^44ZB的數(shù)據(jù)量;其中文本、照片、音頻、視頻、醫(yī)療影像等非結(jié)構(gòu)化內(nèi)容超過85%。大數(shù)據(jù)蘊含的前所未有的社會價值和商業(yè)價值,是一個發(fā)展?jié)摿κ志薮蟮臋C遇。因此,大數(shù)據(jù)也被被譽為“新的石油”。2.1.1全球數(shù)據(jù)的快速增長催生大數(shù)據(jù)產(chǎn)業(yè)2.1數(shù)據(jù)標(biāo)注的概念及其對人工智能發(fā)展的意義第2章數(shù)據(jù)標(biāo)注概念、工具與方法20世紀(jì)80年代出現(xiàn)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法,因為沒有足夠的數(shù)據(jù)支持而步履維艱自2012年之后,數(shù)據(jù)技術(shù)推動數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)及云計算等技術(shù)的快速發(fā)展,智慧城市、智慧園區(qū)、智能家電、穿戴設(shè)備、智能機器人等智能應(yīng)用不斷涌現(xiàn),對經(jīng)濟社會發(fā)展產(chǎn)生了巨大而又深遠(yuǎn)的影響,同時也采集、獲取、積累了大量的原始數(shù)據(jù)資源。智能應(yīng)用技術(shù)中算法模型的學(xué)習(xí)和訓(xùn)練依賴于大量數(shù)據(jù)樣本訓(xùn)練集,由此也產(chǎn)生了大量場景化的人工智能數(shù)據(jù)需求。2.1.2數(shù)據(jù)產(chǎn)業(yè)推動人工智能應(yīng)用技術(shù)的發(fā)展2.1數(shù)據(jù)標(biāo)注的概念及其對人工智能發(fā)展的意義第2章數(shù)據(jù)標(biāo)注概念、工具與方法數(shù)據(jù)標(biāo)注就是將大量的、原始的、雜亂的數(shù)據(jù)轉(zhuǎn)化為規(guī)范化的、計算機能夠讀懂的、標(biāo)識出關(guān)鍵特征的數(shù)據(jù)集,從而支持人工智能的相關(guān)應(yīng)用。數(shù)據(jù)標(biāo)注質(zhì)量影響人工智能應(yīng)用效率。高質(zhì)量的、準(zhǔn)確標(biāo)注的數(shù)據(jù)將最大限度地提升人工智能判別的準(zhǔn)確率;而低質(zhì)量的、沒有準(zhǔn)確標(biāo)注的數(shù)據(jù)會影響、甚至阻滯人工智能的進(jìn)化能力。人工智能的發(fā)展促使數(shù)據(jù)標(biāo)注不斷進(jìn)步。隨著人工智能的不斷發(fā)展,對數(shù)據(jù)標(biāo)注的需求度越來越高,數(shù)據(jù)標(biāo)注任務(wù)要求不斷細(xì)化,以滿足不同行業(yè)對數(shù)據(jù)的不同要求。因此,高質(zhì)量的數(shù)據(jù)標(biāo)注對于促進(jìn)人工智能行業(yè)健康發(fā)展具有重要意義。2.1.3數(shù)據(jù)標(biāo)注對于人工智能應(yīng)用的意義2.1數(shù)據(jù)標(biāo)注的概念及其對人工智能發(fā)展的意義第2章數(shù)據(jù)標(biāo)注概念、工具與方法第2章數(shù)據(jù)標(biāo)注概念、工具與方法2.1數(shù)據(jù)標(biāo)注的概念及其對人工智能發(fā)展的意義

人工智能技術(shù)應(yīng)用核心課程系列教材2.2數(shù)據(jù)標(biāo)注對象2.3數(shù)據(jù)標(biāo)注工具與平臺2.4典型數(shù)據(jù)標(biāo)注技術(shù)2.5數(shù)據(jù)標(biāo)注工程2.6本章小結(jié)2.7作業(yè)與練習(xí)數(shù)據(jù)集(DataSet)又稱為資料集、數(shù)據(jù)集合、資料集合或數(shù)據(jù)產(chǎn)品,是經(jīng)過規(guī)范化整理、工程化標(biāo)注的一組具有統(tǒng)一格式的數(shù)據(jù)集合。人工智能數(shù)據(jù)集主要分為語音數(shù)據(jù)集、圖像數(shù)據(jù)集、文本數(shù)據(jù)集和視頻數(shù)據(jù)集等四大類別。部分國際人工智能公共數(shù)據(jù)集如下:2.2.1數(shù)據(jù)集2.2數(shù)據(jù)標(biāo)注對象第2章數(shù)據(jù)標(biāo)注概念、工具與方法在人與人、人與計算機的信息交互中,需要一種更加方便、自然的交互方式。語言是人類最重要、最有效、最常用和最方便的信息交流形式。人工智能語音數(shù)據(jù)集,按照不同的維度,通??梢苑譃槿N:(1)按照語種分類:世界上有五千多種語言,目前的語音數(shù)據(jù)集主要包含了使用人數(shù)較多的語種,如漢語、英語、西班牙語、法語等。(2)按照方言分類:漢語有七大方言區(qū),外語也有方言之分(3)按照語音屬性分類:朗讀語音、引導(dǎo)語音、自然對話、情感語音等上述各種維度的語音數(shù)據(jù)集,在形成數(shù)據(jù)產(chǎn)品的時候往往會多維度結(jié)合,各種維度交錯,構(gòu)成大量的語音數(shù)據(jù)產(chǎn)品。2.2.2語音數(shù)據(jù)集2.2數(shù)據(jù)標(biāo)注對象第2章數(shù)據(jù)標(biāo)注概念、工具與方法圖像(圖片)經(jīng)數(shù)字化后形成可以存儲、編輯的圖像數(shù)據(jù)(圖片數(shù)據(jù))。對于計算機來說一張數(shù)字化圖片的內(nèi)容信息就相當(dāng)于一連串代表每個像素位置和顏色的數(shù)字序列,也就是圖像數(shù)據(jù)。人工智能圖像數(shù)據(jù)集,按照不同的維度,通常可以分為七種:(1)按照應(yīng)用場景分類:例如人體識別、車輛識別、車牌識別、動物識別等(2)按照局部或整體特征分類:以車輛為例,車牌為局部,車型為整體(3)按照待識別對象的數(shù)量分類:例如單人、人群(4)按照氣象條件分類:晴天、陰天、雨天、雪天、霧霾、白天、黑夜等(5)按照拍攝角度分類:正面、側(cè)面、上面、下面、背面(6)按照光線情況分類:順光、側(cè)光、逆光、側(cè)逆光(7)按照拍攝對象分類:不同人種、不同性別、不同表情等2.2.3圖像數(shù)據(jù)集2.2數(shù)據(jù)標(biāo)注對象第2章數(shù)據(jù)標(biāo)注概念、工具與方法文本數(shù)據(jù)是指不能參與算術(shù)運算的字符集合,也稱為字符型數(shù)據(jù)。文本數(shù)據(jù)集主要應(yīng)用于自然語言理解、機器翻譯、語音識別、智能交通等領(lǐng)域。文本數(shù)據(jù)可收集的種類包括:命令詞、常見人名、地名庫、歌曲名稱、影視名稱、餐飲詞匯、短信庫、電子郵件等文本分類、語言識別、機器翻譯、文本校對等。2.2.4文本數(shù)據(jù)集2.2數(shù)據(jù)標(biāo)注對象第2章數(shù)據(jù)標(biāo)注概念、工具與方法視頻是典型的、復(fù)合的多媒體數(shù)據(jù),可以包含圖像、語音、音樂、音效和文字等多種媒體信息。視頻數(shù)據(jù)的特點:(1)信息內(nèi)容豐富:視頻數(shù)據(jù)是隨時間變化的圖像流,含有更為豐富的其他媒體所無法表達(dá)的信息和內(nèi)容。(2)數(shù)據(jù)量巨大:靜態(tài)圖像、文本等類型的數(shù)據(jù),數(shù)據(jù)量較小,而視頻數(shù)據(jù),數(shù)據(jù)量巨大。(3)時空二重性的復(fù)雜結(jié)構(gòu)關(guān)系:視頻數(shù)據(jù)由多幅連續(xù)的圖像序列構(gòu)成,既有時間屬性又有空間屬性。(4)數(shù)據(jù)解釋的多樣性、主觀性:視頻數(shù)據(jù)具有十分豐富的內(nèi)涵,受人的個體主觀因素影響較大,不同的人對同一段視頻會產(chǎn)生不同的感受和重述。2.2.5視頻數(shù)據(jù)集2.2數(shù)據(jù)標(biāo)注對象第2章數(shù)據(jù)標(biāo)注概念、工具與方法第2章數(shù)據(jù)標(biāo)注概念、工具與方法2.1數(shù)據(jù)標(biāo)注的概念及其對人工智能發(fā)展的意義

人工智能技術(shù)應(yīng)用核心課程系列教材2.3數(shù)據(jù)標(biāo)注工具與平臺2.2數(shù)據(jù)標(biāo)注對象2.4典型數(shù)據(jù)標(biāo)注技術(shù)2.5數(shù)據(jù)標(biāo)注工程2.6本章小結(jié)2.7作業(yè)與練習(xí)常見的語音數(shù)據(jù)標(biāo)注工具包括:單段落語音數(shù)據(jù)標(biāo)注、多段落語音數(shù)據(jù)標(biāo)注等。(1)單段落語音標(biāo)注:標(biāo)注人員試聽語音資料后,需要判定語音資料的有效性,說話人的說話內(nèi)容以及周圍環(huán)境等信息,試聽判斷完成后,將相應(yīng)信息填寫到音頻下方的文本輸入框中2.3.1語音數(shù)據(jù)標(biāo)注工具2.3數(shù)據(jù)標(biāo)注工具與平臺第2章數(shù)據(jù)標(biāo)注概念、工具與方法(2)多段落語音標(biāo)注:標(biāo)注人員同樣需要試聽一段語音資料,與單段落標(biāo)注不同的是,多段落標(biāo)注中的語音視頻為多人對話,標(biāo)注人員可以拖動鼠標(biāo)對有人聲的語音資料進(jìn)行選取,之后對語音資料中說話人的性別、說話內(nèi)容以及周圍環(huán)境等信息進(jìn)行識別,并填寫音頻下方的相關(guān)內(nèi)容2.3.1語音數(shù)據(jù)標(biāo)注工具2.3數(shù)據(jù)標(biāo)注工具與平臺第2章數(shù)據(jù)標(biāo)注概念、工具與方法圖片標(biāo)注工具主要實現(xiàn)的標(biāo)注功能有:關(guān)鍵點標(biāo)注、2D標(biāo)注框標(biāo)注、3D標(biāo)注框標(biāo)注、線標(biāo)注、區(qū)域標(biāo)注、圖片屬性標(biāo)注等2.3.2圖像數(shù)據(jù)標(biāo)注工具2.3數(shù)據(jù)標(biāo)注工具與平臺第2章數(shù)據(jù)標(biāo)注概念、工具與方法視頻標(biāo)注工具通常包含視頻通用功能標(biāo)注工具和物體跟蹤標(biāo)注工具:(1)視頻通用功能標(biāo)注工具:包含點(Shift+A)、線(Shift+S)、矩形(Shift+D)、多邊形(Shift+F),并支持快捷鍵選擇工具。支持標(biāo)注圖形使用delete鍵刪除或者直接點擊下面屬性名稱刪除。2.3.3視頻數(shù)據(jù)標(biāo)注工具2.3數(shù)據(jù)標(biāo)注工具與平臺第2章數(shù)據(jù)標(biāo)注概念、工具與方法下拉列表表單輸入框表單(2)物體跟蹤標(biāo)注工具:標(biāo)注人員通過拖動鼠標(biāo)進(jìn)行畫框以及輸入物體編號的方式對車輛、行人進(jìn)行標(biāo)注,在此過程中,用戶可以通過點擊重播、上一幀、下一幀、上十幀、下十幀按鈕或直接拖動進(jìn)度條的方式來對視頻播放進(jìn)度進(jìn)行控制。2.3.3視頻數(shù)據(jù)標(biāo)注工具2.3數(shù)據(jù)標(biāo)注工具與平臺第2章數(shù)據(jù)標(biāo)注概念、工具與方法常見的文本數(shù)據(jù)標(biāo)注工具主要有實體標(biāo)注、實體關(guān)系標(biāo)注、文檔屬性標(biāo)注、閱讀理解、交互意圖等。2.3.4文本數(shù)據(jù)標(biāo)注工具2.3數(shù)據(jù)標(biāo)注工具與平臺第2章數(shù)據(jù)標(biāo)注概念、工具與方法(1)文本句法樹標(biāo)注:標(biāo)注人員對文本進(jìn)行分詞、詞性標(biāo)注、短語機構(gòu)標(biāo)注,依存關(guān)系標(biāo)注等更深層次的處理能力,可滿足自然語言處理的不同層次的要求。2.3.4文本數(shù)據(jù)標(biāo)注工具2.3數(shù)據(jù)標(biāo)注工具與平臺第2章數(shù)據(jù)標(biāo)注概念、工具與方法(1)文本屬性標(biāo)注:標(biāo)注人員可以對兩條文字?jǐn)?shù)據(jù)進(jìn)行對比,也可以根據(jù)模板中提供的類別模板對文本內(nèi)容進(jìn)行標(biāo)注,例如選取一句話中的主語、謂語和賓語等。頁面最上方有一行文本文字,標(biāo)注人員通過閱讀文本確定文本的主題、時間,發(fā)生地點等內(nèi)容,根據(jù)實際情況將相關(guān)內(nèi)容填寫在下方的文本框內(nèi)。2.3.4文本數(shù)據(jù)標(biāo)注工具2.3數(shù)據(jù)標(biāo)注工具與平臺第2章數(shù)據(jù)標(biāo)注概念、工具與方法3D點云標(biāo)注是指對激光雷達(dá)等設(shè)備采集的3D圖像,通過3D標(biāo)注框?qū)④囕v、行人、廣告標(biāo)志和樹木等目標(biāo)物體標(biāo)注出,供計算機視覺、無人駕駛等人工智能模型訓(xùn)練使用。2.3.5

3D點云標(biāo)注工具2.3數(shù)據(jù)標(biāo)注工具與平臺第2章數(shù)據(jù)標(biāo)注概念、工具與方法車輛、行人的3D點云圖第2章數(shù)據(jù)標(biāo)注概念、工具與方法2.1數(shù)據(jù)標(biāo)注的概念及其對人工智能發(fā)展的意義

人工智能技術(shù)應(yīng)用核心課程系列教材2.4典型數(shù)據(jù)標(biāo)注技術(shù)2.2數(shù)據(jù)標(biāo)注對象2.3數(shù)據(jù)標(biāo)注工具與平臺2.5數(shù)據(jù)標(biāo)注工程2.6本章小結(jié)2.7作業(yè)與練習(xí)人工智能數(shù)據(jù)的標(biāo)注技術(shù)隨著設(shè)備的研發(fā)會產(chǎn)生新的標(biāo)注要求,隨著算法技術(shù)的發(fā)展呈現(xiàn)精度更高、更智能化的特點。以下對語音轉(zhuǎn)寫、人臉檢測和關(guān)鍵點檢測、圖像分割、圖像識別和視頻處理等關(guān)鍵標(biāo)注技術(shù)進(jìn)行介紹。2.4

典型數(shù)據(jù)標(biāo)注技術(shù)第2章數(shù)據(jù)標(biāo)注概念、工具與方法語音轉(zhuǎn)寫技術(shù)主要包括前端處理、語音識別相關(guān)技術(shù)。(1)前端處理:將接收到語音信號進(jìn)行預(yù)處理,增強或降噪等。(2)識別過程:首先對預(yù)處理后的聲音信號進(jìn)行特征提取,然后進(jìn)行語音活動檢測將語音信號和非語音信號(包括無聲段或背景噪聲)進(jìn)行劃分,最后基于聲學(xué)模型對語音特征進(jìn)行訓(xùn)練和識別。常用聲學(xué)模型包括:隱馬爾科模型-高斯混合模型(HMM-GMM)、深度神經(jīng)網(wǎng)絡(luò)(DNN)等。2.4.1語音轉(zhuǎn)寫技術(shù)2.4典型數(shù)據(jù)標(biāo)注技術(shù)第2章數(shù)據(jù)標(biāo)注概念、工具與方法(1)面部特征點定位任務(wù)即根據(jù)輸入的人臉圖像,自動定位出面部關(guān)鍵特征點,如眼睛、鼻尖、嘴角點、眉毛以及人臉各部件輪廓點等。(2)這項技術(shù)的應(yīng)用很廣泛,比如自動人臉識別,表情識別以及人臉動畫自動合成等。(3)由于不同的姿態(tài)、表情、光照以及遮擋等因素的影響,需要準(zhǔn)確地定位出各個關(guān)鍵特征點。早期的人臉識別研究主要針對具有較強約束條件的人臉圖像,需要設(shè)計巧妙的人臉圖像紋理、語義表達(dá)的“特征”,進(jìn)而完成識別模型的訓(xùn)練。(4)隨著深度學(xué)習(xí)算法、GPU/FPGA計算力的增強,出現(xiàn)了“端到端”人臉檢測技術(shù)路線,圖像特征的學(xué)習(xí)被融入神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)當(dāng)中,將人臉檢測、人臉關(guān)鍵點檢測、人臉圖像分類一并輸出。顯然,人臉檢測方法又進(jìn)入了新階段和新高度。2.4.2人臉檢測和關(guān)鍵點檢測2.4典型數(shù)據(jù)標(biāo)注技術(shù)第2章數(shù)據(jù)標(biāo)注概念、工具與方法圖像分割是要對圖像每個像素所屬的目標(biāo)類別進(jìn)行識別,常見的圖像分割算法包括FCN、Mask-rcnn等。目前,目前圖像分割的軟件如下表所示:2.4.3圖像分割2.4典型數(shù)據(jù)標(biāo)注技術(shù)第2章數(shù)據(jù)標(biāo)注概念、工具與方法視頻標(biāo)注工具Vatic源自麻省理工學(xué)院的一個研究項目。輸入一段視頻,支持自動抽取成粒度合適的標(biāo)注任務(wù)并在流程上支持接入亞馬遜眾包平臺。除此之外,其還有很多實用的特性:簡潔使用的圖形用戶界面,支持多種快捷鍵操作;基于opencv的視頻跟蹤,這樣就可以抽樣的標(biāo)注,減少工作量;具體使用時,可以設(shè)定要標(biāo)注的物體屬性標(biāo)簽,比如:水果、人、車等等。然后指派任務(wù)給到眾包平臺(也可以是自己的數(shù)據(jù)工程師)?,F(xiàn)階段支持的標(biāo)注樣式是標(biāo)注框(box)標(biāo)注。2.4.4視頻類標(biāo)注2.4典型數(shù)據(jù)標(biāo)注技術(shù)第2章數(shù)據(jù)標(biāo)注概念、工具與方法第2章數(shù)據(jù)標(biāo)注概念、工具與方法2.1數(shù)據(jù)標(biāo)注的概念及其對人工智能發(fā)展的意義

人工智能技術(shù)應(yīng)用核心課程系列教材2.5數(shù)據(jù)標(biāo)注工程2.2數(shù)據(jù)標(biāo)注對象2.3數(shù)據(jù)標(biāo)注工具與平臺2.4典型數(shù)據(jù)標(biāo)注技術(shù)2.6本章小結(jié)2.7作業(yè)與練習(xí)數(shù)據(jù)標(biāo)注工程,也稱為工程化數(shù)據(jù)標(biāo)注,是指數(shù)據(jù)產(chǎn)品制造(數(shù)據(jù)集)的系統(tǒng)化、工程化、流程化的組織與實施過程,可以劃分為數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)質(zhì)檢、數(shù)據(jù)驗收交付等五大流程。2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法數(shù)據(jù)采集是人工智能數(shù)據(jù)工廠中生產(chǎn)數(shù)據(jù)的第一關(guān)。人工智能領(lǐng)域必須對采集的數(shù)據(jù)進(jìn)行良好的把關(guān),才能有效提高后續(xù)質(zhì)量。數(shù)據(jù)采集的方法主要四種:互聯(lián)網(wǎng)數(shù)據(jù)采集(網(wǎng)絡(luò)抓?。?、眾包、行業(yè)合作以及各種傳感器數(shù)據(jù)。(1)互聯(lián)網(wǎng)數(shù)據(jù)采集:互聯(lián)網(wǎng)數(shù)據(jù)采集也稱網(wǎng)絡(luò)抓取,主要是通過數(shù)據(jù)爬蟲和網(wǎng)頁解析進(jìn)行。數(shù)據(jù)爬蟲架構(gòu)如下圖所示:2.5.1數(shù)據(jù)采集2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法(2)數(shù)據(jù)眾包采集:數(shù)據(jù)眾包采集是以數(shù)據(jù)支撐平臺為基礎(chǔ),集全社會的力量進(jìn)行采集,并對數(shù)據(jù)的噪音、錯誤、遺漏進(jìn)行發(fā)現(xiàn)和糾正。數(shù)據(jù)眾包采集主要應(yīng)用場景是基于現(xiàn)有的數(shù)據(jù)采集人力、設(shè)備和時間無法滿足海量的原始數(shù)據(jù)采集需求,在成本可接受的范圍內(nèi)可以采用眾包模式。數(shù)據(jù)眾包采集如下圖所示:2.5.1數(shù)據(jù)采集2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法(3)數(shù)據(jù)行業(yè)合作:主要是對擁有龐大和高質(zhì)量數(shù)據(jù)資源的行業(yè)企業(yè)和機構(gòu),通過數(shù)據(jù)連接以及人工智能大數(shù)據(jù)服務(wù)平臺對數(shù)據(jù)進(jìn)行清洗、處理,并整合、分析,在企業(yè)混合云平臺中對數(shù)據(jù)資產(chǎn)的管理與審核,最后將數(shù)據(jù)用于人工智能應(yīng)用。2.5.1數(shù)據(jù)采集2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法(4)傳感器數(shù)據(jù)采集:傳感器數(shù)據(jù)采集是計算機與外部物理世界連接的橋梁。在計算機廣泛應(yīng)用的今天,各種錄像攝像設(shè)備、氣候環(huán)保監(jiān)測設(shè)備、道路交通監(jiān)測監(jiān)控設(shè)備等等。不同傳感器接收不同類型信號的難易程度差別很大。在實際采集時,噪聲也可能帶來一些麻煩,傳感器的參數(shù)對數(shù)據(jù)采集也有一定的影響,傳感器進(jìn)行數(shù)據(jù)采集的一般結(jié)構(gòu)如圖所示。2.5.1數(shù)據(jù)采集2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法數(shù)據(jù)處理是對采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)審核、去重、去噪、標(biāo)準(zhǔn)化、規(guī)范化、審查、校驗等一系列數(shù)據(jù)整理、轉(zhuǎn)換、清洗操作。(1)數(shù)據(jù)處理工具:主要用于數(shù)據(jù)審核和脫敏、語音&圖像&視頻&文本數(shù)據(jù)分析和多源數(shù)據(jù)關(guān)聯(lián)集成。(2)數(shù)據(jù)清洗方法:數(shù)據(jù)清洗包括無效值和缺失值的處理、數(shù)據(jù)一致性檢查、數(shù)據(jù)查重等工作。2.5.2數(shù)據(jù)處理2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法數(shù)據(jù)標(biāo)注方式包括人工標(biāo)注、半自動標(biāo)注、自動標(biāo)注、眾包等等。具體步驟如下:數(shù)據(jù)處理是對采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)審核、去重、去噪、標(biāo)準(zhǔn)化、規(guī)范化、審查、校驗等一系列數(shù)據(jù)整理、轉(zhuǎn)換、清洗操作。(1)定義所需標(biāo)注數(shù)據(jù)和預(yù)估數(shù)據(jù)量:數(shù)據(jù)標(biāo)注前應(yīng)完成以下五項準(zhǔn)備工作:

①分析數(shù)據(jù)。明確機器學(xué)習(xí)和模型訓(xùn)練過程中所需的標(biāo)注數(shù)據(jù)類型、量級、用途及應(yīng)用場景等。②整理數(shù)據(jù)。明確數(shù)據(jù)與標(biāo)簽文件存放的目錄結(jié)構(gòu),在任務(wù)分配與回收時,應(yīng)按指定的目錄進(jìn)行數(shù)據(jù)組織。③明確命名規(guī)則。應(yīng)明確數(shù)據(jù)與標(biāo)簽文件的命名方式,命名規(guī)則應(yīng)避免數(shù)據(jù)更新送代時的重名,使于數(shù)據(jù)追蹤、標(biāo)注追蹤,且數(shù)據(jù)文件名與標(biāo)簽文件名應(yīng)保持一致。④預(yù)估數(shù)據(jù)量。根據(jù)標(biāo)注任務(wù)的人力獲取模式、工具選擇、標(biāo)注任務(wù)類型、算法選擇以及整個項目的成本對所需標(biāo)注的數(shù)據(jù)量進(jìn)行預(yù)估。⑤標(biāo)注數(shù)據(jù)定義與需求。明確標(biāo)注數(shù)據(jù)的定義并確定最終的需求量。2.5.3

數(shù)據(jù)標(biāo)注2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法(2)標(biāo)注說明規(guī)則。

①標(biāo)注說明規(guī)則職責(zé)分工。數(shù)據(jù)需求方應(yīng)負(fù)責(zé)確保數(shù)據(jù)標(biāo)注的規(guī)則符合該領(lǐng)域的業(yè)務(wù)和專業(yè)常識,并根據(jù)標(biāo)注規(guī)則,檢查所標(biāo)注的數(shù)據(jù)是否滿足數(shù)據(jù)需求方。②標(biāo)注說明規(guī)則定義。明確項目背景、意義及數(shù)據(jù)用場景,包含項目標(biāo)注工具、任務(wù)描述、標(biāo)注方法、正確示例、常見錯誤等內(nèi)容標(biāo)注。③標(biāo)注說明規(guī)則內(nèi)容。標(biāo)注說明規(guī)則包括但不限于項目背景、版本信息、任務(wù)描述、保密責(zé)任、標(biāo)注方法、正確示例、注意事項和質(zhì)量要求。④執(zhí)行方法及注意事項。應(yīng)加強數(shù)據(jù)標(biāo)注員相關(guān)標(biāo)注規(guī)則培訓(xùn),保證每個標(biāo)注人員理解標(biāo)注說明規(guī)則,滿足技能要求。⑤標(biāo)注說明中術(shù)語體系規(guī)范化。術(shù)語體系的規(guī)范化至少應(yīng)滿足國家法規(guī)、項目需求方、項目執(zhí)行方的規(guī)定,且確保標(biāo)注人員對術(shù)語和定義理解的一致性。2.5.3

數(shù)據(jù)標(biāo)注2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法(3)標(biāo)注人力供給成本。應(yīng)根據(jù)標(biāo)注任務(wù)的數(shù)據(jù)量級、保密性與資質(zhì)要求、對業(yè)務(wù)規(guī)程的理解程度、成本預(yù)算以及交付時間等各類因素評價并確認(rèn)標(biāo)注人力供給方式。標(biāo)注人力模式可包括:內(nèi)部自營標(biāo)注、第三方標(biāo)注、眾包標(biāo)注等。

2.5.3

數(shù)據(jù)標(biāo)注2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法(4)標(biāo)注工具和標(biāo)注平臺選擇。標(biāo)注工具應(yīng)滿足以下條件:①易操作性:標(biāo)注工具應(yīng)降低標(biāo)注人員的操作難度,提供交互方式的自有標(biāo)注。②規(guī)范性:標(biāo)注工具的數(shù)據(jù)導(dǎo)出格式,應(yīng)滿足或可轉(zhuǎn)換到格式要求。③高效性:標(biāo)注工具應(yīng)保證標(biāo)注任務(wù)的完成效率。標(biāo)注平臺包含標(biāo)注工具全部功能、團隊管理、任務(wù)分發(fā)、質(zhì)量審核等環(huán)節(jié)的模塊,且將所有標(biāo)注環(huán)節(jié)工具化。規(guī)模較大的平臺可完成圖像、文本、語音或視頻等不同任務(wù)的標(biāo)注。當(dāng)數(shù)據(jù)量相對較小、數(shù)據(jù)類型相對單一、標(biāo)注周期較短時,宜選擇標(biāo)注工具進(jìn)行標(biāo)注。當(dāng)標(biāo)注量較大、數(shù)據(jù)類型較多、標(biāo)注難度較大且周期較長時,宜選擇標(biāo)注平臺進(jìn)行標(biāo)注。

2.5.3數(shù)據(jù)標(biāo)注2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法(5)標(biāo)注任務(wù)創(chuàng)建、分發(fā)、開展和回收。具體內(nèi)容如下:①標(biāo)注任務(wù)創(chuàng)建:明確任務(wù)基本信息和需求,完成任務(wù)配置和數(shù)據(jù)上傳。②標(biāo)注人物分發(fā):根據(jù)任務(wù)發(fā)布者確定的參數(shù)及需求,將標(biāo)注任務(wù)分發(fā)給標(biāo)注人員,同時規(guī)定標(biāo)注人數(shù)、每天工作量、子任務(wù)回收時間點、任務(wù)結(jié)束時間點等內(nèi)容③標(biāo)注任務(wù)開展:根據(jù)實際任務(wù)靈活采用半自動標(biāo)注或全人工標(biāo)注。在標(biāo)注前期,可根據(jù)標(biāo)注規(guī)則對少量樣本先行試標(biāo)注,將試標(biāo)注結(jié)果反饋給數(shù)據(jù)需求方,確認(rèn)標(biāo)注結(jié)果正確無誤后,再批量開展數(shù)據(jù)標(biāo)注任務(wù)。④標(biāo)注任務(wù)回收:在項目協(xié)定的任務(wù)將要完成時,項目負(fù)責(zé)人需回收標(biāo)注作業(yè),且需保證已分配的任務(wù)能被完整交付。

2.5.3數(shù)據(jù)標(biāo)注2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法數(shù)據(jù)質(zhì)檢是保證數(shù)據(jù)質(zhì)量的重要環(huán)節(jié)。在數(shù)據(jù)質(zhì)檢操作方面,可通過排查或抽樣檢查的方式。質(zhì)檢時,一般由多名專職審核人員對數(shù)據(jù)質(zhì)量進(jìn)行層層把關(guān),一旦發(fā)現(xiàn)數(shù)據(jù)不合要求,則交由數(shù)據(jù)標(biāo)注人員進(jìn)行返工復(fù)查并糾正,直到最終通過審核為止。數(shù)據(jù)質(zhì)檢主要包含以下三個步驟:(1)質(zhì)量檢查:確保數(shù)據(jù)有價值,符合數(shù)據(jù)需求方的特定應(yīng)用目的。(2)質(zhì)量反饋:確保標(biāo)注過程可控,并產(chǎn)生預(yù)期的結(jié)果。遇到質(zhì)量較低數(shù)據(jù)時及時預(yù)警反饋,并查明原因。(3)質(zhì)量檢查與控制中合格標(biāo)準(zhǔn)的確認(rèn):需在抽查前建立并確認(rèn)合格標(biāo)準(zhǔn),并在相關(guān)環(huán)節(jié)貫徹實施。2.5.4

數(shù)據(jù)質(zhì)檢2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法數(shù)據(jù)標(biāo)注質(zhì)量標(biāo)準(zhǔn):對于數(shù)據(jù)標(biāo)注行業(yè),數(shù)據(jù)標(biāo)注的質(zhì)量標(biāo)準(zhǔn)就是標(biāo)注的準(zhǔn)確性,主要包括圖像數(shù)據(jù)標(biāo)注、語音數(shù)據(jù)標(biāo)注、文本數(shù)據(jù)標(biāo)注等質(zhì)量標(biāo)準(zhǔn)。(1)圖像類型的數(shù)據(jù)驗收:數(shù)據(jù)結(jié)果為帶有標(biāo)簽的數(shù)據(jù),包含標(biāo)簽的具體內(nèi)容,及此圖像標(biāo)簽對應(yīng)的圖像空間位置(可選)。標(biāo)注文件輸出格式推薦使用易解析、易存儲的數(shù)據(jù)格式,格式包括但不限于JSON或XML。(2)文本類型的數(shù)據(jù)驗收:數(shù)據(jù)結(jié)果包含文本標(biāo)簽的位置和標(biāo)簽的具體內(nèi)容。標(biāo)注文件的輸出格式推薦使用易解析、易存儲的數(shù)據(jù)格式,包括JSON、XML、TXT等。(3)語音類型的數(shù)據(jù)驗收:數(shù)據(jù)結(jié)果包含語音標(biāo)簽的時間位置和標(biāo)簽的具體內(nèi)容(例如轉(zhuǎn)寫內(nèi)容、說話人信息、噪聲等)。標(biāo)注文件的輸出格式為JSON文件或其他通用輸出格式。2.5.5數(shù)據(jù)交付2.5數(shù)據(jù)標(biāo)注工程第2章數(shù)據(jù)標(biāo)注概念、工具與方法(4)視頻類型的數(shù)據(jù)驗收:數(shù)據(jù)結(jié)果可包

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論