人工智能-數(shù)據(jù)標(biāo)注_第1頁
人工智能-數(shù)據(jù)標(biāo)注_第2頁
人工智能-數(shù)據(jù)標(biāo)注_第3頁
人工智能-數(shù)據(jù)標(biāo)注_第4頁
人工智能-數(shù)據(jù)標(biāo)注_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能----數(shù)據(jù)標(biāo)注什么是數(shù)據(jù)標(biāo)注?

如果把人工智能比作金字塔,最頂端的是人工智能應(yīng)用(比如無人車、機(jī)器人等),而最低端則是數(shù)據(jù)服務(wù)。人工智能的最終目標(biāo)使計(jì)算機(jī)能夠模擬人的思維方式和行為。若想達(dá)到這個(gè)目標(biāo),則需要大量優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)使人工智能可以通過學(xué)習(xí)從而形成更好的模型,變得更加智能化。所以簡單來說,數(shù)據(jù)標(biāo)注就是使用自動(dòng)化工具通過分類、畫框、注釋等等對收集來的數(shù)據(jù)進(jìn)行標(biāo)記以形成可供計(jì)算機(jī)識(shí)別分析的優(yōu)質(zhì)數(shù)據(jù)的過程。

我們有張飛機(jī)的圖片,并且上面標(biāo)注著"飛機(jī)"兩個(gè)字,然后機(jī)器通過學(xué)習(xí)了無數(shù)張飛機(jī)圖片中的特征,直到它可以自行識(shí)別飛機(jī),這時(shí)候我們再給機(jī)器任意一張飛機(jī)的圖片,它就能認(rèn)出來這是飛機(jī)了。例如

再以飛機(jī)為例子,假設(shè)我們有1000張標(biāo)注著"飛機(jī)"的圖片,那么我們可以拿900張作為訓(xùn)練集,100張作為測試集。機(jī)器從900張飛機(jī)的圖片中學(xué)習(xí)得到一個(gè)模型,然后我們將剩下的100張機(jī)器沒有見過的圖片去給它識(shí)別,那么我們就能夠得到這個(gè)模型的準(zhǔn)確率了。訓(xùn)練集與測試集哪些數(shù)據(jù)需要標(biāo)注以及標(biāo)記什么?

數(shù)據(jù)標(biāo)注的對象主要分為文本、圖片、音頻、視頻四個(gè)種類:1)文本標(biāo)注主要包括情感分析、知識(shí)庫、關(guān)鍵詞提取、文字翻譯、搜索引擎優(yōu)化等。就比如,識(shí)別一句話蘊(yùn)含的情感,翻譯等等;2)圖片標(biāo)注主要包括圖像分割、物體檢測、圖像語義理解、圖像生成、圖片加注等服務(wù);3)音頻標(biāo)注主要包括對全球主要語言和語料、包括方言、特殊情景語音進(jìn)行識(shí)別標(biāo)注,語音識(shí)別等等;4)視頻標(biāo)注主要包括對視頻中出現(xiàn)的物體、文字、語音、情景等進(jìn)行標(biāo)注。一:數(shù)據(jù)標(biāo)注的基本流程不斷地用標(biāo)注后的數(shù)據(jù)去訓(xùn)練模型,不斷調(diào)整模型參數(shù),得到指標(biāo)數(shù)值更高的模型。二:常見的幾種數(shù)據(jù)標(biāo)注類型1.分類標(biāo)注:分類標(biāo)注,就是我們常見的打標(biāo)簽。一般是從既定的標(biāo)簽中選擇數(shù)據(jù)對應(yīng)的標(biāo)簽,是封閉集合。如下圖,一張圖就可以有很多分類/標(biāo)簽:成人、女、黃種人、長發(fā)等。對于文字,可以標(biāo)注主語、謂語、賓語,名詞動(dòng)詞等。適用:文本、圖像、語音、視頻應(yīng)用:臉齡識(shí)別,情緒識(shí)別,性別識(shí)別二:常見的幾種數(shù)據(jù)標(biāo)注類型2.標(biāo)框標(biāo)注:機(jī)器視覺中的標(biāo)框標(biāo)注,很容易理解,就是框選要檢測的對象。如人臉識(shí)別,首先要先把人臉的位置確定下來。行人識(shí)別,如下圖。適用:圖像應(yīng)用:人臉識(shí)別,物品識(shí)別二:常見的幾種數(shù)據(jù)標(biāo)注類型3.區(qū)域標(biāo)注:相比于標(biāo)框標(biāo)注,區(qū)域標(biāo)注要求更加精確。邊緣可以是柔性的。如自動(dòng)駕駛中的道路識(shí)別。適用:圖像應(yīng)用:自動(dòng)駕駛二:常見的幾種數(shù)據(jù)標(biāo)注類型4.描點(diǎn)標(biāo)注:一些對于特征要求細(xì)致的應(yīng)用中常常需要描點(diǎn)標(biāo)注。人臉識(shí)別、骨骼識(shí)別等。適用:圖像應(yīng)用:人臉識(shí)別、骨骼識(shí)別二:常見的幾種數(shù)據(jù)標(biāo)注類型5.其他標(biāo)注:標(biāo)注的類型除了上面幾種常見,還有很多個(gè)性化的。根據(jù)不同的需求則需要不同的標(biāo)注。如自動(dòng)摘要,就需要標(biāo)注文章的主要觀點(diǎn),這時(shí)候的標(biāo)注嚴(yán)格上就不屬于上面的任何一種了。三:數(shù)據(jù)標(biāo)注的過程1.標(biāo)注標(biāo)準(zhǔn)的確定

確定好標(biāo)準(zhǔn)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵一步,要保證有個(gè)可以參照的標(biāo)準(zhǔn)。一般可以:設(shè)置標(biāo)注樣例、模版。例如顏色的標(biāo)準(zhǔn)比色卡。對于模棱兩可的數(shù)據(jù),設(shè)置統(tǒng)一處理方式,如可以棄用,或則統(tǒng)一標(biāo)注。參照的標(biāo)準(zhǔn)有時(shí)候還要考慮行業(yè)。以文本情感分析為例,“疤痕”一詞,在心理學(xué)行業(yè)中,可能是個(gè)負(fù)面詞,而在醫(yī)療行業(yè)則是一個(gè)中性詞。三:數(shù)據(jù)標(biāo)注的過程2.標(biāo)注形式的確定標(biāo)注形式一般由算法人員制定,例如某些文本標(biāo)注,問句識(shí)別,只需要對句子進(jìn)行0或1的標(biāo)注。是問句就標(biāo)1,不是問句就標(biāo)0。四:數(shù)據(jù)標(biāo)注工具有哪些?(1)NLP標(biāo)注工具:StanfordCoreNLP–NaturallanguagesoftwareNLP標(biāo)注工具BRAT通用文本標(biāo)注工具labelmedoccano(2)圖像標(biāo)注工具:LabelImg四:數(shù)據(jù)標(biāo)注工具包含哪些?一個(gè)數(shù)據(jù)標(biāo)注工具一般包含:1.進(jìn)度條:用來指示數(shù)據(jù)標(biāo)注的進(jìn)度。標(biāo)注人員一般都是有任務(wù)量要求的,一方面方便標(biāo)注人員查看進(jìn)度,一方面方便統(tǒng)計(jì)。2.標(biāo)注主體:這個(gè)可以根據(jù)標(biāo)注形式進(jìn)行設(shè)計(jì),原則上是越簡潔易用越好。根據(jù)標(biāo)注所需要的注意力可以分為單個(gè)標(biāo)注和多個(gè)標(biāo)注的形式,可根據(jù)需求選擇。3.數(shù)據(jù)導(dǎo)入導(dǎo)出功能:如果你的標(biāo)注工具是直接數(shù)據(jù)對接到模型上的,可以不需要。4.收藏功能:標(biāo)注人員疲勞,或者是遇到了那種模棱兩可的數(shù)據(jù),則可以先收藏,等后面再標(biāo)。5.質(zhì)檢機(jī)制:在分發(fā)數(shù)據(jù)的時(shí)候,可以隨機(jī)分發(fā)一些已經(jīng)標(biāo)注過的數(shù)據(jù),來檢測標(biāo)注人員可靠性。標(biāo)注工具——labelImg的使用該工具對于windows、Linux、Mac操作系統(tǒng)都支持,這里介紹windows和Linux下的安裝方法,Mac下的安裝可以去看項(xiàng)目的README文檔。Windowsgithub上提供了windows下的exe文件,下載下來后直接雙擊運(yùn)行即可打開labelImg,進(jìn)行數(shù)據(jù)的標(biāo)注。LinuxLinux下的安裝,需要從源碼構(gòu)建,README文檔中提供了python2+Qt4和python3+Qt5的構(gòu)建方法:標(biāo)注工具——labelImg的使用無論是windows還是linux下,都提供了一個(gè)預(yù)定義的類別文件,data/predefined_classes.txt,其內(nèi)容如下:可以在標(biāo)注目標(biāo)類別的時(shí)候從下拉框中選擇,也可以修改這個(gè)文件,定義好自己要檢測的目標(biāo)的類別,支持中文。標(biāo)注工具——labelImg的使用無論是windows還是linux下,都提供了一個(gè)預(yù)定義的類別文件,data/predefined_classes.txt,其內(nèi)容如下:可以在標(biāo)注目標(biāo)類別的時(shí)候從下拉框中選擇,也可以修改這個(gè)文件,定義好自己要檢測的目標(biāo)的類別,支持中文。標(biāo)注工具——labelImg的使用1.windows為例,雙擊labelImage.exe,稍等幾秒鐘,就會(huì)看到如下界面:標(biāo)注工具——labelImg的使用2.加載一個(gè)圖片目錄,第一張圖片會(huì)自動(dòng)打開,按下w鍵,就可以標(biāo)注目標(biāo),若快捷鍵不能用,將中文輸入法狀態(tài)切換到英文狀態(tài)就好:標(biāo)注工具——labelImg的使用3.標(biāo)注完成后記得保存操作,然后按下快捷鍵d,就可以切換到下一張繼續(xù)標(biāo)注。當(dāng)所有的圖片標(biāo)注完成后,要按照voc2007的數(shù)據(jù)集標(biāo)準(zhǔn)將圖片和xml文件放到固定的目錄結(jié)構(gòu)下,具體的結(jié)構(gòu)如下:標(biāo)注工具——labelImg的使用4.要將圖片數(shù)據(jù)集劃分成訓(xùn)練集、驗(yàn)證集、測試集,可以使用如下python代碼,將該代碼文件和ImageSets目錄放在同一級執(zhí)行:標(biāo)注工具——labelImg的使用5.執(zhí)行后,會(huì)在ImageSets/Main目錄下生成如下文件:標(biāo)注工具——labelImg的使用6.生成yolov3需要的數(shù)據(jù)格式了,將代碼文件和VOCdevkit目錄放在同一級執(zhí)行,注意修改代碼中的classes為想要檢測的目標(biāo)類別集合。標(biāo)注工具——labelImg的使用7.執(zhí)行后,會(huì)在當(dāng)前目錄生成幾個(gè)文件:

測試集和訓(xùn)練集,所以保留train.txt和2007_test.txt,其它文件可以刪除,然后把train.txt重命名為2007_train.txt(不重命名也可以的,只是為了和2007_test.txt名字看起來風(fēng)格一致),如此兩個(gè)符合yolov3訓(xùn)練和測試要求的數(shù)據(jù)集2007_train.txt和2007_test.txt,注意,這兩個(gè)txt中包含的僅僅是圖片的路徑。

當(dāng)我們得到了2007_train.txt、2007_test.txt、labels目錄和其下的txt文件后,數(shù)據(jù)標(biāo)注工作就算完成了。五:數(shù)據(jù)整理與留存在標(biāo)注工作結(jié)束之后,拿到的數(shù)據(jù)根據(jù)業(yè)務(wù)和模型的需求,不同類型的數(shù)據(jù)要分開進(jìn)行存儲(chǔ)。例如:人臉標(biāo)識(shí)中,戴帽子和不戴帽子,正臉和側(cè)臉,光線的明暗對于算法模型都有很大的影響,為了可以隨時(shí)調(diào)整建模數(shù)據(jù),需要用不同的文件夾進(jìn)行存儲(chǔ)。除了根據(jù)不同的數(shù)據(jù)特征進(jìn)行區(qū)分之外,還需要根據(jù)數(shù)據(jù)是訓(xùn)練集。測試集還是驗(yàn)證集來對文件進(jìn)行劃分,根據(jù)模型訓(xùn)練的效果可能要對標(biāo)注好的數(shù)據(jù)做一些增刪,所以在一開始就做好數(shù)據(jù)的分類就很有必要了。對于文件夾的命名方面,以駝峰命名法和下劃線命

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論