




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)白皮書隨著智能時代的到來,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)進入成長期,旦行業(yè)格局逐漸清晰。人工 智能基礎(chǔ)數(shù)據(jù)服務(wù)方的上游是數(shù)據(jù)生產(chǎn)和外包提供者,下游是AI算法研發(fā)單位,人工智能 基礎(chǔ)數(shù)據(jù)服務(wù)方通過數(shù)據(jù)處理能力和項目管理能力為其提供整體的數(shù)據(jù)資源服務(wù),不過AI 算法研發(fā)單位和AI中臺也可提供一些數(shù)據(jù)處理工具,產(chǎn)業(yè)上下游普遍存在交叉。2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模為25.86億元,其中數(shù)據(jù)資源定制服務(wù)占比86%, 預(yù)計2025年市場規(guī)模將突破113億元.市場供給方主要由人工智能基礎(chǔ)數(shù)據(jù)服務(wù)供應(yīng)商和 算法研發(fā)單位EI建或直接獲取外包標注團隊的形式組成,其中供應(yīng)商是行業(yè)主要
2、支撐力量。數(shù)據(jù)安全、采標能力、數(shù)據(jù)質(zhì)量、管理能力、服務(wù)能力等仍是需求方的痛點,需要人工智能 基礎(chǔ)服務(wù)商有明確具體的安全管理流程、能夠深入理解算法標注需求、可提供精力集中旦高 質(zhì)量的服務(wù)、能夠積極配合、快速響應(yīng)需求方的要求。隨著算法需求越來越旺盛,依賴人工標注不能滿足市場需求,因此增強數(shù)據(jù)處理平臺持續(xù)學(xué) 習(xí)能力,由機器持續(xù)學(xué)習(xí)人工標注,提升預(yù)標注和自動標注能力對人工的替代率將成趨勢。 遠期,越來越多的長尾、小概率事件所產(chǎn)生的數(shù)據(jù)需求增強,機器模擬或機器生成數(shù)據(jù)會是 解決這一問題的良好途徑,及早研發(fā)相應(yīng)技術(shù)也將成為AI基礎(chǔ)數(shù)據(jù)服務(wù)商未來的護城河。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)概述人工智能基礎(chǔ)數(shù)據(jù)服務(wù)定義
3、意指為AI算法訓(xùn)練及優(yōu)化提供數(shù)據(jù)采集和標注等形式的服務(wù)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)指為AI算法訓(xùn)練及優(yōu)化提供的數(shù)據(jù)采集、清洗、信息抽取、標注等 服務(wù),以采集和標注為主。人工智能概念爆發(fā)伊始,算法、算力、數(shù)據(jù)就作為最重要的三要 素被人們樂道,進入落地階段,智能交互、人臉識別、無人駕駛等應(yīng)用成為了最大的熱門, AI公司開始比拼技術(shù)與產(chǎn)業(yè)的結(jié)合能力,而數(shù)據(jù)作為AI算法的“燃料”,是實現(xiàn)這一能力的 必要條件,因此,為機器學(xué)習(xí)算法訓(xùn)練、優(yōu)化提供數(shù)據(jù)采集、標注等服務(wù)的人工智能基礎(chǔ)數(shù) 據(jù)服務(wù)成為了這-人工智能熱潮中必不可少的環(huán)。如果說計算機工程師是AI的老師,那 基礎(chǔ)數(shù)據(jù)服務(wù)就是老師手中的教材。我們都知道,數(shù)據(jù)是驅(qū)
4、動人工智能浪潮全面興起的三大基礎(chǔ)要素之一。故而,數(shù)據(jù)的安全風(fēng) 險與否,成為了影響人工智能安全發(fā)展的關(guān)鍵因我們都知道,數(shù)據(jù)是驅(qū)動人工智能浪我們都知道,數(shù)據(jù)是驅(qū)動人工智能浪潮全面興起的三大基礎(chǔ)要素之一。故而,數(shù)據(jù)的安全風(fēng) 險與否,成為了影響人工智能在商業(yè)照明里,一些場合存在著智控的需求,這也是智慧系統(tǒng) 能落地的前提。目前的智慧系統(tǒng),在商業(yè)照明的應(yīng)用主要是節(jié)能,場景控制以及集中監(jiān)控等。在節(jié)能場合,般用到的控制方式是時間表控制,人感傳感器控制以及照度控制。比如倉庫 照明,一個有上萬平方米的倉庫,貨架依次排列,傳統(tǒng)方式是燈一直亮著,送取貨的人員或 在場景控制的場合,比如宴會廳就是一個很典型的應(yīng)用。大型酒
5、店的宴會廳又稱作多功能廳, 會舉辦各種各樣的活動,比如行業(yè)論壇會議,產(chǎn)品發(fā)布,企業(yè)培訓(xùn),生日宴會,婚禮宴會等, 每個活動對燈光的效果要求都不樣,在同活動中,不同的階段也對燈光有著不同的要求。 比如產(chǎn)品發(fā)布,在嘉賓入場階段,產(chǎn)品宣講階段,中場休息階段等燈光就有不一樣的要求。 會議室也有類似的場景,比如設(shè)置開會討論模式,PPT演示模式,中場休息模式,離開模式 等。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)發(fā)展歷程行業(yè)進入成長期,行業(yè)格局逐漸清晰伴隨國內(nèi)人工智能熱潮爆發(fā),大量的AI公司拿到融資,為了不斷提高算法精度,數(shù)據(jù)采標 需求也空前爆發(fā),一度催生了行業(yè)的繁榮。但早期的AI基礎(chǔ)數(shù)據(jù)服務(wù)門檻較低,玩家魚龍 混雜,使行業(yè)標
6、準模糊、服務(wù)質(zhì)量參差不齊。隨著競爭加快,AI公司對訓(xùn)練數(shù)據(jù)的質(zhì)量要 求也不斷提高,并且當(dāng)產(chǎn)業(yè)落地成為主旋律,需求方對垂直場景的定制化數(shù)據(jù)采標需求成為 主流,眾多小型AI基礎(chǔ)數(shù)據(jù)服務(wù)公司從數(shù)據(jù)質(zhì)量和采標能力上達不到要求,或被淘汰,或 依附大平臺,行業(yè)格局逐漸清晰,頭部公司實力逐漸凸顯。隨著算法需求越來越旺盛,目前 機器輔助標注、人工主要標注的手段需要改進提升,增強數(shù)據(jù)處理平臺持續(xù)學(xué)習(xí)和自學(xué)習(xí)能 力,增加機器能夠標注維度、提升機器處理數(shù)據(jù)的精度,由機器承擔(dān)主要標注工作將成為下 一階段的行業(yè)重心。未來,越來越多的長尾、小概率事件所產(chǎn)生的數(shù)據(jù)需求增強,人機協(xié)作 標注的模式性價比不足,機器模擬或機器生成
7、數(shù)據(jù)會是解決這一問題的良好途徑,及早研發(fā) 相應(yīng)技術(shù)也將成為AI基礎(chǔ)數(shù)據(jù)服務(wù)商未來的護城河。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的行業(yè)價值目前有監(jiān)督的深度學(xué)習(xí)是主流,標注數(shù)據(jù)是其學(xué)習(xí)根本人工智能是研究如何通過機器來模擬人類認知能力的科學(xué),機器學(xué)習(xí)是現(xiàn)階段實現(xiàn)人工智能 的主要手段。機器學(xué)習(xí)方法通常是從己知數(shù)據(jù)中學(xué)習(xí)規(guī)律或者判斷規(guī)則,建立預(yù)測模型,M 中,深度學(xué)習(xí)可以通過對低層特征的組合,形成更加抽象的高層屬性類別,自動從信息中學(xué) 習(xí)有效的特征并進行分類,而無需人為選取特征。憑借自動提取特征、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、端到 端學(xué)習(xí)等優(yōu)勢,深度學(xué)習(xí)在圖像和語音領(lǐng)域?qū)W習(xí)效果最佳,是當(dāng)今最熱門的算法架構(gòu)。在實 際應(yīng)用中,深度學(xué)習(xí)算法
8、多采用有監(jiān)督學(xué)習(xí)模式,即需要標注數(shù)據(jù)對學(xué)習(xí)結(jié)果進行反饋,在 大量數(shù)據(jù)訓(xùn)練下,算法錯誤率能大大降低?,F(xiàn)在的人臉識別、自動駕駛、語音交互等應(yīng)用都 采用這類方法訓(xùn)練,對于各類標注數(shù)據(jù)有著海量需求,可以說數(shù)據(jù)資源決定了當(dāng)今人工智能 的高度。由于應(yīng)用有監(jiān)督學(xué)習(xí)的AI算法對于標注數(shù)據(jù)的需求遠大于現(xiàn)有的標注效率和投入 預(yù)算,無監(jiān)督或僅需要少量標注數(shù)據(jù)的弱監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)成為了科學(xué)家探索的方向, 但目前無論從學(xué)習(xí)效果和使用邊界來看,均不能有效替代有監(jiān)督學(xué)習(xí),人工智能基礎(chǔ)數(shù)據(jù)服 務(wù)將持續(xù)釋放其對于人工智能的基礎(chǔ)支撐價值。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的主要產(chǎn)品形式 定制服務(wù)為主要服務(wù)形式,數(shù)據(jù)集產(chǎn)品集中于語音類賽道
9、目前,國內(nèi)Al基礎(chǔ)數(shù)據(jù)服務(wù)主要為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務(wù),數(shù)據(jù)集產(chǎn)品往往是AI 基礎(chǔ)數(shù)據(jù)服務(wù)商根據(jù)自身積累產(chǎn)出的標準數(shù)據(jù)集,以語音數(shù)據(jù)集為土,主:體偏普通話語音、 英文語音、方言語音等;為保證算法優(yōu)勢,客戶更多采用定制化服務(wù),由客戶提出具體需求, 數(shù)據(jù)服務(wù)商或直接對客戶提供的數(shù)據(jù)進行標注、或?qū)?shù)據(jù)進行采集并標注。大型的需求方, 為保障數(shù)據(jù)的安全,往往提供Web形式的自有標注平臺給執(zhí)行方,以此對整體項目進行把 控,也有一些AI基礎(chǔ)數(shù)據(jù)服務(wù)商向客戶提供私有化平臺建設(shè)服務(wù),或?qū)⒆陨砥脚_與甲方系 統(tǒng)兼容;除以上兩種形式外,部分AI基礎(chǔ)數(shù)據(jù)服務(wù)商還向算法服務(wù)進行拓展,提供算法訓(xùn) 練、模型搭建等服務(wù)。
10、人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā)展背景人工智能經(jīng)濟崛起為基礎(chǔ)數(shù)據(jù)服務(wù)提供長期向好的基本面2010年語音識別和計算機視覺領(lǐng)域產(chǎn)生重大突破,國內(nèi)開始萌生AI概念。到2015年,國 內(nèi)迎來人工智能創(chuàng)業(yè)熱潮,獨角獸不斷涌現(xiàn),融資記錄被不斷打破。2012年-2019年8月人 工智能領(lǐng)域共發(fā)生2787件投融資事件,總?cè)谫Y額達4740億元,人工智能成為最炙手可熱的 融資熱點,百度、阿里、騰訊、京東、華為等科技企業(yè)也紛紛加注。2017年至今,產(chǎn)業(yè)落 地成為AI行業(yè)的主流,人工智能賦能實體經(jīng)濟保持高速發(fā)展態(tài)勢,涉及行業(yè)包括安防、金 融、零售、交通、教育、醫(yī)療、營銷、工業(yè)、農(nóng)業(yè)、企服等眾多領(lǐng)域。下游的爆發(fā)式增長為 人工智
11、能基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā)展提供了長期向好的基本面。數(shù)據(jù)量呈指數(shù)式增長,非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用依賴于清洗標注PC、互聯(lián)網(wǎng)、消費級移動設(shè)備的興起宣告了數(shù)據(jù)時代的來臨,物聯(lián)網(wǎng)的發(fā)展更使線下業(yè)務(wù)產(chǎn) 生的大量數(shù)據(jù)被采集起來,數(shù)據(jù)量呈指數(shù)式增長,據(jù)IDC統(tǒng)計,全球每年生產(chǎn)的數(shù)據(jù)量將從 2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非結(jié)構(gòu)化數(shù)據(jù)。過去計算機主要 處理結(jié)構(gòu)化數(shù)據(jù),人工智能模型卻以處理非結(jié)構(gòu)化數(shù)據(jù)見長,但“玉不琢不成器”,數(shù)據(jù)經(jīng) 過清洗與標注才能被喚醒價值,這就產(chǎn)生了源源不斷的清洗與標注需求。在我國,每年需要 進行標注的語音數(shù)據(jù)超過200萬小時,圖片則有數(shù)億張。人工智能基礎(chǔ)數(shù)據(jù)
12、服務(wù)市場現(xiàn)狀人工智能基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)產(chǎn)業(yè)上下游普遍存在交叉AI基礎(chǔ)數(shù)據(jù)服務(wù)方的上游是數(shù)據(jù)生產(chǎn)和外包提供者,下游是AI算法研發(fā)單位,AI基礎(chǔ)數(shù)據(jù) 服務(wù)方通過數(shù)據(jù)處理能力和項目管理能力為其提供整體的數(shù)據(jù)資源服務(wù)。AI基礎(chǔ)數(shù)據(jù)服務(wù) 方整體有兩大類,一種是具備白有的標注基地或全職標注團隊,這類企業(yè)也參與產(chǎn)業(yè)上游部 分直接提供產(chǎn)能資源,另種是依靠眾包或外包模式,專注于數(shù)據(jù)產(chǎn)品的開發(fā)與項目執(zhí)行。 下游部分AI公司擁有自己的標注工具,也可通過AI中臺獲取一些通用標注工具,同時一些 數(shù)據(jù)需求大的企業(yè)還孵化了自己的數(shù)據(jù)服務(wù)團隊。整體而言,產(chǎn)業(yè)上下游普遍存在交叉關(guān)系。融資規(guī)模集中于千萬量級,早期融資項目居多從融資
13、規(guī)模來看,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場的融資多集中在千萬級別。從時間維度來看, 2015年人工智能基礎(chǔ)數(shù)據(jù)服務(wù)商獲得的融資金額相對較高,標志著行業(yè)初露頭角,受到資 本的認可。從獲得融資的企業(yè)數(shù)量來看,目前獲得融資的玩家并不多,資本市場表現(xiàn)的活躍 度不高。從融資輪次來看,大部分融資仍然集中于早期融資,目前上市的企業(yè)僅掛牌新三板 的數(shù)據(jù)堂一家(不考慮科技公司內(nèi)部孵化的基礎(chǔ)數(shù)據(jù)服務(wù)商)。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)毛利 率普遍較高,但為保持與人工智能市場前沿算法的匹時,需要投入大量研發(fā)成本進行數(shù)據(jù)處 理平臺與工具的研發(fā)升級,因此對融資仍有較強依賴。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)商業(yè)模式生產(chǎn)、獲客、部署合力馳動發(fā)展人工
14、智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)是典型的ToB型業(yè)務(wù),商業(yè)模式較為穩(wěn)定。在生產(chǎn)方面,主要通 過自建標注基地或標注團隊、搭建眾包平臺、采購供應(yīng)商外包服務(wù)(BPO)等模式實現(xiàn)生產(chǎn) 運營,大多企業(yè)主要采取眾包與外包模式,百度數(shù)據(jù)眾包、倍賽等企業(yè)自建標注基地或全職 標注團隊,對于培訓(xùn)較高素質(zhì)工作人員、完善團隊管理有積極意義:在獲客方面,主要通過 口碑傳播、學(xué)術(shù)會議與展會及代理渠道等模式進入市場,對銷售人員熟悉市場趨勢、客戶需 求的要求較高;在實施交付方面,有私有化部署和公有部署兩類,能夠較為靈活地應(yīng)對客戶 對數(shù)據(jù)安全、交付周期與成本的個性化需求。我們都知道,數(shù)據(jù)是羽動人工智能浪潮全面興起的三大基礎(chǔ)要素之一。故而,
15、數(shù)據(jù)的安全風(fēng) 險與否,成為了影響人工智能安全發(fā)展的關(guān)鍵因我們都知道,數(shù)據(jù)是驅(qū)動人工智能浪我們都知道,數(shù)據(jù)是驅(qū)動人工智能浪潮全面興起的三大基礎(chǔ)要素之-。故而,數(shù)據(jù)的安全風(fēng) 險與否,成為了影響人工智能在商業(yè)照明里,一些場合存在著智控的需求,這也是智慧系統(tǒng) 能落地的前提。目前的智慧系統(tǒng),在商業(yè)照明的應(yīng)用主要是節(jié)能,場景控制以及集中監(jiān)控等。在節(jié)能場合,一般用到的控制方式是時間表控制,人感傳感器控制以及照度控制。比如倉庫 照明,一個有上萬平方米的倉庫,貨架依次排列,傳統(tǒng)方式是燈一直亮著,送取貨的人員或在場景控制的場合,比如宴會廳就是個很典型的應(yīng)用。大型酒店的宴會廳又稱作多功能廳, 會舉辦各種各樣的活動,
16、比如行業(yè)論壇會議,產(chǎn)品發(fā)布,企業(yè)培訓(xùn),生日宴會,婚禮宴會等, 每個活動對燈光的效果要求都不-樣,在同活動中,不同的階段也對燈光有著不同的要求。 比如產(chǎn)品發(fā)布,在嘉賓入場階段,產(chǎn)品宣講階段,中場休息階段等燈光就有不一樣的要求。 會議室也有類似的場景,比如設(shè)置開會討論模式,PPT演示模式,中場休息模式,離開模式 等。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模2025年市場規(guī)模將突破百億,行業(yè)年復(fù)合增長率為23.5%86.2%,數(shù)據(jù)集產(chǎn)品占比12.9%,其他數(shù)據(jù)資源應(yīng)用服務(wù)占比0.9%;行業(yè)年復(fù)合增長率為 23.5%,預(yù)計2025年市場規(guī)模將突破110億元。從整體增速來看,行業(yè)發(fā)展較為穩(wěn)健,下游 人工智能行業(yè)持續(xù)
17、發(fā)力將形成長期利好。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)細分結(jié)構(gòu)純標注服務(wù)為主體,由供應(yīng)商提供服務(wù)占79%2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場以語音、視覺、NLP領(lǐng)域的標注服務(wù)為主,同時提 供采集與標注服務(wù)占比較少,這是由于生數(shù)據(jù)由需求方提供的情況較多,但這并不意味著市 場中數(shù)據(jù)采集需求弱,相反,人工智能技術(shù)落地后產(chǎn)生了大量新興垂直領(lǐng)域的數(shù)據(jù)需求,然 而這些數(shù)據(jù)采集難度大,能夠提供相關(guān)采集工具和服務(wù)的供應(yīng)商將獲取競爭優(yōu)勢。市場供給 方主要由企業(yè)自建或直接獲取外包團隊的形式以及供應(yīng)商組成,乂以供應(yīng)商為行業(yè)主要支撐 力量,占比79%。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場格局行業(yè)將提升至較高集中度,CR5占26%市場份額目前
18、人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)CR5占26%市場份額,行業(yè)集中度較為適中,既非寡占型 市場也非充分競爭市場,這一方面是由于百度數(shù)據(jù)眾包、海天瑞聲、數(shù)據(jù)堂等企業(yè)進入市場 較早,積累了較多客戶資源,另一方面則是由于下游企業(yè)之前多采用公開數(shù)據(jù)集訓(xùn)練模型, 對數(shù)據(jù)的高精度要求由來尚短,受生態(tài)傳導(dǎo)效應(yīng)滯后影響,市場門檻還不顯著,資金與研發(fā) 實力較為薄弱的中小企業(yè)還有較強的發(fā)展土壤。然而未來,隨著下游企業(yè)發(fā)展壯大,直接使 用外包團隊成本低廉、數(shù)據(jù)安全可控性強,一些基礎(chǔ)性需求將由下游企業(yè)自給自足,外部的 數(shù)據(jù)服務(wù)商現(xiàn)有的存量市場面臨下降,因此必須承擔(dān)高難度、前沿獨特性任務(wù),這就要求其 自身投入高精度、專業(yè)化數(shù)據(jù)處
19、理工具的研發(fā)和人工智能算法基礎(chǔ)研究,以把握客戶需求, 開拓增量市場,因此資金與研發(fā)實力成為較高行業(yè)門檻,同時受近年資本市場冷卻影響,- 批中小型廠商面臨業(yè)務(wù)收縮,再者部分廠商如倍賽開始在業(yè)內(nèi)并購,參考海外數(shù)據(jù)服務(wù)市場 發(fā)展情況(海外行業(yè)巨頭Appen多次并購其他企業(yè)),并購也將成為市場趨勢,多種因素疊 加影響下,行業(yè)集中度將提升。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)場景分析視圖基礎(chǔ)數(shù)據(jù)服務(wù)市場現(xiàn)狀人像與OCR數(shù)據(jù)是視圖基礎(chǔ)數(shù)據(jù)服務(wù)的主流在不考慮自動駕駛的前提下,2018年視圖基礎(chǔ)數(shù)據(jù)服務(wù)市場達到6.6億元,人像與OCR數(shù) 據(jù)是視圖基礎(chǔ)數(shù)據(jù)服務(wù)的主流,尤其人像數(shù)據(jù)占市場的42.9%。OCR占27%,其他的人體識
20、 別數(shù)據(jù)、商品識別數(shù)據(jù)、工業(yè)質(zhì)檢數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)及其他新場景數(shù)據(jù)等較為分散,合計 占市場30.1%。針對算法研發(fā)方向判斷數(shù)據(jù)需求,挖掘增量市場按照數(shù)據(jù)使用方向,可以劃分為新算法模型搭建與研發(fā)、在已有算法基礎(chǔ)上增加新模塊、解 決方案交付過程中定制優(yōu)化等三類,其中新算法模型搭建與研發(fā)和在已有算法基礎(chǔ)上增加新 模塊類型的數(shù)據(jù)需求是可以根據(jù)相應(yīng)機器視覺算法的前沿研發(fā)方向來判斷預(yù)測的。例如,就 智慧城市場景而言,針對漢族的人臉識別和視頻結(jié)構(gòu)化已較為成熟,在實際應(yīng)用場景中還需 針對少數(shù)民族和其他人種進行優(yōu)化以提升整體算法準確率,此外,跨鏡追蹤成為場景研發(fā)熱 點,相應(yīng)的跨攝像頭數(shù)據(jù)如何標注對算法訓(xùn)練也會產(chǎn)
21、生較大影響,再及,深度相機可以幫計 算機讀懂三維立體的監(jiān)控視頻,還能夠較好地解決復(fù)雜光照條件下視圖數(shù)據(jù)采集的問題,也 將在未來成為重要的研發(fā)方向,綜上,多民族、多人種數(shù)據(jù)、跨攝像頭數(shù)據(jù)、3D數(shù)據(jù)的采 集與標注服務(wù)將為視圖基礎(chǔ)數(shù)據(jù)服務(wù)市場的發(fā)展帶來增量空間,OCR、手機、零售等其他領(lǐng) 域也同理可針對算法研發(fā)方向挖掘增量市場。自動駕駛基礎(chǔ)數(shù)據(jù)服務(wù)應(yīng)用場景算法尚未成熟,對數(shù)據(jù)有長期需求,且缺口仍在L3級別以上的自動駕駛系統(tǒng)主要有感知、定位、預(yù)測、決策和控制五部分,其對于計算機 視覺技術(shù)的需求度遠高于ADAS,系統(tǒng)需要對雷達、攝像頭等傳感器采集的點云和圖像數(shù)據(jù) 進行抽取、處理和融合,構(gòu)建車輛行駛環(huán)境,
22、為預(yù)測和決策做依據(jù),這對于算法的準確性和 實時性有極大考驗。目前自動駕駛的視覺技術(shù)主要應(yīng)用有監(jiān)督的深度學(xué)習(xí),是基于己知變昂: 和因變量推導(dǎo)函數(shù)關(guān)系的算法模型,需要大量的標注數(shù)據(jù)對模型進行訓(xùn)練和調(diào)優(yōu)。在世界級 無人駕駛大賽中,主辦方往往提供近億張圖片、數(shù)十萬張標注圖片供參賽團隊訓(xùn)練使用;在 路測或真實道路駕駛時,如人車混雜、分布稠密、行為多變等復(fù)雜環(huán)境問題更需要海量的真 實路況數(shù)據(jù)不斷對算法進行優(yōu)化,才能保障無人駕駛車輛正??捎谩H缃駠鴥?nèi)自動駕駛飛速 發(fā)展,AI公司、科技公司、高精地圖廠商、車廠等參與者眾多,該領(lǐng)域的數(shù)據(jù)采集和標注 需求已經(jīng)成為AI基礎(chǔ)數(shù)據(jù)服務(wù)的主要項目之一,且自動駕駛算法應(yīng)用仍
23、待優(yōu)化,數(shù)據(jù)需求 缺口仍在,市場遠未飽和。自動駕駛基礎(chǔ)數(shù)據(jù)服務(wù)市場現(xiàn)狀2025年采標規(guī)模將超24億,科技公司和車廠是主要需求方自動駕駛基礎(chǔ)數(shù)據(jù)主要是道路交通圖像、障礙物圖像、車輛行駛環(huán)境圖像等,需求方以科技 公司、汽車廠商和高精地圖廠商為主,2018年自動駕駛行業(yè)基礎(chǔ)數(shù)據(jù)服務(wù)規(guī)模為5.76億元, 預(yù)計2025年將超24億元,三方規(guī)模占比分別為49%、47.2%和3.8%,行業(yè)數(shù)據(jù)總?cè)蝿?wù)量超 一億張,2D圖像標注與3D點云標注任務(wù)晟基本為2:1。其中高精地圖廠商算法較為成熟, 數(shù)據(jù)自動化標注程度可達90%左右,外包需求較少;以百度、圖森未來為代表的自動駕駛科 技公司直是該領(lǐng)域基礎(chǔ)數(shù)據(jù)服務(wù)的主要買
24、方,平均各家算法訓(xùn)練圖像數(shù)據(jù)累積需求在千萬 級以上,隨著落地項目進程加快,將會有更多細分場景的需求產(chǎn)生;近幾年,汽車廠商在 ADAS和自動駕駛方向的投入明顯,上汽、吉利等廠商年投入均可達數(shù)億元,對于數(shù)據(jù)的采 集和標注需求也逐年增加,預(yù)計未來3年中,汽車廠商將成為需求主力。智能交互基礎(chǔ)數(shù)據(jù)服務(wù)市場現(xiàn)狀遠場語音交互成為主流需求,中文類數(shù)據(jù)仍占據(jù)市場核心2018年語音交互相關(guān)數(shù)據(jù)服務(wù)市場規(guī)模達到13.5億元。語音交互主要分為近場交互、中場 交互和遠場交互,以智能影音家居、可交互機器人和車機為代表的中遠場交互類數(shù)據(jù)服務(wù)需 求合計占到智能交互基礎(chǔ)數(shù)據(jù)服務(wù)的68%,成為當(dāng)前智能交互基礎(chǔ)數(shù)據(jù)服務(wù)的主流需求,
25、因 此針對遠場語音交互的低噪聲環(huán)境服務(wù)具有較強發(fā)展?jié)摿妥h價能力。在服務(wù)語種上,中文 (含方言)服務(wù)占據(jù)71%的市場份額,外語種資源相對稀缺,采集和標注難度較大,成本相 對更高,目前占29%的市場份額。智能交互基礎(chǔ)數(shù)據(jù)服務(wù)技術(shù)趨勢實現(xiàn)跨語音識別、語義理解的復(fù)合數(shù)據(jù)標注FI前企業(yè)在智能交互系統(tǒng)的建設(shè)中,對單純的語音識別或合成方面技術(shù)能力相對較完善,而 在上下文理解、多輪對話、情緒識別、模糊語義識別、意圖判斷等方面的研發(fā)痛點更強,根 據(jù)智能交互系統(tǒng)算法的發(fā)展,迭代并設(shè)計符合算法需求的NLP數(shù)據(jù)產(chǎn)品,有助于從數(shù)據(jù)層 面推動智能交互系統(tǒng)的發(fā)展。特別的,對話系統(tǒng)的效果對標注數(shù)據(jù)的質(zhì)量和規(guī)模依賴性很強,
26、但目前受標注數(shù)據(jù)和模型能力的雙重制約,對話流程還無法對語音、語義整個交互流程打通, 而實現(xiàn)跨語音識別、語義理解的復(fù)合數(shù)據(jù)標注可以幫助減輕語音信息與文本信息之間的信息 誤傳導(dǎo),對整個對話流程效果增強能夠產(chǎn)生積極影響,將增加智能交互基礎(chǔ)數(shù)據(jù)服務(wù)探索的 可能性。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)需求分析人工智能基礎(chǔ)數(shù)據(jù)服務(wù)客戶定位客戶分為AI公司、科技公司、科研機構(gòu)、行業(yè)企業(yè)四類從需求方來看,AI公司和科技公司占主要份額,AI公司更聚焦于視覺、語音等某一類型的 基礎(chǔ)數(shù)據(jù)服務(wù),而科技公司結(jié)合集團優(yōu)勢,向人工智能整體發(fā)力,不同部門會產(chǎn)生多類型數(shù) 據(jù)需求,科研機構(gòu)需求占比較小。此外傳統(tǒng)意義上的行業(yè)企業(yè),如汽車廠商、手機
27、品牌商、 安防廠商等傳統(tǒng)企業(yè)圍繞自身業(yè)務(wù)進行技術(shù)拓展,也開始產(chǎn)生AI基礎(chǔ)數(shù)據(jù)需求,并且量級 逐漸增大,未來將釋放更多市場空間。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)核心需求類型AI應(yīng)用三大階段,對基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)生差異化需求企業(yè)應(yīng)用人工智能算法要經(jīng)歷研發(fā)、訓(xùn)練和落地三個階段,不同階段對于AI基礎(chǔ)數(shù)據(jù)服務(wù) 也有差異化需求。研發(fā)需求是新算法研發(fā)拓展時產(chǎn)生的數(shù)據(jù)需求,般量級較大,初期多采 用標準數(shù)據(jù)集產(chǎn)品訓(xùn)練,中后期則需要專業(yè)的數(shù)據(jù)定制采標服務(wù);訓(xùn)練需求是通過標注數(shù)據(jù) 對已有算法的準確率、魯棒性等能力進行優(yōu)化,是市場中的主要需求,以定制化服務(wù)為主, 對算法的準確性有較高要求;落地場景的業(yè)務(wù)需求中算法較為成熟,涉及的數(shù)據(jù)
28、采集和標注 更貼合具體業(yè)務(wù),如飛機保養(yǎng)中的涂料識別數(shù)據(jù)等,對于標注能力和供應(yīng)商主動提出優(yōu)化意 見的服務(wù)意識有較強要求。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)需求痛點五大需求痛點決定AI基礎(chǔ)數(shù)據(jù)服務(wù)商的服務(wù)標準目前需求方在選擇數(shù)據(jù)服務(wù)時往往會遇到數(shù)據(jù)安全、采標能力、數(shù)據(jù)質(zhì)量、管理能力、服務(wù) 能力等痛點。對于數(shù)據(jù)安全,需求方希望基礎(chǔ)數(shù)據(jù)服務(wù)商有明確具體的安全管理流程,X寸數(shù) 據(jù)傳輸、存儲,以及結(jié)項后的數(shù)據(jù)銷毀等環(huán)節(jié)比較重視。在采標能力方面,需求方算法越來 越貼近業(yè)務(wù),希望數(shù)據(jù)服務(wù)商對于自動駕駛、工業(yè)等有一定門檻的領(lǐng)域有采集能力,并且能 理解客戶意圖,配合標注,甚至可以提出標注建議;根據(jù)市場反應(yīng),大多數(shù)數(shù)據(jù)服務(wù)公司首
29、 次交付項FI時,數(shù)據(jù)的準確率普遍偏低,都需要一到兩次的返工,故需求方對無效數(shù)據(jù)少、 準確率高的公司更加青睞。對于執(zhí)行效率,一般AI基礎(chǔ)數(shù)據(jù)服務(wù)商都能在項目周期內(nèi)完成, 但管理能力較弱的公司很難在兼顧多個項目時做到精力集中、高質(zhì)量地服務(wù)客戶,同時執(zhí)行 團隊的素養(yǎng)與信譽也是重要影響因素。服務(wù)意識是一項軟實力,需要AI基礎(chǔ)數(shù)據(jù)服務(wù)商能 夠積極配合、快速響應(yīng)需求方要求。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)趨勢及建議人工智能基礎(chǔ)數(shù)據(jù)服務(wù)發(fā)展建議企業(yè)由被動執(zhí)行向主動服務(wù)的意識躍遷單純依據(jù)客戶各個項目的訴求進行數(shù)據(jù)采集和標注屬于被動執(zhí)行,主觀能動性低、行業(yè)邊界 有限,各家公司的產(chǎn)品和服務(wù)趨于同質(zhì)化、競爭呈膠著狀態(tài),制約著AI基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā) 展。通過對需求方的研究,發(fā)現(xiàn)除安全性、質(zhì)量、效率等核心關(guān)注點之外,越來越多的需求 方對數(shù)據(jù)服務(wù)公司產(chǎn)生了主動服務(wù)的需求,希望數(shù)據(jù)公司能夠更憧算法技術(shù)、更憧需求場景, 甚至能參與到算法的研發(fā)中來,給出數(shù)據(jù)采標方面的優(yōu)化建議,這也為數(shù)據(jù)服務(wù)商形成差異 化競爭帶來了契機,尤其是在AI落地階段,在垂直場景中能夠形成一套集調(diào)研、咨詢、設(shè) 計、采集、標注為一體的AI基礎(chǔ)數(shù)據(jù)整體解決辦法,將在收入和業(yè)務(wù)邊界上實現(xiàn)突破。隨著智能時代的到來,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)進入成長期,且行業(yè)格局逐
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中小學(xué)開學(xué)綜合征心理健康疏導(dǎo)課件
- 開學(xué)第一課心理疏導(dǎo)收心教育主題班會
- 2024年廣告設(shè)計師創(chuàng)新要素試題及答案
- 護理健康教育與護理安全
- 關(guān)注實務(wù)國際商業(yè)美術(shù)設(shè)計師考試試題及答案
- 2024年織物檢驗員考試題目試題及答案
- 廣告設(shè)計師證書考試創(chuàng)意開發(fā)題及答案
- 病理職稱考試題庫及答案
- 安全b考試題庫及答案
- 環(huán)境保護與紡織行業(yè)試題及答案
- 《長期主義 關(guān)注短期業(yè)績 更要投資長期增長》讀書筆記思維導(dǎo)圖PPT模板下載
- GB/T 4857.4-2008包裝運輸包裝件基本試驗第4部分:采用壓力試驗機進行的抗壓和堆碼試驗方法
- 故宮博物院筆試試題
- 思政教育融入小學(xué)語文教學(xué)的策略研究
- 供方準入申請表
- DDI領(lǐng)導(dǎo)力-高績效輔導(dǎo)課件
- 《煙酒有危害》公開課教案
- 高三生物一輪復(fù)習(xí)課件:生物變異類型的判斷與實驗探究
- 先簡支后連續(xù)T梁橋設(shè)計計算書
- 機械制造及其自動化專業(yè)畢業(yè)設(shè)計(1)解讀
- (完整word版)樁位偏差驗收記錄表
評論
0/150
提交評論