中國大數(shù)據(jù)分析平臺行業(yè)研究報告_第1頁
中國大數(shù)據(jù)分析平臺行業(yè)研究報告_第2頁
中國大數(shù)據(jù)分析平臺行業(yè)研究報告_第3頁
中國大數(shù)據(jù)分析平臺行業(yè)研究報告_第4頁
中國大數(shù)據(jù)分析平臺行業(yè)研究報告_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中國大數(shù)據(jù)分析平臺行業(yè)研究報告3大數(shù)據(jù)分析平臺市場分析2大數(shù)據(jù)分析平臺構(gòu)建建議3行業(yè)應(yīng)用與典型案例實踐4大數(shù)據(jù)分析平臺行業(yè)概述1大數(shù)據(jù)分析行業(yè)投資分析5?2022.12iResearch

I

4行業(yè)界定來源:艾瑞咨詢研究院自主研究及繪制。驅(qū)動業(yè)務(wù)的全場景數(shù)據(jù)分析平臺,提供實時、多維的數(shù)據(jù)分析和智能決策大數(shù)據(jù)分析平臺,是企業(yè)用戶在大數(shù)據(jù)環(huán)境下用于分析與決策的平臺。按技術(shù)架構(gòu)劃分,主要包含數(shù)據(jù)收集與存儲、數(shù)據(jù)計算、數(shù)據(jù)分析與決策三個層級。從服務(wù)邊界來看,大數(shù)據(jù)分析平臺概念小于數(shù)據(jù)中臺,強調(diào)平臺的數(shù)據(jù)分析與決策能力,弱化了數(shù)據(jù)本身的規(guī)劃、治理與服務(wù);在

OLAP

之上,又融合了深度學習等技術(shù),在提升數(shù)據(jù)分析深度和廣度的同時,也極大增加了數(shù)據(jù)服務(wù)在業(yè)務(wù)側(cè)的低門檻和友好性。企業(yè)通過構(gòu)建大數(shù)據(jù)分析平臺,聚攏各業(yè)務(wù)系統(tǒng)數(shù)據(jù),打通全渠道組織各業(yè)務(wù)維度,用數(shù)據(jù)分析驅(qū)動業(yè)務(wù),滿足企業(yè)級寬表實時分析、實時

BI

報表分析、用戶行為分析、自助分析、

AI

智能分析等全方位需求。大數(shù)據(jù)分析平臺技術(shù)框架及核心組件數(shù)據(jù)收集與存儲層數(shù)據(jù)計算層數(shù)據(jù)應(yīng)用層企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)企業(yè)內(nèi)部非結(jié)構(gòu)化數(shù)據(jù)企業(yè)外部數(shù)據(jù)流計算批計算數(shù)據(jù)分析與決策層實時分析 離線分析 多模分析 AI分析 深度學習實時BI報表分析 用戶行為分析 運營數(shù)據(jù)分析 用戶標簽體系 實時檢索技術(shù)沿革(一)來源:艾瑞咨詢研究院根據(jù)公開資料整理及繪制。平臺技術(shù)架構(gòu)持續(xù)更新迭代,由離線處理向?qū)崟r分析演進來源:艾瑞咨詢研究院根據(jù)公開資料整理及繪制。架構(gòu)剖析架構(gòu)剖析基于

Hadoop

分析架構(gòu)的流程原理:各類結(jié)構(gòu)化數(shù)據(jù)通過采集管道進入

Kafka,Spark

實時消費Kafka

的數(shù)據(jù),寫入集群內(nèi)的

HDFS,RDS

數(shù)據(jù)庫中的數(shù)據(jù)通過Spark

每天一次全量掃表同步至

HDFS。HDFS

存儲匯總用戶數(shù)據(jù),對數(shù)據(jù)庫數(shù)據(jù)定期執(zhí)行snapshot?;?/p>

Hadoop

分析架構(gòu)的優(yōu)缺點:優(yōu)點:借助

Hadoop

集群的高并發(fā)能力,實現(xiàn)百

TB

PB

級數(shù)據(jù)的離線計算和處理,同時數(shù)據(jù)存儲在

HDFS

上,存儲成本低。缺點:數(shù)據(jù)定期入庫,數(shù)據(jù)計算的時效性通常是

T+1。數(shù)據(jù)庫結(jié)合

AP

分析引擎架構(gòu)的流程原理:將平臺架構(gòu)引入

TP

引擎結(jié)合

AP

引擎實現(xiàn)實時分析平臺,各類結(jié)構(gòu)化數(shù)據(jù)同步至分析引擎后便可進行交互分析。數(shù)據(jù)庫結(jié)合AP分析引擎架構(gòu)的優(yōu)缺點:優(yōu)點:舍棄了傳統(tǒng)離線大數(shù)據(jù)架構(gòu),實現(xiàn)實時批量計算,在

GB到100TB

級別的計算有了很大提升,BI

人員無需等待

T+1的離線計算后得到最終結(jié)果,大幅提升數(shù)據(jù)資產(chǎn)的商業(yè)價值。缺點:在處理百

PB

級以上數(shù)據(jù)時,ClickHouse

架構(gòu)的擴展能力、復(fù)雜場景計算和存儲成本相對Hadoop方案較弱。基于Hadoop的分析架構(gòu)數(shù)據(jù)庫結(jié)合AP分析引擎架構(gòu)(以ClickHouse為例)Key-ValuedatastoreKafka

LoggingLibraryMySQLPostgreSQLCassandraElasticsearchKafka原始數(shù)據(jù)HadoopHiveSparkPrestoNotebooks分析應(yīng)用MySQLRedisKafkaClickHouse集群批計算報表

5?2022.12iResearch

Inc.?2022.12iResearch

Inc.即席查詢分析技術(shù)沿革(二)平臺技術(shù)架構(gòu)持續(xù)更新迭代,產(chǎn)品在云上落地和升級來源:艾瑞咨詢研究院根據(jù)公開資料整理。來源:艾瑞咨詢研究院根據(jù)公開資料整理。架構(gòu)剖析架構(gòu)剖析基于云上數(shù)據(jù)湖的分析架構(gòu)的流程原理:可理解為借助云原生存儲引擎,基于傳統(tǒng)

Hadoop

方案的云上落地和升級,保留自建

HDFS

集群的分布式存儲可靠性和高吞吐能力,借助數(shù)據(jù)湖降低傳統(tǒng)方案的運維和存儲成本?;谠粕蠑?shù)據(jù)湖的分析架構(gòu)的優(yōu)缺點:優(yōu)點:對大數(shù)據(jù)平臺的使用者做了區(qū)分和定義,針對不同的使用場景,數(shù)據(jù)的使用方式,分析復(fù)雜度和時效性也會有不同。缺點:數(shù)據(jù)湖方案本身并沒有解決傳統(tǒng)方案的所有痛點。基于云原生結(jié)構(gòu)化存儲引擎的分析架構(gòu)的流程原理:將類似第二階段和第三階段的融合,在線庫和分析庫隔離,不依賴在線庫數(shù)據(jù);全量數(shù)據(jù)支持高效批量計算,分析結(jié)果集支持即席查詢,支持實時寫入實時流計算?;谠圃Y(jié)構(gòu)化存儲引擎的分析架構(gòu)的優(yōu)點:優(yōu)點:在具備寬表合并高吞吐低成本存儲的同時,可以提供

TB級別數(shù)據(jù)即席查詢和分析的能力,無需過度依賴額外的計算引擎,實現(xiàn)高效實時分析能力。基于云上數(shù)據(jù)湖的分析架構(gòu)基于云原生結(jié)構(gòu)化存儲引擎的分析架構(gòu)數(shù)據(jù)源ForecastSFASAPPOSDMS集中存儲集中管理數(shù)據(jù)探索交互式查詢數(shù)據(jù)倉庫數(shù)據(jù)模型數(shù)據(jù)學家數(shù)據(jù)分析師商業(yè)決策數(shù)據(jù)用戶數(shù)據(jù)治理組件TP存儲引擎數(shù)據(jù)派生AP分析節(jié)點分布式文件系統(tǒng)行存列存+索引數(shù)據(jù)湖

6?2022.12iResearch

Inc.?2022.12iResearch

Inc.服務(wù)層應(yīng)用層核心應(yīng)用流批一體:統(tǒng)一開發(fā)、統(tǒng)一計算、邏輯一致、降低成本采用流計算+交互式分析雙引擎架構(gòu),流計算負責基礎(chǔ)數(shù)據(jù),交互式分析引擎是中心,流計算引擎對數(shù)據(jù)進行實時

ETL

工作,與離線相比,降低了

ETL

過程的

latency。交互式分析引擎自帶存儲,通過計算存儲的協(xié)同化,實現(xiàn)高寫入

TPS、高查詢

QPS

和低查詢

latency,從而做到全鏈路的實時化和

SQL

化,實現(xiàn)用批的方式做到實時分析和按需分析,并能快速響應(yīng)業(yè)務(wù)變化,兩者配合實現(xiàn)1+1>2的效果。流批一體實現(xiàn)了建立一套統(tǒng)一的系統(tǒng),由同一個開發(fā)團隊開發(fā),同時支持流式計算和批量計算,提供一致的編程環(huán)境,降低開發(fā)和運維成本,減少資源浪費,提高數(shù)據(jù)口徑的一致性。流批一體的技術(shù)趨勢及行業(yè)應(yīng)用 流批一體的技術(shù)框架行業(yè)應(yīng)用目前已在工業(yè)、農(nóng)業(yè)、能源、金融、零售、教育、傳媒等行業(yè)落地應(yīng)用,極大推動了實時計算,提升數(shù)據(jù)價值,節(jié)省計算資源。分析應(yīng)用層面的工具生態(tài)廣義的流批一體包含存儲一體(湖倉一體)、計算一體(即狹義流批一體)、分析應(yīng)用一體(數(shù)據(jù)同步、數(shù)據(jù)血緣等生態(tài)),目前分析應(yīng)用部分還處于相對早期階段,不論是成熟型廠商還是新興型廠商都在積極探索。數(shù)據(jù)存儲層面的湖倉一體將數(shù)據(jù)倉庫的便捷管理、高質(zhì)量數(shù)據(jù)特性與數(shù)據(jù)湖的可探索、高靈活性相融合,完成數(shù)據(jù)倉庫到湖倉一體的轉(zhuǎn)變,實現(xiàn)對未知數(shù)據(jù)先統(tǒng)一存儲再靈活探索的能力,在數(shù)據(jù)架構(gòu)層面更進一步。計算處理層DWSDWDODSKafkaFlinkSQL(Stream&

Batch)IcebergDWS來源:艾瑞咨詢研究院自主研究及繪制。。 來源:艾瑞咨詢研究院自主研究及繪制。

7?2022.12iResearch

Inc.?2022.12iResearch

Inc.DWDODS核心產(chǎn)品(一)協(xié)作

BI商業(yè)智能與社交媒體和網(wǎng)絡(luò)技術(shù)等協(xié)作工具融合,允許共享報告,增加涉眾和專家互動,提升商業(yè)決策質(zhì)量自助式

BI業(yè)務(wù)人員可獨立分析數(shù)據(jù),生成定制報告,不再依賴

IT部門或數(shù)據(jù)分析師BI

與新技術(shù)融合商業(yè)智能與流程自動化

RPA

和人工智能等新技術(shù)深度融合一站式平臺化商業(yè)智能趨于集成數(shù)據(jù)倉庫提供存儲功能,集成

python

R

語言提供數(shù)據(jù)挖掘,延伸范圍越來越廣商業(yè)智能

BI:通過數(shù)據(jù)整合分析實現(xiàn)商業(yè)價值商業(yè)智能(BI,Business

Intelligence)是大數(shù)據(jù)分析最典型應(yīng)用領(lǐng)域,是由數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、湖倉一體、ETL、OLAP、數(shù)據(jù)挖掘、機器學習和人工智能等技術(shù)組成的一套完整解決方案。隨著大數(shù)據(jù)處理技術(shù)的發(fā)展,商業(yè)智能的洞察和分析能力進一步提升,數(shù)據(jù)分析和可視化的門檻不斷降低,企業(yè)實現(xiàn)不同層級的拖拽式自助分析和多種類型的圖表展示,并在統(tǒng)一平臺進行整合和共享,獲得不同層級的數(shù)據(jù)洞察,最終用于商業(yè)決策。機器學習和人工智能在商業(yè)智能中扮演越來越重要的角色。BI的技術(shù)發(fā)展趨勢 BI

的行業(yè)應(yīng)用及典型企業(yè)BISaaS化 云上落地是商業(yè)智能最大的技術(shù)發(fā)展趨勢互聯(lián)網(wǎng)服務(wù)金融消費品與零售政務(wù)行業(yè)應(yīng)用交通運輸其他來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。

8?2022.12iResearch

Inc.?2022.12iResearch

Inc.核心產(chǎn)品(二)數(shù)據(jù)孿生與增強分析:釋放數(shù)據(jù)潛力,加強數(shù)據(jù)價值轉(zhuǎn)化數(shù)據(jù)孿生:利用物理模型、傳感器更新、運行歷史數(shù)據(jù),集成多學科、多物理量的仿真過程,在虛擬空間中完成映射,在信息化平臺創(chuàng)建虛擬的“數(shù)字孿生體”,融合多源異構(gòu)數(shù)據(jù),打通企業(yè)數(shù)據(jù)孤島,讓數(shù)據(jù)在業(yè)務(wù)側(cè)發(fā)揮更大價值。增強分析:2017年由

Gartner

首次提出,并將其定義為下一代數(shù)據(jù)和分析范式,通過將機器學習和人工智能運用于現(xiàn)有的操作流程中,使數(shù)據(jù)管理和分析自動化,從而更有效地進行數(shù)據(jù)分析。增強分析使更多的用戶獲得更深入的數(shù)據(jù)洞察,減少了當前依賴

IT

處理所帶來的效率問題和口徑偏差。數(shù)據(jù)孿生的技術(shù)趨勢及產(chǎn)品應(yīng)用 增強分析的技術(shù)趨勢及產(chǎn)品應(yīng)用與智能駕駛產(chǎn)業(yè)創(chuàng)新融合在智能駕駛領(lǐng)域,數(shù)字孿生測試系統(tǒng)對整車測試場景虛擬重構(gòu),在虛擬場景中通過物理仿真工具對測試對象和流程做全程復(fù)現(xiàn),評估分析測試結(jié)果,實現(xiàn)不同場景的測試。納入智慧城市的頂層框架隨著數(shù)字孿生技術(shù)日趨成熟,基礎(chǔ)設(shè)施的運行狀態(tài)和市政資源的調(diào)配情況都可由感知件傳入數(shù)字孿生城市,幫助城市管理者分析決策。城市的長“生命周期”特性,讓數(shù)字孿生發(fā)揮更加深遠的價值。與5G萬物互聯(lián)場景強耦合通過感知采集數(shù)據(jù),對物理實體進行動態(tài)監(jiān)測和即時描述,可視化展現(xiàn),提供系統(tǒng)內(nèi)部生成的信息或?qū)ο筚|(zhì)效評價信息,用作系統(tǒng)故障排除工具,優(yōu)化改進性能,揭示要素間的復(fù)雜關(guān)系,預(yù)測物理實體未來狀態(tài),輔助操作和決策。產(chǎn)品應(yīng)用主要應(yīng)用于

BI

領(lǐng)域,作為

AI

深度分析模塊集成

BI產(chǎn)品,使數(shù)據(jù)洞察更為精準化、自動化、智能化。增強機器學習通過算法將特征工程、模型選擇與參數(shù)優(yōu)化,以及深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索等機器學習過程中的關(guān)鍵步驟自動化,幫助數(shù)據(jù)科學家更高效地得到滿意的模型。增強數(shù)據(jù)分析一是自動洞察,代替一部分分析師的工作,從數(shù)據(jù)中發(fā)現(xiàn)潛在信息和價值;二是自動可視化,根據(jù)數(shù)據(jù)分析結(jié)果自動選擇可視化的方式進行展示,與

NLQ、NLG等技術(shù)配合,將大大加快整個分析流程。增強數(shù)據(jù)準備來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。

9?2022.12iResearch

Inc.?2022.12iResearch

Inc.一是可視化交互,通過拖拉拽的方式實現(xiàn)可視化的數(shù)據(jù)配置、數(shù)據(jù)源的混合以及數(shù)據(jù)清洗工作,讓數(shù)據(jù)準備更加快捷;二是算法輔助,利用

ML

AI

技術(shù)實現(xiàn)部分流程的自動化。?2022.12iResearch

I

10核心價值來源:艾瑞咨詢研究院自主研究及繪制。以強大算力提升用戶的數(shù)據(jù)洞察分析,推動行業(yè)整體發(fā)展1)放大數(shù)據(jù)分析價值:大數(shù)據(jù)分析平臺基于集體智慧的分布式數(shù)據(jù)驅(qū)動決策,使用者的數(shù)據(jù)洞悉分析能力、用數(shù)效率和決策產(chǎn)出得到極大提升,數(shù)據(jù)資產(chǎn)的商業(yè)價值充分體現(xiàn)。2)降低分析門檻:低代碼和無代碼的分析工具極大降低了業(yè)務(wù)人員使用數(shù)據(jù)分析的門檻,有利于企業(yè)形成數(shù)據(jù)驅(qū)動文化,提高數(shù)據(jù)驅(qū)動效能,讓企業(yè)各個層級的人員都能夠參與到數(shù)據(jù)分析當中。3)降低分析成本:大數(shù)據(jù)分析平臺縮短了從數(shù)據(jù)提取到離線分析,再到報告制作的周期,無需重復(fù)提數(shù),邊際成本趨近于零,顯著降低了時間和人力成本。大數(shù)據(jù)分析平臺核心價值用戶保留與發(fā)展指標拆解分析,發(fā)現(xiàn)問題,尋找突破口,幫助企業(yè)制定精準方案獲取新用戶,并提升老用戶的滿意度。商業(yè)價值轉(zhuǎn)化生成數(shù)據(jù)報表和實時監(jiān)控指標體系,拆解、挖掘、構(gòu)建用戶畫像,進行日常運營決策,提升經(jīng)營業(yè)績。產(chǎn)品研發(fā)與升級數(shù)據(jù)湖方案較其他大數(shù)據(jù)產(chǎn)品更強調(diào)“海量異構(gòu)數(shù)據(jù)統(tǒng)一存儲、多源數(shù)據(jù)統(tǒng)一管理、多計算引擎統(tǒng)一調(diào)用”的能力。產(chǎn)業(yè)鏈供應(yīng)鏈協(xié)同鏈接產(chǎn)業(yè)鏈全要素,實現(xiàn)供產(chǎn)銷信息的實時同步,優(yōu)化產(chǎn)能配置,提升企業(yè)的柔性生產(chǎn)能力,提升產(chǎn)業(yè)鏈效率。風險管理通過分布式即席查詢、數(shù)據(jù)可視化等手段,為企業(yè)提供風險識別并持續(xù)監(jiān)控,主動探索風險應(yīng)對策略并評估控制效果。展示關(guān)鍵數(shù)據(jù)指標以數(shù)據(jù)報表、DashBoard等可視化方式呈現(xiàn),便于企業(yè)整體把握業(yè)務(wù)核心數(shù)據(jù)及發(fā)展趨勢。解讀通過簡單分析和解讀產(chǎn)品或用戶行為的一些現(xiàn)象或數(shù)據(jù)變化,了解現(xiàn)象發(fā)生或數(shù)據(jù)波動的原因。歸因收集多方面的復(fù)雜原因,提前解決矛盾以避免問題惡化或提升數(shù)據(jù)指標,總結(jié)沉淀為對產(chǎn)品和用戶的深刻洞察。預(yù)測對產(chǎn)品或用戶行為的未來趨勢做出預(yù)判,指導經(jīng)營活動,例如:預(yù)測DAU、銷量、訂單量等。自身價值業(yè)務(wù)價值?2022.12iResearch

Inc.?2022.12iResearch

I

11評估體系來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。系統(tǒng)集成能力:關(guān)系型數(shù)據(jù)、非關(guān)系型數(shù)據(jù)、爬蟲數(shù)據(jù),離線數(shù)據(jù)和實時數(shù)據(jù)及實時數(shù)據(jù)處理能力系統(tǒng)開發(fā)能力:對離線任務(wù)和實時任務(wù)的支持、開發(fā)調(diào)度配置等系統(tǒng)能力數(shù)據(jù)能力數(shù)據(jù)資產(chǎn)管理能力:數(shù)據(jù)標準管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理等數(shù)據(jù)科學能力:數(shù)據(jù)上傳、預(yù)處理、特征工程、模型評估、模型發(fā)布等功能,主流算法框架和語言等數(shù)據(jù)應(yīng)用能力:API

創(chuàng)建、生成、發(fā)布、執(zhí)行、審批、鑒權(quán)、限流等功能,標簽開發(fā)、標簽分類、標簽?zāi)夸浌芾?、業(yè)務(wù)確權(quán)等功能構(gòu)建滿足場景需求的大數(shù)據(jù)分析平臺,選型評估十分關(guān)鍵1)架構(gòu)可擴展性:企業(yè)構(gòu)建大數(shù)據(jù)分析平臺之初以小規(guī)模項目起步,待業(yè)務(wù)規(guī)模增加后再考慮復(fù)雜的解決方案。這時架構(gòu)的可擴展性就顯得十分重要,確保業(yè)務(wù)數(shù)據(jù)規(guī)模上升后架構(gòu)橫向擴展的能力是關(guān)鍵。2)數(shù)據(jù)實時性:隨著流批一體等技術(shù)的不斷完善和推廣,數(shù)據(jù)的實時處理、分析和輸出展示都顯得十分重要。3)數(shù)據(jù)模式靈活性:在企業(yè)初創(chuàng)階段,數(shù)據(jù)經(jīng)創(chuàng)新探索后才能沉淀,靈活度要求較高,數(shù)據(jù)湖架構(gòu)較為適用;企業(yè)成熟階段數(shù)據(jù)規(guī)模和處理成本上升,平臺成長性決定了業(yè)務(wù)發(fā)展的持續(xù)性。4)數(shù)據(jù)可接入性:企業(yè)構(gòu)建大數(shù)據(jù)分析平臺時應(yīng)提供給開發(fā)者豐富、開放及資料完整的應(yīng)用程序

API

接口。產(chǎn)品功能 產(chǎn)品性能安全性完整性可靠性可用性可維護性重點考察最大節(jié)點數(shù)量、吞吐能力、并發(fā)能力、運算速度、相應(yīng)時間、安全性等公司規(guī)模廠商狀況和業(yè)務(wù)規(guī)模影響其能否為企業(yè)提供長效服務(wù)咨詢能力服務(wù)案例方案咨詢和定制能力取決于垂直行業(yè)的knowhow積累廠商同行業(yè)客戶服務(wù)經(jīng)驗、標桿案例和案例數(shù)量等市場價格項目價格包括產(chǎn)品費用、項目實施費用和維護服務(wù)費用,也是選擇廠商的重要指標12大數(shù)據(jù)分析平臺市場分析2大數(shù)據(jù)分析平臺構(gòu)建建議3行業(yè)應(yīng)用與典型案例實踐4大數(shù)據(jù)分析平臺行業(yè)概述1大數(shù)據(jù)分析行業(yè)投資分析5發(fā)展歷程來源:艾瑞咨詢研究院自主研究及繪制。大數(shù)據(jù)分析平臺隨技術(shù)革新和市場需求不斷演進隨著增強分析演進到了人工智能時代,未來將成為大數(shù)據(jù)分析平臺的核心特性。湖倉一體技術(shù)不斷完善,未來也將成為大數(shù)據(jù)分析的基礎(chǔ)底座。流批一體技術(shù)讓有界數(shù)據(jù)和無界數(shù)據(jù)實現(xiàn)了打通,讓數(shù)據(jù)分析獲得了更好的一致性。中國大數(shù)據(jù)分析平臺正在逐年發(fā)展及突破,公有云廠商及其他行業(yè)廠商紛紛在做嘗試。我國大數(shù)據(jù)分析市場整體處于高速發(fā)展階段,未來發(fā)展空間廣闊。中國大數(shù)據(jù)分平臺行業(yè)發(fā)展歷程大數(shù)據(jù)技術(shù)大數(shù)據(jù)分析平臺20世紀60年代,計算機開始廣泛地應(yīng)用于數(shù)據(jù)

13?2022.12iResearch

Inc.管理,能夠統(tǒng)一管理和系統(tǒng)(DBMS)誕生;20世紀90年代,為滿足企業(yè)數(shù)據(jù)分析的訴求,數(shù)據(jù)倉庫誕生。以承載海量數(shù)據(jù),大數(shù)據(jù)興起;共享數(shù)據(jù)的數(shù)據(jù)庫管理 ? 以Hadoop(開源)、Google、MicrosoftCosmos

為代表的分布式技術(shù)體系誕生,奠基了大數(shù)據(jù)時代的基本技術(shù)框架。數(shù)據(jù)管理能力等方面不斷優(yōu)化,Google

BigQuery、Snowflake等優(yōu)秀產(chǎn)品面市;以開源

Hadoop

體系為代表的開放式

HDFS

存儲、開放的文件格式、開放的元數(shù)據(jù)服務(wù)以及多種引擎(Presto、Spark、Flink

等)協(xié)同工作的模式,形成了數(shù)據(jù)湖的雛形。數(shù)據(jù)分析1.0:大數(shù)據(jù)起源大數(shù)據(jù)技術(shù)逐步滲透到下游各行業(yè),人們對大數(shù)據(jù)產(chǎn)品提出了成本、安全、穩(wěn)定性等更加全面的企業(yè)級生產(chǎn)的要求;云上純托管的存儲系統(tǒng)逐步取代HDFS,引擎豐富度也不斷擴展,數(shù)據(jù)湖開始走向“云湖共生”階段;數(shù)據(jù)倉庫和數(shù)據(jù)湖在云的體系下得以打通,湖倉一體的解決方案在業(yè)界開始應(yīng)用。這個階段的大數(shù)據(jù)分析工具更加貼合客戶的場景業(yè)務(wù)需求,為客戶提供更好的服務(wù)和更豐富的功能。數(shù)據(jù)科學領(lǐng)域應(yīng)用而生,強調(diào)利用良好的數(shù)據(jù),通過出色的分析模型來理解和分析實際現(xiàn)象,形成更好的數(shù)據(jù)結(jié)果。這個階段人工智能、機器學習、深度學習等新技術(shù)對大數(shù)據(jù)分析產(chǎn)生深刻影響,通過機器學習創(chuàng)建更多模型,從而讓預(yù)測變得更加細化和精確。數(shù)據(jù)挖掘技術(shù)、機器學習算法都在大數(shù)據(jù)分析工具運用中取得了大量成果,自動化分析將成為未來大數(shù)據(jù)分析的典型特征。這個階段數(shù)據(jù)通過ETL和BI工具收集、轉(zhuǎn)換和查詢,商業(yè)智能只能處理過去發(fā)生的事情,而不能對未來趨勢進行預(yù)測。這個階段的大數(shù)據(jù)分析工具興起,逐漸能夠收集、轉(zhuǎn)化、處理數(shù)據(jù),并在描述性和診斷分析的結(jié)果檢測趨勢、聚類和異常等方面逐步試探。數(shù)據(jù)分析2.0:大數(shù)據(jù)分析平臺與功能強大的數(shù)據(jù)產(chǎn)品1960s~2006:互聯(lián)網(wǎng)開始發(fā)展,數(shù)據(jù)量增長加速,數(shù)據(jù)庫/數(shù)倉難2006~

:數(shù)據(jù)倉庫不斷演進,在性能、成本、驅(qū)動因素:政策面來源:公開資料,艾瑞咨詢研究院整理及繪制?!度珖惑w化政務(wù)大數(shù)據(jù)體系建設(shè)指南》2023年底前,全國一體化政務(wù)大數(shù)據(jù)體系初步形成,基本具備數(shù)據(jù)目錄管理、數(shù)據(jù)歸集、數(shù)據(jù)治理、大數(shù)據(jù)分析、安全防護等能力。2021.3《十三屆全國人大四次會議政府工作報告》加快數(shù)字化發(fā)展,協(xié)同數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型。《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》充分發(fā)揮海量數(shù)據(jù)和豐富應(yīng)用場景優(yōu)勢,促進數(shù)字技術(shù)與實體經(jīng)濟深度融合。政府不斷出臺大數(shù)據(jù)相關(guān)政策,促進產(chǎn)業(yè)發(fā)展隨著5G、云計算、人工智能等新一代信息技術(shù)發(fā)展,信息技術(shù)與傳統(tǒng)產(chǎn)業(yè)加速融合,數(shù)字經(jīng)濟蓬勃發(fā)展。大數(shù)據(jù)產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè),是激活數(shù)據(jù)要素潛能的關(guān)鍵支撐,是加快經(jīng)濟社會發(fā)展質(zhì)量變革、效率變革、動力變革的重要引擎。2021年11月印發(fā)的《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》在“十三五”規(guī)劃的產(chǎn)業(yè)規(guī)模1萬億元目標基礎(chǔ)上,提出“到2025年底大數(shù)據(jù)產(chǎn)業(yè)測算規(guī)模突破3萬億元”的增長目標。在2022年10月的《關(guān)于數(shù)字經(jīng)濟發(fā)展情況的報告》中提出,2023年底前,全國一體化政務(wù)大數(shù)據(jù)體系初步形成,基本具備數(shù)據(jù)目錄管理、數(shù)據(jù)歸集、數(shù)據(jù)治理、大數(shù)據(jù)分析、安全防護等能力。近年來,大數(shù)據(jù)政策已布局政務(wù)、金融、工業(yè)、制造、制造、交通、能源、醫(yī)療等多個領(lǐng)域。2021-2022年中國大數(shù)據(jù)重點法律法規(guī)和產(chǎn)業(yè)政策脈絡(luò)《國家標準化發(fā)展綱要》開展數(shù)據(jù)庫等方面標準化攻關(guān),提升標準設(shè)計水平,制定安全可靠,國際先進的通用技術(shù)標準?!丁笆奈濉避浖托畔⒓夹g(shù)服務(wù)業(yè)發(fā)展規(guī)劃》夯實基礎(chǔ)軟件實力,提升工業(yè)軟件、行業(yè)軟件、平臺軟件、嵌入式軟件等應(yīng)用軟件水平。《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》提出“到2025年底大數(shù)據(jù)產(chǎn)業(yè)測算規(guī)模突破3萬億元”的增長目標?!丁笆奈濉睌?shù)字經(jīng)濟發(fā)展規(guī)劃》數(shù)字技術(shù)驅(qū)動產(chǎn)業(yè)轉(zhuǎn)型,從骨干企業(yè)、重點行業(yè)、產(chǎn)業(yè)園區(qū)和產(chǎn)業(yè)集群等方面系統(tǒng)部署以促進創(chuàng)新?!蛾P(guān)于數(shù)字經(jīng)濟發(fā)展情況的報告》培育壯大云計算、大數(shù)據(jù)、區(qū)塊鏈、工業(yè)軟件等數(shù)字產(chǎn)業(yè),探索建設(shè)中國特色的開源生態(tài)。

14?2022.12iResearch

Inc.2021.32021.102021.112021.112022.12022.3《2022年國務(wù)院政府工作報告》逐步構(gòu)建全國一體化大數(shù)據(jù)中心體系,促進產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,發(fā)展智慧城市、數(shù)字鄉(xiāng)村。2022.102022.10?2022.12iResearch

Inc.?2022.12iResearch

I

15驅(qū)動因素:宏觀面來源:中國電信招股說明書,艾瑞咨詢研究院整理及繪制。22324964839299101114351016273136394512%15%19%25%33%34%36%39%39%2005 2008 2011 2014 2017 2018 2019 2020 2021國內(nèi)生產(chǎn)總值(萬億元) 中國數(shù)字經(jīng)濟規(guī)模(萬億元)中國數(shù)字經(jīng)濟規(guī)模占比(%)全球數(shù)據(jù)消費量和國內(nèi)數(shù)字經(jīng)濟規(guī)模穩(wěn)步增長近年來大數(shù)據(jù)發(fā)展浪潮席卷全球,全球數(shù)據(jù)消費量穩(wěn)步增長。隨著數(shù)據(jù)資產(chǎn)的不斷積累,用數(shù)場景和需求趨于復(fù)雜。據(jù)IDC

預(yù)測,2021年全球大數(shù)據(jù)和分析支出達2157億美元,比2020年增長10.1%,且未來五年全球大數(shù)據(jù)和分析支出還將繼續(xù)增長,2021-2025年預(yù)測期內(nèi)復(fù)合年增長率(CAGR)預(yù)計為12.8%。放眼國內(nèi),數(shù)字經(jīng)濟發(fā)展熱潮興起,數(shù)字化轉(zhuǎn)型需求放量。大數(shù)據(jù)與云計算、人工智能、區(qū)塊鏈等新一代信息技術(shù)加速融合創(chuàng)新,驅(qū)動我國大數(shù)據(jù)產(chǎn)業(yè)生態(tài)日漸完善,應(yīng)用領(lǐng)域不斷豐富。大數(shù)據(jù)在關(guān)鍵技術(shù)領(lǐng)域加快自主創(chuàng)新尤其在基礎(chǔ)軟件領(lǐng)域,各類自主研發(fā)的大數(shù)據(jù)平臺產(chǎn)品百花齊放,合力向數(shù)據(jù)共享、流通、開放的方向持續(xù)演進。2011-2025年全球數(shù)據(jù)消費量及增長率 2005-2021年中國數(shù)據(jù)經(jīng)濟規(guī)模及全國占比56.5912.515.5

1826334164.2

799712014718130%38%

39%24%16%44%27%

24%57%23%

23%24%23%23%201120122013201420152016201720182019202020212022e2023e2024e2025e數(shù)據(jù)消費量(ZB)來源:Statista

2022,艾瑞咨詢研究院整理及繪制。增長率(%)驅(qū)動因素:微觀面來源:中國電信招股說明書,艾瑞咨詢研究院整理及繪制。受業(yè)務(wù)需求驅(qū)動,打通各業(yè)務(wù)維度,提供分析和決策洞察大數(shù)據(jù)創(chuàng)造價值的關(guān)鍵在于大數(shù)據(jù)應(yīng)用,隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)應(yīng)用已經(jīng)滲透至各行各業(yè)的企業(yè)當中。在企業(yè)的業(yè)務(wù)系統(tǒng)中,除了與業(yè)務(wù)直接相關(guān)的數(shù)據(jù)存儲在數(shù)據(jù)庫外,還有海量的系統(tǒng)監(jiān)控數(shù)據(jù)和業(yè)務(wù)日志產(chǎn)生。隨著企業(yè)數(shù)據(jù)資產(chǎn)的日積月累,能夠全面覆蓋日常經(jīng)營、輸出分析結(jié)果的指標體系成為企業(yè)的必需品。除了面對錯綜復(fù)雜的業(yè)務(wù)數(shù)據(jù),集團性企業(yè)還需聚攏各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。因此,企業(yè)迫切希望能夠打通全渠道來組織各業(yè)務(wù)維度,讓業(yè)務(wù)數(shù)據(jù)能夠更持久的存儲,并提供實時/離線分析,幫助企業(yè)高層進一步了解企業(yè)的宏觀運營面、基本面、財務(wù)面,幫助業(yè)務(wù)部門及時鎖定潛在問題,提供精細化運營。由此,大數(shù)據(jù)分析平臺應(yīng)用而生。大數(shù)據(jù)分析平臺主要解決的問題豐富的數(shù)據(jù)源支持數(shù)據(jù)格式延遲綁定面對豐富的數(shù)據(jù)源,

大數(shù)據(jù)分析平臺提供統(tǒng)一的數(shù)據(jù)接入,便于后續(xù)體系化分析數(shù)據(jù)接入主要包括文件日志、數(shù)據(jù)庫日志、關(guān)系型數(shù)據(jù)庫和應(yīng)用程序等的接入相關(guān)組件起到了上游數(shù)據(jù)源與分析平臺存儲接口的結(jié)構(gòu)作用存算彈性擴縮容TP

AP

隔離TP(事務(wù)型)數(shù)據(jù)庫和數(shù)據(jù)倉庫常采用寫入型

schema,即基于業(yè)務(wù)需求預(yù)先定義schema,適合變化少的固定業(yè)務(wù),不適合分析型業(yè)務(wù)大數(shù)據(jù)分析平臺的分析系統(tǒng)多采用讀取型

schema,數(shù)據(jù)在分析時才會根據(jù)數(shù)據(jù)類型進行相應(yīng)的處理TP

型業(yè)務(wù)適合行存儲,

而AP

型業(yè)務(wù)適合列存儲,分析業(yè)務(wù)的大規(guī)模全量掃描會影響在線業(yè)務(wù)的

SLA大數(shù)據(jù)分析平臺的典型處理方式是復(fù)制存儲,

面相多維分析需求,

重塑數(shù)據(jù)分布、格式、索引,

優(yōu)化系統(tǒng)的分析性能業(yè)務(wù)數(shù)據(jù)隨著各個業(yè)務(wù)系統(tǒng)運轉(zhuǎn)而日積月累,

企業(yè)普遍面臨系統(tǒng)架構(gòu)改造優(yōu)化和數(shù)據(jù)遷移大數(shù)據(jù)分析平臺的搭建會對應(yīng)考慮數(shù)據(jù)的分層存儲和存儲計算引擎的選擇,

保證存算能力可按需擴縮容,

并提供存算資源的編排優(yōu)化

16?2022.12iResearch

Inc.產(chǎn)業(yè)圖譜注釋:以上廠商與行業(yè)為不完全列舉,排名不分先后。來源:艾瑞咨詢研究院自主研究及繪制。 上游中游:大數(shù)據(jù)分析平臺廠商下游基礎(chǔ)設(shè)施網(wǎng)絡(luò)基礎(chǔ)服務(wù)器廠商芯片廠商基礎(chǔ)云服務(wù)SaaS金融零售政務(wù)制造醫(yī)療行業(yè)方案……行業(yè)客戶云安全IDC廠商企業(yè)數(shù)據(jù)政府數(shù)據(jù)教育云平臺數(shù)據(jù)源……數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈上中下游廠商與中游大數(shù)據(jù)分析廠商產(chǎn)品存在交叉產(chǎn)業(yè)圖譜

17?2022.12iResearch

Inc.?2022.12iResearch

Inc.?2022.12iResearch

I

18商業(yè)模式來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。主要包括一體化解決方案、產(chǎn)品服務(wù)和行業(yè)應(yīng)用中國大數(shù)據(jù)分析平臺的商業(yè)模式大致可分為三類:1)解決方案,為企業(yè)搭建大數(shù)據(jù)分析系統(tǒng),按照構(gòu)建和部署大數(shù)據(jù)系統(tǒng)的費用+每年的維護/升級服務(wù)費用進行收取。2)產(chǎn)品服務(wù),產(chǎn)品化服務(wù)模式包括情報挖掘、輿情分析、銷售追蹤、精準營銷、個性化推薦、可視化

、網(wǎng)站/APP

分析工具等,訂閱式的按需購買,按年/月收費,持續(xù)更新。3)行業(yè)應(yīng)用,大數(shù)據(jù)與傳統(tǒng)行業(yè)碰撞形成的商業(yè)模式,利用大數(shù)據(jù)獲得行業(yè)洞察,實現(xiàn)更多的收益。沒有直接的變現(xiàn),通過大數(shù)據(jù)技術(shù)深層挖掘價值,節(jié)約成本,優(yōu)化行業(yè)模式。商業(yè)模式 市場發(fā)展趨勢解決方案產(chǎn)品服務(wù)行業(yè)應(yīng)用中國政府用戶和一些重點行業(yè)(如金融、電信等)更多選擇整體解決方案的本地部署及私有云/行業(yè)云模式,體現(xiàn)在大數(shù)據(jù)硬件采購占比顯著高于國外。行業(yè)特點:數(shù)據(jù)安全要求高,強政策導向,預(yù)算充裕。數(shù)量龐大的中小企業(yè)更傾向于訂閱式的產(chǎn)品服務(wù)接入大數(shù)據(jù)分析領(lǐng)域,開箱即用,按需付費,極大降低了技術(shù)門檻和資金投入門檻。行業(yè)特點:企業(yè)模式靈活,創(chuàng)新性強,對大數(shù)據(jù)新興技術(shù)敏感度高,但資本開支有限。傳統(tǒng)行業(yè)結(jié)合大數(shù)據(jù)技術(shù)派生的新商業(yè)模式,深化行業(yè)洞察,例如:智慧醫(yī)療系統(tǒng)(大數(shù)據(jù)+醫(yī)療)、工業(yè)4.0(大數(shù)據(jù)+制造業(yè))。雖無直接變現(xiàn),但推廣復(fù)制潛力大,通過深挖垂直行業(yè),補充前兩種商業(yè)模式。國產(chǎn)化大數(shù)據(jù)分析產(chǎn)品蓬勃發(fā)展,對比國外產(chǎn)品的精細化,國產(chǎn)化產(chǎn)品呈現(xiàn)出功能一體化,集成數(shù)據(jù)整合、數(shù)據(jù)加工、數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)可視化于一身。國產(chǎn)化SaaS化隨著公有云技術(shù)不斷演進,訂閱模式下的

SaaS

產(chǎn)品表現(xiàn)出云端部署、按需調(diào)用、持續(xù)更新、省去本地運維的諸多優(yōu)點,讓國內(nèi)企業(yè)數(shù)字化轉(zhuǎn)型輕裝上陣。平民化企業(yè)部署大數(shù)據(jù)分析平臺的技術(shù)門檻、資金投入門檻和使用門檻不斷被降低,低代碼和無代碼模式的數(shù)據(jù)分析應(yīng)用越來越偏向于業(yè)務(wù)側(cè)主導,數(shù)據(jù)技術(shù)更好的服務(wù)于企業(yè)業(yè)務(wù)本身。玩家類型人工智能廠商行業(yè)邊界泛化,市場參與者眾多,服務(wù)類型多樣大數(shù)據(jù)分析平臺逐漸從產(chǎn)品態(tài)向集成態(tài)發(fā)展,行業(yè)市場的參與者眾多,服務(wù)類型豐富多樣,行業(yè)邊界趨于模糊,但也可大致分為以下幾類:1)公有云廠商借助云原生能力自然演進存算分離架構(gòu),提供方便接入各類數(shù)據(jù)、降低存儲和運維成本的數(shù)據(jù)湖方案。2)與云廠商以

PaaS

形式提供服務(wù)不同,傳統(tǒng)軟件商提供以本地化部署為主的一體化大數(shù)據(jù)分析平臺解決方案。3)國產(chǎn)數(shù)據(jù)庫/數(shù)據(jù)倉庫廠商融合創(chuàng)新技術(shù),自主研發(fā)存儲和分析性能優(yōu)異的產(chǎn)品和架構(gòu)方案。4)為大數(shù)據(jù)分析平臺的應(yīng)用層提供

BI

分析、用戶畫像、智能運營、可視化發(fā)布等能力的軟件服務(wù)商,與前述市場參與者逐步建立起合作生態(tài)。此外,人工智能廠商提供的

AI

能力讓數(shù)據(jù)應(yīng)用進一步延伸,讓數(shù)據(jù)接入、清洗、存儲、分析、訓練到可視化輸出的過程更加自動化,加強了場景需求與數(shù)據(jù)分析的自適應(yīng)能力。大數(shù)據(jù)分析平臺行業(yè)的市場格局數(shù)據(jù)應(yīng)用層軟件商BI

分析 用戶畫像 智能運營 營銷分析 用戶標簽 實時檢索 可視化

……本地化部署的軟件商 公有云廠商 數(shù)據(jù)庫/數(shù)倉廠商來源:艾瑞咨詢研究院自主研究及繪制。?2022.12iResearch

Inc.

19中外對比數(shù)加平臺數(shù)據(jù)深度整合、計算、挖掘,將計算的結(jié)果通過可視化工具進行個性化的數(shù)據(jù)分析和展現(xiàn)。優(yōu)點是功能完善,提供SQL查詢。數(shù)說立方優(yōu)點是體驗和功能良好,集數(shù)據(jù)處理、特征工程、建模、文本挖掘為一體的機器學習平臺,支持

SaaS,私有化部署,有權(quán)限管理。神測分析產(chǎn)品支持私有部署、任意維度的交叉分析,并幫助客戶搭建專屬的數(shù)據(jù)倉庫。優(yōu)點是專注用戶行為數(shù)據(jù)分析,提供SQL查詢。產(chǎn)品界面采取拖拽式,操作性強;數(shù)據(jù)兼容性強,適用于多種數(shù)據(jù)文件與數(shù)據(jù)庫。優(yōu)點是產(chǎn)品功能完善和良好的圖形展現(xiàn)與客戶感知。優(yōu)點是視圖種類豐富,界面簡潔,互動性強;可通過各類可視化效果,將

Qlik

擴展到任何應(yīng)用程序中,支持使用標準的和最新的網(wǎng)絡(luò)

API。優(yōu)點是交互界面形象易懂,對業(yè)務(wù)人員操作友好,便于進行復(fù)雜的數(shù)據(jù)分析,無需建數(shù)據(jù)倉庫就可直接從多個異構(gòu)數(shù)據(jù)源提取數(shù)據(jù)進行分析。TableauQlikViewSpotfire國內(nèi)外大數(shù)據(jù)分析平臺產(chǎn)業(yè)探索方向及落地方式有所不同國內(nèi)外大數(shù)據(jù)分析平臺的目標客戶都主要鎖定在特定行業(yè)、具有商業(yè)前景的企業(yè),致力于為其提供成長初期缺乏的資源,實現(xiàn)商業(yè)價值快速增長。雖然核心訴求一致,但受限于體制、經(jīng)濟與文化等差異,產(chǎn)品的探索方向及落地形式不盡相同。國外產(chǎn)品更注重創(chuàng)客文化及高技術(shù)投資回報,傾向于以股票收獲溢價作為主要的盈利方式,通過技術(shù)積累與項目展示收獲口碑;國內(nèi)大數(shù)據(jù)分析平臺緊密圍繞政策導向和產(chǎn)業(yè)價值定位制定預(yù)期發(fā)展目標,通過打通產(chǎn)學研加速資源交換與聚焦,為企業(yè)獲得收益,不斷積累資源與品牌影響力形成雪球效應(yīng)。國內(nèi)外大數(shù)據(jù)分析平臺產(chǎn)品對比國內(nèi)產(chǎn)品 國外產(chǎn)品來源:艾瑞咨詢研究院自主研究及繪制。?2022.12iResearch

Inc.

20應(yīng)用痛點在數(shù)據(jù)兼容性、性能、開放性和行業(yè)經(jīng)驗方面仍存痛點大數(shù)據(jù)分析平臺的應(yīng)用痛點反饋現(xiàn)階段采購大數(shù)據(jù)分析平臺的企業(yè)

IT

基礎(chǔ)往往并非完全空白,企業(yè)內(nèi)部積累了多類數(shù)據(jù)庫和多種數(shù)據(jù)文件。因此,企業(yè)希望大數(shù)據(jù)分析平臺能盡可能多的兼容多種格式的數(shù)據(jù)、多種平臺和操作系統(tǒng)。數(shù)據(jù)兼容性企業(yè)在實際使用時發(fā)現(xiàn)大數(shù)據(jù)分析平臺在處理結(jié)構(gòu)化數(shù)據(jù)和GB級數(shù)據(jù)時差異不大,但處理非結(jié)構(gòu)數(shù)據(jù)和TB/PB級數(shù)據(jù)時性能下降較大。對于數(shù)據(jù)波幅較大,且要求實時分析的企業(yè),這是最大的痛點。許多企業(yè)都希望擁有一定的自主權(quán),不與供應(yīng)商完全綁定。由于業(yè)務(wù)模式的變化,會經(jīng)常有二次開發(fā)的需求。所以,企業(yè)會希望大數(shù)據(jù)分析平臺足夠開放,且提供足夠多的接口和可視化的開發(fā)工具。企業(yè)在使用時發(fā)現(xiàn),現(xiàn)階段國內(nèi)可以提供全鏈路服務(wù)的供應(yīng)商較少,因此只能采購多家供應(yīng)商來滿足自身從采集治理到分析可視化的需求。尤其是技術(shù)水平較弱的企業(yè)更希望廠商提供全面的服務(wù)。此類痛點集中于制造業(yè)和航空業(yè)等專業(yè)性較強的行業(yè),他們具有大數(shù)據(jù)分析平臺的需求,但與此類供應(yīng)商接觸時發(fā)現(xiàn)其不理解行業(yè)業(yè)務(wù),因此主要考慮自己進行開發(fā),或者尋求原來的硬件合作商幫助。企業(yè)希望大數(shù)據(jù)分析平臺除了基本的分析能力和常規(guī)的圖表展示外,還可以增加更豐富的功能,例如多維交叉分析,自定義分析字段,3D大屏展示,可視化圖表嵌入等。性能提升開放性全鏈路能力行業(yè)理解功能豐富性來源:艾瑞咨詢研究院自主研究及繪制。?2022.12iResearch

Inc.

21趨勢一:架構(gòu)演進湖倉融合,發(fā)揮海量、多模、實時的數(shù)據(jù)處理能力湖倉融合作為開放式的數(shù)據(jù)架構(gòu)和管理模式,將數(shù)倉建于數(shù)據(jù)湖之上,融合二者優(yōu)勢,優(yōu)化企業(yè)的基礎(chǔ)技術(shù)棧。湖倉融合打通底層異構(gòu)數(shù)據(jù)源/平臺,支持多種數(shù)據(jù)類型并存,實現(xiàn)數(shù)據(jù)共享。數(shù)據(jù)入湖后可直接加工處理,避免數(shù)據(jù)多份冗余和流動導致的算力、網(wǎng)絡(luò)及成本開銷。相比傳統(tǒng)數(shù)倉和數(shù)據(jù)湖方案,湖倉一體架構(gòu)增強了實時業(yè)務(wù)處理以及非結(jié)構(gòu)化數(shù)據(jù)的治理能力,優(yōu)勢突出體現(xiàn)于:1)完善的數(shù)據(jù)管理能力;2)豐富的計算引擎支持;3)更高的數(shù)據(jù)實時性;4)更高的開放性。此外,數(shù)據(jù)安全、訪問控制以及數(shù)據(jù)探索等企業(yè)級系統(tǒng)不可或缺的功能都可在湖倉融合架構(gòu)中部署、測試和管理。湖倉融合技術(shù)理念數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)服務(wù)數(shù)據(jù)統(tǒng)一開發(fā)治理HadoopLocalIDC/on

ECSHMSEMRHDFS……RDSHive聯(lián)邦數(shù)據(jù)源HBase…...緩存湖倉融合架構(gòu)冷熱分層SQLSpark元服務(wù)Python…OSS對象存儲RDBMSNoSQL數(shù)據(jù)湖任務(wù)調(diào)度數(shù)據(jù)安全開發(fā)定制商業(yè)智能數(shù)據(jù)報表業(yè)務(wù)應(yīng)用機器學習實時分析……“關(guān)鍵屬性”對事務(wù)的

ACID

支持,確保數(shù)據(jù)并發(fā)訪問的一致性、正確性事務(wù)支持支持各類數(shù)據(jù)模型的實現(xiàn)和轉(zhuǎn)變,保證數(shù)據(jù)完整性以及健全的治理和審計機制模型化和數(shù)據(jù)治理支持直接在源數(shù)據(jù)上使用BI

工具,加快分析效率,降低數(shù)據(jù)延時BI

支持實現(xiàn)對流的支持,為實時數(shù)據(jù)服務(wù)構(gòu)建專用的系統(tǒng)端到端流來源:艾瑞咨詢研究院自主研究及繪制。?2022.12iResearch

Inc.

22趨勢二:AI

融合圍繞AI

核心能力,增強人員分析和決策能力大數(shù)據(jù)分析隨著人工智能的發(fā)展而不斷演進,多層面、多維度的提升了數(shù)據(jù)使用人員的分析與決策能力。自新冠疫情爆發(fā)以來,企業(yè)業(yè)務(wù)環(huán)境發(fā)生了巨大變化,但從未削弱

AI

和機器學習發(fā)揮的重要作用。隨著業(yè)務(wù)決策變得更具關(guān)聯(lián)性、情境性和連續(xù)性,企業(yè)通過

AI

工程編排和優(yōu)化系統(tǒng),來適應(yīng)、抵御或吸收各種干擾因素,提升自適應(yīng)的

AI

能力,以迅速適應(yīng)場景變化,提供更加快速靈活的決策。自然語言處理(NLP)增強了計算機系統(tǒng)對自然語言的準確識別、分析和處理,讓搜索式分析成為全新的可視化交互方式,系統(tǒng)智能將自然語言結(jié)構(gòu)的問題轉(zhuǎn)化為

SQL

語句進行查詢,易用性和自服務(wù)程度更高,對業(yè)務(wù)人員的使用門檻更低。大數(shù)據(jù)分析與

AI技術(shù)的協(xié)同創(chuàng)新數(shù)據(jù)民主化企業(yè)所有成員,尤其是非專業(yè)技術(shù)成員,都能輕松應(yīng)用數(shù)據(jù)資源,開展應(yīng)用分析,做出業(yè)務(wù)決策,推動更好的客戶體驗數(shù)據(jù)編制通過對現(xiàn)有的、可發(fā)現(xiàn)的和可推斷的元數(shù)據(jù)資產(chǎn)進行持續(xù)分析,來支持數(shù)據(jù)系統(tǒng)跨平臺的設(shè)計、部署和使用,從而實現(xiàn)靈活的數(shù)據(jù)交付基于圖形技術(shù)的場景分析業(yè)務(wù)場景和分析需求的數(shù)據(jù)存儲于圖形中,基于相似性、制約因素、路徑等識別和創(chuàng)建進一步的場景,利用數(shù)據(jù)點之間的關(guān)系及數(shù)據(jù)點本身實現(xiàn)深入分析?;趫D形技術(shù)的分析和

AI

模型將進一步取代建立在傳統(tǒng)數(shù)據(jù)基礎(chǔ)上的分析模型搜索式分析使用機器學習和自然語言處理(NLP)來自動化和處理數(shù)據(jù),系統(tǒng)準確識別、分析和處理自然語言,智能將自然語言結(jié)構(gòu)的問題轉(zhuǎn)化為

SQL

語句進行查詢,極大降低業(yè)務(wù)人員的數(shù)據(jù)分析門檻大數(shù)據(jù)分析人工智能自適應(yīng)的

AI

能力通過

AI

工程編排和優(yōu)化系統(tǒng),來適應(yīng)、抵御或吸收干擾因素,加強

AI

自適應(yīng)管理能力,用以敏捷適應(yīng)業(yè)務(wù)場景的變化,提供更加快速靈活的決策通過提升

AI

信任、?險和安全管理,進而提升

AI

在業(yè)務(wù)目標實現(xiàn)和企業(yè)內(nèi)外部數(shù)據(jù)管理中的效果,即自適應(yīng)的AI

風險管理來源:艾瑞咨詢研究院自主研究及繪制。?2022.12iResearch

Inc.

23趨勢三:場景多元數(shù)據(jù)分析場景呈現(xiàn)多元化趨勢,不斷向多維縱深發(fā)展隨著數(shù)字化轉(zhuǎn)型的不斷深入,企業(yè)的精細化運營更加聚焦于通過數(shù)據(jù)分析來提升效率和優(yōu)化生產(chǎn)。因此用戶對于取數(shù)的時效、維度、深度以及交互的方式方法(移動、托拉拽、操作的友好體驗)要求越來越高,分析場景和分析需求不斷深化,使得我們對大數(shù)據(jù)分析平臺所提供的算力、計算和存儲組件、資源調(diào)度等要求趨于復(fù)雜。企業(yè)的分析場景和需求呈現(xiàn)多元化發(fā)展,既要滿足前端業(yè)務(wù)人員的實時分析,提供運營人員實時查詢當前經(jīng)營數(shù)據(jù),又要向中臺建設(shè)人員提供統(tǒng)一存算平臺,以滿足高并發(fā)

SQL

復(fù)雜查詢訪問。大數(shù)據(jù)分析場景的多元化發(fā)展支持采集終端用戶行為、服務(wù)器日志、業(yè)務(wù)數(shù)據(jù)和第三方等多方數(shù)據(jù)源為用戶生成個性化推薦利用深度學習和語義分析模型構(gòu)建推薦引擎分析用戶轉(zhuǎn)化情況和渠道轉(zhuǎn)化情況,形成及時反饋市場發(fā)展國產(chǎn)化產(chǎn)品的高速發(fā)展SaaS

化產(chǎn)品的平民化數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化程度加強數(shù)據(jù)資源化競爭加劇運用

SDK

對網(wǎng)頁、App、小程序等多端進行數(shù)據(jù)采集,并整合外部數(shù)據(jù)統(tǒng)計分析用戶行為特征和標簽構(gòu)成特征同時支持可視化界面和

SQL

創(chuàng)建用戶標簽支持標簽數(shù)據(jù)導出,進行二次加工和其他應(yīng)用架構(gòu)需求統(tǒng)一多模型大數(shù)據(jù)分析架構(gòu)分布式系統(tǒng)架構(gòu)廣泛應(yīng)用云原生大數(shù)據(jù)平臺架構(gòu)實時計算和運營分析引入客戶行為數(shù)據(jù),實時追蹤客戶監(jiān)控變化實時進行

MRR

多維度分析進行客戶分級,搭建差異化分析指標體系情景驅(qū)動,知識圖譜利用率提升來源:艾瑞咨詢研究院自主研究及繪制。?2022.12iResearch

Inc.

24業(yè)務(wù)側(cè)主導數(shù)據(jù)分析應(yīng)用決策驅(qū)動數(shù)據(jù)分析既要滿足前端經(jīng)營數(shù)據(jù)的實時查詢和分析,又要滿足后端高并發(fā)復(fù)雜查詢企業(yè)應(yīng)用數(shù)據(jù)分析場景多元化25大數(shù)據(jù)分析平臺市場分析2大數(shù)據(jù)分析平臺構(gòu)建建議3行業(yè)應(yīng)用與典型案例實踐4大數(shù)據(jù)分析平臺行業(yè)概述1大數(shù)據(jù)分析行業(yè)投資分析5整體思路明確業(yè)務(wù)場景需求,基于數(shù)據(jù)體量選定平臺框架和功能組件在搭建大數(shù)據(jù)分析平臺前,用戶首先要明確自身的數(shù)據(jù)體量和業(yè)務(wù)場景需求,希望通過大數(shù)據(jù)分析平臺得到哪些信息,需要接入哪些數(shù)據(jù),進行哪些主題分析,最終實現(xiàn)哪些功能。在明確大數(shù)據(jù)分析平臺需要具備的基本功能后,再決定平臺搭建過程中使用的大數(shù)據(jù)處理框架和工具,并將其有機結(jié)合以完成海量數(shù)據(jù)的挖掘和分析。在構(gòu)建大數(shù)據(jù)分析平臺時,首先要建設(shè)企業(yè)的基礎(chǔ)數(shù)據(jù)中心,構(gòu)建統(tǒng)一的數(shù)據(jù)存儲體系,統(tǒng)一數(shù)據(jù)建模。其次,集中組建數(shù)據(jù)處理中心,下沉數(shù)據(jù)處理能力,并通過統(tǒng)一的數(shù)據(jù)管理監(jiān)控體系,保障平臺系統(tǒng)的穩(wěn)定運行。最后,構(gòu)建數(shù)據(jù)應(yīng)用中心,統(tǒng)一輸出數(shù)據(jù)服務(wù),滿足業(yè)務(wù)需求,體現(xiàn)數(shù)據(jù)價值。搭建大數(shù)據(jù)分析平臺的整體思路數(shù)據(jù)存儲在哪?業(yè)務(wù)數(shù)據(jù)量有多少?分析主題是什么?需要解決什么業(yè)務(wù)問題?為什么需要搭建大數(shù)據(jù)分析平臺?是否有實時分析的需求?是否需要搭建整體數(shù)倉?是否有BI報表的需求?操作系統(tǒng)組件安裝數(shù)據(jù)導入數(shù)據(jù)分析可視化輸出數(shù)據(jù)接入(離線數(shù)據(jù)+實時數(shù)據(jù))數(shù)據(jù)預(yù)處理數(shù)據(jù)建模模型訓練挖掘分析來源:艾瑞咨詢研究院自主研究及繪制。

26?2022.12iResearch

Inc.能力建設(shè)基于場景需求,選定分析指標,通過模型訓練構(gòu)建分析能力大數(shù)據(jù)分析平臺的建設(shè)核心是分析能力的建設(shè)。不論用戶采用何種部署方式,數(shù)據(jù)分析能力的建設(shè)都萬變不離其宗。首先,根據(jù)業(yè)務(wù)場景需求選定指標進行建模,重點建設(shè)數(shù)據(jù)構(gòu)造、合并和統(tǒng)計處理的運算能力。接著進行模型訓練,從大量有噪聲的、不完全的、模糊和隨機的數(shù)據(jù)中挖掘多源多維數(shù)據(jù)間的關(guān)聯(lián)性。通過多維分析數(shù)據(jù),加深對數(shù)據(jù)的理解,提取可能對業(yè)務(wù)結(jié)果相關(guān)的影響因子,探索數(shù)據(jù)的內(nèi)在規(guī)律特征,并尋找模型最佳參數(shù),支撐分析模型對業(yè)務(wù)的定量和定性分析。在完成指標建模、模型訓練后,對滿足業(yè)務(wù)分析需求的模型進行部署調(diào)試,形成可被調(diào)用的服務(wù)能力,為其它業(yè)務(wù)系統(tǒng)、模型提供數(shù)據(jù)分析能力。此外,大數(shù)據(jù)分析平臺應(yīng)具備基礎(chǔ)框架功能,支持多廠家、多技術(shù)類型模型導入,提供對應(yīng)功能和工作流程設(shè)計,保障分析能力實施落地。大數(shù)據(jù)分析能力建設(shè)指標建模通過原始數(shù)據(jù)關(guān)聯(lián)、聯(lián)合、自碰撞等方式生成業(yè)務(wù)場景所需數(shù)據(jù)通過分析業(yè)務(wù)類型篩選相似業(yè)務(wù)所需的數(shù)據(jù)清單支持跨庫數(shù)據(jù)的

SQL

聯(lián)合查詢能力支持可視化快速創(chuàng)建數(shù)據(jù)集,通過拖拽數(shù)據(jù)源中多個數(shù)據(jù)表,搭建清晰的數(shù)據(jù)關(guān)聯(lián)關(guān)系模型訓練主要包括數(shù)據(jù)準備、數(shù)據(jù)探索、模型訓練、

模型評估等步驟核心目的是從大量模糊和隨機的數(shù)據(jù)中提取隱含、不可預(yù)知的潛在有價值信息,并找出數(shù)據(jù)模型的最佳參數(shù)模型部署支持設(shè)置多種模型參數(shù)偏好,形成不同的模型參數(shù)配置策略,以適應(yīng)不同的服務(wù)應(yīng)用支持預(yù)測模型部署所需的計算資源,支持配置模型服務(wù)資源數(shù)量支持部署試運行,提供關(guān)于模型運行速度、

資源使用率、運行錯誤等在內(nèi)的運行報告數(shù)據(jù)準備數(shù)據(jù)探索訓練模型模型評估根據(jù)業(yè)務(wù)分析需求,搜索與業(yè)務(wù)相關(guān)的內(nèi)外部數(shù)據(jù),進行數(shù)據(jù)挖掘以及數(shù)據(jù)預(yù)處理設(shè)置數(shù)據(jù)標簽,自動匹配關(guān)聯(lián)數(shù)據(jù)清單提供本地樣本文件上傳能力,支持樣本表預(yù)覽來源:艾瑞咨詢研究院自主研究及繪制。

27?2022.12iResearch

Inc.支持數(shù)據(jù)標準化處理支持多源多維數(shù)據(jù)的關(guān)聯(lián)分類支持數(shù)據(jù)樣本提取及抽樣分析,驗證數(shù)據(jù)指標支持圖標繪制和計算特征統(tǒng)計,提取內(nèi)在規(guī)律支持模型自動化訓練支持自動探索模型任務(wù)算法支持特征自動交叉衍生與自動篩選支持模型自動化調(diào)參依據(jù)多種模型性能的度量指標,評估數(shù)據(jù)分析結(jié)果的合理性、合法性以及評價模型的優(yōu)劣支持評價標準的制定,對未達標模型反向篩選支持分類模型評估的混淆矩陣查看部署方式依據(jù)行業(yè)特征、數(shù)據(jù)體量以及場景需要自由選擇部署方式大數(shù)據(jù)分析平臺的部署方式主要分為本地化部署和云上部署。本地化部署根據(jù)用戶數(shù)據(jù)體量的大小,又可分為基于Hadoop

生態(tài)的平臺搭建和“數(shù)據(jù)庫+AP

分析引擎”的數(shù)倉方案。本地化部署的優(yōu)點是自主可控和靈活度高,缺點是性能調(diào)優(yōu)和運維復(fù)雜,自身技術(shù)能力要求和綜合成本高。云上部署以公有云廠商提供的“低成本存儲+彈性存算引擎”的數(shù)據(jù)湖方案為主,在保留

HDFS

集群分布式存儲可靠性和高吞吐能力的前提下,提供一站式云上

PaaS

能力,實現(xiàn)各類數(shù)據(jù)快速便捷入湖,用戶無需考慮兼容、安全、性能調(diào)優(yōu)以及運維。盡管國內(nèi)主流數(shù)據(jù)湖方案的底層存儲系統(tǒng)仍以

Hadoop的分布式架構(gòu)構(gòu)建為主,但架構(gòu)上層擁有的讀寫優(yōu)化、內(nèi)存加速、數(shù)據(jù)融合等特性是云原生數(shù)據(jù)湖融合第三方開源組件的價值體現(xiàn),是本地化部署的Hadoop方案所不具備的。本地化部署VS云上部署云上部署本地化部署基于

Hadoop

的大數(shù)據(jù)方案用戶畫像 搭建方式用戶數(shù)據(jù)總量達到百

TB

?

業(yè)務(wù)場景以低時效要求的離線乃至

PB

量級,每年新增

場景為主,業(yè)務(wù)側(cè)對分析結(jié)果數(shù)據(jù)量超過100

TB

以上,

敏感度低,可嘗試開源自建;適合構(gòu)建Hadoop平臺 否則,建議成熟穩(wěn)定的商業(yè)版“數(shù)據(jù)庫+AP

分析引擎”的數(shù)倉方案用戶畫像 方案亮點用戶的數(shù)據(jù)總量在

GB

?

在有限數(shù)據(jù)體量下,借助存儲100

TB

級別,日增數(shù)據(jù)

引擎自身的存儲格式和計算下在幾十

GB

至百

GB,建

推,支持實時批量計算,實時云上數(shù)據(jù)湖方案用戶畫像公有云用戶(80%來自互

?

傳統(tǒng)行業(yè)用戶的混合云部署聯(lián)網(wǎng)行業(yè),20%為非互聯(lián)

(如政府、金融、醫(yī)藥公司網(wǎng)行業(yè)),業(yè)務(wù)數(shù)據(jù)已上

等),雖本地建有大數(shù)據(jù)平云,使用云上

PaaS

平臺在臺,但希望通過云上平臺提開發(fā)難度、使用體驗、運

供新算力資源,進行例如仿維成本等方面達到最優(yōu) 真計算在內(nèi)的二次計算方案亮點基于

Hadoop

的分布式架構(gòu)構(gòu)建底層存儲系統(tǒng),利用云原生數(shù)據(jù)湖的架構(gòu)優(yōu)勢,一方面實現(xiàn)多源異構(gòu)數(shù)據(jù)的快速便捷入湖,降低存儲成本;另一方面融合第三方開源產(chǎn)品插件,提供讀寫優(yōu)化、內(nèi)存加速、數(shù)據(jù)融合等性能提升;同時免去展現(xiàn)分析結(jié)果,性能亮眼議采用數(shù)倉方案了用戶性能調(diào)優(yōu)、兼容、安全及運維等方面的煩惱來源:艾瑞咨詢研究院自主研究及繪制。

28?2022.12iResearch

Inc.架構(gòu)選擇從離線、在線及實時場景出發(fā),按需選擇和組合分析架構(gòu)廣義而言,大數(shù)據(jù)分析平臺不再局限于產(chǎn)品態(tài),更趨近于包含數(shù)據(jù)采集層、存儲層、調(diào)度層、計算層、交互分析層、數(shù)據(jù)服務(wù)層等的集成態(tài)。如果從技術(shù)架構(gòu)的角度進行抽象,大數(shù)據(jù)分析平臺的架構(gòu)都可歸屬于

Lambda

Kappa

架構(gòu)。若從場景角度進一步抽象,又可拆分為離線、在線以及實時分析架構(gòu)。在自下而上分層的集成態(tài)中,三種分析架構(gòu)的差異主要源于數(shù)據(jù)分析層中存算引擎的選用,以滿足各自的分析場景。從技術(shù)角度而言,數(shù)據(jù)分析層的部署最為復(fù)雜,但也最富于創(chuàng)新,既有云原生數(shù)據(jù)湖的存算分離與彈性擴縮容,也有本地化部署下,基于

Docker

技術(shù)的平臺解耦,解決物理服務(wù)器資源供給彈性不足的問題,滿足存算能力的橫向擴展。在落地實施時,用戶的分析場景又趨于融合,既有

HTAP數(shù)倉方案的融合框架縮影,也有融合

AP

TP場景的海量大數(shù)據(jù)分析平臺,用戶皆可按需選取。Lambda

架構(gòu)

VSKappa架構(gòu)Lambda

架構(gòu)Kappa

架構(gòu)數(shù)據(jù)采集不可變更數(shù)據(jù)批作業(yè)速度層流作業(yè)批處理層 服務(wù)層批視圖實時視圖應(yīng)用合并查詢數(shù)據(jù)采集不可變更數(shù)據(jù)流處理系統(tǒng)流作業(yè)(版本N)流作業(yè)(版本N+1)服務(wù)層實時批視圖(N)實時批視圖(N+1)應(yīng)用數(shù)據(jù)采集可變更數(shù)據(jù)不可變更數(shù)據(jù)流處理系統(tǒng)實時流處理實時分析實時數(shù)倉實時分析 離線分析服務(wù)層實時視圖批視圖應(yīng)用Lambda

架構(gòu)將數(shù)據(jù)分解為批處理層、速度層、服務(wù)層以解決不同數(shù)據(jù)集的數(shù)據(jù)需求,服務(wù)層通常使用

MySQL,HBase

等供業(yè)務(wù)應(yīng)用查詢Kappa

架構(gòu)在

Lambda

架構(gòu)的基礎(chǔ)上移除批處理層,利用流計算的分布式特征,加大流數(shù)據(jù)的時間窗口,統(tǒng)一批處理和流處理Kappa

架構(gòu)的運用主要依據(jù)使用場景,如果只是傳統(tǒng)企業(yè)的離線場景,則沒有必要采用,適用于像互聯(lián)網(wǎng)場景下的流批一體Kappa

架構(gòu)對全量數(shù)據(jù)完整性支持能力差,對于機器學習等對數(shù)據(jù)完整性和一致性有強要強的支持不足,于是衍生出補齊批處理的混合架構(gòu)來源:艾瑞咨詢研究院自主研究及繪制。快照視圖

29?2022.12iResearch

Inc.組件選擇采取自建方式部署,應(yīng)著重關(guān)注分析層存算引擎的組合搭建對于采取本地化部署的用戶,按照數(shù)據(jù)量級大致可分兩類:其一,年新增數(shù)據(jù)量在100TB

級的傳統(tǒng)行業(yè)頭部用戶,由于本地數(shù)據(jù)體量大,上云的帶寬成本高,同時還可能受到合規(guī)監(jiān)管的約束,多采用開源自建或采購商業(yè)版

Hadoop

生態(tài)。其二,年新增數(shù)據(jù)量在

TB

級別以下的中小企業(yè),選擇拋開架構(gòu)繁復(fù)的

Hadoop生態(tài),自建“數(shù)據(jù)庫+AP

分析引擎”的數(shù)倉方案。自建大數(shù)據(jù)分析平臺必然涉及組件選擇,尤其是數(shù)據(jù)分析層的組件集成,直接影響場景支撐和效率提升。而在數(shù)據(jù)分析層的存算引擎中,存儲引擎的選擇顯得格外重要。不難發(fā)現(xiàn)拋開計算引擎本身的性能,數(shù)據(jù)的寬表合并、CRUD、批量計算、實時流計算、即席查詢等,都依賴大數(shù)據(jù)分析平臺自身的存儲引擎。大數(shù)據(jù)分析平臺的組件選擇采集層存儲層調(diào)度層計算層交互分析層服務(wù)層Kafka:高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),靈活的對接、適配各種數(shù)據(jù)源采集,對于

Hadoop

的日志數(shù)據(jù)和離線分析系統(tǒng),但又要求實時處理的限制,是可行的解決方案Flume

NG:實時日志收集系統(tǒng),支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù),并對數(shù)據(jù)進行簡單處理,寫入各種數(shù)據(jù)接收方(如文本、HDFS、Hbase等)HDFS:Hadoop

生態(tài)典型的分布式存儲系統(tǒng)。優(yōu)點是高容錯性,支持

PB

級數(shù)據(jù)規(guī)模,并支持在廉價機器上的多副本機制以提高可靠性;缺點是不適合低延時數(shù)據(jù)訪問,無法對大量小文件進行高效存儲HBase:分布式、面向列的開源NoSQL數(shù)據(jù)庫,通過構(gòu)建集群,提供大數(shù)據(jù)快速查詢能力,點查能力強Redis:鍵值數(shù)據(jù)庫,通過存儲鍵值之間的映射提供高性能查詢能力,并將存儲在內(nèi)存的鍵值對數(shù)據(jù)持久化到硬盤,使用復(fù)制特性來擴展性能Kudu:圍繞

Hadoop

生態(tài)圈建立的存儲引擎,提供低延遲的隨機讀寫和高效的數(shù)據(jù)分析能力S3

協(xié)議:基本所有云服務(wù)廠商提供的

oss

服務(wù)和開源的

oss

項目都遵循了S3協(xié)議,利用API

接入訪問Hive:將

SQL

語句翻譯成

MR

程序,將結(jié)構(gòu)化數(shù)據(jù)映射為數(shù)據(jù)庫表,并提供

HQL

查詢,解決關(guān)系型數(shù)據(jù)庫的大數(shù)據(jù)處理瓶頸。缺點是不提供實時查詢和基于行級的數(shù)據(jù)更新操作,不適用于低延遲應(yīng)用Spark:擁有

HadoopMapReduce所具有的特點,將Job中間輸出結(jié)果保存在內(nèi)存中而無需讀取HDFS。Spark啟用內(nèi)存分布數(shù)據(jù)集,提供交互式查詢,支持優(yōu)化迭代工作負載Elasticsearch:開源的全文搜索引擎,基于Lucene

的搜索服務(wù)器,快速儲存、搜索和分析海量數(shù)據(jù)Redis:鍵值數(shù)據(jù)庫,通過存儲鍵值之間的映射提供高性能查詢能力,并將存儲在內(nèi)存的鍵值對數(shù)據(jù)持久化到硬盤,使用復(fù)制特性來擴展性能

Sqoop:主要用于外部數(shù)據(jù)的導入,將數(shù)據(jù)庫和

Hadoop

中的數(shù)據(jù)進行雙向轉(zhuǎn)移來源:艾瑞咨詢研究院自主研究及繪制。

30?2022.12iResearch

Inc.分析平臺分層Hadoop技術(shù)趨勢基于

Hadoop

的改造方案(以

Hudi

為例)基于云原生數(shù)倉架構(gòu)的方案(以

Snowflake

為例)改造背景Apache

Hudi

是由

Uber

工程師為滿足內(nèi)部數(shù)據(jù)分析需求而設(shè)計的,Hudi

的數(shù)據(jù)寫入不綁定

Spark,也可以使用

Hudi自帶寫入工具Snowflake

的湖倉一體方案基于Snowflake的云原生數(shù)據(jù)倉庫,Snowflake

實現(xiàn)了事務(wù)的支持,僅支持對象存儲實現(xiàn)原理使用

SparkSQL/Flink

作為

SQL

計算引擎,Spark

Streaming/Flink

作為流處理引擎,存儲使用

HDFS/S3

對象存儲,Update/Delete

的事務(wù)實現(xiàn)由

Hudi

實現(xiàn)使用

Snowflake

作為

SQL

計算引擎,,Spark

Streaming/Flink

作為流處理引擎,S3對象存儲,Update/Delete

事務(wù)由

Snowflake

原生提供支持打破傳統(tǒng)架構(gòu)下的技術(shù)異構(gòu),統(tǒng)一數(shù)據(jù)能力提升業(yè)務(wù)價值傳統(tǒng)

Hadoop

架構(gòu)和以

MPP

為主的數(shù)倉架構(gòu)都無法真正適應(yīng)云平臺。Hadoop

將存儲和計算部署在同一物理集群以拉近與數(shù)據(jù)的距離,僅在同一集群下實現(xiàn)了存算分離,而

MPP

數(shù)據(jù)庫本身存算耦合。傳統(tǒng)架構(gòu)下的湖倉分體引發(fā)數(shù)據(jù)孤島的原因有三:第一,異構(gòu)技術(shù)架構(gòu);第二,集群規(guī)模受限;第三,集群高并發(fā)受限。數(shù)據(jù)孤島進而造成實施、運維和成本的問題。湖倉一體技術(shù)呼之欲出——在數(shù)據(jù)和查詢層面形成一體化架構(gòu),解決實時性和并發(fā)度、集群規(guī)模受限、非結(jié)構(gòu)化數(shù)據(jù)無法整合、建模路徑冗長、數(shù)據(jù)一致性弱、

性能瓶頸等問題,降低數(shù)據(jù)管理門檻和運維成本。從架構(gòu)演進方向來看,國內(nèi)以基于

Hadoop

的改造方案為主,從事務(wù)特性出發(fā)進行優(yōu)化,如

Hudi

和Iceberg

等,基于

HDFS

S3

實現(xiàn)支持事務(wù)的存儲層,其他與

Hadoop

區(qū)別不大。另一方面,以

Snowflake

為代表,基于多云的數(shù)倉架構(gòu)方案在存算分離等方面的特性更具前瞻性,值得持續(xù)關(guān)注。架構(gòu)演進方向及業(yè)務(wù)價值業(yè)務(wù)價值實時

T+0致性來源:艾瑞咨詢研究院自主研究及繪制。

31?2022.12iResearch

Inc.全量數(shù)據(jù)

T+0的流處理和實時按需查詢,滿足事前預(yù)測、事中判斷和事后分析一份數(shù)據(jù)所有用戶(BI

用戶、數(shù)據(jù)科學家等)可以共享同一份數(shù)據(jù),避免數(shù)據(jù)孤島超高并發(fā)支持數(shù)十萬用戶使用復(fù)雜分析查詢,并發(fā)訪問同一份數(shù)據(jù)數(shù)據(jù)一致通過支持完善的事務(wù)機制,保障不同用戶同時查詢和更新同份數(shù)據(jù)時的一云原生適合云環(huán)境,自由增減計算和存儲資源,按用量計費,節(jié)約成本多類型數(shù)據(jù)支持關(guān)系表、文本、圖像、視頻等結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲32大數(shù)據(jù)分析平臺市場分析2大數(shù)據(jù)分析平臺構(gòu)建建議3行業(yè)應(yīng)用與典型案例實踐4大數(shù)據(jù)分析平臺行業(yè)概述1大數(shù)據(jù)分析行業(yè)投資分析5行業(yè)聚焦-總覽

33?2022.12iResearch

Inc.來源:中國政務(wù)網(wǎng)國務(wù)院政策文件庫,艾瑞咨詢研究院根據(jù)公開資料自主研究及繪制。指導政策覆蓋政務(wù)、金融、零售、醫(yī)療、交通和教育等領(lǐng)域中國大數(shù)據(jù)分析平臺各賽道政策方向子賽道時間 政策發(fā)布機關(guān) 政策名稱政務(wù)2022.10國務(wù)院辦公廳《全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南》金融2021.12中國人民銀行《金融大數(shù)據(jù)平臺總體技術(shù)要求》醫(yī)療2018.72016.6國家衛(wèi)生健康委員會《國家健康醫(yī)療大數(shù)據(jù)標準、安全和服務(wù)管理辦法(試行)》國家衛(wèi)生計生委規(guī)劃與信息司《關(guān)于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導意見》交通2018.3交通運輸部辦公廳、國家旅游局辦公室《關(guān)于加快推進交通旅游服務(wù)大數(shù)據(jù)應(yīng)用試點工作的通知》2016.8交通運輸部《關(guān)于推進交通運輸行業(yè)數(shù)據(jù)資源開放共享的實施意見》教育2022.102022.9中共中央辦公廳、國務(wù)院辦公廳《關(guān)于新時代進一步加強科學技術(shù)普及工作的意見》民政部辦公廳《民政部關(guān)于落實國務(wù)院加強數(shù)字政府建設(shè)的指導意見》水利2017.5水利部《關(guān)于推進水利大數(shù)據(jù)發(fā)展的指導意見》農(nóng)業(yè)2016.10農(nóng)業(yè)部《農(nóng)業(yè)部關(guān)于推進農(nóng)業(yè)農(nóng)村大數(shù)據(jù)發(fā)展的實施意見》能源2016.7中國煤炭工業(yè)協(xié)會、中國煤炭運銷協(xié)會《推進煤炭大數(shù)據(jù)發(fā)展的指導意見》行業(yè)聚焦-政務(wù)構(gòu)建全國一體化政務(wù)大數(shù)據(jù)體系,加快政府服務(wù)型建設(shè)2022年10月國務(wù)院發(fā)布《全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南》,就整合構(gòu)建全國一體化政務(wù)大數(shù)據(jù)體系作出部署,提出加強數(shù)據(jù)匯聚融合、共享利用,促進數(shù)據(jù)高效流通使用,充分釋放政務(wù)數(shù)據(jù)資源價值,提高政府管理水平和服務(wù)效能。全國一體化政務(wù)大數(shù)據(jù)體系聚焦“惠民”、“善政”、“興業(yè)”和“城市管理”,依托城市大數(shù)據(jù)相關(guān)平臺和應(yīng)用支撐,匯聚城市管理各相關(guān)部門業(yè)務(wù)數(shù)據(jù),集中展示和分析。基于大數(shù)據(jù)推進政府改革,轉(zhuǎn)變執(zhí)政理念,創(chuàng)新治理方式,由電子政務(wù)向智慧政務(wù)升級,提高政府工作效能。通過大數(shù)據(jù)推動產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化升級,催生基于大數(shù)據(jù)、網(wǎng)絡(luò)經(jīng)濟的新興產(chǎn)業(yè),促進投資,拉動經(jīng)濟增長。綜合提升城市運行管理、政務(wù)服務(wù)、城市綜合管理決策和產(chǎn)業(yè)轉(zhuǎn)型升級等方面能力。全國一體化政務(wù)大數(shù)據(jù)體系構(gòu)建安全保障制度健全數(shù)據(jù)資源高效配置數(shù)據(jù)分析能力增強國家政務(wù)大數(shù)據(jù)平臺國務(wù)院政務(wù)數(shù)據(jù)平臺政務(wù)數(shù)據(jù)標準規(guī)范省級政務(wù)數(shù)據(jù)平臺安全保障一體化統(tǒng)籌管理一體化建立完善政務(wù)大數(shù)據(jù)管理體系建立健全政務(wù)數(shù)據(jù)共享協(xié)調(diào)機制數(shù)據(jù)目錄一體化全量編制政務(wù)數(shù)據(jù)目錄規(guī)范編制政務(wù)數(shù)據(jù)目錄加強目錄同步更新管理數(shù)據(jù)資源一體化推進政務(wù)數(shù)據(jù)歸集加強政務(wù)數(shù)據(jù)治理建設(shè)完善數(shù)據(jù)庫資源標準規(guī)范一體化加快編制國家標準協(xié)同開展標準體系建設(shè)推進標準規(guī)范落地實施健全安全制度規(guī)范提升平臺防護能力數(shù)據(jù)安全運行管理算力設(shè)施一體化完善算力管理體系建設(shè)國家主備節(jié)點提升算力支撐能力數(shù)據(jù)服務(wù)一體化優(yōu)化國家政務(wù)數(shù)據(jù)服務(wù)門戶加強政務(wù)大數(shù)據(jù)基礎(chǔ)能力建設(shè)加大政務(wù)大數(shù)據(jù)應(yīng)用創(chuàng)新力度推進政務(wù)數(shù)據(jù)資源開發(fā)利用共享交換一體化構(gòu)建完善統(tǒng)一共享交換體系來源:艾瑞咨詢研究院根據(jù)公開資料自主研究及繪制。

34?2022.12iResearch

Inc.深入推進政務(wù)數(shù)據(jù)協(xié)同共享行業(yè)聚焦-金融基于大數(shù)據(jù)分析的精準營銷、實施管控、分析決策相比其他行業(yè),金融大數(shù)據(jù)分析起步早、技術(shù)高、發(fā)展快,國家對金融行業(yè)大數(shù)據(jù)發(fā)展整體秉持鼓勵和支持的基調(diào)。一方面,出于對金融行業(yè)系統(tǒng)性和非系統(tǒng)性風險雙重考慮,國家對金融大數(shù)據(jù)分析出臺了細致的監(jiān)管政策,涉及數(shù)據(jù)收集、數(shù)據(jù)治理標準、大數(shù)據(jù)軟件應(yīng)用等多個方面。另一方面,金融作為數(shù)據(jù)密集型行業(yè),數(shù)據(jù)體量大,數(shù)據(jù)邏輯性強,對實時性、安全性和穩(wěn)定性的要求高,同時結(jié)構(gòu)化數(shù)據(jù)占比高,在分析工具成熟度方面具有明顯優(yōu)勢。最后,金融行業(yè)的數(shù)據(jù)分析應(yīng)用場景廣泛,包括精準營銷、風險控制、客戶關(guān)系管理、反欺詐檢測、反洗錢檢測、決策支持、股票預(yù)測、宏觀經(jīng)濟分析與預(yù)測等多個方面。大數(shù)據(jù)分析在金融行領(lǐng)域蘊含了巨大的潛力和挑戰(zhàn)。金融行業(yè)的大數(shù)據(jù)分析需求和場景應(yīng)用股價預(yù)測流失客戶預(yù)測個人客戶畫像保險定價投資景氣度預(yù)測個性化推薦交叉營銷企業(yè)客戶畫像客戶聚類細分證券賬戶監(jiān)控客戶生命周期管理欺詐行為分析環(huán)境監(jiān)測投資賬戶預(yù)警保險證券貸款風險管理實時欺詐交易分析銀行反洗錢分析新險種場景分析來源:艾瑞咨詢研究院根據(jù)公開資料自主研究及繪制。

35?2022.12iResearch

Inc.行業(yè)聚焦-零售線上線下場景融合,智能設(shè)備終端接入,數(shù)據(jù)分析日趨復(fù)雜新零售,即依托互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等手段,升級改造商品環(huán)節(jié),深度融合線上服務(wù)、線下體驗以及現(xiàn)代物流,重塑“人-貨-場”業(yè)態(tài)結(jié)構(gòu)與生態(tài)圈的零售新模式。新零售商在不同的業(yè)務(wù)場景下,布局各類智能終端設(shè)備,進行數(shù)據(jù)采集、算法運行和數(shù)據(jù)交互等操作。由于不同環(huán)節(jié)接入的設(shè)備終端采集的數(shù)據(jù)種類、敏感程度、商業(yè)價值不同,因而數(shù)據(jù)收集、處理場景和共享鏈條更加多樣和復(fù)雜。隨著新零售從消費終端獲取的數(shù)據(jù)量和類別“爆發(fā)式”增長,對大數(shù)據(jù)分析的維度和深度提出了新的要求,包括從“人臉驗證”“人臉識別”到“人臉分析”的創(chuàng)新應(yīng)用、“不殺熟”和“不強制”的算法模型和個性化推薦,以及數(shù)據(jù)交互的具體場景和風險識別等。新零售模式下的算法模型和個性化推薦010605040302算法模型消費記錄產(chǎn)品偏好消費能力商鋪定位收入水平價格敏感新零售,新業(yè)態(tài)新零售以“人”為本,收集數(shù)據(jù)呈現(xiàn)點多面廣的特征。生產(chǎn)環(huán)節(jié)涉及對存量用戶數(shù)據(jù)的分析,如客戶購物車數(shù)量、重復(fù)購買率、點擊瀏覽次數(shù)等。在銷售環(huán)節(jié),新零售收集消費者的個人信息,包括生物識別信息,以實現(xiàn)如無人貨架、智能收銀等服務(wù)。線下體驗店結(jié)合線上平臺雙應(yīng)用場景,也包含大量數(shù)據(jù)傳輸、存儲和處理。男性來源:艾瑞咨詢研究院根據(jù)公開資料自主研究及繪制。

36?2022.12iResearch

Inc.女性90后本科美妝電競本科寵物美食

旅游行業(yè)聚焦-醫(yī)療數(shù)據(jù)體量龐大,類型繁雜,與健康和生命安全息息相關(guān)與其他行業(yè)的數(shù)據(jù)相比,醫(yī)療行業(yè)的數(shù)據(jù)更為重要、復(fù)雜。不僅與健康和生命安全息息相關(guān),而且數(shù)據(jù)結(jié)構(gòu)和類型也更加龐雜和繁瑣。醫(yī)療大數(shù)據(jù)的來源包括:1)醫(yī)療數(shù)據(jù)資源,如電子病歷數(shù)據(jù)、臨床檢驗數(shù)據(jù)、醫(yī)學影像數(shù)據(jù)、醫(yī)患行為數(shù)據(jù)等;2)行業(yè)數(shù)據(jù)資源,如商業(yè)健康險、醫(yī)保、新藥研發(fā)、醫(yī)藥銷售等;3)學科相關(guān)數(shù)據(jù)資源,如生命科學、環(huán)境科學等;4)產(chǎn)生于互聯(lián)網(wǎng)的關(guān)于疾病、健康或?qū)めt(yī)的話題、搜尋內(nèi)容、購藥行為以及網(wǎng)站訪問記錄等。醫(yī)療大數(shù)據(jù)呈現(xiàn)數(shù)據(jù)規(guī)模大、數(shù)據(jù)結(jié)構(gòu)多樣、增長速度快、數(shù)據(jù)價值高等顯著特征。大數(shù)據(jù)分析在健康醫(yī)療領(lǐng)域的廣泛應(yīng)用,能夠大幅提高對患者治療的安全系數(shù),為患者制定更有針對性的治療方案,并有效降低醫(yī)療成本,意義重大。醫(yī)療行業(yè)大數(shù)據(jù)分析的作用和難

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論