




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)CCSATC601大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會2023年6月版
權(quán)
聲
明本報告版權(quán)屬于
CCSA
TC601
大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本報告文字或者觀點的,應(yīng)注明“來源:CCSA
TC601大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會”。違反上述聲明者,本院將追究其相關(guān)法律責(zé)任。編制說明本報告的撰寫得到了大數(shù)據(jù)領(lǐng)域多家企業(yè)與專家的支持和幫助,主要參與單位與人員如下。參編單位:大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會、中國移動通信集團(tuán)山東有限公司、威海市商業(yè)銀行、阿里云計算有限公司、騰訊云計算(北京)有限責(zé)任公司、華為云計算有限公司、北京鏡舟科技有限公司、北京飛輪數(shù)據(jù)科技有限公司、科大訊飛股份有限公司、中興通訊股份有限公司、天津南大通用數(shù)據(jù)技術(shù)股份有限公司、杭州數(shù)夢工場科技有限公司、杭州比智科技有限公司、北京數(shù)勢云創(chuàng)科技有限公司、浙江數(shù)新網(wǎng)絡(luò)有限公司、北京百度網(wǎng)訊科技有限公司、北京滴普科技有限公司、北京科杰科技有限公司、北京偶數(shù)科技有限公司。參編人員:魏凱、姜春宇、閆樹、馬鵬瑋、田稼豐、劉彥美、朱祥磊、高鵬、魏沖、劉一鳴、孔亮、林楠、王寧、崔瀟揚(yáng)、楊勇強(qiáng)、汪定新、王涵毅、白雪、趙峰、湯雅琴、伍攀、陳關(guān)良、趙青柏、謝輝、高經(jīng)郡、張立群。前
言數(shù)據(jù)平臺是能夠為企業(yè)提供數(shù)據(jù)分析能力、支撐上層數(shù)據(jù)應(yīng)用、助力企業(yè)數(shù)字化轉(zhuǎn)型的底層基礎(chǔ)設(shè)施,它包含數(shù)據(jù)存儲、數(shù)據(jù)計算分析等能力的一套基礎(chǔ)設(shè)施,通過匯聚各方數(shù)據(jù),提供“采-存-算-管-用”全生命周期的軟件支撐。經(jīng)過數(shù)十年的發(fā)展,數(shù)據(jù)平臺架構(gòu)持續(xù)演進(jìn),主要經(jīng)歷了數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖三個階段。如今,數(shù)據(jù)倉庫和數(shù)據(jù)湖是數(shù)據(jù)平臺最廣泛的兩種架構(gòu):數(shù)據(jù)倉庫具備規(guī)范性,可針對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集中式的存儲和計算,但無法處理半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),且其擴(kuò)展能力有一定局限性;數(shù)據(jù)湖具有更好的擴(kuò)展能力,能夠靈活支持對于多種類型數(shù)據(jù)的高效取用,但不支持事務(wù)處理,缺乏一致性、隔離性,數(shù)據(jù)質(zhì)量難以保障。數(shù)據(jù)倉庫和數(shù)據(jù)湖是兩套相對獨(dú)立的體系,各有優(yōu)劣勢,無法相互替代。為滿足多種數(shù)據(jù)類型存儲、多場景分析等業(yè)務(wù)訴求,企業(yè)采用數(shù)據(jù)湖+數(shù)據(jù)倉庫混合架構(gòu)?!皵?shù)據(jù)湖+數(shù)據(jù)倉庫”混合架構(gòu)滿足了結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)高效處理需求,解決了傳統(tǒng)數(shù)據(jù)倉庫在海量數(shù)據(jù)下加載慢、數(shù)據(jù)查詢效率低、難以融合多種異構(gòu)數(shù)據(jù)源進(jìn)行分析的問題,但也存在混合架構(gòu)復(fù)雜,開發(fā)運(yùn)維難度大、成本高,數(shù)據(jù)處理鏈路長時效低等問題。湖倉一體是指融合數(shù)據(jù)湖與數(shù)據(jù)倉庫的優(yōu)勢,形成一體化、開放式數(shù)據(jù)處理平臺的技術(shù)。通過湖倉一體技術(shù),可使得數(shù)據(jù)處理平臺底層支持多數(shù)據(jù)類型統(tǒng)一存儲,實現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉庫之間無縫調(diào)度和管理,并使得上層通過統(tǒng)一接口進(jìn)行訪問查詢和分析。自
2021
年“湖倉一體”首次寫入
Gartner
數(shù)據(jù)管理領(lǐng)域成熟度模型報告以來,隨著企業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,“湖倉一體”作為新型的技術(shù)受到了前所未有的關(guān)注,越來越多的企業(yè)視“湖倉一體”為數(shù)字化轉(zhuǎn)型的重要基礎(chǔ)設(shè)施。湖倉一體平臺的建設(shè)解決了流批一體面臨的原子事務(wù)、一致性更新以及元數(shù)據(jù)性能瓶頸等問題,使得湖倉一體平臺的構(gòu)建既能滿足短期業(yè)務(wù)發(fā)展的需要,又能支撐長期的數(shù)據(jù)應(yīng)用訴求。為給社會各界深入了解湖倉一體技術(shù)與產(chǎn)業(yè)提供有價值的參考。本報告聚焦于湖倉一體技術(shù),詳細(xì)梳理了數(shù)據(jù)平臺發(fā)展歷程、湖倉一體實踐路徑,研究分析了湖倉一體產(chǎn)業(yè)現(xiàn)狀,并對湖倉一體未來發(fā)展進(jìn)行了展望與研判。由于時間倉促,水平所限,錯誤和不足之處在所難
免
,
歡
迎
各
位
讀
者
批
評
指
正
,
意
見
建
議
請
發(fā)
送
至liuyanmei@。目
錄一、湖倉一體是數(shù)據(jù)平臺發(fā)展的重要趨勢................................................................1(一)數(shù)據(jù)平臺的發(fā)展歷程....................................................................................1(二)數(shù)據(jù)湖、數(shù)據(jù)倉庫特性分析........................................................................3(三)湖+倉混合業(yè)務(wù)架構(gòu)存在四大痛點..............................................................4(四)湖倉一體技術(shù)應(yīng)運(yùn)而生................................................................................6二、湖倉一體實踐路徑..............................................................................................10(一)湖上建倉......................................................................................................11(二)倉外掛湖......................................................................................................13三、湖倉一體產(chǎn)業(yè)及應(yīng)用現(xiàn)狀..................................................................................14(一)湖倉一體主要廠商和代表產(chǎn)品..................................................................15(二)湖倉一體在互聯(lián)網(wǎng)、電信、金融等信息化程度高的領(lǐng)域應(yīng)用程度高..17四、結(jié)論與展望..........................................................................................................19附錄:典型案例..........................................................................................................21圖
目
錄圖
1
數(shù)據(jù)平臺發(fā)展歷程圖...........................................................................................1圖
2
湖+倉混合架構(gòu)圖
................................................................................................5圖
3
湖倉一體架構(gòu)模塊圖...........................................................................................7圖
4《湖倉一體數(shù)據(jù)平臺技術(shù)要求》標(biāo)準(zhǔn)總體框架.................................................8圖
5《Gartner數(shù)據(jù)管理成熟度曲線》2022年
........................................................10圖
6
我國數(shù)據(jù)平臺軟件市場規(guī)模.............................................................................15圖
7
實踐路徑統(tǒng)計圖.................................................................................................16圖
82022年湖倉一體市場行業(yè)統(tǒng)計圖.....................................................................17表
目
錄表
1
數(shù)據(jù)湖與數(shù)據(jù)倉庫對比表...................................................................................4表
2
兩種實現(xiàn)路徑對比表.........................................................................................11表
3
湖倉一體主要廠商和代表產(chǎn)品.........................................................................15表
4
各行業(yè)需求現(xiàn)狀表.............................................................................................17湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)一、湖倉一體是數(shù)據(jù)平臺發(fā)展的重要趨勢(一)
數(shù)據(jù)平臺的發(fā)展歷程需求催生技術(shù)革新,在存儲海量數(shù)據(jù)需求的推動下,數(shù)據(jù)平臺架構(gòu)持續(xù)演進(jìn),經(jīng)過數(shù)十年的發(fā)展,主要經(jīng)歷了數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖三個階段。來源:CCSATC601圖
1
數(shù)據(jù)平臺發(fā)展歷程圖數(shù)據(jù)庫:20世紀(jì)
60年代,數(shù)據(jù)庫誕生,此時企業(yè)的數(shù)據(jù)量不大且數(shù)據(jù)類型比較單一。這一階段企業(yè)對數(shù)據(jù)的使用需求主要是面向管理層從宏觀層面對公司的經(jīng)營狀況做描述性分析,處理的數(shù)據(jù)為有限的結(jié)構(gòu)化數(shù)據(jù),支撐數(shù)據(jù)存儲和計算的軟件系統(tǒng)架構(gòu)比較簡單。20
世紀(jì)
70
年代,最早出現(xiàn)的關(guān)系型數(shù)據(jù)庫已經(jīng)得到了一定程度的應(yīng)用。關(guān)系型數(shù)據(jù)庫主要應(yīng)用于聯(lián)機(jī)事務(wù)處理
OLTP
場景,如銀行交易等。代表產(chǎn)品有
Oracle、SQL
Server、Mysql等。數(shù)據(jù)倉庫:隨著互聯(lián)網(wǎng)的快速普及,門戶、搜索引擎、百科等應(yīng)用用戶快速增長,數(shù)據(jù)量呈爆發(fā)式增長,原有的單個關(guān)系型數(shù)據(jù)庫架構(gòu)無法支撐龐大的數(shù)據(jù)量。20
世紀(jì)
90
年代數(shù)據(jù)倉庫理論被提出。數(shù)據(jù)1湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)倉庫是為解決單個關(guān)系型數(shù)據(jù)庫架構(gòu)無法支撐龐大數(shù)據(jù)量的數(shù)據(jù)存儲問題而誕生。數(shù)據(jù)倉庫是為了對數(shù)據(jù)整合而形成的架構(gòu),核心是基于
OLTP
系統(tǒng)的數(shù)據(jù)源,根據(jù)聯(lián)機(jī)分析處理
OLAP場景訴求,將數(shù)據(jù)經(jīng)過數(shù)倉建模形成
ODS、DWD、DWS、DM等不同數(shù)據(jù)層,每層都需要進(jìn)行清洗、加工、整合等數(shù)據(jù)開發(fā)(ETL)工作,并最終加載到關(guān)系型數(shù)據(jù)庫中。數(shù)據(jù)倉庫多為
MPP(Massively
Parallel
Processor)架構(gòu),代表產(chǎn)品有
Teradata、Greenplum、Clickhouse等。2003-2006年,Google的“三駕馬車”:分布式文件系統(tǒng)
GFS、分布式計算框架
MapReduce
和數(shù)據(jù)庫
Big
Table,為技術(shù)界提供了一種以分布式方式組織海量數(shù)據(jù)存儲與計算的新思路。受此啟發(fā)開源大數(shù)據(jù)項目
Hadoop誕生了。2008年基于
Hadoop自建離線數(shù)據(jù)倉庫(Hive)成為數(shù)據(jù)倉庫的首選方案。2010
年前后,云廠商紛紛推出云數(shù)據(jù)倉庫產(chǎn)品,如:AW
S
Redshift、Google
BigQuery、Snowflake、MaxCompute等。數(shù)據(jù)湖:隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的存儲、計算需求日益突出,對數(shù)據(jù)平臺提出了新的要求。2010年,數(shù)據(jù)湖概念被提出,數(shù)據(jù)湖是一種支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等數(shù)據(jù)類型大規(guī)模存儲和計算的系統(tǒng)架構(gòu)。隨著
Hadoop技術(shù)的成熟與普及,企業(yè)開始基于
Hadoop、Spark
及其生態(tài)體系中的配套工具搭建平臺處理結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),同時利用批處理引擎實現(xiàn)數(shù)據(jù)批處理。而以開源
Hadoop
體系為代表的開放式
HDFS
存儲、開放的文件格式、開放的元數(shù)據(jù)服務(wù)以及多種引擎(Hive、Presto、Spark等)協(xié)同工作的模式,形成了數(shù)據(jù)湖的雛形。Hudi、Delta
Lake和
Iceberg2湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)三大開源數(shù)據(jù)湖技術(shù)的成熟,加速了數(shù)據(jù)湖產(chǎn)品化落地。數(shù)據(jù)湖將數(shù)據(jù)管理的流程簡化為數(shù)據(jù)入湖和數(shù)據(jù)分析兩個階段。數(shù)據(jù)入湖即支持各種類型數(shù)據(jù)的統(tǒng)一存儲。數(shù)據(jù)分析則以讀取型
Schema(schema
onread)形式,極大提升分析效率。代表產(chǎn)品有亞馬遜-S3、LakeFormation,阿里云-數(shù)據(jù)湖構(gòu)建
DLF、數(shù)據(jù)開發(fā)治理
Dataworks、對象存儲
OSS、開源大數(shù)據(jù)平臺
EMR,華為云-
FusionInsight
MRS
云原生數(shù)據(jù)湖、DataArts
Studio
數(shù)據(jù)治理中心,騰訊云-數(shù)據(jù)湖計算服務(wù)
DLC、數(shù)據(jù)湖構(gòu)建
DLF、對象存儲
COS等。(二)
數(shù)據(jù)湖、數(shù)據(jù)倉庫特性分析數(shù)據(jù)倉庫主要用于解決單個關(guān)系型數(shù)據(jù)庫架構(gòu)無法支撐龐大數(shù)據(jù)量的數(shù)據(jù)存儲問題,很好地解決了
TB
到
PB
級別的數(shù)據(jù)處理問題,但是由于數(shù)據(jù)倉庫仍以結(jié)構(gòu)化數(shù)據(jù)為主,無法解決業(yè)務(wù)增長帶來的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的存儲、處理問題,且其整個建設(shè)過程需要遵循一系列規(guī)范,比如標(biāo)準(zhǔn)化的數(shù)據(jù)集成模式和存儲格式、統(tǒng)一的數(shù)據(jù)倉庫分層分域模型以及指標(biāo)體系建設(shè)等,帶來了數(shù)據(jù)倉庫建設(shè)存儲成本高、維護(hù)開發(fā)難度大、擴(kuò)展能力受限制等問題。數(shù)據(jù)湖的出現(xiàn)很好解決了數(shù)據(jù)倉庫建設(shè)存在的一系列問題,將數(shù)據(jù)管理的流程簡化為數(shù)據(jù)入湖和數(shù)據(jù)分析兩個階段。數(shù)據(jù)湖支持各種類型數(shù)據(jù)的統(tǒng)一存儲。數(shù)據(jù)分析則以讀取型(schema
on
read)形式,極大提升分析效率。然而數(shù)據(jù)湖對多樣類型數(shù)據(jù)的支持以及靈活高效的分析方式,帶來了數(shù)據(jù)治理難的問題,比如因為缺乏治理導(dǎo)致數(shù)據(jù)質(zhì)量下降、數(shù)據(jù)不可用等,很容易退化形成數(shù)據(jù)沼澤。3湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)總的來看,數(shù)據(jù)倉庫具備規(guī)范性,可針對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集中式的存儲和計算,但成本相對昂貴且無法處理半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),擴(kuò)展性一般、擴(kuò)展成本高;數(shù)據(jù)湖具有更大的存儲量,支持對于多種類型數(shù)據(jù)的高效取用,但不支持事務(wù)處理、數(shù)據(jù)質(zhì)量難以保障,且缺乏一致性、隔離性。數(shù)據(jù)倉庫和數(shù)據(jù)湖是兩套相對獨(dú)立的體系,各有優(yōu)劣勢,無法相互替代。表
1數(shù)據(jù)湖與數(shù)據(jù)倉庫對比表差異項數(shù)據(jù)類型Schema數(shù)據(jù)湖數(shù)據(jù)倉庫所有數(shù)據(jù)類型讀取型
Schema歷史的、結(jié)構(gòu)化的數(shù)據(jù)寫入型
Schema處理結(jié)構(gòu)化數(shù)據(jù),轉(zhuǎn)化為多維數(shù)據(jù)、報表,以滿足后續(xù)高級報表及數(shù)據(jù)分析需求支持多計算引擎用于處理、分析所有類型數(shù)據(jù)計算能力成本存儲計算成本低,使用運(yùn)維成本高存儲計算綁定、不夠靈活、成本高數(shù)據(jù)質(zhì)量一般,容易形成數(shù)據(jù)沼澤數(shù)據(jù)可靠性擴(kuò)展性高質(zhì)量、高可靠性、事務(wù)隔離性好擴(kuò)展性一般,擴(kuò)展成本高一般是標(biāo)準(zhǔn)化的產(chǎn)品高擴(kuò)展性一種解決方案,配合系列工具實現(xiàn)業(yè)務(wù)需求,靈活性更高產(chǎn)品形態(tài)實現(xiàn)數(shù)據(jù)的集中式管理,能夠
存儲和維護(hù)長期數(shù)據(jù),數(shù)據(jù)可按需為企業(yè)挖掘新的運(yùn)營需求
訪問潛力來源:CCSA
TC601(三)
湖+倉混合業(yè)務(wù)架構(gòu)存在四大痛點為滿足多種數(shù)據(jù)類型存儲、多場景分析等業(yè)務(wù)訴求,企業(yè)的數(shù)據(jù)4湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)平臺采用混合部署模式,數(shù)據(jù)湖、數(shù)據(jù)倉庫、關(guān)系型數(shù)據(jù)庫等多種架構(gòu)并存,其中數(shù)據(jù)湖和數(shù)據(jù)倉庫通過
ETL
進(jìn)行數(shù)據(jù)交換。數(shù)據(jù)湖和數(shù)據(jù)倉庫是兩套獨(dú)立的體系,其中數(shù)據(jù)湖基于
Hadoop
技術(shù)生態(tài)(HDFS、Spark、Flink等技術(shù))來實現(xiàn),主要用于支撐多源異構(gòu)的數(shù)據(jù)存儲,執(zhí)行批處理、流處理等工作負(fù)載。數(shù)據(jù)倉庫主要基于
MPP或者關(guān)系型數(shù)據(jù)庫來實現(xiàn),主要支撐結(jié)構(gòu)化數(shù)據(jù)在
OLAP
場景下的
BI分析和查詢需求。來源:CCSATC601圖
2
湖+倉混合架構(gòu)圖“數(shù)據(jù)湖+數(shù)據(jù)倉庫”混合架構(gòu)滿足了結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)高效處理需求,解決了傳統(tǒng)數(shù)據(jù)倉庫在海量數(shù)據(jù)下加載慢、數(shù)據(jù)查詢效率低、難以融合多種異構(gòu)數(shù)據(jù)源進(jìn)行分析的問題,但也存在四大弊端:一是數(shù)據(jù)冗余,增加存儲成本。數(shù)據(jù)湖(Hadoop
技術(shù)體系)和數(shù)據(jù)倉庫(MPP技術(shù)體系)都屬于分布式系統(tǒng),兩種技術(shù)棧都做了數(shù)據(jù)的冗余備份,同時,采用混合架構(gòu)會導(dǎo)致部分?jǐn)?shù)據(jù)既存儲在
Hadoop平5湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)臺,又存儲在
MPP
平臺的情況,進(jìn)一步增加了數(shù)據(jù)冗余的比例,增加存儲成本。二是兩個系統(tǒng)間額外的
ETL(抽取、轉(zhuǎn)化、加載)流程導(dǎo)致時效性差。在數(shù)據(jù)平臺實際使用過程中,數(shù)據(jù)通常先入湖,進(jìn)行批處理后入倉,最后為上層應(yīng)用提供查詢服務(wù),整個數(shù)據(jù)鏈路過長,湖入倉的過程還需進(jìn)行一次
ETL,影響查詢時效性。三是數(shù)據(jù)一致性保障低,增加數(shù)據(jù)校驗成本。兩個系統(tǒng)之間通過數(shù)據(jù)遷移實現(xiàn)混合架構(gòu)下的數(shù)據(jù)流動,在遷移過程中容易出現(xiàn)數(shù)據(jù)不一致問題,增加了數(shù)據(jù)一致性校驗成本。四是混合架構(gòu)復(fù)雜,開發(fā)運(yùn)維難度大、成本高。兩種孤立技術(shù)?;旌喜渴鹗沟脭?shù)據(jù)架構(gòu)復(fù)雜,平臺開發(fā)運(yùn)維難度大、成本高。(四)
湖倉一體技術(shù)應(yīng)運(yùn)而生“數(shù)據(jù)湖+數(shù)據(jù)倉庫”混合架構(gòu)是技術(shù)向業(yè)務(wù)妥協(xié)的一個產(chǎn)物,并不是真正意義的湖倉一體平臺。2020
年
Databricks
提出“湖倉一體”概念,隨著云計算的深入應(yīng)用,以容器、DevOps、微服務(wù)等為代表的云原生技術(shù)與大數(shù)據(jù)技術(shù)進(jìn)一步深度融合,采用存算分離架構(gòu),同時利用云原生的資源彈性擴(kuò)縮容、按需分配特點實現(xiàn)了資源進(jìn)一步集約化,進(jìn)而降低成本,同時促進(jìn)了湖倉一體技術(shù)的興起。1.
湖倉一體概念湖倉一體是指融合數(shù)據(jù)湖與數(shù)據(jù)倉庫的優(yōu)勢,形成一體化、開放式數(shù)據(jù)處理平臺的技術(shù)。通過湖倉一體技術(shù),可使得數(shù)據(jù)處理平臺底層支持多數(shù)據(jù)類型統(tǒng)一存儲,實現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉庫之間無縫6湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)調(diào)度和管理,并使得上層通過統(tǒng)一接口進(jìn)行訪問查詢和分析。湖倉一體架構(gòu)模塊圖詳見圖
3??偟膩砜?,湖倉一體通過引入數(shù)據(jù)倉庫治理能力,既可以很好解決數(shù)據(jù)湖建設(shè)帶來的數(shù)據(jù)治理難問題,也能更好挖掘數(shù)據(jù)湖中的數(shù)據(jù)價值,將高效建倉和靈活建湖兩大優(yōu)勢融合在一起,提升了數(shù)據(jù)管理效率和靈活性。來源:CCSATC601圖
3
湖倉一體架構(gòu)模塊圖2.
湖倉一體基本能力為進(jìn)一步規(guī)范湖倉一體數(shù)據(jù)平臺技術(shù)體系,中國信通院云計算與大數(shù)據(jù)研究所依托中國通信標(biāo)準(zhǔn)化協(xié)會大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(CCSA
TC601),聯(lián)合多個電信、金融應(yīng)用單位,以及阿里云、騰訊云、巨杉數(shù)據(jù)庫、新華三、南大通用、甲骨文、百度云、思特奇、平安科技、云粒、科杰科技、數(shù)夢工場、滴普科技、北明數(shù)科、比智等領(lǐng)域內(nèi)企業(yè)共同編制完成了《湖倉一體數(shù)據(jù)平臺技術(shù)要求》,旨在幫助大數(shù)據(jù)產(chǎn)品供應(yīng)商及用戶方評估湖倉一體數(shù)據(jù)平臺的技術(shù)能力和研發(fā)方向。本標(biāo)準(zhǔn)覆蓋了湖倉一體數(shù)據(jù)平臺所具備的一系列能力,總7湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)體分為湖倉數(shù)據(jù)集成、湖倉存儲、湖倉計算、湖倉數(shù)據(jù)治理、湖倉其他能力五個能力域。來源:CCSATC601圖
4《湖倉一體數(shù)據(jù)平臺技術(shù)要求》標(biāo)準(zhǔn)總體框架2.1湖倉數(shù)據(jù)集成能力便利的數(shù)據(jù)入湖、入倉是湖倉一體納管數(shù)據(jù)能力的開始。湖倉數(shù)據(jù)集成能力包括(1)統(tǒng)一外部關(guān)系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、分布式文件系統(tǒng)等數(shù)據(jù)源的管理。(2)數(shù)倉可對數(shù)據(jù)湖數(shù)據(jù)對象轉(zhuǎn)換為數(shù)倉的數(shù)據(jù)管理對象進(jìn)行數(shù)據(jù)和權(quán)限管理(升倉),同時支持?jǐn)?shù)倉內(nèi)價值密度低的數(shù)據(jù)進(jìn)行入湖操作的湖倉數(shù)據(jù)轉(zhuǎn)換能力。(3)具備實時與批量數(shù)據(jù)入湖、入倉能力,以及入湖任務(wù)配置與管理的入湖倉能力。2.2湖倉存儲能力湖倉存儲需兼容數(shù)據(jù)格式,保障數(shù)據(jù)自由入湖倉的安全和質(zhì)量。湖倉存儲能力包括(1)具備數(shù)據(jù)存儲和計算資源獨(dú)立部署,以及動態(tài)擴(kuò)縮容存儲、計算資源的存算分離能力。(2)湖倉數(shù)據(jù)冷、熱分級存儲的存儲分級能力。(3)支
持
Hudi、Iceberg、Deltalake等數(shù)據(jù)湖格8湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)式,且實現(xiàn)事務(wù)支持處理能力,支持模式(schema)在線調(diào)整。(4)數(shù)據(jù)緩存加速能力,支持配置多種緩存策略的存儲加速能力。(5)湖
倉數(shù)據(jù)加密存儲的存儲加密能力。2.3湖倉計算能力湖
倉
一
體
架
構(gòu)
涉
及
異
構(gòu)
數(shù)
據(jù)
平
臺
對
數(shù)
據(jù)
的
處
理
,
與
傳
統(tǒng)ELT/ETL
形式不同的是數(shù)據(jù)無需移動。湖倉計算能力包括(1)存儲生態(tài)能力,涵蓋數(shù)倉引擎可以對數(shù)據(jù)湖數(shù)據(jù)進(jìn)行讀寫,數(shù)據(jù)湖引擎同樣可對數(shù)倉數(shù)據(jù)進(jìn)行讀寫。(2)統(tǒng)一的認(rèn)證、授權(quán)體系。(3)統(tǒng)一開發(fā)平臺進(jìn)行湖倉數(shù)據(jù)開發(fā)利用、作業(yè)調(diào)度、任務(wù)運(yùn)維監(jiān)控。(4)計算資源彈性擴(kuò)縮容,且能夠?qū)椥再Y源的使用情況進(jìn)行監(jiān)控。(5)對
湖倉數(shù)據(jù)可進(jìn)行科學(xué)計算、向量計算、機(jī)器學(xué)習(xí)等多場景融合分析。(6)對湖倉存儲資源、計算資源進(jìn)行統(tǒng)一管理、分配、使用以及監(jiān)控。(7)支持批處理、實時計算、OLAP分析等多種計算模式。2.4湖倉數(shù)據(jù)治理能力統(tǒng)一數(shù)據(jù)治理能夠替客戶屏蔽底層異構(gòu)數(shù)據(jù)平臺的復(fù)雜性,給客戶帶來更好的體驗。湖倉數(shù)據(jù)治理能力包括(1)元數(shù)據(jù)自動發(fā)現(xiàn)、自動識別、自動采集、元數(shù)據(jù)存儲等統(tǒng)一元數(shù)據(jù)管理能力。(2)對湖倉內(nèi)數(shù)據(jù)有統(tǒng)一的數(shù)據(jù)權(quán)限管理能力。(3)對數(shù)據(jù)的訪問頻次、時間、數(shù)據(jù)量等維度可進(jìn)行評估的數(shù)據(jù)評估能力。(4)對湖倉內(nèi)的數(shù)據(jù)流轉(zhuǎn)、生命周期有清晰描述的統(tǒng)一湖倉血緣能力。(5)支持?jǐn)?shù)據(jù)質(zhì)量的規(guī)則設(shè)置、校驗以及質(zhì)量管理。(6)可在湖倉異構(gòu)訪問過程中對敏感數(shù)據(jù)加密。(7)可提供統(tǒng)一數(shù)據(jù)建模能力,包含邏輯模型、物理模型,并9湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)提供數(shù)據(jù)模型的生命周期管理。2.5湖倉其他能力本標(biāo)準(zhǔn)梳理了湖倉一體必備且專有的技術(shù)要求能力,除去存儲、計算、集成、治理外的其他能力,主要包括異地容災(zāi)能力。自
2021
年“湖倉一體”首次寫入
Gartner
數(shù)據(jù)管理領(lǐng)域成熟度模型報告以來,湖倉一體技術(shù)備受關(guān)注。從
Gartner
發(fā)布的《Gartner數(shù)據(jù)管理成熟度曲線》(2022年)可以看出,數(shù)據(jù)湖技術(shù)日趨成熟,湖倉一體技術(shù)成熟期相比
2021
年縮短,期望值升高。同時各大云廠商紛紛推出湖倉一體產(chǎn)品,如
AW
S
智能湖倉、Databricks-
LakehousePlatform、阿里云-
MaxCompute
湖倉一體、華為云-
FusionInsight
MRS、騰訊云-云原生智能數(shù)據(jù)湖。來源:Gartner圖
5《Gartner數(shù)據(jù)管理成熟度曲線》2022年二、湖倉一體實踐路徑企業(yè)需求的驅(qū)動下,數(shù)據(jù)湖與數(shù)據(jù)倉庫在原本的范式之上向其限10湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)制范圍擴(kuò)展,逐漸形成了“湖上建倉”與“倉外掛湖”兩種湖倉一體實現(xiàn)路徑。湖上建倉和倉外掛湖雖然出發(fā)點不同,但最終湖倉一體的目標(biāo)一致。如表
2所示,展現(xiàn)了兩種路徑在優(yōu)劣勢、實現(xiàn)方向、亟需解決問題等維度的對比。本章節(jié)將詳細(xì)介紹兩種實現(xiàn)路徑。表
2
兩種實現(xiàn)路徑對比表實現(xiàn)路徑湖上建倉優(yōu)勢劣勢需解決的問題實現(xiàn)方向支
持
海
不支持高并1.統(tǒng)一元數(shù)據(jù)管理
1.提升查(Hadoop體系)
量
數(shù)
據(jù)
發(fā)數(shù)據(jù)集2.ACID詢引擎、存儲引擎能力離
線
批
市、即席查詢、事務(wù)一致性等3.查詢性能提升4.存儲兼性問題5.存算分離處理6.彈性伸縮倉外掛湖事
務(wù)
一
不支持非結(jié)1.統(tǒng)一元數(shù)據(jù)管理
1.計算引(MPP
體系)致性,結(jié)
構(gòu)化/半結(jié)構(gòu)
2.存儲開放性擎不變,只擴(kuò)存儲構(gòu)
化
數(shù)
化數(shù)據(jù)存據(jù)
OLAP
儲、機(jī)器學(xué)3.擴(kuò)展查詢引擎4.存算分離能力。2.查詢引擎擴(kuò)展,分析習(xí)等5.彈性伸縮提升查詢引擎效率來源:CCSA
TC601(一)
湖上建倉湖上建倉是指基于云存儲或第三方對象存儲的云數(shù)據(jù)湖架構(gòu),或者基于開源
Hadoop
生態(tài)體系并以
DeltaLake、Hudi、Iceberg
三大開源數(shù)據(jù)湖作為數(shù)據(jù)存儲中間層實現(xiàn)多源異構(gòu)數(shù)據(jù)的統(tǒng)一存儲,以統(tǒng)一調(diào)用接口方式調(diào)用計算引擎,最終實現(xiàn)上下結(jié)構(gòu)的湖倉一體架構(gòu)。代表產(chǎn)品有:華為云-FusionInsight
MRS、AWS-智能湖倉、Databricks
-DeltaLake等。基于開源
Hadoop生態(tài)體系,擅長海量數(shù)據(jù)離線批處理,在高并11湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)發(fā)數(shù)據(jù)集市、即席查詢、事務(wù)一致性等方面存在先天的不足。所以實現(xiàn)途徑中,實現(xiàn)方向為提升查詢引擎、存儲引擎能力??偟膩砜础昂辖▊}”路徑本質(zhì)是在湖的基礎(chǔ)上增加倉的能力,需解決以下六大技術(shù)難點:一是統(tǒng)一元數(shù)據(jù)管理。元數(shù)據(jù)的統(tǒng)一最為核心,是確保湖倉一體在架構(gòu)和應(yīng)用層面達(dá)到統(tǒng)一的關(guān)鍵。湖上建倉路徑通過增加元數(shù)據(jù)管理組件實現(xiàn)元數(shù)據(jù)的統(tǒng)一管理,目前大都只實現(xiàn)了元數(shù)據(jù)的采集和統(tǒng)一存儲。二是事務(wù)支持。湖上建倉通過集成
Hudi、Iceberg、Delta
Lake三大開源數(shù)據(jù)湖表格式進(jìn)行優(yōu)化,支持?jǐn)?shù)據(jù)更新,實現(xiàn)支持事務(wù)的存儲層。三是提高查詢性能。湖上建倉路徑在引擎加速和存儲優(yōu)化方面,通過引入如緩存加速、謂詞下推、元數(shù)據(jù)相關(guān)語義優(yōu)化、C++重寫引擎等能力來解決原有計算、存儲引擎的性能瓶頸問題。四是存儲兼容性。湖上建倉路徑中的存儲介質(zhì)由原有的以
HDFS為主,擴(kuò)展到支持云對象存儲等多種介質(zhì)存儲。五是存算分離。傳統(tǒng)的
Hadoop
體系不具備云原生能力,是存儲和計算部署在同一物理集群來應(yīng)對網(wǎng)速不足、數(shù)據(jù)在各節(jié)點間交換時間長的問題。湖上建倉則是將
HDFS+對象存儲獨(dú)立部署,實現(xiàn)存算分離。六是彈性伸縮?;?/p>
K8S、Docker
等容器化技術(shù)對
Hadoop體系組件、服務(wù)進(jìn)行容器化改造。目前大部分產(chǎn)品有實現(xiàn)計算層、存儲層12湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)彈性伸縮,少量產(chǎn)品實現(xiàn)了根據(jù)業(yè)務(wù)負(fù)載自動彈性伸縮計算資源。(二)
倉外掛湖倉外掛湖是指以
MPP
數(shù)據(jù)庫為基礎(chǔ),使用可插拔架構(gòu),通過開放接口對接外部存儲實現(xiàn)統(tǒng)一存儲,在存儲底層共享一份數(shù)據(jù),計算、存儲完全分離,實現(xiàn)從強(qiáng)管理到兼容開放存儲和多引擎。代表產(chǎn)品:Snowflake、AW
S
Redshift、阿里云
MaxCompute/Hologres
湖倉一體。MPP
數(shù)據(jù)庫技術(shù)體系,從關(guān)系型數(shù)據(jù)庫演進(jìn)而來,對事務(wù)一致性、聯(lián)機(jī)分析處理性能都有較好的支撐,但在分析場景方面存在較大的局限性,主要以結(jié)構(gòu)化數(shù)據(jù)分析為主,無法支撐半/非結(jié)構(gòu)化數(shù)據(jù)存儲、實時計算、機(jī)器學(xué)習(xí)等場景。所以實現(xiàn)途徑中,實現(xiàn)方向為增加存儲能力,提升查詢引擎效率??偟膩砜?,“倉外掛湖”路徑本質(zhì)是在倉的基礎(chǔ)上增加湖的多類型存儲等能力,需解決以下五大技術(shù)難點:一是統(tǒng)一元數(shù)據(jù)管理。打通不同數(shù)據(jù)系統(tǒng),具備數(shù)據(jù)共享和跨庫分析的能力,并支持互聯(lián)互通、計算下推、協(xié)同計算,實現(xiàn)數(shù)據(jù)多平臺之間透明流動。倉外掛湖路徑目前主要是將對接外部存儲如Hadoop、對象存儲等的元數(shù)據(jù)進(jìn)行采集,統(tǒng)一存儲、管理。二是存儲開放性。倉外掛湖路徑的存儲開放性主要表現(xiàn)在:存儲介質(zhì)兼容方面,將非數(shù)倉自身存儲如
Hadoop、云對象存儲等的數(shù)據(jù)納入管理;數(shù)據(jù)格式方面,采用開放、標(biāo)準(zhǔn)化的數(shù)據(jù)格式,既包含
Hudi、Iceberg、Delta
Lake等開放格式,也包括
Parquet、ORC、CSV等存儲13湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)格式的支持。三是擴(kuò)展查詢引擎。倉外掛湖路徑保留原
MPP
計算引擎計算能力的基礎(chǔ)之上,主要是增加批處理和實時數(shù)據(jù)處理的能力。其中批處理方面是融合更輕量級、高效率的計算能力,而實時處理方面則是通過微批以及增量計算的方式,增強(qiáng)流的計算能力。四是存算分離。倉外掛湖需進(jìn)行存算分離架構(gòu)改造,而傳統(tǒng)的MPP存算耦合架構(gòu),不具備云原生能力。目前,倉外掛湖路徑主要基于存算分離架構(gòu)改造后的云原生
MPP
數(shù)據(jù)庫實現(xiàn)。五是彈性伸縮。基于
K8S、Docker等容器化技術(shù)對
MPP
體系的組件、服務(wù)進(jìn)行容器化改造。目前該路徑有實現(xiàn)計算層、存儲層彈性伸縮,少量產(chǎn)品實現(xiàn)了根據(jù)業(yè)務(wù)負(fù)載自動彈性伸縮計算資源。三、湖倉一體產(chǎn)業(yè)及應(yīng)用現(xiàn)狀隨著企業(yè)數(shù)字化轉(zhuǎn)型驅(qū)動市場需求的不斷增加,同時開源技術(shù)的發(fā)展降低了企業(yè)加入大數(shù)據(jù)領(lǐng)域的門檻,加之?dāng)?shù)據(jù)量的規(guī)?;鲩L和應(yīng)用場景的越發(fā)豐富,數(shù)據(jù)平臺需求不斷擴(kuò)大,數(shù)據(jù)平臺軟件市場穩(wěn)步增長。據(jù)
CCSA
TC601
測算,未來三年我國數(shù)據(jù)平臺軟件市場以29.6%的復(fù)合增長率快速發(fā)展,2025年我國數(shù)據(jù)平臺軟件市場規(guī)模將超
300億元。14湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)4003503002502001501005035.00%30.00%25.00%20.00%15.00%10.00%5.00%30.0%
29.9%29.2%29.5%
29.2%28.2%23.9%2020~2025
CAGR29.6%00.00%2018
2019
2020
2021
2022
2023e
2024e
2025e市場規(guī)模(億元)
增長率來源:CCSA
TC601圖
6
我國數(shù)據(jù)平臺軟件市場規(guī)模(一)
湖倉一體主要廠商和代表產(chǎn)品自
2020
年湖倉一體概念被提出,阿里云、華為云、亞馬遜云等云廠商紛紛提出自己的湖倉一體架構(gòu)理念,于
2021
年陸續(xù)發(fā)布湖倉一體產(chǎn)品。導(dǎo)致這一現(xiàn)象的原因:一方面,云廠商先發(fā)優(yōu)勢,云計算的彈性算力、數(shù)據(jù)聚合等能力與湖倉一體的一體化思路相符合。另一方面,在布局實踐上云廠商率先基于云原生理念在對象存儲、多模計算、統(tǒng)一管理等湖倉一體核心技術(shù)上進(jìn)行了能力整合,服務(wù)自身業(yè)務(wù)訴求。表
3整理了目前國內(nèi)外湖倉一體主要廠商、代表產(chǎn)品。表
3
湖倉一體主要廠商和代表產(chǎn)品廠商湖倉一體MaxCompute/Hologres湖倉一體FusionInsightMRS云原生數(shù)據(jù)湖云原生智能數(shù)據(jù)湖云原生大數(shù)據(jù)分析
LakehouseTDH15湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)LASKeenDataLakehouseH3C綠洲融合集成&數(shù)據(jù)運(yùn)營平臺GCDW行業(yè)數(shù)字平臺企業(yè)級數(shù)據(jù)湖(BELAKE)FastData??低暣髷?shù)據(jù)基礎(chǔ)平臺SelectDBOushuDataCloudAWS
智能湖倉LakehousePlatformSnowflake來源:CCSA
TC601根據(jù)
CCSA
TC601
統(tǒng)計分析,目前國內(nèi)七成以上廠商基于“湖上建倉”實現(xiàn)路徑,如華為云-
FusionInsight
MRS云原生數(shù)據(jù)湖、騰訊云-云原生智能數(shù)據(jù)湖、移動云-云原生大數(shù)據(jù)分析
Lakehouse
等,近三成廠商基于“倉外掛湖”實現(xiàn)路徑,如阿里云-
MaxCompute/Hologres
湖倉一體等。72%湖上建倉倉外掛湖來源:CCSATC601圖
7
實踐路徑統(tǒng)計圖16湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)(二)
湖倉一體在互聯(lián)網(wǎng)、電信、金融等信息化程度高的領(lǐng)域應(yīng)用程度高互聯(lián)網(wǎng)、電信、金融行業(yè)是國內(nèi)數(shù)字化程度較高的領(lǐng)域,數(shù)據(jù)管理體系相對完善,更加重視數(shù)據(jù)的使用、挖掘、分析、存儲等能力。從圖
7
中可以看出,湖倉一體的應(yīng)用領(lǐng)域主要集中在互聯(lián)網(wǎng)、電信、金融等行業(yè),占比超過六成。7.60%3.40%4.10%5.30%31.20%6.70%9.60%17.90%14.20%互聯(lián)網(wǎng)
電信
金融
零售
工業(yè)
交通
醫(yī)療
能源
其他來源:CCSATC601圖
82022年湖倉一體市場行業(yè)統(tǒng)計圖隨著中共中央國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃》,指出建設(shè)數(shù)字中國是數(shù)字時代推進(jìn)中國式現(xiàn)代化的重要引擎,未來湖倉一體平臺將在政府、工業(yè)、交通等數(shù)據(jù)價值尚未完全釋放的行業(yè)加大應(yīng)用滲透率。表
4
各行業(yè)需求現(xiàn)狀表行業(yè)需求及現(xiàn)狀互聯(lián)網(wǎng)企業(yè)不斷產(chǎn)生各種新應(yīng)用,數(shù)據(jù)來源多樣,導(dǎo)致需要互聯(lián)網(wǎng)
從海量數(shù)據(jù)中分析得到有價值的信息數(shù)據(jù),進(jìn)而輔助企業(yè)決策。湖倉一體平臺可加快挖掘價值數(shù)據(jù)的速度,減少數(shù)據(jù)存17湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)儲成本,支撐業(yè)務(wù)快速迭代發(fā)展。電信行業(yè)擁有龐大的個人位置數(shù)據(jù),有精準(zhǔn)營銷、信用評估等應(yīng)用訴求。目前采用的傳統(tǒng)數(shù)據(jù)架構(gòu),存在數(shù)據(jù)質(zhì)量不高、實時性不夠、靈活性不足、存儲應(yīng)用相互制約等問題。湖倉一體平臺實現(xiàn)了可規(guī)?;?、低成本存儲,同時可根據(jù)應(yīng)用按需建模,推動了行業(yè)的垂直應(yīng)用。電信金融行業(yè)數(shù)據(jù)資產(chǎn)化更為成熟,信息化建設(shè)起步早、資金投入巨大,數(shù)據(jù)標(biāo)準(zhǔn)化程度高,且技術(shù)實力強(qiáng)。目前依賴的傳統(tǒng)數(shù)據(jù)基礎(chǔ)設(shè)施無法處理金融機(jī)構(gòu)目前收集的各種海量數(shù)據(jù),而且個性化客戶參與和降低風(fēng)險的需求日益增長。湖倉一體平臺實現(xiàn)了統(tǒng)一存儲、大規(guī)模分析等能力,滿足創(chuàng)新業(yè)務(wù)需求,提升用戶體驗。金融零售行業(yè)中個性化買家細(xì)分和基于客戶行為的實時體驗需求不斷增長,隨著線上線下各種零售渠道的涌現(xiàn),線下門店、自有商城、電商平臺、社交軟件平臺等渠道也帶來大量碎片化的數(shù)據(jù)。湖倉一體平臺打通企業(yè)內(nèi)外部數(shù)據(jù),實時更新“進(jìn)-銷-存”數(shù)據(jù),進(jìn)而實現(xiàn)智能化分析。零售在政策的驅(qū)動下,政府部門的信息化建設(shè)投入不斷加大,基礎(chǔ)設(shè)施建設(shè)已經(jīng)趨于成熟。目前以智慧城市/政務(wù)為中心的信息化建設(shè)正在加速推進(jìn),需解決政務(wù)服務(wù)業(yè)務(wù)創(chuàng)新速度落后于社會需求的問題,推動數(shù)據(jù)與業(yè)務(wù)的融合,提升服務(wù)型政府供給側(cè)能力。政府工業(yè)數(shù)據(jù)價值高,標(biāo)準(zhǔn)與治理痛點突出,處于數(shù)字化轉(zhuǎn)型的關(guān)鍵時期,由于工業(yè)生產(chǎn)制造流程復(fù)雜且專業(yè)性強(qiáng),而且目前數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)薄弱,湖倉一體平臺可幫助工業(yè)進(jìn)行數(shù)據(jù)統(tǒng)一治理,未來在工業(yè)領(lǐng)域仍有較大的發(fā)展空間。交通行業(yè)處于數(shù)字化轉(zhuǎn)型的起步階段,其業(yè)務(wù)特性決定了具有較高的智能化應(yīng)用潛力。目前部分業(yè)務(wù)環(huán)境(如智能交通、智慧機(jī)場等)應(yīng)用了數(shù)據(jù)平臺,緩解交通擁堵、改善城工業(yè)交通18湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)市交通狀況,提升交通智慧化水平和運(yùn)營效率。醫(yī)療數(shù)據(jù)大多是非結(jié)構(gòu)化數(shù)據(jù),醫(yī)生、醫(yī)院、患者等各方面都極為重視醫(yī)療數(shù)據(jù)的安全存儲能力,傳統(tǒng)數(shù)據(jù)庫已無法滿足醫(yī)療行業(yè)臨床業(yè)務(wù)的數(shù)據(jù)管理及存儲需求。目前也在不斷作數(shù)字化轉(zhuǎn)型嘗試,比如用于處方、診斷等醫(yī)學(xué)信息的自動理解與提取,幫助醫(yī)療人員進(jìn)行信息整合。醫(yī)療能源能源行業(yè)信息化建設(shè)起步較晚,前期主要支撐各業(yè)務(wù)系統(tǒng)運(yùn)行,隨著企業(yè)對數(shù)據(jù)管理和應(yīng)用的重視,其數(shù)字化進(jìn)程也在不斷加快。來源:CCSA
TC601四、結(jié)論與展望湖倉一體行業(yè)正處在發(fā)展初期,總的來看湖倉一體并不是一個純技術(shù)攻關(guān)工作,而是技術(shù)逐步融合、整合的過程,其本質(zhì)是異構(gòu)數(shù)據(jù)平臺走向一體化的過渡階段。湖倉一體的核心是實現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉庫中的數(shù)據(jù)、元數(shù)據(jù)的無縫打通,并可自由流動。數(shù)據(jù)湖中的“新鮮”數(shù)據(jù)可以流轉(zhuǎn)到數(shù)據(jù)倉庫中,甚至可以直接被數(shù)據(jù)倉庫使用,而數(shù)據(jù)倉庫中的“不新鮮”數(shù)據(jù),也可以流轉(zhuǎn)到數(shù)據(jù)湖中,低成本長久保存,供未來的數(shù)據(jù)挖掘使用。目前,業(yè)界在湖倉一體技術(shù)的研究主要集中在統(tǒng)一元數(shù)據(jù)管理、統(tǒng)一存儲等方面,仍需持續(xù)深耕。隨著數(shù)字經(jīng)濟(jì)時代數(shù)據(jù)的價值被進(jìn)一步重視和挖掘,各行業(yè)對新一代數(shù)據(jù)平臺的需求不斷擴(kuò)大,湖倉一體技術(shù)欣欣向榮,具有非常廣闊的發(fā)展空間。同時隨著大數(shù)據(jù)、人工智能與云計算的邊界越來越模糊,三者不斷相互影響與融合,未來,湖倉一體呈現(xiàn)以下三點趨勢:19湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)一是進(jìn)一步簡化數(shù)據(jù)架構(gòu)實現(xiàn)一體化。統(tǒng)一的數(shù)據(jù)底座可以屏蔽底層部署的復(fù)雜性,為應(yīng)用層帶來更一致的體驗,無論是經(jīng)營型還是創(chuàng)新型應(yīng)用都能獲得更高效的支持,即可一站式滿足企業(yè)實時分析、交互查詢、智能探索等高價值數(shù)據(jù)洞察訴求。同時為數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師等不同角色提供低門檻自助分析能力,使其擁有更好的數(shù)據(jù)使用體驗。二是利用云原生概念實現(xiàn)湖倉一體無服務(wù)器化部署。Serverless無服務(wù)化是指湖倉一體架構(gòu)中的數(shù)據(jù)存儲、數(shù)據(jù)查詢引擎、數(shù)據(jù)處理等均支持無服務(wù)器部署,允許用戶在不構(gòu)建不運(yùn)維一個復(fù)雜基礎(chǔ)設(shè)施的情況下可進(jìn)行開發(fā)、運(yùn)行和管理。Serverless
部署給用戶帶來更易用的使用體驗,幫助用戶更專注于業(yè)務(wù)本身,而非關(guān)心技術(shù)邏輯,此外
Serverless
部署還可提供按需計費(fèi),進(jìn)而實現(xiàn)更高效的資源利用。三是
AI助力湖倉一體資源調(diào)度更順暢。隨著
AI
技術(shù)廣泛應(yīng)用,不僅讓湖倉一體的運(yùn)維、部署更加智能,還可以使得資源調(diào)度更加順暢,從而打通數(shù)據(jù)和業(yè)務(wù)智能化之間的阻隔,實現(xiàn)價值閉環(huán)。智能化能力重塑了湖倉一體架構(gòu)中的數(shù)據(jù)供給和管理方式,可實現(xiàn)敏捷數(shù)據(jù)洞察和高效一致的數(shù)據(jù)協(xié)作,能夠以更低的成本、更迅速地做出可信業(yè)務(wù)決策,實現(xiàn)
10
倍以上的數(shù)據(jù)化運(yùn)營效率的提升。20湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)附錄:典型案例(一)
山東移動:湖倉一體大數(shù)據(jù)平臺建設(shè)實踐1.
案例背景經(jīng)營分析系統(tǒng)和大數(shù)據(jù)專題分析平臺的建設(shè)將圍繞經(jīng)營決策工作提供更加全面、深入、高效的數(shù)據(jù)展開,在這一背景下運(yùn)營商企業(yè)不斷推進(jìn)
B
域、O
域、M
域的數(shù)據(jù)融合,傳統(tǒng)經(jīng)分系統(tǒng)和大數(shù)據(jù)平臺也隨之需要承載更大的數(shù)據(jù)量和業(yè)務(wù)量。2.
擬解決的痛點、難點山東移動湖倉一體實踐擬解決痛點聚焦于以下三個方面:1)業(yè)務(wù)數(shù)據(jù)未完全實現(xiàn)實時融通問題,不同分析訴求,不同數(shù)據(jù)分散在不同的存儲中,訪問接口不一致;2)數(shù)據(jù)訪問慢,批量入倉壓力大問題,傳統(tǒng)數(shù)倉數(shù)據(jù)更新采用左右關(guān)聯(lián)和
Insert
Overwrite分多個步驟實現(xiàn),流程長,效率低;3)應(yīng)用實時性需求難以滿足,實時業(yè)務(wù)流程長,目前實時需求支持還是準(zhǔn)實時的微批量數(shù)據(jù)處理,數(shù)據(jù)處理流程長,實時性不足。3.
解決方案山東移動湖倉一體采用“湖上建倉”路徑,具體解決方案是以經(jīng)分大數(shù)據(jù)平臺為基礎(chǔ)提供統(tǒng)一元數(shù)據(jù)管理,實時/非實時統(tǒng)一入湖、跨域數(shù)據(jù)統(tǒng)一訪問、異構(gòu)數(shù)據(jù)源統(tǒng)一計算等能力的大邏輯數(shù)據(jù)湖架構(gòu),引入亞信的
Data
Infra產(chǎn)品構(gòu)建湖倉底座能力,Data
OS產(chǎn)品形成21湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)湖倉庫治理能力。在現(xiàn)有集成能力基礎(chǔ)上,引入
Hudi
組件,構(gòu)建數(shù)據(jù)實時入湖能力,實現(xiàn)數(shù)據(jù)增量入湖,減少計算資源消耗,提高數(shù)據(jù)更新效率和業(yè)務(wù)決策速度。通過
Hudi
提供事務(wù)操作和快照的特性,提供跨層的增量更新能力,較原來的全量掃描表,在執(zhí)行效率想有大幅度的提高,并在資源使用量方面也有明顯的降低?;?/p>
Alluxio構(gòu)建存算分離的架構(gòu),實現(xiàn)存儲和計算可以獨(dú)立的擴(kuò)展和伸縮,保證湖倉一體的整體系統(tǒng)能夠支持更多的用戶并發(fā)和更大的數(shù)據(jù)量,同時最大程度地利用資源,從而實現(xiàn)對大規(guī)模數(shù)據(jù)進(jìn)行查詢和高效分析。通過融合元數(shù)據(jù)管理,提供了跨湖倉和倉庫的元數(shù)據(jù)統(tǒng)一管理,在安全等級的限制下,通過同步
Hudi
的元數(shù)據(jù)到
HMS,形成統(tǒng)一的共享元數(shù)據(jù)中心,為組織內(nèi)部的用戶提供湖倉一體下的統(tǒng)一開發(fā)和建模。4.
價值與效果基于
Hudi+Presto+Hadoop+Gbase
的湖倉一體大數(shù)據(jù)平臺架構(gòu),能夠有效降低硬件成本,成本為之前的十分之一。在大規(guī)模海量分析場景下,性能提升
10-20倍。同時存算一體的架構(gòu)解決了多種架構(gòu)混合使用的數(shù)據(jù)冗余問題,一份數(shù)據(jù),實時共享,節(jié)省了大量存儲成本22湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)和人力維護(hù)成本。湖倉一體解決了傳統(tǒng)大數(shù)據(jù)平臺面臨的資源擴(kuò)展靈活性低、擴(kuò)容需要重分布數(shù)據(jù),成本高時間長、數(shù)據(jù)冗余大、混合負(fù)載場景存在資源爭搶等問題,通過引入基于存算分離的湖倉一體架構(gòu),實現(xiàn)融合OLTP、OLAP、Hadoop等多種數(shù)據(jù)引擎,實現(xiàn)多類數(shù)據(jù)引擎間的數(shù)據(jù)共享和流通互訪,具備數(shù)據(jù)統(tǒng)一管理能力,在數(shù)據(jù)集市業(yè)務(wù)上線后,業(yè)務(wù)性能提升
2倍,存儲降低
4倍,取得了顯著效果。(二)
威海銀行:傳統(tǒng)數(shù)據(jù)倉庫到湖倉一體建設(shè)實踐1.
案例背景威海市商業(yè)銀行于
2012年開始開展數(shù)據(jù)倉庫建設(shè)(基于
DB2數(shù)據(jù)倉庫),按需實現(xiàn)數(shù)據(jù)集中接入和應(yīng)用系統(tǒng)數(shù)據(jù)供給,支撐全行共性數(shù)據(jù)加工和報表統(tǒng)計分析及查詢。但是伴隨行內(nèi)信息化進(jìn)程加快,數(shù)據(jù)孤島、開發(fā)周期較長、數(shù)據(jù)冗余、數(shù)據(jù)服務(wù)支撐能力弱、數(shù)據(jù)架構(gòu)擴(kuò)展性差和數(shù)據(jù)集群算力低等不足也逐步顯現(xiàn)。2.
擬解決的痛點、難點1)提升開發(fā)運(yùn)維效率采用先進(jìn)大數(shù)據(jù)及分布式數(shù)據(jù)庫技術(shù),構(gòu)建適用于行內(nèi)的數(shù)據(jù)架構(gòu)及企業(yè)級數(shù)據(jù)平臺。定制一套簡單、快捷的開發(fā)平臺,梳理適合開發(fā)、運(yùn)維工作流程,提升開發(fā)運(yùn)維工作效率。2)提高系統(tǒng)計算性能具備海量數(shù)據(jù)存儲及分析處理能力,支持橫向擴(kuò)展,合理配置作23湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)業(yè)并發(fā)數(shù)量,充分利用系統(tǒng)資源,滿足日終批量處理時間要求。3)提升數(shù)據(jù)服務(wù)能力通過提升數(shù)據(jù)服務(wù),采用新的數(shù)據(jù)服務(wù)模式,利用數(shù)據(jù)發(fā)布、訂閱和數(shù)據(jù)
API等方式,提升數(shù)據(jù)服務(wù)能力;整合內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)、流式數(shù)據(jù)與批量數(shù)據(jù),構(gòu)建企業(yè)級數(shù)據(jù)模型,全面支撐行內(nèi)經(jīng)營管理數(shù)據(jù)需求;通過數(shù)字化場景工作坊挖掘以客戶為中心的數(shù)字應(yīng)用場景。3.
解決方案威海銀行采用基于
MRS和
DWS的湖倉一體方案逐步替換基于
DB2的傳統(tǒng)數(shù)據(jù)倉庫,并最終實現(xiàn)湖倉一體對行內(nèi)數(shù)據(jù)應(yīng)用場景的全面支撐。威海銀行于
2022年
3月啟動湖倉一體項目建設(shè),項目建設(shè)主要分為
3個階段:第一階段,夯實基礎(chǔ)。明確定位,形成全行數(shù)據(jù)體系,建立全行統(tǒng)一數(shù)據(jù)架構(gòu),試點支撐數(shù)字化轉(zhuǎn)型項目數(shù)據(jù)服務(wù)需求。截至
2022年
5
月,已完成數(shù)據(jù)湖及數(shù)據(jù)倉庫集群搭建和第一期數(shù)據(jù)入湖工作,支撐關(guān)聯(lián)交易、貸后管理等業(yè)務(wù)系統(tǒng)用數(shù)需求。第二階段,業(yè)務(wù)賦能。形成全行數(shù)據(jù)服務(wù)體系,構(gòu)建業(yè)務(wù)主題集24湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)市,全面提升全行用數(shù)能力和水平。截至
2023年
5月,已構(gòu)建企業(yè)級基礎(chǔ)主題模型
200
余項,全面落實數(shù)據(jù)治理工作提出的數(shù)據(jù)標(biāo)準(zhǔn),保障數(shù)據(jù)有序、高效、保質(zhì)、安全使用;建設(shè)零售、對公、金市、風(fēng)險、監(jiān)管等
9大業(yè)務(wù)集市,支撐智慧營銷、財務(wù)盈利性分析和監(jiān)管報送等業(yè)務(wù)應(yīng)用,同時滿足業(yè)務(wù)自助分析場景。第三階段,引領(lǐng)創(chuàng)新。持續(xù)演進(jìn)湖倉一體建設(shè),構(gòu)建全面的數(shù)據(jù)智能實時服務(wù),加深業(yè)務(wù)發(fā)展和數(shù)據(jù)服務(wù)的融合。主要開展數(shù)據(jù)應(yīng)用與服務(wù)的持續(xù)優(yōu)化,深度融合數(shù)據(jù)服務(wù)與業(yè)務(wù)流程、優(yōu)化數(shù)據(jù)服務(wù)框架,探索數(shù)據(jù)智能應(yīng)用場景,構(gòu)建開放式數(shù)據(jù)服務(wù)體系等工作。4.
價值與效果通過湖倉一體建設(shè)實踐,帶來成效如下:業(yè)務(wù)服務(wù)方面。全面支撐智慧營銷、智慧運(yùn)營、風(fēng)險防控、監(jiān)管報送等應(yīng)用場景,支持
22
個數(shù)字化轉(zhuǎn)型項目數(shù)據(jù)服務(wù),智慧營銷累計獲客目標(biāo)完成
187.5%,報表自動化率達(dá)到
88%。能力建設(shè)方面。構(gòu)建科學(xué)合理的數(shù)據(jù)架構(gòu),全面提升數(shù)據(jù)接入能力、數(shù)據(jù)整合能力和數(shù)據(jù)加工效率,在日終作業(yè)數(shù)量增加
5倍的基礎(chǔ)上,日終批量加工效率提升
200%;通過
BI自助報表工具引入和自助用數(shù)培訓(xùn)宣貫,營造全行自助用數(shù)氛圍。平臺運(yùn)行方面。通過數(shù)據(jù)中臺湖倉一體的建設(shè),集群算力提升
3倍,資源利用率提升
30%,有效支撐海量數(shù)據(jù)加工分析、模型預(yù)測等場景。25湖倉一體技術(shù)與產(chǎn)業(yè)研究報告(2023年)(三)
阿里云:國內(nèi)某互聯(lián)網(wǎng)金融客戶湖倉一體建設(shè)實踐1.
案例背景客戶是一家互聯(lián)網(wǎng)金融公司,2015
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兄弟裝飾合同范例
- 產(chǎn)品借出合同范例
- led燈具銷售合同樣本
- 人力公司合同范例
- 保證培訓(xùn)協(xié)議合同范例
- 中級會計學(xué)習(xí)方法及技巧試題及答案
- 中介買賣解約合同范例
- 買賣合同和按揭合同范例
- 個人樓頂防水協(xié)議合同范例
- 債務(wù)融資合同范例
- 江蘇省南京市、鹽城市2025屆高三年級5月第二次模擬考試政治試題及答案(南京鹽城二模)
- 快遞員合同協(xié)議書范本
- 互聯(lián)網(wǎng)+農(nóng)產(chǎn)品商業(yè)計劃書
- 智能對話模型研究-全面剖析
- 考研英語03-12年真題譯文
- 公司全員安全生產(chǎn)責(zé)任制度
- 2025年陜西省西安交大附中中考物理三模試卷(含解析)
- 放射住培結(jié)業(yè)考試試題題庫及答案
- 齊魯名校大聯(lián)考2025屆山東省高三第七次學(xué)業(yè)水平聯(lián)合檢測語文試題及答案
- 公司安全事故隱患內(nèi)部舉報、報告獎勵制度
- DL-T5344-2018電力光纖通信工程驗收規(guī)范
評論
0/150
提交評論