版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
存算分離架構(gòu)加速電信行業(yè)數(shù)據(jù)處理,驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新吳昊|北京酷克數(shù)據(jù)科技有限公司公司概況2016年3月,酷克數(shù)據(jù)成立。公司由Greenplum和ApacheHAWQ的三位核心研發(fā)人員創(chuàng)立,專注于云端數(shù)據(jù)倉庫等數(shù)據(jù)平臺(tái)類產(chǎn)品研發(fā)。公司總部位于北京,在上海、廣州、深圳、天津、武漢、杭州、新加坡/洛杉磯(籌)等地設(shè)立分支機(jī)構(gòu)。專注云化技術(shù)路線:16年開始專注投入云原生技術(shù)路線(創(chuàng)新性采用元數(shù)據(jù)、存儲(chǔ)、計(jì)算三層分離架構(gòu)),充分利用云平臺(tái)近乎無限的存算資源,及彈性伸縮特性,以更低成本,更快的速度對(duì)越來越多樣的數(shù)據(jù)進(jìn)行越來越復(fù)雜的分析,讓數(shù)據(jù)能夠便捷高效的流動(dòng)、交易、融合;擁有頂級(jí)團(tuán)隊(duì)成員:核心團(tuán)隊(duì)主要由來自Pivotal、Teradata、IBM、Yahoo!、Oracle和華為等公司資深的云計(jì)算、分布式數(shù)據(jù)庫和大數(shù)據(jù)專家組成;服務(wù)眾多知名企業(yè):服務(wù)運(yùn)營(yíng)商、金融、央企、互聯(lián)網(wǎng)等行業(yè)頭部客戶,包括中國(guó)移動(dòng)、中國(guó)聯(lián)通、中國(guó)電信、建設(shè)銀行、中國(guó)銀行、中國(guó)石油、招商局等世界級(jí)企業(yè),其中最大客戶規(guī)模約3萬個(gè)節(jié)點(diǎn)。研發(fā)實(shí)力信創(chuàng)實(shí)力1.作為國(guó)內(nèi)領(lǐng)先的數(shù)據(jù)庫研發(fā)企業(yè),早在2020年酷克數(shù)據(jù)便啟動(dòng)了信創(chuàng)工作,建設(shè)了完善的信創(chuàng)生態(tài):?2020年酷克數(shù)據(jù)與華為云鯤鵬云實(shí)現(xiàn)了兼容性認(rèn)證;?后續(xù)又完成了麒麟操作系統(tǒng)認(rèn)證、飛騰芯片兼容性認(rèn)證、歐拉操作系統(tǒng)認(rèn)證、統(tǒng)信操作系統(tǒng)認(rèn)證。并與芯片、中間件、應(yīng)用軟件、硬件等生態(tài)上下游廠商保持緊密的協(xié)同合作,構(gòu)建完善的生態(tài)體系;2.借助完善的生態(tài),酷克數(shù)據(jù)幫助多家企業(yè)完成了信創(chuàng)化改造:?中國(guó)聯(lián)通湖倉一體數(shù)據(jù)平臺(tái)項(xiàng)目:鯤鵬/X86+麒麟/統(tǒng)信;?中移在線營(yíng)服數(shù)據(jù)處理平臺(tái)項(xiàng)目:鯤鵬+歐拉;?國(guó)家金融監(jiān)督管理總局監(jiān)管報(bào)送項(xiàng)目:鯤鵬+麒麟;?建設(shè)銀行云計(jì)算平臺(tái)國(guó)產(chǎn)化一期試點(diǎn)項(xiàng)目:鯤鵬+統(tǒng)信、飛騰+麒麟;?中國(guó)銀行數(shù)據(jù)縱橫平臺(tái)推廣項(xiàng)目:鯤鵬+麒麟。3.2021年底酷克數(shù)據(jù)正式加入信創(chuàng)工委會(huì),積極參與信創(chuàng)活動(dòng)。IDhyIDhytium飛騰HYCGONXSKYXSKY數(shù)據(jù)平臺(tái)建設(shè)面臨的主要挑戰(zhàn)數(shù)據(jù)洞察不再依存于基于復(fù)雜模型的抽樣理論,而是基于全量數(shù)據(jù)進(jìn)行分析,進(jìn)行全量計(jì)算,降低對(duì)復(fù)雜模型的依賴;運(yùn)營(yíng)商積累了海量多源的數(shù)據(jù),并且意識(shí)到基于這些數(shù)據(jù)需要深刻的洞察,挖掘出未曾有過數(shù)據(jù)洞察不再依存于基于復(fù)雜模型的抽樣理論,而是基于全量數(shù)據(jù)進(jìn)行分析,進(jìn)行全量計(jì)算,降低對(duì)復(fù)雜模型的依賴;運(yùn)營(yíng)商積累了海量多源的數(shù)據(jù),并且意識(shí)到基于這些數(shù)據(jù)需要深刻的洞察,挖掘出未曾有過大數(shù)據(jù)時(shí)代,同時(shí)伴隨移動(dòng)互聯(lián)網(wǎng)的發(fā)展,之前無法想象的海量數(shù)據(jù)進(jìn)入運(yùn)營(yíng)商的數(shù)據(jù)處理平臺(tái)。Level4數(shù)字經(jīng)營(yíng),建立差異化的業(yè)務(wù)優(yōu)勢(shì)LevelLevel3構(gòu)建互聯(lián)網(wǎng)化的運(yùn)營(yíng)能力LevelLevel2解決特定業(yè)務(wù)領(lǐng)域問題Level1大數(shù)據(jù)技術(shù)解決單點(diǎn)業(yè)務(wù)問題傳統(tǒng)數(shù)據(jù)庫架構(gòu)難以滿足當(dāng)前數(shù)字化轉(zhuǎn)型需求產(chǎn)品架構(gòu)老數(shù)據(jù)新孤島現(xiàn)有產(chǎn)品缺陷,包括規(guī)模能力、異構(gòu)兼容能力和平臺(tái)開放能力三個(gè)方面的缺失應(yīng)用之間交換數(shù)據(jù)成本高,需要平臺(tái)廠商和應(yīng)用廠商共同定制開發(fā)機(jī)制整體成本高擴(kuò)展難度大存算綁定,大量硬件資源浪費(fèi)數(shù)據(jù)平臺(tái)難以根據(jù)業(yè)務(wù)的需求快速擴(kuò)容,并且基本無法做到縮容,從而影響業(yè)務(wù)的敏捷響應(yīng)能力,同時(shí)也可能造成資源的浪費(fèi)數(shù)據(jù)冗余多運(yùn)營(yíng)工作雜平臺(tái)間大量的冗余數(shù)據(jù),難以集中管理,造成資源浪費(fèi)的同時(shí),還難以保證數(shù)據(jù)一致性,數(shù)據(jù)標(biāo)準(zhǔn)也難以稽核和維護(hù),數(shù)據(jù)治理難度大質(zhì)量難管理安全有隱患每一個(gè)數(shù)據(jù)平臺(tái)都要做好數(shù)據(jù)安全管理,與數(shù)據(jù)流轉(zhuǎn)過程中的質(zhì)量稽核與校驗(yàn),管理難度大,資源開銷大,數(shù)據(jù)泄露風(fēng)險(xiǎn)高信息安全和隱私保護(hù)機(jī)制需要進(jìn)行多家廠商的適配上云有瓶頸云上兼容差數(shù)據(jù)平臺(tái)也難以以PaaS或者SaaS方式在云上彈性部署,阻礙數(shù)據(jù)服務(wù)的數(shù)字化創(chuàng)新大數(shù)據(jù)平臺(tái)和大數(shù)據(jù)平臺(tái)不兼容數(shù)據(jù)源大數(shù)據(jù)平臺(tái)數(shù)據(jù)倉庫數(shù)據(jù)載入數(shù)據(jù)集市/數(shù)據(jù)大數(shù)據(jù)平臺(tái)數(shù)據(jù)倉庫數(shù)據(jù)載入數(shù)據(jù)集市/數(shù)據(jù)應(yīng)用支撐平臺(tái)數(shù)據(jù)回流數(shù)據(jù)加載數(shù)據(jù)分發(fā)數(shù)據(jù)供給數(shù)據(jù)回流數(shù)據(jù)加載數(shù)據(jù)分發(fā)數(shù)據(jù)供給數(shù)據(jù)應(yīng)用與服務(wù)傳統(tǒng)MPP數(shù)據(jù)庫面臨的挑戰(zhàn)企業(yè)不斷增長(zhǎng)的數(shù)據(jù)規(guī)模要求:近乎無限的、多傳統(tǒng)傳統(tǒng)MPP數(shù)據(jù)庫采用存儲(chǔ)計(jì)算緊耦合架構(gòu),缺乏彈性伸縮能力管理控制臺(tái)啟停、擴(kuò)容、升級(jí)等服務(wù)VM/對(duì)象存儲(chǔ)等基礎(chǔ)設(shè)管理控制臺(tái)啟停、擴(kuò)容、升級(jí)等服務(wù)VM/對(duì)象存儲(chǔ)等基礎(chǔ)設(shè)施管理集群狀態(tài)監(jiān)控、故障告警、故障恢復(fù)1個(gè)元數(shù)據(jù)集群元數(shù)據(jù)集群元數(shù)據(jù)存儲(chǔ)服務(wù)元數(shù)據(jù)服務(wù)SMSMSSSSSMSMSSSSMSSS計(jì)算集群-1計(jì)算集群-3對(duì)象存儲(chǔ)/HDFS對(duì)象存儲(chǔ)/HDFS對(duì)象存儲(chǔ)云基礎(chǔ)設(shè)施(公有云、云基礎(chǔ)設(shè)施(公有云、私有云、資源池)n元數(shù)據(jù)、計(jì)算與存儲(chǔ)分離,計(jì)算集群按需搭建,橫向擴(kuò)展,解決傳統(tǒng)MPP數(shù)據(jù)庫單一集群并發(fā)和計(jì)算能力受限問題n統(tǒng)一的元數(shù)據(jù)和存儲(chǔ)服務(wù),形成權(quán)威的企業(yè)級(jí)數(shù)據(jù)視圖,實(shí)現(xiàn)多個(gè)計(jì)算集群間數(shù)據(jù)共享n云上資源靈活伸縮,提高運(yùn)木桶效應(yīng)等問題多形態(tài)數(shù)據(jù)集中存儲(chǔ)能力,打破數(shù)據(jù)存儲(chǔ)孤島SQL語言應(yīng)用程序SQL語言應(yīng)用程序??元數(shù)據(jù)+擴(kuò)展標(biāo)簽+內(nèi)容信息?數(shù)據(jù)對(duì)象文件元數(shù)據(jù)信息示例元數(shù)據(jù)項(xiàng)值文件名card01.pdf文件類型元數(shù)據(jù)信息示例元數(shù)據(jù)項(xiàng)值文件名card01.pdf文件類型pdf文件文件大小1.4mb創(chuàng)建時(shí)間2023-11-16修改日期2024-1-16存儲(chǔ)位置oss://test/!HashDataDatabaseMPP/SQL引擎directorytable普通表table對(duì)象存儲(chǔ)元數(shù)據(jù)共享存儲(chǔ)OSS?非結(jié)構(gòu)化多模態(tài)數(shù)據(jù)涵蓋各種格式和類型,并且數(shù)據(jù)體量龐大,處理過程復(fù)雜?引入DirectoryTable目錄表,存儲(chǔ)和管理非結(jié)構(gòu)化數(shù)據(jù)對(duì)象的元數(shù)據(jù),這些元數(shù)據(jù)以結(jié)構(gòu)化的形式存在?元數(shù)據(jù)信息與共享存儲(chǔ)上的非結(jié)構(gòu)化數(shù)據(jù)文件本身形成關(guān)聯(lián)關(guān)系,用戶可以使用熟悉的SQL語句來操作DirectoryTable和普通Table?利用外部表/連接器集成大數(shù)據(jù)生態(tài),融入企業(yè)湖倉架構(gòu)?SparkSparkPythonPython/RHDFS/Hudi/Iceberg外部表HashData內(nèi)部表HDFS/Hudi/Iceberg外部表HashData內(nèi)部表計(jì)算集群-1計(jì)算集群-n元數(shù)據(jù)同步?SQL并行訪問?元數(shù)據(jù)集群(HMS)HiveIcebergHudiHashData可以同步HIVE、Hudi、Iceberg元數(shù)據(jù),建立外部表,并行訪問大數(shù)據(jù)生態(tài)數(shù)據(jù),參與SQL計(jì)算,并將數(shù)據(jù)緩存在計(jì)算節(jié)點(diǎn),供后續(xù)使下一步HashData將支持開放的表格式(首先支持Iceberg實(shí)現(xiàn)外部計(jì)算引擎與HashData互訪,滿足上層應(yīng)用用數(shù)需求;此外,HashData還將擴(kuò)展元數(shù)據(jù)管理能力,開放Gopher緩存服務(wù),與Hadoop生態(tài)無縫融合。多樣化分析計(jì)算能力—HashML引擎PythonSQLMLPCNNMLPCNN…預(yù)訓(xùn)練微調(diào)插件深度學(xué)習(xí)框架預(yù)訓(xùn)練基座模型機(jī)器學(xué)習(xí)算法庫工作節(jié)點(diǎn)#1工作節(jié)點(diǎn)#2工作節(jié)點(diǎn)#3工作節(jié)點(diǎn)#1工作節(jié)點(diǎn)#2工作節(jié)點(diǎn)#3調(diào)度節(jié)點(diǎn)工作節(jié)點(diǎn)#4工作節(jié)點(diǎn)#n調(diào)度節(jié)點(diǎn)工作節(jié)點(diǎn)#4工作節(jié)點(diǎn)#n…………共享存儲(chǔ)共享存儲(chǔ)?基于分布式計(jì)算框架,提供了SQL、Python兩種調(diào)用方式;?支持流行的機(jī)器學(xué)習(xí)算法,如:XGBoost、LightGBM、GLM等;?支持流行的深度學(xué)習(xí)算法,如:ResNet,支持流行的深度學(xué)習(xí)框架,如:PyTorch、TensorFlow等;?支持預(yù)訓(xùn)練語言大模型技術(shù),能夠?qū)Π賰|到千億級(jí)參數(shù)LLM進(jìn)行微調(diào);?支持GPU加速,通過多機(jī)多卡分布式計(jì)算,能夠進(jìn)一步提升運(yùn)算效率;?計(jì)算引擎支持按需調(diào)度工作節(jié)點(diǎn),并行計(jì)算。SQLSQL客戶端Python客戶端協(xié)調(diào)節(jié)點(diǎn)調(diào)度節(jié)點(diǎn)↓協(xié)調(diào)節(jié)點(diǎn)調(diào)度節(jié)點(diǎn)SQL計(jì)算引擎 作業(yè)提交&狀態(tài)監(jiān)控ML/SQL計(jì)算引擎計(jì)算引擎……計(jì)算節(jié)點(diǎn)#1計(jì)算節(jié)點(diǎn)#n工作節(jié)……計(jì)算節(jié)點(diǎn)#1計(jì)算節(jié)點(diǎn)#n工作節(jié)點(diǎn)#1……工作節(jié)點(diǎn)#n工作節(jié)點(diǎn)#n共享存儲(chǔ)共享存儲(chǔ)?一個(gè)平臺(tái),一份數(shù)據(jù),SQL+HashML雙模態(tài)分析引擎;?HashML節(jié)點(diǎn)支持與HashData節(jié)點(diǎn)可以混合部署,或根據(jù)負(fù)載情況獨(dú)立部署;?HashML與HashData無縫集成,支持高效、并行數(shù)據(jù)交換,支持模型在數(shù)據(jù)庫中存儲(chǔ)、管理;?借助HashML引擎,HashData可以實(shí)現(xiàn):面向各業(yè)務(wù)條線的數(shù)據(jù)科學(xué)實(shí)驗(yàn),典型如:反洗錢、風(fēng)險(xiǎn)等;大模型智能應(yīng)用,包括生成類和決策類兩種,生成類落地較多,如:的交互式數(shù)據(jù)模型智能問答檔生成、文生管理,語料數(shù)存算分離的彈性架構(gòu),克服傳統(tǒng)MPP局限性業(yè)務(wù)支撐受限于集群并發(fā)能力和混合負(fù)載能力,面對(duì)復(fù)雜、多樣的業(yè)務(wù)需求,尤其是打通全后端的運(yùn)營(yíng)型分析,無論單集群、多集群,都很難做到完美支撐業(yè)務(wù),無法提供好的業(yè)務(wù)體驗(yàn)。一二存儲(chǔ)計(jì)算緊耦合,數(shù)據(jù)跨節(jié)點(diǎn)均勻分布,無法根據(jù)業(yè)務(wù)的靈活變化,提供快速彈性伸縮能力。數(shù)據(jù)庫資源和應(yīng)用綁定,無法作為資源池在應(yīng)用間智二三存在木桶效應(yīng),且缺乏自愈能力,集群擴(kuò)容需要重分布數(shù)據(jù),無法實(shí)現(xiàn)秒級(jí)擴(kuò)展。一旦節(jié)點(diǎn)發(fā)生故障或需要擴(kuò)展,集群網(wǎng)絡(luò)、IO資源受到很大影三一一數(shù)據(jù)數(shù)據(jù)平臺(tái)需要管理海量數(shù)據(jù),傳統(tǒng)MPP架構(gòu)導(dǎo)致數(shù)據(jù)庫規(guī)模受限,無法數(shù)據(jù)平臺(tái)需要管理海量數(shù)據(jù),傳統(tǒng)MPP架構(gòu)導(dǎo)致數(shù)據(jù)庫規(guī)模受限,無法提供近乎無限的存儲(chǔ)能力。且MPP數(shù)據(jù)庫不支持存儲(chǔ)和計(jì)算資源獨(dú)立擴(kuò)展,擴(kuò)容常常帶來計(jì)算資源的浪費(fèi)。對(duì)象存儲(chǔ)可以管理海量數(shù)據(jù),提供近乎無限的擴(kuò)展能力。且存算分離的架構(gòu)可以支持存儲(chǔ)和計(jì)算資源多維度、獨(dú)立統(tǒng)一的元數(shù)據(jù)管理和數(shù)據(jù)存儲(chǔ)服務(wù),面向多個(gè)計(jì)算集群提供權(quán)威理存儲(chǔ)計(jì)算緊耦合的架構(gòu),多集群的部署模式導(dǎo)致數(shù)據(jù)冗余,一數(shù)多源,可能存在二義性和質(zhì)量問題,難以形成面向分析的企業(yè)級(jí)數(shù)據(jù)視圖,無法很好的支撐分析應(yīng)用。存儲(chǔ)計(jì)算緊耦合的架構(gòu),多集群的部署模式導(dǎo)致數(shù)據(jù)冗余,一數(shù)多源,可能存在二義性和質(zhì)量問題,難以形成面向分析的企業(yè)級(jí)數(shù)據(jù)視圖,無法很好的支撐分析應(yīng)用。HashData基于云基礎(chǔ)設(shè)施部署,通過HashData基于云基礎(chǔ)設(shè)施部署,通過CloudManager實(shí)現(xiàn)了與平臺(tái)運(yùn)維存算分離架構(gòu)使得HashData具備極速擴(kuò)縮容、故障自愈等功能,種類多,且以豎井方式建設(shè),分散的基礎(chǔ)架構(gòu)硬件,給環(huán)境部署、升級(jí)帶來很大工作量。一二分布式架構(gòu)、大量設(shè)備增加了日常監(jiān)控和管理的難度和工作量,這一點(diǎn)在二云原生數(shù)據(jù)庫分析型數(shù)據(jù)庫機(jī)器學(xué)習(xí)平臺(tái)深度學(xué)習(xí)平臺(tái)支持大模型的AI平臺(tái)聯(lián)邦查詢平臺(tái)全文檢索平臺(tái)非結(jié)構(gòu)化數(shù)據(jù)處理平臺(tái)并行計(jì)算網(wǎng)格元數(shù)據(jù)訪問服務(wù)發(fā)元數(shù)據(jù)訪問服務(wù)發(fā)理元數(shù)據(jù)訪問服務(wù)理元數(shù)據(jù)訪問服務(wù)復(fù)元數(shù)據(jù)存儲(chǔ)服務(wù)…… File、Kafka……)XX運(yùn)營(yíng)商之前采用Greenplum搭建ODS平臺(tái),隨著業(yè)務(wù)的發(fā)展和平臺(tái)建設(shè)的深入,Greenplum逐漸面臨擴(kuò)展的瓶頸,存儲(chǔ)和計(jì)算能力難以滿足業(yè)務(wù)需要。開始引入Hadoop生態(tài),基于hive構(gòu)建統(tǒng)一的數(shù)據(jù)湖,以Spark、Flink為計(jì)算引擎,支撐B、O、M域數(shù)據(jù)管理分析存統(tǒng)儲(chǔ)一分析應(yīng)用O域分析應(yīng)用算時(shí)計(jì)實(shí)引批XX運(yùn)營(yíng)商之前采用Greenplum搭建ODS平臺(tái),隨著業(yè)務(wù)的發(fā)展和平臺(tái)建設(shè)的深入,Greenplum逐漸面臨擴(kuò)展的瓶頸,存儲(chǔ)和計(jì)算能力難以滿足業(yè)務(wù)需要。開始引入Hadoop生態(tài),基于hive構(gòu)建統(tǒng)一的數(shù)據(jù)湖,以Spark、Flink為計(jì)算引擎,支撐B、O、M域數(shù)據(jù)管理分析存統(tǒng)儲(chǔ)一分析應(yīng)用O域分析應(yīng)用算時(shí)計(jì)實(shí)引批擎量統(tǒng)一存儲(chǔ)+流批引擎分析應(yīng)用挑戰(zhàn)實(shí)時(shí)采集實(shí)時(shí)消息離線采集離線數(shù)據(jù)流批采集l不同應(yīng)用場(chǎng)景的OLAP計(jì)算引擎比較多,數(shù)據(jù)需要在不同的引擎間拷貝,數(shù)據(jù)鏈路長(zhǎng),時(shí)效性差,并且數(shù)據(jù)一致性校驗(yàn)難度大。l工作負(fù)載管理比較薄弱,在一定并發(fā)情況下,性能極差,無法提供好的業(yè)務(wù)體驗(yàn)。lHadoop最初設(shè)計(jì)是面向批量處理場(chǎng)景,沒有針對(duì)交互式分析優(yōu)化。lHadoop缺乏完整事務(wù)支持,尤其是多條DMLSQL復(fù)雜操作,ACID無法滿足。lHadoop的DML操作、復(fù)雜SQL查詢效率低。l分析領(lǐng)域涉及大量業(yè)務(wù)規(guī)則或業(yè)務(wù)邏輯加工處理,Hadoop的SQL能力不足導(dǎo)致這些需求無法滿足。引入云原生架構(gòu)數(shù)據(jù)庫,融合現(xiàn)有大數(shù)據(jù)體系,支撐批量和準(zhǔn)實(shí)時(shí)場(chǎng)景,后續(xù)建設(shè)從兩個(gè)層面展開:1.夯實(shí)基礎(chǔ)。建設(shè)分析型數(shù)據(jù)庫資源池,與大數(shù)據(jù)生態(tài)深度融合;2.遷移應(yīng)用。梳理并規(guī)劃應(yīng)用場(chǎng)景,逐步從Hadoop、Oracle生態(tài)向HashData遷移。企業(yè)門戶企業(yè)門戶管理類營(yíng)銷類……對(duì)內(nèi)應(yīng)用管理類營(yíng)銷類……對(duì)內(nèi)應(yīng)用O2O推薦……對(duì)外運(yùn)營(yíng)運(yùn)行監(jiān)控平臺(tái)數(shù)據(jù)管控平臺(tái)OLAPOLAPSparkOLAP實(shí)時(shí)批量計(jì)算引擎離線采集離線采集離線消息實(shí)時(shí)采集實(shí)時(shí)數(shù)據(jù)企業(yè)云平臺(tái)企業(yè)云平臺(tái)25312531型型數(shù)據(jù)湖4HashData開放管控、運(yùn)維等相關(guān)API,與一站式大數(shù)據(jù)管控及大數(shù)據(jù)運(yùn)維體系對(duì)接海光x86鯤鵬ARM一套數(shù)據(jù)存儲(chǔ),多套計(jì)算分析引擎并存,按需選擇不同計(jì)算引擎,最大限度減少數(shù)據(jù)搬家基于聯(lián)邦集群構(gòu)建統(tǒng)一的數(shù)據(jù)湖數(shù)據(jù)一次入湖,所見即所得多引擎融合,用戶自有選擇計(jì)算引擎處理業(yè)務(wù)場(chǎng)景基于統(tǒng)一存儲(chǔ),存儲(chǔ)集群進(jìn)一步收斂按租戶隔離計(jì)算業(yè)務(wù)集群,結(jié)合實(shí)際業(yè)務(wù)按需調(diào)整計(jì)算節(jié)點(diǎn),彈性擴(kuò)容,調(diào)整算力依托存算分離架構(gòu),滿足各類業(yè)務(wù)場(chǎng)景技術(shù)需求序號(hào)產(chǎn)品組件融合融合目標(biāo)1多引擎融合HashData計(jì)算引擎和大數(shù)據(jù)產(chǎn)品計(jì)算引擎并存,用戶根據(jù)業(yè)務(wù)場(chǎng)景選擇計(jì)算引擎2元數(shù)據(jù)融合大數(shù)據(jù)產(chǎn)品元數(shù)據(jù)組件(HMS)和HashData元數(shù)據(jù)打通,統(tǒng)一管理,供多計(jì)算引擎使用3權(quán)限一體化融合HashData開放權(quán)限相關(guān)API,對(duì)接大數(shù)據(jù)平臺(tái)資源、租戶、用戶、數(shù)據(jù)對(duì)象分配策略,實(shí)現(xiàn)統(tǒng)一權(quán)限管控4數(shù)據(jù)湖存儲(chǔ)融合HashData基于聯(lián)邦HDFS統(tǒng)一存儲(chǔ),統(tǒng)一管理各種多源異構(gòu)數(shù)據(jù),數(shù)據(jù)一次入湖,所見即所得,數(shù)據(jù)分析不搬家5大數(shù)據(jù)運(yùn)營(yíng)體系融合HashData按統(tǒng)一規(guī)范入駐云門戶,打通用戶租戶體系,實(shí)現(xiàn)線上申請(qǐng),線上開通o圍繞云原生技術(shù)重構(gòu)大數(shù)據(jù)算力調(diào)度引擎,HashData基于客戶信創(chuàng)底座構(gòu)建支持多樣化分析的數(shù)據(jù)平臺(tái)臺(tái)用戶管理用戶管理租戶管理租戶管理資源管理資源管理集群管理集群管理任務(wù)管理任務(wù)管理權(quán)限管理權(quán)限管理貼源總部共性個(gè)性計(jì)算集群計(jì)算集群計(jì)算集群應(yīng)用計(jì)算集群溯源計(jì)算集群貼源總部共性個(gè)性計(jì)算集群計(jì)算集群計(jì)算集群應(yīng)用計(jì)算集群溯源計(jì)算集群?統(tǒng)一數(shù)據(jù)湖,實(shí)現(xiàn)全域數(shù)據(jù)的整合和分析,提升數(shù)據(jù)的質(zhì)量和利用效率,降低數(shù)據(jù)冗余和沖突?統(tǒng)一元數(shù)據(jù),形成企業(yè)級(jí)數(shù)據(jù)視圖,實(shí)現(xiàn)多計(jì)算集群間的數(shù)據(jù)共享和協(xié)同分析?存儲(chǔ)與計(jì)算分離,資源池獨(dú)立,計(jì)算存儲(chǔ)按需擴(kuò)縮,提升資源利用率?計(jì)算引擎云原生化,通過自動(dòng)化管理和調(diào)度,計(jì)算資源彈性擴(kuò)縮,實(shí)現(xiàn)靈活高效的計(jì)算服務(wù)案例一、典型應(yīng)用場(chǎng)景--交互式探索?查詢業(yè)務(wù):靈活多變的自助服務(wù)業(yè)務(wù),HashData根據(jù)不同查詢場(chǎng)景規(guī)劃不同查詢資源,不同查詢互不影響。?高并發(fā)業(yè)務(wù):HashData數(shù)據(jù)庫利用底層存儲(chǔ)共享一份數(shù)據(jù),數(shù)據(jù)一次加載,多個(gè)計(jì)?查詢業(yè)務(wù):靈活多變的自助服務(wù)業(yè)務(wù),HashData根據(jù)不同查詢場(chǎng)景規(guī)劃不同查詢資源,不同查詢互不影響。?高并發(fā)業(yè)務(wù):HashData數(shù)據(jù)庫利用底層存儲(chǔ)共享一份數(shù)據(jù),數(shù)據(jù)一次加載,多個(gè)計(jì)算集群數(shù)據(jù)可見,計(jì)算集群間資源隔離,滿足高并發(fā)需求。?存算分離:存儲(chǔ)和計(jì)算分離,存儲(chǔ)資源快速、無限擴(kuò)展、計(jì)算資源敏捷、彈性伸縮;?湖倉存儲(chǔ)融合:與數(shù)據(jù)湖平臺(tái)采用統(tǒng)一HDFS存儲(chǔ),支持Schema、事務(wù)、高效增刪改、流批一體等功能?湖倉引擎融合:數(shù)據(jù)湖、HashData數(shù)據(jù)統(tǒng)一管理,數(shù)據(jù)不復(fù)制搬家,內(nèi)置多種計(jì)算引擎,且支持多種引擎訪問同一份數(shù)據(jù)?統(tǒng)一元數(shù)據(jù):提供元數(shù)據(jù)的統(tǒng)一管理能力,面向多種計(jì)算引擎,提供統(tǒng)一的企業(yè)數(shù)據(jù)視圖;結(jié)合以上特性,可以實(shí)現(xiàn)一套元數(shù)據(jù),一套數(shù)據(jù)存儲(chǔ),各租戶資源隔離的使用場(chǎng)景,湖倉融合的數(shù)據(jù)中臺(tái)基礎(chǔ)底座。 租戶1租戶2租戶3租戶4案例一、項(xiàng)目?jī)r(jià)值--數(shù)據(jù)湖存儲(chǔ)融合o基于聯(lián)邦HDFS統(tǒng)一存儲(chǔ),統(tǒng)一管理各種多源異構(gòu)數(shù)據(jù),數(shù)據(jù)一次入湖,所見即所得,數(shù)據(jù)分析不搬家Spark、Spark、FinkHashData統(tǒng)一HDFS聯(lián)邦集群案例二、某運(yùn)營(yíng)商--數(shù)據(jù)平臺(tái)項(xiàng)目建設(shè)背景XX數(shù)據(jù)處理平臺(tái)建設(shè)時(shí)采用了當(dāng)時(shí)業(yè)界廣泛運(yùn)用的“Hadoop+MPP數(shù)據(jù)庫”混搭架構(gòu)作為數(shù)據(jù)倉庫,其中MPP數(shù)據(jù)庫選用Vertica數(shù)據(jù)庫。Vertica承載公司數(shù)據(jù)倉庫、客服應(yīng)用、外呼樣本、數(shù)據(jù)洞察等高時(shí)效性、高重要性應(yīng)用。Vertica集群當(dāng)前版本軟件存在缺陷,且已處于過保狀態(tài),導(dǎo)致集群運(yùn)行穩(wěn)定性不足,對(duì)所承載高時(shí)效性、高重要性應(yīng)用的可用性產(chǎn)生較大影響。公司數(shù)據(jù)庫、緩存等中間件,以及IT系統(tǒng)服務(wù)已資源快資源快速交付應(yīng)用高效可靠成本集約成本集約案例二、項(xiàng)目建設(shè)目標(biāo)云原生數(shù)據(jù)倉庫能力,實(shí)現(xiàn)數(shù)據(jù)算力快速部署、高效交付云原生數(shù)據(jù)倉庫能力,實(shí)現(xiàn)數(shù)據(jù)算力快速部署、高效交付?存儲(chǔ)、計(jì)算、元數(shù)據(jù)三者分離,提供高效穩(wěn)定的算力服務(wù);?提供計(jì)算資源橫向秒級(jí)擴(kuò)縮容能力,實(shí)現(xiàn)數(shù)據(jù)算力快速部署、高效交付。存量應(yīng)用遷移賦能,提升應(yīng)用穩(wěn)定性?模型、應(yīng)用、數(shù)據(jù)高效遷移;?數(shù)據(jù)應(yīng)用長(zhǎng)期穩(wěn)定運(yùn)行;存量應(yīng)用遷移賦能,提升應(yīng)用穩(wěn)定性?模型、應(yīng)用、數(shù)據(jù)高效遷移;?數(shù)據(jù)應(yīng)用長(zhǎng)期穩(wěn)定運(yùn)行;?滿足業(yè)務(wù)長(zhǎng)期發(fā)展需要。周邊系統(tǒng)集成適配,提升數(shù)據(jù)融通分析效率?云原生數(shù)據(jù)倉庫與流批、倉庫系統(tǒng)集成,實(shí)現(xiàn)數(shù)據(jù)存算集群高效協(xié)同;?云原生數(shù)據(jù)倉庫與分析工具集成,提升數(shù)據(jù)敏捷分析效率。周邊系統(tǒng)集成適配存量應(yīng)用遷移賦能云原生數(shù)據(jù)倉庫能力案例二、項(xiàng)目整體架構(gòu)……話務(wù)分析服務(wù)運(yùn)營(yíng)市場(chǎng)運(yùn)營(yíng)效能提升……話務(wù)分析服務(wù)運(yùn)營(yíng)市場(chǎng)運(yùn)營(yíng)效能提升指標(biāo)開發(fā)模型建設(shè)報(bào)表建設(shè)實(shí)時(shí)應(yīng)用……自助分析自助分析統(tǒng)計(jì)分析工具PythonPython工具超市數(shù)據(jù)洞察工具數(shù)據(jù)開發(fā)API郵件推送工具集成數(shù)據(jù)洞察工具數(shù)據(jù)開發(fā)API郵件推送工具集成客戶軌跡服務(wù)客戶軌跡服務(wù)頁面集成頁面集成精益外呼精益外呼可視化分析融合營(yíng)銷融合營(yíng)銷即席查詢即席查詢報(bào)表工具報(bào)表工具指標(biāo)中心指標(biāo)中心兩級(jí)運(yùn)營(yíng)兩級(jí)運(yùn)營(yíng)流批數(shù)據(jù)開發(fā)工具流程編排工具應(yīng)用部署工具運(yùn)維監(jiān)控工具流程編排工具應(yīng)用部署工具運(yùn)維監(jiān)控工具數(shù)據(jù)交換工具數(shù)據(jù)開發(fā)工具數(shù)據(jù)治理工具智能決策智能決策…………數(shù)據(jù)存算底座計(jì)算FlinkFlink-流處理引擎HiveHive-批處理引擎openLooKeng-交互式查詢HashDataHashData-高性能分析引擎分布式數(shù)據(jù)緩存引擎(分布式數(shù)據(jù)緩存引擎(Alluxio)HashDataHashData-數(shù)據(jù)緩存引擎熱線話務(wù)數(shù)據(jù)熱線話務(wù)數(shù)據(jù)存儲(chǔ)KafkaKafka存儲(chǔ)RedisRedis存儲(chǔ)HDFSHDFS存儲(chǔ)HbaseHbase存儲(chǔ)對(duì)象存儲(chǔ)對(duì)象存儲(chǔ)服務(wù)請(qǐng)求數(shù)據(jù)服務(wù)請(qǐng)求數(shù)據(jù)線上運(yùn)營(yíng)數(shù)據(jù)線上運(yùn)營(yíng)數(shù)據(jù)權(quán)益生態(tài)數(shù)據(jù)權(quán)益生態(tài)數(shù)據(jù)數(shù)據(jù)采集能力FTPFTPSFTP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 化工行業(yè)員工績(jī)效考核
- 市場(chǎng)行業(yè)策劃員工作總結(jié)
- 瞄準(zhǔn)高效輸出的年度目標(biāo)計(jì)劃
- 2024年廣西壯族自治區(qū)北海市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2024年河北省承德市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2021年浙江省寧波市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 美麗家庭事跡材料
- 河南省鄭州市(2024年-2025年小學(xué)六年級(jí)語文)部編版隨堂測(cè)試(上學(xué)期)試卷及答案
- 廣西北海市(2024年-2025年小學(xué)六年級(jí)語文)統(tǒng)編版小升初模擬(上學(xué)期)試卷及答案
- 2025年家電配線組件項(xiàng)目規(guī)劃申請(qǐng)報(bào)告
- 養(yǎng)豬場(chǎng)施工噪聲環(huán)境影響分析
- Windows-Server-2012網(wǎng)絡(luò)服務(wù)架構(gòu)課件(完整版)
- 2022版義務(wù)教育語文課程標(biāo)準(zhǔn)(2022版含新增和修訂部分)
- 形位公差_很詳細(xì)(基礎(chǔ)教育)
- 手榴彈使用教案
- 600MW機(jī)組除氧器水位控制系統(tǒng)
- 史上最全的涉稅風(fēng)險(xiǎn)
- 初中數(shù)學(xué)問題情境的創(chuàng)設(shè)
- 朱東潤(rùn)《中國(guó)歷代文學(xué)作品選》目錄簡(jiǎn)體字版
- 電力設(shè)備典型消防規(guī)程.ppt
- 北京興昌達(dá)博房地產(chǎn)開發(fā)有限公司重整計(jì)劃
評(píng)論
0/150
提交評(píng)論