




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、目錄 HYPERLINK l _TOC_250012 公司概況:數(shù)據(jù)基礎(chǔ)軟件領(lǐng)航者,打造一體化平臺 1 HYPERLINK l _TOC_250011 公司發(fā)展歷程:從分布式架構(gòu)到一站式大數(shù)據(jù)基礎(chǔ)軟件平臺 1 HYPERLINK l _TOC_250010 團(tuán)隊(duì)與融資情況 1 HYPERLINK l _TOC_250009 主營業(yè)務(wù):統(tǒng)一的大數(shù)據(jù)與人工智能處理平臺 3 HYPERLINK l _TOC_250008 公司主要產(chǎn)品:為客戶提供處理大數(shù)據(jù)與人工智能業(yè)務(wù)的軟件平臺 3 HYPERLINK l _TOC_250007 大數(shù)據(jù)產(chǎn)品:基于分布式/云原生的多模型數(shù)據(jù)處理平臺 4 HYPERL
2、INK l _TOC_250006 數(shù)據(jù)科學(xué)產(chǎn)品:幫助客戶更好的利用手中的數(shù)據(jù) 14 HYPERLINK l _TOC_250005 技術(shù)路徑:從開源分布式架構(gòu)到全產(chǎn)品自主可控 17 HYPERLINK l _TOC_250004 海外分布式架構(gòu)商業(yè)化公司:Cloudera 的衰落與 Databricks 的興起 17 HYPERLINK l _TOC_250003 持續(xù)研發(fā)推動下,公司實(shí)現(xiàn)技術(shù)架構(gòu)全面替代 20 HYPERLINK l _TOC_250002 市場分析:云與國產(chǎn)新勢力奪取傳統(tǒng)廠商市場份額 21 HYPERLINK l _TOC_250001 市場快速增長,國產(chǎn)替代與應(yīng)用場景增
3、加推動競爭環(huán)境變化 21 HYPERLINK l _TOC_250000 市場格局出現(xiàn)重塑,新興實(shí)力崛起正當(dāng)時(shí) 23風(fēng)險(xiǎn)因素 26投資分析 26插圖目錄圖 1:星環(huán)科技發(fā)展歷程 1圖 2:截止 D2 輪公司股權(quán)結(jié)構(gòu) 2圖 3:按行業(yè)分標(biāo)桿案例客戶數(shù)量 2圖 4:按產(chǎn)品分標(biāo)桿案例客戶占比 2圖 5:公司產(chǎn)品陣列:為客戶提供大數(shù)據(jù)與人工智能產(chǎn)品 4圖 6:星環(huán)多模型架構(gòu)圖 6圖 7:TPC-H 性能測試中 Inceptor 運(yùn)行速度可比 SparkSQL 和 Greenplum 快近 100 倍 7圖 8:TPC-DS 測試集的通過率 7圖 9:Inceptor 相對其他引擎性能提升倍數(shù) 7圖 1
4、0:TDH 核心組件 Inceptor 8圖 11:Slipstream 主要行業(yè)應(yīng)用 8圖 12:基于 Slipstream 實(shí)時(shí)計(jì)算實(shí)現(xiàn)各場景下實(shí)時(shí)信息處理 8圖 13:公司 Hyperbase 定義為 NewSQL 數(shù)據(jù)庫 9圖 14:Transwarp Scope 大規(guī)模搜索和統(tǒng)計(jì)的融合引擎 9圖 15:星環(huán)科技圖數(shù)據(jù)庫產(chǎn)品 10圖 16:分布式閃存數(shù)據(jù)庫 ArgoDB 架構(gòu) 11圖 17:分布式關(guān)系型數(shù)據(jù)庫 KunDB 架構(gòu) 11圖 18:星環(huán)科技(Transwarp)多模數(shù)據(jù)庫能夠提供國內(nèi)數(shù)據(jù)庫中最豐富的產(chǎn)品體系 12圖 19:TDH 支持主流數(shù)據(jù)模型超過其他主流競爭對手 12圖
5、20:星環(huán)的平臺能夠統(tǒng)一數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)集市 13圖 21:TDC 云化產(chǎn)品架構(gòu) 14圖 22:舊式資源調(diào)配平臺處理功能主要缺陷 14圖 23:Sophon 智能分析工具 15圖 24:TDS 架構(gòu)圖 16圖 25:公司核心產(chǎn)品 Transwarp Data Cloud 數(shù)據(jù)應(yīng)用全棧云平臺 17圖 26:傳統(tǒng) Hadoop 架構(gòu):核心為 HDFS 與 Map/Reduce 17圖 27:Cloudera 主要向外提供的產(chǎn)品能力 18圖 28:全球云原生應(yīng)用數(shù)及同比增速 20圖 29:Gartner 預(yù)測 2022 年 75%的數(shù)據(jù)庫都在云上 20圖 30:星環(huán)大數(shù)據(jù)技術(shù)架構(gòu)演變(從藍(lán)色的
6、的開源產(chǎn)品轉(zhuǎn)變?yōu)榫G色的的星環(huán)自主研發(fā)產(chǎn)品). 20圖 31:全球 OLAP 市場規(guī)模 22圖 32:中國大數(shù)據(jù)市場規(guī)模預(yù)測 22圖 33:中國 OLTP 市場規(guī)模及預(yù)測 22圖 34:中國 OLAP 市場規(guī)模及預(yù)測 22圖 35:2019-2024 年中國大數(shù)據(jù)市場規(guī)模預(yù)測 23圖 36:2020 年中國大數(shù)據(jù)各子市場規(guī)模占比 23圖 37:全球 OLTP 市場規(guī)模及增速 24圖 38:全球 OLAP 市場規(guī)模及增速 24圖 39:2019 年全球數(shù)據(jù)倉庫市場份額 24圖 40:企業(yè)混合云部署情況(2020 年) 24圖 41:IDC 關(guān)于企業(yè)是否接納混合云戰(zhàn)略的調(diào)研 25圖 42:企業(yè)混合云
7、部署情況(2020 年) 25圖 43:2020 年 Gartner 數(shù)據(jù)庫象限 25表格目錄表 1:公司歷史各輪融資投資方與規(guī)模 2表 2:公司主要產(chǎn)品 3表 3:星環(huán)科技大數(shù)據(jù)產(chǎn)品對應(yīng)的應(yīng)用場景 4表 4:公司多模數(shù)據(jù)庫分為五層 6表 5:TDH 主要產(chǎn)品 6表 6:星環(huán)科技數(shù)據(jù)科學(xué)產(chǎn)品 15表 7:Hadoop 較為重要的子模塊 18表 8:Hadoop 主要組件發(fā)行時(shí)間 19表 9:公司主要解決方案,應(yīng)用場景與競爭產(chǎn)品 26表 10:可比公司估值參考 27 公司概況:數(shù)據(jù)基礎(chǔ)軟件領(lǐng)航者,打造一體化平臺公司發(fā)展歷程:從分布式架構(gòu)到一站式大數(shù)據(jù)基礎(chǔ)軟件平臺星環(huán)科技成立于 2013 年,致力
8、于打造“云計(jì)算+大數(shù)據(jù)+數(shù)據(jù)庫+人工智能”的基礎(chǔ)平臺產(chǎn)品,為企業(yè)客戶提供一站式大數(shù)據(jù)基礎(chǔ)軟件平臺。總部位于上海,現(xiàn)已在北京、廣州、新加坡、南京、鄭州、成都、深圳、天津、武漢等地?fù)碛袇^(qū)域中心、研發(fā)中心或區(qū)域辦事處。公司創(chuàng)始人、公司 CTO 孫元浩曾為 Intel 負(fù)責(zé) Hadoop 發(fā)行版研發(fā)工作,2013 年離開 Intel 創(chuàng)辦星環(huán)科技。公司愿景是成為世界領(lǐng)先的基礎(chǔ)軟件供應(yīng)商,為所有的大數(shù)據(jù)和人工智能應(yīng)用提供基礎(chǔ)平臺,致力于為中國開發(fā)出一款自主可控的基礎(chǔ)大數(shù)據(jù)軟件。公司以Hadoop 架構(gòu)起步,逐步研發(fā)改進(jìn)形成獨(dú)立自主的數(shù)據(jù)基礎(chǔ)軟件平臺。2016 年,星環(huán)科技被 Gartner 評為全球最具
9、有前瞻性的數(shù)據(jù)倉庫及數(shù)據(jù)管理解決方案廠商,2017 年被 IDC評為中國大數(shù)據(jù)市場領(lǐng)導(dǎo)者。公司產(chǎn)品已經(jīng)在二十多個(gè)行業(yè)應(yīng)用落地,2018 年,星環(huán)科技成為 12 年來全球首個(gè)完成 TPC-DS 測試并通過官方審計(jì)的數(shù)據(jù)庫廠商。公司的產(chǎn)品目前已經(jīng)在二十余個(gè)行業(yè)實(shí)現(xiàn)落地,在金融領(lǐng)域具備多年技術(shù)積累。公司目前已完成 D2 輪融資,擬科創(chuàng)板掛牌上市,于 2020 年 12 月開始上市輔導(dǎo)。圖 1:星環(huán)科技發(fā)展歷程資料來源:星環(huán)科技官網(wǎng),團(tuán)隊(duì)與融資情況星環(huán)科技創(chuàng)始人兼 CEO 孫元浩是公司實(shí)際控制人,曾任英特爾亞太研發(fā)有限公司數(shù)據(jù)中心軟件部亞太區(qū) CTO,負(fù)責(zé)的分布式架構(gòu)團(tuán)隊(duì)包括 50 余人。Hadoop
10、 架構(gòu)最終在市場中被證明需要脫離于硬件,以軟件產(chǎn)品的形式推廣,但是由于 Intel 本身是如 Oracle 等軟件公司的上游長期供應(yīng)商,使得公司無法推行孫元浩的軟件產(chǎn)品化、全產(chǎn)業(yè)化的商業(yè)策略。最終,在 Intel 決定注資 Cloudera 后,孫元浩決定出走,創(chuàng)建星環(huán)科技,致力于在中國建立起一個(gè)全球頂尖的大數(shù)據(jù)基礎(chǔ)平臺產(chǎn)品供應(yīng)商。2014 年 4 月,公司創(chuàng)立并獲得第一筆 100 萬人民幣的天使輪投資。在此之后,公司先后進(jìn)行七輪融資:投資方包括啟明創(chuàng)投、騰訊、中金、金石投資等一級市場明星投資機(jī)構(gòu)。公司成立至今已累計(jì)完成 15 億元人民幣的融資。表 1:公司歷史各輪融資投資方與規(guī)模投資方融資時(shí)
11、間A 輪方廣資本、恒生、信雅達(dá)數(shù)千萬2014 年 8 月A+輪啟明創(chuàng)投數(shù)千萬2015 年 1 月B 輪瑞智煒格、創(chuàng)新投資、基石資本、國家中小企業(yè)發(fā)展基金1.55 億2016 年 3 月C 輪騰訊、勤智資本、興瑞智新2.35 億2017 年 5 月D1 輪TCL 資本、中金資本、深創(chuàng)投數(shù)億2019 年 2 月D2 輪中金資本、渤海中盛、渤海產(chǎn)業(yè)投資基金、任君資本、交銀國際、第一創(chuàng)業(yè)證券投資、朗瑪峰創(chuàng)投、新鼎資本、晶凱資本等5 億2019 年 10 月資料來源:36 氪,圖 2:截止 D2 輪公司股權(quán)結(jié)構(gòu)3.14%28.01%13.18%12.51%8.90%孫元浩 林芝利創(chuàng)贊星投資國家軍民融合產(chǎn)
12、業(yè)基金范磊云友投資方廣投資啟明創(chuàng)投4.55%4.61%4.72%7.16%7.98%5.24%長江合志恒生電子其他資料來源:公司官網(wǎng),多元化客戶分布,體現(xiàn)公司產(chǎn)品能力:公司當(dāng)前的產(chǎn)品已經(jīng)能夠覆蓋金融、能源、交通、政府、運(yùn)營商、教育、醫(yī)療、零售、媒體等 20 多個(gè)行業(yè)超過 2000 家用戶,用戶行業(yè)多元化展現(xiàn)公司技術(shù)研發(fā)、拓展能力強(qiáng)勁。金融行業(yè)用戶對于數(shù)據(jù)庫產(chǎn)品要求嚴(yán)格,容錯(cuò)率低,是數(shù)據(jù)庫產(chǎn)品國產(chǎn)替代的高地,公司金融客戶 200 多家,體現(xiàn)公司的技術(shù)水平與行業(yè)開發(fā)能力。信創(chuàng)行業(yè)重點(diǎn)領(lǐng)域的客戶如能源、政府、交通、電信為公司貢獻(xiàn) 78%的客戶比例。1202529161746107圖 3:按行業(yè)分標(biāo)桿
13、案例客戶數(shù)量(單位:個(gè))圖 4:按產(chǎn)品分標(biāo)桿案例客戶占比(單位:%) 14012010080604020數(shù)據(jù)倉庫數(shù)據(jù)集市實(shí)時(shí)計(jì)算信息檢索深度學(xué)習(xí)行業(yè)方案9.1%16.4%30.9%16.4%9.1%18.2%0金融 能源 交通 政府 運(yùn)營商 教育 醫(yī)療 零售 媒體資料來源:公司官網(wǎng),資料來源:公司官網(wǎng), 主營業(yè)務(wù):統(tǒng)一的大數(shù)據(jù)與人工智能處理平臺公司主要產(chǎn)品:為客戶提供處理大數(shù)據(jù)與人工智能業(yè)務(wù)的軟件平臺產(chǎn)品圍繞著數(shù)據(jù)處理為核心,為企業(yè)客戶提供完整的基礎(chǔ)軟件產(chǎn)品解決方案:公司經(jīng)過長期自主研發(fā)與產(chǎn)品積淀,圍繞著為客戶提供數(shù)據(jù)處理工具,研發(fā)設(shè)計(jì)出一整套數(shù)據(jù)管理軟件產(chǎn)品,包括用于企業(yè)本地部署的分布式極速
14、大數(shù)據(jù)平臺 Transwarp Data Hub ( TDH );基于容器,用于云化部署的智能大數(shù)據(jù)云平臺 Transwarp Data Cloud ( TDC );為企業(yè)提供 AI 開發(fā)能力的智能分析工具 Transwarp Sophon、大數(shù)據(jù)開發(fā)工具 TDS 以及為企業(yè)提供軟硬件一體化能力的超融合大數(shù)據(jù)一體機(jī) TxData Appliance。公司六大核心技術(shù)優(yōu)勢領(lǐng)先市場競爭:包括領(lǐng)先的分布式系統(tǒng)軟件技術(shù)、優(yōu)秀的分布式編譯技術(shù)、領(lǐng)先的分布式數(shù)據(jù)庫技術(shù)、基于容器的數(shù)據(jù)云技術(shù)、數(shù)據(jù)全生命周期的開發(fā)和管理技術(shù)、支持計(jì)算智能、感知智能、認(rèn)知智能、行為智能的機(jī)器學(xué)習(xí)技術(shù)。表 2:公司主要產(chǎn)品產(chǎn)品線
15、核心組件特性與應(yīng)用場景關(guān)系型分析引擎(Inceptor)+實(shí)時(shí)流計(jì)算引擎大數(shù)據(jù)和云基礎(chǔ)平臺分布式關(guān)系型數(shù)據(jù)庫Transwarp Data Hub(TDH)企業(yè)級一站式極速大數(shù)據(jù)綜合平臺Transwarp Data Cloud(TDC)數(shù)據(jù)應(yīng)用全棧大數(shù)據(jù)云平臺ArgoDB分布式閃存數(shù)據(jù)庫KunDB分布式交易數(shù)據(jù)庫(Slipstream)+ 知識庫(Transwarp Scope 和 StellarDB)+操作型數(shù)據(jù)庫(Hyperbase)+數(shù)據(jù)科學(xué)平臺(Sophon Discover)數(shù)據(jù)倉庫、數(shù)據(jù)集市、實(shí)時(shí)計(jì)算平臺、分布式搜索引擎、分布式圖數(shù)據(jù)庫、分布式在線交易數(shù)據(jù)庫、深度學(xué)習(xí)分布式計(jì)算引擎+
16、分布式存儲引擎分布式計(jì)算引擎、分布式存儲引擎容器化的一站式大數(shù)據(jù)平臺,目標(biāo)場景包括數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)與信息檢索等提供多租戶式云上大數(shù)據(jù)服務(wù),以及多行業(yè)全方位解決方案,滿足各種數(shù)據(jù)處理場景需求,實(shí)現(xiàn)企業(yè)數(shù)據(jù)與應(yīng)用的生態(tài)化建設(shè)為適應(yīng)全閃存服務(wù)器設(shè)計(jì),實(shí)現(xiàn)離線批處理數(shù)據(jù)倉庫、實(shí)時(shí)數(shù)據(jù)分析平臺、 OLAP 數(shù)據(jù)庫、全文檢索數(shù)據(jù)庫功能可擴(kuò)展、高并發(fā)、高可用,為各行業(yè)提供通用解決方案數(shù)據(jù)開發(fā)與智能分析Sophon智能分析工具Transwarp Data Studio大數(shù)據(jù)開發(fā)工具統(tǒng)一的企業(yè)級數(shù)據(jù)智能分析工具。提供數(shù)據(jù)清洗、數(shù)據(jù)分析挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、模型管理、API 部署、工作流調(diào)度等功能,
17、助力企業(yè) AI 時(shí)代業(yè)務(wù)創(chuàng)新與變革包含數(shù)據(jù)探索、數(shù)據(jù)集成、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)、數(shù)據(jù)血緣分析、數(shù)據(jù)任務(wù)調(diào)度、數(shù)據(jù)質(zhì)量報(bào)告、數(shù)據(jù)資產(chǎn)管理、指標(biāo)設(shè)計(jì)與服務(wù)發(fā)布等核心功能模塊通過軟硬件一體化裝置實(shí)現(xiàn)計(jì)算、存超融合大數(shù)據(jù)一體機(jī)Transwarp TxData Appliance超融合大數(shù)據(jù)一體機(jī)四子星服務(wù)器、雙子星服務(wù)器、普通雙路服務(wù)器,包含 X86 與 ARM 兩個(gè)版本儲、網(wǎng)絡(luò)、虛擬化和應(yīng)用融合的緊密集成的大數(shù)據(jù)平臺資料來源:星環(huán)科技官網(wǎng),星環(huán)科技作為分布式軟件系統(tǒng)研發(fā)提供商,擁有天然的底層硬件基礎(chǔ),其創(chuàng)始團(tuán)隊(duì)擁有豐富的編譯器經(jīng)驗(yàn)和分布式架構(gòu)經(jīng)驗(yàn)。公司從分布式架構(gòu) Hadoop 商業(yè)發(fā)行版產(chǎn)品起
18、步,結(jié)合 Spark 開源產(chǎn)品并逐步自主替換,完成了自主產(chǎn)品代碼更替與原架構(gòu)的改良,并利用 容器能力基于 K8S 平臺提供云原生版本產(chǎn)品。公司獨(dú)特的多模型異構(gòu)體系被信通院評為大 數(shù)據(jù)產(chǎn)品線最豐富的廠商,并早于國外同行 2 年完成大數(shù)據(jù)組件的容器化部署,成為業(yè)界第一個(gè)基于容器化的大數(shù)據(jù)平臺。豐富的產(chǎn)品線讓星環(huán)科技可以實(shí)現(xiàn)數(shù)據(jù)全生命周期管理:在大數(shù)據(jù)處理方面,公司產(chǎn)品通過改造的存儲引擎,統(tǒng)一的計(jì)算引擎形成統(tǒng)一的軟件平臺,形成了包括分布式分析型、交易型數(shù)據(jù)庫、實(shí)時(shí)流式計(jì)算引擎、圖數(shù)據(jù)引擎、搜索引擎、機(jī)器學(xué)習(xí)工具中間件、NoSQL 數(shù)據(jù)庫等融合一系列數(shù)據(jù)庫的多模數(shù)據(jù)庫。在數(shù)據(jù)開發(fā)與智能分析方面,公司具
19、備智能分析工具 Sophon、大數(shù)據(jù)開發(fā)工具 TDS 等產(chǎn)品。為完善面向客戶的全套解決方案能力,公司在硬件上還具備 x86 和 ARM 架構(gòu)下的超融合一體機(jī)。圖 5:公司產(chǎn)品陣列:為客戶提供大數(shù)據(jù)與人工智能產(chǎn)品資料來源:星環(huán)科技 2021 新產(chǎn)品發(fā)布會大數(shù)據(jù)產(chǎn)品:基于分布式/云原生的多模型數(shù)據(jù)處理平臺為客戶提供處理大數(shù)據(jù)業(yè)務(wù)服務(wù),公司的產(chǎn)品有企業(yè)級一站式極速大數(shù)據(jù)平臺(TDH)、大數(shù)據(jù)云平臺(TDC)以及分布式數(shù)據(jù)庫 ArgoDB、KunDB。TDH 為客戶提供了分布式本地部署的多模數(shù)據(jù)庫,TDC 是 TDH 的云原生版本:從用戶的角度而言,公司的產(chǎn)品為用戶提供了基于一個(gè)平臺管理下的,囊括了分
20、布式數(shù)據(jù)庫、數(shù)據(jù)倉庫、大數(shù)據(jù)開發(fā)工具、智能分析工具等一整套數(shù)據(jù)管理應(yīng)用類軟件產(chǎn)品?;诠镜漠a(chǎn)品,用戶可以實(shí)現(xiàn)數(shù)據(jù)倉庫、搜索、實(shí)時(shí)計(jì)算、數(shù)據(jù)集市、數(shù)據(jù)湖、關(guān)系型數(shù)據(jù)庫等數(shù)據(jù)開發(fā)、管理類事務(wù),幫助企業(yè)或政府客戶更好的應(yīng)用、管理、維護(hù)自身的數(shù)據(jù)。表 3:星環(huán)科技大數(shù)據(jù)產(chǎn)品對應(yīng)的應(yīng)用場景產(chǎn)品應(yīng)用場景企業(yè)級一站式極速大數(shù)據(jù)綜合平臺(TDH)數(shù)據(jù)倉庫、搜索引擎、人工智能數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)湖、實(shí)時(shí)計(jì)算、搜索引擎、人新一代智能大數(shù)據(jù)云平臺(TDC)工智能、關(guān)系數(shù)據(jù)庫分布式閃存數(shù)據(jù)庫 ArgoDB數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)湖、關(guān)系數(shù)據(jù)庫分布式交易數(shù)據(jù)庫 KunDB高并發(fā)操作型數(shù)據(jù)應(yīng)用資料來源:公司官網(wǎng),公
21、司產(chǎn)品從分布式架構(gòu)出發(fā),能夠?yàn)榭蛻籼峁┗诹畠r(jià)商用硬件設(shè)備,高性能、高吞吐量的海量數(shù)據(jù)處理解決方案。分布式架構(gòu)即是建立在網(wǎng)絡(luò)之上的軟件系統(tǒng)。隨著強(qiáng)大的單一服務(wù)器無法滿足大型系統(tǒng)持續(xù)增長的業(yè)務(wù)需求,需要使用分布式數(shù)據(jù)庫及分布式文件系統(tǒng)來支撐,分布式架構(gòu)允許將計(jì)算與存儲任務(wù)通過網(wǎng)絡(luò)分發(fā)給多地的多個(gè)服務(wù)器并對其進(jìn)行統(tǒng)一調(diào)度,以滿足海量數(shù)據(jù)處理需求。隨著業(yè)務(wù)進(jìn)一步復(fù)雜,對數(shù)據(jù)存儲、檢索和實(shí)時(shí)處理的需求又進(jìn)一步催生了如非關(guān)系型數(shù)據(jù)庫 NoSQL,分?jǐn)?shù)據(jù)庫查詢技術(shù)搜索引擎、實(shí)時(shí)計(jì)算流式數(shù)據(jù)庫等分布式架構(gòu)下的產(chǎn)品類別。由于數(shù)據(jù)量巨大以及部門分散在多個(gè)地區(qū)的行業(yè)屬性,分布式系統(tǒng)在金融、運(yùn)營商等部門率先被應(yīng)用,
22、目前已經(jīng)成為傳統(tǒng)行業(yè)與互聯(lián)網(wǎng)行業(yè)進(jìn)行本地大數(shù)據(jù)管理的通用解決方案。多模型數(shù)據(jù)處理平臺 TDH:國內(nèi)支持?jǐn)?shù)據(jù)庫種類最多的多模數(shù)據(jù)庫多模型數(shù)據(jù)處理平臺是星環(huán)將客戶的需要應(yīng)用于各類場景的多個(gè)數(shù)據(jù)庫產(chǎn)品,融合為一個(gè)基于統(tǒng)一管理下的數(shù)據(jù)管理平臺。隨著大數(shù)據(jù)技術(shù)使用日益廣泛,越來越多企業(yè)在應(yīng)用場景方面有更多元的訴求,需要處理的數(shù)據(jù)量飛速增長,需要處理的場景日趨復(fù)雜。傳統(tǒng)廠商與云廠商出于技術(shù)路徑選擇或是商業(yè)策略考量,在過去習(xí)慣于將不同數(shù)據(jù)庫區(qū)分出售。但是當(dāng)前單個(gè)數(shù)據(jù)庫解決單一場景的方式已經(jīng)不適用于復(fù)雜場景的需求??蛻羧绻徺I多個(gè)單一數(shù)據(jù)庫,并簡單的利用多個(gè)數(shù)據(jù)庫構(gòu)建混合架構(gòu)平臺,則需要額外的接口層實(shí)現(xiàn)數(shù)據(jù)導(dǎo)
23、入導(dǎo)出、一致性處理與信息匯總能力,對 IT 人員和整體系統(tǒng)的負(fù)擔(dān)都非常大。多模數(shù)據(jù)庫在當(dāng)前數(shù)據(jù)種類越來越多,數(shù)據(jù)庫工具類型越來越多的背景下,成為簡化用戶使用,打通客戶手中數(shù)據(jù)的關(guān)鍵能力。2021 年發(fā)布的 TDH 8.0 采用了領(lǐng)先的多模型技術(shù)架構(gòu)和統(tǒng)一數(shù)據(jù)管理,可以構(gòu)建服務(wù)于整個(gè)企業(yè)的統(tǒng)一數(shù)據(jù)資源庫,讓不同部門的數(shù)據(jù)間的隔閡徹底打破,使跨部門數(shù)據(jù)靈活調(diào)用擁有了技術(shù)支撐。通過 8 種異構(gòu)存儲引擎支持業(yè)界領(lǐng)先的 10 種存儲模型,自動化應(yīng)對多部門業(yè)務(wù)需求,能夠支撐用戶各種高階的數(shù)據(jù)分析場景,幫助用戶完成數(shù)據(jù)自動化管理,實(shí)現(xiàn)業(yè)務(wù)價(jià)值。TDH 對于存儲和計(jì)算完全解耦。用戶可以根據(jù)業(yè)務(wù)的變動,按需創(chuàng)建
24、新模型,按需申請計(jì)算和存儲資源。任務(wù)的生命周期結(jié)束時(shí),可以釋放占用的計(jì)算和存儲資源,回收到集群資源池中。公司多模數(shù)據(jù)庫核心能力在于其底層引擎配置。公司的多模數(shù)據(jù)庫將軟件層分成五層,資源管理/操作系統(tǒng)層統(tǒng)一的存儲管理層獨(dú)立的存儲引擎層(存儲格式、存儲訪問方式是獨(dú)立的)統(tǒng)一的計(jì)算層統(tǒng)一的 SQL 接口層。與其他同類競爭對手相比,星環(huán)多模架構(gòu)難點(diǎn)在于實(shí)現(xiàn)計(jì)算層統(tǒng)一,做成獨(dú)立計(jì)算引擎。多模的計(jì)算引擎統(tǒng)一便于客戶進(jìn)行開發(fā),公司獨(dú)立研發(fā)的統(tǒng)一的數(shù)據(jù)計(jì)算引擎 Nucleon DCE 實(shí)現(xiàn)計(jì)算層自主決策,支持運(yùn)營式 OLTP 數(shù)據(jù)庫(Operational)、分析式 OLAP 數(shù)據(jù)庫(Analytical)、
25、以及低延時(shí)的事件驅(qū)動數(shù)據(jù)庫(Slipstream)。底層引擎應(yīng)用統(tǒng)一的數(shù)據(jù)操作查詢語言(SQL/Cypher)。多模型數(shù)據(jù)庫適用于不同場景,發(fā)揮了各自數(shù)據(jù)庫在面對不同場景中的技術(shù)優(yōu)勢,又能夠統(tǒng)一管理運(yùn)維,整體架構(gòu)更為簡潔便捷輕巧。圖 6:星環(huán)多模型架構(gòu)圖資料來源:星環(huán)科技 TDH 產(chǎn)品白皮書(來源于公司官網(wǎng))表 4:公司多模數(shù)據(jù)庫分為五層統(tǒng)一的 SQL 編譯器Transwarp Quark統(tǒng)一的分布式計(jì)算引擎Transwarp Nucleon異構(gòu)存儲引擎層開發(fā)了統(tǒng)一的分布式 SQL 引擎,兼容 HIVE、Oracle、DB2、Teradata 等語言,用戶不需要因?yàn)閳鼍扒袚Q、數(shù)據(jù)庫切換,造成接
26、口、開發(fā)語言的切換而煩惱。開發(fā)人員學(xué)習(xí)成本低,開發(fā)的代碼可移植性強(qiáng),技術(shù)對接容易。TDH 不同的存儲引擎都使用統(tǒng)一的計(jì)算引擎。計(jì)算引擎能根據(jù)不同的存儲引擎自動匹配高性能算法統(tǒng)一優(yōu)化、拆分、分發(fā)、運(yùn)行計(jì)算任務(wù)通過 8 種獨(dú)立的存儲引擎,支持十種不同的存儲模型:關(guān)系型數(shù)據(jù)存儲、寬表存儲、文本存儲、對象存儲、鍵值存儲、全文檢索、地理空間存儲、圖存儲、事件存儲、時(shí)序數(shù)據(jù)存儲統(tǒng)一的分布式存儲管理層開發(fā)了統(tǒng)一的存儲管理引擎,數(shù)據(jù)塊分部管理、數(shù)據(jù)多副本一致性管理、文件服務(wù)管理等存儲公用功能開發(fā)了統(tǒng)一的資源調(diào)度框架,通過容器化編排,統(tǒng)一調(diào)度計(jì)算、存儲、網(wǎng)絡(luò)資源,支持 X86 和 ARM 混合架構(gòu)統(tǒng)一的資源管理
27、層以及多種操作系統(tǒng)資料來源:TDH 產(chǎn)品白皮書,基于公司多模型數(shù)據(jù)庫平臺底座,公司數(shù)據(jù)庫主要包含 5 類核心產(chǎn)品:關(guān)系型分析引擎 (Transwarp Inceptor),實(shí)時(shí)流計(jì)算引擎(Transwarp Slipstream),操作型數(shù)據(jù)庫 Nosql數(shù)據(jù)庫(Hyperbase),圖數(shù)據(jù)庫(Transwarp StellarDB),搜索引擎知識庫(Transwarp Scope)。表 5:TDH 主要產(chǎn)品產(chǎn)品名應(yīng)用類型海外廠商競爭優(yōu)勢Inceptor關(guān)系型分析引擎CLOUDERA、DATABRICK、FACEBOOK使用數(shù)據(jù)庫的搜索能力對大數(shù)據(jù)進(jìn)行搜索 Slipstream實(shí)時(shí)流計(jì)算引擎F
28、link/Stream Structrue/Storm實(shí)時(shí)營銷,風(fēng)控,物聯(lián)網(wǎng)實(shí)時(shí)處理 HyperbaseNoSql 數(shù)據(jù)庫HBaseHbase 的自主迭代產(chǎn)品TranswarpStellarDBTranswarp Scope圖數(shù)據(jù)庫Neo4J市場競爭對手較少公司使用 C+基于 ELASTIC SEARCH 改造而搜索引擎ELASTIC SERACH來,擴(kuò)展性能更好,SQL 接口資料來源:整理關(guān)系型分析引擎 Inceptor 是星環(huán)科的核心數(shù)據(jù)倉庫產(chǎn)品,也是公司組件中市場領(lǐng)先程度最高的一個(gè)。Inceptor 用于批量處理及分析的數(shù)據(jù)庫,支持客戶進(jìn)行大數(shù)據(jù)的處理分析。提供完整 SQL 2003 標(biāo)
29、準(zhǔn)支持以及 Oracle、DB2、Teradata 兼容,被廣泛應(yīng)用于數(shù)據(jù)倉庫和數(shù)據(jù)集市的構(gòu)建,實(shí)現(xiàn)數(shù)據(jù)離線批處理和交互式分析功能。分布式搜索引擎在 2012 年成為全球大數(shù)據(jù)市場研發(fā)焦點(diǎn),公司基于 SPARK SQL 基礎(chǔ)上,于 2014 年之后將其重新編寫,對其進(jìn)行了大幅度的性能改良。在 TPC-DS 1TB 測試中,Inceptor 相對于 Impala 2.6 有 2.3 倍的性能提升,對于 Spark 2.2 有 2.5 倍的性能提升。以 1TB 的數(shù)據(jù)庫為對象進(jìn)行測試,在 OLAP Cube 的加速下,TPC-H 在Inceptor 中的運(yùn)行速度比SparkSQL和 Greenpl
30、um 快近 100 倍。2018 年,Inceptor 成為世界上首個(gè)獲得官方認(rèn)證的通過 TPC-DS 10TB 測試的數(shù)據(jù)庫引擎, 打破了多年以來無人能破的歷史。圖 7:TPC-H 性能測試中 Inceptor 運(yùn)行速度可比 SparkSQL 和 Greenplum 快近 100 倍資料來源:公司官網(wǎng)圖 8:TPC-DS 測試集的通過率圖 9:Inceptor 相對其他引擎性能提升倍數(shù)1009080706050403020100支持的SQL0出錯(cuò)的SQL40399952504835ImpalaTEZInceptor SparkSQL GreenPlum2.7543210I
31、mpalaTEZSparkSQLGreenPlum資料來源:星環(huán)科技產(chǎn)品發(fā)展方向白皮書,資料來源:星環(huán)科技產(chǎn)品發(fā)展方向白皮書,圖 10:TDH 核心組件 Inceptor資料來源:TDH 產(chǎn)品白皮書Slipstream 是 SQL 接口的實(shí)時(shí)流計(jì)算引擎,也是公司核心領(lǐng)先產(chǎn)品之一。Slipstream 是一款通用的實(shí)時(shí)計(jì)算引擎,使用事件驅(qū)動和批處理統(tǒng)一的模型,在保證毫秒級別延遲的同時(shí),幫助用戶更高效、準(zhǔn)確的進(jìn)行數(shù)據(jù)集成,同時(shí)提供更復(fù)雜的分析功能,以幫助企業(yè)挖掘?qū)崟r(shí)數(shù)據(jù)的價(jià)值,主要用在實(shí)時(shí)營銷,風(fēng)控,物聯(lián)網(wǎng)實(shí)時(shí)處理。同類型產(chǎn)品包括 Databricks 的 Structure Streaming,
32、Twitter 的 Storm,以及開源生態(tài)的 Flink 等。早期公司使用開源的 spark streaming 與 strom,但 storm 接口不友好,spark streaming延時(shí)非常長,不適合做實(shí)時(shí)的搜索引擎,均存在各自問題。公司 16 年實(shí)現(xiàn)了基于 SQL 接口的流式處理引擎能力,結(jié)合兩個(gè)開源產(chǎn)品的優(yōu)勢,領(lǐng)先競爭對手 Databricks 等廠商。后續(xù) DATABRICK 晚于星環(huán)將自身產(chǎn)品迭代為基于 SQL 接口的 Spark structure streaming,證明公司產(chǎn)品路徑正確,早于市場主要競爭對手。圖 11:Slipstream 主要行業(yè)應(yīng)用圖 12:基于 Sl
33、ipstream 實(shí)時(shí)計(jì)算實(shí)現(xiàn)各場景下實(shí)時(shí)信息處理資料來源:公司官網(wǎng)資料來源:TDH 產(chǎn)品白皮書HYPERBASE 是實(shí)現(xiàn) HBase 功能的的 NoSql 數(shù)據(jù)庫,允許開發(fā)者直接利用 SQL構(gòu)建復(fù)雜應(yīng)用,實(shí)現(xiàn)極速的信息檢索與數(shù)據(jù)入庫。產(chǎn)品可以在普通廉價(jià)服務(wù)器集群上實(shí)現(xiàn)PB 級別數(shù)據(jù)量的高效在線 OLTP 應(yīng)用、高并發(fā) OLAP 應(yīng)用、批處理應(yīng)用、流處理應(yīng)用、全文搜索或高并發(fā)圖形數(shù)據(jù)庫檢索應(yīng)用。Hyperbase 支持以標(biāo)準(zhǔn) SQL 為接口的高效數(shù)據(jù)訪問,并自帶高效的數(shù)據(jù)遷移工具。圖 13:公司 Hyperbase 定義為 NewSQL 數(shù)據(jù)庫資料來源:TDH 產(chǎn)品白皮書搜索引擎 Transw
34、arp Scope,是面向企業(yè)的綜合搜索引擎,用來解決企業(yè)對海量數(shù)據(jù)的檢索和分析需求。產(chǎn)品最早是根據(jù) ELASTIC SERACH 改造而來,最后用 C+自行開發(fā),擴(kuò)展性性能更好,并支持 SQL 接口,提供了完整的 SQL 語法支持。通過優(yōu)化數(shù)據(jù)搜索的執(zhí)行過程,實(shí)現(xiàn)在 PB 數(shù)據(jù)量級上的秒級全文搜索。Transwarp Scope 不僅可以用于數(shù)據(jù)搜索業(yè)務(wù),還可以用于海量數(shù)據(jù)的統(tǒng)計(jì)分析業(yè)務(wù)場景。圖 14:Transwarp Scope 大規(guī)模搜索和統(tǒng)計(jì)的融合引擎資料來源:公司官網(wǎng)圖數(shù)據(jù)庫 StellarDB 是一款為企業(yè)級圖應(yīng)用而打造的分布式圖數(shù)據(jù)庫,用于快速查找數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,并提供強(qiáng)大的
35、算法分析能力。產(chǎn)品克服了海量關(guān)聯(lián)圖數(shù)據(jù)存儲的難題,通過自定義圖存儲格式和集群化存儲,實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫無法提供的低延時(shí)多層關(guān)系查詢。主要對標(biāo)競品如 Neo4J,目前市場上同類產(chǎn)品相對較少。圖 15:星環(huán)科技圖數(shù)據(jù)庫產(chǎn)品資料來源:星環(huán)科技官網(wǎng)在星環(huán) 2021 年新品發(fā)布會中,TDH8.0 的工具組件 Aquila、Manager、Guardian、 Audit 同樣迎來了全面的升級,讓系統(tǒng)的安裝部署、擴(kuò)容升級、安全防衛(wèi)、風(fēng)險(xiǎn)告警、權(quán)限管理等工作變得更便捷。公司新產(chǎn)品包括:Transwarp Aquila 智能運(yùn)維分析平臺軟件是一站式綜合智能運(yùn)維平臺, 提供監(jiān)控儀表盤、告警通知、日志生命周期管理、日
36、志檢索、審計(jì)日志等功能。同時(shí),Aquila 還預(yù)置了基礎(chǔ)監(jiān)控、大數(shù)據(jù)監(jiān)控、PaaS 層監(jiān)控等多維度的監(jiān)控資源,能做到整個(gè) TDH 產(chǎn)品各個(gè)維度的開箱即用的一鍵運(yùn)維。Transwarp Manager 大數(shù)據(jù)管理軟件是負(fù)責(zé)配置、管理和運(yùn)維 TDH 集群的圖形化工具。用戶只需通過幾個(gè)手動步驟,就可以在 x86、ARM、MIPS 等各架構(gòu)服務(wù)器或基于 Docker 的云端平臺上完成集群部署,并且提供報(bào)警、健康檢測、監(jiān)控和度量等運(yùn)維服務(wù)。用戶可以實(shí)時(shí)的瀏覽各服務(wù)的狀態(tài),并且在告警出現(xiàn)時(shí)采取恰當(dāng)?shù)拇胧┮蕴幚響?yīng)對。此外,Manager 還提供了一些便捷的運(yùn)維功能,例如磁盤管理、軟件升級和服務(wù)遷移等。Tra
37、nswarp Audit 智能運(yùn)維分析平臺軟件面向TDH 中對數(shù)據(jù)的操作和權(quán)限進(jìn)行合理布控和監(jiān)測,整合大數(shù)據(jù)平臺各節(jié)點(diǎn)中的監(jiān)控信息,實(shí)現(xiàn)對數(shù)據(jù)訪問和操作的集中監(jiān)控、查看和管理的智能化、可視化審計(jì)。Audit 支持對各類審計(jì)事件做出快速、準(zhǔn)確的定位,并進(jìn)行過濾和歸并,實(shí)現(xiàn)集中、綜合的展現(xiàn)。Transwarp Guardian 大數(shù)據(jù)安全管理軟件為 TDH 提供集中的安全和資源管理服務(wù)。它支持 LDAP 和 Kerberos,保護(hù)集群免受惡意攻擊和安全威脅,而且還可以對資源做細(xì)粒度的 ACL 控制。其多租戶資源管理模塊可以按照租戶的方式管理資源,并通過一個(gè)圖形化工具為用戶提供權(quán)限配置以及資源配置接
38、口。分布式數(shù)據(jù)庫:ArgoDB 與 KunDB 針對客戶痛點(diǎn),完善產(chǎn)品矩陣公司另外兩個(gè)獨(dú)立數(shù)據(jù)庫產(chǎn)品 AgroDB 與 KunDB,分別用于分析型與交易型場景。 2021 年新品發(fā)布會宣布最新的版本ArgoDB3.0 與 kunDB 2.0。AgroDB 是硬件基于閃存的分析性數(shù)據(jù)庫,于 2017 年發(fā)布脫胎于 Inceptor,完全由公司自主完成,與 HADOOP 兼容,是為了適應(yīng)服務(wù)器硬件未來將由硬盤全面轉(zhuǎn)成閃存的產(chǎn)品。隨著硬件升級,服務(wù)器中的硬盤 SAS 硬盤,逐步升級為 SATA SSD,到 PCIE-SSD,再到 Memory,吞吐與 IOPS 性能都有著數(shù)量級的增長。AgroDB
39、可用于替代 Oracle、 Teradata 的產(chǎn)品做數(shù)據(jù)分析。據(jù)央采網(wǎng) 3 月 19 日發(fā)布的中央國家機(jī)關(guān) 2021 年數(shù)據(jù)庫軟件協(xié)議供貨采購項(xiàng)目成交公告顯示,星環(huán)的分布式閃存數(shù)據(jù)庫軟件(AgroDB)入圍事務(wù)型數(shù)據(jù)庫管理系統(tǒng)供應(yīng)商,被認(rèn)可成為 Oracle 數(shù)據(jù)庫的信創(chuàng)替代產(chǎn)品。KunDB 是交易型 OLTP 數(shù)據(jù)庫,主要應(yīng)用場景為處理高并發(fā)、大流量訪問,支持多租戶能力。KunDB 是云原生的數(shù)據(jù)庫產(chǎn)品,可以部署在公有云、私有云、及混合云架構(gòu)。保障租戶隔離和 SLA,分布式的 MYSQL 底層。作為安全可控的國產(chǎn)數(shù)據(jù)庫產(chǎn)品,分布式在線交易數(shù)據(jù)庫系統(tǒng)(KunDB)入圍了分析型數(shù)據(jù)庫管理系統(tǒng)供
40、應(yīng)商,成為微軟SQL Server事務(wù)型數(shù)庫,甲骨文 Oracle 數(shù)據(jù)庫的信創(chuàng)替代產(chǎn)品。圖 16:分布式閃存數(shù)據(jù)庫 ArgoDB 架構(gòu)圖 17:分布式關(guān)系型數(shù)據(jù)庫 KunDB 架構(gòu)資料來源:公司官網(wǎng)資料來源:公司官網(wǎng)在 2021 年新品發(fā)布會中,公司還推出了 ArgoDB2.0 與 KunDB2.0 的整體解決方案,為用戶同時(shí)提供 TP 和 AP 兩種能力。對外統(tǒng)一了 SQL 入口,無需對應(yīng)用改造,實(shí)現(xiàn)對 TP 類業(yè)務(wù)和復(fù)雜分析的統(tǒng)一處理;統(tǒng)一計(jì)算橫跨交易型數(shù)據(jù)庫和列存分析型數(shù)據(jù)庫,不存在數(shù)據(jù)同步流轉(zhuǎn),保障了數(shù)據(jù)的一致性與分析實(shí)效性。用戶的使用體驗(yàn)變得更加優(yōu)秀。 ArgoDB3.0 與 Ku
41、nDB2.0 支持更高性價(jià)比、更靈活的數(shù)據(jù)庫部署方式,在支持 x86、ARM混合部署的同時(shí)支持主流國產(chǎn)操作系統(tǒng)、國產(chǎn)服務(wù)器,滿足國產(chǎn)化需求。公司的多模數(shù)據(jù)庫借助軟件能力實(shí)現(xiàn)計(jì)算資源和存儲引擎解耦合。由于在實(shí)際應(yīng)用當(dāng)中,計(jì)算資源按客戶實(shí)時(shí)需求而擴(kuò)張收縮,但存儲資源需求是持續(xù)存在的,因此解耦合將會大幅縮減客戶的成本。傳統(tǒng)架構(gòu)如 Oracle、MySQL 都是緊耦合的,在擴(kuò)展存儲的時(shí)候計(jì)算必須同步擴(kuò)展,所以成本非常高。TDH 在軟件工程上實(shí)現(xiàn)解耦合,計(jì)算資源擴(kuò)張的伸縮彈性用容器技術(shù)實(shí)現(xiàn)。公司基于自主的計(jì)算、存儲引擎之上,擁有國內(nèi)最豐富的多模數(shù)據(jù)庫產(chǎn)品。圖 18:星環(huán)科技(Transwarp)多模數(shù)據(jù)
42、庫能夠提供國內(nèi)數(shù)據(jù)庫中最豐富的產(chǎn)品體系資料來源: ITPUB 老魚圖 19:TDH 支持主流數(shù)據(jù)模型超過其他主流競爭對手資料來源:2021 年新品發(fā)布會,ACM Computing Survey公司的分析型數(shù)據(jù)庫是首個(gè)支持多種混合分析負(fù)載的數(shù)據(jù)庫:融合的數(shù)據(jù)平臺統(tǒng)一了數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)集市,不再需要混合架構(gòu),單個(gè)平臺就能支持各種分析類應(yīng)用,降低了成本,也降低了應(yīng)用開發(fā)和運(yùn)維的難度圖 20:星環(huán)的平臺能夠統(tǒng)一數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)集市資料來源:公司 TDH 產(chǎn)品白皮書云原生架構(gòu) TDC:為客戶提供云上 PaaS 產(chǎn)品基于底層的開源 Kubernets(K8S)容器管理層,公司應(yīng)用容器能力實(shí)現(xiàn)
43、了 TDH 的功能的 PaaS 服務(wù)提供。TDC 由基于數(shù)據(jù)中心云原生操作系統(tǒng)和三大 PaaS 平臺服務(wù)(數(shù)據(jù) PaaS、分析 PaaS 與應(yīng)用 PaaS)構(gòu)成,實(shí)現(xiàn)了公司主要產(chǎn)品能力的公有云與私有云部署。云化后的公司產(chǎn)品具備低成本(無需企業(yè)硬件部署)、簡單易用、彈性資源調(diào)度的優(yōu)勢。云化數(shù)據(jù)庫是未來的趨勢。但在中國,部分政企客戶出于數(shù)據(jù)敏感性原因或者行業(yè)法律合規(guī)原因,數(shù)據(jù)不能在公有云進(jìn)行處理,而是采取私有云本地部署。因此公司有必要具備本地部署/私有云部署/公有云部署等跨多種部署的方案能力。公司的云原生能力能夠有效彌補(bǔ)本地化部署的缺陷。智能大數(shù)據(jù)云平臺 TDC 融合了公司大數(shù)據(jù)平臺 TDH、自研
44、云操作系統(tǒng) TCOS、智能分析工具 Sophon 能力,提供了與大數(shù)據(jù)和人工智能相關(guān)的七種產(chǎn)品,可以覆蓋數(shù)據(jù)處理與分析的常見場景,具體包括數(shù)據(jù)倉庫/數(shù)據(jù)集市/實(shí)時(shí)計(jì)算平臺/分布式搜索引擎/分布式圖數(shù)據(jù)庫/分布式在線交易數(shù)據(jù)庫/深度學(xué)習(xí)能力。圖 21:TDC 云化產(chǎn)品架構(gòu)資料來源:星環(huán)科技產(chǎn)品白皮書公司底層的架構(gòu)已經(jīng)從傳統(tǒng)的 Hadoop 的 YARN 改為 Google 的開源容器管理平臺 K8S,并對其進(jìn)行了插件化改進(jìn)。Hadoop 架構(gòu)的 YARN 存在的缺陷在于資源調(diào)配打通能力不足,無法實(shí)現(xiàn)在線作業(yè)。同樣基于 HDFS 與 YARN 底座的 Hadoop 衍生平臺 Spark在發(fā)現(xiàn) YA
45、RN 的問題后,在公司之后同樣推出了利用 K8S 取代 YARN 資源調(diào)配平臺功能的產(chǎn)品版本,證明了公司在全球的技術(shù)敏銳度水平。圖 22:舊式資源調(diào)配平臺處理功能主要缺陷資料來源:CSDN,數(shù)據(jù)科學(xué)產(chǎn)品:幫助客戶更好的利用手中的數(shù)據(jù)公司的數(shù)據(jù)科學(xué)產(chǎn)品,包括了智能分析工具 Sophon,大數(shù)據(jù)開發(fā)工具 TDS 與實(shí)時(shí)智能決策引擎 FIDE。表 6:星環(huán)科技數(shù)據(jù)科學(xué)產(chǎn)品智能分析工具 Sophon人工智能大數(shù)據(jù)開發(fā)工具(TDS)數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)湖實(shí)時(shí)智能決策引擎 FIDE實(shí)時(shí)計(jì)算、人工智能資料來源:公司官網(wǎng),智能分析工具 Sophon:為客戶提供數(shù)據(jù)分析與機(jī)器學(xué)習(xí)建模的一系列數(shù)據(jù)科學(xué)工具So
46、phon 是面向客戶開發(fā)者使用的智能分析工具?;谄脚_,用戶可以快速完成從特征工程、模型訓(xùn)練到模型上線的機(jī)器學(xué)習(xí)全生命周期開發(fā)工作。在對數(shù)據(jù)進(jìn)行過處理后,平臺可以為客戶提供數(shù)據(jù)挖掘的能力,例如為客戶提供可視化建模和代碼建模,幫助客戶優(yōu)化模型的上架、上線、及線上監(jiān)控。除此之外,Sophon 平臺還集成了面向各種行業(yè)領(lǐng)域的分析工具,包括知識圖譜工具、實(shí)體畫像工具、報(bào)表工具、視頻分析工具等,集成了數(shù)據(jù)處理、模型加工、線上監(jiān)控以及數(shù)據(jù)分析為一體。平臺主要子模塊中,Sophon Base 數(shù)據(jù)科學(xué)基礎(chǔ)平臺是基礎(chǔ)平臺,可滿足一站式機(jī)器學(xué)習(xí)建模需求。Sophon KG 知識圖譜模塊最早用于圖分析軟件,如圖情
47、報(bào)分析,軍用情報(bào)分析等,后續(xù)擴(kuò)展到金融行業(yè)中的企業(yè)知識圖譜,用于反洗錢、反欺詐等。SophonEdge 等分別為圖像/視頻/邊緣計(jì)算等提供工具。SOPHON FIDE 實(shí)時(shí)決策引擎包含了指標(biāo)計(jì)算/智能決策/決策引擎三個(gè)模塊。通過實(shí)時(shí)數(shù)據(jù)處理來判定行為是否屬于個(gè)欺詐行為,從而制定實(shí)時(shí)決策,做出具體執(zhí)行。圖 23:Sophon 智能分析工具資料來源:星環(huán)科技產(chǎn)品白皮書當(dāng)前 Sophon 主要客戶集中于金融領(lǐng)域,主要客戶是券商的量化交易部門,金融行業(yè)依靠自身程序算法構(gòu)建 GPU 集群進(jìn)行量化交易模型搭建。大數(shù)據(jù)開發(fā)與治理一站式平臺 TDS:全組件的企業(yè)數(shù)據(jù)中臺公司將數(shù)據(jù)應(yīng)用開發(fā)中間件的工具組進(jìn)行整合
48、,構(gòu)成了大數(shù)據(jù)開發(fā)與治理一站式平臺 Transwarp Data Studio,包含數(shù)據(jù)探索、數(shù)據(jù)集成、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)、數(shù)據(jù)血緣分析、數(shù)據(jù)任務(wù)調(diào)度、數(shù)據(jù)質(zhì)量報(bào)告、數(shù)據(jù)資產(chǎn)管理、指標(biāo)設(shè)計(jì)與服務(wù)發(fā)布等核心功能模塊;基于分布式計(jì)算設(shè)計(jì),支持各種關(guān)系數(shù)據(jù)庫和主流大數(shù)據(jù)平臺,可以用于企業(yè)級的數(shù)據(jù)治理和數(shù)據(jù)資產(chǎn)平臺的建設(shè)。TDS 類似于阿里的數(shù)據(jù)中臺系統(tǒng),基于數(shù)據(jù)倉庫為用戶提供一套自身搭建數(shù)據(jù)中臺的工具集。TDS 通過協(xié)助客戶實(shí)現(xiàn)自身數(shù)據(jù)規(guī)范化業(yè)務(wù)數(shù)據(jù)化業(yè)務(wù)智能化數(shù)據(jù)資產(chǎn)化的一攬子解決方案。TDS 實(shí)現(xiàn)了協(xié)助客戶公司構(gòu)建自身的數(shù)字化運(yùn)營能力包括 了決策管理、KPI 驅(qū)動、實(shí)時(shí)運(yùn)營指標(biāo)監(jiān)控,從把業(yè)
49、務(wù)數(shù)據(jù)存下來,到把業(yè)務(wù)數(shù)據(jù)用好,且可以用于與他人的數(shù)據(jù)交易??蛻艨梢詫?shí)現(xiàn)包括數(shù)據(jù)服務(wù)、數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)運(yùn)營平臺、知識圖譜、數(shù)據(jù)科學(xué)平臺、智能決策系統(tǒng)等一系列數(shù)據(jù)中臺功能,最終幫助客戶輸出數(shù)據(jù)產(chǎn)品:包括特征指標(biāo)、用戶畫像,收入預(yù)測模型、預(yù)測客戶流失、預(yù)測公司風(fēng)險(xiǎn)模型或者外接的 API 接口。圖 24:TDS 架構(gòu)圖資料來源:公司官網(wǎng) 技術(shù)路徑:從開源分布式架構(gòu)到全產(chǎn)品自主可控公司的原始架構(gòu)來自于 Hadoop,也是分布式架構(gòu)最主流的類型。Hadoop 架構(gòu)是一整套開源的解決方案,以 HDFS 分布式文件系統(tǒng)為存儲系統(tǒng),HBase 為 NoSQL 數(shù)據(jù)庫,YARN 為資源調(diào)度系統(tǒng),
50、計(jì)算引擎采用 MAP/REDUCE 或 SPARK(為另一開源社區(qū),但底層存儲、資源調(diào)配引擎與 Hadoop 相同)實(shí)現(xiàn)并行計(jì)算的分布式架構(gòu)。公司產(chǎn)品以傳統(tǒng) HADOOP 架構(gòu)為支撐,開始進(jìn)行自主化的產(chǎn)品技術(shù)迭代,現(xiàn)在已經(jīng)脫離了開源的 Hadoop架構(gòu),并且應(yīng)用容器化底座搭建了自身的云平臺,已經(jīng)與傳統(tǒng) Hadoop/Spark 架構(gòu)商業(yè)化公司產(chǎn)品如 Cloudera、Databricks 等存在非常大的區(qū)別。圖 25:公司核心產(chǎn)品 Transwarp Data Cloud 數(shù)據(jù)應(yīng)用全棧云平臺圖 26:傳統(tǒng) Hadoop 架構(gòu):核心為 HDFS 與 Map/Reduce資料來源:公司官網(wǎng)資料來源
51、:CSDN海外分布式架構(gòu)商業(yè)化公司:Cloudera 的衰落與 Databricks 的興起當(dāng)前市場最主流的分布式架構(gòu)為 Hadoop 與 Spark,兩者公用一套底層存儲與資源分配引擎 HDFS 和 Yarn,區(qū)別在于計(jì)算引擎為 Map/Reduce 或 Spark,因此通常協(xié)同一起應(yīng)用。Hadoop 基于 Google 2003 年發(fā)布的白皮書 “MapReduce:針對大數(shù)據(jù)的簡化數(shù)據(jù)處理”進(jìn)行演進(jìn),2006 問世。Hadoop 就是用 java 的分布式,以“分組合并”的方式來處理大數(shù)據(jù)的框架。Hadoop 架構(gòu)包含了眾多的子項(xiàng)目,主要由 HDFS、Yarn、MapReduce、HBa
52、se、Hive等成員組成。其中最基礎(chǔ)最重要元素為底層用于存儲集群中所有存儲節(jié)點(diǎn)文件的文件系統(tǒng) HDFS(Hadoop Distributed File System)來執(zhí)行 MapReduce 程序的計(jì)算引擎。HDFS是一個(gè)高度容錯(cuò)性的分布式文件系統(tǒng),適合部署在廉價(jià)的機(jī)器上,能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用;MapReduce 是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算,以實(shí)現(xiàn)映射與化簡。Hadoop 家族實(shí)現(xiàn)了任務(wù)多節(jié)點(diǎn)部署,并行計(jì)算,再將節(jié)點(diǎn)進(jìn)行合并的核心需求。表 7:Hadoop 較為重要的子模塊子模塊功能HadoopCommonHadoop 體系最底層的一個(gè)模塊,
53、為 Hadoop 各子項(xiàng)目提供配置文件和日志操作HDFS存儲:分布式文件系統(tǒng),有著高容錯(cuò)性的特點(diǎn),適合那些超大數(shù)據(jù)集的應(yīng)用程序Yarn資源調(diào)度:協(xié)調(diào)應(yīng)用程序運(yùn)行時(shí)的調(diào)度程序MapReduce計(jì)算:編程模型,處理大規(guī)模數(shù)據(jù)集(大于 1TB)的并行運(yùn)算算法Hive數(shù)據(jù)倉庫系統(tǒng),提供完整的 SQL 查詢,可以將 sql 語句轉(zhuǎn)換為 MapReduce 任務(wù)HBase開源的,基于列存儲模型的分布式數(shù)據(jù)庫Cassandra高性能、可線性擴(kuò)展、高有效性數(shù)據(jù)庫Pig大規(guī)模數(shù)據(jù)分析平臺,為并行計(jì)算提供簡單的操作和編程接口資料來源:CSDN,Hadoop 的核心能力在于解決了超大規(guī)模文件的分布式部署,主要包括了
54、:1)支持TB 和 PB 級別的數(shù)據(jù)部署;2)檢測和快速應(yīng)對硬件故障,從而使得架構(gòu)可以部署在廉價(jià)硬件之上,降低了分布式架構(gòu)的部署門檻;3)追求高吞吐量的流式數(shù)據(jù)訪問;4)使用簡單,高度容錯(cuò)。正是借助于這些優(yōu)勢,使得 Hadoop 能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺,并開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。Hadoop 的誕生推動了分布式架構(gòu)在全球范圍內(nèi)的快速推廣。最重要的Hadoop 社區(qū)商用公司為Cloudera。Cloudera 成立于2008 年,隨著Hadoop逐漸成為企業(yè)和大型機(jī)構(gòu)的主流開源軟件基礎(chǔ)架構(gòu)而同步成長。在社區(qū)開源版本上,公司免費(fèi)提供 CDH,并開發(fā)出商用版本及付費(fèi)組件
55、IMPALA、FLUME 等,通過售賣商用版本與提供運(yùn)維服務(wù)盈利。2018 年 10 月,Cloudera 與同為開源平臺的 Hortonworks 公司以 52 億美元的價(jià)格合并,后者是來自 Yahoo!的獨(dú)立上市開源部門。合并后,Cloudera 能夠?qū)嶋H控制開源社區(qū)中的 HDFS、Yarn、Map/Reduce、Hive 等組件,并擁有如 Flume、Impala、 HUE 等商業(yè)化組件。圖 27:Cloudera 主要向外提供的產(chǎn)品能力資料來源:Cloudera 官網(wǎng)分布式的另一重要開源社區(qū)為 Spark,主導(dǎo)廠商為一級市場明星 Databricks。Spark由加州大學(xué)伯克利分校 A
56、MP 實(shí)驗(yàn)室的開源集群計(jì)算環(huán)境而來,相比于 Hadoop,其核心差異在于可以基于內(nèi)存實(shí)現(xiàn)快速、通用、可擴(kuò)展的分布式數(shù)據(jù)集迭代作業(yè),當(dāng)前主流應(yīng)用方法是在 Hadoop 基礎(chǔ)上運(yùn)行 Spark 計(jì)算引擎,實(shí)現(xiàn)交互式查詢并優(yōu)化迭代工作負(fù)載。主導(dǎo)公司 Cloudera 在營收與股價(jià)方面面臨壓力,表現(xiàn)疲軟。Hadoop 已經(jīng)顯得較為陳舊,我們可以從下表看到 Hadoop 主要組件的最早發(fā)布時(shí)間已經(jīng)較為久遠(yuǎn)。而明星公司 Databricks 的開源架構(gòu) Spark 基于 Hadoop 而來,彌補(bǔ)了 MapReduce 實(shí)際應(yīng)用的大量缺陷,因此受到使用者與資本市場的一致追捧,估值達(dá)到 280 億美元。表 8
57、:Hadoop 主要組件發(fā)行時(shí)間工具描述第一次發(fā)布最近發(fā)布YARN資源管理器和調(diào)度器20062019/2/6HbaseNoSQL 數(shù)據(jù)庫20082019/6/11Hive數(shù)據(jù)倉庫和 SQL 抽象20102019/5/14SqoopRDMBS 數(shù)據(jù)傳輸管道20092019/1/18Spark數(shù)據(jù)處理框架和計(jì)算引擎20142019/5/8Tez運(yùn)行在 Hive 或 Pig 上的 DAG 計(jì)算框架20142019/3/29資料來源:CSDN,Cloudera 衰落主要來自于內(nèi)部與外部的沖突競爭。由于底層架構(gòu)的原因,Hadoop架構(gòu)不可避免存在產(chǎn)品缺陷:如不支持低延遲數(shù)據(jù)訪問、不能高效存儲大量小文件、
58、不支 持多用戶同時(shí)操作、不能彈性部署、YARN 不能實(shí)現(xiàn)資源隔離等。星環(huán)的自身產(chǎn)品研發(fā)利用 Spark 或自身技術(shù)更替彌補(bǔ) Hadoop 架構(gòu)的這些問題。Cloudera 的衰敗更大的原因來自 于內(nèi)外交困,首先是在開源社區(qū)內(nèi)部,Cloudera 與 Hortonworks 兩廠商陷入競爭疲于內(nèi)耗,導(dǎo)致均無法主導(dǎo)社區(qū),且未能及時(shí)推出云化版本;后續(xù)雖然兩家合并,開始將 HDFS、YARN、 IMPALA 實(shí)現(xiàn)完全控制,但更大的開源生態(tài)破壞者來自于云廠商,AWS 利用開源協(xié)議,推 出針對 Hadoop 生態(tài)的公有云產(chǎn)品 Elastic MapReduce,來自云廠商的競爭對開源商業(yè) 公司生態(tài)造成巨大
59、沖擊。而在技術(shù)方面,基于云化的云數(shù)據(jù)倉庫實(shí)現(xiàn)了存儲和計(jì)算的完全 解耦,在提供近乎無限的延展性和高彈性(解決 Hadoop 架構(gòu)存儲計(jì)算綁定,資源浪費(fèi)問題),也能夠保障數(shù)據(jù)的一致性,并支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的處理。正是出于對Cloudera 這一 Hadoop 社區(qū)商業(yè)化公司經(jīng)驗(yàn)與現(xiàn)狀的理解的基礎(chǔ)上,星環(huán)科技走出了云化、閉源的自主演進(jìn)道路。圖 28:全球云原生應(yīng)用數(shù)及同比增速(百萬個(gè),%)圖 29:Gartner 預(yù)測 2022 年 75%的數(shù)據(jù)庫都在云上6005004003002001000云原生應(yīng)用數(shù)同比增速20192020E2021E2022E2023E70%60%50%40%30%20
60、%10%0%80%70%60%50%40%30%20%10%0%20162017201820192022E資料來源:IDC(含預(yù)測),資料來源:Gartner(含預(yù)測),持續(xù)研發(fā)推動下,公司實(shí)現(xiàn)技術(shù)架構(gòu)全面替代公司產(chǎn)品逐步實(shí)現(xiàn)自主更迭,最早的產(chǎn)品即 TDH2.0 以前的版本,是基于 Hadoop 開源架構(gòu)進(jìn)行的開發(fā),后續(xù)為了改良架構(gòu)自身面臨的問題,公司逐步引入 Spark 架構(gòu)上層計(jì)算引擎,并不斷進(jìn)行自主代碼開發(fā)與更替,目前已經(jīng)實(shí)現(xiàn)了除底層 K8S 使用谷歌開源社區(qū)架構(gòu)外,全部產(chǎn)品自主可控。圖 30:星環(huán)大數(shù)據(jù)技術(shù)架構(gòu)演變(從藍(lán)色的的開源產(chǎn)品轉(zhuǎn)變?yōu)榫G色的的星環(huán)自主研發(fā)產(chǎn)品)資料來源:公司官網(wǎng)公
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《師說》 教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版高中語文必修上冊
- 2024國核鈾業(yè)發(fā)展有限責(zé)任公司社會招聘(重慶有崗)筆試參考題庫附帶答案詳解
- Module 9 單元備課(教學(xué)設(shè)計(jì))-2024-2025學(xué)年外研版(一起)英語三年級上冊
- 2025年湖南工程職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫及答案一套
- 2025年金屬包裝容器及其附件項(xiàng)目合作計(jì)劃書
- 第九單元實(shí)驗(yàn)活動5:一定溶質(zhì)質(zhì)量分?jǐn)?shù)氯化鈉溶液的配制教學(xué)設(shè)計(jì)-2023-2024學(xué)年九年級化學(xué)人教版下冊
- 2025年湖南軟件職業(yè)技術(shù)大學(xué)單招職業(yè)適應(yīng)性測試題庫及答案1套
- 第六單元名著導(dǎo)讀《簡·愛》教學(xué)設(shè)計(jì) 2023-2024學(xué)年統(tǒng)編版語文九年級下冊
- 6 兩、三位數(shù)的加法和減法第二課時(shí)(教學(xué)設(shè)計(jì))-2023-2024學(xué)年二年級下冊數(shù)學(xué)蘇教版
- 第三單元 豐富多樣的自然資源 大單元教學(xué)設(shè)計(jì)-2024-2025學(xué)年七年級地理上學(xué)期中華中圖版
- 電信寬帶注銷委托書
- 新教材人教版高中數(shù)學(xué)必修第二冊全冊教案
- 班(組)戰(zhàn)斗動作訓(xùn)練教案
- 農(nóng)產(chǎn)品電商運(yùn)營-完整全套課件
- 唐河縣泌陽凹陷郭橋天然堿礦產(chǎn)資源開采與生態(tài)修復(fù)方案
- 科研項(xiàng)目匯報(bào)ppt
- 建設(shè)工程項(xiàng)目法律風(fēng)險(xiǎn)防控培訓(xùn)稿PPT講座
- “不作為、慢作為、亂作為”自查自糾報(bào)告范文(三篇)
- 上海市楊浦區(qū)2022屆初三中考二模英語試卷+答案
- 課件《中國式現(xiàn)代化》
- 公共事業(yè)管理案例
評論
0/150
提交評論