


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、XXX大數(shù)據(jù)平臺技術(shù)白皮書xxxx大數(shù)據(jù)平臺 技術(shù)白皮書文檔版本號: 文檔密級: 編寫人:文檔編號: 歸屬部門/項目:編寫日期: 產(chǎn)品部XXXX有限公司修訂記錄:版本號v 修訂人修訂日期 修訂描述XX版權(quán)所有XXXX科技有限公司保留所有權(quán)利 版權(quán)聲明:檔著作權(quán)XXXX科技有限公司享有。文中涉及 XXXX科技 有限公司的專有信息,未經(jīng)XXXX科技有限公司書面許可,任何單位和個人不得使用和泄漏該文檔以及該文檔包含的 任何圖片、表格、數(shù)據(jù)及其他信息。檔中的信息隨著 XXXX科技有限公司產(chǎn)品和技術(shù)的進步 將不斷更新,XXXX科技有限公司不再通知此類信息的更新。目錄第 1 章產(chǎn) 品 概述系統(tǒng)架 4第 3
2、 章 數(shù)據(jù)存儲5分布式集群存儲分布式文件系統(tǒng) 6HBase-分布列式數(shù)據(jù)庫 7Hive-數(shù)據(jù)倉庫9 GraphDB-大規(guī)模分布式并行圖數(shù)據(jù)庫 12第 4 章 數(shù)據(jù)總線13數(shù) 據(jù) 采 集 與 交換15理16則過濾規(guī)ETL 17疋制化19擎第5早計算引21能 21成232325292930功能特 30效 果 展示31 第 8 章 運維管理平.33系統(tǒng)監(jiān)控界面33系 統(tǒng) 配 置 界面33SQL查詢分析34批 量 數(shù) 據(jù) 導(dǎo) 入 導(dǎo)出第9章產(chǎn)品規(guī)格35標(biāo).產(chǎn)品指模.35平臺規(guī)力.35系統(tǒng)能營.35系統(tǒng)運境.36硬件環(huán)境 36參 考 配 置36第1章產(chǎn)品概述XX大數(shù)據(jù)引擎平臺 UDE是一款大數(shù)據(jù)通用平臺
3、軟件產(chǎn) 品,支持海量數(shù)據(jù)的采集、過濾、轉(zhuǎn)換、存儲、搜索、查詢、 統(tǒng)計、分析、可視化與安全管理等大數(shù)據(jù)全生命周期管理, 各種行業(yè)應(yīng)用和最終用戶,可以通過平臺提供的豐富的接 口,完成大規(guī)模行業(yè)數(shù)據(jù)的挖掘分析和應(yīng)用對接管理。對外 提供大容量數(shù)據(jù)分析和查詢能力,為解決各大企業(yè)的以下需 求: 軟硬件國產(chǎn)自主可控多源異構(gòu)數(shù)據(jù)接入數(shù)據(jù)關(guān)聯(lián)融合、統(tǒng)一訪問 大規(guī)模、高性能、可擴展 高可靠、 咼可用XXXX在開源 Hadoop版本的基礎(chǔ)上對 HBase HDFS和 MapReduce等組件增加了 HA查詢和分析功能,并進行了性 能優(yōu)化。產(chǎn)品定位如圖1-1所示:第2章系統(tǒng)架構(gòu)圖2-1 XX系統(tǒng)架構(gòu)圖如上圖所示,XX
4、是一款大數(shù)據(jù)管理分析平臺,基于底層 的基礎(chǔ)平臺,自下而上可以分四層,依次是數(shù)據(jù)存儲層、數(shù) 據(jù)總線、數(shù)據(jù)處理層以及業(yè)務(wù)適配層。同時具有高性能和高 可用的特征。數(shù)據(jù)存儲層:支持海量異構(gòu)數(shù)據(jù)的統(tǒng)一可靠的存儲管 理,對外提供統(tǒng)一的分布式調(diào)用接口。數(shù)據(jù)總線:支持?jǐn)?shù)據(jù)采集、過濾、緩存、中轉(zhuǎn)分發(fā)調(diào) 度等。數(shù)據(jù)總線是計算與存儲的樞紐,同時是內(nèi)外數(shù)據(jù)交換的通道,完成數(shù)據(jù)在組件間及 層次間中轉(zhuǎn)、緩沖及調(diào)度。數(shù)據(jù)處理層:基于支持多種計算模型的分布式計算框架,為上層業(yè)務(wù)系統(tǒng)提供專業(yè)的計算處理庫,包括 文本處理、搜索引擎、數(shù)據(jù)挖掘等。業(yè)務(wù)適配層:為上層業(yè)務(wù)系統(tǒng)提供各種不同協(xié)議和標(biāo) 準(zhǔn)的訪問接口。高性能高可用保障:通過軟
5、硬件多方優(yōu)化配置和深度 研究,保證整個平臺的高可用和高性能。產(chǎn)品特點:面向網(wǎng)絡(luò)內(nèi)容及社會計算領(lǐng)域,通過多年積累數(shù)據(jù)處理層的特有業(yè)務(wù)處理引擎深度業(yè)務(wù)適配及衍生的垂直解決方案以數(shù)據(jù)總線為中心進行數(shù)據(jù)全生命周期調(diào)度及價值實 現(xiàn)的數(shù)據(jù)流驅(qū)動視角第3章數(shù)據(jù)存儲XX為用戶提供企業(yè)級大數(shù)據(jù)平臺軟件一體化解決方案; 并支持特殊應(yīng)用場景下的定制化硬件加速。面對結(jié)構(gòu)復(fù)雜、 需求多變的異構(gòu)數(shù)據(jù)處理業(yè)務(wù),XX不僅提供統(tǒng)一、穩(wěn)定、高效的存儲子系統(tǒng),還整合了先進的分布式集群資源管理和進 程調(diào)度方案、高性能數(shù)據(jù)總線技術(shù)、全并行架構(gòu)分布式關(guān)系 數(shù)據(jù)庫、面向圖計算的并行圖數(shù)據(jù)庫、分布式KV存數(shù)據(jù)庫,以及面向用戶業(yè)務(wù)的各類工具軟
6、件和庫支持?;赬X平臺,用戶可以以非常低的時間代價構(gòu)建大規(guī)模企業(yè)大數(shù)據(jù)一體 化解決方案。文檔數(shù)據(jù)庫圖片音視頻流式數(shù)據(jù) DB郵件消息多維數(shù)據(jù) GraphDB關(guān)系型數(shù)據(jù)Hbase非關(guān)系型數(shù)據(jù)HDFSDSC龍威集群 存儲(申威國產(chǎn)平臺)圖3-1 : XX數(shù)據(jù)存儲子系統(tǒng)結(jié)構(gòu)圖上圖是XX存儲組件的結(jié)構(gòu)圖,主要包括如下功能組件: 分布式集群存儲:基于對象的高性能分布式文件存儲系統(tǒng)。TBase:分布式 Key-Value數(shù)據(jù)庫。DSQL :分布式關(guān)系數(shù)據(jù)庫。GraphDB :并行圖數(shù)據(jù)庫。分布式集群存儲分布式文件系統(tǒng)分布式集群存儲是一款針對海量數(shù)據(jù)存儲應(yīng)用而設(shè)計 的大規(guī)模通用集群存儲系統(tǒng),采用通用硬件設(shè)備
7、作為基本的 構(gòu)建單元,為應(yīng)用提供全局統(tǒng)一的系統(tǒng)映像和完全POSIX兼容的API接口分布式集群存儲系統(tǒng)采用了存儲服務(wù)器集群和元數(shù)據(jù)服務(wù)器集群通過千兆以太網(wǎng)絡(luò)/萬兆以太網(wǎng)絡(luò)/ Infiniband網(wǎng)絡(luò)構(gòu)建,具備極高的擴展性和可靠性。利用分布式集群存 儲的相關(guān)軟件功能消除集群內(nèi)的單點故障,避免因為故障而 導(dǎo)致服務(wù)中斷或者數(shù)據(jù)丟失等影響,并且打破了傳統(tǒng)存儲系 統(tǒng)架構(gòu)上的限制。其基本架構(gòu)如圖3-2所示。圖3-2 :分布式集群存儲系統(tǒng)架構(gòu)圖3-2 :分布式集群存儲系統(tǒng)架構(gòu)分布式集群存儲為異構(gòu)數(shù)據(jù)提供統(tǒng)一的存儲方案;不僅對大文件應(yīng)用場景提供良 好的性能支持,元數(shù)據(jù)集群、高效檢索、橫向擴展等特性使 得它在復(fù)雜
8、的大數(shù)據(jù)應(yīng)用場景中有更好的表現(xiàn)。除了100%POSIX兼容外,還提供完全的Hadoop API兼容。這意味著Hadoop生態(tài)群的計算框架和組件可以透明運行于分布式集 群存儲之上。分布式集群存儲提供如下關(guān)鍵特性:元數(shù)據(jù)集群多個元數(shù)據(jù)服務(wù)器組成集群提供互備HA及動態(tài)負(fù)載分擔(dān),可有效分載對目錄樹熱點區(qū)域的訪問,同時可在線擴展 對元數(shù)據(jù)高密集型應(yīng)用提供支撐。并發(fā)數(shù)據(jù)恢復(fù)消除傳統(tǒng)RAID恢復(fù)技術(shù)中單盤性能瓶頸,采用多對多 的方式,從所有節(jié)點的所有磁盤并發(fā)進行數(shù)據(jù)恢復(fù),可提供極高的聚合恢復(fù)帶寬,從而有效縮短因設(shè)備出錯導(dǎo)致的全系統(tǒng)降級運行時間。兼容POSIX/Hadoop通過提供hadoop接口,可使數(shù)據(jù)分
9、析直接基于在線生 產(chǎn)環(huán)境進行,避免大量的數(shù)據(jù)遷移操作。動態(tài)擴展&容量均衡分布式集群存儲提供在線的容量及處理能力擴展,包括 數(shù)據(jù)存儲節(jié)點及元數(shù)據(jù)處理節(jié)點,并自動在擴容后對全系統(tǒng) 容量和熱點訪問進行均衡。分布式EC數(shù)據(jù)可靠性方面,分布式集群存儲除了提供副本方式之 外還提供基于 Erasure code 技術(shù)的冗余方式,包括Raid5及N+1等多種策略。其數(shù)據(jù)分布也是跨節(jié)點跨磁盤的。HBase-分布列式數(shù)據(jù)庫HBase是適合大數(shù)據(jù)場景的一款海量分布式列數(shù)據(jù)庫產(chǎn) 品。其架構(gòu)上兼容了Hadoop體系的高可擴展性,可支持大于幾十個節(jié)點,PB存儲規(guī)模的scale-out ;性能上其針對具 體大數(shù)據(jù)應(yīng)
10、用場景進行深度定制和調(diào)優(yōu),尤其對于高吞吐率 入庫和實時檢索場景;功能上除了支持標(biāo)準(zhǔn)的K-V訪問接口之外,XXBase還可較好的兼容 SQL標(biāo)準(zhǔn)及JDBC接口,可以 很好的與既有數(shù)據(jù)分析業(yè)務(wù)對接。尤其在索引性能優(yōu)化及對 后綴和全文索引的支持上XXBase都有顯著優(yōu)勢。圖3-3 : TBase系統(tǒng)架構(gòu)在應(yīng)用場景方面,TBase常被用作全量基礎(chǔ)數(shù)據(jù)的組織和存儲,同時提供對此全量數(shù)據(jù)的實時查詢;此外TBase可兼容傳統(tǒng)數(shù)據(jù)倉庫 OLAP場景,對復(fù)雜SQL分析可提供近實 時的分析性能。從而可同時支持對大數(shù)據(jù)的實時查詢和復(fù)雜 離線分析。TBase底層架構(gòu)在 HDFS和MapReduce之上,功 能層分別提
11、供數(shù)據(jù)壓縮/解壓縮、數(shù)據(jù)導(dǎo)入、索引、計算、 SQL訪問以及訪問控制和應(yīng)用隔離等主要功能。其系統(tǒng)架構(gòu) 如下圖所示。圖3-4 : TBase基于 HBase的優(yōu)化增強 TBase架構(gòu)基 于分布式列存模型進行擴展。其實現(xiàn)參考開源Hbase的技術(shù) 架構(gòu),并在其基礎(chǔ)上針對應(yīng)用場景進行了深度性能調(diào)優(yōu),并 基于業(yè)務(wù)場景的實際需求對功能進行了擴展增強。其優(yōu)化點 涉及從客戶端到底層存儲的各個環(huán)節(jié),如圖3-3所示。TBase提供如下關(guān)鍵特性:SQL實時短查詢對全量數(shù)據(jù)的實時簡單查詢,包括單表多條件的組合查詢SQL長查詢OLAPXXXX大數(shù)據(jù)平臺 技術(shù)白皮書文檔版本號:文檔密級: 編寫人:文檔編號:歸屬部門/項目:
12、編寫日期: 產(chǎn)品部XXXX有限公司修訂記錄:版本號v 修訂人修訂日期修訂描述XX版權(quán)所有XXXX科技有限公司保留所有權(quán)利 版權(quán)聲明:檔著作權(quán)XXXX科技有限公司享有。文中涉及 XXXX科技有限公司的專有信息,未經(jīng)XXXX科技有限公司書面許可,任何單位和個人不得使用和泄漏該文檔以及該文檔包含的 任何圖片、表格、數(shù)據(jù)及其他信息。檔中的信息隨著 XXXX科技有限公司產(chǎn)品和技術(shù)的進步將不斷更新,XXXX科技有限公司不再通知此類信息的更新目錄第 1 章述 3第 2構(gòu)章 系統(tǒng)架 4第 3儲章 數(shù)據(jù)存5分布式集群存儲分布式文件系統(tǒng) 6HBase-分布列式數(shù)據(jù)庫Hive-數(shù)據(jù)倉庫9 GraphDB-大規(guī)模分布式并行圖數(shù)據(jù)庫 12第 4 章線13數(shù) 據(jù) 采 集換15數(shù)據(jù)理.16規(guī)濾17ETL19第 5 章擎21能 21成 21架 23子通 用 算23專用算子及分析模板25第6早高性能高可2929303030313333SQL343535模力35系統(tǒng)能營35系統(tǒng)運境36硬件環(huán)36軟件環(huán)境36參考配置.36第1章產(chǎn)品概述XX大數(shù)據(jù)引擎平臺 UDE是一款大數(shù)據(jù)通用平臺軟件產(chǎn)品,支持海量數(shù)據(jù)的采集、過濾、轉(zhuǎn)換、存儲、搜索、查詢、統(tǒng)計、分析、可視化與安全管理等大數(shù)據(jù)全生命周期管理,各種行業(yè)應(yīng)用和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- (2025)輔警招聘考試試題庫有答案詳解
- 2022年2月馬鞍山市直遴選面試真題附解析
- 2022年2月鞍山市直機關(guān)遴選公務(wù)員面試真題帶詳解
- 2022年2月銀川市直機關(guān)遴選公務(wù)員面試真題附帶題目詳解
- 2022年11月七臺河市稅務(wù)系統(tǒng)遴選面試真題附詳解
- 2025年云南省交通運輸綜合行政執(zhí)法局文山支隊硯山大隊執(zhí)法輔助人員招聘(1人)筆試備考試題附答案詳解(b卷)
- 2024年甘肅陜煤集團韓城煤礦招聘真題附答案詳解(輕巧奪冠)
- 2013樂理試題及答案
- 2025年皖北煤電集團總醫(yī)院招聘護理筆試備考題庫附答案詳解(b卷)
- 25年安全員b證考試試題及答案
- DB31∕T 1148-2019 水量計量差錯的退補水量核算方法
- 《高低壓配電室施工工藝標(biāo)準(zhǔn)》
- 工務(wù)安全與應(yīng)急處理
- 2021熱性驚厥臨床路徑
- 鋼結(jié)構(gòu)雨棚吊裝方案
- GB/Z 44047-2024漂浮式海上風(fēng)力發(fā)電機組設(shè)計要求
- 2024年江蘇省南通市中考地理試題卷(含答案)
- 2024年遼寧省中考數(shù)學(xué)真題卷及答案解析
- 水南公寓(ABC)地塊設(shè)計采購施工(EPC)總承包項目技術(shù)標(biāo)
- 2024-2025學(xué)年八年級語文上冊期末專項復(fù)習(xí):散文閱讀【考點清單】
- 信息工程部崗位職責(zé)表、績效評估表
評論
0/150
提交評論