




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Tanzu Greenplum 數(shù)據(jù)平臺(tái)產(chǎn)品介紹Greenplum is the platform that can power your analytics needs now and, in the future.2The Greenplum Analytics Platform2003年Greenplum由Scott Yara和Luke Lonergan成立2005年Greenplum數(shù)據(jù)庫(kù)第一個(gè)版本發(fā)布2010年Greenplum數(shù)據(jù)庫(kù)被EMC收購(gòu), 同年 借助EMC研發(fā)團(tuán)隊(duì)建立中國(guó)研發(fā)中心,負(fù)責(zé)Greenplum產(chǎn)品研發(fā),社區(qū)推 廣工作。截止2020年,國(guó)內(nèi)研發(fā)人數(shù) 達(dá)150+201
2、5年Greenplum正式開源,成為世界上第 一款成熟的開源MPP數(shù)據(jù)庫(kù)2013年P(guān)ivotal 成 立 獨(dú) 立 實(shí) 體 公 司 , Greenplum數(shù)據(jù)庫(kù)從EMC公司獨(dú)立出 來成為Pivotal公司大數(shù)據(jù)產(chǎn)品目前,Greenplum社區(qū)發(fā)展活躍,全球已有來自美國(guó)、中國(guó)、俄羅斯、日本、英國(guó)、德國(guó)、芬蘭、瑞士等國(guó)家的大批貢獻(xiàn)者,其中Greenplum中文社區(qū)尤為活躍,目前約有半數(shù)貢獻(xiàn)來自中國(guó)。全球首個(gè)開源、多云部署的大數(shù)據(jù)平臺(tái)專為高級(jí)分析而打造Gartner全球Top 10 經(jīng)典和實(shí)時(shí)數(shù)據(jù)分析產(chǎn)品中 唯一開源數(shù)據(jù)庫(kù)Tanzu Greenplum產(chǎn)品發(fā)展歷程5BI and ReportingBi
3、g DataFlexible Deployment靈活性使用方便可擴(kuò)展性與云戰(zhàn)略保持一致開源軟件各種數(shù)據(jù)類型可擴(kuò)展性投資可控基于SQL企業(yè)就緒高并發(fā)可擴(kuò)展性Greenplum演進(jìn)過程從傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)到多云分析平臺(tái)隨著各行業(yè)大 數(shù)據(jù)及使用的 不 斷 發(fā) 展 , Greenplum的 功能得到了豐 富,可以滿足 客戶需求并提 供企業(yè)級(jí)開源 分析平臺(tái)客戶需求2015 - nowAppliancesCommodity HWCloud and Virtualisation2011 - 2015till 2010GreenplumGreenplum從Pivotal時(shí)期在國(guó)內(nèi)推廣到廣為人知大致經(jīng)歷了三個(gè)大的
4、版本: Greenplum4.x4.3Postgres8.2 Greenplum5.x,Postgres8.3 Greenplum6.x,Postgres9.4+ 數(shù)據(jù)分析平臺(tái)建設(shè)三個(gè)階段: 面向描述型分析平臺(tái) 面向預(yù)測(cè)型分析平臺(tái) 面向運(yùn)營(yíng)型分析平臺(tái)數(shù)據(jù)均勻分布是MPP數(shù)據(jù)庫(kù)并行 處理實(shí)現(xiàn)高性能的充分條件Greenplum數(shù)據(jù)庫(kù)提供了Hash算法、Random、復(fù)制的數(shù)據(jù)分布 機(jī)制確保:數(shù)據(jù)均勻分布在每一塊磁盤上面發(fā)揮每一塊磁盤性能,從根本上 解決I/O瓶頸實(shí)例1實(shí)例2實(shí)例3實(shí)例4實(shí)例5實(shí)例6少數(shù)字段查詢,大 幅節(jié)省I/O操作大數(shù)據(jù)量頻繁訪問,性能提升30%以上Column1Column2Co
5、lumn3Row 1Row 2Row 3更新速度快大多數(shù)字段頻繁查詢隨機(jī)行訪問較多行式存儲(chǔ)列式存儲(chǔ)TABLE SALESJun列式存儲(chǔ)行式存儲(chǔ)Year - 1Year - 2外部HDFS或AWS S3存儲(chǔ)NovDecJulAugSepOctGreenplum 多 態(tài)存儲(chǔ)特性按照應(yīng)用類型設(shè)計(jì)存儲(chǔ) 模式。最細(xì)粒度到分區(qū),實(shí)現(xiàn)同一張表多種存 儲(chǔ)模式達(dá)到最優(yōu)化訪問性能傳統(tǒng)數(shù)據(jù)庫(kù)SQL標(biāo)準(zhǔn)的關(guān)系型數(shù)據(jù)庫(kù),支持ANSI SQL標(biāo)準(zhǔn)SQL-92, SQL-99, SQL-2003,SQL-2008,SQL-2011全面集成PostgreSQL 9.x 功能支持JSON、支持XML支持遞歸查詢Raster P
6、ostGIS(柵格)支持范圍、列表等類型的分區(qū),而且相比傳統(tǒng)的數(shù)據(jù)分區(qū)增加以下特 點(diǎn):支持多層次數(shù)據(jù)分區(qū)功能,范圍-范圍、范圍-列表、列表-列表、列表-范 圍等各種組合在分區(qū)一級(jí)指定存儲(chǔ)模式,目前支持行式、列式、Hadoop、云存儲(chǔ)等多種形式在分區(qū)一級(jí)指定壓縮方式支持BTree、Bitmap、地理信息索引(GiST)等多種類型的索引集成PostgreSQL 功能內(nèi)置分區(qū)、索引特性2011遵循 ANSI SQL 標(biāo)準(zhǔn)Greenplum 壓縮算法:Zlib1-9,壓縮比高,占用CPU資源較 多,適用于CPU計(jì)算能力較強(qiáng)的場(chǎng)景QuickLZ,壓縮比低,占用CPU資源較 少,適用于CPU計(jì)算能力相對(duì)較
7、弱的場(chǎng) 景Greenplum 6以后支持zstd壓縮算法,提供更快的壓縮解壓性能 壓縮比依賴于壓縮算法和數(shù)據(jù)內(nèi)容,針對(duì)移動(dòng)信令、話單、點(diǎn)擊流數(shù)據(jù)壓縮比可以達(dá)到20倍以上 無(wú)論哪種存儲(chǔ)模式,均支持壓縮,一張 表的不同列支持不同的壓縮算法Scatter-Gather Streaming提供性能線性擴(kuò)張支持大批量數(shù)據(jù)加載和持續(xù)化的數(shù)據(jù)加載支持GBK/UTF8/ISO8859等字符集間的自動(dòng)轉(zhuǎn)換支持文本文件、JSON、XML、HDFS、數(shù)據(jù)庫(kù)等多種 格式數(shù)據(jù)加載,支持Zip等壓縮數(shù)據(jù)文件加載每個(gè)Rack(16節(jié)點(diǎn)),每小時(shí)16TB加載性能Greenplum Scatter-Gather Streami
8、ngXX 銀行數(shù)據(jù)加載測(cè)試結(jié)果GreenplumMADlib是2011年開始,UC伯克利大學(xué)產(chǎn)研結(jié)合項(xiàng)目Greenplum 集成的基于機(jī)器學(xué)習(xí)及 人工智能分析的算法包集成大量的基于傳統(tǒng)數(shù)學(xué)分析統(tǒng)計(jì)的 算法、圖計(jì)算的算法以及一些常見的 機(jī)器學(xué)習(xí)的算法。機(jī)器學(xué)習(xí)方面:監(jiān)督學(xué)習(xí)算法,比如支持向量機(jī)回歸類的算法,比如邏輯回歸、線性回 歸、聚類樹型模型,比如隨機(jī)森林、決策樹等Graph 處理方面,比如最短路徑, 圖形直徑等算法此外還庫(kù)內(nèi)集成一些效用函數(shù)、線 性求解,或傳統(tǒng)的統(tǒng)計(jì)分析類的匯 總函數(shù)、統(tǒng)計(jì)分析函數(shù)、交叉驗(yàn)證 選型函數(shù)等Generalized Linear Models(廣義 線性模型)Lin
9、ear RegressionLogistic RegressionMultinomial Logistic RegressionOrdinal RegressionCox-Proportional HazardsRegressionElastic Net RegularizationRobust Variance (Huber-White), Clustered Variance, Marginal EffectsOther Machine Learning Algorithms(其他ML算法)Principal Component Analysis (PCA)Association Rule
10、s (Apriori)Topic Modeling (Parallel LDA)Decision TreesRandom ForestConditional Random Field (CRF)Clustering (K-means)Cross ValidationNave BayesSupport Vector Machines(SVM)Prediction MetricsK-Nearest NeighborsDescriptive Statistics(描述統(tǒng)計(jì)) Sketch-Based EstimatorsCountMin (Cormode-Muth)FM (Flajolet-Mart
11、in)MFV (Most Frequent Values) Correlation and CovarianceSummaryTime Series(時(shí)間序列)ARIMAGraph(圖計(jì)算)All pairs shortest pathBreadth first traversalConnected componentsMultiple graph measuresPageRankSingle source shortest pathUtility Modules(實(shí)用模塊)Array and Matrix OperationsSparse VectorsRandom SamplingProb
12、ability FunctionsData PreparationPMML ExportConjugate GradientStemmingSessionizationPivotPath FunctionsEncoding Categorical VariablesLinear Systems(線性系統(tǒng))Sparse and Dense SolversLinear AlgebraMatrix Factorization(矩陣分解)Singular Value Decomposition(SVD)Low RankInferential Statistics(推論統(tǒng)計(jì))Hypothesis Tes
13、tsConnection 級(jí)控制同時(shí)有多少用戶可以接入在多個(gè)集群間實(shí)現(xiàn)負(fù)載均 衡Session 級(jí)定義Resource Group實(shí)現(xiàn)資源量化控制每個(gè)用戶綁定Resource Group,控制查詢并發(fā)及 查詢資源成本占比Query(SQL) 級(jí)在SQL語(yǔ)句執(zhí)行前,動(dòng)態(tài) 設(shè)置所屬資源組,實(shí)現(xiàn)資 源的靈活調(diào)配用于優(yōu)待特定查詢,從而 縮短其運(yùn)行時(shí)間Connection PoolingWorkload Manager(Rule)Resource Group輸出 結(jié)果SQL請(qǐng)求傳統(tǒng)倉(cāng)庫(kù)架構(gòu)傳統(tǒng)的數(shù)據(jù)庫(kù)產(chǎn)品停機(jī)時(shí)間長(zhǎng)數(shù)據(jù)重分布無(wú)法根據(jù)系統(tǒng)負(fù)載自主安排GreenplumGreenplum 數(shù)據(jù)倉(cāng)庫(kù)增加節(jié)點(diǎn)可
14、線性增加存儲(chǔ)、查詢和加載性能在線擴(kuò)容,對(duì)外數(shù)據(jù)服務(wù)不中斷數(shù)據(jù)自動(dòng)在數(shù)據(jù)節(jié)點(diǎn)上重新分布數(shù)據(jù)重分布可根據(jù)系統(tǒng)負(fù)載自主安排XX 銀行在線線性擴(kuò)展測(cè)試結(jié)果結(jié)論:1.本次測(cè)試展示了4節(jié)點(diǎn)-8節(jié)點(diǎn)-16節(jié)點(diǎn)-32節(jié)點(diǎn)的擴(kuò)展過程,擴(kuò)容后數(shù)據(jù)充分不是完全在線的2.從16節(jié)點(diǎn)-32節(jié)點(diǎn)時(shí),30TB壓縮數(shù) 據(jù)擴(kuò)容+數(shù)據(jù)重分布3小時(shí)全部完成,GP擴(kuò)展比其它類型數(shù)據(jù)庫(kù)更快捷PXF通過REST API將查詢信息發(fā)送到PXF服務(wù)器 數(shù)據(jù)返回給Greenplum并呈現(xiàn)給用戶從異構(gòu)數(shù)據(jù)源向Greenplum加載或卸載數(shù)據(jù)從Greenplum中通過標(biāo)準(zhǔn)SQL查詢數(shù)據(jù)而不需要將它們?cè)诩褐形锘С侄喾N數(shù)據(jù)格式,可以從 S3,HD
15、FS,MySQL,Oracle,DB2, FLATFILE,HBASE、HDFS、HIVE等等PXF技術(shù)特性支持利用謂詞下推實(shí)現(xiàn)數(shù)據(jù)過濾支持Greenplum查詢優(yōu)化器利用PXF外部表的信息生成優(yōu)化的查詢 計(jì)劃可擴(kuò)展的API框架讓用戶可以開發(fā)自己的數(shù)據(jù)連接器以訪問他們 自己的數(shù)據(jù)源和數(shù)據(jù)格式PXF是Greenplum實(shí)現(xiàn)數(shù)據(jù)聯(lián)邦的關(guān)鍵接口Greenplum集群用戶可以通過外部表功能,查詢外部表:GreenplumX86服務(wù)器服務(wù)器硬盤Raid 5保護(hù)更換新盤后Raid 5 data 自動(dòng)重 建硬件組件冗余保護(hù)(Fan, PSU)網(wǎng)絡(luò)交換機(jī)部署2臺(tái)網(wǎng)絡(luò)交換機(jī)正常情況下,2臺(tái)交換機(jī)同時(shí)工作,負(fù)載均衡異常情況下,如1臺(tái)交換機(jī)故障,另外1臺(tái)將進(jìn)行冗 余保護(hù)Greenplum數(shù)據(jù)庫(kù)控制節(jié)點(diǎn)部署2臺(tái)控制節(jié)點(diǎn)服務(wù)器,以Active-Standby方式 構(gòu)成Linux HA集群Active服務(wù)器和 Standby服務(wù)器自動(dòng)數(shù)據(jù)同步Active服務(wù)器失敗時(shí)切換到Standby服務(wù)器Greenplum 6中將增加Master auto failover功能Greenplum數(shù)據(jù)庫(kù)數(shù)據(jù)節(jié)點(diǎn)采用鏡像技術(shù)支持節(jié)點(diǎn)兩兩互備(部署簡(jiǎn)單)和實(shí)例交叉互 備(性能影響最?。﹥煞N模式17Tanzu Greenplum全面的業(yè)務(wù)交付能力Where to Start客戶可選擇的虛擬化平臺(tái)部署在Gr
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療器械買賣合同協(xié)議書
- 商品房產(chǎn)購(gòu)銷合同
- 2025年春人教版(2024)小學(xué)數(shù)學(xué)一年級(jí)下冊(cè)教學(xué)計(jì)劃
- 2021電力工程繼電保護(hù)及接線施工作業(yè)指導(dǎo)書
- 醫(yī)院醫(yī)療器械買賣合同
- 2025年南昌年貨運(yùn)從業(yè)資格證考試試題題庫(kù)
- 承包攪拌站運(yùn)輸合同
- 2025年鷹潭貨運(yùn)資格證培訓(xùn)考試題
- 戶外廣告發(fā)布合同
- 2025年遵義貨運(yùn)從業(yè)資格考試題
- 冷作工工藝與技能訓(xùn)練(第三版)教學(xué)課件匯總整本書電子教案全套教學(xué)教程完整版電子教案(最新)
- 圖解2022年新制訂全面推進(jìn)“大思政課”建設(shè)的工作方案學(xué)習(xí)解讀《全面推進(jìn)“大思政課”建設(shè)的工作方案》課件
- 《馬克思主義與社會(huì)科學(xué)方法論》課件第一講馬克思主義與社會(huì)科學(xué)方法論導(dǎo)論
- 港華紫荊產(chǎn)品一覽
- 【保密工作檔案】外場(chǎng)試驗(yàn)保密工作方案
- 《民法典》婚姻家庭編解讀之夫妻個(gè)人財(cái)產(chǎn)第1063條PPT課件
- 2 遺傳圖繪制
- 人教部編版二年級(jí)語(yǔ)文下冊(cè)第六單元15古詩(shī)二首精品教案(集體備課)
- 三年級(jí)下冊(cè)數(shù)學(xué)教案-2.1速度、時(shí)間、路程-滬教版
- 400噸汽車吊性能表
- 墻面板安裝爬梯驗(yàn)算
評(píng)論
0/150
提交評(píng)論