MPP數據庫對比總結_第1頁
MPP數據庫對比總結_第2頁
MPP數據庫對比總結_第3頁
MPP數據庫對比總結_第4頁
MPP數據庫對比總結_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、概述隨著海量數據問題的出現(xiàn),海量管理能力,多類型,變化快,高可用性,低成本,高 端可擴展性等需求給企業(yè)數據戰(zhàn)略帶來了巨大的挑戰(zhàn)。企業(yè)數據倉庫、數據中心的技術選 型變得尤其重要!所以在選型之前,有必要對目前市場上各種大數據量的解決方案進行分 析。主流分布式并行處理數據庫產品介紹2.1 Greenplum2.1.1 基礎架構Greenplum 是基于 Hadoop 的一款分布式數據庫產品,在處理海量數據方面相比傳統(tǒng)數 據庫有著較大的優(yōu)勢。Greenplum 整體架構如下圖:MasterSeversNetworkSegmentSevers數據存儲MasterSeversNetworkSegmentS

2、evers數據存儲數據加載數據庫由 Mas ter Severs 和 Segmen t Severs 通過 Int erconnect 互聯(lián)組成。Mas ter主機負責:建立與客戶端的連接和管理;SQL的解析并形成執(zhí)行計劃;執(zhí)行計 劃向Segme nt的分發(fā)收集Segment的執(zhí)行結果;Mas ter不存儲業(yè)務數據,只存儲數據字典。Segment主機負責:業(yè)務數據的存儲和存??;用戶查詢SQL的執(zhí)行。2.1.2主要特性Greenplum整體有如下技術特點:Shared-nothing 架構數據庫、硬件資源,節(jié)點之間通過網絡來通信?;?gNe t Soft ware Int erconnec t

3、數據庫的內部通信通過基于超級計算的“軟件Switch內部連接層,基于通用的gNet (GigE, lOGigE) NICs/switches在節(jié)點間傳遞消息和數據,采用高擴展協(xié)議,支持擴展 到1000個以上節(jié)點。并行加載技術利用并行數據流引擎,數據加載完全并行,加載數據可達到4。5T/小時(理想配置)。 并且可以直接通過SQL語句對外部表進行操作支持行、列壓縮存儲技術海量數據庫支持ZLIB和QUICKLZ方式的壓縮,壓縮比可到10:1。壓縮數據不一定會 帶來性能的下降,壓縮表通過利用空閑的CPU資源,而減少I/O資源占用。海量數據庫除支持主流的行存儲模式外,還支持列存儲模式。如果常用的查詢只取

4、表 中少量字段,則列模式效率更高,如查詢需要取表中的大量字段,行模式效率更高。海量數據庫的多種壓縮存儲技術在提高數據存儲能力的同時,也可根據不同應用需求 提高查詢的效率2.1.3主要局限列存儲模式的使用有限制,不支持delete/update操作。用戶不可靈活控制事務的提交,用戶提交的處理將被自動視作整體事務,整體提交, 整體回滾。數據庫需要額外的空間清理維護(vacuum),給數據庫維護帶來額外的工作量。用戶不能靈活分配或控制服務器資源。對磁盤IO有比較高的要求。備份機制還不完善,沒有增量備份。2.2 Vertica2.2.1基礎架構與以往常見的行式關系型數據庫不同,Vertica是一種基于

5、列存儲(Column-Oriented) 的數據庫體系結構,這種存儲機構更適合在數據倉庫存儲和商業(yè)智能方面發(fā)揮特長。常見的RDBMS都是面向行(Row-Oriented Database)存儲的,在對某一列匯總計算 的時候幾乎不可避免的要進行額外的I/O尋址掃描,而面向列存儲的數據庫能夠連續(xù)進行 I/O操作,減少了 I/O開銷,從而達到數量級上的性能提升。同時,Vertica支持海量并行存儲(MPP)架構,實現(xiàn)了完全無共享,因此擴展容易, 可以利用廉價的硬件來獲取高的性能,具有很高的性價比。如下圖,展示的是單節(jié)點上的Vertica的基本體系結構。Vertica體系結構作為關系型數據庫,Vert

6、ica的查詢SQL也是在前端被解析和優(yōu)化的。但與傳統(tǒng)的關 系型數據庫有所不同,Vertica內部是混合存儲的,包括兩種不同的存儲結構:寫優(yōu)化器 (WOS)和讀優(yōu)化器(ROS)。寫優(yōu)化器 WOS (Wri te-Op ti mized St ore)是位于主存儲器上的一個數據結構,用于有效的支持數據插入和更新操作;數據的存 放是無序的,非壓縮的。讀優(yōu)化器 ROS (Read-Op timized St ore)是磁盤物理存儲,存放的是排序和壓縮后的數據庫大塊數據,因此這里的查詢相比于 WOS 性能更好。Tuple Mover 進程是Vertica內部的一個進程,定期的以大數據塊的形式把數據從WO

7、S移到ROS,由于 是對整個WOS操作,TupleMover 一次能非常有效的排序很多記錄,最后批量把它們寫入 磁盤。在Vertica內部,不論是WOS還是ROS都是按列存儲的。2.2.2主要特性Vertica 的關鍵特性:列存儲(Column-orien tation)由于大多數的查詢都是要從磁盤讀取數據,因此可以說 disk I/O 在很大程度上決定 了一個查詢的最終響應時間。壓縮機制(Aggressive Compression)在數據存儲方面, Vertica 利用內部的特定算法對數據進行壓縮處理。這樣的機制會 大大減少disk I/O的時間(D),同時由于Vertica對掃描和聚合等

8、操作也在內部進行了 優(yōu)化,可以直接處理壓縮后的數據,這樣CPU的工作負載(C)也減少了。如上例中的AVG 聚合函數,Vertica是不需要將壓縮數據先做類似解壓這種處理的,因此查詢性能得到優(yōu) 化。讀優(yōu)化存儲(Read-Optimized Storage)Vertica的數據庫存儲容器ROS Container專門為讀操作進行了優(yōu)化設計,且其中的 數據是經過了排序和壓縮處理的,即每個磁盤頁上不會有空白空間,而傳統(tǒng)的數據庫一般 會在每頁上預留空間以便日后的insert操作來使用。4多種排序方式的冗余存儲為了高可用性和備份恢復的需要,Vertica會按照不同的排序方式對數據做冗余存儲, 這不但避免了

9、大量的日志操作,也為查詢帶來了便利。Vertica的查詢優(yōu)化器會自動選擇 最優(yōu)的排序方式來完成特定的查詢。5并行無共享設計Vertica支持完全無共享海量并行存儲(MPP)架構,隨著硬件Server的增加,多個 CPU 并行處理,性能也可以得到線性的擴展,這樣用戶使用廉價的硬件就可以獲得較高的 性能改善。6其他管理特征除了有優(yōu)越的性能以外,Vertica在數據庫管理方面也進行了非常人性化的設計。Vertica Database Designer 是一個界面化的日常管理工具,并且能為用戶作出詳盡 的DB層物理設計方案,大大減少了日后的性能調優(yōu)方面的開銷。Vertica 通過 K-Safety 值

10、的設置,完成了數據庫的備份恢復機制,并保證了高可用性。對于數據庫中的每個表每個列,Vertica都會在至少K+1個節(jié)點上存儲,如果有K個 節(jié)點宕機,依然能夠保證Vertica DB是完整可用的;當損壞的節(jié)點恢復時,Vertica自 動完成節(jié)點間的熱交換,把其他節(jié)點上的正確數據恢復過來。通過這種機制也保證了 Vertcia庫的節(jié)點數目可以自由伸縮而不會影響到數據庫的操作。Vertica通過兩種技術來實現(xiàn)在線的持續(xù)數據裝載而不會影響到數據庫的訪問。Vertica通常運行在快照隔離(Snapshot Isolation)模式下,該模式下查詢讀取的 是最近的一致的數據庫快照,這個快照是不能被并發(fā)的up

11、date或delete操作更改的,因 此查詢操作也不需要占用鎖,這種方式保證了數據裝載(inser t)和其他查詢能互不干擾。 另外,Vertica可以把數據直接裝載到W0S結構中,W0S中的數據是不排序或索引的,所 以裝載速度會很快,然后再由Tuple Mover進程在后臺把數據移入ROS中,由于TupleMover 的操作是大塊讀取(bulk-load)的,所以性能也很好。2.2.3主要局限不支持SQL存儲過程及函數,用戶需通過UDFs (User Defined Function,基于C+) 來自定義函數或過程。軟件授權按原始未經壓縮的裸數據量計算。列存儲的一些劣勢,復雜查詢等性能不理想

12、。對內存有比較高的要求。在國內還沒有成功案例。2.3.1基礎架構SYBASE IQ是Sybase公司推出的特別為數據倉庫設計的關系型數據庫。SYBASE IQ的 架構與大多數關系型數據庫不同,它特別的設計用以支持大量并發(fā)用戶的即席查詢。其設 計與執(zhí)行進程優(yōu)先考慮查詢性能,其次是完成批量數據更新的速度。而傳統(tǒng)關系型數據庫 引擎的設計既考慮在線的事務進程又考慮數據倉庫(而事實上,往往更多的關注事務進程)。Sybase在2010年推出的Sybase IQ 15.3就采用了全共享架構的PlexQ技術,該技 術重新定義了企業(yè)范圍的業(yè)務信息,全共享架構可輕松支持涉及海量數據集、海量并發(fā)用 戶數和獨特工作流

13、程的多種復雜分析樣式,大大增加了其效益。與其他 MPP 解決方案不同, Sybase IQ 的 PlexQ 網格技術能夠動態(tài)管理可輕松擴展并且專用于不同組和流程的一系 列計算與存儲資源中的分析工作量,從而使其能夠以更低的成本更輕松地支持日益增長的 數據量以及快速增長的用戶社區(qū)。Sybase IQ 15.4采用業(yè)內領先的MPP列式數據庫和最先進的數據庫內分析技術,并革 命性地加入MapReduce與Hadoop集成,以應對大數據時代的分析挑戰(zhàn),開啟洞察關鍵業(yè)務 的能力。Sybase IQ 15.4正在打破數據分析的壁壘,徹底改變“大數據分析”領域?;诔墒斓腜lexQ技術構建的Sybase IQ

14、采用下圖所示的三層構架:基本層:數據庫管理系統(tǒng)(DBMS),這是一個全共享MPP分析DBMS引擎,是Sybase IQ 最大的獨特優(yōu)勢。第二層:分析應用程序服務層,其提供C+和Java數據庫內API,并可實現(xiàn)與外部 數據源的集成和聯(lián)邦;包括四種與Hadoop的集成方法?;谶@種PlexQ技術,Sybase IQ 15.4將大數據轉變成可指揮每個人都行動的情報信息, 從而在整個企業(yè)的用戶和業(yè)務流程范圍內輕松具備大數據的分析能力。2.3.2主要特性Sybase IQ(154)的關鍵特性:?更強的數據管理大量增強的功能改善了 Sybase IQ的數據管理、部署和可維護性。更快速的批量加載:批量加載數

15、據通過ODBC和JDBC接口插入到Sybase中,從而實 現(xiàn)具有更高可擴展性的應用程序,同時可極大提高加載性能。更出色的文本壓縮: 更出色地對 VARCHAR、VARBINARY、CHAR 和 BINARY 壓縮可實現(xiàn) 以更高效率、更低成本部署高性能文本分析應用程序,同時極大提高壓縮速率。?豐富的應用程序Sybase IQ 15.4 增加了一系列 API 和工具,用于創(chuàng)建在數據庫內運行的高級分析算 法,并且能通過 PlexQ 網格能充分利用大規(guī)模并行處理的能力。支持自帶Map Reduce的表參數化用戶自定義函數(UDF)這是Sybase IQ的本地應 用程序編程接口,可使應用程序編程人員在

16、Sybase IQ 數據庫服務器內構建和部署 C+ 庫。使用這些 API 可實現(xiàn)專有算法或算法包,安全地位于 Sybase IQ 內,通過在保存于 Sybase IQ 數據庫服務器中的數據附近執(zhí)行,以快 10 倍的速度返回結果。此框架可實現(xiàn) 在 Sybase IQ 中開發(fā)和部署 MapReduce 程序,以分析涉及結構化、半結構化和非結構化 數據格式的超大數據集C+、Map和Reduce算法通過標準SQL加以調用,并且由SybaseIQ強大的查詢引擎自動在PlexQ網格中進行分發(fā)和并行化。Hadoop集成與聯(lián)邦 將基于Hadoop的分析的結果與運行于Sybase IQ中的查詢相 集成。Syba

17、se是唯一一家提供4種不同方法將標準SQL查詢(客戶端聯(lián)邦、ETL處理、數 據聯(lián)邦和查詢聯(lián)邦)中的Hadoop數據和分析與分析數據庫相集成的廠商。Sybase IQ 15.4 充分利用Hadoop來識別海量結構化和非結構化數據集中的相關數據點,然后將Hadoop中 的相關數據點集成到 SybaseIQ 中,以便利用傳統(tǒng)數據和來自其他數據源的結果集進行分 析。預測模型標記語言 (PMML) 支持通過 Zementis 提供的認證插件,自動執(zhí)行使用 業(yè)界標準語言定義在SAS、SPSS、“R”等工具以及其他流行預測工作平臺產品中所創(chuàng)建的 分析模型。充分利用流行的分析工具構建預測模型,自動執(zhí)行在Syb

18、ase IQ中部署的預測 模型,并使用業(yè)界標準語言,以避免形成廠商捆綁?!癛”集成:用戶可使用RJDBC接口,以及流行的開源統(tǒng)計工具“R”查詢Sybase IQ數據庫。此外,用戶還可以將來自Sybase IQ的“R”庫作為SQL查詢中的函數調用加 以執(zhí)行,并返回結果集。? 數據庫內分析庫更新的數據庫內統(tǒng)計和數據挖掘庫(來自Fuzzy ? Logix的DBLytix):在Sybase IQ 內運行的高級分析、統(tǒng)計和數據挖掘算法庫。Sybase IQ 15.4中的更新可使該庫充分利用 一些數據挖掘算法中的MapReduce API進行大規(guī)模并行處理,并且包含多種新函數,例如 支持向量機、神經網絡和

19、Adap tive Boos ting。? 擴展的生態(tài)系統(tǒng)合作伙伴產品可在以下方面提供幫助:Sybase PowerDesigner? 16.1參考架構生成器:可通過在實施Sybase IQ數據倉庫 和數據集市時生成最佳硬件配置,快速實現(xiàn)價值。Sybase Control Center(SCC):改進方面包括大量管理功能,例如過程、函數、UDF(表、 TPF和JavaEE )及文本索引。用戶能夠更輕松地管理SCC中頻繁使用的功能,以及更輕 松地部署內置、外部和文本數據庫內分析。此外該版本還包含了新的SQL執(zhí)行窗口,該窗 口可實現(xiàn)易于測試的特定SQL例程。已通過 SAP?BusinessObje

20、cts?認證:Sybase IQ 15.4 已通過認證,可與 SAP Business Objects Business Intelligence Platform 4.0 和 SAP Business Objects? Data Services 4.0配合使用,以提供豐富的端到端業(yè)務分析框架。2.3.3主要局限Sybase IQ MPP 是 Share-Disk 架構增加硬件,無法線性的提升數據庫性能。列存儲的一些劣勢,裝載速度,復雜查詢等性能不理想。插入操作上表級鎖,影響數據導入時影響表上的并發(fā)操作。(*)2.4 Teradata Aster DataTeradata天睿公司的Aster

21、 Data分析平臺是市場領先的大數據分析解決方案。Ast er Da ta分析平臺嵌入了 MapReduce,對新數據源和多結構數據類型進行更深入的分析 處理,提供具有突破性的性能和可擴展性的分析能力。As ter Da ta解決方案利用Aster Data專利SQL-MapReduce來并行處理數據和應用程序,可在大范圍內提供豐富的分析洞 察力。2.4.1基礎架構TD As ter Data平臺架構如下:其中Ast er Dat abase架構如下:242主要特性TD Aster Data有如下技術特點:Shared-nothing 架構海量數據庫采用最易于擴展的Shared-no thin

22、g架構,每個節(jié)點都有自己的操作系統(tǒng)、 數據庫、硬件資源,節(jié)點之間通過網絡來通信。S Q L - MapReduceSQL-MapReduce是Aster Data公司的專利,在同類技術中(Greenplum)屬于領先地 位。SQL-MapReduce框架可以使數據科學家和商業(yè)分析師對復雜的信息進行快速調查分析, 允許一組關聯(lián)計算機(計算機群集)使用軟件語言(如Java、C#、Python、C+和R)并 行進行程序表達,然后通過標準SQL激活(調用)使用?;贛PP的并行分析平臺第一個大規(guī)模并行分析平臺,借助S Q L -MapReduce支持嵌入式分析應用程序,使 企業(yè)能顯著加快TB乃至PB級數據的處理,為提供新的交互性大數據應用帶來了無數機可視化集成開發(fā)環(huán)境第一個可視化集成開發(fā)環(huán)境

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論