MPP數(shù)據(jù)庫對比分析_第1頁
MPP數(shù)據(jù)庫對比分析_第2頁
MPP數(shù)據(jù)庫對比分析_第3頁
MPP數(shù)據(jù)庫對比分析_第4頁
MPP數(shù)據(jù)庫對比分析_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、1 概述隨著海量數(shù)據(jù)問題的出現(xiàn),海量管理能力,多類型,變化快,高可用性,低成本,高端可擴展性等需求給企業(yè)數(shù)據(jù)戰(zhàn)略帶來了巨大的挑戰(zhàn)。企業(yè)數(shù)據(jù)倉庫、數(shù)據(jù)中心的技術(shù)選型變得尤其重要!所以在選型之前,有必要對目前市場上各種大數(shù)據(jù)量的解決方案進行分析。2 主流分布式并行處理數(shù)據(jù)庫產(chǎn)品介紹2.1 Greenplum2.1.1 基礎(chǔ)架構(gòu)Greenplum是基于Hadoop的一款分布式數(shù)據(jù)庫產(chǎn)品,在處理海量數(shù)據(jù)方面相比傳統(tǒng)數(shù)據(jù)庫有著較大的優(yōu)勢。Greenplum整體架構(gòu)如下圖:Network Interconnect.MasterSevers查詢解析、優(yōu)化、分發(fā)SegmentSevers查詢處理、數(shù)據(jù)存儲SQ

2、LMapReduceExternalSources數(shù)據(jù)加載SQLMapReduce.SQLMapReduce數(shù)據(jù)庫由Master Severs和Segment Severs通過Interconnect互聯(lián)組成。Master主機負(fù)責(zé):建立與客戶端的連接和管理;SQL的解析并形成執(zhí)行計劃;執(zhí)行計劃向Segment的分發(fā)收集Segment的執(zhí)行結(jié)果;Master不存儲業(yè)務(wù)數(shù)據(jù),只存儲數(shù)據(jù)字典。Segment主機負(fù)責(zé):業(yè)務(wù)數(shù)據(jù)的存儲和存??;用戶查詢SQL的執(zhí)行。2.1.2 主要特性Greenplum整體有如下技術(shù)特點:u Shared-nothing架構(gòu)海量數(shù)據(jù)庫采用最易于擴展的Shared-noth

3、ing架構(gòu),每個節(jié)點都有自己的操作系統(tǒng)、數(shù)據(jù)庫、硬件資源,節(jié)點之間通過網(wǎng)絡(luò)來通信。u 基于gNet Software Interconnect數(shù)據(jù)庫的內(nèi)部通信通過基于超級計算的“軟件Switch”內(nèi)部連接層,基于通用的gNet (GigE, 10GigE) NICs/switches在節(jié)點間傳遞消息和數(shù)據(jù),采用高擴展協(xié)議,支持?jǐn)U展到1000個以上節(jié)點。u 并行加載技術(shù)利用并行數(shù)據(jù)流引擎,數(shù)據(jù)加載完全并行,加載數(shù)據(jù)可達(dá)到4。5T/小時(理想配置)。并且可以直接通過SQL語句對外部表進行操作u 支持行、列壓縮存儲技術(shù)海量數(shù)據(jù)庫支持ZLIB和QUICKLZ方式的壓縮,壓縮比可到10:1。壓縮數(shù)據(jù)不一

4、定會帶來性能的下降,壓縮表通過利用空閑的CPU資源,而減少I/O資源占用。海量數(shù)據(jù)庫除支持主流的行存儲模式外,還支持列存儲模式。如果常用的查詢只取表中少量字段,則列模式效率更高,如查詢需要取表中的大量字段,行模式效率更高。海量數(shù)據(jù)庫的多種壓縮存儲技術(shù)在提高數(shù)據(jù)存儲能力的同時,也可根據(jù)不同應(yīng)用需求提高查詢的效率2.1.3 主要局限l 列存儲模式的使用有限制,不支持delete/update操作。l 用戶不可靈活控制事務(wù)的提交,用戶提交的處理將被自動視作整體事務(wù),整體提交,整體回滾。l 數(shù)據(jù)庫需要額外的空間清理維護(vacuum),給數(shù)據(jù)庫維護帶來額外的工作量。l 用戶不能靈活分配或控制服務(wù)器資源

5、。l 對磁盤IO有比較高的要求。l 備份機制還不完善,沒有增量備份。2.2 Vertica2.2.1 基礎(chǔ)架構(gòu)與以往常見的行式關(guān)系型數(shù)據(jù)庫不同,Vertica 是一種基于列存儲(Column-Oriented)的數(shù)據(jù)庫體系結(jié)構(gòu),這種存儲機構(gòu)更適合在數(shù)據(jù)倉庫存儲和商業(yè)智能方面發(fā)揮特長。常見的RDBMS 都是面向行(Row-Oriented Database)存儲的,在對某一列匯總計算的時候幾乎不可避免的要進行額外的I/O 尋址掃描,而面向列存儲的數(shù)據(jù)庫能夠連續(xù)進行I/O 操作,減少了I/O 開銷,從而達(dá)到數(shù)量級上的性能提升。同時,Vertica 支持海量并行存儲(MPP)架構(gòu),實現(xiàn)了完全無共享,

6、因此擴展容易,可以利用廉價的硬件來獲取高的性能,具有很高的性價比。如下圖,展示的是單節(jié)點上的Vertica 的基本體系結(jié)構(gòu)。Vertica 體系結(jié)構(gòu)作為關(guān)系型數(shù)據(jù)庫,Vertica 的查詢SQL 也是在前端被解析和優(yōu)化的。但與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫有所不同,Vertica內(nèi)部是混合存儲的,包括兩種不同的存儲結(jié)構(gòu):寫優(yōu)化器(WOS)和讀優(yōu)化器(ROS)。(1) 寫優(yōu)化器WOS(Write-Optimized Store)是位于主存儲器上的一個數(shù)據(jù)結(jié)構(gòu),用于有效的支持?jǐn)?shù)據(jù)插入和更新操作;數(shù)據(jù)的存放是無序的,非壓縮的。(2) 讀優(yōu)化器ROS(Read-Optimized Store)是磁盤物理存儲,存放

7、的是排序和壓縮后的數(shù)據(jù)庫大塊數(shù)據(jù),因此這里的查詢相比于WOS 性能更好。(3) Tuple Mover 進程是Vertica 內(nèi)部的一個進程,定期的以大數(shù)據(jù)塊的形式把數(shù)據(jù)從WOS 移到ROS,由于是對整個WOS 操作,TupleMover 一次能非常有效的排序很多記錄,最后批量把它們寫入磁盤。在Vertica 內(nèi)部,不論是WOS 還是ROS 都是按列存儲的。2.2.2 主要特性Vertica 的關(guān)鍵特性:1 列存儲(Column-orientation)由于大多數(shù)的查詢都是要從磁盤讀取數(shù)據(jù),因此可以說disk I/O 在很大程度上決定了一個查詢的最終響應(yīng)時間。2 壓縮機制(Aggressive

8、 Compression)在數(shù)據(jù)存儲方面,Vertica 利用內(nèi)部的特定算法對數(shù)據(jù)進行壓縮處理。這樣的機制會大大減少disk I/O 的時間(D),同時由于Vertica 對掃描和聚合等操作也在內(nèi)部進行了優(yōu)化,可以直接處理壓縮后的數(shù)據(jù),這樣CPU 的工作負(fù)載(C)也減少了。如上例中的AVG 聚合函數(shù),Vertica 是不需要將壓縮數(shù)據(jù)先做類似解壓這種處理的,因此查詢性能得到優(yōu)化。3 讀優(yōu)化存儲(Read-Optimized Storage)Vertica 的數(shù)據(jù)庫存儲容器ROS Container 專門為讀操作進行了優(yōu)化設(shè)計,且其中的數(shù)據(jù)是經(jīng)過了排序和壓縮處理的,即每個磁盤頁上不會有空白空間,

9、而傳統(tǒng)的數(shù)據(jù)庫一般會在每頁上預(yù)留空間以便日后的insert 操作來使用。4 多種排序方式的冗余存儲為了高可用性和備份恢復(fù)的需要,Vertica 會按照不同的排序方式對數(shù)據(jù)做冗余存儲,這不但避免了大量的日志操作,也為查詢帶來了便利。Vertica 的查詢優(yōu)化器會自動選擇最優(yōu)的排序方式來完成特定的查詢。5 并行無共享設(shè)計Vertica 支持完全無共享海量并行存儲(MPP)架構(gòu),隨著硬件Server 的增加,多個CPU 并行處理,性能也可以得到線性的擴展,這樣用戶使用廉價的硬件就可以獲得較高的性能改善。6 其他管理特征除了有優(yōu)越的性能以外,Vertica 在數(shù)據(jù)庫管理方面也進行了非常人性化的設(shè)計。V

10、ertica Database Designer 是一個界面化的日常管理工具,并且能為用戶作出詳盡的DB 層物理設(shè)計方案,大大減少了日后的性能調(diào)優(yōu)方面的開銷。Vertica 通過K-Safety 值的設(shè)置,完成了數(shù)據(jù)庫的備份恢復(fù)機制,并保證了高可用性。對于數(shù)據(jù)庫中的每個表每個列,Vertica 都會在至少K+1 個節(jié)點上存儲,如果有K 個節(jié)點宕機,依然能夠保證Vertica DB 是完整可用的;當(dāng)損壞的節(jié)點恢復(fù)時,Vertica 自動完成節(jié)點間的熱交換,把其他節(jié)點上的正確數(shù)據(jù)恢復(fù)過來。通過這種機制也保證了Vertcia 庫的節(jié)點數(shù)目可以自由伸縮而不會影響到數(shù)據(jù)庫的操作。Vertica 通過兩種

11、技術(shù)來實現(xiàn)在線的持續(xù)數(shù)據(jù)裝載而不會影響到數(shù)據(jù)庫的訪問。Vertica 通常運行在快照隔離(Snapshot Isolation)模式下,該模式下查詢讀取的是最近的一致的數(shù)據(jù)庫快照,這個快照是不能被并發(fā)的update 或delete 操作更改的,因此查詢操作也不需要占用鎖,這種方式保證了數(shù)據(jù)裝載(insert)和其他查詢能互不干擾。另外,Vertica 可以把數(shù)據(jù)直接裝載到WOS 結(jié)構(gòu)中,WOS 中的數(shù)據(jù)是不排序或索引的,所以裝載速度會很快,然后再由Tuple Mover 進程在后臺把數(shù)據(jù)移入ROS 中,由于TupleMover 的操作是大塊讀取(bulk-load)的,所以性能也很好。2.2.

12、3 主要局限l 不支持SQL存儲過程及函數(shù),用戶需通過UDFs(User Defined Function,基于C+)來自定義函數(shù)或過程。l 軟件授權(quán)按原始未經(jīng)壓縮的裸數(shù)據(jù)量計算。l 列存儲的一些劣勢,復(fù)雜查詢等性能不理想。l 對內(nèi)存有比較高的要求。l 在國內(nèi)還沒有成功案例。2.3 Sybase IQ(15.4)2.3.1 基礎(chǔ)架構(gòu)SYBASE IQ是Sybase公司推出的特別為數(shù)據(jù)倉庫設(shè)計的關(guān)系型數(shù)據(jù)庫。SYBASE IQ的架構(gòu)與大多數(shù)關(guān)系型數(shù)據(jù)庫不同,它特別的設(shè)計用以支持大量并發(fā)用戶的即席查詢。其設(shè)計與執(zhí)行進程優(yōu)先考慮查詢性能,其次是完成批量數(shù)據(jù)更新的速度。而傳統(tǒng)關(guān)系型數(shù)據(jù)庫引擎的設(shè)計既考

13、慮在線的事務(wù)進程又考慮數(shù)據(jù)倉庫(而事實上,往往更多的關(guān)注事務(wù)進程)。Sybase在2010年推出的Sybase IQ 15.3就采用了全共享架構(gòu)的 PlexQ 技術(shù),該技術(shù)重新定義了企業(yè)范圍的業(yè)務(wù)信息,全共享架構(gòu)可輕松支持涉及海量數(shù)據(jù)集、海量并發(fā)用戶數(shù)和獨特工作流程的多種復(fù)雜分析樣式,大大增加了其效益。與其他 MPP 解決方案不同,Sybase IQ 的 PlexQ 網(wǎng)格技術(shù)能夠動態(tài)管理可輕松擴展并且專用于不同組和流程的一系列計算與存儲資源中的分析工作量,從而使其能夠以更低的成本更輕松地支持日益增長的數(shù)據(jù)量以及快速增長的用戶社區(qū)。Sybase IQ 15.4采用業(yè)內(nèi)領(lǐng)先的MPP列式數(shù)據(jù)庫和最先

14、進的數(shù)據(jù)庫內(nèi)分析技術(shù),并革命性地加入MapReduce與Hadoop集成,以應(yīng)對大數(shù)據(jù)時代的分析挑戰(zhàn),開啟洞察關(guān)鍵業(yè)務(wù)的能力。Sybase IQ 15.4正在打破數(shù)據(jù)分析的壁壘,徹底改變“大數(shù)據(jù)分析”領(lǐng)域。基于成熟的PlexQ 技術(shù)構(gòu)建的Sybase IQ 采用下圖所示的三層構(gòu)架:基本層:數(shù)據(jù)庫管理系統(tǒng) (DBMS),這是一個全共享 MPP 分析 DBMS 引擎,是Sybase IQ 最大的獨特優(yōu)勢。第二層:分析應(yīng)用程序服務(wù)層,其提供 C+ 和 Java 數(shù)據(jù)庫內(nèi) API,并可實現(xiàn)與外部數(shù)據(jù)源的集成和聯(lián)邦;包括四種 與Hadoop 的集成方法。頂層:Sybase IQ 生態(tài)系統(tǒng),由四個強大且不

15、同的合作伙伴和認(rèn)證 ISV 應(yīng)用程序組成?;谶@種 PlexQ 技術(shù),Sybase IQ 15.4 將大數(shù)據(jù)轉(zhuǎn)變成可指揮每個人都行動的情報信息,從而在整個企業(yè)的用戶和業(yè)務(wù)流程范圍內(nèi)輕松具備大數(shù)據(jù)的分析能力。2.3.2 主要特性Sybase IQ(15.4)的關(guān)鍵特性:1.  更強的數(shù)據(jù)管理大量增強的功能改善了Sybase IQ 的數(shù)據(jù)管理、部署和可維護性。更快速的批量加載: 批量加載數(shù)據(jù)通過ODBC 和 JDBC 接口插入到Sybase中,從而實現(xiàn)具有更高可擴展性的應(yīng)用程序,同時可極大提高加載性能。更出色的文本壓縮: 更出色地對 VARCHAR、VARBINARY、CHAR 和 BI

16、NARY 壓縮可實現(xiàn)以更高效率、更低成本部署高性能文本分析應(yīng)用程序,同時極大提高壓縮速率。2.  豐富的應(yīng)用程序Sybase IQ 15.4 增加了一系列 API 和工具,用于創(chuàng)建在數(shù)據(jù)庫內(nèi)運行的高級分析算法,并且能通過 PlexQ 網(wǎng)格能充分利用大規(guī)模并行處理的能力。支持自帶Map Reduce的表參數(shù)化用戶自定義函數(shù)(UDF)這是 Sybase IQ 的本地應(yīng)用程序編程接口,可使應(yīng)用程序編程人員在 Sybase IQ 數(shù)據(jù)庫服務(wù)器內(nèi)構(gòu)建和部署 C+ 庫。使用這些 API 可實現(xiàn)專有算法或算法包,安全地位于 Sybase IQ 內(nèi),通過在保存于 Sybase IQ 數(shù)據(jù)庫服務(wù)器中的

17、數(shù)據(jù)附近執(zhí)行,以快 10 倍的速度返回結(jié)果。此框架可實現(xiàn)在 Sybase IQ 中開發(fā)和部署 MapReduce 程序,以分析涉及結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)格式的超大數(shù)據(jù)集。C+、Map 和 Reduce 算法通過標(biāo)準(zhǔn) SQL 加以調(diào)用,并且由 Sybase IQ 強大的查詢引擎自動在 PlexQ 網(wǎng)格中進行分發(fā)和并行化。Hadoop集成與聯(lián)邦將基于Hadoop的分析的結(jié)果與運行于 Sybase IQ 中的查詢相集成。Sybase 是唯一一家提供4種不同方法將標(biāo)準(zhǔn)SQL查詢(客戶端聯(lián)邦、ETL處理、數(shù)據(jù)聯(lián)邦和查詢聯(lián)邦)中的 Hadoop 數(shù)據(jù)和分析與分析數(shù)據(jù)庫相集成的廠商。Sybase I

18、Q 15.4 充分利用Hadoop來識別海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集中的相關(guān)數(shù)據(jù)點,然后將 Hadoop 中的相關(guān)數(shù)據(jù)點集成到 Sybase IQ 中,以便利用傳統(tǒng)數(shù)據(jù)和來自其他數(shù)據(jù)源的結(jié)果集進行分析。預(yù)測模型標(biāo)記語言 (PMML) 支持通過 Zementis 提供的認(rèn)證插件,自動執(zhí)行使用業(yè)界標(biāo)準(zhǔn)語言定義在SAS、SPSS、“R”等工具以及其他流行預(yù)測工作平臺產(chǎn)品中所創(chuàng)建的分析模型。充分利用流行的分析工具構(gòu)建預(yù)測模型,自動執(zhí)行在Sybase IQ中部署的預(yù)測模型,并使用業(yè)界標(biāo)準(zhǔn)語言,以避免形成廠商捆綁?!癛”集成: 用戶可使用 RJDBC 接口,以及流行的開源統(tǒng)計工具“R”查詢Sybase IQ

19、 數(shù)據(jù)庫。此外,用戶還可以將來自 Sybase IQ 的“R”庫作為SQL查詢中的函數(shù)調(diào)用加以執(zhí)行,并返回結(jié)果集。3.  數(shù)據(jù)庫內(nèi)分析庫更新的數(shù)據(jù)庫內(nèi)統(tǒng)計和數(shù)據(jù)挖掘庫(來自Fuzzy Logix 的 DBLytix): 在 Sybase IQ 內(nèi)運行的高級分析、統(tǒng)計和數(shù)據(jù)挖掘算法庫。Sybase IQ 15.4中的更新可使該庫充分利用一些數(shù)據(jù)挖掘算法中的MapReduce API進行大規(guī)模并行處理,并且包含多種新函數(shù),例如支持向量機、神經(jīng)網(wǎng)絡(luò)和Adaptive Boosting。4.  擴展的生態(tài)系統(tǒng)Sybase IQ 還非常適合面向大數(shù)據(jù)分析的端到端全面解決方案。重要的工

20、具和互補的合作伙伴產(chǎn)品可在以下方面提供幫助:Sybase PowerDesigner® 16.1 參考架構(gòu)生成器: 可通過在實施 Sybase IQ 數(shù)據(jù)倉庫和數(shù)據(jù)集市時生成最佳硬件配置,快速實現(xiàn)價值。Sybase Control Center(SCC) : 改進方面包括大量管理功能,例如過程、函數(shù)、UDF(表、TPF 和JavaEE )及文本索引。用戶能夠更輕松地管理 SCC 中頻繁使用的功能,以及更輕松地部署內(nèi)置、外部和文本數(shù)據(jù)庫內(nèi)分析。此外該版本還包含了新的SQL 執(zhí)行窗口,該窗口可實現(xiàn)易于測試的特定 SQL 例程。已通過 SAP®BusinessObjects 認(rèn)證

21、: Sybase IQ 15.4已通過認(rèn)證,可與SAP Business Objects Business Intelligence Platform 4.0 和SAP Business Objects  Data Services 4.0配合使用,以提供豐富的端到端業(yè)務(wù)分析框架。2.3.3 主要局限l Sybase IQ MPP是Share-Disk 架構(gòu)l 增加硬件,無法線性的提升數(shù)據(jù)庫性能。l 列存儲的一些劣勢,裝載速度,復(fù)雜查詢等性能不理想。l 插入操作上表級鎖,影響數(shù)據(jù)導(dǎo)入時影響表上的并發(fā)操作。(*)2.4 Teradata Aster DataTeradata 天睿公司的

22、 Aster Data 分析平臺是市場領(lǐng)先的大數(shù)據(jù)分析解決方案。Aster Data 分析平臺嵌入了 MapReduce,對新數(shù)據(jù)源和多結(jié)構(gòu)數(shù)據(jù)類型進行更深入的分析處理,提供具有突破性的性能和可擴展性的分析能力。Aster Data 解決方案利用 Aster Data 專利 SQL-MapReduce 來并行處理數(shù)據(jù)和應(yīng)用程序,可在大范圍內(nèi)提供豐富的分析洞察力。2.4.1 基礎(chǔ)架構(gòu)TD Aster Data平臺架構(gòu)如下:其中Aster Database架構(gòu)如下:2.4.2 主要特性TD Aster Data有如下技術(shù)特點:u Shared-nothing架構(gòu)海量數(shù)據(jù)庫采用最易于擴展的Share

23、d-nothing架構(gòu),每個節(jié)點都有自己的操作系統(tǒng)、數(shù)據(jù)庫、硬件資源,節(jié)點之間通過網(wǎng)絡(luò)來通信。u S Q L MapReduceSQL-MapReduce 是Aster Data公司的專利,在同類技術(shù)中(Greenplum)屬于領(lǐng)先地位。SQL-MapReduce 框架可以使數(shù)據(jù)科學(xué)家和商業(yè)分析師對復(fù)雜的信息進行快速調(diào)查分析,允許一組關(guān)聯(lián)計算機(計算機群集)使用軟件語言(如 Java、C#、Python、C+ 和 R)并行進行程序表達(dá),然后通過標(biāo)準(zhǔn) SQL 激活(調(diào)用)使用。u 基于MPP的并行分析平臺第一個大規(guī)模并行分析平臺, 借助 S Q L -MapReduce 支持嵌入式分析應(yīng)用程序,使企業(yè)能顯著加快 TB 乃至 PB 級數(shù)據(jù)的處理,為提供新的交互性大數(shù)據(jù)應(yīng)用帶來了無數(shù)機會

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論