




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1概述隨著海量數據問題的出現,海量管理能力,多類型,變化快,高可用性,低成本,高端可擴展性等需求給企業(yè)數據戰(zhàn)略帶來了巨大的挑戰(zhàn)。企業(yè)數據倉庫、數據中心的技術選型變得尤其重要!所以在選型之前,有必要對目前市場上各種大數據量的解決方案進行分析。2主流分布式并行處理數據庫產品介紹2.1 Greenplum2.1.1 基礎架構Greenplum是基于Hadoop的一款分布式數據庫產品,在處理海量數據方面相比傳統(tǒng)數據庫有著較大的優(yōu)勢。Greenplum整體架構如下圖:MasterSevers查詢解析、優(yōu)化、NetworkInterconnectSegmentSevers查詢處理、數據存儲External
2、Sources數據加載數據庫由MasterSevers和SegmentSevers通過Interconnect互聯組成。Master主機負責:建立與客戶端的連接和管理;SQL的解析并形成執(zhí)行計劃;執(zhí)行計劃向Segment的分發(fā)收集Segment的執(zhí)行結果;Master不存儲業(yè)務數據,只存儲數據字典。Segment主機負責:業(yè)務數據的存儲和存??;用戶查詢SQL的執(zhí)行。2.1.2 主要特性Greenplum整體有如下技術特點:Shared-nothing架構海量數據庫采用最易于擴展的Shared-nothing架構,每個節(jié)點都有自己的操作系統(tǒng)、數據庫、硬件資源,節(jié)點之間通過網絡來通信?;趃Net
3、SoftwareInterconnect數據庫的內部通信通過基于超級計算的如SwitchII內部連接層,基于通用的gNet(GigE,10GigE)NICs/switches在節(jié)點間傳遞消息和數據,采用高擴展協(xié)議,支持擴展到1000個以上節(jié)點。并行加載技術利用并行數據流引擎,數據加載完全并行,加載數據可達到4。5T/小時(理想配置)。并且可以直接通過SQL語句對外部表進行操作支持行、列壓縮存儲技術海量數據庫支持ZLIB和QUICKLZ方式的壓縮,壓縮比可到10:1。壓縮數據不一定會帶來性能的下降,壓縮表通過利用空閑的CPU資源,而減少I/O資源占用。海量數據庫除支持主流的行存儲模式外,還支持列
4、存儲模式。如果常用的查詢只取表中少量字段,則列模式效率更高,如查詢需要取表中的大量字段,行模式效率更高。海量數據庫的多種壓縮存儲技術在提高數據存儲能力的同時,也可根據不同應用需求提高查詢的效率2.1.3 主要局限列存儲模式的使用有限制,不支持delete/update操作。用戶不可靈活控制事務的提交,用戶提交的處理將被自動視作整體事務,整體提交,整體回滾。數據庫需要額外的空間清理維護(vacuum),給數據庫維護帶來額外的工作量。用戶不能靈活分配或控制服務器資源。對磁盤IO有比較高的要求。備份機制還不完善,沒有增量備份。2.2 Vertica2.2.1 基礎架構與以往常見的行式關系型數據庫不同
5、,Vertica是一種基于列存儲(Column-Oriented)的數據庫體系結構,這種存儲機構更適合在數據倉庫存儲和商業(yè)智能方面發(fā)揮特長。常見的RDBMS都是面向行(Row-OrientedDatabase)存儲的,在對某一列匯總計算的時候幾乎不可避免的要進行額外的I/O尋址掃描,而面向列存儲的數據庫能夠連續(xù)進行I/O操作,減少了I/O開銷,從而達到數量級上的性能提升。同時,Vertica支持海量并行存儲(MPP)架構,實現了完全無共享,因此擴展容易,可以利用廉價的硬件來獲取高的性能,具有很高的性價比。如下圖,展示的是單節(jié)點上的Vertica的基本體系結構。SQLJFQueriesFront
6、End(ODBC/JDBC/etc.TParser)UpdatesrReadQueriesI.TupleMoverVertica體系結構作為關系型數據庫,Vertica的查詢SQL也是在前端被解析和優(yōu)化的。但與傳統(tǒng)的關系型數據庫有所不同,Vertica內部是混合存儲的,包括兩種不同的存儲結構:寫優(yōu)化器(WOS)和讀優(yōu)化器(ROS)。(1)寫優(yōu)化器WOS(Write-OptimizedStore)是位于主存儲器上的一個數據結構,用于有效的支持數據插入和更新操作;數據的存放是無序的,非壓縮的。(2)讀優(yōu)化器ROS(Read-OptimizedStore)是磁盤物理存儲,存放的是排序和壓縮后的數據庫
7、大塊數據,因此這里的查詢相比于WOS性能更好。(3) TupleMover進程是Vertica內部的一個進程,定期的以大數據塊的形式把數據從WOS移到ROS,由于是對整個WOS操作,TupleMover一次能非常有效的排序很多記錄,最后批量把它們寫入磁盤。在Vertica內部,不論是WOS還是ROS都是按列存儲的。2.2.2主要特性Vertica的關鍵特性:1 歹U存儲(Column-orientation)由于大多數的查詢都是要從磁盤讀取數據,因此可以說diskI/O在很大程度上決定了一個查詢的最終響應時間。2 壓縮機制(AggressiveCompression)在數據存儲方面,Verti
8、ca利用內部的特定算法對數據進行壓縮處理。這樣的機制會大大減少diskI/O的時間(D),同時由于Vertica對掃描和聚合等操作也在內部進行了優(yōu)化,可以直接處理壓縮后的數據,這樣CPU的工作負載(C)也減少了。如上例中的AVG聚合函數,Vertica是不需要將壓縮數據先做類似解壓這種處理的,因此查詢性能得到優(yōu)化。3 讀優(yōu)化存儲(Read-OptimizedStorage)Vertica的數據庫存儲容器ROSContainer專門為讀操作進行了優(yōu)化設計,且其中的數據是經過了排序和壓縮處理的,即每個磁盤頁上不會有空白空間,而傳統(tǒng)的數據庫一般會在每頁上預留空間以便日后的insert操作來使用。4多
9、種排序方式的冗余存儲為了高可用性和備份恢復的需要,Vertica會按照不同的排序方式對數據做冗余存儲,這不但避免了大量的日志操作,也為查詢帶來了便利。Vertica的查詢優(yōu)化器會自動選擇最優(yōu)的排序方式來完成特定的查詢。5并行無共享設計Vertica支持完全無共享海量并行存儲(MPP)架構,隨著硬件Server的增加,多個CPU并行處理,性能也可以得到線性的擴展,這樣用戶使用廉價的硬件就可以獲得較高的性能改善。6其他管理特征除了有優(yōu)越的性能以外,Vertica在數據庫管理方面也進行了非常人性化的設計。VerticaDatabaseDesigner是一個界面化的日常管理工具,并且能為用戶作出詳盡的
10、DB層物理設計方案,大大減少了日后的性能調優(yōu)方面的開銷。Vertica通過K-Safety值的設置,完成了數據庫的備份恢復機制,并保證了高可用性。對于數據庫中的每個表每個列,Vertica都會在至少K+1個節(jié)點上存儲,如果有K個節(jié)點宕機,依然能夠保證VerticaDB是完整可用的;當損壞的節(jié)點恢復時,Vertica自動完成節(jié)點間的熱交換,把其他節(jié)點上的正確數據恢復過來。通過這種機制也保證了Vertcia庫的節(jié)點數目可以自由伸縮而不會影響到數據庫的操作。Vertica通過兩種技術來實現在線的持續(xù)數據裝載而不會影響到數據庫的訪問。Vertica通常運行在快照隔離(SnapshotIsolation
11、)模式下,該模式下查詢讀取的是最近的一致的數據庫快照,這個快照是不能被并發(fā)的update或delete操作更改的,因此查詢操作也不需要占用鎖,這種方式保證了數據裝載(insert)和其他查詢能互不干擾。另外,Vertica可以把數據直接裝載到WOS結構中,WOS中的數據是不排序或索引的,所以裝載速度會很快,然后再由TupleMover進程在后臺把數據移入ROS中,由于TupleMover的操作是大塊讀取(bulk-load)的,所以性能也很好。2.2.3主要局限不支持SQL存儲過程及函數,用戶需通過UDFs(UserDefinedFunction,基于C+)來自定義函數或過程。軟件授權按原始未
12、經壓縮的裸數據量計算。列存儲的一些劣勢,復雜查詢等性能不理想。對內存有比較高的要求。在國內還沒有成功案例。2.3SybaseIQ(15.4)2.3.1 基礎架構SYBASEIQ是Sybase公司推出的特別為數據倉庫設計的關系型數據庫。SYBASEIQ的架構與大多數關系型數據庫不同,它特別的設計用以支持大量并發(fā)用戶的即席查詢。其設計與執(zhí)行進程優(yōu)先考慮查詢性能,其次是完成批量數據更新的速度。而傳統(tǒng)關系型數據庫引擎的設計既考慮在線的事務進程又考慮數據倉庫(而事實上,往往更多的關注事務進程)。Sybase在2010年推出的SybaseIQ15.3就采用了全共享架構的PlexQ技術,該技術重新定義了企業(yè)
13、范圍的業(yè)務信息,全共享架構可輕松支持涉及海量數據集、海量并發(fā)用戶數和獨特工作流程的多種復雜分析樣式,大大增加了其效益。與其他MPP解決方案不同,SybaseIQ的PlexQ網格技術能夠動態(tài)管理可輕松擴展并且專用于不同組和流程的一系列計算與存儲資源中的分析工作量,從而使其能夠以更低的成本更輕松地支持日益增長的數據量以及快速增長的用戶社區(qū)。SybaseIQ15.4采用業(yè)內領先的MPP列式數據庫和最先進的數據庫內分析技術,并革命性地加入MapReduce與Hadoop集成,以應對大數據時代的分析挑戰(zhàn),開啟洞察關鍵業(yè)務的能力。SybaseIQ15.4正在打破數據分析的壁壘,徹底改變d數據分析傾域?;?/p>
14、成熟的PlexQ技術構建的SybaseIQ采用下圖所示的三層構架:工由PImQ控水的曲*晴IQ1生毒M曖T符忖序施若nnnaanr基本層:數據庫管理系統(tǒng)(DBMS),這是一個全共享MPP分析DBMS引擎,是SybaseIQ最大的獨特優(yōu)勢。第二層:分析應用程序服務層,其提供C+和Java數據庫內API,并可實現與外部數據源的集成和聯邦;包括四種與Hadoop的集成方法。頂層:SybaseIQ生態(tài)系統(tǒng),由四個強大且不同的合作伙伴和認證ISV應用程序組成?;谶@種PlexQ技術,SybaseIQ15.4將大數據轉變成可指揮每個人都行動的情報信息,從而在整個企業(yè)的用戶和業(yè)務流程范圍內輕松具備大數據的分
15、析能力。2.3.2 主要特性SybaseIQ(15.4)的關鍵特性:1 .更強的數據管理大量增強的功能改善了SybaseIQ的數據管理、部署和可維護性。更快速的批量加載:批量加載數據通過ODBC和JDBC接口插入到Sybase中,從而實現具有更高可擴展性的應用程序,同時可極大提高加載性能。更出色的文本壓縮:更出色地對VARCHAR、VARBINARY、CHAR和BINARY壓縮可實現以更高效率、更低成本部署高性能文本分析應用程序,同時極大提高壓縮速率。2 .豐富的應用程序SybaseIQ15.4增加了一系列API和工具,用于創(chuàng)建在數據庫內運行的高級分析算法,并且能通過PlexQ網格能充分利用大
16、規(guī)模并行處理的能力。支持自帶MapReduce的表參數化用戶自定義函數(UDF)這是SybaseIQ的本地應用程序編程接口,可使應用程序編程人員在SybaseIQ數據庫服務器內建和部署C+庫。使用這些API可實現專有算法或算法包,安全地位于SybaseIQ內,通過在保存于SybaseIQ數據庫服務器中的數據附近執(zhí)行,以快10倍的速度返回結果。此框架可實現在SybaseIQ中開發(fā)和部署MapReduce程序,以分析涉及結構化、半結構化和非結構化數據格式的超大數據集。C+、Map和Reduce算法通過標準SQL加以調用,并且由SybaseIQ強大的查詢引擎自動在PlexQ網格中進行分發(fā)和并行化。H
17、adoop集成與聯邦將基于Hadoop的分析的結果與運行于SybaseIQ中的查詢相集成。Sybase是唯一一家提供4種不同方法將標準SQL查詢(客戶端聯邦、ETL處理、數據聯邦和查詢聯邦)中的Hadoop數據和分析與分析數據庫相集成的廠商。SybaseIQ15.4充分利用Hadoop來識別海量結構化和非結構化數據集中的相關數據點,然后將Hadoop中的相關數據點集成到SybaseIQ中,以便利用傳統(tǒng)數據和來自其他數據源的結果集進行分析。預測模型標記語言(PMML)支持通過Zementis提供的認證插件,自動執(zhí)行使用業(yè)界標準語言定義在SAS、SPSS、一Rt工具以及其他流行預測工作平臺產品中所
18、創(chuàng)建的分析模型。充分利用流行的分析工具構建預測模型,自動執(zhí)行在SybaseIQ中部署的預測模型,并使用業(yè)界標準語言,以避免形成廠商捆綁。一Rt成:一一用戶可使用RJDBC接口,以及流行的開源統(tǒng)計工具一RiUSybaseIQ數據庫。此外,用戶還可以將來自SybaseIQ的一R薜作為SQL查詢中的函數調用加以執(zhí)行,并返回結果集。3 .數據庫內分析庫更新的數據庫內統(tǒng)計和數據挖掘庫(來自Fuzzy?Logix的DBLytix):在SybaseIQ內運行的高級分析、統(tǒng)計和數據挖掘算法庫。SybaseIQ15.4中的更新可使該庫充分利用一些數據挖掘算法中的MapReduceAPI進行大規(guī)模并行處理,并且包
19、含多種新函數,例如支持向量機、神經網絡和AdaptiveBoosting。4 .擴展的生態(tài)系統(tǒng)SybaseIQ還非常適合面向大數據分析的端到端全面解決方案。重要的工具和互補的合作伙伴產品可在以下方面提供幫助:SybasePowerDesigner?16.1參考架構生成器:可通過在實施SybaseIQ數據倉庫和數據集市時生成最佳硬件配置,快速實現價值。SybaseControlCenter(SCC):改進方面包括大量管理功能,例如過程、函數、UDF(表、TPF和JavaEE)及文本索引。用戶能夠更輕松地管理SCC中頻繁使用的功能,以及更輕松地部署內置、外部和文本數據庫內分析。此外該版本還包含了新
20、的SQL執(zhí)行窗口,該窗口可實現易于測試的特定SQL例程。已通過SAP?BusinessObjects?認證:SybaseIQ15.4已通過認證,可與SAPBusinessObjectsBusinessIntelligencePlatform4.0和SAPBusinessObjectsDataServices4.0配合使用,以提供豐富的端到端業(yè)務分析框架。2.3.3主要局限SybaseIQMPP是Share-Disk架構增加硬件,無法線性的提升數據庫性能。列存儲的一些劣勢,裝載速度,復雜查詢等性能不理想。插入操作上表級鎖,影響數據導入時影響表上的并發(fā)操作。(*)2.4TeradataAsterD
21、ataTeradata天睿公司的AsterData分析平臺是市場領先的大數據分析解決方案。AsterData分析平臺嵌入了MapReduce,對新數據源和多結構數據類型進行更深入的分析處理,提供具有突破性的性能和可擴展性的分析能力。AsterData解決方案利用AsterData專利SQL-MapReduce來并行處理數據和應用程序,可在大范圍內提供豐富的分析洞察力。2.4.1 基礎架構TDAsterData平臺架構如下:TeradataAnalyticPlatformSolutionsBigDataInsightPdHertiii.PathHGrdphIAraIvIArmlyMsStrate
22、gic&OperationalIntelHgenceAilHlh.PrrdhlRA.Spdtuil/IAttivc/OlAPI島巾“丫2專.Itit昨*“川IrxrcLiTrnnSQLAnalyticsSQL-MapReduceAnalyticsDdtAMlytlcMulti-StructuredelfveringSQL-MapReduceanalyticsfortheenterprise其中AsterDatabase架構如下:AsterDatabase2.4.2 主要特性TDAsterData有如下技術特點:Shared-nothing架構海量數據庫采用最易于擴展的Shared-nothing架構,每個節(jié)點都有自己的操作系統(tǒng)、數據庫、硬件資源,節(jié)點之間通過網絡來通信。SQL-MapReduceSQL-MapReduce是AsterData公司的專利,在同類技術中(Greenplum)屬于領先地位。SQL-MapReduce框架可以使數據科學家和商業(yè)分析師對復雜的信息進行快速調查分析,允許一組關聯計算機(計算機群集)使用軟件語言(如Java、C#、Python、C+和R)并行進行程序表達,然后通過標準SQL激活(調用)使用。基于MPP的并行分析平臺第一個大規(guī)模并行分析平臺,借助SQL-MapReduce支持嵌入式分析應用程序,使企業(yè)能顯著加快TB
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- ktv水果配送合同范本
- 人力轉讓合同范本
- 倉庫維修維護合同范本
- 出國合同范本ps
- 樂器進貨合同范本
- 冰箱購買合同范例
- 單位清單合同范本
- 勞務服務發(fā)票合同范本
- 公司運貨合同范本
- 協(xié)力商合同范本
- 2025年不停電電源(UPS)項目合作計劃書
- 2025年國家林業(yè)和草原局直屬事業(yè)單位第一批招聘應屆畢業(yè)生96人歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 2025年春季開學典禮校長講話稿-少年無畏凌云志扶搖直上入云蒼
- 2025寒假開學第一課 課件【1】
- 2025年湖南食品藥品職業(yè)學院高職單招職業(yè)適應性測試近5年??及鎱⒖碱}庫含答案解析
- 2024-2024年高考全國卷英語語法填空
- 會議會務服務投標方案投標文件(技術方案)
- 無違法犯罪記錄證明申請表(個人)
- (更新版)HCIA安全H12-711筆試考試題庫導出版-下(判斷、填空、簡答題)
- 華科版五年級全冊信息技術教案(共24課時)
- 《乒乓球》體育課教案(全)
評論
0/150
提交評論