




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
使用開源數(shù)據(jù)倉庫有哪些優(yōu)勢和風(fēng)險?它們又是為什么直到現(xiàn)在才進入市場?與PivotalSoftware,Inc.的數(shù)據(jù)市場策略師JeffKelly一起來了解一下開源數(shù)據(jù)倉庫
JeffKelly:開源數(shù)據(jù)倉庫是一種完全基于開源軟件代碼構(gòu)建的數(shù)據(jù)庫,支持企業(yè)級和生產(chǎn)級數(shù)據(jù)分析及報成本(TCO)。對于開源數(shù)據(jù)倉庫來說,是這樣嗎?是的,開源數(shù)據(jù)倉庫可以大大降低TCO。采用開源數(shù)據(jù)倉庫無需支付軟件費用,也不必昂貴的專有硬換和加載(ETL)的工作負載),開源數(shù)據(jù)倉庫對于這些 商的支持,此外,從業(yè)者也不啟用當(dāng)時寥寥無幾且測試的開源選項。時至今日,隨著業(yè)務(wù)發(fā)展日可以為體系中的其他開源技術(shù)(如Hadoop)提供極好有可能,但大多數(shù)供應(yīng)商都面對著一個:他們的業(yè)開源則會對他們的業(yè)務(wù)模式造成。這是因為開源數(shù)于從業(yè)者隨時可以停止向供應(yīng)商硬件,而仍能繼續(xù)
一個擁有十分活躍且在不斷壯大的社區(qū)的開源數(shù)據(jù)倉 MPP數(shù)據(jù)倉庫是支持動態(tài)、混合工作負載的理想解決方案,它們可以針對海量數(shù)據(jù)進行信息、管理和數(shù)據(jù)倉庫在大規(guī)模數(shù)據(jù)的信息、管理和處理中起到了關(guān)鍵作用。這聽起來可能不合常理,尤其是現(xiàn)在市場上相繼推出了代替數(shù)據(jù)倉庫的Hadoop、Cassandra、MongoDB和其他NoSQL平臺。的確,所有這些平臺都有一個或多個SQL查詢引擎,但是SQL查詢引擎并不“如果你只需要獲取某些平面文件并對其執(zhí)行SQL查詢,其實并不需要數(shù)據(jù)庫,而是需要一個介乎SQL與執(zhí)行間的翻譯器。要設(shè)計和構(gòu)建大規(guī)模并行處理(MPP)數(shù)式群集上運行的龐大數(shù)據(jù)庫的一致性,同時并行這些數(shù)據(jù)?!盤ivotalSoftware,Inc.產(chǎn)品經(jīng)理IvanNovick說市場上符合ACID(原子性、一致性、性和持久性)標(biāo)準(zhǔn)的MPP分析數(shù)據(jù)倉庫非常之少。但這并不代表MPP的價格一定高不可攀。至少現(xiàn)在不是了。得益于MPP軟MPP系統(tǒng)的價格變得非常低廉,性價比也變得非常高。
MPPMPP當(dāng)然,NoSQL系統(tǒng)也能提供很高的性價比。但從查詢處理方面來看,NoSQL就失去了性價比優(yōu)勢。NoSQL查詢引擎無法像MPP數(shù)據(jù)庫一樣高效、全面且可靠地處理首先,現(xiàn)有的SQL引擎無一能夠完全符合現(xiàn)今的ANSISQL標(biāo)準(zhǔn)。(即使有也只有極少數(shù)全面了ANSISQL-92標(biāo)準(zhǔn);大多數(shù)僅實現(xiàn)了ANSISQL-1999及之后版本的部分標(biāo)準(zhǔn)。)其次,SQL查詢引擎的表現(xiàn)受限于所查詢Hadoop、Cassandra和MongoDB都不是關(guān)系型數(shù)據(jù)庫系統(tǒng)。它們?nèi)狈Ρ匾谋U希ㄈ缰С諥CID事務(wù)和豐富的MPP分析平臺。它們同樣無法高效處理多個用戶同時發(fā)出的并行SQL查詢?!皬母旧险f,構(gòu)建一個數(shù)據(jù)倉庫比僅僅構(gòu)建一個SQL引擎要得多,”Novick解釋道?!皵?shù)據(jù)倉庫與SQL引擎的區(qū)別發(fā)。而這些NoSQL引擎無論是在并發(fā)性、ACID上還是SQL表達式的豐富性上的表現(xiàn)都不盡如人意?!?5MPP系統(tǒng)。在技術(shù)創(chuàng)MPP系統(tǒng)的價格已經(jīng)可承受多了。(推出了SQLServer并行數(shù)據(jù)倉庫)、Amazon(推出了云端MPP數(shù)據(jù)倉庫Redshift)Pivotal(GreenplumMPP數(shù)據(jù)倉庫的版)提供的產(chǎn)品的價格僅為傳統(tǒng)MPP數(shù)據(jù)庫的幾分之一。MPP硬件的價格也變得更低且可擴展性更高。過去,MPP數(shù)據(jù)庫采用的是軟硬件的銷售模式。這意味著,一個配備、最強大的InPentiumProXeonMPP服務(wù)器節(jié)點的成本將高于(有時甚至遠遠高于)戴爾、HP或IBM等制造商提供的同這個缺點在某種程度上是無法避免的。一個MPP數(shù)據(jù)向群集中的所有節(jié)點分發(fā)數(shù)據(jù);這會大量數(shù)據(jù)移動。此外,MPP還依靠一種被稱為“消息傳遞”的技術(shù)來協(xié)調(diào)各個節(jié)點之間的通信。因此,過去的MPP數(shù)如今,市場上的高吞吐量、低延遲技術(shù)(如10千兆位以太網(wǎng))的價位已經(jīng)低得多。Novick認為:綜上所述,是采用標(biāo)準(zhǔn)硬件的最佳配置。In基本上就是世界的標(biāo)準(zhǔn)硬件。一般而言,一臺服務(wù)器配備有兩個In處理器就是最佳配置。如果一臺計算機配備了四個In處10臺、50臺、100臺、500臺甚MPP的過程并不是那么復(fù)雜和昂貴,Novick繼續(xù)說道。將現(xiàn)有的數(shù)據(jù)倉庫遷移到MPP數(shù)據(jù)倉庫,跟從12個或3個業(yè)務(wù)關(guān)鍵型應(yīng)用為基“如果你運行的是Netezza數(shù)據(jù)倉庫,或以
完成遷移,但是如果你運行的是支持200種不同使用情形的data系統(tǒng),則需要采用漸進法,先從將數(shù)據(jù)和MPP數(shù)據(jù)庫系統(tǒng)設(shè)計架構(gòu)也不是很復(fù)雜。Novick建議時間進行垂直分區(qū)。如果我有500天的數(shù)據(jù),那么我可集內(nèi)的所有節(jié)點上),”Novick說。對你說,‘給我這一天的量’,然后全部的100臺是按時間獨立分區(qū)的,與沒有分區(qū)時需要處理500天的他還高度評價了一種被Pitl和另外一些供應(yīng)商稱為“雙EL”(ulE)的技術(shù)。該技術(shù)是數(shù)據(jù)或變更數(shù)據(jù)捕獲CC)技術(shù)的一種替代方案,它可以將數(shù)據(jù)從“活動”的主系統(tǒng)到“待機”的備用系統(tǒng)。雙ELEL流程,采用相同,vick說。MPPETL本身還算經(jīng)濟實惠,Novick說?!皬谋举|(zhì)上講,你構(gòu)建了兩個你需要建立兩個群集,并且需要在本地將零售店的能讓數(shù)據(jù)庫管理員(DBA)更有效地提升并發(fā)性能。通過采用雙ETL拓撲,組織能夠?qū)崿F(xiàn)雙倍的并發(fā)速率,支持當(dāng)然,雙EL并不是萬能的。MPP系統(tǒng)也使用工作負載管理工具來管理并發(fā)性能。“經(jīng)多家供應(yīng)商證明,管理并發(fā)性能的關(guān)鍵是建立一個良好的工作負載管理系統(tǒng),自主定義和執(zhí)行動態(tài)規(guī)則。也就是一個基于規(guī)則的工作負載管理系統(tǒng),可以設(shè)置不同的閾值和條件,并基于這些閾值和條件,讓不同優(yōu)先級的查詢在不同時間運行,”vick說。他還并不是所有用戶的查詢都是的:有的用戶發(fā)起的查詢更可靠?!叭绻懔私獾搅硗猓蓪⒉唤?jīng)常的數(shù)據(jù)分流到非MPP中以簡化數(shù)據(jù)歸檔,提高性能,而將經(jīng)常的數(shù)據(jù)在MPP環(huán)境中。這樣,群源可以分配給最需要的工作負載。對于不經(jīng)常的數(shù)據(jù),可以將其保存到外部系統(tǒng)上,使用外部表從內(nèi)部數(shù)據(jù)所在的SQL界面上傳統(tǒng)的關(guān)系型數(shù)據(jù)庫采用行的形式數(shù)據(jù),這意味著掃描每一列的每項內(nèi)容。這將增加輸入/輸出(I/O),限度降低I/O爭用,并能顯著降低磁盤尋道時間。出于包括優(yōu)越壓縮系數(shù)在內(nèi)的,列式架構(gòu)通常在分“有些數(shù)據(jù)庫系統(tǒng),例如PivotalGreenplum,就可以同
時定義格式,并且格式可同時包含行、列客戶必須先將數(shù)據(jù)從本地位置遷移到云中?!盢ovick指 和一些專業(yè)供應(yīng)商束縛??蛻舨荒苓^于高估云平臺即服務(wù)(PaaS)產(chǎn)一供應(yīng)商的云平臺。應(yīng)該使用基礎(chǔ)架構(gòu)即服務(wù)( 要使用類似AmazonWebServices或 Azure的服務(wù),并且一定要使用可移動的數(shù)據(jù)倉庫軟件”,Novick說。在Pivotal的系列產(chǎn)品中,Greenplum數(shù)據(jù)庫既可以在傳統(tǒng)本地環(huán)境中運行,也可以在云環(huán)境中運行。Pivotal也有自己非常成功的PaaS云服務(wù),CloudFoundry。在 Novick強調(diào):“使用Pivotal的系列產(chǎn)品時,用戶不但AmazonS3等形式的超便宜解決方案。這些價格低廉的云解決方案還可用于數(shù)據(jù)歸檔,比如說當(dāng)用戶卸載不經(jīng)常的數(shù)據(jù)時。”在大數(shù)據(jù)時代,MPP數(shù)據(jù)庫系統(tǒng)是處理分析工作負載也能支持新型的高級NoSQL分析。有的MPP平臺可以在數(shù)據(jù)庫引擎環(huán)境中并行運行不同類型的算法。例如在Greenplum數(shù)據(jù)庫引擎環(huán)境中運行的ApacheMADlib(incubating)機器學(xué)習(xí)庫,就能從Greenplum的并行處理這僅僅只是一個例子而已,NovickMPP數(shù)據(jù)倉庫已在使用服務(wù)器群集來和處理數(shù)據(jù)。你可以運行機器學(xué)習(xí)算法,利用相應(yīng)群集中所有服務(wù)器的CPUHadoop和其他NoSQL平臺在大數(shù)據(jù)架構(gòu)中發(fā)揮著積極而獨特的作用。NoSQL平臺非常適合和管理多元結(jié)構(gòu)數(shù)據(jù),以及儲海量關(guān)系數(shù)據(jù)。相比之下,MPP數(shù)據(jù)倉好數(shù)據(jù)倉庫的原因。如果客戶想認真經(jīng)營企業(yè),我們絕對可以幫上忙”Novick表示。MPPMPP開源軟件了傳統(tǒng)的軟件開發(fā)、交付和模式。它開源還了企業(yè)用于評估戰(zhàn)略IT投資并做出決策時的難,對于機器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計分析、MPP數(shù)據(jù)倉商束縛到難以忍受?!盤ivotalSoftware,IncGreenplum開源數(shù)據(jù)倉庫產(chǎn)品總監(jiān)CesarRojas表示,“專有平PivotalGreenplumMPP數(shù)據(jù)倉庫。Greenplum本身基于PostgreSQL數(shù)據(jù)庫構(gòu)建而成的,而PostgreSQL數(shù)據(jù)庫擁有豐富的開源技術(shù)支持。但Greenplum一開始并非開源產(chǎn)品,而是到2015年10月
ApacheLicenseVersion2下發(fā)布才開源的。Rojas說:“Pivotal之所以開源了Greenplum和其他所有的Pivotal數(shù)據(jù)產(chǎn)品,是出于Pivotal對客戶應(yīng)盡的責(zé)任”。術(shù)以轉(zhuǎn)向Greenplum開源平臺。因為Greenplum平臺可以幫助企業(yè)擺脫一切的供應(yīng)商束縛?!盧ojas解釋道。客戶希望在能夠大規(guī)模擴展的開源環(huán)境中運行報告、分析、數(shù)據(jù)科學(xué)等各種各樣的用例。在某種程度上,Pivotal的自我定位可以是獨一無二的,因為目前除了我MPP23GNU-Linux操作系統(tǒng)為例。25年前,盛極一時的UNIX操作系統(tǒng)還是專有的,在成本高昂的RISC硬件上運行。從技術(shù)上來講,GNU-Linux并不是UNIX,但它和UNIX很相似,并且它如今的市場份額已經(jīng)打敗了它的專有市場競爭對手UNIX。另一個例子,關(guān)于開源R統(tǒng)計編程環(huán)境。統(tǒng)計學(xué)和數(shù)據(jù)挖掘是最具專業(yè)化的領(lǐng)域,SAS和SPSS等專有供應(yīng)商卻在這兩個領(lǐng)域稱霸了數(shù)十年。R對SAS和SPSS的主導(dǎo)地工程、社會科學(xué)和統(tǒng)計學(xué)專業(yè)的大學(xué)畢業(yè)生都是在R上市場上并不缺乏開源數(shù)據(jù)庫產(chǎn)品。PostgreSQL和MySQL只是其中兩個較為突出的開源數(shù)據(jù)庫平臺。非MPP平臺使用一種“對稱多處理”(即SMP)的技術(shù)來實現(xiàn)縱向擴展(也稱為“垂直擴展”)。MySQL或標(biāo)準(zhǔn)SQLServer數(shù)據(jù)庫專為在單個服務(wù)器節(jié)點上運行而設(shè)計,并可以在該節(jié)點上的所有范圍內(nèi)進行擴展。理想情況下,SMP數(shù)據(jù)庫可以實現(xiàn)線性擴展。但在實踐中,這是絕對無法實現(xiàn)的,因為當(dāng)增加時,數(shù)據(jù)庫使用這MPP數(shù)據(jù)庫可以在一個服務(wù)器節(jié)點中的所有可用范MPP數(shù)據(jù)庫分布在一個SMP節(jié)點上,它也可以實現(xiàn)水平擴展。當(dāng)MPP數(shù)據(jù)庫處理查詢時,群集中的各個節(jié)點將分別處理該查詢的一部分。因此,不止24個,一個MPP數(shù)據(jù)庫可以支持192個、384個、768個甚至個。Rojas說,在現(xiàn)在市面上的MPP數(shù)據(jù)倉庫平臺中,Greenplum是唯一的一個開源MPP數(shù)據(jù)庫。除此之外,再也沒有其他可靠的的開源替代方案了。Greenplum自身的發(fā)展過程說明了從零開始開發(fā)一項開源MPP數(shù)據(jù)庫技術(shù)是非常的。與Linux和R不同的是,Greenplum原本就是一款一流的數(shù)據(jù)庫。它的設(shè)計PostgreSQL10Greenplum作為專與非MPP開源數(shù)據(jù)庫的替代方案不同,Greenplum可以同時支持行式和列式?!癎reenplum與SQL完全兼容。我們提供列和行兩種方式,并稱之為‘多態(tài)’”,Rojas解釋道。“雖然我們明顯提供的是MPP數(shù)據(jù)庫,但作為這項技術(shù)的一部分,我們還開發(fā)出名為GPORCA的開源產(chǎn)品,采用了模塊化設(shè)計,并且獨立于Greenplum引擎之外。”開發(fā)一款針對大數(shù)據(jù)的查詢優(yōu)化器意味著什么?“當(dāng)Greenplum利用GPORCA優(yōu)化查詢時,考慮的替代方案比其他查詢優(yōu)化器多得多。它可以優(yōu)化更廣泛的查詢?!盧ojas說。
在其他方面,Pivotal計劃為Greenplum提供基礎(chǔ)架構(gòu)即服務(wù)( )云部署選項。雖然市面上并不缺乏云數(shù)據(jù)庫,但云MPP數(shù)據(jù)倉庫的數(shù)量卻屈指可數(shù)?!拔覀兡壳笆窃贏mzoneberices上運行,但與此同PitlCldundry服務(wù)“今年,我們有多項云創(chuàng)新項目正在醞釀中。近期將推出的一項是針對在AmaonS3上運行的外部數(shù)據(jù)庫表的寫入功能。我們所有的云舉措都將幫助我們更快地向托管服務(wù)類型的環(huán)境,使我們的技術(shù)更具彈性?!比ツ昵锾欤琍ivotal將其MADlib機器學(xué)習(xí)框架提供給了Apache軟件。Rojas說:“ApacheMADlib是一個30多種機器學(xué)習(xí)算法的集合。它集合了機器學(xué)習(xí)、預(yù)測分析、數(shù)據(jù)挖掘與統(tǒng)計算法,可以在Greenplum數(shù)“Mlib我們還運行各種其他數(shù)據(jù)庫內(nèi)分析?!彼詔GIS為例繼續(xù)說道,“Geenplm還提供包含一切PL/、PL/R、PL/el、PL/Pythn語言在內(nèi)的數(shù)據(jù)庫內(nèi)編程。這些代碼不僅能在數(shù)據(jù)庫內(nèi)運行,也能在MPP環(huán)境中運行。換GeenplmMPP群集中實現(xiàn)并行處理機器學(xué)習(xí)、處理、和網(wǎng)絡(luò)資源,它們的執(zhí)行速度與單一系統(tǒng)SMP數(shù)據(jù)庫相比更快,有時甚至快好幾個數(shù)量級。MPP可以實現(xiàn)極快的迭代?!凹僭O(shè)你正在研究R語言,已經(jīng)構(gòu)建了一個R模型,并RMPP基礎(chǔ)架構(gòu)MADlib不僅讓MPPSQL界面。這樣一來,那些不太精通Java或Python的分析師就可以通過寫入SQL代碼來使用MADlib算法?!敖柚鶰ADlib,你可以在MPP數(shù)據(jù)庫中執(zhí)行結(jié)構(gòu)化和MADlib還提供完整的SQL執(zhí)行,以及同樣作為SQL運行的嵌入函數(shù)?!彼忉尩馈!皩τ谀切┎皇煜ava開發(fā)的而言,MADlib能夠為熟練使用SQL的分析師Pivotal對為社區(qū)發(fā)展付出了大量努力。除了提供在去年年底正式成為ASF孵化計劃的MADlib,Pivotal還提供了專有產(chǎn)品HAWQ。HAWQ是Greenplum在Hadoop中進行本機運行的端口,它擁有完整的SQP支持,類似于RDBMS的事務(wù)一致性保證及類似于MPP數(shù)據(jù)中心的并Rojas說:“我們與開源社區(qū)的合作收獲了不可思議的 的pull請求或評論。人都想跟他們合作。我們與Pos
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程臨時工合同協(xié)議書
- 地板打蠟合同協(xié)議書樣本
- 買賣居間協(xié)議合同
- 業(yè)務(wù)合同協(xié)議照片
- 欠款委托協(xié)議合同
- 協(xié)議合同解除的時效性
- 協(xié)議書是勞動合同
- 協(xié)議離婚合同注意
- 拉丁舞學(xué)員合同協(xié)議書
- 承攬合同轉(zhuǎn)包協(xié)議
- 危廢班組級安全教育
- 2024年工業(yè)廢氣治理工(技師)職業(yè)技能鑒定理論試題庫(含答案)
- 電網(wǎng)公司主要輸變電設(shè)備狀態(tài)檢修導(dǎo)則
- 危大工程現(xiàn)場巡視檢查記錄表
- 2024年游泳館全面管理承包協(xié)議
- 臨時用電安全施工方案
- 時代楷模黃文秀課件
- 2024年四川大學(xué)華西醫(yī)院護士招聘歷年考試典型題及考點研判帶答案詳解
- 快遞員配送路線規(guī)劃
- 公司物流倉儲管理制度
- 【MOOC】工程材料學(xué)-華中科技大學(xué) 中國大學(xué)慕課MOOC答案
評論
0/150
提交評論