版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
./2015Bossie評選:最佳開源大數(shù)據(jù)工具大數(shù)據(jù)分布式計算數(shù)據(jù)存儲數(shù)據(jù)分析開源摘要:Bossie獎是知名英文ITInfoWorld針對開源軟件頒發(fā)的年度獎項,根據(jù)這些軟件對開源界的貢獻,以與在業(yè)界的影響力評判獲獎對象。本次InfoWorld評選出了22款最佳的開源大數(shù)據(jù)工具,像Spark、Storm都名列榜單之上。InfoWorld在分布式數(shù)據(jù)處理、流式數(shù)據(jù)分析、機器學習以與大規(guī)模數(shù)據(jù)分析領域精選出了2015年的開源工具獲獎者,下面我們來簡單介紹下這些獲獎的技術(shù)工具。1.Spark在Apache的大數(shù)據(jù)項目中,Spark是最火的一個,特別是像IBM這樣的重量級貢獻者的深入?yún)⑴c,使得Spark的發(fā)展和進步速度飛快。與Spark產(chǎn)生最甜蜜的火花點仍然是在機器學習領域。去年以來DataFramesAPI取代SchemaRDDAPI,類似于R和Pandas的發(fā)現(xiàn),使數(shù)據(jù)訪問比原始RDD接口更簡單。Spark的新發(fā)展中也有新的為建立可重復的機器學習的工作流程,可擴展和可優(yōu)化的支持各種存儲格式,更簡單的接口來訪問機器學習算法,改進的集群資源的監(jiān)控和任務跟蹤。在Spark1.5的默認情況下,TungSten內(nèi)存管理器通過微調(diào)在內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)布局提供了更快速的處理能力。最后,新的上有超過100個第三方貢獻的庫擴展,增加了許多有用的功能。2.StormStorm是Apache項目中的一個分布式計算框架項目,主要應用于流式數(shù)據(jù)實時處理領域。他基于低延時交互模式理念,以應對復雜的事件處理需求。和Spark不同,Storm可以進行單點隨機處理,而不僅僅是微批量任務,并且對內(nèi)存的需求更低。在我的經(jīng)驗中,他對于流式數(shù)據(jù)處理更有優(yōu)勢,特別是當兩個數(shù)據(jù)源之間的數(shù)據(jù)快速傳輸過程中,需要對數(shù)據(jù)進行快速處理的場景。Spark掩蓋了很多Storm的光芒,但其實Spark在很多流失數(shù)據(jù)處理的應用場景中并不適合。Storm經(jīng)常和ApacheKafka一起配合使用。3.H2OH2O是一種分布式的內(nèi)存處理引擎用于機器學習,它擁有一個令人印象深刻的數(shù)組的算法。早期版本僅僅支持R語言,3.0版本開始支持Python和Java語言,同時它也可以作為Spark在后端的執(zhí)行引擎。使用H2O的最佳方式是把它作為R環(huán)境的一個大內(nèi)存擴展,R環(huán)境并不直接作用于大的數(shù)據(jù)集,而是通過擴展通訊協(xié)議例如RESTAPI與H2O集群通訊,H2O來處理大量的數(shù)據(jù)工作。幾個有用的R擴展包,如ddply已經(jīng)被打包,允許你在處理大規(guī)模數(shù)據(jù)集時,打破本地機器上內(nèi)存容量的限制。你可以在EC2上運行H2O,或者Hadoop集群/YARN集群,或者Docker容器。用蘇打水〔Spark+H2O〕你可以訪問在集群上并行的訪問SparkRDDS,在數(shù)據(jù)幀被Spark處理后。再傳遞給一個H2O的機器學習算法。4.ApexApex是一個企業(yè)級的大數(shù)據(jù)動態(tài)處理平臺,即能夠支持即時的流式數(shù)據(jù)處理,也可以支持批量數(shù)據(jù)處理。它可以是一個YARN的原生程序,能夠支持大規(guī)模、可擴展、支持容錯方法的流式數(shù)據(jù)處理引擎。它原生的支持一般事件處理并保證數(shù)據(jù)一致性〔精確一次處理、最少一次、最多一次〕以前DataTorrent公司開發(fā)的基于Apex的商業(yè)處理軟件,其代碼、文檔與架構(gòu)設計顯示,Apex在支持DevOps方面能夠把應用開發(fā)清楚的分離,用戶代碼通常不需要知道他在一個流媒體處理集群中運行。Malhar是一個相關(guān)項目,提供超過300種常用的實現(xiàn)共同的業(yè)務邏輯的應用程序模板。Malhar的庫可以顯著的減少開發(fā)Apex應用程序的時間,并且提供了連接各種存儲、文件系統(tǒng)、消息系統(tǒng)、數(shù)據(jù)庫的連接器和驅(qū)動程序。并且可以進行擴展或定制,以滿足個人業(yè)務的要求。所有的malhar組件都是Apache許可下使用。5.DruidDruid在今年二月轉(zhuǎn)為了商業(yè)友好的Apache許可證,是一個基于"事件流的混合引擎,能夠滿足OLAP解決方案。最初他主要應用于廣告市場的在線數(shù)據(jù)處理領域,德魯伊可以讓用戶基于時間序列數(shù)據(jù)做任意和互動的分析。一些關(guān)鍵的功能包括低延遲事件處理,快速聚合,近似和精確的計算。Druid的核心是一個使用專門的節(jié)點來處理每個部分的問題自定義的數(shù)據(jù)存儲。實時分析基于實時管理〔JVM〕節(jié)點來處理,最終數(shù)據(jù)會存儲在歷史節(jié)點中負責老的數(shù)據(jù)。代理節(jié)點直接查詢實時和歷史節(jié)點,給用戶一個完整的事件信息。測試表明50萬事件數(shù)據(jù)能夠在一秒內(nèi)處理完成,并且每秒處理能力可以達到100萬的峰值,Druid作為在線廣告處理、網(wǎng)絡流量和其他的活動流的理想實時處理平臺。6.FlinkFlink的核心是一個事件流數(shù)據(jù)流引擎。雖然表面上類似Spark,實際上Flink是采用不同的內(nèi)存中處理方法的。首先,Flink從設計開始就作為一個流處理器。批處理只是一個具有開始和結(jié)束狀態(tài)的流式處理的特殊情況,Flink提供了API來應對不同的應用場景,無論是API〔批處理〕和數(shù)據(jù)流API。MapReduce的世界的開發(fā)者們在面對DataSet處理API時應該有賓至如歸的感覺,并且將應用程序移植到Flink非常容易。在許多方面,Flink和Spark一樣,其的簡潔性和一致性使他廣受歡迎。像Spark一樣,Flink是用Scala寫的。7.Elasticsearch8Elasticsearch是基于ApacheLucene搜索分布式文件服務器。它的核心,Elasticsearch基于JSON格式的近乎實時的構(gòu)建了數(shù)據(jù)索引,能夠?qū)崿F(xiàn)快速全文檢索功能。結(jié)合開源KibanaBI顯示工具,您可以創(chuàng)建令人印象深刻的數(shù)據(jù)可視化界面。Elasticsearch易于設置和擴展,他能夠自動根據(jù)需要使用新的硬件來進行分片。他的查詢語法和SQL不太一樣,但它也是大家很熟悉的JSON。大多數(shù)用戶不會在那個級別進行數(shù)據(jù)交互。開發(fā)人員可以使用原生JSON-over-接口或常用的幾個開發(fā)語言進行交互,包括Ruby,Python,PHP,Perl,Java,JavaScript等。8.SlamData如果你正在尋找一個用戶友好的工具,能理解最新流行的NoSQL數(shù)據(jù)的可視化工具,那么你應該看一看SlamData。SlamData允許您用熟悉的SQL語法來進行JSON數(shù)據(jù)的嵌套查詢,不需要轉(zhuǎn)換或語法改造。該技術(shù)的主要特點之一是它的連接器。從MongoDB,HBase,Cassandra和Apache的Spark,SlamData同大多數(shù)業(yè)界標準的外部數(shù)據(jù)源可以方便的進行整合,并進行數(shù)據(jù)轉(zhuǎn)換和分析數(shù)據(jù)。你可能會問:"我不會有更好的數(shù)據(jù)池或數(shù)據(jù)倉庫工具嗎?請認清這是在NoSQL領域。9.DrillDrill是一種用于大型數(shù)據(jù)集的交互分析的分布式系統(tǒng),由谷歌的Dremel催生。Drill專為嵌套數(shù)據(jù)的低延遲分析設計,它有一個明確的設計目標,靈活的擴展到10000臺服務器來處理查詢記錄數(shù)據(jù),并支持兆級別的數(shù)據(jù)記錄。嵌套的數(shù)據(jù)可以從各種數(shù)據(jù)源獲得的〔如HDFS,HBase,AmazonS3,和Blobs〕和多種格式〔包括JSON,Avro,和buffers〕,你不需要在讀取時指定一個模式〔"讀時模式"〕。Drill使用ANSI2003SQL的查詢語言為基礎,所以數(shù)據(jù)工程師是沒有學習壓力的,它允許你連接查詢數(shù)據(jù)并跨多個數(shù)據(jù)源〔例如,連接HBase表和在HDFS中的日志〕。最后,Drill提供了基于ODBC和JDBC接口以和你所喜歡的BI工具對接。10.HBASEHBase在今年的里程碑達到1.X版本并持續(xù)改善。像其他的非關(guān)系型的分布式數(shù)據(jù)存儲一樣,HBase的查詢結(jié)果反饋非常迅速,因此擅長的是經(jīng)常用于后臺搜索引擎,如易趣網(wǎng),博科和雅虎等。作為一個穩(wěn)定的、成熟的軟件產(chǎn)品,HBase新鮮的功能并不是經(jīng)常出現(xiàn),但這種穩(wěn)定性往往是企業(yè)最關(guān)心的。最近的改進包括增加區(qū)域服務器改進高可用性,滾動升級支持,和YARN的兼容性提升。在他的特性更新方面包括掃描器更新,保證提高性能,使用HBase作為流媒體應用像Storm和Spark持久存儲的能力。HBase也可以通過Phoenix項目來支持SQL查詢,其SQL兼容性在穩(wěn)步提高。Phoenix最近增加了一個Spark連接器,添加了自定義函數(shù)的功能。11.Hive隨著Hive過去多年的發(fā)展,逐步成熟,今年發(fā)布了1.0正式版本,它用于基于SQL的數(shù)據(jù)倉庫領域。目前基金會主要集中在提升性能、可擴展性和SQL兼容性。最新的1.2版本顯著的提升了ACID語意兼容性、跨數(shù)據(jù)中心復制,以與以成本為基礎的優(yōu)化器。Hive1.2也帶來了改進的SQL的兼容性,使組織利用它更容易的把從現(xiàn)有的數(shù)據(jù)倉庫通過ETL工具進行轉(zhuǎn)移。在規(guī)劃中講主要改進:以內(nèi)存緩存為核心的速度改進LLAP,Spark的機器學習庫的集成,提高SQL的前嵌套子查詢、中間類型支持等。12.KylinKylin是eBay開發(fā)的用于處理非常大量數(shù)據(jù)的OLAP分析系統(tǒng),他使用標準的SQL語法,和很多數(shù)據(jù)分析產(chǎn)品很像。Kylin使用Hive和MR來構(gòu)建立方體,Hive用作預,MR用作預聚合,HDFS用來儲存構(gòu)建立方體時的中間文件,HBase用來存儲立方體,HBase的coprocessor〔協(xié)處理器〕用來響應查詢。像大多數(shù)其他的分析應用一樣,Kylin支持多種訪問方法,包括JDBC,ODBCAPI進行編程訪問以與RESTAPI接口。13.CDAPCDAP〔CaskDataAccessPlatform〕是一個在Hadoop之上運行的框架,抽象了建造和運行大數(shù)據(jù)應用的復雜性。CDAP圍繞兩個核心概念:數(shù)據(jù)和應用程序。CDAP數(shù)據(jù)集是數(shù)據(jù)的邏輯展現(xiàn),無論底層存儲層是什么樣的;CDAP提供實時數(shù)據(jù)流處理能力。應用程序使用CDAP服務來處理諸如分布式事務和服務發(fā)現(xiàn)等應用場景,避免程序開發(fā)者淹沒在Hadoop的底層細節(jié)中。CDAP自帶的數(shù)據(jù)攝取框架和一些預置的應用和一些通用的"包",例如ETL和分析,支持測試,調(diào)試和安全等。和大多數(shù)原商業(yè)〔閉源〕項目開源一樣,CDAP具有良好的文檔,教程,和例子。14.Ranger安全一直是Hadoop的一個痛處。它不是說〔像是經(jīng)常報道〕Hadoop是"不安全"或"不安全"。事實是,Hadoop有很多的安全功能,雖然這些安全功能都不太強大。我的意思是,每一個組件都有它自己的身份驗證和授權(quán)實施,這與其他的平臺沒有集成。2015年5月,Hortonworks收購XA/安全,隨后經(jīng)過了改名后,我們有了Ranger。Ranger使得許多Hadoop的關(guān)鍵部件處在一個保護傘下,它允許你設置一個"策略",把你的Hadoop安全綁定到到您現(xiàn)有的ACL基于活動目錄的身份驗證和授權(quán)體系下。Ranger給你一個地方管理Hadoop的訪問控制,通過一個漂亮的頁面來做管理、審計、加密。15.MesosMesos提供了高效、跨分布式應用程序和框架的資源隔離和共享,支持Hadoop、MPI、Hypertable、Spark等。Mesos是Apache孵化器中的一個開源項目,使用ZooKeeper實現(xiàn)容錯復制,使用LinuxContainers來隔離任務,支持多種資源計劃分配〔內(nèi)存和CPU〕。提供Java、Python和C++APIs來開發(fā)新的并行應用程序,提供基于Web的用戶界面來提查看集群狀態(tài)。Mesos應用程序〔框架〕為群集資源協(xié)調(diào)兩級調(diào)度機制,所以寫一個Mesos應用程序?qū)Τ绦騿T來說感覺不像是熟悉的體驗。雖然Mesos是新的項目,成長卻很快。16.NiFiApacheNiFi0.2.0發(fā)布了,該項目目前還處于Apache基金會的孵化階段。ApacheNiFi是一個易于使用、功能強大而且可靠的數(shù)據(jù)處理和分發(fā)系統(tǒng)。ApacheNiFi是為數(shù)據(jù)流設計。它支持高度可配置的指示圖的數(shù)據(jù)路由、轉(zhuǎn)換和系統(tǒng)中介邏輯。ApacheNiFi是由美國過國家安全局<NSA>貢獻給Apache基金會的開源項目,其設計目標是自動化系統(tǒng)間的數(shù)據(jù)流?;谄涔ぷ髁魇降木幊汤砟?NiFi非常易于使用,強大,可靠與高可配置。兩個最重要的特性是其強大的用戶界面與良好的數(shù)據(jù)回溯工具。NiFi的用戶界面允許用戶在瀏覽器中直觀的理解并與數(shù)據(jù)流舉行交互,更快速和安全的進行迭代。其數(shù)據(jù)回溯特性允許用戶查看一個對象如何在系統(tǒng)間流轉(zhuǎn),回放以與可視化關(guān)鍵步驟之前之后發(fā)生的情況,包括大量復雜的圖式轉(zhuǎn)換,fork,join與其他操作等。另外,NiFi使用基于組件的擴展模型以為復雜的數(shù)據(jù)流快速增加功能,開箱即用的組件中處理文件系統(tǒng)的包括FTP,SFTP與等,同樣也支持HDFS。NiFi獲得來來自業(yè)界的一致好評,包括HortonworksCEO,LeverageCTO與PrescientEdge首席系統(tǒng)架構(gòu)師等。17.Kafka在大數(shù)據(jù)領域,Kafka已經(jīng)成為分布式發(fā)布訂閱消息的事實標準。它的設計允許代理支持成千上萬的客戶在信息吞吐量告訴處理時,同時通過分布式提交日志保持耐久性。Kafka是通過在HDFS系統(tǒng)上保存單個日志文件,由于HDFS是一個分布式的存儲系統(tǒng),使數(shù)據(jù)的冗余拷貝,因此Kafka自身也是受到良好保護的。當消費者想讀消息時,Kafka在中央日志中查找其偏移量并發(fā)送它們。因為消息沒有被立即刪除,增加消費者或重發(fā)歷史信息不產(chǎn)生額外消耗。Kafka已經(jīng)為能夠每秒發(fā)送2百萬個消息。盡管Kafka的版本號是sub-1.0,但是其實Kafka是一個成熟、穩(wěn)定的產(chǎn)品,使用在一些世界上最大的集群中。18.OpenTSDBopentsdb是建立在時間序列基礎上的HBase數(shù)據(jù)庫。它是專為分析從應用程序,移動設備,網(wǎng)絡設備,和其他硬件設備收集的數(shù)據(jù)。它自定義HBase架構(gòu)用于存儲時間序列數(shù)據(jù),被設計為支持快速聚合和最小的存儲空間需求。通過使用HBase作為底層存儲層,opentsdb很好的支持分布與系統(tǒng)可靠性的特點。用戶不與HBase的直接互動;而數(shù)據(jù)寫入系統(tǒng)是通過時間序列的守護進程〔TSD〕來管理,它可以方便的擴展用于需要高速處理數(shù)據(jù)量的應用場景。有一些預制連接器將數(shù)據(jù)發(fā)布到opentsdb,并且支持從Ruby,Python以與其他語言的客戶端讀取數(shù)據(jù)。opentsdb并不擅長交互式圖形處理,但可以和第三方工具集成。如果你已經(jīng)在使用HBase和想要一個簡單的方法來存儲事件數(shù)據(jù),opentsdb也許正好適合你。19.Jupyter大家最喜歡的筆記應用程序都走了。jupyter是"IPython"剝離出來成為一個獨立的軟件包的語
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 政府機關(guān)物業(yè)管理項目服務方案
- 臨街商業(yè)店鋪轉(zhuǎn)租協(xié)議
- 音樂器材銷售合同
- 磚廠生產(chǎn)設備租賃協(xié)議
- 專業(yè)設備維修協(xié)議
- 高效權(quán)威測試技術(shù)服務合同
- 簡化版買賣合同樣式
- 雨棚工程招標公告
- 股權(quán)共享協(xié)議樣本
- 兼職招聘服務合同模板
- GB/T 18281.3-2024醫(yī)療保健產(chǎn)品滅菌生物指示物第3部分:濕熱滅菌用生物指示物
- 消防法知識課件
- 計量經(jīng)濟學練習題
- 關(guān)于禮儀培訓課件
- 2024年采購經(jīng)理競聘演講稿模版(2篇)
- 2024年天翼云從業(yè)者認證考試題庫大全(含答案)
- 【職教高考】專題復習卷《建筑識圖與構(gòu)造》 專題一 制圖基本知識 解析版
- 第一單元(知識點)-2024-2025學年統(tǒng)編版道德與法治七年級 上冊
- 第七單元測試卷-2024-2025學年語文四年級上冊(統(tǒng)編版)
- 北京市海淀區(qū)2023-2024學年高三上學期期末考試 英語 含答案
- 探索心理學的奧秘智慧樹知到期末考試答案章節(jié)答案2024年北京大學
評論
0/150
提交評論