大數(shù)據(jù)職業(yè)發(fā)展方向_第1頁
大數(shù)據(jù)職業(yè)發(fā)展方向_第2頁
大數(shù)據(jù)職業(yè)發(fā)展方向_第3頁
大數(shù)據(jù)職業(yè)發(fā)展方向_第4頁
大數(shù)據(jù)職業(yè)發(fā)展方向_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)職業(yè)發(fā)展方向一、大數(shù)據(jù)的概念及特點(diǎn):大數(shù)據(jù)本身就是一個(gè)很抽象的概念,提及大數(shù)據(jù)很多人也只能從數(shù)據(jù)量上去感知大數(shù)據(jù)的規(guī)模,大數(shù)據(jù)被定義為“代表著人類認(rèn)知過程的進(jìn)步,數(shù)據(jù)集的規(guī)模是無法在可容忍的時(shí)間內(nèi)用目前的技術(shù)、方法和理論去獲取、管理、處理的數(shù)據(jù)。大數(shù)據(jù)不是一種新技術(shù),也不是一種新產(chǎn)品,而是一種新現(xiàn)象,是近來研究的一個(gè)技術(shù)熱點(diǎn)。大數(shù)據(jù)具有以下4個(gè)特點(diǎn),即4個(gè)“V”: (1) 數(shù)據(jù)體量(Volumes) 巨大。大型數(shù)據(jù)集,從TB級別,躍升到PB級別。 (2) 數(shù)據(jù)類別(Variety) 繁多。數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式?jīng)_破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

2、(3) 價(jià)值(Value) 密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅一兩秒鐘。 (4) 處理速度(Velocity) 快。包含大量在線或?qū)崟r(shí)數(shù)據(jù)分析處理的需求,1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。二、大數(shù)據(jù)處理流程: 從大數(shù)據(jù)的特征和產(chǎn)生領(lǐng)域來看,大數(shù)據(jù)的來源相當(dāng)廣泛,由此產(chǎn)生的數(shù)據(jù)類型和應(yīng)用處理方法千差萬別。但是總的來說,大數(shù)據(jù)的基本處理流程大都是一致的。整個(gè)處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,最

3、后是數(shù)據(jù)挖掘。三、大數(shù)據(jù)分解結(jié)構(gòu): 第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。我會從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價(jià)值的探討來深入解析大數(shù)據(jù)的珍貴所在;從對大數(shù)據(jù)的現(xiàn)在和未來去洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。我將分別從云計(jì)算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個(gè)過程。第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。 。四、大數(shù)據(jù)相關(guān)的技術(shù):1、云技術(shù)大數(shù)據(jù)常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型

4、數(shù)據(jù)集分析需要分布式處理框架來向數(shù)十、數(shù)百或甚至數(shù)萬的電腦分配工作??梢哉f,云計(jì)算充當(dāng)了工業(yè)革命時(shí)期的發(fā)動機(jī)的角色,而大數(shù)據(jù)則是電。2、分布式處理技術(shù):分布式處理系統(tǒng)可以將不同地點(diǎn)的或具有不同功能的或擁有不同數(shù)據(jù)的多臺計(jì)算機(jī)用通信網(wǎng)絡(luò)連接起來,在控制系統(tǒng)的統(tǒng)一管理控制下,協(xié)調(diào)地完成信息處理任務(wù)-這就是分布式處理系統(tǒng)的定義。目前最常用的是Hadoop技術(shù),Hadoop是一個(gè)實(shí)現(xiàn)了MapReduce模式的能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop用到的一些技術(shù)有:HDFS: Hadoop分布式文件系統(tǒng)(Distributed File Syst

5、em) - HDFS (HadoopDistributed File System)MapReduce:并行計(jì)算框架HBase: 類似Google BigTable的分布式NoSQL列數(shù)據(jù)庫。Hive:數(shù)據(jù)倉庫工具。Zookeeper:分布式鎖設(shè)施,提供類似Google Chubby的功能。Avro:新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機(jī)制。Pig:大數(shù)據(jù)分析平臺,為用戶提供多種接口。Ambari:Hadoop管理工具,可以快捷的監(jiān)控、部署、管理集群。Sqoop:用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的傳遞。3、存儲技術(shù)大數(shù)據(jù)可以抽象的分為大數(shù)據(jù)存儲和大數(shù)據(jù)分析

6、,這兩者的關(guān)系是:大數(shù)據(jù)存儲的目的是支撐大數(shù)據(jù)分析。4、感知技術(shù)大數(shù)據(jù)的采集和感知技術(shù)的發(fā)展是緊密聯(lián)系的。以傳感器技術(shù),指紋識別技術(shù),RFID技術(shù),坐標(biāo)定位技術(shù)等為基礎(chǔ)的感知能力提升同樣是物聯(lián)網(wǎng)發(fā)展的基石。五、大數(shù)據(jù)人才方向:目前,大數(shù)據(jù)方面主要有五大人才方向: 大數(shù)據(jù)核心研發(fā)方向(系統(tǒng)研發(fā)); 大數(shù)據(jù)性能調(diào)優(yōu)方向; 大數(shù)據(jù)挖掘、分析方向; 大數(shù)據(jù)運(yùn)維、云計(jì)算方向 數(shù)據(jù)分析師方向(CDA、CPDA)大數(shù)據(jù)是一項(xiàng)基于Java的分布式架構(gòu)技術(shù),用來管理及分析海量數(shù)據(jù)。大數(shù)據(jù)核心研發(fā)(系統(tǒng)研發(fā))方向:基礎(chǔ)課程篇:1、 Java基礎(chǔ)課程(大數(shù)據(jù)任何方向必學(xué)內(nèi)容)2、 Linux基礎(chǔ)基礎(chǔ)課程(大數(shù)據(jù)任何

7、方向必學(xué)內(nèi)容)3、 Shell編程從程序員的角度來看, Shell本身是一種用C語言編寫的程序,從用戶的角度來看,Shell是用戶與Linux操作系統(tǒng)溝通的橋梁。用戶既可以輸入命令執(zhí)行,又可以利用 Shell腳本編程,完成更加復(fù)雜的操作。軟件語言篇:4、 Hadoop是一個(gè)開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺,是Appach的一個(gè)用java語言實(shí)現(xiàn)開源軟件框架,實(shí)現(xiàn)在大量計(jì)算機(jī)組成的集群中對海量數(shù)據(jù)進(jìn)行分布式計(jì)算。5、 HDFS6、 YARN7、 MapReduce8、 ETL(數(shù)據(jù)倉庫技術(shù))9、 Hive(數(shù)據(jù)倉庫工具)10、Sqoop11、Flume12、HBase13、Storm14、Sc

8、ala15、KafkaMQ16、Spark17、Spark核心源碼剖析18、CM管理19、CDH集群HDFSHadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。全 稱: Hadoop Distributed File System 簡 稱: hdfs 實(shí) 質(zhì): 分布式文件系統(tǒng) 作 用: 作為Apache Nutch的基礎(chǔ)架構(gòu) 特 點(diǎn): 高容錯(cuò)性 適 用: 大規(guī)模數(shù)據(jù)集原 理: HDFS就像一個(gè)傳統(tǒng)的分級文件系統(tǒng)??梢詣?chuàng)建、刪除、移動或重命名文件,等等。HDFS是Hadoop兼容最好的標(biāo)準(zhǔn)文件系統(tǒng),因?yàn)镠adoop是一個(gè)綜合

9、性的文件系統(tǒng)抽象,所以HDFS不是Hadoop必須的。所以也可以理解為Hadoop是一個(gè)框架,HDFS是Hadoop中的一個(gè)部件。優(yōu) 點(diǎn):1)存儲超大文件,存儲文件為TB,甚至PB;2)流式數(shù)據(jù)讀取,一次寫入多次讀取,是最高效的訪問模式;3)商用硬件,設(shè)計(jì)運(yùn)行普通的廉價(jià)的PC上。缺 點(diǎn):1)數(shù)據(jù)訪問延遲高,設(shè)計(jì)于大吞吐量數(shù)據(jù)的,這是以一定的延遲為代價(jià); 2)文件數(shù)受限,存儲的文件總數(shù)受限于NameNode的內(nèi)存容量; 3)不支持多用戶寫入,也不支持任意修改文件。替代品:1)DataStax不是文件系統(tǒng),而是一個(gè)開源的代碼,NoSQL鍵/值存儲,依靠快速的數(shù)據(jù)訪問。 2)CEPH 一個(gè)開源代碼,

10、是一家名為Inktank做多種存儲系統(tǒng)的商業(yè)軟件。其特點(diǎn)是高性能并行文件系統(tǒng)。 3)Dispersed Storage Network Cleversafe這一新產(chǎn)品將Hadoop MapReduce與企業(yè)分散存儲網(wǎng)絡(luò)系統(tǒng)相融合??邕^集群完全分配元數(shù)據(jù),也不依賴于復(fù)制,Cleversafe認(rèn)為與HDFS相比,Dispersed Storage Network的速度更快,更可靠。 4)Lustre 是一個(gè)開發(fā)源代碼的高性能文件系統(tǒng),一些人聲稱在性能敏感區(qū)域其可以作為HDFS的一個(gè)替代方案。YARN Apache Hadoop YARN (另一種資源協(xié)調(diào)者)是一種新的 Hadoop 資源管理器,它

11、是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。YARN從某種那個(gè)意義上來說應(yīng)該算做是一個(gè)云操作系統(tǒng),它負(fù)責(zé)集群的資源管理。實(shí) 質(zhì):一種新的Hadoop資源管理器作 用:修復(fù)MapReduce實(shí)現(xiàn)里的明顯不足,并對可伸縮性(支持一萬個(gè)節(jié)點(diǎn)和二十萬個(gè)內(nèi)核的集群)、可靠性和集群利用率進(jìn)行了提升缺 點(diǎn):這種架構(gòu)存在不足,主要表現(xiàn)在大型集群上。當(dāng)集群包含的節(jié)點(diǎn)超過 4,000 個(gè)時(shí)(其中每個(gè)節(jié)點(diǎn)可能是多核的),就會表現(xiàn)出一定的不可預(yù)測性。其中一個(gè)最大的問題是級聯(lián)故障,由于要嘗試復(fù)制數(shù)據(jù)和重載活動的節(jié)點(diǎn),所以一個(gè)故障會通過

12、網(wǎng)絡(luò)泛洪形式導(dǎo)致整個(gè)集群嚴(yán)重惡化。優(yōu) 點(diǎn):大大減小了 JobTracker(也就是現(xiàn)在的 ResourceManager)的資源消耗,并且讓監(jiān)測每一個(gè) Job 子任務(wù) (tasks) 狀態(tài)的程序分布式化了,更安全、更優(yōu)美。MapReduce MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。本 質(zhì):一種編程模型 用 途

13、:大規(guī)模數(shù)據(jù)集的并行運(yùn)算 特 點(diǎn):分布可靠應(yīng) 用:大規(guī)模的算法圖形處理、文字處理等主要功能:1)數(shù)據(jù)劃分和計(jì)算任務(wù)調(diào)度; 2)數(shù)據(jù)/代碼互定位; 3)系統(tǒng)優(yōu)化; 4)出錯(cuò)檢測和恢復(fù)。技術(shù)特點(diǎn):1)向“外”橫向擴(kuò)展,而非向“上”縱向擴(kuò)展 2)失效被認(rèn)為是常態(tài)3)把處理向數(shù)據(jù)遷移4)順序處理數(shù)據(jù)、避免隨機(jī)訪問數(shù)據(jù)5)為應(yīng)用開發(fā)者隱藏系統(tǒng)層細(xì)節(jié)6)平滑無縫的可擴(kuò)展性 ETL(數(shù)據(jù)倉庫技術(shù)) 用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。 ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽

14、取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。軟件名稱:Extract-Transform-Load 過 程:數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、裝載 應(yīng) 用:Informatica、Datastage、OWB、 數(shù)據(jù)集成:快速實(shí)現(xiàn)ETL特 性:正確性、完整性、一致性、完備性、有效性、時(shí)效性和可獲取性等幾個(gè)特性。影響特性原因:業(yè)務(wù)系統(tǒng)不同時(shí)期系統(tǒng)之間數(shù)據(jù)模型不一致;業(yè)務(wù)系統(tǒng)不同時(shí)期業(yè)務(wù)過程有變化;舊系統(tǒng)模塊在運(yùn)營、人事、財(cái)務(wù)、辦公系統(tǒng)等相關(guān)信息的不一致;遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來的不一致性。轉(zhuǎn)換過程:1)空值處理:可捕獲字段空值,進(jìn)行加載或替換為

15、其他含義數(shù)據(jù),并可根據(jù)字段空值實(shí)現(xiàn)分流加載到不同目標(biāo)庫。2)規(guī)范化數(shù)據(jù)格式:可實(shí)現(xiàn)字段格式約束定義,對于數(shù)據(jù)源中時(shí)間、數(shù)值、字符等數(shù)據(jù),可自定義加載格式。3)拆分?jǐn)?shù)據(jù):依據(jù)業(yè)務(wù)需求對字段可進(jìn)行分解4)驗(yàn)證數(shù)據(jù)正確性:可利用Lookup及拆分功能進(jìn)行數(shù)據(jù)驗(yàn)證5)數(shù)據(jù)替換:對于因業(yè)務(wù)因素,可實(shí)現(xiàn)無效數(shù)據(jù)、缺失數(shù)據(jù)的替換。6)Lookup:查獲丟失數(shù)據(jù) Lookup實(shí)現(xiàn)子查詢,并返回用其他手段獲取的缺失字段,保證字段完整性。7)建立ETL過程的主外鍵約束:對無依賴性的非法數(shù)據(jù),可替換或?qū)С龅藉e(cuò)誤數(shù)據(jù)文件中,保證主鍵唯一記錄的加載。功能特點(diǎn):1)管理簡單2)標(biāo)準(zhǔn)定義數(shù)據(jù)3)拓展新型應(yīng)用Hive(數(shù)據(jù)倉

16、庫工具)hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。兼容性: hadoop生態(tài)圈 依 賴: jdk,hadoop 定 義: 在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架適 用: Hive 構(gòu)建在基于靜態(tài)批處理的Hadoop 之上,Hadoop 通常都有較高的延遲并且在作業(yè)提交和調(diào)度的時(shí)候需要

17、大量的開銷。因此,Hive 并不能夠在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)低延遲快速的查詢。特 性:1)支持索引,加快數(shù)據(jù)查詢。2)不同的存儲類型,例如,純文本文件、HBase 中的文件。3)將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫中,大大減少了在查詢過程中執(zhí)行語義檢查的時(shí)間。4)可以直接使用存儲在Hadoop 文件系統(tǒng)中的數(shù)據(jù)。5)內(nèi)置大量用戶函數(shù)UDF 來操作時(shí)間、字符串和其他的數(shù)據(jù)挖掘工具,支持用戶擴(kuò)展UDF 函數(shù)來完成內(nèi)置函數(shù)無法實(shí)現(xiàn)的操作。6)類SQL 的查詢方式,將SQL 查詢轉(zhuǎn)換為MapReduce 的job 在Hadoop集群上執(zhí)行。體系結(jié)構(gòu):1)用戶接口用戶接口主要有三個(gè):CLI,Client 和 WUI 2

18、)元數(shù)據(jù)存儲Hive 將元數(shù)據(jù)存儲在數(shù)據(jù)庫中,如 mysql、derby 3)解釋器、編譯器、優(yōu)化器、執(zhí)行器解釋器、編譯器、優(yōu)化器完成 HQL 查詢語句從詞法分析、語法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃存儲在 HDFS 中,并在隨后由 MapReduce 調(diào)用執(zhí)行。SqoopSqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql.)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。 特 點(diǎn)

19、:可以通過hadoop的mapreduce把數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)到HDFS。flume Flume是Cloudera提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。 中文名:水槽 特 點(diǎn):聚合和傳輸?shù)南到y(tǒng) 實(shí) 質(zhì):孵化項(xiàng)目是經(jīng)濟(jì)方面的用于,一項(xiàng)鑒定成功,付諸實(shí)施的項(xiàng)目。功 能:1)日志收集;2)數(shù)據(jù)處理 HBase HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它

20、是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個(gè)不同的是HBase基于列的而不是基于行的模式。 結(jié) 構(gòu):分布式存儲系統(tǒng) 優(yōu) 點(diǎn):HBase Hadoop Database,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。 模 型:邏輯模型主要從用戶角度出發(fā); 物理模型主要從實(shí)現(xiàn)Hbase的角度來討論;StormStorm是一個(gè)分布式的,可靠的,容錯(cuò)的數(shù)據(jù)流處理系統(tǒng)。它會把工作任務(wù)委托給不同類型的組件,每個(gè)組件負(fù)責(zé)處理一項(xiàng)簡單特定的任務(wù)。Storm集群的輸入流由一個(gè)被稱作spout的組件管理,spout把數(shù)據(jù)傳遞給bo

21、lt, bolt要么把數(shù)據(jù)保存到某種存儲器,要么把數(shù)據(jù)傳遞給其它的bolt。優(yōu) 點(diǎn):1)簡單的編程模型。類似于MapReduce降低了并行批處理復(fù)雜性,Storm降低了進(jìn)行實(shí)時(shí)處理的復(fù)雜性。2)可以使用各種編程語言。你可以在Storm之上使用各種編程語言。默認(rèn)支持Clojure、Java、Ruby和Python。要增加對其他語言的支持,只需實(shí)現(xiàn)一個(gè)簡單的Storm通信協(xié)議即可。3)容錯(cuò)性。Storm會管理工作進(jìn)程和節(jié)點(diǎn)的故障。4)水平擴(kuò)展。計(jì)算是在多個(gè)線程、進(jìn)程和服務(wù)器之間并行進(jìn)行的。5)可靠的消息處理。Storm保證每個(gè)消息至少能得到一次完整處理。任務(wù)失敗時(shí),它會負(fù)責(zé)從消息源重試消息。6)快

22、速。系統(tǒng)的設(shè)計(jì)保證了消息能得到快速的處理,使用ØMQ作為其底層消息隊(duì)列。7)本地模式。Storm有一個(gè)“本地模式”,可以在處理過程中完全模擬Storm集群。這讓你可以快速進(jìn)行開發(fā)和單元測試。 缺 點(diǎn):1)單調(diào)乏味性; 2)脆弱性; 3)可伸縮性差; 使用性:Storm有許多應(yīng)用領(lǐng)域,包括實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、信息流處理、連續(xù)性的計(jì)算、分布式RPC、ETL等。 術(shù) 語:Storm的術(shù)語包括Stream、Spout、Bolt、Task、Worker、Stream Grouping和Topology。 同 品:可以和Storm相提并論的系統(tǒng)有Esper、Streambase、HStreaming和Yahoo S4。其中和Storm最接近的就是S4。ScalaScala是一門多范式的編程語言,一種類似java的編程語言,設(shè)計(jì)初衷是實(shí)現(xiàn)可伸縮的語言、并集成面向?qū)ο缶幊毯秃瘮?shù)式編程的各種特性。 類 型:編

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論