大數(shù)據(jù)職業(yè)發(fā)展方向_第1頁
大數(shù)據(jù)職業(yè)發(fā)展方向_第2頁
大數(shù)據(jù)職業(yè)發(fā)展方向_第3頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)職業(yè)開展方向一、大數(shù)據(jù)的概念及特點(diǎn):大數(shù)據(jù)本身就是一個很抽象的概念, 提及大數(shù)據(jù)很多人也只能從數(shù)據(jù)量上去感知大數(shù)據(jù) 的規(guī)模, 大數(shù)據(jù)被定義為 “代表著人類認(rèn)知過程的進(jìn)步, 數(shù)據(jù)集的規(guī)模是無法在可容忍的時 間內(nèi)用目前的技術(shù)、方法和理論去獲取、管理、處理的數(shù)據(jù)。大數(shù)據(jù)不是一種新技術(shù), 也不是一種新產(chǎn)品, 而是一種新現(xiàn)象, 是近來研究的一個技術(shù) 熱點(diǎn)。大數(shù)據(jù)具有以下 4 個特點(diǎn),即 4 個“ V:(1) 數(shù)據(jù)體量 (Volumes) 巨大。大型數(shù)據(jù)集,從 TB 級別,躍升到 PB 級別。(2) 數(shù)據(jù)類別 (Variety) 繁多。數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式?jīng)_破了以前所限定 的結(jié)構(gòu)化數(shù)據(jù)

2、范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。(3) 價值 (Value) 密度低。 以視頻為例, 連續(xù)不間斷監(jiān)控過程中, 可能有用的數(shù)據(jù)僅僅一 兩秒鐘。(4) 處理速度 (Velocity) 快。包含大量在線或?qū)崟r數(shù)據(jù)分析處理的需求,1 秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、 、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或 者承載的方式。二、大數(shù)據(jù)處理流程:從大數(shù)據(jù)的特征和產(chǎn)生領(lǐng)域來看, 大數(shù)據(jù)的來源相當(dāng)廣泛, 由此產(chǎn)生的數(shù)據(jù)類型和應(yīng)用 處理方法千差萬別。 但是總的來說, 大數(shù)據(jù)的根本處理流程大都是一致的。 整個處理流

3、程可 以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,最后是數(shù)據(jù)挖掘。三、大數(shù)據(jù)分解結(jié)構(gòu):第一層面是理論, 理論是認(rèn)知的必經(jīng)途徑, 也是被廣泛認(rèn)同和傳播的基線。 我會從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性; 從對大數(shù)據(jù)價值的探討來深入解析大數(shù) 據(jù)的珍貴所在; 從對大數(shù)據(jù)的現(xiàn)在和未來去洞悉大數(shù)據(jù)的開展趨勢; 從大數(shù)據(jù)隱私這個特別 而重要的視角審視人和數(shù)據(jù)之間的長久博弈。我將分別從云計(jì)算、 分處理、 存儲到形成結(jié)果的第二層面是技術(shù), 技術(shù)是大數(shù)據(jù)價值表達(dá)的手段和前進(jìn)的基石。布式處理技術(shù)、 存儲技術(shù)和感知技術(shù)的開展來說明大數(shù)據(jù)從采集、 整個過程。第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價值

4、表達(dá)。實(shí)踐(Utilization)弘個人的大數(shù)據(jù) 弘企業(yè)的大鱷 厶政疽的犬?dāng)?shù)據(jù)互聯(lián)網(wǎng)的大散據(jù)2價值探討 柔現(xiàn)在和禾來斗丸翊Jr理論(Theory)i 30-00=T云g技術(shù)(Technology)四、大數(shù)據(jù)相關(guān)的技術(shù):1、云技術(shù)一一大數(shù)據(jù)常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時的大型數(shù)據(jù)集分析需要分布式處理框架來向數(shù)十、 數(shù)百或甚至數(shù)萬的電腦分配工作。可以說,云計(jì)算充當(dāng)了工業(yè)革命時期的發(fā)動機(jī)的角色,而大數(shù)據(jù)那么是電。2、分布式處理技術(shù): 分布式處理系統(tǒng)可以將不同地點(diǎn)的或具有不同功能的或擁有 不同數(shù)據(jù)的多臺電腦用通信網(wǎng)絡(luò)連接起來, 在控制系統(tǒng)的統(tǒng)一管理控制下, 協(xié)調(diào)地完成信息 處理任務(wù) -這就是分布式處

5、理系統(tǒng)的定義。目前最常用的是 Hadoop 技術(shù), Hadoop 是一個實(shí)現(xiàn)了 MapReduce 模式的能夠?qū)Υ罅繑?shù) 據(jù)進(jìn)行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop 用到的一些技術(shù)有:HDFS: Hadoop分布式文件系統(tǒng) Distributed File System- HDFS HadoopDistributed FileSystemMap Reduce:并行計(jì)算框架HBase:類似Google BigTable的分布式 NoSQL列數(shù)據(jù)庫。Hive:數(shù)據(jù)倉庫工具。Zookeeper:分布式鎖設(shè)施,提供類似Google Chubby的功能。Avro:

6、新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機(jī)制。Pig:大數(shù)據(jù)分析平臺,為用戶提供多種接口。Ambari:Hadoop 管理工具,可以快捷的監(jiān)控、部署、管理集群。Sqoop:用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的傳遞。3、存儲技術(shù)大數(shù)據(jù)可以抽象的分為大數(shù)據(jù)存儲和大數(shù)據(jù)分析,這兩者的關(guān)系是: 大數(shù)據(jù)存儲的目的是支撐大數(shù)據(jù)分析。4、感知技術(shù) 大數(shù)據(jù)的采集和感知技術(shù)的開展是緊密聯(lián)系的。以傳感器技術(shù),指紋 識別技術(shù),RFID技術(shù),坐標(biāo)定位技術(shù)等為根底的感知能力提升同樣是物聯(lián)網(wǎng)開展的基石。五、大數(shù)據(jù)人才方向:目前,大數(shù)據(jù)方面主要有五大人才方向: 大數(shù)據(jù)核心研發(fā)方向系統(tǒng)研發(fā) ;

7、 大數(shù)據(jù)性能調(diào)優(yōu)方向; 大數(shù)據(jù)挖掘、分析方向; 大數(shù)據(jù)運(yùn)維、云計(jì)算方向 數(shù)據(jù)分析師方向 CDA、 CPDA大數(shù)據(jù)是一項(xiàng)基于 Java的分布式架構(gòu)技術(shù),用來管理及分析海量數(shù)據(jù)。大數(shù)據(jù)核心研發(fā)系統(tǒng)研發(fā)方向:根底課程篇:1、 Java根底課程大數(shù)據(jù)任何方向必學(xué)內(nèi)容2、Linux根底一一根底課程大數(shù)據(jù)任何方向必學(xué)內(nèi)容3、 Shell編程一一從程序員的角度來看,Shell本身是一種用 C語言編寫的程序,從用 戶的角度來看,ShelI是用戶與Linux操作系統(tǒng)溝通的橋梁。用戶既可以輸入命令執(zhí) 行,又可以利用 Shell腳本編程,完成更加復(fù)雜的操作。軟件語言篇:4、 Hadoop是一個開發(fā)和運(yùn)行處理大規(guī)模數(shù)

8、據(jù)的軟件平臺,是Appach的一個用java語言實(shí)現(xiàn)開源軟件框架,實(shí)現(xiàn)在大量電腦組成的集群中對海量數(shù)據(jù)進(jìn)行分布式計(jì)算。5、HDFS6、YARN7、Map Reduce8ETL數(shù)據(jù)倉庫技術(shù)9、Hive數(shù)據(jù)倉庫工具10、Sqoop11、Flume12、HBase13、Storm14、Scala15、KafkaMQ16、Spark17、Spark核心源碼剖析18、CM管理19、CDH集群HDFSHadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodityhardware) 上的分布式文件系統(tǒng)。全 稱: Hadoop Distributed File System簡 稱: hd

9、fs實(shí) 質(zhì): 分布式文件系統(tǒng)作 用: 作為 Apache Nutch 的根底架構(gòu)特 點(diǎn): 高容錯性適 用: 大規(guī)模數(shù)據(jù)集原理:HDFS就像一個傳統(tǒng)的分級文件系統(tǒng)??梢詣?chuàng)立、刪除、移動或重命名文件,等等。HDFS是Hadoop兼容最好的標(biāo)準(zhǔn)文件系統(tǒng),因?yàn)?Hadoop是一個綜 合性的文件系統(tǒng)抽象, 所以HDFS不是Hadoop必須的。所以也可以理解為Hadoop是一個框架,HDFS是Hadoop中的一個部件。優(yōu) 點(diǎn):1存儲超大文件,存儲文件為TB,甚至PB;2流式數(shù)據(jù)讀取,一次寫入屢次讀取,是最高效的訪問模式;3商用硬件,設(shè)計(jì)運(yùn)行普通的廉價的PC上。缺 點(diǎn): 1數(shù)據(jù)訪問延遲高,設(shè)計(jì)于大吞吐量數(shù)據(jù)

10、的,這是以一定的延遲為代價;2 文件數(shù)受限,存儲的文件總數(shù)受限于 NameNode 的內(nèi)存容量;3不支持多用戶寫入,也不支持任意修改文件。替代品:1DataStax不是文件系統(tǒng),而是一個開源的代碼,NoSQL鍵/值存儲,依靠快速的數(shù)據(jù)訪問。2 CEPH 一個開源代碼,是一家名為 Inktank 做多種存儲系統(tǒng)的商業(yè)軟件。 其特點(diǎn)是高性能并行文件系統(tǒng)。3Dispersed Storage Network Cleversafe 這一新產(chǎn)品將 Hadoop MapReduce與企業(yè)分散存儲網(wǎng)絡(luò)系統(tǒng)相融合??邕^集群完全分配元數(shù)據(jù),也不依賴于復(fù)制,Cleversafe 認(rèn)為與 HDFS相比,Disper

11、sed Storage Network 的速度 更快,更可靠。4 Lustre 是一個開發(fā)源代碼的高性能文件系統(tǒng),一些人聲稱在性能敏感區(qū)域其可以作為 HDFS的一個替代方案。YARNApache Hadoop YARN 另一種資源協(xié)調(diào)者 是一種新的 Hadoop 資源管理器, 它 是一個通用資源管理系統(tǒng), 可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度, 它的引入為集群在利 用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。YARN從某種那個意義上來說應(yīng)該算做是一個云操作系統(tǒng),它負(fù)責(zé)集群的資源管理。實(shí) 質(zhì):一種新的 Hadoop 資源管理器作 用:修復(fù) MapReduce 實(shí)現(xiàn)里的明顯缺乏,并對可伸縮性

12、支持一萬個節(jié)點(diǎn)和二十萬個 內(nèi)核的集群、可靠性和集群利用率進(jìn)行了提升缺 點(diǎn):這種架構(gòu)存在缺乏,主要表現(xiàn)在大型集群上。當(dāng)集群包含的節(jié)點(diǎn)超過4,000 個時其中每個節(jié)點(diǎn)可能是多核的 ,就會表現(xiàn)出一定的不可預(yù)測性。其中一個最大的 問題是級聯(lián)故障, 由于要嘗試復(fù)制數(shù)據(jù)和重載活動的節(jié)點(diǎn), 所以一個故障會通過網(wǎng) 絡(luò)泛洪形式導(dǎo)致整個集群嚴(yán)重惡化。優(yōu) 點(diǎn):大大減小了 JobTracker也就是現(xiàn)在的 ResourceManager的資源消耗,并且讓監(jiān) 測每一個 Job 子任務(wù) (tasks) 狀態(tài)的程序分布式化了,更平安、更優(yōu)美。MapReduceMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集大于1TB的并

13、行運(yùn)算。概念"Map 映射"和"Reduce歸約,是它們的主要思想,都是從函數(shù)式編程語言里借來的,還 有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況 下,將自己的程序運(yùn)行在分布式系統(tǒng)上。本 質(zhì):一種編程模型用 途:大規(guī)模數(shù)據(jù)集的并行運(yùn)算特 點(diǎn):分布可靠應(yīng) 用:大規(guī)模的算法圖形處理、文字處理等 主要功能: 1數(shù)據(jù)劃分和計(jì)算任務(wù)調(diào)度;2數(shù)據(jù) / 代碼互定位; 3系統(tǒng)優(yōu)化; 4出錯檢測和恢復(fù)。技術(shù)特點(diǎn): 1 向“外橫向擴(kuò)展,而非向“上縱向擴(kuò)展 2失效被認(rèn)為是常態(tài)3把處理向數(shù)據(jù)遷移 4順序處理數(shù)據(jù)、防止隨機(jī)訪問數(shù)據(jù) 5為應(yīng)用開發(fā)者隱藏系統(tǒng)層

14、細(xì)節(jié) 6平滑無縫的可擴(kuò)展性ETL數(shù)據(jù)倉庫技術(shù)用來描述將數(shù)據(jù)從來源端經(jīng)過抽取 extract 、轉(zhuǎn)換 transform 、加載 load 至目的端的過程。ETL 一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。ETL 是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán), 用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù), 經(jīng)過數(shù)據(jù)清洗 , 最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。軟件名稱: Extract-Transform-Load過 程:數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、裝載應(yīng) 用: Informatica 、 Datastage 、OW、B數(shù)據(jù)集成:快速實(shí)現(xiàn) ETL特 性:正確性、 完整性、 一致性、 完備性、 有效性、 時

15、效性和可獲取性等幾個特性。 影響特性原因: 業(yè)務(wù)系統(tǒng)不同時期系統(tǒng)之間數(shù)據(jù)模型不一致; 業(yè)務(wù)系統(tǒng)不同時期業(yè)務(wù)過 程有變化; 舊系統(tǒng)模塊在運(yùn)營、 人事、財務(wù)、辦公系統(tǒng)等相關(guān)信息的不 一致;遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來的不一致性。轉(zhuǎn)換過程: 1空值處理:可捕獲字段空值,進(jìn)行加載或替換為其他含義數(shù)據(jù),并可根 據(jù)字段空值實(shí)現(xiàn)分流加載到不同目標(biāo)庫。2標(biāo)準(zhǔn)化數(shù)據(jù)格式: 可實(shí)現(xiàn)字段格式約束定義,對于數(shù)據(jù)源中時間、數(shù)值、 字符等數(shù)據(jù),可自定義加載格式。3拆分?jǐn)?shù)據(jù):依據(jù)業(yè)務(wù)需求對字段可進(jìn)行分解 4驗(yàn)證數(shù)據(jù)正確性:可利用 Lookup 及拆分功能進(jìn)行數(shù)據(jù)驗(yàn)證 5數(shù)據(jù)替換:對于因業(yè)務(wù)因素,可實(shí)現(xiàn)無效數(shù)

16、據(jù)、缺失數(shù)據(jù)的替換。6Lookup :查獲喪失數(shù)據(jù) Lookup實(shí)現(xiàn)子查詢,并返回用其他手段獲取的 缺失字段,保證字段完整性。7建立ETL過程的主外鍵約束:對無依賴性的非法數(shù)據(jù),可替換或?qū)С龅藉e誤數(shù)據(jù)文件中,保證主鍵唯一記錄的加載。功能特點(diǎn): 1管理簡單2標(biāo)準(zhǔn)定義數(shù)據(jù) 3拓展新型應(yīng)用Hive 數(shù)據(jù)倉庫工具h(yuǎn)ive 是基于 Hadoop 的一個數(shù)據(jù)倉庫工具, 可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的 sql查詢功能,可以將 sql語句轉(zhuǎn)換為 MapReduce任務(wù)進(jìn)行運(yùn)行。Hive 是建立在 Hadoop 上的數(shù)據(jù)倉庫根底構(gòu)架。它提供了一系列的工具,可以用來進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載 E

17、TL,這是一種可以存儲、 查詢和分析存儲在 Hadoop中的大規(guī)模數(shù) 據(jù)的機(jī)制。兼容性: hadoop 生態(tài)圈依 賴: jdk , hadoop定 義: 在 Hadoop 上的數(shù)據(jù)倉庫根底構(gòu)架適 用: Hive 構(gòu)建在基于靜態(tài)批處理的 Hadoop 之上, Hadoop 通常都有較高的延遲 并且在作業(yè)提交和調(diào)度的時候需要大量的開銷。 因此, Hive 并不能夠在大規(guī) 模數(shù)據(jù)集上實(shí)現(xiàn)低延遲快速的查詢。特 性: 1支持索引,加快數(shù)據(jù)查詢。2不同的存儲類型,例如,純文本文件、HBase 中的文件。3將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫中,大大減少了在查詢過程中執(zhí)行語義檢查的時間。4可以直接使用存儲在 Hadoo

18、p 文件系統(tǒng)中的數(shù)據(jù)。5內(nèi)置大量用戶函數(shù) UDF 來操作時間、字符串和其他的數(shù)據(jù)挖掘工具,支 持用戶擴(kuò)展 UDF 函數(shù)來完成內(nèi)置函數(shù)無法實(shí)現(xiàn)的操作。6類SQL的查詢方式,將 SQL查詢轉(zhuǎn)換為 Map Reduce的job 在Hadoop集 群上執(zhí)行。體系結(jié)構(gòu): 1用戶接口用戶接口主要有三個: CLI, Client 和 WUI2 元數(shù)據(jù)存儲 Hive 將元數(shù)據(jù)存儲在數(shù)據(jù)庫中,如 mysql 、 derby3 解釋器、 編譯器、 優(yōu)化器、 執(zhí)行器解釋器、 編譯器、 優(yōu)化器完成 HQL查詢語句從詞法分析、語法分析、編譯、優(yōu)化以及查詢方案的生成。生 成的查詢方案存儲在 HDFS 中,并在隨后由 Ma

19、pReduce 調(diào)用執(zhí)行。SqoopSqoop 是一款開源的工具,主要用于在Hadoop(Hive) 與傳統(tǒng)的數(shù)據(jù)庫 (mysql 、postgresql.)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫例如 :MySQLOracle ,Postgres 等中的數(shù)據(jù)導(dǎo)進(jìn)到 Hadoop的HDFS中,也可以將 HDFS勺數(shù)據(jù) 導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。特 點(diǎn):可以通過 hadoop 的 mapreduce 把數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)到HDFS。flumeFlume 是 Cloudera 提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,

20、用于收集數(shù)據(jù);同時,F(xiàn)lume 提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方可定制的能力。中文名:水槽特 點(diǎn):聚合和傳輸?shù)南到y(tǒng)實(shí) 質(zhì):孵化工程是經(jīng)濟(jì)方面的用于 , 一項(xiàng)鑒定成功,付諸實(shí)施的工程。功 能: 1日志收集;2數(shù)據(jù)處理HBaseHBase是一個分布式的、面向列的開源數(shù)據(jù)庫,一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同 的是HBase基于列的而不是基于行的模式。結(jié) 構(gòu):分布式存儲系統(tǒng)優(yōu) 點(diǎn):HBase - Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉

21、價PCServer上搭建起大規(guī) 模結(jié)構(gòu)化存儲集群。模 型:邏輯模型主要從用戶角度出發(fā);物理模型一一主要從實(shí)現(xiàn) Hbase的角度來討論;StormStorm 是一個分布式的,可靠的,容錯的數(shù)據(jù)流處理系統(tǒng)。它會把工作任務(wù)委托給 不同類型的組件,每個組件負(fù)責(zé)處理一項(xiàng)簡單特定的任務(wù)。 Storm 集群的輸入流由一個被稱 作 spout 的組件管理, spout 把數(shù)據(jù)傳遞給 bolt , bolt 要么把數(shù)據(jù)保存到某種存儲器,要 么把數(shù)據(jù)傳遞給其它的 bolt 。優(yōu) 點(diǎn):1簡單的編程模型。類似于 Map Reduce降低了并行批處理復(fù)雜性,Storm降低了進(jìn)行實(shí)時處理的復(fù)雜性。2可以使用各種編程語言。

22、你可以在Storm 之上使用各種編程語言。默認(rèn)支持 Clojure、Java、Ruby和Python。要增加對其他語言的支持, 只需實(shí)現(xiàn)一個簡單的 Storm 通信協(xié)議即可。3容錯性。 Storm 會管理工作進(jìn)程和節(jié)點(diǎn)的故障。4水平擴(kuò)展。計(jì)算是在多個線程、進(jìn)程和效勞器之間并行進(jìn)行的。 5可靠的消息處理。Storm 保證每個消息至少能得到一次完整處理。任務(wù)失敗時,它會負(fù)責(zé)從消息源重試消息。6快速。系統(tǒng)的設(shè)計(jì)保證了消息能得到快速的處理,使用?MQ作為其底層消息隊(duì)列。7本地模式。 Storm 有一個“本地模式 ,可以在處理過程中完全模擬 Storm 集群。這讓你可以快速進(jìn)行開發(fā)和單元測試。缺 點(diǎn):

23、1單調(diào)乏味性;2 脆弱性;3 可伸縮性差;使用性: Storm 有許多應(yīng)用領(lǐng)域,包括實(shí)時分析、在線機(jī)器學(xué)習(xí)、信息流處理、連 續(xù)性的計(jì)算、分布式 RPC ETL等。術(shù) 語: Storm 的術(shù)語包括 Stream 、Spout 、Bolt 、Task、Worker、Stream Grouping 和 Topology 。同 品:可以和 Storm 相提并論的系統(tǒng)有 Esper 、Streambase 、HStreaming 和 YahooS4。其中和Storm最接近的就是 S4。ScalaScala 是一門多范式的編程語言,一種類似 java 的編程語言,設(shè)計(jì)初衷是實(shí)現(xiàn)可 伸縮的語言、并集成面向?qū)ο缶幊毯秃?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論