Chapter1-廈門(mén)大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第1頁(yè)
Chapter1-廈門(mén)大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第2頁(yè)
Chapter1-廈門(mén)大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第3頁(yè)
Chapter1-廈門(mén)大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第4頁(yè)
Chapter1-廈門(mén)大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章大數(shù)據(jù)技術(shù)概述

提綱1.1大數(shù)據(jù)時(shí)代1.2大數(shù)據(jù)概念1.3大數(shù)據(jù)的影響1.4大數(shù)據(jù)關(guān)鍵技術(shù)1.5大數(shù)據(jù)計(jì)算模式1.6代表性大數(shù)據(jù)技術(shù)1.1大數(shù)據(jù)時(shí)代1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點(diǎn),IT領(lǐng)域每隔十五年就會(huì)迎來(lái)一次重大變革信息化浪潮發(fā)生時(shí)間標(biāo)志解決問(wèn)題代表企業(yè)第一次浪潮1980年前后個(gè)人計(jì)算機(jī)信息處理Intel、AMD、IBM、蘋(píng)果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場(chǎng)標(biāo)桿企業(yè)表1三次信息化浪潮1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-1存儲(chǔ)價(jià)格隨時(shí)間變化情況1.存儲(chǔ)設(shè)備容量不斷增加1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐來(lái)自斯威本科技大學(xué)(SwinburneUniversityofTechnology)的研究團(tuán)隊(duì),在2013年6月29日刊出的《自然通訊(NatureCommunications)》雜志的文章中,描述了一種全新的數(shù)據(jù)存儲(chǔ)方式,可將1PB(1024TB)的數(shù)據(jù)存儲(chǔ)到一張僅DVD大小的聚合物碟片上。1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖CPU晶體管數(shù)目隨時(shí)間變化情況2.CPU處理能力大幅提升

1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖

網(wǎng)絡(luò)帶寬隨時(shí)間變化情況3.網(wǎng)絡(luò)帶寬不斷增加1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來(lái)臨圖

數(shù)據(jù)產(chǎn)生方式的變革1.2大數(shù)據(jù)概念1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測(cè),數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說(shuō)每?jī)赡昃驮鲩L(zhǎng)一倍(大數(shù)據(jù)摩爾定律)人類(lèi)在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長(zhǎng)近30倍1.2.2數(shù)據(jù)類(lèi)型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類(lèi)信息密切相關(guān)科學(xué)研究–基因組–LHC加速器–地球與空間探測(cè)企業(yè)應(yīng)用–Email、文檔、文件–應(yīng)用日志–交易記錄Web1.0數(shù)據(jù)–文本–圖像–視頻Web2.0數(shù)據(jù)–查詢(xún)?nèi)罩?點(diǎn)擊流–Twitter/Blog/SNS–Wiki1.2.3 處理速度快從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少1秒定律:這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同1.2.4 價(jià)值密度低

價(jià)值密度低,商業(yè)價(jià)值高

以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價(jià)值繼續(xù)裝ing1.3大數(shù)據(jù)的影響

圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫(kù)專(zhuān)家JimGray博士觀察并總結(jié)人類(lèi)自古以來(lái),在科學(xué)研究上,先后歷經(jīng)了實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)四種范式實(shí)驗(yàn)理論計(jì)算數(shù)據(jù)1.3大數(shù)據(jù)的影響在思維方式方面,大數(shù)據(jù)完全顛覆了傳統(tǒng)的思維方式:全樣而非抽樣效率而非精確相關(guān)而非因果1.4大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技術(shù)層面功能數(shù)據(jù)采集利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ);或者也可以把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時(shí)處理分析數(shù)據(jù)存儲(chǔ)和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、云數(shù)據(jù)庫(kù)等,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)處理與分析利用分布式并行編程模型和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理和分析;對(duì)分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)數(shù)據(jù)隱私和安全在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價(jià)值和學(xué)術(shù)價(jià)值的同時(shí),構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全1.4大數(shù)據(jù)關(guān)鍵技術(shù)分布式存儲(chǔ)分布式處理GFS\HDFSBigTable\HBaseNoSQL(鍵值、列族、圖形、文檔數(shù)據(jù)庫(kù))NewSQL(如:SQLAzure)MapReduce大數(shù)據(jù)兩大核心技術(shù)1.5大數(shù)據(jù)計(jì)算模式大數(shù)據(jù)計(jì)算模式解決問(wèn)題代表產(chǎn)品批處理計(jì)算針對(duì)大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計(jì)算針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺(tái)等圖計(jì)算針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢(xún)分析計(jì)算大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢(xún)分析Dremel、Hive、Cassandra、Impala等表1-3大數(shù)據(jù)計(jì)算模式及其代表產(chǎn)品1.6代表性大數(shù)據(jù)技術(shù)1.6.1Hadoop1.6.2Spark1.6.3Flink1.6.4Beam1.6.1Hadoop圖Hadoop生態(tài)系統(tǒng)1.6.1Hadoop——MapReduce圖MapReduce工作流程ShuffleMapReduce將復(fù)雜的、運(yùn)行于大規(guī)模集群上的并行計(jì)算過(guò)程高度地抽象到了兩個(gè)函數(shù):Map和Reduce編程容易,不需要掌握分布式并行編程細(xì)節(jié),也可以很容易把自己的程序運(yùn)行在分布式系統(tǒng)上,完成海量數(shù)據(jù)的計(jì)算MapReduce采用“分而治之”策略,一個(gè)存儲(chǔ)在分布式文件系統(tǒng)中的大規(guī)模數(shù)據(jù)集,會(huì)被切分成許多獨(dú)立的分片(split),這些分片可以被多個(gè)Map任務(wù)并行處理1.6.1Hadoop——YARN一個(gè)企業(yè)當(dāng)中同時(shí)存在各種不同的業(yè)務(wù)應(yīng)用場(chǎng)景,需要采用不同的計(jì)算框架MapReduce實(shí)現(xiàn)離線批處理使用Impala實(shí)現(xiàn)實(shí)時(shí)交互式查詢(xún)分析使用Storm實(shí)現(xiàn)流式數(shù)據(jù)實(shí)時(shí)分析使用Spark實(shí)現(xiàn)迭代計(jì)算這些產(chǎn)品通常來(lái)自不同的開(kāi)發(fā)團(tuán)隊(duì),具有各自的資源調(diào)度管理機(jī)制為了避免不同類(lèi)型應(yīng)用之間互相干擾,企業(yè)就需要把內(nèi)部的服務(wù)器拆分成多個(gè)集群,分別安裝運(yùn)行不同的計(jì)算框架,即“一個(gè)框架一個(gè)集群”導(dǎo)致問(wèn)題集群資源利用率低數(shù)據(jù)無(wú)法共享維護(hù)代價(jià)高YARN的目標(biāo)就是實(shí)現(xiàn)“一個(gè)集群多個(gè)框架”,為什么?圖

在YARN上部署各種計(jì)算框架YARN的目標(biāo)就是實(shí)現(xiàn)“一個(gè)集群多個(gè)框架”,即在一個(gè)集群上部署一個(gè)統(tǒng)一的資源調(diào)度管理框架YARN,在YARN之上可以部署其他各種計(jì)算框架由YARN為這些計(jì)算框架提供統(tǒng)一的資源調(diào)度管理服務(wù),并且能夠根據(jù)各種計(jì)算框架的負(fù)載需求,調(diào)整各自占用的資源,實(shí)現(xiàn)集群資源共享和資源彈性收縮可以實(shí)現(xiàn)一個(gè)集群上的不同應(yīng)用負(fù)載混搭,有效提高了集群的利用率不同計(jì)算框架可以共享底層存儲(chǔ),避免了數(shù)據(jù)集跨集群移動(dòng)1.6.1Hadoop——YARN1.6.2SparkSpark架構(gòu)圖1.6.2SparkSpark生態(tài)系統(tǒng)1.6.2SparkHadoop存在如下一些缺點(diǎn):表達(dá)能力有限磁盤(pán)IO開(kāi)銷(xiāo)大延遲高任務(wù)之間的銜接涉及IO開(kāi)銷(xiāo)在前一個(gè)任務(wù)執(zhí)行完成之前,其他任務(wù)就無(wú)法開(kāi)始,難以勝任復(fù)雜、多階段的計(jì)算任務(wù)

Hadoop與Spark的對(duì)比1.6.2SparkSpark在借鑒Hadoop

MapReduce優(yōu)點(diǎn)的同時(shí),很好地解決了MapReduce所面臨的問(wèn)題相比于Hadoop

MapReduce,Spark主要具有如下優(yōu)點(diǎn):Spark的計(jì)算模式也屬于MapReduce,但不局限于Map和Reduce操作,還提供了多種數(shù)據(jù)集操作類(lèi)型,編程模型比Hadoop

MapReduce更靈活Spark提供了內(nèi)存計(jì)算,可將中間結(jié)果放到內(nèi)存中,對(duì)于迭代運(yùn)算效率更高Spark基于DAG的任務(wù)調(diào)度執(zhí)行機(jī)制,要優(yōu)于Hadoop

MapReduce的迭代執(zhí)行機(jī)制

Hadoop與Spark的對(duì)比1.6.2Spark圖Hadoop與Spark的執(zhí)行流程對(duì)比1.6.2Spark圖Hadoop與Spark執(zhí)行邏輯回歸的時(shí)間對(duì)比使用Hadoop進(jìn)行迭代計(jì)算非常耗資源Spark將數(shù)據(jù)載入內(nèi)存后,之后的迭代計(jì)算都可以直接使用內(nèi)存中的中間結(jié)果作運(yùn)算,避免了從磁盤(pán)中頻繁讀取數(shù)據(jù)1.6.3FlinkFlink架構(gòu)圖1.6.3FlinkFlink生態(tài)系統(tǒng)1.6.3FlinkFlink與Spark的比較1.6.3FlinkSpark和Flink全部都運(yùn)行在HadoopYARN上,性能為Flink>Spark>Hadoop(MR),迭代次數(shù)越多越明顯,性能上,F(xiàn)link優(yōu)于Spark和Hadoop最主要的原因是Flink支持增量迭代,具有對(duì)迭代自動(dòng)優(yōu)化的功能。性能對(duì)比首先它們都可以基于內(nèi)存計(jì)算框架進(jìn)行實(shí)時(shí)計(jì)算,所以都擁有非常好的計(jì)算性能。經(jīng)過(guò)測(cè)試,F(xiàn)link計(jì)算性能上略好。1.6.3Flink流式計(jì)算比較它們都支持流式計(jì)算,F(xiàn)link是一行一行處理,而Spark是基于數(shù)據(jù)片集合(RDD)進(jìn)行小批量處理,所以Spark在流式

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論