大數(shù)據(jù)技術(shù)的發(fā)展史_第1頁
大數(shù)據(jù)技術(shù)的發(fā)展史_第2頁
大數(shù)據(jù)技術(shù)的發(fā)展史_第3頁
大數(shù)據(jù)技術(shù)的發(fā)展史_第4頁
大數(shù)據(jù)技術(shù)的發(fā)展史_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)的發(fā)展史演講人2020-11-02起源01Google在2004年前后發(fā)表的三篇論文,也就是我們經(jīng)常聽到的“三駕馬車”分布式文件系統(tǒng)GFS大數(shù)據(jù)分布式計(jì)算框架MapReduceNoSQL數(shù)據(jù)庫系統(tǒng)BigTable搜索引擎主要就做兩件事情一個是網(wǎng)頁抓取,一個是索引構(gòu)建這兩件事情,涉及到大量數(shù)據(jù)的存儲和計(jì)算而“三駕馬車”其實(shí)就是用來解決這個問題的,一個文件系統(tǒng)、一個計(jì)算框架、一個數(shù)據(jù)庫系統(tǒng)起源Hadoop誕生02Hadoop誕生01040203當(dāng)時的天才程序員,也是Lucene開源項(xiàng)目的創(chuàng)始人DougCutting正在開發(fā)開源搜索引擎Nutch,閱讀了Google的論文后,他非常興奮,緊接著就根據(jù)論文原理初步實(shí)現(xiàn)了類似GFS和MapReduce的功能2006年,DougCutting將這些大數(shù)據(jù)相關(guān)的功能從Nutch中分離了出來,然后啟動了一個獨(dú)立的項(xiàng)目專門開發(fā)維護(hù)大數(shù)據(jù)技術(shù),這就是后來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計(jì)算引擎MapReduceHadoop是使用Java編寫的Hadoop發(fā)布之后,Yahoo很快就用了起來。大概又過了一年到了2007年,百度和阿里巴巴也開始使用Hadoop進(jìn)行大數(shù)據(jù)存儲與計(jì)算。Hadoop誕生No.12008年,Hadoop正式成為Apache的頂級項(xiàng)目,后來DougCutting本人也成為了Apache基金會的主席。自此,Hadoop作為軟件開發(fā)領(lǐng)域的一顆明星冉冉升起。No.2同年,專門運(yùn)營Hadoop的商業(yè)公司Cloudera成立,Hadoop得到進(jìn)一步的商業(yè)支持。Pig誕生03Yahoo的一些人覺得用MapReduce進(jìn)行大數(shù)據(jù)編程太麻煩了,于是便開發(fā)了Pig。Pig是一種腳本語言,使用類SQL的語法,開發(fā)者可以用Pig腳本描述要對大數(shù)據(jù)集上進(jìn)行的操作,Pig經(jīng)過編譯后會生成MapReduce程序,然后在Hadoop上運(yùn)行。Pig誕生Hive誕生04Hive誕生編寫Pig腳本雖然比直接MapReduce編程容易,但是依然需要學(xué)習(xí)新的腳本語法。于是Facebook又發(fā)布了Hive。Hive支持使用SQL語法來進(jìn)行大數(shù)據(jù)計(jì)算,比如說你可以寫個Select語句進(jìn)行數(shù)據(jù)查詢,然后Hive會把SQL語句轉(zhuǎn)化成MapReduce的計(jì)算程序。這樣,熟悉數(shù)據(jù)庫的數(shù)據(jù)分析師和工程師便可以無門檻地使用大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和處理了。Hive出現(xiàn)后極大程度地降低了Hadoop的使用難度,迅速得到開發(fā)者和企業(yè)的追捧。據(jù)說,2011年的時候,F(xiàn)acebook大數(shù)據(jù)平臺上運(yùn)行的作業(yè)90%都來源于Hive。Sqoop誕生05專門將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入導(dǎo)出到Hadoop平臺Sqoop誕生Flume誕生06針對大規(guī)模日志進(jìn)行分布式收集、聚合和傳輸Flume誕生Oozie誕生07MapReduce工作流調(diào)度引擎Oozie誕生Yarn誕生08在Hadoop早期,MapReduce既是一個執(zhí)行引擎,又是一個資源調(diào)度框架,服務(wù)器集群的資源調(diào)度管理由MapReduce自己完成。但是這樣不利于資源復(fù)用,也使得MapReduce非常臃腫。于是一個新項(xiàng)目啟動了,將MapReduce執(zhí)行引擎和資源調(diào)度分離開來,這就是Yarn。2012年,Yarn成為一個獨(dú)立的項(xiàng)目開始運(yùn)營,隨后被各類大數(shù)據(jù)產(chǎn)品支持,成為大數(shù)據(jù)平臺上最主流的資源調(diào)度系統(tǒng)。Yarn誕生Spark誕生092012年,UC伯克利AMP實(shí)驗(yàn)室(Algorithms、Machine和People的縮寫)開發(fā)的Spark開始嶄露頭角。當(dāng)時AMP實(shí)驗(yàn)室的馬鐵博士發(fā)現(xiàn)使用MapReduce進(jìn)行機(jī)器學(xué)習(xí)計(jì)算的時候性能非常差,因?yàn)闄C(jī)器學(xué)習(xí)算法通常需要進(jìn)行很多次的迭代計(jì)算,而MapReduce每執(zhí)行一次Map和Reduce計(jì)算都需要重新啟動一次作業(yè),帶來大量的無謂消耗。還有一點(diǎn)就是MapReduce主要使用磁盤作為存儲介質(zhì),而2012年的時候,內(nèi)存已經(jīng)突破容量和成本限制,成為數(shù)據(jù)運(yùn)行過程中主要的存儲介質(zhì)。Spark一經(jīng)推出,立即受到業(yè)界的追捧,并逐步替代MapReduce在企業(yè)應(yīng)用中的地位。Spark誕生兩類計(jì)算10兩類計(jì)算大數(shù)據(jù)實(shí)時計(jì)算/大數(shù)據(jù)流計(jì)算大數(shù)據(jù)離線計(jì)算/批處理計(jì)算一般說來,像MapReduce、Spark這類計(jì)算框架處理的業(yè)務(wù)場景都被稱作批處理計(jì)算,因?yàn)樗鼈兺ǔa槍σ浴疤臁睘閱挝划a(chǎn)生的數(shù)據(jù)進(jìn)行一次計(jì)算,然后得到需要的結(jié)果,這中間計(jì)算需要花費(fèi)的時間大概是幾十分鐘甚至更長的時間。因?yàn)橛?jì)算的數(shù)據(jù)是非在線得到的實(shí)時數(shù)據(jù),而是歷史數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)離線計(jì)算。另外一類應(yīng)用場景,它們需要對實(shí)時產(chǎn)生的大量數(shù)據(jù)進(jìn)行即時計(jì)算,比如對于遍布城市的監(jiān)控攝像頭進(jìn)行人臉識別和嫌犯追蹤。這類計(jì)算稱為大數(shù)據(jù)流計(jì)算,相應(yīng)地,有Storm、Flink、SparkStreaming等流計(jì)算框架來滿足此類大數(shù)據(jù)應(yīng)用的場景。流式計(jì)算要處理的數(shù)據(jù)是實(shí)時在線產(chǎn)生的數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)實(shí)時計(jì)算。在典型的大數(shù)據(jù)的業(yè)務(wù)場景下,數(shù)據(jù)業(yè)務(wù)最通用的做法是,采用批處理的技術(shù)處理歷史全量數(shù)據(jù),采用流式計(jì)算處理實(shí)時新增數(shù)據(jù)。而像Flink這樣的計(jì)算引擎,可以同時支持流式計(jì)算和批處理計(jì)算。

兩類計(jì)算NoSQL系統(tǒng)11NoSQL系統(tǒng)No.1NoSQL系統(tǒng)處理的主要也是大規(guī)模海量數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論