版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)的發(fā)展史演講人2020-11-02起源01Google在2004年前后發(fā)表的三篇論文,也就是我們經(jīng)常聽到的“三駕馬車”分布式文件系統(tǒng)GFS大數(shù)據(jù)分布式計(jì)算框架MapReduceNoSQL數(shù)據(jù)庫系統(tǒng)BigTable搜索引擎主要就做兩件事情一個是網(wǎng)頁抓取,一個是索引構(gòu)建這兩件事情,涉及到大量數(shù)據(jù)的存儲和計(jì)算而“三駕馬車”其實(shí)就是用來解決這個問題的,一個文件系統(tǒng)、一個計(jì)算框架、一個數(shù)據(jù)庫系統(tǒng)起源Hadoop誕生02Hadoop誕生01040203當(dāng)時的天才程序員,也是Lucene開源項(xiàng)目的創(chuàng)始人DougCutting正在開發(fā)開源搜索引擎Nutch,閱讀了Google的論文后,他非常興奮,緊接著就根據(jù)論文原理初步實(shí)現(xiàn)了類似GFS和MapReduce的功能2006年,DougCutting將這些大數(shù)據(jù)相關(guān)的功能從Nutch中分離了出來,然后啟動了一個獨(dú)立的項(xiàng)目專門開發(fā)維護(hù)大數(shù)據(jù)技術(shù),這就是后來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計(jì)算引擎MapReduceHadoop是使用Java編寫的Hadoop發(fā)布之后,Yahoo很快就用了起來。大概又過了一年到了2007年,百度和阿里巴巴也開始使用Hadoop進(jìn)行大數(shù)據(jù)存儲與計(jì)算。Hadoop誕生No.12008年,Hadoop正式成為Apache的頂級項(xiàng)目,后來DougCutting本人也成為了Apache基金會的主席。自此,Hadoop作為軟件開發(fā)領(lǐng)域的一顆明星冉冉升起。No.2同年,專門運(yùn)營Hadoop的商業(yè)公司Cloudera成立,Hadoop得到進(jìn)一步的商業(yè)支持。Pig誕生03Yahoo的一些人覺得用MapReduce進(jìn)行大數(shù)據(jù)編程太麻煩了,于是便開發(fā)了Pig。Pig是一種腳本語言,使用類SQL的語法,開發(fā)者可以用Pig腳本描述要對大數(shù)據(jù)集上進(jìn)行的操作,Pig經(jīng)過編譯后會生成MapReduce程序,然后在Hadoop上運(yùn)行。Pig誕生Hive誕生04Hive誕生編寫Pig腳本雖然比直接MapReduce編程容易,但是依然需要學(xué)習(xí)新的腳本語法。于是Facebook又發(fā)布了Hive。Hive支持使用SQL語法來進(jìn)行大數(shù)據(jù)計(jì)算,比如說你可以寫個Select語句進(jìn)行數(shù)據(jù)查詢,然后Hive會把SQL語句轉(zhuǎn)化成MapReduce的計(jì)算程序。這樣,熟悉數(shù)據(jù)庫的數(shù)據(jù)分析師和工程師便可以無門檻地使用大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和處理了。Hive出現(xiàn)后極大程度地降低了Hadoop的使用難度,迅速得到開發(fā)者和企業(yè)的追捧。據(jù)說,2011年的時候,F(xiàn)acebook大數(shù)據(jù)平臺上運(yùn)行的作業(yè)90%都來源于Hive。Sqoop誕生05專門將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入導(dǎo)出到Hadoop平臺Sqoop誕生Flume誕生06針對大規(guī)模日志進(jìn)行分布式收集、聚合和傳輸Flume誕生Oozie誕生07MapReduce工作流調(diào)度引擎Oozie誕生Yarn誕生08在Hadoop早期,MapReduce既是一個執(zhí)行引擎,又是一個資源調(diào)度框架,服務(wù)器集群的資源調(diào)度管理由MapReduce自己完成。但是這樣不利于資源復(fù)用,也使得MapReduce非常臃腫。于是一個新項(xiàng)目啟動了,將MapReduce執(zhí)行引擎和資源調(diào)度分離開來,這就是Yarn。2012年,Yarn成為一個獨(dú)立的項(xiàng)目開始運(yùn)營,隨后被各類大數(shù)據(jù)產(chǎn)品支持,成為大數(shù)據(jù)平臺上最主流的資源調(diào)度系統(tǒng)。Yarn誕生Spark誕生092012年,UC伯克利AMP實(shí)驗(yàn)室(Algorithms、Machine和People的縮寫)開發(fā)的Spark開始嶄露頭角。當(dāng)時AMP實(shí)驗(yàn)室的馬鐵博士發(fā)現(xiàn)使用MapReduce進(jìn)行機(jī)器學(xué)習(xí)計(jì)算的時候性能非常差,因?yàn)闄C(jī)器學(xué)習(xí)算法通常需要進(jìn)行很多次的迭代計(jì)算,而MapReduce每執(zhí)行一次Map和Reduce計(jì)算都需要重新啟動一次作業(yè),帶來大量的無謂消耗。還有一點(diǎn)就是MapReduce主要使用磁盤作為存儲介質(zhì),而2012年的時候,內(nèi)存已經(jīng)突破容量和成本限制,成為數(shù)據(jù)運(yùn)行過程中主要的存儲介質(zhì)。Spark一經(jīng)推出,立即受到業(yè)界的追捧,并逐步替代MapReduce在企業(yè)應(yīng)用中的地位。Spark誕生兩類計(jì)算10兩類計(jì)算大數(shù)據(jù)實(shí)時計(jì)算/大數(shù)據(jù)流計(jì)算大數(shù)據(jù)離線計(jì)算/批處理計(jì)算一般說來,像MapReduce、Spark這類計(jì)算框架處理的業(yè)務(wù)場景都被稱作批處理計(jì)算,因?yàn)樗鼈兺ǔa槍σ浴疤臁睘閱挝划a(chǎn)生的數(shù)據(jù)進(jìn)行一次計(jì)算,然后得到需要的結(jié)果,這中間計(jì)算需要花費(fèi)的時間大概是幾十分鐘甚至更長的時間。因?yàn)橛?jì)算的數(shù)據(jù)是非在線得到的實(shí)時數(shù)據(jù),而是歷史數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)離線計(jì)算。另外一類應(yīng)用場景,它們需要對實(shí)時產(chǎn)生的大量數(shù)據(jù)進(jìn)行即時計(jì)算,比如對于遍布城市的監(jiān)控攝像頭進(jìn)行人臉識別和嫌犯追蹤。這類計(jì)算稱為大數(shù)據(jù)流計(jì)算,相應(yīng)地,有Storm、Flink、SparkStreaming等流計(jì)算框架來滿足此類大數(shù)據(jù)應(yīng)用的場景。流式計(jì)算要處理的數(shù)據(jù)是實(shí)時在線產(chǎn)生的數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)實(shí)時計(jì)算。在典型的大數(shù)據(jù)的業(yè)務(wù)場景下,數(shù)據(jù)業(yè)務(wù)最通用的做法是,采用批處理的技術(shù)處理歷史全量數(shù)據(jù),采用流式計(jì)算處理實(shí)時新增數(shù)據(jù)。而像Flink這樣的計(jì)算引擎,可以同時支持流式計(jì)算和批處理計(jì)算。
兩類計(jì)算NoSQL系統(tǒng)11NoSQL系統(tǒng)No.1NoSQL系統(tǒng)處理的主要也是大規(guī)模海量數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 同居生子分手協(xié)議書電子版
- 天津市小型建設(shè)工程合同的適用范圍
- 《地鐵設(shè)施設(shè)備系統(tǒng)》課件
- 2025年宜春貨運(yùn)從業(yè)資格證模擬考試題目
- 2025年隴南道路貨物運(yùn)輸從業(yè)資格證考試
- 2025年瀘州貨物從業(yè)資格證考試題
- 動物屠宰產(chǎn)業(yè)升級
- 智能家居投資管理辦法
- 挖掘機(jī)地鐵建設(shè)施工合同
- 汽車行業(yè)市場調(diào)研全解析
- 2024-2025學(xué)年高二上學(xué)期期末數(shù)學(xué)試卷(提高篇)(含答案)
- 2025年安全生產(chǎn)目標(biāo)實(shí)施計(jì)劃
- 福建百校2025屆高三12月聯(lián)考?xì)v史試卷(含答案解析)
- 2024年山西省建筑安全員《B證》考試題庫及答案
- 2023年益陽市安化縣招聘鄉(xiāng)鎮(zhèn)衛(wèi)生院護(hù)理人員筆試真題
- 《基于PLC的智能交通燈控制系統(tǒng)設(shè)計(jì)》10000字(論文)
- 首都經(jīng)濟(jì)貿(mào)易大學(xué)《微積分》2021-2022學(xué)年第一學(xué)期期末試卷
- 人音版音樂七年級上冊《父親的草原母親的河》課件
- 2024年度短視頻內(nèi)容創(chuàng)作服務(wù)合同3篇
- 介入治療并發(fā)癥
- 鑄牢中華民族共同體意識-形考任務(wù)1-國開(NMG)-參考資料
評論
0/150
提交評論