Hadoop大數(shù)據(jù)開(kāi)發(fā)基礎(chǔ)Hadoop基礎(chǔ)Hadoop簡(jiǎn)介及架構(gòu)_第1頁(yè)
Hadoop大數(shù)據(jù)開(kāi)發(fā)基礎(chǔ)Hadoop基礎(chǔ)Hadoop簡(jiǎn)介及架構(gòu)_第2頁(yè)
Hadoop大數(shù)據(jù)開(kāi)發(fā)基礎(chǔ)Hadoop基礎(chǔ)Hadoop簡(jiǎn)介及架構(gòu)_第3頁(yè)
Hadoop大數(shù)據(jù)開(kāi)發(fā)基礎(chǔ)Hadoop基礎(chǔ)Hadoop簡(jiǎn)介及架構(gòu)_第4頁(yè)
Hadoop大數(shù)據(jù)開(kāi)發(fā)基礎(chǔ)Hadoop基礎(chǔ)Hadoop簡(jiǎn)介及架構(gòu)_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

VIP免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)-Hadoop基礎(chǔ)2024/4/16一Hadoop核心組件目錄Hadoop簡(jiǎn)介二Hadoop生態(tài)圈三Hadoop應(yīng)用場(chǎng)景四Hadoop發(fā)展歷程Hadoop背景Hadoop簡(jiǎn)介Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)地分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)地情況下,開(kāi)發(fā)分布式程序。充分利用集群地威力行高速運(yùn)算與存儲(chǔ)。它地目地是從單一地服務(wù)器擴(kuò)展到成千上萬(wàn)地機(jī)器,將集群部署在多臺(tái)機(jī)器,每個(gè)機(jī)器提供本地計(jì)算與存儲(chǔ)。Hadoop框架最核心地設(shè)計(jì)是HDFS與MapReduce。為什么使用Hadoop數(shù)據(jù)存量與增量極大極大數(shù)據(jù)需要存儲(chǔ)與分析Hadoop可以存儲(chǔ)并處理大量數(shù)據(jù)Hadoop編程簡(jiǎn)單易學(xué)原因Hadoop特點(diǎn)Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)行分布式處理地軟件框架。Hadoop是可靠地,因?yàn)樗僭O(shè)計(jì)算元素與存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗地節(jié)點(diǎn)重新分布處理。Hadoop是高效地,因?yàn)樗圆⑿械胤绞焦ぷ?通過(guò)并行處理加快處理速度。Hadoop還是可伸縮地,Hadoop是在可用地計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)地,所以集群可以很容易行節(jié)點(diǎn)地?cái)U(kuò)展,擴(kuò)大集群。能夠處理

PB

級(jí)數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務(wù),因此它地成本比較低,任何都可以使用。一Hadoop核心組件目錄Hadoop簡(jiǎn)介二Hadoop生態(tài)圈三Hadoop應(yīng)用場(chǎng)景四Hadoop簡(jiǎn)介—核心Hadoopmon是一個(gè)公基礎(chǔ)設(shè)施,用于支撐其它項(xiàng)目,包括RPC,序列化包等分布式計(jì)算框架;主要包含map(映射)與reduce(規(guī)約)過(guò)程可擴(kuò)展,容錯(cuò),高能地分布式文件系統(tǒng),異步復(fù)制,一次寫(xiě)入多次讀取Hadoop分布式文件系統(tǒng)--HDFS分布式文件系統(tǒng)(HDFS,HadoopDistributedFileSystem)高度容錯(cuò)地系統(tǒng)上傳地?cái)?shù)據(jù)自動(dòng)保存多個(gè)副本,適合部署在廉價(jià)地機(jī)器上。適合大數(shù)據(jù)地處理高吞吐量地?cái)?shù)據(jù)訪問(wèn),非常適合大規(guī)模數(shù)據(jù)集上地應(yīng)用。流式文件寫(xiě)入一次寫(xiě)入,多次讀取。文件一旦寫(xiě)入,不能修改,只能增加。這樣可以保證數(shù)據(jù)地一致。Hadoop分布式文件系統(tǒng)--HDFS對(duì)外部客戶機(jī)而言,HDFS就像一個(gè)傳統(tǒng)地分級(jí)文件系統(tǒng)??梢詣?chuàng)建,刪除,移動(dòng)或重命名文件,等等。NameNode,用于存儲(chǔ)元數(shù)據(jù)以及處理客戶端發(fā)出地請(qǐng)求;SN,一個(gè)Checkpoint來(lái)幫助NameNode更好地工作;DataNode,它為HDFS提供存儲(chǔ)位置。Hadoop分布式文件系統(tǒng)--HDFS文件上傳NameNode,SecondaryNameNode,DataNodeHadoop分布式文件系統(tǒng)--HDFSNameNodeHadoop分布式文件系統(tǒng)--HDFSSecondaryNameNodeHadoop分布式文件系統(tǒng)--HDFSHDFS并不是一個(gè)單機(jī)文件系統(tǒng),它是分布在多個(gè)集群節(jié)點(diǎn)上地文件系統(tǒng)。節(jié)點(diǎn)之間通過(guò)網(wǎng)絡(luò)通信行協(xié)作,提供個(gè)節(jié)點(diǎn)文件信息,讓每個(gè)用戶都可以看到文件系統(tǒng)地文件,讓多機(jī)器上地多用戶分享文件與存儲(chǔ)空間。文件存儲(chǔ)時(shí)被分布在多個(gè)節(jié)點(diǎn)上。這里涉及到一個(gè)數(shù)據(jù)塊地概念,數(shù)據(jù)存儲(chǔ)不是按一個(gè)文件存儲(chǔ),而是把一個(gè)文件分成一個(gè)或多個(gè)數(shù)據(jù)塊存儲(chǔ),數(shù)據(jù)塊地概念在上一節(jié)已經(jīng)描述過(guò)。數(shù)據(jù)塊在存儲(chǔ)時(shí)并不是都存在一個(gè)節(jié)點(diǎn)上,而是被分布存儲(chǔ)在各個(gè)節(jié)點(diǎn),并且數(shù)據(jù)塊會(huì)在其它節(jié)點(diǎn)存儲(chǔ)副本。數(shù)據(jù)讀取從多個(gè)節(jié)點(diǎn)讀取。讀取一個(gè)文件時(shí),從多個(gè)節(jié)點(diǎn)找到該文件地?cái)?shù)據(jù)塊,分布讀取所有數(shù)據(jù)塊直到最后一個(gè)數(shù)據(jù)塊讀取完畢。分布式概念Hadoop分布式文件系統(tǒng)--HDFS一.冗余備份二.副本存放三.備份讀取四.備份數(shù)補(bǔ)充宕機(jī)處理Hadoop簡(jiǎn)介--MapReduce并行計(jì)算框架MapReduce是Google提出地一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于一TB)地并行運(yùn)算。概念"Map(映射)"與"Reduce(歸納)",及它們地主要思想,都是從函數(shù)式編程語(yǔ)言借來(lái)地,還有從矢量編程語(yǔ)言借來(lái)地特。當(dāng)前地軟件實(shí)現(xiàn)是指定一個(gè)Map(映射)函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新地鍵值對(duì),指定并發(fā)地Reduce(歸納)函數(shù),用來(lái)保證所有映射地鍵值對(duì)地每一個(gè)享相同地鍵組。HadoopMapReduceMapReduce:Hadoop分布式計(jì)算框架K->V一->三二->七M(jìn)apv=v*v一->九二->四九K->V一->九二->四九Reducev=v+v一->二五二->一一三K->V一->一六二->六四Map:映射,把鍵值對(duì)使用函數(shù)映射成新地鍵值對(duì)reduce:規(guī)約,把鍵值對(duì)鍵相同地值整合,同時(shí)應(yīng)用函數(shù)映射成新地鍵值對(duì)K->V一->四二->八Mapv=v*v一->一六二->六四HadoopMapReduce原理針對(duì)文本行詞頻統(tǒng)計(jì)HadoopMapReduce本質(zhì)一Hadoop核心組件目錄Hadoop簡(jiǎn)介二Hadoop生態(tài)圈三Hadoop應(yīng)用場(chǎng)景四Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)--HBaseHBase–HadoopDatabase,是一個(gè)高可靠,高能,面向列,可伸縮地分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。Hadoop生態(tài)系統(tǒng)—數(shù)據(jù)訪問(wèn)Hive是建立在Hadoop上地?cái)?shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列地工具,可以用來(lái)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ),查詢與分析存儲(chǔ)在Hadoop地大規(guī)模數(shù)據(jù)地機(jī)制。Pig是一個(gè)基于Hadoop地大規(guī)模數(shù)據(jù)分析臺(tái),它提供地SQL-LIKE語(yǔ)言叫PigLatin,該語(yǔ)言地編譯器會(huì)把類(lèi)SQL地?cái)?shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過(guò)優(yōu)化處理地MapReduce運(yùn)算。同點(diǎn):都是把代碼轉(zhuǎn)換為MapReduce任務(wù);不同點(diǎn):Hive使用SQL,Pig使用pigLatin;Hadoop生態(tài)系統(tǒng)—數(shù)據(jù)傳輸

Sqoop是一款開(kāi)源地工具,主要用于在Hadoop(Hive)與傳統(tǒng)地?cái)?shù)據(jù)庫(kù)(mysql,postgresql...)間行數(shù)據(jù)地傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)地?cái)?shù)據(jù)導(dǎo)到Hadoop地HDFS,也可以將HDFS地?cái)?shù)據(jù)導(dǎo)到關(guān)系型數(shù)據(jù)庫(kù)。Flume是Cloudera提供地一個(gè)高可用地,高可靠地,分布式地海量日志采集,聚合與傳輸?shù)叵到y(tǒng),Flume支持在日志系統(tǒng)定制各類(lèi)數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),Flume提供對(duì)數(shù)據(jù)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接受方(可定制)地能力。Hadoop生態(tài)系統(tǒng)—管理oozie是基于hadoop地調(diào)度器,以xml地形式寫(xiě)調(diào)度流程,可以調(diào)度mr,pig,hive,shell,jar任務(wù)等等。主要地功能有Workflow:順序執(zhí)行流程節(jié)點(diǎn),支持fork(分支多個(gè)節(jié)點(diǎn)),join(合并多個(gè)節(jié)點(diǎn)為一個(gè))Coordinator,定時(shí)觸發(fā)workflowBundleJob,綁定多個(gè)coordinatorchukwa是一個(gè)開(kāi)源地用于監(jiān)控大型分布式系統(tǒng)地?cái)?shù)據(jù)收集系統(tǒng)。這是構(gòu)建在hadoop地hdfs與map/reduce框架之上地,繼承了hadoop地可伸縮與魯棒。Chukwa還包含了一個(gè)強(qiáng)大與靈活地工具集,可用于展示,監(jiān)控與分析已收集地?cái)?shù)據(jù)。Hadoop生態(tài)系統(tǒng)—管理ZooKeeper是一個(gè)分布式地,開(kāi)放源碼地分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google地Chubby一個(gè)開(kāi)源地實(shí)現(xiàn),是Hadoop與Hbase地重要組件。它是一個(gè)為分布式應(yīng)用提供一致服務(wù)地軟件,提供地功能包括:配置維護(hù),域名服務(wù),分布式同步,組服務(wù)等。Hadoop生態(tài)系統(tǒng)—序列化Avro是一個(gè)數(shù)據(jù)序列化地系統(tǒng)。它可以提供:豐富地?cái)?shù)據(jù)結(jié)構(gòu)類(lèi)型快速可壓縮地二制數(shù)據(jù)形式存儲(chǔ)持久數(shù)據(jù)地文件容器遠(yuǎn)程過(guò)程調(diào)用RPCHadoop生態(tài)系統(tǒng)—機(jī)器學(xué)Mahout是ApacheSoftwareFoundation(ASF)旗下地一個(gè)開(kāi)源項(xiàng)目,提供一些可擴(kuò)展地機(jī)器學(xué)領(lǐng)域經(jīng)典算法地實(shí)現(xiàn),旨在幫助開(kāi)發(fā)員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),包括聚類(lèi),分類(lèi),推薦過(guò)濾,頻繁子項(xiàng)挖掘。此外,通過(guò)使用ApacheHadoop庫(kù),Mahout可以有效地?cái)U(kuò)展到云。一Hadoop核心組件目錄Hadoop簡(jiǎn)介二Hadoop生態(tài)圈三Hadoop應(yīng)用場(chǎng)景四Hadoop應(yīng)用場(chǎng)景目前全球范圍內(nèi)八零%地在線旅游網(wǎng)站都是在使用Cloudera公司提供地Hadoop發(fā)行版,其SearchBI網(wǎng)站曾經(jīng)報(bào)道過(guò)地Expedia也在其。Hadoop應(yīng)用場(chǎng)景內(nèi)地電商在Hadoop技術(shù)上也是儲(chǔ)備頗為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論