版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Hadoop 大數(shù)據(jù)技術(shù)揭秘BigData 系列1. 大數(shù)據(jù)介紹2. 數(shù)據(jù)庫及存儲3. 計算框架4. 數(shù)據(jù)訪問目錄2大數(shù)據(jù)介紹3計算框架內(nèi)存計算Spark批處理計算MapReduce實時流式計算StormMPP并行計算數(shù)據(jù)庫及存儲NoSQL數(shù)據(jù)庫HBase關(guān)系數(shù)據(jù)庫PostgreSQL分布式文件系統(tǒng)HDFS數(shù)據(jù)采集及管理日志采集Flume關(guān)系數(shù)據(jù)庫連接Sqoop數(shù)據(jù)交換ETL 工具Kettle大數(shù)據(jù)應(yīng)用交通大數(shù)據(jù)應(yīng)用公安大數(shù)據(jù)應(yīng)用安全大數(shù)據(jù)應(yīng)用無線大數(shù)據(jù)應(yīng)用服務(wù)及接口可編程接口數(shù)據(jù)即服務(wù)DAAS數(shù)據(jù)訪問數(shù)據(jù)挖掘MahoutSQL on Hadoop數(shù)據(jù)可視化R語言數(shù)據(jù)倉庫Hive搜索引擎Luc
2、ene/ElasticNewSQL數(shù)據(jù)庫系統(tǒng)服務(wù)分布式消息隊列Kafka協(xié)調(diào)與同步系統(tǒng)ZooKeeper名字空間管理系統(tǒng) ApacheDS集群資源管理YARN作業(yè)調(diào)度Oozie安全管理Kerberos/LDAPH3C業(yè)務(wù)運維管理系統(tǒng)管理安裝部署版本管理集群管理安全管理認證/授權(quán)合規(guī)審計Portal數(shù)據(jù)安全運行監(jiān)控性能監(jiān)控故障管理短信Email中心應(yīng)用性能分析運營管理資源管理業(yè)務(wù)管理云管理接口多維分析數(shù)據(jù)搜索數(shù)據(jù)共享自助分析RestfulODBCJDBC數(shù)據(jù)分析Pig數(shù)據(jù)管理Linux OS統(tǒng)一存儲CEPH多維度建模多算法引擎運營商大數(shù)據(jù)應(yīng)用金融大數(shù)據(jù)應(yīng)用1. 大數(shù)據(jù)介紹2. 數(shù)據(jù)庫及存儲3.
3、計算框架4. 數(shù)據(jù)訪問目錄4HDFS:Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System),Hadoop集群首選文件系統(tǒng)。一種虛擬文件系統(tǒng),數(shù)據(jù)最終還是存儲在操作系統(tǒng)文件里。HDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批處理)Storm(流計算)Spark(內(nèi)存計算)HBase(數(shù)據(jù)庫)Hive(數(shù)據(jù)倉庫)其他ZooKeeper(協(xié)調(diào)服務(wù))分布式文件系統(tǒng)HDFS簡介HDFS分布式文件系統(tǒng)6HDFS架構(gòu)基本組成元素:NameNode:維護整個文件系統(tǒng)的命名空間,文件/目錄的元信息和文件的數(shù)據(jù)塊索引。DataNode:根據(jù)
4、NameNode的調(diào)度存儲和檢索數(shù)據(jù),并且定期向NameNode發(fā)送他們所存儲的塊(block)的列表。Client:Client包括命令行、應(yīng)用程序、Web管理界面等。Client是用戶和HDFS的交互手段。用戶通過Client與名字節(jié)點、數(shù)據(jù)節(jié)點進行通信,訪問HDFS文件系統(tǒng)。ZooKeeper:分布式協(xié)調(diào)服務(wù) 為集群提供一致性服務(wù),包括配置維護、名字服務(wù)、分布式同步、組成員管理等。特點 高性能:能處理每秒上萬的請求。 高可靠性:不會單點故障而造成任何問題。 有序的訪問:使客戶端可以實現(xiàn)較為復(fù)雜的同步操作。HDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批
5、處理)Storm(流計算)Spark(內(nèi)存計算)HBase(數(shù)據(jù)庫)Hive(數(shù)據(jù)倉庫)其他ZooKeeper(協(xié)調(diào)服務(wù))協(xié)調(diào)服務(wù)ZooKeeper簡介角色描述領(lǐng)導(dǎo)者(Leader)領(lǐng)導(dǎo)者負責(zé)進行投票的發(fā)起和決議,更新系統(tǒng)狀態(tài)。學(xué)習(xí)者(Learner)跟隨者(Follower)Follower用于接收客戶請求并向客戶端返回結(jié)果,在選主過程中參與投票。觀察者(Observer)Observer可以接收客戶端連接,將寫請求轉(zhuǎn)發(fā)給Leader節(jié)點。但Observer的目的是為了擴展系統(tǒng),提高讀取速度。Server分如下3種角色:Client: ZooKeeper服務(wù)的享受者,它負責(zé)向 Server發(fā)
6、起讀寫請求。 Client包括命令行、HBase、Kfaka、各類Java應(yīng)用程序等。Server(集群) 建議奇數(shù)個Server(如3、5、7),數(shù)目越多可靠性越高。 所有Server上存儲的數(shù)據(jù)保持一致,Leader負責(zé)寫操作。ZooKeeper組成YARN:另一種資源協(xié)調(diào)者( Yet Another Resource Negotiator ),Hadoop2.0新增的資源管理器。YARN支持多種框架運行在一個集群之上(如MapReduce、Storm),所有框架共享集群資源。在較高層次上,可以把YARN看做是一個集群操作系統(tǒng),它為應(yīng)用程序提供了基本的服務(wù)來更好的利用大的、動態(tài)的、并行的基
7、礎(chǔ)設(shè)施資源。HDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批處理)Storm(流計算)Spark(內(nèi)存計算)HBase(數(shù)據(jù)庫)Hive(數(shù)據(jù)倉庫)其他ZooKeeper(協(xié)調(diào)服務(wù))集群資源管理YARN簡介ClientClientClientResource Manager(全局資源管理者)Node ManagerMRApp MstrContainerMap TaskContainerNode ManagerSpark TaskContainerReduce TaskContainerNode ManagerSparkApp MstrContainerSpa
8、rk TaskContainerRM:全局資源管理器NM:節(jié)點上的資源和任務(wù)管理器。A. 上報本節(jié)點信息;B. 處理來自Ma的Container啟動/停止請求。Container:資源抽象,包括CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等多維度資源。AM或Task運行在Container之中。AM:應(yīng)用管理器(一個應(yīng)用程序一個AM)。A. 為Task申請資源; B. 啟動停止Task、監(jiān)控Task執(zhí)行情況Client:提交作業(yè)提交作業(yè)上報節(jié)點狀態(tài)請求資源上報任務(wù)狀態(tài)YARN架構(gòu)HBase: Hadoop數(shù)據(jù)庫(Hadoop Database)。高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)
9、可在廉價硬件上搭建起大規(guī)模結(jié)構(gòu)化存儲集群,有數(shù)據(jù)庫的DDL、DML功能。HBase支持隨機讀寫,而HDFS只能在文件末尾追加。HDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批處理)Storm(流計算)Spark(內(nèi)存計算)HBase(數(shù)據(jù)庫)Hive(數(shù)據(jù)倉庫)其他ZooKeeper(協(xié)調(diào)服務(wù))數(shù)據(jù)庫HBase簡介MPP數(shù)據(jù)庫架構(gòu)12disksdisksmemoryCPUCPUdisksmemoryCPUCPUdisksmemoryCPUCPUInterconnection Network數(shù)據(jù)數(shù)據(jù)分布策略Hash,Range,RandomMPP架構(gòu)橫向擴展最
10、多192個節(jié)點MPP Cluster大規(guī)模并行計算13統(tǒng)一接口層收到上層發(fā)送的查詢請求,根據(jù)指定的集群節(jié)點或經(jīng)過負載均衡后選出的集群節(jié)點,將SQL發(fā)送至指定節(jié)點的GCluster層。收到請求的節(jié)點GCluster層負責(zé)對SQL進行詞法、語法檢查,進行查詢優(yōu)化,生成分布式執(zhí)行計劃,將生成的分布式執(zhí)行計劃發(fā)送至集群相關(guān)節(jié)點的GNode層進行執(zhí)行。GCWare層對各節(jié)點當(dāng)前狀態(tài)進行監(jiān)控,保證分布式查詢計劃可以正確執(zhí)行。集群各節(jié)點GNode層對執(zhí)行計劃進行解析和執(zhí)行。涉及到數(shù)據(jù)在不同節(jié)點間的搬運、結(jié)果匯總等操作通過GCluster層進行統(tǒng)一調(diào)度,GCWare層在各節(jié)點執(zhí)行過程中對節(jié)點狀態(tài)進行監(jiān)控,各節(jié)
11、點將最終執(zhí)行結(jié)果發(fā)送至SQL發(fā)起節(jié)點進行匯總,再通過統(tǒng)一接口層返回給上層應(yīng)用。1. 大數(shù)據(jù)介紹2. 數(shù)據(jù)庫及存儲3. 計算框架4. 數(shù)據(jù)訪問目錄14Hadoop分布式計算15實時計算內(nèi)存計算分布式文件系統(tǒng)HDFS批處理MapReduce數(shù)據(jù)庫HBaseHivePig內(nèi)存計算SparkSharkStreaming消息隊列Kafka流處理Storm資源管理YARN離線計算Hadoop基于X86服務(wù)器本地的計算與存儲資源提供了分布式并行計算和低成本存儲,提供低時延、高并發(fā)的查詢功能,集群可以擴展到上千臺服務(wù)器。資源管理YARN:改進的YARN統(tǒng)一資源管理,在同一物理主機/虛擬主機和數(shù)據(jù)集上運行多種計
12、算框架,包括離線計算、內(nèi)存計算和實時計算。分布式文件系統(tǒng)HDFS:分布式文件系統(tǒng),有較強的容錯性,可在x86平臺上運行,減少總體成本,可擴展,能構(gòu)建大規(guī)模的應(yīng)用離線計算: MapReduce是一種離線計算框架,將一個算法抽象成Map和Reduce兩個階段進行處理,適合數(shù)據(jù)密集型計算場景。內(nèi)存計算:MapReduce計算框架不適合迭代計算和交互式計算,MapReduce是一種磁盤計算框架,而Spark則是一種內(nèi)存計算框架,它將數(shù)據(jù)盡可能放到內(nèi)存中以提高迭代應(yīng)用和交互式應(yīng)用的計算效率。實時計算:MapReduce也不適合進行流式計算、實時分析,比如廣告點擊計算等,而Storm則更擅長這種計算、它在
13、實時性要遠遠好于MapReduce計算框架。 批處理MapReduce簡介16一個并行計算的框架提供并行計算能力,隨著節(jié)點數(shù)增加近似線性遞增分而治之的思想兩個核心操作map和reduceMap操作就是把一組數(shù)據(jù)一對一的映射為另一組數(shù)據(jù)reduce操作就是整合全文每個單詞出現(xiàn)的次數(shù)內(nèi)存計算SparkSpark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架,Spark基于map reduce算法實現(xiàn)的分布式計算,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀
14、寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的map reduce的算法17ApplicationDriverJob1Stage1Task1TaskNStageNTask1TaskNJobNStage1Task1TaskNStageNTask1TaskNRDDresilient distributed datasetSparkMR中間數(shù)據(jù)的保存位置內(nèi)存磁盤調(diào)度粒度線程,且?guī)Ь€程池進程容錯處理出錯后只重新計算本步驟出錯后重新計算所有步驟Spark比MR快的原因?qū)崟r計算Storm流式處理框架,實時的Hadoop。19Storm可用來實時處理新數(shù)據(jù)和更新數(shù)據(jù)庫,兼具容錯性和可
15、擴展性。即Storm可以用來處理源源不斷流進來的消息,處理之后將結(jié)果寫入到某個存儲中去。Storm可用來并行處理密集查詢。Storm的拓撲結(jié)構(gòu)是一個等待調(diào)用信息的分布函數(shù),當(dāng)它收到一條調(diào)用信息后,會對查詢進行計算,并返回查詢結(jié)果。舉個例子Distributed RPC可以做并行搜索或者處理大集合的數(shù)據(jù)。信息流處理分布式遠程程序調(diào)用Storm可進行連續(xù)查詢并把結(jié)果即時反饋給客戶端。比如把Twitter上的熱門話題發(fā)送到瀏覽器中。連續(xù)計算MapReduceSparkStorm亮點創(chuàng)造性的分布式編程模型。輕、快、靈、巧,批處理&流處理&即席查詢,SparkSQL。高效,廣泛使用。不足實時性不足,架構(gòu)
16、笨重。穩(wěn)定性待驗證,實用案例較少。小問題:錯誤情況下,可能存在重復(fù)計算。應(yīng)用場景離線計算,如搜索引擎、電商、社交媒體、用戶行為分析。較通用,除非高頻實時交易(如證券交易)。實時計算,如實時路況分析、運營商的網(wǎng)絡(luò)流量流向分析誰在用非常多,大家都在用。如Yahoo、百度、阿里、Cloudera、Hortonworks、MapR。主要是技術(shù)實力的公司。如騰訊、阿里、DataBricks、Cloudera、Hortonworks、MapR、IBM、DataBricks、亞馬遜,Yahoo、eBay。百度、360、愛奇藝、阿里巴巴、淘寶、阿里支付、Yahoo、Twitter。MR、Storm、Spark
17、三大計算框架對比1. 大數(shù)據(jù)介紹2. 數(shù)據(jù)庫及存儲3. 計算框架4. 數(shù)據(jù)訪問目錄21Hive: 分布式存儲中查詢和操作大數(shù)據(jù)集的數(shù)據(jù)倉庫??稍L問HDFS/HBase中的數(shù)據(jù)。HiveQL:類SQL語言。 select * from tableHDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批處理)Storm(流計算)Spark(內(nèi)存計算)HBase(數(shù)據(jù)庫)Hive(數(shù)據(jù)倉庫)其他ZooKeeper(協(xié)調(diào)服務(wù))數(shù)據(jù)倉庫Hive簡介HIVE的特點23易用性:使用HQL語言即可完成復(fù)雜的MapReduce任務(wù)。支持海量數(shù)據(jù)的分析良好的可擴展性:通過擴大集群規(guī)模來
18、支持更大的數(shù)據(jù)量和負載;通過編寫UDF、UDAF、UDTF擴展功能。良好的容錯性:依賴于Hadoop的容錯能力,節(jié)點出現(xiàn)故障時SQL仍可完成執(zhí)行。靈活的數(shù)據(jù)存儲機制:支持多種常用的格式和自定義的文件格式。計算引擎的多樣性:支持MapReduce和Tez計算引擎的切換。Hive與HBase整合的使用場景24在Hive中新建表,并關(guān)聯(lián)到HBase,通過向Hive中新建的表插入數(shù)據(jù)來向關(guān)聯(lián)的HBase表中插入數(shù)據(jù)。通過在Hive中建立關(guān)聯(lián)HBase的外部表,來查詢HBase表中的數(shù)據(jù)。課程總結(jié)25計算框架內(nèi)存計算Spark批處理計算MapReduce實時流式計算StormMPP并行計算數(shù)據(jù)庫及存儲NoSQL數(shù)據(jù)庫HBase關(guān)系數(shù)據(jù)庫PostgreSQL分布式文件系統(tǒng)HDFS數(shù)據(jù)采集及管理日志采集Flume關(guān)系數(shù)據(jù)庫連接Sqoop數(shù)據(jù)交換ETL 工具Kettle大數(shù)據(jù)應(yīng)用交通大數(shù)據(jù)應(yīng)用公安大數(shù)據(jù)應(yīng)用安全大數(shù)據(jù)應(yīng)用無線大數(shù)據(jù)應(yīng)用服務(wù)及接口可編程接口數(shù)據(jù)即服務(wù)DAAS數(shù)據(jù)訪問數(shù)據(jù)挖掘MahoutSQL on Hadoop數(shù)據(jù)可視化R語言數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024合法的咨詢服務(wù)合同
- 2024年度醫(yī)療設(shè)施EPC建設(shè)合同
- 2024電子版?zhèn)€人服務(wù)合同書
- 2024年度5G基站建設(shè)設(shè)計與施工服務(wù)合同
- 2024年度供應(yīng)鏈管理合同:供應(yīng)商與采購商之間的貨物供應(yīng)與付款協(xié)議
- 誰會跑課件教學(xué)課件
- 2024年度租賃期滿后購買合同標(biāo)的購買價格
- 2024年師范大學(xué)新進教師就業(yè)協(xié)議
- 2024年度文化旅游項目合作合同
- 2024年度醫(yī)療設(shè)備研發(fā)與生產(chǎn)許可合同
- 營養(yǎng)指導(dǎo)員理論考試題庫及答案
- 2023秋季學(xué)期國開電大專本科《法律文書》在線形考(第一至五次考核形考任務(wù))試題及答案
- 遼寧省大連市金普新區(qū)2023-2024學(xué)年九年級上學(xué)期期中化學(xué)試題
- 數(shù)據(jù)清洗課件-第4章-數(shù)據(jù)采集與抽取
- 2023年新改版青島版(六三制)四年級上冊科學(xué)全冊精編知識點梳理
- 小學(xué)英語-There is an old building in my school教學(xué)設(shè)計學(xué)情分析教材分析課后反思
- GB/T 16935.1-2023低壓供電系統(tǒng)內(nèi)設(shè)備的絕緣配合第1部分:原理、要求和試驗
- 臨床微生物學(xué)檢驗:實驗八 腸道桿菌的檢驗(三)
- 23秋國家開放大學(xué)《學(xué)前教育科研方法》形考作業(yè)1-3+終考作業(yè)參考答案
- 義務(wù)教育語文“思辨性閱讀與表達”學(xué)習(xí)任務(wù)群教學(xué)策略
評論
0/150
提交評論