




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Hadoop 大數(shù)據(jù)技術(shù)揭秘BigData 系列1. 大數(shù)據(jù)介紹2. 數(shù)據(jù)庫(kù)及存儲(chǔ)3. 計(jì)算框架4. 數(shù)據(jù)訪問目錄2大數(shù)據(jù)介紹3計(jì)算框架內(nèi)存計(jì)算Spark批處理計(jì)算MapReduce實(shí)時(shí)流式計(jì)算StormMPP并行計(jì)算數(shù)據(jù)庫(kù)及存儲(chǔ)NoSQL數(shù)據(jù)庫(kù)HBase關(guān)系數(shù)據(jù)庫(kù)PostgreSQL分布式文件系統(tǒng)HDFS數(shù)據(jù)采集及管理日志采集Flume關(guān)系數(shù)據(jù)庫(kù)連接Sqoop數(shù)據(jù)交換ETL 工具Kettle大數(shù)據(jù)應(yīng)用交通大數(shù)據(jù)應(yīng)用公安大數(shù)據(jù)應(yīng)用安全大數(shù)據(jù)應(yīng)用無線大數(shù)據(jù)應(yīng)用服務(wù)及接口可編程接口數(shù)據(jù)即服務(wù)DAAS數(shù)據(jù)訪問數(shù)據(jù)挖掘MahoutSQL on Hadoop數(shù)據(jù)可視化R語言數(shù)據(jù)倉(cāng)庫(kù)Hive搜索引擎Luc
2、ene/ElasticNewSQL數(shù)據(jù)庫(kù)系統(tǒng)服務(wù)分布式消息隊(duì)列Kafka協(xié)調(diào)與同步系統(tǒng)ZooKeeper名字空間管理系統(tǒng) ApacheDS集群資源管理YARN作業(yè)調(diào)度Oozie安全管理Kerberos/LDAPH3C業(yè)務(wù)運(yùn)維管理系統(tǒng)管理安裝部署版本管理集群管理安全管理認(rèn)證/授權(quán)合規(guī)審計(jì)Portal數(shù)據(jù)安全運(yùn)行監(jiān)控性能監(jiān)控故障管理短信Email中心應(yīng)用性能分析運(yùn)營(yíng)管理資源管理業(yè)務(wù)管理云管理接口多維分析數(shù)據(jù)搜索數(shù)據(jù)共享自助分析RestfulODBCJDBC數(shù)據(jù)分析Pig數(shù)據(jù)管理Linux OS統(tǒng)一存儲(chǔ)CEPH多維度建模多算法引擎運(yùn)營(yíng)商大數(shù)據(jù)應(yīng)用金融大數(shù)據(jù)應(yīng)用1. 大數(shù)據(jù)介紹2. 數(shù)據(jù)庫(kù)及存儲(chǔ)3.
3、計(jì)算框架4. 數(shù)據(jù)訪問目錄4HDFS:Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System),Hadoop集群首選文件系統(tǒng)。一種虛擬文件系統(tǒng),數(shù)據(jù)最終還是存儲(chǔ)在操作系統(tǒng)文件里。HDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批處理)Storm(流計(jì)算)Spark(內(nèi)存計(jì)算)HBase(數(shù)據(jù)庫(kù))Hive(數(shù)據(jù)倉(cāng)庫(kù))其他ZooKeeper(協(xié)調(diào)服務(wù))分布式文件系統(tǒng)HDFS簡(jiǎn)介HDFS分布式文件系統(tǒng)6HDFS架構(gòu)基本組成元素:NameNode:維護(hù)整個(gè)文件系統(tǒng)的命名空間,文件/目錄的元信息和文件的數(shù)據(jù)塊索引。DataNode:根據(jù)
4、NameNode的調(diào)度存儲(chǔ)和檢索數(shù)據(jù),并且定期向NameNode發(fā)送他們所存儲(chǔ)的塊(block)的列表。Client:Client包括命令行、應(yīng)用程序、Web管理界面等。Client是用戶和HDFS的交互手段。用戶通過Client與名字節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)進(jìn)行通信,訪問HDFS文件系統(tǒng)。ZooKeeper:分布式協(xié)調(diào)服務(wù) 為集群提供一致性服務(wù),包括配置維護(hù)、名字服務(wù)、分布式同步、組成員管理等。特點(diǎn) 高性能:能處理每秒上萬的請(qǐng)求。 高可靠性:不會(huì)單點(diǎn)故障而造成任何問題。 有序的訪問:使客戶端可以實(shí)現(xiàn)較為復(fù)雜的同步操作。HDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批
5、處理)Storm(流計(jì)算)Spark(內(nèi)存計(jì)算)HBase(數(shù)據(jù)庫(kù))Hive(數(shù)據(jù)倉(cāng)庫(kù))其他ZooKeeper(協(xié)調(diào)服務(wù))協(xié)調(diào)服務(wù)ZooKeeper簡(jiǎn)介角色描述領(lǐng)導(dǎo)者(Leader)領(lǐng)導(dǎo)者負(fù)責(zé)進(jìn)行投票的發(fā)起和決議,更新系統(tǒng)狀態(tài)。學(xué)習(xí)者(Learner)跟隨者(Follower)Follower用于接收客戶請(qǐng)求并向客戶端返回結(jié)果,在選主過程中參與投票。觀察者(Observer)Observer可以接收客戶端連接,將寫請(qǐng)求轉(zhuǎn)發(fā)給Leader節(jié)點(diǎn)。但Observer的目的是為了擴(kuò)展系統(tǒng),提高讀取速度。Server分如下3種角色:Client: ZooKeeper服務(wù)的享受者,它負(fù)責(zé)向 Server發(fā)
6、起讀寫請(qǐng)求。 Client包括命令行、HBase、Kfaka、各類Java應(yīng)用程序等。Server(集群) 建議奇數(shù)個(gè)Server(如3、5、7),數(shù)目越多可靠性越高。 所有Server上存儲(chǔ)的數(shù)據(jù)保持一致,Leader負(fù)責(zé)寫操作。ZooKeeper組成YARN:另一種資源協(xié)調(diào)者( Yet Another Resource Negotiator ),Hadoop2.0新增的資源管理器。YARN支持多種框架運(yùn)行在一個(gè)集群之上(如MapReduce、Storm),所有框架共享集群資源。在較高層次上,可以把YARN看做是一個(gè)集群操作系統(tǒng),它為應(yīng)用程序提供了基本的服務(wù)來更好的利用大的、動(dòng)態(tài)的、并行的基
7、礎(chǔ)設(shè)施資源。HDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批處理)Storm(流計(jì)算)Spark(內(nèi)存計(jì)算)HBase(數(shù)據(jù)庫(kù))Hive(數(shù)據(jù)倉(cāng)庫(kù))其他ZooKeeper(協(xié)調(diào)服務(wù))集群資源管理YARN簡(jiǎn)介ClientClientClientResource Manager(全局資源管理者)Node ManagerMRApp MstrContainerMap TaskContainerNode ManagerSpark TaskContainerReduce TaskContainerNode ManagerSparkApp MstrContainerSpa
8、rk TaskContainerRM:全局資源管理器NM:節(jié)點(diǎn)上的資源和任務(wù)管理器。A. 上報(bào)本節(jié)點(diǎn)信息;B. 處理來自Ma的Container啟動(dòng)/停止請(qǐng)求。Container:資源抽象,包括CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等多維度資源。AM或Task運(yùn)行在Container之中。AM:應(yīng)用管理器(一個(gè)應(yīng)用程序一個(gè)AM)。A. 為Task申請(qǐng)資源; B. 啟動(dòng)停止Task、監(jiān)控Task執(zhí)行情況Client:提交作業(yè)提交作業(yè)上報(bào)節(jié)點(diǎn)狀態(tài)請(qǐng)求資源上報(bào)任務(wù)狀態(tài)YARN架構(gòu)HBase: Hadoop數(shù)據(jù)庫(kù)(Hadoop Database)。高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)
9、可在廉價(jià)硬件上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群,有數(shù)據(jù)庫(kù)的DDL、DML功能。HBase支持隨機(jī)讀寫,而HDFS只能在文件末尾追加。HDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批處理)Storm(流計(jì)算)Spark(內(nèi)存計(jì)算)HBase(數(shù)據(jù)庫(kù))Hive(數(shù)據(jù)倉(cāng)庫(kù))其他ZooKeeper(協(xié)調(diào)服務(wù))數(shù)據(jù)庫(kù)HBase簡(jiǎn)介MPP數(shù)據(jù)庫(kù)架構(gòu)12disksdisksmemoryCPUCPUdisksmemoryCPUCPUdisksmemoryCPUCPUInterconnection Network數(shù)據(jù)數(shù)據(jù)分布策略Hash,Range,RandomMPP架構(gòu)橫向擴(kuò)展最
10、多192個(gè)節(jié)點(diǎn)MPP Cluster大規(guī)模并行計(jì)算13統(tǒng)一接口層收到上層發(fā)送的查詢請(qǐng)求,根據(jù)指定的集群節(jié)點(diǎn)或經(jīng)過負(fù)載均衡后選出的集群節(jié)點(diǎn),將SQL發(fā)送至指定節(jié)點(diǎn)的GCluster層。收到請(qǐng)求的節(jié)點(diǎn)GCluster層負(fù)責(zé)對(duì)SQL進(jìn)行詞法、語法檢查,進(jìn)行查詢優(yōu)化,生成分布式執(zhí)行計(jì)劃,將生成的分布式執(zhí)行計(jì)劃發(fā)送至集群相關(guān)節(jié)點(diǎn)的GNode層進(jìn)行執(zhí)行。GCWare層對(duì)各節(jié)點(diǎn)當(dāng)前狀態(tài)進(jìn)行監(jiān)控,保證分布式查詢計(jì)劃可以正確執(zhí)行。集群各節(jié)點(diǎn)GNode層對(duì)執(zhí)行計(jì)劃進(jìn)行解析和執(zhí)行。涉及到數(shù)據(jù)在不同節(jié)點(diǎn)間的搬運(yùn)、結(jié)果匯總等操作通過GCluster層進(jìn)行統(tǒng)一調(diào)度,GCWare層在各節(jié)點(diǎn)執(zhí)行過程中對(duì)節(jié)點(diǎn)狀態(tài)進(jìn)行監(jiān)控,各節(jié)
11、點(diǎn)將最終執(zhí)行結(jié)果發(fā)送至SQL發(fā)起節(jié)點(diǎn)進(jìn)行匯總,再通過統(tǒng)一接口層返回給上層應(yīng)用。1. 大數(shù)據(jù)介紹2. 數(shù)據(jù)庫(kù)及存儲(chǔ)3. 計(jì)算框架4. 數(shù)據(jù)訪問目錄14Hadoop分布式計(jì)算15實(shí)時(shí)計(jì)算內(nèi)存計(jì)算分布式文件系統(tǒng)HDFS批處理MapReduce數(shù)據(jù)庫(kù)HBaseHivePig內(nèi)存計(jì)算SparkSharkStreaming消息隊(duì)列Kafka流處理Storm資源管理YARN離線計(jì)算Hadoop基于X86服務(wù)器本地的計(jì)算與存儲(chǔ)資源提供了分布式并行計(jì)算和低成本存儲(chǔ),提供低時(shí)延、高并發(fā)的查詢功能,集群可以擴(kuò)展到上千臺(tái)服務(wù)器。資源管理YARN:改進(jìn)的YARN統(tǒng)一資源管理,在同一物理主機(jī)/虛擬主機(jī)和數(shù)據(jù)集上運(yùn)行多種計(jì)
12、算框架,包括離線計(jì)算、內(nèi)存計(jì)算和實(shí)時(shí)計(jì)算。分布式文件系統(tǒng)HDFS:分布式文件系統(tǒng),有較強(qiáng)的容錯(cuò)性,可在x86平臺(tái)上運(yùn)行,減少總體成本,可擴(kuò)展,能構(gòu)建大規(guī)模的應(yīng)用離線計(jì)算: MapReduce是一種離線計(jì)算框架,將一個(gè)算法抽象成Map和Reduce兩個(gè)階段進(jìn)行處理,適合數(shù)據(jù)密集型計(jì)算場(chǎng)景。內(nèi)存計(jì)算:MapReduce計(jì)算框架不適合迭代計(jì)算和交互式計(jì)算,MapReduce是一種磁盤計(jì)算框架,而Spark則是一種內(nèi)存計(jì)算框架,它將數(shù)據(jù)盡可能放到內(nèi)存中以提高迭代應(yīng)用和交互式應(yīng)用的計(jì)算效率。實(shí)時(shí)計(jì)算:MapReduce也不適合進(jìn)行流式計(jì)算、實(shí)時(shí)分析,比如廣告點(diǎn)擊計(jì)算等,而Storm則更擅長(zhǎng)這種計(jì)算、它在
13、實(shí)時(shí)性要遠(yuǎn)遠(yuǎn)好于MapReduce計(jì)算框架。 批處理MapReduce簡(jiǎn)介16一個(gè)并行計(jì)算的框架提供并行計(jì)算能力,隨著節(jié)點(diǎn)數(shù)增加近似線性遞增分而治之的思想兩個(gè)核心操作map和reduceMap操作就是把一組數(shù)據(jù)一對(duì)一的映射為另一組數(shù)據(jù)reduce操作就是整合全文每個(gè)單詞出現(xiàn)的次數(shù)內(nèi)存計(jì)算SparkSpark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計(jì)算框架,Spark基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀
14、寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法17ApplicationDriverJob1Stage1Task1TaskNStageNTask1TaskNJobNStage1Task1TaskNStageNTask1TaskNRDDresilient distributed datasetSparkMR中間數(shù)據(jù)的保存位置內(nèi)存磁盤調(diào)度粒度線程,且?guī)Ь€程池進(jìn)程容錯(cuò)處理出錯(cuò)后只重新計(jì)算本步驟出錯(cuò)后重新計(jì)算所有步驟Spark比MR快的原因?qū)崟r(shí)計(jì)算Storm流式處理框架,實(shí)時(shí)的Hadoop。19Storm可用來實(shí)時(shí)處理新數(shù)據(jù)和更新數(shù)據(jù)庫(kù),兼具容錯(cuò)性和可
15、擴(kuò)展性。即Storm可以用來處理源源不斷流進(jìn)來的消息,處理之后將結(jié)果寫入到某個(gè)存儲(chǔ)中去。Storm可用來并行處理密集查詢。Storm的拓?fù)浣Y(jié)構(gòu)是一個(gè)等待調(diào)用信息的分布函數(shù),當(dāng)它收到一條調(diào)用信息后,會(huì)對(duì)查詢進(jìn)行計(jì)算,并返回查詢結(jié)果。舉個(gè)例子Distributed RPC可以做并行搜索或者處理大集合的數(shù)據(jù)。信息流處理分布式遠(yuǎn)程程序調(diào)用Storm可進(jìn)行連續(xù)查詢并把結(jié)果即時(shí)反饋給客戶端。比如把Twitter上的熱門話題發(fā)送到瀏覽器中。連續(xù)計(jì)算MapReduceSparkStorm亮點(diǎn)創(chuàng)造性的分布式編程模型。輕、快、靈、巧,批處理&流處理&即席查詢,SparkSQL。高效,廣泛使用。不足實(shí)時(shí)性不足,架構(gòu)
16、笨重。穩(wěn)定性待驗(yàn)證,實(shí)用案例較少。小問題:錯(cuò)誤情況下,可能存在重復(fù)計(jì)算。應(yīng)用場(chǎng)景離線計(jì)算,如搜索引擎、電商、社交媒體、用戶行為分析。較通用,除非高頻實(shí)時(shí)交易(如證券交易)。實(shí)時(shí)計(jì)算,如實(shí)時(shí)路況分析、運(yùn)營(yíng)商的網(wǎng)絡(luò)流量流向分析誰在用非常多,大家都在用。如Yahoo、百度、阿里、Cloudera、Hortonworks、MapR。主要是技術(shù)實(shí)力的公司。如騰訊、阿里、DataBricks、Cloudera、Hortonworks、MapR、IBM、DataBricks、亞馬遜,Yahoo、eBay。百度、360、愛奇藝、阿里巴巴、淘寶、阿里支付、Yahoo、Twitter。MR、Storm、Spark
17、三大計(jì)算框架對(duì)比1. 大數(shù)據(jù)介紹2. 數(shù)據(jù)庫(kù)及存儲(chǔ)3. 計(jì)算框架4. 數(shù)據(jù)訪問目錄21Hive: 分布式存儲(chǔ)中查詢和操作大數(shù)據(jù)集的數(shù)據(jù)倉(cāng)庫(kù)??稍L問HDFS/HBase中的數(shù)據(jù)。HiveQL:類SQL語言。 select * from tableHDFS(Hadoop分布式文件系統(tǒng))YARN(集群資源管理)MapReduce(批處理)Storm(流計(jì)算)Spark(內(nèi)存計(jì)算)HBase(數(shù)據(jù)庫(kù))Hive(數(shù)據(jù)倉(cāng)庫(kù))其他ZooKeeper(協(xié)調(diào)服務(wù))數(shù)據(jù)倉(cāng)庫(kù)Hive簡(jiǎn)介HIVE的特點(diǎn)23易用性:使用HQL語言即可完成復(fù)雜的MapReduce任務(wù)。支持海量數(shù)據(jù)的分析良好的可擴(kuò)展性:通過擴(kuò)大集群規(guī)模來
18、支持更大的數(shù)據(jù)量和負(fù)載;通過編寫UDF、UDAF、UDTF擴(kuò)展功能。良好的容錯(cuò)性:依賴于Hadoop的容錯(cuò)能力,節(jié)點(diǎn)出現(xiàn)故障時(shí)SQL仍可完成執(zhí)行。靈活的數(shù)據(jù)存儲(chǔ)機(jī)制:支持多種常用的格式和自定義的文件格式。計(jì)算引擎的多樣性:支持MapReduce和Tez計(jì)算引擎的切換。Hive與HBase整合的使用場(chǎng)景24在Hive中新建表,并關(guān)聯(lián)到HBase,通過向Hive中新建的表插入數(shù)據(jù)來向關(guān)聯(lián)的HBase表中插入數(shù)據(jù)。通過在Hive中建立關(guān)聯(lián)HBase的外部表,來查詢HBase表中的數(shù)據(jù)。課程總結(jié)25計(jì)算框架內(nèi)存計(jì)算Spark批處理計(jì)算MapReduce實(shí)時(shí)流式計(jì)算StormMPP并行計(jì)算數(shù)據(jù)庫(kù)及存儲(chǔ)NoSQL數(shù)據(jù)庫(kù)HBase關(guān)系數(shù)據(jù)庫(kù)PostgreSQL分布式文件系統(tǒng)HDFS數(shù)據(jù)采集及管理日志采集Flume關(guān)系數(shù)據(jù)庫(kù)連接Sqoop數(shù)據(jù)交換ETL 工具Kettle大數(shù)據(jù)應(yīng)用交通大數(shù)據(jù)應(yīng)用公安大數(shù)據(jù)應(yīng)用安全大數(shù)據(jù)應(yīng)用無線大數(shù)據(jù)應(yīng)用服務(wù)及接口可編程接口數(shù)據(jù)即服務(wù)DAAS數(shù)據(jù)訪問數(shù)據(jù)挖掘MahoutSQL on Hadoop數(shù)據(jù)可視化R語言數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年氯氟氰菊酯項(xiàng)目發(fā)展計(jì)劃
- 胸腔護(hù)理專業(yè)知識(shí)與實(shí)操指南
- 雅克促銷員培訓(xùn)
- 造影檢查術(shù)前術(shù)后護(hù)理
- 輕度肺部感染的護(hù)理查房
- 腹腔鏡膽囊切除病人護(hù)理
- 船舶碰撞培訓(xùn)課件
- 裝修工程知識(shí)培訓(xùn)課件
- 2025年數(shù)字仿真計(jì)算機(jī)項(xiàng)目合作計(jì)劃書
- 卡介苗工作總結(jié)
- 初中英語語法大全知識(shí)點(diǎn)總結(jié)可打印
- 高考語文語言綜合運(yùn)用情景表達(dá)優(yōu)秀課件
- 醫(yī)患溝通技巧培訓(xùn)試題及答案
- iatf16949質(zhì)量管理體系策劃烏龜圖
- 房屋拆除預(yù)算表
- 石膏固定(共61張)課件
- 血漿吸附療法課件
- 品管圈成果匯報(bào)——提高導(dǎo)管固定正確率PPT課件
- 第2講 麥克斯韋方程組
- 讀懂教材、讀懂學(xué)生、讀懂課堂,構(gòu)建和諧有效的課堂教學(xué)
- 裝飾施工進(jìn)度計(jì)劃網(wǎng)絡(luò)圖及橫道圖
評(píng)論
0/150
提交評(píng)論