![大數(shù)據(jù)應(yīng)用技術(shù)介紹課件_第1頁(yè)](http://file4.renrendoc.com/view/fcb40c014e92048634335971c843b82c/fcb40c014e92048634335971c843b82c1.gif)
![大數(shù)據(jù)應(yīng)用技術(shù)介紹課件_第2頁(yè)](http://file4.renrendoc.com/view/fcb40c014e92048634335971c843b82c/fcb40c014e92048634335971c843b82c2.gif)
![大數(shù)據(jù)應(yīng)用技術(shù)介紹課件_第3頁(yè)](http://file4.renrendoc.com/view/fcb40c014e92048634335971c843b82c/fcb40c014e92048634335971c843b82c3.gif)
![大數(shù)據(jù)應(yīng)用技術(shù)介紹課件_第4頁(yè)](http://file4.renrendoc.com/view/fcb40c014e92048634335971c843b82c/fcb40c014e92048634335971c843b82c4.gif)
![大數(shù)據(jù)應(yīng)用技術(shù)介紹課件_第5頁(yè)](http://file4.renrendoc.com/view/fcb40c014e92048634335971c843b82c/fcb40c014e92048634335971c843b82c5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)應(yīng)用技術(shù)介紹2014年2月大數(shù)據(jù)應(yīng)用技術(shù)介紹2014年2月1Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)SubProject描述common分布式文件系統(tǒng)和通用I/O的組件與接口(序列化,JavaRPC和持久化數(shù)據(jù)結(jié)構(gòu))Avro支持高效的跨語(yǔ)言RPC和持久數(shù)據(jù)存儲(chǔ)的序列化系統(tǒng)MapReduce分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,運(yùn)行在大型商用機(jī)集群HDFS分布式文件系統(tǒng),用于大型商用機(jī)集群PIGPig是SQL-like語(yǔ)言,是在MapReduce上構(gòu)建的一種高級(jí)查詢語(yǔ)言,把一些運(yùn)算編譯進(jìn)MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Hive分布式、按列存儲(chǔ)的數(shù)據(jù)倉(cāng)庫(kù)。Hive管理HDFS中存儲(chǔ)的數(shù)據(jù),并提供基于SQL的查詢語(yǔ)言(由運(yùn)行時(shí)引擎翻譯成MapReduce作業(yè))Hbase分布式、按列存儲(chǔ)的數(shù)據(jù)庫(kù)。HBase使用HDFS作為底層存儲(chǔ),同時(shí)支持MapReduce的批量式計(jì)算和點(diǎn)查詢(隨機(jī)讀取)ZooKeeper分布式、可用性高的協(xié)調(diào)服務(wù)。提供類似分布式鎖的基礎(chǔ)服務(wù)。Sqoop在數(shù)據(jù)庫(kù)和HDFS之間高效傳輸數(shù)據(jù)的工具Flume分布式、可靠、和高可用的海量日志聚合的系統(tǒng)。ChukwaChukwa是基于Hadoop的大集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)。Hadoop生態(tài)系統(tǒng)SubProject描述common分Hadoop介紹HDFSMapReduceHadoop介紹HDFSMapReduceHDFS特點(diǎn)存儲(chǔ)大文件百兆以上級(jí)別文件百萬(wàn)級(jí)文件由于億級(jí)別文件流式處理數(shù)據(jù)一次寫(xiě)多次多模式支持追加操作廉價(jià)的硬件環(huán)境普通pcserver組成集群環(huán)境HDFS特點(diǎn)存儲(chǔ)大文件百兆以上級(jí)別文件百萬(wàn)級(jí)文件由于億級(jí)別HDFS缺點(diǎn)低延時(shí)讀操作高吞吐量而非低延時(shí)Hbase解決了這個(gè)問(wèn)題大量小數(shù)據(jù)文件最好每個(gè)文件大于100M多次寫(xiě)只支持一次寫(xiě)只支持在文件尾部添加,不支持隨機(jī)寫(xiě)HDFS缺點(diǎn)低延時(shí)讀操作高吞吐量而非低延時(shí)Hbase解決了HDFS部署結(jié)構(gòu)HDFS部署結(jié)構(gòu)HDFS讀寫(xiě)過(guò)程HDFS讀寫(xiě)過(guò)程MapReduce部署結(jié)構(gòu)JobTracker管理集群資源和Job調(diào)度TaskTracker管理Task運(yùn)行MapReduce部署結(jié)構(gòu)JobTracker管理集群資源MapReduce計(jì)算模型Inputk1,v1Mapk2,v2Reducek3,v3OutputMapReduce計(jì)算模型Inputk1,v1Mapk2MapReduce擴(kuò)展接口InputFormatMapperPartitionerReducerOutputFormatMapReduce擴(kuò)展接口InputFormatMapMapReduceReduceMapReduce實(shí)例MapReduce實(shí)例MapReduce內(nèi)部結(jié)構(gòu)MapReduce內(nèi)部結(jié)構(gòu)Hadoop2.0引入一個(gè)新的資源管理系統(tǒng)YARNHDFS單點(diǎn)故障得以解決HDFSFederationHDFS快照通過(guò)NFS訪問(wèn)HDFS支持Window系統(tǒng)Hadoop2.0引入一個(gè)新的資源管理系統(tǒng)YARNHadoop1VSHadoop2Hadoop1VSHadoop2集群資源管理Hadoop介紹集群資源管理Hadoop介紹Yarn運(yùn)行原理圖Yarn運(yùn)行原理圖Hbase介紹1高可靠性2高效性3面向列4可伸縮5可在廉價(jià)PCServer搭建大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群Hbase介紹1高可靠性Hbase體系結(jié)構(gòu)Hbase體系結(jié)構(gòu)HBase系統(tǒng)架構(gòu)圖HBase系統(tǒng)架構(gòu)圖HBase部件說(shuō)明Client:
使用HBaseRPC機(jī)制與HMaster和HRegionServer進(jìn)行通信
Client與HMaster進(jìn)行通信進(jìn)行管理類操作
Client與HRegionServer進(jìn)行數(shù)據(jù)讀寫(xiě)類操作
Zookeeper:
ZookeeperQuorum存儲(chǔ)-ROOT-表地址、HMaster地址
HRegionServer把自己以Ephedral方式注冊(cè)到Zookeeper中,HMaster隨時(shí)感知各個(gè)HRegionServer的健康狀況
Zookeeper避免HMaster單點(diǎn)問(wèn)題
HMaster:
HMaster沒(méi)有單點(diǎn)問(wèn)題,HBase中可以啟動(dòng)多個(gè)HMaster,通過(guò)Zookeeper的MasterElection機(jī)制保證總有一個(gè)Master在運(yùn)行
主要負(fù)責(zé)Table和Region的管理工作:
1管理用戶對(duì)表的增刪改查操作
2管理HRegionServer的負(fù)載均衡,調(diào)整Region分布
3RegionSplit后,負(fù)責(zé)新Region的分布
4在HRegionServer停機(jī)后,負(fù)責(zé)失效HRegionServer上Region遷移
HBase部件說(shuō)明Client:
使用HBaseRPC機(jī)制Table&RegionTable隨著記錄增多不斷變大,會(huì)自動(dòng)分裂成多份Splits,成為Regions一個(gè)region由[startkey,endkey)表示不同region會(huì)被Master分配給相應(yīng)的RegionServer進(jìn)行管理Table&RegionTable隨著記錄增多不斷變大,會(huì)自HregionServerHregionServer-ROOT-&.META..META.記錄用戶表的Region信息,同時(shí),.META.也可以有多region-ROOT-記錄.META.表的Region信息,但是,-ROOT-只有一個(gè)regionZookeeper中記錄了-ROOT-表的location客戶端訪問(wèn)數(shù)據(jù)的流程:
Client->Zookeeper->-ROOT-->.META.->用戶數(shù)據(jù)表多次網(wǎng)絡(luò)操作,不過(guò)client端有cache緩存-ROOT-&.META..META.記錄用戶表的ReHBase數(shù)據(jù)模型RowKey:Table主鍵,Table中記錄按照RowKey排序
Timestamp:
每次對(duì)數(shù)據(jù)操作對(duì)應(yīng)的時(shí)間戳,也即數(shù)據(jù)的versionnumber
ColumnFamily:列簇,一個(gè)table在水平方向有一個(gè)或者多個(gè)列簇,列簇可由任
意多個(gè)Column組成,列簇支持動(dòng)態(tài)擴(kuò)展,無(wú)須預(yù)定義數(shù)量及
類型,二進(jìn)制存儲(chǔ),用戶需自行進(jìn)行類型轉(zhuǎn)換HBase數(shù)據(jù)模型RowKey:Table主鍵HbaseShellHbaseShellHbaseshellHbaseshellHbase與RDBMS數(shù)據(jù)類型:Hbase只有簡(jiǎn)單的字符串類型。數(shù)據(jù)操作:Hbase只有很簡(jiǎn)單的插入、查詢、刪除、清空操作,沒(méi)有復(fù)雜的表和表之間的關(guān)系。存儲(chǔ)模式:Hbase是基于列式存儲(chǔ),每個(gè)列族由幾個(gè)文件保存,不同列族的文件是分離的。數(shù)據(jù)維護(hù):更新操作是替換版本,刪除只是邏輯標(biāo)記可伸縮性:Hbase與RDBMS數(shù)據(jù)類型:Hbase只有簡(jiǎn)單的字符串類參考資料參考資料Lucene搜索結(jié)構(gòu)Lucene搜索結(jié)構(gòu)基于文檔的搜索Tika是一個(gè)內(nèi)容抽取的工具集合。支持work,ppt,execl,PDF等基于文檔的搜索Tika是一個(gè)內(nèi)容抽取的工具集合。大數(shù)據(jù)統(tǒng)計(jì)Elasticsearch:開(kāi)源的分布式實(shí)時(shí)搜索系統(tǒng),結(jié)合Hbase實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)和檢索,同時(shí)提供索引數(shù)據(jù)統(tǒng)計(jì)功能,滿足海量數(shù)據(jù)的實(shí)時(shí)統(tǒng)計(jì)要求。ya主要功能特點(diǎn)realtimedistributedhighavailabilitydocumentorientedschemafreerestfulapi索引數(shù)據(jù)統(tǒng)計(jì)min、max、sum、avg。stats、filter、missingrang、datarange、ipv4rangehistogram、datehitogram大數(shù)據(jù)統(tǒng)計(jì)Elasticsearch:開(kāi)源的分布式實(shí)時(shí)搜索系大數(shù)據(jù)應(yīng)用技術(shù)介紹課件大數(shù)據(jù)應(yīng)用技術(shù)介紹課件軟件興企報(bào)國(guó)創(chuàng)造引領(lǐng)未來(lái)ThankYou!軟件興企報(bào)國(guó)創(chuàng)造引領(lǐng)未來(lái)ThankYou!37大數(shù)據(jù)應(yīng)用技術(shù)介紹2014年2月大數(shù)據(jù)應(yīng)用技術(shù)介紹2014年2月38Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)SubProject描述common分布式文件系統(tǒng)和通用I/O的組件與接口(序列化,JavaRPC和持久化數(shù)據(jù)結(jié)構(gòu))Avro支持高效的跨語(yǔ)言RPC和持久數(shù)據(jù)存儲(chǔ)的序列化系統(tǒng)MapReduce分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,運(yùn)行在大型商用機(jī)集群HDFS分布式文件系統(tǒng),用于大型商用機(jī)集群PIGPig是SQL-like語(yǔ)言,是在MapReduce上構(gòu)建的一種高級(jí)查詢語(yǔ)言,把一些運(yùn)算編譯進(jìn)MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Hive分布式、按列存儲(chǔ)的數(shù)據(jù)倉(cāng)庫(kù)。Hive管理HDFS中存儲(chǔ)的數(shù)據(jù),并提供基于SQL的查詢語(yǔ)言(由運(yùn)行時(shí)引擎翻譯成MapReduce作業(yè))Hbase分布式、按列存儲(chǔ)的數(shù)據(jù)庫(kù)。HBase使用HDFS作為底層存儲(chǔ),同時(shí)支持MapReduce的批量式計(jì)算和點(diǎn)查詢(隨機(jī)讀?。㈱ooKeeper分布式、可用性高的協(xié)調(diào)服務(wù)。提供類似分布式鎖的基礎(chǔ)服務(wù)。Sqoop在數(shù)據(jù)庫(kù)和HDFS之間高效傳輸數(shù)據(jù)的工具Flume分布式、可靠、和高可用的海量日志聚合的系統(tǒng)。ChukwaChukwa是基于Hadoop的大集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)。Hadoop生態(tài)系統(tǒng)SubProject描述common分Hadoop介紹HDFSMapReduceHadoop介紹HDFSMapReduceHDFS特點(diǎn)存儲(chǔ)大文件百兆以上級(jí)別文件百萬(wàn)級(jí)文件由于億級(jí)別文件流式處理數(shù)據(jù)一次寫(xiě)多次多模式支持追加操作廉價(jià)的硬件環(huán)境普通pcserver組成集群環(huán)境HDFS特點(diǎn)存儲(chǔ)大文件百兆以上級(jí)別文件百萬(wàn)級(jí)文件由于億級(jí)別HDFS缺點(diǎn)低延時(shí)讀操作高吞吐量而非低延時(shí)Hbase解決了這個(gè)問(wèn)題大量小數(shù)據(jù)文件最好每個(gè)文件大于100M多次寫(xiě)只支持一次寫(xiě)只支持在文件尾部添加,不支持隨機(jī)寫(xiě)HDFS缺點(diǎn)低延時(shí)讀操作高吞吐量而非低延時(shí)Hbase解決了HDFS部署結(jié)構(gòu)HDFS部署結(jié)構(gòu)HDFS讀寫(xiě)過(guò)程HDFS讀寫(xiě)過(guò)程MapReduce部署結(jié)構(gòu)JobTracker管理集群資源和Job調(diào)度TaskTracker管理Task運(yùn)行MapReduce部署結(jié)構(gòu)JobTracker管理集群資源MapReduce計(jì)算模型Inputk1,v1Mapk2,v2Reducek3,v3OutputMapReduce計(jì)算模型Inputk1,v1Mapk2MapReduce擴(kuò)展接口InputFormatMapperPartitionerReducerOutputFormatMapReduce擴(kuò)展接口InputFormatMapMapReduceReduceMapReduce實(shí)例MapReduce實(shí)例MapReduce內(nèi)部結(jié)構(gòu)MapReduce內(nèi)部結(jié)構(gòu)Hadoop2.0引入一個(gè)新的資源管理系統(tǒng)YARNHDFS單點(diǎn)故障得以解決HDFSFederationHDFS快照通過(guò)NFS訪問(wèn)HDFS支持Window系統(tǒng)Hadoop2.0引入一個(gè)新的資源管理系統(tǒng)YARNHadoop1VSHadoop2Hadoop1VSHadoop2集群資源管理Hadoop介紹集群資源管理Hadoop介紹Yarn運(yùn)行原理圖Yarn運(yùn)行原理圖Hbase介紹1高可靠性2高效性3面向列4可伸縮5可在廉價(jià)PCServer搭建大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群Hbase介紹1高可靠性Hbase體系結(jié)構(gòu)Hbase體系結(jié)構(gòu)HBase系統(tǒng)架構(gòu)圖HBase系統(tǒng)架構(gòu)圖HBase部件說(shuō)明Client:
使用HBaseRPC機(jī)制與HMaster和HRegionServer進(jìn)行通信
Client與HMaster進(jìn)行通信進(jìn)行管理類操作
Client與HRegionServer進(jìn)行數(shù)據(jù)讀寫(xiě)類操作
Zookeeper:
ZookeeperQuorum存儲(chǔ)-ROOT-表地址、HMaster地址
HRegionServer把自己以Ephedral方式注冊(cè)到Zookeeper中,HMaster隨時(shí)感知各個(gè)HRegionServer的健康狀況
Zookeeper避免HMaster單點(diǎn)問(wèn)題
HMaster:
HMaster沒(méi)有單點(diǎn)問(wèn)題,HBase中可以啟動(dòng)多個(gè)HMaster,通過(guò)Zookeeper的MasterElection機(jī)制保證總有一個(gè)Master在運(yùn)行
主要負(fù)責(zé)Table和Region的管理工作:
1管理用戶對(duì)表的增刪改查操作
2管理HRegionServer的負(fù)載均衡,調(diào)整Region分布
3RegionSplit后,負(fù)責(zé)新Region的分布
4在HRegionServer停機(jī)后,負(fù)責(zé)失效HRegionServer上Region遷移
HBase部件說(shuō)明Client:
使用HBaseRPC機(jī)制Table&RegionTable隨著記錄增多不斷變大,會(huì)自動(dòng)分裂成多份Splits,成為Regions一個(gè)region由[startkey,endkey)表示不同region會(huì)被Master分配給相應(yīng)的RegionServer進(jìn)行管理Table&RegionTable隨著記錄增多不斷變大,會(huì)自HregionServerHregionServer-ROOT-&.META..META.記錄用戶表的Region信息,同時(shí),.META.也可以有多region-ROOT-記錄.META.表的Region信息,但是,-ROOT-只有一個(gè)regionZookeeper中記錄了-ROOT-表的location客戶端訪問(wèn)數(shù)據(jù)的流程:
Client->Zookeeper->-ROOT-->.META.->用戶數(shù)據(jù)表多次網(wǎng)絡(luò)操作,不過(guò)client端有cache緩存-ROOT-&.META..META.記錄用戶表的ReHBase數(shù)據(jù)模型RowKey:Table主鍵,Table中記錄按照RowKey排序
Timestamp:
每次對(duì)數(shù)據(jù)操作對(duì)應(yīng)的時(shí)間戳,也即數(shù)據(jù)的versionnumber
ColumnFamily:列簇,一個(gè)table在水平方向有一個(gè)或者多個(gè)列簇,列簇可由任
意多個(gè)Column組成,列簇支持動(dòng)態(tài)擴(kuò)展,無(wú)須預(yù)定義數(shù)量及
類型,二進(jìn)制存儲(chǔ),用戶需自行進(jìn)行類型轉(zhuǎn)換HBase數(shù)據(jù)模型RowKey:T
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)田農(nóng)場(chǎng)養(yǎng)殖合同范例
- 農(nóng)村地轉(zhuǎn)讓合同范本
- 臨建房合同范例
- 代驗(yàn)收合同范例
- 借款利率合同范本
- 獸醫(yī)樣品郵寄合同范本
- 代理公司分銷合同范例
- 個(gè)體人員招聘合同范例
- 產(chǎn)品配送合同范例
- 個(gè)人號(hào)碼租賃合同范例
- 西藏事業(yè)單位c類歷年真題
- 2024人教新目標(biāo)(Go for it)八年級(jí)英語(yǔ)下冊(cè)【第1-10單元】全冊(cè) 知識(shí)點(diǎn)總結(jié)
- 七年級(jí)英語(yǔ)下學(xué)期開(kāi)學(xué)考試(深圳專用)-2022-2023學(xué)年七年級(jí)英語(yǔ)下冊(cè)單元重難點(diǎn)易錯(cuò)題精練(牛津深圳版)
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)宣傳畫(huà)冊(cè)
- 杭州市房地產(chǎn)經(jīng)紀(jì)服務(wù)合同
- 2024年大宗貿(mào)易合作共贏協(xié)議書(shū)模板
- 初中數(shù)學(xué)教學(xué)經(jīng)驗(yàn)分享
- 新聞?dòng)浾咦C600道考試題-附標(biāo)準(zhǔn)答案
- 2024年公開(kāi)招聘人員報(bào)名資格審查表
- TSG ZF001-2006《安全閥安全技術(shù)監(jiān)察規(guī)程》
- 長(zhǎng)螺旋鉆孔壓灌樁工程勞務(wù)清包合同(范本)
評(píng)論
0/150
提交評(píng)論