




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
Hadoop技術原理HDFS分布式文件系統(tǒng)HDFS簡介01Hadoop的核心模塊01hadoop的核心模塊Common:封裝大量的API,為其他模塊做技術支持HDFS:hadoop的分布式文件系統(tǒng),功能是存儲海量數(shù)據(jù)YARN:分布式計算平臺MapReduce:分布式計算框架HDFS簡介02HDFS:HadoopDistributedFileSystem,是Hadoop項目的核心子項目,是分布式計算中數(shù)據(jù)存儲管理的基礎。支持海量數(shù)據(jù)的存儲,成百上千的計算機組成存儲集群,HDFS可以運行在低成本的硬件之上,具有的高容錯、高可靠性、高可擴展性、高吞吐率等特征,非常適合大規(guī)模數(shù)據(jù)集上的應用。概念HDFS簡介03分布式文件系統(tǒng)基于廉價的普通硬件,可以容忍硬件出錯當系統(tǒng)中的某一臺或幾臺服務器出現(xiàn)故障的時候,系統(tǒng)仍可用且數(shù)據(jù)保持完整大數(shù)據(jù)集(大文件)HDFS適合存儲大量文件,總存儲量可以達到PB,EB級HDFS適合存儲大文件,單個文件大小一般在百MB級之上文件數(shù)目適中大型分布式計算的底層存儲特征HDFS簡介04優(yōu)點高容錯性數(shù)據(jù)自動保存多個副本副本丟失后,自動恢復適合批處理移動計算而非移動數(shù)據(jù)數(shù)據(jù)位置暴露給計算框架適合大數(shù)據(jù)處理GB、TB、甚至PB級數(shù)據(jù)百萬規(guī)模以上的文件數(shù)量10K+節(jié)點流式文件訪問一次性寫入,多次讀取保證數(shù)據(jù)一致性可構建在廉價機器上通過多副本提高可靠性提供了容錯和恢復機制HDFS簡介05缺點不適合低延遲數(shù)據(jù)訪問比如毫秒級低延遲與高吞吐率不適合小文件存取占用NameNode大量內(nèi)存尋道時間超過讀取時間不適合并發(fā)寫入、文件隨機修改一個文件只能有一個寫入者僅支持append(追加)HDFS基本架構02HDFS基本架構HDFS的組成01HDFS基本架構02NameNode的職責管理維護HDFS(管理DataNode上文件Block的均衡,維持副本數(shù)量)接收客戶端的請求:上傳、下載、刪除文件等維護了兩個非常重要的文件:edits文件(操作日志文件)-->記錄操作日志(editlog)主要是在NameNode已經(jīng)啟動情況下對HDFS進行的各種更新操作進行記錄,HDFS客戶端執(zhí)行所有的寫操作都會被記錄到editlog中fsimage文件-->HDFS的元信息(1)包含HDFS中的所有目錄和文件信息(二進制格式)(2)對于目錄來說,包含的信息主要有修改時間、訪問控制權限等信息。(3)對于文件來說,包含的信息有修改時間、訪問時間、訪問控制、塊大小和組成一個文件塊信息等;HDFS基本架構03NameNode的職責查看Editsedits記錄了HDFS的操作日志最新的操作日志:edits_inprogress****都是二進制HDFS提供一個工具:editsviewer日志查看器---->XMLHDFS基本架構04NameNode的職責查看FsimageHDFS的元信息:存在fsimage文件就跟edits文件在一起記錄:數(shù)據(jù)塊的位置、冗余信息、文件屬性等也是一個二進制HDFS提供一個imageviewer---->文本或者xmlHDFS基本架構05DataNode的職責存儲數(shù)據(jù)塊負責客戶端對數(shù)據(jù)塊的IO請求DataNode定時和NameNode進行心跳通信,接受NameNode的指令。DataNode的數(shù)據(jù)塊數(shù)據(jù)塊大?。篐adoop1.x默認64MB,Hadoop2.x默認128MB查看數(shù)據(jù)塊的大小上傳數(shù)據(jù),打印文件的Block報告:[root@single~]#hdfsfsck/user/hadoop/hadoop-2.7.3.tar.gz-files-blocksHDFS基本架構06網(wǎng)絡拓撲網(wǎng)絡拓撲用來描述跨網(wǎng)絡傳輸數(shù)據(jù)速度快慢用距離概念來描述,距離越小,傳輸速度越快結論:
同機架上的任意2個節(jié)點之間的傳輸距離都是2
跨機架.上的任意2個節(jié)點之間的傳輸距離都是4
跨數(shù)據(jù)中心上的任意2個節(jié)點之間的傳輸距離都是6HDFS基本架構07機架感知與副本冗余存儲策略HDFS基本架構08副本備份副本放置策略(HDFS的副本數(shù)默認是3個)1.第-塊副本,如果數(shù)據(jù)在遠程客戶端上,那么選擇距離最近的節(jié)點上傳;數(shù)據(jù)已經(jīng)在集群的某-一臺服務器節(jié)點上了,那么就上傳到這臺節(jié)點上2.第二塊副本,相對于第一塊副本所在節(jié)點而言,選擇跨機架上的任意-一個節(jié)點上傳(從安全性考慮)3.第三塊副本,相對于第二塊副本所在節(jié)點而言,選擇同機架上的任意-一個節(jié)點上傳(從效率性考慮)4.假如副本數(shù)超過了3個,那第四塊副本開始就沒有任何放置策略可言了,完全隨機HDFS基本架構09SecondaryNameNode的職責
定期地創(chuàng)建命名空間的檢查點(CheckPoint)操作:把edits中最新的狀態(tài)信息合并到fsimage文件中,防止edits過大。也可以做冷備,對一定范圍內(nèi)數(shù)據(jù)做快照性備份。HDFS基本架構10CheckPoint過程HDFS基本架構11SecondaryNameNode的工作條件只要達到以下兩個條件之一就可以觸發(fā)檢查點操作每隔60分鐘(node.checkpoint.period)當edits文件達到100萬條事務(node.checkpoint.txns)HDFS基本架構12SecondaryNameNode檢查點的作用SecondaryNameNode的主要作用是定期通過編輯日志文件合并命名空間鏡像,以防止編輯日志文件過大,減少NameNode的啟動的時間SecondaryNameNode一般要在另一臺機器上運行,因為它需要占用大量的CPU時間與namenode相同容量的內(nèi)存才可以進行合并操作。它會保存合并后的命名空間鏡像的副本,并在namenode發(fā)生故障時啟用。(冷備份)HDFS基本架構13HDFS啟動過程HDFS訪問方式03HDFS訪問方式01通過WebConsoleNameNodeweb管理端口50070,可以查看文件系統(tǒng)概況,數(shù)據(jù)節(jié)點信息,快照,目錄結構及文件屬性等。HDFS訪問方式02通過WebConsoleSecondaryNameNode端口為50090。NameNode入口地址,以及Checkpoint等信息。HDFS訪問方式03通過Shell命令
查看操作命令詳情[root@single~]#hdfsdfs查看管理命令詳情[root@single~]#hdfsdfsadminHDFS訪問方式04通過JavaAPI訪問HDFS涉及到的Java類和包Configuration類該類的對象封裝了配置信息FileSystem類文件系統(tǒng)類,可使用該類的方法樹對文件/目錄進行操作,一般通過FileSystem的靜態(tài)方法get獲得一個文件系統(tǒng)對象FSDataInputStream和FSDataOutputStream類HDFS中的輸入輸出流。分別通過FileSystem的open方法和create方法獲得以上類均來自java包:org.apache.hadoop.fsHDFS訪問方式05通過JavaAPI訪問HDFS添
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 一致行動人協(xié)議書范本
- 建房補償合同協(xié)議書范本
- 2025年商品化色漿項目建議書
- 2025年航天器結構系統(tǒng)合作協(xié)議書
- 直播流量分成與藝人經(jīng)紀服務合作協(xié)議
- 社區(qū)圖書館社區(qū)文化活動策劃與管理委托協(xié)議
- Web前端開發(fā)技術項目教程(HTML5 CSS3 JavaScript)(微課版) 課件 6.3任務引入 制作與美化水平導航欄
- 智能建筑環(huán)境監(jiān)測系統(tǒng)施工、驗收與能耗優(yōu)化服務協(xié)議
- 極限運動旅游線路開發(fā)與風險管理合同
- 國際水準儀租賃及海外工程項目預算控制合同
- 最新-臨時救助申請審核審批表模板
- 《有效溝通》PPT課件-(2)
- 藍色大氣商務商業(yè)計劃書PPT模板
- 青春紅綠燈教學設計中小學心理健康心理游戲腳本
- 蘇教版二年級(下冊)科學全冊單元測試卷含期中期末(有答案)
- 《城鎮(zhèn)土地使用稅納稅申報表》
- 三年級數(shù)學下冊口算脫式豎式練習題
- 17025實驗室體系
- 大榆樹溝防洪治理工程初步設計報告
- 8D報告培訓教材(共30頁).ppt
- 屋面及防水工程工程量計算PPT課件
評論
0/150
提交評論