版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《大數(shù)據(jù)平臺部署與運維》單元4HDFS分布式文件系統(tǒng)任務4.2
HDFS的系統(tǒng)管理操作01HDFS安全模式學習目標02HDFS擴容操作03HDFS數(shù)據(jù)平衡04HDFS存儲策略05HDFS快照任務4.3HDFS的系統(tǒng)管理操作【任務場景】經(jīng)理:小張,你梳理一下HDFS的系統(tǒng)管理操作,制定一下我們運維團隊的操作規(guī)范?小張:好的,我們隨著數(shù)據(jù)量的增加,會出現(xiàn)擴容,以及系統(tǒng)維護的一系列操作。我整理出來,形成操作標準。任務4.3HDFS的系統(tǒng)管理操作【任務布置】了解HDFS的安全模式操作、擴容操作、數(shù)據(jù)平衡操作以及快照操作的使用場景和具體操作方法。任務4.3HDFS的系統(tǒng)管理操作4.3.1HDFS安全模式在啟動期間,NameNode從fsimage和edits日志文件加載文件系統(tǒng)狀態(tài)。然后,它等待DataNode注冊與發(fā)送BlockReport,驗證集群中的數(shù)據(jù)塊副本是否恢復正常,等待過程中它不會過早地開始復制塊,以免發(fā)生數(shù)據(jù)錯誤。在此期間,NameNode保持Safemode狀態(tài)。NameNode的安全模式本質上是HDFS集群的只讀模式,它不允許對文件系統(tǒng)或塊進行任何修改。通常,在DataNode報告大多數(shù)文件系統(tǒng)塊可用之后,NameNode會自動離開Safemode。當需要對文件系統(tǒng)進行生產性維護,如數(shù)據(jù)遷移、備份等操作時,需人工將HDFS設置為安全模式。進入安全模式后,因文件系統(tǒng)對客戶端是只讀狀態(tài),用戶只能從文件系統(tǒng)獲取數(shù)據(jù),但文件的修改操作,包括寫、刪除或重命名均會失敗。HDFS安全模式常用的操作命令如下:
查看是否處于安全模式hdfsdfsadmin-safemodeget等待退出安全模式hdfsdfsadmin-safemodewait手動進入安全模式hdfsdfsadmin-safemodeenter手動離開安全模式hdfsdfsadmin-safemodeleave任務4.3HDFS的系統(tǒng)管理操作4.3.1HDFS安全模式
與安全模式相關的屬性配置項配置內容說明dfs.replication.min1最小副本級別dfs.safemode.threshold.pct0.999在namenode退出安全模式之前,系統(tǒng)中滿足最小副本級別(由dfs.replication.min定義)的塊的比例。dfs.safemode.extension30000滿足最小副本條件之后,namenode還需處于安全模式的時間(以毫秒為單位)任務4.3HDFS的系統(tǒng)管理操作4.3.2擴容操作
隨著公司業(yè)務的增長,數(shù)據(jù)量越來越大,原有的數(shù)據(jù)節(jié)點的容量已經(jīng)不能滿足存儲數(shù)據(jù)的需求,需要在原有集群基礎上動態(tài)添加新的數(shù)據(jù)節(jié)點。動態(tài)增加新節(jié)點的步驟如下:1.準備新節(jié)點,安裝操作系統(tǒng)并配置主機名、ssh免密碼登錄、關閉防火墻、配置時間同步,特別注意的是,需要在/etc/hosts中添加新節(jié)點的解析。2.在hdfs配置文件的worker中添加新節(jié)點的信息并分發(fā)到所有節(jié)點。3.在新增節(jié)點上啟動DataNode和NodeManager。啟動DataNode$HADOOP_HOME/sbin/hadoop-daemon.shstartdatanode啟動NodeManager$HADOOP_HOME/sbin/hadoop-daemon.shstartnodemanager任務4.3HDFS的系統(tǒng)管理操作4.3.3數(shù)據(jù)平衡
HDFS數(shù)據(jù)并不總是均勻地分布在在DataNode上。HDFS為管理員提供了一個工具,可以在DataNode上分析數(shù)據(jù)塊放置的位置并重新平衡數(shù)據(jù)。導致hdfs數(shù)據(jù)不平衡的原因有很多,比如:向集群中添加新的數(shù)據(jù)節(jié)點。從集群中刪除節(jié)點。數(shù)據(jù)節(jié)點之間的磁盤大小不一致。任務4.3HDFS的系統(tǒng)管理操作4.3.3數(shù)據(jù)平衡hdfsbalancer用法如下:hdfsbalancer[-policy<policy>][-threshold<threshold>][-exclude[-f<hosts-file>|<comma-separatedlistofhosts>]][-include[-f<hosts-file>|<comma-separatedlistofhosts>]][-source[-f<hosts-file>|<comma-separatedlistofhosts>]][-blockpools<comma-separatedlistofblockpoolids>][-idleiterations<idleiterations>][-runDuringUpgrade][-asService]如果將Balancer作為長時間運行的服務運行,需使用-asService參數(shù)和daemon-mode啟動Balancer??梢允褂靡韵旅顖?zhí)行此操作:hdfs--daemonstartbalancer-asService,或者僅使用帶有參數(shù)-asService的sbin/start-balancer.sh腳本。任務4.3HDFS的系統(tǒng)管理操作4.3.4HDFS存儲策略存儲策略是在性能和成本之間妥協(xié)的一個技術產物。它通過配置DISK、SSD、RAM_SSD和ARCHIVE不同的存儲類型來存放不同性能要求的數(shù)據(jù),來提高HDFS的性價比。目前HDFS支持的存儲類型如下:1.DISK:普通磁盤,一般指機械硬盤,是最常用的存儲類型。2.SSD:固態(tài)硬盤,它的性能是機械硬盤的數(shù)十倍甚至上百倍。3.RAM_DISK:內存固態(tài)硬盤,它的性能非常高,一般提供給對性能要求非常嚴苛的場景使用。4.ARCHIVE-歸檔/壓縮,不是實際的磁盤類型,而是數(shù)據(jù)被壓縮存儲,它一般是低成本、低性能、高密度的存儲空間的節(jié)點組成,用來存儲歸檔或備份數(shù)據(jù),因它的計算性能差,一般不執(zhí)行計算任務。HDFS可以根據(jù)存儲策略要求,可以將數(shù)據(jù)從SSD遷移到DISK或者ARCHIVE中,用戶也可以選擇在SSD或者RAM_SSD中存儲數(shù)據(jù),以便提高性能。存儲策略允許將不同的文件存儲到不同的存儲類型上,并且允許將數(shù)據(jù)塊的不同副本存儲到不同存儲類型上。任務4.3HDFS的系統(tǒng)管理操作4.3.4HDFS存儲策略目前HDFS支持的存儲策略包含如下:Hot:用于存儲和計算,一般滿足大部分場景。數(shù)據(jù)的所有副本都放置在DISK存儲類型中。Cold:用于數(shù)據(jù)存檔。數(shù)據(jù)不再使用,進行歸檔。此類數(shù)據(jù)的所有副本放在ARCHIVE存儲類型中。Warm:一般提供給性能要求不高的場景使用。數(shù)據(jù)的部分副本放置在DISK存儲類型中,其它的在ARCHIVE存儲類型中。All_SSD:一般提供給性能要求高的場景使用。數(shù)據(jù)的所有副本放置在SSD存儲類型中。One_SSD:一般提供給性能要求高的場景使用,但需要考慮成本。數(shù)據(jù)的一個副本放置在SSD中,其它放置的在DISK存儲類型中.Lazy_Persist:一般應用在性能要求極為苛刻的場景中使用,用于在內存中寫入具有單個副本的塊。數(shù)據(jù)的副本首先寫入RAM_DISK,然后延遲保存在DISK中。Lazy_Persist策略僅對單個副本塊有用。對于具有多個副本的塊,所有副本都將寫入DISK,因為僅將其中一個副本寫入RAM_DISK不會提高整體性能。Provided:在HDFS之外存儲數(shù)據(jù)。數(shù)據(jù)的一個副本存儲在HDFS之外,其它副本存儲在DISK中。任務4.3HDFS的系統(tǒng)管理操作4.3.4HDFS存儲策略在使用存儲策略前,需要先完成存儲配置,相關示例如下:
<property><name>dfs.storage.policy.enabled</name><value>true</value><description>啟動存儲策略特性</description></property><property><name>dfs.data.dir</name><value>[DISK]/hadoop/datanode/disk01,[DISK]/hadoop/datanode/data02,[SSD]/hadoop/datanode/ssd01,[SSD]/hadoop/datanode/ssd02</value><description>datanode上數(shù)據(jù)塊的物理存儲位置</description></property>任務4.3HDFS的系統(tǒng)管理操作4.3.4HDFS快照
HDFS快照是文件系統(tǒng)的只讀時間點副本??梢栽谖募到y(tǒng)的子樹或整個文件系統(tǒng)上創(chuàng)建快照。快照的一些常見用例是數(shù)據(jù)備份、防止用戶錯誤和災難恢復的場景。HDFS的快照操作的相關命令如下:
允許目錄創(chuàng)建快照hdfsdfsadmin-allowSnapshot<path>禁止目錄創(chuàng)建快照hdfsdfsadmin-disallowSnapshot<path>創(chuàng)建快照hdfsdfs-createSnapshot<path>[<snapshotName>]刪除快照hdfsdfs-deleteSnapshot<path><snapshotName>命名快照hdfsdfs-renameSnapshot<path><oldName><newName>查看快照差異hdfssnapshotDiff<path><fromSnapshot><toSnapshot>
任務4.3HDFS的系統(tǒng)管理操作【工作流程】1.Hadoop安全模式操作2.向Hadoop集群增加worker節(jié)點3.HDFS快照操作任務4.3HDFS的系統(tǒng)管理操作【操作步驟】1.Hadoop安全模式操作:
進入安全模式[root@master01~]#hdfsdfsadmin-safemodegetSafemodeisOFF[root@master01~]#hdfsdfsadmin-safemodeenterSafemodeisON[root@master01~]#hdfsdfsadmin-safemodegetSafemodeisON驗證是否可以上傳文件,在安全模式下HDFS無法寫入數(shù)據(jù)。[root@master01~]#hdfsdfs-puttest.txt/put:Cannotcreatefile/test.txt._COPYING_.Namenodeisinsafemode.驗證文件是否下載,在安全模式下HDFS允許讀取數(shù)據(jù)[root@master01~]#hdfsdfs-get/dir01/test.txt./test_new.txt退出安全模式[root@master01~]#hdfsdfsadmin-safemodeleaveSafemodeisOFF任務4.3HDFS的系統(tǒng)管理操作【操作步驟】2.向Hadoop集群增加worker節(jié)點:(1)操作系統(tǒng)準備新增節(jié)點為worker03節(jié)點,對worker03節(jié)點準備操作系統(tǒng)。準備過程請參考《任務3.1搭建Hadoop集群》,具體包含如下操作:操作系統(tǒng)安裝配置IP地址配置SSH免密碼登錄配置hostname禁用selinux關閉防火墻配置時間同步配置JAVA環(huán)境任務4.3HDFS的系統(tǒng)管理操作【操作步驟】2.向Hadoop集群增加worker節(jié)點:(2)修改worker節(jié)點配置修改worker配置文件增加“worker03”節(jié)點,在master01節(jié)點執(zhí)行,后續(xù)分發(fā)到其他節(jié)點。
(3)將Hadoop安裝包同步到其他節(jié)點,在master01節(jié)點執(zhí)行。[root@master01~]#yuminstall-yrsync[root@master01~]#rsync-a/opt/hadoopworker01:/opt/[root@master01~]#rsync-a/opt/hadoopworker02:/opt/[root@master01~]#rsync-a/opt/hadoopworker03:/opt/(4)啟動datanode和nodemanager在新增節(jié)點worker03上啟動datanode和nodemanager[root@worker03~]#/opt/hadoop/sbin/yarn-daemon.shstartdatanode[root@worker03~]#/opt/hadoop/sbin/yarn-daemon.shstartnodemanager[root@master01~]#vim/opt/hadoop/etc/hadoop/workersworker01worker02worker03任務4.3HDFS的系統(tǒng)管理操作【操作步驟】2.向Hadoop集群增加worker節(jié)點:(5)檢查啟動狀態(tài)在master01節(jié)點檢查hdfs狀態(tài),worker03上的DataNode已啟動[root@master01~]#hdfsdfsadmin-report...Name:17:9866(worker03)Hostname:worker03DecommissionStatus:Normal檢查NodeManager是否啟動[root@master01~]#yarnnode-listTotalNodes:3Node-Id Node-State Node-Http-Address Number-of-Running-Containersworker01:32848 RUNNING worker01:80420worker03:44527 RUNNING worker03:80420worker02:34417 RUNNING worker02:80420任務4.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度商鋪物業(yè)管理服務合同參考2篇
- 偵探柯南介紹
- 二零二五年度婚介公司婚姻法律援助合同3篇
- 山東省棗莊市市中區(qū)2024-2025學年八年級上學期期末生物試題(含答案)
- 二零二五年度單車租賃與保險合作合同2篇
- Unit 6 Exploring the Topic Grammar in Use說課稿 -2024-2025學年仁愛科普版七年級英語上冊
- 江蘇省蘇州市姑蘇區(qū)2024-2025學年七年級上學期期末質量監(jiān)測歷史卷(含答案)
- 黑龍江牡丹江市(2024年-2025年小學六年級語文)統(tǒng)編版能力評測(下學期)試卷及答案
- 貴州盛華職業(yè)學院《影視動畫制作》2023-2024學年第一學期期末試卷
- 貴州黔南經(jīng)濟學院《產品符號與語意》2023-2024學年第一學期期末試卷
- 【MOOC】思辨式英文寫作-南開大學 中國大學慕課MOOC答案
- 期末測試卷(試題)-2024-2025學年五年級上冊數(shù)學北師大版
- 2024年下半年中國石油大連石化分公司招聘30人易考易錯模擬試題(共500題)試卷后附參考答案
- 國有企業(yè)品牌建設策略方案
- 家政培訓講師課件
- 廣東省深圳市龍華區(qū)2023-2024學年八年級下學期期中數(shù)學試題
- 視頻監(jiān)控方案-高空瞭望解決方案
- 完整液壓系統(tǒng)課件
- 2024-2030年中國通信工程行業(yè)發(fā)展分析及發(fā)展前景與趨勢預測研究報告
- 雙梁橋式起重機小車改造方案
- 2022年福建省職業(yè)院校技能大賽中職組“現(xiàn)代物流綜合作業(yè)”賽項規(guī)程
評論
0/150
提交評論