版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
分布式文件系統(tǒng)HDF|2018年9
121233441什么是概Hadoop分布式文件系統(tǒng)(HadoopDistributedFile2003年10 了 FileHDFS是GFS的開源實HDFS是ApacheHadoop 子項在開源大數(shù)據(jù)技術(shù)體設(shè)計目運行在大量廉 機器上:硬件錯誤是常態(tài),提供容錯機簡單一致性模型:一次寫入多 ,支持追加,不允許修改,保證數(shù)據(jù)一致流式數(shù) :批量讀而非隨機讀,關(guān)注吞吐量而非時大規(guī)模數(shù)據(jù)集:典型文件大小GB~TB
HDFS簡 優(yōu)高容錯、高可用、高擴海量數(shù)
HDFS簡缺不適合低延遲數(shù)不適合大量小文-元數(shù)據(jù)占用NameNode大量內(nèi)存-磁盤尋道時間超 時不支持并發(fā)寫-典型文件大小GB~TB,百萬以上文件數(shù)量,PB以上數(shù)據(jù)規(guī)構(gòu)建成本低、安全可-構(gòu)建在廉價 服務(wù)器-適合大規(guī)模離線批處-
-不支持文件隨機修- 2系統(tǒng)架構(gòu)圖
Namespace/MetadataNamespace/Metadata
HDFS原Heartbeats,Heartbeats,Balancing,ReplicationHDFSNodesWritetoLocalNodesWritetoLocal系統(tǒng)架構(gòu)圖
HDFS原 Active活動Master管理節(jié)點(集群中唯一管理命名空管理元數(shù)據(jù):文件的位置、所有者、權(quán)限、數(shù)據(jù)塊管理Block副本策略:默認3個副處理客戶端讀寫請求,為DataNode分配任Standby熱備Master管理節(jié)點(ActiveNameNode的熱備節(jié)點-Hadoop3.0允許配置多個StandbyActiveNameNode宕機后,快速升級為新的周期性同步edits編輯日志,定期合并fsimage與edits到本地磁
HDFS原
HDFS原NameNode元數(shù)據(jù)文edits(編輯日志文件):保存了 檢查點(Checkpoint)之后的所有文件更新操fsimage(元數(shù)據(jù)檢查點鏡像文件):保存了文件系統(tǒng)中所有 和文件信息,如:某個錄下有哪些 和文件,以及文件名、文件副本數(shù)、文件由哪些Block組成ActiveNameNode內(nèi)存中有一 的元數(shù)據(jù)(=fsimage+StandbyNameNode在檢查點定期將內(nèi)存中的元數(shù)據(jù)保存到fsimage文件Slave工作節(jié)點(可大規(guī)模擴展Block和數(shù)據(jù)校驗執(zhí)行客戶端發(fā)送的讀寫操通過心跳機制定期(默認3秒)向NameNode匯報運行狀態(tài)和Block列表信集群啟動時,DataNode向NameNode提供Block列表信 Block數(shù)據(jù)HDFS最 單文件寫入HDFS會被切分成若干個Block大小固定,默認為128MB,可自定若一個Block的大小小于設(shè)定值,不會占用整個塊空默認情況下每個Block有3個副將文件切分為與NameNode交互,獲取文件元數(shù)與DataNode交互 或?qū)懭霐?shù)管理
HDFS原 Block是HDFS的最 單如何設(shè)置Block大-塊太大:Map任務(wù)數(shù)太少,作業(yè)執(zhí)行Block和元數(shù)據(jù)分 于DataNode,元數(shù) 于Block多副-以DataNode節(jié)點為備份對
HDFS原 Block副本放置策副本1:放在Client所在節(jié)-對 副本2:放在不同的機架節(jié)點副本N:隨機選節(jié)點選
HDFS原
HDFS原Block文Block文件是DataNode本地磁盤中名為“blk_blockId”的Linux文 -DataNode的 │├──│├── ││└──││├──││├──││ ├──││ ├── ││ ├──││ └──- ││└──│└──
├├── ├── ├── ├── ├── ├── ├── └──└──元數(shù)據(jù)的兩 形內(nèi)存元數(shù)據(jù)文件元數(shù)據(jù)(editsedits(編輯日志文件Client請求變更操作時,操作首先被寫入再寫入內(nèi)TransactionIdfsimage(元數(shù)據(jù)鏡像檢查點文件fsimage文件名會標記對應(yīng)的Transaction
HDFS原 edits與fsimage的合并機
HDFS原上傳
HDFS原
HDFS原
HDFS原什么是安全模安全模式是HDFHDFS安全模式是HDFS確保Block數(shù)據(jù)安全的一種保護機ActiveNameNode啟動時,HDFS會進入安全模式,DataNode NameNode匯報可用列表等信息,在系統(tǒng)達到安全標準前,HDFS一直處于“只讀”狀何時正常離開安全模Block上報率:DataNode上報的可用Block個數(shù)/NameNode元數(shù)據(jù)記錄的Block個當(dāng)Block上報率>=閾值時,HDFS才能離開安全模式,默認閾值為不建議手動強制退出安全模 觸發(fā)安全模式的原NameNode重NameNode磁盤空間不Block上報率低于閾DataNode無法正常啟日志中出現(xiàn)嚴重異用戶操作不當(dāng),如:強制關(guān)機(特別注意故障排找到DataNode不能正常啟動的原因,重啟清理NameNode磁謹慎操
HDFS原
HDFS原ActiveNN與StandbyNN的主備切利用QJM實現(xiàn)元數(shù)據(jù)高可QJM機制(QuorumJournal-只要保證Quorum(法定人數(shù))數(shù)量的QJM共 系-部署奇數(shù)(2N+1)個 -寫edits的時候,只要超過半數(shù)(N+1)JournalNode返回成功,就代表本次寫入成-最多 N個JournalNode宕-基于Paxos算法實利用ZooKeeper實現(xiàn)Active節(jié)
上傳
HDFS原ZooKeeper
JournalNode
MonitorOf
SharedNNstatesinglewriter
MonitorOfBlockReportstoActive&StandbyDNfencing:Updatecmdsfromone 3 REST3.1語hadoopfs<args>(使用面最廣,可以操作任何文件系統(tǒng)< 類似,可通過help查看幫HDFS格式示例:HDFS上的一個文件-URI簡寫
HDFS文件管 S
HDFS文件管hadoopfs-hadoopfs-Returnusagehadoopfs-usageReturnthehelpforanindividualhadoopfs-ls[-d][-h][-R]-d:Directoriesarelistedasplain-h:Formatfilesizesinahuman-readablefashion(eg64.0minstead -R:Recursivelylistsubdirectorieshadoopfs-get[-ignorecrc][-crc]Copyfilestothelocalfilesystem.FilesthatfailtheCRCcheckmaybecopiedthe-ignorecrcoption.FilesandCRCsmaybecopiedusingthe-crchadoopfs-get/user/hadoop/filehadoopfs-get /user/hadoop/filehadoopfs-put<localsrc>...Copysinglesrc,ormultiplesrcsfromlocalfilesystemtothedestinationfileAlsoreadsinputfromstdinandwritestodestinationfileS
HDFS文件管hadoopfs-cp[-f]hadoopfs-cp[-f][-p|-p[topax]]URI[URI...]<dest>Copyfilesfromsourcetodestination.Thiscommandallowsmultiplesourcesasinwhichcasethedestinationmustbeadirectory.-f:Overwritethedestinationifitalready-p:Preservefileattributes[topx](timestamps,ownership,permission,ACL,hadoopfs-mvURI[URI...]Movesfilesfromsourcetodestination.Thiscommandallowsmultiplesourcesaswellinwhichcasethedestinationneedstobeadirectory.Movingfilesacrossfilesystemsisnotpermitted.hadoopfs-rm[-f][-r|-R][-skipTrash]URI[URI...]Deletefilesspecifiedasargs.-f:theoptionwillnotdisplayadiagnosticmessageormodifytheexitstatustoreflectanerrorifthefiledoesnotexist.-R:theoptiondeletesthedirectoryandanycontentunderit-r:theoptionisequivalentto--skipTrash:theoptionwillbypasstrash,ifenabled,anddeletethespecifiedfile(s)immediay.Thiscanbeusefulwhenitisnecessarytodeletefilesfromanover-quotadirectory.REST
HDFS文件管HDFS的所有接口都支持RESTHDFSURI與HTTP寫入文Step1:提交一個HTTPPUT請求,這個階段不會傳輸數(shù)|false>][&blocksize=<LONG>][&replication=<SHORT>]Step2:提交另一個HTTPPUT請求,并提供本地的文件路-curl-i-XPUT-T<LOCAL_FILE> REST
HDFS文件管獲取文提交HTTPGET請[&length=<LONG>]刪除文提交HTTPDELETE請 4
HDFS系統(tǒng)管配置文core-site.xml:Hadoop全局配hdfs-site.xml:HDFS局部配示例:NameNodeURI配置(core-環(huán)境變量文Hadoop-env.sh:設(shè)置了HDFS運行所需的環(huán)境
HDFS系統(tǒng)管hdfs- DetermineswhereonthelocalfilesystemtheDFSnamenodeshouldstorethenametable(fsimage).Ifthisisacomma-delimitedlistofdirectoriesthenthenametableisreplicatedinallofthedirectories,forredundancy.DetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks.Ifthisisacomma-
listofdirectories,thendatawillbestoredinallnameddirectories,typicallyondifferentdevices.Directoriesthatdonotexistareignored.Thedefaultblocksizefornewfiles,inbytes.Youcanusethefollowingsuffix(caseinsensitive):k(kilo),m(mega),g(giga),t(tera),p(peta),e(exa)tospecifythesize(suchas128k,512m,1g,etc.),Orprovidecompletesizeinbytes(suchas for128MB).spaceinbytespervolume.AlwaysleavethismuchspacefreefornonhdfsDefaultblockreplication.Theactualnumberofreplicationscanbespecifiedwhenthefileiscreated.defaultisusedifreplicationisnotspecifiedincreateNumberofminutesafterwhichthecheckpointgetsdeleted.Ifzero,thetrashfeatureisdisabled.Thisoptionmaybeconfiguredbothontheserverandtheclient.Iftrashisdisabledserversidethentheclientsideconfigurationischecked.Iftrashisenabledontheserversidethenthevalueconfiguredontheserverisusedandtheclientconfigurationvalueisignored. /etc/init.d/hadoop-hdfs-namenode/etc/init.d/hadoop-hdfs-namenode-/etc/init.d/hadoop-hdfs-datanode-/etc/init.d/hadoop-hdfs-journalnode-
HDFS系統(tǒng)管 SNameNode(格式化或恢復(fù)
HDFS系統(tǒng)管#hdfsnamenode[-format[-clustered#hdfsnamenode[-format[-clusteredcid][-force][-nonInteractive]]|[-recover[-force]Command-format[-clusteridcid][-[-FormatsthespecifiedNameNode.ItstartstheNameNode,formatsitandthenshutitdown.-forceoptionformatsifthenamedirectoryexists.-nonInteractiveoptionabortsifthenamedirectoryexists,unless-forceoptionisspecified.-recover[-RecoverlostmetadataonacorruptSReport(報告文件系統(tǒng)信息
HDFS系統(tǒng)管##hdfsdfsadmin[generic_options][-report[-live][-dead] Command-report[-live][-dead] Reportsbasicfilesysteminformationandstatistics.OptionalflagsmaybeusedtofilterthelistofdisplayedDataNodes. SFsck(檢查文件系統(tǒng)健康狀況
HDFS系統(tǒng)管#hdfsfsck<path>[-move#hdfsfsck<path>[-move|-delete]|[-files[-blocks[-locations|-racks]]CommandStartcheckingfromthis-Deletecorrupted-Printoutfilesbeing-files-Printouttheblock-files-blocks-Printoutlocationsforevery-files-blocks-Printoutnetworktopologyfordata-nodeMovecorruptedfilesto4.2Fsck(檢查文件系統(tǒng)健康狀況
HDFS系統(tǒng)管 4.2
HDFS系統(tǒng)管Safemode(安全模式 自動進入安全模式(也支持手動進入),該模式下只支持讀操檢測Block上報率超過閾值,才會離開安全模在TDH慎用hdfsdfsadminleave,想了解變量設(shè)置,請聯(lián) ##hdfsdfsadmin[generic_options][-safemodeenter|leave|get|Note:Safemodemaintenancecommand.SafemodeisaNamenodestateinwhichdoesnotacceptchangestothenamespace(read-doesnotreplicateordeleteSafemodeisenteredautomaticallyatNamenodestartup,andleavessafemodeautomaticallywhentheconfiguredminimumpercentageofblockssatisfiestheminimumreplicationcondition.Safemodecanalsobeenteredmanually,butthenitcanonlybeturnedoffmanuallyaswell. 4.2NameNodeHA(主備切換
HDFS系統(tǒng)管#hdfshaadmin-failover[--forcefence]#hdfshaadmin-failover[--forcefence][--forceactive]<serviceId>#hdfshaadmin-getServiceStateCommandinitiateafailoverbetweentwo-determinewhetherthegivenNameNodeisActiveortransitionthestateofthegivenNameNodeto-transitionthestateofthegivenNameNodeto4.2mission mission(DataNode退役和服役
HDFS系統(tǒng)管##hdfsdfsadmin[generic_options]-Notes:Re-readthehostsandexcludefilestoupdatethesetofDatanodesthatareallowedtoconnecttoNamenodeandthosethatshould missioned CommandNamesafilethatcontainsalistofhoststhatarepermittedtoconnecttonamenode.Thefullpathnameofthefilemustbespecified.IfthevalueisallhostsareNamesafilethatcontainsalistofhoststhatarenotpermittedtoconnecttonamenode.Thefullpathnameofthefilemustbespecified.Ifthevalueisempty,nohostsareexcluded.將計劃退役的DataNode列表加入dfs.hosts.exclude文hadoopdfsadmin- 的狀態(tài) 變 將這組DataNode從dfs.hosts文件中刪hadoopdfsadmin-
4.2mission mission(DataNode退役和服役退役和服役
HDFS系統(tǒng)管刪除DataNode(先退役再刪除 4.2Balancer(數(shù)據(jù)重分布
HDFS系統(tǒng)管#hdfsbalancer[-threshold#hdfsbalancer[-threshold[-exclude[-f<hosts-file>|<comma-separatedlistofhosts>][-include[-f<hosts-file>|<comma-separatedlistofhosts>]Command-thresholdPercentageofdiskcapacity.Thisoverwritesthedefault-exclude-f<hosts-file><comma-separatedlistofExcludesthespecifieddatanodesfrombeingbalancedbythe-include-f<hosts-file><comma-separatedlistofIncludesonlythespecifieddatanodestobebalancedbythe4.2Balancer(數(shù)據(jù)重分布集群平衡的標準:每個DataNode 使用率和集群 使用率的差值均小于閥默認閾值為10,設(shè)置值為
HDFS系統(tǒng)管 4.2默認帶寬為1M/s,主要為了Balance的同時不影響HDFS操建議Balance的時候,帶寬設(shè)為10M/s,并且停止操作
HDFS系統(tǒng)管##hdfsdfsadmin[generic_options][-setBalancerBandwidth<bandwidthinbytesperCommand-<bandwidthinbytesperChangesthenetworkbandwidthusedbyeachdatanodeduringHDFSblockbalancing.<bandwidth>istheumnumberofbytespersecondthatwillbeusedbyeachdatanode.Thisvalueoverridesthedfs.balance.bandwidthPerSecparameter.NOTE:ThenewvalueisnotpersistentontheDataNode. 4.2Distcp(分布式拷貝大規(guī)模集群內(nèi)部和集使用MapReduce實現(xiàn)文件分發(fā)、錯誤處理恢復(fù),以及報告生
HDFS系統(tǒng)管#hadoopdistcpoptions[source_path...]#hadoopdistcpoptions[source_path...]Notes:distcp(distributedcopy)isatoolusedforlargeinter/intra-clustercopying.ItusesMapReducetoeffectitsdistribution,errorhandlingandrecovery,andreporting.Command-mumnumberofsimultaneousOverwrite-Specifybandwidthpermap,in4.2
HDFS系統(tǒng)管 限制HDFS允許管理員對用戶 設(shè)置Quota,主要從兩個維度:文件數(shù)量和文件大限制指 及 中的文件總限制指 中的所有文件的容量大小,需要考慮副本#hdfsdfsadmin-setSpaceQuota<N>Notes:SetthespacequotatobeNbytesforeach#hdfsdfsadmin-clrSpaceQuotaNotes:Removeanyspacequotaforeach#hadoopfs-count-q[-h][-v]Notes:Withthe-qoption,alsoreportthenamequotavaluesetforea
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- JJF(陜) 082-2022 積分球光色綜合測試系統(tǒng)校準規(guī)范
- 跨界合作助力品牌發(fā)展計劃
- 社會治理背景下保安工作的創(chuàng)新實踐計劃
- 社交媒體的職業(yè)生涯路徑計劃
- 年度工作計劃的可視化呈現(xiàn)方式
- 社區(qū)服務(wù)與社會責(zé)任教育計劃
- 衛(wèi)浴柜類相關(guān)行業(yè)投資方案
- TFT-LCD用偏光片相關(guān)項目投資計劃書
- 雨水收集利用實施方案計劃
- 貨運保險合同三篇
- 《可愛的中國讀》書分享會PPT課件(帶內(nèi)容)
- 市政道路工程項目照明工程施工設(shè)計方案
- 中國新時代北斗精神
- GB/T 6581-2007玻璃在100℃耐鹽酸浸蝕性的火焰發(fā)射或原子吸收光譜測定方法
- GB/T 34676-2017兒童房裝飾用內(nèi)墻涂料
- GB/T 11446.4-2013電子級水電阻率的測試方法
- 青花扎染藝術(shù)節(jié)活動策劃中國風(fēng)PPT模板
- 寶應(yīng)介紹課件
- 跟腱斷裂術(shù)后護理-課件
- 關(guān)于“問題學(xué)生的教育管理”主題班會-課件(班主任培訓(xùn)課件)
- 腹外疝病人的護理-腹股溝疝病人的護理(課件ppt)
評論
0/150
提交評論