內(nèi)容講義講稿_第1頁
內(nèi)容講義講稿_第2頁
內(nèi)容講義講稿_第3頁
內(nèi)容講義講稿_第4頁
內(nèi)容講義講稿_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

分布式文件系統(tǒng)HDF|2018年9

121233441什么是概Hadoop分布式文件系統(tǒng)(HadoopDistributedFile2003年10 了 FileHDFS是GFS的開源實HDFS是ApacheHadoop 子項在開源大數(shù)據(jù)技術(shù)體設(shè)計目運行在大量廉 機器上:硬件錯誤是常態(tài),提供容錯機簡單一致性模型:一次寫入多 ,支持追加,不允許修改,保證數(shù)據(jù)一致流式數(shù) :批量讀而非隨機讀,關(guān)注吞吐量而非時大規(guī)模數(shù)據(jù)集:典型文件大小GB~TB

HDFS簡 優(yōu)高容錯、高可用、高擴海量數(shù)

HDFS簡缺不適合低延遲數(shù)不適合大量小文-元數(shù)據(jù)占用NameNode大量內(nèi)存-磁盤尋道時間超 時不支持并發(fā)寫-典型文件大小GB~TB,百萬以上文件數(shù)量,PB以上數(shù)據(jù)規(guī)構(gòu)建成本低、安全可-構(gòu)建在廉價 服務(wù)器-適合大規(guī)模離線批處-

-不支持文件隨機修- 2系統(tǒng)架構(gòu)圖

Namespace/MetadataNamespace/Metadata

HDFS原Heartbeats,Heartbeats,Balancing,ReplicationHDFSNodesWritetoLocalNodesWritetoLocal系統(tǒng)架構(gòu)圖

HDFS原 Active活動Master管理節(jié)點(集群中唯一管理命名空管理元數(shù)據(jù):文件的位置、所有者、權(quán)限、數(shù)據(jù)塊管理Block副本策略:默認3個副處理客戶端讀寫請求,為DataNode分配任Standby熱備Master管理節(jié)點(ActiveNameNode的熱備節(jié)點-Hadoop3.0允許配置多個StandbyActiveNameNode宕機后,快速升級為新的周期性同步edits編輯日志,定期合并fsimage與edits到本地磁

HDFS原

HDFS原NameNode元數(shù)據(jù)文edits(編輯日志文件):保存了 檢查點(Checkpoint)之后的所有文件更新操fsimage(元數(shù)據(jù)檢查點鏡像文件):保存了文件系統(tǒng)中所有 和文件信息,如:某個錄下有哪些 和文件,以及文件名、文件副本數(shù)、文件由哪些Block組成ActiveNameNode內(nèi)存中有一 的元數(shù)據(jù)(=fsimage+StandbyNameNode在檢查點定期將內(nèi)存中的元數(shù)據(jù)保存到fsimage文件Slave工作節(jié)點(可大規(guī)模擴展Block和數(shù)據(jù)校驗執(zhí)行客戶端發(fā)送的讀寫操通過心跳機制定期(默認3秒)向NameNode匯報運行狀態(tài)和Block列表信集群啟動時,DataNode向NameNode提供Block列表信 Block數(shù)據(jù)HDFS最 單文件寫入HDFS會被切分成若干個Block大小固定,默認為128MB,可自定若一個Block的大小小于設(shè)定值,不會占用整個塊空默認情況下每個Block有3個副將文件切分為與NameNode交互,獲取文件元數(shù)與DataNode交互 或?qū)懭霐?shù)管理

HDFS原 Block是HDFS的最 單如何設(shè)置Block大-塊太大:Map任務(wù)數(shù)太少,作業(yè)執(zhí)行Block和元數(shù)據(jù)分 于DataNode,元數(shù) 于Block多副-以DataNode節(jié)點為備份對

HDFS原 Block副本放置策副本1:放在Client所在節(jié)-對 副本2:放在不同的機架節(jié)點副本N:隨機選節(jié)點選

HDFS原

HDFS原Block文Block文件是DataNode本地磁盤中名為“blk_blockId”的Linux文 -DataNode的 │├──│├── ││└──││├──││├──││ ├──││ ├── ││ ├──││ └──- ││└──│└──

├├── ├── ├── ├── ├── ├── ├── └──└──元數(shù)據(jù)的兩 形內(nèi)存元數(shù)據(jù)文件元數(shù)據(jù)(editsedits(編輯日志文件Client請求變更操作時,操作首先被寫入再寫入內(nèi)TransactionIdfsimage(元數(shù)據(jù)鏡像檢查點文件fsimage文件名會標記對應(yīng)的Transaction

HDFS原 edits與fsimage的合并機

HDFS原上傳

HDFS原

HDFS原

HDFS原什么是安全模安全模式是HDFHDFS安全模式是HDFS確保Block數(shù)據(jù)安全的一種保護機ActiveNameNode啟動時,HDFS會進入安全模式,DataNode NameNode匯報可用列表等信息,在系統(tǒng)達到安全標準前,HDFS一直處于“只讀”狀何時正常離開安全模Block上報率:DataNode上報的可用Block個數(shù)/NameNode元數(shù)據(jù)記錄的Block個當(dāng)Block上報率>=閾值時,HDFS才能離開安全模式,默認閾值為不建議手動強制退出安全模 觸發(fā)安全模式的原NameNode重NameNode磁盤空間不Block上報率低于閾DataNode無法正常啟日志中出現(xiàn)嚴重異用戶操作不當(dāng),如:強制關(guān)機(特別注意故障排找到DataNode不能正常啟動的原因,重啟清理NameNode磁謹慎操

HDFS原

HDFS原ActiveNN與StandbyNN的主備切利用QJM實現(xiàn)元數(shù)據(jù)高可QJM機制(QuorumJournal-只要保證Quorum(法定人數(shù))數(shù)量的QJM共 系-部署奇數(shù)(2N+1)個 -寫edits的時候,只要超過半數(shù)(N+1)JournalNode返回成功,就代表本次寫入成-最多 N個JournalNode宕-基于Paxos算法實利用ZooKeeper實現(xiàn)Active節(jié)

上傳

HDFS原ZooKeeper

JournalNode

MonitorOf

SharedNNstatesinglewriter

MonitorOfBlockReportstoActive&StandbyDNfencing:Updatecmdsfromone 3 REST3.1語hadoopfs<args>(使用面最廣,可以操作任何文件系統(tǒng)< 類似,可通過help查看幫HDFS格式示例:HDFS上的一個文件-URI簡寫

HDFS文件管 S

HDFS文件管hadoopfs-hadoopfs-Returnusagehadoopfs-usageReturnthehelpforanindividualhadoopfs-ls[-d][-h][-R]-d:Directoriesarelistedasplain-h:Formatfilesizesinahuman-readablefashion(eg64.0minstead -R:Recursivelylistsubdirectorieshadoopfs-get[-ignorecrc][-crc]Copyfilestothelocalfilesystem.FilesthatfailtheCRCcheckmaybecopiedthe-ignorecrcoption.FilesandCRCsmaybecopiedusingthe-crchadoopfs-get/user/hadoop/filehadoopfs-get /user/hadoop/filehadoopfs-put<localsrc>...Copysinglesrc,ormultiplesrcsfromlocalfilesystemtothedestinationfileAlsoreadsinputfromstdinandwritestodestinationfileS

HDFS文件管hadoopfs-cp[-f]hadoopfs-cp[-f][-p|-p[topax]]URI[URI...]<dest>Copyfilesfromsourcetodestination.Thiscommandallowsmultiplesourcesasinwhichcasethedestinationmustbeadirectory.-f:Overwritethedestinationifitalready-p:Preservefileattributes[topx](timestamps,ownership,permission,ACL,hadoopfs-mvURI[URI...]Movesfilesfromsourcetodestination.Thiscommandallowsmultiplesourcesaswellinwhichcasethedestinationneedstobeadirectory.Movingfilesacrossfilesystemsisnotpermitted.hadoopfs-rm[-f][-r|-R][-skipTrash]URI[URI...]Deletefilesspecifiedasargs.-f:theoptionwillnotdisplayadiagnosticmessageormodifytheexitstatustoreflectanerrorifthefiledoesnotexist.-R:theoptiondeletesthedirectoryandanycontentunderit-r:theoptionisequivalentto--skipTrash:theoptionwillbypasstrash,ifenabled,anddeletethespecifiedfile(s)immediay.Thiscanbeusefulwhenitisnecessarytodeletefilesfromanover-quotadirectory.REST

HDFS文件管HDFS的所有接口都支持RESTHDFSURI與HTTP寫入文Step1:提交一個HTTPPUT請求,這個階段不會傳輸數(shù)|false>][&blocksize=<LONG>][&replication=<SHORT>]Step2:提交另一個HTTPPUT請求,并提供本地的文件路-curl-i-XPUT-T<LOCAL_FILE> REST

HDFS文件管獲取文提交HTTPGET請[&length=<LONG>]刪除文提交HTTPDELETE請 4

HDFS系統(tǒng)管配置文core-site.xml:Hadoop全局配hdfs-site.xml:HDFS局部配示例:NameNodeURI配置(core-環(huán)境變量文Hadoop-env.sh:設(shè)置了HDFS運行所需的環(huán)境

HDFS系統(tǒng)管hdfs- DetermineswhereonthelocalfilesystemtheDFSnamenodeshouldstorethenametable(fsimage).Ifthisisacomma-delimitedlistofdirectoriesthenthenametableisreplicatedinallofthedirectories,forredundancy.DetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks.Ifthisisacomma-

listofdirectories,thendatawillbestoredinallnameddirectories,typicallyondifferentdevices.Directoriesthatdonotexistareignored.Thedefaultblocksizefornewfiles,inbytes.Youcanusethefollowingsuffix(caseinsensitive):k(kilo),m(mega),g(giga),t(tera),p(peta),e(exa)tospecifythesize(suchas128k,512m,1g,etc.),Orprovidecompletesizeinbytes(suchas for128MB).spaceinbytespervolume.AlwaysleavethismuchspacefreefornonhdfsDefaultblockreplication.Theactualnumberofreplicationscanbespecifiedwhenthefileiscreated.defaultisusedifreplicationisnotspecifiedincreateNumberofminutesafterwhichthecheckpointgetsdeleted.Ifzero,thetrashfeatureisdisabled.Thisoptionmaybeconfiguredbothontheserverandtheclient.Iftrashisdisabledserversidethentheclientsideconfigurationischecked.Iftrashisenabledontheserversidethenthevalueconfiguredontheserverisusedandtheclientconfigurationvalueisignored. /etc/init.d/hadoop-hdfs-namenode/etc/init.d/hadoop-hdfs-namenode-/etc/init.d/hadoop-hdfs-datanode-/etc/init.d/hadoop-hdfs-journalnode-

HDFS系統(tǒng)管 SNameNode(格式化或恢復(fù)

HDFS系統(tǒng)管#hdfsnamenode[-format[-clustered#hdfsnamenode[-format[-clusteredcid][-force][-nonInteractive]]|[-recover[-force]Command-format[-clusteridcid][-[-FormatsthespecifiedNameNode.ItstartstheNameNode,formatsitandthenshutitdown.-forceoptionformatsifthenamedirectoryexists.-nonInteractiveoptionabortsifthenamedirectoryexists,unless-forceoptionisspecified.-recover[-RecoverlostmetadataonacorruptSReport(報告文件系統(tǒng)信息

HDFS系統(tǒng)管##hdfsdfsadmin[generic_options][-report[-live][-dead] Command-report[-live][-dead] Reportsbasicfilesysteminformationandstatistics.OptionalflagsmaybeusedtofilterthelistofdisplayedDataNodes. SFsck(檢查文件系統(tǒng)健康狀況

HDFS系統(tǒng)管#hdfsfsck<path>[-move#hdfsfsck<path>[-move|-delete]|[-files[-blocks[-locations|-racks]]CommandStartcheckingfromthis-Deletecorrupted-Printoutfilesbeing-files-Printouttheblock-files-blocks-Printoutlocationsforevery-files-blocks-Printoutnetworktopologyfordata-nodeMovecorruptedfilesto4.2Fsck(檢查文件系統(tǒng)健康狀況

HDFS系統(tǒng)管 4.2

HDFS系統(tǒng)管Safemode(安全模式 自動進入安全模式(也支持手動進入),該模式下只支持讀操檢測Block上報率超過閾值,才會離開安全模在TDH慎用hdfsdfsadminleave,想了解變量設(shè)置,請聯(lián) ##hdfsdfsadmin[generic_options][-safemodeenter|leave|get|Note:Safemodemaintenancecommand.SafemodeisaNamenodestateinwhichdoesnotacceptchangestothenamespace(read-doesnotreplicateordeleteSafemodeisenteredautomaticallyatNamenodestartup,andleavessafemodeautomaticallywhentheconfiguredminimumpercentageofblockssatisfiestheminimumreplicationcondition.Safemodecanalsobeenteredmanually,butthenitcanonlybeturnedoffmanuallyaswell. 4.2NameNodeHA(主備切換

HDFS系統(tǒng)管#hdfshaadmin-failover[--forcefence]#hdfshaadmin-failover[--forcefence][--forceactive]<serviceId>#hdfshaadmin-getServiceStateCommandinitiateafailoverbetweentwo-determinewhetherthegivenNameNodeisActiveortransitionthestateofthegivenNameNodeto-transitionthestateofthegivenNameNodeto4.2mission mission(DataNode退役和服役

HDFS系統(tǒng)管##hdfsdfsadmin[generic_options]-Notes:Re-readthehostsandexcludefilestoupdatethesetofDatanodesthatareallowedtoconnecttoNamenodeandthosethatshould missioned CommandNamesafilethatcontainsalistofhoststhatarepermittedtoconnecttonamenode.Thefullpathnameofthefilemustbespecified.IfthevalueisallhostsareNamesafilethatcontainsalistofhoststhatarenotpermittedtoconnecttonamenode.Thefullpathnameofthefilemustbespecified.Ifthevalueisempty,nohostsareexcluded.將計劃退役的DataNode列表加入dfs.hosts.exclude文hadoopdfsadmin- 的狀態(tài) 變 將這組DataNode從dfs.hosts文件中刪hadoopdfsadmin-

4.2mission mission(DataNode退役和服役退役和服役

HDFS系統(tǒng)管刪除DataNode(先退役再刪除 4.2Balancer(數(shù)據(jù)重分布

HDFS系統(tǒng)管#hdfsbalancer[-threshold#hdfsbalancer[-threshold[-exclude[-f<hosts-file>|<comma-separatedlistofhosts>][-include[-f<hosts-file>|<comma-separatedlistofhosts>]Command-thresholdPercentageofdiskcapacity.Thisoverwritesthedefault-exclude-f<hosts-file><comma-separatedlistofExcludesthespecifieddatanodesfrombeingbalancedbythe-include-f<hosts-file><comma-separatedlistofIncludesonlythespecifieddatanodestobebalancedbythe4.2Balancer(數(shù)據(jù)重分布集群平衡的標準:每個DataNode 使用率和集群 使用率的差值均小于閥默認閾值為10,設(shè)置值為

HDFS系統(tǒng)管 4.2默認帶寬為1M/s,主要為了Balance的同時不影響HDFS操建議Balance的時候,帶寬設(shè)為10M/s,并且停止操作

HDFS系統(tǒng)管##hdfsdfsadmin[generic_options][-setBalancerBandwidth<bandwidthinbytesperCommand-<bandwidthinbytesperChangesthenetworkbandwidthusedbyeachdatanodeduringHDFSblockbalancing.<bandwidth>istheumnumberofbytespersecondthatwillbeusedbyeachdatanode.Thisvalueoverridesthedfs.balance.bandwidthPerSecparameter.NOTE:ThenewvalueisnotpersistentontheDataNode. 4.2Distcp(分布式拷貝大規(guī)模集群內(nèi)部和集使用MapReduce實現(xiàn)文件分發(fā)、錯誤處理恢復(fù),以及報告生

HDFS系統(tǒng)管#hadoopdistcpoptions[source_path...]#hadoopdistcpoptions[source_path...]Notes:distcp(distributedcopy)isatoolusedforlargeinter/intra-clustercopying.ItusesMapReducetoeffectitsdistribution,errorhandlingandrecovery,andreporting.Command-mumnumberofsimultaneousOverwrite-Specifybandwidthpermap,in4.2

HDFS系統(tǒng)管 限制HDFS允許管理員對用戶 設(shè)置Quota,主要從兩個維度:文件數(shù)量和文件大限制指 及 中的文件總限制指 中的所有文件的容量大小,需要考慮副本#hdfsdfsadmin-setSpaceQuota<N>Notes:SetthespacequotatobeNbytesforeach#hdfsdfsadmin-clrSpaceQuotaNotes:Removeanyspacequotaforeach#hadoopfs-count-q[-h][-v]Notes:Withthe-qoption,alsoreportthenamequotavaluesetforea

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論