大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第3章 HDFS分布式文件系統(tǒng)_第1頁
大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第3章 HDFS分布式文件系統(tǒng)_第2頁
大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第3章 HDFS分布式文件系統(tǒng)_第3頁
大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第3章 HDFS分布式文件系統(tǒng)_第4頁
大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第3章 HDFS分布式文件系統(tǒng)_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3章HDFS分布式文件系統(tǒng)

·Hadoop的文件系統(tǒng)·HDFS的簡介·HDFS的框架及原理·HDFS的shell操作1·HDFS的讀寫數(shù)據(jù)流程·HDFS的JavaAPI操作2?學(xué)習(xí)目標(biāo)了解掌握掌握掌握了解HDFS的概念與特性12掌握HDFS的特點(diǎn)4掌握HDFS的架構(gòu)與原理3掌握HDFS的Shell和JavaAPI操作本章通過對文件系統(tǒng)的簡介、HDFS的設(shè)計(jì)特點(diǎn)、HDFS的架構(gòu)與原理、HDFS的shell操作、HDFS的JavaAPI操作及HDFS的讀寫數(shù)據(jù)流程進(jìn)行詳細(xì)講解。章節(jié)概要HDFS

是一種將系統(tǒng)數(shù)據(jù)存儲在集群中多個節(jié)點(diǎn)或機(jī)器上,并且這些數(shù)據(jù)允許多個用戶訪問的文件系統(tǒng)。分布式文件系統(tǒng)解決了數(shù)據(jù)集的大小超過一臺獨(dú)立物理計(jì)算機(jī)的存儲能力的問題,龐大的數(shù)據(jù)集被存放在多臺機(jī)器上,分布式文件系統(tǒng)可以組織這些在不同機(jī)器上的數(shù)據(jù)通過網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行讀寫,這使得人們感覺所有的數(shù)據(jù)都存儲在一臺機(jī)器上。

3.1Hadoop的文件系統(tǒng)文件系統(tǒng)的介紹Hadoop整合了很多的文件系統(tǒng),而HDFS只是Hadoop文件系統(tǒng)中比較優(yōu)秀的一種,Hadoop可以集成除了HDFS的其他文件系統(tǒng),這點(diǎn)也充分體現(xiàn)出Hadoop的可擴(kuò)展性。Hadoop定義了一個文件系統(tǒng)的抽象類,在Java中這個抽象類是“org.apache.hadoop.fs.FileSystem”,一個文件系統(tǒng)只有實(shí)現(xiàn)了這個抽象類的方法才可以成為支持Hadoop的文件系統(tǒng)。

3.1Hadoop的文件系統(tǒng)文件系統(tǒng)的介紹文件系統(tǒng)URI方案Java實(shí)現(xiàn)(org.apache.hadoop)定義LocalFileFs.localFileSystem支持有客戶端校驗(yàn)和本地文件系統(tǒng)。帶有校驗(yàn)和的本地系統(tǒng)文件在fs.RawLocalFileSystem中實(shí)現(xiàn)HDFSHdfsHdfs.DistributionFileSystemHadoop的分布式文件系統(tǒng)WebHDFSWebhdfsHdfs.web.WebHdfsFileSystem使用HTTP方式讀寫HDFS數(shù)據(jù)的文件系統(tǒng)SecureWebHDFSSwebhdfsHdfs.web.SWebHdfsFileSystemWebHDFS的HTTPS傳輸方式ViewViewfsViewfs.ViewFileSystem一種Hadoop文件系統(tǒng)的掛載表,通常被用來創(chuàng)建namenode的掛載點(diǎn)HFTPHftphdfs.HftpFileSystem支持通過HTTP方式以只讀的方式訪問HDFS,distcp經(jīng)常用在不同的HDFS集群間復(fù)制數(shù)據(jù)HSFTPHsftphdfs.HsftpFileSystem支持通過HTTPS方式以只讀的方式訪問HDFSHARHarfs.HarFileSystem構(gòu)建在Hadoop文件系統(tǒng)之上,對文件進(jìn)行歸檔。Hadoop歸檔文件主要用來減少NameNode的內(nèi)存使用FTPftpfs.ftp.FtpFileSystem由FTP服務(wù)器支持的文件系統(tǒng)S3(本地)s3nfs.s3native.NativeS3FileSystem基于AmazonS3的文件系統(tǒng)S3(基于塊)s3fs.s3.NativeS3FileSystem基于AmazonS3的文件系統(tǒng),以塊格式存儲解決了S3的5GB文件大小的限制SwiftSwiftfs.swift.snative.SwiftNativeFileSystem對接Openstack的swift服務(wù)的文件系統(tǒng)

3.1Hadoop的文件系統(tǒng)Hadoop文件系統(tǒng)對外接口Hadoop提供了很多文件系統(tǒng)的訪問接口,由于Hadoop是用Java進(jìn)行開發(fā)的,所以可以通過調(diào)用JavaAPI實(shí)現(xiàn)與Hadoop文件系統(tǒng)的交互操作。除此之外,使用文件系統(tǒng)的方法還有:命令行、HTTP、C語言API、NFS、FUSER等方式。HTTP調(diào)用JAVA接口C語言庫WebDAVFuseThrift

3.2HDFS的簡介HDFS的設(shè)計(jì)特點(diǎn)Hadoop分布式文件系統(tǒng)(HDFS)是一種可以在低成本計(jì)算機(jī)硬件上運(yùn)行的高容錯性分布式文件系統(tǒng)。HDFS提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問,并且適用于具有大數(shù)據(jù)集的應(yīng)用程序。大數(shù)據(jù)處理流式數(shù)據(jù)訪問高容錯性檢測和快速應(yīng)對硬件故障

3.2HDFS的簡介HDFS的局限性HDFS雖然有著大數(shù)據(jù)處理、流式數(shù)據(jù)訪問、高容錯性、檢測和快速應(yīng)對硬件故障等優(yōu)勢,但是,現(xiàn)在的HDFS在處理某些特定問題時不但沒有優(yōu)勢,反而會存在一定的局限性,因此,了解HDFS的優(yōu)勢和劣勢對以后使用HDFS解決特定問題很有幫助。不適合大量的小文件存儲不適合低延遲數(shù)據(jù)訪問不支持多用戶的并行寫入和文件修改

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)一個HDFS的分布式集群由單個NameNode、多個DataNode和Client組成。NameNode是一個中心服務(wù)器,也稱為主節(jié)點(diǎn),它主要用來管理HDFS的名稱空間、處理客戶端讀寫請求、管理數(shù)據(jù)塊映射信息、配置副本策略等。DataNode是數(shù)據(jù)節(jié)點(diǎn),也稱為從節(jié)點(diǎn),它主要負(fù)責(zé)存儲實(shí)際的數(shù)據(jù)塊和執(zhí)行數(shù)據(jù)塊的讀寫操作,一個文件被分解成一個或多個數(shù)據(jù)塊,這些塊數(shù)據(jù)被存儲在一組DataNode上。

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)——數(shù)據(jù)塊數(shù)據(jù)塊是HDFS中每個磁盤都有的默認(rèn)存儲最小單位,數(shù)據(jù)塊是文件存儲處理的邏輯單元,這種概念與Linux文件系統(tǒng)中的磁盤塊類似。HDFS上的文件系統(tǒng)被劃分為多個塊作為獨(dú)立的存儲單元,其大小可以已通過Hadoop的配置參數(shù)“dfs.blocksize”來規(guī)定,在Hadoop2.x版本中Block的默認(rèn)大小被定義為128MB,而在老版本中一般大小為64MB。

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)——數(shù)據(jù)塊數(shù)據(jù)塊信息可以通過Hadoop的Web界面查看到,存儲在HDFS的文件名稱為“helloworld.txt”,且該文件存儲在slave2和slave1兩個DataNode上,數(shù)據(jù)塊池ID為“BP-1743969542-00-1578923091266”,該存儲塊的BlockID為“1073741993”,可以在節(jié)點(diǎn)slave1和節(jié)點(diǎn)slave2上找到該文件的數(shù)據(jù)塊,并查看其內(nèi)容。

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)——副本存放策略為了保證數(shù)據(jù)節(jié)點(diǎn)或機(jī)架出現(xiàn)故障后數(shù)據(jù)的完整性,每個塊都會被復(fù)制到多臺DataNode上,默認(rèn)復(fù)制三份,并且分布在兩個機(jī)架內(nèi)的三個節(jié)點(diǎn)上,當(dāng)一個DataNode出現(xiàn)故障后,因?yàn)锳數(shù)據(jù)塊存儲在兩個機(jī)架上且有三個副本,所以可以保證數(shù)據(jù)不丟失且正常運(yùn)行。

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)——副本存放策略副本存放原則:①Block副本放在與Client所在的Node里(如果所在Node太忙,也會隨機(jī)選擇)。②副本放置在與第一個節(jié)點(diǎn)不同的機(jī)架中的Node中。③副本與第二個在同一個機(jī)架,隨機(jī)放在不同的Node中。

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)——NameNodeNameNode是分布式系統(tǒng)中的主節(jié)點(diǎn),也稱為中心服務(wù)器,它是HDFS的主從結(jié)構(gòu)中的中心樞紐,存儲著元數(shù)據(jù)等重要信息。元數(shù)據(jù)包括兩個部分:文件與數(shù)據(jù)塊的映射表、數(shù)據(jù)塊與數(shù)據(jù)節(jié)點(diǎn)的映射表。NameNode的四個功能:管理HDFS的名稱空間、配置副本策略、管理數(shù)據(jù)塊的映射信息、處理客戶端讀寫請求。

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)——NameNodeNameNode將元數(shù)據(jù)保存到磁盤上的流程,如下圖所示。該元數(shù)據(jù)包括兩個文件,即Fsimage和Editlogs。Fsimage是在NameNode啟動時對整個文件系統(tǒng)的快照,Editlogs是在NameNode啟動后對文件系統(tǒng)的改動序列。只有在NameNode重啟時,Editlogs才會合并到Fsimage文件中,從而得到一個文件系統(tǒng)的最新快照。

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)——DataNodeDataNode

是分布式系統(tǒng)中的從節(jié)點(diǎn),也稱為slaver。它是HDFS中的工作節(jié)點(diǎn),用于存放數(shù)據(jù)塊Block,一個集群中可以一個NameNode和多個DataNode。DataNode

通常以機(jī)架的形式組織,機(jī)架之間通過交換機(jī)將整個系統(tǒng)連接起來。DataNode

的功能有兩個:存儲實(shí)際的數(shù)據(jù)塊和執(zhí)行數(shù)據(jù)塊的讀寫操作。

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)——SecondaryNameNode只有在NameNode重啟時,Editlogs才會合并到Fsimage文件中,從而得到一個文件系統(tǒng)的最新快照。但是,在產(chǎn)品集群中NameNode是很少重啟的,而在運(yùn)行過程中Editlogs就會變得越來越大,使得其很難管理。SencondaryNameNode

就是用來解決這種問題的,它的主要作用是合并NameNode的editlogs到Fsimage文件中,從而解決Editlogs越來越大的問題。

3.3HDFS的架構(gòu)及原理HDFS的架構(gòu)——SecondaryNameNodeSecondaryNameNode

的工作流程如下:①SecondaryNameNode

定時到NameNode去獲取Editlogs,并更新到Fsimage上。②一旦它有了新的Fsimage文件,它將其拷貝回NameNode中。③NameNode在下次重啟時會使用這個新的Fsimage文件,從而減少重啟的時間。

3.4HDFS的Shell操作HDFS的Shell操作HDFS

是一種能夠?qū)Υ罅课募M(jìn)行存儲和讀取的分布式文件系統(tǒng),HDFS

將這些文件分成數(shù)據(jù)塊以后再將其副本存儲到不同的DataNode中。Hadoop提供了很多對外操作文件的方式,其中包括Web方式、API方式、Shell

方式等。本節(jié)主要介紹HDFS分布式文件系統(tǒng)的Shell操作,Hadoop支持很多Shell

命令,比如:“hadoopversion、hadoopjar、hadoopchecknative、hadoopfs”等。

3.4HDFS的Shell操作Hadoop相關(guān)命令Hadoop使用方法:

3.4HDFS的Shell操作查看Hadoop版本使用命令“hadoopversion”查看Hadoop運(yùn)行版本,可以看到使用的是Hadoop2.7.7版本,正在運(yùn)行的Jar包的位置等信息。

3.4HDFS的Shell操作檢查Hadoop本地代碼可用性使用命令“hadoopchecknative-a”查看Hadoop本地代碼的可用性,在默認(rèn)情況下,此命令只檢查libhadoop的可用性,也可以使用該命令檢查環(huán)境的安裝情況。除此之外,也可以使用“hadoopchecknative-h”查看命令的具體解釋情況。

3.4HDFS的Shell操作執(zhí)行Jar包運(yùn)行命令“hadoopjarhadoop-mapreduce-examples-2.7.7.jarpi1010”通過啟動10個“map”和10個“reduce”任務(wù)求pi值。

3.4HDFS的Shell操作修改與查看Log日志級別使用“hadoopdaemonlog-getlevel”獲取日志級別。使用“hadoopdaemonlog-setlevel”設(shè)置日志級別??梢栽O(shè)置的節(jié)點(diǎn)包括HDFS、NameNode、SecondaryNameNode、DataNode、JournalNode、YARN、ResourceManager、NodeManager

3.4HDFS的Shell操作修改與查看Log日志級別查看NameNode的Log日志級別使用命令“hadoopdaemonlog-getlevel:50070node.NameNode”。

3.4HDFS的Shell操作修改與查看Log日志級別使用命令“hadoopdaemonlog-setlevel:50070node.NameNodeWARN”將NameNode的日志級別從“INFO“改為“WARN”級別。

3.4HDFS的Shell操作集群間拷貝DistCPDistCP

是ApacheHadoop上下文中的DistributedCopy(分布式拷貝)的縮寫。它是一個用于大規(guī)模集群內(nèi)部和集群之間拷貝的工具。DisctCP使用MapReduce實(shí)現(xiàn)文件分發(fā)、數(shù)據(jù)錯誤處理與恢復(fù)、報(bào)告生成等功能。由于其MapReduce的使用,使得DisctCP可以在集群中的多個可用節(jié)點(diǎn)上進(jìn)行操作,從而提高效率。上述命令會將nn1集群的“/source”目錄下的所有文件或目錄展開并存儲到一個臨時文件中,這些文件內(nèi)容的拷貝工作被分配給多個Map任務(wù),然后每個NodeManager分別執(zhí)行從nn1到nn2的拷貝操作。

3.4HDFS的Shell操作Hadoop文件處理命令Hadoop對于文件處理包括很多種類型的命令,比如hadoopfs、hadoopdfs和hdfsdfs都是HDFS最常用的Shell命令,用來查看HDFS文件系統(tǒng)的目錄結(jié)構(gòu)、上傳和下載數(shù)據(jù)、創(chuàng)建文件等。這三個命令既有聯(lián)系有又區(qū)別:①hadoopfs:適用于任何不同的文件系統(tǒng),比如本地文件系統(tǒng)和HDFS文件系統(tǒng)。②hadoopdfs:只能適用于HDFS文件系統(tǒng)。③hdfsdfs:與“hadoopdfs”命令的作用一樣,也只能適用于HDFS文件系統(tǒng)。

3.4HDFS的Shell操作Hadoop文件處理命令Hadoopfs使用方法

3.4HDFS的Shell操作Hadoop文件處理命令——幫助參數(shù)查看命令“rm”的使用方法,輸入“hadoopfs-helprm”。除此之外,該命令可以查看很多其他的命令,包括mkdir、put、get等。

3.4HDFS的Shell操作Hadoop文件處理命令——顯示目錄查看HDFS中根路徑下的文件目錄,輸入命令“hadoopfs-ls/”。除此之外,還可以使用命令“hadoopfs-lsr”遞歸列出匹配Pattern的文件信息,類似ls,只不過遞歸列出所有子目錄信息。

3.4HDFS的Shell操作Hadoop文件處理命令——創(chuàng)建目錄創(chuàng)建文件夾目錄“/sanguo/shuguo”,輸入命令“hadoopfs-mkdir-p/sanguo/shuguo”。

3.4HDFS的Shell操作Hadoop文件處理命令——刪除目錄刪除文件夾“/test”,輸入命令“hadoopfs-rm/test”。使用命令“hadoopfs-rmr[skipTrash]<src>”,可以遞歸刪除所有的文件和目錄,等價于UNIX下的“rm-rf<src>”。

3.4HDFS的Shell操作Hadoop文件處理命令——剪切粘貼在/tmp目錄下,創(chuàng)建“helloworld.txt”文件;然后將該文件剪切到HDFS中已經(jīng)創(chuàng)建好的“/sanguo/shuguo”目錄下,使用命令“hadoopfs-moveFromLocal/tmp/helloworld.txt/sanguo/shuguo”。

3.4HDFS的Shell操作Hadoop文件處理命令——剪切粘貼在/tmp目錄下,創(chuàng)建“helloworld.txt”文件;然后將該文件剪切到HDFS中已經(jīng)創(chuàng)建好的“/sanguo/shuguo”目錄下,使用命令“hadoopfs-moveFromLocal/tmp/helloworld.txt/sanguo/shuguo”。

3.4HDFS的Shell操作Hadoop文件處理命令——粘貼將剛才保存在HDFS中的“helloworld.txt”文件復(fù)制粘貼到“/tmp”目錄下,可以使用命令“hadoopfs-copyToLocal/sanguo/shuguo/helloworld.txt/tmp。與copyToLocal相同的參數(shù)還有“-get”,可以使用命令“hadoopfs-get/sanguo/shuguo/helloworld.txt/tmp/test.txt”,將HDFS文件拷貝到本地“/tmp”目錄下,并重命名為“test.txt”。

3.4HDFS的Shell操作Hadoop文件處理命令——查看查看保存在HDFS中的文本文件“helloworld.txt”的內(nèi)容,可以使用命令“hadoopfs-cat/sanguo/shuguo/helloworld.txt”。

3.4HDFS的Shell操作Hadoop文件處理命令——追加appendToFile是將文本追加到HDFS文本文件后的命令,首先需要在本地目錄下創(chuàng)建“aaa.txt”文本文件內(nèi)容為“apache”,然后將該文本文件的內(nèi)容追加到已經(jīng)在HDFS文件“helloworld.txt”后面,使用命令“hadoopfs-appendToFile/tmp/aaa.txt/sanguo/shuguo/helloworld.txt”,完成功能。

3.4HDFS的Shell操作Hadoop文件處理命令——副本數(shù)HDFS是分布式存儲系統(tǒng),存儲在HDFS的文件為了保證其數(shù)據(jù)不丟失,一般該文件會存在副本,且這些副本會存儲在同一個DataNode或不同的DataNode或不同的機(jī)架,而setrep就是將存儲在HDFS中文本的副本數(shù)量進(jìn)行修改的命令,因此,可以使用命令“hadoopfs–setrep10/sanguo/shuguo/test.txt”,修改副本的保存數(shù)量。

3.4HDFS的Shell操作Hadoop文件處理命令——系統(tǒng)空間“hadoopfs-du<path>”命令的含義是:列出指定的文件系統(tǒng)空間總量(B),等價于unix下的針對目錄命令“du-sb<path>/?”和針對文件命令“du-b<path>”,輸出格式如“name(fullpath)size(inbytes)”。下面使用命令“hadoopfs-du/”,列出HDFS中根目錄下的占

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論