版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三章 分布式文件系統(tǒng)HDFS提綱3.1 分布式文件系統(tǒng)分布式文件系統(tǒng)3.2 HDFS簡介簡介3.3 HDFS相關概念相關概念3.4 HDFS體系結構體系結構3.5 HDFS存儲原理存儲原理3.6 HDFS數(shù)據(jù)讀寫過程數(shù)據(jù)讀寫過程3.7 HDFS編程實踐編程實踐3.1分布式文件系統(tǒng)n3.1.1計算機集群結構n3.1.2分布式文件系統(tǒng)的結構3.1.1 計算機集群結構分布式文件系統(tǒng)把文件分布存儲到多個計算機節(jié)點上,成千上萬的計算機節(jié)點構成計算機集群與之前使用多個處理器和專用高級硬件的并行化處理裝置不同的是,目前的分布式文件系統(tǒng)所采用的計算機集群,都是由普通硬件構成的,這就大大降低了硬件上的開銷3.
2、1.1 計算機集群結構圖3-1 計算機集群的基本架構 3.1.2 分布式文件系統(tǒng)的結構分布式文件系統(tǒng)在物理結構上是由計算機集群中的多個節(jié)點構成的,這些節(jié)點分為兩類,一類叫“主節(jié)點”(Master Node)或者也被稱為“名稱結點”(NameNode),另一類叫“從節(jié)點”(Slave Node)或者也被稱為“數(shù)據(jù)節(jié)點”(DataNode)3.1.2 分布式文件系統(tǒng)的結構圖3-2 大規(guī)模文件系統(tǒng)的整體結構3.23.2HDFSHDFS簡介簡介總體而言,HDFS要實現(xiàn)以下目標:兼容廉價的硬件設備兼容廉價的硬件設備流數(shù)據(jù)讀寫流數(shù)據(jù)讀寫大數(shù)據(jù)集大數(shù)據(jù)集簡單的文件模型簡單的文件模型強大的跨平臺兼容性強大的跨
3、平臺兼容性HDFS特殊的設計,在實現(xiàn)上述優(yōu)良特性的同時,也使得自身具有一些應用局限性,主要包括以下幾個方面:不適合低延遲數(shù)據(jù)訪問不適合低延遲數(shù)據(jù)訪問無法高效存儲大量小文件無法高效存儲大量小文件不支持多用戶寫入及任意修改文件不支持多用戶寫入及任意修改文件.1 塊塊HDFS默認一個塊64MB,一個文件被分成多個塊,以塊作為存儲單位塊的大小遠遠大于普通文件系統(tǒng),可以最小化尋址開銷.1 塊塊HDFS采用抽象的塊概念可以帶來以下幾個明顯的好處: 支持大規(guī)模文件存儲支持大規(guī)模文件存儲:文件以塊為單位進行存儲,一個大規(guī)模文件可以被分拆成若干個文件塊,不同的文件塊可以被分發(fā)到不
4、同的節(jié)點上,因此,一個文件的大小不會受到單個節(jié)點的存儲容量的限制,可以遠遠大于網(wǎng)絡中任意節(jié)點的存儲容量 簡化系統(tǒng)設計簡化系統(tǒng)設計:首先,大大簡化了存儲管理,因為文件塊大小是固定的,這樣就可以很容易計算出一個節(jié)點可以存儲多少文件塊;其次,方便了元數(shù)據(jù)的管理,元數(shù)據(jù)不需要和文件塊一起存儲,可以由其他系統(tǒng)負責管理元數(shù)據(jù) 適合數(shù)據(jù)備份適合數(shù)據(jù)備份:每個文件塊都可以冗余存儲到多個節(jié)點上,大大提高了系統(tǒng)的容錯性和可用性.2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點.2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點在HDFS中,名稱節(jié)點(NameNode)負責管理分布式文件系統(tǒng)的命名空間
5、(Namespace),保存了兩個核心的數(shù)據(jù)結構,即FsImage和EditLogFsImage用于維護文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)操作日志文件EditLog中記錄了所有針對文件的創(chuàng)建、刪除、重命名等操作名稱節(jié)點記錄了每個文件中各個塊所在的數(shù)據(jù)節(jié)點的位置信息名稱節(jié)點的數(shù)據(jù)結構名稱節(jié)點的數(shù)據(jù)結構.2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點圖3-3 名稱節(jié)點的數(shù)據(jù)結構 .2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式。每個inode是一個文件或目錄的元數(shù)據(jù)的內部表示,并包含此類信息:文件
6、的復制等級、修改和訪問時間、訪問權限、塊大小以及組成文件的塊。對于目錄,則存儲修改時間、權限和配額元數(shù)據(jù)FsImage文件沒有記錄塊存儲在哪個數(shù)據(jù)節(jié)點。而是由名稱節(jié)點把這些映射保留在內存中,當數(shù)據(jù)節(jié)點加入HDFS集群時,數(shù)據(jù)節(jié)點會把自己所包含的塊列表告知給名稱節(jié)點,此后會定期執(zhí)行這種告知操作,以確保名稱節(jié)點的塊映射是最新的。FsImage文件文件.2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點在名稱節(jié)點啟動的時候,它會將FsImage文件中的內容加載到內存中,之后再執(zhí)行EditLog文件中的各項操作,使得內存中的元數(shù)據(jù)和實際的同步,存在內存中的元數(shù)據(jù)支持客戶端的讀操作。一旦在內存中成
7、功建立文件系統(tǒng)元數(shù)據(jù)的映射,則創(chuàng)建一個新的FsImage文件和一個空的EditLog文件名稱節(jié)點起來之后,HDFS中的更新操作會重新寫到EditLog文件中,因為FsImage文件一般都很大(GB級別的很常見),如果所有的更新操作都往FsImage文件中添加,這樣會導致系統(tǒng)運行的十分緩慢,但是,如果往EditLog文件里面寫就不會這樣,因為EditLog 要小很多。每次執(zhí)行寫操作之后,且在向客戶端發(fā)送成功代碼之前,edits文件都需要同步更新名稱節(jié)點的啟動名稱節(jié)點的啟動.2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點在名稱節(jié)點運行期間,HDFS的所有更新操作都是直接寫到EditLog
8、中,久而久之, EditLog文件將會變得很大雖然這對名稱節(jié)點運行時候是沒有什么明顯影響的,但是,當名稱節(jié)點重啟的時候,名稱節(jié)點需要先將FsImage里面的所有內容映像到內存中,然后再一條一條地執(zhí)行EditLog中的記錄,當EditLog文件非常大的時候,會導致名稱節(jié)點啟動操作非常慢,而在這段時間內HDFS系統(tǒng)處于安全模式,一直無法對外提供寫操作,影響了用戶的使用名稱節(jié)點運行期間名稱節(jié)點運行期間EditLog不斷變大的問題不斷變大的問題.2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點如何解決?答案是:SecondaryNameNode第二名稱節(jié)點第二名稱節(jié)點第二名稱節(jié)點是HDFS架構
9、中的一個組成部分,它是用來保存名稱節(jié)點中對HDFS 元數(shù)據(jù)信息的備份,并減少名稱節(jié)點重啟的時間。SecondaryNameNode一般是單獨運行在一臺機器上.2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點.2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點SecondaryNameNode的工作情況:的工作情況:(1)SecondaryNameNode會定期和NameNode通信,請求其停止使用EditLog文件,暫時將新的寫操作寫到一個新的文件edit.new上來,這個操作是瞬間完成,上層寫日志的函數(shù)完全感覺不到差別;(2)SecondaryNameNode通過HTTP GE
10、T方式從NameNode上獲取到FsImage和EditLog文件,并下載到本地的相應目錄下;(3)SecondaryNameNode將下載下來的FsImage載入到內存,然后一條一條地執(zhí)行EditLog文件中的各項更新操作,使得內存中的FsImage保持最新;這個過程就是EditLog和FsImage文件合并;(4)SecondaryNameNode執(zhí)行完(3)操作之后,會通過post方式將新的FsImage文件發(fā)送到NameNode節(jié)點上(5)NameNode將從SecondaryNameNode接收到的新的FsImage替換舊的FsImage文件,同時將edit.new替換EditLog
11、文件,通過這個過程EditLog就變小了.2 名稱節(jié)點和數(shù)據(jù)節(jié)點名稱節(jié)點和數(shù)據(jù)節(jié)點數(shù)據(jù)節(jié)點是分布式文件系統(tǒng)HDFS的工作節(jié)點,負責數(shù)據(jù)的存儲和讀取,會根據(jù)客戶端或者是名稱節(jié)點的調度來進行數(shù)據(jù)的存儲和檢索,并且向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表每個數(shù)據(jù)節(jié)點中的數(shù)據(jù)會被保存在各自節(jié)點的本地Linux文件系統(tǒng)中數(shù)據(jù)節(jié)點數(shù)據(jù)節(jié)點(DataNode)3.4HDFS體系結構n3.4.1HDFS體系結構概述n3.4.2HDFS命名空間管理n3.4.3通信協(xié)議n3.4.4客戶端n3.4.5HDFS體系結構的局限性.1 HDFSHDFS體系結構概述體系結構概述 HDFS采用了
12、主從(Master/Slave)結構模型,一個HDFS集群包括一個名稱節(jié)點(NameNode)和若干個數(shù)據(jù)節(jié)點(DataNode)(如圖3-4所示)。名稱節(jié)點作為中心服務器,負責管理文件系統(tǒng)的命名空間及客戶端對文件的訪問。集群中的數(shù)據(jù)節(jié)點一般是一個節(jié)點運行一個數(shù)據(jù)節(jié)點進程,負責處理文件系統(tǒng)客戶端的讀/寫請求,在名稱節(jié)點的統(tǒng)一調度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復制等操作。每個數(shù)據(jù)節(jié)點的數(shù)據(jù)實際上是保存在本地Linux文件系統(tǒng)中的.1 HDFSHDFS體系結構概述體系結構概述圖3-4 HDFS體系結構 .2 HDFSHDFS命名空間管理命名空間管理 HDFS的命名空間包
13、含目錄、文件和塊 在HDFS1.0體系結構中,在整個HDFS集群中只有一個命名空間,并且只有唯一一個名稱節(jié)點,該節(jié)點負責對這個命名空間進行管理 HDFS使用的是傳統(tǒng)的分級文件體系,因此,用戶可以像使用普通文件系統(tǒng)一樣,創(chuàng)建、刪除目錄和文件,在目錄間轉移文件,重命名文件等.3 通信協(xié)議通信協(xié)議 HDFS是一個部署在集群上的分布式文件系統(tǒng),因此,很多數(shù)據(jù)需要通過網(wǎng)絡進行傳輸 所有的HDFS通信協(xié)議都是構建在TCP/IP協(xié)議基礎之上的 客戶端通過一個可配置的端口向名稱節(jié)點主動發(fā)起TCP連接,并使用客戶端協(xié)議與名稱節(jié)點進行交互 名稱節(jié)點和數(shù)據(jù)節(jié)點之間則使用數(shù)據(jù)節(jié)點協(xié)議進行交互 客戶端與
14、數(shù)據(jù)節(jié)點的交互是通過RPC(Remote Procedure Call)來實現(xiàn)的。在設計上,名稱節(jié)點不會主動發(fā)起RPC,而是響應來自客戶端和數(shù)據(jù)節(jié)點的RPC請求.4 客戶端客戶端 客戶端是用戶操作HDFS最常用的方式,HDFS在部署時都提供了客戶端 HDFS客戶端是一個庫,暴露了HDFS文件系統(tǒng)接口,這些接口隱藏了HDFS實現(xiàn)中的大部分復雜性 嚴格來說,客戶端并不算是HDFS的一部分 客戶端可以支持打開、讀取、寫入等常見的操作,并且提供了類似Shell的命令行方式來訪問HDFS中的數(shù)據(jù) 此外,HDFS也提供了Java API,作為應用程序訪問文件系統(tǒng)的客戶端編程接口3.4.53
15、.4.5 HDFSHDFS體系結構的局限性體系結構的局限性HDFS只設置唯一一個名稱節(jié)點,這樣做雖然大大簡化了系統(tǒng)設計,但也帶來了一些明顯的局限性,具體如下: (1)命名空間的限制命名空間的限制:名稱節(jié)點是保存在內存中的,因此,名稱節(jié)點能夠容納的對象(文件、塊)的個數(shù)會受到內存空間大小的限制。 (2)性能的瓶頸性能的瓶頸:整個分布式文件系統(tǒng)的吞吐量,受限于單個名稱節(jié)點的吞吐量。 (3)隔離問題隔離問題:由于集群中只有一個名稱節(jié)點,只有一個命名空間,因此,無法對不同應用程序進行隔離。 (4)集群的可用性集群的可用性:一旦這個唯一的名稱節(jié)點發(fā)生故障,會導致整個集群變得不可用。3.5HDFS存儲原理
16、n3.5.1冗余數(shù)據(jù)保存n3.5.2數(shù)據(jù)存取策略n3.5.3數(shù)據(jù)錯誤與恢復.1 冗余數(shù)據(jù)保存冗余數(shù)據(jù)保存 作為一個分布式文件系統(tǒng),為了保證系統(tǒng)的容錯性和可用性,HDFS采用了多副本方式對數(shù)據(jù)進行冗余存儲,通常一個數(shù)據(jù)塊的多個副本會被分布到不同的數(shù)據(jù)節(jié)點上,如圖3-5所示,數(shù)據(jù)塊1被分別存放到數(shù)據(jù)節(jié)點A和C上,數(shù)據(jù)塊2被存放在數(shù)據(jù)節(jié)點A和B上。這種多副本方式具有以下幾個優(yōu)點:(1)加快數(shù)據(jù)傳輸速度加快數(shù)據(jù)傳輸速度(2)容易檢查數(shù)據(jù)錯誤容易檢查數(shù)據(jù)錯誤(3)保證數(shù)據(jù)可靠性保證數(shù)據(jù)可靠性圖3-5 HDFS數(shù)據(jù)塊多副本存儲 .2 數(shù)據(jù)存取策略數(shù)據(jù)存取策略1.數(shù)據(jù)存放數(shù)據(jù)
17、存放Block的副本放置策略第一個副本:放置在上傳文件的數(shù)據(jù)節(jié)點;如果是集群外提交,則隨機挑選一臺磁盤不太滿、CPU不太忙的節(jié)點第二個副本:放置在與第一個副本不同的機架的節(jié)點上第三個副本:與第一個副本相同機架的其他節(jié)點上更多副本:隨機節(jié)點.2 數(shù)據(jù)存取策略數(shù)據(jù)存取策略2. 數(shù)據(jù)讀取數(shù)據(jù)讀取HDFS提供了一個API可以確定一個數(shù)據(jù)節(jié)點所屬的機架ID,客戶端也可以調用API獲取自己所屬的機架ID當客戶端讀取數(shù)據(jù)時,從名稱節(jié)點獲得數(shù)據(jù)塊不同副本的存放位置列表,列表中包含了副本所在的數(shù)據(jù)節(jié)點,可以調用API來確定客戶端和這些數(shù)據(jù)節(jié)點所屬的機架ID,當發(fā)現(xiàn)某個數(shù)據(jù)塊副本對應的機架ID和客
18、戶端對應的機架ID相同時,就優(yōu)先選擇該副本讀取數(shù)據(jù),如果沒有發(fā)現(xiàn),就隨機選擇一個副本讀取數(shù)據(jù).3 數(shù)據(jù)錯誤與恢復數(shù)據(jù)錯誤與恢復 HDFS具有較高的容錯性,可以兼容廉價的硬件,它把硬件出錯看作一種常態(tài),而不是異常,并設計了相應的機制檢測數(shù)據(jù)錯誤和進行自動恢復,主要包括以下幾種情形:名稱節(jié)點出錯、數(shù)據(jù)節(jié)點出錯和數(shù)據(jù)出錯。.3 數(shù)據(jù)錯誤與恢復數(shù)據(jù)錯誤與恢復1. 名稱節(jié)點出錯名稱節(jié)點出錯 名稱節(jié)點保存了所有的元數(shù)據(jù)信息,其中,最核心的兩大數(shù)據(jù)結構是FsImage和Editlog,如果這兩個文件發(fā)生損壞,那么整個HDFS實例將失效。因此,HDFS設置了備份機制,把這些核心
19、文件同步復制到備份服務器SecondaryNameNode上。當名稱節(jié)點出錯時,就可以根據(jù)備份服務器SecondaryNameNode中的FsImage和Editlog數(shù)據(jù)進行恢復。.3 數(shù)據(jù)錯誤與恢復數(shù)據(jù)錯誤與恢復2. 數(shù)據(jù)節(jié)點出錯數(shù)據(jù)節(jié)點出錯每個數(shù)據(jù)節(jié)點會定期向名稱節(jié)點發(fā)送“心跳”信息,向名稱節(jié)點報告自己的狀態(tài)當數(shù)據(jù)節(jié)點發(fā)生故障,或者網(wǎng)絡發(fā)生斷網(wǎng)時,名稱節(jié)點就無法收到來自一些數(shù)據(jù)節(jié)點的心跳信息,這時,這些數(shù)據(jù)節(jié)點就會被標記為“宕機”,節(jié)點上面的所有數(shù)據(jù)都會被標記為“不可讀”,名稱節(jié)點不會再給它們發(fā)送任何I/O請求這時,有可能出現(xiàn)一種情形,即由于一些數(shù)據(jù)節(jié)點的不可用,會導致一
20、些數(shù)據(jù)塊的副本數(shù)量小于冗余因子名稱節(jié)點會定期檢查這種情況,一旦發(fā)現(xiàn)某個數(shù)據(jù)塊的副本數(shù)量小于冗余因子,就會啟動數(shù)據(jù)冗余復制,為它生成新的副本HDFS和其它分布式文件系統(tǒng)的最大區(qū)別就是可以調整冗余數(shù)據(jù)的位置.3 數(shù)據(jù)錯誤與恢復數(shù)據(jù)錯誤與恢復3. 數(shù)據(jù)出錯數(shù)據(jù)出錯網(wǎng)絡傳輸和磁盤錯誤等因素,都會造成數(shù)據(jù)錯誤客戶端在讀取到數(shù)據(jù)后,會采用md5和sha1對數(shù)據(jù)塊進行校驗,以確定讀取到正確的數(shù)據(jù)在文件被創(chuàng)建時,客戶端就會對每一個文件塊進行信息摘錄,并把這些信息寫入到同一個路徑的隱藏文件里面當客戶端讀取文件的時候,會先讀取該信息文件,然后,利用該信息文件對每個讀取的數(shù)據(jù)塊進行校驗,如果校驗出錯
21、,客戶端就會請求到另外一個數(shù)據(jù)節(jié)點讀取該文件塊,并且向名稱節(jié)點報告這個文件塊有錯誤,名稱節(jié)點會定期檢查并且重新復制這個塊3.6HDFS數(shù)據(jù)讀寫過程n3.6.1讀數(shù)據(jù)的過程n3.6.2寫數(shù)據(jù)的過程3.6HDFS數(shù)據(jù)讀寫過程importjava.io.BufferedReader;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache
22、.hadoop.fs.FSDataInputStream;publicclassChapter3publicstaticvoidmain(Stringargs)tryConfigurationconf=newConfiguration();FileSystemfs=FileSystem.get(conf);Pathfilename=newPath(“hdfs:/localhost:9000/user/hadoop/test.txt);FSDataInputStreamis=fs.open(filename);BufferedReaderd=newBufferedReader(newInputS
23、treamReader(is);Stringcontent=d.readLine();/讀取文件一行 System.out.println(content);d.close();/關閉文件 fs.close();/關閉hdfs catch(Exceptione)e.printStackTrace();讀取文件讀取文件3.6HDFS數(shù)據(jù)讀寫過程importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.FSDataOutputStream;i
24、mportorg.apache.hadoop.fs.Path;publicclassChapter3publicstaticvoidmain(Stringargs)tryConfigurationconf=newConfiguration();FileSystemfs=FileSystem.get(conf);bytebuff=Helloworld.getBytes();/ 要寫入的內容 Stringfilename=hdfs:/localhost:9000/user/hadoop/test.txt;/要寫入的文件名 FSDataOutputStreamos=fs.create(newPath
25、(filename);os.write(buff,0,buff.length);System.out.println(Create:+filename);catch(Exceptione)e.printStackTrace();寫入文件寫入文件3.6HDFS數(shù)據(jù)讀寫過程FileSystem是一個通用文件系統(tǒng)的抽象基類,可以被分布式文件系統(tǒng)繼承,所有可能使用Hadoop文件系統(tǒng)的代碼,都要使用這個類Hadoop為FileSystem這個抽象類提供了多種具體實現(xiàn)DistributedFileSystem就是FileSystem在HDFS文件系統(tǒng)中的具體實現(xiàn)FileSystem的open()方法返回
26、的是一個輸入流FSDataInputStream對象,在HDFS文件系統(tǒng)中,具體的輸入流就是DFSInputStream;FileSystem中的create()方法返回的是一個輸出流FSDataOutputStream對象,在HDFS文件系統(tǒng)中,具體的輸出流就是DFSOutputStream。3.6HDFS數(shù)據(jù)讀寫過程Configuration conf = new Configuration();FileSystem fs = FileSystem.get(conf);FSDataInputStream in = fs.open(new Path(uri);FSDataOutputStre
27、am out = fs.create(new Path(uri);備注:創(chuàng)建一個Configuration對象時,其構造方法會默認加載工程項目下兩個配置文件,分別是hdfs-site.xml以及core-site.xml,這兩個文件中會有訪問HDFS所需的參數(shù)值,主要是fs.defaultFS,指定了HDFS的地址(比如hdfs:/localhost:9000),有了這個地址客戶端就可以通過這個地址訪問HDFS了 .1 讀數(shù)據(jù)的過程讀數(shù)據(jù)的過程FSDataInputStream封裝了DFSInputStreamFileSystem fs = FileSystem.get(con
28、f);FSDataInputStream in = fs.open(new Path(uri);Configuration conf = new Configuration();import org.apache.hadoop.fs.FileSystem通過ClientProtocal.getBlockLocations()遠程調用名稱節(jié)點,獲得文件開始部分數(shù)據(jù)塊的位置對于該數(shù)據(jù)塊,名稱節(jié)點返回保存該數(shù)據(jù)塊的所有數(shù)據(jù)節(jié)點的地址并根據(jù)距離客戶端遠近進行排序客戶端獲得輸入流FSDataInputStream以后調用read()函數(shù)開始讀取數(shù)據(jù)輸入流根據(jù)前面的排序結果選擇距離客戶端最近的數(shù)據(jù)節(jié)點建立
29、連接并讀取數(shù)據(jù)數(shù)據(jù)從數(shù)據(jù)節(jié)點讀到客戶端,當該數(shù)據(jù)塊讀取完畢時 FSDataInputStream關閉和該數(shù)據(jù)節(jié)點的連接通過ClientProtocal.getBlockLocations()查找下一個數(shù)據(jù)塊.2 寫數(shù)據(jù)的過程寫數(shù)據(jù)的過程FileSystem fs = FileSystem.get(conf);FSDataOutputStream out = fs.create(new Path(uri);Configuration conf = new Configuration();import org.apache.hadoop.fs.FileSystemRPC遠程調用名稱
30、節(jié)點在文件系統(tǒng)的命名空間中新建一個文件名稱節(jié)點會執(zhí)行一些檢查(文件是否存在,客戶端權限)FSDataOutputStream封裝了DFSOutputStream數(shù)據(jù)被分成一個個分包分包被放入DFSOutputStream對象的內部隊列DFSOutputStream向名稱節(jié)點申請保存數(shù)據(jù)塊的若干數(shù)據(jù)節(jié)點這些數(shù)據(jù)節(jié)點形成一個數(shù)據(jù)流管道隊列中的分包最后被打包成數(shù)據(jù)包發(fā)往數(shù)據(jù)流管道中的第一個數(shù)據(jù)節(jié)點第一個數(shù)據(jù)節(jié)點將數(shù)據(jù)包發(fā)送到第二個節(jié)點依此類推,形成“流水線復制”為了保證節(jié)點數(shù)據(jù)準確,接收到數(shù)據(jù)的數(shù)據(jù)節(jié)點要向發(fā)送者發(fā)送“確認包”確認包沿著數(shù)據(jù)流管道逆流而上,經(jīng)過各個節(jié)點最終到達客戶端客戶端收到應答時,
31、它將對應的分包從內部隊列移除DFSOutputStream調用ClientPplete()方法通知名稱節(jié)點關閉文件3.7 HDFS編程實踐Hadoop提供了關于HDFS在Linux操作系統(tǒng)上進行文件操作的常用Shell命令以及Java API。同時還可以利用Web界面查看和管理Hadoop文件系統(tǒng)備注:Hadoop安裝成功后,已經(jīng)包含HDFS和MapReduce,不需要額外安裝。而HBase等其他組件,則需要另外下載安裝。3.7 HDFS編程實踐在學習HDFS編程實踐前,我們需要啟動Hadoop。執(zhí)行如下命令:3.7.1 HDFS常用命令HDFS有很多shell命令,其中,fs命令可以說是HD
32、FS最常用的命令利用該命令可以查看HDFS文件系統(tǒng)的目錄結構、上傳和下載數(shù)據(jù)、創(chuàng)建文件等。該命令的用法為:hadoopfsgenericOptionscommandOptions3.7.1 HDFS常用命令Hadoop中有三種Shell命令方式:hadoop fs適用于任何不同的文件系統(tǒng),比如本地文件系統(tǒng)和HDFS文件系統(tǒng)hadoop dfs只能適用于HDFS文件系統(tǒng)hdfs dfs跟hadoop dfs的命令作用一樣,也只能適用于HDFS文件系統(tǒng)3.7.1 HDFS常用命令實例:hadoop fs -ls :顯示指定的文件的詳細信息hadoop fs -mkdir :創(chuàng)建指定的文件夾3.7.
33、1 HDFS常用命令實例:hadoop fs -cat :將指定的文件的內容輸出到標準輸出(stdout)hadoop fs -copyFromLocal :將本地源文件復制到路徑指定的文件或文件夾中3.7.2 HDFS的Web界面在配置好Hadoop集群之后,可以通過瀏覽器登錄“http:/NameNodeIP:50070”訪問HDFS文件系統(tǒng)通過Web界面的“Browsethefilesystem”查看文件“hdfs:/localhost/home/administrator/tempfile/file1.txt”3.7.3HDFS常用Java API及應用實例利用利用Java API與與
34、HDFS進行交互進行交互實例:利用hadoop 的java api檢測偽分布式文件系統(tǒng)HDFS上是否存在某個文件?準備工作:在Ubuntu系統(tǒng)中安裝和配置Eclipse第一步:放置配置文件到當前工程下面( eclipse工作目錄的bin文件夾下面)第二步:編寫實現(xiàn)代碼3.7.3HDFS常用Java API及應用實例利用Java API進行交互,可以使用軟件Eclipse編寫Java程序。(1)在)在Ubuntu中安裝中安裝Eclipse利用Ubuntu左側邊欄自帶的軟件中心安裝軟件,在Ubuntu左側邊欄打開軟件中心3.7.3HDFS常用Java API及應用實例打開軟件中心后,呈現(xiàn)如下界面3
35、.7.3HDFS常用Java API及應用實例在軟件中心搜索欄輸入“ec”,軟件中心會自動搜索相關的軟件3.7.3HDFS常用Java API及應用實例點擊如下圖中Eclipse,進行安裝3.7.3HDFS常用Java API及應用實例安裝需要管理員權限,Ubuntu系統(tǒng)需要用戶認證,彈出“認證”窗口,請輸入當前用戶的登錄密碼3.7.3HDFS常用Java API及應用實例ubuntu便會進入如下圖的安裝過程中,安裝結束后安裝進度條便會消失。3.7.3HDFS常用Java API及應用實例點擊Ubuntu左側邊欄的搜索工具,輸入“ec”,自動搜索已經(jīng)安裝好的相關軟件,打開Eclipse3.7.
36、3HDFS常用Java API及應用實例(2)在)在Eclipse創(chuàng)建項目創(chuàng)建項目第一次打開Eclipse,需要填寫workspace(工作空間),用來保存程序所在的位置,這里按照默認,不需要改動,如下圖3.7.3HDFS常用Java API及應用實例點擊“OK”按鈕,進入Eclipse軟件。開始創(chuàng)建項目,選擇頂部菜單FileNewJava Project,如下圖3.7.3HDFS常用Java API及應用實例輸入項目名稱,本教程輸入的項目名稱是“Dblab”,其他不用改動,點擊“Finish”按鈕即可。3.7.3HDFS常用Java API及應用實例為項目加載所需要用到的jar包如何獲取如何獲取jar包包Java API所在的jar包都在已經(jīng)安裝好的hadoop文件夾里,路徑:/usr/local/hadoop/share/hadoop(如果讀者安裝的hadoop不在此目錄,請找到jar包所在的文件夾)3.7.3HDFS常用Java API及應用實例在所在項目中加載jar包,具體操作如下:在所選的Eclipse項目(Dblab)上右鍵點擊彈出菜單中選擇PropertiesJava Build PathLibrariesAdd External JARS3.7.3HDFS常用Java A
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《第二單元 多彩的游記 2 設計版面》教學實錄-2024-2025學年川教版信息技術(2019)四年級下冊
- 設計制作校園植物名片(教學實錄)2024-2025學年四年級上冊信息技術蘇科版
- 商品貿易采購合同范例
- 臨安區(qū)房產買賣合同范例
- 承包土地寫合同范例
- 2025年鎮(zhèn)江道路客貨運輸從業(yè)資格證b2考試題庫
- 員工激勵股合同范例
- 人工智能風險治理報告(2024年)-構建面向產業(yè)的人工智能安全治理實踐方案
- 版納租車合同范例
- 個人租房合同范例版
- 數(shù)學文化欣賞
- 脊柱區(qū)1教學講解課件
- KK5-冷切鋸操作手冊-20151124
- 人工智能對中學教學的影響與應對策略
- 閉合導線自動計算表
- 分管學校安全、德育、后勤等業(yè)務副校長述職報告
- 筆試考試:HSK筆試(三級)真題模擬匯編(共603題)
- 全國城市一覽表-excel
- 國際金融課后習題答案(吳志明第五版)第1-9章
- 《WPS演示制作與設計》計算機應用基礎高職??埔坏泉?含課件制作試題及答案)
- 《基于杜邦分析法周大福珠寶企業(yè)盈利能力分析報告(6400字)》
評論
0/150
提交評論