大數(shù)據(jù)基礎(chǔ)知識_第1頁
大數(shù)據(jù)基礎(chǔ)知識_第2頁
大數(shù)據(jù)基礎(chǔ)知識_第3頁
大數(shù)據(jù)基礎(chǔ)知識_第4頁
大數(shù)據(jù)基礎(chǔ)知識_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、實際上它里面有非常巨大的組成部分,每一個組成部分都很可能出現(xiàn)故障,這就意味著 HDFS 里的總是有 X節(jié)點,一個集群中數(shù)據(jù)訪問變得可能。一個 動數(shù)據(jù)更經(jīng)濟計算數(shù)據(jù)所存儲的位置來進行計算是最理想的狀態(tài),尤其是在數(shù)據(jù)集特別巨大的時候。這樣消是遷移計算到離數(shù)據(jù)更近的位置比將數(shù)據(jù)移動到臺間的可移植性點和數(shù)據(jù)節(jié)點 字節(jié)點用來操作文 件命名空間的文件或 ,重命名等等。它同時確定塊與數(shù)據(jù)節(jié)點的映射。數(shù)據(jù)節(jié)點 負責(zé)來自文件系統(tǒng)客戶的讀寫請求。數(shù)據(jù)節(jié) 點和數(shù)據(jù)節(jié)點都是運行在普通的機器之上的軟件,機器典型的都是 文件命名空間 節(jié)點維護文件系統(tǒng)的命名空間,任何文件命名空間的改變和或?qū)傩远急幻止?jié)點記錄。應(yīng)用程序 可

2、以指定文件的副本 儲。 其他塊都有相同的大小。屬于文件的塊為了故障容錯而被復(fù)制。塊的大小和復(fù)制數(shù)是以 文件為單位進行配置的,應(yīng)用可以在文件 節(jié)點負責(zé)處理所有的塊復(fù)制相關(guān)的決策。它周期性地接受集群中數(shù)據(jù)節(jié)點的心跳和塊報告。一個 心跳的到達表示這個 文件系統(tǒng)的元數(shù)據(jù)的持久化特征,這需要精心的調(diào)節(jié)和大量的經(jīng)驗。機架敏感的副本存放策略是為了提高數(shù)據(jù)的 性和網(wǎng)絡(luò)帶寬的利用率。副本存放策略的實現(xiàn)是這個方向上比較原始的方式。短期的實現(xiàn)目 數(shù)據(jù)節(jié)點自檢它所屬的機架 H ,然后在向名字節(jié)點注冊的時候告知它的機架 防止了機架故障時數(shù)據(jù)的丟失,并且在讀數(shù)據(jù)的時候可以充分利用不同機架的帶寬。這iio行了一些折中。一般

3、情況下復(fù)制因子為 3 , HDFS 的副本放置策略是將第一個副本放在本地節(jié)點,將第二副本放到本地機架上的另外一個節(jié)點而將第三個副本放到不同機架上的節(jié)點。這種方式減少了機架間的于節(jié)點故障。這種方式并不影響數(shù)據(jù)可靠性和可用性 式個特定的最小復(fù)制數(shù)。當(dāng)名字節(jié)點檢查這個塊已經(jīng)大于最小的復(fù)制數(shù)就被認(rèn)為是安全地復(fù)制T,當(dāng)達到配置的塊安全復(fù)制比例時(加上額外的 30 秒),名字節(jié)點就退出安全模式。它將檢測數(shù)據(jù)塊的列表, 將小于特定復(fù)制數(shù) 記錄這個改變。類似地,改變文件的復(fù)制因子也會向 EdiiLog 中插入一條記錄。名字節(jié)點在本地文件系統(tǒng)點在內(nèi)存中保留一個完整的文件系統(tǒng)命名空間和文件塊的映射表的這個元數(shù)據(jù)被

4、設(shè)計成點啟動時,它將從磁盤中讀個目錄中,而是啟發(fā)式的檢測每一個目錄的最優(yōu)文件數(shù),并在適當(dāng)?shù)臅r候創(chuàng)建子目錄。在本地同一個目錄 下創(chuàng)建所有的數(shù)據(jù)塊文 因為本地文件系統(tǒng)可能不支持單個目錄下巨額文件的高效操作。當(dāng) 數(shù)據(jù)節(jié)點啟動的時候,它將掃描它的本地文件系統(tǒng),根據(jù)本地的文件產(chǎn)生一個所有 HDFS 數(shù)據(jù)塊的列表并 點。網(wǎng)絡(luò)斷開會造成一組數(shù)據(jù)節(jié)點子集和名字節(jié)點失去聯(lián)況。名字節(jié)點將這些數(shù)據(jù)節(jié)點標(biāo)記為死亡狀態(tài),不再將新的請求轉(zhuǎn)發(fā)到這些數(shù)據(jù)節(jié)點上,這些數(shù)據(jù)節(jié)點上的數(shù)據(jù)將對 HDFS 不再可用,可能會導(dǎo)致一些塊的復(fù)制因子 降低到指定的 點檢查所有的需要復(fù)制的塊,并開始復(fù)制他們到其他的數(shù)據(jù)節(jié)點上。重新復(fù)制在有些情況

5、下是 能是壞塊,壞塊的出現(xiàn)可能是存儲設(shè)備錯誤,網(wǎng)絡(luò)錯誤或者軟件的漏 個文件時,它根據(jù)對應(yīng)的校驗文件來驗證從數(shù)據(jù)節(jié)點接收到的數(shù)據(jù)。如果校驗失敗,客戶端可以選擇從其 他擁有該塊副本的數(shù)據(jù)節(jié) 持在一個待定時間存儲一個數(shù)據(jù)拷貝,快照可以將失效的個正常的時間點 階段狀態(tài)的臨時文件中。應(yīng)用程序的寫操作被透明地重定向到這個臨時本地文件。當(dāng)本地文件堆積到 它分配一個數(shù)據(jù)塊。名字節(jié)點構(gòu)造包括數(shù)據(jù)節(jié)點 1D (可能是多個,副本數(shù)據(jù)塊存放的節(jié)點也有)和目標(biāo)數(shù)戶端的請求??蛻舳耸盏胶髮⒈镜氐?臨時文件刷新到指定的數(shù)據(jù)節(jié)點數(shù)據(jù)塊到數(shù)據(jù)節(jié)點。然后客戶端就可以通知名 字節(jié)點文件已經(jīng)關(guān) 文件系統(tǒng)進行直接寫入而沒有任何本地的緩

6、存,這就會對網(wǎng)速和網(wǎng)絡(luò)吞吐量產(chǎn)生很大的影響。這方面早 有前車之鑒,早期的分布 水式復(fù)制 一個數(shù)據(jù)節(jié)點開始以 4kb 為單元接收數(shù)據(jù),將還可以將數(shù)據(jù)流水式傳遞給下一個節(jié)點,所以,數(shù)據(jù)是流水式 地從一個數(shù)據(jù)節(jié)點傳遞 系統(tǒng)分類em上,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連。分布式文件系統(tǒng)的設(shè)計基于客戶機 /1E 務(wù)器模式。一個典型的網(wǎng)絡(luò)可 客戶機訪問的目錄,一旦被訪問,這個目錄對客戶機來說就像使用本地。驅(qū)系統(tǒng)管理、存儲數(shù)據(jù),而信息爆炸時代中人們可以獲取的數(shù)據(jù)成指數(shù)倍的增長,單純通 過增加硬盤個數(shù)來 計算機文件系統(tǒng)的存儲容量的方式,在容量大小、容量增長速度、數(shù)據(jù)備份、數(shù)據(jù)安全 等方而的表現(xiàn)都差強人意。分布式文

7、可以有效解決數(shù)據(jù)的存儲和管理難題:將固定于某個地展到任意多個地點/多個文件系統(tǒng),眾多的節(jié)點組成一個文件系統(tǒng)網(wǎng)絡(luò)。每個節(jié)點可以 分布在不同的地 的通信和數(shù)據(jù)傳輸。人們在使用分布式文件系統(tǒng)時,無需關(guān)心據(jù)。文件系統(tǒng)最初設(shè)計時,僅僅是為局域網(wǎng)內(nèi)的本地數(shù)據(jù)服務(wù)的。而分布式文件系統(tǒng)將服務(wù)范圍擴展到了僅改變了數(shù)據(jù)的存儲和管理方式,也擁有了本地文件系統(tǒng)所無法具備的數(shù)據(jù)備份、數(shù)據(jù)安全NN盤中數(shù)、不同節(jié)點間的數(shù)據(jù)傳輸時間以及一部分處理器的處理時間等。各種因素決定了分布式文件系,否則在本地文件系統(tǒng)中打開一個文件需要 2 秒,而在分布式文件系統(tǒng)中各種因素的影響下用時超過 10 秒,出現(xiàn) 分布式文件系統(tǒng)一個用戶,那么分

8、布式文件系統(tǒng)就很容易實現(xiàn)??上У氖?,在許多網(wǎng)絡(luò)環(huán)境中 這種限制是不現(xiàn)實 有多個用戶打開一個文件,但只有一個用戶進行寫修改。而該用戶所 作的修改并不一定出現(xiàn) 允許多個用戶同時讀寫一個文件。但這需要操作系統(tǒng)作大量的監(jiān)控工作以防止文件重寫,并保證用戶能夠看到最新信息。這種方法即使實現(xiàn)得很好,許多環(huán)境中的處理要求和量也可能 網(wǎng)絡(luò)通信 使它變得不 記錄),文件被放在客戶工作站的高速緩存中,若另一個用戶也請求同一文件,則它也會被放入那個客戶工 作站的高速緩存中。 (每個客戶 無狀態(tài)系統(tǒng)在這個系統(tǒng)中,服務(wù)器并不保存其客戶機正在緩存的文件的信息。因此,客戶機必須協(xié) 同服務(wù)器定期檢查LAN了自己正在緩存的文件。

9、這種方法在大的環(huán)境中會產(chǎn)生額外的通信 LAN 客戶機檢查回叫應(yīng)答中的時間期限以保證回叫應(yīng)答是當(dāng)前有效的。回叫應(yīng)答的另有效性。換句話說,若一個被緩存的文件有一個回叫應(yīng)答,則客戶機 就認(rèn)為文件是當(dāng) 滿足大規(guī)模存儲應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲系統(tǒng)采用可擴展的系統(tǒng)結(jié)構(gòu),利 用多臺存儲服務(wù)器分擔(dān)存儲負荷,利用位置服 在共享的目錄,一個共享目錄通常叫做出版或出口目錄。有關(guān) 取。訪問在共享目錄上建立一種鏈接和訪問文件的過程叫做裝聯(lián)S報告一些將發(fā)生的問題,如磁盤空間將用完等。另一個工具是 USS ,可創(chuàng)建基于帶有字段常量模板的 用戶域中文件服務(wù)器和客戶機系統(tǒng)的集合,這個獨立區(qū)域由特定的機構(gòu) 管理。通常代 表一個

10、組織的計算資源。用戶可以和同一單元中其他用戶方便地共享信息,他們也可以和其他單元 內(nèi)的用戶共享信息,這取決 文件服務(wù)器進程 這個進程響應(yīng)客戶工作站對文件服務(wù)的請求,維護目錄結(jié)構(gòu),監(jiān)控文件和目錄狀態(tài) 信息,檢查用戶的 進程提供了對文件卷宗的位置透明性。即使卷宗被移動了,用戶也能訪問它而不 需要知道卷宗移 存有口令帳戶。 Ub 玄提供數(shù)據(jù)庫復(fù)制和同步服務(wù)。一個復(fù)制的數(shù)據(jù)庫是一個其信息放于多個位置的系統(tǒng)以便于用戶更方便地訪問這些數(shù)據(jù)信息。同步機制保證所有數(shù)據(jù)庫的信息是一致的。本地 ab batch 批量處理的方式來處理這小部分?jǐn)?shù)據(jù)。上,一方面是因為 Spark 的低延遲執(zhí)行引擎(100ms+ ) ,

11、雖然比不上專門的流式數(shù)據(jù)處理軟件,也可以 用于實時計算,另一方 Record 的其它處理框架(如 Storm ) , 一部分窄依賴的 RDD 數(shù)據(jù)集可時數(shù)據(jù)處理 的邏輯和算法。方便了YARYARN 統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管YARN 最初是為了修復(fù) MapReduce 實現(xiàn)里的明顯不足, 的集群)、可靠性和集群利用率進行了提升。M并對可伸縮性(支持一萬個節(jié) 點和二十萬個內(nèi)核 YARN 實現(xiàn)這些需求的方式濫控)分成了兩個獨立的服務(wù)么是傳統(tǒng)意義上的 MapReduce 任務(wù),要么是任務(wù)的有向無環(huán)圖( DAG )。此外,這些新的框架還可以利用 YARNYARNYARN 的基本思想是將 JobT

12、mcker 的兩個主要功能(資源管理和作業(yè)調(diào)度濫控)分離,主要 方法是創(chuàng)建一 eDAG序。在此上下文中,-起分配資源,與 N odeM anager 礎(chǔ)應(yīng)用程N( CPU、內(nèi)存等的資源分配)。請注意,盡管目前的資源更加傳統(tǒng) (CPU 核心、內(nèi)存),但未來會帶來基于手頭任務(wù)的新資源類型(比如圖形處理單元或?qū)?HYPERLINK l _bookmark1 MRvl缺陷 構(gòu)存在不足,主要表現(xiàn)在大型集群上。當(dāng)集群包含的節(jié)點超過 4,000 時(其中每個 個節(jié)點可能是多核的),就會 預(yù)測性。其中一個最大的問題是級聯(lián)故障,由 于要嘗試復(fù)制數(shù)據(jù)和重載活動的節(jié)點,所以一個 出開銷。切 tasks美。對于資源的

13、表示以內(nèi)存為單位Yam個部分就扔給Contaher 是 Yam 為了將來作資源隔離而提出的一個框架。這一點應(yīng)該借鑒了思路應(yīng)該后續(xù)能支持更多的資源調(diào)度和控制 ,既然資源表示成內(nèi)存量,那就沒有了之前的YARN器調(diào)度器根據(jù)容量、隊列等限制條件(如每個隊列分配一定的資源,最多執(zhí)行一調(diào)度器”,它不再從事任何與具體應(yīng)用程序相關(guān)的工作,比如不負責(zé)監(jiān)控或者 跟蹤應(yīng)用的執(zhí)行狀態(tài) 管理整個系統(tǒng)屮所有應(yīng)用程序,包括應(yīng)用程序提ontaher將得到的任務(wù)進一步分配給內(nèi)部的任務(wù) 後源的二次分配) ; e 種請求。刃 YARN 的資源管理和執(zhí)行框架都是按主 似范例實現(xiàn)的一一 Slave節(jié)點管理器(NM )排、執(zhí)行、監(jiān)控獨立

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論