FusionStorage大數(shù)據(jù)存儲(chǔ)技術(shù)白皮書(shū)_第1頁(yè)
FusionStorage大數(shù)據(jù)存儲(chǔ)技術(shù)白皮書(shū)_第2頁(yè)
FusionStorage大數(shù)據(jù)存儲(chǔ)技術(shù)白皮書(shū)_第3頁(yè)
FusionStorage大數(shù)據(jù)存儲(chǔ)技術(shù)白皮書(shū)_第4頁(yè)
FusionStorage大數(shù)據(jù)存儲(chǔ)技術(shù)白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、FusionStorage 大數(shù)據(jù)存儲(chǔ)技術(shù)白皮書(shū)目錄 HYPERLINK l _bookmark0 概述1 HYPERLINK l _bookmark1 產(chǎn)品價(jià)值2 HYPERLINK l _bookmark2 產(chǎn)品架構(gòu)3 HYPERLINK l _bookmark3 軟件架構(gòu)3 HYPERLINK l _bookmark4 數(shù)據(jù)服務(wù)4 HYPERLINK l _bookmark5 統(tǒng)一資源池4 HYPERLINK l _bookmark6 分布式 Hash 路由6 HYPERLINK l _bookmark7 Cache 機(jī)制7 HYPERLINK l _bookmark11 關(guān)鍵業(yè)務(wù)流程8

2、 HYPERLINK l _bookmark12 特性介紹10 HYPERLINK l _bookmark13 數(shù)據(jù)冗余策略10 HYPERLINK l _bookmark14 小文件在線聚合10 HYPERLINK l _bookmark15 配額和資源統(tǒng)計(jì)11 HYPERLINK l _bookmark16 QoS12 HYPERLINK l _bookmark17 訪問(wèn)權(quán)限控制13 HYPERLINK l _bookmark18 存儲(chǔ)管理13 HYPERLINK l _bookmark19 存儲(chǔ)服務(wù)化13 HYPERLINK l _bookmark20 存儲(chǔ)集群管理14 HYPERLIN

3、K l _bookmark21 集群擴(kuò)容14 HYPERLINK l _bookmark22 推薦硬件14 HYPERLINK l _bookmark23 系統(tǒng)組網(wǎng)15 HYPERLINK l _bookmark24 組網(wǎng)方案16 HYPERLINK l _bookmark25 組網(wǎng)設(shè)計(jì)原則16 HYPERLINK l _bookmark26 集群內(nèi)組網(wǎng)方案16 HYPERLINK l _bookmark27 軟件部署18 HYPERLINK l _bookmark28 局域網(wǎng)部署方案18 HYPERLINK l _bookmark29 廣域網(wǎng)部署 DNS 方案18 HYPERLINK l _

4、bookmark30 高性能和彈性擴(kuò)展20 HYPERLINK l _bookmark31 單 namespace 高性能20 HYPERLINK l _bookmark32 元數(shù)據(jù)多級(jí)緩存21 HYPERLINK l _bookmark33 全局負(fù)載均衡22 HYPERLINK l _bookmark34 數(shù)據(jù)在線聚合22 HYPERLINK l _bookmark35 無(wú)狀態(tài)集群23 HYPERLINK l _bookmark36 彈性擴(kuò)展23 HYPERLINK l _bookmark37 高可靠24 HYPERLINK l _bookmark38 數(shù)據(jù)冗余保護(hù)機(jī)制24 HYPERLIN

5、K l _bookmark39 數(shù)據(jù)條帶化24 HYPERLINK l _bookmark40 N+M 數(shù)據(jù)保護(hù)25 HYPERLINK l _bookmark41 節(jié)點(diǎn)級(jí)安全級(jí)別26 HYPERLINK l _bookmark42 快速數(shù)據(jù)重建27 HYPERLINK l _bookmark43 集群可靠性28 HYPERLINK l _bookmark44 硬件可靠性28 HYPERLINK l _bookmark45 鏈路可靠性29 HYPERLINK l _bookmark46 系統(tǒng)安全30 HYPERLINK l _bookmark47 總體安全框架31 HYPERLINK l _b

6、ookmark48 管理系統(tǒng)安全31 HYPERLINK l _bookmark49 用戶安全31 HYPERLINK l _bookmark50 密碼安全32鑒權(quán)認(rèn)證錯(cuò)誤!未定義書(shū)簽。 HYPERLINK l _bookmark51 日志和告警管理33 HYPERLINK l _bookmark52 存儲(chǔ)業(yè)務(wù)安全33 HYPERLINK l _bookmark53 訪問(wèn)的認(rèn)證和鑒權(quán)33 HYPERLINK l _bookmark55 namespace 的訪問(wèn)控制34 HYPERLINK l _bookmark56 訪問(wèn)審計(jì)34 HYPERLINK l _bookmark57 存儲(chǔ)網(wǎng)絡(luò)安全3

7、4 HYPERLINK l _bookmark58 平面隔離34 HYPERLINK l _bookmark61 存儲(chǔ)設(shè)備安全36 HYPERLINK l _bookmark62 操作系統(tǒng)加固36安全補(bǔ)丁錯(cuò)誤!未定義書(shū)簽。 HYPERLINK l _bookmark63 Web 安全36 HYPERLINK l _bookmark64 開(kāi)放兼容性38 HYPERLINK l _bookmark65 與主流協(xié)議的兼容38 HYPERLINK l _bookmark66 與大數(shù)據(jù)平臺(tái)的兼容38 HYPERLINK l _bookmark67 與集中管理平臺(tái)的兼容39 HYPERLINK l _bo

8、okmark68 縮略語(yǔ)和術(shù)語(yǔ)40 1 概 述當(dāng)前從科學(xué)研究到醫(yī)療保險(xiǎn),從銀行政府到互聯(lián)網(wǎng),從智慧城市到運(yùn)營(yíng)商,各個(gè)不同領(lǐng)域的信息都在爆炸式增長(zhǎng)出數(shù)據(jù)量?;ヂ?lián)網(wǎng)、物聯(lián)網(wǎng)、AI 等科技日新月異,都離不開(kāi)對(duì)海量數(shù)據(jù)的存儲(chǔ)和分析。數(shù)據(jù)已經(jīng)滲透到當(dāng)今各個(gè)行業(yè)和領(lǐng)域,成為重要的生產(chǎn)因素。大量的數(shù)據(jù)等待挖掘和分析,來(lái)支撐新一波的業(yè)務(wù)增長(zhǎng)。而通過(guò)我們跟大數(shù)據(jù)客戶的交流,發(fā)現(xiàn)當(dāng)前在大數(shù)據(jù)集群的使用中,有很多的痛點(diǎn)需要解決,隨著數(shù)據(jù)和業(yè)務(wù)越來(lái)越龐大,痛點(diǎn)越來(lái)越明顯。新的挑戰(zhàn)必然催生新的需 求,基于此,華為 FusionStorage 大數(shù)據(jù)存儲(chǔ)應(yīng)運(yùn)而生。圖1-1 行業(yè)應(yīng)用痛點(diǎn)華為 FusionStorage 大

9、數(shù)據(jù)存儲(chǔ)靈活、彈性,讓大數(shù)據(jù)集群擴(kuò)展像堆積木一樣簡(jiǎn)單,讓計(jì)算和存儲(chǔ)都能得到充分的利用,是一款可大規(guī)模橫向擴(kuò)展的全分布式大數(shù)據(jù)存儲(chǔ)產(chǎn)品,并提供企業(yè)級(jí)的可靠性和可用性。 2產(chǎn)品價(jià)值FusionStorage 大數(shù)據(jù)存儲(chǔ)采用高擴(kuò)展的分布式架構(gòu)提供高效的大數(shù)據(jù)底座,在大數(shù)據(jù)需求不斷增長(zhǎng)的形勢(shì)下具有如下優(yōu)勢(shì):存儲(chǔ)計(jì)算按需配置,保護(hù)客戶投資FusionStorage 大數(shù)據(jù)存儲(chǔ)將 HDD、SSD 等硬件存儲(chǔ)介質(zhì)通過(guò)分布式技術(shù)組織成大規(guī)模存儲(chǔ)資源池,將存儲(chǔ)從計(jì)算中分離,實(shí)現(xiàn)存儲(chǔ)、計(jì)算比例隨意配置,按需靈活擴(kuò)容, 降低投資成本,保護(hù)客戶投資。存儲(chǔ)計(jì)算分離后,將數(shù)據(jù)從計(jì)算集群剝離,計(jì)算集群 可以快速縮容和擴(kuò)容,

10、無(wú)需等待數(shù)據(jù)遷移,計(jì)算資源實(shí)現(xiàn)靈活分配。多租戶特性助力客戶構(gòu)建統(tǒng)一存儲(chǔ)資源池FusionStorage 大數(shù)據(jù)存儲(chǔ)支持創(chuàng)建多個(gè) namespace 來(lái)對(duì)接多套計(jì)算集群,支持計(jì)算集群間鑒權(quán)隔離,且跟對(duì)應(yīng)的 namespace 統(tǒng)一鑒權(quán)。多個(gè) namespace 之間數(shù)據(jù)邏輯隔離, 空間靈活分配,存儲(chǔ)能力共享,真正將存儲(chǔ)資源池能力發(fā)揮出來(lái)。分布式的數(shù)據(jù)和元數(shù)據(jù)管理,以彈性高效滿足未來(lái)數(shù)據(jù)存取需求FusionStorage 大數(shù)據(jù)存儲(chǔ)采用全分布式架構(gòu),支持通過(guò)橫向擴(kuò)展硬件節(jié)點(diǎn)線性增加整系統(tǒng)容量與性能,無(wú)需復(fù)雜的資源需求規(guī)劃;系統(tǒng)可輕松擴(kuò)展至數(shù)千節(jié)點(diǎn)及EB 級(jí)容量,滿足您的云業(yè)務(wù)規(guī)模增長(zhǎng)需求。相對(duì)于原

11、生HDFS NameNode 的主備模式, FusionStorage 大數(shù)據(jù)存儲(chǔ)采用全分布式NameNode 機(jī)制,打破原生 HDFS 單NameNode 一億文件數(shù)的限制,單 NameSpace 支持百億文件存儲(chǔ),整集群支持萬(wàn)億文件存儲(chǔ)。完全兼容原生的 HDFS 語(yǔ)義的 EC 機(jī)制,助力客戶業(yè)務(wù)平滑遷移相比原生 HDFS EC 不支持 append, truncate, hflush, fsync 等諸多接口, FusionStorage 大數(shù)據(jù)存儲(chǔ)完全兼容原生的HDFS 語(yǔ)義,助力客戶業(yè)務(wù)平滑遷移,廣泛兼容華為及第三方大數(shù)據(jù)平臺(tái)。支持高達(dá) 22+2 大比例EC,利用率達(dá)到 91.7%,遠(yuǎn)

12、高于原生 HDFS EC 和三副本機(jī)制,降低客戶投資成本。以企業(yè)級(jí)存儲(chǔ)可靠性保障客戶業(yè)務(wù)和數(shù)據(jù)安全FusionStorage 大數(shù)據(jù)存儲(chǔ)基于華為云上云下統(tǒng)一的 DFV 架構(gòu),跟 FusionStorage 塊、對(duì)象、文件統(tǒng)一架構(gòu),共同構(gòu)筑企業(yè)級(jí)存儲(chǔ)可靠性。2TB/小時(shí)的重構(gòu)速度避免 2 次故障導(dǎo)致數(shù)據(jù)丟失。支持全面故障盤(pán)、亞健康盤(pán)的識(shí)別和容錯(cuò)處理、支持令牌的流控, 磁盤(pán)靜默損壞檢查,以企業(yè)級(jí)存儲(chǔ)可靠性保障客戶業(yè)務(wù)和數(shù)據(jù)安全。 3產(chǎn)品架構(gòu) HYPERLINK l _bookmark3 軟件架構(gòu) HYPERLINK l _bookmark4 數(shù)據(jù)服務(wù) HYPERLINK l _bookmark18

13、 存儲(chǔ)管理 HYPERLINK l _bookmark22 推薦硬件 HYPERLINK l _bookmark23 系統(tǒng)組網(wǎng) HYPERLINK l _bookmark27 軟件部署軟件架構(gòu)華為 FusionStorage 大數(shù)據(jù)存儲(chǔ)是一款可大規(guī)模橫向擴(kuò)展的大數(shù)據(jù)存儲(chǔ)產(chǎn)品,架構(gòu)上遵循業(yè)界先進(jìn)的 Scale-out、服務(wù)化、微服務(wù)化等設(shè)計(jì)原則。圖3-1 FusionStorage 大數(shù)據(jù)軟件架構(gòu)如上圖所示,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)從架構(gòu)上主要分為三層:Persistence Layer(存儲(chǔ)持久層),Index Layer(元數(shù)據(jù)服務(wù)層)和 Service Layer(HDFS

14、語(yǔ)義服務(wù)層):Persistence Layer(存儲(chǔ)持久層)基于通用服務(wù)器和介質(zhì)構(gòu)建統(tǒng)一的存儲(chǔ)持久層,負(fù)責(zé)數(shù)據(jù)布局、負(fù)載均衡、數(shù)據(jù)恢復(fù)能力,提供EC 數(shù)據(jù)冗余方式,可以靈活解決性能以及成本問(wèn)題。可以看出,Persistence Layer 是 FusionStorage 大數(shù)據(jù)存儲(chǔ)的基石,存儲(chǔ)系統(tǒng)的擴(kuò)展性、性能、可靠性均基于此。Index Layer(元數(shù)據(jù)服務(wù)層)負(fù)責(zé)具體的元數(shù)據(jù)分布、索引、故障切換等,采用全分布式部署,對(duì)上層的 Service Layer 提供高速的元數(shù)據(jù)存取和查詢等能力,從上圖中可以看到 Index Layer 的數(shù)據(jù)最終也是存儲(chǔ)在Persistence Layer,所

15、以這些元數(shù)據(jù)一樣共享底層Persistence Layer 的數(shù)據(jù)存儲(chǔ)能力,從而保證整個(gè)系統(tǒng)的所有數(shù)據(jù)都是高擴(kuò)展、高可靠的。Service Layer(語(yǔ)義服務(wù)層),提供 HDFS 原生協(xié)議的接口,負(fù)責(zé)業(yè)務(wù)的接入、全局統(tǒng)一命名空間等,同時(shí)具備完善的增值服務(wù),比如配額、QOS 等特性,業(yè)界通用的HDFS 協(xié)議在 FusionStorage 大數(shù)據(jù)存儲(chǔ)都可以提供,真正做到了按需分配,用戶不用再為存儲(chǔ)的選擇而犯難。FusionStorage 大數(shù)據(jù)存儲(chǔ)架構(gòu)上具有如下特點(diǎn):領(lǐng)先的分布式架構(gòu):FusionStorage 大數(shù)據(jù)存儲(chǔ)采用全分布式的架構(gòu):分布式管理集群、分布式哈希數(shù)據(jù)路由算法、分布式無(wú)狀態(tài)機(jī)

16、頭和分布式智能 Cache 等,這種架構(gòu)使得整個(gè)存儲(chǔ)系統(tǒng)沒(méi)有單點(diǎn)故障。高性能和高可靠性:FusionStorage 大數(shù)據(jù)存儲(chǔ)在所有磁盤(pán)中實(shí)現(xiàn)負(fù)載的均衡,數(shù)據(jù)打散存放,不會(huì)出現(xiàn)熱點(diǎn),高效的路由算法和分布式Cache 技術(shù)保證了高性能。并行快速故障重建:數(shù)據(jù)分片在資源池內(nèi)打散,硬盤(pán)故障后,可在全資源池范圍內(nèi)自動(dòng)并行重建,重建效率高。易擴(kuò)展和超大容量:FusionStorage 大數(shù)據(jù)存儲(chǔ)的分布式無(wú)狀態(tài)機(jī)頭可橫向擴(kuò)展, 存儲(chǔ)與計(jì)算分別按需平滑擴(kuò)容,支持非煙囪式超大容量擴(kuò)展。數(shù)據(jù)服務(wù)FusionStorage 大數(shù)據(jù)存儲(chǔ)對(duì)外提供標(biāo)準(zhǔn)的 HDFS 協(xié)議接口,完全兼容原生的 HDFS 語(yǔ)義,廣泛兼容華為

17、和第三方大數(shù)據(jù)平臺(tái)。FusionStorage 大數(shù)據(jù)存儲(chǔ)具備如下關(guān)鍵優(yōu)勢(shì):FusionStorage 大數(shù)據(jù)存儲(chǔ)采用業(yè)界先進(jìn)的Scale-out 分布式存儲(chǔ)架構(gòu)和DHT(Distributed Hash Table,分布式哈希表)算法,匹配海量數(shù)據(jù)存儲(chǔ);對(duì)外提供兼容原生 HDFS 協(xié)議的接口,支撐多業(yè)務(wù)承載;提供基于Erasure Code 的數(shù)據(jù)保護(hù)技術(shù),可靠性和空間占用達(dá)到了很好的平衡;支持多租戶模式,可以最大限制的滿足企業(yè)和私有云等場(chǎng)景的資源分配需求;大數(shù)據(jù)存儲(chǔ)服務(wù)具備海量擴(kuò)展能力、安全可靠和高效融合的特點(diǎn),適用于海量數(shù)據(jù)存儲(chǔ)和集中備份應(yīng)用場(chǎng)景,可以為客戶帶來(lái)大容量,高可靠,易維護(hù),易

18、擴(kuò)展的價(jià)值。統(tǒng)一資源池FusionStorage 大數(shù)據(jù)存儲(chǔ)支持作為統(tǒng)一資源池同時(shí)對(duì)接多套計(jì)算集群。作為統(tǒng)一資源池的根本,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)支持為多租戶分別創(chuàng)建單獨(dú)的 namespace,各個(gè)namespace 之間數(shù)據(jù)邏輯隔離,空間靈活動(dòng)態(tài)分配,能力共享,真正將存儲(chǔ)資源池能力發(fā)揮出來(lái)。從煙囪式向統(tǒng)一資源池轉(zhuǎn)變租戶在大數(shù)據(jù)存儲(chǔ)服務(wù)時(shí)需要?jiǎng)?chuàng)建自己的 NameSpace,并在NameSpace 中創(chuàng)建和管理自己的數(shù)據(jù)。針對(duì)每個(gè) NameSpace 可以設(shè)定配額和QOS,并且可以隨時(shí)靈活更改。各租戶的計(jì)算集群支持各自獨(dú)立的鑒權(quán)系統(tǒng),且計(jì)算集群和所分配的 NameSpace 統(tǒng)一鑒

19、權(quán)。多租戶的實(shí)現(xiàn)方式:每個(gè)NameSpace 實(shí)例替代原 HDFS 服務(wù)集群,提供與 HDFS 完全一致的能力。分布式 Hash 路由FusionStorage 大數(shù)據(jù)存儲(chǔ)采用DHT(Distribute Hash Table,分布式哈希表)路由數(shù)據(jù)算法。每個(gè)存儲(chǔ)節(jié)點(diǎn)負(fù)責(zé)存儲(chǔ)一小部分?jǐn)?shù)據(jù),基于DHT 實(shí)現(xiàn)整個(gè)系統(tǒng)數(shù)據(jù)的尋址和存儲(chǔ)。相比DHT 路由算法,傳統(tǒng) HDFS 存儲(chǔ)采用集中式元數(shù)據(jù)管理方式,每次 IO 操作都需要去查詢?cè)獢?shù)據(jù)服務(wù),隨著系統(tǒng)規(guī)模逐漸變大,元數(shù)據(jù)的容量也會(huì)越來(lái)越大,系統(tǒng)所能提供的并發(fā)操作能力將受限于元數(shù)據(jù)服務(wù)所在服務(wù)器的能力,元數(shù)據(jù)服務(wù)將會(huì)成為系統(tǒng)的性能瓶頸。不同與傳統(tǒng)的集中

20、式元數(shù)據(jù)管理,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)采用DHT(分布式一致性哈希)進(jìn)行數(shù)據(jù)尋址,具體的算法如下圖:圖3-2 DHT 數(shù)據(jù)尋址DHT 環(huán):Distributed Hash Table, 超大虛擬節(jié)點(diǎn)構(gòu)成的環(huán)形空間Partition:將 DHT 環(huán)空間劃分為 N 等份,每一等份是一個(gè)分區(qū)物理節(jié)點(diǎn):即一個(gè) DISK, 與 Partition 分區(qū)對(duì)應(yīng)FusionStorage 大數(shù)據(jù)存儲(chǔ)將哈??臻g設(shè)置為,并將該哈希空間劃分為N 等份,每1 等份是 1 個(gè)分區(qū)(Partition),這 N 等份按照硬盤(pán)數(shù)量進(jìn)行均分。例如:系統(tǒng)N 默認(rèn)為 3600,假設(shè)當(dāng)前系統(tǒng)有 36 塊硬盤(pán),則每塊硬

21、盤(pán)承載 100 個(gè)分區(qū)。上述“分區(qū)-硬盤(pán)”的映射關(guān)系在系統(tǒng)初始化時(shí)會(huì)分配好,后續(xù)會(huì)隨著系統(tǒng)中硬盤(pán)數(shù)量的變化會(huì)進(jìn)行調(diào)整。該映射表所需要的空間很小,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)系統(tǒng)中的節(jié)點(diǎn)會(huì)在內(nèi)存中保存該映射關(guān)系,用于進(jìn)行快速路由,可見(jiàn),F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)的路由機(jī)制不同于傳統(tǒng) HDFS 存儲(chǔ)系統(tǒng),并沒(méi)有集中的元數(shù)據(jù)管理,也就不存在元數(shù)據(jù)服務(wù)成為系統(tǒng)的性能瓶頸。FusionStorage 大數(shù)據(jù)存儲(chǔ)的這個(gè) DHT 環(huán)技術(shù)具備如下特點(diǎn)和價(jià)值:性能高:存儲(chǔ)數(shù)據(jù)通過(guò) DHT 環(huán),“均勻”分布在所有磁盤(pán)上,所有磁盤(pán)都參考數(shù)據(jù)讀寫(xiě),消除熱點(diǎn)磁盤(pán)帶來(lái)的讀寫(xiě)瓶頸問(wèn)題;數(shù)據(jù)可靠性高:可

22、靈活配置的分區(qū)分配算法,避免相同副本數(shù)據(jù)位于同一個(gè)Disk、同一塊板、同一個(gè)機(jī)柜;水平擴(kuò)展速度快: 新物理節(jié)點(diǎn)加入時(shí), 只需要搬移部分?jǐn)?shù)據(jù)(partition),并達(dá)到負(fù)載均衡。Cache 機(jī)制FusionStorage 大數(shù)據(jù)存儲(chǔ)采用多級(jí) cache 機(jī)制提升存儲(chǔ) IO 性能,讀、寫(xiě)cache 機(jī)制采用不同流程。Write cache 機(jī)制:Persistence Layer 在寫(xiě) IO 操作時(shí),會(huì)將寫(xiě) IO 緩存在 SSD cache 后完成本節(jié)點(diǎn)寫(xiě)操作。同時(shí),會(huì)周期將緩存在 SSD cache 中的寫(xiě) IO 數(shù)據(jù)批量寫(xiě)入到硬盤(pán)(HDD),寫(xiě) Cache 有一個(gè)水位值,未到刷盤(pán)周期超過(guò)設(shè)定

23、水位值也會(huì)將 Cache 中數(shù)據(jù)寫(xiě)入到硬盤(pán)中,如下圖所示:圖3-3 Write cache 機(jī)制FusionStorage 大數(shù)據(jù)存儲(chǔ)支持大 IO 直通,按缺省配置大于 256KB 的 IO 直接透寫(xiě) HDD 不寫(xiě)Cache,這個(gè)配置可以修改。Read cache 機(jī)制:FusionStorage 大數(shù)據(jù)存儲(chǔ)使用 SSD 作為讀Cache 介質(zhì)以加速存儲(chǔ)訪問(wèn)。FusionStorage 大數(shù)據(jù)存儲(chǔ)的讀緩存采用分層機(jī)制,第一層為內(nèi)存 cache,內(nèi)存cache 采用 LRU 機(jī)制緩存數(shù)據(jù),第二層為 SSD cache,SSD cache 采用熱點(diǎn)讀機(jī)制,系統(tǒng)會(huì)統(tǒng)計(jì)每個(gè)讀取的數(shù)據(jù),并統(tǒng)計(jì)熱點(diǎn)訪問(wèn)因

24、子,當(dāng)達(dá)到閾值時(shí),系統(tǒng)會(huì)自動(dòng)緩存數(shù)據(jù)到SSD 中,同時(shí)會(huì)將長(zhǎng)時(shí)間未被訪問(wèn)的數(shù)據(jù)移出 SSD。同時(shí)FusionStorage 大數(shù)據(jù)存儲(chǔ)支持預(yù)讀機(jī)制,統(tǒng)計(jì)讀數(shù)據(jù)的相關(guān)性,讀取某塊數(shù)據(jù)時(shí)自動(dòng)將相關(guān)性高的塊讀出并緩存到 SSD 中。如下圖所示,Persistence Layer 在收到上層發(fā)送的讀 IO 操作時(shí),會(huì)進(jìn)行如下步驟處理:從內(nèi)存“讀 cache”中查找是否存在所需 IO 數(shù)據(jù),如果存在,則直接返回, 同時(shí)調(diào)整該 IO 數(shù)據(jù)到“讀 cache”LRU 隊(duì)首,否則執(zhí)行 HYPERLINK l _bookmark8 2;從 SSD 的“讀 cache”中查找是否存在所需 IO 數(shù)據(jù),如果存在,則

25、直接返回,同時(shí)增加該 IO 數(shù)據(jù)的熱點(diǎn)訪問(wèn)因子,否則執(zhí)行; HYPERLINK l _bookmark9 3從 SSD 的“寫(xiě) cache”中查找是否存在所需 IO 數(shù)據(jù),如果存在,則直接返回,同時(shí)增加該 IO 數(shù)據(jù)的熱點(diǎn)訪問(wèn)因子;如果熱點(diǎn)訪問(wèn)因子達(dá)到閾值,則會(huì)被緩存在 SSD 的“讀 cache”中。如果不存在,執(zhí)行 HYPERLINK l _bookmark10 4;從硬盤(pán)中查找到所需 IO 數(shù)據(jù)并返回,同時(shí)增加該 IO 數(shù)據(jù)的熱點(diǎn)訪問(wèn)因子, 如果熱點(diǎn)訪問(wèn)因子達(dá)到閾值,則會(huì)被緩存在 SSD 的“讀 cache”中。圖3-4 Persistence Layer 讀 IO 操作步驟關(guān)鍵業(yè)務(wù)流程

26、數(shù)據(jù)的寫(xiě)入過(guò)程,可以分為如下步驟:圖3-5 數(shù)據(jù)寫(xiě)入過(guò)程請(qǐng)求接入:計(jì)算節(jié)點(diǎn)與存儲(chǔ)服務(wù)的節(jié)點(diǎn)建立連接,計(jì)算節(jié)點(diǎn)開(kāi)始向訪問(wèn)的節(jié)點(diǎn)發(fā)送數(shù)據(jù);存儲(chǔ)策略的選擇:存儲(chǔ)節(jié)點(diǎn)根據(jù)用戶配置,決定數(shù)據(jù)的存儲(chǔ)策略;數(shù)據(jù)分片:存儲(chǔ)節(jié)點(diǎn)按用戶配置的存儲(chǔ)策略計(jì)算出分片的大?。ǜ鶕?jù)系統(tǒng)設(shè)定的分條大小以及冗余配比計(jì)算),然后按這個(gè)大小把數(shù)據(jù)切分為相應(yīng)的數(shù)據(jù)分片;數(shù)據(jù)路由:存儲(chǔ)節(jié)點(diǎn)調(diào)用存儲(chǔ)接口,將數(shù)據(jù)片散列存放到不同的磁盤(pán)中。數(shù)據(jù)的讀取過(guò)程,與寫(xiě)入流程相反,可以分為如下步驟:圖3-6 數(shù)據(jù)讀取過(guò)程請(qǐng)求接入:計(jì)算節(jié)點(diǎn)與存儲(chǔ)服務(wù)的節(jié)點(diǎn)建立連接,計(jì)算節(jié)點(diǎn)向訪問(wèn)的節(jié)點(diǎn)請(qǐng)求數(shù)據(jù);數(shù)據(jù)路由:存儲(chǔ)節(jié)點(diǎn)根據(jù)散列規(guī)則尋址到數(shù)據(jù)分區(qū),讀取相應(yīng)的數(shù)

27、據(jù)片;數(shù)據(jù)修復(fù):如果某些數(shù)據(jù)片損壞,存儲(chǔ)節(jié)點(diǎn)將根據(jù)數(shù)據(jù)的存儲(chǔ)策略進(jìn)行相應(yīng)的修復(fù)操作;數(shù)據(jù)聚合:存儲(chǔ)節(jié)點(diǎn)將數(shù)據(jù)片聚合為完整的數(shù)據(jù),發(fā)送給計(jì)算節(jié)點(diǎn)。FusionStorage 大數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的內(nèi)存預(yù)留了部分緩沖區(qū),用于在數(shù)據(jù)讀取和寫(xiě)入時(shí)實(shí)現(xiàn)數(shù)據(jù)的分片和聚合。當(dāng)寫(xiě)入數(shù)據(jù)時(shí),對(duì)于切分完成的數(shù)據(jù)片,存儲(chǔ)節(jié)點(diǎn)會(huì)緩沖其中的一部分,與此同時(shí)再向多個(gè)存儲(chǔ)節(jié)點(diǎn)寫(xiě)入多個(gè)數(shù)據(jù)片,以獲得更高的寫(xiě)入效率。當(dāng)讀取數(shù)據(jù)時(shí),存儲(chǔ)節(jié)點(diǎn)會(huì)預(yù)判計(jì)算機(jī)點(diǎn)讀取數(shù)據(jù)的范圍,同時(shí)從多個(gè)存儲(chǔ)節(jié)點(diǎn)預(yù)先讀取連續(xù)的數(shù)據(jù)片,保留在緩沖區(qū)內(nèi),以獲得更高的讀取效率。FusionStorage 大數(shù)據(jù)存儲(chǔ)的接入節(jié)點(diǎn),會(huì)根據(jù)客戶端到接入節(jié)點(diǎn)的連接速度和數(shù)據(jù)的

28、大小,動(dòng)態(tài)調(diào)整緩沖區(qū)的大小和并發(fā)讀寫(xiě)存儲(chǔ)節(jié)點(diǎn)的數(shù)量,以最小的資源實(shí)現(xiàn)最優(yōu)的吞吐。特性介紹數(shù)據(jù)冗余策略FusionStorage 大數(shù)據(jù)存儲(chǔ)采用EC(Erasure Code)算法實(shí)現(xiàn)數(shù)據(jù)冗余存儲(chǔ),確保硬件失效時(shí)的數(shù)據(jù)可靠性和可用性。糾刪碼(EC)技術(shù)主要是對(duì)數(shù)據(jù)分片進(jìn)行分組,每個(gè)分組有數(shù)據(jù)塊和校驗(yàn)塊組成,其中校驗(yàn)塊即為產(chǎn)生的部分冗余數(shù)據(jù)。如果數(shù)據(jù)的一部分損壞或丟失,存儲(chǔ)服務(wù)能夠利用冗余的數(shù)據(jù)重建并修復(fù)損壞數(shù)據(jù)。該策略數(shù)據(jù)不僅具有較高的可靠性,而且存儲(chǔ)空間利用率非常高(相比多副本模式),是可靠性和經(jīng)濟(jì)性平衡的最佳選擇。對(duì)于用戶上傳的數(shù)據(jù),F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)的接入集群在將數(shù)據(jù)切

29、分為數(shù)據(jù)片的過(guò)程中,會(huì)將連續(xù)的 N 個(gè)數(shù)據(jù)片劃分為一個(gè)EC 組,并利用糾刪碼技術(shù)對(duì) EC 組進(jìn)行計(jì)算,生成 M 個(gè)校驗(yàn)數(shù)據(jù)片。每個(gè) EC 組的數(shù)據(jù)片和校驗(yàn)數(shù)據(jù)片,將存儲(chǔ)在存儲(chǔ)集群上一組連續(xù)的數(shù)據(jù)分區(qū)中,以保證每個(gè)數(shù)據(jù)片存儲(chǔ)在不同的物理節(jié)點(diǎn)上,確保其可靠性。只要每個(gè)EC 組損壞的數(shù)據(jù)片數(shù)量不超過(guò) M,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)的接入集群都能利用 EC 組的其它數(shù)據(jù)片將損壞數(shù)據(jù)片修復(fù)。小文件在線聚合傳統(tǒng)HDFS 存儲(chǔ)系統(tǒng)中小文件的挑戰(zhàn):小文件按三副本存儲(chǔ),空間利用率低,只有33%,即使 EC 機(jī)制下,因?yàn)槲募](méi)法寫(xiě)滿 Strip, 利用率也只有 33%。FusionStorage

30、大數(shù)據(jù)存儲(chǔ)提供了小文件在線聚合能力,有效的將空間利用率提升至80%+,具體原理如下圖:圖3-7 小文件匯聚如上圖所示,客戶端上傳的小文件 File1、File2、File3、File4、File5、File6 和 File7 優(yōu)先寫(xiě)入 SSD cache 進(jìn)行匯聚成一個(gè)EC 分條大小,然后進(jìn)行EC 計(jì)算,并自動(dòng)將數(shù)據(jù)分片(Strip)和 EC 計(jì)算出的校驗(yàn)片(Parity)存儲(chǔ)到HDD,這樣以來(lái)小文件也是按EC 存儲(chǔ)的,也就是 EC 的利用率,例如 EC 為 12+3,那么利用率就是 80%,是傳統(tǒng)的三副本的 33%利用率的 2.4 倍。配額和資源統(tǒng)計(jì)FusionStorage 大數(shù)據(jù)存儲(chǔ)支持

31、資源的統(tǒng)計(jì)和namespace 級(jí)、租戶級(jí)的容量配額。如下圖所示,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)的使用者,可將企業(yè)內(nèi)部的部門(mén)、員工等組織關(guān)系,和租戶、namespace 建立對(duì)應(yīng)關(guān)系,比如財(cái)務(wù)部租戶 2,限制其容量配額為40TB;財(cái)務(wù)部下面的員工bnamespace2,限制其容量配額為 10TB,且隨時(shí)可以更改。圖3-8 配額QoSFusionStorage 大數(shù)據(jù)存儲(chǔ)配額的主要功能點(diǎn):namespace 級(jí)配額:namespace 的容量大小上限。當(dāng)namespace 容量達(dá)到所配置的namespace 配額后,無(wú)法再對(duì)該 namespace 進(jìn)行寫(xiě)入操作。租戶級(jí)配額:租戶的容量大小

32、上限。當(dāng)租戶的 namespace 容量總數(shù)達(dá)到所配置的帳戶配額后,該租戶及其所有用戶無(wú)法再進(jìn)行寫(xiě)入操作。FusionStorage 大數(shù)據(jù)存儲(chǔ)支持使用REST 接口獲取租戶、namespace 的資源統(tǒng)計(jì)情況,比如統(tǒng)計(jì)文件數(shù)量,容量等:namespace 資源統(tǒng)計(jì):namespace 資源包括 namespace 的空間大小及namespace 中的文件數(shù)量。用戶可對(duì)自己的 namespace 資源進(jìn)行查詢。租戶資源統(tǒng)計(jì):租戶資源包括帳戶配額、擁有的文件數(shù)量及容量總大小。FusionStorage 大數(shù)據(jù)存儲(chǔ)提供服務(wù)質(zhì)量的控制能力-QoS,該特性可以合理分配系統(tǒng)資源,幫助客戶提供更好的服務(wù)能

33、力。圖3-9 基于賬戶和 namespace 的智能流控對(duì)于私有云等多租戶場(chǎng)景,用戶希望存儲(chǔ)池的 TPS 和帶寬資源能夠合理分配給不同優(yōu)先級(jí)的租戶或 namespace,同時(shí)希望保障核心業(yè)務(wù)TPS 與帶寬的供給。相比傳統(tǒng)的HDFS 存儲(chǔ)系統(tǒng),F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)提供了精細(xì)控制的 QoS 能力,很好了解決了以上 2 個(gè)訴求:提供精細(xì)化控制 IO 的能力:系統(tǒng)能對(duì)不同優(yōu)先級(jí)的租戶、namesapce 提供差異化的服務(wù)。提供租戶、namespace 級(jí)別的 TPS 和帶寬粒度的服務(wù)質(zhì)量控制?;?FusionStorage 大數(shù)據(jù)存儲(chǔ)的 QoS 特性,對(duì)于不同優(yōu)先級(jí)的應(yīng)用,可以配置

34、不同的namespace,通過(guò)QoS 控制 namespace 的 TPS 以及帶寬資源的分配,以達(dá)到存儲(chǔ)池資源利用率最大化,并且避免核心業(yè)務(wù)受到其它業(yè)務(wù)的影響(應(yīng)用分級(jí)應(yīng)用場(chǎng)景);針對(duì)同一系統(tǒng)中的 VIP 租戶和普通租戶,可以配置不同QoS 策略,以保證高優(yōu)先級(jí)租戶的服務(wù)質(zhì)量(租戶分級(jí)應(yīng)用場(chǎng)景)。訪問(wèn)權(quán)限控制FusionStorage 大數(shù)據(jù)存儲(chǔ)提供了跟原生 HDFS 完全一致的訪問(wèn)權(quán)限控制,請(qǐng)求用戶只能訪問(wèn)自己被授權(quán)的資源,如果訪問(wèn)未被授權(quán)的資源,則請(qǐng)求失敗,支持跟計(jì)算集群統(tǒng)一鑒權(quán)服務(wù)器,實(shí)現(xiàn)鑒權(quán)拉通。存儲(chǔ)管理存儲(chǔ)服務(wù)化FusionStorage 大數(shù)據(jù)存儲(chǔ)提供存儲(chǔ)資源池管理和存儲(chǔ)業(yè)務(wù)配置

35、功能,通過(guò)FusionStorage 大數(shù)據(jù)存儲(chǔ)的管理平臺(tái)可以完成業(yè)務(wù)開(kāi)通。資源池管理資源池管理可查看選定資源池的統(tǒng)計(jì)信息,查看選定資源池的硬盤(pán)拓?fù)洌瑸檫x定資源池?cái)U(kuò)容、減容,以及刪除資源池。還提供創(chuàng)建新資源池功能。存儲(chǔ)業(yè)務(wù)配置可管理存儲(chǔ)服務(wù),包括如下功能:鑒權(quán)配置支持選擇POE、IAM 三種模式,并完成對(duì)接配置。當(dāng)選擇POE 本地鑒權(quán)時(shí),可支持業(yè)務(wù)賬戶的管理。Namespace 管理支持針對(duì)租戶創(chuàng)建namespace, 設(shè)置配額和 QOS, 支持查看 namespace 列表和配額使用情況。存儲(chǔ)集群管理FusionStorage 大數(shù)據(jù)存儲(chǔ)通過(guò)集群管理軟件完成集群的管理工作,功能包括集群基本信

36、息監(jiān)控、性能監(jiān)控、賬戶管理、告警管理、用戶管理、License 管理、集群管理、節(jié)點(diǎn)管理、交換機(jī)管理。集群基本信息監(jiān)控:查看集群的基本信息,包括集群名稱、健康狀態(tài)、運(yùn)行狀態(tài)、版本號(hào)、集群容量、節(jié)點(diǎn)數(shù)信息。性能監(jiān)控:查看相關(guān)訪問(wèn)的帶寬和 IOPS 信息。賬戶管理:使用POE 方式鑒權(quán)時(shí),可以通過(guò)賬戶管理功能完成存儲(chǔ)服務(wù)賬戶的創(chuàng)建、刪除及屬性修改。告警管理:提供查看告警信息、處理告警、告警屏蔽、告警通知、轉(zhuǎn)儲(chǔ)告警的功能。用戶管理:提供用戶基本管理、安全策略配置功能。License 管理:提供查看已激活的 License 和導(dǎo)入新 License 功能。集群管理:提供啟停系統(tǒng)、啟停 Toolkit

37、服務(wù)、配置系統(tǒng)時(shí)間、配置外部 DNS 和導(dǎo)入導(dǎo)出配置文件功能。節(jié)點(diǎn)管理:提供停止節(jié)點(diǎn)、凍結(jié)節(jié)點(diǎn)功能。集群擴(kuò)容FusionStorage 大數(shù)據(jù)存儲(chǔ)的分布式架構(gòu)具有良好的可擴(kuò)展性,支持超大容量存儲(chǔ),節(jié)點(diǎn)規(guī)模支持 34096。隨著節(jié)點(diǎn)數(shù)的增加,存儲(chǔ)容量和計(jì)算能力線性增加,最終給用戶提供呈線性遞增的帶寬、并發(fā)數(shù)。FusionStorage 大數(shù)據(jù)存儲(chǔ)集群擴(kuò)容具有如下優(yōu)勢(shì):支持在線擴(kuò)容,擴(kuò)容過(guò)程業(yè)務(wù)不受影響。支持靈活的擴(kuò)容方式,新擴(kuò)容節(jié)點(diǎn)可加入已有存儲(chǔ)池或創(chuàng)建新存儲(chǔ)池使用。擴(kuò)容存儲(chǔ)節(jié)點(diǎn)到已有存儲(chǔ)池時(shí)不需要做大量的數(shù)據(jù)搬遷,系統(tǒng)可以快速達(dá)到負(fù)載均衡狀態(tài)。推薦硬件FusionStorage 大數(shù)據(jù)存儲(chǔ)基于

38、通用硬件設(shè)計(jì),為保證系統(tǒng)可靠性以及最佳性能,推薦客戶采用基于如下硬件平臺(tái)的典型配置(詳細(xì)配置請(qǐng)咨詢您所在區(qū)域華為銷(xiāo)售代表),包括存儲(chǔ)節(jié)點(diǎn)、網(wǎng)絡(luò)設(shè)備、KVM 和調(diào)制解調(diào)器。硬件類(lèi)型推薦選型說(shuō)明機(jī)柜標(biāo)準(zhǔn) IT 機(jī)柜提供 42U 內(nèi)部安裝空間Huawei TaiShan 5280 典36 盤(pán)位存儲(chǔ)節(jié)點(diǎn)型配置256G 內(nèi)存,華為自研 Hi1616CPU,緩存為 800G/1.6TB/3.2TB NVME SSDHuawei TaiShan 2280 典12 盤(pán)位存儲(chǔ)節(jié)點(diǎn)型配置256G 內(nèi)存,華為自研 Hi1616CPU,緩存為 800G/1.6TB/3.2TB NVME SSD網(wǎng)絡(luò)設(shè)備Huawei C

39、E6855-48S6Q-HI10GE 以太網(wǎng)交換機(jī)Huawei CE6865-48S8CQ- EI10GE/25GE 交換機(jī)Huawei CE5855-48T4S2Q- EIGE 以太網(wǎng)交換機(jī)8 口 KVM(Keyboard,Video,and Mouse) 控制器提供 8 路鍵盤(pán)、鼠標(biāo)和視頻端口系統(tǒng)組網(wǎng)FusionStorage 大數(shù)據(jù)存儲(chǔ)的邏輯組網(wǎng)平面分為:業(yè)務(wù)平面:FusionStorage 大數(shù)據(jù)存儲(chǔ)與用戶業(yè)務(wù)網(wǎng)絡(luò)對(duì)接的組網(wǎng),用于計(jì)算節(jié)點(diǎn)接入業(yè)務(wù),簡(jiǎn)稱為業(yè)務(wù)平面,支持多子網(wǎng)。存儲(chǔ)平面:FusionStorage 大數(shù)據(jù)存儲(chǔ)內(nèi)部節(jié)點(diǎn)間的組網(wǎng),用于集群內(nèi)部數(shù)據(jù)通信,簡(jiǎn)稱為存儲(chǔ)平面,支持多子

40、網(wǎng),但僅支持部署為 IPv4 協(xié)議組網(wǎng)。管理平面:FusionStorage 大數(shù)據(jù)存儲(chǔ)與用戶管理網(wǎng)絡(luò)對(duì)接的平面,簡(jiǎn)稱管理平面,用于客戶維護(hù)終端接入 FusionStorage 大數(shù)據(jù)存儲(chǔ)。BMC 平面:用于接入 FusionStorage 大數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn) Mgmt 接口,簡(jiǎn)稱BMC 平面,提供遠(yuǎn)程硬件設(shè)備管理功能。FusionStorage 大數(shù)據(jù)存儲(chǔ)組網(wǎng)示意如下圖所示。圖3-10 組網(wǎng)示意圖FusionStorage 大數(shù)據(jù)存儲(chǔ)支持GE、10GE 和 25GE,如下表所示。表3-1 組網(wǎng)方案匯總表方案業(yè)務(wù)網(wǎng)絡(luò)接入方式存儲(chǔ)網(wǎng)絡(luò)接入方式10GE 組網(wǎng)方案10GE10GE25GE 組網(wǎng)方案25G

41、E25GEGE 組網(wǎng)方案GE10GE同時(shí),F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)支持華為 FusionCloud 私有云整體解決方案場(chǎng)景,此時(shí)遵循 FusionCloud 解決方案組網(wǎng)原則。組網(wǎng)方案組網(wǎng)設(shè)計(jì)原則FusionStorage 大數(shù)據(jù)存儲(chǔ)的組網(wǎng)包括業(yè)務(wù)平面和存儲(chǔ)平面均采用 10GE 組網(wǎng)、業(yè)務(wù)平面采用 GE 組網(wǎng)同時(shí)存儲(chǔ)平面采用 10GE 組網(wǎng)以及業(yè)務(wù)和存儲(chǔ)平面均采用 25GE 組網(wǎng)三種方式。集群內(nèi)組網(wǎng)方案集群內(nèi)典型組網(wǎng)方案根據(jù)業(yè)務(wù)和存儲(chǔ)平面是否共用交換機(jī)有如下兩種:圖3-11 業(yè)務(wù)和存儲(chǔ)平面獨(dú)立交換機(jī)組網(wǎng)圖3-12 業(yè)務(wù)和存儲(chǔ)平面共用交換機(jī)組網(wǎng)上述兩個(gè)圖示均為單個(gè)子網(wǎng)內(nèi)的節(jié)點(diǎn)和交換

42、機(jī)連線示意圖,單個(gè)集群由若干個(gè)這樣的子網(wǎng)組成。子網(wǎng)之間通過(guò)匯聚交換機(jī)互聯(lián)。軟件部署局域網(wǎng)部署方案局域網(wǎng)部署方案簡(jiǎn)單便捷,以 5 個(gè)節(jié)點(diǎn)的集群為例,如下圖所示,node4 和node5 上面的 DNS 業(yè)務(wù)以雙活的方式運(yùn)行。為清晰起見(jiàn),圖中沒(méi)有顯式地畫(huà)出存儲(chǔ)平面網(wǎng)絡(luò)交換機(jī),對(duì)外 IP 地址用 1.11.5 表示。在計(jì)算節(jié)點(diǎn)(個(gè)人電腦或服務(wù)器)上添加 DNS 服務(wù)器地址項(xiàng),指定為FusionStorage 大數(shù)據(jù)存儲(chǔ)的 DNS IP 地址(圖中為 1.4 和 1.5)。用戶訪問(wèn)過(guò)程:客戶請(qǐng)求訪問(wèn)域名 ,計(jì)算節(jié)點(diǎn)從 2 個(gè) DNS 服務(wù)器地址 1.4 和 1.5 中選取 1.5(也可以選擇 1.4)

43、,并請(qǐng)求解析 ;節(jié)點(diǎn) node5 上的 DNS 服務(wù)域名 解析為 1.1,并返回給客戶端。計(jì)算節(jié)點(diǎn)將得到的 IP 地址緩存,然后訪問(wèn) IP 地址 1.1 對(duì)應(yīng)的 node1;在緩存期內(nèi),下次訪問(wèn)就不再請(qǐng)求域名解析,直接訪問(wèn)緩存中的 IP 地址。該方案的優(yōu)點(diǎn)是部署簡(jiǎn)單;劣勢(shì)是無(wú)法跨網(wǎng)段訪問(wèn),緩存中的 IP 地址對(duì)應(yīng)的節(jié)點(diǎn)恰好故障時(shí),需要等待緩存自動(dòng)刷新后才能再次正常訪問(wèn)。圖3-13 局域網(wǎng)用戶訪問(wèn)流程廣域網(wǎng)部署 DNS 方案與局域網(wǎng)方案相比,本方案增設(shè)了DNS 服務(wù)器,如下圖,DNS 服務(wù)器中配置 的下級(jí) DNS 地址為 1.4 和 1.5。用戶訪問(wèn)過(guò)程:客戶請(qǐng)求訪問(wèn)域名,計(jì)算節(jié)點(diǎn)通過(guò)廣域網(wǎng)向

44、DNS 服務(wù)器請(qǐng)求解析域名 ;DNS 服務(wù)器從 2 個(gè) DNS 中選取 1 個(gè)(1.5),并將解析請(qǐng)求轉(zhuǎn)交給它(node5); node5 根據(jù)所有節(jié)點(diǎn)的狀態(tài),根據(jù)一定的策略來(lái)解析,圖 23 中將 解析為 1.1(對(duì)應(yīng) node1)并返回給DNS;DNS 接收到 DNS 的解析結(jié)果之后,并結(jié)果轉(zhuǎn)交給計(jì)算節(jié)點(diǎn)并在本地緩存;計(jì)算節(jié)點(diǎn)在本地緩存解析結(jié)果,在緩存有效期內(nèi),直接使用本緩存中的 IP 址。本方案的優(yōu)勢(shì)是計(jì)算節(jié)點(diǎn)不用做任何設(shè)置,直接使用。圖3-14 廣域網(wǎng)用戶訪問(wèn)流程 4高性能和彈性擴(kuò)展 HYPERLINK l _bookmark31 單 namespace 高性能 HYPERLINK l

45、_bookmark32 元數(shù)據(jù)多級(jí)緩存 HYPERLINK l _bookmark33 全局負(fù)載均衡 HYPERLINK l _bookmark34 數(shù)據(jù)在線聚合 HYPERLINK l _bookmark35 無(wú)狀態(tài)集群 HYPERLINK l _bookmark36 彈性擴(kuò)展單 namespace 高性能原生HDFS 存儲(chǔ)系統(tǒng)在單namespace 文件數(shù)量和性能面臨的兩大挑戰(zhàn):系統(tǒng)擴(kuò)展性支持的節(jié)點(diǎn)規(guī)模有限,難以滿足 100PB 級(jí)的擴(kuò)展性要求;namespace 和文件的元數(shù)據(jù)管理存在瓶頸,單 namespace 文件數(shù)量有限(一億左右)。這兩大挑戰(zhàn)導(dǎo)致單 namespace 容量和性能

46、受限,不能發(fā)揮整系統(tǒng)的能力,而需要用戶系統(tǒng)去做多 namespace 的管理,增加了適配和管理存儲(chǔ)的復(fù)雜性。針對(duì)這兩大挑戰(zhàn)和用戶訴求,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)通過(guò)一些關(guān)鍵技術(shù)解決了單 namespace 的性能問(wèn)題:FusionStorage 大數(shù)據(jù)存儲(chǔ)架構(gòu)的三層(Service Layer,Index Layer,Persistence Layer)都是互相解耦,可以各自橫向擴(kuò)展的。單集群最大支持 4096 個(gè)節(jié)點(diǎn),支持 EB 級(jí)擴(kuò)展,充分滿足客戶海量數(shù)據(jù)單一資源池存儲(chǔ)、使用管理簡(jiǎn)便的述求(解決單 namespace 的擴(kuò)展性瓶頸)。Range 動(dòng)態(tài)分區(qū)技術(shù)將元數(shù)據(jù)管理打散,每

47、個(gè)服務(wù)器管理一組分段的元數(shù)據(jù),支持故障切換及動(dòng)態(tài)均衡:圖4-1 動(dòng)態(tài)分區(qū)如上圖所示,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)將“namespace+文件名”進(jìn)行字典序排序,組成統(tǒng)一的元數(shù)據(jù)空間,然后根據(jù)元數(shù)據(jù)的大小和熱度進(jìn)行動(dòng)態(tài)分區(qū),分成多個(gè)Partition,若干個(gè)Partition 由一個(gè)元數(shù)據(jù)服務(wù)器管理,最終實(shí)現(xiàn)元數(shù)據(jù)在所有節(jié)點(diǎn)(Node)打散(解決單namespace 的元數(shù)據(jù)管理瓶頸)。Persistence Layer(數(shù)據(jù)持久層)基于 DHT 免布局元數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)路由,保證數(shù)據(jù)可均勻分布到系統(tǒng)的所有節(jié)點(diǎn)和磁盤(pán)(解決單namespace 的數(shù)據(jù)分布瓶頸)。FusionStorag

48、e 大數(shù)據(jù)存儲(chǔ)的單 namespace 支持 100 億文件,充分滿足客戶業(yè)務(wù)應(yīng)用單namespace 讀寫(xiě)業(yè)務(wù)的述求,免除了分 namespace 改造的麻煩。元數(shù)據(jù)多級(jí)緩存FusionStorage 大數(shù)據(jù)存儲(chǔ)支持元數(shù)據(jù)的多級(jí)緩存,以提升讀性能,加速熱點(diǎn)數(shù)據(jù)的快速訪問(wèn)。圖4-2 多級(jí)緩存機(jī)制如上圖所示,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)的元數(shù)據(jù)首先在系統(tǒng)中進(jìn)行壓縮存儲(chǔ),可大幅減少元數(shù)據(jù)量:元數(shù)據(jù)以字符串為主,壓縮率比較高;選快速壓縮算法,能夠取得比較好的壓縮效果,并且 CPU 占用不高。元數(shù)據(jù)壓縮后,首先在DRAM 中做一級(jí)緩存,提供微秒級(jí)元數(shù)據(jù)讀性能,然后利用SSD 做二級(jí)緩存,提供

49、毫秒級(jí)元數(shù)據(jù)讀性能。全局負(fù)載均衡FusionStorage 大數(shù)據(jù)存儲(chǔ)的 DHT(Distributed Hash Table)機(jī)制以保證上層應(yīng)用對(duì)數(shù)據(jù)的 IO 操作會(huì)均勻分布在不同服務(wù)器的不同硬盤(pán)上,不會(huì)出現(xiàn)局部的熱點(diǎn),實(shí)現(xiàn)全局負(fù)載均衡:系統(tǒng)自動(dòng)將每個(gè)文件的數(shù)據(jù)打散存儲(chǔ)在不同服務(wù)器的不同硬盤(pán)上,冷熱不均的數(shù)據(jù)會(huì)均勻分布在不同的服務(wù)器上,不會(huì)出現(xiàn)集中的熱點(diǎn)。擴(kuò)容節(jié)點(diǎn)或者故障減容節(jié)點(diǎn)時(shí),數(shù)據(jù)恢復(fù)重建算法保證了重建后系統(tǒng)中各節(jié)點(diǎn)負(fù)載的均衡性。元數(shù)據(jù)按照全局排序后,分段分區(qū)的存儲(chǔ)在每個(gè)節(jié)點(diǎn)上,根據(jù)請(qǐng)求量和數(shù)據(jù)總量動(dòng)態(tài)調(diào)整分區(qū)大小。數(shù)據(jù)在線聚合FusionStorage 大數(shù)據(jù)存儲(chǔ)支持將各種不同大小的

50、文件,在線聚合為一個(gè) EC 滿分條, 然后按每個(gè)條帶(Strip)512K 的大顆粒 IO 寫(xiě)入 HDD,從而最大程度發(fā)揮 HDD 的大IO 優(yōu)勢(shì),規(guī)避 HDD 的低 IOPS 短板。圖4-3 數(shù)據(jù)在線聚合如上圖所示,不同Client 上傳的文件在同一個(gè) Server 上會(huì)匯聚成一個(gè)個(gè) 512KB 的 IO, 然后每N 個(gè) 512K 的 IO 并發(fā)寫(xiě)入N 個(gè) HDD 上(假設(shè) EC 的比例為N+M)。一般單個(gè) HDD 的能力在 200 IOPS 或 100MB/s 左右,以Client 寫(xiě)入 200 個(gè) 100KB 大小的 IO 為例,如果不做聚合,這 200 個(gè) IO 已經(jīng)達(dá)到了 HDD 的

51、 IOPS 瓶頸,但實(shí)際提供的帶寬 只有 200 * 100KB=20MB/s 左右;如果 Server 能做聚合,將這 200 個(gè) IO 聚合為 40 個(gè)512K 的 IO,那么單個(gè) HDD 的只有 40 IOPS 和 20MB/s 的壓力,兩項(xiàng)指標(biāo)都未達(dá)到瓶頸,這個(gè) HDD 仍然可以接入更多的 IO,可以最大程度發(fā)揮 HDD 的高帶寬優(yōu)勢(shì)。無(wú)狀態(tài)集群FusionStorage 大數(shù)據(jù)存儲(chǔ)接入節(jié)點(diǎn)以集群方式組網(wǎng),基于一次簡(jiǎn)單尋址的分布式哈希算法,接入節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)之間的松耦合關(guān)系使得接入節(jié)點(diǎn)成為無(wú)狀態(tài)服務(wù)節(jié)點(diǎn),任何服務(wù)請(qǐng)求都可以通過(guò)負(fù)荷分擔(dān)機(jī)制由任一接入節(jié)點(diǎn)提供服務(wù),不存在傳統(tǒng)存儲(chǔ)由于狀態(tài)同

52、步、鎖定機(jī)制導(dǎo)致的接入節(jié)點(diǎn)數(shù)目擴(kuò)展瓶頸,因此接入節(jié)點(diǎn)集群內(nèi)的節(jié)點(diǎn)數(shù)目理論上可以無(wú)限擴(kuò)展,支撐容量線性擴(kuò)展不存在架構(gòu)上的瓶頸。彈性擴(kuò)展FusionStorage 大數(shù)據(jù)存儲(chǔ)的分布式擴(kuò)展性具備如下特點(diǎn):快速負(fù)載均衡:擴(kuò)容存儲(chǔ)節(jié)點(diǎn)后不需要做大量的數(shù)據(jù)搬遷,系統(tǒng)可以快速達(dá)到負(fù)載均衡狀態(tài)。靈活的擴(kuò)容方式:可以獨(dú)立擴(kuò)容計(jì)算節(jié)點(diǎn)、硬盤(pán)、存儲(chǔ)節(jié)點(diǎn),或者同時(shí)進(jìn)行擴(kuò)容。性能線性增長(zhǎng):機(jī)頭、存儲(chǔ)帶寬和Cache 都均勻分布到各個(gè)節(jié)點(diǎn)上,系統(tǒng)TPS、吞吐量和Cache 隨著節(jié)點(diǎn)的擴(kuò)容而線性增加。圖4-4 FusionStorage 大數(shù)據(jù)存儲(chǔ)擴(kuò)容FusionStorage 大數(shù)據(jù)存儲(chǔ)支持節(jié)點(diǎn)動(dòng)態(tài)擴(kuò)展,推薦節(jié)點(diǎn)為 34

53、096 節(jié)點(diǎn)。隨著節(jié)點(diǎn)數(shù)的增加,存儲(chǔ)容量和計(jì)算能力線性增加,最終給用戶提供呈線性遞增的帶寬、并發(fā) 數(shù)。FusionStorage 大數(shù)據(jù)存儲(chǔ)提供了全局一致的緩存,緩存容量隨著節(jié)點(diǎn)增加而線性增長(zhǎng),隨著節(jié)點(diǎn)數(shù)目的增加,越來(lái)越多的熱點(diǎn)數(shù)據(jù)可以被緩存命中,大大減少硬盤(pán)隨機(jī) I/O,提高整系統(tǒng)性能。傳統(tǒng)的存儲(chǔ)系統(tǒng)需要耗時(shí)的規(guī)劃、升級(jí)和維護(hù)活動(dòng),增加容量或者性能往往需要橫向擴(kuò)展和重新配置應(yīng)用程序,從而導(dǎo)致中斷用戶活動(dòng),并最終損失工作效率和收入;FusionStorage 大數(shù)據(jù)存儲(chǔ)在擴(kuò)容時(shí)也保持這個(gè)特征,分鐘級(jí)的擴(kuò)容能力,自動(dòng)負(fù)載均衡,不需要更改配置,不更改服務(wù)器或者客戶端的設(shè)置,不需要更改應(yīng)用程序,客戶

54、業(yè)務(wù)無(wú)中斷。 5高可靠FusionStorage 大數(shù)據(jù)存儲(chǔ)提供了數(shù)據(jù)跨節(jié)點(diǎn)的保護(hù)能力,在多個(gè)硬盤(pán)或者節(jié)點(diǎn)故障時(shí)也能夠繼續(xù)提供服務(wù),將數(shù)據(jù)放置到同一個(gè)節(jié)點(diǎn)池內(nèi)不同節(jié)點(diǎn)的不同硬盤(pán)上,數(shù)據(jù)獲得了跨節(jié)點(diǎn)的可靠性和故障快速恢復(fù)的能力。 HYPERLINK l _bookmark38 數(shù)據(jù)冗余保護(hù)機(jī)制 HYPERLINK l _bookmark42 數(shù)據(jù)一致性 HYPERLINK l _bookmark42 快速數(shù)據(jù)重建 HYPERLINK l _bookmark43 集群可靠性 HYPERLINK l _bookmark44 硬件可靠性 HYPERLINK l _bookmark45 鏈路可靠性數(shù)據(jù)冗

55、余保護(hù)機(jī)制FusionStorage 大數(shù)據(jù)存儲(chǔ)采用Erasure Code(糾刪碼,以下簡(jiǎn)稱 EC)模式實(shí)現(xiàn)數(shù)據(jù)冗余保護(hù)。數(shù)據(jù)條帶化為實(shí)現(xiàn)數(shù)據(jù)保護(hù)和高性能讀寫(xiě),系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行按節(jié)點(diǎn)條帶(Strip)化處理。首先, 創(chuàng)建新文件時(shí),系統(tǒng)會(huì)按照默認(rèn)保護(hù)級(jí)別挑選符合要求的節(jié)點(diǎn),然后寫(xiě)數(shù)據(jù)時(shí)系統(tǒng)將用戶的數(shù)據(jù)平均分布在各節(jié)點(diǎn)上,讀數(shù)據(jù)時(shí)系統(tǒng)從所有節(jié)點(diǎn)并行讀取。FusionStorage 大數(shù)據(jù)存儲(chǔ)使用Erasure Code 方式存儲(chǔ)數(shù)據(jù),可以針對(duì)“租戶”配置不同的數(shù)據(jù)保護(hù)方式(+2/+3/+4 等)。不同的數(shù)據(jù)保護(hù)方式,是通過(guò)不同的數(shù)據(jù)條帶化方式實(shí)現(xiàn)的。寫(xiě)入 FusionStorage 大數(shù)據(jù)存儲(chǔ)系統(tǒng)

56、的數(shù)據(jù),會(huì)按照固定大?。ū热?12KB)劃分為一個(gè)條帶,將文件的數(shù)據(jù)切分為多個(gè)原數(shù)據(jù)條帶,然后對(duì)每N 個(gè)原數(shù)據(jù)條帶,計(jì)算得到 M 個(gè)冗余數(shù)據(jù)條帶,最終這 N+M 個(gè)條帶組成一個(gè)分條(Stripe),寫(xiě)入到系統(tǒng)中。當(dāng)系統(tǒng)出現(xiàn)故障,丟失了其中的某些條帶時(shí),只要一個(gè)分條中丟失的條帶數(shù)目不超過(guò) M,就可進(jìn)行正常的數(shù)據(jù)讀寫(xiě)。通過(guò)數(shù)據(jù)恢復(fù)算法,丟失的條帶可從剩余條帶中計(jì)算得到。在這種方式下,空間的利用率約為 N/(N+M),數(shù)據(jù)的可靠性由M 值的大小決定,M 越大可靠性越高。N+M 數(shù)據(jù)保護(hù)相比于傳統(tǒng)的RAID 方式,F(xiàn)usionStorage 大數(shù)據(jù)存儲(chǔ)在提供高可靠性的同時(shí)也能夠提供更高的磁盤(pán)利用率。傳

57、統(tǒng)RAID 把數(shù)據(jù)存放在一個(gè)RAID 組內(nèi)的不同硬盤(pán)上,當(dāng)其中有硬盤(pán)損壞時(shí),通過(guò)RAID 重構(gòu),恢復(fù)壞盤(pán)上的數(shù)據(jù)。這類(lèi)存儲(chǔ)系統(tǒng)常用的 RAID 方式有RAID-0/1/5/6 等, 其中可靠性最高的RAID-6 最多只能支持 2 塊硬盤(pán)同時(shí)發(fā)生故障。另外一方面,這類(lèi)存儲(chǔ)系統(tǒng)使用控制器執(zhí)行RAID 數(shù)據(jù)存儲(chǔ),為了預(yù)防控制器故障,它們通常使用雙控制器的方式來(lái)保證服務(wù)的可用性,但當(dāng) 2 個(gè)控制器同時(shí)發(fā)生故障時(shí),還是會(huì)導(dǎo)致服務(wù)中斷。雖然這類(lèi)系統(tǒng)還可以通過(guò)在多個(gè)節(jié)點(diǎn)間進(jìn)行同步/異步的數(shù)據(jù)復(fù)制,進(jìn)一步提高系統(tǒng)可靠性,但這會(huì)導(dǎo)致硬盤(pán)利用率很低,讓用戶承擔(dān)較高的TCO(總體擁有成本)。如下圖。圖5-1 傳統(tǒng)

58、RAID 數(shù)據(jù)保護(hù)FusionStorage 大數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)保護(hù)技術(shù),是建立在分布式、節(jié)點(diǎn)間冗余的基礎(chǔ)上的。數(shù)據(jù)進(jìn)入系統(tǒng)之后,首先被切分為N 個(gè)數(shù)據(jù)條帶,然后計(jì)算出 M 個(gè)冗余條帶,并最終保存在 N+M 個(gè)不同的節(jié)點(diǎn)中。如下圖。圖5-2 N+M 數(shù)據(jù)保護(hù)由于同一條帶的數(shù)據(jù)保存在不同節(jié)點(diǎn)中,所以 FusionStorage 大數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)不僅能支持硬盤(pán)級(jí)的故障,而且能夠支持節(jié)點(diǎn)級(jí)的故障,保證數(shù)據(jù)不丟失。只要系統(tǒng)中同時(shí)故障的節(jié)點(diǎn)數(shù)不超過(guò) M,系統(tǒng)就可以持續(xù)提供服務(wù)。通過(guò)數(shù)據(jù)重構(gòu)過(guò)程,系統(tǒng)可以恢復(fù)出損壞的數(shù)據(jù),恢復(fù)整系統(tǒng)的數(shù)據(jù)可靠性。FusionStorage 大數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)保護(hù)方式與傳統(tǒng)R

59、AID 相比,能達(dá)到類(lèi)似于傳統(tǒng)RAID 在多節(jié)點(diǎn)數(shù)據(jù)復(fù)制的高可靠性,同時(shí)仍可保持N/(N+M)的高硬盤(pán)利用率。另外, 在 FusionStorage 大數(shù)據(jù)存儲(chǔ)系統(tǒng)中,任意可用空間都可以作為“熱備”空間使用,不需要像傳統(tǒng) RAID 那樣預(yù)先劃分獨(dú)立的熱備盤(pán),因此可進(jìn)一步提高存儲(chǔ)利用率。FusionStorage 大數(shù)據(jù)存儲(chǔ)提供多種N+M 的冗余比配置,用戶可根據(jù)業(yè)務(wù)需求在管理界面上進(jìn)行配置。這意味著用戶可以靈活多變的根據(jù)自己的實(shí)際需求來(lái)指定數(shù)據(jù)冗 余,從而設(shè)置最適合的可靠性。節(jié)點(diǎn)級(jí)安全級(jí)別FusionStorage 大數(shù)據(jù)存儲(chǔ)使用全分布式架構(gòu),文件數(shù)據(jù)和元數(shù)據(jù)在切片和 EC 后,會(huì)打散分布在每

60、臺(tái)節(jié)點(diǎn)上。在節(jié)點(diǎn)數(shù)目與數(shù)據(jù)分片的比例達(dá)到最低要求的情況下,系統(tǒng)支持節(jié)點(diǎn)級(jí)安全。如:選取 EC 的 N+M 為 4+2,則只需要最小 6 個(gè)節(jié)點(diǎn)即可做到節(jié)點(diǎn)級(jí)安全(4+2 共 6 個(gè)分片,每個(gè)節(jié)點(diǎn)分布 1 個(gè)分片)。每個(gè)節(jié)點(diǎn)會(huì)嚴(yán)格存儲(chǔ) 1 個(gè)數(shù)據(jù)分片(數(shù)據(jù)校驗(yàn)片),這樣任意節(jié)點(diǎn)臨時(shí)故障,仍然能保證數(shù)據(jù)可讀。如果節(jié)點(diǎn)數(shù)目達(dá)到 7 個(gè),則能支持在永久故障一個(gè)節(jié)點(diǎn)的情況下,EC 比例不下降,仍為 4+2。根據(jù)上述原則,節(jié)點(diǎn)級(jí)安全的最少節(jié)點(diǎn)數(shù)計(jì)算公式可以總結(jié)為(N+M)/M + 1。下圖為節(jié)點(diǎn)級(jí)安全的節(jié)點(diǎn)排布。當(dāng)其中一個(gè)節(jié)點(diǎn)故障時(shí),仍能從剩下的 5 個(gè)節(jié)點(diǎn)中讀取出 5 個(gè)分片,通過(guò) EC 計(jì)算,得到原始

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論