智能計算平臺應(yīng)用開發(fā)(中級)-第5章-數(shù)據(jù)存儲-大數(shù)據(jù)儲存管理_第1頁
智能計算平臺應(yīng)用開發(fā)(中級)-第5章-數(shù)據(jù)存儲-大數(shù)據(jù)儲存管理_第2頁
智能計算平臺應(yīng)用開發(fā)(中級)-第5章-數(shù)據(jù)存儲-大數(shù)據(jù)儲存管理_第3頁
智能計算平臺應(yīng)用開發(fā)(中級)-第5章-數(shù)據(jù)存儲-大數(shù)據(jù)儲存管理_第4頁
智能計算平臺應(yīng)用開發(fā)(中級)-第5章-數(shù)據(jù)存儲-大數(shù)據(jù)儲存管理_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第5章數(shù)據(jù)存儲大數(shù)據(jù)儲存管理數(shù)據(jù)庫存儲管理存儲系統(tǒng)維護和管理數(shù)據(jù)通常采用文件系統(tǒng)或數(shù)據(jù)庫進行存儲。在大數(shù)據(jù)存儲方面也有相應(yīng)的分布式文件系統(tǒng)和分布式數(shù)據(jù)庫。常見的分布式文件系統(tǒng)HDFS常見的分布式數(shù)據(jù)庫HiveHBase存儲系統(tǒng)維護和管理——HDFS的應(yīng)用HDFS不適合低時間延遲數(shù)據(jù)訪問的應(yīng)用HDFS是為高數(shù)據(jù)吞吐量應(yīng)用優(yōu)化的,這樣就會造成以高時間延遲為代價,所以HDFS不適合低時間延遲數(shù)據(jù)訪問的應(yīng)用,例如幾十毫秒范圍。HDFS不適合多用戶寫入和任意修改文件目前HDFS文件只有一個writer,而且寫操作總是寫在文件的末尾,造成HDFS不適合多用戶寫入和任意修改文件。存儲系統(tǒng)維護和管理——HDFS的應(yīng)用HDFS不適合大量小文件存儲NameNode啟動時會將文件系統(tǒng)的元數(shù)據(jù)加載到內(nèi)存,因此文件系統(tǒng)所能存儲的文件總數(shù)受限于NameNode內(nèi)存容量。假設(shè)每個文件、目錄和數(shù)據(jù)塊的存儲信息大約占150字節(jié),如果一百萬個文件,且每個文件占一個數(shù)據(jù)塊,那么至少需要300MB的內(nèi)存空間。如果存儲十億個文件,那么需要的內(nèi)存空間將是非常大的,所以HDFS不適合大量小文件存儲。存儲系統(tǒng)維護和管理——HDFS的應(yīng)用高容錯性。高吞吐量,為大量數(shù)據(jù)訪問的應(yīng)用提供高吞吐量支持。大文件存儲,支持存儲TB級別、PB級別的數(shù)據(jù)。需要很好的可擴展能力。HDFS適合具有以下需求的應(yīng)用存儲系統(tǒng)維護和管理——HDFS的應(yīng)用HDFS是Hadoop技術(shù)框架中的分布式文件系統(tǒng),對部署在多臺獨立物理機器上的文件進行管理。HDFS適用的場景網(wǎng)站用戶行為數(shù)據(jù)存儲生態(tài)系統(tǒng)數(shù)據(jù)存儲氣象數(shù)據(jù)存儲……存儲系統(tǒng)維護和管理——HDFS的系統(tǒng)架構(gòu)HDFS的文件訪問機制為流式訪問機制,即通過API打開文件的某個數(shù)據(jù)塊之后,可以順序讀取或者寫入某個文件。由于HDFS中存在多個角色,且對應(yīng)的應(yīng)用場景主要為一次寫入、多次讀取的場景,所以其讀和寫的方式有較大不同。存儲系統(tǒng)維護和管理——HDFS的系統(tǒng)架構(gòu)HDFS數(shù)據(jù)寫入流程存儲系統(tǒng)維護和管理——HDFS的系統(tǒng)架構(gòu)業(yè)務(wù)應(yīng)用調(diào)用HDFSClient提供的API,請求寫入文件。HDFSClient聯(lián)系NameNode,NameNode在元數(shù)據(jù)中創(chuàng)建文件節(jié)點。業(yè)務(wù)應(yīng)用調(diào)用writeAPI寫入文件。HDFSClient收到業(yè)務(wù)數(shù)據(jù)后,從NameNode中獲取到數(shù)據(jù)塊編號、位置信息后,聯(lián)系DataNode,并將需要寫入數(shù)據(jù)的DataNodes建立起流水線。HDFS數(shù)據(jù)寫入流程存儲系統(tǒng)維護和管理——HDFS的系統(tǒng)架構(gòu)客戶端再通過自有協(xié)議將數(shù)據(jù)寫入DataNode1,再由DataNode1復(fù)制到DataNode2、DataNode3。寫完的數(shù)據(jù),將返回確認(rèn)信息給HDFSClient。所有數(shù)據(jù)確認(rèn)完成后,業(yè)務(wù)應(yīng)用調(diào)用HDFSClient關(guān)閉文件。業(yè)務(wù)應(yīng)用調(diào)用closeflush后,HDFSClient聯(lián)系NameNode,確認(rèn)數(shù)據(jù)寫入完成,NameNode持久化元數(shù)據(jù)。存儲系統(tǒng)維護和管理——HDFS的系統(tǒng)架構(gòu)HDFS數(shù)據(jù)讀取流程存儲系統(tǒng)維護和管理——HDFS的系統(tǒng)架構(gòu)業(yè)務(wù)應(yīng)用調(diào)用HDFSClient提供的API打開文件。HDFSClient聯(lián)系NameNode,獲取到文件信息(數(shù)據(jù)塊、DataNode位置信息)。業(yè)務(wù)應(yīng)用調(diào)用readAPI讀取文件。HDFSClient根據(jù)從NameNode獲取到的信息,聯(lián)系DataNode,獲取相應(yīng)的數(shù)據(jù)塊(Client采用就近原則讀取數(shù)據(jù))。HDFSClient會與多個DataNode通訊獲取數(shù)據(jù)塊。數(shù)據(jù)讀取完成后,業(yè)務(wù)調(diào)用close關(guān)閉連接。存儲系統(tǒng)維護和管理——HDFS的實際應(yīng)用HDFS在華為FusionInsight產(chǎn)品的應(yīng)用存儲系統(tǒng)維護和管理——HDFS的實際應(yīng)用HDFS作為Hadoop的底層文件存儲系統(tǒng),為FusionInsight提供了一個分布式、高容錯、可先行擴展的文件系統(tǒng)。HDFS對外僅呈現(xiàn)一個統(tǒng)一的文件系統(tǒng),并支持回收站機制和副本數(shù)的動態(tài)設(shè)置機制。數(shù)據(jù)存儲以數(shù)據(jù)塊為單位,存儲在操作系統(tǒng)的HDFS文件系統(tǒng)上。訪問時可通過JAVAAPI、HTTP方式和SHELL方式訪問HDFS數(shù)據(jù)。存儲系統(tǒng)維護和管理——HDFS的實際應(yīng)用HDFS架構(gòu)的關(guān)鍵設(shè)計HA高可靠性元數(shù)據(jù)持久化機制聯(lián)邦存儲機制數(shù)據(jù)副本機制數(shù)據(jù)存儲策略多方式訪問機制空間回收機制NameNode與DataNode的主從模式統(tǒng)一的問價系統(tǒng)命名空間健壯機制等存儲系統(tǒng)維護和管理——HBase的簡介HBaseHBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),提供海量數(shù)據(jù)存儲功能,用來解決關(guān)系型數(shù)據(jù)庫在處理海量數(shù)據(jù)時的局限性。HBase適合于存儲大表數(shù)據(jù)(表的規(guī)??梢赃_到數(shù)十億行以及數(shù)百萬列),井對大表數(shù)據(jù)的讀、寫訪問可以達到實時級別。HBase利用Hadoop的分布式文件系統(tǒng)HDFS(HadoopDistributedFileSystem)作為其文件存儲系統(tǒng),提供實時讀寫的分布式數(shù)據(jù)庫系統(tǒng),同時利用Zookeeper作為協(xié)同服務(wù)。存儲系統(tǒng)維護和管理——HBase的架構(gòu)HBase的架構(gòu)圖:存儲系統(tǒng)維護和管理——HBase的架構(gòu)Zookeeper為HBase集群中各進程提供分布式協(xié)作服務(wù)。HRegionServerHRegionServer負(fù)責(zé)提供表數(shù)據(jù)讀寫等服務(wù),是HBase的數(shù)據(jù)處理和計算單元。HRegionServer一般與HDFS集群的DataNode部署在一起,實現(xiàn)數(shù)據(jù)的存儲功能。各HRegionServer將自己的信息注冊到Zookeeper中,主用HMaster據(jù)此感知各個HRegionServer的健康狀態(tài)。ClientClient使用HBase的RPC機制與HMaster、HRegionServer進行通信。Client與HMaster進行管理類通信,并與HRegionServer進行數(shù)據(jù)操作類通信。存儲系統(tǒng)維護和管理——HBase的架構(gòu)HMaster在HA模式下包含主用Master和備用Master。主用Master負(fù)責(zé)HBase中HRegionServer的管理,包括表的增刪改查、HRegionServer的負(fù)載均衡、Region分布調(diào)整、Region分裂和分裂后的Region分配,以及HRegionServer失效后的Region遷移等。備用Master指的是當(dāng)主用Master故障時,備用Master將取代主用Master對外提供服務(wù)。故障恢復(fù)后,原主用Master降為備用Master。存儲系統(tǒng)維護和管理——HBase的應(yīng)用場景HBase適合具有以下需求的應(yīng)用存在海量數(shù)據(jù)(TB、PB),需要高吞吐量。不需要完全擁有傳統(tǒng)關(guān)系型數(shù)據(jù)庫所具備的ACID特性。需要在海量數(shù)據(jù)中實現(xiàn)高效的隨機讀取。需要很好的性能伸縮能力。能夠同時處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。存儲系統(tǒng)維護和管理——HBase華為增強特性HBase在華為FusionInsight產(chǎn)品的應(yīng)用:在Fusionlnsight產(chǎn)品中HBase與HDFS、Zookeeper等組件皆為Hadoop生態(tài)系統(tǒng)的基礎(chǔ)組件存儲系統(tǒng)維護和管理——HBase華為增強特性HBase在Fusionlnsight產(chǎn)品中與HDFS、Zookeeper等組件皆為基礎(chǔ)組件。HBase提供海量數(shù)據(jù)存儲,Hive、Spark等組件也皆有基于HBase做上層分析的應(yīng)用實踐。在Hadoop生態(tài)系統(tǒng)中,無論是HDFS,還是HBase,在面對海量文件存儲時,在某些場景下會存在一些很難解決的問題。如果把海量小文件直接保存在HDFS中,那么會給NameNode帶來極大的壓力。由于HBase接口以及內(nèi)部機制的原因,一些較大的文件也不適合直接保存到HBase中。存儲系統(tǒng)維護和管理——HBase華為增強特性HBase文件存儲模塊(HBaseFilestream,HFS)HBase文件存儲模塊(HBaseFilestream,簡稱HFS)是HBase的獨立模塊,它作為對HBase與HDFS接口的封裝,應(yīng)用在FusionInsightHDS的上層應(yīng)用,為上層應(yīng)用提供文件的存儲、讀取、刪除等功能。HFS的出現(xiàn)解決了需要在HDFS中存儲海量小文件,同時也要存儲一些大文件的混合的場景。簡而言之,就是在HBase表中,需要存放大量的小文件(10MB以下),同時又需要存放一些比較大的文件(10MB以上)。存儲系統(tǒng)維護和管理——Hive的簡介Hive是基于Hadoop的數(shù)據(jù)倉庫軟件,可以查詢和管理PB級別的分布式數(shù)據(jù)。Hive具有的特性可直接訪問HDFS文件和HBase,支持MapReduce、Tez和Spark等多種計算引擎。通過HQL語言完成數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL),以及完成海量結(jié)構(gòu)化數(shù)據(jù)分析。靈活的數(shù)據(jù)存儲格式,支持JSON、CSV、TEXTFILE、RCFILE、ORCFILE和SEQUENCEFILE等存儲格式,并支持自定義擴展。多種客戶端連接方式,支持JDBC接口。存儲系統(tǒng)維護和管理——Hive與傳統(tǒng)倉庫對比Hive作為一種數(shù)據(jù)倉庫處理工具,與傳統(tǒng)的數(shù)據(jù)倉庫在存儲和執(zhí)行引擎等方面存在一定的差異。Hive與傳統(tǒng)數(shù)據(jù)倉庫的具體對比

Hive傳統(tǒng)數(shù)據(jù)倉庫存儲HDFS,理論上有無限拓展的可能集群存儲,存在容量上限,而且伴隨容量的增長,計算速度急劇下降,只能適應(yīng)于數(shù)據(jù)量比較小的商業(yè)應(yīng)用,對于超大規(guī)模數(shù)據(jù)無能為力執(zhí)行引擎有MapReduce/Tez/Spark多種引擎可供選擇可以選擇更加高效的算法來執(zhí)行查詢,也可以進行更多的優(yōu)化措施來提高速度使用方式HQL(類似SQL)SQL靈活性元數(shù)據(jù)存儲立于數(shù)據(jù)存儲之外,從而解耦合元數(shù)據(jù)和數(shù)據(jù)低,數(shù)據(jù)用途單一存儲系統(tǒng)維護和管理——Hive與傳統(tǒng)倉庫對比Hive與傳統(tǒng)數(shù)據(jù)倉庫的具體對比

Hive傳統(tǒng)數(shù)據(jù)倉庫分析速度計算依賴于集群規(guī)模,易拓展,在大數(shù)據(jù)量情況下,遠遠快于普通數(shù)據(jù)倉庫在數(shù)據(jù)容量較小時非常快速,數(shù)據(jù)量較大時,急劇下降索引低效,目前還不完善高效易用性需要自行開發(fā)應(yīng)用模型,靈活性較高,但是易用性較低集成一整套成熟的報表解決方案,可以較為方便的進行數(shù)據(jù)的分析可靠性數(shù)據(jù)存儲在HDFS,可靠性高,容錯性高可靠性較低,一次性查詢失敗需要重新開始。數(shù)據(jù)容錯依賴于硬件Raid依賴環(huán)境依賴硬件較低,可適應(yīng)一般的普通機器依賴于高性能的商業(yè)服務(wù)器價格開源產(chǎn)品商用比較昂貴存儲系統(tǒng)維護和管理——Hive的應(yīng)用場景Hive是基于靜態(tài)批處理的Hadoop構(gòu)建的,Hadoop通常有較高的延遲,并且在作業(yè)提交和調(diào)度時需要大量的開銷。Hive不能在大規(guī)模數(shù)據(jù)集上實現(xiàn)低延遲快速的查詢,也不提供實時的查詢和基于行級的數(shù)據(jù)更新操作。Hive查詢操作過程嚴(yán)格遵守HadoopMapReduce的作業(yè)執(zhí)行模型。Hive將用戶的HQL語句通過解釋器轉(zhuǎn)換為MapReduce作業(yè)MapReduce作業(yè)提交到Hadoop集群上Hadoop監(jiān)控作業(yè)執(zhí)行過程返回作業(yè)執(zhí)行結(jié)果給用戶存儲系統(tǒng)維護和管理——Hive的應(yīng)用場景基于Hive的自身特點,Hive在實際中的主要應(yīng)用海量數(shù)據(jù)的離線分析(如日志分析,集群狀態(tài)分析)。大規(guī)模的數(shù)據(jù)挖掘(用戶行為分析、興趣分區(qū)、區(qū)域展示)。大量數(shù)據(jù)的匯總(每天/每周用戶點擊數(shù)、流量統(tǒng)計)?!鎯ο到y(tǒng)維護和管理——Hive的實際應(yīng)用Hive是一種底層封裝了Hadoop的數(shù)據(jù)倉庫處理工具,使用類SQL的HQL語言實現(xiàn)數(shù)據(jù)查詢功能,所有Hive的數(shù)據(jù)都存儲在Hadoop兼容的HDFS中。Hive在FusionInsight產(chǎn)品中的應(yīng)用:存儲系統(tǒng)維護和管理——Hive的實際應(yīng)用Hive在FusionInsight產(chǎn)品中的應(yīng)用FusionInsightHD中Hive組件在社區(qū)版本Hive基礎(chǔ)上,加入了眾多企業(yè)級定制化特性,如Colocation建表、列加密和語法增強等特性。相比于社區(qū)版本,F(xiàn)usionInsightHDHive整個產(chǎn)品在高可靠、高容錯、可擴展性和性能等方面有巨大提升。為保證Hive服務(wù)的高可用性、用戶數(shù)據(jù)的安全及訪問服務(wù)的可控制,在開源社區(qū)的Hive1.1.0版本基礎(chǔ)上,F(xiàn)usionInsightHDHive新增基于Kerberos技術(shù)的安全認(rèn)證機制、數(shù)據(jù)文件加密機制和完善的權(quán)限管理的特性。存儲系統(tǒng)維護和管理——Hive的實際應(yīng)用Hive分為HiveServer、MetaStore和WebHcat3個角色。HiveServer將用戶提交的HQL語句進行編譯,解析成對應(yīng)的Yarn任務(wù)、Spark任務(wù)或HDFS操作,從而完成數(shù)據(jù)的提取、轉(zhuǎn)換和分析。MetaStore提供元數(shù)據(jù)服務(wù)。WebHcat對外提供基于HTTPS協(xié)議的元數(shù)據(jù)訪問、DDL查詢等服務(wù)。存儲系統(tǒng)優(yōu)化——負(fù)載均衡負(fù)載均衡技術(shù)概述負(fù)載均衡是分布式系統(tǒng)中的一個優(yōu)化組合問題,是一個NP-C問題。在分布式系統(tǒng)中,每個節(jié)點通過任務(wù)分配與再分配來實現(xiàn)系統(tǒng)整體的負(fù)載均衡,以便提高系統(tǒng)的整體性能,并在不影響系統(tǒng)正常運行的情況下,減少任務(wù)并行執(zhí)行時間。要提高分布式系統(tǒng)的資源利用率,使系統(tǒng)整體性能達到最高,必須通過高效地資源調(diào)度、任務(wù)分配與遷移策略來實現(xiàn)集群中各節(jié)點的負(fù)載均衡。存儲系統(tǒng)優(yōu)化——負(fù)載均衡負(fù)載均衡算法負(fù)載均衡算法的設(shè)計目標(biāo)是將任務(wù)合理的分配到分布式系統(tǒng)集群中的各個節(jié)點上,使分配到各節(jié)點的任務(wù)數(shù)盡可能均衡,使系統(tǒng)整體達到一種平衡狀態(tài)。負(fù)載均衡算法是決定一個分布式系統(tǒng)性能高低的關(guān)鍵因素。影響系統(tǒng)負(fù)載均衡的因素網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);負(fù)載均衡的粒度;負(fù)載均衡算法(是核心要素)。存儲系統(tǒng)優(yōu)化——負(fù)載均衡負(fù)載均衡技術(shù)是比負(fù)載共享更高一層的負(fù)載分配策略,將系統(tǒng)負(fù)載均衡地分配到各個節(jié)點,消除或避免負(fù)載不均的問題,使分布式文件系統(tǒng)的性能達到最高。負(fù)載均衡技術(shù)分類靜態(tài)負(fù)載均衡動態(tài)負(fù)載均衡存儲系統(tǒng)優(yōu)化——負(fù)載均衡靜態(tài)負(fù)載均衡靜態(tài)負(fù)載均衡根據(jù)己知的信息進行任務(wù)分配,不考慮當(dāng)前分布式系統(tǒng)的負(fù)載狀況,因此靜態(tài)負(fù)載均衡又稱為狀態(tài)無關(guān)均衡。靜態(tài)負(fù)載均衡的目標(biāo)是完成任務(wù)集的分配調(diào)度,使各節(jié)點上所有任務(wù)盡可能在最短的時間內(nèi)完成。存儲系統(tǒng)優(yōu)化——負(fù)載均衡對于靜態(tài)負(fù)載均衡算法,在分布式系統(tǒng)開始運行前就確定了任務(wù)分配策略。例如,任務(wù)的到達時間是不確定的,分布式系統(tǒng)會很被動。當(dāng)任務(wù)過多時,由于分布式系統(tǒng)的任務(wù)分配策略是既定的,無法改變,因此會導(dǎo)致某些節(jié)點的任務(wù)數(shù)過多,任務(wù)等待時間長,而在另外一些節(jié)點上卻沒有任務(wù)執(zhí)行。任務(wù)的分配具有很大的不確定性收到任務(wù)請求之后,系統(tǒng)會按照制定好的策略來進行任務(wù)分配,與當(dāng)前系統(tǒng)的整體狀態(tài)信息無關(guān),即任務(wù)內(nèi)容、任務(wù)的開始執(zhí)行時間和集群的實時狀態(tài)不會影響任務(wù)的分配。存儲系統(tǒng)優(yōu)化——負(fù)載均衡靜態(tài)負(fù)載均衡算法的優(yōu)缺點靜態(tài)負(fù)載均衡算法的優(yōu)點實現(xiàn)邏輯簡單,開銷小,可以快速地將任務(wù)請求分配到各存儲節(jié)點。靜態(tài)負(fù)載均衡算法的缺點不關(guān)注存儲節(jié)點的實時負(fù)載與系統(tǒng)狀態(tài)的動態(tài)變化,決策具有盲目性、準(zhǔn)確度低,會造成任務(wù)分配不均,系統(tǒng)負(fù)載均衡的效果受限。存儲系統(tǒng)優(yōu)化——負(fù)載均衡動態(tài)負(fù)載均衡動態(tài)負(fù)載均衡與靜態(tài)負(fù)載均衡相比,在靈活性和針對性方面具有優(yōu)勢。在動態(tài)負(fù)載均衡算法中,分布式系統(tǒng)會實時收集集群中各服務(wù)器的運行狀態(tài)信息,獲知各服務(wù)器的負(fù)載狀況,從而動態(tài)地、更加合理地分配任務(wù),因此動態(tài)負(fù)載均衡具有更高的應(yīng)用價值。各存儲服務(wù)器節(jié)點反饋負(fù)載信息的準(zhǔn)確性和實時性是動態(tài)負(fù)載均衡算法有效執(zhí)行的重要保證。存儲系統(tǒng)優(yōu)化——負(fù)載均衡動態(tài)負(fù)載均衡算法盡可能保證新任務(wù)被分配至評價值最高的服務(wù)器,從而使任務(wù)被快速執(zhí)行,降低系統(tǒng)響應(yīng)時間,提高系統(tǒng)整體吞吐量。例如,選擇服務(wù)器的可用連接數(shù)作為評價指標(biāo),此時可用連接數(shù)較多的服務(wù)器相對于可用連接數(shù)較少的服務(wù)器會優(yōu)先被分配任務(wù),那么可用連接數(shù)最多的服務(wù)器的評價值最高,新任務(wù)會被分配至該服務(wù)器。評價值評價值由評價指標(biāo)通過一定的方式計算得出,而評價指標(biāo)的選取需要根據(jù)應(yīng)用場景的不同進行針對性的分析。存儲系統(tǒng)優(yōu)化——負(fù)載均衡由于動態(tài)負(fù)載均衡策略需要及時獲取各服務(wù)器的負(fù)載狀態(tài)信息,所以會導(dǎo)致増加系統(tǒng)額外的開銷。如果合理的控制額外開銷,那么可以換來更高的系統(tǒng)性能,因此在實際應(yīng)用中,動態(tài)負(fù)載均衡具有很高的使用價值。存儲系統(tǒng)優(yōu)化——數(shù)據(jù)存儲的安全性數(shù)據(jù)存儲面臨的問題在大規(guī)模的分布式存儲系統(tǒng)中,不可避免會出現(xiàn)網(wǎng)絡(luò)中斷、掉電、服務(wù)器宕機、硬盤故障等常見的異常問題。存儲算法的設(shè)計是否能夠應(yīng)付設(shè)備或存儲集群變化,對系統(tǒng)性能和存儲效率的影響非常重要。在大規(guī)模的系統(tǒng)中,由于存儲節(jié)點的急劇增加,節(jié)點故障將成為常態(tài)而不是例外,而且在任何時間點上都存在發(fā)生多個對象存儲服務(wù)節(jié)點不可用的可能性。因此分布式存儲系統(tǒng)必須采取有效措施確保存儲數(shù)據(jù)的安全性,從而保障整體系統(tǒng)的可用性。在分布式存儲系統(tǒng)中,經(jīng)常會發(fā)生很多并發(fā)用戶在混合讀取數(shù)據(jù)的同時,也有多個用戶在寫入數(shù)據(jù),這要求系統(tǒng)必須能夠及時地同步數(shù)據(jù),并確保數(shù)據(jù)被安全的寫入磁盤和采取必要的冗余備份,以保證在遭遇電源故障或其他異常故障時,數(shù)據(jù)不會發(fā)生意外丟失。存儲系統(tǒng)優(yōu)化——數(shù)據(jù)存儲的安全性存儲策略在存儲系統(tǒng)中提高數(shù)據(jù)安全性的一個重要方法就是對數(shù)據(jù)進行冗余備份存儲。常用的冗余備份機制完整文件副本文件分塊副本獨立冗余磁盤陣列(RedundantArrayofIndependentDisk,RAID)……存儲系統(tǒng)優(yōu)化——數(shù)據(jù)存儲的安全性冗余備份機制完整文件副本完整文件副本對重要存儲的文件進行副本復(fù)制,分散存儲到不同的數(shù)據(jù)節(jié)點上,用戶只要訪問到某個節(jié)點,就能訪問到該數(shù)據(jù),數(shù)據(jù)可靠性較高。文件分塊副本文件分塊副本是先對存儲文件對象進行分塊操作,然后對分塊的文件進行冗余備份,這種方式更節(jié)約存儲空間,但是在單一時刻不允許任意多個節(jié)點同時失效,數(shù)據(jù)可靠性較低。存儲系統(tǒng)優(yōu)化——數(shù)據(jù)存儲的安全性獨立冗余磁盤陣列獨立冗余磁盤陣列(RedundantArrayofIndependentDisk,RAID)將多塊獨立的物理硬盤按不同的方式組合起來形成邏輯硬盤,從而提供更強的數(shù)據(jù)備份能力和更好的存儲性能。該技術(shù)主要通過數(shù)據(jù)分割和多通道技術(shù)提高I/O吞吐率,通過保存冗余數(shù)據(jù)和校驗信息來實現(xiàn)數(shù)據(jù)的高可靠性存儲。當(dāng)系統(tǒng)規(guī)模較大時,邏輯磁盤中多個磁盤出現(xiàn)錯誤的概率較大,并且該技術(shù)不能在規(guī)模較大的系統(tǒng)中提供很好的魯棒性。存儲系統(tǒng)優(yōu)化——數(shù)據(jù)存儲的安全性為保證數(shù)據(jù)可靠性,采用數(shù)據(jù)安全性較高的完全副本冗余存儲策略,可有效解決數(shù)據(jù)存儲的安全性問題?;跀?shù)據(jù)復(fù)制冗余技術(shù)的完全副本冗余存儲策略基本思想:將數(shù)據(jù)對象創(chuàng)建多個相同的副本,并把得到的多個數(shù)據(jù)副本分散存儲在不同的數(shù)據(jù)節(jié)點上。當(dāng)部分?jǐn)?shù)據(jù)節(jié)點失效后,可以通過訪問其他有效節(jié)點上的數(shù)據(jù)副本來獲取原數(shù)據(jù)。該技術(shù)的主要研究內(nèi)容:數(shù)據(jù)組織結(jié)構(gòu)和數(shù)據(jù)復(fù)制策略。存儲系統(tǒng)優(yōu)化——數(shù)據(jù)存儲的安全性基于數(shù)據(jù)復(fù)制冗余技術(shù)的完全副本冗余存儲策略的研究內(nèi)容數(shù)據(jù)組織結(jié)構(gòu)研究用戶數(shù)據(jù)分塊和數(shù)據(jù)分塊冗余副本在不同存儲節(jié)點中的存儲管理方式。用戶數(shù)據(jù)分塊的復(fù)制策略主要研究冗余副本在不同存儲節(jié)點中的存儲數(shù)量、數(shù)據(jù)副本的創(chuàng)建時機和存放位置等問題。存儲系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略數(shù)據(jù)組織架構(gòu)目前主流的數(shù)據(jù)組織結(jié)構(gòu)P2P數(shù)據(jù)組織方式元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織方式存儲系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略P2P數(shù)據(jù)方式P2P數(shù)據(jù)方式中的所有數(shù)據(jù)存儲是平等的,不存在嚴(yán)格的服務(wù)端和客戶端區(qū)別。當(dāng)存儲數(shù)據(jù)時,按照分布式哈希表的方式分散存儲到不同的數(shù)據(jù)存儲節(jié)點中。當(dāng)用戶訪問系統(tǒng)時,通過通道方式計算哈希值,即可得到數(shù)據(jù)存放位置。存儲系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織方式元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織結(jié)構(gòu)通常采用統(tǒng)一的數(shù)據(jù)管理服務(wù)器機制,用于存儲用戶數(shù)據(jù)分塊和冗余存儲副本的元數(shù)據(jù)信息。元數(shù)據(jù)信息通常包括版本信息、副本的位置、副本與數(shù)據(jù)之間映射關(guān)系和系統(tǒng)的狀態(tài)、屬性等信息。系統(tǒng)通常將元數(shù)據(jù)信息存儲到多個服務(wù)器上,以便可靠地支持對數(shù)據(jù)的集中式管理。當(dāng)用戶訪問系統(tǒng)時,首先通過MDS獲取數(shù)據(jù)的存儲位置、版本信息,然后從相應(yīng)位置讀取數(shù)據(jù)塊或?qū)?shù)據(jù)寫入相應(yīng)的位置。由于元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織架構(gòu)要求所有對系統(tǒng)的訪問都要通過元數(shù)據(jù)服務(wù)器,當(dāng)大量用戶同時訪問系統(tǒng)時,MDS容易成為性能瓶頸,而且存在MDS失效的風(fēng)險。存儲系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略在目前的云計算環(huán)境中,P2P數(shù)據(jù)組織方式和元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織方式的應(yīng)用基于P2P組織結(jié)構(gòu)方式的應(yīng)用Facebook的Cassandra(分布式存儲系統(tǒng))Amazon公司的Dynamo(分布式存儲系統(tǒng))基于元數(shù)據(jù)服務(wù)器數(shù)據(jù)組織結(jié)構(gòu)的應(yīng)用GFS開源的HDFSCeph存儲系統(tǒng)優(yōu)化——數(shù)據(jù)組織結(jié)構(gòu)及復(fù)制策略復(fù)制策略數(shù)據(jù)復(fù)制策略的主要研究內(nèi)容是數(shù)據(jù)的副本數(shù)和放置策略。復(fù)制策略的選擇與網(wǎng)絡(luò)狀況、存儲空間及應(yīng)用需求等因素有非常緊密的關(guān)系,并且策略算法對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論