分布式計算、云計算與大數據 第2版 課件 第6章 云存儲技術_第1頁
分布式計算、云計算與大數據 第2版 課件 第6章 云存儲技術_第2頁
分布式計算、云計算與大數據 第2版 課件 第6章 云存儲技術_第3頁
分布式計算、云計算與大數據 第2版 課件 第6章 云存儲技術_第4頁
分布式計算、云計算與大數據 第2版 課件 第6章 云存儲技術_第5頁
已閱讀5頁,還剩66頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第6章云存儲技術提綱存儲基礎知識云存儲概念與技術原理對象存儲技術存儲技術趨勢存儲重要歷史回顧總的趨勢:存儲容量和IO速度的不斷增加。網絡存儲的發(fā)展網絡存儲根據服務器類型可以進行如下分類:網絡存儲的發(fā)展根據組網形式不同,當前三種主流存儲技術如下圖所示:DASDAS(DirectAttachedStorage—直接連接存儲)是指將存儲設備通過SCSI接口或光纖通道直接連接到一臺計算機上。優(yōu)勢連接簡單低成本需求較好的性能通用的解決方案劣勢有限的擴展性專屬的連接備份和數據保護TCO(總擁有成本高)NASNAS(NetworkAttachedStorage—網絡附加存儲)是將存儲設備連接到現有的網絡上,提供數據和文件服務,應用服務器直接把FileI/O請求通過LAN傳給遠端NAS中的文件系統(tǒng),NAS中的文件系統(tǒng)發(fā)起B(yǎng)lockI/O到與NAS直連的磁盤。優(yōu)勢資源共享構架于IP網絡之上部署簡單較好的擴展性異構環(huán)境下的文件共享易于管理備份方案簡單低的TCO劣勢擴展性有限帶寬瓶頸不適應某些數據庫的應用SANSAN(存儲區(qū)域網絡)通過光纖通道連接到一群計算機上。在該網絡中提供了多主機連接,但并非通過標準的網絡拓撲。優(yōu)勢實現存儲介質的共享非常好的擴展性LANFree和ServerFree高性能支持服務器集群技術容災手段低的TCO劣勢成本較高SAN孤島技術較為復雜需要專門的技術人員維護DAS、NAS、SAN三種形態(tài)比較

DASNASFC-SANIP-SAN傳輸類型SCSI、FCIPFCIP數據類型塊級文件級塊級塊級典型應用任何文件服務器數據庫應用視頻監(jiān)控優(yōu)點易于理解兼容性好易于安裝成本低高擴展性高性能高可用性高擴展性成本低缺點難以管理,擴展性有限;存儲空間利用率不高性能較低;對某些應用不適合比較昂貴,配置復雜;互操作性問題性能較低DAS、NAS、SAN每種組網技術都有其優(yōu)勢和劣勢,在實際運用中需要權衡各方面的資源和適用范圍。一般來說,DAS是最直接最簡單的組網技術,實現簡單但是存儲空間利用率和擴展性差,而NAS使用較為廣泛,技術也相對成熟,SAN則是專為某些大型存儲而定制的昂貴網絡。RAIDRAID是廉價冗余磁盤陣列的簡稱,磁盤陣列是由很多價格較便宜的磁盤,組合成一個容量巨大的磁盤組,利用個別磁盤提供數據所產生加成效果提升整個磁盤系統(tǒng)效能。利用這項技術,將數據切割成許多區(qū)段,分別存放在各個硬盤上。在具體介紹RAID之前,我們先了解一下相關概念。名詞說明分區(qū)又稱為Extent;是一個磁盤上的地址連續(xù)的存儲塊。一個磁盤可以劃分為多個分區(qū),每個分區(qū)可以大小不等,有時也稱為邏輯磁盤。分塊又稱為Strip;將一個分區(qū)分成多個大小相等的、地址相鄰的塊,這些塊稱為分塊。分塊通常被認為是條帶的元素。虛擬磁盤以它為單位將虛擬磁盤的地址映射到成員磁盤的地址。條帶又稱為Stripe;是陣列的不同分區(qū)上的位置相關的strip的集合,是組織不同分區(qū)上條塊的單位。軟RAIDRAID的所有功能都依賴于操作系統(tǒng)(OS)與服務器CPU來完成,沒有第三方的控制/處理(業(yè)界稱其為RAID協(xié)處理器――RAIDCo-Processor)與I/O芯片硬RAID有專門的RAID控制/處理與I/O處理芯片,用來處理RAID任務,不需耗用主機CPU資源,效率高,性能好。RAIDRAID可以細分為:RAID0、RAID1、RAID3、RAID5、RAID6、RAID10、RAID50。1)RAID0RAID0以條帶形式將RAID陣列的數據均勻分布在各個陣列中,沒有磁盤冗余,一個磁盤失敗導致數據丟失,所示,總容量=(磁盤數量)*(磁盤容量)。優(yōu)點可多I/O操作并行處理,極高的讀寫效率速度快設計、使用與配置簡單缺點無冗余不能用于關鍵數據環(huán)境RAID2)RAID1RAID1以鏡像作為冗余手段,虛擬磁盤中的數據有多個拷貝,放在成員磁盤上,具有100%的數據冗余,但磁盤空間利用率只有50%,所以,總容量=(磁盤數量/2)*(磁盤容量)。優(yōu)點理論上讀效率是單個磁盤的兩倍;100%的數據冗余;設計、使用簡單缺點ECC((錯誤檢查與糾正))效率低下,磁盤ECC的CPU占用率是所有RAID等級中最高的,成本高;軟RAID方式下,很少能支持硬盤的熱插拔;空間利用率只有1/2RAID3)RAID3以xor校驗為冗余方式,使用專門的磁盤存放校驗數據,虛擬磁盤上的數據塊被分為更小的數據塊并行傳輸到各個成員物理磁盤上,同時計算出xor校驗數據存放到校驗磁盤上。只有一個磁盤損壞的情況下,RAID3能通過校驗數據恢復損壞磁盤,但兩個以上磁盤同時損壞情況下RAID3不能發(fā)揮數據校驗功能??側萘?(磁盤數量-1)*(磁盤容量)。優(yōu)點相對較高的讀取傳輸率高可用性,如果有一個磁盤損壞,對吞吐量影響較小高效率的ECC操作缺點校驗盤成為性能瓶頸每次讀寫牽動整個組,每次只能完成一次I/ORAID4)RAID5以XOR檢驗為冗余方式,校驗數據均勻分布在各個數據磁盤上,對各個數據磁盤的訪問為異步操作,RAID5相對于RAID3改善了校驗盤的瓶頸,總容量=(磁盤數-1)*(磁盤容量)。優(yōu)點高讀取速率中等寫速率缺點異或校驗影響存儲性能磁盤損壞后,重建很復雜RAID5)RAID6RAID6能夠允許兩顆磁盤同時失效的RAID級別系統(tǒng),其總容量=(磁盤數-2)*(磁盤容量)。優(yōu)點快速的讀取性能更高的容錯能力缺點很慢的寫入速度成本更高RAID6)RAID10RAID10(鏡像陣列條帶化)將鏡像和條帶組合起來的組合RAID級別,最低一級是RAID1鏡像對,第二級為RAID0。其總容量=(磁盤數/2)*(磁盤容量)。優(yōu)點高讀取速率高寫速率,較校驗RAID而言,寫開銷最小至多可以容許N個磁盤同時損壞(2N個磁盤組成的RAID10陣列)缺點貴只有1/2的磁盤利用率RAID7)RAID50RAID50將鏡像和條帶組合起來的組合RAID級別,最低一級是RAID5鏡像對,第二級為RAID0。其總容量=(磁盤數-1)*(磁盤容量)。優(yōu)點比單個RAI5容納更多的磁盤比單個RAID5有更好的讀性能至多可以容許n個磁盤同時損壞(N個RAID5組成的RAID50陣列)比相同容量的單個RAID5重建時間更短缺點比較難實現同一個RAID5組內的兩個磁盤損壞會導致整個RAID50陣列的失效RAID級別比較

需要根據具體的應用情況決定使用那種RAID級別,各種級別的比較如表所示項目RAID0

RAID1RAID10

RAID5

、RAID3RAID6最小配置12434性能HighestLowestRAID5<RAID10<RAID0RAID1<RAID5<RAID10RAID6<RAID5<RAID10特點無容錯最佳的容錯最佳的容錯提供容錯提供容錯磁盤利用率100%50%50%(N-1)/N(N-2)/N描述

不帶奇偶效驗的條帶集磁盤鏡像RAID0與RAID1的結合帶奇偶效驗的

條帶集雙校驗位其中RAID3與RAID5的區(qū)別為:RAID3更適合于順序存取,RAID5更適合于隨機存取。需要根據具體的應用情況決定使用那種RAID級別。磁盤熱備

所謂熱備份(簡稱為熱備)是在建立RAID磁盤陣列系統(tǒng)的時候,將其中一個磁盤指定為熱備磁盤,此熱備磁盤在平常并不操作,當陣列中某一磁盤發(fā)生故障時,熱備磁盤便取代故障磁盤,并自動將故障磁盤的數據重構在熱備磁盤上。熱備盤可分為以下兩種:全局熱備盤:針對整個磁盤陣列,對陣列中所有RAID組起作用局部熱備盤:只針對某一RAID組起作用。

磁盤熱備的主要過程1)由5個磁盤組成RAID5,4個數據盤,1個熱備盤存儲校驗條帶集,熱盤平時不參與計算。2)某個時刻某個數據盤損壞,熱備盤根據校驗集開始自動重構。3)熱備盤重構結束,加入RAID5代替損壞磁盤參與計算。4)替換新的磁盤,熱備盤進行COPYBACK復制。5)熱備盤復制完成后,重新建立校驗集。RAID5setofdrives:4active,1hot-spareCOPYBACK完成某個磁盤損壞,重構過程開始重構過程結束,RAID5可靠性恢復冗余插入新磁盤,COPYBACK開始邏輯卷快照(snapshot)DEAC快照是某一個時間點上的邏輯卷的映像,邏輯上相當于整個BaseVolume的拷貝用途(利用少量存儲空間保存原始數據的備份)文件、邏輯卷恢復備份、測試、數據分析等基本概念:BaseVolume:快照源卷RepositoryVolume:快照倉儲卷,保存快照源卷在快照過程中被修改以前的數據SnapshotVolume:快照卷某一個時間點的邏輯卷映像:邏輯上相當于整個BaseVolume的拷貝可將SanpshotVolume分配給任何一臺主機SnapshotVolume可讀取、寫入或拷貝存儲空間需求需要相當于BaseVolume20%的額外空間快照過程1)首先保證源卷和倉儲卷的正常運行2)快照開始時源卷是只讀的,快照卷對源卷3)快照完成,控制器釋放對源卷的寫權限,我們可以對源卷進行寫操作,快照是一些指向源卷數據的指針。4)當源卷數據發(fā)生改變時,首先在源卷的數據改變之前將原數據寫入倉儲卷上,并且將快照指針引導到倉儲卷上,然后再對源卷數據進行修改。5)最后更新源卷數據,此時快照可以跟蹤到更新之前的舊數據。數據分級存儲概念數據分級存儲:即把數據存放在不同類別的存儲設備(磁盤、磁盤陣列、光盤庫、磁帶)中,通過分級存儲管理軟件實現數據實體在存儲設備之間的自動遷移;根據數據的訪問頻率、保留時間、容量、性能要求等因素確定最佳存儲策略,從而控制數據遷移的規(guī)則。優(yōu)點最大限度地滿足用戶需求減少總體存儲成本性能優(yōu)化改善數據可用性數據遷移對應用透明在線(On-line)存儲:指存儲設備和所存儲的數據時刻保持“在線”狀態(tài),可供用戶隨意讀取,滿足計算平臺對數據訪問的速度要求近線(Near-line)存儲:主要定位于客戶在線存儲和離線存儲之間的應用,將那些不是經常用到,或者說數據的訪問量并不大的數據存放在性能較低的存儲設備上,但同時對這些設備要求是尋址迅速、傳輸率高,需要的存儲容量相對較大。離線(Off-line)存儲:對在線存儲數據的備份,以防范可能發(fā)生的數據災難。提綱存儲基礎知識云存儲概念與技術原理對象存儲技術存儲技術趨勢云存儲概念關于云存儲的定義,目前沒有標準。云存儲一般包含兩個含義:1)云存儲是云計算的存儲部分,即虛擬化的、易于擴展的存儲資源池。用戶通過云計算使用存儲資源池,但不是所有的云計算的存儲部分都是可以分離的。2)云存儲意味著存儲可以作為一種服務,通過網絡提供給用戶。用戶可以通過若干種方式(互聯網開放接口、在線服務等)來使用存儲,并按使用(時間、空間或兩者結合)付費。從技術層面看,目前業(yè)界普遍認為云存儲的兩種主流技術解決方案:基于虛擬化技術和分布式存儲。分布式存儲從技術特征上看,分布式存儲主要包括以下四種:分布式塊存儲分布式文件存儲分布式對象存儲分布式表存儲塊存儲技術塊存儲將存儲區(qū)域劃分成固定大小的小塊,是傳統(tǒng)裸存儲設備的存儲空間對外暴露方式。塊存儲系統(tǒng)將大量磁盤設備通過SCSI/SAS或FCSAN與存儲服務器連接,服務器直接通過SCSI/SAS或FC協(xié)議控制和訪問數據。塊存儲方式不存在數據打包/解包過程,可提供更高的性能。系統(tǒng)目標:為現有各種應用提供通用的存儲能力在云計算環(huán)境下,塊存儲設備面臨著分布式環(huán)境數據塊數據塊數據塊數據塊數據塊存儲節(jié)點2數據塊數據塊數據塊數據塊數據塊存儲節(jié)點1索引節(jié)點直接索引1直接索引2直接索引3直接索引4直接索引5直接索引6目錄索引目錄索引數據塊數據塊數據塊數據塊存儲節(jié)點傳統(tǒng)設備的塊存儲面向的是單一的物理設備塊存儲技術塊存儲主要包括DAS和SAN兩種存儲方式直接附加存儲DAS以主機為中心,將外部的數據存儲設備通過SISC/IDE/ATA等I/O總線直接連接到服務器上,使數據存儲設備是服務器結構一部分SAN采用塊數據組織,通過可伸縮的高速專用存儲網絡互連不同類型的存儲設備和服務器,提供內部任意節(jié)點間多路可選擇的數據交換。應用服務器文件系統(tǒng)SCSI,FCJBOD應用服務器文件系統(tǒng)光纖交換機RAIDRAID塊存儲技術優(yōu)點缺點DAS設備成本低廉,實施簡單通過磁盤陣列技術,可將多塊硬盤在邏輯上組合成一塊硬盤,實現大容量的存儲不能提供不同操作系統(tǒng)下的文件共享存儲容量受限I/O總線支持的設備數量服務器發(fā)生故障時,數據不可訪問數據備份操作非常復雜SAN可實現大容量存儲設備數據共享可實現高速計算機和高速存儲設備的高速互聯可實現數據高效快速集中備份建設成本和能耗高,部署復雜單獨建立光纖網絡,異地擴展比較困難互操作性差,數據無法共享元數據服務器會成為性能瓶頸適用場景DAS服務器在地理分布上很分散,通過SAN或NAS在它們之間進行互連非常困難既要求數據的集中管理,又要求最大限度的降低數據的管理成本許多數據庫應用和應用服務器在內的應用,它們需要直接連接到存儲器上SAN與其它計算資源緊密集群來實現遠程備份和檔案存儲過程磁盤鏡像、備份與恢復、檔案數據的存檔和檢索、存儲設備間的數據遷移以及網絡中不同服務器間的數據共享等用于合并子網和網絡附接存儲系統(tǒng)分布式文件存儲文件存儲以標準文件系統(tǒng)接口形式向應用系統(tǒng)提供海量非結構化數據存儲空間。分布式文件系統(tǒng)把分布在局域網內各個計算機上的共享文件夾集合成一個虛擬共享文件夾,將整個分布式文件資源以統(tǒng)一的試圖呈現給用戶。它對用戶和應用程序屏蔽各個節(jié)點計算機底層文件系統(tǒng)的差異,提供用戶方便的管理資源的手段或統(tǒng)一的訪問接口。分布式文件系統(tǒng)的出現很好的滿足互聯網信息不斷增長的需求,并為上層構建實時性更高,更易使用的結構化存儲系統(tǒng)提供有效的數據管理的支持。在催生了許多分布式數據庫產品的同時,也促使分布式存儲技術不斷的發(fā)展和成熟。技術特點提供NFS/CIFS/POSIX等文件訪問接口協(xié)議開銷較高、響應延遲較塊存儲長應用系統(tǒng)跟存儲系統(tǒng)的耦合程度中等存儲能力和性能水平擴展適用場景適合TB~PB級文件存儲,可支持文件頻繁修改和刪除。例如圖片、文件、視頻、郵件附件、MMS的存儲海量數據存儲及系統(tǒng)負載的轉移文件在線備份文件共享傳統(tǒng)分布式文件系統(tǒng)NAS技術特點應用服務器以太網交換機文件系統(tǒng)RAID文件系統(tǒng)RAID網絡附加存儲NAS是一種文件網絡存儲結構,通過以太網及其他標準的網絡拓撲結構將存儲設備連接到許多計算機上,建立專用于數據存儲的存儲內部網絡文件協(xié)議支持NFS和CIFS網絡文件協(xié)議連接方式百兆/千兆以太網主要功能細顆粒度數據共享及跨平臺文件共享存儲擴展高達數百TB,不停機適用場景商業(yè)或企業(yè)級數據共享;高性能計算或技術計算優(yōu)點易于管理,節(jié)約成本缺點系統(tǒng)(包括存儲容量和性能)擴展性差以SUN-Lustre文件系統(tǒng)為例,它只對數據管理器MDS提供容錯解決方案。Lustre推薦OST(對象存儲服務器)節(jié)點采用成本較高的RAID技術或SAN存儲區(qū)域網絡來達到容災的要求,但Lustre自身不能提供數據存儲的容災,一旦OST發(fā)生故障就無法恢復,因此對OST的可靠性就提出了相當高的要求,大大增加了存儲的成本,這種成本的投入會隨著存儲規(guī)模的擴大線性增長。對象存儲技術對象存儲為海量非結構化數據提供Key-Value這種通過鍵-值查找數據文件的存儲模式,提供了基于對象的訪問接口,有效地合并了NAS和SAN的存儲結構優(yōu)勢,通過高層次的抽象具有NAS的跨平臺共享數據和基于策略的安全訪問優(yōu)點,支持直接訪問具有SAN的高性能和交換網絡結構的可伸縮性。對象存儲成為云存儲技術的新熱點技術特點訪問接口簡單,提供REST/SOAP接口協(xié)議開銷高、響應延遲較文件存儲長引入對象元數據描述對象特征應用系統(tǒng)跟存儲系統(tǒng)的耦合程度松散支持一次寫多次讀對象存儲技術對象是介于文件和塊之間的一種抽象,具有唯一的ID標識符。對象提供類似文件的訪問方法,如創(chuàng)建、打開、讀寫和關閉等。每個對象是一系列有序字節(jié)的集合,是數據和數據屬性集的綜合體。數據包括自身的元數據和用戶數據。數據屬性可以根據應用的需求進行設置,包括數據分布、服務質量等。對象維護自己的屬性,簡化了存儲系統(tǒng)的管理任務,增加了靈活性。對象分為根對象,組對象和用戶對象。對象特點對象存儲系統(tǒng)組成部分對象(Object):對象存儲的基本單元對象存儲設備(OSD):對象存儲系統(tǒng)的核心文件系統(tǒng):文件系統(tǒng)對用戶的文件操作進行解釋,并在元數據服務器和對象存儲設備間通信,完成所請求的操作。元數據服務器(MDS):為客戶端提供元數據網絡連接:對象存儲系統(tǒng)的重要組成部分。表存儲技術表存儲系統(tǒng)用來存儲和管理結構化/半結構化數據,向應用系統(tǒng)提供高可擴展的表存儲空間,包括交易型數據庫和分析型數據庫。NoSQL是設計滿足超大規(guī)模數據存儲需求的分布式存儲系統(tǒng),沒有固定的Schema,不支持join操作,通過“向外擴展”的方式提高系統(tǒng)負載能力。系統(tǒng)目標:管理結構化數據或半結構化數據交易型分析型TB~PB級NoSQL存儲日志詳單類存儲TB級OLTP關系數據庫OLAP數據倉庫交易型數據特點:每次更新或查找少量記錄,并發(fā)量大,響應時間短分析型數據特點:更新少,批量導入,每次針對大量數據進行處理,并發(fā)量小分布式表存儲技術特點適用場景NoSQL存儲通常不支持SQL、只有主索引、半結構化大規(guī)?;ヂ摼W社交網絡、博客、微博等日志詳單類存儲兼容SQL、索引通常只對單表有效、多表Join需掃描,支持MapReduce并行計算大規(guī)模日志存儲處理、信令系統(tǒng)處理、經分系統(tǒng)ETL等OLTP關系數據庫支持標準SQL、多表join、索引、事務計費系統(tǒng)、在線交易系統(tǒng)等OLAP數據倉庫支持標準SQL、多表Join、索引中等規(guī)模日志存儲處理、經分系統(tǒng)等分布式表存儲NoSQL數據庫分類類型主要產品特點列存儲HbaseCassandraHypertable顧名思義,是按列存儲數據的。最大的特點是方便存儲結構化和半結構化數據,方便做數據壓縮,對針對某一列或者某幾列的查詢有非常大的IO優(yōu)勢。文檔存儲MongoDBCouchDB文檔存儲一般用類似json的格式存儲,存儲的內容是文檔型的。這樣也就有有機會對某些字段建立索引,實現關系數據庫的某些功能。Key-Value存儲TCabinet/TyrantBerkeleyDBMemcacheDBRedis可以通過key快速查詢到其value。一般來說,存儲不管value的格式,照單全收。(Redis包含了其他功能)圖存儲Neo4JFlockDB圖形關系的最佳存儲。使用傳統(tǒng)關系數據庫來解決的話性能低下,而且設計使用不方便。對象存儲db4oVersant通過類似面向對象語言的語法操作數據庫,通過對象的方式存取數據。XML數據庫BerkeleyDBXMLBaseX高效的存儲XML數據,并支持XML的內部查詢語法,比如XQuery,Xpath。表存儲適應場景典型NoSQL數據庫適用場景數據庫最佳適用適用場景Cassandra寫操作較多,讀比較少的時候。如果你的系統(tǒng)都是基于Java的時候主要應用場景包括:銀行、金融行業(yè)、數據分析。應用于FacebookMongoDB主要支持海量數據存儲,動態(tài)查詢,定義索引,針對大數據庫的高性能使用,大容量磁盤空間。適用于:網站數據、緩存、大尺寸,低價值的數據、高伸縮性的場景、用于對象及JSON數據的存儲Redis在數據庫大小可預見的前提下,適用于數據變化速度快的應用較小數據量的高性能操作和運算上,包括:股價系統(tǒng)、數據分析、實時數據采集以及實時通信場景CouchD對于數據變化不太頻繁的業(yè)務,運行有預先定義的查詢。此外對于版本控制有高要求的業(yè)務同樣適用CRM、CMS系統(tǒng)等HBase類似于BigTable,需要隨即、實時的讀寫大數據適合于非結構化數據存儲的數據庫,如:Facebook網站、郵件數據庫等各種存儲技術對比

分布式對象存儲分布式文件存儲塊存儲NoSQL存儲存儲單位對象,就是帶客戶化元數據的文件文件數據塊文檔更新方式不支持就地更新,通過建立新的對象版本進行更新支持就地更新支持就地更新很少更新協(xié)議通過HTTP的REST和SOAPCIFS和NFSSCSI,FiberChannel和SATAApache協(xié)議,HTTP/REST元數據支持支持客戶化元數據固有的文件系統(tǒng)屬性固有的系統(tǒng)屬性固有的文件系統(tǒng)屬性最佳應用場景相對靜態(tài)的文件數據和云存儲共享文件數據交易數據和頻繁變化的數據非關系型數據存儲,適用于海量數據存儲和OLAP的應用場景最大優(yōu)勢擴展性和分布式訪問簡單的共享文件訪問和管理高性能易擴展、靈活的數據模型、高可用、大數據量,高性能制約因素不適合頻繁變化的交易數據;不提供基于鎖機制的共享協(xié)議很難擴展到數據中心之外的范疇很難擴展到數據中心之外的范疇很難實現數據的完整性;缺乏強有力的技術支持等存儲類型存儲類型分布式文件存儲對象存儲直接附加存儲DAS塊存儲表存儲存儲域網絡SANIPSANFCSAN網絡附加存儲NAS日志詳單類存儲NoSQL存儲Google文件系統(tǒng)GFSHadoop分布式文件系統(tǒng)OLTP關系數據庫OLAP數據倉庫BC-oNestAmazonS3BigTableHBaseSwiftCassandraMongodb存儲虛擬化企業(yè)用戶面對日益復雜的異構平臺,不同廠商的產品,不同種類的存儲設備,給存儲管理帶來諸多難題。數據應用已不再局限于某一企業(yè)和部門,而分布于整個網絡環(huán)境。系統(tǒng)整合、資源共享、簡化管理、降低成本以及自動存儲將成為信息存儲技術的發(fā)展要求。存儲虛擬化技術(StorageVirtualization)是解決這些問題的有效手段,現成為信息存儲技術的主要發(fā)展方向。隨著網絡存儲的飛速發(fā)展給存儲虛擬化賦予了新的內涵。使之成為共享存儲管理中的主流技術。

存儲虛擬化的基本原理是:把多個存儲介質模塊(如硬盤、磁盤、磁帶)通過一定手段集中管理,把不同接口協(xié)議(如SCSI,iSCSI或FC等)的物理存儲設備(如JBOD,RAID和磁帶庫等)整合成一個虛擬的存儲池,根據需要為主機創(chuàng)建和提供虛擬存儲卷。即把不同存儲硬件抽象出來,以管理工具來實現統(tǒng)一的管理,不必再管后端的介質到底是什么。存儲虛擬化

虛擬化的目的主要有三個:抽象,隱藏,隔離。存儲虛擬化的目的是為了提高設備使用效率,統(tǒng)一數據管理功能,設備構件化,降低管理難度,提高可擴展性,數據跨設備流動,其技術如下圖所示。從系統(tǒng)的觀點看,存儲虛擬化有3種途徑:基于主機的存儲虛擬化、基于網絡的存儲虛擬化、基于存儲設備的存儲虛擬化?;谥鳈C的存儲虛擬化

基于主機的虛擬存儲依靠于代理軟件,它們安裝在一個或多個主機上,實現存儲虛擬化的控制和治理。它的實現方式一般由操作系統(tǒng)下的邏輯卷管理軟件完成(安裝客戶端軟件),不同操作系統(tǒng)的邏輯卷管理軟件也不相同。優(yōu)點支持異構的存儲系統(tǒng)缺點:占用主機資源,降低應用性能存在操作系統(tǒng)和應用的兼容性問題導致主機升級、維護和擴展非常復雜,而且容易造成系統(tǒng)不穩(wěn)定性需要復雜的數據遷移過程,影響業(yè)務連續(xù)性?;诰W絡的存儲虛擬化

基于網絡的虛擬化方法是在網絡設備之間實現存儲虛擬化功能,它將類似于卷管理的功能擴展到整個存儲網絡,負責管理Host視圖、共享存儲資源、數據復制、數據遷移及遠程備份等,并對數據路徑進行管理避免性能瓶頸。它的實現方式通過在存儲域網(SAN)中添加虛擬化引擎實現。優(yōu)點與主機無關,不占用主機資源能夠支持異構主機、異構存儲設備使不同存儲設備的數據管理功能統(tǒng)一構建統(tǒng)一管理平臺,可擴展性好缺點:部分廠商數據管理功能弱,難以達到虛擬化統(tǒng)一數據管理的目的部分廠商產品成熟度較低,仍然存在和不同存儲和主機的兼容性問題。基于存儲設備的存儲虛擬化

基于存儲設備的存儲虛擬化方法依賴于提供相關功能的存儲模塊,它的實現方式是,在存儲控制器上添加虛擬化功能(虛擬化引擎)。優(yōu)點與主機無關,不占用主機資源數據管理功能豐富。缺點:一般只能實現對本設備內磁盤的虛擬化不同廠商間的數據管理功能不能互操作多套存儲設備需配置多套數據管理軟件,成本較高。存儲虛擬化技術對比

不同的存儲虛擬化技術都有其適用場景和優(yōu)勢,下表給出了三種存儲虛擬化技術各種特性的對比。比較內容基于主機基于存儲設備基于網絡存儲視圖一致性差好好單點管理否是是主機是否安裝管理軟件需要不需要不需要獨立于主機或存儲設備非獨立非獨立獨立統(tǒng)一存儲池是是是存儲分配靈活性差好好性能差差好SAN擴展性差好好SAN高可用性差好好SAN安全性差好好相對價格低高中應用案例多少少主要用途使服務器的存儲空間可以跨越多個異構存儲陣列,常用于在不同磁盤陣列之間做數據鏡像保護異構存儲系統(tǒng)整合和統(tǒng)一數據管理(如容災備份)異構存儲系統(tǒng)整合和統(tǒng)一數據管理(如容災備份)適用場景主機已采用SF卷(即Storage

Foundation,一種磁盤管理工具)管理,需要新接多臺存儲設備;存儲系統(tǒng)中包含異構陣列設備;業(yè)務持續(xù)能力與數據吞吐要求較高系統(tǒng)中包括自帶虛擬化功能的高端存儲設備與若干需要利舊的中低端存儲系統(tǒng)包括不同品牌和型號的主機與存儲設備;對數據無縫遷移及數據格式轉換有較高時間保證提綱存儲基礎知識云存儲概念與技術原理對象存儲技術存儲技術趨勢傳統(tǒng)塊存儲與對象存儲在傳統(tǒng)的存儲系統(tǒng)中用文件或塊作為基本的存儲單位,塊設備要記錄每個存儲數據塊在設備上的位置;而在對象存儲系統(tǒng)中,對象是數據存儲的基本單元,Object維護自己的屬性,從而簡化了存儲系統(tǒng)的管理任務,增加了靈活性,在存儲設備中,所有對象都有一個對象標識,通過對象標識OSD命令訪問該對象。對象存儲架構對象存儲的核心是將數據通路(數據讀或寫)和控制通路(元數據)分離,并且基于對象存儲設備(Object-basedStorageDevice,OSD)構建存儲系統(tǒng),每個對象存儲設備具有一定的智能,能夠自動管理其上的數據分布。對象存儲結構由對象、對象存儲設備、元數據服務器、對象存儲系統(tǒng)的客戶端四部分組成。對象的組成對象是系統(tǒng)中數據存儲的基本單位,每個Object是數據和數據屬性集的綜合體,數據屬性可以根據應用的需求進行設置,包括數據分布、服務質量等。對象基本存儲單元名字空間:對象ID數據元數據元數據類似于inode,描述了對象在磁盤上的塊分布屬性根據需要而定義E.g.多媒體對象的延遲和吞吐請求因此,對象存儲就是實現對象具有高性能、高可靠性、跨平臺以及安全的數據共享的存儲體系,是塊和文件之外的存儲形式對象(Object)包含了文件數據以及相關的屬性信息,可以進行自我管理對象存儲結構

傳統(tǒng)的訪問層次和虛擬數據訪問模型對象存儲系統(tǒng)組成

對象(Object)包含了文件數據以及相關的屬性信息,可以進行自我管理OSD(Object-basedStorageDevice)一個智能設備,是Object的集合文件系統(tǒng)文件系統(tǒng)運行在客戶端上,將應用程序的文件系統(tǒng)請求傳輸到MDS和OSD上元數據服務器(MetadataServer,MDS)系統(tǒng)提供元數據、Cache一致性等服務網絡連接網絡連接是對象存儲系統(tǒng)的重要組成部分。它將客戶端、MDS和OSD連接起來,構成了一個完整的系統(tǒng)對象的分類OSD(Object-basedStorageDevice)

每個OSD都是一個智能設備,具有自己的存儲介質、處理器、內存以及網絡系統(tǒng)等,負責管理本地的Object,是對象存儲系統(tǒng)的核心。OSD同塊設備的不同不在于存儲介質,而在于兩者提供的訪問接口。OSD的主要功能包括數據存儲和安全訪問。目前國際上通常采用刀片式結構實現對象存儲設備。OSD的主要功能

OSD提供三個主要功能:(1)數據存儲。OSD管理對象數據,并將它們放置在標準的磁盤系統(tǒng)上,OSD不提供塊接口訪問方式,Client請求數據時用對象ID、偏移進行數據讀寫。(2)智能分布。OSD用其自身的CPU和內存優(yōu)化數據分布,并支持數據的預取。由于OSD可以智能地支持對象的預取,從而可以優(yōu)化磁盤的性能。(3)每個對象元數據的管理。OSD管理存儲在其上對象的元數據,該元數據與傳統(tǒng)的inode元數據相似,通常包括對象的數據塊和對象的長度。而在傳統(tǒng)的NAS系統(tǒng)中,這些元數據是由文件服務器維護的,對象存儲架構將系統(tǒng)中主要的元數據管理工作由OSD來完成,降低了Client的開銷。OSD功能說明:OSD使用Object對所保存的數據進行管理。它將數據存放到磁盤的磁道和扇區(qū),將若干磁道和扇區(qū)組合起來構成Object,并且通過此Object向外界提供對數據的訪問。每個Object同傳統(tǒng)的文件相似,使用同文件類似的訪問接口,包括Open、Read、Write等。但是兩者并不相同,每個Object可能包括若干個文件,也可能是某個文件的一部分,且是獨立于操作系統(tǒng)的。除了具體的用戶數據外,OSD還記錄了每個Object的屬性信息,主要是物理視圖信息。將這些信息放到OSD上,大大減輕了元數據服務器的負擔,增強了整個存儲系統(tǒng)的并行訪問性能和可擴展性。如圖顯示了OSD的作用。文件系統(tǒng)

文件系統(tǒng)對用戶的文件操作進行解釋,并在元數據服務器和OSD間通信,完成所請求的操作?,F有的應用對數據的訪問大部分都是通過POSIX文件方式進行的,對象存儲系統(tǒng)提供給用戶的也是標準的POSIX文件訪問接口。接口具有和通用文件系統(tǒng)相同的訪問方式,同時為了提高性能,也具有對數據的Cache功能和文件的條帶功能。同時,文件系統(tǒng)必須維護不同客戶端上Cache的一致性,保證文件系統(tǒng)的數據一致元數據服務器(MetadataServer)

MDS控制Client與OSD對象的交互,主要提供以下功能:(1)對象存儲訪問:MDS構造、管理描述每個文件分布的視圖,允許Client直接訪問對象。MDS為Client提供訪問該文件所含對象的能力,OSD在接收到每個請求時將先驗證該能力,然后才可以訪問。(2)文件和目錄訪問管理:MDS在存儲系統(tǒng)上構建一個文件結構,包括限額控制、目錄和文件的創(chuàng)建和刪除、訪問控制等。(3)ClientCache一致性:為了提高Client性能,在對象存儲系統(tǒng)設計時通常支持Client方的Cache。由于引入Client方的Cache,帶來了Cache一致性問題,MDS支持基于Client的文件Cache,當Cache的文件發(fā)生改變時,將通知Client刷新Cache,從而防止Cache不一致引發(fā)的問題。對象存儲與傳統(tǒng)存儲的對比存儲接口存儲系統(tǒng)優(yōu)點缺點塊級存儲塊塊存儲設備如:SAN,提供高性能的隨機I/O和數據吞吐率可擴展性和可管理性較差、價格較高、不能滿足成千上萬CPU規(guī)模的系統(tǒng)文件儲存文件塊存儲設備+文件系統(tǒng)如:NAS,擴展性好、易于管理、價格便宜開銷高、帶寬低、延遲大,不利于高性能集群中應用對象存儲對象塊存儲設備+文件系統(tǒng)+定位邏輯+應用程序支持高并行性、可伸縮的數據訪問,管理性好、安全性高、適合高性能集群使用處于發(fā)展階段,相應的硬件、軟件支持有待進一步完善基于Hadoop構建對象存儲系統(tǒng)系統(tǒng)組成:對象訪問接口層(AccessEdge)、對象元數據存儲層(MetaDataStorage)、對象實體數據存儲(DataNode)和歸檔管理(ArchiveManagement)59基于Hadoop構建對象存儲系統(tǒng)HDFS上的對象數據存儲:為了減少HDFS中小文件的數據,將小的對象文件和歸檔文件歸檔。60基于Hadoop構建對象存儲系統(tǒng)桶的創(chuàng)建和刪除61基于Hadoop構建對象存儲系統(tǒng)對象的創(chuàng)建62基于Hadoop構建對象存儲系統(tǒng)對象的刪除63基于Hadoop構建對象存儲系統(tǒng)小文件的歸檔管理:主要由周期性執(zhí)行的MapReduce任務完成64提綱存儲基礎知識云存儲概念與技術原理對象存儲技術存儲技術趨勢存儲技術趨勢存儲技術趨勢包括以下幾個方面:1)存儲虛擬化2)固態(tài)硬盤SSD3)重復數據刪除4)語義化檢索5)存儲智能化6)混合存儲系統(tǒng)7)軟件定義存儲SDS存儲技術趨勢1)存儲虛擬化存儲虛擬化是目前以及未來的存儲技術熱點,目前最新的存儲虛擬化技術有自動分級存儲(HSM)、自動精減配置(Thinprovision)、云存儲(Cloudstorage)、分布式文件系統(tǒng)(Distributedfilesystem),另外還有諸如動態(tài)內存分區(qū)、SAN和NAS虛擬化。2)語義化檢索數據檢索目前主要分為兩類,一是基于文件名,二是基于文件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論