課程設計大報告_第1頁
課程設計大報告_第2頁
課程設計大報告_第3頁
課程設計大報告_第4頁
課程設計大報告_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、課程設計大報告云存儲關鍵技術班級:021151學號:02115036學生:王亦瑋指導老師:朱虎明時間:2014年9月云存儲關鍵技術綜述班級:021151學號:02115036學生:王亦瑋指導老師:朱虎明0前言隨著海量存儲系統(tǒng)的出現(xiàn)與并行文件系統(tǒng)、分布式文件系統(tǒng)的發(fā)展,云存儲系統(tǒng)建立在云計算技術基礎之上,以其成本低、可拓展的特點,將成為未來主要的存儲方式。本文是一篇關于云存儲關鍵技術的綜述。開始部分從4個角度定義了云存儲,接著有云存儲架構的介紹,包括一些基本概念,然后就是本文的核心部分云存儲關鍵技術,分為7大技術進行闡述。包括有虛擬化,分布式存儲,數(shù)據(jù)備份、縮減、遷移、壓縮及內容分布網(wǎng)絡技術,最

2、后還有提到云存儲的優(yōu)勢、安全問題和云存儲的現(xiàn)狀及發(fā)展。1云存儲的定義1.1定義1云存儲系統(tǒng)以傳統(tǒng)的分布式存儲技術為基礎,利用高吞吐率網(wǎng)絡技術為依托,一方面高效地整合管理網(wǎng)絡存儲資源,另一方面對外提供友好的接口,發(fā)布便捷的網(wǎng)絡數(shù)據(jù)存儲服務。1.2定義2從狹義上來說,云存儲是指通過虛擬化、分布式技術、集群應用、網(wǎng)格技術、負載均衡等技術,將網(wǎng)絡中大量的存儲設備通過軟件集合起來高效協(xié)同工作,共同對外提供低成本、高擴展性的數(shù)據(jù)存儲服務。從廣義上來講,云存儲可以理解為按需提供的虛擬存儲資源,如同云計算的Paas、laas服務一樣,可稱為數(shù)據(jù)存儲即服務(DataStorageAsaService,DaaS)

3、,即基于指定的服務水平請求,通過網(wǎng)絡提供適當?shù)奶摂M存儲和相關數(shù)據(jù)服務。1.3定義3云存儲不是指某一個具體的設備,而是指一個由許許多多個存儲設備和服務器所構成的集合體。使用者使用云存儲,并不是使用某一個存儲設備,而是使用整個云存儲系統(tǒng)帶來的一種數(shù)據(jù)訪問服務。云存儲的核心是應用軟件與存儲設備相結合,通過應用軟件來TOCo1-5hz實現(xiàn)存儲設備向存儲服務的轉變。1.4定義4云存儲就是將儲存資源放到網(wǎng)絡上供人存取的一種新興方案。使用者可以在任何時間、任何地方,透過任何可連網(wǎng)的裝置方便地存取數(shù)據(jù)。綜合以上定義,云存儲系統(tǒng)應具有以下通用特征:高可擴展性:云存儲系統(tǒng)可支持海量數(shù)據(jù)處理,資源可以實現(xiàn)按需擴展;

4、低成本:云存儲系統(tǒng)應具備高性價比的特點,低成本體現(xiàn)在兩方面,更低的建設成本和更低的運維成本;無接入限制:相比傳統(tǒng)存儲,云存儲強調對用戶存儲的靈活支持,服務域內存儲資源可以隨處接入,隨時訪問;易管理:少量管理員可以處理上千節(jié)點和PB級存儲,更高效的支撐大量上層應用對存儲資源的快速部署需求。2云存儲架構云存儲是由一個網(wǎng)絡設備、存儲設備、服務器、應用軟件、公用訪問接口、接入網(wǎng)和客戶端程序等組成的復雜系統(tǒng)。以存儲設備為核心,通過應用軟件來對外提供數(shù)據(jù)存儲和業(yè)務訪問服務。云存儲的架構如下圖所示:應用護口層網(wǎng)絡接入、用戶認證r權根管理公用API摟口、應用豐欠件、恥bServin等基礎管理層集群系統(tǒng)分布式文

5、件聚統(tǒng)網(wǎng)絡計算內容分發(fā)P2P重復數(shù)據(jù)刪除數(shù)據(jù)壓縮數(shù)據(jù)加密敵據(jù)備份數(shù)據(jù)容災訪問層訪問層個人空間服務運營商空間租賃竽企事業(yè)單位實現(xiàn)數(shù)揺備粉、數(shù)據(jù)歸檔、集中存儲、遠程共享視頻監(jiān)控、IPTV集中存儲、網(wǎng)站犬容量在線存儲存儲層存儲層存儲虛擬化*存儲集中管理、狀態(tài)監(jiān)控、維護升級、存儲設備云存儲架構存儲層:存儲設備數(shù)量龐大且分布在不同地域,彼此通過廣域網(wǎng)、互聯(lián)網(wǎng)或光纖通道網(wǎng)絡連接在一起。在存儲設備之上是一個統(tǒng)一存儲設備管理系統(tǒng),實現(xiàn)存儲設備的邏輯虛擬化管理、多鏈路冗余管理,以及硬件設備的狀態(tài)監(jiān)控和故障維護?;A管理層:通過集群、分布式文件系統(tǒng)和網(wǎng)格計算等技術,實現(xiàn)云存儲設備之間的協(xié)同工作,使多個的存儲設備可

6、以對外提供同一種服務,并提供更大更強更好的數(shù)據(jù)訪問性能。數(shù)據(jù)加密技術保證云存儲中的數(shù)據(jù)不會被未授權的用戶訪問,數(shù)據(jù)備份和容災技術可以保證云存儲中的數(shù)據(jù)不會丟失,保證云存儲自身的安全和穩(wěn)定。應用接口層:不同的云存儲運營商根據(jù)業(yè)務類型,開發(fā)不同的服務接口,提供不同的服務。例如視頻監(jiān)控、視頻點播應用平臺、網(wǎng)絡硬盤,遠程數(shù)據(jù)備份應用等。訪問層:授權用戶可以通過標準的公用應用接口來登錄云存儲系統(tǒng),享受云存儲服務。3云存儲中的關鍵技術3.1云存儲中的存儲虛擬化通過存儲虛擬化方法,把不同廠商、不同型號、不同通信技術、不同類型的存儲設備互聯(lián)起來,將系統(tǒng)中各種異構的存儲設備映射為一個統(tǒng)一的存儲資源池。存儲虛擬化

7、技術能夠對存儲資源進行統(tǒng)一分配管理,又可以屏蔽存儲實體間的物理位置以及異構特性,實現(xiàn)了資源對用戶的透明性,降低了構建、管理和維護資源的成本,從而提升云存儲系統(tǒng)的資源利用率。主要存儲虛擬化技術存儲虛擬化技術雖然不同設備與廠商之間略有區(qū)別,但從總體來說,可概括為基于主機虛擬化、基于存儲設備虛擬化和基于存儲網(wǎng)絡虛擬化三種技術。基于主機的虛擬化存儲的實現(xiàn),其核心技術是通過增加一個運行在操作系統(tǒng)下的邏輯卷管理軟件將磁盤上的物理塊號映射成邏輯卷號,并以此實現(xiàn)把多個物理磁盤陣列映射成一個統(tǒng)一的虛擬的邏輯存儲空間(邏輯塊)實現(xiàn)存儲虛擬化的控制和管理。從技術實施層面看,基于主機的虛擬化存儲不需要額外的硬件支持,

8、便于部署,只通過軟件即可實現(xiàn)對不同存儲資源的存儲管理。但是,虛擬化控制軟件也導致了此項技術的主要缺點:首先,軟件的部署和應用影響了主機性能;其次,各種與存儲相關的應用通過同一個主機,存在越權訪問的數(shù)據(jù)安全隱患;最后,通過軟件控制不同廠家的存儲設備存在額外的資源開銷,進而降低系統(tǒng)的可操作性與靈活性。基于存儲設備虛擬化技術依賴于提供相關功能的存儲設備的陣列控制器模塊,常見于高端存儲設備,其主要應用針對異構的SAN存儲構架。此類技術的主要優(yōu)點是不占主機資源技術成熟度高,容易實施;缺點是核心存儲設備必須具有此類功能,且消耗存儲控制器的資源,同時由于異構廠家磁盤陣列設備的控制功能被主控設備的存儲控制器接

9、管導致其高級存儲功能將不能使用?;诖鎯W(wǎng)絡虛擬化的技術的核心是在存儲區(qū)域網(wǎng)中增加虛擬化引擎實現(xiàn)存儲資源的集中管理,其具體實施一般是通過具有虛擬化支持能力的路由器或交換機實現(xiàn)。在此基礎上,存儲網(wǎng)絡虛擬化又可以分為帶內虛擬化與帶外虛擬化兩類,二者主要的區(qū)別在于:帶內虛擬化使用同一數(shù)據(jù)通道傳送存儲數(shù)據(jù)和控制信號,而帶外虛擬化使用不同的通道傳送數(shù)據(jù)和命令信息?;诖鎯W(wǎng)絡的存儲虛擬化技術架構合理,不占用主機和設備資源;但是其存儲陣列中設備的兼容性需要嚴格驗證,與基于設備的虛擬化技術一樣,由于網(wǎng)絡中存儲設備的控制功能被虛擬化引擎所接管,導致存儲設備自帶的高級存儲功能將不能使用。存儲虛擬化技術對比用表格

10、的方式對三種存儲虛擬化技術的技術優(yōu)點與缺點、適應場景等進行了分析對比,結果如下:存儲虛擬化按術討比翊L層面主機丈打異構的存儲採烷;不占用時盤控制黠費檢與主機無關不占用主機貿視;能蚌支持畀構主機“異構存儲設備;對蘋同存儲設備他統(tǒng)一普程平臺I可擴展性好與爭機無務,不占用主機黑a;數(shù)據(jù)營理功弗豐常:技術戰(zhàn)熟度盍占用主機資涯”障低應用性能:存在撇作系折和應用的叢容性問懸;主機數(shù)呈越多卜背理咸本駆高占用交換機資涯;面臨芾內、莆外的遶捧;存楠逵備豪容性彌整產(chǎn)格驗述;原肯的甜盤暉劌的高級存儲功罷將不能使用憑制于存儲揑制甜授口資憑虛擬化禮力較前;異構廠家存?zhèn)蛟O備的高誠存儲功能辮證橈用王要用逢滾巌爵器的存髀空問

11、町以跨延雪個異枸謎盤薩劌塞用子隹不圖讎聳薩列之間冊葩彊蝶懂保護異構存請系扌元St含和饒一數(shù)掘営理1災備)SftSilSiSS含宛攬一數(shù)據(jù)苜餐(磁)主抓已王旳SF卷莒理.需剽很系甄中包把自帶虛船化功能的商舶?睛設備與若干需要利舊的中(慮鎖存?zhèn)蜻m用場捷予臺存儲謖備;存請親頓中包含澤構陣列設備;業(yè)務持拔翅力與辭據(jù)卷吐菱求玫鬲系箱包拈下冋品牌和型r的主機與苻儲設番;對數(shù)據(jù)無顯遷畤艮數(shù)搪牯式樣摘春較高時團性幌證不適用場量主機數(shù)量大采用5F會涉及高昂的貰用;特遷入來航數(shù)據(jù)量過大*如鶏丸龍聲取存Hf級遷務方武廈囂僭式轉戡將住竇犬童的時冋和人力對業(yè)務持續(xù)龍力和詒定性要衣苛希要新購機去時費用稅茴;存在更高靖的存

12、儲設備3.2云存儲中的分布式存儲技術分布式存儲是通過網(wǎng)絡使用服務商提供的各個存儲設備上的存儲空間,并將這些分散的存儲資源構成一個虛擬的存儲設備,數(shù)據(jù)分散的存儲在各個存儲設備上。目前比較流行的分布式存儲技術為:分布式塊存儲、分布式文件系統(tǒng)存儲、分布式對象存儲和分布式表存儲。分布式塊存儲塊存儲就是服務器直接通過讀寫存儲空間中的一個或一段地址來存取數(shù)據(jù)。由于采用直接讀寫磁盤空間來訪問數(shù)據(jù),相對于其他數(shù)據(jù)讀取方式,塊存儲的讀取效率最高,一些大型數(shù)據(jù)庫應用只能運行在塊存儲設備上。分布式塊存儲系統(tǒng)目前以標準的Intel/Linux硬件組件作為基本存儲單元,組件之間通過千兆以太網(wǎng)采用任意點對點拓撲技術相互連

13、接,共同工作,構成大型網(wǎng)格存儲,網(wǎng)格內采用分布式算法管理存儲資源。此類技術比較典型的代表是IBMXIV存儲系統(tǒng),其核心數(shù)據(jù)組件為基于Intel內核的磁盤系統(tǒng),卷數(shù)據(jù)分布到所有磁盤上,從而具有良好的并行處理能力;放棄RAID技術,采用冗余數(shù)據(jù)塊方式進行數(shù)據(jù)保護,統(tǒng)一采用SATA盤,從而降低了存儲成本。分布式文件系統(tǒng)存儲文件存儲系統(tǒng)可提供通用的文件訪問接口,如POSIX、NFS、CIFS、FTP等,實現(xiàn)文件與目錄操作、文件訪問、文件訪問控制等功能。目前的分布式文件系統(tǒng)存儲的實現(xiàn)有軟硬件一體和軟硬件分離兩種方式。主要通過NAS虛擬化,或者基于X86硬件集群和分布式文件系統(tǒng)集成在一起,以實現(xiàn)海量非結構

14、化數(shù)據(jù)處理能力。軟硬件一體方式的實現(xiàn)基于X86硬件,利用專有的、定制設計的硬件組件,與分布式文件系統(tǒng)集成在一起,以實現(xiàn)目標設計的性能和可靠性目標;產(chǎn)品代表Isilon,IBMSONASGPFS。軟硬件分離方式的實現(xiàn)基于開源分布式文件系統(tǒng)對外提供彈性存儲資源,軟硬件分離方式可采用標準PC服務器硬件;典型開源分布式文件系統(tǒng)有GFS、HDFS。分布式對象存儲對象存儲是為海量數(shù)據(jù)提供Key-Value這種通過鍵值查找數(shù)據(jù)文件的存儲模式;對象存儲引入對象元數(shù)據(jù)來描述對象特征,對象元數(shù)據(jù)具有豐富的語義;引入容器概念作為存儲對象的集合。對象存儲系統(tǒng)底層基于分布式存儲系統(tǒng)來實現(xiàn)數(shù)據(jù)的存取,其存儲方式對外部應用

15、透明。這樣的存儲系統(tǒng)架構具有高可擴展性,支持數(shù)據(jù)的并發(fā)讀寫,一般不支持數(shù)據(jù)的隨機寫操作。最典型的應用實例就是亞馬遜的S3(AmazonSimpleStorageService)。對象存儲技術相對成熟,對底層硬件要求不高,存儲系統(tǒng)可靠性和容錯通過軟件實現(xiàn),同時其訪問接口簡單,適合處理海量、小數(shù)據(jù)的非結構化數(shù)據(jù),女口:郵箱、網(wǎng)盤、相冊、音頻視頻存儲等分布式表存儲表結構存儲是一種結構化數(shù)據(jù)存儲,如傳統(tǒng)數(shù)據(jù)庫相比,它提供的表空間訪問功能受限,但更強調系統(tǒng)的可擴展性。提供表存儲的云存儲系統(tǒng)的特征就是同時提供高并發(fā)的數(shù)據(jù)訪問性能和可伸縮的存儲和計算架構。提供表存儲的云存儲系統(tǒng)有兩類接口訪問方式。一類是標準

16、的xDBC、SQL數(shù)據(jù)庫接口,一類是Map-reduce的數(shù)據(jù)倉庫應用處理接口。前者目前以開源技術為主,尚未有成熟的商業(yè)軟件,后者已有商業(yè)軟件和成功的商業(yè)應用案例。分布式存儲總結如今分布式存儲系統(tǒng)已經(jīng)得到了快速的發(fā)展,其技術已經(jīng)較為成熟。先進的分布式存儲系統(tǒng)必須具備下面幾個特性:高性能、高可靠性、高可擴展性、透明性以及自治性。高性能:對于分布式系統(tǒng)中的每一個用戶都要盡量減小網(wǎng)絡的延遲和因網(wǎng)絡擁塞、網(wǎng)絡斷開、節(jié)點退出等問題造成的影響;高可靠性:高可靠性是大多數(shù)系統(tǒng)設計時重點考慮的問題。分布式環(huán)境通常都有高可靠TOCo1-5hz性需求,用戶將文件保存到分布式存儲系統(tǒng)的基本要求是數(shù)據(jù)可靠;高可擴展性

17、:分布式存儲系統(tǒng)需要能夠適應節(jié)點規(guī)模和數(shù)據(jù)規(guī)模的擴大;透明性:需要讓用戶在訪問網(wǎng)絡中其他節(jié)點中的數(shù)據(jù)時能感到像是訪問自己本機的數(shù)據(jù)一樣;自治性:分布式存儲系統(tǒng)需要擁有一定的自我維護和恢復功能。3.3云存儲中的數(shù)據(jù)備份副本數(shù)據(jù)布局一種被廣泛采用的副本布局方式是通過集中式的存儲目錄來定位數(shù)據(jù)對象的存儲位置這種方法可以利用存儲目錄中存放的存儲節(jié)點信息,將數(shù)據(jù)對象的多個副本放置在不同機架上,這樣可大大提高系統(tǒng)的數(shù)據(jù)可靠性。谷歌文件系統(tǒng)(GoogleFileSystem,GFS)、Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)等著名的分布式文件系統(tǒng)都采用了

18、這種數(shù)據(jù)布局方式,然而,基于集中式存儲目錄的數(shù)據(jù)放置方式存在以下兩個缺陷:TOCo1-5hz隨著存儲目錄的增長,查找數(shù)據(jù)對象所需的開銷也會越來越大;為提高數(shù)據(jù)對象的定位速度,一般情況下都會將存儲目錄存放在服務器內存中,對于PB級的云存儲系統(tǒng)來說,文件的數(shù)量可能達到上億級,這導致存儲目錄將會占用上百GB的內存。因此,當數(shù)據(jù)對象數(shù)量達到上億級別時,基于集中式存儲目錄的數(shù)據(jù)放置方法在存儲開銷和數(shù)據(jù)定位的時間開銷上都是難以接受的,此外,還會大大限制系統(tǒng)的擴展性。另一種副本布局方法是基于哈希算法的副本布局方法,它完全摒棄了記錄數(shù)據(jù)對象映射信息的做法?;诠K惴ǖ母北静季址椒ㄐ枰獫M足以下要求:1.均衡性

19、:根據(jù)節(jié)點權重為存儲節(jié)點分配數(shù)據(jù)對象。2動態(tài)自適應性:當系統(tǒng)中的節(jié)點數(shù)量發(fā)生變化時,需遷移的數(shù)據(jù)量應該盡量少。3低性能開銷。4.高效性:確定副本位置所需的時間開銷盡可能小,理想情況下為0(1)。傳統(tǒng)的備份策略典型的用戶備份流程是這樣的:每天都要在凌晨進行一次增量備份,然后每周末凌晨進行全備份。采用這種方法,一旦出現(xiàn)了數(shù)據(jù)災難,用戶可以恢復到某天(注意是以天為單位的)的數(shù)據(jù),因此在最壞的情況下,可能丟失整整一天的數(shù)據(jù)。那么,能不能縮小備份時間單位呢?比如,可不可以每半天進行一次增量備份呢?答案是非常困難。因為每次進行備份的數(shù)據(jù)量都很大的情況下,備份時間窗口很大,需要繁忙的業(yè)務系統(tǒng)停機很長時間才能

20、做到。因此,為了確保數(shù)據(jù)的更高安全性,用戶必須對在線系統(tǒng)實行在線實時復制,盡可能多TOCo1-5hz地采用快照等磁盤管理技術維持數(shù)據(jù)的高可用性,這樣勢必需要增加很大一部分投資。連續(xù)數(shù)據(jù)保護連續(xù)數(shù)據(jù)保護(CDP)是一種連續(xù)捕獲和保存數(shù)據(jù)變化,并將變化后的數(shù)據(jù)獨立于初始數(shù)據(jù)進行保存的方法,而且該方法可以實現(xiàn)過去任意一個時間點的數(shù)據(jù)恢復。CDP系統(tǒng)可能基于塊、文件或應用,并且為數(shù)量無限的可變恢復點提供精細的可恢復對象。因此,所有的CDP解決方案都應當具備以下幾個基本的特性:數(shù)據(jù)的改變受到連續(xù)的捕獲和跟蹤;所有的數(shù)據(jù)改變都存儲在一個與主存儲地點不同的獨立地點中;恢復點目標是任意的,而且不需要在實際恢復

21、之前事先定義。所以,CDP可以提供更快的數(shù)據(jù)檢索、更強的數(shù)據(jù)保護和更高的業(yè)務連續(xù)性能力,而與傳統(tǒng)的備份解決方案相比,CDP的總體成本和復雜性都要低。盡管一些廠商推出了CDP產(chǎn)品,然而從它們的功能上分析,還做不到真正連續(xù)的數(shù)據(jù)保護,比如有的產(chǎn)品備份時間間隔為一小時,那么在這一小時內仍然存在數(shù)據(jù)丟失的風險因此,嚴格地講,它們還不是完全意義上的CDP產(chǎn)品,目前我們只能稱之為類似CDP產(chǎn)品。3.4云存儲中的數(shù)據(jù)縮減技術為應對數(shù)據(jù)存儲的急劇膨脹,企業(yè)需要不斷購置大量的存儲設備來滿足不斷增長的存儲需求。權威調查機構的研究發(fā)現(xiàn),企業(yè)購買了大量的存儲設備,但是利用率往往不足50%,存儲投資回報率水平較低。數(shù)據(jù)

22、量的急劇增長為存儲技術提出了新的問題和要求,怎樣低成本高效快速地解決無限增長的信息的存儲和計算問題擺在科學家的面前。通過云存儲技術不僅解決了存儲中的高安全性、可靠性、可擴展、易管理等存儲的基本要求,同時也利用云存儲中的數(shù)據(jù)縮減技術,滿足海量信息爆炸式增長趨勢,一定程度上節(jié)約企業(yè)存儲成本,提高效率。自動精簡配置自動精簡配置是一種存儲管理的特性,核心原理是欺騙”操作系統(tǒng),讓操作系統(tǒng)認為存儲設備中有很大的存儲空間,而實際的物理存儲空間則沒有那么大。傳統(tǒng)配置技術為了避免重新配置可能造成的業(yè)務中斷,常常會過度配置容量。在這種情況下,一旦存儲分配給某個應用,就不可能重新分配給另一個應用,由此就造成了已分配

23、的容量沒有得到充分利用,導致了資源的極大浪費。而精簡配置技術帶給用戶的益處是大大提高了存儲資源的利用率,提高了配置管理效率,實現(xiàn)高自動化的數(shù)據(jù)存儲。自動精簡配置技術是利用虛擬化方法減少物理存儲空間的分配,最大限度提升存儲空間利用率。這種技術節(jié)約的存儲成本可能會非常巨大,并且使存儲的利用率超90%。通過欺騙”操作系統(tǒng),造成的好像存儲空間有足夠大,而實際物理存儲空間并沒有那么大。自動精簡配置技術的應用會減少已分配但未使用的存儲容量的浪費,在分配存儲空間時,需要多少存儲空間系統(tǒng)則按需分配。自動精簡配置技術優(yōu)化了存儲空間的利用率,擴展了存儲管理功能,雖然實際分配的物理容量小,但可以為操作系統(tǒng)提供超大容

24、量的虛擬存儲空間。隨著數(shù)據(jù)存儲的信息量越來越多,實際存儲空間也可以及時擴展,無需用戶手動處理。利用自動精簡配置技術,用戶不需要了解存儲空間分配的細節(jié),這種技術就能幫助用戶在不降低性能的情況下,大幅度提高存儲空間利用效率;需求變化時,無需更改存儲容量設置通過虛擬化技術集成存儲,減少超量配置,降低總功耗。自動精簡配置這項技術最初由3Par公司開發(fā),目前支持自動精簡配置的廠商正在快速增加。這項技術已經(jīng)成為選擇存儲系統(tǒng)的關鍵標準之一。但是并不是所有的自動精簡配置的實施都是相同的。隨著自動精簡配置的存儲越來越多,物理存儲的耗盡成為自動精簡配置環(huán)境中經(jīng)常出現(xiàn)的風險。因此,告警、通知和存儲分析成為必要的功能

25、,并且對比傳統(tǒng)環(huán)境,其在自動精簡配置的環(huán)境中扮演了更主要的角色。自動存儲分層自動存儲分層(AST)技術主要用來幫助數(shù)據(jù)中心最大程度地降低成本和復雜性。在過去,進行數(shù)據(jù)移動主要依靠手工操作,由管理員來判斷這個卷的數(shù)據(jù)訪問壓力或大或小,遷移的時候也只能一個整卷一起遷移。自動存儲分層技術的特點則是其分層的自動化和智能化。傳統(tǒng)配置方式與自動存儲分層方式比較是一個整卷一起遷移。新技術的特點則是其分層的自動化和智能化。自動存儲分層是存儲上減少數(shù)據(jù)的另外一種機制。一個磁盤陣列能夠把活動數(shù)據(jù)保留在快速、昂貴的存儲上,把不活躍的數(shù)據(jù)遷移到廉價的低速層上,以限制存儲的花費總量。自動存儲分層的重要性隨著固態(tài)存儲在當

26、前磁盤陣列中的采用而提升,并隨著云存儲的來臨而補充內部部署的存儲。自動存儲分層使用戶數(shù)據(jù)保留在合適的存儲層級,因此減少了存儲需求的總量并實質上減少了成本,提升了性能。數(shù)據(jù)從一層遷移到另一層的粒度越精細,可以使用的昂貴存儲的效率就越高。子卷級的分層意味著數(shù)據(jù)是按照塊來分配而不是整個卷,而字節(jié)級的分層比文件級的分層更好。如何控制數(shù)據(jù)在層間移動的內部工作規(guī)則,決定需要把自動分層放在正確的位置的努力程度。一些系統(tǒng),是根據(jù)預先定義的什么時候移動數(shù)據(jù)和移動到哪一層。相反的,NetApp公司和Oracle公司(在SunZFSStorage7000系列中)倡導存儲系統(tǒng)應該足夠智能,能重復數(shù)據(jù)刪除,能自動的保留

27、數(shù)據(jù)在其合適的層,而不需要用戶定義的策略。重復數(shù)據(jù)刪除物理存儲設備在使用一段時間后必然會出現(xiàn)大量重復的數(shù)據(jù)。“重復刪除”技術(De-duplication)作為一種數(shù)據(jù)縮減技術可對存儲容量進行優(yōu)化。它通過刪除數(shù)據(jù)集中重復的數(shù)據(jù),只保留其中一份,從而消除冗余數(shù)據(jù)。使用De-dupe技術可以將數(shù)據(jù)縮減到原來的1/20-1/50。由于大幅度減少了對物理存儲空間的信息量,進而減少傳輸過程中的網(wǎng)絡帶寬、節(jié)約設備成本、降低能耗。重復數(shù)據(jù)刪除技術原理De-dupe按照消重的粒度可以分為文件級和數(shù)據(jù)塊級??梢酝瑫r使用2種以上的hash算法計算數(shù)據(jù)指紋,以獲得非常小的數(shù)據(jù)碰撞發(fā)生概率。具有相同指紋的數(shù)據(jù)塊即可認

28、為是相同的數(shù)據(jù)塊,存儲系統(tǒng)中僅需要保留一份。這樣,一個物理文件在存儲系統(tǒng)中就只對應一個邏輯表示。NetApp公司為其所有的系統(tǒng)提供重復數(shù)據(jù)刪除選項,并且可以針對每個卷進行激活。NetApp公司的重復數(shù)據(jù)刪除并不是實時執(zhí)行的。相反,它是使用預先設置的進程執(zhí)行的,一般是在閑暇時間執(zhí)行,通過掃描把重復的4KB數(shù)據(jù)塊替換為相應的指針。與NetApp公司相似,Oracle公司在其SunZFSStorage7000系列系統(tǒng)中也具備塊級別重復數(shù)據(jù)刪除的功能。與NetApp公司不同的是,去重是在其寫入磁盤時實時執(zhí)行的。戴爾公司獲得了內容感知的去重和壓縮技術,并企圖把這種技術整合到其所有的存儲系統(tǒng)中。數(shù)據(jù)壓縮數(shù)

29、據(jù)壓縮技術是提高數(shù)據(jù)存儲效率最古老最有效的方法之一。為了節(jié)省信息的存儲空間和提高信息的傳輸效率,必須對大量的實際數(shù)據(jù)進行有效的壓縮。數(shù)據(jù)壓縮作為對解決海量信息存儲和傳輸?shù)闹С旨夹g受到人們極大的重視。數(shù)據(jù)壓縮就是將收到的數(shù)據(jù)通過存儲算法存儲到更小的空間中去。隨著目前CPU處理能力的大幅提高,應用實時壓縮技術來節(jié)省數(shù)據(jù)占用空間成為現(xiàn)實。這項新技術就是最新研發(fā)出的在線壓縮(RACE),它與傳統(tǒng)壓縮技術不同。對RACE技術,當數(shù)據(jù)在首次寫入時即被壓縮,以幫助系統(tǒng)控制大量數(shù)據(jù)在主存中雜亂無章地存儲的情形,特別是多任務工作時更加明顯。該技術還可以在數(shù)據(jù)寫入到存儲系統(tǒng)前壓縮數(shù)據(jù),進一步提高了存儲系統(tǒng)中的磁盤

30、和緩存的性能和效率。壓縮算法分為無損壓縮和有損壓縮。相對于有損壓縮來說,無損壓縮的占用空間大,壓縮比不高,但是它有效地保存了原始信息,沒有任何信號丟失。但是隨著限制無損格式的種種因素逐漸被消除,使得無損壓縮格式具有廣闊的應用前景。數(shù)據(jù)壓縮中使用的LZS算法基于LZ77實現(xiàn),主要由2部分構成,滑窗(SlidingWindow)和自適應編碼(AdaptiveCoding)。壓縮處理時,在滑窗中查找與待處理數(shù)據(jù)相同的塊,并用該塊在滑窗中的偏移值及塊長度替代待處理數(shù)據(jù),從而實現(xiàn)壓縮編碼。如果滑窗中沒有與待處理數(shù)據(jù)塊相同的字段,或偏移值及長度數(shù)據(jù)超過被替代數(shù)據(jù)塊的長度,則不進行替代處理。LZS算法的實現(xiàn)

31、非常簡潔,處理比較簡單,能夠適應各種高速應用。數(shù)據(jù)壓縮的應用可以顯著降低待處理和存儲的數(shù)據(jù)量,一般情況下可實現(xiàn)2:13:1的壓縮比。壓縮和去重是互補性的技術,提供去重的廠商通常也提供壓縮。而對于虛擬服務器卷、電子郵件附件、文件和備份環(huán)境來說,去重通常更加有效,壓縮對于隨機數(shù)據(jù)效果更好,像數(shù)據(jù)庫。換句話說,在數(shù)據(jù)重復性比較高的地方,去重比壓縮有效。3.5云存儲中的內容分發(fā)網(wǎng)絡技術云存儲是構建于互聯(lián)網(wǎng)之上的,何如降低網(wǎng)絡延遲、提高數(shù)據(jù)傳輸率是關系到云存儲性能的關鍵問題。盡管有一些通過本地高速緩存、廣域網(wǎng)優(yōu)化等技術來解決問題的研究工作,但離實際的應用需求還有一定的距離。內容分發(fā)網(wǎng)絡是一種新型網(wǎng)絡構建

32、模式,主要是針對現(xiàn)有的Internet進行改造?;舅枷胧潜M量避開互聯(lián)網(wǎng)上由于網(wǎng)絡帶寬小、網(wǎng)點分布不均、用戶訪問量大等影響數(shù)據(jù)傳輸速度和穩(wěn)定性的弊端,使數(shù)據(jù)傳輸?shù)母臁⒏€(wěn)定。通過在網(wǎng)絡各處放置節(jié)點服務器,在現(xiàn)有互聯(lián)網(wǎng)的基礎之上構成一層智能虛擬網(wǎng)絡,實時地根據(jù)網(wǎng)絡流量、各節(jié)點的連接和負載情況、響應時間、到用戶的距離等信息將用戶的請求重新導向離用戶最近的服務節(jié)點上。目的是使用戶可就近取得所需內容,解決Internet網(wǎng)絡擁擠的狀況,提高用戶訪問網(wǎng)站的速度。3.6云存儲中的數(shù)據(jù)遷移當我們從一個物理環(huán)境和單個陣列過渡到完全虛擬化的、高度動態(tài)的存儲環(huán)境時,數(shù)據(jù)的遷移就成了云存儲方案中最為基礎、關鍵的步

33、驟,它在整個方案中占有了舉足輕重的作用。把企業(yè)的數(shù)據(jù)轉移到云中,針對不同的實際情況這里有兩種方法:1.當企業(yè)的數(shù)據(jù)吞吐量較大但是數(shù)據(jù)量不是特別多,對傳輸延遲也沒過多要求時,云供應商可以提供從企業(yè)到供應商某個存儲節(jié)點之間的私人鏈接,方便企業(yè)遷移數(shù)據(jù)。企業(yè)可以根據(jù)自己的時間,在不影響公司正常運行的情況下做數(shù)據(jù)的轉移安排;2當企業(yè)的數(shù)據(jù)可以提供拷貝,那么我們可以采用sneaker-net的方式,即人工網(wǎng)絡模式,將數(shù)據(jù)通過磁盤、移動存儲設備等從企業(yè)服務器拷入到云數(shù)據(jù)中心或者從云數(shù)據(jù)中心拷貝出來。如果企業(yè)對當前云供應商提供的服務不滿意需要更換服務商,如何在兩家服務商的云之間轉移數(shù)據(jù)?這應該是當前一個很棘

34、手的問題。由于目前云存儲還處在初級階段,各個云供應商都采用自己的加密或傳輸機制,因此沒有一個規(guī)范和約束的統(tǒng)一標準。很多云存儲供應商無法直接將客戶數(shù)據(jù)遷移到另一家供應商。當服務出現(xiàn)故障時,數(shù)據(jù)將返還給客戶,然后客戶要再找另一家云供應商,或者將數(shù)據(jù)存儲在本地服務器。所以希望各個云供應商提供一組云數(shù)據(jù)管理的應用編程接口API,讓不同云供應商之間的數(shù)據(jù)遷移更加便捷。3.7云存儲中的數(shù)據(jù)容錯技術數(shù)據(jù)容錯技術是云存儲研究領域的一項關鍵技術,良好的容錯技術不但能夠提高系統(tǒng)的可用性和可靠性,而且能夠提高數(shù)據(jù)的訪問效率。數(shù)據(jù)容錯技術一般都是通過增加數(shù)據(jù)冗余來實現(xiàn)的,以保證即使在部分數(shù)據(jù)失效以后也能夠通過訪問冗余

35、數(shù)據(jù)滿足需求。冗余提高了容錯性,但是也增加了存儲資源的消耗。因此,在保證系統(tǒng)容錯性的同時,要盡可能地提高存儲資源的利用率,以降低成本。目前,常用的容錯技術主要有基于復制(replication)的容錯技術和基于糾刪碼(erasurecode)的容錯技術兩種?;趶椭频娜蒎e技術簡單直觀,易于實現(xiàn)和部署,但是需要為每個數(shù)據(jù)對象創(chuàng)建若干同樣大小的副本存儲空間開銷很大;基于糾刪碼的容錯技術則能夠把多個數(shù)據(jù)塊的信息融合到較少的冗余信息中,因此能夠有效地節(jié)省存儲空間,但是對數(shù)據(jù)的讀寫操作要分別進行編碼和解碼操作,需要一些計算開銷。當數(shù)據(jù)失效以后,基于復制的容錯技術只需要從其他副本下載同樣大小的數(shù)據(jù)即可進行

36、修復;基于糾刪碼的技術則需要下載的數(shù)據(jù)量一般遠大于失效數(shù)據(jù)大小,修復成本較高。基于復制的容錯技術基于復制的容錯技術對一個數(shù)據(jù)對象創(chuàng)建多個相同的數(shù)據(jù)副本,并把得到的多個副本散布到不同的存儲節(jié)點上。當若干數(shù)據(jù)對象失效以后,可以通過訪問其他有效的副本獲取數(shù)據(jù)基于復制的容錯技術主要關注兩方面的研究:數(shù)據(jù)組織結構:數(shù)據(jù)組織結構主要研究大量數(shù)據(jù)對象及其副本的管理方式;數(shù)據(jù)復制策略:數(shù)據(jù)復制策略主要研究副本的創(chuàng)建時機、副本的數(shù)量、副本的放置等問題.基于糾刪碼的容錯技術基于復制的容錯技術存儲開銷巨大,要提供冗余度為k的容錯能力,就必須另外創(chuàng)建k個副本,存儲空間的開銷也增大了k倍?;诰幋a的容錯技術通過對多個數(shù)

37、據(jù)對象進行編碼產(chǎn)生編碼數(shù)據(jù)對象,進而降低完全復制帶來的巨大的存儲開銷。RAID技術中使用最廣泛的RAID5通過把數(shù)據(jù)條帶化(stripping)分布到不同的存儲設備上以提高效率,并采用一個校驗數(shù)據(jù)塊使之能夠容忍一個數(shù)據(jù)塊的失效。但是隨著節(jié)點規(guī)模和數(shù)據(jù)規(guī)模的不斷擴大,只容忍一個數(shù)據(jù)塊的失效已經(jīng)無法滿足應用的存儲需求。糾刪碼(erasure-coding)技術是一類源于信道傳輸?shù)木幋a技術,因為能夠容忍多個數(shù)據(jù)幀的丟失,被引入到分布存儲領域,使得基于糾刪碼的容錯技術成為能夠容忍多個數(shù)據(jù)塊同時失效的、最常用的基于編碼的容錯技術。4云存儲的優(yōu)勢云存儲的優(yōu)勢主要體現(xiàn)在以下幾個方面:高可擴展性:云存儲架構采用的是并行擴容方式,當容量不夠時,只需采購新的存儲服務器,容量即可增加,而且?guī)缀鯖]有上限控制。負載均衡:云存儲能自動將工作任務均勻分配到不同的存儲服務器上,從而可避免因個別存儲服務器工作量過大而造成性能瓶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論