版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)存儲的概念背景介紹大數(shù)據(jù)已成為當前社會各界關注的焦點。從一般意義上講,大數(shù)據(jù)是指無法在可容忍的時間內(nèi),用現(xiàn)有信息技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數(shù)據(jù)集合。近年來,大數(shù)據(jù)的飆升主要來自人們的日常生活,特別是互聯(lián)網(wǎng)公司的服務。據(jù)著名的國際數(shù)據(jù)公司(IDC)的統(tǒng)計,2011年全球被創(chuàng)建和復制的數(shù)據(jù)總量為1.8ZB(1ZB=1O21B)具中75%來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB,lPB=1015B)o然而,與大數(shù)據(jù)計算相關的基礎研究,諸如大數(shù)據(jù)的感知與表示、組織與存儲、計算架構與體系、模式發(fā)現(xiàn)與效應分析等,目前還沒有成體系的理論成果。對于大數(shù)據(jù)計算體系的研究,—方面,需要關注大數(shù)據(jù)如何存儲,提供一種高效的數(shù)據(jù)存儲平臺;另一方面,為了應對快速并高效可靠地處理大數(shù)據(jù)的挑戰(zhàn),需要建立大數(shù)據(jù)的計算模式以及相關的優(yōu)化機制。2?相關工作為了應對數(shù)據(jù)處理的壓力,過去十年間在數(shù)據(jù)處理技術領域有了很多的創(chuàng)新和發(fā)展。除了面向高并發(fā)、短事務的OLTP內(nèi)存數(shù)據(jù)庫夕KAltibase,Timesten),其他的技術創(chuàng)新和產(chǎn)品都是面向數(shù)據(jù)分析的,而且是大規(guī)模數(shù)據(jù)分析的,也可以說是大數(shù)據(jù)分析的。在這些面向數(shù)據(jù)分析的創(chuàng)新和產(chǎn)品中,除了基于Hadoop環(huán)境下的各種NoSQL外,還有一類是基于SharedNothing架構的面向結構化數(shù)據(jù)分析的新型數(shù)據(jù)庫產(chǎn)品(可以叫做NewSQL),如:Greenplum(EMC收購),Vertica(HP收購),Asterdata(TD收購),以及南大通用在國內(nèi)開發(fā)的GBase8aMPPCluster等。目前可以看到的類似開源和商用產(chǎn)品達到幾十個,而且還有新的產(chǎn)品不斷涌出。一個有趣的現(xiàn)象是這些新的數(shù)據(jù)庫廠商多數(shù)都還沒有10年歷史両且發(fā)展好的基本都被收購了。收購這些新型數(shù)據(jù)庫廠商的公司,比如EMC、HP,都希望通過收購新技術和產(chǎn)品進入大數(shù)據(jù)處理市場,是新的玩家。SAP除了收購Sybase外,自己開發(fā)了一款叫HANA的新產(chǎn)品,這是一款基于內(nèi)存、面向數(shù)據(jù)分析的內(nèi)存數(shù)據(jù)庫產(chǎn)品。這類新的分析型數(shù)據(jù)庫產(chǎn)品的共性主要是:架構基于大規(guī)模分布式計算(MPP);硬件基于X86PC服務器;存儲基于服務器自帶的本地硬盤;操作系統(tǒng)主要是Linux;擁有極高的橫向擴展能力(scaleout)和內(nèi)在的故障容錯能力和數(shù)據(jù)高可用保障機制;能大大降低每TB數(shù)據(jù)的處理成本,為”大數(shù)據(jù)”處理提供技術和性價比支撐??偟膩砜?數(shù)據(jù)處理技術進入了一個新的創(chuàng)新和發(fā)展高潮,機會很多。這里的主要原因是一直沿用了30年的傳統(tǒng)數(shù)據(jù)庫技術遇到了技術瓶頸,而市場和用戶的需求在推動看技術的創(chuàng)新,并為此創(chuàng)造了很多機會。在大數(shù)據(jù)面前,越來越多的用戶愿意嘗試新技術和新產(chǎn)品,不那么保守了,因為大家開始清晰地看到傳統(tǒng)技術的瓶頸,選擇新的技術才有可能解決他們面臨的新問題。3.核心技術L大數(shù)據(jù)重復數(shù)據(jù)刪除技術在大數(shù)據(jù)時代,數(shù)據(jù)的體量和增長速度大大超過了以往,其中重復數(shù)據(jù)也在不斷增大。國際數(shù)據(jù)公司通過研究發(fā)現(xiàn)在數(shù)字世界中有近75%的數(shù)據(jù)是重復的,企業(yè)戰(zhàn)略集團(EnterpriseStrategyGroup,ESG)指出在備份和歸檔存儲系統(tǒng)中數(shù)據(jù)的冗余度超過90%。因此,高效的重復數(shù)據(jù)刪除技術(ClusterDeduplica-tion)成為縮減數(shù)據(jù)占用空間并降低成本的關鍵。然而,由于這項技術是計算密集型和讀寫(I/O)密集型的技術,特別是重復刪除運算相當消耗運算資源,要進行大量的讀寫處理,因此現(xiàn)有系統(tǒng)在存取性能方面還存在很多問題需要解決。在大數(shù)據(jù)存儲環(huán)境中,將集群重復數(shù)據(jù)刪除技術有效地融入分布式集群存儲架構中,可使存儲系統(tǒng)在數(shù)據(jù)存儲過程中對重復冗余數(shù)據(jù)進行在線去重,并在存儲性能、存儲效率以及去重率等方面得到優(yōu)化。具有重復數(shù)據(jù)刪除功能的分布式存儲架構通過設計并實現(xiàn)具有重復數(shù)據(jù)刪除功能的分布式文件系統(tǒng),可使其具備高去重率、高可擴展性、高吞吐率等特征。分布式重復數(shù)據(jù)刪除系統(tǒng)的架構包括客戶端、元數(shù)據(jù)服務器和數(shù)據(jù)服務器三部分(見圖1)??蛻舳酥饕峁┘褐貜蛿?shù)據(jù)刪除系統(tǒng)對外的交互接口,并在所提供的文件操作接口中實現(xiàn)基于重復數(shù)據(jù)刪除的存儲邏輯和對數(shù)據(jù)的預處理,如數(shù)據(jù)塊的劃分與"指紋"的提取。元數(shù)據(jù)服務器實現(xiàn)了對元數(shù)據(jù)存儲、集群的管理與維護,包括管理在數(shù)據(jù)存儲過程中整個會話,保存與管理分布式文件系統(tǒng)中的元數(shù)據(jù),管理和維護系統(tǒng)存儲狀況,指導數(shù)據(jù)路由并滿足系統(tǒng)存儲的負載均衡。數(shù)據(jù)服務器主要負責數(shù)據(jù)去重引攣以及數(shù)據(jù)的存儲和管理。數(shù)據(jù)服務器通過網(wǎng)絡與客戶端進行通信,響應客戶端的讀寫請求,通過網(wǎng)絡與元數(shù)據(jù)服務器異步更新數(shù)據(jù)服務器的數(shù)據(jù)接收狀況以及節(jié)點存儲狀況。當接收到客戶端的寫請求時,數(shù)據(jù)服務器接收數(shù)據(jù)并在節(jié)點內(nèi)進行冗余數(shù)據(jù)的去重。網(wǎng)絡通信模塊可提供一種能夠在客戶端與分布式文件系統(tǒng)各節(jié)點間進行通信的有效機制,通過遠程過程調(diào)用交換元數(shù)據(jù)和少量控制信息,通過流套接口(streamsocket)網(wǎng)絡傳輸大量的數(shù)據(jù)與指紋信息。3?數(shù)據(jù)路由策略基于單節(jié)點內(nèi)的局部去重,即在一個節(jié)點內(nèi)對數(shù)據(jù)進行去重,確保存儲環(huán)境中系統(tǒng)的整體性能和存儲帶寬。需要強調(diào)的是,數(shù)據(jù)的存儲位置是關鍵,原因在于數(shù)據(jù)路由位置直接影響數(shù)據(jù)的去重率;根據(jù)數(shù)據(jù)的相似性以及數(shù)據(jù)局部性的相關理論,基于超塊的高效局部相似路由算法可確保全局數(shù)據(jù)去重的可靠性。在數(shù)據(jù)路由粒度方面,超塊(Supe「Block)是對上傳數(shù)據(jù)通過分塊算法,如可變分塊(Content-DefinedChunk-ing,CDC)、固定分塊(Fixed-SizedPartition,FSP),進行分塊后(見圖2),由連續(xù)的幾個小分塊拼接成大的局部塊。文件由連續(xù)的超塊組成,并將超塊作為數(shù)據(jù)路由的單位,發(fā)送到選定的節(jié)點中進行節(jié)點內(nèi)的冗余數(shù)據(jù)去重。在數(shù)據(jù)去重方面,數(shù)據(jù)相似是指節(jié)點中已有超塊與新來的超塊之間的相似度,Jaccard距離可用于衡量兩個超塊的相似度。通過有狀態(tài)的局部相似路由算法,實現(xiàn)數(shù)據(jù)的路由。4?大數(shù)據(jù)編碼優(yōu)化技術基于糾刪碼的數(shù)據(jù)冗余技術是不同于多副本技術的另外一種容災策略,其基本思想是:通過糾刪碼算法對k個原始數(shù)據(jù)塊進行數(shù)據(jù)編碼,得到m個糾刪碼塊,并將這k+m個數(shù)據(jù)塊存到不同的數(shù)據(jù)存儲節(jié)點中,以此建立容災機制。當k+m個元素中任意的不多于m個元素出錯(包括數(shù)據(jù)和冗余出錯)時,均可通過對應的重構算法恢復出原來的k塊數(shù)據(jù)。這種方法具有冗余度低、磁盤利用率高等特點。相較于多副本策略,在大數(shù)據(jù)存儲平臺中利用糾刪碼建立容災機制,對存儲空間和網(wǎng)絡帶寬的需求有所降低,但是由于引進了糾刪碼計算,因此對糾刪碼編碼的計算速度提出了要求。最有效的辦法就是減少糾刪碼計算過程的異或次數(shù)。目前的調(diào)度算法都是啟發(fā)式的,如CSHR、UBER-CSHR.X-Sets等。用這些算法對一個柯西矩陣求取調(diào)度時,各自得到的調(diào)度都無法保證是所有調(diào)度方法中最優(yōu)的,并且柯西矩陣配置參數(shù)(k,m,w)通過組合會得到個柯西矩陣,究竟哪—個矩陣會產(chǎn)生較好的調(diào)度z目前為止尚無規(guī)律可循。針對該問題,為了提高數(shù)據(jù)編碼效率,我們提出了關于糾刪碼求取調(diào)度組合的選擇框架思想。該框架基于現(xiàn)有技術提供了一種高效的數(shù)據(jù)編碼方案X化調(diào)度方案。此方案能為柯西矩陣配置參數(shù)(k,m,w)選擇出具有高編碼效率的柯西矩陣和相應的調(diào)度,以用于大數(shù)據(jù)存儲的數(shù)據(jù)編碼。該選擇框架(見圖3)包括如下三部分。首先準備柯西矩陣。根據(jù)多種生成柯西矩陣的算法生成柯西矩陣集合{MO,Ml,??…,Mt-l}o考慮到更新性能(柯西矩陣中T的個數(shù)越少越好),盡量選擇"1"個數(shù)較少的柯西矩陣。對第1步準備好的柯西矩陣求取調(diào)度組合。對每個柯西矩陣運行多種求取調(diào)度組合的啟發(fā)式算法之后,得出各自最好的柯西矩陣和調(diào)度組合(M,S),具體結果為{(MO,SO),(M1,S1)/-,(Mt-1,St-l)}o
從第2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報參考:教材插圖智能設計美學的社會主義核心價值觀對齊研究
- 課題申報參考:建成環(huán)境對老年人公交及地鐵出行的時空動態(tài)影響及適老化建成環(huán)境優(yōu)化研究
- 二零二五版文化藝術用品采購合同模板3篇
- 二零二五年度房地產(chǎn)投資定金監(jiān)管協(xié)議4篇
- 二零二五年度煤炭運輸節(jié)能減排協(xié)議4篇
- 二零二五版爐渣清潔生產(chǎn)采購技術服務合同4篇
- 2025年度高壓供電線路維護服務協(xié)議范本3篇
- 2025版?zhèn)€人退股協(xié)議書:上市公司股份回購與股東退出協(xié)議4篇
- 深圳2025年度廠房租賃合同范本2篇
- 二零二五年度建筑安全評估師雇傭合同標準版3篇
- 化學-河南省TOP二十名校2025屆高三調(diào)研考試(三)試題和答案
- 智慧農(nóng)貿(mào)批發(fā)市場平臺規(guī)劃建設方案
- 林下野雞養(yǎng)殖建設項目可行性研究報告
- 2023年水利部黃河水利委員會招聘考試真題
- Python編程基礎(項目式微課版)教案22
- 01J925-1壓型鋼板、夾芯板屋面及墻體建筑構造
- 欠電費合同范本
- 《學習教育重要論述》考試復習題庫(共250余題)
- 網(wǎng)易云音樂用戶情感畫像研究
- 小學四年級奧數(shù)題平均數(shù)問題習題及答案
- 工作違紀違規(guī)檢討書范文
評論
0/150
提交評論