




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、kCloudStorage- 基于云技術(shù)的廉價(jià)冗余天基于云技術(shù)的廉價(jià)冗余天文海量數(shù)據(jù)存儲(chǔ)文海量數(shù)據(jù)存儲(chǔ) 1)研究背景 2)當(dāng)前存儲(chǔ)技術(shù)的局限 3)天文需求的描述 4)云存儲(chǔ)的關(guān)鍵技術(shù) 5)可行性與前期實(shí)驗(yàn)結(jié)果 SUMMARYBackground 數(shù)據(jù)的存儲(chǔ),是天文信息學(xué)的基礎(chǔ)。 海量數(shù)據(jù)的保存,本質(zhì)上并沒(méi)有很好的解決。 當(dāng)前常用的技術(shù) DAS, NAS , SAN DAS 直接存儲(chǔ) NAS 網(wǎng)絡(luò)附加存儲(chǔ) SAN 存儲(chǔ)區(qū)域網(wǎng)絡(luò)DAS vs NAS architectureFCClientsDirect Attached StorageApplication ServersWin2k LinuxU
2、nixUnixTapeFCLinuxWin2kSCSILANApplicationServersNAS AppliancesorNAS Head EndsGenericGenericWin2k LinuxUnixLANSAN architecture Storage is accessed at block level not at file level Very high performances Storage is shared Good management tools Interoperability issuesStorage Area Network (SAN)DatabaseS
3、erversBlockStorageDevicesFibre Channel SANClientsLAN天文數(shù)據(jù)特點(diǎn)天文數(shù)據(jù)特點(diǎn)數(shù)據(jù)特點(diǎn)數(shù)據(jù)特點(diǎn) 1、存在變長(zhǎng)大數(shù)據(jù)段,、存在變長(zhǎng)大數(shù)據(jù)段,例如天文觀測(cè)圖片,數(shù)據(jù)例如天文觀測(cè)圖片,數(shù)據(jù)規(guī)格有限規(guī)格有限 拆分變長(zhǎng)數(shù)據(jù)為定長(zhǎng)KV 2、數(shù)據(jù)總量大,、數(shù)據(jù)總量大,PB級(jí)數(shù)級(jí)數(shù)據(jù)量據(jù)量 分布式KV系統(tǒng) 3、更改可能性小、更改可能性小 降低分布式事務(wù)的嚴(yán)格性,采用不刪除 ,更改數(shù)據(jù)重新分配儲(chǔ)存空間的方式規(guī)避儲(chǔ)存器碎片問(wèn)題,避免處理空間整理問(wèn)題,并且保持?jǐn)?shù)據(jù)局部順序性,有利于預(yù)讀天文數(shù)據(jù)需要存儲(chǔ)系統(tǒng)天文數(shù)據(jù)需要存儲(chǔ)系統(tǒng)既需要既需要文件系統(tǒng)文件系統(tǒng)特性特性也有關(guān)
4、系數(shù)據(jù)庫(kù)的也有關(guān)系數(shù)據(jù)庫(kù)的查詢需求查詢需求查詢需求查詢需求 1、需要范圍查詢,例如、需要范圍查詢,例如按照精度緯度查詢按照精度緯度查詢 B+樹(shù)實(shí)現(xiàn)索引 如果存儲(chǔ)按照經(jīng)緯有序可以采用位圖索引 2、順序存儲(chǔ),順序讀取、順序存儲(chǔ),順序讀取可能性大可能性大 可以采取預(yù)讀 3、近幾年實(shí)時(shí)處理的要、近幾年實(shí)時(shí)處理的要求明顯增加求明顯增加 4、有大量的數(shù)據(jù)導(dǎo)出需、有大量的數(shù)據(jù)導(dǎo)出需求!求!關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)天文數(shù)據(jù)時(shí)的問(wèn)題關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)天文數(shù)據(jù)時(shí)的問(wèn)題 問(wèn)題問(wèn)題1、熱備份對(duì)性能的影響以及熱備的不一致性2、大數(shù)據(jù)量3、磁盤限制導(dǎo)致的QPS瓶頸(SSD)優(yōu)雅解決2,3問(wèn)題往往通過(guò)引入高端儲(chǔ)存,從而帶來(lái)高成本 改
5、變改變當(dāng)不優(yōu)雅的分庫(kù)分表成為用戶解決大數(shù)據(jù)量的首選辦法的時(shí)候數(shù)據(jù)庫(kù)的革命開(kāi)始了 如何改變?nèi)绾胃淖僄oogle引領(lǐng)引領(lǐng)方向,方向, 放棄高端設(shè)備放棄高端設(shè)備,使用,使用Commodity Device 分布式數(shù)據(jù)庫(kù)分布式數(shù)據(jù)庫(kù)是必然選是必然選擇擇如何選擇如何選擇索引索引如何選擇如何選擇儲(chǔ)存儲(chǔ)存如何實(shí)現(xiàn)如何實(shí)現(xiàn)事務(wù)事務(wù) 理想的天文數(shù)字庫(kù) 1、海量 2、分布 3、事務(wù) 4、確保一致性 5、可檢索查詢 6、高速、線速讀寫 7、隨意更換設(shè)備 8、任意導(dǎo)出 9、便宜、便宜為天文數(shù)據(jù)設(shè)計(jì)量體裁衣為天文數(shù)據(jù)設(shè)計(jì)量體裁衣三個(gè)技術(shù)點(diǎn)儲(chǔ)存(定長(zhǎng),變長(zhǎng)記錄)索引(B+,Hash)事務(wù)(行鎖,表鎖)云存儲(chǔ)的現(xiàn)狀云存儲(chǔ)的
6、現(xiàn)狀A(yù)mazonAmazon的云服務(wù)主要包括彈性計(jì)算云(EC2)、簡(jiǎn)單存儲(chǔ)服務(wù)(S3)、簡(jiǎn)單數(shù)據(jù)庫(kù)服務(wù)(SimpleDB)。EC2服務(wù)偏向計(jì)算,S3服務(wù)偏向存儲(chǔ),提供IaaS級(jí)別的服務(wù),SImpleDB偏向應(yīng)用,提供PaaS和SaaS級(jí)別的服務(wù)。GoogleGoogle當(dāng)數(shù)最大的云計(jì)算的使用者。Google搜索引擎就建立在分布在200多個(gè)地點(diǎn)、超過(guò)100萬(wàn)臺(tái)服務(wù)器的支撐之上,這些設(shè)施的數(shù)量正在迅猛增長(zhǎng)。Google地球、地圖、Gmail、Docs等也同樣使用了這些基礎(chǔ)設(shè)施。三篇重要論文基本描述了這種集群的結(jié)構(gòu)”WEB SEARCH FOR A PLANET:THE GOOGLE CLUSTER
7、 ARCHITECTURE”“The Google File System”“The Chubby lock service for loosely-coupled distributed systems”淘寶淘寶具有一個(gè)模仿gfs構(gòu)架的tfs系統(tǒng),以及配套的cdn網(wǎng)絡(luò)形成了國(guó)內(nèi)較大規(guī)模的云存儲(chǔ)平臺(tái),主要提供商家宣傳圖片的存儲(chǔ),淘寶直接針對(duì)這種儲(chǔ)存服務(wù)收費(fèi)。Tencent同樣基于gfs構(gòu)架,為整個(gè)騰訊公司提供文件存儲(chǔ)服務(wù)什么是云存儲(chǔ) 是指通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)文件
8、系統(tǒng)存儲(chǔ)和數(shù)據(jù)存儲(chǔ)文件系統(tǒng)存儲(chǔ)和數(shù)據(jù)存儲(chǔ)的邊界正在縮小的邊界正在縮小 開(kāi)源的云存儲(chǔ)系統(tǒng)和KV數(shù)據(jù)庫(kù) - 分布式文件系統(tǒng) 始祖級(jí)別始祖級(jí)別 bigtable,依賴(chubby) Apache的實(shí)現(xiàn)的實(shí)現(xiàn) Hbase, Cassandra - KV數(shù)據(jù)庫(kù) 耳熟能詳?shù)?Redis,Mongodb(value是結(jié)構(gòu)數(shù)據(jù),實(shí)現(xiàn)了結(jié)構(gòu)數(shù)據(jù)的索引,幾乎就是傳統(tǒng)數(shù)據(jù)庫(kù),但是不支持事務(wù))從google提出gfs開(kāi)始,分布式系統(tǒng)中存儲(chǔ)文件變成了分段存儲(chǔ)。以hfs為例,這種分布式文件系統(tǒng)使用了64M為一段來(lái)存儲(chǔ)文件。就是用KV模式組織數(shù)據(jù)。NoSQL挑戰(zhàn)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的聲音也從四面八方傳來(lái)。同樣也是用KV的方式
9、組織數(shù)據(jù)??偨Y(jié):KV方式用于存儲(chǔ)數(shù)據(jù),已經(jīng)成為當(dāng)下存儲(chǔ)系統(tǒng)統(tǒng)一的方式索引索引必然必然選擇選擇KV從從mysql(innodb)說(shuō)說(shuō)KV 既是數(shù)據(jù)儲(chǔ)存方式也是索引 紅色部分,主鍵B+樹(shù)索引了每個(gè)記錄 主鍵就是Key,記錄就是Value 傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),如Oracle,sqlserver,mysql的底層都存在著KV的影子Key是否支持范圍查詢決定分布方式是否支持范圍查詢決定分布方式 B+ 連續(xù)范圍分區(qū)連續(xù)范圍分區(qū) (多重索引)(多重索引) Bigtable方式 Hash 一致性一致性hash環(huán)算環(huán)算法法基本數(shù)據(jù)庫(kù)儲(chǔ)存系統(tǒng)基本數(shù)據(jù)庫(kù)儲(chǔ)存系統(tǒng) 幾大特征: 加快查詢讀取速度 加快寫入速度 保證安全
10、具體做法 充分利用分層儲(chǔ)存器,將HotData Cache在內(nèi)存中 通過(guò)日志推后內(nèi)存數(shù)據(jù)結(jié)構(gòu)落地 落地時(shí)候的兩次寫 一致性儲(chǔ)存方式儲(chǔ)存方式- -可以可以選擇選擇TabletTabletleveldbleveldb帶來(lái)的新方法帶來(lái)的新方法 Tablet的繼承了傳統(tǒng)儲(chǔ)存的結(jié)構(gòu)的三個(gè)特征 主要的創(chuàng)新在于SSTable這個(gè)結(jié)構(gòu)是天然支持分布的重說(shuō)重說(shuō)cap理論理論 為什么大多數(shù)KV數(shù)據(jù)庫(kù)都選擇最終一致性并且不支持事務(wù) 消除高端硬件之后,容錯(cuò)性上升為軟件的職責(zé) 保證強(qiáng)一致性系統(tǒng)的容錯(cuò)性。 可以證明強(qiáng)一致性和容錯(cuò)性矛盾嗎? Oracle新推的NoSQL數(shù)據(jù)支持事務(wù),犧牲了容錯(cuò)性 Consistency,
11、Availability, Partition-tolerance復(fù)雜的復(fù)雜的分布式事務(wù)分布式事務(wù) 假設(shè)可以設(shè)計(jì)可靠的儲(chǔ)存組件,在分布式事務(wù)中如何實(shí)現(xiàn)事務(wù) 分布式事務(wù)實(shí)現(xiàn)的幾個(gè)話題:提交完整性,控制器故障處理,節(jié)點(diǎn)故障處理機(jī)制,節(jié)點(diǎn)同步的時(shí)間開(kāi)銷控制,大數(shù)據(jù)傳輸?shù)木W(wǎng)絡(luò)開(kāi)銷一致性和事務(wù)一致性和事務(wù) 本身就是矛盾,設(shè)想一下什么是最終一致性的事務(wù)。 限制讀取,增加控制器的負(fù)載。 分布式的控制器,要選擇paxos? 事務(wù)最理想的情況就是同時(shí)保證一致性和容錯(cuò)性 最終一致性的事務(wù)知否就只能是傳統(tǒng)數(shù)據(jù)庫(kù)的讀寫分離模式典型典型KV數(shù)據(jù)庫(kù)構(gòu)架數(shù)據(jù)庫(kù)構(gòu)架ClientABCDEDataServerControlServerMaster1Master2Master3DataServer的結(jié)構(gòu)Request Plug-insMdbFdbBdbRequestResponseDataServerStorage EngineResponse Plug-insMigrateReplicatorControlServer的結(jié)構(gòu)PaxosRequestDataServerMetaDataDataServerMetaDataDataServerMetaData可行性與前期實(shí)驗(yàn)結(jié)可行性與前期實(shí)驗(yàn)結(jié)果果 儲(chǔ)存系統(tǒng)瓶頸是網(wǎng)絡(luò)儲(chǔ)存系統(tǒng)瓶頸是網(wǎng)絡(luò) 實(shí)驗(yàn): 在Mongodb上的測(cè)試的分片存儲(chǔ)數(shù)據(jù) 結(jié)論: 分片對(duì)存取性能意義不大
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北電線電纜橋架施工方案
- 臨床護(hù)理不良事件案例分享
- 曲陽(yáng)路面鵝卵石施工方案
- 上海日播至勝實(shí)業(yè)有限公司股權(quán)估值項(xiàng)目估值報(bào)告
- 北方古建筑屋頂施工方案
- 陜西節(jié)日彩燈設(shè)計(jì)施工方案
- 地面混凝土施工方案圖例
- 2025年乳味飲品項(xiàng)目發(fā)展計(jì)劃
- 公眾參與與環(huán)保意識(shí)的提升分析
- 低空經(jīng)濟(jì)公司技術(shù)開(kāi)發(fā)與創(chuàng)新策略
- 2023年10月自考試題00840第二外語(yǔ)(日語(yǔ))
- 農(nóng)產(chǎn)品市場(chǎng)營(yíng)銷中的市場(chǎng)競(jìng)爭(zhēng)分析
- 了解滑雪:滑雪器材與滑雪的技巧
- 也是冬天也是春天:升級(jí)彩插版
- 報(bào)價(jià)單模板完
- 【某醫(yī)療美容機(jī)構(gòu)營(yíng)銷策略現(xiàn)狀、問(wèn)題及優(yōu)化建議分析6300字】
- 關(guān)于tiktok的英語(yǔ)新聞
- 圖形的放大與縮小說(shuō)課稿
- 技術(shù)核定單(示范文本)
- 關(guān)于外委單位工作情況的報(bào)告
- 吉林大學(xué)汽車設(shè)計(jì)期末考試復(fù)習(xí)資料高等教育
評(píng)論
0/150
提交評(píng)論