chp9大數(shù)據(jù)與海量存儲(chǔ)_第1頁(yè)
chp9大數(shù)據(jù)與海量存儲(chǔ)_第2頁(yè)
chp9大數(shù)據(jù)與海量存儲(chǔ)_第3頁(yè)
chp9大數(shù)據(jù)與海量存儲(chǔ)_第4頁(yè)
chp9大數(shù)據(jù)與海量存儲(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1In God we trust; all others must bring data.- W. Edwards Deming, statistician, professor, author, lecturer, and consultant 第8介紹了移動(dòng)通信技術(shù)的發(fā)展,重點(diǎn)介紹了我國(guó)使用的第三代移動(dòng)通信技術(shù)和標(biāo)準(zhǔn)(TD-SCDMA,W-CDMA,CDMA2000),并討論了移動(dòng)互聯(lián)網(wǎng)的典型應(yīng)用。2 9.1 從網(wǎng)絡(luò)化存儲(chǔ)到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設(shè) 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點(diǎn) 9.6 數(shù)據(jù)中心與云存儲(chǔ)34甲骨文紙質(zhì)書(shū)籍?dāng)?shù)字化存儲(chǔ) 全球信息

2、總量迅猛增長(zhǎng) 2007年產(chǎn)生的數(shù)據(jù)量為281EB(1EB=10億GB),2011年1.8ZB 物聯(lián)網(wǎng)中對(duì)象的數(shù)量將龐大到以百億為單位 大數(shù)據(jù) 無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取管理和處理的數(shù)據(jù) 數(shù)量大(Volume),種類多(Variety),速度快(Velocity) 導(dǎo)致了網(wǎng)絡(luò)化存儲(chǔ)和大型數(shù)據(jù)中心的誕生5 9.1 從網(wǎng)絡(luò)化存儲(chǔ)到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設(shè) 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點(diǎn) 9.6 數(shù)據(jù)中心與云存儲(chǔ)6 直接附加存儲(chǔ)(Direct-Attached Strorage,DAS) 將存儲(chǔ)系統(tǒng)通過(guò)纜線直接與服務(wù)器或工作站相連 一

3、般包括多個(gè)硬盤驅(qū)動(dòng)器,與主機(jī)總線適配器通過(guò)電纜或光纖 在存儲(chǔ)設(shè)備和主機(jī)總線適配器之間不存在其他網(wǎng)絡(luò)設(shè)備 實(shí)現(xiàn)了計(jì)算機(jī)內(nèi)存儲(chǔ)到存儲(chǔ)子系統(tǒng)的跨越7 網(wǎng)絡(luò)附加存儲(chǔ)(Network Attached Storage,NAS) 文件級(jí)的計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)架構(gòu) 計(jì)算機(jī)連接到一個(gè)僅為其它設(shè)備提供基于文件級(jí)數(shù)據(jù)存儲(chǔ)服務(wù)的網(wǎng)絡(luò) NAS與DAS的區(qū)別 DAS是一種對(duì)已有服務(wù)器的簡(jiǎn)單擴(kuò)展,并沒(méi)有真正實(shí)現(xiàn)網(wǎng)絡(luò)互聯(lián)。NAS則是將網(wǎng)絡(luò)作為存儲(chǔ)實(shí)體,更容易實(shí)現(xiàn)文件級(jí)別的共享。NAS性能上比DAS有所增強(qiáng)8 存儲(chǔ)區(qū)域網(wǎng)絡(luò)(Storage Area Network,SAN) 通過(guò)網(wǎng)絡(luò)方式連接存儲(chǔ)設(shè)備和應(yīng)用服務(wù)器的存儲(chǔ)架構(gòu) 由服務(wù)器

4、、存儲(chǔ)設(shè)備和SAN連接設(shè)備組成 SAN的特點(diǎn) 存儲(chǔ)共享 支持服務(wù)器從SAN直接啟動(dòng)910 DAS 管理容易,結(jié)構(gòu)簡(jiǎn)單;集中式體系結(jié)構(gòu),不能滿足大規(guī)模數(shù)據(jù)訪問(wèn)的需求;存儲(chǔ)資源利用率低,資源共享能力差,造成“信息孤島”。 NAS 網(wǎng)絡(luò)的存儲(chǔ)實(shí)體,容易實(shí)現(xiàn)文件級(jí)別共享;性能嚴(yán)重依賴于網(wǎng)絡(luò)流量,用戶數(shù)過(guò)多,讀寫(xiě)過(guò)頻繁時(shí)性能受限。 SAN 存儲(chǔ)管理簡(jiǎn)化,存儲(chǔ)容量利用率提高;無(wú)直接文件級(jí)別的訪問(wèn)能力,但可在SAN基礎(chǔ)上建立文件系統(tǒng)。11 9.1 從網(wǎng)絡(luò)化存儲(chǔ)到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設(shè) 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點(diǎn) 9.6 數(shù)據(jù)中心與云存儲(chǔ)12 維基百科:

5、“數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施。它不僅僅包括計(jì)算機(jī)系統(tǒng)和其它與之配套的設(shè)備(例如通信和存儲(chǔ)系統(tǒng)),還包含冗余的數(shù)據(jù)通信連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置?!?Google: “多功能的建筑物,能容納多個(gè)服務(wù)器以及通信設(shè)備。這些設(shè)備被放置在一起是因?yàn)樗鼈兙哂邢嗤膶?duì)環(huán)境的要求以及物理安全上的需求,并且這樣放置便于維護(hù)。”1314大型機(jī)微型機(jī)大規(guī)模數(shù)據(jù)中心(Mega Data Center)15大規(guī)模數(shù)據(jù)中心已經(jīng)得到推廣 數(shù)據(jù)中心建設(shè)者面對(duì)的難題 如何規(guī)劃一個(gè)新的數(shù)據(jù)中心? 怎樣對(duì)數(shù)據(jù)中心進(jìn)行升級(jí)? 數(shù)據(jù)中心的標(biāo)準(zhǔn)對(duì)相關(guān)經(jīng)驗(yàn)進(jìn)行了總結(jié) ANSI/TIA/EIA-942(簡(jiǎn)稱TIA-942)

6、:數(shù)據(jù)中心標(biāo)準(zhǔn)電信產(chǎn)業(yè)協(xié)會(huì)(TIA)提出美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì)(ANSI)批準(zhǔn)16 選址:需要考慮多方面因素 建設(shè)和運(yùn)營(yíng)成本 應(yīng)用需求 政策優(yōu)惠 布局: 按功能區(qū)域劃分17功能區(qū)域組成 TIA-942還對(duì)纜線系統(tǒng),可靠性分級(jí),能源系統(tǒng)和降溫系統(tǒng)等做了規(guī)定。18纜線系統(tǒng)規(guī)格如何放置纜線能源系統(tǒng)外部電力供應(yīng)電池組發(fā)電機(jī)降溫系統(tǒng)降溫設(shè)備架空地板冷通道與熱通道 9.1 從網(wǎng)絡(luò)化存儲(chǔ)到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設(shè) 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點(diǎn) 9.6 數(shù)據(jù)中心與云存儲(chǔ)19 簡(jiǎn)介 全球共建有近40個(gè)大規(guī)模數(shù)據(jù)中心 單個(gè)數(shù)據(jù)中心需要至少50兆瓦功率,約等于一個(gè)小型城市

7、所有家庭的用電量 獨(dú)特的硬件設(shè)備:定制的以太網(wǎng)交換機(jī)、能源系統(tǒng)等 自行研發(fā)的軟件技術(shù):Google File System、MapReduce、BigTable等20 GFS的設(shè)計(jì)觀念 組件失效不再被認(rèn)為是意外,而是被看做正常的現(xiàn)象 GFS的文件非常巨大 對(duì)文件的操作具有特定的模式 應(yīng)用程序和文件系統(tǒng)API的協(xié)同設(shè)計(jì)提高了整個(gè)系統(tǒng)的靈活性21 一個(gè)GFS集群包含一個(gè)主服務(wù)器和多個(gè)塊服務(wù)器,并被多個(gè)客戶端訪問(wèn)。 文件分成固定大小的“塊”。每個(gè)塊在創(chuàng)建時(shí)都由主服務(wù)器分配一個(gè)固定不變的64位句柄唯一標(biāo)識(shí)。 塊服務(wù)器把塊作為L(zhǎng)inux文件存儲(chǔ)在本地磁盤上,并根據(jù)指定的塊句柄和字節(jié)范圍對(duì)數(shù)據(jù)塊進(jìn)行讀寫(xiě)操

8、作。22 主服務(wù)器維護(hù)所有文件系統(tǒng)的元數(shù)據(jù),包括名字空間、訪問(wèn)控制信息、文件到塊的映射信息以及塊當(dāng)前的位置。此外,主服務(wù)器還控制其它系統(tǒng)級(jí)的活動(dòng)。主服務(wù)器周期性地與塊服務(wù)器通信,以下達(dá)指令和收集狀態(tài)。 GFS客戶端代碼被嵌入到每個(gè)應(yīng)用中。它實(shí)現(xiàn)了文件系統(tǒng)API,實(shí)現(xiàn)主服務(wù)器與塊服務(wù)器的通信從而代表應(yīng)用實(shí)現(xiàn)讀寫(xiě)操作??蛻舳伺c服務(wù)器交互從而實(shí)現(xiàn)元數(shù)據(jù)操作,但所有的數(shù)據(jù)操作都通過(guò)直接與塊服務(wù)器交互而完成。23 MapReduce是一種針對(duì)超大規(guī)模數(shù)據(jù)集的編程模型和系統(tǒng) 用MapReduce開(kāi)發(fā)出的程序可在大量商用計(jì)算機(jī)集群上并行執(zhí)行、處理計(jì)算機(jī)的失效以及調(diào)度計(jì)算機(jī)間的通信 MapReduce的基本思

9、想 用戶寫(xiě)的兩個(gè)程序:Map和Reduce 一個(gè)在計(jì)算機(jī)集群上執(zhí)行多個(gè)程序?qū)嵗目蚣?4 MapReduce程序的執(zhí)行過(guò)程25 BigTable是一種用來(lái)在海量數(shù)據(jù)規(guī)模下(例如包含以PB為單位的數(shù)據(jù)量和數(shù)千臺(tái)廉價(jià)計(jì)算機(jī)的應(yīng)用)管理結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)。 應(yīng)用 Google地球 網(wǎng)頁(yè)索引 RSS閱讀器 26 每個(gè)BigTable都是一個(gè)稀疏的、分布式的多維有序圖,按行鍵值、列鍵值和時(shí)間戳建立索引27 什么是Hadoop? Apache開(kāi)源組織的一個(gè)分布式計(jì)算開(kāi)源框架 用于在大型集群的廉價(jià)服務(wù)器設(shè)備上運(yùn)行數(shù)據(jù)密集型分布式應(yīng)用程序 在早期實(shí)際上是Google文件系統(tǒng)與MapReduce分布式計(jì)

10、算框架及相關(guān)IT基礎(chǔ)服務(wù)的開(kāi)源實(shí)現(xiàn) Hadoop包括多個(gè)子項(xiàng)目 HDFS、 MapReduce、 HBase 、Chukwa、Pig、ZooKeeper等28 Hadoop Distributed File System29 9.1 從網(wǎng)絡(luò)化存儲(chǔ)到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設(shè) 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點(diǎn) 9.6 數(shù)據(jù)中心與云存儲(chǔ)30 Google數(shù)據(jù)中心選址: 能源、水源、空地面積、與其他數(shù)據(jù)中心間距離、稅收等 在俄勒岡州,規(guī)劃建設(shè)3個(gè)約6400平方米的中心機(jī)房31Google數(shù)據(jù)中心在全球的分布 數(shù)據(jù)中心能耗比(PUE)普遍在2左右 Googl

11、e達(dá)到1.16,業(yè)界領(lǐng)先 中心高溫化 特殊定制的網(wǎng)絡(luò)服務(wù)器 與Google研制的集成了電池的能源系統(tǒng)兼容 提高效率,降低能耗32 9.1 從網(wǎng)絡(luò)化存儲(chǔ)到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設(shè) 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點(diǎn) 9.6 數(shù)據(jù)中心與云存儲(chǔ)33 2006年Google在數(shù)據(jù)中心項(xiàng)目上的花費(fèi)為19億美元,而2007年該項(xiàng)支出增加到24億美元。 Google在俄勒岡州的數(shù)據(jù)中心有近100兆瓦的功率,滿負(fù)荷運(yùn)行時(shí)消耗的電力基本上和紐卡斯?fàn)枺∟ewcastle)一個(gè)城市所有家庭的用電量加起來(lái)一樣多。 研究熱點(diǎn):如何在保證服務(wù)質(zhì)量的前提下降低成本?34Googl

12、e在俄勒岡州哥倫比亞河邊的數(shù)據(jù)中心 基礎(chǔ)設(shè)施部分包括能源系統(tǒng)、降溫系統(tǒng)、各種防火設(shè)備、安保設(shè)備等。降低這一部分成本往往涉及到機(jī)械設(shè)備制造技術(shù)或政策優(yōu)惠等因素,與計(jì)算機(jī)學(xué)科的關(guān)聯(lián)程度相對(duì)較低。 我們分別從服務(wù)器,網(wǎng)絡(luò)設(shè)備,能源三個(gè)方面對(duì)造成高成本的原因和目前的解決方法進(jìn)行簡(jiǎn)要介紹35 服務(wù)器的實(shí)際利用效率較低 分配到各服務(wù)器的應(yīng)用不能完全利用某些組件 對(duì)應(yīng)用需求的預(yù)測(cè)比較難,無(wú)法做到按需分配 為了提高系統(tǒng)的可靠性,一般都留有冗余設(shè)備 提高服務(wù)器利用率的關(guān)鍵在于及時(shí)應(yīng)對(duì)需求的動(dòng)態(tài)變化36 主要來(lái)源 交換機(jī)、路由器、負(fù)載均衡設(shè)備 傳統(tǒng)的數(shù)據(jù)中心使用樹(shù)形結(jié)構(gòu),核心交換機(jī)和路由器構(gòu)成流量瓶頸,且造價(jià)昂貴

13、 研究熱點(diǎn):新的數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu) 以交換機(jī)為中心的多層樹(shù)形結(jié)構(gòu):例如Fat-Tree 以服務(wù)器為中心的互聯(lián)結(jié)構(gòu):例如DCell37 研究熱點(diǎn) 降低服務(wù)器工作能耗 降低同等性能設(shè)備能耗 提高同等能耗設(shè)備性能 可調(diào)整負(fù)載的服務(wù)器 減少降溫系統(tǒng)能耗 精細(xì)、精準(zhǔn)的溫度控制 集裝箱式模塊化數(shù)據(jù)中心38 9.1 從網(wǎng)絡(luò)化存儲(chǔ)到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設(shè) 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點(diǎn) 9.6 數(shù)據(jù)中心與云存儲(chǔ)39 Google的數(shù)據(jù)中心屬于“自產(chǎn)自銷”模式,同時(shí)提供產(chǎn)品和服務(wù) Amazon開(kāi)創(chuàng)了云存儲(chǔ)和云計(jì)算的商業(yè)模式 彈性計(jì)算云:提供海量數(shù)據(jù)計(jì)算服務(wù) 簡(jiǎn)單存

14、儲(chǔ)服務(wù)(S3):可伸縮、可靠、高可用、低成本的存儲(chǔ)服務(wù) Dropbox后臺(tái)即架設(shè)于S3之上 未來(lái)物聯(lián)網(wǎng) 不同商業(yè)機(jī)構(gòu)共享云存儲(chǔ),而不需要建立自己的數(shù)據(jù)中心 對(duì)海量數(shù)據(jù)的分析和處理也可以依托云計(jì)算進(jìn)行40內(nèi)容回顧 本章介紹了三種基本的網(wǎng)絡(luò)存儲(chǔ)體系結(jié)構(gòu),并討論了數(shù)據(jù)中心的基本概念,以Google數(shù)據(jù)中心和Hadoop為例,簡(jiǎn)要介紹了數(shù)據(jù)中心的相關(guān)技術(shù),指出了數(shù)據(jù)中心的研究熱點(diǎn),最后分析了數(shù)據(jù)中心與云存儲(chǔ)的關(guān)系。41重點(diǎn)掌握 了解物聯(lián)網(wǎng)對(duì)海量數(shù)據(jù)存儲(chǔ)的迫切需求。 理解三種基本的網(wǎng)絡(luò)存儲(chǔ)體系結(jié)構(gòu)(DAS,NAS,SAN)的基本概念以及各自的優(yōu)缺點(diǎn)。 理解數(shù)據(jù)中心的概念,以Google數(shù)據(jù)中心為例,了解GFS,MapReduce,BigTable等技術(shù)的基本概念和特點(diǎn)。了解Hadoop分布式計(jì)算開(kāi)源框架的特點(diǎn)。 了解保證性能前提下降低數(shù)據(jù)中心成本的方法(服務(wù)器成本,網(wǎng)絡(luò)設(shè)備成本,能

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論