第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第1頁
第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第2頁
第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第3頁
第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第4頁
第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)系統(tǒng)架構(gòu)概述總體架構(gòu)概述總體架構(gòu)設(shè)計(jì)原則

滿足大數(shù)據(jù)的V3要求

大數(shù)據(jù)容量的加載、處理和分析-要求大數(shù)據(jù)應(yīng)用平臺(tái)經(jīng)過擴(kuò)展可以支持GB、TB、PB、EB甚至ZB規(guī)模的數(shù)據(jù)集

各種類型數(shù)據(jù)的加載、處理和分析-支持各種各樣的數(shù)據(jù)類型,支持處理交易數(shù)據(jù)、各種非結(jié)構(gòu)化數(shù)據(jù)、機(jī)器數(shù)據(jù)以及其他新數(shù)據(jù)結(jié)構(gòu)

大數(shù)據(jù)的處理速度-在很高速度(GB/s)的加載過程中集成來自多個(gè)來源的數(shù)據(jù)總體架構(gòu)概述總體架構(gòu)設(shè)計(jì)原則

滿足企業(yè)級應(yīng)用的要求

高可擴(kuò)展性-要求平臺(tái)符合企業(yè)未來業(yè)務(wù)發(fā)展要求以及對新業(yè)務(wù)的響應(yīng),要求大數(shù)據(jù)架構(gòu)具備支持調(diào)度和執(zhí)行數(shù)百上千節(jié)點(diǎn)的負(fù)載工作流

高可用性-要求平臺(tái)能夠具備實(shí)時(shí)計(jì)算環(huán)境所具備的高可用性,在單點(diǎn)故障的情況下能夠保證應(yīng)用的可用性安全性和保護(hù)隱私-系統(tǒng)在數(shù)據(jù)采集、存儲(chǔ)、分析架構(gòu)上保證數(shù)據(jù)、網(wǎng)絡(luò)、存儲(chǔ)和計(jì)算的安全性,具備保護(hù)個(gè)人和企業(yè)隱私的措施

開放性-要求平臺(tái)能夠支持計(jì)算和存儲(chǔ)數(shù)以千計(jì)的、地理位置可能不同的、可能異構(gòu)的計(jì)算節(jié)點(diǎn)

易用性總體架構(gòu)概述總體架構(gòu)參考模型-

基于Apache開源技術(shù)的大數(shù)據(jù)平臺(tái)總體架構(gòu)參考模型如圖所示,大數(shù)據(jù)的產(chǎn)生、組織和處理主要是通過分布式分揀處理系統(tǒng)來實(shí)現(xiàn)的,主流的技術(shù)是Hadoop+MapReduce總體架構(gòu)概述大數(shù)據(jù)基礎(chǔ)-這一部分提供了大數(shù)據(jù)框架的基礎(chǔ),包括序列化、分布式協(xié)同等基礎(chǔ)服務(wù),構(gòu)成了上層應(yīng)用的基礎(chǔ)Avro-新的數(shù)據(jù)序列化與傳輸工具,將逐步取代Hadoop原有的IPC機(jī)制。

ZooKeeper-分布式鎖設(shè)施,它是一個(gè)分布式應(yīng)用程序的集中配置管理器,用戶分布式應(yīng)用的高性能協(xié)同服務(wù),由Facebook貢獻(xiàn),也可以獨(dú)立于Hadoop使用。大數(shù)據(jù)存儲(chǔ)-HDFS是Hadoop分布式文件系統(tǒng),HDFS運(yùn)行于大規(guī)模集群之上,集群使用廉價(jià)的普通機(jī)器構(gòu)建,整個(gè)文件系統(tǒng)采用的是元數(shù)據(jù)集中管理與數(shù)據(jù)塊分散存儲(chǔ)相結(jié)合的模式,并通過數(shù)據(jù)的冗余復(fù)制來實(shí)現(xiàn)高度容錯(cuò)

總體架構(gòu)概述大數(shù)據(jù)處理-基于MapReduce寫出的應(yīng)用程序能夠運(yùn)行在由上千個(gè)普通機(jī)器組成的大型集群上,并以一種可靠容錯(cuò)的方式并行處理TB級別以上的數(shù)據(jù)集大數(shù)據(jù)訪問和分析-在Hadoop+MapReduce之上架構(gòu)的是基礎(chǔ)平臺(tái)服務(wù),在基礎(chǔ)平臺(tái)之上是大數(shù)據(jù)訪問和分析的應(yīng)用服務(wù)Pig-Pig支持的常用數(shù)據(jù)分析主要有分組、過濾、合并等,Pig為創(chuàng)建ApacheMapReduce應(yīng)用程序提供了一款相對簡單的工具Hive-Hive是由Facebook貢獻(xiàn)的數(shù)據(jù)倉庫工具,是MapReduce實(shí)現(xiàn)的用來查詢分析結(jié)構(gòu)化數(shù)據(jù)的中間件

Sqoop-Sqoop由Cloudera開發(fā),是一種用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)傳遞的開源工具

Mahout-

ApacheMahout項(xiàng)目提供分布式機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫運(yùn)行架構(gòu)概述物理架構(gòu)-企業(yè)大數(shù)據(jù)系統(tǒng)的各層次系統(tǒng)最終要部署到主機(jī)節(jié)點(diǎn)中,這些節(jié)點(diǎn)通過網(wǎng)絡(luò)連接成為一個(gè)整體,為企業(yè)的大數(shù)據(jù)應(yīng)用提供物理支撐集成架構(gòu)-企業(yè)大數(shù)據(jù)系統(tǒng)由多個(gè)系統(tǒng)集成而成,每個(gè)系統(tǒng)都提供了多種協(xié)議和接口,以便企業(yè)大數(shù)據(jù)系統(tǒng)的內(nèi)部系統(tǒng)間集成和外部系統(tǒng)與大數(shù)據(jù)系統(tǒng)的集成安全架構(gòu)-由于企業(yè)大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)資源和計(jì)算資源廣泛地分布在多個(gè)節(jié)點(diǎn)上,所以用戶的身份、權(quán)限等安全,數(shù)據(jù)資源的存儲(chǔ)、傳輸、訪問等安全,以及計(jì)算資源的訪問、監(jiān)控、調(diào)整、恢復(fù)等安全,都是企業(yè)大數(shù)據(jù)系統(tǒng)在進(jìn)行安全架構(gòu)設(shè)計(jì)時(shí)需要考慮的問題阿里云飛天系統(tǒng)體系架構(gòu)

飛天(Apsara)是由阿里云自主研發(fā)、服務(wù)全球的超大規(guī)模通用計(jì)算操作系統(tǒng)

它可以將遍布全球的百萬級服務(wù)器連成一臺(tái)超級計(jì)算機(jī)、以在線公共服務(wù)的方式為社會(huì)提供計(jì)算能力

7年過去,飛天已經(jīng)為全球200多個(gè)國家和地區(qū)的創(chuàng)新創(chuàng)業(yè)企業(yè)、政府、機(jī)構(gòu)等提供服務(wù)阿里云飛天系統(tǒng)體系架構(gòu)阿里云飛天整體架構(gòu)-飛天平臺(tái)的體系架構(gòu)如圖所示,整個(gè)飛天平臺(tái)包括飛天內(nèi)核和飛天開發(fā)服務(wù)兩大部分阿里云飛天系統(tǒng)體系架構(gòu)飛天管理著互聯(lián)網(wǎng)規(guī)模的基礎(chǔ)設(shè)施。其最底層是遍布全球的幾十個(gè)數(shù)據(jù)中心和數(shù)百個(gè)PoP節(jié)點(diǎn)飛天內(nèi)核跑在每個(gè)數(shù)據(jù)中心里面,它負(fù)責(zé)統(tǒng)一管理數(shù)據(jù)中心內(nèi)的通用服務(wù)器集群,調(diào)度集群的計(jì)算、存儲(chǔ)資源,支撐分布式應(yīng)用的部署和執(zhí)行安全管理根植在飛天內(nèi)核最底層。飛天內(nèi)核提供的授權(quán)機(jī)制能夠有效實(shí)現(xiàn)“最小權(quán)限原則(principle

of

least

privilege)”,同時(shí)還建立了自主可控的全棧安全體系監(jiān)控報(bào)警診斷是飛天內(nèi)核最基本的能力之一。飛天內(nèi)核對上層應(yīng)用提供了非常詳細(xì)的、無間斷的監(jiān)控?cái)?shù)據(jù)和系統(tǒng)事件采集在基礎(chǔ)公共模塊之上有兩個(gè)最核心的服務(wù),一個(gè)叫盤古,一個(gè)叫伏羲天基是飛天的自動(dòng)化運(yùn)維服務(wù),負(fù)責(zé)飛天各個(gè)子系統(tǒng)的部署、升級、擴(kuò)容以及故障遷移阿里云飛天平臺(tái)內(nèi)核阿里云飛天平臺(tái)內(nèi)核可以分成以下幾個(gè)部分

分布式系統(tǒng)底層服務(wù)-其提供分布式環(huán)境下所需要的分布式協(xié)調(diào)服務(wù)、遠(yuǎn)程過程調(diào)用服務(wù)、安全管理、分布式資源調(diào)度等功能盤古分布式文件系統(tǒng)-盤古(Pangu)是一個(gè)分布式文件系統(tǒng),盤古系統(tǒng)的設(shè)計(jì)目標(biāo)是將大量通用機(jī)器的存儲(chǔ)資源聚合在一起,為用戶提供大規(guī)模、高可靠、高可用、高吞吐量和可擴(kuò)展的存儲(chǔ)服務(wù)

伏羲任務(wù)調(diào)度系統(tǒng)-該系統(tǒng)為集群中的任務(wù)提供調(diào)度服務(wù),同時(shí)支持強(qiáng)調(diào)響應(yīng)速度的在線服務(wù)(OnlineService)和強(qiáng)調(diào)處理數(shù)據(jù)吞吐量的離線任務(wù)(BatchProcessingJob)

集群監(jiān)控和部署-神農(nóng)(Shennong)是飛天平臺(tái)內(nèi)核中負(fù)責(zé)信息收集、監(jiān)控和診斷的模塊,大禹(Dayu)是飛天內(nèi)核中負(fù)責(zé)提供配置管理和部署的模塊阿里云飛天開放服務(wù)飛天開放服務(wù),包括彈性計(jì)算(ECS)、阿里云對象存儲(chǔ)(OSS)、表格存儲(chǔ)服務(wù)(TableStore)、關(guān)系型數(shù)據(jù)庫服務(wù)(RDS)、流式計(jì)算服務(wù)(StreamCompute)和大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute)等

彈性計(jì)算(ECS)

-云服務(wù)器ECS(ElasticComputeService)是一種云計(jì)算服務(wù),它的管理方式比物理服務(wù)器更加簡單、高效

阿里云對象存儲(chǔ)(OSS)

-阿里云對象存儲(chǔ)(ObjectStorageService,OSS)是阿里云對外提供的海量、安全、低成本、高可靠的云存儲(chǔ)服務(wù)

表格存儲(chǔ)(TableStore)-它是構(gòu)建在阿里云飛天分布式系統(tǒng)之上的NoSQL數(shù)據(jù)存儲(chǔ)服務(wù),提供海量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和實(shí)時(shí)訪問大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute)-大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原名ODPS)是一種快速、完全托管的TB/PB級數(shù)據(jù)倉庫解決方案阿里云飛天的特色阿里云飛天OpenStack和Hadoop的不同

OpenStack和Hadoop是軟件,它們并沒有解決客戶的CAPEX投入問題、運(yùn)維人員投入問題,需要部署到自有的硬件上,一般只用于單個(gè)企業(yè)的內(nèi)部環(huán)境

飛天上面提供了基于Hadoop、EMR、Mongo等開源軟件的托管服務(wù),這是飛天開放能力的體現(xiàn)阿里云飛天與

VMware、華為FusionSphere

的不同虛擬化不等于云計(jì)算,云的實(shí)時(shí)在線、海量彈性、多租戶隔離、專業(yè)運(yùn)維都是傳統(tǒng)虛擬化軟件所欠缺的

VMware的三大件主要解決了計(jì)算的效率問題,但是沒有解決計(jì)算的規(guī)模問題華為的FusionSphere其實(shí)是基于開源軟件進(jìn)行定制并適配華為硬件的軟件系統(tǒng),飛天內(nèi)核在規(guī)模、性能、穩(wěn)定性和通用性上都超越了FusionSphere主流大數(shù)據(jù)系統(tǒng)廠商

Cloudera-Cloudera是一家專業(yè)從事基于ApacheHadoop的數(shù)據(jù)管理軟件銷售和服務(wù)的公司,它發(fā)布的實(shí)時(shí)查詢開源項(xiàng)目Impala比基于MapReduce的HiveSQL的查詢速度提升了3~90倍Hortonworks-Hortonworks的開放式互聯(lián)平臺(tái)幫助企業(yè)管理所擁有的數(shù)據(jù)(動(dòng)態(tài)數(shù)據(jù)以及靜態(tài)數(shù)據(jù)),為用戶組織啟用可操作情報(bào)。主流大數(shù)據(jù)系統(tǒng)廠商Amazon–

Amazon的AWS本身就是最完整的大數(shù)據(jù)平臺(tái),AmazonWebServices提供了一系列廣泛的服務(wù),可以快速、輕松地構(gòu)建和部署大數(shù)據(jù)分析應(yīng)用程序

Google-

Google提出的MapReduce計(jì)算框架在很多大數(shù)據(jù)領(lǐng)域得到了非常廣泛的應(yīng)用

微軟-微軟推出的商業(yè)數(shù)據(jù)分析系統(tǒng)Microsoft

Analytics

Platform

System能夠通過其擴(kuò)充的大規(guī)模平行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論