云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第1頁
云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第2頁
云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第3頁
云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第4頁
云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)_第5頁
已閱讀5頁,還剩131頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

【轉(zhuǎn)】云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)全面剖析(圖)

1,luB

題目并不吸引人,主要是作者犯懶,羅列了一下關(guān)鍵詞而已,當(dāng)然好處是一看就知道文章要

說啥。

簡單說下結(jié)構(gòu),首先講講云計(jì)算,其次是數(shù)據(jù)中心,再然后是網(wǎng)絡(luò),重點(diǎn)還是技術(shù)。內(nèi)容是

循序漸進(jìn)的,可以理解前面每個詞都是后面詞的定語。

本文希望能夠幫讀者對云計(jì)算的數(shù)據(jù)中心的網(wǎng)絡(luò)的技術(shù)建立起全面的結(jié)構(gòu)性認(rèn)識,因此除了

總體思路的描述外,在介紹過程中也會力爭用三言兩語對前面部分中涉及的每個技術(shù)點(diǎn)都有

所說明,至少讓人明白這個東東怎么來的,要干啥和怎么干。但由于受篇幅所限,無法做到

很詳細(xì),大家如果對某個技術(shù)點(diǎn)真感興趣時,還是去網(wǎng)上找些更細(xì)節(jié)的資料來理解,本文是

打算沒有寫成一本書的。

力爭做到讓文檔讀起來不感到枯燥吧,對作者來說那是相當(dāng)有挑戰(zhàn)的。

2、云計(jì)算

最早接觸這個詞好像是06年了,當(dāng)時也是剛剛開始接觸數(shù)據(jù)中心不久,這幾年眼睜睜看著

它被炒作得一塌糊涂,現(xiàn)在已經(jīng)成為非常給力的一個概念。和別人談數(shù)據(jù)中心要是不提云計(jì)

算,你還真不好意思張這個嘴。

服務(wù)器廠商在喊云計(jì)算,網(wǎng)絡(luò)、操作系統(tǒng)、應(yīng)用軟件甚至存儲廠商都在喊。大家各喊各的,

讓我們感覺聽上去都有那么點(diǎn)兒味道,但下來仔細(xì)一琢磨大都還在云里霧里??纯催@張網(wǎng)上

截取的云計(jì)算產(chǎn)業(yè)全景圖,估計(jì)沒有幾個能夠不頭暈的。

YelpSaaS《N?AI>P

SauceLabs(BPaaS^^**nycheck

Echo%S,a,eoZephyrDoxo

GrotimuitGroupOn九]朋岫即MckBai^uOpenAir

偉庫Tur%?iAppJeli零/RigkScalcLivcr:

CEZohoCapoteScheduler(MlddlcwJlrc)WaveMaker髭卜;

SEnCl噸CSRCFW<>%?段3_力啊Facebook

Pingidentity'▼QuickbaQW"],]]、儂fbrm」W'."'

s&y,戲洲AppClGudiLO、名疝山國化「Vc*cnSKatus--

G瑞SGridBluK,裕ml、詞曲5皿。嚴(yán).啊湫jmBos-P^Pal

?盤曲期Tibc。/Skytap''

a;]即:,、8蟲htNow

iunev虬f^ingSu6<iardBiiieCloudIJ-電mWpgVM?昧2皿

Nh).)TwihoC,loudStackajwtQRMblexiscaiuNihn^anniivxAkocumulus14asAnuuia

SAPDelwdoJdSGEe&wis;2時不福xP般M

小"ZAMq咨丁遜yM雌ga,

BvlkWigaVirtMbSoXk^[g*\SnowflM°酸)2Apm"°曲g

Adobe?larrf^sFc(;PSNavisitc貨"hiScriix"J"'"’

AcrobatEgenqmNewRMc

F咆夕辱■

Connect彘%%黑'<",鱷/舉

疇訊:\K:,.;.*也、昌1%

1>d]hlueStnp6J.,

A猶曲哨。盤髭彘歌

MsloiideraOix-nNebula坐"舄:'y"飛北卜收*水

、f'<'*一t-...D.、

L

TipjirAlisonHeriSku,"一<|;-AppNcxus1aremnrk^<'?fSourul.-Med|pnica|

哂絲…!.:如一FastScale卜i%航蹴k

>K(x1ks-HPCupckwd舟anFmlSsle

Avahrai幌mmbo設(shè)、、尚卯5絮黑

TriCip;「Morpl\MSjzu"咋黑叮轆

國CkMlkt、癡“8"大皿,&.1k&;"%ws?/Liiltfedln

McCafec&udkjckT自m\翁E.皿KiMcipbcchpariNrYoutube

TuitterIttiancul4nalUK%PhtformK淞Hdgcftalfbnn底)卜‘展器

WindowsXtoohBungeeGix?gle/A^EiigineBMCZuofa成1r

LiveShiftboara(loudfoundryFair^Schcdulcr()中1。

VMK新uflfiscoUC$刖QuickenSaaS

kf喊黑翻:器eE3

c烯型AppsBaMxan,?.siria.corfi.cri/cl9|Jdgrid

bitsCN.com

云計(jì)算的各方面定義很多,基于用戶的視角來看,目的就是讓使用者在不需了解資源的具體

情況下做到按需分配,將計(jì)算資源虛擬化為一片云。站在高處看,當(dāng)前的主流云計(jì)算更貼切

于云服務(wù),個人認(rèn)為可理解為早先運(yùn)營商提供數(shù)據(jù)中心服務(wù)器租用服務(wù)的延伸.以前用戶租

用的是一臺臺物理服務(wù)器,現(xiàn)在租用的是虛擬機(jī),是軟件平臺甚至是應(yīng)用程序。公認(rèn)的三個

云計(jì)算服務(wù)層次是laaS(InfrastructureasaService\PaaS(PlatformasaService)

和SaaS(SoftwareasaService),分別對應(yīng)硬件資源、平臺資源和應(yīng)用資源。對于用戶

來說:

1、當(dāng)提供商給你的是一套a個核CPU、bG大小內(nèi)存的主機(jī)、cM帶寬網(wǎng)絡(luò)以及dG大

小存儲空間,需要你自己去裝系統(tǒng)和搞定應(yīng)用程序,那么這就是laaS,舉例如AmazonEC2;

2、當(dāng)提供的是包含基本數(shù)據(jù)庫和中間件程序的一套完整系統(tǒng),但你還需要根據(jù)接口編寫自

己的應(yīng)用程序時,那么就是PaaS,舉例如GoogleAppEngine、MicrosoftAzure和

AmazonSimpleDB,SQS;

3、最傻瓜的方式自然是連應(yīng)用程序都寫好了,例如你只需要告訴服務(wù)提供商想要的是個500

人的薪酬管理系統(tǒng),返回的服務(wù)就是個HTTPS的地址,設(shè)定好帳號密碼就可以訪問過去直

接使用,這就是SaaS了,如SalesForce,YahooHadoop和CiscoWebex:Collaboration

SaaS等。

AmazonGoogleMicrosoftYahoo

屬性EC2AppEngineAzureHadoop

架構(gòu)laaS/PaaSPaaSPaaSSaaS

股務(wù)形態(tài)Compute/WebWebandnon-Software

Storageapplicationweb

管理技術(shù)OSonXenApplicationOSthroughMap/Reduce

hypervisorcontainerFabricArchitecture

controller

使用者界面EC2Web-basedWindowsCommand

Command-lineAdministratioAzureportallineandweb

toolsnconsole

APIsyesyesyesyes

收密yesyesyesno

AMI(AmazonPython.NETJava.

MachineImage)framework

bitsCN.com

為啥舉例都是國外的呢,因?yàn)閲鴥?nèi)目前的云服務(wù)狀況是,能提供的都處于laaS階段,有喊

著要做PaaS的,但還沒聽說有SaaS的。

說完公共的,該講些私貨了。

個人理解云計(jì)算的核心首先是計(jì)算,什么網(wǎng)絡(luò)、存儲、安全等等都是外延,從技術(shù)上講云計(jì)

算就是計(jì)算虛擬化。最早的云計(jì)算來自于網(wǎng)格計(jì)算,通過一堆性能較差的服務(wù)器完成一臺超

級計(jì)算機(jī)才能完成的計(jì)算任務(wù),簡單的說就是計(jì)算多虛一。但是現(xiàn)如今一虛多(VM/XEN

等)也被一些廠商扯著大旗給忽悠進(jìn)來,并且成為主流。但是單從技術(shù)角度來看,這兩者是

南轅北轍的。因此云計(jì)算技術(shù)在下面被作者主觀的分為集中云與分散云兩個概念來闡述。

2.1集中云

首先是集中云,根正苗紅的多虛一,最早期的也是目前最大的一個典型實(shí)際用戶就是

GoogleT(注意這里說的不是現(xiàn)在Google云服務(wù))。搜索引擎是超級消耗資源的典型應(yīng)用,

從你在網(wǎng)頁上一個關(guān)鍵詞的搜索點(diǎn)擊,到搜索結(jié)果的產(chǎn)生,后臺是經(jīng)過了幾百上千臺服務(wù)器

的統(tǒng)一計(jì)算。至于搜索引擎的工作模型本文就不多說了,網(wǎng)上很多資料的。隨著互聯(lián)網(wǎng)的發(fā)

展,現(xiàn)在的開心、淘寶、新浪微博等等(好孩子不翻墻),雖然使用者看到的只是在簡單的

頁面進(jìn)行點(diǎn)擊輸入,但是后臺的工作量已經(jīng)遠(yuǎn)遠(yuǎn)不是少量幾臺大型服務(wù)器能夠勝任的了,即

使天河一號也不見得能搞定。集中云的應(yīng)用主力就是這些大型的互聯(lián)網(wǎng)內(nèi)容提供商們,當(dāng)然

還有一些傳統(tǒng)應(yīng)用如地震、氣象和科研項(xiàng)目的計(jì)算也會存在此類需求。

J98

U

J

0

J

l

n

b

c>

a:

fis

M

p

u

e

g

了解了需求,下面簡單談下技術(shù),上圖是Cluster集群多虛一技術(shù)的簡單分布,除了按照承

載網(wǎng)絡(luò)類型可分成Infiniband和Ethernet外,根據(jù)技術(shù)分,還可分為Active-Standby主

備與LoadBalance負(fù)載均衡兩類。

主備模式好理解,所有的Server里面只有一臺干活,其他都是候著的,只有偵聽到干活的

歇菜了,才開始接管處理任務(wù)。主備模式大部分就二虛一提供服務(wù),多了如三虛T十么的其

實(shí)意義都不太大,知E是為了再多增加些可靠性。主備模式以各類HA集群技術(shù)為代表。

而負(fù)載均衡模式復(fù)雜一些,在所有的LB技術(shù)中都存在兩個角色,協(xié)調(diào)者與執(zhí)行者,協(xié)調(diào)者

一般是一個或多個(需要主備冗余時),主要工作就是接活兒和分活兒(有點(diǎn)兒像包工頭);

而執(zhí)行者就只處理計(jì)算了,分到啥就完成啥,典型的苦力。從流量模型上來說,LB集群技

術(shù)有來回路徑一致和三角傳輸兩種,來回路徑一致指流量都是客戶發(fā)起連接,請求協(xié)調(diào)者進(jìn)

行處理,協(xié)調(diào)者分配任務(wù)給執(zhí)行者進(jìn)行計(jì)算,計(jì)算完成后結(jié)果會都返回到協(xié)調(diào)者,再由協(xié)調(diào)

者應(yīng)答客戶。

這種結(jié)構(gòu)簡單,計(jì)算者不需要了解外界情況,由協(xié)調(diào)者統(tǒng)一作為內(nèi)外接口,安全性最高。此

模型主要應(yīng)用于搜索和地震氣象科研計(jì)算等業(yè)務(wù)處理中。三角傳輸模型指計(jì)算者完成計(jì)算后

直接將結(jié)果反饋給客戶,此時由于計(jì)算者會和客戶直接通信,造成安全性降低,但返回流量

減少了協(xié)調(diào)者這個處理節(jié)點(diǎn),性能得到很大提升。此模型主要應(yīng)用于騰訊新浪的新聞頁面和

阿里淘寶的電子商務(wù)等WEB訪問業(yè)務(wù)。

集中云在云服務(wù)中屬于富人俱樂部的范圍,不是給中小企業(yè)和個人玩的,實(shí)際上都是各大互

聯(lián)網(wǎng)服務(wù)提供商自行搭建集中云以提供自己的業(yè)務(wù)給用戶,不會說哪天雅虎去租用個

Google的云來向用戶提供自己的新聞頁面訪問。集中云服務(wù)可能的租用對象是那些高度科

研項(xiàng)目,因而也導(dǎo)致當(dāng)前集中云建設(shè)上升到國家宏觀戰(zhàn)略層面的地位。你能想象哪天百度的

云服務(wù)提供給總裝研究院去計(jì)算個導(dǎo)彈軌跡,核裂變什么嘛,完全不可能的事。

最后是多虛一對網(wǎng)絡(luò)的需求。在集中云計(jì)算中,服務(wù)器之間的交互流量多了,而外部訪問的

流量相對減少,數(shù)據(jù)中心網(wǎng)絡(luò)內(nèi)部通信的壓力增大,對帶寬和延遲有了更高的要求,自然而

然就催生出后面會講到的一些新技術(shù)(L2MP/TRILL/SPB等\

題外話,當(dāng)前的多虛一技術(shù)個人認(rèn)為不夠給力,現(xiàn)在把10臺4核CPU的服務(wù)器虛擬合一后,

虛擬的服務(wù)器遠(yuǎn)遠(yuǎn)達(dá)不到一個40核CPU的計(jì)算能力。準(zhǔn)確的說現(xiàn)在的多虛一只能基于物理

服務(wù)器的粒度進(jìn)行合并,理想的情況應(yīng)該是能夠精細(xì)到CPU核以及每臺設(shè)備的內(nèi)存緩存等

等物理構(gòu)件虛擬合一。這塊應(yīng)該就涉及到超算了,不熟不深談??偟膩碚f認(rèn)為技術(shù)進(jìn)步空間

巨大,有些搞頭。

2.2分散云

再講分散云,這塊是目前的主流,也是前面提到的云服務(wù)的關(guān)鍵底層技術(shù)。由于有VMware

和Citrix等廠家在大力推廣,而且應(yīng)用內(nèi)容較集中云更加平民化,隨便找臺PC或服務(wù)器,

裝幾個虛擬機(jī)大家都能玩一玩,想干點(diǎn)兒啥都成,也就使其的認(rèn)知度更加廣泛。

一虛多的最主要目的是為了提高效率,力爭讓所有的CPU都跑到100%,力爭讓所有的內(nèi)

存和帶寬都占滿。以前10臺Server干的事,我整兩臺Server每臺跑5個虛擬機(jī)VM(Virtual

Machine)就搞定了,省電省空間省制冷省網(wǎng)線,總之省錢是第一位的(用高級詞兒就是

綠色環(huán)保I技術(shù)方面從實(shí)現(xiàn)方案來看,目前大致可分為三類:

操作系統(tǒng)虛擬化OS-Level

在操作系統(tǒng)中模擬出一個個跑應(yīng)用程序的容器,所有虛擬機(jī)共享內(nèi)核空間,性能最好,耗費(fèi)

資源最少,一個CPU號稱可最多模擬500個VPS(VirtualPrivateServer)或VE(Virtual

Environment),缺點(diǎn)是操作系統(tǒng)唯一,如底層操作系統(tǒng)跑的Windows,VPS/VE就都得跑

Windows。代表是Parallels公司(以前叫SWso代)的Virtuozzo(商用產(chǎn)品)和OpenVZ

(開源項(xiàng)目1Cisco的Nexus7000猜測也是采用這種方案運(yùn)行的VDC技術(shù),但不太清楚

為什么會有最多4個VDC的數(shù)量限制,也許是基于當(dāng)前應(yīng)用場景進(jìn)行規(guī)格控制的一種商業(yè)

手段。

主機(jī)虛擬化Hosted

先說下Hypervisor或叫做VirtualMachineMonitor(VMM),它是管理虛擬機(jī)VM的軟

件平臺。在主機(jī)虛擬化中,Hypervisor就是跑在基礎(chǔ)操作系統(tǒng)上的應(yīng)用軟件,與OS-Level

中VE的主要區(qū)別在于:

Hypervisor構(gòu)建出一整套虛擬硬件平臺(CPU/Memory/Storage/Adapter),上面需要你

再去安裝新的操作系統(tǒng)和需要的應(yīng)用軟件,這樣底層和上層的OS就可以完全無關(guān)化,諸如

Windows上跑Linux一點(diǎn)兒問題沒有;

VE則可以理解為盜用了底層基礎(chǔ)操作系統(tǒng)的資源去欺騙裝在VE上的應(yīng)用程序,每新創(chuàng)建

出一個VE,其操作系統(tǒng)都是已經(jīng)安裝好了的,和底層操作系統(tǒng)完全一樣,所以VE比較VM

(包括主機(jī)虛擬化和后面的裸金屬虛擬化)運(yùn)行在更高的層次上,相對消耗資源也少很多。

主機(jī)虛擬化中VM的應(yīng)用程序調(diào)用硬件資源時需要經(jīng)過:VM內(nèi)核"Hypervisor->主機(jī)內(nèi)

核,導(dǎo)致性能是三種虛擬化技術(shù)中最差的。主機(jī)虛擬化技術(shù)代表是VMwareServer(GSX\

Workstation和MicrosoftVirtualPC、VirtualServer等。

裸金屬虛擬化Bare-metal

裸金屬虛擬化中Hypervisor直接管理調(diào)用硬件資源,不需要底層操作系統(tǒng),也可以理解為

Hypervisor被做成了一個很薄的操作系統(tǒng)。這種方案的性能處于主機(jī)虛擬化與操作系統(tǒng)虛

擬化之間。代表是、和

VMwareESXServerCitrixXenServerMicrosoftHyper-Vo

HostedBare-Metal

上圖描述了三種虛擬化方案的形態(tài)區(qū)別。當(dāng)前分散云數(shù)據(jù)中心服務(wù)器虛擬化使用的主要是

Bare-Metal方案。分散云給數(shù)據(jù)中心網(wǎng)絡(luò)帶來了新的挑戰(zhàn),虛擬機(jī)之間的數(shù)據(jù)通信管理需

求促使了一系列網(wǎng)絡(luò)新技術(shù)的發(fā)展。在OS-Level與Hosted方案中,虛擬機(jī)都是架設(shè)于操

作系統(tǒng)之上的,因此VM/VE之間的通信主要由同樣運(yùn)行于基礎(chǔ)操作系統(tǒng)之上的網(wǎng)絡(luò)交換應(yīng)

用程序來完成。而在最主流的Bare-Metal結(jié)構(gòu)中,由于Hypervisor薄操作系統(tǒng)的引入,

性能、管理、安全和可靠性等多維度的考慮,造成VM間網(wǎng)絡(luò)通信管理發(fā)展出不同的技術(shù)

道路(EVB與BPE),后文會對這些技術(shù)方向加以詳述。

VMwareESX與Xen/Hyper-V的Bare-Metal方案實(shí)現(xiàn)結(jié)構(gòu)有所不同,簡單如下圖所示。

XEN/Hyper-VPara-Virtualization

分散云除了給網(wǎng)絡(luò)帶來上述的VM通信問題,同樣由于其對服務(wù)器硬件能力的極端榨取,

造成網(wǎng)絡(luò)中的流量壓力增大,與集中云一樣存在著帶寬擴(kuò)展的需求。原本一臺服務(wù)器一個操

作系統(tǒng)跑一個應(yīng)用只需要10M流量帶寬就夠了,現(xiàn)在裝了10個VM跑10個應(yīng)用,帶寬可能

就需要100M了。

大型機(jī)與小型機(jī)的一虛多技術(shù)早在30年前IBM就做出來了,現(xiàn)在RISC平臺上已經(jīng)相當(dāng)完

善了,相匕檄而言X86架構(gòu)的虛擬化才處于起步階段,但X86架構(gòu)由于性價比更高成為了

分散云計(jì)算的首選。

X86架構(gòu)最早期是純軟件層面的Hypervisor提供虛擬化服務(wù),缺陷很多,性能也不夠,直

至!12006年Intel推出了實(shí)現(xiàn)硬件輔助虛擬化的VT技術(shù)CPU產(chǎn)品后才開始迅猛發(fā)展(AMD

也跟著出了VM技術(shù)X硬件輔助虛擬化技術(shù)主要包括CPU/Chipset/NetworkAdapter

等幾個方面,和網(wǎng)絡(luò)技術(shù)緊密相關(guān)的就是網(wǎng)卡虛擬化了,后文會對如SR-IOV等網(wǎng)卡虛擬化

技術(shù)應(yīng)用進(jìn)行更具體分析。隨著2007年IntelVTFlexMigration技術(shù)的推出,虛擬機(jī)遷移

成為可能,2009年Intel支持異構(gòu)CPU間動態(tài)遷移再次向前邁進(jìn)。

vMotion

這里再多嘮叨幾句vMotion技術(shù)。vMotion是VMware公司提出的虛擬機(jī)動態(tài)遷移技術(shù)

名稱(XEN也有相應(yīng)的XENMotion技術(shù)),由于此名稱被喊得最早,范圍最廣,認(rèn)知度最

高,因此下文提到虛擬機(jī)遷移技術(shù)時大都會使用vMotion來代稱。

先要明確vMotion是一項(xiàng)資源管理技術(shù),不是高可靠性技術(shù),如果你的某臺服務(wù)器或VM

突然宕機(jī)了,vMotion是無助于應(yīng)用訪問進(jìn)行故障切換和快速恢復(fù)的。vMotion是將一個

正常的處于服務(wù)提供中的VM從一臺物理服務(wù)器搬家到另一臺物理服務(wù)器的技術(shù),vMotion

的目的是盡可能方便的為服務(wù)管理人員提供資源調(diào)度轉(zhuǎn)移手段,當(dāng)物理服務(wù)器需要更換配件

關(guān)機(jī)重啟啦,當(dāng)數(shù)據(jù)中心需要擴(kuò)容重新安排資源啦,這種時候vMotion就會有用武之地了。

設(shè)想一下沒有vMotion上述遷移工作是怎么完成的,首先需要將原始物理服務(wù)器上的VM

關(guān)機(jī),再將VM文件拷貝到新的物理服務(wù)器上,最后將VM啟動,整個過程VM對夕屣供

的服務(wù)中斷會達(dá)到幾分鐘甚至幾小時的級別。而且需要來回操作兩臺物理服務(wù)器上的VM,

對管理人員來說也很忙叨。

使用vMotion后,兩臺物理服務(wù)器使用共享存儲來保存VM文件,這樣就節(jié)省了上述步驟

2中的時間,vMotion只需在兩臺物理服務(wù)器間傳遞當(dāng)前的服務(wù)狀態(tài)信息,包括內(nèi)存和TCP

等上層連接表項(xiàng),狀態(tài)同步的拷貝時間相對較短,而且同步時原始VM還可以提供服務(wù)使

其不會中斷。同步時間跟VM當(dāng)前負(fù)載情況及遷移網(wǎng)絡(luò)帶寬有關(guān),負(fù)載大了或帶寬較低使

同步時間較長時,有可能會導(dǎo)致vMotion出現(xiàn)概率性失敗。當(dāng)狀態(tài)同步完成后,原始物理

服務(wù)器上的VM會關(guān)閉,而新服務(wù)器上的VM激活(系統(tǒng)已經(jīng)在狀態(tài)同步前啟動完畢,始

終處于等待狀態(tài)),此時會有個較短的業(yè)務(wù)中斷時間,可以達(dá)到秒級。再者vMotion是通過

VMware的vCenter管理平臺一鍵化完成的,管理人員處理起來輕松了許多。

這里要注意vMotion也一定會出現(xiàn)業(yè)務(wù)中斷,只是時間長短區(qū)別,不要輕易被一些宣傳所

忽悠。想想原理,不論怎么同步狀態(tài),只要始終有新建發(fā)生,在同步過程中原始服務(wù)器上新

建立的客戶連接,新服務(wù)器上都是沒有的,切換后這部分連接勢必被斷開重建,零丟包只能

是理想值。VMware也同樣建議將vMotion動作安排在業(yè)務(wù)量最少的時候進(jìn)行。

vMotion什么場景適用呢?首先肯定得是一虛多的VM應(yīng)用場景,然后是對外業(yè)務(wù)中斷恢

復(fù)的可靠性要求極高,一般都是7*24小時不間斷應(yīng)用服務(wù)才用得上,最后是計(jì)算節(jié)點(diǎn)規(guī)模

始終在不斷增長,資源調(diào)度頻繁,管理維護(hù)工作量大的數(shù)據(jù)中心。

另外共享存儲這個強(qiáng)制要求會給數(shù)據(jù)中心帶來了整體部署上的限制,尤其是下面提到的跨數(shù)

據(jù)中心站點(diǎn)vMotion時,跨站點(diǎn)共享存儲的問題解決起來是很麻煩的,由于這部分內(nèi)容和

網(wǎng)絡(luò)關(guān)系不大,屬于存儲廠商的地盤,對跨站點(diǎn)共享存儲技術(shù)有興趣的讀者可以參考

EMC/IBM等廠商的資料看看,本文就不過多介紹了。

vMotion的出現(xiàn)推動了數(shù)據(jù)中心站點(diǎn)間大二層互聯(lián)和多站點(diǎn)動態(tài)選路的網(wǎng)絡(luò)需求,從而導(dǎo)

致OTV和LISP等一系列新網(wǎng)絡(luò)技術(shù)的出現(xiàn)。

2.3云計(jì)算小結(jié)

通過前面的描述,希望大家能對云計(jì)算有個較為清晰的概念。云計(jì)算還有一大塊內(nèi)容是平臺

管理資源調(diào)度方面(目前很多廠家吆喝的云計(jì)算都是云平臺1這部分主要針對客戶如何更

便捷的創(chuàng)建與獲取虛擬化服務(wù)資源,實(shí)際過程就是用戶向平臺管理軟件提出服務(wù)請求,管理

平臺通過應(yīng)用程序接口API(ApplicationProgramInterface)將請求轉(zhuǎn)化為指令配置下

發(fā)給服務(wù)器、網(wǎng)絡(luò)、存儲和操作系統(tǒng)、數(shù)據(jù)庫等,自動生成服務(wù)資源。需要網(wǎng)絡(luò)做的就是設(shè)

備能夠識別管理平臺下發(fā)的配置,從技術(shù)創(chuàng)新的角度講,沒有啥新鮮東西,就不多說了。當(dāng)

前的云平臺多以IaaS/PaaS為主,能做到提供SaaS的極少。但在今后看來,SaaS將會成

為云服務(wù)租用主流,中小企業(yè)和個人可以節(jié)省出來IT建設(shè)和維護(hù)的費(fèi)用,更專注于自身的

業(yè)務(wù)發(fā)展。

總結(jié)一下云計(jì)算給數(shù)據(jù)中心網(wǎng)絡(luò)帶來的主要變化:

1、更高的帶寬和更低的延遲

2、服務(wù)器節(jié)點(diǎn)(VM)規(guī)模的增加

3、VM間通信管理

4、跨數(shù)據(jù)中心站點(diǎn)間的二層互聯(lián)以承載vMotion

題外再多說兩句,計(jì)算虛擬化中一虛多與多虛一結(jié)合使用才是王道。但目前云計(jì)算服務(wù)提供

商能夠提供的只是先將物理服務(wù)器一虛多成多臺VM,再通過LB/集群計(jì)算等技術(shù)將這些

VM對外多虛一成一個可用的資源提供服務(wù)。個人感覺,如果能做到先將一堆物理服務(wù)器虛

擬成一臺幾萬個核SuperComputer,用戶再根據(jù)自己的需要幾個幾十個核的自取資源,

這樣才更有云計(jì)算的樣子,SuperComputer就是那朵云。當(dāng)然計(jì)算虛擬化的時候不光是

核的調(diào)配,還要包括IO/Memory等一起進(jìn)行調(diào)度,這里只是簡單舉例。

3、數(shù)據(jù)中心

數(shù)據(jù)中心的產(chǎn)生有多早?從人類開始將信息記錄到介質(zhì)上傳遞開始就有了數(shù)據(jù)中心,那個記

載信息的介質(zhì)(石頭或樹皮)就是數(shù)據(jù)中心,不過那時的網(wǎng)絡(luò)是靠手手相傳而已。如果更甚

一些,可以理解人類產(chǎn)生語言開始,知識最多的人(酋長/祭祀)就是數(shù)據(jù)中心,口口相傳

就相當(dāng)于現(xiàn)如今的網(wǎng)絡(luò)傳輸。有人該說,夸張了哈,寫作手法而已,只是想突出一下數(shù)據(jù)中

心的重要性。

當(dāng)計(jì)算機(jī)網(wǎng)絡(luò)連接到Server的那一刻起,整個世界的網(wǎng)絡(luò)就從網(wǎng)狀變成了樹狀,一個個數(shù)

據(jù)中心就是網(wǎng)絡(luò)世界的根。

3.1Client與Server

在所有的數(shù)據(jù)通信會話中,只有兩個永恒的角色,Client與Server,為了下文敘述簡便,

作者把數(shù)據(jù)中心內(nèi)部的終端統(tǒng)一稱之為Server,數(shù)據(jù)中心外部的為Client.這樣網(wǎng)絡(luò)間的

流量通信就只剩下Client-Server(CS)與Server-Server(SS)兩種了。其實(shí)更準(zhǔn)確說還

是只有CS一種,SS通信也是有個發(fā)起方和響應(yīng)方的。QQ/MSN等即時通信軟件的流量模

型實(shí)際可理解為CSC,睢有P2P對CS結(jié)構(gòu)有所顛覆,但不管怎么處理也必定會存在Server

角色進(jìn)行最初的調(diào)度。

所有數(shù)據(jù)中心需要處理的業(yè)務(wù)就是CS和SS兩種,CS肯定是基于IP進(jìn)行L3轉(zhuǎn)發(fā)的了,SS

則分為基于IP的L3和基于MAC的L2兩種轉(zhuǎn)發(fā)方式?;贗P的SS通信主要是不同業(yè)務(wù)間

的數(shù)據(jù)調(diào)用,如WEB/APP服務(wù)器去調(diào)用DB服務(wù)器上的數(shù)據(jù),再如有個員工離職,職工管

理系統(tǒng)會同步通知薪酬管理、考勤管理、績效管理等一系列系統(tǒng)進(jìn)行刪除信息的相關(guān)操作。

基于MAC的SS通信則是同一類服務(wù)器間的數(shù)據(jù)同步計(jì)算,比如使用WEB集群分流用戶

訪問時,需要對修改或增刪的城進(jìn)行集群同步;再比如多虛一中集群一起計(jì)算任務(wù)時協(xié)調(diào)

者和執(zhí)行者之間的大量通信進(jìn)行任務(wù)調(diào)度。

可以看出云計(jì)算數(shù)據(jù)中心給網(wǎng)絡(luò)帶來的挑戰(zhàn)主要是基于MAC的二層(OSI模型)SS通信。

在一虛多技術(shù)影響下,Server的概念已經(jīng)擴(kuò)展到以單臺VM為基礎(chǔ)單元,因此可以引出下

面這個圖,看看新網(wǎng)絡(luò)技術(shù)是如何劃分的。

Client

DCSite2

VM/PSVM/PS

<^$^/sicalServer(PS)

bitsCN.com

Networkl:VM到VM之間的SS二層互聯(lián)網(wǎng)絡(luò)

Network2:DC站點(diǎn)內(nèi)部SS二層互聯(lián)網(wǎng)絡(luò)

Networks:跨DC站點(diǎn)間的SS二層互聯(lián)網(wǎng)絡(luò)

Network4:DC到Client之間的CS三層互聯(lián)網(wǎng)絡(luò)

后文的技術(shù)章節(jié)就會針對這些部分進(jìn)行展開,詳細(xì)說下都有哪些技術(shù)分別對應(yīng)在這四段網(wǎng)絡(luò)

中,這些技術(shù)的特點(diǎn)是什么。

3.2層次化與扁平化

數(shù)據(jù)中心的網(wǎng)絡(luò)結(jié)構(gòu)取決于應(yīng)用計(jì)算模型,計(jì)算模型主要分為層次化與扁平化兩種結(jié)構(gòu)。層

次化結(jié)構(gòu)如下圖所示,典型的應(yīng)用如WEB-APP-DB、搜索引擎或高性能計(jì)算(地震、科研)

等。特點(diǎn)是客戶請求計(jì)算結(jié)果必須逐層訪問,返回?cái)?shù)據(jù)也要逐層原路返回。

OientOient

OutsideNetworkLayer

Interface

Layer

Date

Layer1

Dat

LaZ<

bitsCN.com

計(jì)算模型扁平化結(jié)構(gòu)如下圖所示,特點(diǎn)是數(shù)據(jù)層服務(wù)器會將結(jié)果直接返回給客戶,不需要再

由接口層服務(wù)器進(jìn)行處理,也有管這種模型叫做三角傳輸?shù)?。典型的?yīng)用如一些Internet

網(wǎng)站服務(wù)采用的LB結(jié)構(gòu),LB服務(wù)器就是只做調(diào)度,WEB服務(wù)器會直接將請求結(jié)果返回給

用戶。

CiicnlClient

NetworkLayer

ServerServerServerServer

bitsczB盟rfaceLayerDataLayer

注意,上面說的是計(jì)算模型,和網(wǎng)絡(luò)模型并不是——對應(yīng),采用層次化結(jié)構(gòu)計(jì)算模型一樣可

以進(jìn)行扁平化組網(wǎng),如下圖所示。

Clifnl

NetworkLayer

ServerSrfwrSrrvrrSrrvrt

bit/您常"aceLayerDataLayer

從網(wǎng)絡(luò)角度講,扁平化相比較層次化結(jié)構(gòu)最大的好處是可以減少服務(wù)器的網(wǎng)卡接口數(shù)量(省

錢),然而缺點(diǎn)是沒有清晰的層次,部署維護(hù)的復(fù)雜度就會相應(yīng)提升。總體來說,當(dāng)前數(shù)據(jù)

中心實(shí)際組網(wǎng)建設(shè)中,這兩種方式誰都沒占據(jù)到絕對優(yōu)勢,上哪種結(jié)構(gòu)完全看規(guī)劃者的考量

重點(diǎn)是在哪個方面。

前面說過,云計(jì)算主要分為多虛一與一虛多兩種虛擬化結(jié)構(gòu)。一虛多對傳統(tǒng)計(jì)算模型沒有太

大影響,只是將其服務(wù)器從物理機(jī)到虛擬機(jī)數(shù)量規(guī)模擴(kuò)大了N倍,網(wǎng)絡(luò)規(guī)模也隨之進(jìn)行擴(kuò)

大。而多虛一中,協(xié)調(diào)者角色對應(yīng)了接口層服務(wù)器,執(zhí)行者角色則對應(yīng)數(shù)據(jù)層服務(wù)器,由于

此時大量的通信交互是在不同執(zhí)行者之間或執(zhí)行者與協(xié)調(diào)者之間,需要重點(diǎn)關(guān)注的大規(guī)模網(wǎng)

絡(luò)就由原來的接口層服務(wù)器之前,轉(zhuǎn)移到了接口層服務(wù)器與數(shù)據(jù)層服務(wù)器之間。

3.3三層結(jié)構(gòu)與兩層結(jié)構(gòu)

在以往的數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)時,關(guān)注的重點(diǎn)都是指接口層服務(wù)器前的網(wǎng)絡(luò),傳統(tǒng)的三層網(wǎng)絡(luò)

結(jié)構(gòu)如下圖所示。其中的匯聚層作為服務(wù)器網(wǎng)關(guān),可以增加防火墻、負(fù)載均衡和應(yīng)用加速等

應(yīng)用優(yōu)化設(shè)備。

CoreCore

LayerSwitch

Aggregation

Layer

AccessAccewAcceuAccrss

LayerSwitchSwitchSwitch

但在云計(jì)算數(shù)據(jù)中心里面Ethernet網(wǎng)絡(luò)規(guī)模擴(kuò)大,流量帶寬需求增加,因此不會在網(wǎng)絡(luò)中

間位置再插入安全和優(yōu)化設(shè)備了,轉(zhuǎn)發(fā)性能太低,上去就是瓶頸,匯聚層的位置也就可有可

無了。再加上帶寬收斂比的問題,短期內(nèi)大型云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)里面不會出現(xiàn)匯聚層的概

念。以前是百兆接入、千兆匯聚、萬》&核心,現(xiàn)在服務(wù)器接入已經(jīng)普及千兆向著萬兆邁進(jìn)了,

除非在框式交換機(jī)上40G/100G接口真的開始大規(guī)模部署,還有可能在云計(jì)算數(shù)據(jù)中心里

面再見到超過兩層的級聯(lián)結(jié)構(gòu)網(wǎng)絡(luò)。現(xiàn)如今的云計(jì)算數(shù)據(jù)中心流行的都是如下圖所示的千兆

接入,萬兆核心的兩層網(wǎng)絡(luò)結(jié)構(gòu)。

CoreCoreCore

LayerSwitchSwitch

AccessAccraAcc。外Acce?Acceu

LayerSwitchSwitchSwitchSwitch

此兩層網(wǎng)絡(luò)結(jié)構(gòu)部署在接口層服務(wù)器之前,則一般會將服務(wù)器網(wǎng)關(guān)部署在CoreSwitch上,

但前提是網(wǎng)絡(luò)規(guī)模不會太大,Core不會太多(2個就差不多了),否則VRRP/HSRP等多網(wǎng)

關(guān)冗余協(xié)議只能走到一個活動網(wǎng)關(guān),會導(dǎo)致網(wǎng)絡(luò)效率很低。還有一種方式是將服務(wù)器網(wǎng)關(guān)部

署在AccessSwitch±,AccessSW與CoreSW之間通過OSPF等動態(tài)路由協(xié)議達(dá)到全

互聯(lián),使用等價路由達(dá)到多CoreSW的負(fù)載均擔(dān)。但此方式的缺點(diǎn)是L3路由交互轉(zhuǎn)發(fā)效率

較低,部署復(fù)雜且占用大量IP地址。在未來的TRILL/SPB等二層Ethernet技術(shù)結(jié)構(gòu)中,

可能會出現(xiàn)專門作為網(wǎng)關(guān)與外部進(jìn)行IP層面通信用的邊緣交換機(jī)(由于出口規(guī)模有限,2-4

臺足夠處理),內(nèi)部的CoreSW只做二層轉(zhuǎn)發(fā),可以大規(guī)模部署以滿足內(nèi)部服務(wù)器交互的

需求,如下圖所示。

CoreCoreCor*Core

LayerSwitchSwitchSwitch

AccessAccess

AccessAccessAccess

LayerSwitchISwitchSwitchISwitch

當(dāng)遇到多虛一高性能計(jì)算的模型,則二層網(wǎng)絡(luò)結(jié)構(gòu)會被部署在接口服務(wù)器與數(shù)據(jù)服務(wù)器之

間,為二者構(gòu)建純二層的大規(guī)模交互網(wǎng)絡(luò),結(jié)構(gòu)如下圖所示。

CoreCoreCoreCore

LayerSwitchSwitchSwitch

3.4Server與Storage

前面說的CS/SS網(wǎng)絡(luò)可以統(tǒng)稱為數(shù)據(jù)中心前端網(wǎng)絡(luò),目前和以后基本上都是IP+Ethernet

一統(tǒng)天下(IBInfiniband只能吃到高性能計(jì)算的一小口\有前端當(dāng)然就有后端,在數(shù)據(jù)中

心里面,服務(wù)器與存儲設(shè)備連接的網(wǎng)絡(luò)部分統(tǒng)稱為數(shù)據(jù)中心后端網(wǎng)絡(luò)。就目前和短期的未來

來看,這塊兒都是FC的天下。

簡單說兩句存儲,DAS(DirectAttachedStorage)直連存儲就是服務(wù)器里面直接掛磁盤,

NAS(NetworkAttachedStorage)則是網(wǎng)絡(luò)中的共享文件服務(wù)器,此二者大多與數(shù)據(jù)中

心級別存儲沒什么關(guān)系。只有SAN(StorageAreaNetwork)才是數(shù)據(jù)中心存儲領(lǐng)域的霸

主,磁盤陣列會通過FC或TCP/IP網(wǎng)絡(luò)注冊到服務(wù)器上模擬成直連的磁盤空間。而目前FC

SAN是主流中的主流,基于TCP/IP的IPSAN等都是配太子讀書的角色。

在服務(wù)器到存儲的后端網(wǎng)絡(luò)中,涉及到I。同步問題,高速、低延遲與無丟包是對網(wǎng)絡(luò)的基

本需求,而Ethernet技術(shù)擁有沖突丟包的天然缺陷,F(xiàn)C的無丟包設(shè)計(jì)使其領(lǐng)先一步,加上

早期Ethernet還掙扎在100M帶寬時,F(xiàn)C已經(jīng)可以輕松達(dá)到2G,所以在后端網(wǎng)絡(luò)中從開

始到現(xiàn)在都是FC獨(dú)占鰲頭。但是從發(fā)展的眼光看,Ethernet目前已經(jīng)向著40G/100G邁

進(jìn),而FC的演進(jìn)并不理想,無論是BASE10的10/20/40G路線(主要用在FC交換機(jī)之間,

目前基本已經(jīng)被淘汰)還是BASE2的2/4/8/16/32G路線(當(dāng)前主流FC應(yīng)用)都已經(jīng)落后,

加上各種以太網(wǎng)零丟包技術(shù)(CEE/DCE/DCB)的出現(xiàn),以后鹿死誰手還真不好說。

在目前階段為了兼容數(shù)據(jù)中心已有的主流FC網(wǎng)絡(luò)和存儲設(shè)備在基于iSCSI技術(shù)的IPSAN

技術(shù)沒能開花結(jié)果的情況下,眾多Ethernet網(wǎng)絡(luò)廠商又推出了FCoE來蠶食服務(wù)器到存儲

這塊蛋糕。下文技術(shù)章節(jié)會專門介紹FCoE的內(nèi)容。

先簡單說下,F(xiàn)CoE沒有惦著像IPSAN那樣一下子完全取代FC去承載后端網(wǎng)絡(luò),而是走

前后端網(wǎng)絡(luò)融合,逐步蠶食的路線,是網(wǎng)絡(luò)廠商們將數(shù)據(jù)中心的核心由服務(wù)器向網(wǎng)絡(luò)設(shè)備轉(zhuǎn)

移的重要武器。如下圖,就是看誰做太陽,誰做星星。相比較IPSAN的壯烈犧牲,F(xiàn)CoE

采用了一條更為迂回的兼容道路,目前已經(jīng)出現(xiàn)了支持FCoE的存儲設(shè)備,也許Ethernet

完全替代FC的時代真的能夠到來。

OaentClient

fP/Ether

ClientIF/Rher

net

net

NetworkNetwork

Network

iP/tther

FCoE

Servernet

Switch

Network

dH:

bitsC^.£°T.onal?IPSANFCoE

如果FCoE能成功,雖然短期內(nèi)交換機(jī)、服務(wù)器和存儲的價格對比不會有太大的變化,但是

占據(jù)了核心位置,對未來的技術(shù)發(fā)展就有了更大的話語權(quán),附加值會很高。又如當(dāng)前的EVB

(EdgeVirtualBridging)和BPE(BridgingPortExtend)技術(shù)結(jié)構(gòu)之爭也同樣是話語

權(quán)之爭。

順便一提,當(dāng)一項(xiàng)完全不能向前兼容的全新技術(shù)出現(xiàn)時,除非是有相當(dāng)于一個國家的力量去

推動普及,而且原理簡單到8-80歲都一聽就明白,否則注定會夭折,與技術(shù)本身優(yōu)劣無太

大關(guān)系。老話說得好,一口吃不成胖子。

3.5數(shù)據(jù)中心多站點(diǎn)

這是個有錢人的話題,且符合2-8原則,能夠建得起多個數(shù)據(jù)中心站點(diǎn)的在所有數(shù)據(jù)中心項(xiàng)

目中數(shù)量也許只能占到20%,但他們占的市場份額肯定能達(dá)到80%。

建多個數(shù)據(jù)中心站點(diǎn)主要有兩個目的,一是擴(kuò)容,二是災(zāi)備。

擴(kuò)容

首先說擴(kuò)容,一個數(shù)據(jù)中心的服務(wù)器容量不是無限的,建設(shè)數(shù)據(jù)中心時需要考慮的主要因素

是空間、電力、制冷和互聯(lián)。數(shù)據(jù)中心購買設(shè)備場地建設(shè)只是占總體耗費(fèi)的一部分,使用過

程中的耗能維護(hù)開銷同樣巨大,以前就鬧過建得起用不起的笑話。當(dāng)然現(xiàn)在建設(shè)時要規(guī)范得

多,考慮也會更多,往往做預(yù)算時都要考慮到10年甚至以上的應(yīng)用損耗。

再講個故事,以前曾有某大型ISP打算找個雪山峽谷啥的建數(shù)據(jù)中心,荒郊野外空間本來就

大,融雪制冷,水力發(fā)電,聽上去一切都很美,但是就忘了T牛事,互聯(lián)。光纖從哪里拉過

去,那么遠(yuǎn)的距離中間怎么維護(hù),至少從目前階段來說這個問題無解。也許等到高速通信發(fā)

展到可以使用類似鉞星的無線技術(shù)搞定時,數(shù)據(jù)中心就真的都會建到渺無人煙的地方吧,現(xiàn)

在還只能在城市周邊徘徊。貌似聽說過國外有建得比較偏遠(yuǎn)的大型數(shù)據(jù)中心,但個人覺得應(yīng)

該還是人家通信行業(yè)發(fā)達(dá),光纖資源豐富,四處都能接入。但至少目前國內(nèi)的運(yùn)營商們不見

得會支持,大城市周邊搞搞就算了,遠(yuǎn)了沒人會陪你玩。

有些扯遠(yuǎn),回到正題?,F(xiàn)在國內(nèi)已經(jīng)有超過10k臺物理服務(wù)器在一個數(shù)據(jù)中心站點(diǎn)的項(xiàng)目了,

再多我還沒有聽說過。只有幾百上千的物理服務(wù)器就敢喊搞云計(jì)算是需要一定勇氣的,既然

是云,規(guī)模就應(yīng)永無止境。所以建多個數(shù)據(jù)中心站點(diǎn)來擴(kuò)容就成了必然之舉。這時就可能遇

到Cluster集群計(jì)算任務(wù)被分配在多個站點(diǎn)的物理服務(wù)器或虛擬機(jī)來完成的情況,從而提出

了跨多個數(shù)據(jù)中心站點(diǎn)的Ethernet大二層互聯(lián)需求。

在擴(kuò)容時就可以充分利用vMotion等虛擬機(jī)遷移技術(shù)來進(jìn)行新數(shù)據(jù)中心站點(diǎn)的建設(shè)部署,

同樣需要站點(diǎn)間的大二層互通。支持IP層的vMotion目前雖然已經(jīng)出現(xiàn),但由于技術(shù)不夠

成熟,限制很多,實(shí)用性不強(qiáng),還是以Ethernet二層遷移技術(shù)為主。

災(zāi)備

再說說災(zāi)備,最近幾年天災(zāi)人禍著實(shí)不少,數(shù)據(jù)中心容災(zāi)就越來越受到重視。擴(kuò)容和災(zāi)備的

主要區(qū)別就是:擴(kuò)容的多個站點(diǎn)針對同一應(yīng)用都要提供服務(wù),?而災(zāi)備則只有主站點(diǎn)提供服務(wù),

備份站點(diǎn)當(dāng)主站點(diǎn)掛掉的時候才對外服務(wù),平時都處于不運(yùn)行或者空運(yùn)行的狀態(tài)。

參考國標(biāo)《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》GB/T20988-2007,災(zāi)備級別大致可劃分為數(shù)據(jù)級別

(存儲備份),應(yīng)用級別(服務(wù)器備份),網(wǎng)絡(luò)級別(網(wǎng)絡(luò)備份),和最高的業(yè)務(wù)級別(包括

電話、人員等所有與業(yè)務(wù)相關(guān)資源I

國內(nèi)外統(tǒng)一的容災(zāi)衡量標(biāo)準(zhǔn)是RPO(RecoveryPointObjective}RTO(RecoveryTime

Objective)和RAO(RecoveryAccessObjective)了,通過下圖形象一些來體現(xiàn)他們的

關(guān)系。

天C小mn分?■b

■-一八一__八___A___/

YYY、一▼Y

簡單來說RPO衡量存儲數(shù)據(jù)恢復(fù),RTO衡量服務(wù)器應(yīng)用恢復(fù),RAO衡量網(wǎng)絡(luò)訪問恢復(fù)。

一般來說RPO設(shè)計(jì)都應(yīng)小于RTO。國外按照RTO/RPO的時間長短對災(zāi)難恢復(fù)分級參考由

高到低為:

Class1/ARTO=0-4hrs;RPO=0-4hrs

Class2/BRTO=8-24hrs;RP0=4hrs

Class3/CRT0=3day;RPO=1day

Class4/DRT0=5+days;RPO=1day

標(biāo)準(zhǔn)歸標(biāo)準(zhǔn),真正建設(shè)時候最重要的參考條件還是應(yīng)用的需求,像銀行可以直接去調(diào)研儲戶

能容忍多長時間取不出來錢,騰訊去問問QQ用戶能容忍多長時間上不了線,就都知道該

怎么設(shè)計(jì)容災(zāi)恢復(fù)時間了。

真正在玩多中心災(zāi)備的行業(yè),國內(nèi)集中在金融系統(tǒng)(尤其是銀行),政府和能源電力等公字

頭產(chǎn)業(yè),國外的不太清楚,但我想以盈利為主要目的企業(yè)不會有太強(qiáng)烈意愿去建設(shè)這種純備

份的低效益站點(diǎn),更多的是在不同站點(diǎn)內(nèi)建設(shè)一些應(yīng)用服務(wù)級別的備份,所有站點(diǎn)都會對外

提供服務(wù)。

小結(jié)

在云計(jì)算規(guī)模的數(shù)據(jù)中心中,對于LB類型的多虛一集群技術(shù),執(zhí)行者(概念參見文檔前面

集中云部分沙上幾個不會影響全局任務(wù)處理的只要在擴(kuò)容時做到數(shù)據(jù)中心間大二層互通,

所有站點(diǎn)內(nèi)都有計(jì)算任務(wù)的執(zhí)行者,并且配合HA技術(shù)將協(xié)調(diào)者在不同站點(diǎn)做幾個備份,就

已經(jīng)達(dá)到了應(yīng)用容災(zāi)的效果。針對一虛多的VM備份,VMware/XEN等都提出了虛擬機(jī)集

群HA技術(shù),此時同樣需要在主中心站點(diǎn)與備份中心站點(diǎn)的服務(wù)器間提供二層通道以完成

HA監(jiān)控管理流量互通,可以達(dá)到基于應(yīng)用層面的備份。

云計(jì)算數(shù)據(jù)中心多站點(diǎn)主要涉及的還是擴(kuò)容,會部署部分針對VM做HA的后備服務(wù)器,

但是不會搞純?yōu)膫湔军c(diǎn)。針對多站點(diǎn)間網(wǎng)絡(luò)互聯(lián)的主要需求就是能夠做而二層互聯(lián),當(dāng)站點(diǎn)

數(shù)量超過兩個時所有站點(diǎn)需要二層可達(dá),并部署相關(guān)技術(shù)提供冗余避免環(huán)路。

3.6多站點(diǎn)選擇

數(shù)據(jù)中心建設(shè)多站點(diǎn)后,由于同一應(yīng)用服務(wù)可以跑在多個站點(diǎn)內(nèi)部,對Client來說就面臨

著選擇的問題。

首先要記住的是一個Client去往一個應(yīng)用服務(wù)的流量必須被指向一臺物理或虛擬的

Server.你可以想象一個TCP請求的SYN到ServerA,而ACK到了ServerB時,ServerA

和B為了同步會話信息都會瘋掉。想辦法維持一對Client-Server通信時的持續(xù)專一是必須

的。

Client到Server的訪問過程一般分為如下兩步:

LClient訪問域名服務(wù)器得到ServerIP地址(很少人會去背IP地址,都是靠域名查找)

2、Client訪問ServerIP,建立會話,傳遞數(shù)據(jù)。

當(dāng)前的站點(diǎn)選擇技術(shù)也可以對應(yīng)上面兩個步驟分為兩大類。

第一類是在域名解析時做文章,原理簡單來說就是域名服務(wù)器去探測多個站點(diǎn)內(nèi)IP地址不

同的服務(wù)器狀態(tài),再根據(jù)探測結(jié)果將同一域名對應(yīng)不同IP返回給不同的Client這樣一是

可以在多個Client訪問同一應(yīng)用時,對不同站點(diǎn)的服務(wù)器進(jìn)行負(fù)載均擔(dān),二是可以當(dāng)域名

服務(wù)器探測到主站點(diǎn)服務(wù)器故障時,解析其他站點(diǎn)的服務(wù)器IP地址給Client達(dá)到故障冗余

目的。這時要求不同站點(diǎn)的服務(wù)地址必須在不同的三層網(wǎng)段,否則核心網(wǎng)沒法提供路由。缺

點(diǎn)很明顯,對域名解析服務(wù)器的計(jì)算壓力太大,需要經(jīng)常去跟蹤所有服務(wù)器狀態(tài)并Hash分

配Client請求的地址。此類解決方案的代表是F5/Radware/Cisco等廠商的

3DNS/GSLB/GSS等技術(shù)。

第二類就是把多個站點(diǎn)的服務(wù)IP地址配置成一樣,而各個站點(diǎn)向外發(fā)布路由時聚合成不同

位數(shù)的掩碼(如主中心發(fā)布/25位路由,備中心發(fā)布/24位路由),或通過相同路由部署不同

路由協(xié)議Cost值以達(dá)到主備路由目的。使用掩碼的問題是太細(xì)則核心網(wǎng)轉(zhuǎn)發(fā)設(shè)備上的路由

數(shù)量壓力大,太粗則地址使用不好規(guī)劃很浪費(fèi)。使用Cost則需要全網(wǎng)IP路由協(xié)議統(tǒng)一,節(jié)

點(diǎn)規(guī)模受到很大限制。另外這種方式只能將所有Client訪問同一服務(wù)IP的流量指向同一個

站點(diǎn),負(fù)載分擔(dān)只能針對不同的服務(wù)。好處則是這種站點(diǎn)選擇技術(shù)誰都能用,不需要專門設(shè)

備支持,部署成本低成為其存活的根據(jù)。

在云計(jì)算大二層數(shù)據(jù)中心部署下,各個站點(diǎn)提供同一服務(wù)的Server都處于一個二層網(wǎng)絡(luò)內(nèi),

且不能地址沖突,與前面描述的兩種站點(diǎn)選擇技術(shù)對服務(wù)器IP設(shè)置要求都不匹配,因此需

要配合SLB設(shè)備一起使用??梢岳斫馄錇橐环N基于IP粒度的多虛一技術(shù),使用專門LB硬

件設(shè)備作為協(xié)調(diào)者,基于IP地址來分配任務(wù)給服務(wù)組中不同的Server執(zhí)行成員。LB設(shè)備

通常將多個Server對應(yīng)到一個NAT組中,外部訪問到一個NATServer虛擬IP地址,由

LB設(shè)備按照一定算法分擔(dān)給各個成員。LB設(shè)備同時會探測維護(hù)所有Server成員狀態(tài)。當(dāng)

各個站點(diǎn)內(nèi)LB設(shè)備將同一服務(wù)對外映射為不同的虛擬IP地址時,可以配合域名解析方式提

供Client選路;而配置為相同時則可以配合路由發(fā)布方式使用。

現(xiàn)有的站點(diǎn)選擇技術(shù)都不盡如人意,即使是下文介紹的Cisco新技術(shù)LISP也只是部分的解

決了路由發(fā)布技術(shù)中,發(fā)布服務(wù)器地址掩碼粒度過細(xì)時,給核心網(wǎng)帶來較大壓力的問題,目

前還不算是一套完整的站點(diǎn)選擇解決方案。個人感覺,最好的路還是得想法改造DNS的處

理流程,目前的DNS機(jī)制并不完備,在攻擊面前脆弱不堪,后面的安全附加章節(jié)中會對此

再深入討論。

3.7數(shù)據(jù)中心小結(jié)

又到了小結(jié)部分,云計(jì)算數(shù)據(jù)中心相比較傳統(tǒng)數(shù)據(jù)中心對網(wǎng)絡(luò)的要求有以下變化:

1、Server-Server流量成為主流,而且要求二層流量為主。

2、站點(diǎn)內(nèi)部物理服務(wù)器和虛擬機(jī)數(shù)量增大,導(dǎo)致二層拓?fù)渥兇蟆?/p>

3、擴(kuò)容、災(zāi)備和VM遷移要求數(shù)據(jù)中心多站點(diǎn)間大二層互通。

4、數(shù)據(jù)中心多站點(diǎn)的選路問題受大二層互通影響更加復(fù)雜。

題內(nèi)話,F(xiàn)CoE并不是云計(jì)算的需求,而是數(shù)據(jù)中心以網(wǎng)絡(luò)為核心演進(jìn)的需求,至于云計(jì)算

里面是不是一定要實(shí)現(xiàn)以網(wǎng)絡(luò)為核心,就看你是站在哪個設(shè)備商的角度來看了。

4、網(wǎng)絡(luò)

說到網(wǎng)絡(luò),這里關(guān)注的重點(diǎn)是前文提到的數(shù)據(jù)中心內(nèi)部服務(wù)器前后端網(wǎng)絡(luò),對于廣泛意義上

的數(shù)據(jù)中心,如園區(qū)網(wǎng)、廣域網(wǎng)和接入網(wǎng)等內(nèi)容,不做過多擴(kuò)散。

4.1路由與交換

網(wǎng)絡(luò)世界永遠(yuǎn)的主題,至少目前看來還沒有出現(xiàn)能取代這二者技術(shù)的影子,擴(kuò)展開足夠?qū)懞?/p>

幾本書的了。

數(shù)據(jù)中心的網(wǎng)絡(luò)以交換以太網(wǎng)為主,只有傳統(tǒng)意義的匯聚層往上才是IP的天下。參考前文

的需求可以看出,數(shù)據(jù)中心的以太網(wǎng)絡(luò)會逐步擴(kuò)大,IP轉(zhuǎn)發(fā)的層次也會被越推越高。

數(shù)據(jù)中心網(wǎng)絡(luò)從設(shè)計(jì)伊始,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論