




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
云計算與大數(shù)據(jù)
TheEssentialCriteriaofBigData&CloudComputing第1章揭秘云計算第2章揭秘大數(shù)據(jù)第3章云計算與大數(shù)據(jù)體系架構(gòu)剖析第4章云計算與大數(shù)據(jù)進階第5章大數(shù)據(jù)應(yīng)用與云平臺實戰(zhàn)第一章揭秘云計算1.1云從哪里來首先,我們需要知道云從哪里來,搞清楚誰是云計算的提出者至關(guān)重要,這個大可上升到哲學(xué)的高度,可類比千百年來科學(xué)家乃至全人類最關(guān)心的問題的核心,就是知道人從哪里來。同理,知道云從哪里來可以更好地幫助我們預(yù)判云會朝哪個方向發(fā)展,會在何處融入、改變?nèi)藗兊墓ぷ髋c生活。1.1.1云計算科技史云計算是亞馬遜最早于2006年推出的AWS服務(wù)。AWS從早期的云計算服務(wù)EC2、存儲服務(wù)S3到今天發(fā)展為目前業(yè)界最為廣泛使用的各類計算、網(wǎng)絡(luò)、存儲、內(nèi)容分發(fā)、數(shù)據(jù)庫、大數(shù)據(jù)管理與應(yīng)用等五花八門的服務(wù)。也有人說云計算是SunMicrosystems在2006年3月推出的SunGrid,它是一種公有云網(wǎng)格計算服務(wù),一美元一小時的CPU使用價格,和用電一樣的計費模式—Pay-Per-Use(按使用量計費)。
不過,按照MITTechnologyReview刨根問底的結(jié)果,Compaq(康柏)電腦公司1996年在內(nèi)部商業(yè)計劃文檔(見圖1-1)中最早使用CloudComputing(云計算)這一字樣與圖標(遺憾的是,康柏在被惠普收購之后,除了繼續(xù)賣了幾年低端PC外與云計算再無瓜葛)。圖1-1康柏公司1996年商業(yè)計劃文檔ISDStrategyforCloudComputing云計算的三大要素以上可以算作對云計算“冠名權(quán)”歸屬的一番淺究,事實上云計算的起源比以上諸多論斷還要早,其發(fā)展歷程貫穿了過去半個世紀全人類的IT發(fā)展史,如圖1-2所示。云的起源及發(fā)展:1970-Now20世紀70年代–TimesharingRemoteJobEntrybyIBM/DEC20世紀70~80年代-ARPANETTCP/IPbyARPA/DOD&CSNET/NSF20世紀90年代–VPNVPNbyTelcos;DistributedComputing21世紀頭8年–EC2EC2byAmazon–2006;Azure-20082008~2010年-OpenXOpenNebulabyNASAOpenstack2010年-今眼花繚亂圖1-2云的起源及發(fā)展(從20世紀70年代至今)云的起源及發(fā)展:1970-Now20世紀70年代–TimesharingRemoteJobEntrybyIBM/DEC20世紀70~80年代-ARPANETTCP/IPbyARPA/DOD&CSNET/NSF20世紀90年代–VPNVPNbyTelcos;DistributedComputing21世紀頭8年–EC2EC2byAmazon–2006;Azure-20082008~2010年-OpenXOpenNebulabyNASAOpenstack2010年-今眼花繚亂云計算三大要素分時計算網(wǎng)絡(luò)互聯(lián)資源共享及網(wǎng)絡(luò)安全云計算的本質(zhì)近幾年,云計算的發(fā)展讓人眼花繚亂,各種新興的技術(shù)、新興的公司風起云涌。其中值得一提的有兩樣?xùn)|西。一個是容器計算。我們前面提過虛擬化,基于虛擬機(VirtualMachine,VM)的虛擬化可算是對Baremetal(裸機)這種形式的有效補充,而容器可算作是對基于VM技術(shù)的虛擬化的有效補充。容器的意義在于重新提高了因虛擬化帶來的計算效率的降低,后面的章節(jié)中我們會專門論述相關(guān)的問題。
另一個值得一提的是大數(shù)據(jù)。如果說2006年開始的云計算浪潮多少都是偏重于底層的平臺與服務(wù),而真正尋找到的與之匹配的就是近三五年來聲名鵲起的大數(shù)據(jù)應(yīng)用。兩者可算是一拍即合:云計算作為基礎(chǔ)架構(gòu)來承載大數(shù)據(jù),大數(shù)據(jù)通過云計算架構(gòu)與模型來提供解決方案,如圖1-3所示。圖1-3當云計算遇上大數(shù)據(jù)
從技術(shù)角度來看,云計算是多種技術(shù)長期演變、融合的產(chǎn)物,諸如分布式計算、并行計算、網(wǎng)絡(luò)存儲、分布式存儲、虛擬化、裸機及容器計算、負載均衡等計算機及網(wǎng)絡(luò)技術(shù),如圖1-4所示。圖1-4云計算的底層技術(shù)發(fā)展與融合
云計算的本質(zhì)是多種技術(shù)的融合,它和很多其他技術(shù)頗有相通之處,例舉幾個。(1)C/S與B/S技術(shù)。(2)P2P技術(shù)。(3)并行計算(ParallelComputing)。云計算基本特征(1)共享資源池。(2)快速彈性。(3)可度量服務(wù)。(4)按需服務(wù)+自服務(wù)。(5)普遍的網(wǎng)絡(luò)訪問。
圖1-5展示了云計算的這些基本特征。圖1-5云計算基本特征示意圖
這里,我們套用IDC在2013年提出的“三個平臺”來作為總結(jié),如圖1-6所示。圖1-6第一、第二、第三平臺1.1.2業(yè)務(wù)需求推動IT發(fā)展隨著過去幾十年間IT行業(yè)從大型主機(Mainframes)過渡到客戶端服務(wù)器(PCServers),再過渡到現(xiàn)如今的移動互聯(lián)時代(MobileInternet),IT可把控的資源和預(yù)算的大趨勢一直在下滑。在過去十幾年的時間里,對虛擬化技術(shù)的采納幫助IT實現(xiàn)了極大的效率飛躍,大幅提升了IT滿足業(yè)務(wù)預(yù)期的能力。不過,在當下的移動互聯(lián)時代,面對數(shù)以十億計的新移動消費者以及數(shù)以百萬計的新應(yīng)用和服務(wù),IT可謂是機遇和挑戰(zhàn)并存。業(yè)務(wù)預(yù)期呈現(xiàn)出了指數(shù)增長。
如果不在“我們?nèi)绾巫鯥T”方面做出根本性改變,沒有人能趕上行業(yè)發(fā)展的步伐。IT交付所面臨的問題如圖1-7所示。圖1-7業(yè)務(wù)預(yù)期vs.IT交付能力vs.IT預(yù)算(橫軸為時間軸)
大多數(shù)政企IT部門所采用的依然是傳統(tǒng)模型。在傳統(tǒng)IT流程中,每個新的解決方案都是一個需要進行采購、設(shè)計、配置、測試以及部署的項目,即便是做得很順利的話,新項目部署周期也要長達數(shù)周、數(shù)月甚至數(shù)年。這就很難實現(xiàn)高敏捷性和低投資,也就很難通過IT來增加收入。組織機構(gòu)的目標就是增加敏捷性,減少運營支出,對未來進行更多投資,并不斷降低風險,但是這兩者之間存在著一個鴻溝,如圖1-8所示。圖1-8傳統(tǒng)應(yīng)用vs.下一代云應(yīng)用
如何讓IT的交付能力保持同步,甚至超越業(yè)務(wù)的預(yù)期是IT部門始終的使命(見圖1-9)。圖1-9與業(yè)務(wù)同步的IT交付能力敏捷性IT控制&安全(可集中管理)開發(fā)一次、可多地部署選擇權(quán)1.2云的多重形態(tài)1.2.1云計算的多重服務(wù)模式云計算在快速的發(fā)展過程中逐漸形成了不同的服務(wù)模式(ServiceModels)。目前我們熟知的主要有三大類:SaaS(SoftwareasaService,軟件即服務(wù))、PaaS(平臺即服務(wù))與IaaS(基礎(chǔ)架構(gòu)即服務(wù)),也有人喜歡把它們統(tǒng)稱為XaaS或EaaS(EverythingasaService)。
類似的還有存儲即服務(wù)(StorageasaService)、容器即服務(wù)(ContainerasaService)等。從根源上講,*aaS模式都源自SOA(Service-OrientedArchitecture),SOA是一種架構(gòu)設(shè)計模式(可類比面向?qū)ο缶幊陶Z言中的設(shè)計模式),其核心就是一切以Service為中心,不同的應(yīng)用之間通信協(xié)議都以某種服務(wù)的方式來定義和完成。今天我們經(jīng)??吹降奈⒎?wù)架構(gòu)(Micro-ServiceArchitecture,MSA)的概念,在本質(zhì)上也是由SOA演變而來。
為什么會形成不同的*aaS服務(wù)模式呢?主要原因在于最終服務(wù)交付的形態(tài),如圖1-10所示。圖1-10傳統(tǒng)vs.*aaS1.2.2公有云vs.私有云vs.混合云從云架構(gòu)部署、服務(wù)、應(yīng)用以及訪問的方式來區(qū)分,我們一般把云分為四大類:私有云;公有云;混合云;社區(qū)云。
對私有云、公有云、混合云的定義與界定的關(guān)鍵是云的服務(wù)對象。如果被服務(wù)的對象是一個機構(gòu),那么我們稱之為私有云。如果服務(wù)開放給大眾,并通過互聯(lián)網(wǎng)可以訪問,則稱之為公有云。混合云通常是兼有私有云和公有云部分,兩部分可相對獨立運作,但是也會協(xié)同工作,例如一些任務(wù)可能會橫跨公有云、私有云邊界。
從“物種起源”的角度上說公有云與私有云都是由早年的DC/IDC數(shù)據(jù)中心或互聯(lián)網(wǎng)數(shù)據(jù)中心發(fā)展而來。除了它們各自所可能側(cè)重的服務(wù)不同外,在技術(shù)本質(zhì)上沒有高低優(yōu)劣之分(見圖1-11)。圖1-11公有云vs.專有云vs.私有云
公有云側(cè)重于對新應(yīng)用(如第三平臺應(yīng)用)的支持,面向應(yīng)用的彈性實現(xiàn)(如支持可橫跨多臺云主機的數(shù)據(jù)庫服務(wù)),在存儲角度上則大量使用對象存儲(如對多媒體文件檢索和瀏覽支持);另外一個特點是,為了實現(xiàn)利益最大化和產(chǎn)生正向現(xiàn)金流,絕大多數(shù)的云部件都被封裝成商品的方式待價而沽。
私有云大抵是因為歷史的原因而不得不繼續(xù)支撐傳統(tǒng)的企業(yè)應(yīng)用(如第二平臺的大量應(yīng)用,從數(shù)據(jù)庫到ERP/CRM不一而足),因此私有云的存儲形態(tài)主要是File(文件)和Block(塊),并且側(cè)重于基礎(chǔ)設(shè)施的彈性(第二平臺應(yīng)用的一個典型特點是獨占性或者說是緊耦合性,它們很難像第三平臺的那些為云而生的新應(yīng)用能比較容易地遷移和水平可伸縮,因此業(yè)界的普遍做法是把這些應(yīng)用封裝后在底層的基礎(chǔ)設(shè)施上實現(xiàn)彈性)。公有云私有云混合云第三方運維是一般不是硬件投資一般不是部分中小企業(yè)適用是不一定是大型企業(yè)適用一般不是是可定制硬件一般不是是合規(guī)支持(Compliance)不是是高安全性實現(xiàn)困難是是跨云支持一般不一般不是第三平臺應(yīng)用較多是是第二平臺應(yīng)用較少較多是存儲特征對象為主塊、文件皆有更多開源技術(shù)是不一定是表1-1 公有云、私有云、混合云比較
業(yè)界對云的認知中普遍存在的一個印象是公有云是云的多種形態(tài)中的主體。這句話其實只說對了一小部分,按照媒體廣告投入規(guī)模和曝光頻率,公有云的確是更多,但是在市場整體規(guī)模和真正承載的云計算任務(wù)量而言,私有云和專有云市場占據(jù)大半江山(大于85%),而真正的公有云市場份額不過15%。誤解一:公有云會是未來唯一可行的云服務(wù)形態(tài)。誤解二:公有云擁有核心技術(shù)。
還有一個知識點值得提到的是關(guān)于on-premise(場內(nèi))與off-premise(場外)的,所有的公有云對于其服務(wù)的客戶而言都是off-premise的,也就是說在云端、場外,而對于私有云而言多數(shù)都是on-premise(場內(nèi)云)的本地云,除了一種特殊的專有云情形,就是在托管方地界運營的私有云是off-premise的,比較典型的例子是在線視頻公司Netflix,它已經(jīng)把整個基礎(chǔ)架構(gòu)都遷移到了亞馬遜云之上,而且使用的是不與任何第三方共享的基礎(chǔ)設(shè)施,從本質(zhì)上說這是一種基礎(chǔ)架構(gòu)即服務(wù)的外包。認知一:勝者全贏—這句話來自于英文的俗語WinnerTakesAll。在公有云領(lǐng)域尤其如此,從市場份額、營收規(guī)模上看,亞馬遜的AWS如日中天(見圖1-12),它一家的份額比第2到第100家IaaS服務(wù)提供商的總和還要高,而且據(jù)悉AWS也是唯一一家截至2015年年底有盈利的公有云運營商,其他云服務(wù)商看來還要水深火熱很久了。圖1-12AWSvs.其他認知二:規(guī)模經(jīng)濟效益—這句話也是源自英文EconomiesofScale。當云計算的規(guī)模較小的時候,相對的虧損比例會很高,而盈利的能力難以體現(xiàn),只有當規(guī)模越來越大的時候,才會逐漸降低虧損并最終實現(xiàn)正向盈利,而我們目前看到的情況是,市場上只有AWS做到了,其他家還在不斷探索和繼續(xù)增長規(guī)模,而在背后支撐我們具有這一信念的經(jīng)濟學(xué)理論就是規(guī)模經(jīng)濟效應(yīng)。舉個簡單的例子,一個加工廠有1,000名工人一個月生產(chǎn)10,000雙襪子,那肯定是虧損的,只有達到1,000,000雙以上的規(guī)模才會扭虧為盈。云計算也是一樣的道理。分類特點、優(yōu)勢成本降低了CapEX(云計算開銷一般計入OpEx)降低整體開銷、綠色、節(jié)能技術(shù)實現(xiàn)簡捷、部署方便、自動化高彈性(無限可擴展存儲空間、網(wǎng)絡(luò)帶寬)人員降低培訓(xùn)開銷只需要很小的維護團隊商務(wù)QoS/SLA支持規(guī)模效應(yīng)表1-2 云計算的優(yōu)點1.2.3云的形態(tài)并非一成不變前面我們了解了不同形態(tài)的云所具有的特點,并列出了一些規(guī)則來幫助人們決策到底要選擇哪種云可能最適應(yīng)各自的業(yè)務(wù)需求。在擁抱云的過程中,大量的東西需要做出改變,從人的思維方式,到團隊的合作方式,到客戶的接洽方式,甚至是整個社會的運作方式都在逐步產(chǎn)生巨大的變化。這一小節(jié)我們就來談一談變化中的云、變化中的IT。云計算帶來的三大變革(1)基礎(chǔ)設(shè)施。(2)運營模式。(3)應(yīng)用。圖1-13IT變革的三步走
換一個維度來看上面提到的三大變革,如圖1-14所示。圖1-14云的三大變革第一變化是基礎(chǔ)設(shè)施(Infrastructure)。第二變化是運營模式。第三變化就是應(yīng)用。運營模式變革中的5+1+1運營模式的變革是為了更好地服務(wù)基礎(chǔ)設(shè)施與應(yīng)用的變革,其主要的變化可以用如下的5+1+1來表達。需求設(shè)計實現(xiàn)驗證維護圖1-15瀑布流開發(fā)模式設(shè)計開發(fā)配置測試發(fā)布評估輕監(jiān)管(比起瀑布流開發(fā)需要更少項目監(jiān)管)重互信(聽起來像是社會主義高級階段)喜變更(即便在開發(fā)的晚期階段)強交流(強化商務(wù)與開發(fā)交流頻率)快迭代(高頻迭代-從年月周天…)評估項目進展的金標準是–可運轉(zhuǎn)的軟件圖1-18新IT角色出現(xiàn)圖1-17瀑布式敏捷開發(fā)圖1-16敏捷開發(fā)流程圖云遷移越來越多的初創(chuàng)型公司在早期階段可能會因為初始化投入成本較低而選擇公有云服務(wù),最常見的是從云主機入手,逐漸延伸到云存儲、云數(shù)據(jù)庫、云加速器等服務(wù),但是隨著業(yè)務(wù)的發(fā)展,到達某一個階段的時候,就會出現(xiàn)以其他云形態(tài)來補充或者是從一個云服務(wù)提供商遷移到另外一家提供商的需求,如圖1-19所示。圖1-19不同形態(tài)云之間的轉(zhuǎn)換
云遷移的誘發(fā)因素多種多樣,可歸納為如下幾種。性價比:客戶永遠在追尋更高的性價比,僅此而已。功能導(dǎo)向:A云不能完成的功能如B云可以就會遷移到B。策略導(dǎo)向:如compliance(合規(guī))要求變化在原有云無法達到。
云遷移的方向可以是在任何兩朵云之間雙向或單向的遷移。遷移從應(yīng)用到數(shù)據(jù)、到基礎(chǔ)架構(gòu),都可能被涵蓋。有的遷移像搬家一樣是一次性的(One-off),有的遷移是具有隨機性和重復(fù)性的。最典型的例子有云爆發(fā)(Cloud-Bursting,指當在私有云中運行的應(yīng)用在訪問爆炸式增長后會臨時使用公有云服務(wù)來保證服務(wù)不間斷)以及混合云(見圖1-20)等。圖1-20混合云架構(gòu)中負載的分配與遷移
圖1-20中描繪的是一幅典型的混合云架構(gòu)場景,我們用一張表(見表1-3)來說明公有云和私有云在一個混合云框架下各自的側(cè)重點如何?;旌显萍軜?gòu)公有云私有云負載新應(yīng)用、基礎(chǔ)工作高性能應(yīng)用、關(guān)鍵任務(wù)硬件商品化硬件、DAS(直連)存儲存儲陣列、定制化、高端硬件虛擬化虛擬機、容器裸機、虛擬機、容器應(yīng)用Web類為主大數(shù)據(jù)分析類、傳統(tǒng)應(yīng)用表1-3 混合云架構(gòu)中公有云vs.私有云
我們在這里也給大家介紹一些逐漸形成潮流的云遷移和云間數(shù)據(jù)交換的場景。場景一:云間數(shù)據(jù)交換?;ヂ?lián)網(wǎng)公司在業(yè)務(wù)發(fā)展初期大量使用公有云服務(wù)早已形成了一種定式,但是,隨著業(yè)務(wù)的發(fā)展,特別是需要處理的數(shù)據(jù)量的爆發(fā)式增長,有一些例如大數(shù)據(jù)分析的業(yè)務(wù)由于公有云服務(wù)商品化硬件的限制(如單機的CPU和內(nèi)存限制),不得不考慮自建數(shù)據(jù)中心(私有云)來完成,那么就涉及在公有云與私有云間的數(shù)據(jù)傳輸成本與效率問題,通常最高效的方式是在兩朵云之間拉設(shè)光纖專線(中美之間的網(wǎng)絡(luò)成本存在很大的差異,美國的網(wǎng)絡(luò)寬帶成本遠低于中國,所以還要評估拉專線方式是否適合具體的業(yè)務(wù)需求),當然如果兩朵云所處的數(shù)據(jù)中心在物理網(wǎng)絡(luò)上距離越近效果越好。
比如一家地處硅谷MountainView的公司,它在AWS的EC2主機位于馬路對面的數(shù)據(jù)中心,而其自建的Cassandra集群就在其隔壁的ISP數(shù)據(jù)中心里面,那么建立一條連接彼此的10Gbit/s的專線,則專線傳輸幾乎是在高速局域網(wǎng)里進行數(shù)據(jù)傳輸?shù)墓?jié)奏。當然,前面的這個例子是比較理想的場景,只需要關(guān)心數(shù)據(jù)如何在兩個數(shù)據(jù)中心之間進行交換,這個問題可以進一步降解為四步。(1)源數(shù)據(jù)傳輸準備(Staging):提取、去重、壓縮、加密等。(2)數(shù)據(jù)分發(fā)與傳輸(Transform)。(3)接收源數(shù)據(jù)(Receive):解密、解壓、重建。(4)數(shù)據(jù)重構(gòu)(Apply)。
圖1-21展示的是一個典型的從源數(shù)據(jù)中心向目標數(shù)據(jù)中心通過分布式、P2P公共網(wǎng)絡(luò)來傳輸數(shù)據(jù)的架構(gòu),該架構(gòu)意圖達到高效、可靠、分布式數(shù)據(jù)傳輸?shù)男Ч?,它同樣適用于基礎(chǔ)架構(gòu)遷移的場景。圖1-21云遷移場景一、二場景二:跨云的基礎(chǔ)架構(gòu)遷移?;A(chǔ)架構(gòu)的遷移是指要把IaaS以及之上所有的平臺、服務(wù)、應(yīng)用及數(shù)據(jù)完全遷移。這其中最大的挑戰(zhàn)是對業(yè)務(wù)可持續(xù)性的要求。如果對在線業(yè)務(wù)的下線時間(Downtime)是零容忍,那么這就是一個經(jīng)典的第三平臺無縫銜接大數(shù)據(jù)遷移場景。參考圖1-21,我們來簡單描述一下如何實現(xiàn)無縫、無損數(shù)據(jù)遷移(為簡化設(shè)計起見,假設(shè)源與目標數(shù)據(jù)中心具有相同、類似的硬件配置)。對源數(shù)據(jù)中心進行元數(shù)據(jù)提?。∕etadata)。在目標數(shù)據(jù)中心重構(gòu)基礎(chǔ)架構(gòu)(IaaSReplication)。非實時數(shù)據(jù)的大規(guī)模遷移(Non-real-timeDataTransferring)。在目標數(shù)據(jù)中心啟動服務(wù)、應(yīng)用進入備用狀態(tài)(Standby)。以迭代、遞增的方式在源、目標數(shù)據(jù)中心進行實時數(shù)據(jù)同步。目標數(shù)據(jù)中心調(diào)整為主服務(wù)集群(Cut-Off/Switch-Over)。持續(xù)數(shù)據(jù)同步、狀態(tài)監(jiān)控(ContinuousMonitoring)。源數(shù)據(jù)中心下線或作為備用基礎(chǔ)架構(gòu)(Offline/Online)。1.3關(guān)于云計算效率的討論1.3.1公有云效率更高?誤解:公有云具有更高的效率。首先我們需要知道到底效率指的是什么。這是個亟需澄清的概念。在這里效率是指云數(shù)據(jù)中心中的IT設(shè)備的資源利用率,其中最具有指標性的就是綜合CPU利用率。
我們在本小節(jié)著重討論CPU的資源利用率[在數(shù)據(jù)中心中我們習(xí)慣用PUE(PowerUtilizationEfficiency)來表示電力資源的利用率,它的計算公式:PUE=,其中C表示制冷、取暖等為保持機房環(huán)境溫度而耗費的電量,P表示為機房非IT設(shè)備供電所耗費的電量,I為IT設(shè)備耗電量,顯然PUE值不可能小于等于1,事實上全球范圍內(nèi)的各種云機房平均PUE>2,而最先進的機房如谷歌和Facebook幾乎可以達到PUE=1.1甚至1.06,相當驚人的高效電能利用。
有鑒于此,中國2013年開始要求新建的數(shù)據(jù)中心PUE<1.5,原有改造的數(shù)據(jù)中心PUE<2。圖1-22中列出的是2012年中國數(shù)據(jù)中心的平均能耗分配,在PUE=2.0的情況下,IT設(shè)備與其他設(shè)施耗電各占50%,其中服務(wù)器在IT設(shè)備中為大頭,占比50%,存儲其次,最小的是網(wǎng)絡(luò)——這一數(shù)據(jù)也從另一個角度驗證了為什么我們要把服務(wù)器CPU的利用率作為主要指標來衡量資源利用率]。圖1-22數(shù)據(jù)中心能耗分配
圖1-23列出了目前市場上主流的公有云、私有云的平均服務(wù)器主機CPU利用率比較。圖1-23公有云、私有云CPU利用效率比較
圖中的數(shù)據(jù)可以清晰地說明公有云的CPU平均利用率遠低于私有云,甚至業(yè)界翹楚亞馬遜的AWS和微軟的Azure都只有10%上下,相當于每10臺服務(wù)器只有一臺在滿負荷運轉(zhuǎn)而另外9臺在空轉(zhuǎn),而同比私有云環(huán)境下的谷歌可以達到30%利用率,更有甚者EMC旗下的Virtustream甚至能達到驚人的70%。
究其原因,公有云較低的IT資源利用率的成因是公有云業(yè)務(wù)場景的多樣化與負載高度不可預(yù)知性。當CPU資源在被分配給某用戶后,如果沒有被該用戶充分利用,就會存在CPU空轉(zhuǎn),進而造成事實上的浪費。同樣的問題也存在于其他資源分配上,例如網(wǎng)絡(luò)帶寬、磁盤空間等。這是基于時間共享(Time-Sharing)“虛擬化”的必然結(jié)果。類似的基于時間共享的技術(shù)應(yīng)用還有很多,比如蜂窩電話網(wǎng)絡(luò)。時間共享的原本設(shè)計原則就是“公平分配”以確保給服務(wù)對象平均分配資源,每個被服務(wù)對象在單位時間內(nèi)可獲取同樣多的資源,但平均主義也會造成在均分資源后因資源被閑置、空轉(zhuǎn)而形成的事實浪費。
那么如何提高云數(shù)據(jù)中心的資源利用率呢?從數(shù)據(jù)中心能耗分布整體而言,每在云主機服務(wù)器組件(尤其是CPU)消耗1W,在不間斷電源、空調(diào)制冷以及配電箱、變壓器等其他設(shè)備就會連帶消耗1.84W。反之,如果能讓CPU少消耗1W,會為整個數(shù)據(jù)中心節(jié)能2.84W(圖1-24是Emerson網(wǎng)絡(luò)能源的統(tǒng)計數(shù)據(jù))。這種瀑布流式的“級聯(lián)”的效應(yīng)我們稱之為CascadeEffect5(葉柵效應(yīng)、級聯(lián)效應(yīng))。服務(wù)器組件1.0WDC-DCAC-DC0.49W電力分布UPS0.18W制冷1.07W變壓器、開關(guān)設(shè)備0.1W圖1-24數(shù)據(jù)中心能耗級聯(lián)效應(yīng)(CascadeEffect)
數(shù)據(jù)中心里市電是先通過交流到直流轉(zhuǎn)換來對儲能系統(tǒng)充電,儲能系統(tǒng)最常見的是UPS電池(或飛輪。圖1-25中列出了儲能系統(tǒng)的三大類,最常見的是電化學(xué)儲能方式,即我們常說的UPS電池系統(tǒng),機械儲能系統(tǒng)也經(jīng)常被用到,電磁儲能較少見,但未來如果相關(guān)技術(shù)有所突破,在儲能效率上也會相應(yīng)提高),UPS再把直流電轉(zhuǎn)換為交流電對電源分配單元(PDU)供電,在這個二元連續(xù)(AC→DC→AC)的轉(zhuǎn)換過程中電力存在損耗以及生成大量廢熱需要制冷系統(tǒng)工作來降溫,結(jié)合圖1-22與圖1-24可知在供電與制冷環(huán)節(jié)耗費的電力占整個數(shù)據(jù)中心能耗的10%~47%之多。圖1-25IDC儲能技術(shù)分類
如何提高UPS系統(tǒng)效率甚至是找到UPS替代方案是業(yè)界的主要努力方向。谷歌的經(jīng)驗是采用分布式UPS及電池系統(tǒng)直接對服務(wù)器機柜進行交流供電,在此過程中僅需要一次交流到直流轉(zhuǎn)換,由此達到了99.9%的UPS效率,遠高于業(yè)界平均的80%~90%。其他常見的做法還有提高UPS到PDU電壓、更新升級UPS電池系統(tǒng)或直接對服務(wù)器進行高壓直流輸電等。
UPS替代方式也越來越受到業(yè)界的重視。例如使用燃料電池技術(shù)或智能電源虛擬化技術(shù)等,它們的一個共性是在整個供電過程中不再需要UPS、PDU和變壓器單元,開關(guān)設(shè)備也變得簡單。圖1-26展示了使用軟件定義的電源技術(shù)前后數(shù)據(jù)中心配電系統(tǒng)的變化。圖1-26軟件定義的電源控制技術(shù)
在數(shù)據(jù)中心中有嚴格的溫度與濕度控制來保證IT設(shè)備在最優(yōu)環(huán)境下發(fā)揮性能。最新的數(shù)據(jù)中心以及改造的數(shù)據(jù)中心中通常都會對冷熱氣流管理(見圖1-27),例如冷通道、熱通道交替排列(見圖1-28)、規(guī)范布線(見圖1-29)。圖1-27IDC冷熱氣流管理圖1-28服務(wù)器機柜冷熱通道交替排列圖1-29IDC布線管理1.3.2云計算優(yōu)化要論云數(shù)據(jù)中心需求側(cè)優(yōu)化的核心是提高IT設(shè)備的利用率。提高過程通常分兩步走:(1)IT設(shè)備、資源虛擬化(Virtualization);(2)數(shù)據(jù)中心云平臺化(CloudPlatformization)。1.IT資源虛擬化云數(shù)據(jù)中心的基本特點是多租戶(Multi-tenancy),對多租戶場景最好的支持是資源虛擬化。虛擬化的進程業(yè)界最早是從服務(wù)器虛擬化開始的,緊隨其后的是網(wǎng)絡(luò)虛擬化,再之后的是存儲虛擬化,相關(guān)的詳細討論可參考筆者的另一部專著《軟件定義數(shù)據(jù)中心:技術(shù)與實踐》。值得指出的是虛擬化是個宏觀的概念,它包括硬件虛擬化,也包括軟件虛擬化,但最終是通過軟件接口與用戶層應(yīng)用對接,這也是為什么我們稱之為軟件定義的數(shù)據(jù)中心。
此前我們一直把計算、網(wǎng)絡(luò)與存儲稱之為軟件定義數(shù)據(jù)中心的三大支柱,現(xiàn)在看來應(yīng)該是四大支柱,還有電源、電力的虛擬化(見圖1-30)。從虛擬化進程完善程度來看四大支柱也是按照計算→網(wǎng)絡(luò)→存儲→電源降序排列,越往后挑戰(zhàn)越大,但是市場的機遇也越大。圖1-30軟件定義的數(shù)據(jù)中心四象限2.IT資源效率優(yōu)化圍繞著數(shù)據(jù)中心IT資源的效率優(yōu)化,特別是提高CPU利用率(或降低CPU能耗)我們可以分為四類技術(shù)(見1-31):動態(tài)電壓、頻率調(diào)控技術(shù);負載調(diào)度技術(shù);服務(wù)器集中、能耗狀態(tài)轉(zhuǎn)換技術(shù);熱感知技術(shù)。圖1-31IDC節(jié)能技術(shù)分類(1)動態(tài)電壓、頻率調(diào)控技術(shù)。動態(tài)調(diào)頻、調(diào)壓技術(shù)是常見的能耗管理技術(shù),特別是在對多核處理器、DRAM內(nèi)存管理上,基于CMOS電路的能耗方程如下:
P=Pstatic+CFVV(2)負載調(diào)度技術(shù)。負載調(diào)度技術(shù)在所有大型云數(shù)據(jù)中心的效率博弈中可能是貢獻最大的。它的基本原理非常簡單,但實現(xiàn)起來一點都不簡單——最差的效率當然就是把所有IT設(shè)備都打開但是每個設(shè)備都處于空轉(zhuǎn)或低負載運轉(zhuǎn)的狀態(tài),最優(yōu)的情況就是讓每個運轉(zhuǎn)中的設(shè)備都達到滿負荷、全速運轉(zhuǎn),而其他設(shè)備都處于下線、不供電狀態(tài)——參考圖1-23。(3)服務(wù)器集中與能耗轉(zhuǎn)換技術(shù)。服務(wù)器集中與能耗狀態(tài)轉(zhuǎn)換技術(shù)通常會與前兩項技術(shù)共用來幫助提高資源利用率或降低能耗。一種典型的實踐是在數(shù)據(jù)中心中使用異構(gòu)的硬件平臺,也就是說在低負載情況下使用低功耗、低性能系統(tǒng),當負載增長后再通過任務(wù)調(diào)度把負載移向高性能系統(tǒng),這么做的好處很顯然,但是如果發(fā)生頻繁的負載、任務(wù)遷移,遷移成本也是需要考量的因素;另一類做法會通過智能硬件來監(jiān)控系統(tǒng)負載,只保留部分IT組件在線而讓其他組件進入睡眠或掉電狀態(tài),比如有些操作只需要內(nèi)存,那么CPU、硬盤、網(wǎng)絡(luò)可以休眠,由此達到節(jié)省能耗的目的。(4)熱感知技術(shù)。第四類是熱感知技術(shù)。在圖1-24中我們介紹過服務(wù)器CPU能耗的關(guān)聯(lián)效應(yīng)。當CPU運轉(zhuǎn)時會產(chǎn)生熱能,而機房中的主要熱源來自于運轉(zhuǎn)的IT設(shè)備,為了保證機房的溫度,空調(diào)制冷等系統(tǒng)又要耗費更多的電力。如何智能分配負載來保證整體能耗降低是這一類技術(shù)的核心理念。一種做法是在刀片機機柜中通過把新增負載加載到現(xiàn)有活躍刀片機而非新啟動一個刀片機柜(刀片機組會共享電源與風扇,啟動新的刀片機組能耗需求會相對更高)來實現(xiàn)低的熱散逸;另一種做法是針對機房當中熱點分布與空調(diào)制冷溫度傳感器的相對位置來定向調(diào)節(jié)在不同位置的服務(wù)器的負載以達到節(jié)能的目的。3.數(shù)據(jù)中心云平臺化數(shù)據(jù)中心云平臺化是資源虛擬化后的為了實現(xiàn)資源管理、調(diào)度高度協(xié)同的一個必然發(fā)展方向,在云的多重形態(tài)一節(jié)中我們已經(jīng)介紹了不同的*aaS平臺,在下一節(jié)我們會介紹業(yè)界建設(shè)云平臺的一些最佳實踐,在此就不再贅述。1.4業(yè)界如何建云兵法云“知己知彼,百戰(zhàn)不殆”,進入任何陌生領(lǐng)域前了解行業(yè)的現(xiàn)狀與趨勢,分析自身的需求、能力與不足,謀定而后動應(yīng)該是常識。在本節(jié)我們會就業(yè)界的云計算最佳實踐原則、云計算服務(wù)與產(chǎn)品的演進歷程、開源vs.閉源以及云架構(gòu)與應(yīng)用間的互動關(guān)系等議題展開論述,希望能撥開迷霧,讓讀者對云計算不再陌生,對如何解讀不同云計算流派與實踐不再疑惑。1.4.1云計算最佳實踐五原則擁抱云計算有沒有一些基本原則可以遵循或參考呢?這個問題可以細微到任何一種具體技術(shù)的篩選,也可以升華到哲學(xué)思考,在起始階段就跳入細枝末節(jié)的技術(shù)環(huán)節(jié)討論只會讓人無所適從,過于宏觀的哲學(xué)討論又難免不落地,筆者在多年的實踐中總結(jié)了五條基本原則與大家分享(見圖1-32),這五條原則互相之間相輔相成,在實踐中可形成閉環(huán)。
云計算最佳實踐五原則:結(jié)合業(yè)務(wù)需求來制定云戰(zhàn)略(長期);避免重蹈業(yè)界失敗的經(jīng)歷;把安全放在第一位;確保性能與數(shù)據(jù)可用性;定期評估業(yè)務(wù)發(fā)展,調(diào)整云戰(zhàn)略+策略。制定戰(zhàn)略借鑒教訓(xùn)安全第一性能+數(shù)據(jù)定期評估圖1-32云計算最佳實踐五原則(1)結(jié)合需求、制定戰(zhàn)略。任何戰(zhàn)略離不開三件事情:方向(目標)、人(隊伍)、資源(錢、物、關(guān)系網(wǎng)、技術(shù)儲備),把這三樣?xùn)|西映射到云計算戰(zhàn)略與最佳實踐上就是人員、流程與技術(shù)三寶(見圖1-33)。人員IT部門vs.業(yè)務(wù)部門云技能培訓(xùn)服務(wù)驅(qū)動的文化流程企業(yè)云架構(gòu)管理與規(guī)劃端到端服務(wù)管理云流程標準化管理技術(shù)基礎(chǔ)架構(gòu)階段性負載承載部署策略、自動化等圖1-33云計算戰(zhàn)略三項指標(2)博采眾長、以史為鑒。(3)安全第一。(4)性能保障與數(shù)據(jù)可用性。(5)定期評估業(yè)務(wù)發(fā)展并相應(yīng)調(diào)整云發(fā)展戰(zhàn)略。圖1-34中把數(shù)據(jù)按照訪問需要的頻繁性與迫切性分為四類:熱數(shù)據(jù)、暖數(shù)據(jù)、冷數(shù)據(jù)與備份數(shù)據(jù)。圖1-34數(shù)據(jù)熱度:熱、暖、冷、備份Hot熱數(shù)據(jù)Warm暖數(shù)據(jù)Cold冷數(shù)據(jù)Archive備份數(shù)據(jù)1.4.2云服務(wù)與產(chǎn)品的演進了解云計算服務(wù)、產(chǎn)品與解決方案的演進歷程可以從服務(wù)提供方或需求方入手。以服務(wù)需求方為例,業(yè)務(wù)需求出發(fā)點的不同導(dǎo)致選擇云計算解決方案的切入點不同,我們以不同類型的XaaS作為切入點(見圖1-35),對于某些用戶而言提供遠程桌面、瘦客戶端(取代現(xiàn)有PC主機、筆記本電腦)是日常辦公云化的第一步,而其他用戶,特別是一些對于流程較注重的公司可能會從購買SaaS化的辦公自動化系統(tǒng)、CRM或ERP系統(tǒng)入手。IaaS資源虛擬化數(shù)據(jù)服務(wù)遠程桌面、瘦客戶端PaaS服務(wù)集成CI/CDDevopsSaaS最終應(yīng)用OA/CRM/ERP/科研云圖1-35云服務(wù)、云產(chǎn)品的演進
研發(fā)型機構(gòu)或IT公司接入云的方式則更有可能是直接購買虛擬化的IaaS資源,如云主機、云數(shù)據(jù)庫服務(wù)等(當然,對于部門內(nèi)、部門間協(xié)同工作要求較高的機構(gòu),也可能會從類似于白板、通信錄、日歷、庫存、訂單管理、共享桌面等服務(wù)切入。這一類服務(wù)都被冠以“科研云”的名頭,實質(zhì)上是不折不扣的SaaS服務(wù))。DevOps無論是從底層的IaaS還是從上層的SaaS接入云,它們都會向中間層的PaaS平臺演進。PaaS提供的核心服務(wù)可以分為兩大類:集成化的服務(wù)(部署、維護、升級、兼容性管理、服務(wù)目錄等);一體化開發(fā)+運維(DevOps)、持續(xù)集成、持續(xù)部署(CI/CD)。
如果從云的基本屬性角度出發(fā),云服務(wù)提供商(建設(shè)者)與云的客戶(使用者)的訴求有不同的演進階段。前者通常把基礎(chǔ)架構(gòu)、平臺、服務(wù)與應(yīng)用的彈性放到第一位,而后系統(tǒng)健壯性,再之后是各項性能指標的提高,最后會提高安全性;而對于后者通常在進入云初期,低成本是第一考量,彈性、敏捷性、可伸縮性緊隨其后,再之后是健壯性與安全性。兩者的優(yōu)先級看似有很大差異,實則對立統(tǒng)一(見圖1-37)。開發(fā)測試運維圖1-36DevOps的三位一體
它們是云計算發(fā)展過程中,從早期階段到逐漸成熟過程中必然經(jīng)歷的,本節(jié)開始引用的Gartner對2018年安全性成為云計算考量的首要因素正是云逐漸趨于成熟的標志之一。在性價比、彈性、敏捷性、健壯性、性能這些難題都已經(jīng)被攻克后,安全問題一定會被提上議事日程。彈性健壯性性能安全性成本彈性/安全健壯性……圖1-37云建設(shè)的演進歷程:提供方vs.需求方
對于云的彈性(Elasticity)有幾個重要的衡量指標。提供資源所需的時間(ProvisioningTime)。提供可伸縮資源的全面性—左右水平、上下垂直、計算、網(wǎng)絡(luò)、存儲、服務(wù)及應(yīng)用等。對于彈性資源的監(jiān)控粒度。傳統(tǒng)的監(jiān)控方式的顆粒度是基于物理機或虛擬機的資源組件(如Nagios、Ganglia等),但是在云計算框架下對于一個可能跨越了多個物理機、虛機或容器的應(yīng)用或服務(wù)而言,對其監(jiān)控的復(fù)雜度大增,需要在對整個應(yīng)用或服務(wù)的各項指標做綜合甚至是加權(quán)計算后呈現(xiàn)給用戶。
資源供應(yīng)的準確性,避免過度供應(yīng)(Over-Provisioning)或供應(yīng)不足(Under-Provisioning)。云的性能評測(PerformanceBenchmark)可以從多個維度展開。傳統(tǒng)指標的評測:CPU/VCPU、網(wǎng)絡(luò)、磁盤吞吐率指標。云化工作負載(Workloads)性能評測:如數(shù)據(jù)庫、大數(shù)據(jù)或某個具體應(yīng)用的性能(吞吐率、啟動速度等)評測。其他功能的支持及指標:如是否支持實時的塊數(shù)據(jù)復(fù)制(SANReplication)、系統(tǒng)的IOPS(每秒讀寫操作次數(shù))、對傳統(tǒng)應(yīng)用向云遷移的支持、云內(nèi)及跨云數(shù)據(jù)遷移速度等。云原生應(yīng)用云原生應(yīng)用(CloudNativeApplications)又被稱為云本地應(yīng)用,具有五大特點(如圖1-38所示)。(1)MSA(Micro-ServiceArchitecture,微服務(wù)架構(gòu))。MSA微服務(wù)架構(gòu)云應(yīng)用十二要素自服務(wù)敏捷架構(gòu)基于API的協(xié)作面向故障的設(shè)計圖1-38云本地(原生)應(yīng)用的五大特點
MSA是云本地應(yīng)用的最重要的特點,它源自于SOA(ServiceOrientedArchitecture,面向服務(wù)的架構(gòu)),可以認為是SOA整體框架中的一部分,在云化的過程中逐漸演變?yōu)楦鱾€云組件之間通過可獨立部署的服務(wù)接口來實現(xiàn)通信。圖1-39形象地展示了傳統(tǒng)獨立應(yīng)用與微服務(wù)架構(gòu)應(yīng)用間的差異。獨立應(yīng)用是一個“大包大攬”的整體,每一個應(yīng)用進程(Process)會把多個功能集成在一起,獨立應(yīng)用的擴展也是以應(yīng)用進程為單位擴展到多臺主機上;而微服務(wù)的最大區(qū)別在于把每一個功能元素作為一個獨立的服務(wù),這些服務(wù)可以部署在不同的主機上,每個服務(wù)只要保證通信接口不變,它們可以各自獨立進化。圖1-39Monolithicvs.Mirco-Service(2)云應(yīng)用12要素。12-FactorApplication(云應(yīng)用12要素)是業(yè)界被廣泛引用的CNA類型應(yīng)用的通用特點,由AdamWiggins在2012年提出。他總結(jié)了CNA的12要素:單代碼庫多次部署、明確定義依賴關(guān)系、在環(huán)境中存儲配置、后端服務(wù)作為附加資源、建設(shè)發(fā)布及上線運行分段、以無狀態(tài)進程來運行應(yīng)用、通過端口綁定來暴露服務(wù)、通過進程模型擴展來實現(xiàn)并發(fā)、通過快速啟動與優(yōu)雅終止來實現(xiàn)最大化健壯性、開發(fā)環(huán)境=線上環(huán)境、日志=事件流、后臺管理任務(wù)=一次性進程。以上12要素在業(yè)界被廣泛引用,有些人甚至稱之為建設(shè)與運行云應(yīng)用最佳實踐的金標準。(3)自服務(wù)敏捷基礎(chǔ)架構(gòu)。自服務(wù)敏捷基礎(chǔ)架構(gòu)(Self-ServiceAgileInfrastructure)的概念最早由筆者的同事MattStine在他2015年的MigratingtoCloud-NativeApplicationArchitectures11一書中提出,自服務(wù)敏捷架構(gòu)的另一個叫法是PaaS(平臺即服務(wù)),它幫助程序員完成四件事情:自動化、按需的應(yīng)用實例伸縮(Automated&On-demandScaling);應(yīng)用程序健康管理(HealthManagement);對應(yīng)用實例訪問的自動路由與負載均衡(Routing&Load-Balancing);對日志與度量數(shù)據(jù)的集結(jié)(Aggregation)。(4)面向API的協(xié)作模式。面向API的協(xié)作模式是在完成向微服務(wù)架構(gòu)、12要素應(yīng)用建設(shè)、自服務(wù)敏捷基礎(chǔ)架構(gòu)三大模式轉(zhuǎn)變過程中必然出現(xiàn)的新型協(xié)同工作模式。傳統(tǒng)的協(xié)同開發(fā)模式是基于應(yīng)用部件間的方法調(diào)用(MethodCalls),而在云架構(gòu)中,更多的是通過調(diào)用某種APIs的方式來實現(xiàn)組件間的通信,而API版本之間的兼容關(guān)系通過版本號來定義與協(xié)調(diào),RESTAPIs12就是一種非常流行的方式——它也是整個WWW的軟件架構(gòu)標志性風格——無獨有偶,REST的作者RoyFielding在他的博士答辯論文中對RESTfulAPI進行了定義,而他同時也是HTTP/1.113的主要作者。(5)面向故障。面向故障(Anti-fragile-DesignforFailure)是云計算彈性與敏捷性的終極體現(xiàn),在遵循微服務(wù)架構(gòu)、12要素、自服務(wù)、面向API的設(shè)計原則下,云本地應(yīng)用可以做到零下線時間,也就是說在故障甚至災(zāi)難發(fā)生時系統(tǒng)有足夠的冗余來確保服務(wù)保持在線。業(yè)界最著名的面向故障的實踐案例是Netflix工程師為了測試他們在亞馬遜AWS上的服務(wù)的健壯性而開發(fā)的一套叫作ChaosMonkey14的開源軟件——它會發(fā)現(xiàn)并隨機終止系統(tǒng)中的云服務(wù),以此來測試系統(tǒng)的自我恢復(fù)能力。
云的發(fā)展過程就像一次旅程(見圖1-40)。為了提供云服務(wù),就需要改造現(xiàn)有的數(shù)據(jù)中心(傳統(tǒng)數(shù)據(jù)中心,ConventionalData-Center)。在傳統(tǒng)數(shù)據(jù)中心內(nèi),計算、網(wǎng)絡(luò)和存儲等資源通常專供各個業(yè)務(wù)單元或應(yīng)用程序使用,這會導(dǎo)致管理復(fù)雜以及資源非充分利用。圖1-40云之旅:從傳統(tǒng)DC到SDDC
在本小節(jié)最后,我們再從云的形態(tài)入手來分析云的演變歷程,通常一條完整的進化曲線(見圖1-41)是:從數(shù)據(jù)中心(無論是場內(nèi)還是場外)到私有云,再到公有云,最終演化為混合云。不同的機構(gòu)和組織進入云的切入點可能會因需求與能力的差異而不同,無論是從相對原始的傳統(tǒng)數(shù)據(jù)中心開始還是從私有云或公有云服務(wù)切入,獲取云服務(wù)通常不會以一種單一的云形態(tài)來獲得,個中原因值得深思。圖1-41云的演進歷程:私有→公有→混合1.4.3開源開源技術(shù)棧所謂LAMP是B/S(Browser/Server)和C/S(Client/Server)技術(shù)的四大代表性開源技術(shù)的首字母連寫,鑒于LAMP技術(shù)是如此重要,我們在此要對它們做個概覽。圖1-42全球Web服務(wù)器市場份額Jan2016圖1-43數(shù)據(jù)庫流行趨勢:商業(yè)vs.開源圖1-44編程語言流行趨勢(2004—2016年)圖1-45LAMP體系架構(gòu)概覽圖1-46AWSEC2的十年增速發(fā)展歷程開源vs.閉源自打亞馬遜在2006年打開了云計算的“潘多拉之盒”,整個IT行業(yè)過去十年的發(fā)展可以用風起云涌來概括,大到行業(yè)巨頭,小到初創(chuàng)公司太多人投身其中。筆者梳理了云計算的十年旅程,發(fā)現(xiàn)由開源與閉源(商業(yè))兩大陣營的博弈貫穿始終,對兩大陣營的廠家與云產(chǎn)品按照“神奇四象限”(MagicQuadrant)的分類把它們放置于商業(yè)+巨頭、商業(yè)+小散(中小企業(yè))、開源+小散以及開源+巨頭四個象限之內(nèi),如圖1-47所示。這張圖囊括了云計算領(lǐng)域里產(chǎn)品非常具有代表性的廠家。圖1-47云計算廠家(及產(chǎn)品)魔力四象限
由圖1-47還可以看出云計算的玩家主要集中在右上角的第一象限—它們的產(chǎn)品與服務(wù)的形態(tài)以大公司推出的商業(yè)化產(chǎn)品+服務(wù)(無論是否依賴開源項目)為主;而第二、三、四象限則略顯冷清(稍后我們來分析為什么開源與中小企業(yè)在云計算領(lǐng)域往往流于雷聲大雨點?。H绻覀冊贀Q個維度來看云計算生態(tài)系統(tǒng)的演變,會發(fā)現(xiàn)業(yè)界的收購與聯(lián)盟從來沒有停止過(見圖1-48)。圖1-48云計算生態(tài)系統(tǒng)演變:收購、聯(lián)盟
結(jié)構(gòu)化PaaS-CloudFoundry非結(jié)構(gòu)化PaaS–Kubernetes典型用戶群體大中型企業(yè)、機構(gòu)互聯(lián)網(wǎng)、創(chuàng)業(yè)型企業(yè)云形態(tài)公有或私有云公有或私有云ServiceBroker(服務(wù)經(jīng)紀人)平臺內(nèi)置需要定制開發(fā)可直接訪問容器工具容器被平臺抽象化容器服務(wù)可直接訪問應(yīng)用感知與工作臺(Awareness/Staging)平臺內(nèi)置需要定制開發(fā)內(nèi)置負載均衡是不是可替換組件很少很多日志與監(jiān)控平臺內(nèi)置需定制開發(fā)、第三方提供平臺管理工具是,通過Bosh部分繼承用戶管理是不是對Windows平臺支持是不是網(wǎng)絡(luò)限流支持不是是鏡像支持(ImageSupport)是是應(yīng)用為單位的擴展是-容器為單位的擴展-是架構(gòu)比較平臺組件–Garden,Converger,BBS,Router,Buildpack,Loggregator等第三方提供–Docker,Mesos,etcd,cAdvisor等表1-4 結(jié)構(gòu)化PaaSvs.非結(jié)構(gòu)化PaaSL.A.M.PAWSEC2(Amazon)Eucalyptus(HP)CloudStack(Citrix/ASF)OpenStack(Rackspace)OpenShift(RedHat)CloudFoundry(EMC)Docker(dotCloud)CoreOSMesos(Mesosphere/ASF)Kubernetes(Google)Unikernels(Docker)圖1-49云計算發(fā)展歷程LAMP→IaaS→PaaS→CaaS云計算與大數(shù)據(jù)
TheEssentialCriteriaofBigData&CloudComputing第二章揭秘大數(shù)據(jù)2.1大數(shù)據(jù)從何而來?2.1.1大數(shù)據(jù)的催化劑催化劑有三—社交媒體、移動互聯(lián)網(wǎng)與物聯(lián)網(wǎng)(見圖2-1)。社交媒體移動互聯(lián)網(wǎng)物聯(lián)網(wǎng)圖2-1大數(shù)據(jù)的三大催化劑(1)社交媒體。社交媒體(SNS,SocialNetworkingService或SocialNetworkingSite)的雛形應(yīng)該是BBS(BulletinBoardSystem,電子公告牌系統(tǒng)),最早的BBS是1973年在美國加州舊金山灣區(qū)出現(xiàn)的CommunityMemory系統(tǒng),當時的網(wǎng)絡(luò)連接是通過Modem遠程接入一款叫作SDS940的分時處理大型機來實現(xiàn)的。中國最早的BBS系統(tǒng)經(jīng)歷了從1992年的長城站,到后來的惠多網(wǎng)(據(jù)說惠多網(wǎng)的用戶中有中國最早一批本土互聯(lián)網(wǎng)創(chuàng)業(yè)者—馬化騰、求伯君、丁磊等)到1994年中科院網(wǎng)絡(luò)上建立的真正意義上的基于互聯(lián)網(wǎng)的BBS系統(tǒng)—曙光站,而同時在線超過100人的第一個國內(nèi)大型BBS論壇則是長盛不衰的水木清華,而它的起因大抵是因為清華的同學(xué)們對于連接隔壁中科院的曙光站竟然要先從中國教育網(wǎng)跑到太平洋彼岸的美國再折返回中科院網(wǎng)絡(luò)表示憤懣,于是自立門戶成立的水木清華站—它最早是在一臺386PC上提供互聯(lián)網(wǎng)接入服務(wù)的。
表2-1列出了常見的社交媒體與互聯(lián)網(wǎng)服務(wù)的每秒鐘交易(或服務(wù)完成)數(shù)量。每秒鐘社交媒體所提供服務(wù)數(shù)量數(shù)目2016春節(jié)期間微信紅包120,000Tweets7,112Instagram圖片上傳數(shù)1,132Tumblr發(fā)貼數(shù)目1,500Skype通話數(shù)2,027互聯(lián)網(wǎng)流量(GB)33,000谷歌搜索次數(shù)53,000YouTube視頻觀看次數(shù)116,950電子郵件發(fā)送數(shù)2,466,550表2-1 全球互聯(lián)網(wǎng)流量分析與預(yù)測(2)移動互聯(lián)網(wǎng)。移動互聯(lián)網(wǎng)是互聯(lián)網(wǎng)的高級發(fā)展階段,也是互聯(lián)網(wǎng)發(fā)展的必然。移動互聯(lián)網(wǎng)是以移動設(shè)備,特別是智能手機、平板電腦等移動終端設(shè)備全面進入我們的生活、工作為標志的。最早的具備聯(lián)網(wǎng)功能的移動終端設(shè)備是1990年代中期開始流行的PDA(PersonalDigitalAssistant)。遺憾的是市場更新迭代的速度如此之快,在短短10年后,PDA操作系統(tǒng)三大巨頭Palm、BlackBerry與MicrosoftWindowsCE,外加最早的手機巨頭Nokia就已經(jīng)讓位于真正的智能手機操作系統(tǒng)后起之秀—AppleiOS與Android。
據(jù)統(tǒng)計從1992年開始到2019年,整個互聯(lián)網(wǎng)數(shù)據(jù)流量的增長將達到驚人的四千五百萬倍(見圖2-2)—從1992年的每天100GB(1992年是硬盤剛進入1GB的時代,每天100GB的互聯(lián)網(wǎng)數(shù)據(jù)流量就相當于全世界每天交換了100塊硬盤之多的數(shù)據(jù));1997年這一數(shù)據(jù)增長24倍,平均每小時100塊1GB硬盤,而同一時期的硬盤容量增長到了16~17GB;1997—2002年,是互聯(lián)網(wǎng)猛烈增長的5年,迅速達到了100GB/s的水平,而同一年硬盤尋址空間剛剛突破137GB的限制;2007年又增長了20倍到達了2,000GB/s的水平,同年Hitachi也推出了第一塊1TB(1,000GB)容量的硬盤;2014年的互聯(lián)網(wǎng)流量已經(jīng)突破16TB/s,無獨有偶,Seagate也在同年發(fā)布了業(yè)界第一款8TB的硬盤,預(yù)計2019年的網(wǎng)絡(luò)流量則會達到52TB/s—從任何一個角度看,網(wǎng)絡(luò)流量的增速都超過了單塊硬盤的擴容速度,這也從另一個側(cè)面解釋了為什么我們的IT基礎(chǔ)架構(gòu)一直處于不斷的升級、擴容中—大(量)數(shù)據(jù)聯(lián)網(wǎng)交換的需求推動所致?。?)物聯(lián)網(wǎng)。物聯(lián)網(wǎng)(InternetofThings,IoT)5的起源可以追溯到1999年,當時在P&G工作的英國人KevinAshton最早冠名使用了IoT字樣,同一年他在MIT成立了一個旨在推廣RFID技術(shù)的Auto-ID中心,而對于P&G來說最直接的效益就是利用RFID技術(shù)與無線傳感器的結(jié)合可以對其供應(yīng)鏈系統(tǒng)進行有效的跟蹤與管理。中國人對物聯(lián)網(wǎng)的熟知應(yīng)當是2009年,先是國務(wù)院總理對無錫物聯(lián)網(wǎng)科技產(chǎn)業(yè)園區(qū)的考察而后是總理的一篇面向首都科技界《讓科技引領(lǐng)中國可持續(xù)發(fā)展》的講話。
有一種提法認為繼移動互聯(lián)網(wǎng)之后,IT行業(yè)最高速的增長會在物聯(lián)網(wǎng)領(lǐng)域,有一些統(tǒng)計數(shù)據(jù)表明到2019年超過2/3的IP數(shù)據(jù)會從非PC端設(shè)備產(chǎn)生,如互聯(lián)網(wǎng)電視、平板電腦、智能手機以及M2M(Machine-to-Machine)傳感器。IDC預(yù)測到2020年會有300億物聯(lián)網(wǎng)設(shè)備,而整個生態(tài)系統(tǒng)會是一個17,000億美元的巨大市場。Cisco預(yù)測到2020年物聯(lián)網(wǎng)設(shè)備會有500億之多,而Intel、IDC與聯(lián)合國的另一預(yù)測則樂觀地估計屆時會有超過2,000億物聯(lián)網(wǎng)設(shè)備。圖2-2CiscoVNI全球互聯(lián)網(wǎng)流量分析與預(yù)測
社交媒體、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)三大催化劑讓數(shù)據(jù)量在過去幾十年間呈指數(shù)級增長,除此以外數(shù)據(jù)的產(chǎn)生速率以及數(shù)據(jù)的多樣性與復(fù)雜性都在隨之增長—數(shù)據(jù)的這三大特性—數(shù)量(Volume)、速率(Velocity)與多樣性(Variety),我們通常稱之為大數(shù)據(jù)的3V。如果再考慮到數(shù)據(jù)來源的可靠性與真實性(Veracity)以及數(shù)據(jù)的價值(Value),可以把3V擴展到5V,不過通常業(yè)界對于數(shù)據(jù)的價值的定義有很多主觀因素在里面,因此業(yè)界通常都習(xí)慣引用IBM最早提出的大數(shù)據(jù)的4V—TheFourV’sofBigData7,如圖2-3所示。圖2-3大數(shù)據(jù)的四大特征(4V'sofBigData)2.1.2Data→BigData→Data在本小節(jié)讓我們來回顧一下大數(shù)據(jù)從何而來,大數(shù)據(jù)作為一門技術(shù)有哪些分支與流派。縱觀人類發(fā)展史,圍繞著信息的記錄、整合、處理與分析的方式、手段與規(guī)模,筆者按圖2-4所示分為六個階段。上古時代–十八世紀結(jié)繩記事、古典統(tǒng)計學(xué)、人口統(tǒng)計學(xué)、流行病學(xué)十九世紀中葉最早的眾包WWII-1980年代Enigma,電子計算機,數(shù)據(jù)庫1990-2004PC時代,商務(wù)智能,數(shù)據(jù)倉庫2004-2014移動互聯(lián)時代,GFSHADOOP;NOSQL/NewSQL2014-?物聯(lián)網(wǎng)時代,機器學(xué)習(xí)、深度學(xué)習(xí)、人工智能圖2-4數(shù)據(jù)到大數(shù)據(jù)再到數(shù)據(jù)的發(fā)展歷程(1)上古時代—18世紀。漢朝人鄭玄在《周易注》中說:“古者無文字,結(jié)繩為約,事大,大結(jié)其繩;事小,小結(jié)其繩。”在印加文化當中也有結(jié)繩記數(shù)的實例,并且有學(xué)者發(fā)現(xiàn)印加繩的穿系方法與中國結(jié)驚人的一致,或為兩種文明存在傳承關(guān)系的證據(jù)之一(見圖2-5)。圖2-5中國古代結(jié)繩記事與文字vs.印加Khipu(記簿)繩(2)19世紀中葉人類采集數(shù)據(jù),處理數(shù)據(jù),分析數(shù)據(jù),從中獲得信息并升華為知識的實踐從來沒有停止過,只是在形式上從早期人類的原始會計學(xué),發(fā)展到3個世紀前的古典統(tǒng)計學(xué)。時光再向前走到19世紀中葉—出現(xiàn)了最早的眾包(Crowdsourcing)—1848年到1861年間美國海軍海洋學(xué)家、天文學(xué)家MatthewF.Maury通過不斷地向遠航的海員們提供數(shù)以十萬張計的免費的季風與洋流圖紙并以海員們返回后提供詳細的標準化的航海日記作為交換條件整理出了一整套詳盡的大西洋-太平洋洋流與季風的圖紙(見圖2-6)。圖2-6MatthewF.Maury繪制的大西洋-太平洋洋流與季風圖(1841)局部(3)第二次世界大戰(zhàn)—20世紀80年代。19世紀的眾籌的力量雖然巨大,但在數(shù)據(jù)處理的方式上還限于手工整理,真正的電子數(shù)字可編程計算機是第二次世界大戰(zhàn)后期在英國被發(fā)明的,盟軍為了破解以德國為首的軸心國的軍用電報密碼—尤為著名的是EnigmaMachines—一款典型的民用轉(zhuǎn)軍用密碼生成設(shè)備,在一個有6根引線的接線板上一對字母的可互換可能性有1,000億次,而10根引線的可能性則高達150萬億次。對于如此規(guī)模的海量數(shù)據(jù)組合可能性,使用人工排序來暴力破解的方式顯然不會成功,甚至是使用電動機械設(shè)備(ElectromagneticalDevice,電子計算機的前身)效率也遠遠不夠。
英國數(shù)學(xué)家圖靈(AlanTuring)在1939—1940年通過他設(shè)計的電動機械設(shè)備Bombe來破解納粹不斷升級優(yōu)化的Enigma密碼時意識到了這一點,于是在1943年找到了另一位英國人TommyFlowers,僅用了11個月的時間,1944年年初Flowers設(shè)計的Colossus計算機面世并成功破解了最新的德軍的密碼(見圖2-7,從左到右分別是:Enigma機器的接線板,圖靈設(shè)計的Bombe解密設(shè)備,F(xiàn)lowers設(shè)計的Colossus真空管電子計算機)。每臺Colossus計算機的數(shù)據(jù)處理是每秒鐘5,000個字符,送紙帶(PaperTape)以12.2m/s的速度高速移動,并且多臺Colossus可以并行操作—我們今天稱之為“并行計算”。圖2-7Enigmavs.Bombevs.Colossus
20世紀50—70年代是計算機技術(shù)飛速發(fā)展的20年,從50年代中期開始出現(xiàn)的基于晶體管(Transistor)技術(shù)的晶體管計算機到60年代的大型主機(Mainframes)到70年代的小型機(Minicomputers)的出現(xiàn),我們對數(shù)據(jù)的綜合處理能力、分析能力以及存儲能力都得到了指數(shù)級的增長。而數(shù)據(jù)分析能力的提高是與對應(yīng)的數(shù)據(jù)存儲能力的提升對應(yīng)的,在軟件層面,最值得一提的是數(shù)據(jù)庫的出現(xiàn)。數(shù)據(jù)庫可以算作計算機軟件系統(tǒng)中最為復(fù)雜的系統(tǒng),數(shù)據(jù)庫的發(fā)展從時間軸上看大體可分為四大類:
NavigationalDatabase(導(dǎo)航型數(shù)據(jù)庫);RelationalDatabase(關(guān)系型數(shù)據(jù)庫);ObjectDatabase(面向?qū)ο笮蛿?shù)據(jù)庫);NoSQL/NewSQL/Hadoop(大數(shù)據(jù)類新型數(shù)據(jù)存儲與處理方式)。
Navigational數(shù)據(jù)庫是20世紀60年代隨著計算機技術(shù)的快速發(fā)展而興起的,主要關(guān)聯(lián)了兩種數(shù)據(jù)庫接口模式—NetworkModel和HierarchicalModel。關(guān)系型數(shù)據(jù)庫(RDBMS)自20世紀70年代誕生以來在過去四十幾年中方興未艾,也是我們今天最為熟知的數(shù)據(jù)庫系統(tǒng)類型。
對象數(shù)據(jù)庫的興起滯后于關(guān)系數(shù)據(jù)庫大約10年。對象數(shù)據(jù)庫的核心是面向?qū)ο?,它的誕生是借鑒了面向?qū)ο蟮木幊陶Z言的OO特性來對復(fù)雜的數(shù)據(jù)類型及數(shù)據(jù)之間的關(guān)系進行建模,對象之間的關(guān)系是多對多,訪問通過指針或引用來實現(xiàn)。通常而言O(shè)O類語言與OO型數(shù)據(jù)庫結(jié)合得更完美,以醫(yī)療行業(yè)為例Object數(shù)據(jù)庫的使用不在少數(shù),合理使用的話也會效率更高(例如InterSystems的Caché數(shù)據(jù)庫)。
大數(shù)據(jù)類新型數(shù)據(jù)庫確切地說是在數(shù)據(jù)爆炸性增長(數(shù)量、速率、多樣性)條件下為了高效處理數(shù)據(jù)而出現(xiàn)的多種新的數(shù)據(jù)處理架構(gòu)及生態(tài)系統(tǒng),簡單而言有三大類:NoSQL;Hadoop;NewSQL。(4)20世紀90年代。20世紀90年代初,PC與互聯(lián)網(wǎng)進入了全方位高速發(fā)展階段。1977年到2007年的三十年間,PC銷售量增長到最初的2,600倍(從1977年的5萬臺,增長到2007年的1.25億臺)。(5)21世紀第一個10年。過去的十年則讓我們見證了移動互聯(lián)時代的到來,以谷歌、Facebook、Twitter、BAT為代表的新互聯(lián)網(wǎng)公司的興起。這些新型的互聯(lián)網(wǎng)企業(yè)在搭建技術(shù)堆棧的時候有兩個共通之處:LAMP+PC-Cluster。(6)當下,移動互聯(lián)時代。移動互聯(lián)時代的自然延伸就是我們今天所處在的萬物互聯(lián)時代(InternetofThings或InternetofEverything)。十幾年前被學(xué)術(shù)界宣判已經(jīng)走入死胡同的人工智能(ArtificialIntelligence)在機器學(xué)習(xí)(MachineLearning)、深度學(xué)習(xí)(DeepLearning)等技術(shù)的推動下又在諸如圖像視頻、自然語言處理、數(shù)據(jù)挖掘、物流、游戲、無人駕駛汽車、自動導(dǎo)航、機器人、輿情監(jiān)控等很多不同的領(lǐng)域獲得了突破性的進展,其中值得一提的是谷歌的一款A(yù)I程序AlphaGo在2015年年底和2016年年初分別擊敗了歐洲圍棋冠軍職業(yè)二段選手樊麾以及韓國著名棋手李世石。這也標志著人工智能正在大步幅逼近甚至在不遠的未來超越人類大腦的海量信息處理與預(yù)判能力。
數(shù)據(jù)的完整生命周期可分為五個階段,如圖2-8所示。通過對雜亂無章的數(shù)據(jù)整理得到信息,對信息提煉而成為知識,知識升華后成為(人類)可傳承的智慧,人類又把智慧、知識與信息演變?yōu)榭梢再x予機器的智能。圖2-8從數(shù)據(jù)到智能
我們回顧一下人類的發(fā)展史可以說是圍繞著信息整合、處理的方式與手段在不斷發(fā)展,我們一步步走向大數(shù)據(jù),而當大數(shù)據(jù)成為常態(tài)的時候,大數(shù)據(jù)已經(jīng)無處不在融入了我們的生活(見圖2-9)。圖2-9中列出了已經(jīng)或正式應(yīng)用的大數(shù)據(jù)行業(yè)。這也是我們常說的(Big)Data-DrivenBusinesses(數(shù)據(jù)驅(qū)動的商業(yè))。圖2-9大數(shù)據(jù)無處不在2.1.3大數(shù)據(jù)不只是Hadoop認知誤區(qū):大數(shù)據(jù)就是Hadoop。這種論調(diào)似乎在業(yè)界頗有市場,因為Hadoop真的很火爆,盡管許多人并不清楚Hadoop到底是什么,可以用來做什么,但是如果某種大數(shù)據(jù)技術(shù)不和Hadoop沾邊兒,客戶、投資人甚至自己的團隊可能都會對該技術(shù)的前景持遲疑的態(tài)度。首先我們需要了解大數(shù)據(jù)處理的發(fā)展歷程中形成了哪些主要的流派與生態(tài)系統(tǒng)。從20世紀90年代到今天,面向海量數(shù)據(jù)的處理與分析經(jīng)歷了如下的3個主要階段。關(guān)系型數(shù)據(jù)庫一統(tǒng)天下的時代(1990—現(xiàn)今)。Hadoop與NoSQL并駕齊驅(qū)的時代(2006—現(xiàn)今)。NewSQL橫空出世的時代(2010—現(xiàn)今)。圖2-10展示了這四大類大數(shù)據(jù)技術(shù)沿時間橫軸的發(fā)展歷程。(1)關(guān)系型數(shù)據(jù)庫時代。(2)Hadoopvs.NoSQL時代。(3)NewSQL時代。圖2-10大數(shù)據(jù)技術(shù)三大流派NoSQL、Hadoop、NewSQL2.2大數(shù)據(jù)的五大問題當傳統(tǒng)的方法已無法應(yīng)對大數(shù)據(jù)的規(guī)模、分布性、多樣性以及時效性所帶來的挑戰(zhàn)時,我們需要新的技術(shù)體系架構(gòu)以及分析方法來從大數(shù)據(jù)中獲得新的價值。McKinseyGlobalInstitute在一份報告中9認為大數(shù)據(jù)會在如下幾個方面創(chuàng)造巨大的經(jīng)濟價值。
通過讓信息更透明以及更頻繁被使用,解鎖大數(shù)據(jù)價值。通過交易信息的數(shù)字化存儲可以采集更多更準確、詳細的數(shù)據(jù)用于決策支撐。通過大數(shù)據(jù)來細分用戶群體,進行精細化產(chǎn)品、服務(wù)定位。深度的、復(fù)雜的數(shù)據(jù)分析(及預(yù)測)來提升決策準確率。通過大數(shù)據(jù)(反饋機制)來改善下一代產(chǎn)品、服務(wù)的開發(fā)。
規(guī)劃大數(shù)據(jù)戰(zhàn)略、構(gòu)建大數(shù)據(jù)的解決方案與體系架構(gòu)、解決大數(shù)據(jù)問題以及大數(shù)據(jù)發(fā)展歷程中通常會依次涉及大數(shù)據(jù)存儲、大數(shù)據(jù)管理、大數(shù)據(jù)分析、大數(shù)據(jù)科學(xué)與大數(shù)據(jù)應(yīng)用等五大議題,如圖2-11所示。大數(shù)據(jù)存儲大數(shù)據(jù)管理大數(shù)據(jù)分析大數(shù)據(jù)科學(xué)大數(shù)據(jù)應(yīng)用圖2-11大數(shù)據(jù)需要觸及的五大問題2.2.1大數(shù)據(jù)存儲從19世紀開始到今天的近200年間,按時間軸順序,數(shù)據(jù)存儲至少經(jīng)歷了如下5大階段,并且這些技術(shù)直到今天依然在我們的生活中隨處可見。穿孔卡(PunchedCard)磁帶機(MagneticTape)磁盤(MagneticDisk)光盤(OpticalDisc)半導(dǎo)體內(nèi)存(SemicoductorMemory)
傳統(tǒng)意義上,按照馮·諾依曼計算機體系架構(gòu)(VonNeumannArchitecture)的分類方式,我們通常把CPU可以直接訪問的RAM類的半導(dǎo)體存儲稱為主存儲(PrimaryStorage)或一級存儲;把HDD、NVRAM類的稱為輔助存儲或二級存儲(AuxiliaryorSecondaryStorage);而三級存儲(TertiaryStorage)則是通常由磁帶與低性能、低成本HDD構(gòu)成;最后一類存儲則稱為Off-lineStorage(線下存儲),包括光盤、硬盤以及磁帶等可能組合方式。PunchedCards1952IBM711180bit/sMagneticTape1951UNIVAC12800bit/sHDD/FDD1956IBM350R6600B/sCD/DCD1979Philips/Sony1.17Mb/sFlash/SSD1991SanDisk100MB/s圖2-12數(shù)據(jù)存儲介質(zhì)發(fā)展歷程
前面我們以時間軸為順序了解了存儲介質(zhì)的發(fā)展歷程,在業(yè)界我們通常還會按照數(shù)據(jù)存儲的其他特性來對一種存儲介質(zhì)進行定性、定量分析,例如數(shù)據(jù)的易失性、可變性、各項性能指標、可訪問性等(見圖2-13)。Addressability可訪問性地址訪問文件訪問內(nèi)容訪問Performance性能延遲吞吐率(MB/s)故障率(MTBF)顆粒度(bit/page/block)Mutability可變性可讀寫(CD-RW)只讀(ROM,CD-R)快讀慢寫Volatility易失性易失性(RAM)非易失性(NVRAM)圖2-13數(shù)據(jù)存儲特性之四維度
另外,存儲逐漸由早期的單主機單硬盤存儲發(fā)展為單主機多硬盤、多主機多硬盤、網(wǎng)絡(luò)存儲、分布式存儲、云存儲、多級緩存+存儲以及軟件定義的存儲等形式。在存儲的發(fā)展過程中有大量為了提高數(shù)據(jù)可訪問性、可靠性、吞吐率以及節(jié)省存儲空間或成本的技術(shù)涌現(xiàn):RAID(磁盤陣列)技術(shù);NAS(網(wǎng)絡(luò)附屬存儲)技術(shù);SAN(高速存儲網(wǎng)絡(luò))技術(shù);Dedup(去重)技術(shù)、壓縮、備份、鏡像、快照技術(shù)等;軟件定義存儲(SoftwareDefinedStorage,SDS)技術(shù)。RAID磁盤陣列技術(shù)RAID(RedundantArrayofInexpensiveDisks),顧名思義,是用多塊便宜的硬盤組建成存儲陣列來實現(xiàn)高性能或(和)高可靠性。從這一點上看,早在1987年由UCBerkeley的DavidPatterson教授(David也是RISC精簡指令集計算機概念的最早命名者)和他的同事們率先實現(xiàn)的RAID架構(gòu)與十幾年后的互聯(lián)網(wǎng)公司推動的使用基于X86的商用硬件來顛覆IBM為首的大、小型機體系架構(gòu)是如出一轍的—單塊硬盤性能與穩(wěn)定性雖然可能不夠好,但是形成一個水平可擴展(scale-out)的分布式架構(gòu)后可以做到線性提高系統(tǒng)綜合性能。
奇偶校驗位的計算使用的是布爾型異或(XOR)邏輯操作,如下所示。如果盤A或B因故下線,剩下的B或A盤與Parity數(shù)據(jù)做簡單的XOR操作就可以恢復(fù)A或B盤。
DriveA:
01011010XOR DriveB:
01110101 Parity:
00101111NAS與SAN網(wǎng)絡(luò)存儲技術(shù)如NAS、SAN是相對于非網(wǎng)絡(luò)存儲技術(shù)而言的。在NAS、SAN出現(xiàn)之后我們把先前的那種直接連接到主機的存儲方式稱為DAS(DirectlyAttachedStorage,直連存儲或內(nèi)部存儲)。NAS與SAN先后在20世紀80年代中期與90年代中期由SunMicrosystems推出最早的商業(yè)產(chǎn)品,它們改變了之前那種以服務(wù)器為中心的存儲體系結(jié)構(gòu)(例如各種RAID,盡管RAID系統(tǒng)也是采用塊存儲),形成了以信息為中心的分布式網(wǎng)絡(luò)存儲架構(gòu)(見圖2-14),NAS與SAN的主要區(qū)別如下。NAS提供了存儲與文件系統(tǒng)。SAN提供了底層的塊存儲(上面可以疊加文件系統(tǒng))。NAS的通信協(xié)議主要有NFS/CIFS/SMB/AFP/NCP,它們主要是在NAS發(fā)展過程中由不同廠家開發(fā)的協(xié)議:Sun開發(fā)并開源的NFS,微軟的SMB/CIFS,蘋果開發(fā)的AFP以及Novell開發(fā)的NCP。SAN在服務(wù)器與存儲硬件間的通信協(xié)議主要是SCSI,在網(wǎng)絡(luò)層面主要使用FibreChannel(光纖通道)、Ethernet(以太網(wǎng))或InfiniBand(無限寬帶)協(xié)議堆棧來實現(xiàn)通信。
SAN的優(yōu)勢如下。網(wǎng)絡(luò)部署容易,服務(wù)器只需要配備一塊適配卡(FCHBA)就可以通過FC交換機接入網(wǎng)絡(luò),經(jīng)過簡單的配置即可使用存儲。高速存儲服務(wù)。SAN采用了光纖通道技術(shù),所以它具有更高的存儲帶寬,對存儲性能的提升更加明顯。SAN的光纖通道使用全雙工串行通信原理傳輸數(shù)據(jù),傳輸速率高達8~16Gbit/s。良好的擴展能力。由于SAN采用了網(wǎng)絡(luò)結(jié)構(gòu),擴展能力更強。
NAS的優(yōu)點如下。真正的即插即用:NAS是獨立的存儲節(jié)點存在于網(wǎng)絡(luò)之中,與用戶的操作系統(tǒng)平臺無關(guān)。存儲部署簡單:NAS不依賴通用的操作系統(tǒng),而是采用一個面向用戶設(shè)計的、專門用于數(shù)據(jù)存儲的簡化操作系統(tǒng),內(nèi)置了與網(wǎng)絡(luò)連接所需要的協(xié)議、因此使整個系統(tǒng)的管理和設(shè)置較為簡單。共享的存儲訪問:NAS允許多臺服務(wù)器以共享的方式訪問同一存儲單元。管理容易且成本低(相對于SAN而言)。圖2-14本地存儲→網(wǎng)絡(luò)存儲對象存儲分布式存儲(DistributedStorage)架構(gòu)中除了NAS與SAN兩大陣營,還有一大類叫作Object-basedStorage(基于對象的存儲)—對象存儲出道又比SAN大概晚了8~10年。與基于文件(File)的NAS和基于塊(Block)的SAN不同,對象存儲的基本要素是對存儲數(shù)據(jù)進行了抽象化分隔,將存儲數(shù)據(jù)分為源數(shù)據(jù)(Rawdata)與元數(shù)據(jù)(Metadata)。應(yīng)用程序通過對象存儲提供的API訪問存儲數(shù)據(jù)實際上可看作是對源數(shù)據(jù)與元數(shù)據(jù)的訪問。
一種流行的觀點是對象存儲集合了NAS與SAN的優(yōu)點,不過對象存儲具有NAS、SAN所不具有的如下3點優(yōu)勢:應(yīng)用可對接口直接編程;命名空間(尋址空間)可跨多硬件實體,每個對象具有唯一編號;數(shù)據(jù)管理顆粒細度為對象。軟件定義存儲技術(shù)在這樣的背景下,一種新的存儲管理模式開始出現(xiàn),這就是軟件定義的存儲(SDS)。SDS不同于存儲虛擬化(StorageVirtualization),SDS的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 以門市抵債合同樣本
- 提升聲樂合樂教學(xué)效果的策略與實踐
- 2024年銀行春招考試備考手冊試題及答案
- 食品加工企業(yè)提升食品安全管理方案
- 公司買賣商品合同樣本
- 中學(xué)教學(xué)儀器采購合同樣本
- 小自考公共事業(yè)管理跨學(xué)科研究試題及答案
- 9古代科技 耀我中華《影響世界的四大發(fā)明》教學(xué)設(shè)計-2024-2025學(xué)年道德與法治五年級上冊統(tǒng)編版
- 供熱公司收購合同樣本
- 借款還債合同樣本
- 科學(xué)技術(shù)獎勵項目專家評分表
- 錦屏二級水電站廠區(qū)樞紐工程測量方案
- 簡約復(fù)古風夏洛蒂勃朗特《簡愛》作品簡介名著讀后感PPT課件
- 新人教版七年級初一數(shù)學(xué)下冊第一二單元測試卷
- 白內(nèi)障手術(shù)操作規(guī)范及質(zhì)量控制標準(2017版)
- 中國銀行履約保函(中英文)
- 不銹鋼儲罐施工方案(2024043554)
- 《電子商務(wù)法律法規(guī)》課程標準
- 中國聯(lián)通科技創(chuàng)新獎勵辦法
- 中藥飲片儲存與養(yǎng)護
- 【《項鏈》莫泊?!俊俄楁湣氛n本劇劇本
評論
0/150
提交評論