云計算與大數(shù)據(jù)基礎(chǔ)課件_第1頁
云計算與大數(shù)據(jù)基礎(chǔ)課件_第2頁
云計算與大數(shù)據(jù)基礎(chǔ)課件_第3頁
云計算與大數(shù)據(jù)基礎(chǔ)課件_第4頁
云計算與大數(shù)據(jù)基礎(chǔ)課件_第5頁
已閱讀5頁,還剩169頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

云計算與大數(shù)據(jù)技術(shù)

人民郵電出版社王鵬黃焱安俊秀張逸琴編著

云計算與大數(shù)據(jù)技術(shù)人民郵電出版社王鵬黃焱安俊秀1目錄CONTENTS第1章云計算與大數(shù)據(jù)基礎(chǔ)第2章云計算與大數(shù)據(jù)的相關(guān)技術(shù)第3章虛擬化技術(shù)第4章集群系統(tǒng)基礎(chǔ)第5章MPI—面向計算第6章Hadoop—分布式大數(shù)據(jù)系統(tǒng)第7章HPCC—面向數(shù)據(jù)的高性能計算集群系統(tǒng)第8章Storm—基于拓撲的流數(shù)據(jù)實時計算系統(tǒng)第9章服務(wù)器與數(shù)據(jù)中心第10章云計算大數(shù)據(jù)仿真技術(shù)目錄CONTENTS第1章云計算與大數(shù)據(jù)基礎(chǔ)2第1章云計算與大數(shù)據(jù)基礎(chǔ)《云計算與大數(shù)據(jù)技術(shù)》

第1章云計算與大數(shù)據(jù)基礎(chǔ)《云計算與大數(shù)據(jù)技術(shù)》3第1章云計算與大數(shù)據(jù)基礎(chǔ)1.1云計算技術(shù)概述 1.1.1云計算簡介

1.1.2云計算的特點 1.1.3云計算技術(shù)分類

1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡介

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

1.2.3大數(shù)據(jù)處理的基本流程

1.3云計算與大數(shù)據(jù)的發(fā)展

第1章云計算與大數(shù)據(jù)基礎(chǔ)1.1云計算技術(shù)概述 41.1.1云計算簡介云計算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段而出現(xiàn)的一種新的技術(shù)模型云計算并不是對某一項獨立技術(shù)的稱呼,而是對實現(xiàn)云計算模式所需要的所有技術(shù)的總稱。1.1.1云計算簡介云計算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展到一5云計算技術(shù)的內(nèi)容很多包括分布式計算技術(shù)、虛擬化技術(shù)、網(wǎng)絡(luò)技術(shù)、服務(wù)器技術(shù)、數(shù)據(jù)中心技術(shù)、云計算平臺技術(shù)、存儲技術(shù)等。從廣義上說,云計算技術(shù)幾乎包括了當前信息技術(shù)中的絕大部分。

1.1.1云計算簡介云計算技術(shù)的內(nèi)容很多1.1.1云計算簡介6維基百科中對云計算的定義為:云計算是一種基于互聯(lián)網(wǎng)的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設(shè)備。2012年的國務(wù)院政府工作報告將云計算作為國家戰(zhàn)略性新興產(chǎn)業(yè)給出了定義:云計算是基于互聯(lián)網(wǎng)的服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)、易擴展且經(jīng)常是虛擬化的資源。云計算是傳統(tǒng)計算機和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物,它意味著計算能力也可作為一種商品通過互聯(lián)網(wǎng)進行流通。

1.1.1云計算簡介維基百科中對云計算的定義為:1.1.1云計算簡介7云計算技術(shù)的出現(xiàn)改變了信息產(chǎn)業(yè)傳統(tǒng)的格局。傳統(tǒng)的信息產(chǎn)業(yè)企業(yè)既是資源的整合者又是資源的使用者;這這種格局并不符合現(xiàn)代產(chǎn)業(yè)分工高度專業(yè)化的需求,同時也不符合企業(yè)需要靈敏地適應(yīng)客戶的需要。1.1.1云計算簡介云計算技術(shù)的出現(xiàn)改變了信息產(chǎn)業(yè)傳統(tǒng)的格局。1.1.1云計算8傳統(tǒng)的計算資源和存儲資源大小通常是相對固定的,面對客戶高波動性的需求時會非常的不敏捷,企業(yè)的計算和存儲資源要么是被浪費,要么是面對客戶峰值需求時力不從心。云計算技術(shù)使資源與用戶需求之間是一種彈性化的關(guān)系,資源的使用者和資源的整合者并不是一個企業(yè),資源的使用者只需要對資源按需付費,從而敏捷地響應(yīng)客戶不斷變化的資源需求,這一方法降低了資源使用者的成本,提高了資源的利用效率。

1.1.1云計算簡介傳統(tǒng)的計算資源和存儲資源大小通常是相對固定的,面對客戶高波動9云計算時代基本的3種角色:

資源的整合運營者、資源的使用者、終端客戶。資源的整合運營者就像是發(fā)電廠負責(zé)資源的整合輸出;資源的使用者負責(zé)將資源轉(zhuǎn)變?yōu)闈M足客戶需求的各種應(yīng)用;終端客戶為資源的最終消費者。1.1.1云計算簡介云計算時代基本的3種角色:1.1.1云計算簡介10云計算這種新的模式的出現(xiàn)被認為是信息產(chǎn)業(yè)的一大變革,吸引了大量企業(yè)重新布局:IBM、微軟、谷歌、DELL等企業(yè)國內(nèi)企業(yè):華為、中興、騰訊、阿里、聯(lián)想、浪潮、五舟等企業(yè)1.1.1云計算簡介云計算這種新的模式的出現(xiàn)被認為是信息產(chǎn)業(yè)的一大變革,吸引了大11云計算技術(shù)作為一項涵蓋面廣且對產(chǎn)業(yè)影響深遠的技術(shù),未來將逐步滲透到信息產(chǎn)業(yè)和其他產(chǎn)業(yè)的方方面面,并將深刻改變產(chǎn)業(yè)的結(jié)構(gòu)模式、技術(shù)模式和產(chǎn)品銷售模式,進而深刻影響人們的生活;云計算會逐步成為人們生活中必不可少的技術(shù);1.1.1云計算簡介云計算技術(shù)作為一項涵蓋面廣且對產(chǎn)業(yè)影響深遠的技術(shù),未來將逐步12移動互聯(lián)網(wǎng)的出現(xiàn)使云計算應(yīng)用走向了人們的指間,推動了云計算技術(shù)的應(yīng)用發(fā)展,今后云計算將是一項隨時、隨地、隨身為我們提供服務(wù)的技術(shù);云計算的出現(xiàn)也將如電的出現(xiàn)一般,為信息產(chǎn)業(yè)的發(fā)展提供無限的想象空間,使應(yīng)用的創(chuàng)新能力得到完全釋放。

1.1.1云計算簡介移動互聯(lián)網(wǎng)的出現(xiàn)使云計算應(yīng)用走向了人們的指間,推動了云計算技131.1.2云計算的特點1.資源池彈性可擴張2.按需提供資源服務(wù)3.虛擬化4.網(wǎng)絡(luò)化的資源接入5.高可靠性和安全性1.1.2云計算的特點1.1.2云計算的特點1.1.2云計算的特點14與傳統(tǒng)的資源提供方向相比,云計算具有以下特點:

(1)資源池彈性可擴張云計算系統(tǒng)的一個重要特征就是資源的集中管理和輸出,這就是所謂的資源池。從資源低效率的分散使用到資源高效的集約化使用正是云計算的基本特征之一。分散的資源使用方法造成了資源的極大浪費,現(xiàn)在每個人都可能有一到兩臺自己的計算機,但對這種資源的利用率卻非常的低,計算機在大量時間都是在等待狀態(tài)或是在處理文字數(shù)據(jù)等低負荷的任務(wù)。資源集中起來后資源的利用效率會大大地提高,隨著資源需求的不斷提高,資源池的彈性化擴張能力成為云計算系統(tǒng)的一個基本要求,云計算系統(tǒng)只有具備了資源的彈性化擴張能力才能有效地應(yīng)對不斷增長的資源需求。大多數(shù)云計算系統(tǒng)都能較為方便地實現(xiàn)新資源的加入。

1.1.2云計算的特點與傳統(tǒng)的資源提供方向相比,云計算具有以下特點:

1.1.215(2)按需提供資源服務(wù)云計算系統(tǒng)帶給客戶最重要的好處就是敏捷地適應(yīng)用戶對資源不斷變化的需求;云計算系統(tǒng)實現(xiàn)按需向用戶提供資源能大大節(jié)省用戶的硬件資源開支,用戶不用自己購買并維護大量固定的硬件資源,只需向自己實際消費的資源量來付費;按需提供資源服務(wù)使應(yīng)用開發(fā)者在邏輯上可以認為資源池的大小是不受限制的,應(yīng)用開發(fā)者的主要精力只需要集中在自己的應(yīng)用上。

1.1.2云計算的特點(2)按需提供資源服務(wù)1.1.2云計算的特點16(3)虛擬化

現(xiàn)有的云計算平臺的重要特點是利用軟件來實現(xiàn)硬件資源的虛擬化管理、調(diào)度及應(yīng)用。在云計算中利用虛擬化技術(shù)可大大降低維護成本和提高資源的利用率。

1.1.2云計算的特點(3)虛擬化

1.1.2云計算的特點17(4)網(wǎng)絡(luò)化的資源接入。

從最終用戶的角度看,基于云計算系統(tǒng)的應(yīng)用服務(wù)通常都是通過網(wǎng)絡(luò)來提供的,應(yīng)用開發(fā)者將云計算中心的計算、存儲等資源封裝為不同的應(yīng)用后往往會通過網(wǎng)絡(luò)提供給最終的用戶。云計算技術(shù)必須實現(xiàn)資源的網(wǎng)絡(luò)化接入才能有效地向應(yīng)用開發(fā)者和最終用戶提供資源服務(wù)。以網(wǎng)絡(luò)技術(shù)的發(fā)展是推動云計算技術(shù)出現(xiàn)的首要動力。1.1.2云計算的特點(4)網(wǎng)絡(luò)化的資源接入。

1.1.2云計算的特點18(5)高可靠性和安全性。

用戶數(shù)據(jù)存儲在服務(wù)器端,而應(yīng)用程序在服務(wù)器端運行,計算由服務(wù)器端來處理。所有的服務(wù)分布在不同的服務(wù)器上,如果什么地方(節(jié)點)出問題就在什么地方終止它,另外再啟動一個程序或節(jié)點,即自動處理失敗節(jié)點,從而保證了應(yīng)用和計算的正常進行。數(shù)據(jù)被復(fù)制到多個服務(wù)器節(jié)點上有多個副本(備份),存儲在云里的數(shù)據(jù)即使遇到意外刪除或硬件崩潰也不會受到影響。1.1.2云計算的特點(5)高可靠性和安全性。

1.1.2云計算的特點191.1.3云計算技術(shù)分類1.1.3云計算技術(shù)分類1.按技術(shù)路線分類2.按服務(wù)對象分類3.按資源封裝的層次分類1.1.3云計算技術(shù)分類1.1.3云計算技術(shù)分類20目前已出現(xiàn)的云計算技術(shù)種類非常多,對于云計算的分類可以有多種角度:從技術(shù)路線角度可以分為資源整合型云計算和資源切分型云計算;從服務(wù)對像角度可以被分為公有云和私有云;按資源封裝的層次來分可以分為:基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)平臺即服務(wù)(PlatformasaService,PaaS)軟件即服務(wù)(SoftwareasaService,SaaS)。1.1.3云計算技術(shù)分類目前已出現(xiàn)的云計算技術(shù)種類非常多,對于云計算的分類可以有多種21

1.按技術(shù)路線分類

資源整合型云計算:這種類型的云計算系統(tǒng)在技術(shù)實現(xiàn)方面大多體現(xiàn)為集群架構(gòu),通過將大量節(jié)點的計算資源和存儲資源整合后輸出。這類系統(tǒng)通常能實現(xiàn)跨節(jié)點彈性化的資源池構(gòu)建,核心技術(shù)為分布式計算和存儲技術(shù)。MPI、Hadoop、HPCC、Storm等都可以被分類為資源整合型云計算系統(tǒng)。1.1.3云計算技術(shù)分類

1.按技術(shù)路線分類

1.1.3云計算技術(shù)分類22資源切分型云計算:這種類型最為典型的就是虛擬化系統(tǒng),這類云計算系統(tǒng)通過系統(tǒng)虛擬化實現(xiàn)對單個服務(wù)器資源的彈性化切分,從而有效地利用服務(wù)器資源,其核心技術(shù)為虛擬化技術(shù)。這種技術(shù)的優(yōu)點是用戶的系統(tǒng)可以不做任何改變接入采用虛擬化技術(shù)的云系統(tǒng),是目前應(yīng)用較為廣泛的技術(shù),特別是在桌面云計算技術(shù)上應(yīng)用得較為成功;缺點是跨節(jié)點的資源整合代價較大;KVM、VMware都是這類技術(shù)的代表。1.1.3云計算技術(shù)分類1.1.3云計算技術(shù)分類232.按服務(wù)對象分類公有云:指服務(wù)對象是面向公眾的云計算服務(wù),公有云對云計算系統(tǒng)的穩(wěn)定性、安全性和并發(fā)服務(wù)能力有更高的要求。私有云:指主要服務(wù)于某一組織內(nèi)部的云計算服務(wù),其服務(wù)并不向公眾開放,如企業(yè)、政府內(nèi)部的云服務(wù)。公有云與私有云的界限并不是特別清晰,有時服務(wù)于一個地區(qū)和團體的云也被稱為公有云。所以這種云計算分類方法并不是一種準確的分類方法,主要是在商業(yè)領(lǐng)域的一種稱呼。1.1.3云計算技術(shù)分類2.按服務(wù)對象分類1.1.3云計算技術(shù)分類243.按資源封裝的層次分類基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS):把單純的計算和存儲資源不經(jīng)封裝地直接通過網(wǎng)絡(luò)以服務(wù)的形式提供的用戶使用。這類云計算服務(wù)用戶的自主性較大,就像是發(fā)電廠將發(fā)的電直接送出去一樣。這類云服務(wù)的對象往往是具有專業(yè)知識能力的資源使用者,傳統(tǒng)數(shù)據(jù)中心的主機租用等可能作為IaaS的典型代表。1.1.3云計算技術(shù)分類3.按資源封裝的層次分類1.1.3云計算技術(shù)分類25平臺即服務(wù)(PlatformasaService,PaaS):計算和存儲資源經(jīng)封裝后,以某種接口和協(xié)議的形式提供給用戶調(diào)用,資源的使用者不再直接面對底層資源。平臺即服務(wù)需要平臺軟件的支撐,可以認為是從資源到應(yīng)用軟件的一個中間件,通過這類中間件可以大大減小應(yīng)用軟件開發(fā)時的技術(shù)難度。這類云服務(wù)的對象往往是云計算應(yīng)用軟件的開發(fā)者,平臺軟件的開發(fā)需要使用者具有一定的技術(shù)能力。1.1.3云計算技術(shù)分類平臺即服務(wù)(PlatformasaService,Pa26軟件即服務(wù)(SoftwareasaService,SaaS):將計算和存儲資源封裝為用戶可以直接使用的應(yīng)用并通過網(wǎng)絡(luò)提供給用戶;SaaS面向的服務(wù)對象為最終用戶,用戶只是對軟件功能進行使用,無需了解任何云計算系統(tǒng)的內(nèi)部結(jié)構(gòu),也不需要用戶具有專業(yè)的技術(shù)開發(fā)能力。

1.1.3云計算技術(shù)分類軟件即服務(wù)(SoftwareasaService,Sa27圖1.1云計算服務(wù)體系結(jié)構(gòu)如圖所示,云計算系統(tǒng)按資源封裝的層次分為IaaS、PaaS、SaaS,分為對底層硬件資源不同級別的封裝,從而實現(xiàn)將資源轉(zhuǎn)變?yōu)榉?wù)的目的。傳統(tǒng)的信息系統(tǒng)資源的使用者通常是以直接占有物理硬件資源的形式來使用資源的,而云計算系統(tǒng)通過IaaS、PaaS、SaaS等不同層次的封裝將物理硬件資源封裝后,以服務(wù)的形式利用網(wǎng)絡(luò)提供給資源的使用者。在這里資源的使用者可能是資源的二次加工者,也可能是最終應(yīng)用軟件的使用者,通常IaaS、PaaS層面向的資源使用者往往是資源的二次加工者,這類資源的使用者并不是資源的最終消費者,他們將資源轉(zhuǎn)變?yōu)閼?yīng)用服務(wù)程序后以SaaS的形式提供給資源的最終消費者。實現(xiàn)對物理資源封裝的技術(shù)并不是惟一的,目前不少的軟件都能實現(xiàn),甚至有的系統(tǒng)只有SaaS層,并沒有進行逐層的封裝。

1.1.3云計算技術(shù)分類圖1.1云計算服務(wù)體系結(jié)構(gòu)傳統(tǒng)的信息系統(tǒng)資源的使用者通常是28云計算的服務(wù)層次是根據(jù)服務(wù)類型即服務(wù)集合來劃分,與大家熟悉的計算機網(wǎng)絡(luò)體系結(jié)構(gòu)中層次的劃分不同。在計算機網(wǎng)絡(luò)中每個層次都實現(xiàn)一定的功能,層與層之間有一定關(guān)聯(lián)。而云計算體系結(jié)構(gòu)中的層次是可以分割的,即某一層次可以單獨完成一項用戶的請求而不需要其他層次為其提供必要的服務(wù)和支持。

1.1.3云計算技術(shù)分類云計算的服務(wù)層次是根據(jù)服務(wù)類型即服務(wù)集合來劃分,與大家熟悉的29在云計算服務(wù)體系結(jié)構(gòu)中各層次與相關(guān)云產(chǎn)品對應(yīng)。應(yīng)用層對應(yīng)SaaS軟件即服務(wù),如:GoogleAPPS、SoftWare+Services。平臺層對應(yīng)PaaS平臺即服務(wù),如:IBMITFactory、GoogleAPPEngine、F?;A(chǔ)設(shè)施層對應(yīng)IaaS基礎(chǔ)設(shè)施即服務(wù),如:AmazoEC2、IBMBlueCloud、SunGrid。虛擬化層對應(yīng)硬件即服務(wù),結(jié)合PaaS提供硬件服務(wù),包括服務(wù)器集群及硬件檢測等服務(wù)。1.1.3云計算技術(shù)分類在云計算服務(wù)體系結(jié)構(gòu)中各層次與相關(guān)云產(chǎn)品對應(yīng)。1.1.3云301.2大數(shù)據(jù)技術(shù)概述1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡介1.什么是大數(shù)據(jù)2.數(shù)據(jù)的來源3.生產(chǎn)數(shù)據(jù)的三個階段4.大數(shù)據(jù)的特點5.大數(shù)據(jù)的應(yīng)用領(lǐng)域1.2大數(shù)據(jù)技術(shù)概述1.2大數(shù)據(jù)技術(shù)概述311.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡介計算和數(shù)據(jù)是信息產(chǎn)業(yè)不變的主題,在信息和網(wǎng)絡(luò)技術(shù)迅速發(fā)展的推動下,人們的感知、計算、仿真、模擬、傳播等活動產(chǎn)生了大量的數(shù)據(jù),數(shù)據(jù)的產(chǎn)生不受時間、地點的限制,大數(shù)據(jù)的概念逐漸形成,大數(shù)據(jù)涵蓋了計算和數(shù)據(jù)兩大主題,是產(chǎn)業(yè)界和學(xué)術(shù)界的研究熱點,被譽為未來十年的革命性技術(shù)。1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡介321.2.1大數(shù)據(jù)簡介2008年,《Nature》雜志推出了“大數(shù)據(jù)”專輯,引發(fā)了學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注;2011年,大數(shù)據(jù)應(yīng)用進入我國并快速發(fā)展,目前大數(shù)據(jù)的應(yīng)用和研究已經(jīng)是學(xué)術(shù)界和產(chǎn)業(yè)界的熱點;2012年3月,美國政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,投資2億美元發(fā)展大數(shù)據(jù),用以強化國土安全、轉(zhuǎn)變教育學(xué)習(xí)模式、加速科學(xué)和工程領(lǐng)域的創(chuàng)新速度和水平;2012年7月,日本提出以電子政府、電子醫(yī)療、防災(zāi)等為中心制定新ICT(信息通信技術(shù))戰(zhàn)略,發(fā)布“新ICT計劃”,重點關(guān)注大數(shù)據(jù)研究和應(yīng)用;2013年1月,英國政府宣布將在對地觀測、醫(yī)療衛(wèi)生等大數(shù)據(jù)和節(jié)能計算技術(shù)方面投資1.89億英鎊;2013年我國上海、重慶等地相繼發(fā)布大數(shù)據(jù)行動計劃。

1.2.1大數(shù)據(jù)簡介2008年,《Nature》雜志推出了331.什么是大數(shù)據(jù)維基百科將大數(shù)據(jù)描述為:大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫管理工具和傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型、復(fù)雜的數(shù)據(jù)集,大數(shù)據(jù)的挑戰(zhàn)包括采集、存儲、搜索、共享、傳輸、分析和可視化等。大數(shù)據(jù)的“大”是一個動態(tài)的概念以前10GB的數(shù)據(jù)是個天文數(shù)字;而現(xiàn)在,在地球、物理、基因、空間科學(xué)等領(lǐng)域,TB級的數(shù)據(jù)集已經(jīng)很普遍。大數(shù)據(jù)系統(tǒng)需要滿足以下三個特性。

(1)規(guī)模性(Volume):需要采集、處理、傳輸?shù)臄?shù)據(jù)容量大;(2)多樣性(Variety):數(shù)據(jù)的種類多、復(fù)雜性高;

(3)高速性(Velocity):數(shù)據(jù)需要頻繁地采集、處理并輸出。

1.2.1大數(shù)據(jù)簡介1.什么是大數(shù)據(jù)1.2.1大數(shù)據(jù)簡介342.數(shù)據(jù)的來源大數(shù)據(jù)的數(shù)據(jù)來源很多,主要有信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué)實驗系統(tǒng)等;其數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(1)管理信息系統(tǒng):企業(yè)內(nèi)部使用的信息系統(tǒng),包括辦公自動化系統(tǒng)、業(yè)務(wù)管理系統(tǒng)等,是常見的數(shù)據(jù)產(chǎn)生方式。管理信息系統(tǒng)主要通過用戶輸入和系統(tǒng)的二次加工的方式生成數(shù)據(jù),其產(chǎn)生的數(shù)據(jù)大多為結(jié)構(gòu)化數(shù)據(jù),存儲在數(shù)據(jù)庫中。1.2.1大數(shù)據(jù)簡介2.數(shù)據(jù)的來源1.2.1大數(shù)據(jù)簡介35

(2)網(wǎng)絡(luò)信息系統(tǒng):基于網(wǎng)絡(luò)運行的信息系統(tǒng)是大數(shù)據(jù)產(chǎn)生的重要方式,電子商務(wù)系統(tǒng)、社交網(wǎng)絡(luò)、社會媒體、搜索引擎等都是常見的網(wǎng)絡(luò)信息系統(tǒng),網(wǎng)絡(luò)信息系統(tǒng)產(chǎn)生的大數(shù)據(jù)多為半結(jié)構(gòu)化或無結(jié)構(gòu)化的數(shù)據(jù),網(wǎng)絡(luò)信息系統(tǒng)與管理信息系統(tǒng)的區(qū)別在于管理信息系統(tǒng)是內(nèi)部使用的,不接入外部的公共網(wǎng)絡(luò)。(3)物聯(lián)網(wǎng)系統(tǒng):通過傳感器獲取外界的物理、化學(xué)、生物等數(shù)據(jù)信息。(4)科學(xué)實驗系統(tǒng):主要用于學(xué)術(shù)科學(xué)研究,其環(huán)境是預(yù)先設(shè)定的,數(shù)據(jù)既可以是由真實實驗產(chǎn)生也可以是通過模擬方式獲取仿真的。

1.2.1大數(shù)據(jù)簡介

(2)網(wǎng)絡(luò)信息系統(tǒng):基于網(wǎng)絡(luò)運行的信息系統(tǒng)是大數(shù)據(jù)產(chǎn)生的重363.生產(chǎn)數(shù)據(jù)的三個階段(1)被動式生成數(shù)據(jù):

數(shù)據(jù)庫技術(shù)使得數(shù)據(jù)的保存和管理變得簡單,業(yè)務(wù)系統(tǒng)在運行時產(chǎn)生的數(shù)據(jù)直接保存數(shù)據(jù)庫中,這個時候數(shù)據(jù)的產(chǎn)生是被動的,數(shù)據(jù)是隨著業(yè)務(wù)系統(tǒng)的運行產(chǎn)生的。1.2.1大數(shù)據(jù)簡介3.生產(chǎn)數(shù)據(jù)的三個階段1.2.1大數(shù)據(jù)簡介37(2)主動式生成數(shù)據(jù):互聯(lián)網(wǎng)的誕生尤其是Web2.0、移動互聯(lián)網(wǎng)的發(fā)展大大加速了數(shù)據(jù)的產(chǎn)生,人們可以隨時隨地通過手機等移動終端隨時隨地地生成數(shù)據(jù),人們開始主動地生成數(shù)據(jù)。(3)感知式生成數(shù)據(jù):感知技術(shù)尤其是物聯(lián)網(wǎng)的發(fā)展促進了數(shù)據(jù)生成方式發(fā)生了根本性的變化,遍布在城市各個角落的攝像頭等數(shù)據(jù)采集設(shè)備源源不斷地自動采集、生成數(shù)據(jù)。1.2.1大數(shù)據(jù)簡介1.2.1大數(shù)據(jù)簡介38

4.大數(shù)據(jù)的特點(1)數(shù)據(jù)產(chǎn)生方式:在大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生方式發(fā)生了巨大的變化,數(shù)據(jù)的采集方式由以往的被動采集數(shù)據(jù)轉(zhuǎn)變?yōu)橹鲃由蓴?shù)據(jù)。

(2)數(shù)據(jù)采集密度:以往我們進行數(shù)據(jù)采集時的采樣密度較低,獲得的采樣數(shù)據(jù)有限;在大數(shù)據(jù)時代,有了大數(shù)據(jù)處理平臺的支撐,我們可以對需要分析的事件的數(shù)據(jù)進行更加密集地采樣,從而精確地獲取事件的全局數(shù)據(jù)。

(3)數(shù)據(jù)源:以往我們多從各個單一的數(shù)據(jù)源獲取數(shù)據(jù),獲取的數(shù)據(jù)較為孤立,不同數(shù)據(jù)源之間的數(shù)據(jù)整合難度較大;在大數(shù)據(jù)時代,我們可以通過分布式計算、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫等技術(shù)對多個數(shù)據(jù)源獲取的數(shù)據(jù)進行整合處理。

1.2.1大數(shù)據(jù)簡介

4.大數(shù)據(jù)的特點1.2.1大數(shù)據(jù)簡介39(4)數(shù)據(jù)處理方式:

以往我們對數(shù)據(jù)的處理大多采用離線處理的方式,對已經(jīng)生成的數(shù)據(jù)集中進行分析處理,不對實時產(chǎn)生的數(shù)據(jù)進行分析;在大數(shù)據(jù)時代,我們可以根據(jù)應(yīng)用的實際需求對數(shù)據(jù)采取靈活的處理方式,對于較大的數(shù)據(jù)源、響應(yīng)時間要求低的應(yīng)用可以采取批處理的方式進行集中計算,而對于響應(yīng)時間要求高的實時數(shù)據(jù)處理則采用流處理的方式進行實時計算,并且可以通過對歷史數(shù)據(jù)的分析進行預(yù)測分析;1.2.1大數(shù)據(jù)簡介(4)數(shù)據(jù)處理方式:1.2.1大數(shù)據(jù)簡介40大數(shù)據(jù)需要處理的數(shù)據(jù)大小通常達到PB(1024TB)或EB(1024PB)級;數(shù)據(jù)的類型多種多樣,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);巨大的數(shù)據(jù)量和種類繁多的數(shù)據(jù)類型給大數(shù)據(jù)系統(tǒng)的存儲和計算帶來很大挑戰(zhàn),單節(jié)點的存儲容量和計算能力成為瓶頸;分布式系統(tǒng)是對大數(shù)據(jù)進行處理的基本方法,分布式系統(tǒng)將數(shù)據(jù)切分后存儲到多個節(jié)點上,并在多個節(jié)點上發(fā)起計算,解決單節(jié)點的存儲和計算瓶頸。常見的數(shù)據(jù)切分的方法有隨機方法、哈希方法和區(qū)間方法:隨機方法將數(shù)據(jù)隨機分布到不同的節(jié)點;哈希方法根據(jù)數(shù)據(jù)的某一行或者某一列的哈希值將數(shù)據(jù)分布到不同的節(jié)點;區(qū)間方法將不同的數(shù)據(jù)按照不同區(qū)間分布到不同節(jié)點。1.2.1大數(shù)據(jù)簡介大數(shù)據(jù)需要處理的數(shù)據(jù)大小通常達到PB(1024TB)或EB415.大數(shù)據(jù)的應(yīng)用領(lǐng)域大數(shù)據(jù)在社會生活的各個領(lǐng)域得到廣泛的應(yīng)用,不同領(lǐng)域的大數(shù)據(jù)應(yīng)用具有不同的特點,其對響應(yīng)時間、系統(tǒng)穩(wěn)定性、計算精確性的要求各不相同,其對比如表1.1所示。

表1.1典型的大數(shù)據(jù)應(yīng)用特征對比

應(yīng)用領(lǐng)域示例用戶數(shù)量響應(yīng)時延數(shù)據(jù)量級穩(wěn)定性精確度科學(xué)計算基因計算小長TB一般非常高金融股票交易大實時GB非常高非常高社交網(wǎng)絡(luò)Facebook非常大快速PB高高移動數(shù)據(jù)移動終端非常大快速TB高高物聯(lián)網(wǎng)傳感網(wǎng)大快速TB高高網(wǎng)頁數(shù)據(jù)新聞網(wǎng)站非常大快速GB高高多媒體視頻網(wǎng)站非常大快速GB高一般1.2.1大數(shù)據(jù)簡介5.大數(shù)據(jù)的應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域示例用戶數(shù)量響應(yīng)時延數(shù)據(jù)量級穩(wěn)定421.2.2主要的大數(shù)據(jù)處理系統(tǒng)大數(shù)據(jù)處理的數(shù)據(jù)源類型多種多樣,如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)處理的需求各不相同:對海量已有數(shù)據(jù)進行批量處理,對大量的實時生成的數(shù)據(jù)進行實時處理,在進行數(shù)據(jù)分析時進行反復(fù)迭代計算,對圖數(shù)據(jù)進行分析計算。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)1.2.2主要的大數(shù)據(jù)處理43目前主要的大數(shù)據(jù)處理系統(tǒng)有:數(shù)據(jù)查詢分析計算系統(tǒng)、批處理系統(tǒng)、流式計算系統(tǒng)、迭代計算系統(tǒng)、圖計算系統(tǒng)和內(nèi)存計算系統(tǒng)。

1.數(shù)據(jù)查詢分析計算系統(tǒng)大數(shù)據(jù)時代,數(shù)據(jù)查詢分析計算系統(tǒng)需要具備對大規(guī)模數(shù)據(jù)進行實時或準實時查詢的能力,數(shù)據(jù)規(guī)模的增長已經(jīng)超出了傳統(tǒng)關(guān)系型數(shù)據(jù)庫的承載和處理能力。目前主要的數(shù)據(jù)查詢分析計算系統(tǒng)包括HBase、Hive、Cassandra、Dremel、Shark、Hana等。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)目前主要的大數(shù)據(jù)處理系統(tǒng)有:1.2.2主要的大數(shù)據(jù)處44

HBase:開源、分布式、面向列的非關(guān)系型數(shù)據(jù)庫模型,是Apache的Hadoop項目的子項目;源于Google論文《Bigtable:一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)》,實現(xiàn)了其中的壓縮算法、內(nèi)存操作和布隆過濾器HBase的編程語言為Java。HBase的表能夠作為MapReduce任務(wù)的輸入和輸出,可以通過JavaAPI來存取數(shù)據(jù)。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

HBase:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)45Hive:基于Hadoop的數(shù)據(jù)倉庫工具,用于查詢、管理分布式存儲中的大數(shù)據(jù)集,提供完整的SQL查詢功能,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)表。Hive提供了一種類SQL語言(HiveQL)可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)運行。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Hive:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)46Cassandra:開源NoSQL數(shù)據(jù)庫系統(tǒng),最早由Facebook開發(fā),并于2008年開源;由于其良好的可擴展性,Cassandra被Facebook、Twitter、Backspace、Cisco等公司使用;其數(shù)據(jù)模型借鑒了Amazon的Dynamo和GoogleBigTable,是一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲方案。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Cassandra:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)47Impala:由Cloudera公司主導(dǎo)開發(fā),是運行在Hadoop平臺上的開源的大規(guī)模并行SQL查詢引擎。用戶可以使用標準的SQL接口的工具查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Impala:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)48

Shark:Spark上的數(shù)據(jù)倉庫實現(xiàn),即SQLonSpark;與Hive相兼容,但處理HiveQL的性能比Hive快100倍。Hana:由SAP公司開發(fā)的與數(shù)據(jù)源無關(guān)、軟硬件結(jié)合、基于內(nèi)存計算的平臺。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

Shark:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)492.批處理系統(tǒng)

MapReduce是被廣泛使用的批處理計算模式。MapReduce對具有簡單數(shù)據(jù)關(guān)系、易于劃分的大數(shù)據(jù)采用“分而治之”的并行處理思想,將數(shù)據(jù)記錄的處理分為Map和Reduce兩個簡單的抽象操作,提供了一個統(tǒng)一的并行計算框架。批處理系統(tǒng)將復(fù)雜的并行計算的實現(xiàn)進行封裝,大大降低開發(fā)人員的并行程序設(shè)計難度。Hadoop和Spark是典型的批處理系統(tǒng)。MapReduce的批處理模式不支持迭代計算。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)50

Hadoop:目前大數(shù)據(jù)處理最主流的平臺,是Apache基金會的開源軟件項目,使用Java語言開發(fā)實現(xiàn)。Hadoop平臺使開發(fā)人員無需了解底層的分布式細節(jié),即可開發(fā)出分布式程序,在集群中對大數(shù)據(jù)進行存儲、分析。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

Hadoop:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)51Spark:由加州伯克利大學(xué)AMP實驗室開發(fā),適合用于機器學(xué)習(xí)、數(shù)據(jù)挖掘等迭代運算較多的計算任務(wù)。Spark引入了內(nèi)存計算的概念,運行Spark時服務(wù)器可以將中間數(shù)據(jù)存儲在RAM內(nèi)存中,大大加速數(shù)據(jù)分析結(jié)果的返回速度,可用于需要互動分析的場景。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Spark:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)523.流式計算系統(tǒng)流式計算具有很強的實時性,需要對應(yīng)用源源不斷產(chǎn)生的數(shù)據(jù)實時進行處理,使數(shù)據(jù)不積壓、不丟失,常用于處理電信、電力等行業(yè)應(yīng)用以及互聯(lián)網(wǎng)行業(yè)的訪問日志等。Facebook的Scribe、Apache的Flume、Twitter的Storm、Yahoo的S4、UCBerkeley的SparkStreaming是常用的流式計算系統(tǒng)。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)3.流式計算系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)53Scribe:Scribe由Facebook開發(fā)開源系統(tǒng),用于從海量服務(wù)器實時收集日志信息,對日志信息進行實時的統(tǒng)計分析處理,應(yīng)用在Facebook內(nèi)部。Flume:Flume由Cloudera公司開發(fā),其功能與Scribe相似,主要用于實時收集在海量節(jié)點上產(chǎn)生的日志信息,存儲到類似于HDFS的網(wǎng)絡(luò)文件系統(tǒng)中,并根據(jù)用戶的需求進行相應(yīng)的數(shù)據(jù)分析。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Scribe:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)54

Storm:基于拓撲的分布式流數(shù)據(jù)實時計算系統(tǒng),由BackType公司(后被Twitter收購)開發(fā),現(xiàn)已經(jīng)開放源代碼,并應(yīng)用于淘寶、百度、支付寶、Groupon、Facebook等平臺,是主要的流數(shù)據(jù)計算平臺之一。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

Storm:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)55S4:S4的全稱是SimpleScalableStreamingSystem,是由Yahoo開發(fā)的通用、分布式、可擴展、部分容錯、具備可插拔功能的平臺;其設(shè)計目的是根據(jù)用戶的搜索內(nèi)容計算得到相應(yīng)的推薦廣告,現(xiàn)已經(jīng)開源,是重要的大數(shù)據(jù)計算平臺。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)S4:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)56SparkStreaming:構(gòu)建在Spark上的流數(shù)據(jù)處理框架,將流式計算分解成一系列短小的批處理任務(wù)進行處理。網(wǎng)站流量統(tǒng)計是SparkStreaming的一種典型的使用場景,這種應(yīng)用既需要具有實時性,還需要進行聚合、去重、連接等統(tǒng)計計算操作;如果使用HadoopMapReduce框架,則可以很容易地實現(xiàn)統(tǒng)計需求,但無法保證實時性;如果使用Storm這種流式框架則可以保證實時性,但實現(xiàn)難度較大;SparkStreaming可以以準實時的方式方便地實現(xiàn)復(fù)雜的統(tǒng)計需求。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)SparkStreaming:1.2.2主要的大數(shù)據(jù)處理574.迭代計算系統(tǒng)針對MapReduce不支持迭代計算的缺陷,人們對Hadoop的MapReduce進行了大量改進,Haloop、iMapReduce、Twister、Spark是典型的迭代計算系統(tǒng)。HaLoop:Haloop是HadoopMapReduce框架的修改版本,用于支持迭代、遞歸類型的數(shù)據(jù)分析任務(wù),如PageRank、K-means等。iMapReduce:一種基于MapReduce的迭代模型,實現(xiàn)了MapReduce的異步迭代。Twister:基于Java的迭代MapReduce模型,上一輪Reduce的結(jié)果會直接傳送到下一輪的Map。Spark:基于內(nèi)存計算的開源集群計算框架。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)4.迭代計算系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)585.圖計算系統(tǒng)社交網(wǎng)絡(luò)、網(wǎng)頁鏈接等包含具有復(fù)雜關(guān)系的圖數(shù)據(jù),這些圖數(shù)據(jù)的規(guī)模巨大,可包含數(shù)十億頂點和上百億條邊,圖數(shù)據(jù)需要由專門的系統(tǒng)進行存儲和計算。常用的圖計算系統(tǒng)有Google公司的Pregel、Pregel的開源版本Giraph、微軟的Trinity、BerkeleyAMPLab的GraphX以及高速圖數(shù)據(jù)處理系統(tǒng)PowerGraph。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)5.圖計算系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)59Pregel:

Google公司開發(fā)的一種面向圖數(shù)據(jù)計算的分布式編程框架,采用迭代的計算模型。Google的數(shù)據(jù)計算任務(wù)中,大約80%的任務(wù)處理采用MapReduce模式,如網(wǎng)頁內(nèi)容索引;圖數(shù)據(jù)的計算任務(wù)約占20%,采用Pregel進行處理。Giraph:一個迭代的圖計算系統(tǒng),最早由雅虎公司借鑒Pregel系統(tǒng)開發(fā),后捐贈給Apache軟件基金會,成為開源的圖計算系統(tǒng)。Giraph是基于Hadoop建立的,F(xiàn)acebook在其臉譜搜索服務(wù)中大量使用了Giraph。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Pregel:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)60Trinity:微軟公司開發(fā)的圖數(shù)據(jù)庫系統(tǒng),該系統(tǒng)是基于內(nèi)存的數(shù)據(jù)存儲與運算系統(tǒng),源代碼不公開。GraphX:由AMPLab開發(fā)的運行在數(shù)據(jù)并行的Spark平臺上的圖數(shù)據(jù)計算系統(tǒng)。PowerGraph:高速圖處理系統(tǒng),常用于廣告推薦計算和自然語言處理。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)616.內(nèi)存計算系統(tǒng)隨著內(nèi)存價格的不斷下降、服務(wù)器可配置內(nèi)存容量的不斷增長,使用內(nèi)存計算完成高速的大數(shù)據(jù)處理已成為大數(shù)據(jù)處理的重要發(fā)展方向。目前常用的內(nèi)存計算系統(tǒng)有分布式內(nèi)存計算系統(tǒng)Spark、全內(nèi)存式分布式數(shù)據(jù)庫系統(tǒng)HANA、Google的可擴展交互式查詢系統(tǒng)Dremel。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)6.內(nèi)存計算系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)62Dremel:Google的交互式數(shù)據(jù)分析系統(tǒng),可以在數(shù)以千計的服務(wù)器組成的集群上發(fā)起計算,處理PB級的數(shù)據(jù)。Dremel是GoogleMapReduce的補充,大大縮短了數(shù)據(jù)的處理時間,成功地應(yīng)用在Google的bigquery中。HANA:SAP公司開發(fā)的基于內(nèi)存技術(shù)、面向企業(yè)分析性的產(chǎn)品。Spark:基于內(nèi)存計算的開源集群計算系統(tǒng)。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Dremel:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)631.2.3大數(shù)據(jù)處理的基本流程1.2.3大數(shù)據(jù)處理的基本流程大數(shù)據(jù)的處理流程可以定義為在適合工具的輔助下,對廣泛異構(gòu)的數(shù)據(jù)源進行抽取和集成,結(jié)果按照一定的標準統(tǒng)一存儲,利用合適的數(shù)據(jù)分析技術(shù)對存儲的數(shù)據(jù)進行分析,從中提取有益的知識并利用恰當?shù)姆绞綄⒔Y(jié)果展示給終端用戶。大數(shù)據(jù)處理的基本流程如圖1.2所示。

圖1.2大數(shù)據(jù)處理的基本流程1.2.3大數(shù)據(jù)處理的基本流程1.2.3大數(shù)據(jù)處理的基本64

1.數(shù)據(jù)抽取與集成由于大數(shù)據(jù)處理的數(shù)據(jù)來源類型豐富,大數(shù)據(jù)處理的第一步是對數(shù)據(jù)進行抽取和集成,從中提取出關(guān)系和實體,經(jīng)過關(guān)聯(lián)和聚合等操作,按照統(tǒng)一定義的格式對數(shù)據(jù)進行存儲?,F(xiàn)有的數(shù)據(jù)抽取和集成方法有三種:基于物化或ETL方法的引擎(MaterializationorETLEngine)、基于聯(lián)邦數(shù)據(jù)庫或中間件方法的引擎(FederationEngineorMediator)、基于數(shù)據(jù)流方法的引擎(StreamEngine)。1.2.3大數(shù)據(jù)處理的基本流程

1.數(shù)據(jù)抽取與集成1.2.3大數(shù)據(jù)處理的基本流程652.數(shù)據(jù)分析數(shù)據(jù)分析是大數(shù)據(jù)處理流程的核心步驟,通過數(shù)據(jù)抽取和集成環(huán)節(jié),我們已經(jīng)從異構(gòu)的數(shù)據(jù)源中獲得了用于大數(shù)據(jù)處理的原始數(shù)據(jù),用戶可以根據(jù)自己的需求對這些數(shù)據(jù)進行分析處理,比如數(shù)據(jù)挖掘、機器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計等,數(shù)據(jù)分析可以用于決策支持、商業(yè)智能、推薦系統(tǒng)、預(yù)測系統(tǒng)等。

1.2.3大數(shù)據(jù)處理的基本流程2.數(shù)據(jù)分析1.2.3大數(shù)據(jù)處理的基本流程663.數(shù)據(jù)解釋大數(shù)據(jù)處理流程中用戶最關(guān)心的是數(shù)據(jù)處理的結(jié)果,正確的數(shù)據(jù)處理結(jié)果只有通過合適的展示方式才能被終端用戶正確理解,因此數(shù)據(jù)處理結(jié)果的展示非常重要,可視化和人機交互是數(shù)據(jù)解釋的主要技術(shù)。

1.2.3大數(shù)據(jù)處理的基本流程3.數(shù)據(jù)解釋1.2.3大數(shù)據(jù)處理的基本流程67我們在開發(fā)調(diào)試程序的時候經(jīng)常通過打印語句的方式來呈現(xiàn)結(jié)果,這種方式非常靈活、方便,但只有熟悉程序的人才能很好地理解打印結(jié)果。使用可視化技術(shù),可以將處理的結(jié)果通過圖形的方式直觀地呈現(xiàn)給用戶,標簽云(TagCloud)、歷史流(HistoryFlow)、空間信息流(SpatialInformationFlow)等是常用的可視化技術(shù),用戶可以根據(jù)自己的需求靈活地使用這些可視化技術(shù);人機交互技術(shù)可以引導(dǎo)用戶對數(shù)據(jù)進行逐步的分析,使用戶參與到數(shù)據(jù)分析的過程中,使用戶可以深刻地理解數(shù)據(jù)分析結(jié)果。

1.2.3大數(shù)據(jù)處理的基本流程我們在開發(fā)調(diào)試程序的時候經(jīng)常通過打印語句的方式來呈現(xiàn)結(jié)果,這681.3云計算與大數(shù)據(jù)的發(fā)展1.3云計算與大數(shù)據(jù)的發(fā)展

1.云計算與大數(shù)據(jù)發(fā)展歷程早在1958年,人工智能之父JohnMcCarthy發(fā)明了函數(shù)式語言LISP,LISP語言后來成為MapReduce的思想來源。1960年JohnMcCarthy預(yù)言了:“今后計算機將會作為公共設(shè)施提供給公眾”,這一概念與我們現(xiàn)在所定義的云計算已非常相似,但當時的技術(shù)條件決定了這一設(shè)想只是一種對未來技術(shù)發(fā)展的預(yù)言。云計算是網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段后必然出現(xiàn)的新的技術(shù)體系和產(chǎn)業(yè)模式。1984年SUN公司提出“網(wǎng)絡(luò)就是計算機”這一具有云計算特征的論點,2006年Google公司CEOEricSchmidt提出云計算概念,2008年云計算概念全面進入中國,2009年中國首屆云計算大會召開,此后云計算技術(shù)和產(chǎn)品迅速地發(fā)展起來。1.3云計算與大數(shù)據(jù)的發(fā)展1.3云計算與大數(shù)據(jù)的發(fā)展

169

隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,數(shù)據(jù)正在以前所未有的速度增長和積累,IDC的研究數(shù)據(jù)表明,全球的數(shù)據(jù)量每年增長50%,兩年翻一番,這意味著全球近兩年產(chǎn)生的數(shù)據(jù)量將超過之前全部數(shù)據(jù)的總和。2011年全球數(shù)據(jù)總量已達1.8ZB,到2020年,全球數(shù)據(jù)總量將達到35ZB。2008年《Nature》雜志推出了大數(shù)據(jù)???,2011年《Science》雜志推出大數(shù)據(jù)???,討論科學(xué)研究的中大數(shù)據(jù)問題。2012年大數(shù)據(jù)的關(guān)注度和影響力快速增長,成為當年達沃斯世界經(jīng)濟論壇的主題,美國政府啟動大數(shù)據(jù)發(fā)展計劃。中國計算機學(xué)會于2012年成立了大數(shù)據(jù)專家委員會,并發(fā)布了大數(shù)據(jù)技術(shù)白皮書。1.3云計算與大數(shù)據(jù)的發(fā)展

1.3云計算與大數(shù)據(jù)的發(fā)展70

圖1.3近年來云計算、大數(shù)據(jù)的關(guān)注度

如圖1.3所示為云計算、大數(shù)據(jù)兩個關(guān)鍵詞近年來的網(wǎng)絡(luò)關(guān)注度,可以看出2012年至今大數(shù)據(jù)的關(guān)注度越來越高,云計算和大數(shù)據(jù)是信息技術(shù)未來的發(fā)展方向。

1.3云計算與大數(shù)據(jù)的發(fā)展1.3云計算與大數(shù)據(jù)的發(fā)展71網(wǎng)絡(luò)技術(shù)在云計算和大數(shù)據(jù)的發(fā)展歷程中發(fā)揮了重要的推動作用??梢哉J為信息技術(shù)的發(fā)展經(jīng)歷了硬件發(fā)展推動和網(wǎng)絡(luò)技術(shù)推動兩個階段。早期主要以硬件發(fā)展為主要動力,在這個階段硬件的技術(shù)水平?jīng)Q定著整個信息技術(shù)的發(fā)展水平,硬件的每一次進步都有力地推動著信息技術(shù)的發(fā)展,從電子管技術(shù)到晶體管技術(shù)再到大規(guī)模集成電路,這種技術(shù)變革成為產(chǎn)業(yè)發(fā)展的核心動力。但網(wǎng)絡(luò)技術(shù)的出現(xiàn)逐步地打破了單純的硬件能力決定技術(shù)發(fā)展的格局,通信帶寬的發(fā)展為信息技術(shù)的發(fā)展提供了新的動力,在這一階段通信帶寬成為了信息技術(shù)發(fā)展的決定性力量之一,云計算、大數(shù)據(jù)技術(shù)的出現(xiàn)正是這一階段的產(chǎn)物,其廣泛應(yīng)用并不是單純靠某一個人發(fā)明而是由于技術(shù)發(fā)展到現(xiàn)在的必然產(chǎn)物,生產(chǎn)力決定生產(chǎn)關(guān)系的規(guī)律在這里依然是成立的。

1.3云計算與大數(shù)據(jù)的發(fā)展網(wǎng)絡(luò)技術(shù)在云計算和大數(shù)據(jù)的發(fā)展歷程中發(fā)揮了重要的推動作用。172當前移動互聯(lián)網(wǎng)的出現(xiàn)并迅速普及更是對云計算、大數(shù)據(jù)的發(fā)展起到了推動作用。移動瘦客戶終端與云計算資源池的結(jié)合大大拓展了移動應(yīng)用的思路,云計算資源得以在移動終端上實現(xiàn)隨時、隨地、隨身資源服務(wù)。移動互聯(lián)網(wǎng)再次拓展了以網(wǎng)絡(luò)化資源交付為特點的云計算技術(shù)的應(yīng)用能力,同時也改變了數(shù)據(jù)的產(chǎn)生方式,推動了全球數(shù)據(jù)的快速增長,推動了大數(shù)據(jù)的技術(shù)和應(yīng)用的發(fā)展。

1.3云計算與大數(shù)據(jù)的發(fā)展當前移動互聯(lián)網(wǎng)的出現(xiàn)并迅速普及更是對云計算、大數(shù)據(jù)的發(fā)展起到73云計算是一種全新的領(lǐng)先信息技術(shù),結(jié)合IT技術(shù)和互聯(lián)網(wǎng)實現(xiàn)超級計算和存儲的能力,而推動云計算興起的動力是高速互聯(lián)網(wǎng)和虛擬化技術(shù)的發(fā)展、更加廉價且功能強勁的芯片及硬盤、數(shù)據(jù)中心的發(fā)展。云計算作為下一代企業(yè)數(shù)據(jù)中心,其基本形式為大量鏈接在一起的共享IT基礎(chǔ)設(shè)施,不受本地和遠程計算機資源的限制,可以很方便地訪問云中的“虛擬”資源,使用戶和云服務(wù)提供商之間可以像訪問網(wǎng)絡(luò)一樣進行交互操作。1.3云計算與大數(shù)據(jù)的發(fā)展云計算是一種全新的領(lǐng)先信息技術(shù),結(jié)合IT技術(shù)和互聯(lián)網(wǎng)實現(xiàn)超級74云計算的興起有以下因素:(1)高速互聯(lián)網(wǎng)技術(shù)發(fā)展。

云計算能夠利用現(xiàn)有的IT基礎(chǔ)設(shè)施在極短的時間內(nèi)處理大量的信息以滿足動態(tài)網(wǎng)絡(luò)的高性能的需求。

(2)資源利用率需求。

引入云計算模式后可以通過整合資源或采用租用存儲空間、租用計算能力等服務(wù)來降低企業(yè)運行成本和節(jié)省能源。

同時,利用云計算將資源集中,統(tǒng)一提供可靠服務(wù),能減少企業(yè)成本,提升企業(yè)靈活性,企業(yè)可以把更多的時間用于服務(wù)客戶和進一步研發(fā)新的產(chǎn)品上。

1.3云計算與大數(shù)據(jù)的發(fā)展云計算的興起有以下因素:1.3云計算與大數(shù)據(jù)的發(fā)展75

(3)簡單與創(chuàng)新需求。

在實際的業(yè)務(wù)需求中,越來越多的個人用戶和企業(yè)用戶都在期待著使用計算機操作能簡單化,能夠直接通過購買軟件或硬件服務(wù)而不是軟件或硬件實體,為自己的學(xué)習(xí)、生活和工作帶來更多的便利,能在學(xué)習(xí)場所、工作場所、住所之間建立便利的文件或資料共享的紐帶。而對資源的利用可以簡化到通過接入網(wǎng)絡(luò)就可以實現(xiàn)自己想要實現(xiàn)的一切,就需要在技術(shù)上有所創(chuàng)新,利用云計算來提供這一切,將我們需要的資料、數(shù)據(jù)、文檔、程序等全部放在云端實現(xiàn)同步。1.3云計算與大數(shù)據(jù)的發(fā)展

(3)簡單與創(chuàng)新需求。

在實際的業(yè)務(wù)需求中,越來越76(4)其他需求連接設(shè)備、實時數(shù)據(jù)流、SOA的采用以及搜索、開放協(xié)作、社會網(wǎng)絡(luò)和移動商務(wù)等的移動互聯(lián)網(wǎng)應(yīng)用急劇增長,數(shù)字元器件性能的提升也使IT環(huán)境的規(guī)模大幅度提高,從而進一步加強了對一個由統(tǒng)一的云進行管理的需求。個人或企業(yè)希望按需計算或服務(wù),能在不同的地方實時實現(xiàn)項目、文檔的協(xié)作處理,能在繁雜的信息中方便地找到自己需要的信息等需求也是云計算興起的原因之一。人類歷史不斷地證明生產(chǎn)力決定生產(chǎn)關(guān)系,技術(shù)的發(fā)展歷史也證明了技術(shù)能力決定技術(shù)的形態(tài),1.3云計算與大數(shù)據(jù)的發(fā)展(4)其他需求1.3云計算與大數(shù)據(jù)的發(fā)展77縱觀整個信息技術(shù)的發(fā)展歷史

圖1.4信息產(chǎn)業(yè)發(fā)展演進路線圖

1.3云計算與大數(shù)據(jù)的發(fā)展縱觀整個信息技術(shù)的發(fā)展歷史1.3云計算與大數(shù)據(jù)的發(fā)展78硬件驅(qū)動的時代誕生了IBM、微軟、Intel等企業(yè)。20世紀50年代最早的網(wǎng)絡(luò)開始出現(xiàn),信息產(chǎn)業(yè)的發(fā)展驅(qū)動力中開始出現(xiàn)網(wǎng)絡(luò)的力量,但當時網(wǎng)絡(luò)性能很弱,網(wǎng)絡(luò)并不是推動信息產(chǎn)業(yè)發(fā)展的主要動力,處理器等硬件的影響還占絕對主導(dǎo)因素。隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)通信帶寬逐步加大,從20世紀80年代的局域網(wǎng)到20世紀90年代的互聯(lián)網(wǎng),網(wǎng)絡(luò)逐漸成為了推動信息產(chǎn)業(yè)發(fā)展的主導(dǎo)力量,這個時期誕生了百度、谷歌、亞馬遜等企業(yè)。直到云計算的出現(xiàn)才標志著網(wǎng)絡(luò)已成為信息產(chǎn)業(yè)發(fā)展的主要驅(qū)動力,此時技術(shù)的變革即將出現(xiàn)。

1.3云計算與大數(shù)據(jù)的發(fā)展硬件驅(qū)動的時代誕生了IBM、微軟、Intel等企業(yè)。20世紀792.為云計算與大數(shù)據(jù)發(fā)展做出貢獻的科學(xué)家超級計算機之父—西摩·克雷(SeymourCray)

在人類解決計算和存儲問題的歷程中,西摩·克雷成為了一座豐碑,被稱為超級計算機之父。西摩·克雷,生于1925年9月28日,美國人,1958年設(shè)計建造了世界上第一臺基于晶體管的超級計算機,成為計算機發(fā)展史上的重要里程碑。同時也對精簡指令(RISC)高端微處理器的產(chǎn)生有重大的貢獻。1972年,他創(chuàng)辦了克雷研究公司,公司的宗旨是只生產(chǎn)超級計算機。此后的十余年中,克雷先后創(chuàng)造了Cray-1、Cray-2等機型。作為高性能計算機領(lǐng)域中最重要的人物之一,他親手設(shè)計了Cray全部的硬件與操作系統(tǒng)。Cray機成為了從事高性能計算學(xué)者中永遠的記憶,到1986年1月為止,世界上有130臺超級計算機投入使用,其中大約90臺是由克雷的上市公司—克雷研究所研制的。美國的《商業(yè)周刊》在1990年的一篇文章中曾這樣寫道:“西摩·克雷的天賦和非凡的干勁已經(jīng)給本世紀的技術(shù)留下了不可磨滅的印記”。2013年11月高性能計算Top500排行中第2名和第6名均為Cray機。

圖1.5西摩·克雷1.3云計算與大數(shù)據(jù)的發(fā)展2.為云計算與大數(shù)據(jù)發(fā)展做出貢獻的科學(xué)家圖1.5西摩·克雷802.為云計算與大數(shù)據(jù)發(fā)展做出貢獻的科學(xué)家云計算之父—約翰·麥卡錫(JohnMcCarthy)約翰·麥卡錫1927年生于美國,1951年獲得普林斯頓大學(xué)數(shù)學(xué)博士學(xué)位。他因在人工智能領(lǐng)域的貢獻而在1971年獲得圖靈獎;麥卡錫真正廣為人知的稱呼是“人工智能之父”,因為他在1955年的達特矛斯會議上提出了“人工智能”這個概念,使人工智能成為了一門新的學(xué)科。1958年發(fā)明了LISP語言,而LISP語言中的MapReduce在幾十年后成為了Google云計算和大數(shù)據(jù)系統(tǒng)中最為核心的技術(shù)。麥卡錫更為富有遠見的預(yù)言是他在1960年提出的“今后計算機將會作為公共設(shè)施提供給公眾”這一觀點與現(xiàn)在的云計算的理念竟然絲毫不差。正是由于他提前半個多世紀就預(yù)言了云計算這種新的模式,因此我們將他稱為“云計算之父”。圖1.6約翰·麥卡錫1.3云計算與大數(shù)據(jù)的發(fā)展2.為云計算與大數(shù)據(jù)發(fā)展做出貢獻的科學(xué)家圖1.6約翰·麥卡812.為云計算與大數(shù)據(jù)發(fā)展做出貢獻的科學(xué)家大數(shù)據(jù)之父—吉姆·格雷(JimGray)吉姆·格雷生于1944年,在著名的加州大學(xué)伯克利分校計算機科學(xué)系獲得博士學(xué)位,是聲譽卓著的數(shù)據(jù)庫專家,1998年度的圖靈獎獲得者;2007年1月11日在美國國家研究理事會計算機科學(xué)與通信分會上吉姆·格雷明確地闡述了科學(xué)研究第四范式,認為依靠對數(shù)據(jù)分析挖掘也能發(fā)現(xiàn)新的知識,這一認識吹響了大數(shù)據(jù)前進的號角,計算應(yīng)用于數(shù)據(jù)的觀點在當前的云計算大數(shù)據(jù)系統(tǒng)中得到了大量的體現(xiàn)。在他發(fā)表這一演講后的十幾天,2007年1月28號格雷獨自架船出海就再也沒有了音訊,雖然經(jīng)多方的努力搜索卻沒有發(fā)現(xiàn)一絲他的信息,人們再也沒能見到這位天才的科學(xué)家。圖1.8大數(shù)據(jù)之父—吉姆·格雷1.3云計算與大數(shù)據(jù)的發(fā)展2.為云計算與大數(shù)據(jù)發(fā)展做出貢獻的科學(xué)家圖1.8大數(shù)據(jù)之父823.云計算與大數(shù)據(jù)的國內(nèi)發(fā)展現(xiàn)狀

云計算與大數(shù)據(jù)概念進入中國以來,國內(nèi)高度重視云計算產(chǎn)業(yè)和技術(shù)的發(fā)展,中國電子學(xué)會率先成立了云計算專業(yè)委員會,并在2009年舉辦了第一屆中國云計算大會,該委員會在大會后來每年舉辦一次,成為云計算領(lǐng)域的一個重要會議,同時每年出版一本《云計算技術(shù)發(fā)展報告》,報道當年云計算的發(fā)展狀況。中國計算機學(xué)會于2012年成立了大數(shù)據(jù)專家委員會;2013年發(fā)布了《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書》,并舉辦了第一節(jié)CCF大數(shù)據(jù)學(xué)術(shù)會議。

1.3云計算與大數(shù)據(jù)的發(fā)展3.云計算與大數(shù)據(jù)的國內(nèi)發(fā)展現(xiàn)狀

1.3云計算與大數(shù)據(jù)的發(fā)83國內(nèi)的研究機構(gòu)也紛紛開展云計算、大數(shù)據(jù)研究工作,如清華大學(xué)、中國科學(xué)院計算所、華中科技大學(xué)、成都信息工程學(xué)院并行計算實驗室都在開展相關(guān)的研究工作??蒲腥藛T逐步發(fā)現(xiàn)在云計算的新的體系下,有大量需要研究解決的問題,如理論框架、安全機制、調(diào)度策略、能耗模型、數(shù)據(jù)分析、虛擬化、遷移機制等。自“第四范式”提出后,數(shù)據(jù)成為科學(xué)研究的研究對象,大數(shù)據(jù)概念成為云計算之后信息產(chǎn)業(yè)的又一熱點,成為科研領(lǐng)域研究的熱點。國家自然科學(xué)基金反映了我國科研領(lǐng)域的進展,2009~2013年云計算、大數(shù)據(jù)、數(shù)據(jù)中心方向的國家自然科學(xué)基金立項數(shù)據(jù)如圖1.9所示。

1.3云計算與大數(shù)據(jù)的發(fā)展國內(nèi)的研究機構(gòu)也紛紛開展云計算、大數(shù)據(jù)研究工作,如清華大學(xué)、84圖1.9云計算、大數(shù)據(jù)、數(shù)據(jù)中心方向的國家自然科學(xué)基金立項情況

1.3云計算與大數(shù)據(jù)的發(fā)展1.3云計算與大數(shù)據(jù)的發(fā)展85國內(nèi)的企業(yè)也對云計算、大數(shù)據(jù)給予了高度關(guān)注,華為、中興、阿里、騰訊都宣布了自己龐大的云計算計劃。這些企業(yè)多年來積累的數(shù)據(jù)在大數(shù)據(jù)時代將發(fā)揮巨大作用。數(shù)據(jù)分析、數(shù)據(jù)運營的作用已經(jīng)顯現(xiàn)出來,擁有用戶數(shù)據(jù)的IT企業(yè)對傳統(tǒng)的行業(yè)產(chǎn)生了巨大影響,“數(shù)據(jù)為王”的時代正在到來。1.3云計算與大數(shù)據(jù)的發(fā)展1.3云計算與大數(shù)據(jù)的發(fā)展86練習(xí)題1.在信息產(chǎn)業(yè)的發(fā)展歷程中,

、

作為兩個重要的內(nèi)在動力在不同時期起著重要作用。2.

建造了世界上第一臺基于晶體管的超級計算機,被譽為“超級計算機之父”。3.

最早預(yù)言了“今后計算機將會作為公共設(shè)施提供給公眾”,被譽為“云計算之父”。4.萬維網(wǎng)的發(fā)明人、世界上第一個網(wǎng)頁的開發(fā)者是

。練習(xí)題87云計算與大數(shù)據(jù)技術(shù)

人民郵電出版社王鵬黃焱安俊秀張逸琴編著

云計算與大數(shù)據(jù)技術(shù)人民郵電出版社王鵬黃焱安俊秀88目錄CONTENTS第1章云計算與大數(shù)據(jù)基礎(chǔ)第2章云計算與大數(shù)據(jù)的相關(guān)技術(shù)第3章虛擬化技術(shù)第4章集群系統(tǒng)基礎(chǔ)第5章MPI—面向計算第6章Hadoop—分布式大數(shù)據(jù)系統(tǒng)第7章HPCC—面向數(shù)據(jù)的高性能計算集群系統(tǒng)第8章Storm—基于拓撲的流數(shù)據(jù)實時計算系統(tǒng)第9章服務(wù)器與數(shù)據(jù)中心第10章云計算大數(shù)據(jù)仿真技術(shù)目錄CONTENTS第1章云計算與大數(shù)據(jù)基礎(chǔ)89第1章云計算與大數(shù)據(jù)基礎(chǔ)《云計算與大數(shù)據(jù)技術(shù)》

第1章云計算與大數(shù)據(jù)基礎(chǔ)《云計算與大數(shù)據(jù)技術(shù)》90第1章云計算與大數(shù)據(jù)基礎(chǔ)1.1云計算技術(shù)概述 1.1.1云計算簡介

1.1.2云計算的特點 1.1.3云計算技術(shù)分類

1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡介

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

1.2.3大數(shù)據(jù)處理的基本流程

1.3云計算與大數(shù)據(jù)的發(fā)展

第1章云計算與大數(shù)據(jù)基礎(chǔ)1.1云計算技術(shù)概述 911.1.1云計算簡介云計算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段而出現(xiàn)的一種新的技術(shù)模型云計算并不是對某一項獨立技術(shù)的稱呼,而是對實現(xiàn)云計算模式所需要的所有技術(shù)的總稱。1.1.1云計算簡介云計算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展到一92云計算技術(shù)的內(nèi)容很多包括分布式計算技術(shù)、虛擬化技術(shù)、網(wǎng)絡(luò)技術(shù)、服務(wù)器技術(shù)、數(shù)據(jù)中心技術(shù)、云計算平臺技術(shù)、存儲技術(shù)等。從廣義上說,云計算技術(shù)幾乎包括了當前信息技術(shù)中的絕大部分。

1.1.1云計算簡介云計算技術(shù)的內(nèi)容很多1.1.1云計算簡介93維基百科中對云計算的定義為:云計算是一種基于互聯(lián)網(wǎng)的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設(shè)備。2012年的國務(wù)院政府工作報告將云計算作為國家戰(zhàn)略性新興產(chǎn)業(yè)給出了定義:云計算是基于互聯(lián)網(wǎng)的服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)、易擴展且經(jīng)常是虛擬化的資源。云計算是傳統(tǒng)計算機和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物,它意味著計算能力也可作為一種商品通過互聯(lián)網(wǎng)進行流通。

1.1.1云計算簡介維基百科中對云計算的定義為:1.1.1云計算簡介94云計算技術(shù)的出現(xiàn)改變了信息產(chǎn)業(yè)傳統(tǒng)的格局。傳統(tǒng)的信息產(chǎn)業(yè)企業(yè)既是資源的整合者又是資源的使用者;這這種格局并不符合現(xiàn)代產(chǎn)業(yè)分工高度專業(yè)化的需求,同時也不符合企業(yè)需要靈敏地適應(yīng)客戶的需要。1.1.1云計算簡介云計算技術(shù)的出現(xiàn)改變了信息產(chǎn)業(yè)傳統(tǒng)的格局。1.1.1云計算95傳統(tǒng)的計算資源和存儲資源大小通常是相對固定的,面對客戶高波動性的需求時會非常的不敏捷,企業(yè)的計算和存儲資源要么是被浪費,要么是面對客戶峰值需求時力不從心。云計算技術(shù)使資源與用戶需求之間是一種彈性化的關(guān)系,資源的使用者和資源的整合者并不是一個企業(yè),資源的使用者只需要對資源按需付費,從而敏捷地響應(yīng)客戶不斷變化的資源需求,這一方法降低了資源使用者的成本,提高了資源的利用效率。

1.1.1云計算簡介傳統(tǒng)的計算資源和存儲資源大小通常是相對固定的,面對客戶高波動96云計算時代基本的3種角色:

資源的整合運營者、資源的使用者、終端客戶。資源的整合運營者就像是發(fā)電廠負責(zé)資源的整合輸出;資源的使用者負責(zé)將資源轉(zhuǎn)變?yōu)闈M足客戶需求的各種應(yīng)用;終端客戶為資源的最終消費者。1.1.1云計算簡介云計算時代基本的3種角色:1.1.1云計算簡介97云計算這種新的模式的出現(xiàn)被認為是信息產(chǎn)業(yè)的一大變革,吸引了大量企業(yè)重新布局:IBM、微軟、谷歌、DELL等企業(yè)國內(nèi)企業(yè):華為、中興、騰訊、阿里、聯(lián)想、浪潮、五舟等企業(yè)1.1.1云計算簡介云計算這種新的模式的出現(xiàn)被認為是信息產(chǎn)業(yè)的一大變革,吸引了大98云計算技術(shù)作為一項涵蓋面廣且對產(chǎn)業(yè)影響深遠的技術(shù),未來將逐步滲透到信息產(chǎn)業(yè)和其他產(chǎn)業(yè)的方方面面,并將深刻改變產(chǎn)業(yè)的結(jié)構(gòu)模式、技術(shù)模式和產(chǎn)品銷售模式,進而深刻影響人們的生活;云計算會逐步成為人們生活中必不可少的技術(shù);1.1.1云計算簡介云計算技術(shù)作為一項涵蓋面廣且對產(chǎn)業(yè)影響深遠的技術(shù),未來將逐步99移動互聯(lián)網(wǎng)的出現(xiàn)使云計算應(yīng)用走向了人們的指間,推動了云計算技術(shù)的應(yīng)用發(fā)展,今后云計算將是一項隨時、隨地、隨身為我們提供服務(wù)的技術(shù);云計算的出現(xiàn)也將如電的出現(xiàn)一般,為信息產(chǎn)業(yè)的發(fā)展提供無限的想象空間,使應(yīng)用的創(chuàng)新能力得到完全釋放。

1.1.1云計算簡介移動互聯(lián)網(wǎng)的出現(xiàn)使云計算應(yīng)用走向了人們的指間,推動了云計算技1001.1.2云計算的特點1.資源池彈性可擴張2.按需提供資源服務(wù)3.虛擬化4.網(wǎng)絡(luò)化的資源接入5.高可靠性和安全性1.1.2云計算的特點1.1.2云計算的特點1.1.2云計算的特點101與傳統(tǒng)的資源提供方向相比,云計算具有以下特點:

(1)資源池彈性可擴張云計算系統(tǒng)的一個重要特征就是資源的集中管理和輸出,這就是所謂的資源池。從資源低效率的分散使用到資源高效的集約化使用正是云計算的基本特征之一。分散的資源使用方法造成了資源的極大浪費,現(xiàn)在每個人都可能有一到兩臺自己的計算機,但對這種資源的利用率卻非常的低,計算機在大量時間都是在等待狀態(tài)或是在處理文字數(shù)據(jù)等低負荷的任務(wù)。資源集中起來后資源的利用效率會大大地提高,隨著資源需求的不斷提高,資源池的彈性化擴張能力成為云計算系統(tǒng)的一個基本要求,云計算系統(tǒng)只有具備了資源的彈性化擴張能力才能有效地應(yīng)對不斷增長的資源需求。大多數(shù)云計算系統(tǒng)都能較為方便地實現(xiàn)新資源的加入。

1.1.2云計算的特點與傳統(tǒng)的資源提供方向相比,云計算具有以下特點:

1.1.2102(2)按需提供資源服務(wù)云計算系統(tǒng)帶給客戶最重要的好處就是敏捷地適應(yīng)用戶對資源不斷變化的需求;云計算系統(tǒng)實現(xiàn)按需向用戶提供資源能大大節(jié)省用戶的硬件資源開支,用戶不用自己購買并維護大量固定的硬件資源,只需向自己實際消費的資源量來付費;按需提供資源服務(wù)使應(yīng)用開發(fā)者在邏輯上可以認為資源池的大小是不受限制的,應(yīng)用開發(fā)者的主要精力只需要集中在自己的應(yīng)用上。

1.1.2云計算的特點(2)按需提供資源服務(wù)1.1.2云計算的特點103(3)虛擬化

現(xiàn)有的云計算平臺的重要特點是利用軟件來實現(xiàn)硬件資源的虛擬化管理、調(diào)度及應(yīng)用。在云計算中利用虛擬化技術(shù)可大大降低維護成本和提高資源的利用率。

1.1.2云計算的特點(3)虛擬化

1.1.2云計算的特點104(4)網(wǎng)絡(luò)化的資源接入。

從最終用戶的角度看,基于云計算系統(tǒng)的應(yīng)用服務(wù)通常都是通過網(wǎng)絡(luò)來提供的,應(yīng)用開發(fā)者將云計算中心的計算、存儲等資源封裝為不同的應(yīng)用后往往會通過網(wǎng)絡(luò)提供給最終的用戶。云計算技術(shù)必須實現(xiàn)資源的網(wǎng)絡(luò)化接入才能有效地向應(yīng)用開發(fā)者和最終用戶提供資源服務(wù)。以網(wǎng)絡(luò)技術(shù)的發(fā)展是推動云計算技術(shù)出現(xiàn)的首要動力。1.1.2云計算的特點(4)網(wǎng)絡(luò)化的資源接入。

1.1.2云計算的特點105(5)高可靠性和安全性。

用戶數(shù)據(jù)存儲在服務(wù)器端,而應(yīng)用程序在服務(wù)器端運行,計算由服務(wù)器端來處理。所有的服務(wù)分布在不同的服務(wù)器上,如果什么地方(節(jié)點)出問題就在什么地方終止它,另外再啟動一個程序或節(jié)點,即自動處理失敗節(jié)點,從而保證了應(yīng)用和計算的正常進行。數(shù)據(jù)被復(fù)制到多個服務(wù)器節(jié)點上有多個副本(備份),存儲在云里的數(shù)據(jù)即使遇到意外刪除或硬件崩潰也不會受到影響。1.1.2云計算的特點(5)高可靠性和安全性。

1.1.2云計算的特點1061.1.3云計算技術(shù)分類1.1.3云計算技術(shù)分類1.按技術(shù)路線分類2.按服務(wù)對象分類3.按資源封裝的層次分類1.1.3云計算技術(shù)分類1.1.3云計算技術(shù)分類107目前已出現(xiàn)的云計算技術(shù)種類非常多,對于云計算的分類可以有多種角度:從技術(shù)路線角度可以分為資源整合型云計算和資源切分型云計算;從服務(wù)對像角度可以被分為公有云和私有云;按資源封裝的層次來分可以分為:基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)平臺即服務(wù)(PlatformasaService,PaaS)軟件即服務(wù)(SoftwareasaService,SaaS)。1.1.3云計算技術(shù)分類目前已出現(xiàn)的云計算技術(shù)種類非常多,對于云計算的分類可以有多種108

1.按技術(shù)路線分類

資源整合型云計算:這種類型的云計算系統(tǒng)在技術(shù)實現(xiàn)方面大多體現(xiàn)為集群架構(gòu),通過將大量節(jié)點的計算資源和存儲資源整合后輸出。這類系統(tǒng)通常能實現(xiàn)跨節(jié)點彈性化的資源池構(gòu)建,核心技術(shù)為分布式計算和存儲技術(shù)。MPI、Hadoop、HPCC、Storm等都可以被分類為資源整合型云計算系統(tǒng)。1.1.3云計算技術(shù)分類

1.按技術(shù)路線分類

1.1.3云計算技術(shù)分類109資源切分型云計算:這種類型最為典型的就是虛擬化系統(tǒng),這類云計算系統(tǒng)通過系統(tǒng)虛擬化實現(xiàn)對單個服務(wù)器資源的彈性化切分,從而有效地利用服務(wù)器資源,其核心技術(shù)為虛擬化技術(shù)。這種技術(shù)的優(yōu)點是用戶的系統(tǒng)可以不做任何改變接入采用虛擬化技術(shù)的云系統(tǒng),是目前應(yīng)用較為廣泛的技術(shù),特別是在桌面云計算技術(shù)上應(yīng)用得較為成功;缺點是跨節(jié)點的資源整合代價較大;KVM、VMware都是這類技術(shù)的代表。1.1.3云計算技術(shù)分類1.1.3云計算技術(shù)分類1102.按服務(wù)對象分類公有云:指服務(wù)對象是面向公眾的云計算服務(wù),公有云對云計算系統(tǒng)的穩(wěn)定性、安全性和并發(fā)服務(wù)能力有更高的要求。私有云:指主要服務(wù)于某一組織內(nèi)部的云計算服務(wù),其服務(wù)并不向公眾開放,如企業(yè)、政府內(nèi)部的云服務(wù)。公有云與私有云的界限并不是特別清晰,有時服務(wù)于一個地區(qū)和團體的云也被稱為公有云。所以這種云計算分類方法并不是一種準確的分類方法,主要是在商業(yè)領(lǐng)域的一種稱呼。1.1.3云計算技術(shù)分類2.按服務(wù)對象分類1.1.3云計算技術(shù)分類1113.按資源封裝的層次分類基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS):把單純的計算和存儲資源不經(jīng)封裝地直接通過網(wǎng)絡(luò)以服務(wù)的形式提供的用戶使用。這類云計算服務(wù)用戶的自主性較大,就像是發(fā)電廠將發(fā)的電直接送出去一樣。這類云服務(wù)的對象往往是具有專業(yè)知識能力的資源使用者,傳統(tǒng)數(shù)據(jù)中心的主機租用等可能作為IaaS的典型代表。1.1.3云計算技術(shù)分類3.按資源封裝的層次分類1.1.3云計算技術(shù)分類112平臺即服務(wù)(PlatformasaService,PaaS):計算和存儲資源經(jīng)封裝后,以某種接口和協(xié)議的形式提供給用戶調(diào)用,資源的使用者不再直接面對底層資源。平臺即服務(wù)需要平臺軟件的支撐,可以認為是從資源到應(yīng)用軟件的一個中間件,通過這類中間件可以大大減小應(yīng)用軟件開發(fā)時的技術(shù)難度。這類云服務(wù)的對象往往是云計算應(yīng)用軟件的開發(fā)者,平臺軟件的開發(fā)需要使用者具有一定的技術(shù)能力。1.1.3云計算技術(shù)分類平臺即服務(wù)(PlatformasaService,Pa113軟件即服務(wù)(SoftwareasaService,SaaS):將計算和存儲資源封裝為用戶可以直接使用的應(yīng)用并通過網(wǎng)絡(luò)提供給用戶;SaaS面向的服務(wù)對象為最終用戶,用戶只是對軟件功能進行使用,無需了解任何云計算系統(tǒng)的內(nèi)部結(jié)構(gòu),也不需要用戶具有專業(yè)的技術(shù)開發(fā)能力。

1.1.3云計算技術(shù)分類軟件即服務(wù)(SoftwareasaService,Sa114圖1.1云計算服務(wù)體系結(jié)構(gòu)如圖所示,云計算系統(tǒng)按資源封裝的層次分為IaaS、PaaS、SaaS,分為對底層硬件資源不同級別的封裝,從而實現(xiàn)將資源轉(zhuǎn)變?yōu)榉?wù)的目的。傳統(tǒng)的信息系統(tǒng)資源的使用者通常是以直接占有物理硬件資源的形式來使用資源的,而云計算系統(tǒng)通過IaaS、PaaS、SaaS等不同層次的封裝將物理硬件資源封裝后,以服務(wù)的形式利用網(wǎng)絡(luò)提供給資源的使用者。在這里資源的使用者可能是資源的二次加工者,也可能是最終應(yīng)用軟件的使用者,通常IaaS、PaaS層面向的資源使用者往往是資源的二次加工者,這類資源的使用者并不是資源的最終消費者,他們將資源轉(zhuǎn)變?yōu)閼?yīng)用服務(wù)程序后以SaaS的形式提供給資源的最終消費者。實現(xiàn)對物理資源封裝的技術(shù)并不是惟一的,目前不少的軟件都能實現(xiàn),甚至有的系統(tǒng)只有SaaS層,并沒有進行逐層的封裝。

1.1.3云計算技術(shù)分類圖1.1云計算服務(wù)體系結(jié)構(gòu)傳統(tǒng)的信息系統(tǒng)資源的使用者通常是115云計算的服務(wù)層次是根據(jù)服務(wù)類型即服務(wù)集合來劃分,與大家熟悉的計算機網(wǎng)絡(luò)體系結(jié)構(gòu)中層次的劃分不同。在計算機網(wǎng)絡(luò)中每個層次都實現(xiàn)一定的功能,層與層之間有一定關(guān)聯(lián)。而云計算體系結(jié)構(gòu)中的層次是可以分割的,即某一層次可以單獨完成一項用戶的請求而不需要其他層次為其提供必要的服務(wù)和支持。

1.1.3云計算技術(shù)分類云計算的服務(wù)層次是根據(jù)服務(wù)類型即服務(wù)集合來劃分,與大家熟悉的116在云計算服務(wù)體系結(jié)構(gòu)中各層次與相關(guān)云產(chǎn)品對應(yīng)。應(yīng)用層對應(yīng)SaaS軟件即服務(wù),如:GoogleAPPS、SoftWare+Services。平臺層對應(yīng)PaaS平臺即服務(wù),如:IBMITFactory、GoogleAPPEngine、F?;A(chǔ)設(shè)施層對應(yīng)IaaS基礎(chǔ)設(shè)施即服務(wù),如:AmazoEC2、IBMBlueCloud、SunGrid。虛擬化層對應(yīng)硬件即服務(wù),結(jié)合PaaS提供硬件服務(wù),包括服務(wù)器集群及硬件檢測等服務(wù)。1.1.3云計算技術(shù)分類在云計算服務(wù)體系結(jié)構(gòu)中各層次與相關(guān)云產(chǎn)品對應(yīng)。1.1.3云1171.2大數(shù)據(jù)技術(shù)概述1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡介1.什么是大數(shù)據(jù)2.數(shù)據(jù)的來源3.生產(chǎn)數(shù)據(jù)的三個階段4.大數(shù)據(jù)的特點5.大數(shù)據(jù)的應(yīng)用領(lǐng)域1.2大數(shù)據(jù)技術(shù)概述1.2大數(shù)據(jù)技術(shù)概述1181.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡介計算和數(shù)據(jù)是信息產(chǎn)業(yè)不變的主題,在信息和網(wǎng)絡(luò)技術(shù)迅速發(fā)展的推動下,人們的感知、計算、仿真、模擬、傳播等活動產(chǎn)生了大量的數(shù)據(jù),數(shù)據(jù)的產(chǎn)生不受時間、地點的限制,大數(shù)據(jù)的概念逐漸形成,大數(shù)據(jù)涵蓋了計算和數(shù)據(jù)兩大主題,是產(chǎn)業(yè)界和學(xué)術(shù)界的研究熱點,被譽為未來十年的革命性技術(shù)。1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡介1191.2.1大數(shù)據(jù)簡介2008年,《Nature》雜志推出了“大數(shù)據(jù)”專輯,引發(fā)了學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注;2011年,大數(shù)據(jù)應(yīng)用進入我國并快速發(fā)展,目前大數(shù)據(jù)的應(yīng)用和研究已經(jīng)是學(xué)術(shù)界和產(chǎn)業(yè)界的熱點;2012年3月,美國政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,投資2億美元發(fā)展大數(shù)據(jù),用以強化國土安全、轉(zhuǎn)變教育學(xué)習(xí)模式、加速科學(xué)和工程領(lǐng)域的創(chuàng)新速度和水平;2012年7月,日本提出以電子政府、電子醫(yī)療、防災(zāi)等為中心制定新ICT(信息通信技術(shù))戰(zhàn)略,發(fā)布“新ICT計劃”,重點關(guān)注大數(shù)據(jù)研究和應(yīng)用;2013年1月,英國政府宣布將在對地觀測、醫(yī)療衛(wèi)生等大數(shù)據(jù)和節(jié)能計算技術(shù)方面投資1.89億英鎊;2013年我國上海、重慶等地相繼發(fā)布大數(shù)據(jù)行動計劃。

1.2.1大數(shù)據(jù)簡介2008年,《Nature》雜志推出了1201.什么是大數(shù)據(jù)維基百科將大數(shù)據(jù)描述為:大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫管理工具和傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型、復(fù)雜的數(shù)據(jù)集,大數(shù)據(jù)的挑戰(zhàn)包括采集、存儲、搜索、共享、傳輸、分析和可視化等。大數(shù)據(jù)的“大”是一個動態(tài)的概念以前10GB的數(shù)據(jù)是個天文數(shù)字;而現(xiàn)在,在地球、物理、基因、空間科學(xué)等領(lǐng)域,TB級的數(shù)據(jù)集已經(jīng)很普遍。大數(shù)據(jù)系統(tǒng)需要滿足以下三個特性。

(1)規(guī)模性(Volume):需要采集、處理、傳輸?shù)臄?shù)據(jù)容量大;(2)多樣性(Variety):數(shù)據(jù)的種類多、復(fù)雜性高;

(3)高速性(Velocity):數(shù)據(jù)需要頻繁地采集、處理并輸出。

1.2.1大數(shù)據(jù)簡介1.什么是大數(shù)據(jù)1.2.1大數(shù)據(jù)簡介1212.數(shù)據(jù)的來源大數(shù)據(jù)的數(shù)據(jù)來源很多,主要有信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué)實驗系統(tǒng)等;其數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論