大數(shù)據(jù)導論(第2版) 課件 項目8 大數(shù)據(jù)在云端_第1頁
大數(shù)據(jù)導論(第2版) 課件 項目8 大數(shù)據(jù)在云端_第2頁
大數(shù)據(jù)導論(第2版) 課件 項目8 大數(shù)據(jù)在云端_第3頁
大數(shù)據(jù)導論(第2版) 課件 項目8 大數(shù)據(jù)在云端_第4頁
大數(shù)據(jù)導論(第2版) 課件 項目8 大數(shù)據(jù)在云端_第5頁
已閱讀5頁,還剩181頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目8大數(shù)據(jù)在云端目錄1任務8.1:熟悉云時代背景下的大數(shù)據(jù)

【導讀案例】亞馬遜,數(shù)據(jù)在云端

【任務描述】

【知識準備】大數(shù)據(jù)的云技術【作業(yè)】【實訓操作】熟悉云端大數(shù)據(jù)的基礎設施2任務8.2:把握大數(shù)據(jù)發(fā)展的未來【導讀案例】亞馬遜,數(shù)據(jù)在云端討論:(1)亞馬遜既是非常著名的消費者品牌,又是云計算基礎設施服務供應商,你了解其中的關系嗎?(2)亞馬遜提供的主要的云計算服務是什么?(3)還有哪些著名的國際化企業(yè)在向社會提供云計算服務?(4)請簡單記述你所知道的上一周內發(fā)生的國

際、國內或者身邊的大事?!救蝿彰枋觥浚?)了解大數(shù)據(jù)基礎設施的基本概念;(2)了解虛擬化的重要思想,了解計算虛擬化、存儲虛擬化和網(wǎng)絡虛擬化的具體內容;(3)了解云計算的基本思想和主要內容,了解云計算與大數(shù)據(jù)的關系?!局R準備】大數(shù)據(jù)的云技術所謂基礎設施,是指在IT環(huán)境中,為具體應用提供計算、存儲、互聯(lián)、管理等基礎功能的軟硬件系統(tǒng)。在信息技術發(fā)展的早期,IT基礎設施往往由一系列昂貴的,經(jīng)過特殊設計的軟硬件設備組成,存儲容量非常有限,系統(tǒng)之間也沒有高效的數(shù)據(jù)交換通道,應用軟件直接運行在硬件平臺上。在這種環(huán)境中,用戶不容易、也沒有必要去區(qū)分哪些部分屬于基礎設施,哪些部分是應用軟件。然而,隨著對新應用的需求不斷涌現(xiàn),IT基礎設施發(fā)生了翻天覆地的變化。云端大數(shù)據(jù)8.1.18.1.1云端大數(shù)據(jù)摩爾定律在過去的幾十年書寫了奇跡,并且這個奇跡還在延續(xù)。在這奇跡的背后,是越來越廉價、越來越高效的計算能力。有了強大的計算能力,人類可以處理更為龐大的數(shù)據(jù),而這又帶來對存儲的需求。再之后,就需要把并行計算的理論搬上臺面,更大限度地挖掘IT基礎設施的潛力。于是,網(wǎng)絡也蓬勃發(fā)展起來。由于硬件已經(jīng)變得前所未有的復雜,專門管理硬件資源、為上層應用提供運行環(huán)境的系統(tǒng)軟件也順應歷史潮流,迅速發(fā)展壯大?;诖笠?guī)模數(shù)據(jù)的系列應用正在悄然推動著IT基礎設施的發(fā)展,尤其是大數(shù)據(jù)對海量、高速存儲的需求。為了對大規(guī)模數(shù)據(jù)進行有效的計算,必須最大限度地利用計算和網(wǎng)絡資源。計算虛擬化和網(wǎng)絡虛擬化要對分布式、異構的計算、存儲、網(wǎng)絡資源進行有效的管理。8.1.1云端大數(shù)據(jù)1.什么是云計算所謂“云計算”(CloudComputing,圖8-1),是一種基于互聯(lián)網(wǎng)的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備。云計算為我們提供了跨地域、高可靠、按需付費、所見即所得、快速部署等能力,這些都是長期以來IT行業(yè)所追尋的。隨著云計算的發(fā)展,大數(shù)據(jù)正成為云計算面臨的一個重大考驗,云計算能夠為一份大數(shù)據(jù)解決方案提供三項必不可少的材料:外部數(shù)據(jù)集、可擴展性處

理能力和大容量存儲。

圖8-1云計算8.1.1云端大數(shù)據(jù)云是網(wǎng)絡、互聯(lián)網(wǎng)的一種比喻說法。過去在圖中往往用云來表示電信網(wǎng),后來也用來表示互聯(lián)網(wǎng)和底層基礎設施的抽象。云計算是繼1980年代大型計算機到客戶端-服務器的大轉變之后的又一種巨變。用戶不再需要了解“云”中基礎設施的細節(jié),不必具有相應的專業(yè)知識,也無需直接進行控制。云計算描述了一種基于互聯(lián)網(wǎng)的新的IT服務增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展,而且經(jīng)常是虛擬化的資源,它意味著計算能力也可作為一種商品通過互聯(lián)網(wǎng)進行流通。8.1.1云端大數(shù)據(jù)Wiki(維基)的定義是:云計算是一種通過因特網(wǎng)以服務的方式提供動態(tài)可伸縮的虛擬化的資源的計算模式。美國國家標準與技術研究院(NIST)的定義是:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡訪問,進入可配置的計算資源共享池(資源包括網(wǎng)絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。8.1.1云端大數(shù)據(jù)云計算是分布式計算(DistributedComputing)、并行計算(ParallelComputing)、效用計算(UtilityComputing)、網(wǎng)絡存儲(NetworkStorageTechnologies)、虛擬化(Virtualization)、負載均衡(LoadBalance)等傳統(tǒng)計算機和網(wǎng)絡技術發(fā)展融合的產物。8.1.1云端大數(shù)據(jù)2.云計算的服務形式云計算按照服務的組織、交付方式的不同,有公有云、私有云、混合云之分。公有云向所有人提供服務,典型的公有云提供商是亞馬遜,人們可以用相對低廉的價格方便地使用亞馬遜EC2的虛擬主機服務。私有云往往只針對特定客戶群提供服務,比如一個企業(yè)內部IT可以在自己的數(shù)據(jù)中心搭建私有云,并向企業(yè)內部提供服務。目前也有部分企業(yè)整合了內部私有云和公有云,統(tǒng)一交付云服務,這就是混合云。8.1.1云端大數(shù)據(jù)云計算包括以下幾個層次的服務:基礎設施即服務(IaaS),平臺即服務(PaaS)和軟件即服務(SaaS)。這里,分層體系架構意義上的“層次”IaaS、PaaS和SaaS分別在基礎設施層、軟件開放運行平臺層和應用軟件層實現(xiàn)。IaaS(InfrastructureasaService):基礎設施級服務。消費者通過因特網(wǎng)可以從完善的計算機基礎設施獲得服務。IaaS通過網(wǎng)絡向用戶提供計算機(物理機和虛擬機)、存儲空間、網(wǎng)絡連接、負載均衡和防火墻等基本計算資源;用戶在此基礎上部署和運行各種軟件,包括操作系統(tǒng)和應用程序。例如,通過亞馬遜的AWS,用戶可以按需定制所要的虛擬主機和塊存儲等,在線配置和管理這些資源。8.1.1云端大數(shù)據(jù)PaaS(PlatformasaService):平臺級服務。PaaS實際上是指將軟件研發(fā)的平臺作為一種服務,以SaaS的模式提交給用戶。因此,PaaS也是SaaS模式的一種應用。但是,PaaS的出現(xiàn)可以加快SaaS的發(fā)展,尤其是加快SaaS應用的開發(fā)速度。平臺通常包括操作系統(tǒng)、編程語言的運行環(huán)境、數(shù)據(jù)庫和Web服務器,用戶在此平臺上部署和運行自己的應用。用戶不能管理和控制底層的基礎設施,只能控制自己部署的應用。目前常見的PaaS提供商有CloudFoundry、谷歌的GAE等。8.1.1云端大數(shù)據(jù)SaaS(SoftwareasaService):軟件級服務。它是一種通過因特網(wǎng)提供軟件的模式,用戶無需購買軟件,而是向提供商租用基于Web的軟件,來管理企業(yè)經(jīng)營活動,例如郵件服務、數(shù)據(jù)處理服務、財務管理服務等。8.1.1云端大數(shù)據(jù)3.云計算與大數(shù)據(jù)信息技術的發(fā)展主要解決的是云計算中結構化數(shù)據(jù)的存儲、處理與應用。結構化數(shù)據(jù)的特征是“邏輯性強”,每個“因”都有“果”。然而,現(xiàn)實社會中大量數(shù)據(jù)事實上沒有“顯現(xiàn)”的因果關系,如一個時刻的交通堵塞、天氣狀態(tài)、人的心理狀態(tài)等,它的特征是隨時、海量與彈性的,如一個突變天氣分析包含會有幾百個PB數(shù)據(jù)。而一個社會事件如喬布斯去世瞬間所產生在互聯(lián)網(wǎng)上的數(shù)據(jù)(微博、紀念文章、視頻等)也是突然爆發(fā)出來的。8.1.1云端大數(shù)據(jù)傳統(tǒng)的計算機設計與軟件都是以解決結構化數(shù)據(jù)為主,對“非結構”要求一種新的計算架構。互聯(lián)網(wǎng)時代,尤其是社交網(wǎng)絡、電子商務與移動通信把人類社會帶入一個以“PB”為單位的結構與非結構數(shù)據(jù)信息的新時代,它就是“大數(shù)據(jù)”(BigData)時代。8.1.1云端大數(shù)據(jù)云計算和大數(shù)據(jù)在很大程度上是相輔相成的,最大的不同在于:云計算是你在做的事情,而大數(shù)據(jù)是你所擁有的東西。以云計算為基礎的信息存儲、分享和挖掘手段為知識生產提供了工具,而通過對大數(shù)據(jù)分析、預測會使得決策更加精準,兩者相得益彰。從另一個角度講,云計算是一種IT理念、技術架構和標準,而云計算也不可避免地會產生大量的數(shù)據(jù)。所以說,大數(shù)據(jù)技術與云計算的發(fā)展密切相關,大型的云計算應用不可或缺的就是數(shù)據(jù)中心的建設,大數(shù)據(jù)技術是云計算技術的延伸。8.1.1云端大數(shù)據(jù)大數(shù)據(jù)為云計算大規(guī)模與分布式的計算能力提供了應用的空間,解決了傳統(tǒng)計算機無法解決的問題。國內有很多電商企業(yè),用小型機和Oracle公司對抗了好兒年,并請了全國最牛的Oracle專家不停地優(yōu)化其Oracle和小型機,初期發(fā)展可能很快,但是后來由于數(shù)據(jù)量激增,業(yè)務開始受到嚴重影響,一個典型的例子就是某網(wǎng)上商城之前發(fā)生的大規(guī)模訪問請求宕機事件,因此他們開始逐漸放棄了Oracle或者MS-SQL,并逐漸轉向MySQLx86的分布式架構。目前的基本計算單元常常是普通的x86服務器,它們組成了一個大的云,而未來的云計算單元里可能有獨立的存儲單元、計算單元、協(xié)調單元,總體的效率會更高。8.1.1云端大數(shù)據(jù)海量的數(shù)據(jù)需要足夠的存儲來容納它,快速、低廉價格、綠色的數(shù)據(jù)中心部署成為關鍵。谷歌、臉書、Rackspace等公司都紛紛建設新一代的數(shù)據(jù)中心,大部分都采用更高效、節(jié)能、訂制化的云服務器,用于大數(shù)據(jù)存儲、挖掘和云計算業(yè)務。數(shù)據(jù)中心正在成為新時代知識經(jīng)濟的基礎設施。從海量數(shù)據(jù)中提取有價值的信息,數(shù)據(jù)分析使數(shù)據(jù)變得更有意義,并將影響政府、金融、零售、娛樂、媒體等各個領域,帶來革命性的變化。8.1.1云端大數(shù)據(jù)4.云基礎設施大數(shù)據(jù)解決方案的構架離不開云計算的支撐。支撐大數(shù)據(jù)及云計算的底層原則是一樣的,即規(guī)模化、自動化、資源配置、自愈性,這些都是底層的技術原則。也可以說,大數(shù)據(jù)是構建在云計算基礎架構之上的應用形式,因此它很難獨立于云計算架構而存在。云計算下的海量存儲、計算虛擬化、網(wǎng)絡虛擬化、云安全及云平臺就像支撐大數(shù)據(jù)這座大樓的鋼筋水泥。只有好的云基礎架構支持,大數(shù)據(jù)才能立起來,站得更高。8.1.1云端大數(shù)據(jù)虛擬化(Virttualization)是云計算所有要素中最基本,也是最核心的組成部分。和云計算在最近幾年才出現(xiàn)不同,虛擬化技術的發(fā)展其實已經(jīng)走過了半個多世紀(1956)。在虛擬化技術的發(fā)展初期,IBM是主力軍,它把虛擬化技術用在了大型機領域。1964年,IBM設計了名為CP-40的新型操作系統(tǒng),實現(xiàn)了虛擬內存和虛擬機。到1965年,IBM推出了System/360Model67(見圖8-2)和TSS分時共享系統(tǒng)(TimeSharingSystem),允許很多遠程用戶共享同一高性能計算設備的使用時間。1972年,IBM發(fā)布了用于創(chuàng)建靈活大型主機的虛擬機技術,實現(xiàn)了根據(jù)動態(tài)需求快速而有效地使用各種資源的效果。作為對大型機進行邏輯分區(qū)以形成若干獨立虛擬機的一種方式。這些分區(qū)允許大型機進行“多任務處理”——同時運行多個應用程序和進程。由于當時大型機是十分昂貴的資源,虛擬化技術起到了提高投資利用率的作用。8.1.1云端大數(shù)據(jù)圖8-2IBMSystem/3608.1.1云端大數(shù)據(jù)利用虛擬化技術,允許在一臺主機上運行多個操作系統(tǒng),讓用戶盡可能地充分利用昂貴的大型機資源。其后,虛擬化技術從大型機延伸到UNIX小型機領域,HP、Sun(已被Oracle收購)及IBM都將虛擬化技術應用到其小型機中。1998年,VMware公司成立,這是在x86虛擬化技術發(fā)展史上很重要的一個里程碑。VMware發(fā)布的第一款虛擬化產品VMwareVirtualPlatform,通過運行在WindowsNT上的VMware來啟動Windows95,開啟了虛擬化在x86服務器上的應用。8.1.1云端大數(shù)據(jù)相比于大型機和小型機,x86服務器和虛擬化技術并不是兼容得很好。但是VMware針對x86平臺研發(fā)的虛擬化技術不僅克服了虛擬化技術層面的種種挑戰(zhàn),其提供的VMwareInfrastructure更是極大地方便了虛擬機的創(chuàng)建和管理。VMware對虛擬化技術的研究,開創(chuàng)了虛擬化技術的x86時代,在很長一段時間內,服務器虛擬化市場都是VMware一枝獨秀。虛擬化技術中最核心的部分分別是計算虛擬化、存儲虛擬化和網(wǎng)絡虛擬化。計算虛擬化8.1.28.1.2計算虛擬化計算虛擬化,又稱平臺虛擬化或服務器虛擬化,它的核心思想是使在一個物理計算機上同時運行多個操作系統(tǒng)成為可能。在虛擬化世界中,我們通常把提供虛擬化能力的物理計算機稱為宿主機(Hostmachine),而把在虛擬化環(huán)境中運行的計算機稱為客戶機(Guestmachine)。宿主機和客戶機雖然運行在同樣的硬件上,但是它們在邏輯上卻是完全隔離的。這些虛擬計算機(以及物理計算機)在邏輯上是完全隔離的,擁有各自獨立的軟、硬件環(huán)境。討論計算虛擬化,所涉及的計算機僅包含構成一個最小計算單位所需的部件,其中包括處理器(CPU)和內存,不包含任何可選的外接設備(例如,主板、硬盤、網(wǎng)卡、顯卡、聲卡等)。8.1.2計算虛擬化計算虛擬化是大數(shù)據(jù)處理不可缺少的支撐技術,其作用體現(xiàn)在提高設備利用率、提高系統(tǒng)可靠性、解決計算單元管理問題等方面。將大數(shù)據(jù)應用運行在虛擬化平臺上,可以充分享受虛擬化帶來的管理紅利。例如,虛擬化可以支持對虛擬機的快照(Snapshot)操作,從而使得備份和恢復變得更加簡單、透明和高效。此外,虛擬機還可以根據(jù)需要動態(tài)遷移到其他物理機上,這一特性可以讓大數(shù)據(jù)應用享受高可靠性和容錯性。8.1.2計算虛擬化虛擬機(VirtualMachine,VM)是對物理計算機功能的一種軟件模擬(部分或完全的),其中的虛擬設備在硬件細節(jié)上可以獨立于物理設備。虛擬機的實現(xiàn)目標通常是可以在其中不經(jīng)修改地運行那些原本為物理計算機設計的程序。通常情況下,多臺虛擬機可以共存于一臺物理機上,以期獲得更高的資源使用率以及降低整體的費用。虛擬機之間是互相獨立、完全隔離的。8.1.2計算虛擬化虛擬機管理器(虛擬機管理程序,VirtualMachineMonitor,VMM),通常又稱為Hypervisor,是在宿主機上提供虛擬機創(chuàng)建和運行管理的軟件系統(tǒng)或固件。Hypervisor可以歸納為兩個類型:原生的Hypervisor和托管的Hypervisor。前者直接運行在硬件上去管理硬件和虛擬機,常見的有XenServer、KVM、VMwareESX/ESXi和微軟的Hyper-V。后者則運行在常規(guī)的操作系統(tǒng)上,作為二層的管理軟件存在,而客戶機相對硬件來說則是在第三層運行,常見的有VMwareWorkstation和VirtualBox。存儲虛擬化8.1.38.1.3存儲虛擬化關于大數(shù)據(jù),最容易想到的便是其數(shù)據(jù)量之龐大,如何高效地保存和管理這些海量數(shù)據(jù)是存儲面臨的首要問題。此外,大數(shù)據(jù)還有諸如種類結構不一、數(shù)據(jù)源雜多、增長速度快、存取形式和應用需求多樣化等特點。存儲虛擬化最通俗的理解就是對一個或者多個存儲硬件資源進行抽象,提供統(tǒng)一的、更有效率的全面存儲服務。從用戶的角度來說,存儲虛擬化就像一個存儲的大池子,用戶看不到,也不需要看到后面的磁盤、磁帶,也不必關心數(shù)據(jù)是通過哪條路徑存儲到硬件上的。8.1.3存儲虛擬化存儲虛擬化有兩大分類:塊虛擬化(Blockvirtualizatlon)和文件虛擬化(Filevirtualization)。塊虛擬化就是將不同結構的物理存儲抽象成統(tǒng)一的邏輯存儲。這種抽象和隔離可以讓存儲系統(tǒng)的管理員為終端用戶提供更靈活的服務。文件虛擬化則是幫助用戶,使其在一個多節(jié)點的分布式存儲環(huán)境中,再也不用關心文件的具體物理存儲位置了。8.1.3存儲虛擬化1.傳統(tǒng)存儲系統(tǒng)時代計算機的外部存儲系統(tǒng)如果從1956年IBM造出第一塊硬盤算起,發(fā)展至今己經(jīng)有半個多世紀了。在這半個多世紀里,存儲介質和存儲系統(tǒng)都取得了很大的發(fā)展和進步。當時,IBM為RAMAC305系統(tǒng)造出的第一塊硬盤只有5MB的容量,而成本卻高達50000美元,平均每MB存儲需要10000美元。而現(xiàn)在的硬盤容量可高達幾個TB,成本則降至差不多8美分/GB。目前傳統(tǒng)存儲系統(tǒng)主要的三種架構,包括DASNAS和SAN。8.1.3存儲虛擬化(1)DAS(Direct-AttachedStorage,直連式存儲)。顧名思義,這是一種通過總線適配器直接將硬盤等存儲介質連接到主機上的存儲方式,在存儲設備和主機之間通常沒有任何網(wǎng)絡設備的參與??梢哉fDAS是最原始、最基本的存儲架構方式,在個人電腦、服務器上也最為常見。DAS的優(yōu)勢在于架構簡單、成本低廉、讀寫效率高等;缺點是容量有限、難于共享,從而容易形成“信息孤島”。(2)NAS(Network-AttachedStorage,網(wǎng)絡存儲系統(tǒng))。NAS是一種提供文件級別訪問接口的網(wǎng)絡存儲系統(tǒng),通常采用NFS、SMB/CIFS等網(wǎng)絡文件共享協(xié)議進行文件存取。NAS支持多客戶端同時訪問,為服務器提供了大容量的集中式存儲,從而也方便了服務器間的數(shù)據(jù)共享。8.1.3存儲虛擬化(3)SAN(StorageAreaNetwork,存儲區(qū)域網(wǎng)絡)。通過光纖交換機等高速網(wǎng)絡設備在服務器和磁盤陣列等存儲設備間搭設專門的存儲網(wǎng)絡,從而提供高性能的存儲系統(tǒng)。SAN與NAS的基本區(qū)別,在于其提供塊(block)級別的訪問接口,一般并不同時提供一個文件系統(tǒng)。通常情況下,服務器需要通過SCSI等訪問協(xié)議將SAN存儲映射為本地磁盤、在其上創(chuàng)建文件系統(tǒng)后進行使用。目前主流的企業(yè)級NAS或SAN存儲產品一般都可以提供TB級的存儲容量,當然高端的存儲產品也可以提供高達幾個PB的存儲容量。8.1.3存儲虛擬化2.大數(shù)據(jù)時代的新挑戰(zhàn)相對于傳統(tǒng)的存儲系統(tǒng),大數(shù)據(jù)存儲一般與上層的應用系統(tǒng)結合得更緊密。很多新興的大數(shù)據(jù)存儲都是專門為特定的大數(shù)據(jù)應用設計和開發(fā)的,比如專門用來存放大量圖片或者小文件的在線存儲,或者支持實時事務的高性能存儲等。因此,不同的應用場景,其底層大

數(shù)據(jù)存儲的特點也不盡相同(見圖)。但

是,結合當前主流的大數(shù)據(jù)存儲系統(tǒng),可

以總結出如下一些基本特點:

圖8-3存儲系統(tǒng)8.1.3存儲虛擬化(1)大容量及高可擴展性。大數(shù)據(jù)的主要來源包括社交網(wǎng)站、個人信息、科學研究數(shù)據(jù)、在線事務、系統(tǒng)日志以及傳感和監(jiān)控數(shù)據(jù)等。各種應用系統(tǒng)源源不斷地產生著大量數(shù)據(jù),尤其是社交類網(wǎng)站的興起,更加快了數(shù)據(jù)增長的速度。大數(shù)據(jù)一般可達到幾個PB甚至EB級的信息量,傳統(tǒng)的NAS或SAN存儲一般很難達到這個級別的存儲容量。因此,除了巨大的存儲容量外,大數(shù)據(jù)存儲還必須擁有一定的可擴容能力。擴容包括Scale-up和Scale-out兩種方式。鑒于前者擴容能力有限且成本一般較高,因此能夠提供Scale-out能力的大數(shù)據(jù)存儲己經(jīng)成為主流趨勢。8.1.3存儲虛擬化(2)高可用性。對于大數(shù)據(jù)應用和服務來說,數(shù)據(jù)是其價值所在。因此,存儲系統(tǒng)的可用性至關重要。平均無故障時間(MTTF)和平均維修時間(MTTR)是衡量存儲系統(tǒng)可用性的兩個主要指標。傳統(tǒng)存儲系統(tǒng)一般采用RAID、數(shù)據(jù)通道冗余等方式保證數(shù)據(jù)的高可用性和高可靠性。除了這些傳統(tǒng)的技術手段外,大數(shù)據(jù)存儲還會采用其他一些技術。比如,分布式存儲系統(tǒng)中多采用簡單明了的多副本來實現(xiàn)數(shù)據(jù)冗余;針對RAID導致的數(shù)據(jù)冗余率過高或者大容量磁盤的修復時間過長等問題,近年來學術界和工業(yè)界研究或采用了其他的編碼方式。8.1.3存儲虛擬化(3)高性能。在考量大數(shù)據(jù)存儲性能時,吞吐率、延時和IOPS是其中幾個較為重要的指標。對于一些實時事務分析系統(tǒng),存儲的響應速度至關重要;而在其他一些大數(shù)據(jù)應用場景中,每秒處理的事務數(shù)則可能是最重要的影響因素。大數(shù)據(jù)存儲系統(tǒng)的設計往往需要在大容量、高可擴展性、高可用性和高性能等特性間做出一個權衡。(4)安全性。大數(shù)據(jù)具有巨大的潛在商業(yè)價值,這也是大數(shù)據(jù)分析和數(shù)據(jù)挖掘興起的重要原因之一。因此,數(shù)據(jù)安全對于企業(yè)來說至關重要。數(shù)據(jù)的安全性體現(xiàn)在存儲如何保證數(shù)據(jù)完整性和持久化等方面。在云計算、云存儲行業(yè)風生水起的大背景下,如何在多租戶環(huán)境中保護好用戶隱私和數(shù)據(jù)安全成了大數(shù)據(jù)存儲面臨的一個亟待解決的新挑戰(zhàn)。8.1.3存儲虛擬化(5)自管理和自修復。隨著數(shù)據(jù)量的增加和數(shù)據(jù)結構的多樣化,大數(shù)據(jù)存儲的系統(tǒng)架構也變得更加復雜,管理和維護便成了一大難題。這個問題在分布式存儲中尤其突出因此,能夠實現(xiàn)自我管理、監(jiān)測及自我修復將成為大數(shù)據(jù)存儲系統(tǒng)的重要特性之一。(6)成本。大數(shù)據(jù)存儲系統(tǒng)的成本包括存儲成本、使用成本和維護成本等。如何有效降低單位存儲給企業(yè)帶來的成本問題,在大數(shù)據(jù)背景下顯得極為重要。如果大數(shù)據(jù)存儲的成本降不下來,動輒幾個TB或者PB的數(shù)據(jù)量將會讓很多中小型企業(yè)在大數(shù)據(jù)掘金浪潮中望洋興嘆。8.1.3存儲虛擬化(7)訪問接口的多樣化。同一份數(shù)據(jù)可能會被多個部門、用戶或者應用來訪問、處理和分析。不同的應用系統(tǒng)由于業(yè)務不同可能會采用不同的數(shù)據(jù)訪問方式。因此,大數(shù)據(jù)存儲系統(tǒng)需要提供多種接口來支持不同的應用系統(tǒng)。8.1.3存儲虛擬化3.云存儲云存儲是由第三方運營商提供的在線存儲系統(tǒng),比如面向個人用戶的在線網(wǎng)盤和而向企業(yè)的文件、塊或對象存儲系統(tǒng)等。云存儲的運營商負責數(shù)據(jù)中心的部署、運營和維護等工作,將數(shù)據(jù)存儲包裝成為服務的形式提供給客戶。云存儲作為云計算的延伸和重要組件之一,提供了“按需分配、按量計費”的數(shù)據(jù)存儲服務。因此,云存儲的用戶不需要搭建自己的數(shù)據(jù)中心和基礎架構,也不需要關心底層存儲系統(tǒng)的管理和維護等工作,并可以根據(jù)其業(yè)務需求動態(tài)地擴大或減小其對存儲容量的需求。8.1.3存儲虛擬化云存儲通過運營商來集中、統(tǒng)一地部署和管理存儲系統(tǒng),降低了數(shù)據(jù)存儲的成本,從而也降低了大數(shù)據(jù)行業(yè)的準入門檻,為中小型企業(yè)進軍大數(shù)據(jù)行業(yè)提供了可能性。比如,著名的在線文件存儲服務提供商Dropbox,就是基于AWS(AmazonWebScrvices)提供的在線存儲系統(tǒng)S3創(chuàng)立起來的。在云存儲興起之前,創(chuàng)辦類似于Dropbox這樣的初創(chuàng)公司幾乎不太可能。8.1.3存儲虛擬化云存儲背后使用的存儲系統(tǒng)其實多是采用分布式架構,而云存儲因其更多新的應用場景,在設計上也遇到了新的問題和需求。比如,云存儲在管理系統(tǒng)和訪問接口上大都需要解決如何支持多租戶的訪問方式,而多租戶環(huán)境下就無可避免地要解決諸如安全、性能隔離等一系列問題。另外,云存儲和云計算一樣,都需要解決的一個共同難題就是關于信任(Trust)問題一一如何從技術上保證企業(yè)的業(yè)務數(shù)據(jù)放在第三方存儲服務提供商平臺上的隱私和安全,的確是一個必須解決的技術挑戰(zhàn)。8.1.3存儲虛擬化將存儲作為服務的形式提供給用戶,云存儲在訪問接口上一般都會秉承簡潔易用的特性。比如,亞馬遜的S3存儲通過標準的HTTP協(xié)議、簡單的REST接口進行存取數(shù)據(jù),用戶分別通過Gct、Put、Delete等HTTP方法進行數(shù)據(jù)塊的獲取、存放和刪除等操作。出于操作簡便方面的考慮,亞馬遜S3服務并不提供修改或者重命名等操作;同時,亞馬遜S3服務也并不提供復雜的數(shù)據(jù)目錄結構,而僅僅提供非常簡單的層級關系;用戶可以創(chuàng)建一個自己的數(shù)據(jù)桶(bucket),而所有的數(shù)據(jù)則直接存儲在這個bucket中。另外,云存儲還需要解決用戶分享的問題。亞馬遜S3存儲中的數(shù)據(jù)直接通過唯一的URL進行訪問和標識,因此,只要其他用戶經(jīng)過授權便可以通過數(shù)據(jù)的URL進行訪問了。8.1.3存儲虛擬化存儲虛擬化是云存儲的一個重要的技術基礎,是通過抽象和封裝底層存儲系統(tǒng)的物理特性,將多個互相隔離的存儲系統(tǒng)統(tǒng)一化為一個抽象的資源池的技術。通過存儲虛擬化技術,云存儲可以實現(xiàn)很多新的特性。比如,用戶數(shù)據(jù)在邏輯上的隔離、存儲空間的精簡配置等。8.1.3存儲虛擬化4.大數(shù)據(jù)存儲的其他需求大數(shù)據(jù)存儲的其他需求包括:(1)去重(Deduplication)。數(shù)據(jù)快速增長是數(shù)據(jù)中心最大的挑戰(zhàn)。顯而易見,爆炸式的數(shù)據(jù)增長會消耗巨大的存儲空間,迫使數(shù)據(jù)提供商去購買更多的存儲,然而卻未必能趕上數(shù)據(jù)的增長速度。這里有幾個相關問題值得考慮:產生的數(shù)據(jù)是不是都被生產系統(tǒng)循環(huán)使用?如果不是,是不是可以把這些數(shù)據(jù)放到廉價的存儲系統(tǒng)中?怎么讓數(shù)據(jù)備份消耗的存儲更低?怎么讓備份的時間更快?數(shù)據(jù)備份后能保存的時間有多久(物理介質原因)?備份后的數(shù)據(jù)能不能正常取出?8.1.3存儲虛擬化數(shù)據(jù)去重大概可以分為基于文件級別的去重和基于數(shù)據(jù)塊級別的去重。一般來講,數(shù)據(jù)切成chunk有兩種分類:定長(Fixedsize)和變長(Variablesize)。所謂定長就是把一個接收到的數(shù)據(jù)流或者文件按照相同的大小切分,每個chunk都有一個獨立的“指紋”。從實現(xiàn)角度來講,定長文件的切片實現(xiàn)和管理比較簡單,但是數(shù)據(jù)去重復的比率較低。這個也是容易理解的,因為每個chunk在文件中都有固定的偏移。但是在最壞清況下,如果個文件在文件開始新增加或者減少一個字符,將導致所有chunk的“指紋”發(fā)生變化。最差結果是:備份兩個僅差一個字符的文件,導致重復數(shù)據(jù)刪除率等于零。這個顯然是不可接受的。8.1.3存儲虛擬化為此,變長chunk技術應運而生,它不是簡單地根據(jù)文件偏移來劃分chunk,而是根據(jù)“anchor”(某個標記)來對數(shù)據(jù)分片。由于找的是特殊的標記,而不是數(shù)據(jù)的偏移,因此能完美地解決定長chunk中由于數(shù)據(jù)偏移略有變化而導致的低數(shù)據(jù)去重比率。8.1.3存儲虛擬化(2)分層存儲(TieredStorage)。眾所周知,性能好的存儲介質往往價格也很高。如何通過組合高性能、高成本的小容量存儲介質和低性能、低成本的大容量存儲介質,使其達到性能、價格、容量及功能上的最大優(yōu)化,這是一個經(jīng)典的存儲問題了。比如,計算機系統(tǒng)上通過從外部存儲(比如硬盤等)到內存、緩存等一系列存儲介質組成的存儲金字塔,很好地解決了CPU的數(shù)據(jù)訪問瓶頸問題。分層存儲是存儲系統(tǒng)領域試圖解決類似問題的一個技術手段。近年來,各種新存儲介質的誕生,給存儲系統(tǒng)帶來了新的希望,尤其是Flash和SSD(Solid-StateDrive)存儲技術的成熟及其量化生產,使其在存儲產品中得到越來越廣泛的使用。然而,企業(yè)存儲,尤其是大數(shù)據(jù)存儲,全部使用SSD作為存儲介質,其成本依然是個大問題。8.1.3存儲虛擬化為了能夠更好地發(fā)揮新的存儲介質在讀、寫性能上的優(yōu)勢,同時將存儲的總體成本控制在可接受的范圍之內,分層存儲系統(tǒng)便應運而生。分層存儲系統(tǒng)集SSD和硬盤等存儲媒介于一體,通過智能監(jiān)控和分析數(shù)據(jù)的訪問“熱度”,將不同熱度的數(shù)據(jù)自動適時地動態(tài)遷移到不同的存儲介質上。經(jīng)常被訪問的數(shù)據(jù)將被遷移到讀、寫性能好的SSD存儲上,不常被訪問的數(shù)據(jù)則會被存放在性能一般且價格低廉的硬盤矩陣上。這樣,分層存儲系統(tǒng)在保證不增加太多成本的前提下,大大地提高了存儲系統(tǒng)的讀、寫性能。網(wǎng)絡虛擬化8.1.48.1.4網(wǎng)絡虛擬化網(wǎng)絡虛擬化,簡單來講是指把邏輯網(wǎng)絡從底層的物理網(wǎng)絡分離開來,包括網(wǎng)卡的虛擬化、網(wǎng)絡的虛擬接入技術、覆蓋網(wǎng)絡交換,以及軟件定義的網(wǎng)絡等。這個概念的產生已經(jīng)比較久了,VLAN、VPN、VPLS等都可以歸為網(wǎng)絡虛擬化的技術。近年來,云計算的浪潮席卷IT界。幾乎所有的IT基礎構架都在朝著云的方向發(fā)展。在云計算的發(fā)展中,虛擬化技術一直是重要的推動因素。作為基礎構架,服務器和存儲的虛擬化已經(jīng)發(fā)展得有聲有色,而同作為基礎構架的網(wǎng)絡卻還是一直沿用老的套路。在這種環(huán)境下,網(wǎng)絡確實期待一次變革,使之更加符合云計算和互聯(lián)網(wǎng)發(fā)展的需求。8.1.4網(wǎng)絡虛擬化在云計算的大環(huán)境下,網(wǎng)絡虛擬化的定義沒有變,但是其包含的內容卻大大增加了(例如動態(tài)性、多租戶模式等)。網(wǎng)絡虛擬化涉及的技術范圍相當寬泛,包括網(wǎng)卡的虛擬化、虛擬交換技術、網(wǎng)絡虛擬接入技術、覆蓋網(wǎng)絡交換,以及軟件定義的網(wǎng)絡,等等。8.1.4網(wǎng)絡虛擬化1.網(wǎng)卡虛擬化多個虛擬機共享服務器中的物理網(wǎng)卡,需要一種機制既能保證I/O的效率,又能保證多個虛擬機對用物理網(wǎng)卡共享使用。I/O虛擬化的出現(xiàn)就是為了解決這類問題。I/O虛擬化包括了從CPU到設備的一攬子解決方案。從CPU的角度看,要解決虛擬機訪問物理網(wǎng)卡等I/O設備的性能問題,能做的就是直接支持虛擬機內存到物理網(wǎng)卡的DMA操作。Intel的VT-d技術及AMD的IOMMU技術通過DMARemapping機制來解決這個問題。DMARemapping機制主要解決了兩個問題,一方面為每個VM創(chuàng)建了一個DMA保護域并實現(xiàn)了安全的隔離,另一方面提供一種機制是將虛擬機的物理地址翻譯為物理機的物理地址。8.1.4網(wǎng)絡虛擬化從虛擬機對網(wǎng)卡等設備訪問角度看,傳統(tǒng)虛擬化的方案是虛擬機通過Hypervisor來共享地訪問一個物理網(wǎng)卡,Hypervisor需要處理多虛擬機對設備的并發(fā)訪問和隔離等。具體的實現(xiàn)方式是通過軟件模擬多個虛擬網(wǎng)長(完全獨立于物理網(wǎng)卡),所有的操作都在CPU與內存進行。這樣的方案滿足了多租戶模式的需求,但是犧牲了整體的性能,因為Hypervisor很容易形成一個性能瓶頸。為了提高性能,一種做法是虛擬機繞過Hypervisor直接操作物理網(wǎng)卡,這種做法通常稱為PCIpassthrough,VMware、XEN和KVM都支持這種技術。但這種做法的問題是虛擬機通常需要獨占一個PCI插槽,不是一個完整的解決方案,成本較高且擴展性不足。8.1.4網(wǎng)絡虛擬化最新的解決方案是物理設備(如網(wǎng)卡)直接對上層操作系統(tǒng)或Hypervisor提供虛擬化的功能,一個以太網(wǎng)卡可以對上層軟件提供多個獨立的虛擬的PCIe設備并提供虛擬通道來實現(xiàn)并發(fā)訪問;這些虛擬設備擁有各自獨立的總線地址,從而可以提供對虛擬機I/O的DMA支持。這樣一來,CPU得以從繁重的I/O中解放出來,能夠更加專注于核心的計算任務(例如大數(shù)據(jù)分析)。這種方法也是業(yè)界主流的做法和發(fā)展方向,目前已經(jīng)形成了標準。8.1.4網(wǎng)絡虛擬化2.虛擬交換機在虛擬化的早期階段,由于物理網(wǎng)卡并不具備為多個虛擬機服務的能力,為了將同一物理機上的多臺虛擬機接入網(wǎng)絡,引入了一個虛擬交換機(VirtualSwitch)的概念。通常也稱為軟件交換機,以區(qū)別于硬件實現(xiàn)的網(wǎng)絡交換機。虛擬機通過虛擬網(wǎng)片接入到虛擬交換機,然后通過物理網(wǎng)卡外連到外部交換機,從而實現(xiàn)了外部網(wǎng)絡接入,例如VMwarevSwitch(見圖8-4)就屬于這一類技術。8.1.4網(wǎng)絡虛擬化圖8-4VMwarevSwitch結構圖8.1.4網(wǎng)絡虛擬化這樣的解決方案也帶來一系列的問題。首先,一個很大的顧慮就是性能問題,因為所有的網(wǎng)絡交換都必須通過軟件模擬。研究表明:一個接入10~15臺虛擬機的軟件交換機,通常需要消耗10%~15%的主機計算能力;隨著虛擬機數(shù)量的增長,性能問題無疑將更加嚴重。其次,由于虛擬交換機工作在二層,無形中也使得二層子網(wǎng)的規(guī)模變得更大。更大的子網(wǎng)意味著更大的廣播域,對性能和管理來說都是不小的挑戰(zhàn)。最后,由于越來越多的網(wǎng)絡數(shù)據(jù)交換在虛擬交換機內進行,傳統(tǒng)的網(wǎng)絡監(jiān)控和安全管理工具無法對其進行管理,也意味著管理和安全的復雜性大大增加了。8.1.4網(wǎng)絡虛擬化3.接入層的虛擬化在傳統(tǒng)的服務器虛擬化方案中,從虛擬機的虛擬網(wǎng)卡發(fā)出的數(shù)據(jù)包在經(jīng)過服務器的物理網(wǎng)片傳送到外部網(wǎng)絡的上聯(lián)交換機后,虛擬機的標識信息被屏蔽掉了,上聯(lián)交換機只能感知從某個服務器的物理網(wǎng)卡流出的所有流量,而無法感知服務器內某個虛擬機的流量,這桿就不能從傳統(tǒng)網(wǎng)絡設備層面來保證服務質量和安全隔離。虛擬接入要解決的問題是要把虛擬機的網(wǎng)絡流量納入傳統(tǒng)網(wǎng)絡交換設備的管理之中,需要對虛擬機的流量做標識。8.1.4網(wǎng)絡虛擬化4.覆蓋網(wǎng)絡虛擬化虛擬網(wǎng)絡并不是全新的概念,事實上我們熟知的VLAN就是一種已有的方案。VLAN的作用是在一個大的物理二層網(wǎng)絡里劃分出多個互相隔離的虛擬三層網(wǎng)絡,這個方案在傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡中得到了廣泛的應用。這里就引出了虛擬網(wǎng)絡的第一個需求:隔離;VLAN雖然很好地解決了這個需求。然而由于內在的缺陷,VLAN無法滿足第二個需求,即可擴展性(支持數(shù)量龐大的虛擬網(wǎng)絡)。隨著云計算的興起,一個數(shù)據(jù)中心需要支持上百萬的用戶,每個用戶需要的子網(wǎng)可能也不止一個。在這樣的需求背景下,VLAN已經(jīng)遠遠不敷使用,需要重新思考虛擬網(wǎng)絡的設計與實現(xiàn)。當虛擬數(shù)據(jù)中心開始普及后,其本身的一些特性也帶來對網(wǎng)絡新的需求。8.1.4網(wǎng)絡虛擬化物理機的位置一般是相對固定的,虛擬化方案的一個很大的特性在于虛擬機可以遷移。當遷移發(fā)生在不同網(wǎng)絡、不同數(shù)據(jù)中心之間時,對網(wǎng)絡產生了新的要求,比如需要保證虛擬機的IP在遷移前后不發(fā)生改變,需要保證虛擬機內運行的應用程序在遷移后仍可以跨越網(wǎng)絡和數(shù)據(jù)中心進行通信等。這又引出了虛擬網(wǎng)絡的第三個需求:支持動態(tài)遷移。覆蓋網(wǎng)絡虛擬化就是應以上需求而生的,它可以更好地滿足云計算和下一代數(shù)據(jù)中心的需求,它為用戶虛擬化應用帶來了許多好處(特別是對大規(guī)模的、分布式的數(shù)據(jù)處理),包括:①虛擬網(wǎng)絡的動態(tài)創(chuàng)建與分配;②虛擬機的動態(tài)遷移(跨子網(wǎng)、跨數(shù)據(jù)中心);③一個虛擬網(wǎng)絡可以跨多個數(shù)據(jù)中心;④將物理網(wǎng)絡與虛擬網(wǎng)絡的管理分離;⑤安全(邏輯抽象與完全隔離)。8.1.4網(wǎng)絡虛擬化5.軟件定義的網(wǎng)絡(SDN)OpenFlow和SDN盡管不是專門為網(wǎng)絡虛擬化而生,但是它們帶來的標準化和靈活性卻給網(wǎng)絡虛擬化的發(fā)展帶來無限可能。OpenFlow起源于斯坦福大學的CleanSlate項目組,其目的是要重新發(fā)明因特網(wǎng),旨在改變現(xiàn)有的網(wǎng)絡基礎架構。2006年,斯坦福的學生MartinCasado領導的Ethane項目,試圖通過一個集中式的控制器,讓網(wǎng)絡管理員可以方便地定義基于網(wǎng)絡流的安全控制策略,并將這些安全策略應用到各種網(wǎng)絡設備中,從而實現(xiàn)對整個網(wǎng)絡通信的安全控制。8.1.4網(wǎng)絡虛擬化受此項目啟發(fā),研究人員發(fā)現(xiàn)如果將傳統(tǒng)網(wǎng)絡設備的數(shù)據(jù)轉發(fā)(Dataplane)和路由控制(Controlplane)兩個功能模塊相分離,通過集中式的控制器(Controller)以標準化的接口對各種網(wǎng)絡設備進行管理和配置,這將為網(wǎng)絡資源的設計、管理和使用提供更多的可能性,從而更容易推動網(wǎng)絡的革新與發(fā)展。8.1.4網(wǎng)絡虛擬化OpenFlow可能的應用場景包括:①校園網(wǎng)絡中對實驗性通信協(xié)議的支持;②網(wǎng)絡管理和訪問控制;③網(wǎng)絡隔離和VLAN;④基于WiFi的移動網(wǎng)絡;⑤非IP網(wǎng)絡;⑥基于網(wǎng)絡包的處理。8.1.4網(wǎng)絡虛擬化6.對大數(shù)據(jù)處理的意義相對于普通應用,大數(shù)據(jù)的分析與處理對網(wǎng)絡有著更高的要求,涉及從帶寬到延時,從吞吐率到負載均衡,以及可靠性、服務質量控制等方方面面。同時隨著越來越多的大數(shù)據(jù)應用部署到云計算平臺中,對虛擬網(wǎng)絡的管理需求就越來越高。首先,網(wǎng)絡接入設備虛擬化的發(fā)展,在保證多租戶服務模式的前提下,還能同時兼顧高性能與低延時、低CPU占用率。其次,接入層的虛擬化保證了虛擬機在整個網(wǎng)絡中的可見性,使得基于虛擬機粒度(或大數(shù)據(jù)應用粒度)的服務質量控制成為可能。8.1.4網(wǎng)絡虛擬化覆蓋網(wǎng)絡的虛擬化,一方面使得大數(shù)據(jù)應用能夠得到有效的網(wǎng)絡隔離,更好地保證了數(shù)據(jù)通信的安全;另一力面也使得應用的動態(tài)遷移更加便捷,保證了應用的性能和可靠性。軟件定義的網(wǎng)絡更是從全局的視角來重新管理和規(guī)劃網(wǎng)絡資源,使得整體的網(wǎng)絡資源利用率得到優(yōu)化利用??傊?,網(wǎng)絡虛擬化技術通過對性能、可靠性和資源優(yōu)化利用的貢獻,間接提高了大數(shù)據(jù)系統(tǒng)的可靠性和運行效率。數(shù)據(jù)即服務8.1.58.1.5數(shù)據(jù)即服務數(shù)據(jù)即服務(DataasaService,DaaS)是一個跨越大數(shù)據(jù)基礎設施和應用的領域。過去的公司一般先獲得大數(shù)據(jù)集,然后再使用——通常難以獲得當前數(shù)據(jù),或從互聯(lián)網(wǎng)上得到即時數(shù)據(jù)。但是現(xiàn)在,出現(xiàn)了各種各樣的數(shù)據(jù)即服務供應商,例如鄧白氏公司為金融、地址以及其他形式的數(shù)據(jù)提供網(wǎng)絡編程接口,費埃哲公司(FICO)提供財務信息,推特為其推文提供訪問權限等等。8.1.5數(shù)據(jù)即服務1.數(shù)據(jù)應用這樣的數(shù)據(jù)源允許他人在其基礎上建立有趣的應用程序,而這些應用程序可以用于準確預測總統(tǒng)選舉結果,或了解消費者對品牌的感覺。也有公司提供垂直式、具體的數(shù)據(jù)即服務,例如在線數(shù)據(jù)拍賣平臺BlueKai公司提供與消費者資料相關的數(shù)據(jù),交通駕駛服務系統(tǒng)供應商Inrix公司提供交通數(shù)據(jù),律商聯(lián)訊公司提供法律數(shù)據(jù)等。8.1.5數(shù)據(jù)即服務2.數(shù)據(jù)清理使用大數(shù)據(jù)的領域中,最乏味的大概就是數(shù)據(jù)清理和集成了,它卻十分關鍵。內部和外部數(shù)據(jù)以各種格式存儲,并且還包括錯誤和重復的記錄。這樣的數(shù)據(jù)需要經(jīng)常清理才可以使用(或是實現(xiàn)多個數(shù)據(jù)源一起使用)。像企業(yè)數(shù)據(jù)集成解決方案提供商Informatica這樣的公司早就在這個領域里發(fā)揮作用了。就最簡單的水平而言,數(shù)據(jù)清理涉及的任務包括刪除重復記錄和使地址字段正?;U雇磥?,數(shù)據(jù)清理很可能成為一項基于云計算的服務。8.1.5數(shù)據(jù)即服務3.數(shù)據(jù)保密隨著我們將更多的數(shù)據(jù)轉移到云中,并將自己的信息更多地公布到網(wǎng)上,人們對于數(shù)據(jù)保密的關注也與日俱增。盡管匿名數(shù)據(jù)往往無保密性可言,但據(jù)一項研究顯示,分析師們能夠看到電影觀賞的匿名數(shù)據(jù),并通過評價用戶張貼在互聯(lián)網(wǎng)電影數(shù)據(jù)庫上的影評,來確定哪位用戶觀看了哪部電影。在最近幾個月里,臉書已經(jīng)加強了對用戶分享信息的控制。在未來,可能出現(xiàn)這樣的大數(shù)據(jù)應用程序:不僅讓我們自己決定分享何種數(shù)據(jù),也幫助我們了解分享個人信息背后的隱藏含義——無論那些信息對我們是否進行了個人識別。云的挑戰(zhàn)8.1.68.1.6云的挑戰(zhàn)當然,許多人仍然對能否利用公共云基礎設施持有懷疑。過去,這項服務一直存在著三個潛在問題:企業(yè)覺得這項服務不安全。內部基礎設施被認為更有保障。許多大供應商根本不提供軟件的互聯(lián)網(wǎng)/云版本。公司必須購買硬件,自行運行軟件或者雇用第三方做這件事。難以將大量數(shù)據(jù)從內部系統(tǒng)中提取出來,存入云中。雖然第一個挑戰(zhàn)對于某些政府機構來說確實存在,但確有從事云存儲服務的企業(yè)證實他們能安全存儲許多公司的機密數(shù)據(jù),網(wǎng)上提供的越來越多的類似應用程序也正逐漸為企業(yè)所接受。8.1.6云的挑戰(zhàn)許多專家認為,對于真正的海量數(shù)據(jù)來說,源于公司內部部署的數(shù)據(jù)仍會保存在原處,源于云中的數(shù)據(jù)也是如此。但是隨著越來越多的業(yè)務線應用程序在網(wǎng)上實現(xiàn)應用,也會有越來越多的數(shù)據(jù)在云中生成,并保存在云中。借助大數(shù)據(jù),公司獲得了許多其他優(yōu)勢:他們花費在維護和部署硬件和軟件上的時間變少了,可以按需進行擴張。如果有公司需要擴大計算資源或存儲量,就不需要耗費數(shù)月時間,而只是分秒之間的事情。有了網(wǎng)上的應用程序,其最新版本一經(jīng)開放用戶就可以立刻使用了。雖然公司的花費受其選擇的公共云供應商控制,但云供應商之間的競爭不斷推動價格下降,顧客也依賴這些供應商提供可靠的服務。8.1.6云的挑戰(zhàn)在計算虛擬化、存儲虛擬化和網(wǎng)絡虛擬化解決了云計算的基本問題之后,如何提高云計算的安全性,成為云計算中一個重要課題。云計算在數(shù)據(jù)安全方面引入的新問題,譬如在云計算基礎架構服務層(IaaS),主要有:①新的安全問題,諸如信任問題(特指租客和云服務商之間),多租客之間的資源隔離問題;②對已有的安全攻擊,IaaS是否更容易被攻擊?或者存在新的技術方法去避免這些攻擊。8.1.6云的挑戰(zhàn)安全問題中的信任和隔離問題,源于云計算的新模型。在云計算基礎架構層,虛擬化技術由于在資源整合、利用、管理等方面的優(yōu)勢,成為IaaS中不可缺少的一部分。一般來講,管理計算資源的不再是操作系統(tǒng),取而代之的是虛擬機監(jiān)控器(VirtualMachineMonitor,VMM)。由于資源使用者和管理者角色的分離,衍生出IaaS使用者和IaaS提供者之間的信任問題。云資源的使用者稱為云租戶,比如,一個小型公司租賃了亞馬遜的EC2服務(主要指虛擬機),并在EC2上搭建了一個網(wǎng)站,那么這個公司就是亞馬遜EC2的租戶,而使用網(wǎng)站的用戶只是這個小公司的客戶。由于資源不由租客完全控制,那么租客就有疑問:怎么確定租賃的資源僅僅為我所用,而不被其他租客或者云管理員非法使用,導致數(shù)據(jù)的丟失或者泄露。可見,數(shù)據(jù)隱私保護是非常重要的。8.1.6云的挑戰(zhàn)隱私保護、數(shù)據(jù)備份、災難恢復、病毒防范、多點服務、數(shù)據(jù)加密、虛擬機隔離等等,這些都是云安全的研究課題?!咀鳂I(yè)】討論:【實訓操作】熟悉云端大數(shù)據(jù)的基礎設施討論:目錄1任務8.1:熟悉云時代背景下的大數(shù)據(jù)2任務8.2:把握大數(shù)據(jù)發(fā)展的未來

【導讀案例】智能大數(shù)據(jù)分析成熱點

【任務描述】【知識準備】數(shù)據(jù)科學的發(fā)展【作業(yè)】

【實訓操作】ETI企業(yè)的大數(shù)據(jù)之旅【導讀案例】智能大數(shù)據(jù)分析成熱點討論:(1)(1)你認為文中預測的大數(shù)據(jù)發(fā)展的10個方面,哪些方面已經(jīng)實現(xiàn)了?哪些方面尚未實現(xiàn)?(2)對于大數(shù)據(jù),如今“已經(jīng)少有人講重要性,更多是應用、技術以及最底層的算法”,那么,應用的熱點是什么?請簡述之。(3)文中稱,“對于大數(shù)據(jù)研究的難點,很多人把數(shù)據(jù)公開列在第一位”,你是否同意這樣的觀點?為什么?(4)請簡單記述你所知道的上一周內發(fā)生的國

際、國內或者身邊的大事?!救蝿彰枋觥浚?)了解新興學科——數(shù)據(jù)科學的基礎知識和主要內容。(2)熟悉數(shù)據(jù)工作者的技能要求、素質要求、知識結構和培養(yǎng)途徑。(3)認識“數(shù)據(jù)開放”的重要意義,重視隱私保護和信息安全。(4)認識投身大數(shù)據(jù)時代的積極意義,做大數(shù)據(jù)的先行者?!局R準備】數(shù)據(jù)科學的發(fā)展每當提及“數(shù)據(jù)科學”(datascience),人們總會聯(lián)想到另一個含義相近的名詞一一“商務智能”(BI)。而測量尺度和關鍵績效指標(KPI)通常是在聯(lián)機分析處理模式(OLAP)中定義,使得商務智能報表的內容能夠基于已定義的衡量標準。商務智能的典型技術和數(shù)據(jù)類型包括:標準和滿足特定需求的報表、信息面板、警報、查詢及細節(jié);結構化數(shù)據(jù)、傳統(tǒng)數(shù)據(jù)源、易操作的數(shù)據(jù)集?!局R準備】數(shù)據(jù)科學的發(fā)展另一方面,數(shù)據(jù)科學可以簡單地理解為預測分析和數(shù)據(jù)挖掘,是統(tǒng)計分析和機器學習技術的結合,用于獲取數(shù)據(jù)中的推斷和洞察力。相關方法包括回歸分析、關聯(lián)規(guī)則(比如市場購物籃分析)、優(yōu)化技術和仿真(比如蒙特卡羅仿真用于構建場景結果)。數(shù)據(jù)科學的典型技術和數(shù)據(jù)類型包括:優(yōu)化模型、預測模型、預報、統(tǒng)計分析;結構化/非結構化數(shù)據(jù)、多種類型數(shù)據(jù)源、超大數(shù)據(jù)集?!局R準備】數(shù)據(jù)科學的發(fā)展商務智能和數(shù)據(jù)科學都是企業(yè)所需要的,用于應對不斷出現(xiàn)的各種商業(yè)挑戰(zhàn)。商務智能和數(shù)據(jù)科學有不同的定位和范疇,商務智能更關注于過去的舊數(shù)據(jù),其結果的商業(yè)價值相對較低;而數(shù)據(jù)科學更著眼于新數(shù)據(jù)和對未來的預測,其商業(yè)價值相對更高。但是,它們并不存在一個明確的劃分,只是各有偏重而己。數(shù)據(jù)科學8.2.18.2.1數(shù)據(jù)科學大數(shù)據(jù)需要數(shù)據(jù)科學,數(shù)據(jù)科學要做到的不僅是存儲和管理,更重要的是預測式的分析(比如如果這樣做,會發(fā)生什么)。數(shù)據(jù)學科是統(tǒng)計學的論證,真正利用到統(tǒng)計學的力量,只有這樣才能夠從數(shù)據(jù)中獲得經(jīng)驗和未來方向的指導。但是,數(shù)據(jù)科學并非簡單的統(tǒng)計學,需要新的應用、新的平臺和新的數(shù)據(jù)觀,而不僅是現(xiàn)有的傳統(tǒng)的基礎架構與軟件平臺。通常,數(shù)據(jù)科學的實踐需要三個一般領域的技能,即:商業(yè)洞察、計算機技術/編程和統(tǒng)計學/數(shù)學。而另一方面,不同的工作對象,他的具體技能集合會有所不同。為探索數(shù)據(jù)科學家應該具有的職業(yè)技能,多個研究項目進行了不同的探索,綜合得出數(shù)據(jù)科學從業(yè)人員相關的25項技能(見表8-1)。8.2.1數(shù)據(jù)科學表8-1數(shù)據(jù)科學中25項技能8.2.1數(shù)據(jù)科學表8-1數(shù)據(jù)科學中25項技能(續(xù))*被訪者要求指出他們對上述25項技能有多熟悉,使用這樣的量表:不知道(0),略知(20),新手(40),熟練(60),非常熟練(80),專家(100)。8.2.1數(shù)據(jù)科學1.數(shù)據(jù)科學技能和熟練程度表8-1中列出的這25項技能,反映了通常與數(shù)據(jù)科學家相關的技能集合。在進行針對數(shù)據(jù)科學家的調查中,調查者要求數(shù)據(jù)專業(yè)人員指出他們在25項不同數(shù)據(jù)科學技能上的熟練程度。研究中,選擇“中等了解”水平作為數(shù)據(jù)專業(yè)人員擁有該技能的標準?!爸械攘私狻闭f明一個數(shù)據(jù)專業(yè)人員能夠按照要求完成任務,并且通常不需要他人的幫助。這項研究數(shù)據(jù)基于620名被訪的數(shù)據(jù)專業(yè)人士,具備某種技能的百分比反映了指出他在該技能上至少中等熟練程度的被訪問者比例職位角色,即:商業(yè)經(jīng)理=250;開發(fā)人員=222;創(chuàng)意人員=221;研究人員=353。8.2.1數(shù)據(jù)科學2.重要數(shù)據(jù)科學技能以擁有該技能的數(shù)據(jù)專業(yè)人員百分比對表8-1的25項技能進行排序。分析表明,所有數(shù)據(jù)專業(yè)人員中最常見的數(shù)據(jù)科學十大技能是:統(tǒng)計–溝通(87%)技術–處理結構化數(shù)據(jù)(75%)數(shù)學&建模–數(shù)學(71%)商業(yè)–項目管理(71%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(71%)統(tǒng)計–科學/科學方法(65%)統(tǒng)計–數(shù)據(jù)管理(65%)商業(yè)–產品設計和開發(fā)(59%)統(tǒng)計–統(tǒng)計學和統(tǒng)計建模(59%)商業(yè)–商業(yè)開發(fā)(53%)8.2.1數(shù)據(jù)科學許多重要的數(shù)據(jù)科學技能都屬于統(tǒng)計領域:所有的五項與統(tǒng)計相關的技能都出現(xiàn)在前10項中,包括溝通、數(shù)據(jù)挖掘和可視化工具、科學/科學方法、以及統(tǒng)計學和統(tǒng)計建模;另外,與商業(yè)洞察力相關的三項技能出現(xiàn)在前10,包括項目管理、產品設計以及開發(fā);而沒有編程技能出現(xiàn)在前10中。8.2.1數(shù)據(jù)科學3.因職業(yè)角色而異的十大技能下面,我們按不同的職業(yè)角色(商業(yè)經(jīng)理、開發(fā)人員、創(chuàng)意人員、研究人員)來看看他們的十大技能。分析中指出了對于每個職業(yè)角色的數(shù)據(jù)專業(yè)人士所擁有每項技能的頻率??梢钥吹剑恍┲匾獢?shù)據(jù)科學技能在不同角色中是通用的。這包括溝通、管理結構化數(shù)據(jù)、數(shù)學、項目管理、數(shù)據(jù)挖掘和可視化工具、數(shù)據(jù)管理、以及產品設計和開發(fā)。然而,除了這些相似之處還有相當大的差異。8.2.1數(shù)據(jù)科學(1)商業(yè)經(jīng)理:那些認為自己是商業(yè)經(jīng)理(尤其是領導者、商務人士和企業(yè)家)的數(shù)據(jù)專業(yè)人士中的十大數(shù)據(jù)科學技能是:統(tǒng)計–溝通(91%)商業(yè)–項目管理(86%)商業(yè)–商業(yè)開發(fā)(77%)技術–處理結構化數(shù)據(jù)(74%)商業(yè)–預算(71%)只與商業(yè)經(jīng)理相關的重要技能毫無疑問的是商業(yè)領域的。這些技能包括商業(yè)開發(fā)、預算、以及管理和兼容性。商業(yè)–產品設計和開發(fā)(70%)數(shù)學&建模–數(shù)學(65%)統(tǒng)計–數(shù)據(jù)管理(64%)統(tǒng)計--數(shù)據(jù)挖掘和可視化工具(64%)商業(yè)–管理和兼容性(61%)8.2.1數(shù)據(jù)科學(2)開發(fā)人員:那些認為自己是開發(fā)工作者(尤其是開發(fā)者和工程師)的數(shù)據(jù)專業(yè)人士中的十大數(shù)據(jù)科學技能是:技術–管理結構化數(shù)據(jù)(91%)統(tǒng)計–溝通(85%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(76%)商業(yè)–產品設計(75%)數(shù)學&建模–數(shù)學(75%)統(tǒng)計–數(shù)據(jù)管理(75%)商業(yè)–項目管理(74%)編程–數(shù)據(jù)庫管理(73%)編程–后端編程(70%)編程–系統(tǒng)管理(65%)8.2.1數(shù)據(jù)科學只與開發(fā)者相關的技能是技術和編程。這些重要的技能包括后端編程、系統(tǒng)管理以及數(shù)據(jù)庫管理。雖然這些數(shù)據(jù)專業(yè)人員具備這些技能,但是他們中只有少數(shù)人擁有那些在大數(shù)據(jù)世界中很重要的,更加技術化、更加依賴編程的技能。例如,少于一半人掌握云管理(42%),大數(shù)據(jù)和分布式數(shù)據(jù)(48%)和NLP以及文本挖掘(42%)。思考這些百分比是否會隨著更多數(shù)據(jù)科學項目的畢業(yè)生開始就業(yè)而上升。8.2.1數(shù)據(jù)科學(3)創(chuàng)意人員:那些認為自己是創(chuàng)意工作者(尤其是藝術家和黑客)的數(shù)據(jù)專業(yè)人士中的十大數(shù)據(jù)科學技能是:統(tǒng)計–溝通(87%)技術–處理結構化數(shù)據(jù)(79%)商業(yè)–項目管理(77%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(77%)數(shù)學&建模–數(shù)學(75%)這里并沒有指針對創(chuàng)意人員的重要技能。事實上,他們的重要數(shù)據(jù)科學技能列表與那些研究者緊密匹配,十項中有八項一致。商業(yè)–產品設計和開發(fā)(68%)統(tǒng)計–科學/科學方法(68%)統(tǒng)計–數(shù)據(jù)管理(67%)統(tǒng)計–統(tǒng)計學和統(tǒng)計建模(63%)商業(yè)–商業(yè)開發(fā)(58%)8.2.1數(shù)據(jù)科學(4)研究人員:那些認為自己是研究工作者(尤其是研究員、科學家和統(tǒng)計學家)的數(shù)據(jù)專業(yè)人士中的十大數(shù)據(jù)科學技能是:統(tǒng)計–溝通(90%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(81%)數(shù)學&建模–數(shù)學(80%)統(tǒng)計–科學/科學方法(78%)統(tǒng)計–統(tǒng)計學和統(tǒng)計建模(75%)研究人員的重要數(shù)據(jù)科學技能主要在統(tǒng)計領域。另外,只在研究工作者上體現(xiàn)的重要數(shù)據(jù)科學技能是高度定量性質,包括機器學習和最優(yōu)化。技術–處理結構化數(shù)據(jù)(73%)統(tǒng)計–數(shù)據(jù)管理(69%)商業(yè)–項目管理(68%)技術–機器學習(58%)數(shù)學–最優(yōu)化(56%)8.2.1數(shù)據(jù)科學4.按職業(yè)角色的重要技能上述研究所列舉的重要數(shù)據(jù)科學技能取決于你正在考慮成為哪種類型的數(shù)據(jù)專業(yè)人員。雖然一些技能看起來在不同專業(yè)人士間通用(尤其是溝通、處理結構化數(shù)據(jù)、數(shù)學、項目管理、數(shù)據(jù)挖掘和可視化工具、數(shù)據(jù)管理,以及產品設計和開發(fā)),但是其他數(shù)據(jù)科學技能對特定領域也有獨特之處。開發(fā)人員的重要技能包含編程技能,研究人員則包含數(shù)學相關的技能,當然商業(yè)經(jīng)理的重要技能包含商業(yè)相關的技能。這些結果對數(shù)據(jù)專業(yè)人員感興趣的領域和他們的招聘者及組織都有影響。數(shù)據(jù)專業(yè)人員可以使用結果來了解不同類型工作需要具備的技能種類。如果你有較強的統(tǒng)計能力,你可能會尋找一個有較強研究成分的工作。了解你的技能并找那些對應的工作。數(shù)據(jù)科學家與數(shù)據(jù)工作者8.2.28.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者通常,企業(yè)自身業(yè)務所產生的數(shù)據(jù),再加上政府公開的統(tǒng)計數(shù)據(jù),還有與數(shù)據(jù)聚合商等其他公司結成的戰(zhàn)略聯(lián)盟等,通過這些手段就可以獲得業(yè)務上所需的數(shù)據(jù)了。從技術方面來看,硬盤價格下降,NoSQL數(shù)據(jù)庫等技術的出現(xiàn),使得和過去相比,大量數(shù)據(jù)能夠以廉價高效的方式進行存儲。此外,像Hadoop這樣能夠在通用性服務器上工作的分布式處理技術的出現(xiàn),也使得對龐大的非結構化數(shù)據(jù)進行統(tǒng)計處理的工作比以往更快速且更廉價。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者然而,就算所擁有的工具再完美,工具本身是不可能讓數(shù)據(jù)產生價值的。事實上,我們還需要能夠運用這些工具的專門人才,他們能夠從堆積如山的大量數(shù)據(jù)中找到金礦,并將數(shù)據(jù)的價值以易懂的形式傳達給決策者,最終得以在業(yè)務上實現(xiàn),具備這些技能的人才就是數(shù)據(jù)科學家(datascientist)和數(shù)據(jù)工作者。數(shù)據(jù)科學家很可能是如今最熱門的頭銜之一,他們是數(shù)據(jù)科學行業(yè)的高層人才。數(shù)據(jù)科學家會利用最新的科技手段處理原始數(shù)據(jù),進行必要的分析,并以一種信息化的方式將獲得的知識展示給他的同事。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者1.大數(shù)據(jù)生態(tài)系統(tǒng)中的關鍵角色大數(shù)據(jù)的出現(xiàn),催生了新的數(shù)據(jù)生態(tài)系統(tǒng)。為了提供有效的數(shù)據(jù)服務,它需要3種典型角色。表8-2介紹了這3種角色,以及每種角色具有代表性的專業(yè)人員舉例。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者表8-2新數(shù)據(jù)生態(tài)系統(tǒng)中的三個關鍵角色8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者典型的分析型項目需要多種角色。值得注意的是,數(shù)據(jù)科學家自身結合了多種以前被分離的技能,成為一個單一的角色。以前是不同的人用于一個項日的各個方面,比如,有的人去應對業(yè)務線上的終端用戶,另外的具有技術和定量專長的人去解決分析問題。數(shù)據(jù)科學家是這些方面的結合體,有助于提供連續(xù)性的分析過程。對數(shù)據(jù)科學家的關注,源于大家逐步認識到,谷歌、亞馬遜、臉書等公司成功的背后,存在著這樣的一批專業(yè)人才。這些互聯(lián)網(wǎng)公司對于大量數(shù)據(jù)不是僅進行存儲而已,而是將其變?yōu)橛袃r值的金礦―例如,搜索結果、定向廣告、準確的商品推薦、可能認識的好友列表等。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者數(shù)據(jù)科學是一個很久之前就存在的詞匯,但數(shù)據(jù)科學家卻是幾年前突然出現(xiàn)的一個新詞。關于這個詞的起源說法不一,其中在《數(shù)據(jù)之美》(TobySegaran、JeffHammerbacher編著)一書中,對于臉書的數(shù)據(jù)科學家,有如下敘述:“在臉書,我們發(fā)現(xiàn)傳統(tǒng)的頭銜如商業(yè)分析師、統(tǒng)計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的:在任意給定的一天,團隊的一個成員可以用Python實現(xiàn)一個多階段的處理管道流、設計假設檢驗、用工具R在數(shù)據(jù)樣本上執(zhí)行回歸測試、在Hadoop上為數(shù)據(jù)密集型產品或服務設計和實現(xiàn)算法,或者把我們分析的結果以清晰簡潔的方式展示給企業(yè)的其他成員。為了掌握完成這多方面任務需要的技術,我們創(chuàng)造了‘數(shù)據(jù)科學家’這種角色?!薄?.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者僅僅在幾年前,數(shù)據(jù)科學家還不是一個正式確定的職業(yè),然而很快,這個職業(yè)就已經(jīng)被譽為“今后10年IT行業(yè)最重要的人才”了。谷歌首席經(jīng)濟學家、加州大學伯克利分校教授哈爾·范里安(1948-)在2008年10月與麥肯錫總監(jiān)JamesManyika先生的對話中,曾經(jīng)講過下面一段話?!拔铱偸钦f,在未來10年里,最有意思的工作將是統(tǒng)計學家。人們都認為我在開玩笑。但是,過去誰能想到電腦工程師會成為20世紀90年代最有趣的工作?在未來10年里,獲取數(shù)據(jù)一一以便能理解它、處理它、從中提取價值、使其形象化、傳送它一一的能力將成為一種極其重要的技能,不僅在專業(yè)層面上是這樣,而且在教育層面(包括對中小學生、高中生和大學生的教育)也是如此。由于如今我們已真正擁有實質上免費的和無所不在的數(shù)據(jù),因此,與此互補的稀缺要素是理解這些數(shù)據(jù)并從中提取價值的能力?!?.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者范里安教授在當初的對話中使用的是statisticians(統(tǒng)計學家)一詞,雖然當時他沒有使用數(shù)據(jù)科學家這個詞,但這里所指的,正是現(xiàn)在我們所討論的數(shù)據(jù)科學家。數(shù)據(jù)科學家的關鍵活動包括:將商業(yè)挑戰(zhàn)構建成數(shù)據(jù)分析問題;在大數(shù)據(jù)上設計、實現(xiàn)和部署統(tǒng)計模型和數(shù)據(jù)挖掘方法;獲取有助于引領可操作建議的洞察力。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者2.數(shù)據(jù)科學家所需的技能數(shù)據(jù)科學家這一職業(yè)并沒有固定的定義,但大體上指的是這樣的人才:“是指運用統(tǒng)計分析、機器學習、分布式處理等技術,從大量數(shù)據(jù)中提取出對業(yè)務有意義的信息,以易懂的形式傳達給決策者,并創(chuàng)造出新的數(shù)據(jù)運用服務的人才?!?.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者數(shù)據(jù)科學家所需的技能如下。(1)計算機科學。一般來說,數(shù)據(jù)科學家大多要求具備編程、計算機科學相關的專業(yè)背景。簡單來說,就是對處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術與機器學習相關的技能。(2)數(shù)學、統(tǒng)計、數(shù)據(jù)挖掘等。除了數(shù)學、統(tǒng)計方面的素養(yǎng)之外,還需要具備使用SPSS、SAS等主流統(tǒng)計分析軟件的技能。其中,面向統(tǒng)計分析的開源編程語言及其運行環(huán)境R最近備受矚目。R的強項不僅在于其包含了豐富的統(tǒng)計分析庫,而且具備將結果進行可視化的高品質圖表生成功能,并可以通過簡單的命令來運行。此外,它還具備稱為CRAN(TheComprehensiveRArchiveNetwork)的包擴展機制,通過導入擴展包就可以使用標準狀態(tài)下所不支持的函數(shù)和數(shù)據(jù)集。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者(3)數(shù)據(jù)可視化。信息的質量很大程度上依賴于其表達方式。對數(shù)字羅列所組成的數(shù)據(jù)中所包含的意義進行分析,開發(fā)Web原型,使用外部API將圖表、地圖等其他服務統(tǒng)一起來,從而使分析結果可視化,這是對于數(shù)據(jù)科學家來說十分重要的技能之一。將數(shù)據(jù)與設計相結合,讓晦澀難懂的信息以易懂的形式進行圖形化展現(xiàn)的信息圖最近正受到越來越多的關注,這也是數(shù)據(jù)可視

化的手法之一。

圖8-5信息圖的示例8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者作為參考,下面節(jié)選了臉書和推特的數(shù)據(jù)科學家招聘啟事。對于現(xiàn)實中的企業(yè)需要怎樣的技能,這則啟事應該可以為大家提供一些更實際的體會。臉書招聘數(shù)據(jù)科學家臉書計劃為數(shù)據(jù)科學團隊招聘數(shù)據(jù)科學家。應聘該崗位的人,將擔任軟件工程師、量化研究員的工作。理想的候選人應對在線社交網(wǎng)絡的研究有濃厚興趣,能夠找出創(chuàng)造最佳產品過程中所遇到的課題,并對解決這些課題擁有熱情。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者職務內容確定重要的產品課題,并與產品工程團隊密切合作尋求解決方案通過對數(shù)據(jù)運用合適的統(tǒng)計技術來解決課題將結論傳達給產品經(jīng)理和工程師推進新數(shù)據(jù)的收集以及對現(xiàn)有數(shù)據(jù)源的改良。對產品的實驗結果進行分析和解讀找到測量、實驗的最佳實踐方法,傳達給產品工程團隊必要條件相關技術領域的碩士或博士學位,或者具備4年以上相關工作經(jīng)驗對使用定量手段解決分析性課題擁有豐富的經(jīng)驗8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者能夠輕松操作和分析來自各方的、復雜且大量的多維數(shù)據(jù)對實證性研究以及解決數(shù)據(jù)相關的難題擁有極大的熱情能對各種精度級別的結果采用靈活的分析手段具備以實際、準確且可行的方法傳達復雜定量分析的能力至少熟練掌握一種腳本語言,如Python、PHP等精通關系型數(shù)據(jù)庫和SQL對R、MATLAB、SAS等分析工具具備專業(yè)知識具備處理大量數(shù)據(jù)集的經(jīng)驗,以及使用MapReduce、Hadoop、Hive等分布式計算工具的經(jīng)驗8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者推特招聘數(shù)據(jù)科學家(負責增加用戶數(shù)量)關于業(yè)務內容推特計劃招聘能夠為增加其用戶數(shù)提供信息和方向、具備行動力和高超技能的人才。應聘者需要具備統(tǒng)計和建模方面的專業(yè)背景,以及大規(guī)模數(shù)據(jù)集處理方面的豐富經(jīng)驗。我們期待應聘者所具有的判斷力能夠在多個層面上決定推特產品群的方向。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者職責使用Hadoop、Pig編寫MapReduce格式的數(shù)據(jù)分析能夠針對臨時數(shù)據(jù)挖掘流程和標準數(shù)據(jù)挖掘流程編寫復雜的SQL查詢能夠使用SQL、Pig、腳本語言、統(tǒng)計軟件包編寫代碼以口頭及書面形式對分析結果進行總結并做出報告每天對數(shù)TB規(guī)模、10億條以上事務級別的大規(guī)模結構化及非結構化數(shù)據(jù)進行處理8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者必要條件計算機科學、數(shù)學、統(tǒng)計學的碩士學位或者同等的經(jīng)驗2年以上數(shù)據(jù)分析經(jīng)驗大規(guī)模數(shù)據(jù)集及Hadoop等MapReduce架構方面的經(jīng)驗腳本語言及正則表達式等方面的經(jīng)驗對離散數(shù)學、統(tǒng)計、概率方面感興趣將業(yè)務需求映射到工程系統(tǒng)方面的經(jīng)驗8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者3.數(shù)據(jù)科學家所需的素質僅僅四、五年前,對數(shù)據(jù)科學家的需求還僅限于谷歌、亞馬遜等互聯(lián)網(wǎng)企業(yè)中。然而在最近,重視數(shù)據(jù)分析的企業(yè),無論是哪個行業(yè),都在積極招募數(shù)據(jù)科學家。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者通常,數(shù)據(jù)科學家所需要具備的素質有以下這些:(1)溝通能力:即便從大數(shù)據(jù)中得到了有用的信息,但如果無法將其在業(yè)務上實現(xiàn)的話,其價值就會大打折扣。為此,面對缺乏數(shù)據(jù)分析知識的業(yè)務部門員工以及經(jīng)營管理層,將數(shù)據(jù)分析的結果有效傳達給他們的能力是非常重要的。(2)創(chuàng)業(yè)精神:以世界上尚不存在的數(shù)據(jù)為中心創(chuàng)造新型服務的創(chuàng)業(yè)精神,也是數(shù)據(jù)科學家所必需的一個重要素質。谷歌、亞馬遜、臉書等通過數(shù)據(jù)催生出新型服務的企業(yè),都是通過對龐大的數(shù)據(jù)到底能創(chuàng)造出怎樣的服務進行艱苦的探索才獲得成功的。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者(3)好奇心:龐大的數(shù)據(jù)背后到底隱藏著什么,要找出答案需要很強的好奇心。除此之外,成功的數(shù)據(jù)科學家都有一個共同點,即并非局限于藝術、技術、醫(yī)療、自然科學等特定領域,而是對各個領域都擁有旺盛的好奇心。通過對不同領域數(shù)據(jù)的整合和分析,就有可能發(fā)現(xiàn)以前從未發(fā)現(xiàn)過的有價值的觀點。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者美國的數(shù)據(jù)科學家大多擁有豐富的從業(yè)經(jīng)歷,如實驗物理學家、計算機化學家、海洋學家,甚至是神經(jīng)外科醫(yī)生等。也許有人認為這是人才流動性高的美國所特有的現(xiàn)象,但其實在中國,也出現(xiàn)了一些積極招募不同職業(yè)背景人才的企業(yè),這樣的局面距離我們已經(jīng)不再遙遠。數(shù)據(jù)科學家需要具備廣泛的技能和素質,因此預計這一職位將會陷入供不應求的狀態(tài)。麥肯錫全球研究院(MGI)的一項研究調查表明:首先,三分之二的參加者認為數(shù)據(jù)科學家供不應求。這一點與前面提到的麥肯錫的報告是相同的。8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者對于新的數(shù)據(jù)科學家供給來源,有三分之一的人期待“計算機科學專業(yè)的學生”,排名第一,而另一方面,期待現(xiàn)有商務智能專家的卻只有12%,這一結果比較出人意料(見圖)。也就是說,大部分人認為,現(xiàn)在的商務智能專家無法滿足對數(shù)據(jù)科學家的需求。圖8-6數(shù)據(jù)科學家人才新的供給來源8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者數(shù)據(jù)科學家與商務智能專家之間的區(qū)別在于,從包括公司外部數(shù)據(jù)在內的數(shù)據(jù)獲取階段,一直到基于數(shù)據(jù)最終產生業(yè)務上的決策,數(shù)據(jù)科學家大多會深入數(shù)據(jù)的整個生命周期。這一過程中也包括對數(shù)據(jù)的過濾、系統(tǒng)化、可視化等工作(見圖)。圖8-7數(shù)據(jù)科學家參與了數(shù)據(jù)的整個生命周期8.2.2數(shù)據(jù)科學家與數(shù)據(jù)工作者關于數(shù)據(jù)科學家與商務智能專家的專業(yè)背景,有一些重要的調查

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論