大數據導論PPT全套完整教學課件_第1頁
大數據導論PPT全套完整教學課件_第2頁
大數據導論PPT全套完整教學課件_第3頁
大數據導論PPT全套完整教學課件_第4頁
大數據導論PPT全套完整教學課件_第5頁
已閱讀5頁,還剩337頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據概述第一章隨著信息技術的迅猛發(fā)展和普及應用,行業(yè)應用系統(tǒng)的規(guī)模迅速擴大,其所產生的數據呈指數型增長。達到PB(1024TB)級規(guī)模的海量數據已遠遠超出了傳統(tǒng)的計算技術和信息系統(tǒng)的處理能力,從而促進了大數據(BigData)的產生。LOGO第1章大數據概述1117第2章大數據與云計算第3章從產業(yè)結構來探索大數據技術第4章大數據的硬件架構——集群第5章大數據開發(fā)與計算技術第6章大數據存儲技術第7章大數據分析第8章大數據與人工智能大數據概述什么是大數據01大數據的數據特征及對科學研究的影響02大數據的數據類型03大數據的可用性及衍生價值04大數據的發(fā)展趨勢05什么是大數據目前,我們已經進入大數據時代,但對很多人來說,什么是大數據,大數據是怎么產生的,它有什么用?從計算機的角度認識從信息時代怎么進入大數據時代的,這些東西并不清楚,所以本節(jié)主要解決以上問題,讓我們能夠從科學的角度認識大數據。PART01大數據的人才培養(yǎng)大數據的人才培養(yǎng)大數據的人才培養(yǎng)數據分析師能力數據分析概念與統(tǒng)計學SQL數據庫基礎數據采集與處理數據建模分析具有數據分析的概念及方法論;可以分析描述性統(tǒng)計分析和推斷性統(tǒng)計分析;方差分析;回歸分析等能力具有SQL關系型數據庫基本概念;熟練使用增刪改查SQL語言;熟練使用SQL函數;對事務和多用戶并發(fā)有處理辦法等掌握數據采集的方法;做過市場調研;掌握數據預處理方法;可以將數據可視化等掌握主成分分析法;因子分析法;多元回歸分析法;聚類分析法;時間序列等大數據的人才培養(yǎng)大數據的人才培養(yǎng)大數據分析師能力大數據基礎理論Hadoop理論數據庫理論及工具數據挖掘具有大數據分析基礎;Python基礎;Linux&Ubuntu操作系統(tǒng)基礎等具有Hadoop相關知識;了解HDFS分布式文件系統(tǒng);MapReduce理論實戰(zhàn)等Hadoop其他組件具有數據庫理論基礎;熟練掌握MySQL或Oracle數據庫或其他關系型數據庫;Hbase,Hive,Sqoop使用;具有數據挖掘基本思想;掌握有監(jiān)督和無監(jiān)督學習算法Spark工具及實戰(zhàn)大數據可視化大數據分析實戰(zhàn)掌握Spark理論;SparkRDD基本概念及操作;Spark流式計算框架SparkStreaming、StructuredStreaming;Spark機器學習算法庫SparkMLlib基本使用方法掌握數據可視化基礎;Python數據可視化;Python高級數據可視化方法可以利用HDFSShell操作HDFS文件系統(tǒng);利用HiveSQL進行數據清洗;;利用Sqoop進行數據傳輸;利用SparkSQL進行數據讀?。焕肧parkMLlib進行機器學習建模;利用Python進行建模結果數據可視化生產數據的三個階段1.被動式生成數據是由于數據庫技術的產生2.主動式生成數據是由于萬維網的發(fā)明與發(fā)展3.感知生成數據是由于物聯(lián)網的飛速發(fā)展“”1.1.1大數據的來源數據庫技術使數據的保存和管理變得簡單,業(yè)務系統(tǒng)在運行時產生的數據直接保存數據庫中,這個時候數據的產生是被動的,數據是隨著業(yè)務系統(tǒng)的運行產生的,并且更多地依賴人工收集數據。.被動式生成數據是由于數據庫技術的產生Web2.0的發(fā)展大大加速了數據的產生,人們可以通過手機、電腦等終端隨時隨地生成數據。據統(tǒng)計,在1分鐘內,新浪平均有2萬條微博產生,蘋果商店平均有4.7萬次應用下載,淘寶平均有6萬件商品交易記錄,百度大約產生了90萬次的搜索查詢,數據的生成相比之前大大加速。主動式生成數據是由于萬維網的發(fā)明與發(fā)展感知技術尤其是物聯(lián)網的發(fā)展促進了數據生成方式發(fā)生了根本性的變化。各種智能傳感設備、智能儀表、監(jiān)控探頭和GPS(GlobalPositioningSystem,全球定位系統(tǒng))定位等數據采集設備源源不斷地自動采集、生成數據。感知生成數據是由于物聯(lián)網的飛速發(fā)展1.1.1大數據的來源利用大數據1.1.1大數據的來源以2018年雙11期間,淘寶和天貓共實現2135億的交易額為例,其服務所支撐的用戶點擊所產生的數據量是海量并且是非結構化數據,用戶所產生的數據是一項寶貴的資源,若能從這類海量數據中快速地分析出數據的價值,便可以用于分析并理解客戶的市場需求,積極改善公司的市場設施配置策略和服務模式,還可以極大地提高服務的用戶體驗。大數據的產生首先源于互聯(lián)網企業(yè)對于日益增長的網絡數據分析的需求,如圖所示。利用大數據-問題的產生1.1.1大數據的來源

有效地為如此巨大的用戶群體服務,讓他們參與時能夠享受方便、快捷的服務,成為網站不得不解決的一個問題。為了解決大型網站的訪問量大、并發(fā)量高、海量數據的問題,一般會考慮業(yè)務拆分和分布式部署。由于海量非結構化、半結構化數據的出現,數據已沒有辦法在可容忍的時間內,使用常規(guī)軟件方法完成存儲、管理和處理任務??焖僭鲩L的數據量要求數據處理的速度也要緊跟其步伐,才能使得獲取到大量的數據被有效利用,否則,快速增長的數據量會成為解決問題的負擔。在獲取數據的過程中,數據不是一成不變的,而是隨著互聯(lián)網在時時發(fā)生變化,通常這樣的數據價值會隨著時間的推移而呈現降低的趨勢,如果數據在獲取時間內沒有得到有效的處理,就會導致其失去價值。各個機構對大數據的描述1.1.2大數據的定義維基百科將大數據描述為:大數據又稱為巨量數據、海量數據,指的是傳統(tǒng)數據處理應用軟件不足以處理它們大或復雜的數據集的術語。麥肯錫全球研究所對大數據的解釋:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數據庫軟件工具能力范圍的數據集合,具有海量的數據規(guī)模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。研究機構Gartner(第一家信息技術研究和分析的公司)對大數據的解釋:大數據是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產。簡而言之,大數據是現有數據庫管理工具和傳統(tǒng)數據處理應用方法很難處理的大型、復雜的數據集,大數據技術的范疇包括大數據的采集、存儲、搜索、共享、傳輸、分析和可視化等。從某種程度上說,大數據是數據分析的前沿技術,即從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。1.1.3從信息技術(IT)轉向數據技術(DT)

李國杰院士認為:信息系統(tǒng)需要從數據圍繞著處理器轉改為處理能力圍繞著數據轉,將計算用于數據,而不是將數據用于計算?;仡櫽嬎銠C技術的發(fā)展歷程,可以清晰地看到計算機技術從面向計算逐步轉變到面向數據的過程,面向數據也可以更準確地稱為“面向數據的計算”。面向數據要求系統(tǒng)的設計和架構以圍繞數據為核心開展。這一過程的描述如圖所示,該圖從硬件、網絡和云計算的演進過程等方面以時間為順序進行了縱向和橫向的對比。大數據的數據特征及對科學研究的影響大數據是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。所以要對大數據進行處理,首先應該先了解大數據的數據特征,進行針對性處理。下面主要講解大數據的4V特征及其對科學研究有哪些影響。PART021.2.1大數據的數據4V特征

第一個特征是數據量大(Volume),或者叫大量化、規(guī)模性。需要采集、處理、傳輸的數據量大,數據的大小決定所考慮的數據的價值和潛在的信息。處理PB級的數據是比較常態(tài)的情況。企業(yè)內部的經營交易信息,網絡世界中的商品、物流信息,人與人的交互信息、位置信息等都是大數據的主要來源。第二個特征是數據類型繁多(Variety),也叫多樣性。包括網絡日志、音頻、視頻、圖片、地理位置信息等,數據的種類多、復雜性高。大數據有不同格式,有結構化的關系型數據,有半結構化的網頁數據,還有非結構化的視頻音頻數據。這些非結構化數據廣泛存在于社交網絡、物聯(lián)網、電子商務之中,其增長速度比結構化數據快10倍到50倍。多類型的數據對數據的處理能力提出了更高的要求。1.2.1大數據的數據4V特征

第三個特征是處理速度快,時效性高(Velocity),也叫高速性。獲得數據的速度快速增長,數據需要頻繁地采集、處理并輸出;因為數據會存在時效性,需要快速處理,并得到結果。如一些電商數據,如果當天的信息不處理,就將會影響到很多需要立即做出的商業(yè)決策。要達到立竿見影而非事后見效,實現實時獲取需要的信息,1秒是臨界點,即對于很多實時大數據應用而言,必須要在1秒鐘內進行處理,否則處理結果就是過時和無效的。這也是大數據區(qū)分于傳統(tǒng)數據挖掘最顯著的特征。

第四個特征是數據價值密度低(Value)。如隨著物聯(lián)網的廣泛應用,信息感知無處不在,大量的不相關信息不經過處理則價值較低,挖掘大數據的價值類似于沙里淘金。如何通過強大的機器算法更迅速地完成數據的價值“提純”是目前大數據要解決的問題,即合理運用大數據,以低成本創(chuàng)造高價值。。1.促進了科學研究的第四范式產生1.2.1大數據的數據4V特征

大數據技術的戰(zhàn)略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業(yè)化處理。換而言之,如果把大數據比作一種產業(yè),那么這種產業(yè)實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。

大數據的產生和信息技術領域提出的面向數據的概念同時也開始深刻地改變了科學研究的模式,2007年,已故的圖靈獎得主吉姆·格雷(JimGray,數據庫基本理論的奠基人,如圖所示)提出了數據密集型科研“第四范式(TheFourthParadigm)”。他將大數據科研從第三范式中分離出來單獨作為一種科研范式,他認為利用海量的數據可以為科學研究和知識發(fā)現提供除經驗、理論、計算外的第四種重要方法。1.促進了科學研究的第四范式產生1.2.1大數據的數據4V特征

第一范式——實驗,人類早期知識的發(fā)現主要依賴于經驗、觀察和實驗,需要的計算和產生的數據很少。當人類知識積累到一定的程度后,知識逐漸形成了理論體系,這時進入第二范式——理論,通過理論研究發(fā)現知識。計算機的出現為人類發(fā)現新的知識提供了重要的工具,這時進入第三范式——計算,通過計算發(fā)現知識?,F在人類在一年內所產生的數據已經超過人類過去幾千年產生的數據的總和,目前的數據處理方法在面對龐大的數據時顯得力不從心,人類逐步進入面向數據的時代,這時進入第四范式——數據,通過數據發(fā)現知識,利用海量數據加上高速計算發(fā)現新的知識是數據密集型的科學發(fā)現。2.促進了交叉學科的發(fā)展1.2.1大數據的數據4V特征目前,社會科學、自然科學和人文科學只是學術建制意義上的區(qū)分,它們之間已經有著密切的聯(lián)系,不再像以前是孤立的存在。自然科學的根本目的在于發(fā)現自然現象背后的規(guī)律。20世紀50年代之前,社會科學與自然科學相對獨立,跨學科交叉研究基本沒有。繼物理計算和生物計算之后,社會計算(SocialComputing)可能成為科學計算研發(fā)的新焦點,并產生新的方向和領域。大數據的數據類型PART031.3大數據的數據類型

大數據包括結構化、半結構化和非結構化數據,半結構化和非結構化數據越來越成為數據的主要部分。據IDC的調查報告顯示:半結構化和非結構化數據快速增長,企業(yè)中80%~90%的數據都是半結構化和非結構化數據,這些數據每年都按指數增長60%,如圖所示。1.3大數據的數據類型結構化數據也稱作行數據,是指可以用二維表結構來邏輯表達實現的數據(如學生成績表),嚴格地遵循數據格式與長度規(guī)范,主要通過關系型數據庫進行存儲和管理。如MySQL、Oracle、SQLServer等可以存儲表現二維形式的數據。結構化數據的一般特點是:數據以行為單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。但它的擴展性不好,如增加一個字段。結構化數據通常按照特定的應用對事物進行相應的抽象,數據最終以表格的形式保存在數據庫中,數據格式統(tǒng)一,呈現大眾化、標準化的特點。結合到典型場景中更容易理解,如企業(yè)ERP(EnterpriseResourcePlanning,企業(yè)資源計劃)、財務系統(tǒng)、醫(yī)療HIS(HospitalInformationSystem)數據庫、教育一卡通、政府行政審批和其他核心數據庫等。1.結構化數據1.3大數據的數據類型與結構化數據相對的是不適于用數據庫二維表來表現的數據,可以說都是非結構化數據。非結構化數據沒有統(tǒng)一的數據結構屬性,一般直接整體進行存儲,并且一般存儲為二進制數據格式。包含全部格式的辦公文檔(如Word、PPT)、文本、日志、圖片、音頻、視頻、地形等數據。除了存儲在關系數據庫和存儲在一個關系數據庫之外的明顯區(qū)別之外,結構化數據和非結構化數據最大的區(qū)別在于分析結構化數據與非結構化數據的便利性。相對于特定場景的應用,大數據關注非結構化數據的價值密度較低。整體而言,非結構化數據的增長速度比結構化數據的增長速度快10倍到50倍,但這并不意味著結構化數據或者半結構化數據將面臨淘汰的局面,具體的使用情況以實際的應用場景為準。但有了海量的非結構化數據,必須想辦法存儲和分析,從中挖掘出有價值的信息,為社會提供更好的服務。2.非結構化數據1.3大數據的數據類型半結構化數據是介于結構化數據和非結構化數據之間的數據,如標記語言XML、HTML文檔、電子郵件等屬于半結構化數據。電子郵件的本地元數據可以實現分類和關鍵字搜索,不需要任何其他工具,所以半結構化數據一般是自描述的,數據的結構和內容混在一起,沒有明顯的區(qū)分。目前,對于半結構化的數據的存儲多采用NoSQL數據庫,NoSQL泛指非關系型的數據庫。Google的BigTable和Amazon的Dynamo使用的就是NoSQL型數據庫。NoSQL不會將組織(模式)與數據分開,這使得NoSQL成為存儲半結構化數據更好的選擇。但NoSQL數據庫正處于探索階段。無論企業(yè)的業(yè)務具體是什么,其目標都是挖掘業(yè)務價值,無論數據是結構化數據、半結構化數據還是非結構化數據,它們都可能具有很高的價值。需要創(chuàng)新工具,實現匯總、查詢、分析和利用所有數據類型,以便在整個企業(yè)數據范圍內獲得更加深入的業(yè)務洞察力。3.半結構化數據大數據的可用性及衍生價值PART041.4大數據的可用性及衍生價值

進入大數據時代以來,全人類積累了海量的數據,這些數據仍在不斷急速增加,這帶來兩個方面的巨變:一方面,在過去沒有海量數據積累的時代無法實現的應用現在終于可以實現;另一方面,從數據匱乏時代到數據泛濫時代的轉變,給數據的處理和應用帶來新的挑戰(zhàn)與困擾,即如何從海量數據中高效地獲取數據,有效地深加工并最終得到有價值意義的數據。大數據的一個重要方面是數據的可用性。大數據的另一個重要方面是數據的復雜性。

大數據可以在眾多領域創(chuàng)造巨大的衍生價值,使得未來企業(yè)投資重點不再是以建系統(tǒng)為核心,而是以大數據為核心,處理大數據的效率逐漸成為企業(yè)的生命力。1.4大數據的可用性及衍生價值大數據系統(tǒng)里面都有什么東西呢?1.4大數據的可用性及衍生價值大數據涵蓋了計算和數據兩大主題在存儲上,HDFS的分布式存儲可以任意水平擴展,可以解決數據存儲的難題。在計算上,從最初的MapReduce,把任務水平拆分,多臺機器并行計算,再匯總結果,到基于Spark的內存計算,改造MapReduce每次數據存盤以及編程方式的痛點。有了存儲和計算框架,周邊就衍生出了很多管理、緩存相關的技術,如Yarn解決多租戶資源調度的難題,Flume解決數據傳輸的難題,Sqoop解決分布式存儲數據與傳統(tǒng)DB數據之間的轉換,Oozie解決了大數據計算任務的調度,Kafka提供了發(fā)布訂閱機制的消息隊列,ZooKeeper可以幫助用戶完成主備的選舉,Hive在HDFS的基礎上提供了數據倉庫的功能,Hbase是基于HDFS實現的列式數據庫等。大數據的發(fā)展趨勢PART051.5大數據的發(fā)展趨勢從目前發(fā)展形勢可以看出,大數據主要有以下八種發(fā)展趨勢(1)數據的資源化是指大數據成為企業(yè)和社會關注的重要戰(zhàn)略資源,已成為大家爭相搶奪的新焦點。因而,企業(yè)必須要提前制定大數據營銷戰(zhàn)略計劃,搶占市場先機。(2)與云計算的深度結合大數據離不開云計算,云計算為大數據提供了彈性可拓展的基礎設備,是產生大數據的平臺之一。自2013年開始,大數據技術已開始和云計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯(lián)網、移動互聯(lián)網等新興計算形態(tài),也將一齊助力大數據技術,讓大數據發(fā)揮出更大的影響力。(3)科學理論的突破隨著大數據的快速發(fā)展,就像計算機和互聯(lián)網一樣,大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智能等相關技術,可能會改變數據世界里的很多算法和基礎理論,實現科學技術上的突破。(4)數據科學和數據聯(lián)盟的成立未來,數據科學將成為一門專門的學科被越來越多的人所認知。各大高校將設立專門的數據科學類專業(yè),也會催生一批與之相關的新的就業(yè)崗位。與此同時,基于數據這個基礎平臺,也將建立起跨領域的數據共享平臺,之后,數據共享將擴展到企業(yè)層面,并且成為未來產業(yè)的核心一環(huán)。1.5大數據的發(fā)展趨勢(5)數據泄露泛濫未來幾年數據泄露事件的增長率也許會達到100%,除非數據在其源頭就能夠得到安全保障。企業(yè)需要從新的角度來確保自身以及客戶數據,所有數據在創(chuàng)建之初便需要獲得安全保障,而并非在數據保存的最后一個環(huán)節(jié),僅僅加強后者的安全措施已被證明于事無補。(6)數據管理成為核心競爭力數據管理直接影響財務表現,當“數據資產是企業(yè)核心資產”的概念深入人心之后,企業(yè)對于數據管理便有了更清晰的界定,將數據管理作為企業(yè)核心競爭力,持續(xù)發(fā)展,戰(zhàn)略性規(guī)劃與運用數據資產,成為企業(yè)數據管理的核心。(7)數據質量是BI(BusinessIntelligence,商業(yè)智能)成功的關鍵采用自助式商業(yè)智能工具進行大數據處理的企業(yè)將會脫穎而出。其中要面臨的一個挑戰(zhàn)是,很多數據源會帶來大量低質量數據。想要成功,企業(yè)需要理解原始數據與數據分析之間的差距,從而消除低質量數據并通過BI獲得更佳決策。(8)數據生態(tài)系統(tǒng)復合化程度加強大數據的世界不只是一個單一的、巨大的計算機網絡,而是一個由大量活動構件與多元參與者元素所構成的生態(tài)系統(tǒng),終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數據服務使用者、數據服務提供商、觸點服務、數據服務零售商等一系列的參與者共同構建的生態(tài)系統(tǒng)。課后習題1.簡述什么是大數據?2.大數據的數據有什么特點?3.大數據對科學研究有什么影響?4.大數據有哪些數據類型?5.大數據有哪些應用?課后答案1.答:大數據(bigdata)是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。2.答:數據量大(Volume)、數據類型復雜(Variety)、數據產生速度快(Velocity)、價值密度低(Value)。3.答:促進了科學研究的第四范式產生和交叉學科的發(fā)展。4.答:有結構化數據、非結構化數據和半結構化數據。5.答:大數據可以在眾多領域創(chuàng)造巨大的衍生價值:實現數據的資源化,幫助企業(yè)搶占市場,提供個性化服務,指定有效方針等;與云計算深度結合;可能會改變數據世界里的很多算法和基礎理論,實現科學技術上的突破感謝大家的全力支持LOGO第2章大數據與云計算BigDataandCloudComputing云計算概述2.1云計算的主要部署模式2.2云計算的主要服務模式2.3云計算與大數據體系架構關系2.42.5物聯(lián)網、大數據和云計算之間的關系2.1.1云計算的提出

在不同時期,信息產業(yè)的發(fā)展有兩個重要的核心驅動力:硬件驅動力、網絡驅動力。這兩種驅動力量的對比和變化決定著產業(yè)中不同產品的出現時期以及不同形態(tài)的企業(yè)出現和消亡的時間。以硬件為核心驅動的時代誕生了IBM、微軟、Intel等企業(yè)。以網絡為核心驅動的時代誕生了Google、雅虎、亞馬遜等企業(yè)。2.1云計算概述2.1.1云計算的提出2.1云計算概述2006年,Google公司CEO埃里克·施密特(EricSchmidt)在搜索引擎大會(SESSanJose)首次提出“云計算”概念及體系架構,并快速得到了業(yè)界認可,如圖所示。2008年,云計算概念全面進入中國,2009年,中國首屆云計算大會召開,此后云計算技術和產品迅速發(fā)展起來。2.1.2云計算的定義2.1云計算概述

(1)維基百科:云計算是一種動態(tài)擴展的計算模式,通過網絡將虛擬化的資源作為服務提供給用戶;云計算通常包含基礎設施即服務(InfrastructureasaService,IaaS)、平臺即服務(PlatformasaService,PaaS)、軟件即服務(SoftwareasaService,SaaS)。

(2)美國國家標準與技術實驗室(NationalInstituteofStandardsandTechnology,NIST):云計算是一種無處不在的、便捷的通過互聯(lián)網訪問的一個可定制的IT資源(IT資源包括網絡、服務器、存儲、應用軟件和服務)共享池,是一種按使用量付費的模式。它能夠通過最少量的管理或與服務供應商的互動實現計算資源的迅速供給和釋放。這也是現階段廣為接受的云計算的定義。2.1.2云計算的定義2.1云計算概述

簡而言之,云計算是一種通過互聯(lián)網以服務的方式提供動態(tài)可伸縮的虛擬化資源的計算模式。云計算的資源是分布式架構并通過虛擬化技術實現動態(tài)易擴展,通過互聯(lián)網提供的一種具有服務等級協(xié)議(Service-LevelAgreement,SLA)的服務。該協(xié)議是云服務提供商和客戶之間的一份商業(yè)保障合同,而非一般的服務承諾。終端用戶不需要了解“云”中基礎設施的細節(jié),不必具有相應的專業(yè)知識,也無需直接進行控制,只關注自己真正需要什么樣的資源以及如何通過網絡來得到相應的服務。2.1.3云計算的概念模型2.1云計算概述

(1)用戶的公共性。云計算面向各類用戶,包括企業(yè)、政府、學術機構、個人等用戶,也包括應用軟件、中間件平臺等“用戶”。這些用戶不需了解“云”中基礎設施的細節(jié),不必具有相應的專業(yè)知識,也無需直接進行控制,只關注自己真正需要的資源以及如何通過網絡來得到相應的服務。

(2)設備的多樣性。云計算希望提供服務的設備是多樣的,既包括各種規(guī)模的服務器、主機、存儲設備,也包括各種類型的終端設備,如計算機、智能手機、各種智能傳感器設備等。2.1.3云計算的概念模型2.1云計算概述

(3)商業(yè)模式的服務性。云計算的服務特性體現在兩個方面:簡化和標準的服務接口、按需計費的商業(yè)模式。

(4)提供方式的靈活性。云計算既可以作為一種公用設施,提供社會服務,即“公有云”,也可以作為企業(yè)信息化的集中計算平臺來提供,即“私有云”。2.1.4云計算的特點2.1云計算概述(2)資源虛擬化(Virtualization)和彈性調度。(1)具有大規(guī)模并行計算能力。(3)數據量巨大并且增速迅猛產生了典型的大數據處理技術。

“云”已經具有相當規(guī)模,Google云計算已經擁有100多萬臺服務器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務器,企業(yè)私有云一般擁有數百上千臺服務器,這些服務器的硬件架構是集群,為大粒度應用提供傳統(tǒng)計算系統(tǒng)或用戶終端所無法完成的并行計算服務。云計算向外提供的是計算能力、存儲能力、網絡能力等各種服務能力。

云計算的硬件資源是以分布式系統(tǒng)為底層架構,上層通過虛擬化技術進行業(yè)務的彈性伸縮,以按需分配方式,為小粒度應用提供計算資源,實現資源共享。即云計算能夠根據用戶的實際需求動態(tài)分配和釋放不同的資源,當有新需求出現時,可為用戶快速匹配新的資源并及時分配,以保證資源提供的彈性;而當用戶不再需要這些資源時,會迅速釋放,提供給其他需要的用戶。

大數據離不開云處理,云處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平臺之一。自2013年開始,大數據技術已開始和云計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯(lián)網、移動互聯(lián)網等新興計算形態(tài),也將一齊助力大數據革命,讓大數據營銷發(fā)揮出更大的影響力。2.2.1公有云2.2云計算的主要部署模式

公有云:提供面向社會大眾、公共群體的云計算服務。公有云用戶以付費的方式,根據業(yè)務需要彈性使用IT分配的資源,用戶不需要自己構建硬件、軟件等基礎設施和后期維護,可以在任何地方、任何時間、多種方式、以互聯(lián)網的形式訪問獲取資源。公有云如同日常生活中按需購買使用的水、電一樣,方便、快捷地享受服務。

目前,比較流行的公有云平臺有國外的亞馬遜云平臺AWS(AmazonWebServices)、GAE(GoogleAppEngine)等,國內的有阿里云、SAE(SinaAppEngine)、BAE(BaiduAppEngine)等。亞馬遜的AWS提供了大量基于云的全球性產品,包括計算、存儲、數據庫、分析、聯(lián)網、移動產品、開發(fā)人員工具、管理工具、物聯(lián)網、安全性和企業(yè)級應用程序,這些服務及應用程序可幫助企業(yè)或組織快速發(fā)展自己的業(yè)務、降低IT成本,使來自中國乃至全球的眾多客戶從中獲益。

公有云有很多優(yōu)點,但最大的缺點是難以保證數據的私密性。2.2.2私有云2.2云計算的主要部署模式

私有云:提供面向應用行業(yè)/組織內的云計算服務。私有云一般由一個組織來使用,同時由這個組織來運營。如政府機關、移動通信、學校等內部使用的云平臺。私有云可較好地解決數據私密性問題,對移動通信、公安等數據私密性要求特別高的企業(yè)或機構,建設私有云將是一個必然的選擇。使用私有云提供的云計算服務需要一定的權限,一般只提供給企業(yè)內部員工使用。其主要目的是合理地組織企業(yè)已有的軟硬件資源,提供更加可靠、彈性的服務供企業(yè)內部使用。比較流行的私有云平臺有VMwarevCloudSuite和微軟的MicrosoftSystemCenter2016。

2.2.2私有云舉例2.2云計算的主要部署模式

①VMwarevCloudSuite私有云。

VMware是全球領先的虛擬化解決方案提供商,能對用戶的硬件資源進行有效地整合,簡化管理,提升硬件資源的利用率。VMwarevCloudSuite可構建和管理基于軟件定義數據中心的VMwarevSphere企業(yè)私有云,VMwarevSphere能夠跨數據中心,實現高可用的、可擴展的并按需分配的企業(yè)硬件IT基礎架構。

②MicrosoftSystemCenter2016私有云。

它提供了本地企業(yè)環(huán)境與WindowsAzure集成的各種服務,可以讓企業(yè)輕松地從本地環(huán)境遷移到微軟Azure公有云。它包括基礎設施管理和DevOps的資源配置、監(jiān)控、自動化、端點保護和備份與恢復。SystemCenter2016能實現企業(yè)的數據中心向私有云轉型,使企業(yè)數據中心更可靠、可擴展、彈性地滿足企業(yè)不斷增長的業(yè)務需求。2.2.3混合云2.2云計算的主要部署模式

混合云:是把公有云和私有云進行整合,吸納二者的優(yōu)點,給企業(yè)帶來真正意義上的云計算服務?;旌显剖俏磥碓瓢l(fā)展的方向?;旌显萍饶芾闷髽I(yè)在IT基礎設施的巨大投入,又能解決公有云帶來的數據安全等問題,是避免企業(yè)變成信息孤島的最佳解決方案?;旌显茝娬{基礎設施是由兩種或多種云組成的,但對外呈現的是一個完整的整體。企業(yè)正常運營時,把重要數據保存在自己的私有云里面(如財務數據),把不重要的信息或需要對公眾開放的信息放到公有云里,兩種云組合形成一個整體,這就是混合云。

組建混合云的利器是OpenStack,它可以把各種云計算平臺資源進行異構整合,構建企業(yè)級混合云,使企業(yè)可以根據自己的需求靈活自定義各種云計算服務。在搭建企業(yè)云計算平臺時,使用OpenStack架構是最理想的解決方案,雖然入門門檻較高,但是隨著項目規(guī)模的擴大,企業(yè)終將從中受益,因為不必支付云平臺中軟件的購買費用。2.2.3混合云舉例2.2云計算的主要部署模式

混合云計算的典型案例是12306火車票購票網站。12306購票網站最初是私有云計算,消費者平時用12306購票沒有問題,但是一到節(jié)假日(如春節(jié)),有大量購票需求的時候,消費者在購票的時候就會出現頁面響應慢或者頁面報錯的情況,甚至還會出現無法付款的情況,用戶體驗特別差。為了解決上述問題,12306火車購票網站與阿里云簽訂戰(zhàn)略合作,由阿里云提供計算能力以滿足業(yè)務高峰期查票檢索服務,而支付業(yè)務等關鍵業(yè)務在12306自己的私有云環(huán)境之中運行。兩者組合成一個新的混合云,對外呈現還是一個完整的系統(tǒng)——12306火車購票網站。在企業(yè)中,私有云能更好地調度和使用自動化管理物理資源,使企業(yè)基礎設施更高效地運行,結合公有云,使企業(yè)在相互協(xié)同、合作、創(chuàng)新等方面更加高效。2.3.1基礎設施即服務(IaaS)2.3云計算的主要服務模式IaaS主要用戶是系統(tǒng)管理員,他們具有專業(yè)知識能力,直接利用云提供的資源進行業(yè)務的部署或簡單的開發(fā)。服務提供商提供給用戶的服務是計算和存儲基礎設施,包括CPU、內存、存儲、網絡和其他基本的資源。用戶不管理或控制任何云計算基礎設施,但能控制操作系統(tǒng)的選擇,存儲空間、部署和運行任意軟件,也可獲得有限的網絡組件(如路由器、防火墻、負載均衡器等)的控制。IaaS的典型代表是Amazon(前身是網上書店),Amazon的WebService提供了兩個云平臺:彈性計算云EC2(ElasticComputingCloud)和簡單存儲服務S3(SimpleStorageService),EC2完成計算功能,S3完成存儲功能。2.3.2平臺即服務(PaaS)2.3云計算的主要服務模式PaaS主要用戶是開發(fā)人員。PaaS是把應用服務的運行和開發(fā)環(huán)境作為一種服務提供的商業(yè)模式。即PaaS是把二次開發(fā)的平臺以服務形式提供給開發(fā)軟件的用戶使用,開發(fā)人員不需要管理或控制底層的云計算基礎設施,但可以方便地使用很多在構建應用時的必要服務,能控制部署的應用程序開發(fā)平臺。PaaS的典型案例有微軟的VisualStudio開發(fā)平臺和GoogleAppEngine(應用引擎)平臺。GoogleAppEngine和Amazon的S3、EC2不同,因為后者是直接提供的是一系列硬件資源供用戶選擇使用。PaaS的關鍵技術有兩個,一個是分布式的并行計算,另一個是大文件分布式存儲。分布式并行計算技術是為了充分利用廣泛部署的普通計算資源實現大規(guī)模運算和應用的目的,實現真正將傳統(tǒng)運算轉化為并行計算,為客戶提供并行服務。大文件分布式存儲是為了解決海量數據存儲在廉價的不可信結點集群架構上數據安全性及運行性的保證。2.3.3軟件即服務(SaaS)2.3云計算的主要服務模式SaaS的客戶群體是普通用戶。服務提供商提供給用戶的服務是運行在云計算基礎設施上的應用程序,用戶只需要通過終端設備接入使用即可,簡單方便,不需要用戶進行軟件開發(fā),也無需管理底層資源。如Office365、嘀嘀打車、共享單車等應用軟件都屬于SaaS。在云平臺上,Office365把Word、Excel、PowerPoint、Project、PowerBI、OneNote、OneDrive、Exchange、Skype、SharePoin集成為企業(yè)所需的辦公云平臺,它不僅可以在線使用,還可以下載到本地以客戶端形式使用,是一套完整、容易入門、性價比高、支持混合部署、支持自定義的辦公解決方案,與傳統(tǒng)意義的Office有天壤之別。SaaS的關鍵技術是多租戶技術。云計算要求硬件資源和軟件資源能夠更好的共享,要具有良好的伸縮性,任何一個用戶都能夠按照自己的需求進行客戶化配置而不影響其他用戶的使用。

2.3.4三種服務模式之間的關系2.3云計算的主要服務模式

①從用戶體驗角度分析從用戶體驗角度而言,它們之間關系是獨立的,因為它們面對的是不同類型的用戶。SaaS主要面對的是普通用戶。PaaS主要的用戶是開發(fā)人員。為了支撐著整個PaaS平臺的運行,供應商需要提供四大功能:友好的開發(fā)環(huán)境、豐富的服務、自動的資源調度、精細的管理和監(jiān)控。IaaS主要的用戶是系統(tǒng)管理員,具有專業(yè)知識能力。IaaS供應商需要在7個方面對基礎設施進行管理以給用戶提供資源,它們是資源抽象、資源監(jiān)控、負載管理、數據管理、資源部署、安全管理和計費管理。

②從技術角度分析云計算的服務層次是根據服務類型來劃分的,與大家熟悉的計算機網絡體系結構中層次的劃分不同。從技術角度而言,它們有一定的繼承關系,即SaaS基于PaaS,PaaS基于IaaS,但并不是簡單的繼承關系。因為SaaS可以是基于PaaS或者直接部署于IaaS之上,PaaS可以構建于IaaS之上,也可以直接構建在物理資源之上,也就是說某一層次可以單獨完成一項用戶的請求而不需要其他層次為其提供必要的服務和支持。云計算系統(tǒng)按資源封裝的層次分為對底層硬件資源不同級別的封裝,從而實現將資源轉變?yōu)榉盏哪康摹?.4云計算與大數據體系架構關系

云計算與大數據是一對相輔相成的概念,它們描述了面向數據時代信息技術的兩個方面,云計算側重于提供資源和應用的網絡化交付方法,大數據側重于應對數據量巨大所帶來的技術挑戰(zhàn)。大數據分析常和云計算聯(lián)系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。

導言:2.4云計算與大數據體系架構關系2.4.1云計算基礎設施——Google平臺

云計算的邏輯架構是以Google提出的云計算邏輯架構而發(fā)展起來的,Google提出了一整套基于分布式的并行集群基礎架構,并且Google的數據中心采用廉價的LinuxPC機組成集群,利用軟件來處理集群中經常發(fā)生的結點失效問題,從而形成了Google的云計算基礎架構。Google的云計算基礎架構包括三個相互獨立又緊密結合在一起的系統(tǒng):GFS分布式文件系統(tǒng)(GoogleFileSystem)、針對Google應用程序的特點提出的MapReduce編程模式和大規(guī)模分布式數據庫BigTable。2.4云計算與大數據體系架構關系2.4.1云計算基礎設施——Google平臺(1)GFS是建立在集群之上的分布式文件系統(tǒng),解決了超大文件存儲、訪問、讀操作比例遠超過寫操作和集群中的結點極易發(fā)生故障造成結點失效等問題。GFS默認把超大文件分成64MB固定大小的塊,分布在集群的機器上;為了提高可靠性,每個塊文件至少有3份以上的冗余,從而解決結點失效問題。(2)MapReduce是分布式并行編程模式,解決了并行計算問題。用戶只需要提供自己的Map函數以及Reduce函數,就可以在集群上進行大規(guī)模的分布式并行數據處理,并把結果存儲在GFS上。(3)BigTable是弱一致性要求的分布式大規(guī)模數據庫管理系統(tǒng),解決了海量非關系型數據的存儲。它是稀疏的、分布式的、持久化的、多維排序的,并以Key/Value對形式存儲的數據模型。BigTable不是關系型數據庫,像它的名字一樣,就是一個巨大的表格,用來存儲半結構化數據。2.4云計算與大數據體系架構關系2.4.2大數據基礎設施——Hadoop平臺HDFS是Hadoop的分布式文件存儲系統(tǒng)。從用戶角度看,HDFS和其他分布式文件系統(tǒng)沒有什么區(qū)別,都具有創(chuàng)建文件、刪除文件、移動文件和重命名文件等功能。但HDFS是用來設計存儲大數據的,并且是分布式存儲,所以所有特點都與大數據和分布式有關。為了滿足大數據的處理需求,Hadoop對超大文件的訪問、讀操作比例遠超過寫操作、集群中的結點極易發(fā)生故障造成結點失效等問題從技術上進行了優(yōu)化。2.4云計算與大數據體系架構關系2.4.2大數據基礎設施——Hadoop平臺Hadoop實現了一個對大數據進行分布式并行處理的系統(tǒng)框架,是一種數據并行的處理方法。由實現數據分析的MapReduce計算框架和實現數據存儲的分布式文件系統(tǒng)HDFS有機結合組成,它自動把應用程序分割成許多小的工作單元,并把這些單元放到集群中的相應結點上執(zhí)行,而分布式文件系統(tǒng)HDFS負責各個結點上數據的存儲,實現高吞吐率的數據讀寫。2.4云計算與大數據體系架構關系2.4.2大數據基礎設施——Hadoop平臺MapReduce是一個分布式計算框架,是Hadoop的一個基礎組件。分為Map和Reduce過程,是一種將大任務細分處理再匯總結果的一種方法。MapReduce是一種編程模型,支持使用廉價的計算機集群對規(guī)模達到PB級的數據集進行分布式并行計算。MapReduce由Map函數和Reduce函數構成,分別完成任務的分解與結果的匯總。MapReduce的用途是進行批量處理,不是進行實時查詢,即特別不適用于交互式應用。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。2.4云計算與大數據體系架構關系2.4.3Hadoop生態(tài)系統(tǒng)(1)ETLTools是構建數據倉庫的重要環(huán)節(jié),由一系列數據倉庫采集工具構成。(2)BIReporting(BusinessIntelligenceReporting,商業(yè)智能報表)能提供綜合報告、數據分析和數據集成等功能。(3)RDBMS是關系型數據庫管理系統(tǒng)。RDBMS中的數據存儲在被稱為表(Table)的數據庫中。表是相關記錄的集合,它由行和列組成,是一種二維關系表。(4)Pig數據分析語言提供相應的數據流(DataFlow)語言和運行環(huán)境,實現數據轉換(使用管道)和實驗性研究(如快速原型)。適用于數據準備階段,Pig運行在由Hadoop基本架構構建的集群上。(5)Hive分布式數據倉庫擅長于數據展示,由Facebook開發(fā)。Hive管理存儲在HDFS中的數據,提供了基于SQL的查詢語言查詢數據。Hive和Pig都是建立在Hadoop基本架構之上,可以用來從數據庫中提取信息,交給Hadoop處理。(6)Sqoop是數據格式轉化工具,是完成HDFS和關系型數據庫中的數據相互轉移的工具。2.4云計算與大數據體系架構關系2.4.3Hadoop生態(tài)系統(tǒng)(7)HBase是類似于GoogleBigTable的分布式列數據庫。HBase支持MapReduce的并行計算和點查詢(即隨機讀?。?。HBase是基于Java的產品,與其對應的基于C++的開源項目是HyperTable,也是Apache的項目。(8)Avro是一種新的數據序列化(Serialization)格式和傳輸工具,主要用來取代Hadoop基本架構中原有的IPC(Inter-ProcessCommunication,進程間通信)機制。(9)Zookeeper是協(xié)同工作系統(tǒng),用于構建分布式應用,是一種分布式鎖設施,提供類似GoogleChubby(主要用于解決分布式一致性問題)的功能,它是基于HBase和HDFS的,由Facebook開發(fā)。(10)Ambari旨在將監(jiān)控和管理等核心功能加入Hadoop。Ambari可幫助系統(tǒng)管理員部署和配置Hadoop、升級集群,并可提供監(jiān)控服務。(11)Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志收集工具,即Flume支持在日志系統(tǒng)中定制各類數據發(fā)送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接收方(可定制)的能力。2.5物聯(lián)網、大數據和云計算之間的關系2.5.1物聯(lián)網

物聯(lián)網是新一代信息技術的重要組成部分,也是信息化時代的重要發(fā)展階段。其英文名稱是:“InternetofThings(IoT)”。顧名思義,物聯(lián)網就是物物相連的互聯(lián)網。其中物聯(lián)網的基礎是互聯(lián)網,以互聯(lián)網的形式把物與物聯(lián)系在一起,進行信息交換和通信,是互聯(lián)網對象的擴展和延伸,即萬物互聯(lián)。

物聯(lián)網必將引發(fā)一場新的技術與商業(yè)革命,將把人類推向一個萬物智能的世界,任何事物都有學習、發(fā)現、傾聽、感知的能力。未來的公路、建筑、路燈、護欄、道路標識線等都遍布信號探測器。智能汽車時刻與道路探測器和其他汽車進行高速信息交換,智能汽車的圖像識別能力日益成熟,外加道路的全面物聯(lián)網化,汽車將實現無人駕駛,而且比人類駕駛的汽車更安全、快捷。物聯(lián)網將顛覆人與物之間的相處模式,借助科技的力量可以改變人們的生活。2.5物聯(lián)網、大數據和云計算之間的關系2.5.2邊緣計算

隨著物聯(lián)網、大數據、人工智能、5G等信息技術的快速發(fā)展,云計算已經無法滿足機器人、智能家居、無人駕駛、VR(VirtualReality,虛擬現實)/AR(AugmentedReality,增強現實)、新媒體、智能安防、遠程醫(yī)療、可穿戴設備、智能制造等場景對低延遲的高要求,因此邊緣計算(EdgeComputing)產生。根據國際調研機構Gartner公司的報告,到2022年,超過一半的企業(yè)數據將在傳統(tǒng)數據中心和云平臺之外的邊緣產生和處理,目前約為10%。邊緣計算的興起幫助企業(yè)近乎實時地分析信息,并圍繞物聯(lián)網設備和數據創(chuàng)造新的價值。

邊緣計算集結了云計算、CDN(ContentDeliveryNetwork)、硬件設備、運營商、研究機構以及其它中小廠商等,CDN算是最早的邊緣計算的雛形。CDN主要是ContentCache(內容緩存),現在是FunctionCache(功能緩存),等于要把計算功能搬到邊緣上來,而不是簡單的把內容放上去。2.5物聯(lián)網、大數據和云計算之間的關系2.5.3霧計算

霧計算(FogComputing)是一種對云計算概念的延伸,云在天空飄浮,高高在上,遙不可及,刻意抽象;而霧卻現實可及,貼近地面,就在你我身邊。霧計算將數據、數據處理和應用程序集中在網絡邊緣的設備(是由性能較弱、更為分散的各種功能計算機組成)中,而不是全部保存在云中,導致數據傳遞具有極低時延。霧計算具有遼闊的地理分布,帶有大量網絡結點的大規(guī)模傳感器網絡。霧計算移動性好,手機和其他移動設備可以互相之間直接通信,信號不必到云端甚至基站去繞一圈,支持很高的移動性。

霧計算是介于云計算和個人計算之間的,是半虛擬化的服務計算架構模型,強調數量,不管單個計算結點能力多么弱都要發(fā)揮作用。與云計算相比,霧計算所采用的架構更呈分布式,完成的計算任務更接近網絡邊緣。霧計算將數據、數據處理和應用程序集中在網絡邊緣的設備中,而不像云計算那樣將它們幾乎全部保存在云中,數據的存儲及處理更依賴本地設備,而非服務器。霧計算是新一代分布式計算,符合互聯(lián)網的“去中心化”特征。2.5物聯(lián)網、大數據和云計算之間的關系2.5.4大數據和云計算之間的關系

云計算的實質是服務,是一種新興的商業(yè)計算模式。云概念的提出是因為它的規(guī)模很大,可以根據業(yè)務動態(tài)伸縮。云計算是提供給這種商業(yè)模式的具體實現,是互聯(lián)網產業(yè)發(fā)展到一定階段的必然產物。云計算與大數據是一對相輔相成的概念,它們描述了面向數據時代信息技術的兩個方面,云計算側重于提供資源和應用的網絡化交付方法,大數據側重于應對數據量巨大所帶來的技術挑戰(zhàn)。

云計算的核心是業(yè)務模式,其本質是數據處理技術。數據是資產,云計算為數據資產提供了存儲、訪問的場所和計算能力,即云計算更偏重海量數據的存儲和計算,以及提供的云計算服務,運行云應用。但是云計算缺乏盤活數據資產的能力,挖掘價值性信息和進行預測性分析,為國家治理、企業(yè)決策乃至個人生活服務,這是大數據的核心議題。云計算是基礎設施架構,大數據是思想方法,大數據技術將幫助人們從大體量、高度復雜的數據中分析、挖掘信息,從而發(fā)現價值和預測趨勢。習題1.簡述什么是云計算?2.云計算有什么特點?3.請簡述云計算的三種主要部署模式。4.請簡述云計算的三種主要服務模式。5.請畫出云計算基礎設施Google平臺的基礎架構圖。6.請畫出云計算基礎設施Hadoop平臺的基礎架構圖。7.用自己的語言分別解釋物聯(lián)網,邊緣計算,霧計算。答案1.簡述什么是云計算?①云計算是一種動態(tài)擴展的計算模式,通過網絡將虛擬化的資源作為服務提供給用戶。②云計算是一種無處不在的、便捷的通過互聯(lián)網訪問的一個可定制的IT資源(IT資源包括網絡、服務器、存儲、應用軟件和服務)共享池,是一種按使用量付費的模式。它能夠通過最少量的管理或與服務供應商的互動實現計算資源的迅速供給和釋放2.云計算有什么特點?①具有大規(guī)模并行計算能力②資源虛擬化和彈性調度③數據量巨大并且增速迅猛產生了典型的大數據處理技術3.請簡述云計算的三種主要部署模式。①公有云:提供面向社會大眾、公共群體的云計算服務②私有云:提供面向應用行業(yè)/組織內的云計算服務③混合云:是把公有云和私有云進行整合,吸納二者的優(yōu)點,給企業(yè)帶來真正意義上的云計算服務答案4.請簡述云計算的三種主要服務模式。1.基礎設施即服務(IaaS)①主要用戶是系統(tǒng)管理員②直接利用云提供的資源進行業(yè)務的部署或簡單的開發(fā)③服務提供商提供給用戶的服務是計算和存儲基礎設施④用戶不管理或控制任何云計算基礎設施,但能控制操作系統(tǒng)的選擇⑤關鍵技術及解決方案是虛擬化技術2.平臺即服務(PaaS)①主要用戶是開發(fā)人員②把應用服務的運行和開發(fā)環(huán)境作為一種服務提供的商業(yè)模式即PaaS是把二次開發(fā)的平臺以服務形式提供給開發(fā)軟件的用戶使用③開發(fā)人員不需要管理或控制底層的云計算基礎設施,但可以方便地使用很多在構建應用時的必要服務④兩個關鍵技術:分布式的并行計算和大文件分布式存儲3.軟件即服務(SaaS)①主要用戶是普通用戶②服務提供商提供給用戶的服務是運行在云計算基礎設施上的應用程序,用戶只需要通過終端設備接入使用即可,簡單方便,不需要用戶進行軟件開發(fā),也無需管理底層資源③關鍵技術是多租戶技術,使資源能夠更好的共享答案5.請畫出云計算基礎設施Google平臺的基礎架構圖。6.請畫出云計算基礎設施Hadoop平臺的基礎架構圖。

答案7.用自己的語言分別解釋物聯(lián)網,邊緣計算,霧計算。

物聯(lián)網:物聯(lián)網就是物物相連的互聯(lián)網

邊緣計算:邊緣計算是指在靠近物或數據源頭的一側,采用網絡、計算、存儲、應用核心能力為一體的開放平臺,就近提供最近端服務

霧計算:數據、(數據)處理和應用程序集中在網絡邊緣的設備中,而不是幾乎全部保存在云中,是云計算(CloudComputing)的延伸概念感謝大家的全力支持LOGO從產業(yè)結構來探索大數據技術第3章LOGO目錄3.1大數據產業(yè)結構示意圖概述013.2大數據的解決方案023.3大數據采集技術033.4大數據預處理技術04053.5大數據可視化技術

產業(yè)結構概述產業(yè)結構(IndustrialStructure)是指農業(yè)、工業(yè)和服務業(yè)在一國經濟結構中所占的比重。近年來,隨著互聯(lián)網、云計算、物聯(lián)網等信息技術的進步,在工業(yè)化和信息化快速發(fā)展的背景下,大數據產業(yè)欣欣向榮。大數據的快速發(fā)展是產業(yè)結構轉型升級的重要推動力。之后主要介紹三方面內容:①從產業(yè)結構探索大數據技術的產生、發(fā)展以及處理的基本流程;②介紹大數據采集技術及大數據預處理技術;③介紹大數據可視化技術及其分類。當前以微電子、大數據、信息產品制造業(yè)為代表的技術密集型產業(yè)正迅猛發(fā)展,成為帶動發(fā)達國家經濟增長的主導產業(yè)。因此可以說,技術密集型產業(yè)的發(fā)展水平決定一個國家的競爭力和經濟增長的前景。技術創(chuàng)新與技術結構變動是產業(yè)結構優(yōu)化的決定性因素。從產業(yè)角度看,大數據產業(yè)指以數據生產、采集、存儲、加工、分析、服務為主的相關經濟活動,包括數據資源建設、數據軟硬件產品的開發(fā)、銷售和租賃活動,以及相關信息技術服務。大數據融入產業(yè)結構圖主要可以分為三大類如左圖所示3.1大數據產業(yè)結構示意圖概述

大數據產業(yè)結構所需的技術支持我們從硬件、基礎軟件、應用軟件、信息服務和數據生成、數據存儲、數據處理、數據應用共兩條路線、四個維度來劃分大數據產業(yè)結構所需的技術支持,其中共涉及11個大類主要的產品和服務,如圖所示。其中,基礎軟件(數據庫軟件和分布式文件系統(tǒng))、應用軟件是大數據產業(yè)價值轉化變現的最關鍵部分,其他7種在某種意義上是在原有基礎上持續(xù)更新并與大數據發(fā)展配套的過程。對大數據的處理主要包括:數據生成(也稱為數據采集、數據獲?。?、數據存儲、數據處理和數據應用(也稱為數據分析與挖掘)。硬件支持軟件支持采集設備、存儲設備和服務器等支持;數據庫軟件、分布式文件系統(tǒng)、智能搜索軟件、采集軟件、分析軟件、監(jiān)測軟件等各類軟件技術支持;信息服務有系統(tǒng)集成、IT基礎設施服務、咨詢服務等,并且要保證信息安全;3.2大數據的解決方案大數據如此重要,以至于其采集、儲存、搜索、共享、分析、乃至可視化呈現,都成為了當前重要的研究課題。技術是大數據價值體現的手段和前進的基石。下面從大數據數據源的產生和處理,以及大數據處理的基本流程來討論大數據的解決方案。數據產生方式的改變1.運營式系統(tǒng)階段2.用戶原創(chuàng)內容階段3.感知式系統(tǒng)階段運營式系統(tǒng)階段的代表是數據庫的出現,使得數據管理的復雜度大大降低。在實際使用中,數據庫大多為運營系統(tǒng)所采用,如銀行的交易記錄系統(tǒng)等。這個階段的最主要特點是數據的產生往往伴隨著一定的運營活動,而且數據是記錄在數據庫中的,這種數據的產生方式是被動的。用戶原創(chuàng)內容階段的代表是Web2.0的產生,Web2.0的最重要標志就是用戶原創(chuàng)內容。Web2.0的誕生促使人類社會數據量出現第二次大的飛躍,這個階段的數據產生方式是主動的。感知式系統(tǒng)階段的代表是物聯(lián)網。隨著技術的發(fā)展,人們已經有能力制造極其微小的帶有處理功能的傳感器,并開始將這些設備廣泛地布置于社會的各個角落,通過這些設備來對整個社會的運轉進行監(jiān)控。這些設備會源源不斷地產生新數據,這種數據的產生方式是自動的。人類社會數據量第三次大的飛躍最終導致了大數據的產生,這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。數據采集方式的改變1.傳統(tǒng)的數據采集2.大數據時代數據采集來源單一,且存儲、管理和分析的數據量也相對較小,大多采用關系型數據庫和并行數據倉庫即可處理。對依靠并行計算提升數據處理速度方面而言,傳統(tǒng)的并行數據庫技術追求高度的一致性和容錯性,難以保證其可用性和擴展性,并且以往進行數據采集時的采樣密度較低,獲得的采樣數據有限。有了大數據處理平臺的支撐,可以對需要分析的事件的數據進行更加密集地采樣,從而精確地獲取事件的全局數據。數據的采集方式由以往的被動采集數據轉變?yōu)橹鲃由蓴祿?。在大數據的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作。大數據處理的基本流程及相應技術支持大數據的處理流程可以定義為在適合工具的輔助下,對廣泛異構的數據源進行抽取和集成,結果按照一定的標準統(tǒng)一存儲,利用合適的數據分析技術對存儲的數據進行分析,從中提取有益的知識并利用恰當的方式將結果展示給終端用戶。大數據的處理步驟分為:①獲取源數據;②進行數據清洗;③數據分析;④數據解釋;⑤將數據分析與解釋的結果呈現給用戶。(1)數據抽取與集成1.基于物化或ETL(Extract-Transform-Load)方法的引擎。2.基于聯(lián)邦數據庫或中間件方法的引擎由于大數據處理的數據來源類型豐富,大數據處理的第一步就是對數據進行清洗,從中提取出關系和實體,經過關聯(lián)和聚合等操作,按照統(tǒng)一定義的格式對數據進行存儲,即實現大數據預處理。方法有以下四種ETL是利用某種裝置(如攝像頭、麥克風),從系統(tǒng)外部采集數據并輸入到系統(tǒng)內部的一個接口。3.基于數據流方法的引擎聯(lián)邦數據庫系統(tǒng)是一個彼此協(xié)作卻又相互獨立的單元數據庫集合。聯(lián)邦數據庫技術就是為了實現對相互獨立運行的多個數據庫進行互操作,從而進行數據抽取與集成。數據流引擎可以在數據到達時處理數據,從而過濾掉不需要的數據,或者在將結果數據發(fā)送到最終目的地之前改變傳入的數據。4.基于搜索引擎的方法搜索引擎將網頁大量抓取下來,通過分析器解析,將有價值的數據入庫,檢索器(索引器)對有效的內數據建立檢索。(2)數據分析數據分析是大數據處理流程的核心步驟,通過數據抽取和集成環(huán)節(jié),已經從異構的數據源中獲得了用于大數據處理的原始數據,用戶可以根據自己的需求對這些數據進行分析處理,如數據挖掘、機器學習、數據統(tǒng)計等,數據分析可以用于決策支持、商業(yè)智能、推薦系統(tǒng)、預測系統(tǒng)等。目前采集到的大數據85%以上是非結構化和半結構化數據,傳統(tǒng)的關系數據庫無法勝任這些數據的處理。如何高效處理非結構化和半結構化數據,是大數據計算技術的核心要點。如何能夠在不同的數據類型中,進行交叉計算,是大數據計算技術要解決的另一核心問題。大數據計算技術可分為批處理計算和流處理計算,批處理計算主要操作大容量、靜態(tài)的數據集,并在計算過程完成后返回結果,適用于需要計算全部數據后才能完成的計算工作;流處理計算會對隨時進入的數據進行計算,流處理計算無需對整個數據集執(zhí)行操作,而是對通過傳輸的每個數據項執(zhí)行操作,處理結果立刻可用,并會隨著新數據的抵達繼續(xù)更新結果。(2)數據分析目前主要流行以下大數據分析技術Hive是Facebook團隊開發(fā)的一個可以支持PB級別的可伸縮的數據倉庫。這是一個建立在Hadoop之上的開源數據倉庫解決方案。其使用類SQL(HiveQL)語言,底層經過編譯轉為MapReduce程序,在Hadoop上運行,最終將數據存儲在HDFS上。,用戶可以使用的HiveQL將自定義的MapReduce腳本插入到查詢中。該語言支持基本數據類型,類似數組和Map的集合或者他們的嵌套組合。Hive簡化了對于那些不熟悉HadoopMapReduce接口的用戶學習門檻,Hive提供的一些HiveQL語句不只是可以進行查詢操作,還可以對數據倉庫中的數據進行簡要的分析與計算。同屬于Hadoop開源生態(tài)系統(tǒng)的新成員ApacheSpark提供了一個比Hive更快的查詢引擎,因為它依賴于自己的數據處理框架而不是依靠Hadoop的HDFS服務。同時,它還用于事件流處理、實時查詢和機器學習等方面。這是一個ETL(Extract,Transform,andLoad)工具,可執(zhí)行數據倉庫到數據庫之間的數據同步,提供基于EclipseRCP的圖形操作界面。Talend工具用于協(xié)助進行數據質量、數據集成和數據管理等方面工作。它是一個統(tǒng)一的平臺,通過提供一個統(tǒng)一的,跨企業(yè)邊界生命周期管理的環(huán)境,使數據管理和應用更簡單便捷。這種設計可以幫助企業(yè)構建靈活、高性能的企業(yè)架構,在此架構下,集成并啟用百分之百開源服務的分布式應用程序變?yōu)榭赡?。?)數據解釋大數據處理流程中用戶最關心的是數據處理的結果,計算結果的展現方式有標簽云、關系圖等。正確的數據處理結果只有通過合適的展示方式才能被終端用戶正確理解,因此數據處理結果的展示非常重要,可視化和人機交互是數據解釋的主要技術。標簽云關系圖3.3大數據采集技術從上一節(jié)的學習中可以了解到大數據處理關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據分析與解釋、大數據展現和應用等。可以看到,數據采集屬于數據分析生命周期的第一步,它通過傳感器數據、社交網絡數據、移動互聯(lián)網數據使用ETL、Flume等方式獲得各種類型的結構化、半結構化或者非結構化的海量數據。那什么是大數據采集技術,以及大數據采集有哪些方法呢?3.3.1大數據采集概述

大數據采集技術是指對數據進行ETL(Extract-Transform-Load)操作,即用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據模型,將數據加載到數據倉庫中的過程。數據從數據來源端經過提?。‥xtract)、轉換(Transform)、加載(Load)到目的端,然后進行處理分析,最終挖掘數據的潛在價值,提供給用戶解決方案或者決策參考。

大數據的采集依靠多個數據庫接收來自客戶端(Web、APP或傳感器等)的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。如電商使用傳統(tǒng)的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。

大數據采集技術系統(tǒng)分類1.日志采集系統(tǒng)收集日志數據,供離線和在線的數據分析使用。目前常用的開源日志收集系統(tǒng)有Flume、Scribe等。2.網絡數據采集系統(tǒng)通過網絡爬蟲和一些網站平臺提供的公共API(如Twitter和新浪微博API)等方式從網站上獲取數據。目前常用的網頁爬蟲系統(tǒng)有ApacheNutch、Crawler4j、Scrapy等框架。3.數據庫采集系統(tǒng)一些企業(yè)使用傳統(tǒng)的關系型數據庫MySQL和Oracle等來存儲數據。除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。企業(yè)每時每刻都在產生業(yè)務數據,而這些復雜的數據按照關系結構模型被歸結為二元關系(即二維表格形式)再寫到數據庫中,通過對這些關系表格的分類、合并、連接或選取等操作來實現數據的管理,最后由特定的處理分析系統(tǒng)進行系統(tǒng)分析。3.3.2日志采集系統(tǒng)——Flume每個公司的業(yè)務平臺每天都會產生大量的日志數據,通過對這些日志信息進行日志采集、收集,然后進行數據分析,挖掘公司業(yè)務平臺日志數據中的潛在價值。為公司決策和公司后臺服務器平臺性能評估提高可靠的數據保證。Flume最早是Cloudera公司提供的實時日志采集系統(tǒng),目前是Apache的一個孵化項目。ApacheFlume是一個分布式、可靠、可用的服務,用于高效地收集、聚合和移動大量的日志數據,它具有基于流式數據流的簡單靈活的架構。其可靠性機制、完備的故障轉移和恢復機制使Flume具有強大的容錯能力。Flume有日志收集和數據處理兩個功能,Flume支持日志系統(tǒng)中定制各類數據發(fā)送方,用于收集數據。同時Flume提供對數據進行簡單處理,并寫到各種數據接收方(可定制)的能力。Flume處理流程Flume的核心就是一個Agent(媒介),該Agent對外有兩個進行交互的地方,一個是接收數據的輸入Source(源頭結點),一個是數據的輸出Sink(匯聚結點),Sink負責將數據發(fā)送到外部指定的目的地,如圖Source接收到數據之后,將數據發(fā)送給Channel(存儲渠道或者存儲通道),Channel作為一個數據緩沖區(qū)會臨時存放這些數據,隨后Sink會將Channel中的數據發(fā)送到指定的地方——外部存儲。注意:只有在Sink將Channel中的數據成功發(fā)送出去之后,Channel才會將臨時數據進行刪除,這種機制保證了數據傳輸的可靠性與安全性。在整個數據的傳輸的過程中,流動的是Event(事件),即事務保證是在Event級別進行的。Event將傳輸的數據進行封裝,是Flume傳輸數據的基本單位。如果是文本文件,通常是一行記錄,Event也是事務的基本單位。Event從Source流向Channel,再到Sink,本身為一個字節(jié)數組,并可攜帶Headers(頭信息)信息。Event代表著一個數據的最小完整單元,從外部數據源來,向外部目的地去。AgentFlume架構Flume采用了三層架構,分別為Agent、Collector和Storage,其中,如圖所示所有Agent和Collector由Master統(tǒng)一管理,這使得系統(tǒng)容易監(jiān)控和維護,且Master允許有多個(使用ZooKeeper進行管理和負載均衡),這就避免了單點故障問題。從而具有以下幾個特性①可靠性,當某一個節(jié)點出現故障時,日志文件能夠被傳送到其他節(jié)點上而不會丟失。②可擴展性,Flume采用了三層架構,每一層均可以水平擴展。③可管理性,所有Agent和Collector由Master統(tǒng)一管理,這使得系統(tǒng)便于維護。多Master情況④功能的可擴展性,用戶可以根據需要添加自己的Agent、Collector或者Storage。3.3.3消息采集系統(tǒng)——KafkaKafka最初由Linkedin公司開發(fā),是一個支持分區(qū)(partition)、多副本(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論