分布式計算、云計算與大數(shù)據(jù) 第2版 課件 第1章 分布式計算概論_第1頁
分布式計算、云計算與大數(shù)據(jù) 第2版 課件 第1章 分布式計算概論_第2頁
分布式計算、云計算與大數(shù)據(jù) 第2版 課件 第1章 分布式計算概論_第3頁
分布式計算、云計算與大數(shù)據(jù) 第2版 課件 第1章 分布式計算概論_第4頁
分布式計算、云計算與大數(shù)據(jù) 第2版 課件 第1章 分布式計算概論_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1章分布式計算概論提綱1.1 分布式計算概念1.2 分布式計算模式1.3 分布式基礎(chǔ)問題與理論1.4 經(jīng)典分布式(計算)系統(tǒng)分布式計算的定義分布式計算是一門計算機(jī)科學(xué),主要研究對象是分布式系統(tǒng)。在介紹分布式計算概念前,首先簡單了解一下什么是分布式系統(tǒng)。簡單地說,一個分布式系統(tǒng)是由若干通過網(wǎng)絡(luò)互聯(lián)的計算機(jī)組成的軟硬件系統(tǒng)[1],且這些計算機(jī)互相配合以完成一個共同的目標(biāo)(往往這個共同的目標(biāo)稱為“項目”)分布式計算指在分布式系統(tǒng)上執(zhí)行的計算。分布式計算是將一個大型計算任務(wù)分成很多部分分別交給其他的計算機(jī)處理,并將所有的計算結(jié)果合并為原問題的解決方案。這里與并行計算不同的是,并行計算是使用多個處理器并行執(zhí)行單個計算。分布式計算的優(yōu)缺點優(yōu)點

高可伸縮性

資源共享

高性價比

容錯性

超大規(guī)模

通用性弱點

多點故障一臺或多臺計算機(jī)的故障,或一條或多條網(wǎng)絡(luò)鏈路的故障,都會導(dǎo)致分布式系統(tǒng)出現(xiàn)問題

安全性低分布式系統(tǒng)為非授權(quán)用戶的攻擊提供了更多機(jī)會

大規(guī)模資源調(diào)度的復(fù)雜性資源調(diào)度通常是一個NP-hard問題,大規(guī)模資源調(diào)度往往具有很高的復(fù)雜性和不確定性提綱1.1 分布式計算概念1.2 分布式計算模式1.3 分布式基礎(chǔ)問題與理論1.4 經(jīng)典分布式(計算)系統(tǒng)分布式云計算相關(guān)計算形式分布式云計算相關(guān)計算形式分布式云計算相關(guān)計算形式當(dāng)前最熱門計算機(jī)技術(shù)對比分布式云計算相關(guān)計算形式當(dāng)前最熱門計算機(jī)技術(shù)對比集中計算與分布式計算串行運算與并行運算并行運算與分布式計算的區(qū)別:分布式計算強調(diào)的是任務(wù)的分布執(zhí)行,而并行計算強調(diào)的是任務(wù)的并發(fā)執(zhí)行云計算概念提出提出者:Google工程師,比希利亞,27歲出發(fā)點:推廣Google超級強大的計算資源,招賢納士結(jié)果:蜂擁而至,名噪一時,被視為“云”的起源*-12-云計算分類私有云公有云混合云操作系統(tǒng)+應(yīng)用服務(wù)引擎應(yīng)用系統(tǒng)基礎(chǔ)設(shè)施(IaaS)應(yīng)用平臺(PaaS)應(yīng)用軟件(SaaS)InfrastructureasaService以服務(wù)的形式提供虛擬硬件資源,如虛擬主機(jī)/存儲/網(wǎng)絡(luò)/數(shù)據(jù)庫管理等資源。用于無需購買服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備,只需通過互聯(lián)網(wǎng)租賃即可搭建自己的應(yīng)用系統(tǒng)典型應(yīng)用:AmazonWeb

Service(AWS)PlatformasaService提供應(yīng)用服務(wù)引擎,如互聯(lián)網(wǎng)應(yīng)用編程接口/運行平臺等。用戶基于該應(yīng)用服務(wù)引擎,可以構(gòu)建該類應(yīng)用。典型應(yīng)用:GoogleAppEngine,F,MicrosoftAzure服務(wù)平臺SoftwareasaService用戶通過Internet(如瀏覽器)來使用軟件。用戶不必購買軟件,只需按需租用軟件典型應(yīng)用:GoogleDoc,S,OracleCRMOnDemand,OfficeLiveWorkspace面向外部用戶需求,通過開放網(wǎng)絡(luò)提供云計算服務(wù)IDC,GoogleApp,Saleforce在線CRM按提供的服務(wù)類型按云服務(wù)的對象大型企業(yè)按照云計算的架構(gòu)搭建平臺,面向企業(yè)內(nèi)部需求提供云計算服務(wù)企業(yè)內(nèi)部數(shù)據(jù)中心等兼顧以上兩種情況的云計算服務(wù)AmazonWebServer等既為企業(yè)內(nèi)部又為外部用戶提供云計算服務(wù)云計算與網(wǎng)格計算網(wǎng)格計算:利用互聯(lián)網(wǎng)把地理上廣泛分布的各種資源(計算、存儲、帶寬、軟件、數(shù)據(jù)、信息、知識等)連成一個邏輯整體,就像一臺超級計算機(jī)一樣,為用戶提供一體化信息和應(yīng)用服務(wù)(計算、存儲、訪問等)。網(wǎng)格計算強調(diào)資源共享,任何節(jié)點都可以請求使用其它節(jié)點的資源,任何節(jié)點都需要貢獻(xiàn)一定資源給其他節(jié)點。云計算強調(diào)專有,請求或獲取的資源是專有的,并且由少數(shù)團(tuán)體提供,使用者不需要貢獻(xiàn)自己的資源。網(wǎng)格計算側(cè)重并行的計算集中性需求,并且難以自動擴(kuò)展。云計算側(cè)重事務(wù)性應(yīng)用,大量的單獨的請求,可以實現(xiàn)自動或半自動的擴(kuò)展。云計算包含的網(wǎng)格計算特征:(1)提供在線的計算、存儲等服務(wù)(2)超大規(guī)模的資源組合(3)資源的虛擬化*14云計算與分布式計算分布式計算(狹義):將待解決問題分成多個小問題,再分配給許多計算系統(tǒng)處理,最后將處理結(jié)果加以綜合。特點:把計算任務(wù)分派給網(wǎng)絡(luò)中的多臺獨立的機(jī)器優(yōu)點稀有資源可以共享通過分布式計算可以在多臺計算機(jī)上平衡計算負(fù)載可以把程序放在最適合運行它的計算機(jī)上流行的分布式項目SETI@Home:尋找外星文明RC-72:密碼分析破解,研究和尋找最為安全的密碼系統(tǒng)Folding@home:研究蛋白質(zhì)折疊、聚合問題UnitedDevices:尋找對抗癌癥的有效的藥物GIMPS:尋找最大的梅森素數(shù)(解決較為復(fù)雜的數(shù)學(xué)問題)云計算包含的分布式計算特征:1)通過資源調(diào)度和組合滿足用戶的資源請求;2)對外提供統(tǒng)一的、單一的接口云計算是分布式計算的發(fā)展,是分布式計算的一種新形式。分布式郵箱系統(tǒng)15云計算與并行計算并行計算:是相對于串行計算的概念,最早出現(xiàn)于上個世紀(jì)六七十年代,指在并行計算機(jī)上所做的計算。現(xiàn)通常指同時使用多種計算資源解決計算問題的過程,即一個程序的多個部分同時運行于多個處理器上。分類:可分為時間上的并行(流水線)和空間上的并行(多處理器并發(fā))并行計算問題的特征將工作分離成離散部分,有助于同時解決隨時并及時地執(zhí)行多個程序指令(多條線同時運行)多計算資源下解決問題的耗時要少于單個計算資源下的耗時云計算包含的并行計算特征:用戶資源(單一類型和組合類型)請求的同時處理*16云計算與對等計算對等計算系統(tǒng)中,每個節(jié)點都擁有對等的功能與責(zé)任,既可以充當(dāng)服務(wù)器向其他節(jié)點提供數(shù)據(jù)或服務(wù),又可以作為客戶機(jī)享用其他節(jié)點提的供數(shù)據(jù)或服務(wù),節(jié)點之間的交互可以是直接對等的,任何節(jié)點可以隨時自由地加入或離開系統(tǒng)。對等計算:有可能作為云計算的一個類型預(yù)測:將可能以“對等子云”的形式出現(xiàn)在云計算中。依據(jù):云計算對超大規(guī)模、多類型資源的統(tǒng)一管理是困難的;對等計算具有魯棒性、可擴(kuò)展性、成本、搜索等方面的優(yōu)點Google的云計算服務(wù)曾出現(xiàn)嚴(yán)重問題,Gmail、Blogger和Spreadsheet等服務(wù)均長時間當(dāng)機(jī)。亞馬遜S3云計算服務(wù)也曾出現(xiàn)問題。而P2P系統(tǒng)則有更強的抗毀能力。*17霧計算基本概念霧計算是個很形象的名稱,提出它的GinnyNichols提了一個有趣的說法“霧是接近地面的云”。這句話有兩層含義:1)霧計算和云計算有很多相似。例如:它們都基于虛擬化技術(shù),從共享的資源池中為多用戶提供資源。2)“接近地面”。這也指出了霧和云的一個不同——網(wǎng)絡(luò)拓?fù)渲械奈恢谩lF的概念:霧節(jié)點所使用的設(shè)備:

霧主要使用邊緣網(wǎng)絡(luò)中的設(shè)備。這些設(shè)備可以是傳統(tǒng)網(wǎng)絡(luò)設(shè)備(早已部署在網(wǎng)絡(luò)中的路由器,交換機(jī),網(wǎng)關(guān)等等),也可以是專門部署的本地服務(wù)器。霧計算基本原理霧計算概念示意圖霧計算實例智能交通燈系統(tǒng)霧計算的引入將為智能交通燈系統(tǒng)帶來更多的可能性。如:監(jiān)控過程中,相鄰幀間畫面只有部分變化,非常適于在霧節(jié)點處緩存若干幀畫面,壓縮后再傳向中心機(jī)房,這樣從霧節(jié)點到機(jī)房的網(wǎng)絡(luò)帶寬將得到很大緩解。在霧節(jié)點處,可判斷監(jiān)控畫面中是否有救護(hù)車頭燈閃爍,做出實時決策發(fā)送給對應(yīng)交通燈,協(xié)助救護(hù)車通過。

邊緣計算基本概念邊緣計算(EdgeComputing)指的是接近于事物,數(shù)據(jù)和行動源頭處的計算也被稱為:鄰近計算或者接近計算(ProximityComputing)邊緣計算的概念:邊緣網(wǎng)絡(luò):

邊緣計算讓數(shù)據(jù)在邊緣網(wǎng)絡(luò)處處理。邊緣網(wǎng)絡(luò)基本上由終端設(shè)備(例如移動手機(jī)、智能物品等等)、邊緣設(shè)備(例如邊界路由器、機(jī)頂盒、網(wǎng)橋、基站、無線接入點等等)、邊緣服務(wù)器等構(gòu)成。邊緣計算基本原理云計算、霧計算、邊緣計算關(guān)系:霧計算也可以進(jìn)行邊緣計算。除了邊緣網(wǎng)絡(luò),霧計算也可以拓展到核心網(wǎng)絡(luò)。邊緣和核心網(wǎng)絡(luò)(例如核心路由器、區(qū)域服務(wù)器、廣域網(wǎng)路開關(guān)等等)的組件都可以作為霧計算基礎(chǔ)設(shè)施。邊緣計算依賴于不構(gòu)成網(wǎng)絡(luò)的單獨節(jié)點,需要通過云實現(xiàn)孤島中節(jié)點的對等流量傳輸。霧計算用幾個層次形成網(wǎng)絡(luò),節(jié)點之間具有廣泛的對等互連能力。霧計算以及邊緣計算都不是用來代替云計算,它們共同形成一個彼此受益的計算模型。邊緣計算實例智能交通燈系統(tǒng)無人駕駛汽車走向規(guī)?;瘧?yīng)用必須存儲和運算海量的數(shù)據(jù)。無人駕駛汽車要在高速行駛過程中,通過無線網(wǎng)絡(luò)與云端進(jìn)行大量超低時延、超大流量的數(shù)據(jù)交互,現(xiàn)有網(wǎng)絡(luò)根本沒有能力支撐。依靠移動邊緣計算,數(shù)據(jù)可以就近存儲于車輛附近位置甚至車身上。在車輛高速度運動過程中,位置信息變化十分迅速,被置于車身上的最末端的移動邊緣計算服務(wù)器能夠精確地實時感知車輛位置的變動,并將分析所得結(jié)果以極低延遲(通常是毫秒級)傳送給臨近區(qū)域內(nèi)其他聯(lián)網(wǎng)車輛,以便車輛做出決策。

移動邊緣計算移動邊緣計算就是利用無線接入網(wǎng)絡(luò)就近提供電信用戶IT所需服務(wù)和云端計算功能,而創(chuàng)造出一個具備高性能、低延遲與高帶寬的電信級服務(wù)環(huán)境,加速網(wǎng)絡(luò)中各項內(nèi)容、服務(wù)及應(yīng)用的快速下載,讓消費者享有不間斷的高質(zhì)量網(wǎng)絡(luò)體驗。移動邊緣計算把無線網(wǎng)絡(luò)和互聯(lián)網(wǎng)兩者技術(shù)有效融合在一起。移動云計算移動云計算是指通過移動網(wǎng)絡(luò)以按需、易擴(kuò)展的方式獲得所需的基礎(chǔ)設(shè)施、平臺、軟件(或應(yīng)用)等的一種IT資源或(信息)服務(wù)的交付與使用模式。如圖所示,移動云計算是云計算技術(shù)在移動互聯(lián)網(wǎng)中的應(yīng)用,本質(zhì)上就是基于移動終端獲取各種云端服務(wù)的技術(shù)。大數(shù)據(jù)計算概念隨著互聯(lián)網(wǎng)與計算機(jī)系統(tǒng)需要處理的數(shù)量越來越大,大數(shù)據(jù)計算成為一種非常重要的數(shù)據(jù)分析處理模式。大數(shù)據(jù)計算一般是指利用分布式計算技術(shù)對海量數(shù)據(jù)進(jìn)行在線或離線的實時性或批處理分析計算。當(dāng)前大數(shù)據(jù)計算的主要模式有:基于MapReduce的批處理計算、流式計算、基于Spark的內(nèi)存計算?;贛apReduce的批處理計算InputsplitshuffleoutputMapReduce計算模式的主要思想是將自動分割要執(zhí)行的問題(例如程序)拆解成Map和Reduce兩個函數(shù)操作,然后對分塊的大數(shù)據(jù)采用“分而治之”的并行處理方式分析計算數(shù)據(jù)。大數(shù)據(jù)流式計算大數(shù)據(jù)批處理計算關(guān)注數(shù)據(jù)處理的吞吐量,而大數(shù)據(jù)流式計算更關(guān)注數(shù)據(jù)處理的實時性。流式計算具有很強的實時性,需要對應(yīng)用源源不斷產(chǎn)生的數(shù)據(jù)實時進(jìn)行處理,使數(shù)據(jù)不積壓、不丟失,常用于處理電信、電力等行業(yè)應(yīng)用以及互聯(lián)網(wǎng)行業(yè)的訪問日志等?;赟park的內(nèi)存計算由于MapReduce計算過程中需要讀寫HDFS存儲(訪問磁盤IO),而在Spark內(nèi)存計算過程中,使用內(nèi)存替代了使用HDFS存儲中間結(jié)果,即在進(jìn)行大數(shù)據(jù)分析處理時使用分布式內(nèi)存計算,內(nèi)存訪問要比磁盤快得多。因此,基于Spark的內(nèi)存計算的數(shù)據(jù)處理性能會提升很多,特別是針對需要多次迭代大數(shù)據(jù)計算的應(yīng)用。無服務(wù)器計算無服務(wù)器計算來自英文ServerlessComputing的翻譯,簡稱為Serverless,它并不是指沒有服務(wù)器,而是說,對于用戶,服務(wù)器變得“不可見”了(或者說“無感知”),是指開發(fā)者不需要直接管理服務(wù)器資源。Serverless是一種云計算模型,它允許開發(fā)者編寫和部署功能單元(函數(shù))而無需關(guān)心底層的服務(wù)器基礎(chǔ)設(shè)施。在Serverless架構(gòu)中,云服務(wù)提供商負(fù)責(zé)動態(tài)管理和分配服務(wù)器資源,根據(jù)實際需要為函數(shù)執(zhí)行提供計算資源。Serverless的核心目的,就是在云計算的基礎(chǔ)上,再向前邁進(jìn)一步,徹底“包攬”所有的環(huán)境工作,直接提供計算服務(wù)。在Serverless架構(gòu)下,開發(fā)者只需編寫代碼并上傳,云平臺就會自動準(zhǔn)備好相應(yīng)的計算資源,完成運算并輸出結(jié)果,從而大幅簡化開發(fā)運維過程。也就說,Serverless是云計算的進(jìn)一步延伸,所以,它繼承了云計算的最大特點——按需彈性伸縮、按需付費。無服務(wù)器計算從層級上來看,Serverless在傳統(tǒng)云計算SaaS的Application(應(yīng)用)層級之上,又加了一層——function(函數(shù)),如圖所示。它的顆粒度更細(xì),可以更靈活地滿足用戶的算力需求。按照CNCF對Serverless的定義,Serverless架構(gòu)是采用FaaS(函數(shù)即服務(wù))和BaaS(后端服務(wù))服務(wù)來解決問題的一種設(shè)計。即Serverless=FaaS+BaaS。FaaS就是Functionasaservice(函數(shù)即服務(wù))。每一個函數(shù)都是一個服務(wù),函數(shù)可以由任何語言編寫,直接托管在云平臺,以服務(wù)形式運行,通過事件觸發(fā)。提綱1.1 分布式計算概念1.2 分布式計算模式1.3 分布式基礎(chǔ)問題與理論1.4 經(jīng)典分布式(計算)系統(tǒng)2000年7月,來自加州大學(xué)伯克利分校EricBrewer教授首次提出了著名的CAP猜想。2年后,來自麻省理工學(xué)院的SethGilbert和NancyLynch從理論上證明了Brewer教授CAP猜想。從此,CAP理論正式在學(xué)術(shù)上成為了分布式計算領(lǐng)域的公認(rèn)定理,并深深地影響了分布式計算的發(fā)展。分布式系統(tǒng)的CAP理論:對于一個分布式計算系統(tǒng)來說,不可能同時滿足以下三點:一致性(C)、可用性(A)、分區(qū)容忍性(P)。一致性(C):即Consistency,所有節(jié)點訪問同一份最新的數(shù)據(jù)副本。在分布式系統(tǒng)中的所有數(shù)據(jù)備份,在同一時刻是否同樣的值。可用性(A):即Availability,對數(shù)據(jù)更新具備高可用性。在集群中一部分節(jié)點故障后,集群整體還能響應(yīng)客戶端的讀寫請求。。分區(qū)容錯性(P):即Partitiontolerance,當(dāng)分布式系統(tǒng)集群中的某些結(jié)點無法聯(lián)系時仍能正常提供服務(wù)。*33分布式系統(tǒng)的CAP定理CAP理論一個說明CAP理論的分布式應(yīng)用例子1)正常情況:服務(wù)器N1和N2分別寫、讀數(shù)據(jù),且服務(wù)器N1和N2通過同步消息來實現(xiàn)數(shù)據(jù)讀寫的一致性。2)當(dāng)服務(wù)器N1和N2之間的通信異常中斷時:則系統(tǒng)(服務(wù)器N2)要么只能讀取舊數(shù)據(jù),犧牲一致性;要么服務(wù)器N1的寫操作就會隨著數(shù)據(jù)更新消息發(fā)送失敗而回滾,系統(tǒng)無法使用,違背了可用性。提綱1.1 分布式計算概念1.2 分布式計算模式1.3 分布式基礎(chǔ)問題與理論1.4 經(jīng)典分布式(計算)系統(tǒng)分布式系統(tǒng)介紹分布式系統(tǒng):指通過網(wǎng)絡(luò)互連,可協(xié)作執(zhí)行某個任務(wù)的獨立計算機(jī)集合。分布式系統(tǒng)介紹WWW(WorldWideWeb)是全球最大的分布式系統(tǒng),互聯(lián)網(wǎng)服務(wù)之一統(tǒng)一資源標(biāo)識符(URI)資源定位器(URL)超文本傳輸協(xié)議(HTML)客戶機(jī)/服務(wù)器(Client/Server)模式分布式系統(tǒng)介紹SETI@home(尋找外星人)搜尋證實地球外智能生物存在的證據(jù)志愿參加人數(shù)最多的分布式項目(Project)屏幕保護(hù)模式下的后臺運行(客戶端計算為主)1999-2005543萬用戶、243萬年累計計算沒有發(fā)現(xiàn)外星文明直接證據(jù)分布式系統(tǒng)介紹BOINC項目(BerkeleyOpenInfrastructureforNetworkComputing)傳統(tǒng)客戶端/服務(wù)器架構(gòu)服務(wù)器端配置:數(shù)據(jù)庫服務(wù)器、數(shù)據(jù)處理服務(wù)器、資源任務(wù)調(diào)配服務(wù)器、Web服務(wù)器等子系統(tǒng)組成客戶端設(shè)置志愿計算功能服務(wù)器(軟件)用于:數(shù)學(xué)、物理、化學(xué)、生物科學(xué)、地理科學(xué)等項目計算最為流行的分布式計算平臺分布式系統(tǒng)介紹分布式系統(tǒng)介紹OpenStackOpenStack是一個開源的云計算管理平臺項目目標(biāo)是提供實施簡單、可大規(guī)模擴(kuò)展、豐富、標(biāo)準(zhǔn)統(tǒng)一的云計算管理平臺由一系列具有RESTful接口的Web服務(wù)所實現(xiàn)的,是一系列組件服務(wù)集合OpenStack本身是一個分布式系統(tǒng),不但各個服務(wù)可以分布部署,服務(wù)中的組件也可以分布部署OpenStack包含了許多組件服務(wù)Nova:提供計算服務(wù);Keystone:提供認(rèn)證服務(wù);Glance:提供鏡像服務(wù);Neutron:提供網(wǎng)絡(luò)服務(wù);Horizon:提供儀表盤服務(wù);Swift:提供對象存儲服務(wù);Cinder:提供塊存儲服務(wù);Heat:提供編排服務(wù);Ceilometer:提供計費和監(jiān)控服務(wù);Trove:提供數(shù)據(jù)庫服務(wù);Sahara:提供數(shù)據(jù)處理服務(wù)分布式系統(tǒng)介紹OpenStackOpenStack的總體架構(gòu)分布式系統(tǒng)介紹HadoopHadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。起源于開源網(wǎng)絡(luò)搜索引擎ApacheNutch,基于谷歌分布式文件系統(tǒng)“GFS”和分布式數(shù)據(jù)處理系統(tǒng)“MapReduce”兩篇論文實現(xiàn)的開源版本包括核心的分布式文件存儲系統(tǒng)HDFS和分布式計算框架MapReduce,以及用于集群資源管理的YARN分布式系統(tǒng)介紹HadoopHDFS集群按照管理節(jié)點-工作節(jié)點模式運行,其中NameNode為管理節(jié)點,DataNode為工作節(jié)點,SecondaryNameNode是輔助namenode分布式系統(tǒng)介紹HadoopHBase是一個在HDFS上開發(fā)的面向列的分布式數(shù)據(jù)庫,服務(wù)依賴于Zookeeper,用一個Master節(jié)點協(xié)調(diào)管理一個或多個Regionserver從屬機(jī)分布式系統(tǒng)介紹HadoopYARN是Hadoop的集群資源管理系統(tǒng),ResourceManager是一個全局的資源管理器ApplicationMaster是應(yīng)用程序級別的管理器NodeManager是YARN中每個節(jié)點上的代理管理器分布式系統(tǒng)介紹Spark一種基于內(nèi)存的快速、通用、可擴(kuò)展的大數(shù)據(jù)分析計算引擎,相對于MapReduce的批處理計算,Spark可以帶來上百倍的性能提升其核心是建立在統(tǒng)一的抽象彈性分布式數(shù)據(jù)集(ResilienntDistributedDatasets,RDD)之上的,RDD允許開發(fā)人員在大型集群上執(zhí)行基于內(nèi)存的計算,同時屏蔽了Spark底層對數(shù)據(jù)的復(fù)雜抽象和處理Spark軟件棧包含四大組件:SparkSQL:SparkSQL是Spark中用于處理結(jié)構(gòu)化數(shù)據(jù)的組件;SparkStreaming:SparkStreaming是Spark提供用于處理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論