




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
《大數(shù)據(jù)導(dǎo)論》開源技術(shù)的商業(yè)支援Cloudera創(chuàng)建人:來自Facebook、谷歌和雅虎的前工程師杰夫·哈默巴切、克里斯托弗·比塞格利亞、埃姆·阿瓦達(dá)拉以及現(xiàn)任CEO、甲骨文前高管邁克·奧爾森。Cloudera一、Cloudera領(lǐng)銜大數(shù)據(jù)基礎(chǔ)設(shè)施Cloudera成立于2008年,在企業(yè)和大型機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時,往往會使用開源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。2018年10月,均為開源平臺的Cloudera與Hortonworks公司宣布他們以52億美元的價格合并。一、Cloudera領(lǐng)銜大數(shù)據(jù)基礎(chǔ)設(shè)施二、開源技術(shù)的商業(yè)支援Linux已經(jīng)成為主流操作系統(tǒng),并與低成本的服務(wù)器硬件系統(tǒng)相結(jié)合。MySQL開源數(shù)據(jù)庫、Apache開源網(wǎng)絡(luò)服務(wù)器以及PHP開源腳本語言搭配起來的實用性也推動了Linux的普及。紅帽子Linux(RedHat)脫穎而出,成為Linux商業(yè)支持及服務(wù)的市場領(lǐng)導(dǎo)者。(1)ApacheHadoop是一個開源分布式計算平臺,通過Hadoop分布式文件系統(tǒng)HDFS存儲大量數(shù)據(jù),再通過名為MapReduce的編程模型將這些數(shù)據(jù)的操作分成小片段。ApacheHadoop源自谷歌的原始創(chuàng)建技術(shù),隨后,開發(fā)了一系列圍繞Hadoop的開源技術(shù)。(2)ApacheHive提供數(shù)據(jù)倉庫功能,包括數(shù)據(jù)抽取、轉(zhuǎn)換、裝載,即將數(shù)據(jù)從各種來源中抽取出來,再實行轉(zhuǎn)換以滿足操作需要,然后裝載到目標(biāo)數(shù)據(jù)庫。(3)ApacheHBase則提供處于Hadoop頂部的海量結(jié)構(gòu)化表的實時讀寫訪問功能,它仿照了谷歌的BigTable。(4)ApacheCassandra通過復(fù)制數(shù)據(jù)來提供容錯數(shù)據(jù)存儲功能。二、開源技術(shù)的商業(yè)支援吸引力:開源軟件在開始使用時是免費的,從而使一些商用運(yùn)營商采用免費增值的商業(yè)模式參與到競爭當(dāng)中。免費前提:產(chǎn)品在個人使用或有限數(shù)據(jù)的前提下是免費的,但顧客需要在之后為部分或大量數(shù)據(jù)的使用付費。趨勢:采用開源技術(shù)的這些企業(yè)往往需要商業(yè)支援,一如當(dāng)初使用Linux碰到的情形。二、開源技術(shù)的商業(yè)支援謝謝聆聽!《大數(shù)據(jù)導(dǎo)論》大數(shù)據(jù)的技術(shù)架構(gòu)大數(shù)據(jù)的技術(shù)架構(gòu)4層堆棧式大數(shù)據(jù)技術(shù)架構(gòu)(1)基礎(chǔ)層:第一層作為整個大數(shù)據(jù)技術(shù)架構(gòu)基礎(chǔ)的最底層,也是基礎(chǔ)層。要實現(xiàn)大數(shù)據(jù)規(guī)模的應(yīng)用,企業(yè)需要一個高度自動化的、可橫向擴(kuò)展的存儲和計算平臺。這個基礎(chǔ)設(shè)施需要從以前的存儲孤島發(fā)展為具有共享能力的高容量存儲池。容量、性能和吞吐量必須可以線性擴(kuò)展。云模型鼓勵訪問數(shù)據(jù)并提供彈性資源池來應(yīng)對大規(guī)模問題,解決了如何存儲大量數(shù)據(jù),以及如何積聚所需的計算資源來操作數(shù)據(jù)的問題。在云中,數(shù)據(jù)跨多個節(jié)點調(diào)配和分布,使得數(shù)據(jù)更接近需要它的用戶,從而縮短響應(yīng)時間并提高生產(chǎn)率。大數(shù)據(jù)的技術(shù)架構(gòu)(2)管理層:要支持在多源數(shù)據(jù)上做深層次的分析,大數(shù)據(jù)技術(shù)架構(gòu)中需要一個管理平臺,使結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)管理融為一體,具備實時傳送和查詢、計算功能。本層既包括數(shù)據(jù)的存儲和管理,也涉及數(shù)據(jù)的計算。并行化和分布式是大數(shù)據(jù)管理平臺所必須考慮的要素。大數(shù)據(jù)的技術(shù)架構(gòu)(3)分析層:大數(shù)據(jù)應(yīng)用需要大數(shù)據(jù)分析。分析層提供基于統(tǒng)計學(xué)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,用于分析和解釋數(shù)據(jù)集,幫助企業(yè)獲得對數(shù)據(jù)價值深入的領(lǐng)悟??蓴U(kuò)展性強(qiáng)、使用靈活的大數(shù)據(jù)分析平臺更可成為數(shù)據(jù)科學(xué)家的利器,起到事半功倍的效果。大數(shù)據(jù)的技術(shù)架構(gòu)(4)應(yīng)用層:大數(shù)據(jù)的價值體現(xiàn)在幫助企業(yè)進(jìn)行決策和為終端用戶提供服務(wù)的應(yīng)用。不同的新型商業(yè)需求驅(qū)動了大數(shù)據(jù)的應(yīng)用。另一方面,大數(shù)據(jù)應(yīng)用為企業(yè)提供的競爭優(yōu)勢使得企業(yè)更加重視大數(shù)據(jù)的價值。新型大數(shù)據(jù)應(yīng)用對大數(shù)據(jù)技術(shù)不斷提出新的要求,大數(shù)據(jù)技術(shù)也因此在不斷地發(fā)展變化中日趨成熟。大數(shù)據(jù)的技術(shù)架構(gòu)大數(shù)據(jù)的技術(shù)架構(gòu)4層堆棧式大數(shù)據(jù)技術(shù)架構(gòu)感謝聆聽!《大數(shù)據(jù)導(dǎo)論》Hadoop數(shù)據(jù)處理基礎(chǔ)第一:大數(shù)據(jù)重預(yù)測,小數(shù)據(jù)重決定。第二:大數(shù)據(jù)重感知,小數(shù)據(jù)重精準(zhǔn)。第三:大數(shù)據(jù)重相關(guān),小數(shù)據(jù)重因果。第四:大數(shù)據(jù)重群體,小數(shù)據(jù)重個體。
從應(yīng)用的角度來說,大數(shù)據(jù)和小數(shù)據(jù)具有以下幾個主要的區(qū)別:一、Hadoop的起源Google的低成本之道:(1)不使用超級計算機(jī),不使用存儲(淘寶的去i,去e,去o之路)
大量使用普通的pc服務(wù)器(去掉機(jī)箱,外設(shè),硬盤),提供有冗余的集群服務(wù)。(2)全世界多個數(shù)據(jù)中心,有些附帶發(fā)電廠。(3)運(yùn)營商向Google倒付費。一、Hadoop的起源搜索引擎面臨的幾個難題:(1)大量的網(wǎng)頁怎么存儲?(2)搜索算法(3)Rank計算問題google的解決方案:1.針對網(wǎng)頁存儲,Google采用了分布式文件存儲和倒排索引(也就是后來Haoop的核心HDFS
)。參考:《搜索引擎-倒排索引基礎(chǔ)知識》和《倒排索引-搜索引擎的基石》兩篇文章。2.針對網(wǎng)站的搜索算法,Google發(fā)明了Rank算法。這個算法就是后來hadoop的另一個核心Map-Redure。參考:《PageRank算法》。一、Hadoop的起源Google帶給我們的關(guān)鍵技術(shù)和思想包括:HDFS、Map-Reduce。Hadoop名字來源于DougCutting兒子的玩具大象一、Hadoop的起源Hadoop的思想來源:Google目前Hadoop達(dá)到的高度:(1)實現(xiàn)云計算的事實標(biāo)準(zhǔn)開源軟件(2)包含數(shù)十個具有強(qiáng)大生命力的子項目(3)已經(jīng)能在數(shù)千節(jié)點上運(yùn)行,處理數(shù)據(jù)量和排序時間不斷打破世界紀(jì)錄一、Hadoop的起源HDFS:Hadoop分布式文件系統(tǒng)。MapReduce:并行計算框架。Hbase:類似于GoogleBigTable分布式NoSql數(shù)據(jù)庫。Hive:數(shù)據(jù)倉庫工具,由Facebook貢獻(xiàn)。Zookeeper:分布式鎖設(shè)施,提供類似Googlechubby的功能,由Facebook貢獻(xiàn)。Avro:數(shù)據(jù)序列化與格式傳輸工具。Pig:大數(shù)據(jù)分析工具,為用戶提供多種接口。Ambari:Hadoop管理工具,可以快捷的監(jiān)控、部署、管理集群。Sqoop:在HADOOP與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的傳遞。Hadoop子項目家族一、Hadoop的起源一、Hadoop的起源Google與開源基礎(chǔ)技術(shù)的對應(yīng)關(guān)系一、Hadoop的起源(1)高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。(2)高擴(kuò)展性。Hadoop是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴(kuò)展到數(shù)以千計的節(jié)點中。(3)高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非??臁#?)高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。此外:Hadoop帶有用Java語言編寫的框架,因此運(yùn)行在Linux平臺上是非常理想的。Hadoop上的應(yīng)用程序也可以使用其他語言編寫,比如C++。二、Hadoop的優(yōu)勢Cloudera公司的Hadoop發(fā)行版三、Hadoop的發(fā)行版本(1)Apache版本(最原始的版本,所有發(fā)行版均基于這個版本進(jìn)行改進(jìn))(2)Cloudera版本(Cloudera’sDistributionIncludingApacheHadoop,簡稱CDH)(3)Hortonworks版本(HortonworksDataPlatform,簡稱“HDP”)
NoSQL數(shù)據(jù)庫:支撐大數(shù)據(jù)的基礎(chǔ)技術(shù),和Hadoop一樣受到越來越多關(guān)注的。在大數(shù)據(jù)處理的基礎(chǔ)平臺中,需要由Hadoop和NoSQL數(shù)據(jù)庫來擔(dān)任核心角色。
Hadoop的子項目:數(shù)據(jù)倉庫Hive和數(shù)據(jù)挖掘庫Mahout等也可以完成數(shù)據(jù)分析的所有工作。
延續(xù)性:Hadoop和NoSQL數(shù)據(jù)庫,是在現(xiàn)有關(guān)系型數(shù)據(jù)庫和SQL等數(shù)據(jù)處理技術(shù)很難有效處理非結(jié)構(gòu)化數(shù)據(jù)這一背景下,由谷歌、亞馬遜、臉書等企業(yè)因自身迫切的需求而開發(fā)的。因此,作為一般企業(yè)不必非要推翻和替換現(xiàn)有的技術(shù),在銷售數(shù)據(jù)和客戶數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)的存儲和處理上,只要使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫就可以了。
成本:由于Hadoop和NoSQL數(shù)據(jù)庫是開源的,因此和商用軟件相比,其軟件授權(quán)費用十分低廉,但另一方面,想招募到精通這些技術(shù)的人才卻可能需要付出很高的成本。四、Hadoop與NoSQL感謝聆聽!《大數(shù)據(jù)導(dǎo)論》大數(shù)據(jù)的處理模式一、處理工作量大數(shù)據(jù)的處理工作量:被定義為一定時間內(nèi)處理數(shù)據(jù)的性質(zhì)與數(shù)量。處理工作量主要分為批處理和事務(wù)兩種類型。(1)批處理型。也稱為脫機(jī)處理,這種方式通常成批地處理數(shù)據(jù),因而會導(dǎo)致較大的延遲。通常我們采用批處理完成大數(shù)據(jù)有序的讀/寫操作,這些讀/寫查詢通常是成批的。(2)事務(wù)型。也稱為在線處理,這種處理方式通過無延遲的交互式處理使得整個回應(yīng)延遲很小。事務(wù)型處理一般適用于少量數(shù)據(jù)的隨機(jī)讀/寫操作。二、批處理模式特征:批處理模式中,數(shù)據(jù)總是成批地脫機(jī)處理,響應(yīng)時長從幾分鐘到幾小時不等。在這種情況下,數(shù)據(jù)被處理前必須在磁盤上保存。批處理模式適用于龐大的數(shù)據(jù)集,無論這個數(shù)據(jù)集是單個的還是由幾個數(shù)據(jù)集組合而成的,該模式可以本質(zhì)上解決大數(shù)據(jù)數(shù)據(jù)量大和數(shù)據(jù)特性不同的問題。優(yōu)勢:批處理是大數(shù)據(jù)處理的主要方式,相較于實時模式,它比較簡單,易于建立,開銷也比較小。像商務(wù)智能、預(yù)測性分析與規(guī)范性分析、ETL操作,一般都采用批處理模式。二、批處理模式——1.MapReduce批處理MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。
當(dāng)前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。MapReduce提供了以下的主要功能:1)數(shù)據(jù)劃分和計算任務(wù)調(diào)度2)數(shù)據(jù)/代碼互定位3)系統(tǒng)優(yōu)化4)出錯檢測和恢復(fù)二、批處理模式——1.MapReduce批處理MapReduce設(shè)計上具有以下主要的技術(shù)特征:1)向“外”橫向擴(kuò)展,而非向“上”縱向擴(kuò)展2)失效被認(rèn)為是常態(tài)3)把處理向數(shù)據(jù)遷移4)順序處理數(shù)據(jù)、避免隨機(jī)訪問數(shù)據(jù)5)為應(yīng)用開發(fā)者隱藏系統(tǒng)層細(xì)節(jié)6)平滑無縫的可擴(kuò)展性執(zhí)行步驟二、批處理模式——1.MapReduce批處理MapReduce是面向大數(shù)據(jù)并行處理的計算模型、框架和平臺。它隱含了三層含義:二、批處理模式——1.MapReduce批處理1)MapReduce是一個基于集群的高性能并行計算平臺。2)MapReduce是一個并行計算與運(yùn)行軟件框架。3)MapReduce是一個并行程序設(shè)計模型與方法。
一次MapReduce處理引擎的運(yùn)行被稱為MapReduce作業(yè),它由映射(Map)和歸約(Reduce)兩部分任務(wù)組成,這兩部分任務(wù)又被分為多個階段。
一個作業(yè)=映射+歸約
其中映射任務(wù)被分為映射(map)、合并(combine)和分區(qū)(partition)三個階段,合并階段是可選的;歸約任務(wù)被分為洗牌和排序(shuffleandsort)與歸約(reduce)兩個階段。
映射=映射+合并+分區(qū)
歸約=洗牌和排序+歸約二、批處理模式——2.Map和Reduce任務(wù)(1)映射。MapReduce的第一個階段稱為映射。映射階段首先把大的數(shù)據(jù)文件分割成多個小數(shù)據(jù)文件。每個較小的數(shù)據(jù)文件的每條記錄都被解析為一組鍵-值對,通常鍵表示其對應(yīng)記錄的序號,值則表示該記錄的實際值。數(shù)據(jù)在映射階段的變化二、批處理模式——1.MapReduce批處理(2)合并。在MapReduce模型中,映射任務(wù)與歸約任務(wù)分別在不同的節(jié)點上進(jìn)行,而映射模塊的輸出需要被送到歸約模塊處理,這就要求把數(shù)據(jù)由映射任務(wù)節(jié)點傳輸?shù)綒w約任務(wù)節(jié)點,這個過程往往會消耗大量的帶寬,并直接導(dǎo)致處理延時。因此就要對大量的鍵-值對進(jìn)行合并,以減少這些消耗。數(shù)據(jù)在合并階段的變化二、批處理模式——2.Map和Reduce任務(wù)(3)分區(qū)。在這個階段,當(dāng)使用多個歸約模塊時,MapReduce模型就需要把映射模塊或合并模塊(如果該MapReduce引擎指明調(diào)用合并功能)的輸出分配給各個歸約模塊。在此我們把分配到每個歸約模塊的數(shù)據(jù)叫做一個分區(qū),也就是說,分區(qū)數(shù)與歸約模塊數(shù)是相等的。圖中描述了數(shù)據(jù)在分區(qū)階段的變化。數(shù)據(jù)在分區(qū)階段的變化二、批處理模式——2.Map和Reduce任務(wù)(4)洗牌和排序。洗牌包括由分區(qū)模塊將數(shù)據(jù)傳輸?shù)綒w約模塊的整個過程,是歸約任務(wù)的第一個階段。由分區(qū)模塊傳輸來的數(shù)據(jù)可能存在多條記錄對應(yīng)同一個鍵。這個模塊將把對應(yīng)同一個鍵的記錄進(jìn)行組合,形成一個唯一鍵對應(yīng)一組值的鍵-值對列表。隨后該模塊對所有的鍵-值對進(jìn)行排序。組合與排序的方式在此可由用戶自定義。數(shù)據(jù)在洗牌和排序階段的變化二、批處理模式——2.Map和Reduce任務(wù)(5)歸約。這是歸約任務(wù)的最后一個階段,該模塊的邏輯由用戶自定義,它可能對輸入的記錄進(jìn)行進(jìn)一步分析歸納,也可能對輸入不作任何改變。在任何情形下,這個模塊都在處理當(dāng)條記錄的同時將其他處理過的記錄輸出。數(shù)據(jù)在歸約階段的變化二、批處理模式——3.MapReduce簡單實例二、批處理模式——3.MapReduce簡單實例MapReduce采用了“分治”的原則:(1)任務(wù)并行:任務(wù)并行指的是將一個任務(wù)分為多個子任務(wù)在不同節(jié)點上并行進(jìn)行,通常并行的子任務(wù)采用不同的算法,每個子任務(wù)的輸入數(shù)據(jù)可以相同也可不同,最后多個子任務(wù)的結(jié)果組成最終結(jié)果。(2)數(shù)據(jù)并行:數(shù)據(jù)并行指的是將一個數(shù)據(jù)集分為多個子數(shù)據(jù)集在多個節(jié)點上并行地處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 針對蘋果種植農(nóng)戶的問卷調(diào)查
- 雪松搬遷施工方案
- 固話地坪施工方案
- 筏板基礎(chǔ)專項施工方案
- 6年級下冊英語譯林版第二單元小課文
- 6-9歲兒童蛋白質(zhì)的標(biāo)準(zhǔn)
- 低溫下簡支梁缺口沖擊強(qiáng)度
- 溫州工程拆除施工方案
- c25混凝土受凍臨界強(qiáng)度
- 地上物 苗木補(bǔ)償標(biāo)準(zhǔn)
- 《設(shè)計師工作經(jīng)歷證明范本》
- 高中生升學(xué)就業(yè)指導(dǎo)模板
- 某某市“鄉(xiāng)村振興”行動項目-可行性研究報告
- 麻風(fēng)病防治知識課件
- 2024年代持法人股東協(xié)議書模板
- 學(xué)校食堂消毒記錄
- 高中音樂第二篇:《黃河大合唱》教案
- 企業(yè)天使輪融資商業(yè)方案模板
- 2024太陽能光伏組件技術(shù)規(guī)范
- 潮汕英歌舞文化傳承與創(chuàng)新研究
- 2025年高考作文素材積累:17則熱聞(新聞+觀點+運(yùn)用)及人民日報18篇時評
評論
0/150
提交評論