版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)與Hadoop演講者:電話:郵箱:部門:災(zāi)備服務(wù)部大數(shù)據(jù)與Hadoop演講者:1什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產(chǎn)品分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析議題什么是大數(shù)據(jù)?議題2Wikipedia:Bigdataisthetermforacollectionof
datasets
solargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.Gartner:Bigdataishighvolume,highvelocity,and/orhighvarietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization。Forrester:“Bigdata”as“techniquesandtechnologiesthatmakehandlingdataatextremescaleaffordable”。BI&BigDataBusinessIntelligenceuses
descriptivestatistics
withdatawithhighinformationdensitytomeasurethings,detecttrendsetc.Bigdatauses
inductivestatistics
andconceptsfrom
nonlinearsystemidentification
toinferlaws(regressions,nonlinearrelationships,andcausaleffects)fromlargedatasets
torevealrelationships,dependencies,andtoperformpredictionsofoutcomesandbehaviors。什么是大數(shù)據(jù)Wikipedia:Bigdataistheterm3什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產(chǎn)品分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析議題什么是大數(shù)據(jù)?議題4Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。ApacheHadoop軟件庫(kù)是一個(gè)框架,允許使用簡(jiǎn)單編程模型進(jìn)行跨計(jì)算機(jī)集群的分布式的大數(shù)據(jù)集的處理。它被設(shè)計(jì)成可以從單服務(wù)器擴(kuò)展到幾千臺(tái)服務(wù)器,每臺(tái)服務(wù)器都有自己的計(jì)算和存儲(chǔ)。不是依賴于硬件來實(shí)現(xiàn)高可用性,Hadoop庫(kù)被設(shè)計(jì)成在應(yīng)用層來檢測(cè)與處理故障,以在計(jì)算機(jī)集群上交付高可用服務(wù),而底層的每臺(tái)計(jì)算機(jī)是很容易出現(xiàn)故障的。Hadoop是項(xiàng)目的總稱,主要是由分布式存儲(chǔ)(HDFS),分布式計(jì)算(MapReduce,目前的稱為YARN,即mapReduce2.0)組成。Hadoop程序目前只能運(yùn)行在Linux系統(tǒng)上,Windows上運(yùn)行需要安裝其他插件。什么是HadoopDougCuttingYahooHadoop集群Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)5什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產(chǎn)品分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析議題什么是大數(shù)據(jù)?議題6facebook社交網(wǎng)絡(luò)淘寶、ebuy電子商務(wù)微博、Apps移動(dòng)互聯(lián)21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生:半個(gè)世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。如今,這個(gè)概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。大數(shù)據(jù)時(shí)代的背景facebook社交網(wǎng)絡(luò)淘寶、ebuy電子商務(wù)微博、Apps7GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。而有市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)!1PB
=2^50字節(jié)1EB
=2^60字節(jié)1ZB=2^70字節(jié)大數(shù)據(jù)時(shí)代的爆炸增長(zhǎng)GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的8“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(9大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):大數(shù)據(jù)10密不可分的大數(shù)據(jù)與云計(jì)算商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身也是大數(shù)據(jù)的一種業(yè)務(wù)模式大數(shù)據(jù)是落地的云云計(jì)算的模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲(chǔ)、訪問和計(jì)算。當(dāng)前云計(jì)算更偏重海量存儲(chǔ)和計(jì)算,以及提供的云服務(wù),運(yùn)行云應(yīng)用,但是缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價(jià)值性信息和預(yù)測(cè)性分析,為國(guó)家、企業(yè)、個(gè)人提供決策和服務(wù),是大數(shù)據(jù)核心議題,也是云計(jì)算的最終方向。密不可分的大數(shù)據(jù)與云計(jì)算商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身也11大數(shù)據(jù)不僅僅是“大”多大?至少PB級(jí)比大更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價(jià)值大數(shù)據(jù)不僅僅是“大”多大?比大更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚12軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)
一樣,軟件是大數(shù)據(jù)的驅(qū)動(dòng)力,軟件改變世界軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)一樣13大數(shù)據(jù)生態(tài):軟件是引擎大數(shù)據(jù)生態(tài):軟件是引擎14大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營(yíng)銷通過用戶行為分析實(shí)現(xiàn)精準(zhǔn)營(yíng)銷是大數(shù)據(jù)的典型應(yīng)用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務(wù)領(lǐng)域具有廣闊的應(yīng)用前景消費(fèi)行業(yè)金融服務(wù)食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務(wù)氣象大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營(yíng)銷通過用戶行為分析實(shí)現(xiàn)精準(zhǔn)營(yíng)銷是大15管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個(gè)重大問題,真正的問題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構(gòu)和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲(chǔ)的橫向擴(kuò)展,但對(duì)非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實(shí)質(zhì)性的突破和進(jìn)展,這是實(shí)現(xiàn)大數(shù)據(jù)資源化、知識(shí)化、普適化的核心非結(jié)構(gòu)化海量信息的智能化處理:自然語(yǔ)言理解、多媒體內(nèi)容理解、機(jī)器學(xué)習(xí)等管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個(gè)重大問題,真16分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲(chǔ)不利于檢索、查詢和存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)按照非結(jié)構(gòu)化存儲(chǔ)解決方案:Hadoop(MapReduce技術(shù))流計(jì)算(twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘一些相關(guān)技術(shù)分析技術(shù):存儲(chǔ)解決方案:數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)分析與挖17行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:IBM大數(shù)據(jù)提供的服務(wù)包括數(shù)據(jù)分析,文本分析,藍(lán)色云杉(混搭供電合作的網(wǎng)絡(luò)平臺(tái));業(yè)務(wù)事件處理;IBMMashupCenter的計(jì)量,監(jiān)測(cè),和商業(yè)化服務(wù)(MMMS)IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的InfoSpherebigInsights,基于ApacheHadoop。該產(chǎn)品組合包括:打包的ApacheHadoop的軟件和服務(wù),代號(hào)是bigInsights核心,用于開始大數(shù)據(jù)分析軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡(jiǎn)單、直觀的提取、批注相關(guān)信息為金融,風(fēng)險(xiǎn)管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫(kù)綜合應(yīng)用部門)合作目標(biāo)是開發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設(shè)備。
EMC:EMC斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個(gè)產(chǎn)品。Oracle:Oracle大數(shù)據(jù)機(jī)與OracleExalogic中間件云服務(wù)器、OracleExadata數(shù)據(jù)庫(kù)云服務(wù)器以及OracleExalytics商務(wù)智能云服務(wù)器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。大數(shù)據(jù)的應(yīng)用--企業(yè)在投入
行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:大數(shù)據(jù)的應(yīng)用--企業(yè)18政府職能變革重視應(yīng)用大數(shù)據(jù)技術(shù),盤活各地云計(jì)算中心資產(chǎn):把原來大規(guī)模投資產(chǎn)業(yè)園、物聯(lián)網(wǎng)產(chǎn)業(yè)園從政績(jī)工程,改造成智慧工程;在安防領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提高應(yīng)急處置能力和安全防范能力;在民生領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提升服務(wù)能力和運(yùn)作效率,以及個(gè)性化的服務(wù),比如醫(yī)療、衛(wèi)生、教育等部門;解決在金融,電信領(lǐng)域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲(chǔ)能力和計(jì)算能力的限制,只局限在交易數(shù)型數(shù)據(jù)的統(tǒng)計(jì)分析;政府投入將形成示范效應(yīng),大大推動(dòng)大數(shù)據(jù)的發(fā)展。大數(shù)據(jù)的應(yīng)用--政府
政府職能變革大數(shù)據(jù)的應(yīng)用--政府
19“智慧大腦”智能感知互聯(lián)互通智能運(yùn)營(yíng)協(xié)同共享美國(guó)奧巴馬政府在白宮網(wǎng)站發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,提出“通過收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,從中獲得知識(shí)和洞見,提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐,強(qiáng)化美國(guó)國(guó)土安全,轉(zhuǎn)變教育和學(xué)習(xí)模式”;中國(guó)工程院院士鄔賀銓說道,“智慧城市是使用智能計(jì)算技術(shù)使得城市的關(guān)鍵基礎(chǔ)設(shè)施的組成和服務(wù)更智能、互聯(lián)和有效,隨著智慧城市的建設(shè),社會(huì)將步入“大數(shù)據(jù)”時(shí)代?!彪y點(diǎn):1、在最初就合理規(guī)劃智慧城市(深度思考哪些領(lǐng)域能夠運(yùn)用);2、在城市發(fā)展基礎(chǔ)設(shè)施和“云產(chǎn)業(yè)”的同時(shí),更多重視“數(shù)據(jù)”的價(jià)值;3、在大數(shù)據(jù)處理領(lǐng)域的核心技術(shù)不足,需要政府更大的投入。大數(shù)據(jù)的應(yīng)用—智慧城市
“智慧大腦”智能感知互聯(lián)互通智能運(yùn)營(yíng)協(xié)同共享美國(guó)奧巴馬政府在20政府、金融、電信等行業(yè)投資建立大數(shù)據(jù)的處理分析手段,實(shí)現(xiàn)綜合治理、業(yè)務(wù)開拓等目標(biāo);應(yīng)用到制造等更多行業(yè)。更多行業(yè)的應(yīng)用政府、金融、電信等行業(yè)投資建立大數(shù)據(jù)的處理分析手段,實(shí)現(xiàn)綜合21數(shù)據(jù)的再利用:由于在信息價(jià)值鏈中的特殊位置,有些公司可能會(huì)收集到大量的數(shù)據(jù),但他們并不急需使用也不擅長(zhǎng)再次利用這些數(shù)據(jù)。例如,移動(dòng)電話運(yùn)營(yíng)商建立呼叫時(shí)會(huì)從HLR獲得用戶位置信息,這對(duì)于運(yùn)營(yíng)商來說,數(shù)據(jù)只有狹窄的技術(shù)用途。但當(dāng)它被一些發(fā)布個(gè)性化位置廣告服務(wù)和促銷活動(dòng)的公司再次利用時(shí),則變得更有價(jià)值。大數(shù)據(jù)價(jià)值鏈的3大構(gòu)成:數(shù)據(jù)本身、技能與思維其中三者兼具的有谷歌公司,谷歌在剛開始收集數(shù)據(jù)的時(shí)候就已經(jīng)有多次使用數(shù)據(jù)的想法。比方說,它的街景采集車手機(jī)全球定位系統(tǒng)數(shù)據(jù)不光是為了創(chuàng)建谷歌地圖,也是為了制成全自動(dòng)汽車以及谷歌眼鏡等與實(shí)景交匯的產(chǎn)品。未來,企業(yè)會(huì)依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶?!洞髷?shù)據(jù)時(shí)代》傳統(tǒng)行業(yè)最終都會(huì)轉(zhuǎn)變?yōu)榇髷?shù)據(jù)行業(yè),無(wú)論是金融服務(wù)也、醫(yī)藥還是制造業(yè)。大數(shù)據(jù)的應(yīng)用
——未來,改變一切數(shù)據(jù)的再利用:大數(shù)據(jù)價(jià)值鏈的3大構(gòu)成:數(shù)據(jù)本身、技能與思維未大數(shù)據(jù)賦予我們洞察未來的能力馬云成功預(yù)測(cè)2008年經(jīng)濟(jì)危機(jī)“2008年初,阿里巴巴平臺(tái)上整個(gè)買家詢盤數(shù)急劇下滑,歐美對(duì)中國(guó)采購(gòu)在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);我們提前半年時(shí)間從詢盤上推斷出世界貿(mào)易發(fā)生變化了?!蓖ǔ6裕I家在采購(gòu)商品前,會(huì)比較多家供應(yīng)商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計(jì)數(shù)據(jù)中,就是查詢點(diǎn)擊的數(shù)量和購(gòu)買點(diǎn)擊的數(shù)量會(huì)保持一個(gè)相對(duì)的數(shù)值,綜合各個(gè)維度的數(shù)據(jù)可建立用戶行為模型。因?yàn)閿?shù)據(jù)樣本巨大,保證用戶行為模型的準(zhǔn)確性。因此在這個(gè)案例中,詢盤數(shù)據(jù)的下降,自然導(dǎo)致買盤的下降。人類從依靠自身判斷做決定到依靠數(shù)據(jù)做決定的轉(zhuǎn)變,也是大數(shù)據(jù)作出的最大貢獻(xiàn)之一?!洞髷?shù)據(jù)時(shí)代》大數(shù)據(jù)帶來的機(jī)遇大數(shù)據(jù)賦予我們洞察未來的能力馬云成功預(yù)測(cè)2008年經(jīng)濟(jì)危機(jī)23結(jié)構(gòu)化數(shù)據(jù)向非結(jié)構(gòu)化數(shù)據(jù)演進(jìn),使得未來IT投資重點(diǎn)不再是建系統(tǒng)為核心,而是圍繞大數(shù)據(jù)為核心;海量數(shù)據(jù)可以在各個(gè)部門創(chuàng)造重大的財(cái)物價(jià)值,未來投資傾斜。未來IT投資重心轉(zhuǎn)移結(jié)構(gòu)化數(shù)據(jù)向非結(jié)構(gòu)化數(shù)據(jù)演進(jìn),使得未來IT投資重點(diǎn)不再是建系24什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產(chǎn)品分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析議題什么是大數(shù)據(jù)?議題25據(jù)IDC的預(yù)測(cè),全球大數(shù)據(jù)市場(chǎng)2015年將達(dá)170億美元規(guī)模,市場(chǎng)發(fā)展前景很大。而Hadoop作為新一代的架構(gòu)和技術(shù),因?yàn)橛欣诓⑿蟹植继幚怼按髷?shù)據(jù)”而備受重視。ApacheHadoop是一個(gè)用java語(yǔ)言實(shí)現(xiàn)的軟件框架,在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)的分布式計(jì)算,它可以讓應(yīng)用程序支持上千個(gè)節(jié)點(diǎn)和PB級(jí)別的數(shù)據(jù)。Hadoop是項(xiàng)目的總稱,主要是由分布式存儲(chǔ)(HDFS)、分布式計(jì)算(MapReduce)等組成。
優(yōu)點(diǎn):可擴(kuò)展:不論是存儲(chǔ)的可擴(kuò)展還是計(jì)算的可擴(kuò)展都是Hadoop的設(shè)計(jì)根本。經(jīng)濟(jì):框架可以運(yùn)行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實(shí)現(xiàn)以及MapReduce結(jié)合LocalData處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。大數(shù)據(jù)主要應(yīng)用技術(shù)-Hadoop據(jù)IDC的預(yù)測(cè),全球大數(shù)據(jù)市場(chǎng)2015年將達(dá)17026Hadoop項(xiàng)目簡(jiǎn)介Hadoop包括以下模塊:HadoopCommon:支持其他Hadoop模塊的公用工具,包括FileSystem(面向通用文件系統(tǒng)的抽象基類)、遠(yuǎn)程程序調(diào)用(RPC)和序列化庫(kù).Hadoop分布文件系統(tǒng)(HDFS?):一個(gè)為訪問應(yīng)用數(shù)據(jù)提供高吞吐量的分布式文件系統(tǒng)。HadoopYARN:一個(gè)工作調(diào)度與集群資源管理的框架HadoopMapReduce:一個(gè)基于YARN大數(shù)據(jù)集并行處理系統(tǒng).其他與Hadoop相關(guān)的項(xiàng)目包括:Ambari?:基于Web的對(duì)Hadoop集群進(jìn)行管理的工具Avro?:數(shù)據(jù)序列化系統(tǒng)Cassandra?:沒有單點(diǎn)故障的可擴(kuò)展的多主結(jié)點(diǎn)數(shù)據(jù)庫(kù).Chukwa?:管理大型分布式系統(tǒng)的數(shù)據(jù)采集系統(tǒng),用于監(jiān)控在HDFS和MapReduce上構(gòu)建的大型分布式系統(tǒng);包括用于顯示、監(jiān)視和分析結(jié)果的工具套件.HBase?:支持對(duì)大表進(jìn)行結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的可擴(kuò)展的,分布式數(shù)據(jù)庫(kù)Hive?:提供數(shù)據(jù)匯總與特設(shè)查詢的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施Mahout?:可擴(kuò)展的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘庫(kù).Pig?:高級(jí)數(shù)據(jù)流語(yǔ)言與并行計(jì)算執(zhí)行框架ZooKeeper?:高性能的分布式應(yīng)用協(xié)調(diào)服務(wù).Hadoop項(xiàng)目簡(jiǎn)介Hadoop包括以下模塊:27HDFSZooKeeperAmbari是基于Web的對(duì)Hadoop集群進(jìn)行管理的工具Avro是一個(gè)數(shù)據(jù)序列化系統(tǒng)Mahout是一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘庫(kù).
Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)易的操作和編程接口Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)hive是基于Hadoop的一個(gè)工具,提供完整的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行ZooKeeper:高效的,可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲(chǔ)和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個(gè)開源的,基于列存儲(chǔ)模型的分布式數(shù)據(jù)庫(kù)HDFS是一個(gè)分布式文件系統(tǒng)。有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應(yīng)用程序MapReduce/YARN是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算Cassandra是一種可擴(kuò)展的多主數(shù)據(jù)庫(kù),無(wú)單點(diǎn)故障MapReduce/YARNHBaseChuKwaPigHiveAvroMahoutCassandraAmbariHadoop體系架構(gòu)HDFSZooKeeperAmbari是基于Web的對(duì)Had28ApacheHadoop概覽主要開發(fā)子項(xiàng)目HadoopHDFS主要的存儲(chǔ)系統(tǒng),使用多個(gè)數(shù)據(jù)塊副本,在集群內(nèi)的節(jié)點(diǎn)上進(jìn)行分配,并為應(yīng)用數(shù)據(jù)提供了高吞吐率訪問能力HadoopMapReduce一種面向應(yīng)用的編程模型和軟件框架,在計(jì)算節(jié)點(diǎn)上對(duì)大型數(shù)據(jù)集執(zhí)行分布式處理HadoopCommon支持Hadoop框架的實(shí)用程序,包括FileSystem(面向通用文件系統(tǒng)的抽象基類)、遠(yuǎn)程程序調(diào)用(RPC)和序列化庫(kù)其它相關(guān)Hadoop項(xiàng)目ApacheAvro一種數(shù)據(jù)序列化系統(tǒng)ApacheCassandra一種可擴(kuò)展的多主數(shù)據(jù)庫(kù),無(wú)單點(diǎn)故障ApacheChukwa一種數(shù)據(jù)收集系統(tǒng),用于監(jiān)控在HDFS和MapReduce上構(gòu)建的大型分布式系統(tǒng);包括用于顯示、監(jiān)視和分析結(jié)果的工具套件ApacheHBase一種可擴(kuò)展的分布式數(shù)據(jù)庫(kù),支持結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),可創(chuàng)建大表;同時(shí)支持隨機(jī)實(shí)時(shí)讀寫訪問大數(shù)據(jù)ApacheMahout一種可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù),實(shí)施了廣泛的算法,包括集群、分類、協(xié)作過濾和頻繁模式挖掘ApacheHive一種數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施,提供了數(shù)據(jù)匯總和即席查詢能力,并支持在Hadoop兼容的文件系統(tǒng)中分析大型數(shù)據(jù)集ApachePig一種高級(jí)數(shù)據(jù)庫(kù)語(yǔ)言和執(zhí)行框架,用于進(jìn)行并行數(shù)據(jù)分析ApacheZooKeeper一種高性能中央?yún)f(xié)調(diào)服務(wù),可保持配置信息和命名,為分布式應(yīng)用提供了分布式同步和群組服務(wù)ApacheAmbri一種基于Web對(duì)Hadoop集群進(jìn)行管理的工具ApacheHadoop概覽主要開發(fā)子項(xiàng)目Hadoop292004年--最初的版本(現(xiàn)在稱為HDFS和MapReduce)由DougCutting和MikeCafarella開始實(shí)施。2006年1月--DougCutting加入雅虎。2006年2月--ApacheHadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS的獨(dú)立發(fā)展。2006年2月--雅虎的網(wǎng)格計(jì)算團(tuán)隊(duì)采用Hadoop。06年12月--標(biāo)準(zhǔn)排序在20個(gè)節(jié)點(diǎn)上運(yùn)行1.8個(gè)小時(shí),100個(gè)節(jié)點(diǎn)3.3小時(shí),500個(gè)節(jié)點(diǎn)5.2小時(shí),900個(gè)節(jié)點(diǎn)7.8個(gè)小時(shí)。08年4月--贏得世界最快1TB數(shù)據(jù)排序在900個(gè)節(jié)點(diǎn)上用時(shí)209秒。08年10月--研究集群每天裝載10TB的數(shù)據(jù)。09年3月--17個(gè)集群總共24000臺(tái)機(jī)器。09年4月--贏得每分鐘排序,59秒內(nèi)排序500GB(在1400個(gè)節(jié)點(diǎn)上)和173分鐘內(nèi)排序100TB數(shù)據(jù)(在3400個(gè)節(jié)點(diǎn)上)。10年5月—Avro與Hbase畢業(yè)。10年9月–Hive與Pig畢業(yè)11年1月—Zookeeper畢業(yè)11年3月—獲得Guardian媒體創(chuàng)新獎(jiǎng)?lì)^獎(jiǎng)11年12月27—1.0.0版發(fā)布13年8月25—2.1.0beta版發(fā)布13年10月15—2.2.0發(fā)布Hadoop發(fā)展大事
2004年--最初的版本(現(xiàn)在稱為HDFS和MapRedu30MapReduceMap:任務(wù)的分解Reduce:結(jié)果的匯總兩大核心設(shè)計(jì)HDFSNameNode:文件管理DataNode:文件存儲(chǔ)Client:文件獲取Hadoop核心設(shè)計(jì)MapReduce兩大核心設(shè)計(jì)HDFSHadoop核心設(shè)計(jì)31Hadoop基本架構(gòu)在Hadoop的系統(tǒng)中,會(huì)有一臺(tái)Master,主要負(fù)責(zé)NameNode的工作以及JobTracker的工作。JobTracker的主要職責(zé)就是啟動(dòng)、跟蹤和調(diào)度各個(gè)Slave的任務(wù)執(zhí)行。還會(huì)有多臺(tái)Slave,每一臺(tái)Slave通常具有DataNode的功能并負(fù)責(zé)TaskTracker的工作。TaskTracker根據(jù)應(yīng)用要求來結(jié)合本地?cái)?shù)據(jù)執(zhí)行Map任務(wù)以及Reduce任務(wù)。名稱節(jié)點(diǎn)(NameNode):管理文件系統(tǒng)的命名空間,記錄文件系統(tǒng)樹及這個(gè)樹內(nèi)所有的文件和索引目錄,同時(shí)也記錄每個(gè)文件的每個(gè)塊,所在的數(shù)據(jù)節(jié)點(diǎn)。數(shù)據(jù)節(jié)點(diǎn)(DataNode):文件系統(tǒng)的工作者,存儲(chǔ)并提供定位塊的服務(wù),并定時(shí)向名稱節(jié)點(diǎn)發(fā)送塊的存儲(chǔ)列表JobTracker:協(xié)調(diào)作業(yè)的運(yùn)行。TaskTracker:運(yùn)行作業(yè)劃分后的任務(wù)。Hadoop基本架構(gòu)在Hadoop的系統(tǒng)中,會(huì)有一臺(tái)Mast32HDFS適應(yīng)條件超大文件
指的是幾百M(fèi)B,幾百GB,幾百TB,甚至幾百PB流式數(shù)據(jù)訪問
HDFS建立的思想是:一次寫入、多次讀取模式是最高效的。商用硬件
hadoop不需要運(yùn)行在昂貴并且高可靠的硬件上。HDFS:為以流式數(shù)據(jù)訪問模式存儲(chǔ)超大文件而設(shè)計(jì)的文件系統(tǒng)。HDFS適應(yīng)條件超大文件HDFS:為以流式數(shù)據(jù)訪問模式存儲(chǔ)超33HDFS不適應(yīng)條件低延遲數(shù)據(jù)訪問HDFS是為了達(dá)到高數(shù)據(jù)吞吐量而優(yōu)化的,這是以延遲為代價(jià)的,對(duì)于低延遲訪問,可以用Hbase(hadoop的子項(xiàng)目)。大量的小文件多用戶寫入,任意修改
HDFS不適應(yīng)條件低延遲數(shù)據(jù)訪問34HDFS的基本單元儲(chǔ)存基本單元
Block(塊):HDFS基本儲(chǔ)存單元,是個(gè)邏輯單元,和OS中的頁(yè)類似。 一個(gè)文件有可能包含多個(gè)塊,一個(gè)塊有可以包含多個(gè)文件,由文件的大小和塊大小的參數(shù)決定。
dfs.block.size參數(shù)。Hdfs中Block的大小,默認(rèn)64MB。如果設(shè)置大,就會(huì)有可能導(dǎo)致Map運(yùn)行慢,設(shè)置小,有可能導(dǎo)致Map個(gè)數(shù)多,所有一定要設(shè)置適當(dāng)。(目前主流機(jī)器建議設(shè)置為128M)。HDFS的基本單元儲(chǔ)存基本單元35HDFS集群框架圖HDFS集群框架圖36HDFS集群框架圖文件寫入:Client向NameNode發(fā)起文件寫入的請(qǐng)求。NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。Client將文件劃分為多個(gè)Block,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€(gè)DataNode塊中。文件讀?。篊lient向NameNode發(fā)起文件讀取的請(qǐng)求。NameNode返回文件存儲(chǔ)的DataNode的信息。Client讀取文件信息。HDFS集群框架圖文件寫入:37HDFS集群框架NameNode記錄著每個(gè)文件的元數(shù)據(jù)。每個(gè)文件在那個(gè)塊中,每個(gè)數(shù)據(jù)節(jié)點(diǎn)包含哪些塊。(不儲(chǔ)存原始文件)DataNode是文件的工作者,它們存儲(chǔ)文件并提供定位塊的服務(wù),并且定時(shí)向名稱節(jié)點(diǎn)發(fā)送它們的存儲(chǔ)塊的列表(儲(chǔ)存原始文件)。重要參數(shù)
dfs.replication.min參數(shù)。最小為1,表示每個(gè)塊在HDFS中的副本個(gè)數(shù)。HDFS集群框架NameNode記錄著每個(gè)文件的元數(shù)據(jù)。每個(gè)38HDFS文件讀取圖HDFS文件讀取圖39HDFS文件寫入圖HDFS文件寫入圖40HDFS的幾個(gè)設(shè)計(jì)特點(diǎn)Block的放置:默認(rèn)不配置。一個(gè)Block會(huì)有三份備份,一份放在NameNode指定的DataNode,另一份放在與指定DataNode非同一Rack上的DataNode,最后一份放在與指定DataNode同一Rack上的DataNode上。備份無(wú)非就是為了數(shù)據(jù)安全,考慮同一Rack的失敗情況以及不同Rack之間數(shù)據(jù)拷貝性能問題就采用這種配置方式。心跳檢測(cè)DataNode的健康狀況,如果發(fā)現(xiàn)問題就采取數(shù)據(jù)備份的方式來保證數(shù)據(jù)的安全性。數(shù)據(jù)復(fù)制(場(chǎng)景為DataNode失敗、需要平衡DataNode的存儲(chǔ)利用率和需要平衡DataNode數(shù)據(jù)交互壓力等情況):這里先說一下,使用HDFS的balancer命令,可以配置一個(gè)Threshold來平衡每一個(gè)DataNode磁盤利用率。例如設(shè)置了Threshold為10%,那么執(zhí)行balancer命令的時(shí)候,首先統(tǒng)計(jì)所有DataNode的磁盤利用率的均值,然后判斷如果某一個(gè)DataNode的磁盤利用率超過這個(gè)均值Threshold以上,那么將會(huì)把這個(gè)DataNode的block轉(zhuǎn)移到磁盤利用率低的DataNode,這對(duì)于新節(jié)點(diǎn)的加入來說十分有用。HDFS的幾個(gè)設(shè)計(jì)特點(diǎn)Block的放置:默認(rèn)不配置。一個(gè)Bl41HDFS的幾個(gè)設(shè)計(jì)特點(diǎn)數(shù)據(jù)校驗(yàn):采用CRC32作數(shù)據(jù)校驗(yàn)。在文件Block寫入的時(shí)候除了寫入數(shù)據(jù)還會(huì)寫入校驗(yàn)信息,在讀取的時(shí)候需要校驗(yàn)后再讀入。NameNode是單點(diǎn):如果失敗的話,任務(wù)處理信息將會(huì)紀(jì)錄在本地文件系統(tǒng)和遠(yuǎn)端的文件系統(tǒng)中。數(shù)據(jù)管道性的寫入:當(dāng)客戶端要寫入文件到DataNode上,首先客戶端讀取一個(gè)Block然后寫到第一個(gè)DataNode上,然后由第一個(gè)DataNode傳遞到備份的DataNode上,一直到所有需要寫入這個(gè)Block的NataNode都成功寫入,客戶端才會(huì)繼續(xù)開始寫下一個(gè)Block。HDFS的幾個(gè)設(shè)計(jì)特點(diǎn)數(shù)據(jù)校驗(yàn):采用CRC32作數(shù)據(jù)校驗(yàn)。在42HDFS的幾個(gè)設(shè)計(jì)特點(diǎn)安全模式:在分布式文件系統(tǒng)啟動(dòng)的時(shí)候,開始的時(shí)候會(huì)有安全模式,當(dāng)分布式文件系統(tǒng)處于安全模式的情況下,文件系統(tǒng)中的內(nèi)容不允許修改也不允許刪除,直到安全模式結(jié)束。安全模式主要是為了系統(tǒng)啟動(dòng)的時(shí)候檢查各個(gè)DataNode上數(shù)據(jù)塊的有效性,同時(shí)根據(jù)策略必要的復(fù)制或者刪除部分?jǐn)?shù)據(jù)塊。運(yùn)行期通過命令也可以進(jìn)入安全模式。在實(shí)踐過程中,系統(tǒng)啟動(dòng)的時(shí)候去修改和刪除文件也會(huì)有安全模式不允許修改的出錯(cuò)提示,只需要等待一會(huì)兒即可。HDFS的幾個(gè)設(shè)計(jì)特點(diǎn)安全模式:在分布式文件系統(tǒng)啟動(dòng)的時(shí)候,43MapReduce程序1:runjobJobClient客戶端JVMJobTrackerTaskTrackerChildMapTask或者ReduceTaskJobtracker節(jié)點(diǎn)子JVMTasktracker節(jié)點(diǎn)HDFS2:getnewjobID3:copyJobrescouce4:submitjob5:initializejob6:retrieveInputsplits7:returnstask8:retrievejobresources10:run9:launch客戶端:提交MapReduce作業(yè),即一個(gè)job。jobTracker:協(xié)調(diào)作業(yè)的運(yùn)行。taskTracker:作業(yè)劃分后的任務(wù)(一個(gè)job對(duì)應(yīng)多個(gè)
task,一個(gè)task對(duì)應(yīng)一個(gè)或者多個(gè)
MapReduce線程)。HDFS:用來在其他實(shí)體間共享作業(yè)文件MapReduce的工作原理MapReduce1:runjobJobClient客戶端44MapReduce基本構(gòu)架與工作過程datanodedaemonLinuxfilesystem…tasktrackerslavenodedatanodedaemonLinuxfilesystem…tasktrackerslavenodedatanodedaemonLinuxfilesystem…tasktrackerslavenodenamenodenamenodedaemonjobsubmissionnodejobtracker數(shù)據(jù)存儲(chǔ)與計(jì)算節(jié)點(diǎn)構(gòu)架MapReduce基本構(gòu)架與工作過程datanodedae45MapReduce數(shù)據(jù)流MapReduce數(shù)據(jù)流46MapReduce數(shù)據(jù)流1根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把數(shù)據(jù)分成splits,每個(gè)split對(duì)應(yīng)于一個(gè)map線程。2Split中的數(shù)據(jù)作為Map的輸入,Map的輸出一定在Map端。3Map的輸出到Reduce的輸入的過程(shuffle過程): 第一階段:在map端完成 內(nèi)存->排序->寫入磁盤->復(fù)制 分區(qū)->排序->分區(qū)合并->合并后分區(qū)->復(fù)制 第二階段:在reduce端完成 映射到reduce端分區(qū)->合并->排序4Reduce的輸入到Reduce的輸出最后排好序的key/value作為Reduce的輸入,輸出不一定是在reduce端。MapReduce數(shù)據(jù)流1根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把47MapReduce數(shù)據(jù)流MapReduce是Hadoop程序的體現(xiàn)??蚣軜O其簡(jiǎn)單:首先是對(duì)MapReduce程序運(yùn)行前的參數(shù)配置,然后編寫Map類(實(shí)現(xiàn)Map方法),最后是Reduce類(實(shí)現(xiàn)Reduce方法)。MapReduce程序的每個(gè)細(xì)節(jié)都與設(shè)置的參數(shù)有很大的關(guān)系,參數(shù)設(shè)置的好,程序的效率肯定得到提高。Map方法:Map(k1,v1)
->list(k2,v2),并行應(yīng)用于每一個(gè)輸入的數(shù)據(jù)集,每一次調(diào)用都會(huì)產(chǎn)生一個(gè)(k2,v2)的隊(duì)列。Reduce方法:Reduce(k2,list(v2))
->
list(k3,v3)。收集map端輸出隊(duì)列l(wèi)ist(k2,v2)中有相同key的數(shù)據(jù)對(duì),把它們聚集在一起,輸出時(shí)形成目的數(shù)據(jù)
list(k3,v3)。MapReduce數(shù)據(jù)流MapReduce是Hadoop程48下一代MapReduce
-YARNMRV2maintains
APIcompatibility
withpreviousstablerelease(hadoop-0.20.205).ThismeansthatallMap-ReducejobsshouldstillrununchangedontopofMRv2withjustarecompile下一代MapReduce-YARNMRV2maintai49HBase–HadoopDatabase,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng);HBase位于結(jié)構(gòu)化存儲(chǔ)層,HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持,MapReduce為HBase提供了高性能的計(jì)算能力,Zookeeper為HBase提供了穩(wěn)定服務(wù)和failover機(jī)制;Pig和Hive還為HBase提供了高層語(yǔ)言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)處理變的簡(jiǎn)單。HBASE——分布式數(shù)據(jù)存儲(chǔ)HBase–HadoopDatabase,是一個(gè)高可靠50什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產(chǎn)品分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析議題什么是大數(shù)據(jù)?議題51大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時(shí),往往會(huì)使用開源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,Cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術(shù)支持,這對(duì)一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracleHadoop主要開發(fā)廠商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時(shí),往往會(huì)使用開源52在Hadoop生態(tài)系統(tǒng)中,規(guī)模最大、知名度最高的公司則是Cloudera。2008年成立的Cloudera是最早將Hadoop商用的公司,為合作伙伴提供Hadoop的商用解決方案,主要是包括支持,咨詢服務(wù)和培訓(xùn)。Cloudera的客戶中倒是有很多知名公司,如AOL、哥倫比亞廣播公司、eBay、Expedia、摩根大通、Monsanto、諾基亞、RIM和迪士尼等。Cloudera企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器。CLOUDERA在Hadoop生態(tài)系統(tǒng)中,規(guī)模最大、知名度最高的公司53
2011年成立的Hortonworks是雅虎與硅谷風(fēng)投公司BenchmarkCapital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,上述工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop,這些工程師貢獻(xiàn)了hadoop80%的代碼。Hortonworks的主打產(chǎn)品是HortonworksDataPlatform(HDP),包括穩(wěn)定版本的ApacheHadoop的所有關(guān)鍵組件。Hortonworks2011年成立的Hortonworks是雅虎與硅谷風(fēng)投公司54InfoSphereBigInsights是一個(gè)軟件平臺(tái),旨在幫助企業(yè)從大量不同范圍的數(shù)據(jù)中挖掘商機(jī)并進(jìn)行分析,如日志記錄、點(diǎn)擊流、社會(huì)媒體數(shù)據(jù)、新聞?wù)?、電子傳感器輸出,甚至是一些事?wù)數(shù)據(jù)等。BigInsights包括ApacheHadoop發(fā)行版、面向MapReduce編程的Pig編程語(yǔ)言、針對(duì)IBM的DB2數(shù)據(jù)庫(kù)的連接件以及IBMBigSheets。IBM通過其智慧云企業(yè)(SmartCloudEnterprise)基礎(chǔ)架構(gòu),將BigInsights和BigSheets作為一項(xiàng)服務(wù)來提供??蛻舨槐刭?gòu)買支持性硬件,也不需要IT專門知識(shí),就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM稱,客戶用30分鐘就能搭建起Hadoop集群,并能將現(xiàn)有數(shù)據(jù)轉(zhuǎn)移到集群里面。IBMInfoSphereBigInsights是55Oracle
BigData機(jī)與Oracle
Exadata數(shù)據(jù)庫(kù)云服務(wù)器以及新推出的Oracle
Exalytics商務(wù)智能云服務(wù)器,為客戶提供了一個(gè)端到端的大數(shù)據(jù)解決方案,從而為客戶在企業(yè)內(nèi)獲取、組織、分析大數(shù)據(jù)以及最大限度地挖掘大數(shù)據(jù)的價(jià)值提供了所需要的一切條件。OracleBigData機(jī)是一款集成設(shè)計(jì)的系統(tǒng),并且針對(duì)獲取、組織以及將非結(jié)構(gòu)化數(shù)據(jù)加載到Oracle數(shù)據(jù)庫(kù)11g之中的整個(gè)流程進(jìn)行優(yōu)化。OracleBigData機(jī)包括開源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫(kù)、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、OracleHadoop裝載器。OracleOracleBigData機(jī)與Oracle56
EMC公司于2013年發(fā)布了自身的ApacheHadoop發(fā)行版——PivotalHD,同時(shí)發(fā)布的還有一個(gè)名為HAWQ的技術(shù),通過HAWQ能夠?qū)reenplum分析型數(shù)據(jù)庫(kù)與Hadoop分布式架構(gòu)進(jìn)行緊密地融合。PivotalHD對(duì)ApacheHadoop進(jìn)行了全面的改造,同其他一些Hadoop發(fā)行版相比,其最大的優(yōu)勢(shì)就是能夠與Greenplum數(shù)據(jù)庫(kù)進(jìn)行整合,PivotalHD和HAWQ讓EMC在Hadoop領(lǐng)域更進(jìn)一步,同時(shí)將成為EMC大數(shù)據(jù)戰(zhàn)略中的一個(gè)重要里程碑。EMCEMC公司于2013年發(fā)布了自身的ApacheHa57基于在大數(shù)據(jù)領(lǐng)域的長(zhǎng)期技術(shù)積累和應(yīng)用經(jīng)驗(yàn),英特爾推出成熟的企業(yè)級(jí)Hadoop發(fā)行版,為企業(yè)和政府部門實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用提供強(qiáng)有力的平臺(tái)支持。英特爾在Hadoop上的改進(jìn)和功能增強(qiáng)為用戶提供了一個(gè)高性能、高穩(wěn)定性和可管理的大數(shù)據(jù)應(yīng)用實(shí)施平臺(tái),并提供全面的專業(yè)支持。在Hadoop軟件的英特爾分發(fā)版在中國(guó)推廣的兩年多時(shí)間里,已經(jīng)在電信行業(yè)、智能交通行業(yè)有多個(gè)成功應(yīng)用。INTEL基于在大數(shù)據(jù)領(lǐng)域的長(zhǎng)期技術(shù)積累和應(yīng)用經(jīng)驗(yàn),英特爾58什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產(chǎn)品分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析議題什么是大數(shù)據(jù)?議題59網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級(jí)和終端設(shè)備的爆發(fā),使今天的用戶能夠使用多種設(shè)備、從不同位置、通過多種手段來接入互聯(lián)網(wǎng),并在這一過程中不斷創(chuàng)造新內(nèi)容在線應(yīng)用和服務(wù)越來越豐富的在線應(yīng)用和服務(wù),不斷激勵(lì)用戶創(chuàng)造和分享信息,尤其是社會(huì)化媒體業(yè)務(wù),帶動(dòng)圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)飛速增長(zhǎng)與各垂直行業(yè)的融合互聯(lián)網(wǎng)作為一個(gè)高滲透力的行業(yè),正在與各垂直行業(yè)發(fā)生深度的融合,原本隱藏于線下的孤島信息,源源不斷的輸入到線上?;ヂ?lián)網(wǎng)行業(yè)擁抱大數(shù)據(jù)的關(guān)鍵因素互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)的應(yīng)用,會(huì)首先帶動(dòng)社會(huì)化媒體、電子商務(wù)的快速發(fā)展,其他的互聯(lián)網(wǎng)分支也會(huì)緊追其后,整個(gè)行業(yè)在大數(shù)據(jù)的推動(dòng)下將會(huì)蓬勃發(fā)展?;ヂ?lián)網(wǎng)行業(yè)對(duì)數(shù)據(jù)實(shí)時(shí)分析要求較高,例如廣告監(jiān)測(cè)、B2C業(yè)務(wù),往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達(dá)到不影響用戶體驗(yàn)和快速準(zhǔn)確營(yíng)銷的目的。目前互聯(lián)網(wǎng)企業(yè)面對(duì)大數(shù)據(jù),會(huì)普遍感覺到實(shí)時(shí)分析能力差、海量數(shù)據(jù)處理效率低、缺少分析方法、分析軟件能力差等問題?;ヂ?lián)網(wǎng)行業(yè)大數(shù)據(jù)分析面臨的主要問題互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)需求分析網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級(jí)和終端設(shè)備的爆發(fā),使今天的用戶能夠60公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。節(jié)點(diǎn)數(shù):15臺(tái)機(jī)器的構(gòu)成的服務(wù)器集群服務(wù)器配置:8核CPU,16G內(nèi)存,1.4T硬盤容量HADOOP在百度HADOOP主要應(yīng)用日志分析,同時(shí)使用它做一些網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘工作。節(jié)點(diǎn)數(shù):10-500個(gè)節(jié)點(diǎn)。周數(shù)據(jù)量:3000TBHADOOP在Facebook主要用于存儲(chǔ)內(nèi)部日志的拷貝,作為一個(gè)源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計(jì)。主要使用了2個(gè)集群:一個(gè)由1100臺(tái)節(jié)點(diǎn)組成的集群,包括8800核CPU(即每臺(tái)機(jī)器8核),和12000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤),一個(gè)有300臺(tái)節(jié)點(diǎn)組成的集群,包括2400核CPU(即每臺(tái)機(jī)器8核),和3000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤),由此基礎(chǔ)上開發(fā)了基于SQL語(yǔ)法的項(xiàng)目:HIVEHADOOP在TWITTER使用HADOOP用于存儲(chǔ)微博數(shù)據(jù),日志文件和許多中間數(shù)據(jù)使用基于HADOOP構(gòu)件的Cloudera'sCDH2系統(tǒng),存儲(chǔ)壓縮后的數(shù)據(jù)文件(LZO格式)HADOOP在雅虎主要用于支持廣告系統(tǒng)及網(wǎng)頁(yè)搜索機(jī)器數(shù):25000,CPU:8核集群機(jī)器數(shù):
4000
個(gè)節(jié)點(diǎn)
(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯(lián)網(wǎng)行業(yè)Hadoop應(yīng)用公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并61金融行業(yè)大數(shù)據(jù)發(fā)展分析
IDC研究顯示,數(shù)據(jù)是重要資產(chǎn)的理念已經(jīng)在中國(guó)金融行業(yè)形成共識(shí),數(shù)據(jù)的真正價(jià)值在于能夠洞察企業(yè)內(nèi)部規(guī)律,數(shù)據(jù)的洞察力成為金融企業(yè)的核心競(jìng)爭(zhēng)力。在中國(guó)金融行業(yè)信息化建設(shè)中,與信息加工密切相關(guān)的大數(shù)據(jù)管理正逐漸成為與核心業(yè)務(wù)系統(tǒng)建設(shè)、渠道建設(shè)和前置建設(shè)同等重要的領(lǐng)域。經(jīng)過多年的發(fā)展與積累,目前中國(guó)的大型商業(yè)銀行和保險(xiǎn)公司的數(shù)據(jù)量已經(jīng)達(dá)到100TB以上級(jí)別,并且非結(jié)構(gòu)化數(shù)據(jù)量在迅速增長(zhǎng)。金融行業(yè)大數(shù)據(jù)需求背景從未來幾年看,金融行業(yè)在“十二五”時(shí)期面臨發(fā)展方式轉(zhuǎn)型的挑戰(zhàn),轉(zhuǎn)型主要集中在三大方面:一,建立全面的風(fēng)險(xiǎn)管理體制,向嚴(yán)監(jiān)管轉(zhuǎn)型;二,從粗放式管理向精細(xì)化管理轉(zhuǎn)型;三,從“利潤(rùn)為中心”向“客戶為中心”轉(zhuǎn)型。大數(shù)據(jù)在加強(qiáng)風(fēng)險(xiǎn)管控、精細(xì)化管理、服務(wù)創(chuàng)新等轉(zhuǎn)型中別具現(xiàn)實(shí)意義,是實(shí)現(xiàn)向信息化銀行轉(zhuǎn)型的重要推動(dòng)力。金融行業(yè)應(yīng)首先在戰(zhàn)略層面對(duì)大數(shù)據(jù)進(jìn)行規(guī)劃,積極應(yīng)對(duì)大數(shù)據(jù)時(shí)代的挑戰(zhàn),推進(jìn)并建立數(shù)據(jù)驅(qū)動(dòng)型發(fā)展方式。金融行業(yè)大數(shù)據(jù)需求分析金融行業(yè)大數(shù)據(jù)發(fā)展分析金融行業(yè)大數(shù)據(jù)需求背景62已經(jīng)開始使用Hadoop技術(shù)以滿足日益增多的用途,包括詐騙檢驗(yàn)、IT風(fēng)險(xiǎn)管理和自助服務(wù)。150PB在線存儲(chǔ)數(shù)據(jù)、30,000個(gè)數(shù)據(jù)庫(kù)和35億個(gè)用戶登錄賬號(hào)。Hadoop能夠存儲(chǔ)大量非結(jié)構(gòu)化數(shù)據(jù),允許公司收集和存儲(chǔ)Web日志、交易數(shù)據(jù)和社交媒體數(shù)據(jù)。數(shù)據(jù)被匯集至一個(gè)通用平臺(tái),以方便以客戶為中心的數(shù)據(jù)挖掘與數(shù)據(jù)分析工具的使用。摩根大通已經(jīng)開始使用Hadoop技術(shù)以滿足日益增多的用途,包括詐騙檢63中信銀行信用卡中心大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長(zhǎng)迅速:2008年發(fā)卡約500萬(wàn)張,2010年增加了一倍。業(yè)務(wù)數(shù)據(jù)增長(zhǎng)迅速:隨著業(yè)務(wù)的迅猛增長(zhǎng),業(yè)務(wù)數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲(chǔ)、系統(tǒng)維護(hù)、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴(kuò)展、高性能的數(shù)據(jù)倉(cāng)庫(kù)解決方案能夠?qū)崿F(xiàn)業(yè)務(wù)數(shù)據(jù)的集中和整合;可以支持多樣化和復(fù)雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務(wù)效率;通過從數(shù)據(jù)倉(cāng)庫(kù)提取數(shù)據(jù),改進(jìn)和推動(dòng)有針對(duì)性的營(yíng)銷活動(dòng)。采用大數(shù)據(jù)方案后價(jià)值體現(xiàn)實(shí)時(shí)的商業(yè)智能可以結(jié)合實(shí)時(shí)、歷史數(shù)據(jù)進(jìn)行全局分析,風(fēng)險(xiǎn)管理部門現(xiàn)在可以每天評(píng)估客戶的行為,并決定對(duì)客戶的信用額度在同一天進(jìn)行調(diào)整;原有內(nèi)部系統(tǒng)、模型整體性能顯著提高秒級(jí)營(yíng)銷Greenplum數(shù)據(jù)倉(cāng)庫(kù)解決方案提供了統(tǒng)一的客戶視圖,更有針對(duì)的進(jìn)行營(yíng)銷。2011年,中信銀行信用卡中心通過其數(shù)據(jù)庫(kù)營(yíng)銷平臺(tái)進(jìn)行了1286個(gè)宣傳活動(dòng),每個(gè)營(yíng)銷活動(dòng)配置平均時(shí)間從2周縮短到2-3天。EMCGreen-plum未來和基于Hadoop的PivotalHD相融合中信銀行信用卡中心大數(shù)據(jù)發(fā)卡量增長(zhǎng)迅速:2008年發(fā)卡約5064
隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,運(yùn)營(yíng)商的網(wǎng)絡(luò)將會(huì)更加繁忙,用于監(jiān)測(cè)網(wǎng)絡(luò)狀態(tài)的信令數(shù)據(jù)也會(huì)快速增長(zhǎng)。通過大數(shù)據(jù)的海量分布式存儲(chǔ)技術(shù),可以更好地滿足存儲(chǔ)需求;通過智能分析技術(shù),能夠提高網(wǎng)絡(luò)維護(hù)的實(shí)時(shí)性,預(yù)測(cè)網(wǎng)絡(luò)流量峰值,預(yù)警異常流量,有效防止網(wǎng)絡(luò)堵塞和宕機(jī),為網(wǎng)絡(luò)改造、優(yōu)化提供參考,從而提高網(wǎng)絡(luò)服務(wù)質(zhì)量,提升用戶體驗(yàn)。提升網(wǎng)絡(luò)服務(wù)質(zhì)量,增強(qiáng)管道智能化客戶洞察是指在企業(yè)或部門層面對(duì)客戶數(shù)據(jù)的全面掌握并在市場(chǎng)營(yíng)銷、客戶聯(lián)系等環(huán)節(jié)的有效應(yīng)用。通過使用大數(shù)據(jù)分析、數(shù)據(jù)挖掘等工具和方法,電信運(yùn)營(yíng)商能夠整合來自市場(chǎng)部門、銷售部門、服務(wù)部門的數(shù)據(jù),從各種不同的角度全面了解自己的客戶,對(duì)客戶形象進(jìn)行精準(zhǔn)刻畫,以尋找目標(biāo)客戶,制定有針對(duì)性的營(yíng)銷計(jì)劃、產(chǎn)品組合或商業(yè)決策,提升客戶價(jià)值。判斷客戶對(duì)企業(yè)產(chǎn)品、服務(wù)的感知,有針對(duì)性地進(jìn)行改進(jìn)和完善。通過情感分析、語(yǔ)義分析等技術(shù),可以針對(duì)客戶的喜好、情緒,進(jìn)行個(gè)性化的業(yè)務(wù)推薦。更加精準(zhǔn)地洞察客戶需求,增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力智慧城市的發(fā)展以及教育、醫(yī)療、交通、環(huán)境保護(hù)等關(guān)系到國(guó)計(jì)民生的行業(yè),都具有極大的信息化需求。目前,電信運(yùn)營(yíng)商針對(duì)智慧城市及行業(yè)信息化服務(wù)雖然能夠提供一攬子解決方案,但主要還是提供終端和通信管道,行業(yè)應(yīng)用軟件和系統(tǒng)集成尚需要整合外部的應(yīng)用軟件提供商,對(duì)于客戶的價(jià)值主要體現(xiàn)在網(wǎng)絡(luò)化、自動(dòng)化等較低水平。而隨著社會(huì)、經(jīng)濟(jì)的發(fā)展,客戶及客戶的客戶對(duì)于智能化的要求將逐步強(qiáng)烈,因此運(yùn)營(yíng)商如能把大數(shù)據(jù)技術(shù)整合到行業(yè)信息化方案中,幫助客戶通過數(shù)據(jù)采集、存儲(chǔ)和分析更好地進(jìn)行決策,將能極大提升信息化服務(wù)的價(jià)值。升級(jí)行業(yè)信息化解決方案,提升客戶價(jià)值大數(shù)據(jù)也有大風(fēng)險(xiǎn),其中之一就是客戶隱私泄露及數(shù)據(jù)安全風(fēng)險(xiǎn)。由于大量的數(shù)據(jù)產(chǎn)生、存儲(chǔ)和分析,數(shù)據(jù)保密和隱私問題將在未來幾年內(nèi)成為一個(gè)更大的問題,企業(yè)必須對(duì)此加以高度關(guān)注并部署相應(yīng)的解決方案。提供數(shù)據(jù)安全服務(wù),在大數(shù)據(jù)市場(chǎng)建立差異化競(jìng)爭(zhēng)優(yōu)勢(shì)電信行業(yè)大數(shù)據(jù)需求分析
隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,運(yùn)營(yíng)商的網(wǎng)絡(luò)將會(huì)更加繁65在中國(guó)移動(dòng)“大云”產(chǎn)品總體架構(gòu)中,分析型PaaS產(chǎn)品底層基于Hadoop數(shù)據(jù)存儲(chǔ)和分析平臺(tái),在技術(shù)路線方面,選擇數(shù)據(jù)倉(cāng)庫(kù)與Hadoop混搭的方式,借鑒關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)在傳統(tǒng)應(yīng)用支持方面以及在復(fù)雜查詢和分析方面的快速響應(yīng)能力,同時(shí)也借鑒了Hadoop的非結(jié)構(gòu)化數(shù)據(jù)處理能力以及存儲(chǔ)的低成本。屏蔽Hadoop與數(shù)據(jù)倉(cāng)庫(kù)的使用細(xì)節(jié),讓用戶在使用這些數(shù)據(jù)時(shí)盡量無(wú)感知;在數(shù)據(jù)的ETL采集預(yù)處理環(huán)節(jié),盡量采用Hadoop與分布式ETL的方式,提高數(shù)據(jù)轉(zhuǎn)換效率,同時(shí)降低成本。
中國(guó)移動(dòng)在中國(guó)移動(dòng)“大云”產(chǎn)品總體架構(gòu)中,分析型PaaS產(chǎn)66中國(guó)聯(lián)通已經(jīng)構(gòu)建了一個(gè)全國(guó)集中的一級(jí)架構(gòu)海量數(shù)據(jù)存儲(chǔ)和查詢系統(tǒng):通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng),在集團(tuán)公司進(jìn)行統(tǒng)一部署,各個(gè)省分僅僅是做數(shù)據(jù)的采集,按照業(yè)務(wù)實(shí)時(shí)性將數(shù)據(jù)傳送到集團(tuán)公司,由集團(tuán)公司統(tǒng)一處理,全國(guó)所有用戶所有上網(wǎng)記錄數(shù)據(jù)都放北京數(shù)據(jù)中心里,在國(guó)內(nèi)電信行業(yè)當(dāng)中也是首創(chuàng)的方式。中國(guó)聯(lián)通成功將大數(shù)據(jù)和Hadoop技術(shù)引入到‘移動(dòng)通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)’。截止到目前已經(jīng)部署了4.5PB的存儲(chǔ)空間。其中,4.5PB的存儲(chǔ)分布在300個(gè)數(shù)據(jù)節(jié)點(diǎn)上,即每個(gè)節(jié)點(diǎn)配備15TB的存儲(chǔ)空間。系統(tǒng)每天有能力處理700億條上網(wǎng)記錄。中國(guó)聯(lián)通中國(guó)聯(lián)通已經(jīng)構(gòu)建了一個(gè)全國(guó)集中的一級(jí)架構(gòu)海量數(shù)67Q&AQ&A68演講完畢,謝謝觀看!演講完畢,謝謝觀看!69大數(shù)據(jù)與Hadoop演講者:電話:郵箱:部門:災(zāi)備服務(wù)部大數(shù)據(jù)與Hadoop演講者:70什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產(chǎn)品分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析議題什么是大數(shù)據(jù)?議題71Wikipedia:Bigdataisthetermforacollectionof
datasets
solargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.Gartner:Bigdataishighvolume,highvelocity,and/orhighvarietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization。Forrester:“Bigdata”as“techniquesandtechnologiesthatmakehandlingdataatextremescaleaffordable”。BI&BigDataBusinessIntelligenceuses
descriptivestatistics
withdatawithhighinformationdensitytomeasurethings,detecttrendsetc.Bigdatauses
inductivestatistics
andconceptsfrom
nonlinearsystemidentification
toinferlaws(regressions,nonlinearrelationships,andcausaleffects)fromlargedatasets
torevealrelationships,dependencies,andtoperformpredictionsofoutcomesandbehaviors。什么是大數(shù)據(jù)Wikipedia:Bigdataistheterm72什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產(chǎn)品分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析議題什么是大數(shù)據(jù)?議題73Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。ApacheHadoop軟件庫(kù)是一個(gè)框架,允許使用簡(jiǎn)單編程模型進(jìn)行跨計(jì)算機(jī)集群的分布式的大數(shù)據(jù)集的處理。它被設(shè)計(jì)成可以從單服務(wù)器擴(kuò)展到幾千臺(tái)服務(wù)器,每臺(tái)服務(wù)器都有自己的計(jì)算和存儲(chǔ)。不是依賴于硬件來實(shí)現(xiàn)高可用性,Hadoop庫(kù)被設(shè)計(jì)成在應(yīng)用層來檢測(cè)與處理故障,以在計(jì)算機(jī)集群上交付高可用服務(wù),而底層的每臺(tái)計(jì)算機(jī)是很容易出現(xiàn)故障的。Hadoop是項(xiàng)目的總稱,主要是由分布式存儲(chǔ)(HDFS),分布式計(jì)算(MapReduce,目前的稱為YARN,即mapReduce2.0)組成。Hadoop程序目前只能運(yùn)行在Linux系統(tǒng)上,Windows上運(yùn)行需要安裝其他插件。什么是HadoopDougCuttingYahooHadoop集群Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)74什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產(chǎn)品分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析議題什么是大數(shù)據(jù)?議題75facebook社交網(wǎng)絡(luò)淘寶、ebuy電子商務(wù)微博、Apps移動(dòng)互聯(lián)21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生:半個(gè)世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。如今,這個(gè)概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。大數(shù)據(jù)時(shí)代的背景facebook社交網(wǎng)絡(luò)淘寶、ebuy電子商務(wù)微博、Apps76GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。而有市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)!1PB
=2^50字節(jié)1EB
=2^60字節(jié)1ZB=2^70字節(jié)大數(shù)據(jù)時(shí)代的爆炸增長(zhǎng)GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的77“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(78大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):大數(shù)據(jù)79密不可分的大數(shù)據(jù)與云計(jì)算商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身也是大數(shù)據(jù)的一種業(yè)務(wù)模式大數(shù)據(jù)是落地的云云計(jì)算的模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲(chǔ)、訪問和計(jì)算。當(dāng)前云計(jì)算更偏重海量存儲(chǔ)和計(jì)算,以及提供的云服務(wù),運(yùn)行云應(yīng)用,但是缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價(jià)值性信息和預(yù)測(cè)性分析,為國(guó)家、企業(yè)、個(gè)人提供決策和服務(wù),是大數(shù)據(jù)核心議題,也是云計(jì)算的最終方向。密不可分的大數(shù)據(jù)與云計(jì)算商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身也80大數(shù)據(jù)不僅僅是“大”多大?至少PB級(jí)比大更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價(jià)值大數(shù)據(jù)不僅僅是“大”多大?比大更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚81軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)
一樣,軟件是大數(shù)據(jù)的驅(qū)動(dòng)力,軟件改變世界軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)一樣82大數(shù)據(jù)生態(tài):軟件是引擎大數(shù)據(jù)生態(tài):軟件是引擎83大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營(yíng)銷通過用戶行為分析實(shí)現(xiàn)精準(zhǔn)營(yíng)銷是大數(shù)據(jù)的典型應(yīng)用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務(wù)領(lǐng)域具有廣闊的應(yīng)用前景消費(fèi)行業(yè)金融服務(wù)食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務(wù)氣象大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營(yíng)銷通過用戶行為分析實(shí)現(xiàn)精準(zhǔn)營(yíng)銷是大84管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個(gè)重大問題,真正的問題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構(gòu)和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲(chǔ)的橫向擴(kuò)展,但對(duì)非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實(shí)質(zhì)性的突破和進(jìn)展,這是實(shí)現(xiàn)大數(shù)據(jù)資源化、知識(shí)化、普適化的核心非結(jié)構(gòu)化海量信息的智能化處理:自然語(yǔ)言理解、多媒體內(nèi)容理解、機(jī)器學(xué)習(xí)等管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個(gè)重大問題,真85分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲(chǔ)不利于檢索、查詢和存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)按照非結(jié)構(gòu)化存儲(chǔ)解決方案:Hadoop(MapReduce技術(shù))流計(jì)算(twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘一些相關(guān)技術(shù)分析技術(shù):存儲(chǔ)解決方案:數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)分析與挖86行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:IBM大數(shù)據(jù)提供的服務(wù)包括數(shù)據(jù)分析,文本分析,藍(lán)色云杉(混搭供電合作的網(wǎng)絡(luò)平臺(tái));業(yè)務(wù)事件處理;IBMMashupCenter的計(jì)量,監(jiān)測(cè),和商業(yè)化服務(wù)(MMMS)IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的InfoSpherebigInsights,基于ApacheHadoop。該產(chǎn)品組合包括:打包的ApacheHadoop的軟件和服務(wù),代號(hào)是bigInsights核心,用于開始大數(shù)據(jù)分析軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡(jiǎn)單、直觀的提取、批注相關(guān)信息為金融,風(fēng)險(xiǎn)管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫(kù)綜合應(yīng)用部門)合作目標(biāo)是開發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設(shè)備。
EMC:EMC斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個(gè)產(chǎn)品。Oracle:Oracle大數(shù)據(jù)機(jī)與OracleExalogic中間件云服務(wù)器、OracleExadata數(shù)據(jù)庫(kù)云服務(wù)器以及OracleExalytics商務(wù)智能云服務(wù)器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。大數(shù)據(jù)的應(yīng)用--企業(yè)在投入
行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:大數(shù)據(jù)的應(yīng)用--企業(yè)87政府職能變革重視應(yīng)用大數(shù)據(jù)技術(shù),盤活各地云計(jì)算中心資產(chǎn):把原來大規(guī)模投資產(chǎn)業(yè)園、物聯(lián)網(wǎng)產(chǎn)業(yè)園從政績(jī)工程,改造成智慧工程;在安防領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提高應(yīng)急處置能力和安全防范能力;在民生領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提升服務(wù)能力和運(yùn)作效率,以及個(gè)性化的服務(wù),比如醫(yī)療、衛(wèi)生、教育等部門;解決在金融,電信領(lǐng)域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲(chǔ)能力和計(jì)算能力的限制,只局限在交易數(shù)型數(shù)據(jù)的統(tǒng)計(jì)分析;政府投入將形成示范效應(yīng),大大推動(dòng)大數(shù)據(jù)的發(fā)展。大數(shù)據(jù)的應(yīng)用--政府
政府職能變革大數(shù)據(jù)的應(yīng)用--政府
88“智慧大腦”智能感知互聯(lián)互通智能運(yùn)營(yíng)協(xié)同共享美國(guó)奧巴馬政府在白宮網(wǎng)站發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,提出“通過收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,從中獲得知識(shí)和洞見,提升能力,加快科學(xué)、工程領(lǐng)域的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 飯店顧客停車場(chǎng)地租賃合同
- 燃?xì)夤艿栏脑炀S護(hù)保養(yǎng)施工合同
- 2025年度融資擔(dān)保業(yè)務(wù)風(fēng)險(xiǎn)評(píng)估合同范本2篇
- 交通樞紐綠化區(qū)道路施工合同
- 電子商務(wù)專家聘任合同
- 攝影工作室攝影師聘用合同
- 二零二五年房產(chǎn)租賃押金返還與住房按揭貸款合同3篇
- 城市地下鐵道供水井施工合同
- 交通運(yùn)輸行業(yè)醫(yī)師聘用合同
- 體育器材租賃合同解除
- 物權(quán)轉(zhuǎn)移協(xié)議
- 高三高考地理一輪課時(shí)練習(xí):洋流(單選題)
- 2024年餐飲類“食品安全及質(zhì)量管理員”知識(shí)考試題庫(kù)(附含答案)
- 三年級(jí)上冊(cè)寒假每日一練
- (正式版)SHT 3115-2024 石油化工管式爐輕質(zhì)澆注料襯里工程技術(shù)規(guī)范
- 超聲引導(dǎo)下心包穿刺置管術(shù)
- 無(wú)人機(jī)駕駛員航空知識(shí)手冊(cè)培訓(xùn)教材(多旋翼)
- 員工年度工作計(jì)劃范文
- 古詩(shī)文系列課件模板-清平調(diào)·其一
- 樁身完整性考試試題及完整答案(包括低應(yīng)變、鉆芯、聲波透射法)
- 類文閱讀:一起長(zhǎng)大的玩具(金波)
評(píng)論
0/150
提交評(píng)論