大數(shù)據(jù)技術(shù)和應(yīng)用課件_第1頁(yè)
大數(shù)據(jù)技術(shù)和應(yīng)用課件_第2頁(yè)
大數(shù)據(jù)技術(shù)和應(yīng)用課件_第3頁(yè)
大數(shù)據(jù)技術(shù)和應(yīng)用課件_第4頁(yè)
大數(shù)據(jù)技術(shù)和應(yīng)用課件_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)時(shí)代大數(shù)據(jù)技術(shù)和應(yīng)用大數(shù)據(jù)時(shí)代大數(shù)據(jù)技術(shù)和應(yīng)用1一.什么是大數(shù)據(jù)?大數(shù)據(jù)的概念大數(shù)據(jù)(bigdata,megadata),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的4V特點(diǎn)Volume(大量)Velocity(高速)Variety(多樣)Value(價(jià)值)一.什么是大數(shù)據(jù)?大數(shù)據(jù)的概念2大數(shù)據(jù)的4V特性大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;位、bit(比特,Binary

Digits):存放以為二進(jìn)制數(shù),即

0或

1,最小的存儲(chǔ)單位。字節(jié)byte:8個(gè)二進(jìn)制位為一個(gè)字節(jié)(B)。(1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB1BB=1024YB)第二,數(shù)據(jù)類型繁多。網(wǎng)絡(luò)上提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume,Variety,Value,Velocity。大數(shù)據(jù)的4V特性大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)特點(diǎn)有四個(gè)層面:3大數(shù)據(jù)的收集方式物聯(lián)網(wǎng)云計(jì)算移動(dòng)互聯(lián)網(wǎng)車聯(lián)網(wǎng)手機(jī)、平板電腦、PC遍布地球各個(gè)角落的各種各樣的傳感器大數(shù)據(jù)的收集方式4大數(shù)據(jù)的收集方式物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、車聯(lián)網(wǎng)、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。大數(shù)據(jù)的收集方式5大數(shù)據(jù)領(lǐng)域的技術(shù)HadoopHadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop是可靠的,因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)Hadoop失敗的節(jié)點(diǎn)重新分布處理。Hadoop是高效的,因?yàn)樗圆⑿械姆绞焦ぷ?,通過(guò)并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級(jí)數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。大數(shù)據(jù)領(lǐng)域的技術(shù)Hadoop6Hadoop原本來(lái)自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個(gè)應(yīng)用程序分解為許多并行計(jì)算指令,跨大量的計(jì)算節(jié)點(diǎn)運(yùn)行非常巨大的數(shù)據(jù)集。Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢(shì)。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),對(duì)例如像ETL這樣的批處理操作相對(duì)合適,因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉(cāng)庫(kù)里。Hadoop原本來(lái)自于谷歌一款名為MapRe7它主要有以下幾個(gè)優(yōu)點(diǎn):⒈高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。⒉高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。⒊高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非??臁"锤呷蒎e(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。

它主要有以下幾個(gè)優(yōu)點(diǎn):8Storm什么是Storm?如果只用一句話來(lái)描述storm的話,可能會(huì)是這樣:分布式實(shí)時(shí)計(jì)算系統(tǒng)。按照storm作者的說(shuō)法,storm對(duì)于實(shí)時(shí)計(jì)算的意義類似于hadoop對(duì)于批處理的意義。在淘寶,storm被廣泛用來(lái)進(jìn)行實(shí)時(shí)日志處理,出現(xiàn)在實(shí)時(shí)統(tǒng)計(jì)、實(shí)時(shí)風(fēng)控、實(shí)時(shí)推薦等場(chǎng)景中。一般來(lái)說(shuō),我們從類kafka的metaQ或者基于hbase的timetunnel中讀取實(shí)時(shí)日志消息,經(jīng)過(guò)一系列處理,最終將處理結(jié)果寫入到一個(gè)分布式存儲(chǔ)中,提供給應(yīng)用程序訪問(wèn)。我們每天的實(shí)時(shí)消息量從幾百萬(wàn)到幾十億不等,數(shù)據(jù)總量達(dá)到TB級(jí)。對(duì)于我們來(lái)說(shuō),storm往往會(huì)配合分布式存儲(chǔ)服務(wù)一起使用。在我們正在進(jìn)行的個(gè)性化搜索實(shí)時(shí)分析項(xiàng)目中,就使用了timetunnel+hbase+storm+ups的架構(gòu),每天處理幾十億的用戶日志信息,從用戶行為發(fā)生到完成分析延遲在秒級(jí)。Storm9其他大數(shù)據(jù)技術(shù)ApacheDrill為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會(huì)近日發(fā)起了一項(xiàng)名為“Drill”的開源項(xiàng)目。ApacheDrill實(shí)現(xiàn)了Google'sDremel.RapidMinerRapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,在一個(gè)非常大的程度上有著先進(jìn)技術(shù)。它數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程的設(shè)計(jì)和評(píng)價(jià)。PentahoBIPentahoBI平臺(tái)不同于傳統(tǒng)的BI產(chǎn)品,它是一個(gè)以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級(jí)BI產(chǎn)品、開源軟件、API等等組件集成起來(lái),方便商務(wù)智能應(yīng)用的開發(fā)。HPCCHPCC,HighPerformanceComputingandCommunications(高性能計(jì)算與通信)的縮寫。1993年,由美國(guó)科學(xué)、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會(huì)向國(guó)會(huì)提交了“重大挑戰(zhàn)項(xiàng)目:高性能計(jì)算與通信”的報(bào)告,也就是被稱為HPCC計(jì)劃的報(bào)告,即美國(guó)總統(tǒng)科學(xué)戰(zhàn)略項(xiàng)目,其目的是通過(guò)加強(qiáng)研究與開發(fā)解決一批重要的科學(xué)與技術(shù)挑戰(zhàn)問(wèn)題其他大數(shù)據(jù)技術(shù)ApacheDrill10大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)在風(fēng)電領(lǐng)域的應(yīng)用首先,結(jié)合了大數(shù)據(jù)分析和天氣建模技術(shù)的能源電力系統(tǒng)能夠提高風(fēng)電的可靠性。以往對(duì)風(fēng)資源的預(yù)測(cè)不夠精準(zhǔn),在風(fēng)能無(wú)法貢獻(xiàn)預(yù)期功力時(shí),火電就要作為后備電力。這樣,電網(wǎng)對(duì)風(fēng)電的依賴程度越高,需要建設(shè)后備電站的成本就越高。另外,啟用火電站的就等于向環(huán)境中釋放碳排。然而,在大數(shù)據(jù)分析的幫助下,溫度、氣壓、濕度、降雨量、風(fēng)向和風(fēng)力等變量都得到充分考慮,對(duì)風(fēng)電的預(yù)測(cè)更加精準(zhǔn)。電網(wǎng)調(diào)度人員可以提前做好調(diào)度安排,也有助于電網(wǎng)消納更多風(fēng)電。除了做到更精準(zhǔn)的預(yù)測(cè),檢測(cè)和采集風(fēng)機(jī)的運(yùn)轉(zhuǎn)數(shù)據(jù)、風(fēng)場(chǎng)的運(yùn)營(yíng)數(shù)據(jù)還有利于風(fēng)機(jī)制造商更好地改善風(fēng)機(jī)的性能,風(fēng)電場(chǎng)業(yè)主在追求風(fēng)場(chǎng)效益最大化時(shí)也離不開大數(shù)據(jù)。大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)在風(fēng)電領(lǐng)域的應(yīng)用11大數(shù)據(jù)的核心價(jià)值大數(shù)據(jù)的核心價(jià)值是什么?

無(wú)論是大數(shù)據(jù)在農(nóng)業(yè)的應(yīng)用也好,工業(yè)的應(yīng)用也好,抑或是在金融行業(yè)的應(yīng)用也好,最終都是通過(guò)大數(shù)據(jù)技術(shù)來(lái)獲知事情發(fā)展的真相,最終利用這個(gè)“真相”來(lái)更加合理的配置資源。也就是說(shuō)大數(shù)據(jù)的核心價(jià)值就是:優(yōu)化資源配置大數(shù)據(jù)的核心價(jià)值大數(shù)據(jù)的核心價(jià)值是什么?12大數(shù)據(jù)技術(shù)和應(yīng)用課件13大數(shù)據(jù)的核心價(jià)值網(wǎng)上相關(guān)研究表明:要實(shí)現(xiàn)大數(shù)據(jù)的核心價(jià)值,還需要前兩個(gè)重要的步驟第一步是通過(guò)“眾包”的形式收集海量數(shù)據(jù),第二步是通過(guò)大數(shù)據(jù)的技術(shù)途徑進(jìn)行“全量數(shù)據(jù)挖掘”,最后利用分析結(jié)果進(jìn)行“資源優(yōu)化配置”。大數(shù)據(jù)的核心價(jià)值網(wǎng)上相關(guān)研究表明:14通過(guò)“眾包”產(chǎn)生和收集數(shù)據(jù)

高德地圖、百度地圖都有實(shí)時(shí)路況的功能,但大家有沒(méi)有想過(guò)實(shí)時(shí)路況的數(shù)據(jù)是怎么收集的?實(shí)際上經(jīng)過(guò)了三個(gè)階段,開始是跟交通口的一些公司合作,獲取交通流量監(jiān)測(cè)設(shè)備的數(shù)據(jù),這個(gè)方法缺陷很明顯,一個(gè)是受制于人,一個(gè)是想擴(kuò)大監(jiān)測(cè)范圍就要部署大量設(shè)備,費(fèi)時(shí)費(fèi)力,而且還受法律制約。于是一些專門做路況的公司開始用出租車當(dāng)浮動(dòng)車收集數(shù)據(jù)。但這種辦法還是無(wú)法覆蓋大量的大小路段,隨著移動(dòng)互聯(lián)網(wǎng)的普及,高德地圖的APP能夠?qū)崟r(shí)上傳大量機(jī)動(dòng)車的速度和位置信息,經(jīng)過(guò)去噪和綜合分析,就形成了覆蓋率極高的實(shí)時(shí)路況信息。這就是一個(gè)典型的“眾包”過(guò)程。通過(guò)“眾包”產(chǎn)生和收集數(shù)據(jù)15大數(shù)據(jù)技術(shù)和應(yīng)用課件16通過(guò)“全量數(shù)據(jù)挖掘”獲知“真相”

這些數(shù)據(jù)不是通過(guò)采樣得來(lái)的,就是真真切切的“全量數(shù)據(jù)”。我們?cè)僖膊挥猛ㄟ^(guò)“管中窺豹”的形式來(lái)推測(cè)全局,而是直接通過(guò)“上帝視角”來(lái)窺視真相。這就是大數(shù)據(jù)的魅力,我們獲得了前所未有的獲取真相的能力,而且對(duì)于大型互聯(lián)網(wǎng)公司來(lái)說(shuō),即使是PB級(jí)別的數(shù)據(jù)分析也是準(zhǔn)實(shí)時(shí)的,我們下一個(gè)小時(shí)就能夠得知上一個(gè)小時(shí)的全量數(shù)據(jù)分析結(jié)果,這樣的能力是前所未有的。通過(guò)“全量數(shù)據(jù)挖掘”獲知“真相”17大數(shù)據(jù)的核心價(jià)值——“資源優(yōu)化配置”大數(shù)據(jù)的核心價(jià)值——“資源優(yōu)化配置”18

前段時(shí)間,滴滴打車曾通過(guò)投票和訂單分析的方式得出了北上廣深四地的加班大樓排行榜。但事實(shí)真的是即使加班很晚也很難打到車啊?。∷缘蔚未蜍嚫麨椤暗蔚纬鲂小敝螅矑伋隽怂麄儌ゴ蟮脑妇?,那就是利用大數(shù)據(jù)分析實(shí)時(shí)綜合調(diào)度“快車”、“專車”、“出租車”、“順風(fēng)車”甚至是滴滴巴士的資源,實(shí)現(xiàn)全局的交通資源優(yōu)化。事實(shí)也是如此,滴滴的司機(jī)們?cè)絹?lái)越多的需要完成“指派任務(wù)”,而不是集中去搶高凈值客戶。也許對(duì)于個(gè)別單體來(lái)說(shuō)他們的利益降低了,但全局的資源配置卻避免了全局的資源浪費(fèi)和過(guò)度競(jìng)爭(zhēng),無(wú)疑大大提高了交通資源的使用效率。

所以我們說(shuō),基于大數(shù)據(jù)分析的結(jié)果,進(jìn)行資源優(yōu)化配置,才是大數(shù)據(jù)應(yīng)用的落地點(diǎn)和真正價(jià)值。前段時(shí)間,滴滴打車曾通過(guò)投票和訂單分析的方式得出19謝謝觀看!謝謝觀看!20

MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(歸約)",和它們的主要思想,都是從函數(shù)式編程語(yǔ)言里借來(lái)的,還有從矢量編程語(yǔ)言里借來(lái)的特性。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map(映射)函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce(歸約)函數(shù),用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。返回MapReduce是一種編程模型,用于大規(guī)模21分布式處理分布式處理(distributedprocessing)和并行處理(Parallelprocessing)是為了提高并行處理速度采用的兩種不同的體系架構(gòu)。并行處理是利用多個(gè)功能部件或多個(gè)處理機(jī)同時(shí)工作來(lái)提高系統(tǒng)性能或可靠性的計(jì)算機(jī)系統(tǒng),這種系統(tǒng)至少包含指令級(jí)或指令級(jí)以上的并行。分布式處理則是將不同地點(diǎn)的,或具有不同功能的,或擁有不同數(shù)據(jù)的多臺(tái)計(jì)算機(jī)通過(guò)通信網(wǎng)絡(luò)連接起來(lái),在控制系統(tǒng)的統(tǒng)一管理控制下,協(xié)調(diào)地完成大規(guī)模信息處理任務(wù)的計(jì)算機(jī)系統(tǒng)。返回分布式處理分布式處理(distributedprocess22大數(shù)據(jù)時(shí)代大數(shù)據(jù)技術(shù)和應(yīng)用大數(shù)據(jù)時(shí)代大數(shù)據(jù)技術(shù)和應(yīng)用23一.什么是大數(shù)據(jù)?大數(shù)據(jù)的概念大數(shù)據(jù)(bigdata,megadata),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的4V特點(diǎn)Volume(大量)Velocity(高速)Variety(多樣)Value(價(jià)值)一.什么是大數(shù)據(jù)?大數(shù)據(jù)的概念24大數(shù)據(jù)的4V特性大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;位、bit(比特,Binary

Digits):存放以為二進(jìn)制數(shù),即

0或

1,最小的存儲(chǔ)單位。字節(jié)byte:8個(gè)二進(jìn)制位為一個(gè)字節(jié)(B)。(1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB1BB=1024YB)第二,數(shù)據(jù)類型繁多。網(wǎng)絡(luò)上提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume,Variety,Value,Velocity。大數(shù)據(jù)的4V特性大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)特點(diǎn)有四個(gè)層面:25大數(shù)據(jù)的收集方式物聯(lián)網(wǎng)云計(jì)算移動(dòng)互聯(lián)網(wǎng)車聯(lián)網(wǎng)手機(jī)、平板電腦、PC遍布地球各個(gè)角落的各種各樣的傳感器大數(shù)據(jù)的收集方式26大數(shù)據(jù)的收集方式物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、車聯(lián)網(wǎng)、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。大數(shù)據(jù)的收集方式27大數(shù)據(jù)領(lǐng)域的技術(shù)HadoopHadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop是可靠的,因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)Hadoop失敗的節(jié)點(diǎn)重新分布處理。Hadoop是高效的,因?yàn)樗圆⑿械姆绞焦ぷ?,通過(guò)并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級(jí)數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。大數(shù)據(jù)領(lǐng)域的技術(shù)Hadoop28Hadoop原本來(lái)自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個(gè)應(yīng)用程序分解為許多并行計(jì)算指令,跨大量的計(jì)算節(jié)點(diǎn)運(yùn)行非常巨大的數(shù)據(jù)集。Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢(shì)。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),對(duì)例如像ETL這樣的批處理操作相對(duì)合適,因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉(cāng)庫(kù)里。Hadoop原本來(lái)自于谷歌一款名為MapRe29它主要有以下幾個(gè)優(yōu)點(diǎn):⒈高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。⒉高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。⒊高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。⒋高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。

它主要有以下幾個(gè)優(yōu)點(diǎn):30Storm什么是Storm?如果只用一句話來(lái)描述storm的話,可能會(huì)是這樣:分布式實(shí)時(shí)計(jì)算系統(tǒng)。按照storm作者的說(shuō)法,storm對(duì)于實(shí)時(shí)計(jì)算的意義類似于hadoop對(duì)于批處理的意義。在淘寶,storm被廣泛用來(lái)進(jìn)行實(shí)時(shí)日志處理,出現(xiàn)在實(shí)時(shí)統(tǒng)計(jì)、實(shí)時(shí)風(fēng)控、實(shí)時(shí)推薦等場(chǎng)景中。一般來(lái)說(shuō),我們從類kafka的metaQ或者基于hbase的timetunnel中讀取實(shí)時(shí)日志消息,經(jīng)過(guò)一系列處理,最終將處理結(jié)果寫入到一個(gè)分布式存儲(chǔ)中,提供給應(yīng)用程序訪問(wèn)。我們每天的實(shí)時(shí)消息量從幾百萬(wàn)到幾十億不等,數(shù)據(jù)總量達(dá)到TB級(jí)。對(duì)于我們來(lái)說(shuō),storm往往會(huì)配合分布式存儲(chǔ)服務(wù)一起使用。在我們正在進(jìn)行的個(gè)性化搜索實(shí)時(shí)分析項(xiàng)目中,就使用了timetunnel+hbase+storm+ups的架構(gòu),每天處理幾十億的用戶日志信息,從用戶行為發(fā)生到完成分析延遲在秒級(jí)。Storm31其他大數(shù)據(jù)技術(shù)ApacheDrill為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會(huì)近日發(fā)起了一項(xiàng)名為“Drill”的開源項(xiàng)目。ApacheDrill實(shí)現(xiàn)了Google'sDremel.RapidMinerRapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,在一個(gè)非常大的程度上有著先進(jìn)技術(shù)。它數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程的設(shè)計(jì)和評(píng)價(jià)。PentahoBIPentahoBI平臺(tái)不同于傳統(tǒng)的BI產(chǎn)品,它是一個(gè)以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級(jí)BI產(chǎn)品、開源軟件、API等等組件集成起來(lái),方便商務(wù)智能應(yīng)用的開發(fā)。HPCCHPCC,HighPerformanceComputingandCommunications(高性能計(jì)算與通信)的縮寫。1993年,由美國(guó)科學(xué)、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會(huì)向國(guó)會(huì)提交了“重大挑戰(zhàn)項(xiàng)目:高性能計(jì)算與通信”的報(bào)告,也就是被稱為HPCC計(jì)劃的報(bào)告,即美國(guó)總統(tǒng)科學(xué)戰(zhàn)略項(xiàng)目,其目的是通過(guò)加強(qiáng)研究與開發(fā)解決一批重要的科學(xué)與技術(shù)挑戰(zhàn)問(wèn)題其他大數(shù)據(jù)技術(shù)ApacheDrill32大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)在風(fēng)電領(lǐng)域的應(yīng)用首先,結(jié)合了大數(shù)據(jù)分析和天氣建模技術(shù)的能源電力系統(tǒng)能夠提高風(fēng)電的可靠性。以往對(duì)風(fēng)資源的預(yù)測(cè)不夠精準(zhǔn),在風(fēng)能無(wú)法貢獻(xiàn)預(yù)期功力時(shí),火電就要作為后備電力。這樣,電網(wǎng)對(duì)風(fēng)電的依賴程度越高,需要建設(shè)后備電站的成本就越高。另外,啟用火電站的就等于向環(huán)境中釋放碳排。然而,在大數(shù)據(jù)分析的幫助下,溫度、氣壓、濕度、降雨量、風(fēng)向和風(fēng)力等變量都得到充分考慮,對(duì)風(fēng)電的預(yù)測(cè)更加精準(zhǔn)。電網(wǎng)調(diào)度人員可以提前做好調(diào)度安排,也有助于電網(wǎng)消納更多風(fēng)電。除了做到更精準(zhǔn)的預(yù)測(cè),檢測(cè)和采集風(fēng)機(jī)的運(yùn)轉(zhuǎn)數(shù)據(jù)、風(fēng)場(chǎng)的運(yùn)營(yíng)數(shù)據(jù)還有利于風(fēng)機(jī)制造商更好地改善風(fēng)機(jī)的性能,風(fēng)電場(chǎng)業(yè)主在追求風(fēng)場(chǎng)效益最大化時(shí)也離不開大數(shù)據(jù)。大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)在風(fēng)電領(lǐng)域的應(yīng)用33大數(shù)據(jù)的核心價(jià)值大數(shù)據(jù)的核心價(jià)值是什么?

無(wú)論是大數(shù)據(jù)在農(nóng)業(yè)的應(yīng)用也好,工業(yè)的應(yīng)用也好,抑或是在金融行業(yè)的應(yīng)用也好,最終都是通過(guò)大數(shù)據(jù)技術(shù)來(lái)獲知事情發(fā)展的真相,最終利用這個(gè)“真相”來(lái)更加合理的配置資源。也就是說(shuō)大數(shù)據(jù)的核心價(jià)值就是:優(yōu)化資源配置大數(shù)據(jù)的核心價(jià)值大數(shù)據(jù)的核心價(jià)值是什么?34大數(shù)據(jù)技術(shù)和應(yīng)用課件35大數(shù)據(jù)的核心價(jià)值網(wǎng)上相關(guān)研究表明:要實(shí)現(xiàn)大數(shù)據(jù)的核心價(jià)值,還需要前兩個(gè)重要的步驟第一步是通過(guò)“眾包”的形式收集海量數(shù)據(jù),第二步是通過(guò)大數(shù)據(jù)的技術(shù)途徑進(jìn)行“全量數(shù)據(jù)挖掘”,最后利用分析結(jié)果進(jìn)行“資源優(yōu)化配置”。大數(shù)據(jù)的核心價(jià)值網(wǎng)上相關(guān)研究表明:36通過(guò)“眾包”產(chǎn)生和收集數(shù)據(jù)

高德地圖、百度地圖都有實(shí)時(shí)路況的功能,但大家有沒(méi)有想過(guò)實(shí)時(shí)路況的數(shù)據(jù)是怎么收集的?實(shí)際上經(jīng)過(guò)了三個(gè)階段,開始是跟交通口的一些公司合作,獲取交通流量監(jiān)測(cè)設(shè)備的數(shù)據(jù),這個(gè)方法缺陷很明顯,一個(gè)是受制于人,一個(gè)是想擴(kuò)大監(jiān)測(cè)范圍就要部署大量設(shè)備,費(fèi)時(shí)費(fèi)力,而且還受法律制約。于是一些專門做路況的公司開始用出租車當(dāng)浮動(dòng)車收集數(shù)據(jù)。但這種辦法還是無(wú)法覆蓋大量的大小路段,隨著移動(dòng)互聯(lián)網(wǎng)的普及,高德地圖的APP能夠?qū)崟r(shí)上傳大量機(jī)動(dòng)車的速度和位置信息,經(jīng)過(guò)去噪和綜合分析,就形成了覆蓋率極高的實(shí)時(shí)路況信息。這就是一個(gè)典型的“眾包”過(guò)程。通過(guò)“眾包”產(chǎn)生和收集數(shù)據(jù)37大數(shù)據(jù)技術(shù)和應(yīng)用課件38通過(guò)“全量數(shù)據(jù)挖掘”獲知“真相”

這些數(shù)據(jù)不是通過(guò)采樣得來(lái)的,就是真真切切的“全量數(shù)據(jù)”。我們?cè)僖膊挥猛ㄟ^(guò)“管中窺豹”的形式來(lái)推測(cè)全局,而是直接通過(guò)“上帝視角”來(lái)窺視真相。這就是大數(shù)據(jù)的魅力,我們獲得了前所未有的獲取真相的能力,而且對(duì)于大型互聯(lián)網(wǎng)公司來(lái)說(shuō),即使是PB級(jí)別的數(shù)據(jù)分析也是準(zhǔn)實(shí)時(shí)的,我們下一個(gè)小時(shí)就能夠得知上

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論