大數(shù)據(jù)技術(shù)和應(yīng)用_第1頁
大數(shù)據(jù)技術(shù)和應(yīng)用_第2頁
大數(shù)據(jù)技術(shù)和應(yīng)用_第3頁
大數(shù)據(jù)技術(shù)和應(yīng)用_第4頁
大數(shù)據(jù)技術(shù)和應(yīng)用_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)時(shí)代大數(shù)據(jù)技術(shù)和應(yīng)用一.什么是大數(shù)據(jù)?大數(shù)據(jù)的概念大數(shù)據(jù)(bigdata,megadata),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的4V特點(diǎn)Volume(大量)Velocity(高速)Variety(多樣)Value(價(jià)值)大數(shù)據(jù)的4V特性大數(shù)據(jù)的4個(gè)“V”,或者說特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;位、bit(比特,Binary

Digits):存放以為二進(jìn)制數(shù),即

0或

1,最小的存儲(chǔ)單位。字節(jié)byte:8個(gè)二進(jìn)制位為一個(gè)字節(jié)(B)。(1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB1BB=1024YB)第二,數(shù)據(jù)類型繁多。網(wǎng)絡(luò)上提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume,Variety,Value,Velocity。大數(shù)據(jù)的收集方式物聯(lián)網(wǎng)云計(jì)算移動(dòng)互聯(lián)網(wǎng)車聯(lián)網(wǎng)手機(jī)、平板電腦、PC遍布地球各個(gè)角落的各種各樣的傳感器大數(shù)據(jù)的收集方式物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、車聯(lián)網(wǎng)、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。大數(shù)據(jù)領(lǐng)域的技術(shù)HadoopHadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop是可靠的,因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)Hadoop失敗的節(jié)點(diǎn)重新分布處理。Hadoop是高效的,因?yàn)樗圆⑿械姆绞焦ぷ鳎ㄟ^并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級(jí)數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個(gè)應(yīng)用程序分解為許多并行計(jì)算指令,跨大量的計(jì)算節(jié)點(diǎn)運(yùn)行非常巨大的數(shù)據(jù)集。Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢(shì)。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),對(duì)例如像ETL這樣的批處理操作相對(duì)合適,因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。它主要有以下幾個(gè)優(yōu)點(diǎn):⒈高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。⒉高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。⒊高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。⒋高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。

Storm什么是Storm?如果只用一句話來描述storm的話,可能會(huì)是這樣:分布式實(shí)時(shí)計(jì)算系統(tǒng)。按照storm作者的說法,storm對(duì)于實(shí)時(shí)計(jì)算的意義類似于hadoop對(duì)于批處理的意義。在淘寶,storm被廣泛用來進(jìn)行實(shí)時(shí)日志處理,出現(xiàn)在實(shí)時(shí)統(tǒng)計(jì)、實(shí)時(shí)風(fēng)控、實(shí)時(shí)推薦等場(chǎng)景中。一般來說,我們從類kafka的metaQ或者基于hbase的timetunnel中讀取實(shí)時(shí)日志消息,經(jīng)過一系列處理,最終將處理結(jié)果寫入到一個(gè)分布式存儲(chǔ)中,提供給應(yīng)用程序訪問。我們每天的實(shí)時(shí)消息量從幾百萬到幾十億不等,數(shù)據(jù)總量達(dá)到TB級(jí)。對(duì)于我們來說,storm往往會(huì)配合分布式存儲(chǔ)服務(wù)一起使用。在我們正在進(jìn)行的個(gè)性化搜索實(shí)時(shí)分析項(xiàng)目中,就使用了timetunnel+hbase+storm+ups的架構(gòu),每天處理幾十億的用戶日志信息,從用戶行為發(fā)生到完成分析延遲在秒級(jí)。其他大數(shù)據(jù)技術(shù)ApacheDrill為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會(huì)近日發(fā)起了一項(xiàng)名為“Drill”的開源項(xiàng)目。ApacheDrill實(shí)現(xiàn)了Google'sDremel.RapidMinerRapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,在一個(gè)非常大的程度上有著先進(jìn)技術(shù)。它數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡(jiǎn)化數(shù)據(jù)挖掘過程的設(shè)計(jì)和評(píng)價(jià)。PentahoBIPentahoBI平臺(tái)不同于傳統(tǒng)的BI產(chǎn)品,它是一個(gè)以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級(jí)BI產(chǎn)品、開源軟件、API等等組件集成起來,方便商務(wù)智能應(yīng)用的開發(fā)。HPCCHPCC,HighPerformanceComputingandCommunications(高性能計(jì)算與通信)的縮寫。1993年,由美國(guó)科學(xué)、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會(huì)向國(guó)會(huì)提交了“重大挑戰(zhàn)項(xiàng)目:高性能計(jì)算與通信”的報(bào)告,也就是被稱為HPCC計(jì)劃的報(bào)告,即美國(guó)總統(tǒng)科學(xué)戰(zhàn)略項(xiàng)目,其目的是通過加強(qiáng)研究與開發(fā)解決一批重要的科學(xué)與技術(shù)挑戰(zhàn)問題大數(shù)據(jù)的應(yīng)應(yīng)用大數(shù)據(jù)在風(fēng)風(fēng)電領(lǐng)域的的應(yīng)用首先,結(jié)合了大大數(shù)據(jù)分析析和天氣建建模技術(shù)的的能源電力力系統(tǒng)能夠夠提高風(fēng)電電的可靠性性。以往對(duì)對(duì)風(fēng)資源的的預(yù)測(cè)不夠夠精準(zhǔn),在在風(fēng)能無法法貢獻(xiàn)預(yù)期期功力時(shí),,火電就要要作為后備備電力。這這樣,電網(wǎng)網(wǎng)對(duì)風(fēng)電的的依賴程度度越高,需需要建設(shè)后后備電站的的成本就越越高。另外外,啟用火火電站的就就等于向環(huán)環(huán)境中釋放放碳排。然然而,在大大數(shù)據(jù)分析析的幫助下下,溫度、、氣壓、濕濕度、降雨雨量、風(fēng)向向和風(fēng)力等等變量都得得到充分考考慮,對(duì)風(fēng)風(fēng)電的預(yù)測(cè)測(cè)更加精準(zhǔn)準(zhǔn)。電網(wǎng)調(diào)調(diào)度人員可可以提前做做好調(diào)度安安排,也有有助于電網(wǎng)網(wǎng)消納更多多風(fēng)電。除了做到更精準(zhǔn)準(zhǔn)的預(yù)測(cè),,檢測(cè)和采采集風(fēng)機(jī)的的運(yùn)轉(zhuǎn)數(shù)據(jù)據(jù)、風(fēng)場(chǎng)的的運(yùn)營(yíng)數(shù)據(jù)據(jù)還有利于于風(fēng)機(jī)制造造商更好地地改善風(fēng)機(jī)機(jī)的性能,,風(fēng)電場(chǎng)業(yè)業(yè)主在追求求風(fēng)場(chǎng)效益益最大化時(shí)時(shí)也離不開開大數(shù)據(jù)。。大數(shù)據(jù)的核核心價(jià)值大數(shù)據(jù)的核核心價(jià)值是是什么?無論是大數(shù)據(jù)在在農(nóng)業(yè)的應(yīng)應(yīng)用也好,,工業(yè)的應(yīng)應(yīng)用也好,,抑或是在在金融行業(yè)業(yè)的應(yīng)用也也好,最終終都是通過過大數(shù)據(jù)技技術(shù)來獲知知事情發(fā)展展的真相,,最終利用用這個(gè)“真真相”來更更加合理的的配置資源源。也就是說大大數(shù)據(jù)的核核心價(jià)值就就是:優(yōu)化化資源配配置大數(shù)據(jù)的核核心價(jià)值網(wǎng)上相關(guān)研研究表明::要實(shí)現(xiàn)大數(shù)據(jù)據(jù)的核心價(jià)價(jià)值,還需需要前兩個(gè)個(gè)重要的步驟第一步是通過““眾包”的形式收收集海量數(shù)數(shù)據(jù),第二步是通過大大數(shù)據(jù)的技技術(shù)途徑進(jìn)進(jìn)行“全量數(shù)據(jù)挖挖掘”,最后后利用分分析結(jié)果果進(jìn)行““資源優(yōu)化化配置”。通過“眾眾包”產(chǎn)產(chǎn)生和收收集數(shù)據(jù)高德地圖、、百度地地圖都有有實(shí)時(shí)路路況的功功能,但但大家有有沒有想想過實(shí)時(shí)時(shí)路況的的數(shù)據(jù)是是怎么收收集的??實(shí)際上上經(jīng)過了了三個(gè)階階段,開開始是跟跟交通口口的一些些公司合合作,獲獲取交通通流量監(jiān)監(jiān)測(cè)設(shè)備備的數(shù)據(jù)據(jù),這個(gè)個(gè)方法缺缺陷很明明顯,一一個(gè)是受受制于人人,一個(gè)個(gè)是想擴(kuò)擴(kuò)大監(jiān)測(cè)測(cè)范圍就就要部署署大量設(shè)設(shè)備,費(fèi)費(fèi)時(shí)費(fèi)力力,而且且還受法法律制約約。于是是一些專專門做路路況的公公司開始始用出租租車當(dāng)浮浮動(dòng)車收收集數(shù)據(jù)據(jù)。但這這種辦法法還是無無法覆蓋蓋大量的的大小路路段,隨隨著移動(dòng)動(dòng)互聯(lián)網(wǎng)網(wǎng)的普及及,高德德地圖的的APP能夠?qū)崟r(shí)時(shí)上傳大大量機(jī)動(dòng)動(dòng)車的速速度和位位置信息息,經(jīng)過過去噪和和綜合分分析,就就形成了了覆蓋率率極高的的實(shí)時(shí)路路況信息息。這就就是一個(gè)個(gè)典型的的“眾包包”過程程。通過““全量量數(shù)據(jù)據(jù)挖掘掘”獲獲知“真相相”這些數(shù)據(jù)不不是通通過采采樣得得來的的,就就是真真真切切切的的“全全量數(shù)數(shù)據(jù)””。我我們?cè)僭僖膊徊挥猛ㄍㄟ^““管中中窺豹豹”的的形式式來推推測(cè)全全局,,而是是直接接通過過“上上帝視視角””來窺窺視真真相。。這就就是大大數(shù)據(jù)據(jù)的魅魅力,,我們們獲得得了前前所未未有的的獲取取真相相的能能力,,而且且對(duì)于于大型型互聯(lián)聯(lián)網(wǎng)公公司來來說,,即使使是PB級(jí)別的的數(shù)據(jù)據(jù)分析析也是是準(zhǔn)實(shí)實(shí)時(shí)的的,我我們下下一個(gè)個(gè)小時(shí)時(shí)就能能夠得得知上上一個(gè)個(gè)小時(shí)時(shí)的全全量數(shù)數(shù)據(jù)分分析結(jié)結(jié)果,,這樣樣的能能力是是前所所未有有的。。大數(shù)據(jù)據(jù)的核核心價(jià)價(jià)值——““資源優(yōu)優(yōu)化配配置”前段時(shí)間,,滴滴滴打車車曾通通過投投票和和訂單單分析析的方方式得得出了了北上上廣深深四地地的加加班大大樓排排行榜。但但事實(shí)真真的是是即使使加班班很晚晚也很很難打打到車車啊啊??!所所以滴滴滴打打車更更名為為“滴滴滴出出行””之后后,也也拋出出了他他們偉偉大的的愿景景,那那就是是利用用大數(shù)數(shù)據(jù)分分析實(shí)實(shí)時(shí)綜綜合調(diào)調(diào)度““快車車”、、“專專車””、““出租租車””、““順風(fēng)風(fēng)車””甚至至是滴滴滴巴巴士的的資源源,實(shí)實(shí)現(xiàn)全全局的的交通通資源源優(yōu)化化。事事實(shí)也也是如如此,,滴滴滴的司司機(jī)們們?cè)絹韥碓蕉喽嗟男栊枰晖瓿伞啊爸概膳扇蝿?wù)務(wù)”,,而不不是集集中去去搶高高凈值值客戶戶。也也許對(duì)對(duì)于個(gè)個(gè)別單單體來來說他他們的的利益益降低低了,,但全全局的的資源源配置置卻避避免了了全局局的資資源浪浪費(fèi)和和過度度競(jìng)爭(zhēng)爭(zhēng),無無疑大大大提提高了了交通通資源源的使使用效效率。所以我我們說說,基于大大數(shù)據(jù)據(jù)分析析的結(jié)結(jié)果,,進(jìn)行行資源源優(yōu)化化配置置,才才是大大數(shù)據(jù)據(jù)應(yīng)用用的落落地點(diǎn)點(diǎn)和真真正價(jià)價(jià)值。。謝謝觀觀看?。apReduce是一種種編程程模型型,用用于大大規(guī)模模數(shù)據(jù)據(jù)集(大于1TB)的并行行運(yùn)算算。概概念"Map(映射)"和"Reduce(歸約)",和它它們的的主要要思想想,都都是從從函數(shù)數(shù)式編編程語語言里里借來來的,,還有有從矢矢量編編程語語言里里借來來的特特性。。它極極大地地方便便了編編程人人員在在不會(huì)會(huì)分布布式并并行編編程的的情況況下,,將自自己的的程序序運(yùn)行行在分布式式系統(tǒng)統(tǒng)上。當(dāng)當(dāng)前前的軟軟件實(shí)實(shí)現(xiàn)是是指定定一個(gè)個(gè)Map(映射)函數(shù),,用來來把一一組鍵鍵值對(duì)對(duì)映射射

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論