![大數(shù)據(jù)技術和應用_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/66c01d7a-51e1-426f-9242-b3b1fbfe287d/66c01d7a-51e1-426f-9242-b3b1fbfe287d1.gif)
![大數(shù)據(jù)技術和應用_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/66c01d7a-51e1-426f-9242-b3b1fbfe287d/66c01d7a-51e1-426f-9242-b3b1fbfe287d2.gif)
![大數(shù)據(jù)技術和應用_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/66c01d7a-51e1-426f-9242-b3b1fbfe287d/66c01d7a-51e1-426f-9242-b3b1fbfe287d3.gif)
![大數(shù)據(jù)技術和應用_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/66c01d7a-51e1-426f-9242-b3b1fbfe287d/66c01d7a-51e1-426f-9242-b3b1fbfe287d4.gif)
![大數(shù)據(jù)技術和應用_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/11/66c01d7a-51e1-426f-9242-b3b1fbfe287d/66c01d7a-51e1-426f-9242-b3b1fbfe287d5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)技術和應用一.什么是大數(shù)據(jù)?大數(shù)據(jù)的概念大數(shù)據(jù)(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。l大數(shù)據(jù)的4V特點 Volume(大量) Velocity(高速) Variety(多樣) Value(價值)大數(shù)據(jù)的4V特性大數(shù)據(jù)的4個“V”,或者說特點有四個層面:l第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;位、bit (比特,Binary Digits):存放以為二進制數(shù),即 0或 1,最小的存儲單位。字節(jié) byte:8個二進制位為一個字節(jié)(B)。(1KB=1024B 1MB=1
2、024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB 1YB=1024ZB 1BB=1024YB)l第二,數(shù)據(jù)類型繁多。網絡上提到的網絡日志、視頻、圖片、地理位置信息等等。l第三,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。l第四,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質的不同。業(yè)界將其歸納為4個“V”Volume,Variety,Value,Velocity。大數(shù)據(jù)的收集方式物聯(lián)網云計算移動互聯(lián)網車聯(lián)網手機、平板電腦、PC遍布地球各個角落的各種各樣的傳感器大數(shù)據(jù)的收集方式
3、 物聯(lián)網、云計算、移動互聯(lián)網、車聯(lián)網、手機、車聯(lián)網、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。大數(shù)據(jù)領域的技術Hadoop Hadoop是一個由Apache基金會基金會所開發(fā)的分布式系統(tǒng)基礎架構。Hadoop 是一個能夠對大量數(shù)據(jù)進行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數(shù)據(jù)副本,確保能夠針對Hadoop失敗的節(jié)點重新分布處理。Hadoop 是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 P
4、B 級數(shù)據(jù)。此外,Hadoop 依賴于社區(qū)服務器,因此它的成本比較低,任何人都可以使用。 Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應用程序分解為許多并行計算指令,跨大量的計算節(jié)點運行非常巨大的數(shù)據(jù)集。 Hadoop得以在大數(shù)據(jù)處理應用中廣泛應用得益于其自身在數(shù)據(jù)提取數(shù)據(jù)提取、變形變形和加載加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構,將大數(shù)據(jù)處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現(xiàn)了將單個任務打碎,并將碎片任
5、務(Map)發(fā)送到多個節(jié)點上,之后再以單個數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。它主要有以下幾個優(yōu)點:高可靠性。 Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。高擴展性。 Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。高效性。 Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非???。高容錯性。 Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。 Storm什么是Storm?如果只用一句話來描述storm的話,可能會是這樣:分布式實時計算系統(tǒng)。按照storm作者的說法,st
6、orm對于實時計算的意義類似于hadoop對于批處理的意義。 在淘寶,storm被廣泛用來進行實時日志處理,出現(xiàn)在實時統(tǒng)計、實時風控、實時推薦等場景中。一般來說,我們從類kafka的metaQ或者基于hbase的timetunnel中讀取實時日志消息,經過一系列處理,最終將處理結果寫入到一個分布式存儲中分布式存儲中,提供給應用程序訪問。我們每天的實時消息量從幾百萬到幾十億不等,數(shù)據(jù)總量達到TB級。對于我們來說,storm往往會配合分布式存儲服務一起使用。在我們正在進行的個性化搜索實時分析項目中,就使用了timetunnel + hbase + storm + ups的架構,每天處理幾十億的用戶
7、日志信息,從用戶行為發(fā)生到完成分析延遲在秒級。其他大數(shù)據(jù)技術Apache Drill 為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會近日發(fā)起了一項名為“Drill”的開源項目。Apache Drill 實現(xiàn)了 Googles Dremel.RapidMiner RapidMiner是世界領先的數(shù)據(jù)挖掘解決方案,在一個非常大的程度上有著先進技術。它數(shù)據(jù)挖掘任務涉及范圍廣泛,包括各種數(shù)據(jù)藝術,能簡化數(shù)據(jù)挖掘過程的設計和評價。lPentaho BI Pentaho BI 平臺不同于傳統(tǒng)的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。
8、其目的在于將一系列企業(yè)級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發(fā)。lHPCC HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯(lián)邦協(xié)調理事會向國會提交了“重大挑戰(zhàn)項目:高性能計算與 通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統(tǒng)科學戰(zhàn)略項目,其目的是通過加強研究與開發(fā)解決一批重要的科學與技術挑戰(zhàn)問題大數(shù)據(jù)的應用大數(shù)據(jù)在風電領域的應用 首先,結合了大數(shù)據(jù)分析和天氣建模技術的能源電力系統(tǒng)能夠提高風電的可靠性。以往對風資源的預測不夠精準,在風能無法貢獻
9、預期功力時,火電就要作為后備電力。這樣,電網對風電的依賴程度越高,需要建設后備電站的成本就越高。另外,啟用火電站的就等于向環(huán)境中釋放碳排。然而,在大數(shù)據(jù)分析的幫助下,溫度、氣壓、濕度、降雨量、風向和風力等變量都得到充分考慮,對風電的預測更加精準。電網調度人員可以提前做好調度安排,也有助于電網消納更多風電。 除了做到更精準的預測,檢測和采集風機的運轉數(shù)據(jù)、風場的運營數(shù)據(jù)還有利于風機制造商更好地改善風機的性能,風電場業(yè)主在追求風場效益最大化時也離不開大數(shù)據(jù)。大數(shù)據(jù)的核心價值大數(shù)據(jù)的核心價值是什么? 無論是大數(shù)據(jù)在農業(yè)的應用也好,工業(yè)的應用也好,抑或是在金融行業(yè)的應用也好,最終都是通過大數(shù)據(jù)技術來獲
10、知事情發(fā)展的真相,最終利用這個“真相”來更加合理的配置資源。 也就是說大數(shù)據(jù)的核心價值就是:優(yōu)化資源 配置大數(shù)據(jù)的核心價值網上相關研究表明: 要實現(xiàn)大數(shù)據(jù)的核心價值,還需要前兩個重要的步驟第一步是通過“眾包眾包”的形式收集海量數(shù)據(jù),第二步是通過大數(shù)據(jù)的技術途徑進行“全量數(shù)據(jù)挖掘全量數(shù)據(jù)挖掘”,最后利用分析結果進行“資源優(yōu)化配置資源優(yōu)化配置”。通過通過“眾包眾包”產生和收集數(shù)據(jù)產生和收集數(shù)據(jù) 高德地圖、百度地圖都有實時路況的功能,但大家有沒有想過實時路況的數(shù)據(jù)是怎么收集的?實際上經過了三個階段,開始是跟交通口的一些公司合作,獲取交通流量監(jiān)測設備的數(shù)據(jù),這個方法缺陷很明顯,一個是受制于人,一個是想
11、擴大監(jiān)測范圍就要部署大量設備,費時費力,而且還受法律制約。于是一些專門做路況的公司開始用出租車當浮動車收集數(shù)據(jù)。但這種辦法還是無法覆蓋大量的大小路段,隨著移動互聯(lián)網的普及,高德地圖的APP能夠實時上傳大量機動車的速度和位置信息,經過去噪和綜合分析,就形成了覆蓋率極高的實時路況信息。這就是一個典型的“眾包”過程。通過通過“全量數(shù)據(jù)挖掘全量數(shù)據(jù)挖掘”獲知獲知“真相真相” 這些數(shù)據(jù)不是通過采樣得來的,就是真真切切的“全量數(shù)據(jù)”。我們再也不用通過“管中窺豹”的形式來推測全局,而是直接通過“上帝視角”來窺視真相。這就是大數(shù)據(jù)的魅力,我們獲得了前所未有的獲取真相的能力,而且對于大型互聯(lián)網公司來說,即使是P
12、B級別的數(shù)據(jù)分析也是準實時的,我們下一個小時就能夠得知上一個小時的全量數(shù)據(jù)分析結果,這樣的能力是前所未有的。大數(shù)據(jù)的核心價值大數(shù)據(jù)的核心價值“資源優(yōu)化配置資源優(yōu)化配置” 前段時間,滴滴打車曾通過投票和訂單分析的方式得出了北上廣深四地的加班大樓排行榜。但事實真的是即使加班很晚也很難打到車啊??!所以滴滴打車更名為“滴滴出行”之后,也拋出了他們偉大的愿景,那就是利用大數(shù)據(jù)分析實時綜合調度“快車”、“專車”、“出租車”、“順風車”甚至是滴滴巴士的資源,實現(xiàn)全局的交通資源優(yōu)化。事實也是如此,滴滴的司機們越來越多的需要完成“指派任務”,而不是集中去搶高凈值客戶。也許對于個別單體來說他們的利益降低了,但全局
13、的資源配置卻避免了全局的資源浪費和過度競爭,無疑大大提高了交通資源的使用效率。所以我們說,基于大數(shù)據(jù)分析的結果,進行資源優(yōu)化配置,才是大數(shù)據(jù)基于大數(shù)據(jù)分析的結果,進行資源優(yōu)化配置,才是大數(shù)據(jù)應用的落地點和真正價值。應用的落地點和真正價值。謝謝觀看!謝謝觀看! MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念Map(映射)和Reduce(歸約),和它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。 當前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。返回分布式處理分布式處理(distribute
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Fmoc-Phe-bis-Boc-4-guanidino-OH-生命科學試劑-MCE-3788
- Cannabidiphorol-CBDP-生命科學試劑-MCE-5981
- 2025年度區(qū)塊鏈技術股份投資協(xié)議
- 二零二五年度股權質押合同樣本:適用于體育產業(yè)股權質押
- 2025年度民宿窗簾墻布溫馨家居布置合同
- 二零二五年度股東致行動協(xié)議書:文化產業(yè)股權合作與數(shù)字版權保護協(xié)議
- 二零二五年度建筑垃圾處理與簡易房屋拆除合同
- 二零二五年度產學研合作聘用及錄用合同
- 施工現(xiàn)場施工防化學毒品泄漏制度
- 施工日志填寫樣本建筑物屋面防水工程
- 110kV變電站專項電氣試驗及調試方案
- 2024年廣西桂盛金融信息科技服務有限公司招聘筆試沖刺題(帶答案解析)
- 外賣星級(商家評分)計算表
- 幕墻施工成品及半成品保護措施
- 2024年執(zhí)業(yè)醫(yī)師考試-醫(yī)師定期考核(口腔)筆試參考題庫含答案
- 宮頸癌后裝治療及護理
- 2024年度-IATF16949運行培訓課件
- 理解師生關系的重要性
- 統(tǒng)編版語文八年級下冊第7課《大雁歸來》分層作業(yè)(原卷版+解析版)
- 2024年湖南省普通高中學業(yè)水平考試政治試卷(含答案)
- 零售企業(yè)加盟管理手冊
評論
0/150
提交評論