![第1章 大數(shù)據(jù)技術(shù)概述_第1頁](http://file4.renrendoc.com/view/ea6404f6f50e3bd56e9cf31742801c92/ea6404f6f50e3bd56e9cf31742801c921.gif)
![第1章 大數(shù)據(jù)技術(shù)概述_第2頁](http://file4.renrendoc.com/view/ea6404f6f50e3bd56e9cf31742801c92/ea6404f6f50e3bd56e9cf31742801c922.gif)
![第1章 大數(shù)據(jù)技術(shù)概述_第3頁](http://file4.renrendoc.com/view/ea6404f6f50e3bd56e9cf31742801c92/ea6404f6f50e3bd56e9cf31742801c923.gif)
![第1章 大數(shù)據(jù)技術(shù)概述_第4頁](http://file4.renrendoc.com/view/ea6404f6f50e3bd56e9cf31742801c92/ea6404f6f50e3bd56e9cf31742801c924.gif)
![第1章 大數(shù)據(jù)技術(shù)概述_第5頁](http://file4.renrendoc.com/view/ea6404f6f50e3bd56e9cf31742801c92/ea6404f6f50e3bd56e9cf31742801c925.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)概述1 大數(shù)據(jù)的基本概念2 代表性大數(shù)據(jù)技術(shù)3 大數(shù)據(jù)編程語言1大數(shù)據(jù)的基本概念對于什么是大數(shù)據(jù),目前尚未有統(tǒng)一定義。維基百科給出的大數(shù)據(jù)定義是:
大數(shù)據(jù)是指無法使用傳統(tǒng)和常用的軟件技術(shù)和工具在一定時間內(nèi)完成獲取、管理和處理的數(shù)據(jù)集。麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。研究機構(gòu)Gartner給出了這樣的大數(shù)據(jù)定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的定義1大數(shù)據(jù)的基本概念大數(shù)據(jù)有4個特征,簡稱4V:Volume、Variety、Value、Velocity。數(shù)據(jù)量大(Volume)。數(shù)據(jù)量大包括采集、存儲和計算的量都非常大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。數(shù)據(jù)類型多(Variety)。數(shù)據(jù)類型多是種類和來源多樣化。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。價值密度低(Value)。在大數(shù)據(jù)時代,很多有價值的信息都是分散在海量數(shù)據(jù)中的。傳統(tǒng)數(shù)據(jù)基本都是結(jié)構(gòu)化數(shù)據(jù),每個字段都是有用的,價值密度非常高。速度快(Velocity)。數(shù)據(jù)的增長速度快、數(shù)據(jù)的處理速度快,快速度是大數(shù)據(jù)處理技術(shù)和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)最大的區(qū)別。大數(shù)據(jù)的特征1大數(shù)據(jù)的基本概念大數(shù)據(jù)思維包括三個方面:全樣思維:大數(shù)據(jù)與“小數(shù)據(jù)”的根本區(qū)別在于大數(shù)據(jù)采用全樣思維方式,人們可以采集和分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再受制于隨機采樣。相關(guān)思維:所謂相關(guān)關(guān)系,就是當一個或幾個相互聯(lián)系的變量取一定的數(shù)值時,與之相對應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化。相關(guān)關(guān)系也許不能準確地告訴我們某件事情為何會發(fā)生,但是它會提醒我們這件事情即將發(fā)送或正在發(fā)生。容錯思維:在大數(shù)據(jù)時代,隨著數(shù)據(jù)規(guī)模的擴大,和內(nèi)容分析研究相關(guān)的數(shù)據(jù)非常多,對精確度的要求減弱。人們不再需要對一個現(xiàn)象刨根問底,只要掌握了大體的發(fā)展方向即可,適當忽略微觀層面上的精確度,會讓人們在宏觀層面更好地把握事物的發(fā)展方向。大數(shù)據(jù)思維大數(shù)據(jù)技術(shù)概述1 大數(shù)據(jù)的基本概念2
代表性大數(shù)據(jù)技術(shù)3 大數(shù)據(jù)編程語言2代表性大數(shù)據(jù)技術(shù)Hadoop是基于Java語言開發(fā)的,可以部署在廉價的計算機集群上的開源的、可靠的、可擴展的分布式并行計算框架,具有很好的跨平臺特性。Hadoop的核心是:HDFS(HadoopDistributedFileSystem,分布式文件系統(tǒng))
MapReduce(分布式并行計算編程模型)Hadoop2代表性大數(shù)據(jù)技術(shù)HDFS是建立在一組分布式服務(wù)器節(jié)點的本地文件系統(tǒng)之上的分布式文件系統(tǒng)。HadoopHDFS采用Master/Slave的架構(gòu)來存儲數(shù)據(jù),這種架構(gòu)主要由四個部分組成,分別為Client(客戶端)、NameNode(名稱節(jié)點、管理節(jié)點)、DataNode(數(shù)據(jù)節(jié)點)和SecondaryNameNode(第二名稱節(jié)點)。一個DataNode節(jié)點運行一個DataNode進程,負責管理它所在節(jié)點上的數(shù)據(jù)存儲。NameNode和DataNode共同協(xié)調(diào)完成分布式的文件存儲服務(wù)。2代表性大數(shù)據(jù)技術(shù)MapReduce的執(zhí)行流程如圖1-2所示。Hadoop將一個大數(shù)據(jù)文件通過一定的數(shù)據(jù)劃分方法,劃分成多個較小的具有同樣計算過程的數(shù)據(jù)塊,數(shù)據(jù)塊以<key,value>鍵值對的形式表示,數(shù)據(jù)塊之間不存在依賴關(guān)系。2代表性大數(shù)據(jù)技術(shù)MapReduce的執(zhí)行流程如圖1-2所示。Hadoop將這些數(shù)據(jù)塊分給不同的Map任務(wù)(執(zhí)行map()函數(shù))去處理,每個Map任務(wù)通常運行在存儲數(shù)據(jù)的節(jié)點上,這樣計算和數(shù)據(jù)在一個節(jié)點上,不需要額外的數(shù)據(jù)傳輸開銷。當Map任務(wù)結(jié)束后,會生成以<key,value>鍵值對形式表示的許多中間結(jié)果(保存在本地存儲中,如本地磁盤)。2代表性大數(shù)據(jù)技術(shù)MapReduce的執(zhí)行流程如圖1-2所示。Hadoop然后,這些中間結(jié)果會劃分成和Reduce任務(wù)數(shù)相等的多個分區(qū),不同的分區(qū)被分發(fā)給不同的Reduce任務(wù)(執(zhí)行reduce()函數(shù))進行處理,具有相同key的<key,value>會被發(fā)送到同一個Reduce任務(wù)那里,Reduce任務(wù)對中間結(jié)果進行匯總計算得到新的鍵值對作為最終結(jié)果,并輸出到分布式文件系統(tǒng)中。2代表性大數(shù)據(jù)技術(shù)Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎。Spark是UCBerkeleyAMPlab(加州大學伯克利分校的AMP實驗室)所開源的類HadoopMapReduce的通用并行框架。SparkSpark優(yōu)點:擁有HadoopMapReduce所具有的優(yōu)點;Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。Spark與
Hadoop不同點:Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。2代表性大數(shù)據(jù)技術(shù)Flink是一個框架和分布式處理引擎,用于在無界和有界數(shù)據(jù)流上進行有狀態(tài)計算。Flink被設(shè)計為在通用集群環(huán)境中運行,以內(nèi)存速度執(zhí)行任意規(guī)模的計算。Flink流處理:當一條數(shù)據(jù)被處理完成后,序列化到緩存中,然后立刻通過網(wǎng)絡(luò)傳輸?shù)较乱粋€節(jié)點,由下一個節(jié)點繼續(xù)處理。批處理:當一條數(shù)據(jù)被處理完成后,序列化到緩存中,并不會立刻通過網(wǎng)絡(luò)傳輸?shù)较乱粋€節(jié)點,而是當緩存寫滿后,持久化到本地硬盤上,當所有數(shù)據(jù)都被處理完成后,才開始將處理后的數(shù)據(jù)通過網(wǎng)絡(luò)傳輸?shù)较乱粋€節(jié)點。流處理的優(yōu)勢是低延遲,批處理的優(yōu)勢是高吞吐,而Flink可以通過調(diào)整緩存塊的超時閾值,靈活地權(quán)衡系統(tǒng)延遲和吞吐量。大數(shù)據(jù)技術(shù)概述1 大數(shù)據(jù)的基本概念2 代表性大數(shù)據(jù)技術(shù)3 大數(shù)據(jù)編程語言3
大數(shù)據(jù)編程語言Spark大數(shù)據(jù)處理框架支持支持
Scala、Java、Python三種語言進行應(yīng)用程序開發(fā)。大數(shù)據(jù)編程語言首選編程語言是Scala,因為Spark本身就是用Scala語言開發(fā)的,用Scala語言編寫Spark應(yīng)用程序,可以獲得最好的性能。其次是Python,最后才是Java
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《用計算器探索規(guī)律》(說課稿)-2023-2024學年四年級下冊數(shù)學蘇教版
- 《Unit8 Birthdays》(說課稿)-2023-2024學年譯林版(三起)英語五年級下冊
- Module 9 Unit 1 Did he live in New York(說課稿)-2023-2024學年外研版(三起)英語四年級下冊
- 七年級信息技術(shù)上冊 第19課《綜合實踐-保護水資源》說課稿
- 《李憑箜篌引》說課稿 2024-2025學年統(tǒng)編版高中語文選擇性必修中冊
- Unit3 Clothes(說課稿)-2024-2025學年北師大版(三起)英語五年級上冊
- 《活動一 我的南極探險之旅》(說課稿)-2023-2024學年五年級下冊綜合實踐活動滬科黔科版
- 9正確認識廣告《無處不在的廣告》 (說課稿)-部編版道德與法治四年級上冊
- 2024秋七年級數(shù)學上冊 第5章 走進圖形世界5.1 豐富的圖形世界 1認識幾何圖形說課稿(新版)蘇科版
- 2025年度游戲角色設(shè)計著作權(quán)許可及轉(zhuǎn)讓合同
- 2024-2025學年人教新版高二(上)英語寒假作業(yè)(五)
- 冰心《童年的春節(jié)》
- GB/T 7324-2010通用鋰基潤滑脂
- 鄭州小吃詳細地點
- 上海高考英語詞匯手冊
- 2021年江蘇省淮安市淮陰中學高一政治下學期期末試題含解析
- 公共政策工具-課件
- 石油化工、煤化工、天然氣化工優(yōu)劣勢分析
- 客戶的分級管理培訓(共60頁).ppt
- 廣東省義務(wù)教育階段學生轉(zhuǎn)學轉(zhuǎn)出申請表(樣本)
- 如何成為一個優(yōu)秀的生產(chǎn)經(jīng)理
評論
0/150
提交評論