大數(shù)據(jù)技術原理與應用完整版課件

上傳人：c*** IP屬地：貴州上傳時間：2022-11-18 格式：PPT 頁數(shù)：1538 大?。?4.13MB 積分：38 舉報 版權申訴

已閱讀5頁，還剩1533頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

《大數(shù)據(jù)技術原理與應用》主講教師：《大數(shù)據(jù)技術原理與應用》主講教師：課程特色搭建起通向“大數(shù)據(jù)知識空間”的橋梁和紐帶構建知識體系、闡明基本原理引導初級實踐、了解相關應用為學生在大數(shù)據(jù)領域“深耕細作”奠定基礎、指明方向課程特色搭建起通向“大數(shù)據(jù)知識空間”的橋梁和紐帶內容提要本課程系統(tǒng)介紹了大數(shù)據(jù)相關知識，共有13章系統(tǒng)地論述了大數(shù)據(jù)的基本概念、大數(shù)據(jù)處理架構Hadoop、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫、分布式并行編程模型MapReduce、流計算、圖計算、數(shù)據(jù)可視化以及大數(shù)據(jù)在互聯(lián)網(wǎng)、生物醫(yī)學和物流等各個領域的應用在Hadoop、HDFS、HBase和MapReduce等重要章節(jié)，安排了入門級的實踐操作，讓學生更好地學習和掌握大數(shù)據(jù)關鍵技術3ppt精選版內容提要本課程系統(tǒng)介紹了大數(shù)據(jù)相關知識，共有13章3ppt精篇章安排第一篇：大數(shù)據(jù)基礎篇第二篇：大數(shù)據(jù)存儲篇第三篇：大數(shù)據(jù)處理與分析篇第四篇：大數(shù)據(jù)應用篇4ppt精選版篇章安排第一篇：大數(shù)據(jù)基礎篇4ppt精選版第一篇：大數(shù)據(jù)基礎篇5ppt精選版第一篇：大數(shù)據(jù)基礎篇5ppt精選版第二篇：大數(shù)據(jù)存儲篇6ppt精選版第二篇：大數(shù)據(jù)存儲篇6ppt精選版第三篇：大數(shù)據(jù)處理與分析篇7ppt精選版第三篇：大數(shù)據(jù)處理與分析篇7ppt精選版第四篇：大數(shù)據(jù)應用篇8ppt精選版第四篇：大數(shù)據(jù)應用篇8ppt精選版各章內容第一章大數(shù)據(jù)概述第二章大數(shù)據(jù)處理架構Hadoop第三章分布式文件系統(tǒng)HDFS第四章分布式數(shù)據(jù)庫HBase第五章NoSQL數(shù)據(jù)庫第六章云數(shù)據(jù)庫第七章MapReduce第八章流計算第九章圖計算第十章數(shù)據(jù)可視化第十一章大數(shù)據(jù)在互聯(lián)網(wǎng)領域的應用第十二章大數(shù)據(jù)在生物醫(yī)學領域的應用（自學）第十三章大數(shù)據(jù)的其他應用（自學）9ppt精選版各章內容第一章大數(shù)據(jù)概述9ppt精選版

第一章大數(shù)據(jù)概述

第一章大數(shù)據(jù)概述提綱1.1大數(shù)據(jù)時代1.2大數(shù)據(jù)概念1.3大數(shù)據(jù)的影響1.4大數(shù)據(jù)的應用1.5大數(shù)據(jù)關鍵技術1.6大數(shù)據(jù)計算模式1.7大數(shù)據(jù)產(chǎn)業(yè)1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系提綱1.1大數(shù)據(jù)時代1.1大數(shù)據(jù)時代1.1大數(shù)據(jù)時代1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點，IT領域每隔十五年就會迎來一次重大變革信息化浪潮發(fā)生時間標志解決問題代表企業(yè)第一次浪潮1980年前后個人計算機信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場標桿企業(yè)表1-1三次信息化浪潮1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點1.1.2信息科技為大數(shù)據(jù)時代提供技術支撐圖1-1存儲價格隨時間變化情況存儲設備容量不斷增加，速度不斷提升，價格卻在不斷下降1.1.2信息科技為大數(shù)據(jù)時代提供技術支撐圖1-1存儲價格1.2信息科技為大數(shù)據(jù)時代提供技術支撐來自斯威本科技大學（SwinburneUniversityofTechnology）的研究團隊，在2013年6月29日刊出的《自然通訊（NatureCommunications）》雜志的文章中，描述了一種全新的數(shù)據(jù)存儲方式，可將1PB（1024TB）的數(shù)據(jù)存儲到一張僅DVD大小的聚合物碟片上。1.2信息科技為大數(shù)據(jù)時代提供技術支撐來自斯威本科技大學（S1.1.2信息科技為大數(shù)據(jù)時代提供技術支撐圖1-3CPU晶體管數(shù)目隨時間變化情況2.CPU處理能力大幅提升

1.1.2信息科技為大數(shù)據(jù)時代提供技術支撐圖1-3CPU晶1.1.2信息科技為大數(shù)據(jù)時代提供技術支撐摩爾定律：CPU性能每隔18個月提高一倍，價格下降一半1.1.2信息科技為大數(shù)據(jù)時代提供技術支撐摩爾定律：CPU性圖1-4網(wǎng)絡帶寬隨時間變化情況3.網(wǎng)絡帶寬不斷增加1.1.2信息科技為大數(shù)據(jù)時代提供技術支撐圖1-4網(wǎng)絡帶寬隨時間變化情況3.網(wǎng)絡帶寬不斷增加數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨圖1-5數(shù)據(jù)產(chǎn)生方式的變革1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨圖1-5數(shù)1.1.4大數(shù)據(jù)的發(fā)展歷程階段時間內容第一階段：萌芽期上世紀90年代至本世紀初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術的逐步成熟，一批商業(yè)智能工具和知識管理技術開始被應用，如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等。第二階段：成熟期本世紀前十年Web2.0應用迅猛發(fā)展，非結構化數(shù)據(jù)大量產(chǎn)生，傳統(tǒng)處理方法難以應對，帶動了大數(shù)據(jù)技術的快速突破，大數(shù)據(jù)解決方案逐漸走向成熟，形成了并行計算與分布式系統(tǒng)兩大核心技術，谷歌的GFS和MapReduce等大數(shù)據(jù)技術受到追捧，Hadoop平臺開始大行其道第三階段：大規(guī)模應用期2010年以后大數(shù)據(jù)應用滲透各行各業(yè)，數(shù)據(jù)驅動決策，信息社會智能化程度大幅提高表1-2大數(shù)據(jù)發(fā)展的三個階段1.1.4大數(shù)據(jù)的發(fā)展歷程階段時間內容第一階段：萌芽期上世1.2大數(shù)據(jù)概念（4V）1.2大數(shù)據(jù)概念（4V）1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測，數(shù)據(jù)一直都在以每年50%的速度增長，也就是說每兩年就增長一倍（大數(shù)據(jù)摩爾定律）人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量預計到2020年，全球將總共擁有35ZB的數(shù)據(jù)量，相較于2010年，數(shù)據(jù)量將增長近30倍22ppt精選版1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測，數(shù)據(jù)一直都在以每年1.2.2數(shù)據(jù)類型繁多大數(shù)據(jù)是由結構化和非結構化數(shù)據(jù)組成的10%的結構化數(shù)據(jù)，存儲在數(shù)據(jù)庫中90%的非結構化數(shù)據(jù)，它們與人類信息密切相關科學研究–基因組–LHC加速器–地球與空間探測企業(yè)應用–Email、文檔、文件–應用日志–交易記錄Web1.0數(shù)據(jù)–文本–圖像–視頻Web2.0數(shù)據(jù)–查詢日志/點擊流–Twitter/Blog/SNS–Wiki23ppt精選版1.2.2數(shù)據(jù)類型繁多大數(shù)據(jù)是由結構化和非結構化數(shù)據(jù)組成的1.2.3 處理速度快從數(shù)據(jù)的生成到消耗，時間窗口非常小，可用于生成決策的時間非常少1秒定律：這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質的不同24ppt精選版1.2.3 處理速度快從數(shù)據(jù)的生成到消耗，時間窗口非常小，可1.2.4 價值密度低

價值密度低，商業(yè)價值高

以視頻為例，連續(xù)不間斷監(jiān)控過程中，可能有用的數(shù)據(jù)僅僅有一兩秒，但是具有很高的商業(yè)價值25ppt精選版1.2.4 價值密度低價值密度低，商業(yè)價值高25ppt精選1.3大數(shù)據(jù)的影響

圖靈獎獲得者、著名數(shù)據(jù)庫專家JimGray博士觀察并總結人類自古以來，在科學研究上，先后歷經(jīng)了實驗、理論、計算和數(shù)據(jù)四種范式實驗理論計算數(shù)據(jù)1.3大數(shù)據(jù)的影響圖靈獎獲得者、著名數(shù)據(jù)庫專家JimGr1.3大數(shù)據(jù)的影響在思維方式方面，大數(shù)據(jù)完全顛覆了傳統(tǒng)的思維方式：全樣而非抽樣效率而非精確相關而非因果1.3大數(shù)據(jù)的影響在思維方式方面，大數(shù)據(jù)完全顛覆了傳統(tǒng)的思維1.3大數(shù)據(jù)的影響在社會發(fā)展方面，大數(shù)據(jù)決策逐漸成為一種新的決策方式，大數(shù)據(jù)應用有力促進了信息技術與各行業(yè)的深度融合，大數(shù)據(jù)開發(fā)大大推動了新技術和新應用的不斷涌現(xiàn)在就業(yè)市場方面，大數(shù)據(jù)的興起使得數(shù)據(jù)科學家成為熱門職業(yè)在人才培養(yǎng)方面，大數(shù)據(jù)的興起，將在很大程度上改變中國高校信息技術相關專業(yè)的現(xiàn)有教學和科研體制1.3大數(shù)據(jù)的影響在社會發(fā)展方面，大數(shù)據(jù)決策逐漸成為一種新的1.4大數(shù)據(jù)的應用大數(shù)據(jù)無處不在，包括金融、汽車、零售、餐飲、電信、能源、政務、醫(yī)療、體育、娛樂等在內的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡1.4大數(shù)據(jù)的應用大數(shù)據(jù)無處不在，包括金融、汽車、零售、餐飲典型的大數(shù)據(jù)應用實例KevinSpaceyDavidFincher英國同名小說《紙牌屋》風靡全球的美劇《紙牌屋》大數(shù)據(jù)分析30ppt精選版典型的大數(shù)據(jù)應用實例KevinSpaceyDavidFi典型的大數(shù)據(jù)應用實例

從谷歌流感趨勢看大數(shù)據(jù)的應用價值

“谷歌流感趨勢”，通過跟蹤搜索詞相關數(shù)據(jù)來判斷全美地區(qū)的流感情況31ppt精選版典型的大數(shù)據(jù)應用實例從谷歌流感趨勢看大數(shù)據(jù)的應用價值31p1.5大數(shù)據(jù)關鍵技術表1-5大數(shù)據(jù)技術的不同層面及其功能技術層面功能數(shù)據(jù)采集利用ETL工具將分布的、異構數(shù)據(jù)源中的數(shù)據(jù)如關系數(shù)據(jù)、平面數(shù)據(jù)文件等，抽取到臨時中間層后進行清洗、轉換、集成，最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中，成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎；或者也可以把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入，進行實時處理分析數(shù)據(jù)存儲和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫等，實現(xiàn)對結構化、半結構化和非結構化海量數(shù)據(jù)的存儲和管理數(shù)據(jù)處理與分析利用分布式并行編程模型和計算框架，結合機器學習和數(shù)據(jù)挖掘算法，實現(xiàn)對海量數(shù)據(jù)的處理和分析；對分析結果進行可視化呈現(xiàn)，幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)數(shù)據(jù)隱私和安全在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價值和學術價值的同時，構建隱私數(shù)據(jù)保護體系和數(shù)據(jù)安全體系，有效保護個人隱私和數(shù)據(jù)安全1.5大數(shù)據(jù)關鍵技術表1-5大數(shù)據(jù)技術的不同層面及其功能技1.5大數(shù)據(jù)關鍵技術分布式存儲分布式處理GFS\HDFSBigTable\HBaseNoSQL（鍵值、列族、圖形、文檔數(shù)據(jù)庫）NewSQL（如：SQLAzure）MapReduce大數(shù)據(jù)兩大核心技術1.5大數(shù)據(jù)關鍵技術分布式存儲分布式處理GFS\HDFSMa1.6大數(shù)據(jù)計算模式大數(shù)據(jù)計算模式解決問題代表產(chǎn)品批處理計算針對大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計算針對流數(shù)據(jù)的實時計算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺等圖計算針對大規(guī)模圖結構數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計算大規(guī)模數(shù)據(jù)的存儲管理和查詢分析Dremel、Hive、Cassandra、Impala等表1-3大數(shù)據(jù)計算模式及其代表產(chǎn)品1.6大數(shù)據(jù)計算模式大數(shù)據(jù)計算模式解決問題代表產(chǎn)品批處理計算1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關的企業(yè)經(jīng)濟活動的集合產(chǎn)業(yè)鏈環(huán)節(jié)包含內容IT基礎設施層包括提供硬件、軟件、網(wǎng)絡等基礎設施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務的企業(yè)，比如，提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等，提供存儲解決方案的EMC，提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數(shù)據(jù)源層大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者，是生物大數(shù)據(jù)（生物信息學領域的各類研究機構）、交通大數(shù)據(jù)（交通主管部門）、醫(yī)療大數(shù)據(jù)（各大醫(yī)院、體檢機構）、政務大數(shù)據(jù)（政府部門）、電商大數(shù)據(jù)（淘寶、天貓、蘇寧云商、京東等電商）、社交網(wǎng)絡大數(shù)據(jù)（微博、微信、人人網(wǎng)等）、搜索引擎大數(shù)據(jù)（百度、谷歌等）等各種數(shù)據(jù)的來源數(shù)據(jù)管理層包括數(shù)據(jù)抽取、轉換、存儲和管理等服務的各類企業(yè)或產(chǎn)品，比如分布式文件系統(tǒng)（如Hadoop的HDFS和谷歌的GFS）、ETL工具（Informatica、Datastage、Kettle等）、數(shù)據(jù)庫和數(shù)據(jù)倉庫（Oracle、MySQL、SQLServer、HBase、GreenPlum等）數(shù)據(jù)分析層包括提供分布式計算、數(shù)據(jù)挖掘、統(tǒng)計分析等服務的各類企業(yè)或產(chǎn)品，比如，分布式計算框架MapReduce、統(tǒng)計分析軟件SPSS和SAS、數(shù)據(jù)挖掘工具Weka、數(shù)據(jù)可視化工具Tableau、BI工具（MicroStrategy、Cognos、BO）等等數(shù)據(jù)平臺層包括提供數(shù)據(jù)分享平臺、數(shù)據(jù)分析平臺、數(shù)據(jù)租售平臺等服務的企業(yè)或產(chǎn)品，比如阿里巴巴、谷歌、中國電信、百度等數(shù)據(jù)應用層提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應用的企業(yè)、機構或政府部門，比如交通主管部門、各大醫(yī)療機構、菜鳥網(wǎng)絡、國家電網(wǎng)等1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領域最新的技術發(fā)展趨勢，三者相輔相成，既有聯(lián)系又有區(qū)別1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表1.8.1云計算云計算實現(xiàn)了通過網(wǎng)絡提供可伸縮的、廉價的分布式計算能力，用戶只需要在具備網(wǎng)絡接入條件的地方，就可以隨時隨地獲得所需的各種IT資源圖1-7云計算的服務模式和類型1.云計算概念1.8.1云計算云計算實現(xiàn)了通過網(wǎng)絡提供可伸縮的、廉價的分布1.8.1云計算InfrastructureasaServicePlatformasaServiceSoftwareasaServiceSaaSPaaSIaaSGoogleApps,Microsoft“Software+Services”IBMITfactory,GoogleAppEngine,FAmazonEC2,IBMBlueCloud,SunGridServerStorageServerStorageVisualizationInfrastructurePlatformApplication從一個集中的系統(tǒng)部署軟件，使之在一臺本地計算機上(或從云中遠程地)運行的一個模型。由于是計量服務，SaaS允許出租一個應用程序，并計時收費IaaS將基礎設施(計算資源和存儲)作為服務出租PaaS類似于IaaS，但是它包括操作系統(tǒng)和圍繞特定應用的必需的服務SaaS1.8.1云計算InfrastructureasaSe1.8.1云計算云計算關鍵技術包括：虛擬化、分布式存儲、分布式計算、多租戶等2.云計算關鍵技術1.8.1云計算云計算關鍵技術包括：虛擬化、分布式存儲、分布1.8.1云計算云計算數(shù)據(jù)中心是一整套復雜的設施，包括刀片服務器、寬帶網(wǎng)絡連接、環(huán)境控制設備、監(jiān)控設備以及各種安全裝置等數(shù)據(jù)中心是云計算的重要載體，為云計算提供計算、存儲、帶寬等各種硬件資源，為各種平臺和應用提供運行支撐環(huán)境全國各地推進數(shù)據(jù)中心建設3.云計算數(shù)據(jù)中心1.8.1云計算云計算數(shù)據(jù)中心是一整套復雜的設施，包括刀片服1.8.1云計算政務云上可以部署公共安全管理、容災備份、城市管理、應急管理、智能交通、社會保障等應用，通過集約化建設、管理和運行，可以實現(xiàn)信息資源整合和政務資源共享，推動政務管理創(chuàng)新，加快向服務型政府轉型教育云可以有效整合幼兒教育、中小學教育、高等教育以及繼續(xù)教育等優(yōu)質教育資源，逐步實現(xiàn)教育信息共享、教育資源共享及教育資源深度挖掘等目標中小企業(yè)云能夠讓企業(yè)以低廉的成本建立財務、供應鏈、客戶關系等管理應用系統(tǒng)，大大降低企業(yè)信息化門檻，迅速提升企業(yè)信息化水平，增強企業(yè)市場競爭力醫(yī)療云可以推動醫(yī)院與醫(yī)院、醫(yī)院與社區(qū)、醫(yī)院與急救中心、醫(yī)院與家庭之間的服務共享，并形成一套全新的醫(yī)療健康服務系統(tǒng)，從而有效地提高醫(yī)療保健的質量4.云計算應用1.8.1云計算政務云上可以部署公共安全管理、容災備份、城市1.8.1云計算

云計算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè)，近些年得到了迅速發(fā)展，形成了成熟的產(chǎn)業(yè)鏈結構，產(chǎn)業(yè)涵蓋硬件與設備制造、基礎設施運營、軟件與解決方案供應商、基礎設施即服務（IaaS）、平臺即服務（PaaS）、軟件即服務（SaaS）、終端設備、云安全、云計算交付/咨詢/認證等環(huán)節(jié)5.云計算產(chǎn)業(yè)1.8.1云計算云計算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè)，近些年得到了1.8.1云計算圖1-8云計算產(chǎn)業(yè)鏈5.云計算產(chǎn)業(yè)1.8.1云計算圖1-8云計算產(chǎn)業(yè)鏈5.云計算產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng)，是互聯(lián)網(wǎng)的延伸，它利用局部網(wǎng)絡或互聯(lián)網(wǎng)等通信技術把傳感器、控制器、機器、人員和物等通過新的方式聯(lián)在一起，形成人與物、物與物相聯(lián)，實現(xiàn)信息化和遠程管理控制1.物聯(lián)網(wǎng)概念1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng)，是互聯(lián)網(wǎng)的延伸，它1.8.2物聯(lián)網(wǎng)1.物聯(lián)網(wǎng)概念圖1-9物聯(lián)網(wǎng)體系架構1.8.2物聯(lián)網(wǎng)1.物聯(lián)網(wǎng)概念圖1-9物聯(lián)網(wǎng)體系架構1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)中的關鍵技術包括識別和感知技術（二維碼、RFID、傳感器等）、網(wǎng)絡與通信技術、數(shù)據(jù)挖掘與融合技術等2.物聯(lián)網(wǎng)關鍵技術圖1-10矩陣式二維碼圖1-11采用RFID芯片的公交卡圖1-12不同類型的傳感器1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)中的關鍵技術包括識別和感知技術（二維碼1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)已經(jīng)廣泛應用于智能交通、智慧醫(yī)療、智能家居、環(huán)保監(jiān)測、智能安防、智能物流、智能電網(wǎng)、智慧農業(yè)、智能工業(yè)等領域，對國民經(jīng)濟與社會發(fā)展起到了重要的推動作用3.物聯(lián)網(wǎng)應用1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)已經(jīng)廣泛應用于智能交通、智慧醫(yī)療、智能1.8.2物聯(lián)網(wǎng)完整的物聯(lián)網(wǎng)產(chǎn)業(yè)鏈主要包括核心感應器件提供商、感知層末端設備提供商、網(wǎng)絡提供商、軟件與行業(yè)解決方案提供商、系統(tǒng)集成商、運營及服務提供商等六大環(huán)節(jié)4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)完整的物聯(lián)網(wǎng)產(chǎn)業(yè)鏈主要包括核心感應器件提供商1.8.2物聯(lián)網(wǎng)圖1-8物聯(lián)網(wǎng)產(chǎn)業(yè)鏈4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)圖1-8物聯(lián)網(wǎng)產(chǎn)業(yè)鏈4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.3大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領域最新的技術發(fā)展趨勢，三者既有區(qū)別又有聯(lián)系圖1-9大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)之間的關系1.8.3大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)本章小結本章介紹了大數(shù)據(jù)技術的發(fā)展歷程，并指出信息科技的不斷進步為大數(shù)據(jù)時代提供了技術支撐，數(shù)據(jù)產(chǎn)生方式的變革促成了大數(shù)據(jù)時代的來臨大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快、價值密度低等特點，統(tǒng)稱“4V”。大數(shù)據(jù)對科學研究、思維方式、社會發(fā)展、就業(yè)市場和人才培養(yǎng)等方面，都產(chǎn)生了重要的影響，深刻理解大數(shù)據(jù)的這些影響，有助于我們更好把握學習和應用大數(shù)據(jù)的方向大數(shù)據(jù)在金融、汽車、零售、餐飲、電信、能源、政務、醫(yī)療、體育、娛樂等在內的社會各行各業(yè)都得到了日益廣泛的應用，深刻地改變著我們的社會生產(chǎn)和日常生活本章小結本章介紹了大數(shù)據(jù)技術的發(fā)展歷程，并指出信息科技的不斷本章小結大數(shù)據(jù)并非單一的數(shù)據(jù)或技術，而是數(shù)據(jù)和大數(shù)據(jù)技術的綜合體。大數(shù)據(jù)技術主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)安全和隱私保護等幾個層面的內容大數(shù)據(jù)產(chǎn)業(yè)包括IT基礎設施層、數(shù)據(jù)源層、數(shù)據(jù)管理層、數(shù)據(jù)分析層、數(shù)據(jù)平臺層和數(shù)據(jù)應用層，在不同層面，都已經(jīng)形成了一批引領市場的技術和企業(yè)本章最后介紹了云計算和物聯(lián)網(wǎng)的概念和關鍵技術，并闡述了大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)三者之間的區(qū)別與聯(lián)系本章小結大數(shù)據(jù)并非單一的數(shù)據(jù)或技術，而是數(shù)據(jù)和大數(shù)據(jù)技術的綜第二章大數(shù)據(jù)處理架構Hadoop53ppt精選版第二章大數(shù)據(jù)處理架構Hadoop53ppt精選版提綱2.1概述2.2Hadoop項目結構2.3Hadoop的安裝與使用2.4Hadoop集群的部署與使用提綱2.1概述2.1概述2.1.1 Hadoop簡介2.1.2 Hadoop發(fā)展簡史2.1.3 Hadoop的特性2.1.4 Hadoop的應用現(xiàn)狀Hadoop的標志55ppt精選版2.1概述2.1.1 Hadoop簡介Hadoop的標志52.1.1Hadoop簡介

Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺，為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎架構Hadoop是基于Java語言開發(fā)的，具有很好的跨平臺特性，并且可以部署在廉價的計算機集群中Hadoop的核心是分布式文件系統(tǒng)HDFS（HadoopDistributedFileSystem）和MapReduceHadoop被公認為行業(yè)大數(shù)據(jù)標準開源軟件，在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術服務，如谷歌、雅虎、微軟、思科、淘寶等，都支持Hadoop2.1.1Hadoop簡介Hadoop是Apache軟件2.1.2Hadoop發(fā)展簡史

Hadoop最初是由ApacheLucene項目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自始于2002年的ApacheNutch項目——一個開源的網(wǎng)絡搜索引擎并且也是Lucene項目的一部分

在2004年，Nutch項目也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS（NutchDistributedFileSystem），也就是HDFS的前身2004年，谷歌公司又發(fā)表了另一篇具有深遠影響的論文，闡述了MapReduce分布式編程思想2005年，Nutch開源實現(xiàn)了谷歌的MapReduce2.1.2Hadoop發(fā)展簡史Hadoop最初是由Apa2.1.2Hadoop發(fā)展簡史

到了2006年2月，Nutch中的NDFS和MapReduce開始獨立出來，成為Lucene項目的一個子項目，稱為Hadoop，同時，DougCutting加盟雅虎2008年1月，Hadoop正式成為Apache頂級項目，Hadoop也逐漸開始被雅虎之外的其他公司使用2008年4月，Hadoop打破世界紀錄，成為最快排序1TB數(shù)據(jù)的系統(tǒng)，它采用一個由910個節(jié)點構成的集群進行運算，排序時間只用了209秒在2009年5月，Hadoop更是把1TB數(shù)據(jù)排序時間縮短到62秒。Hadoop從此名聲大震，迅速發(fā)展成為大數(shù)據(jù)時代最具影響力的開源分布式開發(fā)平臺，并成為事實上的大數(shù)據(jù)處理標準2.1.2Hadoop發(fā)展簡史到了2006年2月，Nut2.1.3Hadoop的特性

Hadoop是一個能夠對大量數(shù)據(jù)進行分布式處理的軟件框架，并且是以一種可靠、高效、可伸縮的方式進行處理的，它具有以下幾個方面的特性：

高可靠性

高效性

高可擴展性

高容錯性

成本低

運行在Linux平臺上

支持多種編程語言2.1.3Hadoop的特性Hadoop是一2.1.3Hadoop的應用現(xiàn)狀

Hadoop憑借其突出的優(yōu)勢，已經(jīng)在各個領域得到了廣泛的應用，而互聯(lián)網(wǎng)領域是其應用的主陣地2007年，雅虎在Sunnyvale總部建立了M45——一個包含了4000個處理器和1.5PB容量的Hadoop集群系統(tǒng)Facebook作為全球知名的社交網(wǎng)站，Hadoop是非常理想的選擇，F(xiàn)acebook主要將Hadoop平臺用于日志處理、推薦系統(tǒng)和數(shù)據(jù)倉庫等方面

國內采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國移動等，其中，淘寶的Hadoop集群比較大2.1.3Hadoop的應用現(xiàn)狀Hadoop憑借其突出的2.1.3Hadoop的應用現(xiàn)狀Hadoop在企業(yè)中的應用架構2.1.3Hadoop的應用現(xiàn)狀Hadoop在企業(yè)中的應用2.1.4ApacheHadoop版本演變ApacheHadoop版本分為兩代，我們將第一代Hadoop稱為Hadoop1.0，第二代Hadoop稱為Hadoop2.0第一代Hadoop包含三個大版本，分別是0.20.x，0.21.x和0.22.x，其中，0.20.x最后演化成1.0.x，變成了穩(wěn)定版，而0.21.x和0.22.x則增加了NameNodeHA等新的重大特性第二代Hadoop包含兩個版本，分別是0.23.x和2.x，它們完全不同于Hadoop1.0，是一套全新的架構，均包含HDFSFederation和YARN兩個系統(tǒng)，相比于0.23.x，2.x增加了NameNodeHA和Wire-compatibility兩個重大特性2.1.4ApacheHadoop版本演變Apache2.1.4ApacheHadoop版本演變2.1.4ApacheHadoop版本演變ApacheHadoopHortonworksCloudera（CDH：ClouderaDistributionHadoop）MapR……2.1.5Hadoop各種版本選擇Hadoop版本的考慮因素：是否開源（即是否免費）是否有穩(wěn)定版是否經(jīng)實踐檢驗是否有強大的社區(qū)支持ApacheHadoop2.1.5Hadoop各種版本選2.1.5Hadoop各種版本2.1.5Hadoop各種版本2.2Hadoop項目結構Hadoop的項目結構不斷豐富發(fā)展，已經(jīng)形成一個豐富的Hadoop生態(tài)系統(tǒng)2.2Hadoop項目結構Hadoop的項目結構不斷豐富發(fā)2.2Hadoop項目結構組件功能HDFS分布式文件系統(tǒng)MapReduce分布式并行編程模型YARN資源管理和調度器Tez運行在YARN之上的下一代Hadoop查詢處理框架HiveHadoop上的數(shù)據(jù)倉庫HBaseHadoop上的非關系型的分布式數(shù)據(jù)庫Pig一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺，提供類似SQL的查詢語言PigLatinSqoop用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進行數(shù)據(jù)傳遞OozieHadoop上的工作流管理系統(tǒng)Zookeeper提供分布式協(xié)調一致性服務Storm流計算框架Flume一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)AmbariHadoop快速部署工具，支持ApacheHadoop集群的供應、管理和監(jiān)控Kafka一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，可以處理消費者規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)Spark類似于HadoopMapReduce的通用并行框架2.2Hadoop項目結構組件功能HDFS分布式文件系統(tǒng)M2.3 Hadoop的安裝與使用2.3.1Hadoop安裝之前的預備知識2.3.2安裝Linux虛擬機2.3.3安裝雙操作系統(tǒng)2.3.4詳解Hadoop的安裝與使用68ppt精選版2.3 Hadoop的安裝與使用2.3.1Hadoop安裝2.3.1Hadoop安裝之前的預備知識（一）Linux的選擇（1）選擇哪個Linux發(fā)行版？在Linux系統(tǒng)各個發(fā)行版中，CentOS系統(tǒng)和Ubuntu系統(tǒng)在服務端和桌面端使用占比最高，網(wǎng)絡上資料最是齊全，所以建議使用CentOS或Ubuntu在學習Hadoop方面，雖然兩個系統(tǒng)沒有多大區(qū)別，但是推薦使用Ubuntu操作系統(tǒng)（2）選擇32位還是64位？如果電腦比較老或者內存小于2G，那么建議選擇32位系統(tǒng)版本的Linux如果內存大于4G，那么建議選擇64位系統(tǒng)版本的Linux2.3.1Hadoop安裝之前的預備知識（一）Linux的2.3.1Hadoop安裝之前的預備知識（二）系統(tǒng)安裝方式：選擇虛擬機安裝還是雙系統(tǒng)安裝建議電腦比較新或者配置內存4G以上的電腦可以選擇虛擬機安裝電腦較舊或配置內存小于等于4G的電腦強烈建議選擇雙系統(tǒng)安裝，否則，在配置較低的計算機上運行LInux虛擬機，系統(tǒng)運行速度會非常慢鑒于目前教師和學生的計算機硬件配置一般不高，建議在實踐教學中采用雙系統(tǒng)安裝，確保系統(tǒng)運行速度2.3.1Hadoop安裝之前的預備知識（二）系統(tǒng)安裝方式2.3.1Hadoop安裝之前的預備知識（三）關于Linux的一些基礎知識Shell是指“提供使用者使用界面”的軟件（命令解析器），類似于DOS下的command和后來的cmd.exe。它接收用戶命令，然后調用相應的應用程序sudo命令sudo是ubuntu中一種權限管理機制，管理員可以授權給一些普通用戶去執(zhí)行一些需要root權限執(zhí)行的操作。當使用sudo命令時，就需要輸入您當前用戶的密碼2.3.1Hadoop安裝之前的預備知識（三）關于Linu2.3.1Hadoop安裝之前的預備知識輸入密碼在Linux的終端中輸入密碼，終端是不會顯示任何你當前輸入的密碼，也不會提示你已經(jīng)輸入了多少字符密碼，讀者不要誤以為鍵盤沒有響應輸入法中英文切換linux中英文的切換方式是使用鍵盤“shift”鍵來切換，也可以點擊頂部菜單的輸入法按鈕進行切換。Ubuntu自帶的Sunpinyin中文輸入法已經(jīng)足夠讀者使用Ubuntu終端復制粘貼快捷鍵在Ubuntu終端窗口中，復制粘貼的快捷鍵需要加上shift，即粘貼是ctrl+shift+v2.3.1Hadoop安裝之前的預備知識輸入密碼2.3.1Hadoop安裝之前的預備知識（四）Hadoop安裝方式單機模式：Hadoop默認模式為非分布式模式（本地模式），無需進行其他配置即可運行。非分布式即單Java進程，方便進行調試偽分布式模式：Hadoop可以在單節(jié)點上以偽分布式的方式運行，Hadoop進程以分離的Java進程來運行，節(jié)點既作為NameNode也作為DataNode，同時，讀取的是HDFS中的文件分布式模式：使用多個節(jié)點構成集群環(huán)境來運行Hadoop2.3.1Hadoop安裝之前的預備知識（四）Hadoop2.3.2安裝Linux虛擬機一、材料和工具1、下載VirtualBox虛擬機軟件2.下載UbuntuLTS14.04ISO映像文件二、步驟（一）確認系統(tǒng)版本如果選擇的系統(tǒng)是64位Ubuntu系統(tǒng)，那么在安裝虛擬機前，我們還要進入BIOS開啟CPU的虛擬化2.3.2安裝Linux虛擬機一、材料和工具二、步驟2.3.2安裝Linux虛擬機2.3.2安裝Linux虛擬機2.3.2安裝Linux虛擬機(二)安裝前的準備1.打開VirtualBox，點擊“創(chuàng)建”按鈕，創(chuàng)建一個虛擬機2.給虛擬機命名，選擇操作系統(tǒng)，版本3.選擇內存大小，這里設置的1024M4.創(chuàng)建虛擬硬盤5.選擇虛擬硬盤文件類型VDI6.虛擬硬盤選擇動態(tài)分配7.選擇文件存儲的位置和容量大小8.點擊創(chuàng)建2.3.2安裝Linux虛擬機(二)安裝前的準備1.打開V2.3.2安裝Linux虛擬機(二)安裝前的準備2.3.2安裝Linux虛擬機(二)安裝前的準備2.3.2安裝Linux虛擬機(三)安裝Ubuntu2.3.2安裝Linux虛擬機(三)安裝Ubuntu2.3.2安裝Linux虛擬機(三)安裝Ubuntu2.3.2安裝Linux虛擬機(三)安裝Ubuntu2.3.3安裝雙操作系統(tǒng)第一步：制作安裝U盤具體可參考百度經(jīng)驗文章/article/59703552e0a6e18fc007409f.html第二步：雙系統(tǒng)安裝具體可參考百度經(jīng)驗文章/article/dca1fa6fa3b905f1a44052bd.html安裝后Window和Ubuntu14.04都可以用，默認windows優(yōu)先啟動可以在電腦啟動時，選擇進入Ubuntu系統(tǒng)而不是Windows系統(tǒng)2.3.3安裝雙操作系統(tǒng)第一步：制作安裝U盤安裝后Wind2.3.4Hadoop的安裝與使用（單機/偽分布式）Hadoop基本安裝配置主要包括以下幾個步驟：創(chuàng)建Hadoop用戶SSH登錄權限設置安裝Java環(huán)境單機安裝配置偽分布式安裝配置2.3.4Hadoop的安裝與使用（單機/偽分布式）Had創(chuàng)建Hadoop用戶如果安裝Ubuntu的時候不是用的“hadoop”用戶，那么需要增加一個名為hadoop的用戶首先按

ctrl+alt+t

打開終端窗口，輸入如下命令創(chuàng)建新用戶:$sudouseradd–mhadoop–s/bin/bash上面這條命令創(chuàng)建了可以登陸的hadoop用戶，并使用/bin/bash作為shell82ppt精選版創(chuàng)建Hadoop用戶如果安裝Ubuntu的時候不是用的創(chuàng)建Hadoop用戶接著使用如下命令設置密碼，可簡單設置為hadoop，按提示輸入兩次密碼：$sudopasswdhadoop可為hadoop用戶增加管理員權限，方便部署，避免一些對新手來說比較棘手的權限問題：$sudoadduserhadoopsudo83ppt精選版創(chuàng)建Hadoop用戶接著使用如下命令設置密碼，可簡單設置為SSH登錄權限設置SSH是什么？SSH

為

SecureShell

的縮寫，是建立在應用層和傳輸層基礎上的安全協(xié)議。SSH是目前較可靠、專為遠程登錄會話和其他網(wǎng)絡服務提供安全性的協(xié)議。利用SSH協(xié)議可以有效防止遠程管理過程中的信息泄露問題。SSH最初是UNIX系統(tǒng)上的一個程序，后來又迅速擴展到其他操作平臺。SSH是由客戶端和服務端的軟件組成，服務端是一個守護進程(daemon)，它在后臺運行并響應來自客戶端的連接請求，客戶端包含ssh程序以及像scp（遠程拷貝）、slogin（遠程登陸）、sftp（安全文件傳輸）等其他的應用程序84ppt精選版SSH登錄權限設置SSH是什么？84ppt精選版SSH登錄權限設置配置SSH的原因：Hadoop名稱節(jié)點（NameNode）需要啟動集群中所有機器的Hadoop守護進程，這個過程需要通過SSH登錄來實現(xiàn)。Hadoop并沒有提供SSH輸入密碼登錄的形式，因此，為了能夠順利登錄每臺機器，需要將所有機器配置為名稱節(jié)點可以無密碼登錄它們85ppt精選版SSH登錄權限設置配置SSH的原因：85ppt精選版安裝Java環(huán)境Java環(huán)境可選擇Oracle的JDK，或是OpenJDK可以在Ubuntu中直接通過命令安裝OpenJDK7$sudoapt-getinstallopenjdk-7-jreopenjdk-7-jdk還需要配置一下JAVA_HOME環(huán)境變量

具體請參考網(wǎng)絡教程：/blog/install-hadoop/86ppt精選版安裝Java環(huán)境Java環(huán)境可選擇Oracle的JDK單機安裝配置Hadoop2可以到官網(wǎng)下載，需要下載

hadoop-2.x.y.tar.gz

這個格式的文件，這是編譯好的，另一個包含src的則是Hadoop源代碼，需要進行編譯才可使用Hadoop2安裝文件的下載如果讀者是使用虛擬機方式安裝Ubuntu系統(tǒng)的用戶，請用虛擬機中的Ubuntu自帶firefox瀏覽器訪問本指南，再點擊下載地址，才能把hadoop文件下載虛擬機ubuntu中。請不要使用Windows系統(tǒng)下的瀏覽器下載，文件會被下載到Windows系統(tǒng)中，虛擬機中的Ubuntu無法訪問外部Windows系統(tǒng)的文件，造成不必要的麻煩。如果讀者是使用雙系統(tǒng)方式安裝Ubuntu系統(tǒng)的用戶，請進去Ubuntu系統(tǒng)，在Ubuntu系統(tǒng)打開firefox瀏覽器，再點擊下載單機安裝配置Hadoop2可以到官網(wǎng)下載，需要下載

ha單機安裝配置選擇將Hadoop安裝至/usr/local/中$sudotar-zxf~/下載/hadoop-2.6.0.tar.gz-C/usr/local#解壓到/usr/local中$cd/usr/local/$sudomv./hadoop-2.6.0/./hadoop#將文件夾名改為hadoop$sudochown-Rhadoop:hadoop./hadoop#修改文件權限Hadoop解壓后即可使用。輸入如下命令來檢查Hadoop是否可用，成功則會顯示Hadoop版本信息：$cd/usr/local/hadoop$./bin/hadoopversionHadoop默認模式為非分布式模式（本地模式），無需進行其他配置即可運行。單機安裝配置選擇將Hadoop安裝至/usr/loca偽分布式安裝配置Hadoop可以在單節(jié)點上以偽分布式的方式運行，Hadoop進程以分離的Java進程來運行，節(jié)點既作為NameNode也作為DataNode，同時，讀取的是HDFS中的文件Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中，偽分布式需要修改2個配置文件

core-site.xml

和

hdfs-site.xml

Hadoop的配置文件是xml格式，每個配置以聲明property的name和value的方式來實現(xiàn)89ppt精選版?zhèn)畏植际桨惭b配置Hadoop可以在單節(jié)點上以偽分布式的方式偽分布式安裝配置實驗步驟：修改配置文件：core-site.xml，hdfs-site.xml，mapred-site.xml初始化文件系統(tǒng)hadoopnamenode-format啟動所有進程start-all.sh訪問web界面，查看Hadoop信息運行實例90ppt精選版?zhèn)畏植际桨惭b配置實驗步驟：90ppt精選版?zhèn)畏植际桨惭b配置修改配置文件

hdfs-site.xml<c偽分布式安裝配置name為fs.defaultFS的值，表示hdfs路徑的邏輯名稱hadoop.tmp.dir表示存放臨時數(shù)據(jù)的目錄，即包括NameNode的數(shù)據(jù)，也包括DataNode的數(shù)據(jù)。該路徑任意指定，只要實際存在該文件夾即可

偽分布式安裝配置name為fs.defaultFS的值，表示偽分布式安裝配置修改配置文件

hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>dfs.replication表示副本的數(shù)量，偽分布式要設置為1.dir表示本地磁盤目錄，是存儲fsimage文件的地方dfs.datanode.data.dir表示本地磁盤目錄，HDFS數(shù)據(jù)存放block的地方偽分布式安裝配置修改配置文件

hdfs-site.xml<c偽分布式安裝配置關于三種Shell命令方式的區(qū)別：1.hadoopfs2.hadoopdfs3.hdfsdfshadoopfs適用于任何不同的文件系統(tǒng)，比如本地文件系統(tǒng)和HDFS文件系統(tǒng)hadoopdfs只能適用于HDFS文件系統(tǒng)hdfsdfs跟hadoopdfs的命令作用一樣，也只能適用于HDFS文件系統(tǒng)偽分布式安裝配置關于三種Shell命令方式的區(qū)別：2.4.1集群節(jié)點類型2.4.2集群規(guī)模2.4.3集群硬件配置2.4.4集群網(wǎng)絡拓撲2.4.5集群的建立與安裝2.4.6集群基準測試2.4.7在云計算環(huán)境中使用Hadoop2.4Hadoop集群的部署與使用2.4.1集群節(jié)點類型2.4Hadoop集群的部署與使用2.4.1Hadoop集群中有哪些節(jié)點類型Hadoop框架中最核心的設計是為海量數(shù)據(jù)提供存儲的HDFS和對數(shù)據(jù)進行計算的MapReduceMapReduce的作業(yè)主要包括：（1）從磁盤或從網(wǎng)絡讀取數(shù)據(jù)，即IO密集工作；（2）計算數(shù)據(jù)，即CPU密集工作Hadoop集群的整體性能取決于CPU、內存、網(wǎng)絡以及存儲之間的性能平衡。因此運營團隊在選擇機器配置時要針對不同的工作節(jié)點選擇合適硬件類型一個基本的Hadoop集群中的節(jié)點主要有NameNode：負責協(xié)調集群中的數(shù)據(jù)存儲DataNode：存儲被拆分的數(shù)據(jù)塊JobTracker：協(xié)調數(shù)據(jù)計算任務TaskTracker：負責執(zhí)行由JobTracker指派的任務SecondaryNameNode：幫助NameNode收集文件系統(tǒng)運行的狀態(tài)信息2.4.1Hadoop集群中有哪些節(jié)點類型Hadoop框架2.4.2集群硬件配置在集群中，大部分的機器設備是作為Datanode和TaskTracker工作的Datanode/TaskTracker的硬件規(guī)格可以采用以下方案：4個磁盤驅動器（單盤1-2T），支持JBOD(JustaBunchOfDisks，磁盤簇)2個4核CPU,至少2-2.5GHz16-24GB內存千兆以太網(wǎng)2.4.2集群硬件配置在集群中，大部分的機器設備是作為Da2.4.2集群硬件配置NameNode提供整個HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務，因此需要更多的RAM，與集群中的數(shù)據(jù)塊數(shù)量相對應，并且需要優(yōu)化RAM的內存通道帶寬，采用雙通道或三通道以上內存。硬件規(guī)格可以采用以下方案：8-12個磁盤驅動器（單盤1-2T）2個4核/8核CPU16-72GB內存千兆/萬兆以太網(wǎng)2.4.2集群硬件配置NameNode提供整個HDFS文件2.4.2集群硬件配置SecondaryNameNode在小型集群中可以和NameNode共用一臺機器，較大的群集可以采用與NameNode相同的硬件2.4.2集群硬件配置SecondaryNameNode在2.4.3集群規(guī)模要多大

Hadoop集群規(guī)?？纱罂尚。跏紩r，可以從一個較小規(guī)模的集群開始，比如包含10個節(jié)點，然后，規(guī)模隨著存儲器和計算需求的擴大而擴大如果數(shù)據(jù)每周增大1TB，并且有三個HDFS副本，然后每周需要一個額外的3TB作為原始數(shù)據(jù)存儲。要允許一些中間文件和日志（假定30%）的空間，由此，可以算出每周大約需要增加一臺新機器。存儲兩年數(shù)據(jù)的集群，大約需要100臺機器對于一個小的集群，名稱節(jié)點（NameNode）和JobTracker運行在單個節(jié)點上，通常是可以接受的。但是，隨著集群和存儲在HDFS中的文件數(shù)量的增加，名稱節(jié)點需要更多的主存，這時，名稱節(jié)點和JobTracker就需要運行在不同的節(jié)點上第二名稱節(jié)點（SecondaryNameNode）會和名稱節(jié)點可以運行在相同的機器上，但是，由于第二名稱節(jié)點和名稱節(jié)點幾乎具有相同的主存需求，因此，二者最好運行在不同節(jié)點上2.4.3集群規(guī)模要多大Hadoop集群規(guī)?？纱罂尚?，初2.4.4集群網(wǎng)絡拓撲普通的Hadoop集群結構由一個兩階網(wǎng)絡構成每個機架（Rack）有30-40個服務器，配置一個1GB的交換機，并向上傳輸?shù)揭粋€核心交換機或者路由器（1GB或以上）在相同的機架中的節(jié)點間的帶寬的總和，要大于不同機架間的節(jié)點間的帶寬總和2.4.4集群網(wǎng)絡拓撲普通的Hadoop集群結構由一個兩階2.4.5集群的建立與安裝采購好相關的硬件設備后，就可以把硬件裝入機架，安裝并運行Hadoop安裝Hadoop有多種方法：（1）手動安裝（2）自動化安裝為了緩解安裝和維護每個節(jié)點上相同的軟件的負擔，可以使用一個自動化方法實現(xiàn)完全自動化安裝，比如RedHatLinux’Kickstart、Debian或者Docker自動化安裝部署工具，會通過記錄在安裝過程中對于各個選項的回答來完成自動化安裝過程。

2.4.5集群的建立與安裝采購好相關的硬件設備后，就可以把2.4.6Hadoop集群基準測試如何判斷一個Hadoop集群是否已經(jīng)正確安裝？可以運行基準測試Hadoop自帶有一些基準測試程序，被打包在測試程序JAR文件中用TestDFSIO基準測試，來測試HDFS的IO性能用排序測試MapReduce：Hadoop自帶一個部分排序的程序，這個測試過程的整個數(shù)據(jù)集都會通過洗牌（Shuffle）傳輸至Reducer，可以充分測試MapReduce的性能2.4.6Hadoop集群基準測試如何判斷一個Hadoop2.4.7在云計算環(huán)境中使用HadoopHadoop不僅可以運行在企業(yè)內部的集群中，也可以運行在云計算環(huán)境中可以在AmazonEC2中運行Hadoop。EC2是一個計算服務，允許客戶租用計算機（實例），來運行自己的應用?？蛻艨梢园葱柽\行或終止實例，并且按照實際使用情況來付費Hadoop自帶有一套腳本，用于在EC2上面運行Hadoop在EC2上運行Hadoop尤其適用于一些工作流。例如，在AmazonS3中存儲數(shù)據(jù)，在EC2上運行集群，在集群中運行MapReduce作業(yè)，讀取存儲在S3中的數(shù)據(jù)，最后，在關閉集群之前將輸出寫回S3中；如果長期使用集群，復制S3數(shù)據(jù)到運行在EC2上的HDFS中，則可以使得數(shù)據(jù)處理更加高效，因為，HDFS可以充分利用數(shù)據(jù)的位置，S3則做不到，因為，S3與EC2的存儲不在同一個節(jié)點上2.4.7在云計算環(huán)境中使用HadoopHadoop不僅可本章小結Hadoop被視為事實上的大數(shù)據(jù)處理標準，本章介紹了Hadoop的發(fā)展歷程，并闡述了Hadoop的高可靠性、高效性、高可擴展性、高容錯性、成本低、運行在Linux平臺上、支持多種編程語言等特性Hadoop目前已經(jīng)在各個領域得到了廣泛的應用，雅虎、Facebook、百度、淘寶、網(wǎng)易等公司都建立了自己的Hadoop集群經(jīng)過多年發(fā)展，Hadoop項目已經(jīng)變得非常成熟和完善，包括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子項目，其中，HDFS和MapReduce是Hadoop的兩大核心組件本章最后介紹了如何在Linux系統(tǒng)下完成Hadoop的安裝和配置，這個部分是后續(xù)章節(jié)實踐環(huán)節(jié)的基礎105ppt精選版本章小結Hadoop被視為事實上的大數(shù)據(jù)處理標準，本章介紹了第三章分布式文件系統(tǒng)HDFS106ppt精選版第三章分布式文件系統(tǒng)HDFS106ppt精選版提綱3.1分布式文件系統(tǒng)3.2HDFS簡介3.3HDFS相關概念3.4HDFS體系結構3.5HDFS存儲原理3.6HDFS數(shù)據(jù)讀寫過程3.7HDFS編程實踐提綱3.1分布式文件系統(tǒng)3.1 分布式文件系統(tǒng)3.1.1 計算機集群結構3.1.2 分布式文件系統(tǒng)的結構108ppt精選版3.1 分布式文件系統(tǒng)3.1.1 計算機集群結構108ppt3.1.1 計算機集群結構分布式文件系統(tǒng)把文件分布存儲到多個計算機節(jié)點上，成千上萬的計算機節(jié)點構成計算機集群與之前使用多個處理器和專用高級硬件的并行化處理裝置不同的是，目前的分布式文件系統(tǒng)所采用的計算機集群，都是由普通硬件構成的，這就大大降低了硬件上的開銷3.1.1 計算機集群結構分布式文件系統(tǒng)把文件分布存儲到多個3.1.1 計算機集群結構圖3-1計算機集群的基本架構3.1.1 計算機集群結構圖3-1計算機集群的基本架構3.1.2 分布式文件系統(tǒng)的結構分布式文件系統(tǒng)在物理結構上是由計算機集群中的多個節(jié)點構成的，這些節(jié)點分為兩類，一類叫“主節(jié)點”(MasterNode)或者也被稱為“名稱結點”(NameNode)，另一類叫“從節(jié)點”（SlaveNode）或者也被稱為“數(shù)據(jù)節(jié)點”(DataNode)3.1.2 分布式文件系統(tǒng)的結構分布式文件系統(tǒng)在物理結構上是3.1.2 分布式文件系統(tǒng)的結構圖3-2大規(guī)模文件系統(tǒng)的整體結構3.1.2 分布式文件系統(tǒng)的結構圖3-2大規(guī)模文件系統(tǒng)的整3.2 HDFS簡介總體而言，HDFS要實現(xiàn)以下目標：●兼容廉價的硬件設備●流數(shù)據(jù)讀寫●大數(shù)據(jù)集●簡單的文件模型●強大的跨平臺兼容性HDFS特殊的設計，在實現(xiàn)上述優(yōu)良特性的同時，也使得自身具有一些應用局限性，主要包括以下幾個方面：●不適合低延遲數(shù)據(jù)訪問●無法高效存儲大量小文件●不支持多用戶寫入及任意修改文件3.2 HDFS簡介總體而言，HDFS要實現(xiàn)以下目標：●兼容3.3.1 塊HDFS默認一個塊64MB，一個文件被分成多個塊，以塊作為存儲單位塊的大小遠遠大于普通文件系統(tǒng)，可以最小化尋址開銷3.3.1 塊HDFS默認一個塊64MB，一個文件被分成多個3.3.1 塊HDFS采用抽象的塊概念可以帶來以下幾個明顯的好處：●支持大規(guī)模文件存儲：文件以塊為單位進行存儲，一個大規(guī)模文件可以被分拆成若干個文件塊，不同的文件塊可以被分發(fā)到不同的節(jié)點上，因此，一個文件的大小不會受到單個節(jié)點的存儲容量的限制，可以遠遠大于網(wǎng)絡中任意節(jié)點的存儲容量●簡化系統(tǒng)設計：首先，大大簡化了存儲管理，因為文件塊大小是固定的，這樣就可以很容易計算出一個節(jié)點可以存儲多少文件塊；其次，方便了元數(shù)據(jù)的管理，元數(shù)據(jù)不需要和文件塊一起存儲，可以由其他系統(tǒng)負責管理元數(shù)據(jù)●適合數(shù)據(jù)備份：每個文件塊都可以冗余存儲到多個節(jié)點上，大大提高了系統(tǒng)的容錯性和可用性3.3.1 塊HDFS采用抽象的塊概念可以帶來以下幾個明顯的3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點在HDFS中，名稱節(jié)點（NameNode）負責管理分布式文件系統(tǒng)的命名空間（Namespace），保存了兩個核心的數(shù)據(jù)結構，即FsImage和EditLogFsImage用于維護文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)操作日志文件EditLog中記錄了所有針對文件的創(chuàng)建、刪除、重命名等操作名稱節(jié)點記錄了每個文件中各個塊所在的數(shù)據(jù)節(jié)點的位置信息名稱節(jié)點的數(shù)據(jù)結構3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點在HDFS中，名稱節(jié)點（Nam3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點圖3-3名稱節(jié)點的數(shù)據(jù)結構3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點圖3-3名稱節(jié)點的數(shù)據(jù)結構3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式。每個inode是一個文件或目錄的元數(shù)據(jù)的內部表示，并包含此類信息：文件的復制等級、修改和訪問時間、訪問權限、塊大小以及組成文件的塊。對于目錄，則存儲修改時間、權限和配額元數(shù)據(jù)FsImage文件沒有記錄塊存儲在哪個數(shù)據(jù)節(jié)點。而是由名稱節(jié)點把這些映射保留在內存中，當數(shù)據(jù)節(jié)點加入HDFS集群時，數(shù)據(jù)節(jié)點會把自己所包含的塊列表告知給名稱節(jié)點，此后會定期執(zhí)行這種告知操作，以確保名稱節(jié)點的塊映射是最新的。FsImage文件3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點FsImage文件包含文件系統(tǒng)3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點在名稱節(jié)點啟動的時候，它會將FsImage文件中的內容加載到內存中，之后再執(zhí)行EditLog文件中的各項操作，使得內存中的元數(shù)據(jù)和實際的同步，存在內存中的元數(shù)據(jù)支持客戶端的讀操作。一旦在內存中成功建立文件系統(tǒng)元數(shù)據(jù)的映射，則創(chuàng)建一個新的FsImage文件和一個空的EditLog文件名稱節(jié)點起來之后，HDFS中的更新操作會重新寫到EditLog文件中，因為FsImage文件一般都很大（GB級別的很常見），如果所有的更新操作都往FsImage文件中添加，這樣會導致系統(tǒng)運行的十分緩慢，但是，如果往EditLog文件里面寫就不會這樣，因為EditLog要小很多。每次執(zhí)行寫操作之后，且在向客戶端發(fā)送成功代碼之前，edits文件都需要同步更新名稱節(jié)點的啟動3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點在名稱節(jié)點啟動的時候，它會將F3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點在名稱節(jié)點運行期間，HDFS的所有更新操作都是直接寫到EditLog中，久而久之，EditLog文件將會變得很大雖然這對名稱節(jié)點運行時候是沒有什么明顯影響的，但是，當名稱節(jié)點重啟的時候，名稱節(jié)點需要先將FsImage里面的所有內容映像到內存中，然后再一條一條地執(zhí)行EditLog中的記錄，當EditLog文件非常大的時候，會導致名稱節(jié)點啟動操作非常慢，而在這段時間內HDFS系統(tǒng)處于安全模式，一直無法對外提供寫操作，影響了用戶的使用名稱節(jié)點運行期間EditLog不斷變大的問題3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點在名稱節(jié)點運行期間，HDFS的3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點如何解決？答案是：SecondaryNameNode第二名稱節(jié)點第二名稱節(jié)點是HDFS架構中的一個組成部分，它是用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份，并減少名稱節(jié)點重啟的時間。SecondaryNameNode一般是單獨運行在一臺機器上3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點如何解決？答案是：Second3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點SecondaryNameNode的工作情況：（1）SecondaryNameNode會定期和NameNode通信，請求其停止使用EditLog文件，暫時將新的寫操作寫到一個新的文件edit.new上來，這個操作是瞬間完成，上層寫日志的函數(shù)完全感覺不到差別；（2）SecondaryNameNode通過HTTPGET方式從NameNode上獲取到FsImage和EditLog文件，并下載到本地的相應目錄下；（3）SecondaryNameNode將下載下來的FsImage載入到內存，然后一條一條地執(zhí)行EditLog文件中的各項更新操作，使得內存中的FsImage保持最新；這個過程就是EditLog和FsImage文件合并；（4）SecondaryNameNode執(zhí)行完（3）操作之后，會通過post方式將新的FsImage文件發(fā)送到NameNode節(jié)點上（5）NameNode將從SecondaryNameNode接收到的新的FsImage替換舊的FsImage文件，同時將edit.new替換EditLog文件，通過這個過程EditLog就變小了3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點SecondaryNameNo3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點數(shù)據(jù)節(jié)點是分布式文件系統(tǒng)HDFS的工作節(jié)點，負責數(shù)據(jù)的存儲和讀取，會根據(jù)客戶端或者是名稱節(jié)點的調度來進行數(shù)據(jù)的存儲和檢索，并且向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表每個數(shù)據(jù)節(jié)點中的數(shù)據(jù)會被保存在各自節(jié)點的本地Linux文件系統(tǒng)中數(shù)據(jù)節(jié)點（DataNode）3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點數(shù)據(jù)節(jié)點是分布式文件系統(tǒng)HDF3.4 HDFS體系結構3.4.1 HDFS體系結構概述3.4.2 HDFS命名空間管理3.4.3 通信協(xié)議3.4.4 客戶端3.4.5 HDFS體系結構的局限性126ppt精選版3.4 HDFS體系結構3.4.1 HDFS體系結構概述123.4.1 HDFS體系結構概述HDFS采用了主從（Master/Slave）結構模型，一個HDFS集群包括一個名稱節(jié)點（NameNode）和若干個數(shù)據(jù)節(jié)點（DataNode）（如圖3-4所示）。名稱節(jié)點作為中心服務器，負責管理文件系統(tǒng)的命名空間及客戶端對文件的訪問。集群中的數(shù)據(jù)節(jié)點一般是一個節(jié)點運行一個數(shù)據(jù)節(jié)點進程，負責處理文件系統(tǒng)客戶端的讀/寫請求，在名稱節(jié)點的統(tǒng)一調度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復制等操作。每個數(shù)據(jù)節(jié)點的數(shù)據(jù)實際上是保存在本地Linux文件系統(tǒng)中的3.4.1 HDFS體系結構概述HDFS采用3.4.1 HDFS體系結構概述圖3-4HDFS體系結構3.4.1 HDFS體系結構概述圖3-4HDFS體系結構3.4.2 HDFS命名空間管理HDFS的命名空間包含目錄、文件和塊在HDFS1.0體系結構中，在整個HDFS集群中只有一個命名空間，并且只有唯一一個名稱節(jié)點，該節(jié)點負責對這個命名空間進行管理HDFS使用的是傳統(tǒng)的分級文件體系，因此，用戶可以像使用普通文件系統(tǒng)一樣，創(chuàng)建、刪除目錄和文件，在目錄間轉移文件，重命名文件等3.4.2 HDFS命名空間管理HDFS的命名空間包含目錄、3.4.3 通信協(xié)議HDFS是一個部署在集群上的分布式文件系統(tǒng)，因此，很多數(shù)據(jù)需要通過網(wǎng)絡進行傳輸所有的HDFS通信協(xié)議都是構建在TCP/IP協(xié)議基礎之上的客戶端通過一個可配置的端口向名稱節(jié)點主動發(fā)起TCP連接，并使用客戶端協(xié)議與名稱節(jié)點進行交互名稱節(jié)點和數(shù)據(jù)節(jié)點之間則使用數(shù)據(jù)節(jié)點協(xié)議進行交互客戶端與數(shù)據(jù)節(jié)點的交互是通過RPC（RemoteProcedureCall）來實現(xiàn)的。在設計上，名稱節(jié)點不會主動發(fā)起RPC，而是響應來自客戶端和數(shù)據(jù)節(jié)點的RPC請求3.4.3 通信協(xié)議HDFS是一個部署在集群上的分布式文件系3.4.4 客戶端客戶端是用戶操作HDFS最常用的方式，HDFS在部署時都提供了客戶端HDFS客戶端是一個庫，暴露了HDFS文件系統(tǒng)接口，這些接口隱藏了HDFS實現(xiàn)中的大部分復雜性嚴格來說，客戶端并不算是HDFS的一部分客戶端可以支持打開、讀取、寫入等常見的操作，并且提供了類似Shell的命令行方式來訪問HDFS中的數(shù)據(jù)此外，HDFS也提供了JavaAPI，作為應用程序訪問文件系統(tǒng)的客戶端編程接口3.4.4 客戶端客戶端是用戶操作HDFS最常用的方式，HD3.4.5 HDFS體系結構的局限性HDFS只設置唯一一個名稱節(jié)點，這樣做雖然大大簡化了系統(tǒng)設計，但也帶來了一些明顯的局限性，具體如下：（1）命名空間的限制：名稱節(jié)點是保存在內存中的，因此，名稱節(jié)點能夠容納的對象（文件、塊）的個數(shù)會受到內存空間大小的限制。（2）性能的瓶頸：整個分布式文件系統(tǒng)的吞吐量，受限于單個名稱節(jié)點的吞吐量。（3）隔離問題：由于集群中只有一個名稱節(jié)點，只有一個命名空間，因此，無法對不同應用程序進行隔離。（4）集群的可用性：一旦這個唯一的名稱節(jié)點發(fā)生故障，會導致整個集群變得不可用。3.4.5 HDFS體系結構的局限性HDFS只設置唯一一個名3.5 HDFS存儲原理3.5.1 冗余數(shù)據(jù)保存3.5.2 數(shù)據(jù)存取策略3.5.3 數(shù)據(jù)錯誤與恢復133ppt精選版3.5 HDFS存儲原理3.5.1 冗余數(shù)據(jù)保存133ppt3.5.1 冗余數(shù)據(jù)保存

作為一個分布式文件系統(tǒng)，為了保證系統(tǒng)的容錯性和可用性，HDFS采用了多副本方式對數(shù)據(jù)進行冗余存儲，通常一個數(shù)據(jù)塊的多個副本會被分布到不同的數(shù)據(jù)節(jié)點上，如圖3-5所示，數(shù)據(jù)塊1被分別存放到數(shù)據(jù)節(jié)點A和C上，數(shù)據(jù)塊2被存放在數(shù)據(jù)節(jié)點A和B上。這種多副本方式具有以下幾個優(yōu)點：（1）加快數(shù)據(jù)傳輸速度（2）容易檢查數(shù)據(jù)錯誤（3）保證數(shù)據(jù)可靠性圖3-5HDFS數(shù)據(jù)塊多副本存儲3.5.1 冗余數(shù)據(jù)保存作為一個分布式文件系3.5.2 數(shù)據(jù)存取策略1.數(shù)據(jù)存放Block的副本放置策略第一個副本：放置在上傳文件的數(shù)據(jù)節(jié)點；如果是集群外提交，則隨機挑選一臺磁盤不太滿、CPU不太忙的節(jié)點第二個副本：放置在與第一個副本不同的機架的節(jié)點上第三個副本：與第一個副本相同機架的其他節(jié)點上更多副本：隨機節(jié)點3.5.2 數(shù)據(jù)存取策略1.數(shù)據(jù)存放Block的副本放置策略3.5.2

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術原理與應用完整版課件

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)技術原理與應用 完整版課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

大數(shù)據(jù)技術原理與應用完整版課件