大數(shù)據(jù)技術(shù)基礎(chǔ)_第1頁(yè)
大數(shù)據(jù)技術(shù)基礎(chǔ)_第2頁(yè)
大數(shù)據(jù)技術(shù)基礎(chǔ)_第3頁(yè)
大數(shù)據(jù)技術(shù)基礎(chǔ)_第4頁(yè)
大數(shù)據(jù)技術(shù)基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二章:大數(shù)據(jù)技術(shù)基礎(chǔ)大 數(shù) 據(jù) 分 析 及 應(yīng) 用 實(shí) 踐第1頁(yè)目錄CONTENTS2.1基礎(chǔ)架構(gòu)支持2.2云計(jì)算2.3數(shù)據(jù)采集2.4數(shù)據(jù)存放第2頁(yè)1.基礎(chǔ)架構(gòu)支持第3頁(yè)2.1.1 Hadoop Hadoop是Apache軟件基金會(huì)旗下一個(gè)開源分布式計(jì)算平臺(tái),為用戶提供了系統(tǒng)底層細(xì)節(jié)透明分布式基礎(chǔ)架構(gòu)Hadoop是基于Java語(yǔ)言開發(fā),含有很好跨平臺(tái)特征,而且能夠布署在廉價(jià)計(jì)算機(jī)集群中Hadoop關(guān)鍵是分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)和MapReduceHadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)處理能力幾乎全

2、部主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù),如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop第4頁(yè)2.1.1 Hadoop經(jīng)過多年發(fā)展,Hadoop項(xiàng)目不停完善和成熟,當(dāng)前已經(jīng)包含多個(gè)子項(xiàng)目(以下列圖2-2所表示)除了關(guān)鍵HDFS和MapReduce以外,Hadoop項(xiàng)目還包含Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子項(xiàng)目,它們提供了互補(bǔ)性服務(wù)或在關(guān)鍵層上提供了更高層服務(wù)Hadoop技術(shù)架構(gòu)Hadoop技術(shù)架構(gòu)圖第5頁(yè)2.1.1 Hadoop1:日志采集;2:傳輸日志;3:將日志寫入HDFS;4:從HDFS中將日

3、志裝載入數(shù)據(jù)倉(cāng)庫(kù)中;5:對(duì)裝載數(shù)據(jù)進(jìn)行分析;6:調(diào)用Hadoop集群M/R執(zhí)行并行計(jì)算,并返回結(jié)果;7:將結(jié)果中有價(jià)值數(shù)據(jù)寫入HBASE數(shù)據(jù)庫(kù);8:報(bào)表系統(tǒng)&應(yīng)用程序端經(jīng)過HBASE查詢數(shù)據(jù)并展現(xiàn);項(xiàng)目架構(gòu)第6頁(yè)2.1.2 HBaseHBase是運(yùn)行在Hadoop上NoSQL數(shù)據(jù)庫(kù),它是一個(gè)分布式、可擴(kuò)展大數(shù)據(jù)倉(cāng)庫(kù),是一個(gè)構(gòu)建在HDFS上分布式列存放系統(tǒng);從邏輯上講,HBase將數(shù)據(jù)按照表、行和列進(jìn)行存放。與hadoop一樣,Hbase目標(biāo)主要依靠橫向擴(kuò)展,經(jīng)過不停增加廉價(jià)商用服務(wù)器,來增加計(jì)算和存放能力。HBase表特點(diǎn):a.大 b.無模式 c.面向列 d.稀疏 e.數(shù)據(jù)多版本 f.數(shù)據(jù)類型

4、單一第7頁(yè)2.1.3 MapReduceMapReduce是一個(gè)編程模型,基于它寫出來應(yīng)用程序能夠運(yùn)行在由上千個(gè)商用機(jī)器組成大型集群上,并以一個(gè)可靠容錯(cuò)方式并行處理上T級(jí)別數(shù)據(jù)集。Map映射 Reduce歸納 MapReduce就是“任務(wù)分解與結(jié)果匯總”MapReduce處理流程第8頁(yè)2.1.4 HiveHive是建立在 Hadoop 上數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架,能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供類SQL查詢功效。本質(zhì)是將SQL轉(zhuǎn)換為MapReduce程序Hive與Hadoop關(guān)系第9頁(yè)2.1.5 PigPig是一個(gè)基于Hadoop大規(guī)模數(shù)據(jù)分析平臺(tái),Pig包含兩個(gè)部分:Pig Inter

5、face,Pig Latin。它提供SQL-LIKE語(yǔ)言叫Pig Latin,該語(yǔ)言編譯器會(huì)把類SQL數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理MapReduce運(yùn)算。Pig為復(fù)雜海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)單操作和編程接口。Pig 介紹第10頁(yè)2.1.6 R語(yǔ)言R是一套完整數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng)。數(shù)據(jù)存放和處理系統(tǒng)數(shù)組運(yùn)算工具(其向量、矩陣運(yùn)算方面功效尤其強(qiáng)大)完整連貫統(tǒng)計(jì)分析工具優(yōu)異統(tǒng)計(jì)制圖功效簡(jiǎn)便而強(qiáng)大編程語(yǔ)言可操縱數(shù)據(jù)輸入和輸出,可實(shí)現(xiàn)分支、循環(huán),用戶可自定義功效功效第11頁(yè)2.云計(jì)算第12頁(yè)2.2.1 云計(jì)算特點(diǎn)云計(jì)算是一個(gè)計(jì)算模型,它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)組成資源池上,使用戶能

6、夠按照自己需要獲取計(jì)算、存放和信息服務(wù)。云計(jì)算實(shí)現(xiàn)了經(jīng)過網(wǎng)絡(luò)提供可伸縮、廉價(jià)分布式計(jì)算能力,用戶只需要在具備網(wǎng)絡(luò)接入條件地方,就能夠隨時(shí)隨地取得所需各種IT資源1.可擴(kuò)展性:實(shí)現(xiàn)動(dòng)態(tài),可伸縮擴(kuò)展2.按需提供資源服務(wù):按需求提供資源,按使用量付費(fèi)3.虛擬化:基于虛擬化技術(shù)快速布署資源或取得服務(wù)4.超大規(guī)模:經(jīng)過互聯(lián)網(wǎng)提供、面向海量信息處理5.高可靠性和安全性:服務(wù)器使用數(shù)據(jù)多副本容錯(cuò),計(jì)算節(jié)點(diǎn)同構(gòu)可交換等辦法,保障服務(wù)可靠性和安全性。云計(jì)算特點(diǎn):云計(jì)算服務(wù)模式和類型第13頁(yè)商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算為大數(shù)據(jù)提供了技術(shù)基礎(chǔ),大數(shù)據(jù)為云計(jì)算提供了用武之地云計(jì)算模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)。

7、數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存放、訪問和計(jì)算。當(dāng)前云計(jì)算更偏重海量存放和計(jì)算,以及提供云服務(wù),運(yùn)行云應(yīng)用,不過缺乏盤活數(shù)據(jù)資產(chǎn)能力,挖掘價(jià)值性信息和預(yù)測(cè)性分析,為國(guó)家、企業(yè)、個(gè)人提供決議和服務(wù),是大數(shù)據(jù)關(guān)鍵議題,也是云計(jì)算最終方向。2.2.2 云計(jì)算與大數(shù)據(jù)第14頁(yè)3.數(shù)據(jù)采集第15頁(yè)2.3 數(shù)據(jù)采集數(shù)據(jù)采集:其實(shí)就是大數(shù)據(jù)抽取、轉(zhuǎn)換和加載過程數(shù)據(jù)采集工具:攝像頭、麥克風(fēng)等都是數(shù)據(jù)采集工具。數(shù)據(jù)采集意義:足夠數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)基礎(chǔ),數(shù)據(jù)采集成為大數(shù)據(jù)分析前奏。數(shù)據(jù)采集是大數(shù)據(jù)價(jià)值挖掘中主要一環(huán),它是計(jì)算機(jī)與外部物理世界連接橋梁。數(shù)據(jù)采集方法:第16頁(yè)2.3.1 數(shù)據(jù)采集意義數(shù)據(jù)采集:其

8、實(shí)就是大數(shù)據(jù)抽取、轉(zhuǎn)換和加載過程數(shù)據(jù)采集工具:攝像頭、麥克風(fēng)等都是數(shù)據(jù)采集工具。數(shù)據(jù)采集意義:足夠數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)基礎(chǔ),數(shù)據(jù)采集成為大數(shù)據(jù)分析前奏。數(shù)據(jù)采集是大數(shù)據(jù)價(jià)值挖掘中主要一環(huán),它是計(jì)算機(jī)與外部物理世界連接橋梁。數(shù)據(jù)采集方法:系統(tǒng)日志采集方法網(wǎng)絡(luò)數(shù)據(jù)采集方法其它數(shù)據(jù)采集方法 基于物聯(lián)網(wǎng)采集方法第17頁(yè)2.3.2 數(shù)據(jù)采集方法1.基于物聯(lián)網(wǎng)采集方法數(shù)據(jù)采集有基于物聯(lián)網(wǎng)傳感器采集,也有基于網(wǎng)絡(luò)信息數(shù)據(jù)采集?;谖锫?lián)網(wǎng)采集,比如在智能交通中,數(shù)據(jù)采集有:基于GPS定位信息采集、基于交通攝像頭視頻采集、基于交通卡口圖像采集、基于路口線圈信號(hào)采集等。基于GPS定位信息采集基于GPS定位信

9、息采集基于交通攝像頭視頻采集基于交通卡口圖像采集基于路口線圈信號(hào)采集智能交通中基于物聯(lián)網(wǎng)數(shù)據(jù)采集第18頁(yè)2.3.2 數(shù)據(jù)采集方法2.系統(tǒng)日志采集方法很多互聯(lián)網(wǎng)企業(yè)都有自己海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如HadoopChukwa,ClouderaFlume,F(xiàn)acebookScribe等,這些工具均采取分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B日志數(shù)據(jù)采集和傳輸需求。 系統(tǒng)日志采集FacebookScribeHadhoop ChukwaCloudraFlume FacebookScribeScribe是Facebook開源日志手機(jī)系統(tǒng),它能夠從各種日志源上搜集日志,存放到一個(gè)中央存放系統(tǒng)上,方便于進(jìn)

10、行集中統(tǒng)計(jì)分析處理。它為日志“分布式搜集,統(tǒng)一處理”提供了一個(gè)可擴(kuò)展,高容錯(cuò)方案。 HadoopChukwachukwa 是一個(gè)開源用于監(jiān)控大型分布式系統(tǒng)數(shù)據(jù)搜集系統(tǒng)。這是構(gòu)建在 hadoop hdfs 和 map/reduce 框架之上,繼承了 hadoop 可伸縮性和魯棒性。Chukwa 還包含了一個(gè)強(qiáng)大和靈活工具集,可用于展示、監(jiān)控和分析已搜集數(shù)據(jù)。 ClouderaFlumeFlume是一個(gè)分布式、可靠、和高可用海量日志聚合系統(tǒng),支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于搜集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接收方(可定制)能力第19頁(yè)2.3.2 數(shù)據(jù)采集方法3.網(wǎng)

11、絡(luò)數(shù)據(jù)采集方法1)四個(gè)主要模塊及功效網(wǎng)絡(luò)爬蟲從Internet上抓取網(wǎng)頁(yè)內(nèi)容,并抽取出需要屬性內(nèi)容。URL隊(duì)列為爬蟲提供需要抓取數(shù)據(jù)網(wǎng)絡(luò)URL數(shù)據(jù)處理對(duì)爬蟲抓取內(nèi)容進(jìn)行處理數(shù)據(jù)1.Site Url,需要抓取數(shù)據(jù)網(wǎng)站Url信息;2.Spider Data,爬蟲從網(wǎng)頁(yè)中抽取出來數(shù)據(jù);3.DP Data,經(jīng)過dp處理之后數(shù)據(jù)2)網(wǎng)絡(luò)數(shù)據(jù)采集和處理基本步驟第20頁(yè)2.3.2 數(shù)據(jù)采集方法4.其它數(shù)據(jù)采集方法對(duì)于企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高數(shù)據(jù),能夠經(jīng)過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。第21頁(yè)4.數(shù)據(jù)存放第22頁(yè)2.4.1數(shù)據(jù)存放概念概念:數(shù)據(jù)以某種格式統(tǒng)計(jì)在

12、計(jì)算機(jī)內(nèi)部或外部存放介質(zhì)上。數(shù)據(jù)存放方式與數(shù)據(jù)文件組織親密相關(guān),其關(guān)鍵在于建立統(tǒng)計(jì)邏輯與物理次序間對(duì)應(yīng)關(guān)系,確定存放地址,以提升數(shù)據(jù)存取速度。第23頁(yè)2.4.2 數(shù)據(jù)存放方式開放系統(tǒng)直連式存放(Direct Attached Storage,DAS) 網(wǎng)絡(luò)附加存放(Network Attached Storage,NAS)直接連接于主機(jī)服務(wù)器 一個(gè)儲(chǔ)存方式。每一臺(tái)主機(jī)服務(wù)器有獨(dú)立儲(chǔ)存設(shè)備,能夠說是一個(gè)應(yīng)用較為早技術(shù)實(shí)現(xiàn)。DAS缺點(diǎn):效率比較低無法共享數(shù)據(jù)保護(hù)流程復(fù)雜是一個(gè)用高速(光纖)網(wǎng)絡(luò)聯(lián)接專業(yè)主機(jī)服務(wù)器一個(gè)儲(chǔ)存方式。NAS優(yōu)點(diǎn):即插即用存放簡(jiǎn)單存放設(shè)備位置靈活大數(shù)據(jù)存放方式第24頁(yè)2.4.3 常見數(shù)據(jù)源類型1、文本類型:Excel、TXT、CSV等。2、數(shù)據(jù)庫(kù)類型:MySQL、SQLSever、Oracle、PostgreSQL等。3、數(shù)據(jù)集群類型:Hive、Spark等。第25頁(yè)本章小結(jié)進(jìn)行大數(shù)據(jù)大分析,需要一定架構(gòu)支撐和技術(shù)支持。本章介紹了大數(shù)據(jù)處理過程中需要包括幾個(gè)主要技術(shù)平臺(tái)。Hadoop被視為實(shí)際上大數(shù)據(jù)處理標(biāo)準(zhǔn),本章介紹了Hadoop發(fā)展歷

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論