大數(shù)據(jù)分析之Hadoop工具應(yīng)用_第1頁
大數(shù)據(jù)分析之Hadoop工具應(yīng)用_第2頁
大數(shù)據(jù)分析之Hadoop工具應(yīng)用_第3頁
大數(shù)據(jù)分析之Hadoop工具應(yīng)用_第4頁
大數(shù)據(jù)分析之Hadoop工具應(yīng)用_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析之Hadoop工具應(yīng)用

——分布式文件系統(tǒng)(HDFS)、分布式數(shù)據(jù)庫(Hbase)與分布式計(jì)算(MapReduce)什么是大數(shù)據(jù)銀行互聯(lián)網(wǎng)圖書館海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫迕行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本呾點(diǎn)擊流數(shù)據(jù)、科孥信息、電子郵件等等。可以告訴我們未來會(huì)収生什么。海量歸檔數(shù)據(jù):圖書館內(nèi)部存儲(chǔ)的大量的圖書目錄信息主要包括了圖書數(shù)量信息和圖書流動(dòng)信息等等,包含了圖書館的所有重要信息。什么是大數(shù)據(jù)兵工行業(yè)的大數(shù)據(jù)在哪里?大數(shù)據(jù)類型與存儲(chǔ)大數(shù)據(jù)類型非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)GIS數(shù)據(jù)大數(shù)據(jù)存儲(chǔ)分布式文件系統(tǒng)關(guān)系型數(shù)據(jù)庫集群分布式數(shù)據(jù)庫GIS數(shù)據(jù)庫集群存儲(chǔ)、管理、訪問可平滑擴(kuò)展可冗余備份,保證高可靠性快速訪問分發(fā)機(jī)制支持大量訪問請求數(shù)據(jù)訪問優(yōu)化策略數(shù)據(jù)處理流程采集預(yù)處理檢索分析展現(xiàn)共享存儲(chǔ)大數(shù)據(jù)處理的技術(shù)關(guān)鍵分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù);統(tǒng)計(jì)和分析:地域占比,文本情感分析,A/Btest,topN排行榜;數(shù)據(jù)挖掘:建模,聚類,分類,排名;模型預(yù)測:預(yù)測模型,機(jī)器學(xué)習(xí),建模仿真。存儲(chǔ)技術(shù):結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù):圖片、視頻、word、pdf、ppt等文件存儲(chǔ),不利于檢索,存儲(chǔ)和查詢半結(jié)構(gòu)化數(shù)據(jù):轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)或者按照非結(jié)構(gòu)化存儲(chǔ)。大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具;數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫,NoSQL,NewSQL,等基礎(chǔ)架構(gòu)支持:云存儲(chǔ),分布式文件系統(tǒng)等;計(jì)算結(jié)果展現(xiàn):云計(jì)算,標(biāo)簽云,關(guān)系圖等。解決方案:Hadoop(MapReduce技術(shù))、MongoDB、流計(jì)算(twitter的strom和yahoo!的S4)Hadoop項(xiàng)目介紹Hadoop最先是由Apache公司在2005年引入的,起源于google開發(fā)的MapReduce和GoogleFileSystem(GFS)項(xiàng)目。Google云計(jì)算MapReduceBigTableGFSChubbyGFS→HDFSBigTable→HbaseMapReduce→Hadoop分布式文件系統(tǒng)——HDFS什么是分布式文件系統(tǒng)?分布式文件系統(tǒng)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接在本地節(jié)點(diǎn)上,而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。分布式文件系統(tǒng)設(shè)計(jì)基于客戶機(jī)/服務(wù)器模式,一個(gè)典型的網(wǎng)絡(luò)可能包括多個(gè)供用戶訪問的服務(wù)器。用戶可以在任意一臺(tái)客戶機(jī)上訪問其他機(jī)器的文件系統(tǒng)。為什么需要分布式文件系統(tǒng)?高擴(kuò)展能力:HDFS采用元數(shù)據(jù)中心化管理,然后通過客戶端暫存數(shù)據(jù)分布減小元數(shù)據(jù)的訪問壓力;高可用性:一是整個(gè)文件系統(tǒng)的可用性,二是數(shù)據(jù)的完整和一致性。數(shù)據(jù)完整性通過文件的鏡像和文件自動(dòng)修復(fù)來解決;彈性存儲(chǔ):可以根據(jù)業(yè)務(wù)需要靈活地增加或縮減數(shù)據(jù)存儲(chǔ)以及增刪存儲(chǔ)池中的資源,而不需要中斷系統(tǒng)運(yùn)行;分布式文件系統(tǒng)——HDFSHDFS的設(shè)計(jì)HDFS為了做到可靠性(reliability)創(chuàng)建了多份數(shù)據(jù)塊(datablocks)的復(fù)制(replicas),并將它們放置在服務(wù)器群的計(jì)算節(jié)點(diǎn)中(computenodes)。分布式文件系統(tǒng)——HDFSHDFS應(yīng)用場景超大文件

流式數(shù)據(jù)訪問一次寫入,多次讀取傳輸時(shí)間與尋址時(shí)間商用硬件適量的文件數(shù)為把“計(jì)算”移動(dòng)到“數(shù)據(jù)”提供基礎(chǔ)和便利適用?低延時(shí)的數(shù)據(jù)訪問?大量小文件?多用戶寫入,任意修改文件不適用分布式文件系統(tǒng)——HDFS塊(BLOCK)的概念在傳統(tǒng)的塊存儲(chǔ)介質(zhì)中,塊是讀寫的最小數(shù)據(jù)單位(扇區(qū))傳統(tǒng)文件系統(tǒng)基于存儲(chǔ)塊進(jìn)行操作●為了節(jié)省文件分配表空間,會(huì)對物理存儲(chǔ)塊進(jìn)行整合,一般大小為4096字節(jié)HDFS也使用了塊的概念,但是默認(rèn)大小設(shè)為64M字節(jié)●可針對每個(gè)文件配置,由客戶端指定●每個(gè)塊有一個(gè)自己的全局IDHDFS將一個(gè)文件分為一個(gè)或數(shù)個(gè)塊來存儲(chǔ)●每個(gè)塊是一個(gè)獨(dú)立的存儲(chǔ)單位●以塊為單位在集群服務(wù)器上分配存儲(chǔ)使用塊的好處當(dāng)一個(gè)文件大于集群中任意一個(gè)磁盤的時(shí)候,文件系統(tǒng)可以充分利用集群中所有的磁盤管理塊使底層的存儲(chǔ)子系統(tǒng)相對簡單塊更加適合備份,從而為容錯(cuò)和高可用性的實(shí)現(xiàn)帶來方便塊的冗余備份每個(gè)塊在集群上會(huì)存儲(chǔ)多份(replica)●默認(rèn)復(fù)制份數(shù)為3●可針對每個(gè)文件配置,由客戶端指定●可動(dòng)態(tài)修改某個(gè)塊的所有備份都是同一個(gè)ID●系統(tǒng)無需記錄“哪些塊其實(shí)是同一份數(shù)據(jù)”系統(tǒng)可以根據(jù)機(jī)架的配置自動(dòng)分配備份位置●兩份在一個(gè)機(jī)架的兩臺(tái)機(jī)器上●另一份在集群的另一個(gè)機(jī)架的某臺(tái)機(jī)器上●此策略是性能與冗余性的平衡●機(jī)架信息需要手工配置分布式文件系統(tǒng)——HDFSHDFS的元數(shù)據(jù)元數(shù)據(jù)包括文件系統(tǒng)目錄樹信息文件名,目錄名文件和目錄的從屬關(guān)系文件和目錄的大小,創(chuàng)建及最后訪問時(shí)間權(quán)限文件和塊的對應(yīng)關(guān)系文件由哪些塊組成塊的存放位置機(jī)器名,塊IDHDFS對元數(shù)據(jù)和實(shí)際數(shù)據(jù)采取分別存儲(chǔ)的方法元數(shù)據(jù)存儲(chǔ)在指定的服務(wù)器上(NameNode)實(shí)際數(shù)據(jù)儲(chǔ)存在集群的其他機(jī)器的本地文件系統(tǒng)中(DataNode)分布式文件系統(tǒng)——HDFSHDFS的高可用性Client1Client2DataNode節(jié)點(diǎn)NameNode1NameNode2NFS服務(wù)器正常運(yùn)行狀態(tài)單點(diǎn)失效狀態(tài)分布式文件系統(tǒng)——HDFSHDFS的高可用性NameNode掛了怎么辦?系統(tǒng)采用雙NameNode節(jié)點(diǎn)分布管理設(shè)計(jì)方案,支持分布式的元數(shù)據(jù)服務(wù)器,支持元數(shù)據(jù)自動(dòng)日志功能,實(shí)現(xiàn)用戶數(shù)據(jù)和元數(shù)據(jù)的備份和自動(dòng)恢復(fù),當(dāng)一臺(tái)服務(wù)器發(fā)生宕機(jī)時(shí),其管理功能可以有另外的服務(wù)器接管,系統(tǒng)可以正常運(yùn)行,對外提供服務(wù)。NameNodeNameNode是用來管理文件系統(tǒng)命名空間的組件

一個(gè)HDFS集群只有一臺(tái)active的NameNode一個(gè)HDFS集群只有一個(gè)命名空間,一個(gè)根目錄NameNode上存放了HDFS的元數(shù)據(jù)元數(shù)據(jù)保存在NameNode的內(nèi)存當(dāng)中,以便快速查詢1G內(nèi)存大致可以存放1,000,000個(gè)塊對應(yīng)的元數(shù)據(jù)信息按缺省每塊64M計(jì)算,大致對應(yīng)64T實(shí)際數(shù)據(jù)分布式文件系統(tǒng)——HDFSHDFS的高可用性Datanode?一個(gè)數(shù)據(jù)塊在DataNode以文件存儲(chǔ)在磁盤上,包括兩個(gè)文件,一個(gè)是數(shù)據(jù)本身,一個(gè)是元數(shù)據(jù)包括數(shù)據(jù)塊的長度,塊數(shù)據(jù)的校驗(yàn)和,以及時(shí)間戳。?DataNode啟動(dòng)后向NameNode注冊,通過后,周期性(1小時(shí))的向NameNode上報(bào)所有的塊信息。?心跳是每3秒一次,心跳返回結(jié)果帶有NameNode給該DataNode的命令如復(fù)制塊數(shù)據(jù)到另一臺(tái)機(jī)器,或刪除某個(gè)數(shù)據(jù)塊。如果超過10分鐘沒有收到某個(gè)DataNode的心跳,則認(rèn)為該節(jié)點(diǎn)不可用。?集群運(yùn)行中可以安全加入和退出一些機(jī)器。DataNode中的磁盤掛了怎么辦?DataNode正常服務(wù);自動(dòng)盡快通NameNode壞掉的磁盤上的數(shù)據(jù)。DataNode所在機(jī)器掛了怎么辦?datanode每3秒鐘向namenode發(fā)送心跳,如果10分鐘datanode沒有向namenode發(fā)送心跳,則namenode認(rèn)為該datanode已經(jīng)dead,namenode將取出該datanode上對應(yīng)的block,對其進(jìn)行復(fù)制。增加DataNode節(jié)點(diǎn)后?系統(tǒng)平臺(tái)增加新節(jié)點(diǎn)之后,系統(tǒng)自動(dòng)在所有節(jié)點(diǎn)之間均衡數(shù)據(jù)。系統(tǒng)后臺(tái)根據(jù)忙閑程度,自動(dòng)發(fā)起,占用很少系統(tǒng)資源,無需人工干預(yù),實(shí)現(xiàn)數(shù)據(jù)均衡分布。分布式數(shù)據(jù)庫——HBaseHBase概述HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,該技術(shù)來源于Changetal所撰寫的Google論文“Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)(FileSystem)所提供的分布式數(shù)據(jù)存儲(chǔ)一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫。另一個(gè)不同的是HBase基于列的而不是基于行的模式。HBase技術(shù)特點(diǎn)1、大表:一個(gè)表可以有上億行,上百萬列2、面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索。3、稀疏:對于為空(null)的列,并不占用存儲(chǔ)空間,因此,表可以設(shè)計(jì)的非常稀疏。分布式數(shù)據(jù)庫——HBaseHBase表存儲(chǔ)結(jié)構(gòu)示例RowKey:行鍵,表的主鍵,表中的記錄按照RowKey字典排序;Timestamp:時(shí)間戳,每次數(shù)據(jù)操作對應(yīng)的時(shí)間記錄,可以看做是數(shù)據(jù)的版本號;ColumnFamily:列簇,表在水平方向有一個(gè)或者多個(gè)ColumnFamily組成,一個(gè)ColumnFamily可以由多個(gè)Column組成,即ColumnFamily支持動(dòng)態(tài)擴(kuò)展,無需預(yù)先定義Column的數(shù)量及類型,所有Column均以二進(jìn)制格式存儲(chǔ),用戶需要自行進(jìn)行型轉(zhuǎn)換。分布式數(shù)據(jù)庫——HBaseHbase物理部署Hbase邏輯架構(gòu)分布式數(shù)據(jù)庫——HBaseClient:

包含訪問hbase的接口,client維護(hù)著一些cache來加快對hbase的

訪問,比如region的位置信息。Zookeeper:1.保證任何時(shí)候,集群中只有一個(gè)master; 2.存貯所有Region的尋址入口; 3.實(shí)時(shí)監(jiān)控RegionServer的狀態(tài),將Regionserver的上線和下線信

息實(shí)時(shí)通知給Master; 4.存儲(chǔ)Hbase的schema,包括有哪些table,每個(gè)table有哪些 columnfamily。Master:1.為Regionserver分配region; 2.負(fù)責(zé)regionserver的負(fù)載均衡; 3.發(fā)現(xiàn)失效的regionserver并重新分配其上的region; 4.HDFS上的垃圾文件回收; 5.處理schema更新請求。RegionServer:1.Regionserver維護(hù)Master分配給它的region,處理對這些region的IO 請求; 2.Regionserver負(fù)責(zé)切分在運(yùn)行過程中變得過大的region。Hbase物理部署分布式數(shù)據(jù)庫——HBaseHbase物理存儲(chǔ)HTable:在行方向上分為多個(gè)HRegion。當(dāng)表隨著記錄的不斷增加而變大后,會(huì)逐漸分裂成多份splits,稱為region,一個(gè)region由[startkey,endkey]表示,不同的region會(huì)被Master分配給相應(yīng)的RegionServer進(jìn)行管理。HRegion:Region按大小分隔,達(dá)到閾值,HRegion自動(dòng)等分,后臺(tái)會(huì)一直進(jìn)行split和sort操作,以達(dá)到region的等分。HTableHRegion分割分布式數(shù)據(jù)庫——HBaseHRegion分布Hbase物理存儲(chǔ)Region是分布式存儲(chǔ)的最小單元分布式數(shù)據(jù)庫——HBaseHbase物理存儲(chǔ)storefile就是列簇,一個(gè)列簇整合成一個(gè)storefile文件。所有數(shù)據(jù)進(jìn)來先在memstor進(jìn)行緩沖,達(dá)到一定的閥值就刷新一次形成一個(gè)storefile。分布式數(shù)據(jù)庫——HBaseHFile:Hbase中KeyValue數(shù)據(jù)存儲(chǔ)格式,是Hadoop的二進(jìn)制格式文件,實(shí)際上StoreFile就是對HFile做了輕量級包裝,即StoreFile底層就是HFile。分布式數(shù)據(jù)庫——HBaseHLogFile:HBase中WAL(WriteAheadLog)的存儲(chǔ)格式,物理上是Hadoop的SequenceFile。WAL類似mysql中的binlog,用來做災(zāi)難恢復(fù)作用,HLog記錄數(shù)據(jù)的所有變更,一旦數(shù)據(jù)修改,就可以從log中進(jìn)行恢復(fù)。每個(gè)RegionServer維護(hù)一個(gè)Hlog,而不是每個(gè)Region一個(gè)。這樣不同region(來自不同table)的日志會(huì)混在一起,這樣做的目的是不斷追加單個(gè)文件相對于同時(shí)寫多個(gè)文件而言,可以減少磁盤尋址次數(shù),因此可以提高對table的寫性能。帶來的麻煩是,如果一臺(tái)regionserver下線,為了恢復(fù)其上的region,需要將regionserver上的log進(jìn)行拆分,然后分發(fā)到其它regionserver上進(jìn)行恢復(fù)。SequenceFile的Key是HLogKey對象,HLogKey中記錄了寫入數(shù)據(jù)的歸屬信息,除了table和region名字外,同時(shí)還包括sequencenumber和timestamp,timetamp是“寫入時(shí)間”,sequencenumber的起始值為0,或者是最近一次存入文件系統(tǒng)中sequencenumber。HLogSequeceFile的Value是HBase的KeyValue對象,即對應(yīng)HFile中的KeyValue。分布式計(jì)算——MapReduce大數(shù)據(jù)處理計(jì)算問題簡單,但求解困難待處理的數(shù)據(jù)量巨大,只有分布在成百上千個(gè)節(jié)點(diǎn)上并行計(jì)算才能在可接受的時(shí)間內(nèi)完成如何進(jìn)行并行分布式計(jì)算?如何分發(fā)待處理數(shù)據(jù)?如何處理分布式計(jì)算中的錯(cuò)誤?MapReduce特性自動(dòng)實(shí)現(xiàn)分布式并行計(jì)算容錯(cuò)提供狀態(tài)監(jiān)控工具模型抽象簡潔,程序員易用分布式計(jì)算——MapReduceHadoop上的MapReducejob:是客戶端程序想要完成的一系列工作的集合。包括輸入數(shù)據(jù),MapReduce程序和配置信息。用戶只要在客戶端提交工作,MapReduce會(huì)自動(dòng)分配任務(wù)給集群中的計(jì)算節(jié)點(diǎn)。task:Hadoop將job分解為tasks有兩種類型的task:maptask和reducetask。jobtracker和tasktracker:

用來控制job執(zhí)行的;tasktracker運(yùn)行task,并向jobtracker報(bào)告進(jìn)度信息;jobtracker記錄下每一個(gè)job的進(jìn)度信息,如果一個(gè)task失敗,jobtracker會(huì)將其重新調(diào)度到另外的tasktracker上。MapReduce特性分布式計(jì)算——Ma

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論