版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Hadoop培訓(xùn)-的的 大數(shù)據(jù) 數(shù)據(jù)特 大:數(shù)據(jù)量大。面對(duì)與處理比過去更大的數(shù)據(jù)4具有4V集 多結(jié)構(gòu)化 文本
/文檔增長(zhǎng)海量數(shù)據(jù)的及時(shí)有效?價(jià)值密度?單條數(shù)據(jù)并無太多價(jià)值,但龐大的數(shù)據(jù)量蘊(yùn)巨部數(shù)據(jù)快速增長(zhǎng)所帶來問析析多樣化數(shù)多樣化數(shù) 和報(bào)告意外業(yè)務(wù)經(jīng)典技術(shù)理遵守Codd二表范化型據(jù)模設(shè)以求據(jù)整技術(shù)特?cái)?shù)據(jù)操作遵循ACID(原子性、一致性、性、持久性)原數(shù)據(jù)操作基于SQL語言實(shí)現(xiàn),支持復(fù)雜的SQL模式(Schema)固強(qiáng)事務(wù),強(qiáng)一致性保強(qiáng)大的索引、執(zhí)行計(jì)劃與優(yōu)化引擎機(jī)數(shù)據(jù)抽象與物理層相對(duì)獨(dú)立,數(shù)據(jù)分頁存優(yōu)技術(shù)體系完整、成熟、可可嚴(yán)格保證數(shù)據(jù)完整性與一致可非常容易地建立二級(jí)索SQL對(duì)復(fù)雜數(shù)據(jù)操作需求只局限不是天然為分布式與并行設(shè)計(jì),水平擴(kuò)展性受限,可管理數(shù)據(jù)量與負(fù)載量難以適應(yīng)大規(guī)需SQL引擎可支持的數(shù)據(jù)需求場(chǎng)景有關(guān)系模型不適合與處理許多非結(jié)構(gòu)化/半結(jié)構(gòu)化的場(chǎng)適用場(chǎng)企業(yè)交易操作與數(shù)據(jù)管理支復(fù)雜BI報(bào)表與分析需代表產(chǎn)Oracle,DB2,Informix,MySQL,SQL7關(guān)系數(shù)據(jù)庫的基本特8MPP架構(gòu)示例--改進(jìn)型技術(shù)理在保證關(guān)系模型、SQL體系與寫時(shí)模式約束的前提下,提高經(jīng)典RDBMS的水平擴(kuò)展性并發(fā)負(fù)載支持能技術(shù)特保持經(jīng)典RDBMS的一切原有特引入分布式數(shù)據(jù)特引入分布節(jié)點(diǎn)并行操作特通常采用軟硬件的模優(yōu)保持經(jīng)典RDBMS的一切原有優(yōu)水平可擴(kuò)展性大大提部分產(chǎn)品實(shí)現(xiàn)資源精局限大多數(shù)情況下更適合于批量操作為主的OLAP場(chǎng)適用場(chǎng)企業(yè)交易操作支持與數(shù)據(jù)管復(fù)雜BI報(bào)表與分析需代表產(chǎn)OracleExaData,IBMPureData,TeraData,EMC分分布式文大變=小變新新技術(shù) 常見的分布式文件系統(tǒng)mogileFS、TFS、FastDFS文件服務(wù)。HadoopBerkeleyDB列鑒自的igTale,按列。方圖數(shù)據(jù)并非對(duì)等的,關(guān)系型的或者鍵值對(duì)的,可能都不是最好的方式,圖是圖形關(guān)系的最佳SqlonStorm=ApacheFlink是一個(gè)高效、分布式、基于Java實(shí)現(xiàn)的通用大數(shù)據(jù)分析引、可靠性和擴(kuò)展易用完全兼容Hadoop的由DougCutting以及HadoopApacheHadoop0.20.x,0.21.x,Hadoop2.00.23.x:x:YARN,HDFSFederation,NameNode 稱 (安裝 使用 22安裝 使用 安裝 使用 是apachehadoop平HadoopHadoop1.0與Hadoop選擇依 3是否經(jīng)實(shí)踐驗(yàn)證,這個(gè)可通過檢查是否有一些大點(diǎn)的公司4是否有強(qiáng)大的社區(qū)支持,當(dāng)出現(xiàn)一個(gè)問題時(shí),能夠通過社ABABACADAE3BI7CD5告訴:B有很高 J EK ???????????SparkSpark據(jù)dd其他技術(shù)在處理時(shí)效性方面都無法達(dá)到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的地,但是在某些景,比如算法交、 測(cè)實(shí)時(shí) 等方需要從大量的信息中及發(fā)現(xiàn)潛在模式,這種情況,就要使用流處理的技術(shù)——、arktreamg。?2014基于內(nèi)存計(jì)算的一個(gè)框架,計(jì)算速出比較快,也可以用于實(shí)時(shí)計(jì)算,擅長(zhǎng)代計(jì)算和交互式計(jì)算—Spark和SparkStreamingII
LandingFiles
DataData
StagingFiles
DataData
Landing
TabularAudioAudio
Tabular 數(shù)據(jù)合 戶服層 RestAPI、SOAP、層 據(jù) 間的交互層
系 系境統(tǒng) 用戶 數(shù)據(jù)中層實(shí)時(shí)數(shù) 源
數(shù)據(jù)專有通據(jù)
用戶 數(shù)據(jù)批量
35Web服務(wù)Web服務(wù)日Scribe、消息隊(duì)實(shí)時(shí)計(jì)算模Strom實(shí)時(shí)計(jì)算模Strom、Spark離線&內(nèi)存計(jì)MapReduce、R數(shù)據(jù)接
Hbase、實(shí) 和計(jì)
離線計(jì)算和分
Hadoop優(yōu)⒈高可靠性。Hadoop按位和處理數(shù)據(jù)的動(dòng)數(shù)據(jù),各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此 生態(tài)系統(tǒng)介 Nosql數(shù)據(jù)庫,Key-2最大化利用內(nèi)hadoopdistributefilesystem分布式文件系最大化利用磁編程模型,主要用來做數(shù)據(jù)的分最大化利用討論和問大數(shù) 哪些問題Hadoop大數(shù)據(jù)的方案解決的哪些問可靠性分 HDFS原理和應(yīng)用開HDFS的設(shè)計(jì)目HDFS設(shè)計(jì)原HDFS主要組件及功HDFS系統(tǒng)架HDFS的設(shè)計(jì)目節(jié)點(diǎn)失效是常—宕—磁盤壞理想狀可靠性分 HDFS設(shè)計(jì)原文件以塊(block)方每個(gè)塊遠(yuǎn)比多數(shù)文件系統(tǒng)來的大(預(yù)設(shè)通過副本機(jī)制實(shí)現(xiàn)數(shù)據(jù)容錯(cuò),默認(rèn)3通過副本機(jī)制提高可靠度 吞吐master(NameNode)來協(xié) 元數(shù)據(jù)Slave( 數(shù)NameNode主要功能提供名稱查詢服務(wù),它是一個(gè)jettyNameNode保存metadate信息包文件owership和文件包含哪些Block保存在哪個(gè)DataNode(由DataNode啟動(dòng)時(shí)上報(bào)NameNode的metadate信息在啟動(dòng)后會(huì)加載到 到磁盤文件名為Block的位置信息不會(huì)保存到NameNode的metadate信息在啟動(dòng)后會(huì)加載設(shè)置一個(gè)Block64MB,如果上傳文件小于該值,仍然會(huì)占用一個(gè) 名空間(NameNodemetadata),但是物理
保存啟動(dòng)DN線程的時(shí)候會(huì)向NN匯報(bào)block信通過向NN發(fā)送心跳保持與其聯(lián)系(3秒一次),如果NN10分鐘沒有到DN的心跳,則認(rèn)為其已經(jīng)lost,并copy其上的block到其它
HDFSHDFS設(shè)計(jì)的目標(biāo):機(jī)器的宕掉、磁盤的壞掉是正常MasterNodeNameNodeService
Rack
Rack
DataNodeShuts
--Block為--repliction默認(rèn)拷貝2--threeHDFS文 結(jié)討論和問 MapReduce設(shè)計(jì)理何為分布式計(jì)移動(dòng)計(jì)算,而不是移動(dòng)數(shù)據(jù)1G的帶需要大概4小
JobTracker(JT)和Tasktracker(TT)MapReduceMapReduce設(shè)計(jì)的目標(biāo):移動(dòng)計(jì)算,而不是移動(dòng)數(shù)據(jù)?2014
getmap
(onlocaldisks)
Run
Getnewjob
JTClientJTClient
MapMaporTTMapReduce文件寫MapReduce1protectedvoidsetup(Context2protectedvoidmap(KEYINkeyVALUEINContextcontext)throwsIOException,InterruptedException{context.write((KEYOUT)key,(VALUEOUT)}3、protectedvoidcleanup(Context)throwsIOException,InterruptedException//}4、publicvoidrun(ContextcontextthrowsIOExceptionInterruptedException}}1protectedvoidsetup(Context)throwsIOException,InterruptedException}2、protectedvoidreduce(KEYINkeyIterable<VALUEINvaluesContext)throwsIOException,InterruptedExceptionfor(VALUEINvalue:values)context.write((KEYOUT)key,(VALUEOUT)}}3、protectedvoidcleanup(Context)throwsIOException,InterruptedException}4、publicvoidrun(ContextcontextthrowsIOExceptionInterruptedExceptionwhile(context.nextKey())}}
MapReduce編碼示例一--- oworldbyeworldMap輸入:(0, oworldbyeworld)代publicstaticclassextendsMapper<Object,Text,Text,IntWritable>{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();)throwsIOException,InterruptedException{while(itr.hasMoreTokens()){}}}Map輸 o,Reduce輸
MapReduce編碼示例一---輸入:(bye 代publicstaticclassprivateIntWritableresult=newIntWritable();Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableval:values){sum+=val.get();}context.write(key,result);}}Reduce輸 o,文件輸入格式Defaultformat;readslinesoftextfilesThebyteoffsetoftheThelineParseslinesintokey-valEverythinguptothefirsttabcharacterTheremainderofthelineperformancebinaryInputSplit定義了輸入到單個(gè)任務(wù)的輸入數(shù)一個(gè)MapReduce程序被統(tǒng)稱InputSplit將文件分為64MB的數(shù)據(jù)記錄讀入InputSplit定義了一個(gè)數(shù)據(jù)分塊,但沒有定義如 數(shù)據(jù)記TextInputFormat提供讀入一個(gè)文本行數(shù)據(jù)記合并相同key的鍵值對(duì),減少partitioner時(shí)候的數(shù)據(jù)通信開是在本地執(zhí)行的一個(gè)Reducer,滿足一定的條件才能夠執(zhí)Partitioner&Partitioner&
做用戶定義的Reduce文件輸出格式寫入到HDFS的所有OutputFormat都繼自 個(gè)號(hào)(partitionid)文件輸出格式Default;writeslinesin"key\tvalue"WritesbinaryfilessuitableforreadingDisregardsitsTextOutputFormat實(shí)現(xiàn)了缺省的LineRecordWriter,以value”形式輸出一行結(jié)Codec為壓縮,解壓縮的算法實(shí)在Hadoop中 pressionCode的實(shí)現(xiàn)來表示下面是一些實(shí)現(xiàn)Map任務(wù)輸出的壓縮屬在程序中運(yùn)Configurationconf=newConfiguration(); press. (FIFO三公平調(diào)度器(FairCapacity五配置多個(gè)隊(duì)列①
②④
⑤task ⑦Hadoop作業(yè)描述方Ta
(推測(cè)式任務(wù)Speculative
隊(duì)列用戶被劃分到某個(gè)每個(gè)隊(duì)列分配一定量的作業(yè)提交時(shí) LOW,VERY_LOW)任務(wù)本地性(nodelocalityrack<hasafree
按到達(dá)時(shí)mapmapmapmapmapmapmapmapmap
reducereducereducereduce
開源的,共享集群調(diào)度以隊(duì)列方式組織作基于最小資源量(minshare)與公平共享量(fairshare)進(jìn)行調(diào)度作業(yè)優(yōu)先級(jí)越高,分配到的資源按缺額排序,缺額大者優(yōu)<?xml 由Yahoo!開源,共享集群調(diào)度以隊(duì)列方式組織作每個(gè)隊(duì)列內(nèi)部采用FIFO調(diào)度策每個(gè)隊(duì)列分配一定比例資可限制每個(gè)用戶使用資源按到達(dá)時(shí)間排序,先來先服
100(20%, (50%,(30%,HadoopStreaming介 運(yùn)行一個(gè)MapReduceStreaming程cattest.log|wc/bin/hadoopjarcontrib/streaming/hadoop-streaming--mappercat-reducer'wc- /data/test.log-output技術(shù)理流程是先分(Ma)后合(Reduce),技術(shù)特?cái)?shù)據(jù)自動(dòng)分片,分布近地Map,分區(qū)Reduce,分布式計(jì)批量流式處理,無隨機(jī)讀非實(shí)時(shí)響優(yōu)海量數(shù)據(jù)快速批量處低成高水平可擴(kuò)展局限不適合實(shí)時(shí)數(shù)據(jù)查詢需很多需求需要自行編程實(shí)適用場(chǎng)海量數(shù)據(jù)的分析與挖掘需代表產(chǎn)HadoopHA原YARN原Yarn資源管Snapshots介其他特Hadoop1.0的局限-
當(dāng)map-reducejob非常多的時(shí)候,會(huì)造成很大的Map-Reduce只能支4000節(jié)點(diǎn)主機(jī)的上批處理模式,時(shí)效性低效的資源管maptaskslotreducetaskslot,只有map
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 無抵押貸款合同樣式
- 員工離職協(xié)議模板
- 配電室維護(hù)協(xié)議書
- 權(quán)威加工合同范文合輯
- 大學(xué)新生入學(xué)法律協(xié)議范文
- 全面服裝代理合同范本
- 消防工程專業(yè)承包合同
- 廣告位承包協(xié)議范本
- 美術(shù)作品購買協(xié)議范本2024年
- 個(gè)人稅收居民證明委托申請(qǐng)
- 2023年國(guó)開大學(xué)期末考復(fù)習(xí)題-02316-中級(jí)財(cái)務(wù)會(huì)計(jì)(一)
- 【護(hù)理學(xué)個(gè)案護(hù)理論文:一例潰瘍性結(jié)腸炎患者的護(hù)理5600字】
- 教育政策與法規(guī)全套完整教學(xué)課件
- GPS測(cè)量與數(shù)據(jù)處理完整整套教學(xué)課件
- 護(hù)士讀書分享《喚醒護(hù)理》
- 高標(biāo)準(zhǔn)農(nóng)田灌溉與排水工程施工方案
- 《觀察葉片的結(jié)構(gòu)》 說課課件
- 醫(yī)院透析患者安全管理應(yīng)急預(yù)案
- 《BIM技術(shù)的應(yīng)用研究開題報(bào)告(含提綱)》
- GB/T 40997-2021經(jīng)外奇穴名稱與定位
- GB/T 27021.1-2017合格評(píng)定管理體系審核認(rèn)證機(jī)構(gòu)要求第1部分:要求
評(píng)論
0/150
提交評(píng)論