版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
法律【】和幻燈片為煉數(shù)成金網(wǎng)絡(luò)課程的教學(xué)資料,所有資料只能在課程內(nèi)使用,不得在課程以外范圍散播,違者將可能被法律和經(jīng)濟(jì)責(zé)任。課程詳情
煉數(shù)成金培訓(xùn)http:
2013.7.132DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析關(guān)于本課程的預(yù)備知識(shí)Linux:懂基本操作Java:能看懂Java程序2013.7.133DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Hadoop是什么?面向大數(shù)據(jù)處理擅長(zhǎng)離線數(shù)據(jù)分析分布式文件系統(tǒng)+計(jì)算框架Hadoop不是數(shù)據(jù)庫(kù),Hbase才是數(shù)據(jù)庫(kù)Hadoop是一個(gè)快速進(jìn)化的生態(tài)系統(tǒng)Hadoop會(huì)使用在哪些行業(yè)?2013.7.134DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析大數(shù)據(jù)平臺(tái)知識(shí)路線圖2013.7.135DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Hadoop典型職位運(yùn)維Hadoop程序員(M-R,源代碼)架構(gòu)師數(shù)據(jù)倉(cāng)庫(kù)工程師2013.7.136DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析課程目標(biāo)部署:Hadoop,Hbase,Hive,Pig數(shù)據(jù)集成:Sqoop,與Oracle、Mysql等關(guān)系型數(shù)據(jù)庫(kù)集成,與應(yīng)用集成,與R等常用數(shù)據(jù)分析工具集成掌握HDFS原理和基本操作掌握Map-Reduce工作原理,知道怎樣把M-R算法用于解決實(shí)際場(chǎng)景能書(shū)寫(xiě)基本的Map-Reduce程序,懂得提交作業(yè)和對(duì)運(yùn)行狀況進(jìn)行監(jiān)視了解整個(gè)Hadoop生態(tài)系統(tǒng)的各個(gè)子產(chǎn)品,知道在大數(shù)據(jù)平臺(tái)架構(gòu)時(shí)應(yīng)該使用哪些產(chǎn)品具備初步閱讀源代碼的能力2013.7.137DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析典型實(shí)驗(yàn)環(huán)境(擁有服務(wù)器)服務(wù)器:ESXi,可以在上面部署多臺(tái)虛擬機(jī),能同時(shí)啟動(dòng)3臺(tái)PC:要求linux環(huán)境或windows+Cygwin,linux可以是standalone或者使用虛擬機(jī)SSH:windows下可以使用SecureCRT或putty等ssh
client程序,作用是用來(lái)
連接linux服務(wù)器,linux下可以直接使用ssh命令Vmware
client:用于管理ESXiHadoop:使用1.x或2.x2013.7.138DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析典型實(shí)驗(yàn)環(huán)境(只有PC或筆記本,基于win)至少4G內(nèi)存,最好運(yùn)行64位windows系統(tǒng),因?yàn)?2位xp只能支持3G多的內(nèi)存安裝vmwareworkstation或virtual
box部署3臺(tái)虛擬機(jī),能同時(shí)運(yùn)行,如果只能運(yùn)行2臺(tái)虛擬機(jī),那么可以把host也作為一個(gè)節(jié)點(diǎn)(使用cygwin),虛擬網(wǎng)絡(luò)配置為網(wǎng)橋方式安裝linux和java如果配置實(shí)在太低只好使用偽分布式2013.7.139DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Hadoop的思想之源:earth,學(xué)術(shù),搜索引擎,Gmail,安卓,Appspot翻譯,
+,下一步Maps,what??2013.7.1310DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析的低成本之道不使用超級(jí)計(jì)算機(jī),不使用
(淘寶的去i,去e,去o
)大量使用普通的pc服務(wù)器(去掉機(jī)箱,外設(shè),硬盤(pán)),提供有冗余的集群服務(wù)全世界多個(gè)數(shù)據(jù)中心,有些附帶發(fā)電廠運(yùn)營(yíng)商向
倒2013.7.1311DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析集裝箱數(shù)據(jù)中心位于Mountain
View,
Calif總部的數(shù)據(jù)中心總功率為10000千瓦,擁有45個(gè)集裝箱,每個(gè)集裝箱中有1160臺(tái)服務(wù)器,該數(shù)據(jù)中心的能效比為1.25(
PUE
為
1
表示數(shù)據(jù)中心沒(méi)有能源損耗,而根據(jù)2006年的統(tǒng)計(jì),一般公司數(shù)據(jù)中心的能效比為
2.0
或更高。 的
1.16
已經(jīng)低于
能源部2011年的1.2的目標(biāo))2013.7.1312DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析面對(duì)的數(shù)據(jù)和計(jì)算難題大量的網(wǎng)頁(yè)怎么
?搜索算法Rank計(jì)算問(wèn)題2013.7.1313DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析倒排索引2013.7.1314DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Page
Rank“在
中找黃金這是
最
的算法,用于給每個(gè)網(wǎng)頁(yè)價(jià)值評(píng)分,是”的關(guān)鍵算法,這個(gè)算法成就了今天的2013.7.1315DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Map-reduce思想:計(jì)算PR2013.7.1316DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析計(jì)算PR值2013.7.1317DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析計(jì)算PR值2013.7.1318DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析計(jì)算PR值2013.7.1319DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析帶給
的和思想GFSMap-ReduceBigtable(后面講)2013.7.1320DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Hadoop的源起——Lucene類(lèi)似的全文搜索功能Doug
Cutting開(kāi)創(chuàng)的開(kāi)源
,用java書(shū)寫(xiě)代碼,實(shí)現(xiàn)與,它提供了全文檢索引擎的架構(gòu),包括完整的查詢引擎和索引引擎和SourceF
e,2001年年底成為apachejakarta的早期發(fā)布在個(gè)人一個(gè)子項(xiàng)目Lucene的目的是為開(kāi)發(fā)
提供一個(gè)簡(jiǎn)單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎對(duì)于大數(shù)量的場(chǎng)景,Lucene面對(duì)與
同樣的
。迫使DougCutting學(xué)習(xí)和模仿
解決這些問(wèn)題的辦法一個(gè)微縮版:Nutch2013.7.1321DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析從lucene到nutch,從nutch到hadoop2003-2004年, 公開(kāi)了部分GFS和Mapreduce思想的細(xì)節(jié),以此為基礎(chǔ)DougCutting等人用了2年業(yè)余時(shí)間實(shí)現(xiàn)了DFS和Mapreduce機(jī)制,使Nutch性能飆升Yahoo招安Doug
Cutting及其項(xiàng)目Hadoop于2005年秋天作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì)。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)分別被納入稱(chēng)為Hadoop的項(xiàng)目中名字來(lái)源于Doug
Cutting兒子的玩具大象2013.7.1322DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析目前Hadoop達(dá)到的高度實(shí)現(xiàn)云計(jì)算的事實(shí)標(biāo)準(zhǔn)開(kāi)源包含數(shù)十個(gè)具有強(qiáng)大生命力的子項(xiàng)目已經(jīng)能在數(shù)千節(jié)點(diǎn)上運(yùn)行,處理數(shù)據(jù)量和排序時(shí)間不斷打破世界2013.7.1323DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Hadoop子項(xiàng)目2013.7.1324DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Hadoop的架構(gòu)2013.7.1325DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析NamenodeHDFS的守護(hù)程序
文件是如何分割成數(shù)據(jù)塊的,以及這些數(shù)據(jù)塊被
到哪些節(jié)點(diǎn)上對(duì)內(nèi)存和I/O進(jìn)行集中管理是個(gè)單點(diǎn),發(fā)生故障將使集群2013.7.1326DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Secondary
NamenodeHDFS狀態(tài)的輔助
程序每個(gè)集群都有一個(gè)與NameNode進(jìn)行通訊,定期保存HDFS元數(shù)據(jù)快照當(dāng)NameNode故障可以作為備用NameNode使用2013.7.1327DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析DataNode每臺(tái)從服務(wù)器都運(yùn)行一個(gè)負(fù)責(zé)把HDFS數(shù)據(jù)塊讀寫(xiě)到本地文件系統(tǒng)2013.7.1328DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析JobTracker用于處理作業(yè)(用戶提交代碼)的后臺(tái)程序決定有哪些文件參與處理,然后切割task并分配節(jié)點(diǎn)task,重啟失敗的task(于不同的節(jié)點(diǎn))每個(gè)集群只有唯一一個(gè)JobTracker,位于Master節(jié)點(diǎn)2013.7.1329DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析TaskTracker位于slave節(jié)點(diǎn)上,與datanode結(jié)合(代碼與數(shù)據(jù)一起的原則)管理各自節(jié)點(diǎn)上的task(由jobtracker分配)每個(gè)節(jié)點(diǎn)只有一個(gè)tasktracker,但一個(gè)tasktracker可以啟動(dòng)多個(gè)JVM,用于并行執(zhí)行map或reduce任務(wù)與jobtracker交互2013.7.1330DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Master與SlaveMaster:Namenode、SecondaryNamenode、Jobtracker。瀏覽器(用于 管理界面),其它Hadoop工具Slave:Tasktracker、DatanodeMaster不是唯一的2013.7.1331DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Why
hadoop?2013.7.1332DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析場(chǎng)景:電信運(yùn)營(yíng)商信令分析與監(jiān)測(cè)原數(shù)據(jù)庫(kù)服務(wù)器配置:HP小型機(jī),128G內(nèi)存,48顆CPU,2節(jié)點(diǎn)RAC,其中一個(gè)節(jié)點(diǎn)用于入庫(kù),另外一個(gè)節(jié)點(diǎn)用于查詢:HP虛擬化
,>1000個(gè)盤(pán)數(shù)據(jù)庫(kù)架構(gòu)采用Oracle雙節(jié)點(diǎn)RAC問(wèn)題:1
入庫(kù)瓶頸2
查詢瓶頸2013.7.1333DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析數(shù)據(jù)分析者
的問(wèn)題數(shù)據(jù)日趨龐大,無(wú)論是入庫(kù)和查詢,都出現(xiàn)性能瓶頸用戶的應(yīng)用和分析結(jié)果呈整合趨勢(shì),對(duì)實(shí)時(shí)性和響應(yīng)時(shí)間要求越來(lái)越高使用的模型越來(lái)越復(fù)雜,計(jì)算量指數(shù)級(jí)上升2013.7.1334DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析數(shù)據(jù)分析者期待的解決方案完美解決性能瓶頸,在可見(jiàn)未來(lái)不容易出現(xiàn)新瓶頸過(guò)去所擁有的技能可以平穩(wěn)過(guò)渡。比如SQL、R轉(zhuǎn)移平臺(tái)的成本有多高?平臺(tái)軟硬件成本,再開(kāi)發(fā)成本,技能再培養(yǎng)成本,
成本2013.7.1335DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Hadoop的思想2013.7.1336DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Why
not
Hadoop?Java?難以駕馭?數(shù)據(jù)集成
?Hadoop
vs
Oracle2013.7.1337DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Hadoop體系下的分析主流:Java程序輕量級(jí)的
語(yǔ)言:PigSQL技巧平穩(wěn)過(guò)渡:HiveNoSQL:HBase2013.7.1338DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析煉數(shù)成金逆向
式網(wǎng)絡(luò)課程Dataguru(煉數(shù)成金)是專(zhuān)業(yè)數(shù)據(jù)分析
,提供教育,
,內(nèi)容,社區(qū),
,數(shù)據(jù)分析業(yè)務(wù)等服務(wù)。
的課程采用新興的互聯(lián)網(wǎng)教育形式,獨(dú)創(chuàng)地發(fā)展了逆向式
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年外研版2024高三化學(xué)上冊(cè)階段測(cè)試試卷
- 2025年湘師大新版七年級(jí)生物下冊(cè)階段測(cè)試試卷含答案
- 2025年度高端定制門(mén)頭裝修設(shè)計(jì)與施工合同規(guī)范4篇
- 二零二五版創(chuàng)業(yè)團(tuán)隊(duì)股權(quán)激勵(lì)及轉(zhuǎn)讓合同樣本5篇
- 技能更新職業(yè)培訓(xùn)合同(2篇)
- 二零二五年互聯(lián)網(wǎng)金融服務(wù)合同風(fēng)險(xiǎn)控制3篇
- 二零二五年度定制豪華鐵門(mén)表面處理合同范本
- 二零二五年度LNG運(yùn)輸合同-公路運(yùn)輸及安全應(yīng)急預(yù)案編制協(xié)議3篇
- 二零二五年度儲(chǔ)罐租賃及遠(yuǎn)程監(jiān)控服務(wù)合同4篇
- 2025年酒吧人員緊急疏散預(yù)案合同范本3篇
- 山東鐵投集團(tuán)招聘筆試沖刺題2025
- 真需求-打開(kāi)商業(yè)世界的萬(wàn)能鑰匙
- 2025年天津市政集團(tuán)公司招聘筆試參考題庫(kù)含答案解析
- GB/T 44953-2024雷電災(zāi)害調(diào)查技術(shù)規(guī)范
- 2024-2025學(xué)年度第一學(xué)期三年級(jí)語(yǔ)文寒假作業(yè)第三天
- 2024年列車(chē)員技能競(jìng)賽理論考試題庫(kù)500題(含答案)
- 心律失常介入治療
- 《無(wú)人機(jī)測(cè)繪技術(shù)》項(xiàng)目3任務(wù)2無(wú)人機(jī)正射影像數(shù)據(jù)處理
- 6S精益實(shí)戰(zhàn)手冊(cè)
- 展會(huì)場(chǎng)館保潔管理服務(wù)方案
- 監(jiān)理從業(yè)水平培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論