




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
中科普開HADOOP大數(shù)據(jù)課程運用Hadoop開源技術
推動大數(shù)據(jù)落地大數(shù)據(jù)開源技術分析EasyHadoop社區(qū)創(chuàng)始人童小軍tongxiaojun@EasyHadoop簡介EasyHadoop讓大數(shù)據(jù)更簡單【軟件社區(qū)】起源:一鍵Hadoop安裝腳本。發(fā)展:暴風,藍訊,優(yōu)酷,億贊普,人民搜索【聚會】立足:中小型,可落地的,10-500節(jié)點技術經(jīng)驗分享致力于在中國推廣和普及Hadoop相關技術EasyHadoopOpenSourceCommunity個人介紹2012年5月2日-第一個在國內(nèi)成功通過Cloudera認證考試,成為首位在國內(nèi)獲得美國Cloudera公司認證的ApacheHadoop開發(fā)工程師(ClouderaCertifiedDeveloperforApacheHadoop,CCDH)。作為ApacheHadoop在中國商業(yè)化的開始的標志。被列入Hadoop百度百科,Hadoop大事記中。詳見:/view/908354.htm社區(qū)Hadoop技術電子出版物EasyHadoop實戰(zhàn)手冊:Hadoop企業(yè)級部署實施指南EasyHive手冊:Hive企業(yè)實施指南EasyHadoop社區(qū)技術聚會成功舉辦了七次Hadoop開發(fā)者活動。暴風、藍訊、百度、淘寶、騰訊、阿里巴巴、
人民搜索、億贊普等一線開發(fā)者的分享經(jīng)驗。我們?nèi)绾尾拍茏龅母?培訓目標熟悉HADOOP應用背景123了解Hadoop應用案例了解Hadoop技術最佳實踐培訓目錄大數(shù)據(jù)和數(shù)據(jù)倉庫概述1Hadoop應用案例和云平臺2Hadoop數(shù)據(jù)倉庫[python/java]最佳實踐3數(shù)據(jù)可視化案例4基于數(shù)據(jù)倉庫平臺改造變遷5阿里金融通過大數(shù)據(jù)整合掘金! 阿里金融的信用評估系統(tǒng)會自動分析小微企業(yè)的數(shù)據(jù),例如企業(yè)通過支付寶,淘寶進行的支付數(shù)據(jù),最終算出信用評估和放貸額度。 截止2011年底,阿里金融對近30萬家小微企業(yè)進行信用評估。累計投放96800家,投放貸款154億,壞賬率為交易額的0.76%。阿里金融的實時業(yè)務墻阿里金融的數(shù)據(jù)模型任務(局部)每個模型任務都是面向海量數(shù)據(jù)的大規(guī)模運算任務。天貓/淘寶雙十一191億背后的開源技術?@dbatools:雙十一一天時間,支付寶核心數(shù)據(jù)庫集群處理了41億個事務,執(zhí)行285億次SQL,訪問1931億次內(nèi)存數(shù)據(jù)塊,13億個物理讀,生成15TB日志。數(shù)據(jù)應用開發(fā)平臺——數(shù)據(jù)工場
Hive報表需求(淘數(shù)據(jù))Hbase即席查詢(adhoc)數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)產(chǎn)品淘寶數(shù)據(jù)云梯平臺-產(chǎn)品架構(gòu)實時計算
底層平臺數(shù)據(jù)開發(fā)平臺數(shù)據(jù)應用是需求驅(qū)動技術,技術帶動需求?思考-云計算技術有兩極3200臺主機Hadoop解決了什么難題?移動計算而非移動數(shù)據(jù),化整為零,分片處理。本地化計算,并行IO,降低網(wǎng)絡通信思考-數(shù)據(jù)分析系統(tǒng)的基本指標思考-數(shù)據(jù)分析系統(tǒng)的基本指標海量用戶大規(guī)模批量服務(服務1.0)
決策邏輯
數(shù)據(jù)庫用戶1邏輯1邏輯N數(shù)據(jù)集編輯人員用戶N
編輯邏輯信息生產(chǎn)者信息消費者Mysql/Oracle
大數(shù)據(jù)倉庫海量用戶大規(guī)模個性化服務(服務2.0)
決策邏輯
大數(shù)據(jù)庫用戶1邏輯1服務數(shù)據(jù)1用戶N邏輯N服務數(shù)據(jù)N原始數(shù)據(jù)N挖掘邏輯NHiveHbaseStormHadoop原始數(shù)據(jù)1原始數(shù)據(jù)2信息生產(chǎn)者/消費者規(guī)則制定上帝之手本質(zhì):智能組織->智能群體實時思考-數(shù)據(jù)分析系統(tǒng)的基本指標反饋決策周期!快反饋決策粒度!細反饋決策準確性!準
反饋總體成本!廉價數(shù)據(jù)統(tǒng)計/分析是一個組織
自動控制,自學習,自調(diào)整系統(tǒng)核心組成部分。機會成本!想象空間!Hadoop前的數(shù)據(jù)倉庫流程反饋決策周期!快?反饋決策粒度!細?反饋決策準確性!準?
反饋總體成本!廉價?perl,shell,awkHadoop后的數(shù)據(jù)倉庫流程反饋決策周期!快?反饋決策粒度!細?反饋決策準確性!準?
反饋總體成本!廉價?持續(xù)擴展成本?Hql,Pig,Mapreduce,工作流
那些用戶需要Hadoop(合)技術?
案例解析UserCase1(網(wǎng)頁游戲)國內(nèi)網(wǎng)頁游戲廠商百個服/網(wǎng)頁游戲,30-50個庫/服10G用戶數(shù)據(jù)/天/游戲[十幾款游戲]場景:游戲玩家行為分析其他平臺:數(shù)據(jù)無法導出中間數(shù)據(jù)匯總丟棄,無法用戶級分析UserCase2(智慧交通)用戶:最大城市,交通領域(Citytraffic)場景:車牌記錄[CarLicencePlate],100億[10Billion]/年需求:小時級別->優(yōu)化到分鐘級[Minute]->未來優(yōu)化到秒級[Seconds]查詢IntelligentTransportationSmarterCities場景:車輛異常快速識別VehicleAbnormal交通安全問題Hadoop技術其他應用領域電信醫(yī)療交通公安航空電力金融搜索社交游戲視頻民生核心基于hadoop的數(shù)據(jù)平臺總體架構(gòu)Python結(jié)合HadoopStreaming
原理解析MapReduce基本流程實現(xiàn)distinct一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624使用python實現(xiàn)distinct/count一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624 importsys forlineinsys.stdin: try: flags=line[1:-2] str=flags+'\t'+'1' printstr exceptException,e: printe#!/usr/bin/pythonimportsysres={} forlineinsys.stdin:try:flags=line[:-1].split('\t')iflen(flags)!=2:continuefield_key=flags[0]ifres.has_key(field_key)==False:res[field_key]=[0]res[field_key][0]=1exceptException,e:passforkeyinres:printkey
(distinct\count)--map(distinct)--red#!/usr/bin/pythonimportsyslastuid=""num=1forlineinsys.stdin:uid,count=line[:-1].split('\t')iflastuid=="":lastuid=uidiflastuid!=uid:num+=1lastuid=uidprintnum
(count的優(yōu)化實現(xiàn))--reduce基于PythonMapReduceStreaming快速并行編程一、單機測試 headtest.log|pythonmap.py|pythonred.py一、將文件上傳到集群 /bin/hadoop fs-copyFromLocaltest.log/hdfs/三、運行mapred/bin/hadoopjarcontrib/streaming/hadoop-streaming-.jar-file/path/map.py-file/path/red.py-mappermap.py
-reducerred.py-input /path/test.log-output/path/通過界面查看任務狀態(tài)Python快速構(gòu)建數(shù)據(jù)分析模塊ComETL軟件地址:/zhuyeqing/ComETL1.支持簡單工作流2.支持自動恢復3.支持自定義驅(qū)動4.支持HiveMysqlMapReduce等模式作者:趙修湘極少的代碼量,幾萬行吧!類似系統(tǒng)SqoopDataXOozieComEtl配置樣例etl_op={"run_mode":'day',"delay_hours":2,"jobs":[{"job_name":"job1","analysis":[{'etl_class_name':'ExtractionEtl','step_name':'mysql_e_1','db_type':'hive','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_save_type':'SimpleOutput',"sql_assemble":'SimpleAssemble','sql':'select*fromtest.a2limit30',},],"transform":[{'etl_class_name':'TransformEtl','step_name':'transform1','data_source':[{"job_name":"job1","step_name":'mysql_e_1','data_field':''},],'data_transform_type':'SimpleTransform',},],"loading":[{'etl_class_name':'LoadingEtl','step_name':'load1','data_source':{"job_name":"job1","step_name":'transform1'},'db_type':'mysql','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_load_type':'SplitLoad','data_field':'a|b'},]}}Pig內(nèi)嵌JPython實現(xiàn)PageRank算法JPython+pig代碼實現(xiàn)演示/julienledem/Pig-scripting-examples/blob/其他PythonMapReduce框架Pydoop-PythonAPIforHadoopMapReduceandHDFS/docs/Happy-/p/happy/datafu-Pig算法庫linkedin/linkedin/datafu總體數(shù)據(jù)規(guī)??偪臻g150T以上,
每日新增數(shù)據(jù)0.5T20+服務器的Hadoop/hive計算平臺單個任務優(yōu)化從7個小時到1個小時每日Hive查詢1200+每天處理3000+作業(yè)任務每天處理10T+數(shù)據(jù)集群資源利用率Page
46Hadoop集群監(jiān)控Cacti默認Cacti模板太少
增加模板
我們的模板
磁盤IO
內(nèi)存詳情
單個內(nèi)核使用
CPU總和及IOWait
JMX支持監(jiān)控Hadoop
HAProxy+Hive網(wǎng)絡拓撲QueriesHAProxyHAProxyHiveHiveHiveHiveHadoopHAProxy+Hive高可用集群數(shù)據(jù)平臺技術路線發(fā)展PythonHadoop最佳實踐通過TornadoNginx接受日志通過Scribe同步數(shù)據(jù)使用Python編寫加載和清洗腳本使用ComEtl通過Hive做ETL參考HappyEtl,Pydoop編寫PythonStreaming使用CronHub做定時調(diào)度使用phpHiveAdmin提供自助查詢使用Mysql存儲中間結(jié)果通過Tornado+highcharts/gnuplot提供報表展現(xiàn)使用Python+NagiosCactiGanglia監(jiān)控集群整體構(gòu)建在Hadoop+Hive+pig基礎平臺之上。參加EasyHadoop聚會學習使用EasyHadoop管理集群HadoopJAVA數(shù)據(jù)最佳實踐通過
Nginx+tomcat接受日志通過Scribe,Flume-Ng同步數(shù)據(jù)使用Jython編寫加載和清洗腳本使用Sqoop,DataX通過Hive做ETL參考JavaMapReduceAPI編寫程序使用CronHub做定時調(diào)度使用phpHiveAdmin+hive+haproxy提供自助查詢使用Mysql/Oracle存儲中間結(jié)果通過Spring+struts+highcharts/gnuplot/JFreeChart提供報表展現(xiàn)使用Python+NagiosCactiGanglia監(jiān)控集群整體構(gòu)建在Hadoop+Hive+Pig基礎平臺之上。參加EasyHadoop聚會學習使用ClouderaManager管理集群基于云平臺構(gòu)建的集群性能?HDCluster:80Core,180GHZ,10TB20*AliyunStandardCCloudServer4GRAM,4Core*2.26GHz500GBHadoop/HiveCluster@aliyunUser->phpHiveAdmin->HiveServer->Hadoop用EasyHadoop安裝和管理節(jié)點啟動100個Map生成100億數(shù)據(jù)通過100個Map用Perl隨機生成數(shù)據(jù)準備,1kw,1億,10億,100億,100GB數(shù)據(jù)集通過Hive創(chuàng)建測試庫表結(jié)構(gòu)使用phpHiveadmin+HQL查詢返回結(jié)果PhpHiveAdmin界面查詢SELECTidFROM
Tablewhereidlike'%JA-sq%';
(模糊匹配查詢出ID帶JA-sq的車牌號)1億數(shù)據(jù),并行5Map進程,144w/s掃描速度,69s返回10億數(shù)據(jù),并行46Map進程,800w/s掃描速度,117s返回100億數(shù)據(jù),并行453Map進程,5400w/s掃描速度,3分鐘返回,基本滿足需求。SELECTid,COUNT(*)FROMTable
GROUP
BYid
(對每個車牌號分組歸并,并求出現(xiàn)次數(shù))1億數(shù)據(jù),并行5Map進程,2Reduce進程,104w/s處理速度,96s返回10億數(shù)據(jù),并行46Map進程,13Reduce進程,230w/s處理速度,7分鐘返回100億數(shù)據(jù),并行453Map進程,121Reduce進程,500w/s處理速度,54分鐘返回。Hadoop預算解析
其他方案的成本對比!投入成本
(10TB預算)IOE(IBM+Oracle+EMC)時代(x)kw+
自建Hadoop集群(20*4w+4w)=80w+
使用云主機構(gòu)建Hadoop[2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海市裝修設計合同范本
- 單片機原理與應用試題含參考答案
- 買賣樓合同范本
- 三年級第二學期語文教學計劃
- 發(fā)票購銷合同范本
- 工業(yè)鍋爐司爐考試模擬題(附答案)
- 專利質(zhì)押服務合同范本
- 農(nóng)莊解除合同范本
- 印刷定采購合同范本
- 衛(wèi)浴銷售協(xié)議合同范例
- 大樹移栽合同范本
- 柔性印刷技術探索-深度研究
- 2025年度環(huán)保咨詢與評估服務合同范本模板
- 文化差異下的教育國外的小學音樂教育方式探討
- 2025年無錫科技職業(yè)學院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2024年黑龍江建筑職業(yè)技術學院高職單招語文歷年參考題庫含答案解析
- 七年級語文上冊課后習題參考答案
- 第四單元《紙的前世今生》第一課時(說課稿)-2023-2024學年五年級下冊綜合實踐活動粵教版
- 四川省綿陽市2025屆高三第二次診斷性考試英語試題(含答案無聽力原文及音頻)
- 醫(yī)學實驗室風險評估報告-臨床實驗室風險評估-可復制
- 八大員-勞務員??荚囶}與答案
評論
0/150
提交評論