版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、培訓目標熟悉HADOOP應(yīng)用背景123了解Hadoop應(yīng)用案例了解Hadoop技術(shù)最佳實踐培訓目錄大數(shù)據(jù)和數(shù)據(jù)倉庫概述1Hadoop 應(yīng)用案例和云平臺2Hadoop 數(shù)據(jù)倉庫python/java最佳實踐3數(shù)據(jù)可視化案例4基于數(shù)據(jù)倉庫平臺改造變遷5阿里金融通過大數(shù)據(jù)整合掘金阿里金融通過大數(shù)據(jù)整合掘金!阿里金融的信用評估系統(tǒng)會自動分析小微企業(yè)的數(shù)據(jù),例如企業(yè)通過支付寶,淘寶進行的支付數(shù)據(jù),最終算出信用評估和放貸額度。截止2011年底,阿里金融對近30萬家小微企業(yè)進行信用評估。累計投放96800家,投放貸款154億,壞賬率為交易額的0.76%。阿里金融的實時業(yè)務(wù)阿里金融的實時業(yè)務(wù)墻墻阿里金融的數(shù)據(jù)
2、模型任務(wù)(局部)阿里金融的數(shù)據(jù)模型任務(wù)(局部)每個模型任務(wù)都是面向海量數(shù)據(jù)的大規(guī)模運算任務(wù)。天貓/淘寶 雙十一191億背后的開源技術(shù)?dbatools: 雙十一一天時間,雙十一一天時間,支付寶核心數(shù)據(jù)庫集群處理了支付寶核心數(shù)據(jù)庫集群處理了41億個事務(wù),億個事務(wù),執(zhí)行執(zhí)行285億次億次SQL,訪問訪問1931億次內(nèi)存數(shù)據(jù)塊,億次內(nèi)存數(shù)據(jù)塊,13億個物理讀,億個物理讀,生成生成15TB日志日志。數(shù)據(jù)應(yīng)用開發(fā)平臺數(shù)據(jù)工場 Hive報表需求(淘數(shù)據(jù))Hbase即席查詢(adhoc)數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)產(chǎn)品淘寶數(shù)據(jù)云梯平臺淘寶數(shù)據(jù)云梯平臺-產(chǎn)品架構(gòu)產(chǎn)品架構(gòu)實時計算 底層平臺數(shù)據(jù)開發(fā)平臺數(shù)據(jù)應(yīng)用是需求驅(qū)動
3、技術(shù)是需求驅(qū)動技術(shù),技術(shù)帶動需求技術(shù)帶動需求?思考-云計算技術(shù)有兩極 3200臺主機Hadoop解決了什么難題? 移動計算而非移動數(shù)據(jù),化整為零,分片處理。 本地化計算,并行IO,降低網(wǎng)絡(luò)通信思考-數(shù)據(jù)分析系統(tǒng)的基本指標思考-數(shù)據(jù)分析系統(tǒng)的基本指標 海量用戶海量用戶大規(guī)模批量服務(wù)(服務(wù) 1.0) 決策邏輯決策邏輯 數(shù)據(jù)庫數(shù)據(jù)庫用戶用戶1邏輯邏輯1邏輯邏輯N數(shù)據(jù)集數(shù)據(jù)集 編輯人員編輯人員用戶用戶N 編輯編輯邏輯邏輯信息生產(chǎn)者信息生產(chǎn)者信息消費者信息消費者Mysql/Oracle 大數(shù)據(jù)倉庫大數(shù)據(jù)倉庫 海量用戶海量用戶大規(guī)模個性化服務(wù)(服務(wù) 2.0) 決策邏輯決策邏輯 大數(shù)據(jù)庫大數(shù)據(jù)庫用戶用戶1邏
4、輯邏輯1服務(wù)數(shù)據(jù)服務(wù)數(shù)據(jù)1用戶用戶N邏輯邏輯N服務(wù)數(shù)據(jù)服務(wù)數(shù)據(jù)N原始數(shù)據(jù)原始數(shù)據(jù)N挖掘邏輯挖掘邏輯NHiveHbaseStormHadoop原始數(shù)據(jù)原始數(shù)據(jù)1原始數(shù)據(jù)原始數(shù)據(jù)2信息信息 生產(chǎn)者生產(chǎn)者/消費者消費者 規(guī)則制定規(guī)則制定 上帝之手上帝之手本質(zhì):智能組織-智能群體實時實時思考-數(shù)據(jù)分析系統(tǒng)的基本指標反饋決策周期!快反饋決策粒度! 細反饋決策準確性! 準 反饋總體成本! 廉價數(shù)據(jù)統(tǒng)計/分析 是一個組織 自動控制,自學習,自調(diào)整系統(tǒng)核心組成部分。機會成本! 想象空間!Hadoop 前的數(shù)據(jù)倉庫流程反饋決策周期!快 ?反饋決策粒度! 細 ?反饋決策準確性! 準 ? 反饋總體成本! 廉價 ?
5、perl,shell,awk Hadoop后的數(shù)據(jù)倉庫流程反饋決策周期!快 ?反饋決策粒度! 細 ?反饋決策準確性! 準 ? 反饋總體成本! 廉價 ?持續(xù)擴展成本 ? Hql,Pig,Mapreduce,工作流 那些用戶需要Hadoop (合)技術(shù)?案例解析User Case 1 (網(wǎng)頁游戲) 國內(nèi)網(wǎng)頁游戲廠商 百個服/網(wǎng)頁游戲,30-50個庫/服 10G用戶數(shù)據(jù)/天/游戲 十幾款游戲場景: 游戲玩家行為分析 其他平臺:數(shù)據(jù)無法導出 中間數(shù)據(jù)匯總丟棄,無法用戶級分析User Case 2(智慧交通) 用戶:最大城市,交通領(lǐng)域(City traffic) 場景:車牌記錄Car Licence P
6、late,100億10 Billion/年 需求:小時級別-優(yōu)化到分鐘級Minute -未來優(yōu)化到秒級Seconds查詢Intelligent TransportationSmarter Cities場景: 車輛異常快速識別Vehicle Abnormal 交通安全問題Hadoop技術(shù) 其他應(yīng)用領(lǐng)域 電信 醫(yī)療 交通 公安 航空 電力 金融 搜索 社交 游戲 視頻民生核心基于hadoop的數(shù)據(jù)平臺總體架構(gòu)Python 結(jié)合 Hadoop Streaming 原理解析MapReduce基本流程實現(xiàn)distinct一、日志格式:0E3AAC3B-E705-4915-9ED4-EB7B1E96359
7、0FB11E363-6D2B-40C6-A096-95D8959CDB9206F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648A06F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648AB11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4
8、F48-B32C-8DD1A8BA25624使用python實現(xiàn) distinct/count一、日志格式:0E3AAC3B-E705-4915-9ED4-EB7B1E963590FB11E363-6D2B-40C6-A096-95D8959CDB9206F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648A06F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648AB11E363-6D2B-40C6-A096-95D8959
9、CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624import sysfor line in sys.stdin: try:flags = line1:-2 str = flags+t+1 print strexcept Exception,e:print e#!/usr/bin/pythonimport sysres = for line in sys.stdin: try: flags = line:-1.split(t
10、) if len(flags) != 2: continue field_key = flags0 if res.has_key(field_key) = False: resfield_key = 0 resfield_key0 = 1 except Exception,e: passfor key in res: print key( distinctcount)-map(distinct)-red#!/usr/bin/pythonimport syslastuid=num=1for line in sys.stdin: uid,count=line:-1.split(t) if last
11、uid =: lastuid=uid if lastuid != uid: num+=1 lastuid=uidprint num(count的優(yōu)化實現(xiàn)的優(yōu)化實現(xiàn) )-reduce基于Python MapReduce Streaming 快速并行編程一、單機測試head test.log | python map.py | python red.py一、將文件上傳到集群/bin/hadoop fs -copyFromLocal test.log /hdfs/三、運行map red/bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.20
12、3.0.jar -file /path/map.py -file /path/red.py -mapper map.py -reducer red.py -input /path/test.log -output /path/通過界面查看任務(wù)狀態(tài)Python快速構(gòu)建 數(shù)據(jù)分析模塊 ComETL軟件地址: https:/ Hive Mysql MapReduce 等模式作者:趙修湘極少的代碼量,幾萬行吧!類似系統(tǒng) Sqoop DataX OozieComEtl配置樣例etl_op = run_mode:day, delay_hours:2, jobs:job_name:job1, analysi
13、s:etl_class_name:ExtractionEtl, step_name:mysql_e_1, db_type:hive, db_coninfo:db_ip:0,db_port:3306,db_user:jobs,db_passwd:hhxxttxs,db_db:test, db_path:test.a2, pre_sql:, post_sql:, data_save_type:SimpleOutput, sql_assemble:SimpleAssemble, sql:select * from test.a2 limit 30, , transform:et
14、l_class_name:TransformEtl, step_name:transform1, data_source:job_name:job1,step_name:mysql_e_1,data_field:, data_transform_type:SimpleTransform, , loading:etl_class_name:LoadingEtl, step_name:load1, data_source:job_name:job1,step_name:transform1, db_type:mysql, db_coninfo:db_ip:0,db_port:
15、3306,db_user:jobs,db_passwd:hhxxttxs,db_db:test, db_path:test.a2, pre_sql:, post_sql:, data_load_type:SplitLoad, data_field:a|b, Pig內(nèi)嵌JPython 實現(xiàn)PageRank算法JPython+pig 代碼實現(xiàn)演示https:/ MapReduce框架 Pydoop - Python API for Hadoop MapReduce and HDFShttp:/ Happy - http:/ datafu -Pig算法庫 linkedin https:/ 總空間30
16、0T以上, 每日新增數(shù)據(jù)2T 20+ 服務(wù)器的Hadoop/hive計算平臺 單個任務(wù)優(yōu)化從 7個小時到 1個小時 每日 Hive 查詢 1200+ 每天處理3000+作業(yè)任務(wù) 每天處理10T+數(shù)據(jù)集群資源利用率集群資源利用率Page 40Hadoop集群監(jiān)控 Cacti默認Cacti模板太少增加模板我們的模板磁盤IO內(nèi)存詳情單個內(nèi)核使用CPU總和及IOWaitJMX支持監(jiān)控HadoopHAProxy+Hive 網(wǎng)絡(luò)拓撲QueriesHAProxyHAProxyHiveHiveHiveHiveHadoopHAProxy+Hive高可用集群數(shù)據(jù)平臺 技術(shù)路線發(fā)展Python Hadoop最佳實踐
17、通過Tornado Nginx 接受日志通過Scribe 同步數(shù)據(jù)使用Python 編寫加載和清洗腳本使用ComEtl 通過Hive做ETL參考HappyEtl,Pydoop編寫Python Streaming使用CronHub 做定時調(diào)度使用phpHiveAdmin 提供自助查詢使用 Mysql 存儲中間結(jié)果通過Tornado+highcharts/gnuplot 提供報表展現(xiàn)使用 Python + Nagios Cacti Ganglia 監(jiān)控集群整體構(gòu)建在 Hadoop+Hive+pig 基礎(chǔ)平臺之上。參加EasyHadoop 聚會學習使用EasyHadoop管理集群Hadoop JAV
18、A 數(shù)據(jù)最佳實踐通過 Nginx+ tomcat 接受日志通過 Scribe,Flume-Ng同步數(shù)據(jù)使用Jython編寫加載和清洗腳本使用Sqoop,DataX通過Hive做ETL參考Java MapReduce API編寫程序使用CronHub 做定時調(diào)度使用phpHiveAdmin+hive+haproxy 提供自助查詢使用 Mysql/Oracle存儲中間結(jié)果通過Spring+struts+highcharts/gnuplot/JFreeChart 提供報表展現(xiàn)使用 Python + Nagios Cacti Ganglia 監(jiān)控集群整體構(gòu)建在 Hadoop+Hive+Pig 基礎(chǔ)平臺
19、之上。參加EasyHadoop 聚會學習使用Cloudera Manager管理集群基于云平臺構(gòu)建的集群性能?HD Cluster: 80 Core,180GHZ,10TB 20*Aliyun Standard C Cloud Server4G RAM,4Core*2.26GHz500GBHadoop/Hive Cluster aliyun User-phpHiveAdmin-HiveServer-Hadoop用EasyHadoop 安裝和管理節(jié)點啟動100個Map生成100億數(shù)據(jù) 通過100個Map用 Perl 隨機生成數(shù)據(jù) 準備,1kw,1億,10億,100億,100GB數(shù)據(jù)集 通過Hiv
20、e創(chuàng)建測試庫表結(jié)構(gòu) 使用phpHiveadmin+HQL查詢返回結(jié)果PhpHiveAdmin 界面查詢SELECT id FROM Table where id like %JA-sq%;(模糊匹配查詢出ID 帶 JA-sq 的車牌號)1億 數(shù)據(jù),并行5 Map進程,144w/s 掃描速度,69s 返回10億數(shù)據(jù),并行46 Map進程,800w/s 掃描速度,117s 返回100億數(shù)據(jù),并行453Map進程,5400w/s 掃描速度,3分鐘返回,基本滿足需求。SELECT id,COUNT(*) FROM Table GROUP BY id(對每個車牌號分組歸并,并求出現(xiàn)次數(shù))1億 數(shù)據(jù),并行
21、5 Map進程,2 Reduce進程,104w/s 處理速度,96s 返回10億數(shù)據(jù),并行46Map進程,13Reduce進程,230w/s 處理速度,7分鐘返回100億數(shù)據(jù),并行453Map進程,121Reduce進程,500w/s 處理速度,54分鐘返回。Hadoop預算解析其他方案的成本對比!投入成本 (10TB預算) IOE(IBM+Oracle+EMC)時代 (x)kw+ 自建Hadoop集群 (20*4w+4w)=80w+ 使用云主機構(gòu)建Hadoop 20*7970=15.94w/年轉(zhuǎn)變轉(zhuǎn)變千萬時代百萬時代十幾萬時代初創(chuàng)型公司中型技術(shù)型公司政府,銀行,電信年成本:1.5w/T我們還有那些成本壓縮空間我們還有那些成本壓縮空間?實施周期 IBM+Oracle+EMC 時代(月) 自建Hadoop集群(1年-半年)學習和培訓 阿里云Hadoop時代(星期/月)轉(zhuǎn)變轉(zhuǎn)變季度/月1年/半年月/星期個人,初創(chuàng)公司中型公
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024雙方同意離婚協(xié)議之法律咨詢服務(wù)合同
- 2024年度能源設(shè)施安防監(jiān)控工程項目合同
- 2024醫(yī)療器械銷售代理合同
- 2024年大連智能鎖產(chǎn)品測試與質(zhì)量控制合同
- 2024年度學校教學樓照明改造合同
- 2024年衛(wèi)星導航與位置服務(wù)系統(tǒng)合作協(xié)議
- 2024年多功能砂漿添加劑采購合同
- 2024年全球貿(mào)易合作伙伴協(xié)議
- 2024年口腔門診部員工合同模板
- 痤瘡護理課件教學課件
- 企業(yè)如何利用新媒體做好宣傳工作課件
- 如何培養(yǎng)孩子的自信心課件
- 中醫(yī)藥膳學全套課件
- 頸脊髓損傷-匯總課件
- 齒輪故障診斷完美課課件
- 2023年中國鹽業(yè)集團有限公司校園招聘筆試題庫及答案解析
- 大班社會《特殊的車輛》課件
- 野生動物保護知識講座課件
- 早教托育園招商加盟商業(yè)計劃書
- 光色變奏-色彩基礎(chǔ)知識與應(yīng)用課件-高中美術(shù)人美版(2019)選修繪畫
- 前列腺癌的放化療護理
評論
0/150
提交評論