




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、唯品會大數(shù)據(jù)平臺大數(shù)據(jù)存儲和計(jì)算資源管理郵箱: 微信: shanchaoeric唯品會大數(shù)據(jù)平臺規(guī)劃離線計(jì)算A臺流B計(jì)算A臺VDProcess實(shí)時計(jì)算VDBank實(shí)時接入VDEngine分布式存 (R E(實(shí)時推薦A臺 ABT(分流與實(shí)S)oring(初 選 Sorting(精 E Filtering(過 S 個性化推薦廣告聯(lián)盟精準(zhǔn)營銷CRMMixer(接入分發(fā) DMP統(tǒng)一T戶 數(shù)D貨品 畫像驗(yàn) P型訓(xùn)練A臺SparkDNN算法 庫數(shù)D分M數(shù)D服務(wù)數(shù)DF索數(shù)D管控標(biāo)準(zhǔn)化元數(shù)De i V 控校準(zhǔn)gV R 維 控 c唯品會大數(shù)據(jù)平臺現(xiàn)狀大數(shù)據(jù)管理工作范疇 業(yè)務(wù)系統(tǒng) 調(diào)度系統(tǒng)ETL 數(shù)據(jù)模型 元數(shù)據(jù)
2、/主數(shù)據(jù)管理 數(shù)據(jù)質(zhì)量 開發(fā)流程 運(yùn)維流程 數(shù)據(jù)審計(jì)和安全資源管理“數(shù)據(jù)平臺使用申請”用戶提交:資源類型hdfs存儲/hive數(shù)據(jù)庫/hive計(jì)算資源/mr計(jì)算資 源.資源數(shù)目100T存儲/1T內(nèi)存/1000顆CPU.訪問方式hive/presto/spark/webhdfs管理員處理:hdfs分配:path/name quota/space quotahive分配: 數(shù)據(jù)庫/授權(quán)yarn分配:隊(duì)列最小資源/最大資源/weight理想很豐滿,現(xiàn)實(shí)很骨感系統(tǒng)強(qiáng)大數(shù)據(jù)規(guī)范流程規(guī)范技術(shù)成熟業(yè)務(wù)成熟模型變更迅速,開發(fā)周期短用戶能力參差不齊大量的歷史包袱大量的技術(shù)包袱平臺不穩(wěn)定,掌控力差分層不明確理想現(xiàn)
3、實(shí)各種問題這個任務(wù)昨天還好好的,為什么今天跑不出來了?2-10倍的數(shù)據(jù)量,能撐得住嗎?怎么幾千個任務(wù)都慢了?最近磁盤使用急劇增加,誰在用?這個表好像不用了,我能刪除掉嗎?集群要擴(kuò)容嗎?擴(kuò)多少?核心 資源管控分田到戶目的:從亂序到有序申請和分配有據(jù)可查規(guī)則公開透明數(shù)據(jù)公開透明有多少資源,干多少事合理的KPI和懲罰機(jī)制ROI,資源傾斜給回報(bào)率高的項(xiàng)目資源有什么?為什么存儲和計(jì)算需要關(guān)注?Scale Up Scale OutNamenode - 存儲(2億blocks/2億files)standby namenode updateCountForQuota緩慢影響主從一致性,進(jìn)而影響切換(HDFS-
4、6763)standby checkpoint緩慢導(dǎo)致增量blockreport匯報(bào)被skip, 影響主從一致性,進(jìn)而影響切換(HDFS-7097)standby checkpoint GC導(dǎo)致transfer Fsimage超時失敗集群啟動期間, blockreport需要錯開,導(dǎo)致啟動緩慢,namenode壓力增加ResourceManager - 計(jì)算(1k+并行job/40w+ job每天)大量任務(wù)運(yùn)行期間,resource manager分配能力不足/jira/browse/YARN-3547 部分解決問題https:/issues.a
5、/jira/browse/YARN-5188 our patch for fairscheduler隊(duì)列分配過粗,互相影響嚴(yán)重開源節(jié)流Federation 存儲優(yōu)化管理 計(jì)算優(yōu)化管理提升namenode rpc性能 提升yarn的containaer assign性能增加機(jī)器存儲資源管理存儲資源管理- hdfs存儲資源存儲資源管理- 如何獲取存儲數(shù)據(jù)hdfs -lsR slow but easyload【均為【均為hive table】文件元數(shù)據(jù)信息hive表元數(shù)據(jù)信息調(diào)度任務(wù)元數(shù)據(jù)信息路徑訪問信息calc1. 維度 分區(qū)/表/數(shù)據(jù)庫/任務(wù)/業(yè)務(wù)/人/目錄層級/時間2. 指標(biāo)
6、 全量/增量/趨勢/平均文件大小/最大文件 大小/最小文件大小/文件數(shù)目/占比3. 熱度 哪些表被頻繁訪問?哪些表3個月都沒人訪問了?4. 安全 有沒有敏感信息被非法訪問fsimage parser fast but need devhive metastoreETL metadatahdfs audit log資源管控系統(tǒng)-demo資源管控系統(tǒng)-demo存儲資源管理- 如何使用存儲數(shù)據(jù)容量計(jì)費(fèi)通過計(jì)費(fèi)來控制資源存儲數(shù)據(jù)完整透明消費(fèi)預(yù)警,提前知會用戶空間管理自動配置生命周期管理規(guī)則存儲格式,壓縮格式選擇(orc+gzip)文件管理自動配置生命周期管理規(guī)則小文件har歸檔存儲資源管理- 控制存儲
7、的價值解決NN“單點(diǎn)”瓶頸控制服務(wù)器數(shù)量,降低成本規(guī)范數(shù)據(jù)生命周期管理統(tǒng)計(jì)冷熱數(shù)據(jù)使用,反饋給ETL生命周期管理計(jì)算資源管理計(jì)算資源管理yarn - 統(tǒng)一調(diào)度管理yarn,好像搞定了資源管理,我們還需要管理什么?計(jì)算資源管理- beyond yarn隊(duì)列管理,共享還是獨(dú)享?隊(duì)列分到多細(xì)合適?如何確保關(guān)鍵隊(duì)列的資源?每個隊(duì)列的使用情況如何?這個部門的新同事總是寫錯sql, 占用大量資源,怎么辦?晚上3點(diǎn)多A隊(duì)列資源緊張,在干什么?B任務(wù),最近消耗資源情況怎么樣?B任務(wù),C sql, 為什么step1的application突然跑慢了?今天最消耗資源的application是哪個?能優(yōu)化嗎?有沒有
8、數(shù)據(jù)傾斜造成的任務(wù)延遲?我們要解決一下這么多機(jī)器,分配的任務(wù)數(shù)均衡嗎?有沒有一些機(jī)器任務(wù)失敗率特別高?計(jì)算資源管理- 實(shí)時計(jì)算資源信息yarn - mapreducewebui業(yè)務(wù)應(yīng)用mr codespark commandhive cmdexecutor(hive/ spark)hiveservermysql/hbase每分鐘 app快 照實(shí)時 app基 本信息實(shí)時明 細(xì)task 信息ETL任務(wù)信息+job基 礎(chǔ)信息分鐘快照實(shí)時快照明細(xì)task信息ETL相關(guān)信息隊(duì)列資源 使用實(shí)時 信息計(jì)算資源管理- 離線計(jì)算資源信息分鐘任務(wù)快照loadyarn每分鐘的任務(wù)快照yarn的明細(xì)的任務(wù)執(zhí)行信 息E
9、TL的任務(wù)信息ETL任務(wù)內(nèi)部的job信息隊(duì)列使用信息【均為hive tablecalc1.維度 任務(wù)/業(yè)務(wù)/人/隊(duì)列/時間/類 型(map|reduce)/服務(wù)器2.指標(biāo) 全量/增量/趨勢/占比/讀寫資 源/cpu資源/shuffle資源實(shí)時任務(wù)快照task執(zhí)行明細(xì)ETL信息隊(duì)列使用信息計(jì)算資源管理- 如何使用計(jì)算資源容量計(jì)費(fèi)通過計(jì)費(fèi)來控制資源存儲數(shù)據(jù)完整透明消費(fèi)預(yù)警,提前知會用戶實(shí)時告警和自動處理根據(jù)隊(duì)列設(shè)置不同的規(guī)則,如運(yùn)行時長,使用資源,自動發(fā)現(xiàn)和觸發(fā)停止動作通過業(yè)務(wù)注碼,自動展示運(yùn)行中的業(yè)務(wù)細(xì)節(jié)數(shù)據(jù)傾斜自動識別隊(duì)列數(shù)據(jù)化運(yùn)營計(jì)算資源管理- 公平調(diào)度我們的管理原則:盡量細(xì)化,單個業(yè)務(wù)分配
10、單獨(dú)隊(duì)列隊(duì)列分配的min/max/weight由實(shí)際業(yè)務(wù)來評估,上線初期會不斷調(diào)整min是保證的最小資源,確保優(yōu)先獲得max是業(yè)務(wù)的最大資源限制,確保不會超過每個隊(duì)列由多個不同級別的子隊(duì)列組成,子隊(duì)列業(yè)務(wù)可靈活調(diào)整子隊(duì)列大小可以基于時間動態(tài)調(diào)整自天,天任務(wù)隊(duì)列縮小,小時任務(wù)隊(duì)列放大夜晚,天任務(wù)隊(duì)列放大,小時任務(wù)隊(duì)列縮小關(guān)鍵任務(wù)確保隊(duì)列內(nèi)的最小隊(duì)列保證計(jì)算資源管理- Yarn實(shí)時運(yùn)行情況監(jiān)控優(yōu)點(diǎn)數(shù)據(jù)完全實(shí)時缺點(diǎn)展現(xiàn)不夠直觀無歷史時序數(shù)據(jù)計(jì)算資源管理(秒級)- 數(shù)據(jù)獲取historylog通過實(shí)時計(jì)算框架,獲取每個application的明細(xì)執(zhí)行結(jié)果缺點(diǎn):任務(wù)完成后才能獲取到完整信息job api
11、通過api實(shí)時獲取到所有job的基礎(chǔ)信息比默認(rèn)rm的api提供更多字段信息,如sql信息缺點(diǎn):不是100%完整的數(shù)據(jù),定期獲取必然會丟失數(shù)據(jù)計(jì)算資源管理(秒級)- 用戶查詢識別示例Thu Apr 21 18:48:01 CST 2016 jobname=-xxx.chen-qid:152011-.100(Stage-2) user=xxx.chen job_id=job_1459656116710_7806076 starttime=1461232053 exceed 3600 seconds,killing.計(jì)算資源管理(秒級)-實(shí)時監(jiān)控task kill ratio計(jì)算資源管理(分鐘級)-
12、 jmx數(shù)據(jù)來補(bǔ)充jmx: http:/%s:8088/jmx % (IP)返回格式:#name : Hadoop:service=ResourceManager,name=QueueMetrics,q0=root,q1=mapreduce,q2=xxx,q3=panda,#modelerType : QueueMetrics,q0=root,q1=mapreduce,q2=xxx,q3=panda,#tag.Queue : root.mapreduce.xxx.panda,#tag.Context : yarn,#tag.Hostname : xxxx,#running_0 : 0,#run
13、ning_60 : 0,#running_300 : 0,#running_1440 : 0,#FairShareMB : 0,#FairShareVCores : 0,#SteadyFairShareMB : 1228800,#SteadyFairShareVCores : 0,計(jì)算資源管理(分鐘級)- 單個隊(duì)列監(jiān)控實(shí)例隊(duì)列分配紅線跑平 隊(duì)列等待藍(lán)線升高-結(jié)論,單個業(yè)務(wù)資源吃緊-需要增加最大可分配資源計(jì)算資源管理(分鐘級)- resourcemanager metric監(jiān)控示例調(diào)整前: 高峰期app pending增加 凌晨任務(wù)1個小時任務(wù)延遲調(diào)整min后: 最大pending不超過100
14、pending很快下降計(jì)算資源管理(分鐘級)- resourcemanager metric監(jiān)控示例高峰期資源需求增加,但是分配能力下降yarn分配能力受到影響,將問題加劇計(jì)算資源管理(分鐘級)- 優(yōu)化展現(xiàn)集群總體資源分布情況最消耗資源的是什么任務(wù)實(shí)時/歷史的數(shù)據(jù)查看計(jì)算資源管理(分鐘級)- 隊(duì)列總覽展現(xiàn)計(jì)算資源管理(分鐘級)- 隊(duì)列總覽展現(xiàn)計(jì)算資源管理(天級)- 離線資源使用查詢集群的資源使用場景時間/應(yīng)用/隊(duì)列維度的資源使用情況核心ETL任務(wù)近期map/reduce使用情況單個attempt的metrics指標(biāo)查看,如讀取超過1kw行數(shù)據(jù)的map任務(wù)等等計(jì)算資源管理(天級)- 數(shù)據(jù)傾斜識別示例計(jì)算資源管理-計(jì)算資源優(yōu)化實(shí)例用更少的資源計(jì)算orcfile, 壓縮率更高,列式存儲降低資源消耗權(quán)衡資源和性能,基于record而不是size調(diào)整reduce數(shù)量基于hll的uv估算函數(shù),提供可增量的uv計(jì)算計(jì)算資源管理-計(jì)算資源優(yōu)化實(shí)例用更多的資源計(jì)算,更快的釋放sparksql,內(nèi)存需求高,復(fù)雜計(jì)算快presto/impala, 利用mpp框架提高計(jì)算性能計(jì)算資源管理-計(jì)算資源優(yōu)化實(shí)例不同隊(duì)列的資源使用上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合法壓車合同范本
- 和員工股合同范本
- 合作種植大蔥合同范例
- 員工提成合同范例
- 加工豎立桅桿合同范本
- 臺州市商品房出租合同范本
- 吳江區(qū)律師顧問合同范本
- 沖壓模具開發(fā)合同范本
- 代理記賬報(bào)稅 合同范本
- 傳媒公司聘用合同范本
- 偏癱臨床路徑流程
- 計(jì)算機(jī)視覺全套課件
- GB-T 9251-2022 氣瓶水壓試驗(yàn)方法(高清版)
- 基于單片機(jī)的電子廣告牌設(shè)計(jì)畢業(yè)設(shè)計(jì)論文
- 中國聯(lián)通IMS接口規(guī)范 第三分冊:Sh接口 V1.0
- 環(huán)境化學(xué)物的毒性作用及其影響因素
- 判斷抽樣(課堂PPT)
- 簡明疼痛評估量表(BPI)
- QUY400t性能表履帶起重機(jī)
- 通用橫版企業(yè)報(bào)價單模板
- 中國移動B-BOSS系統(tǒng)總體結(jié)構(gòu)
評論
0/150
提交評論