日常態(tài)和大促態(tài)業(yè)務(wù)穩(wěn)定性保障實(shí)踐-阿里云+任新成_第1頁
日常態(tài)和大促態(tài)業(yè)務(wù)穩(wěn)定性保障實(shí)踐-阿里云+任新成_第2頁
日常態(tài)和大促態(tài)業(yè)務(wù)穩(wěn)定性保障實(shí)踐-阿里云+任新成_第3頁
日常態(tài)和大促態(tài)業(yè)務(wù)穩(wěn)定性保障實(shí)踐-阿里云+任新成_第4頁
日常態(tài)和大促態(tài)業(yè)務(wù)穩(wěn)定性保障實(shí)踐-阿里云+任新成_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

阿里云-服務(wù)技術(shù)-SRE/任新成 01業(yè)務(wù)穩(wěn)定性保障大圖 02日常態(tài)有效預(yù)防之故障演練 03日常態(tài)實(shí)時(shí)防護(hù)之流量控制 04日常態(tài)高效組織之應(yīng)急協(xié)同 05日常態(tài)快速恢復(fù)之多活容災(zāi) 06大促態(tài)業(yè)務(wù)穩(wěn)定性保障實(shí)踐 07業(yè)務(wù)穩(wěn)定性保障未來趨勢展望-流量管控入口流控?zé)狳c(diǎn)隔離集群流-流量管控入口流控?zé)狳c(diǎn)隔離集群流控熔斷降級-故障演練練編排架構(gòu)感知容災(zāi)演練-應(yīng)急協(xié)同促全鏈路壓測變更封網(wǎng)管控大促應(yīng)急流程態(tài)穩(wěn)定性分警分析快速恢快速恢復(fù)-多活容災(zāi)流量路由流量糾錯(cuò)規(guī)則管理鍵切流大故障定責(zé)規(guī)范故障通告流程故障應(yīng)急流程監(jiān)控覆蓋規(guī)范變更熔斷規(guī)范運(yùn)維操作紅線新人上崗認(rèn)證大促封網(wǎng)規(guī)范大促保障流程?鍵升級有損低頻/?損?頻客戶界???持SLB、ECS?鍵升級有損低頻/?損?頻客戶界???持SLB、ECS、RDS等多項(xiàng)阿?云服務(wù)豐富的演練場景?主機(jī)節(jié)點(diǎn)兼容Linux、Windows多操作系統(tǒng)NEW故障演練平臺多樣的演練形式適配集成易?的演練平臺?業(yè)務(wù)系統(tǒng)架構(gòu)?動(dòng)化感知應(yīng)?架構(gòu)?多種演練恢復(fù)策略,安全可控安全的演練保障?多維度權(quán)限管控,可控演練?應(yīng)?級別的爆炸半徑NEW適配集成線線上真實(shí)故障事件維系統(tǒng)模擬流量摸底單元化/容災(zāi)爆炸半徑持續(xù)集成環(huán)境技術(shù)可觀測設(shè)施穩(wěn)態(tài)識別預(yù)案系統(tǒng)爆炸半徑異構(gòu)云架構(gòu)商架構(gòu)?商A、?商B…?站式演練實(shí)施流程多樣化演練制動(dòng)環(huán)境/資源隔離多維度權(quán)限管控應(yīng)?級爆炸半徑演練防護(hù)基礎(chǔ)設(shè)施演練容?站式演練實(shí)施流程多樣化演練制動(dòng)環(huán)境/資源隔離多維度權(quán)限管控應(yīng)?級爆炸半徑演練防護(hù)基礎(chǔ)設(shè)施演練容器平臺演練業(yè)務(wù)應(yīng)?演練云服務(wù)演練演練場景?鍵接?微服務(wù)演練容器演練容災(zāi)演練架構(gòu)?動(dòng)感知故障效果可視化爆炸半徑可視化可視化演練實(shí)施收益故障定位能監(jiān)控輔助定位巡檢輔助定位故障應(yīng)急協(xié)同服務(wù)組介?影響?評估故障根因定位核?系統(tǒng)?產(chǎn)環(huán)境/仿真環(huán)境根因復(fù)盤預(yù)案執(zhí)???恢復(fù)切流?愈監(jiān)控項(xiàng)檢查改進(jìn)措施服務(wù)響應(yīng)慢(卡)服務(wù)?響應(yīng)(吊)服務(wù)退出(死)數(shù)據(jù)損壞故障發(fā)現(xiàn)能故障處置能??定位故障恢復(fù)故障復(fù)盤故障場景演練?單經(jīng)驗(yàn)沉淀演練?單經(jīng)驗(yàn)沉淀研發(fā)???觸發(fā)CI/CD組織運(yùn)營雙隨機(jī)演練模式演練?屏看板?產(chǎn)質(zhì)量分析報(bào)告演練數(shù)據(jù)運(yùn)營專題保障項(xiàng)?跨部分分享日常態(tài)業(yè)務(wù)穩(wěn)定性之實(shí)時(shí)防護(hù)–流量控制異常激增流量?激增流量打垮冷系統(tǒng)(數(shù)據(jù)庫不穩(wěn)定服務(wù)依賴?慢QOJ查詢卡爆連接池池量的副作用SLBNGINX日常態(tài)業(yè)務(wù)穩(wěn)定性之實(shí)時(shí)防護(hù)–流量控制SLBNGINX 動(dòng)態(tài)請求動(dòng)靜請求分離 ??法請求熱點(diǎn)/普通流量探測分離;精細(xì)流控?zé)狳c(diǎn)/普通流量探測分離;精細(xì)流控機(jī)機(jī)器B機(jī)機(jī)器C機(jī)器機(jī)器E機(jī)機(jī)器F它應(yīng)用它應(yīng)用?根據(jù)應(yīng)?容量流控;??適應(yīng)系統(tǒng)防護(hù)?慢SQL;緩存擊穿防護(hù);日常態(tài)業(yè)務(wù)穩(wěn)定性之高效組織–應(yīng)急協(xié)同快恢預(yù)案初因定位應(yīng)急結(jié)束指標(biāo)統(tǒng)計(jì)快恢預(yù)案初因定位應(yīng)急結(jié)束指標(biāo)統(tǒng)計(jì)人員調(diào)度故障直播間故障發(fā)生排查定位復(fù)日常態(tài)業(yè)務(wù)穩(wěn)定性之快速恢復(fù)–故障發(fā)生排查定位復(fù)業(yè)務(wù)快速恢復(fù)故障發(fā)故障發(fā)生切流-業(yè)務(wù)排查定位MSFECSBSpringCloudSpringCloudAliwareMQAliwareMQ單元請求分流./單元化部署.1業(yè)務(wù)代碼改造MSFECSBSpringCloudSpringCloudAliwareMQAliwareMQ單元請求分流./單元化部署.1業(yè)務(wù)代碼改造數(shù)據(jù)星型復(fù)制A云/RegionB云/Region層CDNCDN/DNS/IPMSFE30%70%30%APPPAPAPPPCCSBMsha-SyncMsha-Msha-SyncMQ-RouterMQ-MQ-Router雙向?特性:?自定義分流規(guī)則,接入層集群實(shí)現(xiàn)入口流量路由和糾錯(cuò)t務(wù)層?特性:?支持網(wǎng)關(guān)模式(CSB)、直連模式(Sync同步)?單元服務(wù)尋址能力?服務(wù)路由保護(hù)特性?支持組件:企業(yè)版MQ數(shù)據(jù)層?特性:?數(shù)據(jù)同步?數(shù)據(jù)單元保護(hù)、延遲策略保護(hù)數(shù)數(shù)據(jù)單元保護(hù)容災(zāi)切容災(zāi)切流大促態(tài)業(yè)務(wù)穩(wěn)定性保障–雙十一大促時(shí)間軸大促態(tài)業(yè)務(wù)穩(wěn)定性保障–全鏈路壓測全鏈路壓測全鏈路壓測3個(gè)核心環(huán)節(jié):壓測環(huán)境、壓測平臺、壓測數(shù)據(jù)對應(yīng)真實(shí)的線上環(huán)境,壓測結(jié)果和問題暴露都是最真實(shí)情況,可通業(yè)務(wù)模型,和真實(shí)業(yè)務(wù)情況保持一致全鏈路壓測交易模型核心指標(biāo):容量總目標(biāo)、單元路由規(guī)則、拆單比、平均子訂單、全鏈路B/C比PC/無線比、基礎(chǔ)壓測數(shù)據(jù)模型(買家/商品/賣家數(shù)量)、優(yōu)惠模型、購物車模型、極熱點(diǎn)模型、紅包模型、平臺和商家津貼比例等壓測數(shù)據(jù)(基礎(chǔ)數(shù)據(jù))測環(huán)境(?產(chǎn)系統(tǒng))數(shù)據(jù)準(zhǔn)備平臺數(shù)據(jù)準(zhǔn)備平臺/文件流量控制平臺/模型壓測引擎壓壓測引擎壓測引擎壓測引擎北京阿里CDN河南CDN節(jié)點(diǎn)上北京阿里CDN河南CDN節(jié)點(diǎn)上海阿里CDN壓壓測引擎malldetailtmallbuytmallcartcartlogincpmalldetailtmallbuytmallcartcartlogincpumpmaybachbtddetailp壓測平臺與容量平臺、限流平臺、GOC、DB等進(jìn)行了打通?p壓測平臺與容量平臺、限流平臺、GOC、DB等進(jìn)行了打通?容量:核心應(yīng)用的CPU、RT、成功率等級指標(biāo)?限流:非極限摸高場景觸發(fā)限流&核心指標(biāo)下跌?GOC:核心業(yè)務(wù)指標(biāo)(全站交易、購物車等)異常?DB:數(shù)據(jù)庫設(shè)定的核心指標(biāo)異常p安全機(jī)制?針對壓測流量放松安全策略,使得壓測流量不被判別為攻擊流量p全鏈路壓測的流量通過在鏈路上帶上特定的壓測參數(shù)來區(qū)分p所有中間件的協(xié)議都支持對壓測流量的識別,使壓測標(biāo)識能夠隨著調(diào)用傳遞下去?實(shí)現(xiàn)下游的應(yīng)用、基礎(chǔ)中間件和存儲都能夠識別壓測流量p全鏈路壓測在同一個(gè)數(shù)據(jù)庫的實(shí)例上對數(shù)據(jù)庫表建同樣結(jié)構(gòu)的影子表進(jìn)行數(shù)據(jù)隔離大促態(tài)業(yè)務(wù)穩(wěn)定性保障–變更封網(wǎng)管控**通過合理的大促態(tài)變更管控可以有效減少系統(tǒng)變更帶來的風(fēng)險(xiǎn),確保雙11大促期間系統(tǒng)的平穩(wěn)安全運(yùn)行多年大促變更封網(wǎng)持續(xù)優(yōu)化的實(shí)踐沉淀,業(yè)務(wù)模型(分層精細(xì)封網(wǎng)策略)+平臺化(ChangeFree)【變更系統(tǒng)分層封網(wǎng)模型】業(yè)務(wù)層應(yīng)應(yīng)用相關(guān)re業(yè)務(wù)運(yùn)營業(yè)務(wù)運(yùn)營(資損類)座基礎(chǔ)設(shè)施云上基座調(diào)度/流量benode物理網(wǎng)絡(luò)服務(wù)器云安全云網(wǎng)絡(luò)計(jì)算存儲天基CDNASI………業(yè)務(wù)型-核心/非核心應(yīng)用區(qū)分強(qiáng)弱管控業(yè)務(wù)型-業(yè)務(wù)低風(fēng)險(xiǎn)強(qiáng)封弱不封業(yè)務(wù)依賴通用組件強(qiáng)弱都封全局基礎(chǔ)組件強(qiáng)弱都封【業(yè)務(wù)精細(xì)封網(wǎng)策略】全域封網(wǎng)場景強(qiáng)管控期弱管控期業(yè)務(wù)大促-小型大促 (5W筆/s<交易峰值<10W筆/s)0天1.7天:峰值前1天的08:00開始,至活動(dòng)當(dāng)天/結(jié)束業(yè)務(wù)大促-普通大促 (30W筆/s>交易峰值>=10W筆/s)0.25天(6小時(shí))小時(shí)2.7天:峰值前2天的08:00開始,至活動(dòng)當(dāng)天/結(jié)束業(yè)務(wù)大促-高峰大促 (交易峰值>=30W筆/s)1.2天:峰值前1天+峰值后4小時(shí)4天:值前3天,至活動(dòng)當(dāng)天/結(jié)束節(jié)假日 (國慶、春節(jié))0天國慶7天,春節(jié)9天:節(jié)假日期間(僅春節(jié)前后各增加1天)重保0天重保時(shí)段執(zhí)行弱管控「名詞定義」全域封網(wǎng):參與封網(wǎng)BU和變更系統(tǒng)均超過20個(gè)&持續(xù)時(shí)長超過1小時(shí);全域封網(wǎng)嚴(yán)格控制封網(wǎng)時(shí)長和范圍強(qiáng)管控:所有操作的變更系統(tǒng)全封,緊急發(fā)布、白名單審核、一鍵審批集中管理,大促回收至大隊(duì)長管理弱管控:底層基礎(chǔ)平臺全封、業(yè)務(wù)依賴通用系統(tǒng)全封、核心業(yè)務(wù)全封,非核心業(yè)務(wù)不做管控,破網(wǎng)審批BU閉環(huán)大促態(tài)業(yè)務(wù)穩(wěn)定性保障–變更封網(wǎng)管控ChangeFree,接入CF后執(zhí)行變更的流程?通用服務(wù)類:影響大促的所有操作和對象封網(wǎng)弱管控期強(qiáng)管控期應(yīng)用配置?通用服務(wù)類:影響大促的所有操作和對象封網(wǎng)弱管控期強(qiáng)管控期應(yīng)用配置(diamond、switch等)應(yīng)用配置(diamond、switch等)應(yīng)用全部應(yīng)用應(yīng)用運(yùn)維應(yīng)用配置僅核心應(yīng)用全部應(yīng)用運(yùn)營峰值前后小半時(shí)峰值前后半小時(shí)不封網(wǎng)數(shù)據(jù)計(jì)算數(shù)據(jù)平臺D2數(shù)據(jù)平臺D2中間件管控中間件管控中間件管控?cái)?shù)據(jù)庫/Tair云產(chǎn)品全等等基礎(chǔ)設(shè)施某次雙11大促封網(wǎng)管控案例?應(yīng)用類:僅大促相關(guān)的BU核心應(yīng)用封網(wǎng)?通用服務(wù)類:業(yè)務(wù)依賴公共組件+全局基礎(chǔ)組件弱管控期弱管控期強(qiáng)管控期10.2910.3110.270點(diǎn)11.14點(diǎn)11.211.811.100點(diǎn)11.114點(diǎn)10.2910.31變更類型20年雙1120年雙11弱管控,21年雙11不封網(wǎng)用類21年雙11大促態(tài)業(yè)務(wù)穩(wěn)定性保障–大促態(tài)應(yīng)急流程大促態(tài)業(yè)務(wù)穩(wěn)定性保障–大促態(tài)應(yīng)急流程重大故障影響 (BG重大故障影響 (BG)核心可用率 (核心BU)故障時(shí)長 (下鉆至BU、各子團(tuán)隊(duì))故障分 (下鉆至BU、各子團(tuán)隊(duì))年度回顧預(yù)案演練紅黑榜紅藍(lán)對抗全民掃雷BU安全生產(chǎn)周會(huì)生產(chǎn)突襲影響層級BuHead技術(shù)TL穩(wěn)定性一線人員季季度回顧新人培新人培訓(xùn)安全生產(chǎn)日安全生產(chǎn)日安全生產(chǎn)課安全生產(chǎn)課程制作紅爛紅爛蘋果練安全生產(chǎn)安全生產(chǎn)年年:?亂世重典,盛世恤刑事件中心 Af-rMnq事件預(yù)警

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論