




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中國農(nóng)業(yè)銀行商業(yè)銀行混沌工程研究和實踐白皮書編寫單位及作者編寫單位及作者指導(dǎo)單位北京金融科技產(chǎn)業(yè)聯(lián)盟混沌工程實驗室編寫單位中國農(nóng)業(yè)銀行研發(fā)中心華為2012服務(wù)實驗室華為云計算技術(shù)有限公司編寫委員會專家顧問蔡仕志閆曉林聶麗琴陳屹力貢佳煒謝友珉許國平主要執(zhí)筆人趙勇帥慧敏劉浩彭尚峰楊易寰劉福銘李軍王郁黃容萍王海清編寫組成員胡曉磊林麗鑫曾磊劉麗彥前言金融高質(zhì)量發(fā)展。對于商業(yè)銀行,IT系統(tǒng)作為數(shù)字業(yè)務(wù)的承在此背景下,混沌工程(ChaosEngineering)作為一《從理念到實戰(zhàn)——商業(yè)銀行混沌工程研究和實踐白皮 1.1IT系統(tǒng)走向分布式時代 1.2混沌工程提供了分布式系統(tǒng)穩(wěn)定性分析和檢驗手段 1.3混沌工程在商業(yè)銀行快速發(fā)展 2.1如何構(gòu)建混沌工程實踐的體系化方法論 2.1.1打法思路探索 2.1.2支撐平臺建設(shè) 2.1.3管理機制適配 2.2如何評價混沌工程實踐效果 2.3如何建設(shè)混沌工程團隊文化 3.1混沌工程基本原理研究 3.1.1從風(fēng)險到事故的“海因里希法則” 3.1.2穩(wěn)定性風(fēng)險控制的“奶酪原理” 3.2混沌工程基本原則研究 3.3混沌工程落地體系研究 4.1實踐方法體系 4.1.1打法思路 4.1.2技術(shù)平臺 4.1.3管理機制 4.2評價體系 4.3企業(yè)團隊文化 4.3.1技術(shù)認同感 4.3.2教練人才培養(yǎng) 6.1技術(shù)層面展望 6.1.2超大規(guī)模故障注入和回退 6.1.3請求級別的無侵入故障注入 6.2.1混沌工程信心值模型 6.2.2領(lǐng)域故障場景庫建設(shè) 第七章總結(jié) 商業(yè)銀行混沌工程應(yīng)用背景商業(yè)銀行混沌工程應(yīng)用背景商業(yè)銀行混沌工程應(yīng)用背景穩(wěn)定性屬于IT系統(tǒng)非功能性需求,在實際工作中存在不易驗證的特點。由于單體應(yīng)用故障率相對較低,所以在單體時代,需要在軟件層面關(guān)注的穩(wěn)定性問題并不復(fù)雜。而在分布式時代,系統(tǒng)規(guī)模呈指數(shù)級上升、故障發(fā)生的頻率變高,這種變化驅(qū)使軟件層面必須提升系統(tǒng)穩(wěn)定性的建設(shè)和運營能力。關(guān)于系統(tǒng)穩(wěn)定性,業(yè)界專家積累了很多正向建設(shè)經(jīng)驗和原則,但缺乏有效的反向驗證手段?;煦绻こ套鳛榻┠昱d起的一種新理念,其通過設(shè)計并執(zhí)行一系列實驗,幫助發(fā)現(xiàn)IT系統(tǒng)技術(shù)架構(gòu)(需求、設(shè)計、架構(gòu)、代碼、運維等)與運營流程方面的隱藏風(fēng)險和薄弱環(huán)節(jié),從而全面提升系統(tǒng)穩(wěn)定性'?;煦绻こ唐鹪从谀物w公司(Netflix)的一次停機故障,此次故障導(dǎo)致了DVD租賃業(yè)務(wù)中斷三天,多個國家的大量用戶受到影響。隨后,奈飛的工程師逐步探索創(chuàng)建了一種名為ChaosMonkey的工具,通過隨機終止在生產(chǎn)環(huán)境中運行的實例可以快速了解正在構(gòu)建的服務(wù)是否健壯,是否有足夠的彈性可以容忍計劃外的故障?;煦绻こ汤砟钜唤?jīng)提出便在技術(shù)領(lǐng)域引起了廣泛的注意和討論,相比傳統(tǒng)測試手段,混沌工程的價值不僅僅是發(fā)現(xiàn)系統(tǒng)的風(fēng)險或“暗病”,而是綜合驗證系統(tǒng)和業(yè)務(wù)健壯性、優(yōu)化應(yīng)急預(yù)案、錘煉技術(shù)運營和應(yīng)急響應(yīng)能力、提升對客響應(yīng)和輿情攻關(guān)能力,最終提升業(yè)務(wù)、開發(fā)、測試、運維全條線人員對業(yè)務(wù)穩(wěn)定性的信心。根據(jù)《中國混沌工程調(diào)查報告》2統(tǒng)計,“混沌工程使用頻率”與“組織內(nèi)產(chǎn)品可用性”是正相關(guān)的,體現(xiàn)了混沌工程在分布式系統(tǒng)穩(wěn)定性提升的價值。圖1產(chǎn)品可用性在不同混沌工程使用頻率上的分布穩(wěn)定性測試非混沌工程首創(chuàng),但傳統(tǒng)的穩(wěn)定性測試側(cè)重點在于如何防范已知范圍內(nèi)系統(tǒng)缺陷的引入,對于需要特定外界擾動才能觸發(fā)的故障缺乏識別和修復(fù)手段,只能在系統(tǒng)故障發(fā)生時對故障進行被動的響應(yīng),導(dǎo)致故障應(yīng)對的進度和成本不可控。同時,傳統(tǒng)穩(wěn)定性測試多需要在代碼層面編寫用例,效率低下且項目覆蓋率無法得到保證。而混沌工程代碼侵入性相對較低,很好地彌補了這個短板。商業(yè)銀行混沌工程應(yīng)用背景1.3混沌工程在商業(yè)銀行快速發(fā)展技術(shù)能力(擴縮容、熔斷限流能力等),以及人員應(yīng)急處置能力?;煦绻こ搪涞靥魬?zhàn)混沌工程落地挑戰(zhàn)混沌工程落地挑戰(zhàn)混沌工程落地挑戰(zhàn)測試?突襲?業(yè)務(wù)形態(tài)圖4混沌工程開展業(yè)務(wù)形式舉例2.1.3管理機制適配混沌工程在組織內(nèi)如何切入?混沌工程在組織內(nèi)如何切入?混沌工程落地挑戰(zhàn)2.2如何評價混沌工程實踐效果2.3如何建設(shè)混沌工程團隊文化混沌工程落地體系研究3.1混沌工程基本原理研究3.1.1從風(fēng)險到事故的“海因里希法則”混沌工程落地體系研究風(fēng)險到事故的“海因里希法則”11實際的故障數(shù)量很少,導(dǎo)致輕微事故“工程師得不到訓(xùn)練”“僥幸心理”3.1.2穩(wěn)定性風(fēng)險控制的“奶酪原理”未考慮可靠性缺乏驗證機制預(yù)案左移左移左移混沌工程落地體系研究3.2混沌工程基本原則研究作為混沌工程的提出者,奈飛公司(Netflix)提出過混沌工程的指導(dǎo)思想,也即俗稱的“5大原則”:生產(chǎn)環(huán)境運行實驗、真實事件、建立穩(wěn)態(tài)假說、自動化運營實驗、最小化爆炸半徑。該原則通用性很強,但針對性不足。在遵從“5大原則”的基礎(chǔ)上,商業(yè)銀行由于業(yè)務(wù)連續(xù)性高、監(jiān)管要求高、資金敏感度高、聲譽風(fēng)險大等特點,在落地實踐中可以綜合考慮研發(fā)管理流程、驗證成本和風(fēng)險控制等因素,將通用原則轉(zhuǎn)化為“8大原則”。銀行混濾截原則圖8混沌工程參考原則原則1指出,商業(yè)銀行由于業(yè)務(wù)特點,直接在生產(chǎn)環(huán)境運行實驗并不現(xiàn)實。建議采用測試、準生產(chǎn)、灰度、生產(chǎn)環(huán)境遞進的方式,在充分評估成熟度后逐步深入。此外,原則6明確了混沌工程與傳統(tǒng)測試的互補關(guān)系,不應(yīng)因為有了混沌工程就放棄了傳統(tǒng)測試;為降低混沌工程的推廣難度,原則7建議“盡量復(fù)用已有技術(shù)和管理機制”;盡管混沌工程是提升系統(tǒng)穩(wěn)定性的有效手段,但并不是“銀彈”,對明知有穩(wěn)定性問題的IT系統(tǒng),原則8建議首要工作應(yīng)是提升系統(tǒng)自身水平,而不是先開展故障注入。3.3混沌工程落地體系研究明確了基本原理和實施原則后,更關(guān)鍵的是如何將混沌工程付諸實踐。混沌工程并不是簡單的工具應(yīng)用,而是包含了工具、人、流程的綜合體系。針對第二章提出的三類挑戰(zhàn),落地體系可拆解為實踐方法體系、評價體系和團隊文化三個部分。以下結(jié)合圖9,由“中心到兩邊”對各部分進行概述。混沌工程落地體系研究業(yè)務(wù)開展形式實驗流程步驟故障注入設(shè)計故障場景分析故障場景能力實驗觀測能力實驗注入能力配套機制組織架構(gòu)實戰(zhàn)圖9混沌工程落地體系框架進進階三階段首要目標聚焦在能力進階,在前兩階段建設(shè)基本成熟的基礎(chǔ)上,繼續(xù)優(yōu)化深耕,持續(xù)在流程管理等維度構(gòu)建規(guī)范的應(yīng)用體系,解決“從N到精”的問題。通過前兩個階段的能力建設(shè)與規(guī)?;茝V應(yīng)用,混沌工程能力已基本完備,進入常態(tài)化驗證和演練階段。通過將混沌工程能力納入項目流程管控,集成到DevOps(研發(fā)運維一體化)流水線質(zhì)量門禁規(guī)范化管理,持續(xù)錘煉實驗?zāi)芰?、?yōu)化價值效能。同時,人才隊伍建設(shè)也是關(guān)鍵一環(huán),需做好人才隊伍培養(yǎng),持續(xù)發(fā)揮技術(shù)價值。一階段從0到1,原型搭建二階段從1倒N,能力沉淀推●沉淀技術(shù)指引規(guī)范廣圖10混沌工程落地參考路徑混沌工程落地體系要點12345678RPN9454835addressesEndpointmon導(dǎo)致故障的外部因素導(dǎo)致故障的外部因素導(dǎo)致故障的內(nèi)部因素依賴的服務(wù)變更頭腦風(fēng)暴可以集眾所長、盡量全面分析系統(tǒng)可能出現(xiàn)的故障,但也高度依賴團隊經(jīng)驗,存在場景遺漏的可能。此外從故障原因的視角分析也很難控制場景數(shù)量、會造成“場景爆炸”,再加上軟件工程師不一定理解硬件,硬件工程師也不一定理解軟件,也會造成重要場景遺漏的情況。(2)基于容錯視角的故障場景分析方法(FT-FMEA)傳統(tǒng)方法存在分析框架操作性差,容易導(dǎo)致故障場景設(shè)計發(fā)散或者疏漏問題。此處提出了FT-FMEA方法(容錯視角的故障場景分析方法),具有目標清晰、操作性強的優(yōu)點。FT-FMEA從業(yè)務(wù)容錯視角出發(fā),按照應(yīng)急手段構(gòu)建了包含7類的容錯視角分析框架,對故障場景進行有效降維;進一步,借鑒SRE思路,將故障與容錯、預(yù)案、故障檢測、恢復(fù)等能力建設(shè)進行映射,解決了混沌工程實驗?zāi)康募靶枨髥栴}。以下展開進行介紹。①7維容錯視角分析框架為了讓工程師們的故障場景分析范圍可控、維度可控,本白皮書提出一種實踐層面更友好的分析方法——“容錯視角的故障場景分析法”。提出這種方法的理論基礎(chǔ)是雖然故障表現(xiàn)千差萬別,但從業(yè)務(wù)容錯視角來看,很多故障的處理手段是類似的。即從應(yīng)急處置的視角反向來看,許多故障可以合并成同一類故障。例如服務(wù)器硬盤故障、服務(wù)器CPU滿、服務(wù)器宕機,某個應(yīng)用節(jié)點返回錯誤碼5XX,這些故障原因不同,但都可以歸類為單點故障,因為從容錯視角來看,容錯手段都是把故障節(jié)點隔離,從而保證業(yè)務(wù)整體不出問題;再比如系統(tǒng)發(fā)生局部范圍故障的時候,原因可能是網(wǎng)絡(luò)故障、可能是機房掉電、還可能是應(yīng)用本身出現(xiàn)問題。但應(yīng)急處置中為了快速恢復(fù),往往也不會多花時間精準定位到具體的故障根因,而是大概定位到是哪個集群,把流量迅速切換到業(yè)務(wù)正常的集群。所以,從容錯的視角可以將多種故障場景合并同類項,大幅減少要分析的場景數(shù)量?;谏鲜鏊悸?,再結(jié)合分布式穩(wěn)定性領(lǐng)域積累的經(jīng)驗,本白皮書總結(jié)出7種故障類型,對應(yīng)最常見的7種容錯能力。基于容錯視角的故障場景分析法既可避免思維過于發(fā)散,也避免了遺漏。故障因素和容錯能力對應(yīng)關(guān)系故障因素和容錯能力對應(yīng)關(guān)系圖13容錯視角的故障場景分析框架混沌工程落地體系要點單點故障局部故障故障恢復(fù)局部故障容錯視角的7個故障類型依賴故障整體故障依賴故障變更故障過載故障圖14容錯視角的7個故障類型②結(jié)合SRE視角的進一步優(yōu)化此外,借鑒SRE思路,可進一步將FMEA方法中增加故障類型、容錯能力評估、預(yù)案、TTD、RTO、RPO等字段。綜上,在實際操作中,首先從故障歸類引導(dǎo)工程師從7個維度進行故障場景分析,而容錯能力、預(yù)案、TTD、RTO、RPO則代表混沌測試的目的——檢驗系統(tǒng)容錯能力、預(yù)案能力、故障檢測能力、恢復(fù)能力等。改進的FMEA解決了混沌測試目的和需求的問題,可稱為FT-FMEA(基于容錯視角的故障場景分析方法)表1基于容錯視角的故障場景分析方法示例分析人:XXX時間:2022-10-20目標(秒)目標(分鐘)目標高310高中50中低30低中50低低50低X0通MHA組件測mysg主市內(nèi)通性5方拾51高混沌工程落地體系要點2.故障注入設(shè)計故障注入設(shè)計是混沌工程落地面臨的難點之一,核心問題是故障注入技術(shù)如何選擇。前文提到,現(xiàn)有的故障模擬和注入技術(shù)少則幾十種、多則數(shù)百種,如果每個系統(tǒng)都要做上百次故障注入,顯然不可接受。為了解決這個問題,可借鑒容錯視角故障分類的思維,將故障注入也合并同類項。從運維實踐來看,往往會忽略故障的根因,首先根據(jù)監(jiān)控指標來做初步定位,進而快速恢復(fù)。例如單點故障,無論是CPU高導(dǎo)致業(yè)務(wù)故障、宕機導(dǎo)致業(yè)務(wù)故障、OS異常導(dǎo)致業(yè)務(wù)故障,還是其他單點故障,從監(jiān)控表現(xiàn)來說要么是中斷、要么是延遲、要是返回錯誤,因此在模擬故障時,完全不需要模擬那么多的故障類型,主要圍繞網(wǎng)絡(luò)中斷、網(wǎng)絡(luò)延遲、返回錯誤碼就能覆蓋絕大部分的故障場景。3.混沌實驗流程規(guī)范標準化的實驗步驟可以統(tǒng)一工藝流程、降低推廣成本。同時,混沌工程本身是一種“破壞性”實驗,如何控制實驗本身帶來的風(fēng)險也是實際操作中需要重點考慮的因素。結(jié)合前期實踐,本白皮書將流程初步歸納為以下7個步驟:混沌實驗實施7個步驟圖15混沌工程實驗步驟下面以系統(tǒng)登錄服務(wù)(LoginService)依次介紹7個步驟:為例,從工作內(nèi)容、建議承擔(dān)角色以及能力要求三個維度步驟1:故障場景分析內(nèi)容:根據(jù)應(yīng)用在生產(chǎn)系統(tǒng)的部署架構(gòu)(注意,盡管最終實驗環(huán)境不局限于生產(chǎn)環(huán)境,但是分析一定要面向生產(chǎn)環(huán)境),參照故障場景分析指南得出本系統(tǒng)的故障場景。角色:系統(tǒng)架構(gòu)師或SRE團隊。能力:熟悉系統(tǒng)架構(gòu)和生產(chǎn)部署情況。混沌工程落地體系要點(示例)LoginService服務(wù)故障場景分析(FMEA)分析人:XXX障檢測方目標(秒)目標(分鐘)目標(分鐘)oginService出登錄高XXX高oginService出登錄生單點故障中XXX中oginService出登錄生單點故障低XXX低oginService出登錄生單點故障中XXX中oginService出昏錄生單點故障低XXX低目標(秒)目標(分鐘)RPO(分鐘)高XXX高低中XXX中低低XXX低高中XXX中高用戶登錄/退出登錄oginService發(fā)生單點故障低XXX低中混沌工程落地體系要點(秒)目標目標高xXXX高1中xXXX中xx1xXXX低高x1中xXXXX中高x1低xXXX低中xX1表5穩(wěn)態(tài)假設(shè)示例概率目際(秒)熙目標破xxXXXx高低降輟1中xxXXXx中低1低xxXXXxx低高Xx1X中xxXXXxx中高1X低xxXXXxx低中1X混沌工程落地體系要點時間角色與參與人員處理)。實際發(fā)生了什么?怎么改進?混沌工程落地體系要點改進項責(zé)任人計劃完成時間當(dāng)前狀態(tài)1已完成234以專項形式運作容災(zāi)專項過載專項混沌工程落地體系要點混沌統(tǒng)一組織分析混沌工程一生產(chǎn)突襲混沌工程一生產(chǎn)突襲觀察者達成一致選擇故障場景設(shè)定觀察復(fù)盤圖17生產(chǎn)突襲示例4.1.2技術(shù)平臺一體化混沌工程實驗平臺ServerServer端故障場景管理中心觀測指標管理觀測大盤混沌實驗中心紅藍攻防策珞管理環(huán)境管理云平臺分布式數(shù)據(jù)庫故障模擬模塊網(wǎng)絡(luò)資源數(shù)據(jù)庫中間件系統(tǒng)資源應(yīng)用資源實驗管理實驗編排應(yīng)用設(shè)施集成資產(chǎn)案例庫管理系統(tǒng)探活管理故障場景管理混沌運營中心權(quán)限管理指標采集4.1.3管理機制混沌工程落地體系要點混沌工程落地體系要點4.2評價體系價值說明舉例風(fēng)險消減的個數(shù),等級,類型(完善了多少監(jiān)控,完善了多少預(yù)案等)1.風(fēng)險降級*個,例如*級降到*級已執(zhí)行混沌實驗場景的恢復(fù)速度提升率度從*個小時提升到*分鐘4.3企業(yè)團隊文化4.3.1技術(shù)認同感4.3.2教練人才培養(yǎng)步驟1:故障場景識別表11故障場景分析示例產(chǎn)品/服務(wù)務(wù)的故障類型目標(秒)目標(分鐘目標(分鐘該故障發(fā)生會造成什么業(yè)務(wù)卡可用機柜掉電,機柜網(wǎng)絡(luò)中斷,服務(wù)器故障中通過容器集群管理機制自動檢測服務(wù)狀態(tài),自動隔離故障節(jié)點并重建新容器1.有業(yè)務(wù)交易節(jié)點群iveness監(jiān)20舉模式至少要跨3個機架)是(o)否不涉及不清楚是(o)否不涉及不清楚低卡機房掉電,高溫,機房斷網(wǎng)(東西向,南北向,孤島),批次性硬件故障,應(yīng)用局部故障低同城20容災(zāi)能力評估項:是(o)否不涉及不清楚2.服務(wù)是否是否進行異地容災(zāi)部署是(o)否不涉及不清楚3.是否進行cell化設(shè)計且流量單元內(nèi)收斂是(o)否不涉及不清楚4.同城容災(zāi)節(jié)點是否承擔(dān)生產(chǎn)流量是(o)否不涉及不清楚5.異地容災(zāi)節(jié)點是否承擔(dān)生產(chǎn)流量是否(o)不涉及不清楚6.容災(zāi)切換工具在災(zāi)難情況下是否是(o)否不涉及不清楚7.如容災(zāi)節(jié)點不承擔(dān)生產(chǎn)流量,是否有有效性檢驗機制是(o)否不涉及不清楚雙活角度:100%的客戶同城:P4異地:P4低卡求過載主要考慮網(wǎng)絡(luò)流量過載,鏈接數(shù)過載,請求量過載高監(jiān)控00過載保護能力評估項:1.系統(tǒng)是具備限流能力是(o)否不涉及不清楚是(o)否不涉及不清楚下游雪崩是(o)否不涉及不清楚是(o)否不涉及不清楚被限流的客戶交易失敗,部分客戶交易客戶的響應(yīng)時間會增大中實踐案例務(wù)的故障類型目標(秒)目標(分鐘目標(分鐘該故障發(fā)生會造成什么業(yè)務(wù)優(yōu)先級排序卡可用機柜掉電,機柜網(wǎng)絡(luò)中斷服務(wù)器故障,OS故障,應(yīng)中自動檢測服務(wù)狀態(tài),自新容器1.有業(yè)務(wù)交易控機制探測服20(leader選舉模式至少要跨3個機架)低中卡Qpay生機房級(東西向,南北向,那島)故障低監(jiān)控,通過該同城201.是否進行了跨機房容災(zāi)部署楚2.服務(wù)是否是否進行異地容災(zāi)部署楚3.是否進行cell化設(shè)計且流量單元內(nèi)收敏4.同城容災(zāi)節(jié)點是否承擔(dān)5.異地容災(zāi)節(jié)點是否承擔(dān)生產(chǎn)流量6.容災(zāi)切換工具在災(zāi)難情況下是否保證可用7.如容災(zāi)節(jié)點不承擔(dān)生產(chǎn)流量,是否有有效性檢驗雙活角度:100%的客戶同城;P4異地:P4低高卡求量過載高如果過載是正常行為,00過載保護能力評估項:1.系統(tǒng)是具備限流能力力被限流的客戶交易失敗,部分客戶交易客戶的響應(yīng)時間會增大中高步驟3:故障注入和爆炸半徑設(shè)計表13爆炸半徑分析示例產(chǎn)品/服務(wù)務(wù)該場景能覆蓋的故障類型目標(秒)目標(分鐘目標(分鐘該故障發(fā)生會造成什么業(yè)務(wù)優(yōu)先級排序柜網(wǎng)絡(luò)中斷,服務(wù)器故障OS故障,應(yīng)用單點故障中通過容器群管理機制自動檢測服務(wù)狀態(tài),自動隔離故障節(jié)點井重建新容器1.有業(yè)務(wù)交易量的成功率監(jiān)控,成功率分集群監(jiān)控,通過該監(jiān)控指標可以判斷故障務(wù)狀態(tài)20(leader選舉模式至少要跨3個機架是(o)否不涉及不清楚2.機架故障后,剩余容量是否充足是(o)否不涉及不低中個pod,機房掉電,高溫,機房斷網(wǎng)(東西向,南北向,孤島)批次性硬件故障,應(yīng)用局部故障低其他園區(qū)同城2異地1001.是否進行了跨機房容災(zāi)部署是(o)否不涉及不清楚2.服務(wù)是否是否進行異地容災(zāi)部署是(o)否不涉及不3.是否進行cell化設(shè)計是(o)否不涉及不4.同城容災(zāi)節(jié)點是否承擔(dān)生產(chǎn)流量是(o)否不涉及不5.異地容災(zāi)節(jié)點是否承擔(dān)生產(chǎn)流量是否(o)不涉及不6.容災(zāi)切換工具在災(zāi)難是(o)否不涉及不7.如容災(zāi)節(jié)點不承擔(dān)生產(chǎn)流量,是否有有效是(o)否不涉及不雙活角度:100%的客戶低高同城容災(zāi)級主要考慮網(wǎng)絡(luò)流量過載,鏈接數(shù)過載,請求量過載高事先配置好限流閾值,如果過載是正常行為,擴容解決對應(yīng)的錯誤碼001.系統(tǒng)是具備限流能力是(o)否不涉及不清楚2.是否配置了合適的流控規(guī)則是(o)否不涉及不3.是否具備熔斷降級能力防止下游雪崩是(o)否不涉及不4.是否具備橫向擴容能力是(o)否不涉及不清楚被限流的客戶交易失敗,部分客戶交易客戶的響應(yīng)時間會增大中高使用壓測工具對4個接口發(fā)壓5倍流量級實踐案例步驟4:穩(wěn)態(tài)假設(shè)表14信用卡快捷支付服務(wù)穩(wěn)態(tài)設(shè)置示例務(wù)目標(秒)目標(分鐘)目標(分鐘)該故隱發(fā)生會造成什么業(yè)務(wù)影響優(yōu)先級排序徑方法卡Qpay機柜掉電,機柜網(wǎng)絡(luò)中斷,服務(wù)器故障,OS中通過容器集群管理機制自動檢測服務(wù)狀態(tài),自動隔離故障節(jié)點并重建新容器率監(jiān)控,成功率分集群監(jiān)控,通過該監(jiān)控指標可以判斷故0(leader選舉模式余容量是否充足低中服務(wù)的一個pod,注入網(wǎng)絡(luò)級中止故隨注入,恢如果無法恢復(fù),則重啟服務(wù)器進行恢復(fù)無聚急告警卡機房掉電,高溫,機房斷網(wǎng)(東西向,南北向現(xiàn)島),批低通過容災(zāi)的方式切換到其他園區(qū)監(jiān)控指標可0容災(zāi)能力評估項:用效性檢驗機制雙活角度:50%的客戶交易失敗持續(xù)2分鐘100%的客戶P4低高級無緊急告警卡求過載高事先配置好限流閾值如果過載是正常行為00力能力防止下游雪崩力大中高使用壓測工具對4個培口發(fā)壓5倍流量級1無緊急告警步驟5:計劃與周知表15實驗計劃示例蹄步驟6:執(zhí)行實驗表16實驗執(zhí)行示例霧勢步驟7:復(fù)盤與改進表17復(fù)盤示例系統(tǒng)同城容災(zāi)切換時間(RTO)2分鐘暫無差異6.1.1自動化故障場景分析微服務(wù)故障場景規(guī)則6.1.2超大規(guī)模故障注入和回退6.1.3請求級別的無侵入故障注入BB6.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中級財務(wù)會計知到課后答案智慧樹章節(jié)測試答案2025年春菏澤學(xué)院
- 塔里木職業(yè)技術(shù)學(xué)院《景觀設(shè)計4》2023-2024學(xué)年第二學(xué)期期末試卷
- 黑龍江省七臺河市茄子河區(qū)2025年數(shù)學(xué)三下期末檢測模擬試題含解析
- 陜西國際商貿(mào)學(xué)院《視頻內(nèi)容傳達》2023-2024學(xué)年第二學(xué)期期末試卷
- 贛州職業(yè)技術(shù)學(xué)院《住宅空間設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧大學(xué)《地球概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 甘孜職業(yè)學(xué)院《藥用高分子材料》2023-2024學(xué)年第二學(xué)期期末試卷
- 西安工程大學(xué)《工程水文》2023-2024學(xué)年第一學(xué)期期末試卷
- 昭通市威信縣2025年小升初數(shù)學(xué)模擬試卷含解析
- 溫州商學(xué)院《語料庫實踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 電機制造工廠布局
- 人教版二年級下冊計算題100道及答案
- 2023初中七年級全體育教案(共36課)
- 【工商管理專業(yè)畢業(yè)綜合訓(xùn)練報告2600字(論文)】
- 附睪炎的護理查房
- 新形勢下加強邊疆民族地區(qū)國防教育的思考
- 2024年同等學(xué)力申碩-同等學(xué)力(新聞傳播學(xué))歷年考試高頻考點試題附帶答案
- 《小學(xué)數(shù)學(xué)課程標準與教材教學(xué)研究》課件 12圖形的運動
- INSAR技術(shù)在城市地面沉降監(jiān)測中的應(yīng)用
- 【人力資源管理工具】員工獎懲審批表(表格版)
- 商事糾紛解決的法律框架
評論
0/150
提交評論