版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
分布式系統(tǒng)穩(wěn)定性建設(shè)指南(2022年)20226目錄一、系統(tǒng)穩(wěn)定性建設(shè)概述 1(一)分布式系統(tǒng)面臨穩(wěn)定性保障新挑戰(zhàn) 1(二)政策引導(dǎo)IT系統(tǒng)穩(wěn)定性建設(shè)平穩(wěn)推進(jìn) 3二、分布式系統(tǒng)穩(wěn)定性建設(shè)總體視圖 6三、分布式系統(tǒng)穩(wěn)定性建設(shè)目標(biāo) 8(一)穩(wěn)定性建設(shè)目標(biāo) 8(二)穩(wěn)定性評(píng)價(jià)指標(biāo) 9四、分布式系統(tǒng)穩(wěn)定性建設(shè)模式 (一)架構(gòu)設(shè)計(jì) (二)容量設(shè)計(jì) 23(三)運(yùn)維方案設(shè)計(jì) 28(四)安全設(shè)計(jì) 43五、分布式系統(tǒng)穩(wěn)定性建設(shè)路徑 46(一)穩(wěn)定性建設(shè)需求分析 46(二)穩(wěn)定性建設(shè)實(shí)現(xiàn)分析 47(三)穩(wěn)定性建設(shè)活動(dòng) 48(四)穩(wěn)定性建設(shè)工具 54六、分布式系統(tǒng)穩(wěn)定性建設(shè)行業(yè)特點(diǎn) 71(一)互聯(lián)網(wǎng)業(yè) 71(二)銀行業(yè) 73(三)證券業(yè) 75(四)通信業(yè) 76(五)云服務(wù)業(yè) 78(六)零售業(yè) 79(七)能源業(yè) 81七、分布式系統(tǒng)穩(wěn)定性建設(shè)展望 83(一)人才、生態(tài)、標(biāo)準(zhǔn)亟待關(guān)注,多重措施提升穩(wěn)定性發(fā)展水平 83(二)順應(yīng)時(shí)代發(fā)展需求,推動(dòng)穩(wěn)定性建設(shè)進(jìn)入新階段 85附錄1 88附錄2 89圖目錄圖1運(yùn)維復(fù)雜度示意圖 2圖2分布式系統(tǒng)穩(wěn)定性建設(shè)總體視圖 6圖3穩(wěn)定性建設(shè)目標(biāo)視圖 8圖4中國(guó)信通院“穩(wěn)保計(jì)劃” 51圖5項(xiàng)目開(kāi)展前穩(wěn)定性體檢視圖 52圖6項(xiàng)目開(kāi)展中穩(wěn)定性測(cè)試視圖 53圖7分布式系統(tǒng)穩(wěn)定性度量模型 53圖8混沌工程成熟度模型 54圖9分布式系統(tǒng)穩(wěn)定性建設(shè)工具關(guān)系圖 55圖10穩(wěn)定性管理建設(shè)架構(gòu) 56圖可觀測(cè)能力框架圖 58圖12變更管理能力建設(shè)框架圖 60圖13容量管理能力建設(shè)框架圖 61圖14全鏈路壓測(cè)能力框架圖 63圖15混沌工程平臺(tái)能力建設(shè)框架圖 65圖16混沌工程與軟件完整生命周期對(duì)應(yīng)圖 66圖17應(yīng)急平臺(tái)能力框架圖 67圖18容災(zāi)管理能力建設(shè)框架圖 69圖19應(yīng)用多活能力框架圖 70表目錄表1國(guó)內(nèi)推動(dòng)系統(tǒng)穩(wěn)定性建設(shè)的相關(guān)政策 3表2容錯(cuò)等級(jí)設(shè)計(jì) 21表3系統(tǒng)觀測(cè)覆蓋資源 35表4穩(wěn)定性風(fēng)險(xiǎn)基準(zhǔn)表格示例 42表5安全漏洞類型及防范措施 44表6中美穩(wěn)定性工具開(kāi)源情況 86表7穩(wěn)定性守護(hù)者列表 88表8混沌工程實(shí)驗(yàn)室成員列表 89分布式系統(tǒng)穩(wěn)定性建設(shè)指南(2022分布式系統(tǒng)穩(wěn)定性建設(shè)指南(2022年)PAGEPAGE10一、系統(tǒng)穩(wěn)定性建設(shè)概述定性能力建設(shè)成為企業(yè)等機(jī)構(gòu)組織提升業(yè)務(wù)連續(xù)性能力的核心關(guān)注點(diǎn)(一)分布式系統(tǒng)面臨穩(wěn)定性保障新挑戰(zhàn)2060IO場(chǎng)景的多樣化,集中式的處理模式越來(lái)越顯得捉襟見(jiàn)肘,同時(shí)隨著PCIT圖1運(yùn)維復(fù)雜度示意圖
來(lái)源:公開(kāi)資料整理(二)政策引導(dǎo)IT系統(tǒng)穩(wěn)定性建設(shè)平穩(wěn)推進(jìn)IT(2022-2025表1國(guó)內(nèi)推動(dòng)系統(tǒng)穩(wěn)定性建設(shè)的相關(guān)政策時(shí)間機(jī)構(gòu)政策名稱相關(guān)內(nèi)容2021年12月24日第十三屆全國(guó)人大常委會(huì)第三十二次會(huì)議審議中華人民共和國(guó)突發(fā)事件應(yīng)對(duì)法新增“管理體制”一章,修訂內(nèi)容包括:完善應(yīng)急保障制度;加強(qiáng)突發(fā)事件應(yīng)對(duì)管理能力建設(shè)。2021年4月27日國(guó)務(wù)院關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例《條例》對(duì)制定行業(yè)安全保護(hù)規(guī)劃、建立信息共享機(jī)制、建立健全監(jiān)測(cè)預(yù)警制度、明確網(wǎng)絡(luò)安全事件應(yīng)急處置要求、組織安全檢查檢測(cè)、提供技術(shù)支持和協(xié)助等作了規(guī)定。2021年11月30日工業(yè)和信息化部《“十四五”軟件和信息技術(shù)服務(wù)業(yè)發(fā)展規(guī)劃》提升軟件質(zhì)量管理能力。測(cè)試驗(yàn)證、質(zhì)量分析等工具研發(fā),提升質(zhì)量監(jiān)控、預(yù)警和評(píng)價(jià)能力。2022年1月4日中國(guó)人民銀行《金融科技發(fā)展規(guī)劃(2022—2025)》強(qiáng)調(diào)高質(zhì)量推進(jìn)金融數(shù)字化轉(zhuǎn)型2021年10月21日中國(guó)證監(jiān)會(huì)科技監(jiān)管局《證券期貨業(yè)科技發(fā)展“十四五”規(guī)劃》強(qiáng)調(diào)遵循四項(xiàng)原則,其中第一項(xiàng)為“穩(wěn)字當(dāng)頭、穩(wěn)中求進(jìn)”2011年12月28日中國(guó)銀行保險(xiǎn)監(jiān)督管理委員會(huì)《商業(yè)銀行業(yè)務(wù)連續(xù)性監(jiān)管指引》商業(yè)銀行應(yīng)當(dāng)將業(yè)務(wù)連續(xù)性管理納入全面風(fēng)險(xiǎn)管理體系。2021年11月26日中國(guó)銀行保險(xiǎn)監(jiān)督管理委員會(huì)《關(guān)于銀行業(yè)保險(xiǎn)業(yè)支持高水平科技自立自強(qiáng)的指導(dǎo)意見(jiàn)》堅(jiān)持風(fēng)險(xiǎn)可控。統(tǒng)籌發(fā)展與安全,完善風(fēng)險(xiǎn)控制機(jī)制,提升科技金融風(fēng)險(xiǎn)管理能力。2018年5月21日中國(guó)銀行保險(xiǎn)監(jiān)督管理委員會(huì)《銀行業(yè)金融機(jī)構(gòu)數(shù)據(jù)治理指引》銀行業(yè)金融機(jī)構(gòu)應(yīng)當(dāng)建立數(shù)據(jù)應(yīng)急預(yù)案,根據(jù)業(yè)務(wù)影響分析,組織開(kāi)展應(yīng)急演練,完善處置流程,保證在系統(tǒng)服務(wù)異常以及危機(jī)等情景下數(shù)據(jù)的完整、準(zhǔn)確和連續(xù)。2008年4月23日中國(guó)銀行保險(xiǎn)監(jiān)督管理委員會(huì)《銀行業(yè)重要突發(fā)事件應(yīng)急管理規(guī)范(試行)》對(duì)商業(yè)銀行的業(yè)務(wù)連續(xù)性作出了明確要求。來(lái)源:公開(kāi)資料整理二、分布式系統(tǒng)穩(wěn)定性建設(shè)總體視圖2來(lái)源:中國(guó)信息通信研究院圖2分布式系統(tǒng)穩(wěn)定性建設(shè)總體視圖4三、分布式系統(tǒng)穩(wěn)定性建設(shè)目標(biāo)量化。來(lái)源:中國(guó)信息通信研究院圖3穩(wěn)定性建設(shè)目標(biāo)視圖(一)穩(wěn)定性建設(shè)目標(biāo)降發(fā)生,即降低故障發(fā)生的概率高可用系統(tǒng)優(yōu)改進(jìn),(二)穩(wěn)定性評(píng)價(jià)指標(biāo)穩(wěn)定性保障是一項(xiàng)非常寬泛且復(fù)雜的工作,規(guī)劃整體穩(wěn)定性保障體系落地首先需要一組簡(jiǎn)單清晰易衡量的評(píng)價(jià)指標(biāo)來(lái)整體牽引穩(wěn)定性能力的建設(shè)。根據(jù)企業(yè)規(guī)模和發(fā)展階段可以酌情從三個(gè)維度考慮,評(píng)估系統(tǒng)穩(wěn)定性:業(yè)務(wù)可用程度、用戶影響程度以及資金損失程度。SLASLASLA、RPO用戶影響程度:穩(wěn)定性能力建設(shè)的目標(biāo)之一就是降低故障影響,所以故障發(fā)生之后,用戶影響程度也是評(píng)價(jià)系統(tǒng)穩(wěn)定性的重要指標(biāo),這里的影響程度主要是指受影響的用戶數(shù)量。四、分布式系統(tǒng)穩(wěn)定性建設(shè)模式穩(wěn)定性建設(shè)模式是指在開(kāi)展穩(wěn)定性建設(shè)工作過(guò)程中應(yīng)重點(diǎn)關(guān)注(一)架構(gòu)設(shè)計(jì)(去除單點(diǎn)硬件單點(diǎn)(crashfail-stop)(。存儲(chǔ)單點(diǎn)網(wǎng)絡(luò)單點(diǎn)機(jī)房單點(diǎn)IDCIDC部署是否(IDC中IDC/機(jī)后的快速的failover3000)SLA(如JS)JSCSS依賴設(shè)計(jì)(的判斷:(、公共存儲(chǔ),不允許有其它基礎(chǔ)技術(shù)服務(wù)、內(nèi)部服務(wù)或外部服務(wù)依賴。(操作系統(tǒng)或JVM(數(shù)據(jù)保護(hù)恢)RTO(,RTO),(RPO接近0)?;诒镜乇P的數(shù)據(jù)庫(kù)系統(tǒng),數(shù)據(jù)保護(hù)采取跨機(jī)房異步復(fù)制方式,服務(wù)器出現(xiàn)不可恢復(fù)性故障時(shí)存在數(shù)據(jù)丟失。(如EBS)redoIDC基于同城異機(jī)房保護(hù)的數(shù)據(jù)庫(kù)系統(tǒng),采取同城異機(jī)房?jī)?nèi)多份redo保護(hù)及跨機(jī)房DG,城市出現(xiàn)災(zāi)難時(shí)存在數(shù)據(jù)丟失。災(zāi)備設(shè)計(jì)/冷備技術(shù)冷備技術(shù)最初是通過(guò)將數(shù)據(jù)放在異地進(jìn)行備份,解決了應(yīng)用及數(shù)主備技術(shù)生。/應(yīng)用雙活/多活是以應(yīng)用為中心的云原生容災(zāi)架構(gòu),是容災(zāi)技術(shù)彈性設(shè)計(jì)系統(tǒng)必須具備防止故障從一個(gè)系統(tǒng)/組件傳播到另一個(gè)系統(tǒng)/組件的能力。故障從一個(gè)系統(tǒng)/組件傳播到另一個(gè)系統(tǒng)/組件通常有以下兩種原因。系統(tǒng)///系統(tǒng)/組件間共享資源:如果系統(tǒng)/組件間存在共享的資源(如線程池、數(shù)據(jù)庫(kù)連接池、網(wǎng)絡(luò)連接池、內(nèi)存區(qū)等),當(dāng)一個(gè)系統(tǒng)/組件因?yàn)楣收虾谋M了共享的資源后,所有依賴該資源的系統(tǒng)/組件也都會(huì)訪問(wèn)量控制是指服務(wù)提供者或者服務(wù)使用者對(duì)服務(wù)資源有效的SLA控制,在做訪問(wèn)量控制設(shè)計(jì)時(shí),需要關(guān)注以下幾方面:()我們要求所有對(duì)外提供服務(wù)的系統(tǒng)(web)(即具備限流能力)。響擴(kuò)大。服務(wù)調(diào)用方需要對(duì)關(guān)鍵交易場(chǎng)景下的非關(guān)鍵服務(wù)訪問(wèn)進(jìn)行容(充足。原則上建議設(shè)定統(tǒng)一的SLASLA模型SLA服務(wù)限流是當(dāng)負(fù)載超出系統(tǒng)/組件的處理能力上限時(shí),可能會(huì)造tps為2000,通過(guò)規(guī)則限制上游服務(wù)每秒調(diào)用的t20ps后隨機(jī)服務(wù)降級(jí)是當(dāng)出現(xiàn)系統(tǒng)/組件故障后,以犧牲某些業(yè)務(wù)功能或者服務(wù)熔斷(FailFast)的機(jī)A調(diào)用當(dāng)下游BBB服容錯(cuò)設(shè)計(jì)2。表2容錯(cuò)等級(jí)設(shè)計(jì)容錯(cuò)設(shè)計(jì)等級(jí)等級(jí)描述無(wú)容錯(cuò)性設(shè)計(jì)所依賴的外部資源訪問(wèn)出錯(cuò),本應(yīng)用未能檢測(cè)識(shí)別到,導(dǎo)致應(yīng)用處理數(shù)據(jù)出錯(cuò),造成臟數(shù)據(jù)的弱容錯(cuò)性設(shè)計(jì)所依賴的外部資源訪問(wèn)出錯(cuò),本應(yīng)用服務(wù)不可用且難以恢復(fù)的基本容錯(cuò)性設(shè)計(jì)所依賴的外部資源訪問(wèn)出錯(cuò),本應(yīng)用服務(wù)不可用,但是由人工操作后可恢復(fù)的較強(qiáng)容錯(cuò)性設(shè)計(jì)所依賴的外部資源訪問(wèn)出錯(cuò),本應(yīng)用服務(wù)不可用,但可自動(dòng)恢復(fù)的強(qiáng)容錯(cuò)性設(shè)計(jì)所依賴的外部資源訪問(wèn)出錯(cuò),本應(yīng)用不受影響并正常對(duì)外提供服務(wù)的常對(duì)外提供服務(wù)的來(lái)源:中國(guó)信息通信研究院)100%可用的原則,在關(guān)鍵處理路徑上針對(duì)如一次嵌套分布式事務(wù)的所有參與者本身都會(huì)對(duì)主事務(wù)號(hào)的唯一性(二)容量設(shè)計(jì)數(shù)據(jù)增長(zhǎng)預(yù)測(cè)數(shù)據(jù)庫(kù)訪問(wèn)量:計(jì)算服務(wù)實(shí)現(xiàn)中對(duì)每一個(gè)數(shù)據(jù)庫(kù)的訪問(wèn)量,可以表達(dá)為每秒/分事務(wù)數(shù)(TPS/TPM)或每秒/分查詢數(shù)(QPS/QPM),確保對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)量在數(shù)據(jù)庫(kù)可承受范圍內(nèi)。(網(wǎng)絡(luò)流量SSL設(shè)(消息量(息隊(duì)列)IDC內(nèi)部資源使用數(shù)據(jù)源連接池:在給定的服務(wù)訪問(wèn)量下,針對(duì)數(shù)據(jù)源連接數(shù)(MAX/MIN)100TPS500msMAX50(100TPS*0.5s)。但合接數(shù)的影響以及與對(duì)JVMSQLJVM配置。JVMJVMGCJVM((伸縮性TDDLIDC容量IDCIDCIDCIDCIDC100%鏈路分析吞吐量提升等針對(duì)性能進(jìn)行優(yōu)化,例如gc調(diào)優(yōu)、慢sql(三)運(yùn)維方案設(shè)計(jì)變更管控行過(guò)程。兼容設(shè)計(jì)((JVM,Apache,JBoss,Tomcat等發(fā)布順序是否合理。根據(jù)系統(tǒng)間依賴指定合適的發(fā)布先后順序?;叶茸兏€上環(huán)境beta發(fā)(方案的可回滾性:遷移過(guò)程中各個(gè)階段如果發(fā)生了計(jì)劃外風(fēng)險(xiǎn),必須要終止遷移操作的,是否具備了已遷移數(shù)據(jù)回滾能力。涉及重要性高的服務(wù)的數(shù)據(jù)遷移方案必須完整、安全、可實(shí)施、可檢測(cè)、可回滾。回滾的必要性:應(yīng)用新版本計(jì)劃應(yīng)該制定詳盡的回滾計(jì)劃,能夠。動(dòng)態(tài)配置能力可以從以下方面進(jìn)行設(shè)計(jì):動(dòng)態(tài)配置變更的時(shí)機(jī):預(yù)發(fā)布變更、發(fā)布后變更等;;復(fù)核驗(yàn)證每個(gè)變更都需要有復(fù)核人,對(duì)于標(biāo)準(zhǔn)變更,復(fù)核人可只對(duì)結(jié)果進(jìn)可觀測(cè)設(shè)計(jì)對(duì)于應(yīng)用系統(tǒng)觀測(cè)需要覆蓋的資源類型如表3所示。表3系統(tǒng)觀測(cè)覆蓋資源覆蓋類型指標(biāo)描述基礎(chǔ)設(shè)施操作系統(tǒng)、中間件等運(yùn)行監(jiān)控,包括計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源,如CPU、load、線程池等系統(tǒng)服務(wù)鏈路系統(tǒng)各節(jié)點(diǎn)運(yùn)行情況,便于定位問(wèn)題節(jié)點(diǎn)應(yīng)用依賴系統(tǒng)組件依賴服務(wù),如存儲(chǔ)、中間件、第三方依賴核心組件應(yīng)用核心處理邏輯的關(guān)鍵運(yùn)行數(shù)據(jù)及報(bào)錯(cuò)監(jiān)控業(yè)務(wù)運(yùn)行能夠直接體現(xiàn)業(yè)務(wù)運(yùn)行情況,包括用戶體驗(yàn)監(jiān)控來(lái)源:公開(kāi)資料整理?yè)?jù)。演練設(shè)計(jì)預(yù)案演練明確演練場(chǎng)景。明確要演練的故障場(chǎng)景及影響范圍。人?;厍星皺z查。同演練前檢查操作,檢查系統(tǒng)、應(yīng)用、網(wǎng)絡(luò)等狀態(tài)是否正常?;厍须A段。通過(guò)工具編排操作指令,進(jìn)行自動(dòng)化切換。關(guān)災(zāi)難演練災(zāi)難演練根據(jù)災(zāi)備方案組織相關(guān)的組織機(jī)構(gòu)和人員,利用異地資0.75的資源,保證災(zāi)備環(huán)境的可用性。災(zāi)難演練方案一般包含如下內(nèi)容:);DNS自動(dòng)化執(zhí)行。切換盡量采用工具化,對(duì)切換作業(yè)進(jìn)行編排流程,實(shí)現(xiàn)一鍵切換。運(yùn)行監(jiān)控方案。分布式應(yīng)用系統(tǒng)切換后在異地機(jī)房的運(yùn)行需要進(jìn)混沌實(shí)驗(yàn)風(fēng)險(xiǎn)巡檢風(fēng)險(xiǎn)巡檢驗(yàn)證方案即可配合上述演練驗(yàn)證方案同步進(jìn)行,也可獨(dú)立實(shí)施。它是一種白盒化的可擴(kuò)展風(fēng)險(xiǎn)管理和巡檢能力。一個(gè)基礎(chǔ)的風(fēng)險(xiǎn)巡檢方案包含以下必要的要素:4表4穩(wěn)定性風(fēng)險(xiǎn)基準(zhǔn)表格示例子域穩(wěn)定性風(fēng)險(xiǎn)影響描述關(guān)鍵指標(biāo)修復(fù)建議風(fēng)險(xiǎn)級(jí)別風(fēng)險(xiǎn)評(píng)分?jǐn)?shù)據(jù)庫(kù)Druid連接池配置不合理當(dāng)連接池配置不合理時(shí)會(huì)造成數(shù)據(jù)庫(kù)操作請(qǐng)求阻塞和延遲。若initialSize=0,建議調(diào)整;minIdle=0,建議調(diào)整;若建議調(diào)整initialSize:初始連接數(shù),連接池啟動(dòng)時(shí)創(chuàng)建的初始化連接數(shù)量maxActive連接池在同一時(shí)間能夠分配的最大活動(dòng)連接的數(shù)量中5JVM線程嚴(yán)重阻塞嚴(yán)重的鎖競(jìng)爭(zhēng)導(dǎo)致線程阻塞對(duì)響應(yīng)時(shí)間和TPS造成較大影響等鎖線程數(shù)(或比例)大于X找出等鎖線程中不合理的設(shè)計(jì)進(jìn)行調(diào)整高8
來(lái)源:公開(kāi)資料整理Schema定義??赏ㄟ^(guò)Agent數(shù)據(jù)比對(duì)。將采集到的數(shù)據(jù)與各子域?qū)?yīng)的基準(zhǔn)數(shù)據(jù)進(jìn)行比對(duì),將命中的數(shù)據(jù)進(jìn)行匯總,以報(bào)告形式輸出。數(shù)據(jù)報(bào)告定時(shí)巡檢。(四)安全設(shè)計(jì)系統(tǒng)安全是系統(tǒng)穩(wěn)定的基礎(chǔ),沒(méi)有安全的運(yùn)行環(huán)境,穩(wěn)定性也無(wú)從談起。系統(tǒng)安全性設(shè)計(jì)可以劃分為如下幾個(gè)方面。系統(tǒng)設(shè)計(jì)安全從系統(tǒng)設(shè)計(jì)的安全性來(lái)說(shuō),目前大多系統(tǒng)的分布式結(jié)構(gòu)稍不留神就會(huì)產(chǎn)生安全隱患?,F(xiàn)在已經(jīng)有一些代碼安全掃描工具(如:Fortify,CxSuite等)幫助開(kāi)發(fā)者進(jìn)行一些安全和漏洞識(shí)別。常見(jiàn)的由系統(tǒng)設(shè)計(jì)不當(dāng)產(chǎn)生的安全漏洞類型及防范措施見(jiàn)表5。表5安全漏洞類型及防范措施漏洞類型漏洞描述防范措施輸入驗(yàn)證漏洞cookiehttp協(xié)議頭、大文件攻擊等。這些攻擊包括命令執(zhí)行、跨站點(diǎn)腳本(XSS)、SQL注入和緩沖區(qū)溢出。在后臺(tái)代碼中必須驗(yàn)證輸入信息后才向服務(wù)層提交。身份驗(yàn)證漏洞標(biāo)識(shí)欺騙、密碼破解、特權(quán)提升和未經(jīng)授權(quán)的訪問(wèn)。程序設(shè)計(jì)中用戶身份信息必須由通過(guò)表單提交和頁(yè)面參數(shù)的形式獲取用戶身份。授權(quán)漏洞非法用戶訪問(wèn)保密數(shù)據(jù)或受限數(shù)據(jù)、篡改數(shù)據(jù)及執(zhí)行未經(jīng)授權(quán)操作訪問(wèn)保密數(shù)據(jù)時(shí)一定要根據(jù)用戶敏感數(shù)據(jù)保護(hù)漏洞泄露保密信息以及篡改數(shù)據(jù)在儲(chǔ)存敏感數(shù)據(jù)時(shí)要采用合適的加密算法來(lái)對(duì)數(shù)據(jù)進(jìn)行加密。日志記錄漏洞不能發(fā)現(xiàn)入侵跡象、不能驗(yàn)證用戶操作以及在無(wú)法幫助診斷問(wèn)題操作記錄可溯源。來(lái)源:公開(kāi)資料整理部署和操作系統(tǒng)安全OS或引用到第三方組件的安全風(fēng)險(xiǎn),數(shù)據(jù)安全網(wǎng)絡(luò)安全,如:https協(xié)議五、分布式系統(tǒng)穩(wěn)定性建設(shè)路徑“”(一)穩(wěn)定性建設(shè)需求分析(求務(wù)restful(二)穩(wěn)定性建設(shè)實(shí)現(xiàn)分析):服務(wù)實(shí)現(xiàn)流程分析分析明確服務(wù)的實(shí)現(xiàn)流程,如服務(wù)實(shí)現(xiàn)的UML活動(dòng)圖、UML序列圖或者業(yè)務(wù)流程圖等。強(qiáng)弱依賴分析待立即返回;依賴權(quán)重:一次服務(wù)過(guò)程中依賴的次數(shù),即訪問(wèn)的次數(shù)。針對(duì)具體的服務(wù)類型,需要針對(duì)性地開(kāi)展依賴分析,如:(機(jī)制)K-V部署架構(gòu)分析IDC訪問(wèn)模式與訪問(wèn)量分析(三)穩(wěn)定性建設(shè)活動(dòng)穩(wěn)定性建設(shè)模式需要一系列具體的建設(shè)活動(dòng)推進(jìn)和落地,這些建設(shè)模式。建設(shè)穩(wěn)定性保障機(jī)制規(guī)范編制。值班周期內(nèi)的所有問(wèn)題由值班人員治理,不能及時(shí)完成的,添加到BUG率。建設(shè)組織保障能力人力支持,11測(cè)試環(huán)境部署等。)建設(shè)穩(wěn)定性保障體系參考中國(guó)信通院提出的“穩(wěn)保計(jì)劃”圖4中國(guó)信通院“穩(wěn)保計(jì)劃”
來(lái)源:中國(guó)信息通信研究院,企業(yè)可依據(jù)體檢結(jié)果以及需求/預(yù)算/來(lái)源:中國(guó)信息通信研究院圖5項(xiàng)目開(kāi)展前穩(wěn)定性體檢視圖據(jù)測(cè)試情況校準(zhǔn)建設(shè)路徑。并通過(guò)參與行業(yè)穩(wěn)定性領(lǐng)域?qū)<医M成的來(lái)源:中國(guó)信息通信研究院圖6項(xiàng)目開(kāi)展中穩(wěn)定性測(cè)試視圖穩(wěn)定性項(xiàng)目實(shí)施后,可以依據(jù)“系統(tǒng)穩(wěn)定性成熟度定位方法”、來(lái)源:中國(guó)信息通信研究院圖7分布式系統(tǒng)穩(wěn)定性度量模型來(lái)源:中國(guó)信息通信研究院圖8混沌工程成熟度模型(四)穩(wěn)定性建設(shè)工具來(lái)源:中國(guó)信息通信研究院圖9分布式系統(tǒng)穩(wěn)定性建設(shè)工具關(guān)系圖穩(wěn)定性綜合管理微服務(wù)化日甚的當(dāng)下,故障影響往往是復(fù)雜多樣的(單一節(jié)點(diǎn)故障可能導(dǎo)致全線業(yè)務(wù)出錯(cuò)),往往需要多個(gè)技術(shù)團(tuán)隊(duì)的協(xié)同保障系統(tǒng)穩(wěn)定。需要統(tǒng)一的系統(tǒng)化穩(wěn)定性管理能力作為“連接器”實(shí)現(xiàn)多團(tuán)隊(duì)協(xié)同“透明化”作戰(zhàn),并進(jìn)一步通過(guò)故障應(yīng)急過(guò)程及結(jié)果數(shù)據(jù)復(fù)盤,SLO(ServiceLevelObjective,10圖10穩(wěn)定性管理建設(shè)架構(gòu)
來(lái)源:中國(guó)信息通信研究院為后續(xù)能力演進(jìn)打好非常好的基礎(chǔ),如結(jié)構(gòu)化SLO對(duì)AIOps(tiiilntlligneorTptions智能運(yùn)維故障預(yù)防工具圖11可觀測(cè)能力框架圖
來(lái)源:中國(guó)信息通信研究院CPU/磁盤I/ONSLO變更管理以形成:變更信息標(biāo)準(zhǔn)化、變更中樞統(tǒng)一、變更風(fēng)控三層能力。圖12來(lái)源:中國(guó)信息通信研究院圖12變更管理能力建設(shè)框架圖容量管理容量管理的目的是在恰當(dāng)?shù)臅r(shí)間以一種經(jīng)濟(jì)節(jié)約的方式為數(shù)據(jù)3容。((參數(shù))對(duì)應(yīng)急資源,云資源進(jìn)行多重SLO圖13容量管理能力建設(shè)框架圖
來(lái)源:公開(kāi)資料整理年初,生產(chǎn)全鏈路壓測(cè)的方法開(kāi)始誕生,其目標(biāo)是希望在大型CDN全鏈路壓測(cè)常見(jiàn)誤區(qū):全鏈路性能測(cè)試解決了單點(diǎn)性能測(cè)試無(wú)法從業(yè)務(wù)的全生命周期圖14全鏈路壓測(cè)能力框架圖
來(lái)源:中國(guó)信息通信研究院全鏈路性能測(cè)試能力的構(gòu)建,主要由以下幾部分構(gòu)成:(壓測(cè)工具,通過(guò)腳本模擬業(yè)務(wù)流量,如:JMeter、LoadRunner等。流量回放混沌工程N(yùn)etflix開(kāi)展混沌工程實(shí)驗(yàn)可分為以下步驟:障效果的具體表現(xiàn)、故障持續(xù)時(shí)長(zhǎng)、發(fā)生頻率等。半徑來(lái)源:中國(guó)信息通信研究院圖15混沌工程平臺(tái)能力建設(shè)框架圖在上述混沌工程基礎(chǔ)能力之上,為了讓混沌工程在分布式穩(wěn)定性來(lái)源:公開(kāi)資料整理圖16混沌工程與軟件完整生命周期對(duì)應(yīng)圖技術(shù)實(shí)現(xiàn)穩(wěn)態(tài)自動(dòng)化對(duì)照分析(DevOps故障止損工具應(yīng)急平臺(tái)應(yīng)急平臺(tái)的建設(shè)主要考慮以下方面:圖17應(yīng)急平臺(tái)能力框架圖
來(lái)源:公開(kāi)資料整理容災(zāi)管理分布式系統(tǒng)的擴(kuò)展伸縮架構(gòu)能力天然為災(zāi)難逃逸提供了前置條IDC容災(zāi)揭示:主要從機(jī)房、業(yè)務(wù)、服務(wù)、存儲(chǔ)4個(gè)層面進(jìn)行度量,通過(guò)一系列的健康巡檢給出預(yù)示和告警。18圖18容災(zāi)管理能力建設(shè)框架圖
來(lái)源:公開(kāi)資料整理數(shù)據(jù)層:圖19應(yīng)用多活能力框架圖
來(lái)源:中國(guó)信息通信研究院六、分布式系統(tǒng)穩(wěn)定性建設(shè)行業(yè)特點(diǎn)(一)互聯(lián)網(wǎng)業(yè)互聯(lián)網(wǎng)行業(yè)特點(diǎn)及技術(shù)挑戰(zhàn)原生的DevOpsKubernetes/運(yùn)維人員時(shí)常會(huì)面臨“服務(wù)調(diào)用關(guān)系錯(cuò)綜復(fù)雜,如何快速定位問(wèn)題根因”“”以及”互聯(lián)網(wǎng)行業(yè)系統(tǒng)穩(wěn)定性解決方案從上設(shè)立SRE(SiteReliabilityEngineering,)團(tuán)隊(duì)和SRE(SiteReliabilityEngineer,)SRESRE建設(shè)可觀測(cè)性能力,即通過(guò)采集業(yè)務(wù)指標(biāo)、日志、追蹤等數(shù)據(jù),構(gòu)建監(jiān)控告警能力,并且在“事中”環(huán)節(jié)用于快速分析與定位問(wèn)題,同時(shí)發(fā)現(xiàn)復(fù)雜系統(tǒng)的瓶頸點(diǎn)。“韌性建立故障應(yīng)急機(jī)制,故障不可避免,技術(shù)人員需要不斷去提升BF(enimeeteenlu(enieopar“On-Call”事中事后”建設(shè)AIOpsAIOps(二)銀行業(yè)銀行業(yè)特點(diǎn)及技術(shù)挑戰(zhàn)IT保證海量高并發(fā)的交易處理要求,達(dá)到每秒鐘萬(wàn)筆以上,因此對(duì)分布面。IBMX86,銀行業(yè)系統(tǒng)穩(wěn)定性解決方案IT云平臺(tái)故障自愈提升業(yè)務(wù)連續(xù)性。容器化部署的應(yīng)用具備快速啟Kubernetes(三)證券業(yè)證券業(yè)特點(diǎn)及技術(shù)挑戰(zhàn)證券行業(yè)的高并發(fā)業(yè)務(wù)特點(diǎn)集中在開(kāi)市的四個(gè)小時(shí)內(nèi),業(yè)務(wù)停滯的每一秒都可能帶來(lái)巨大損失,因此其對(duì)于業(yè)務(wù)連續(xù)性的訴求極高。IT11故障預(yù)防難,靠傳統(tǒng)的測(cè)試方法很難有效保障整個(gè)系統(tǒng)的穩(wěn)定性;證券業(yè)系統(tǒng)穩(wěn)定性解決方案這4(四)通信業(yè)通信業(yè)特點(diǎn)及技術(shù)挑戰(zhàn)IT子公司/子系統(tǒng)分散。運(yùn)營(yíng)商一般包括數(shù)十個(gè)省公司和若干子公通信業(yè)系統(tǒng)穩(wěn)定
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 食品委托加工合同書參考范本
- 重慶離婚協(xié)議書書例文
- 2024至2030年中國(guó)制革用涂飾劑行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024至2030年中國(guó)五金扣行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024至2030年中國(guó)PVC圍墻護(hù)欄行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024年中國(guó)木工機(jī)配件市場(chǎng)調(diào)查研究報(bào)告
- 路由與路由協(xié)議課程設(shè)計(jì)
- 數(shù)字貨幣貸款協(xié)議
- 倉(cāng)儲(chǔ)合同協(xié)議范例
- 產(chǎn)品分銷協(xié)議書產(chǎn)品更新與迭代
- 防滲漏、防裂縫施工技術(shù)交底.doc
- 城市地下管線普查與實(shí)施方案(完整版)
- 第三屆全國(guó)“TRIZ”杯大學(xué)生創(chuàng)新方法大賽作品申報(bào)書
- 《一共有多少天》教學(xué)設(shè)計(jì)附反思[優(yōu)制備課]
- 江蘇建設(shè)工程施工項(xiàng)目部關(guān)鍵崗位人員變更申請(qǐng)表
- 諾貝爾獎(jiǎng)獲得者的教育背景統(tǒng)計(jì)分析及對(duì)我國(guó)研究生教育的啟示
- 護(hù)理安全隱患及防范會(huì)議
- 天健軍衛(wèi)醫(yī)院信息系統(tǒng)住院部分ppt課件
- 廣西壯族自治區(qū)普通高級(jí)中學(xué)學(xué)籍管理規(guī)定.doc
- 變形觀測(cè)記錄表.doc
- 《與朱元思書》《與顧章書》閱讀練習(xí)及答案
評(píng)論
0/150
提交評(píng)論