企業(yè)運(yùn)維保障體系最佳實(shí)踐_第1頁(yè)
企業(yè)運(yùn)維保障體系最佳實(shí)踐_第2頁(yè)
企業(yè)運(yùn)維保障體系最佳實(shí)踐_第3頁(yè)
企業(yè)運(yùn)維保障體系最佳實(shí)踐_第4頁(yè)
企業(yè)運(yùn)維保障體系最佳實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 企業(yè)運(yùn)維保障體系最佳實(shí)踐前言阿里巴巴全球運(yùn)行指揮中心,GOC (Global Operations Center)保障阿里經(jīng)濟(jì)體的業(yè)務(wù)穩(wěn)定運(yùn)行的核心團(tuán)隊(duì)。我們負(fù)責(zé)了整個(gè)阿里巴巴全局生產(chǎn)系統(tǒng)的穩(wěn)定性。就像業(yè)界經(jīng)常提到谷歌的SRE,我們相當(dāng)于阿里巴巴的SRE。今天我的分享分為四個(gè)部分:1、穩(wěn)定性現(xiàn)狀及挑戰(zhàn)2、運(yùn)維保障體系介紹3、運(yùn)行無(wú)間最佳實(shí)踐4、未來(lái)的發(fā)展及方向一、穩(wěn)定性現(xiàn)狀及挑戰(zhàn)提到阿里巴巴,不得不說(shuō)剛剛過(guò)去的雙十一。在剛剛過(guò)去的雙十一,每秒訂單創(chuàng)建的峰值達(dá)到32.5萬(wàn)筆,每秒支付峰值達(dá)到25.6萬(wàn)筆。相比2016年的17.5萬(wàn)筆和12.5萬(wàn)筆提升近80%。相比去年的緊張狀態(tài),我們今年收到的

2、普遍反饋是比較平穩(wěn)。同時(shí),做為阿里巴巴雙十一備戰(zhàn)的一員,雙十一當(dāng)天切身感受到,喝著茶就把今年的雙十一給過(guò)了的感覺(jué)。并且業(yè)務(wù)上也再創(chuàng)新高,達(dá)到了1682億,這是一個(gè)非常不容易的技術(shù)新高度。如上圖所示,阿里巴巴業(yè)務(wù)迅速擴(kuò)展,對(duì)于穩(wěn)定性保障來(lái)說(shuō)非常有挑戰(zhàn)性。從基礎(chǔ)架構(gòu)層面來(lái)看:我們需要保障IDC,網(wǎng)絡(luò)基礎(chǔ)設(shè)施,安全,阿里云、阿里通信和釘釘;從業(yè)務(wù)層面來(lái)看,我們需要保障天貓、淘寶、手淘、螞蟻金服、AE、飛豬、阿里媽媽、搜索;以及近期迅猛發(fā)展的新零售、大文娛業(yè)務(wù),如盒馬鮮生,村淘、云零售、優(yōu)酷、阿里影業(yè)、阿里健康等。今年9月28日,新零售盒馬鮮生做了五城十店同開(kāi)活動(dòng),一般來(lái)說(shuō)開(kāi)一家超市成本很高,而互聯(lián)網(wǎng)

3、的速度卻是,可以一下子開(kāi)起來(lái),當(dāng)然盒馬鮮生不是就滿足于一天可以開(kāi)10個(gè)店的速度,未來(lái)是百家店、千家的店的速度。10月份,阿里云馬來(lái)西亞區(qū)開(kāi)服。用不到1年時(shí)間,完成數(shù)據(jù)中心的新建。并且馬來(lái)西亞數(shù)據(jù)中心,也剛好是馬老師E-WTP(Electronic World Trade Platform,電子世界貿(mào)易平臺(tái))真實(shí)的落地,速度確實(shí)非???。11月份,在雙十一活動(dòng)上,有超過(guò)100萬(wàn)臺(tái)天貓精靈智能音箱的售賣。人工智能業(yè)務(wù)的發(fā)展尚是如此迅猛,而我們也緊跟著業(yè)務(wù)在思考,人工智能算法的穩(wěn)定性應(yīng)該如何去衡量。從各個(gè)維度看,阿里當(dāng)前的業(yè)務(wù)面很廣、層次很深,因此很難做統(tǒng)一的一致的運(yùn)維保障方案。所以,問(wèn)題就在于,在這

4、樣的情況下作為一個(gè)目標(biāo)是要對(duì)接整個(gè)阿里經(jīng)濟(jì)體線上業(yè)務(wù)穩(wěn)定性的一個(gè)團(tuán)隊(duì)來(lái)說(shuō),GOC應(yīng)該如何去做。昨天,魔泊云的副總裁Christ Chen在分享中提到,他在2001年經(jīng)歷了一個(gè)非常大的故障,原因是一個(gè)運(yùn)維誤操作把一個(gè)DB搞掛了,而整個(gè)Cisco線上會(huì)議的服務(wù)也就掛了。當(dāng)時(shí)間滑到16年后,2017年2月28日B廠也因?yàn)?0分鐘無(wú)法通過(guò)WAP訪問(wèn)的故障導(dǎo)致被約談;此外,AWS因一位工程師誤操作,導(dǎo)致整個(gè)美東一大片區(qū)域AWS不可訪問(wèn)。隨著時(shí)間,業(yè)務(wù)復(fù)雜度一直在增加,但導(dǎo)致線上故障發(fā)生的原因往往沒(méi)怎么變。因此,需要我們?cè)谌f(wàn)變之中找不變,找到運(yùn)維保障的鑰匙。隨著越來(lái)越多的新技術(shù),新業(yè)務(wù)不斷涌現(xiàn),我想這會(huì)是

5、一個(gè)新的階段,這個(gè)階段是一個(gè)非常不容易達(dá)到的技術(shù)廣度,而在該技術(shù)廣度上,無(wú)論是人工智能算法、還是大規(guī)?;A(chǔ)設(shè)施,穩(wěn)定性運(yùn)維保障都已經(jīng)成為一個(gè)很難的課題。當(dāng)雙11辦到了第9年的今天,天貓雙十一已經(jīng)成為了互聯(lián)網(wǎng)的一個(gè)超級(jí)工程,“超級(jí)工程”是一個(gè)新的概念。除了大家熟悉的下單、支付這樣的一些場(chǎng)景外,這個(gè)超級(jí)工程里面還包含了很多新技術(shù),包括客服、搜索,推薦,廣告,庫(kù)存,物流等等。而這些是所有阿里工程師每天不斷創(chuàng)新突破的力量,這是非常不容易的技術(shù)速度。這里面為大家介紹2個(gè)點(diǎn),正好是我們團(tuán)隊(duì)做的。一個(gè)是Changefree系統(tǒng),基于機(jī)器智能的changefree保證線上變更有跡可循。它通過(guò)對(duì)變更數(shù)據(jù)進(jìn)行全文

6、檢索加自定義規(guī)則引擎,輔以機(jī)器學(xué)習(xí)的手段來(lái)自動(dòng)統(tǒng)計(jì)分類,快速定位故障。這些是官方的表述,但是同比故障的恢復(fù)時(shí)間我們能夠檢驗(yàn)得出來(lái),可以提升65%,這是個(gè)非常難得的事情。另一個(gè)是時(shí)間序列的異常檢測(cè)算法,基于智能基線的時(shí)間序列異常檢測(cè)算法具有自動(dòng)學(xué)習(xí)、自動(dòng)化監(jiān)控業(yè)務(wù)和預(yù)警的能力,有了它,業(yè)務(wù)指標(biāo)監(jiān)控的準(zhǔn)確率從傳統(tǒng)監(jiān)控策略的40%左右提升到80%。這2個(gè)光榮的上了我們新技術(shù)的榜,卻是是很難的點(diǎn)。講完了現(xiàn)狀和挑戰(zhàn)之后,我想帶大家一起回過(guò)頭思考一下。當(dāng)我們站在這樣的一個(gè)技術(shù)高度、廣度以及速度的時(shí)候,線上業(yè)務(wù)的穩(wěn)定性、連續(xù)性以及運(yùn)維保障方案有沒(méi)有不同。當(dāng)出現(xiàn)故障的時(shí)候,或者頻繁出現(xiàn)故障的時(shí)候,如何保障用戶

7、的使用不受影響或者受影響的程度可以降到最低。二、運(yùn)維保障體系介紹我們阿里巴巴的運(yùn)維保障體系也不是憑空起高樓,也是慢慢迭代出來(lái)的,主要學(xué)習(xí)這兩個(gè)體系:一個(gè)是ITIL ,一個(gè)是業(yè)務(wù)連續(xù)性管理,也就是BCM,ISO 22301。我們的運(yùn)維保障體系,也是脫胎于此。ITIL側(cè)重于流程和服務(wù),能很好地建立服務(wù)目錄,但在深度使用過(guò)程發(fā)現(xiàn)略冗長(zhǎng),不太適合互聯(lián)網(wǎng)的精益迭代。GOC最初剛成立的時(shí)候,主要是用ITIL,但是隨著業(yè)務(wù)穩(wěn)定性訴求的不斷的更新以及優(yōu)化和不斷增長(zhǎng)的時(shí)候,需要自建的訴求就自然而然來(lái)了??偟膩?lái)說(shuō),我們希望流程可以再輕便、高效一點(diǎn),服務(wù)之間不再是孤島,希望服務(wù)之間是為了同一個(gè)目標(biāo),比如:故障快速恢

8、復(fù)。通過(guò)這樣一個(gè)簡(jiǎn)單的目標(biāo),我們能夠去把服務(wù)/產(chǎn)品打通,打透。業(yè)務(wù)連續(xù)性管理,提到業(yè)務(wù)連續(xù)性管理,往往會(huì)同災(zāi)難恢復(fù)一起講,英文稱為BC&DR(Business Continuity and Disaster Recovery)。一般提到BCM,經(jīng)常會(huì)舉2013年?yáng)|南亞海嘯的案例,海嘯發(fā)生后,某某銀行受到了嚴(yán)重影響,從結(jié)果看,一周內(nèi)能否恢復(fù)營(yíng)業(yè),若恢復(fù),說(shuō)明基本不受影響;但如果1個(gè)月才能恢復(fù)營(yíng)業(yè),說(shuō)明他很有可能需要長(zhǎng)達(dá)3-5個(gè)月的時(shí)間來(lái)停業(yè)整頓;如果2個(gè)月還不能恢復(fù),那這個(gè)銀行距離倒閉的時(shí)間就不遠(yuǎn)了。傳統(tǒng)行業(yè)對(duì)于業(yè)務(wù)連續(xù)性的訴求,在互聯(lián)網(wǎng)行業(yè),往往更苛刻,可能10到15分鐘,這個(gè)業(yè)務(wù)就很難了。B

9、CM有一個(gè)特征,其實(shí)它原先畫(huà)了很多,我們理解BCM是設(shè)計(jì)一套針對(duì)不頻發(fā),但確是大災(zāi)難的場(chǎng)景下,如何保證業(yè)務(wù)的連續(xù)性。其實(shí)對(duì)于互聯(lián)網(wǎng)行業(yè)來(lái)說(shuō),需求多,變更快,故障是非常頻繁的事情,影響面對(duì)于業(yè)務(wù)來(lái)說(shuō)也很大,所以我們希望在BCM里面,加入一些持續(xù)優(yōu)化的因素,而這個(gè)ITIL里面是有的。我們把這兩個(gè)東西結(jié)合一起。阿里巴巴的運(yùn)維保障體系,說(shuō)白了很簡(jiǎn)單。這是精減版的草圖,簡(jiǎn)單來(lái)說(shuō)就是全生命周期圍繞故障,形成體系閉環(huán),持續(xù)改進(jìn)以及快速的產(chǎn)品支撐落地。1、故障防范。當(dāng)公司沒(méi)開(kāi)的時(shí)候,比如我們明天準(zhǔn)備開(kāi)淘寶了,這時(shí)我們可以很輕松地坐在一起,把規(guī)范定出來(lái),故障防范的約束定出來(lái)。但是很多時(shí)候業(yè)務(wù)起來(lái)了,我們還沒(méi)有及

10、時(shí)介入,所以說(shuō)故障的閉環(huán)很可能是業(yè)務(wù)的已經(jīng)在做或者穩(wěn)定性做的不太好的時(shí)候,GOC再切入進(jìn)去。在故障防范的階段,GOC重點(diǎn)關(guān)注3個(gè)點(diǎn):一個(gè)是數(shù)據(jù)運(yùn)營(yíng);一個(gè)是平臺(tái)管控;一個(gè)是日常演練。首先,看看數(shù)據(jù)運(yùn)營(yíng)。在阿里經(jīng)濟(jì)體所有業(yè)務(wù)中,無(wú)論是相似業(yè)務(wù)還是完全不同業(yè)務(wù)的穩(wěn)定性情況,可以簡(jiǎn)單比較下各個(gè)BU穩(wěn)定性的情況,可以給出一份穩(wěn)定性建議報(bào)告。當(dāng)具體到某個(gè)BU、某條業(yè)務(wù)線的時(shí)候,我們可以具體分析他們的穩(wěn)定性情況:與去年同比故障數(shù)有無(wú)增減;故障中多少比例是監(jiān)控發(fā)現(xiàn)的,還是等用戶打爆投訴電話后,才慢慢上來(lái)處理的;有多少比例的故障是人為失誤、變更等形式導(dǎo)致的。此外,是平臺(tái)管控。核心產(chǎn)品是ChangeFree,他是

11、阿里巴巴做變更管控非常好的平臺(tái),基于數(shù)據(jù)運(yùn)營(yíng)。現(xiàn)在很多故障剛剛發(fā)生的時(shí)候,變更人還不知道什么情況的時(shí)候,幾分鐘時(shí)間就已經(jīng)發(fā)生過(guò)一個(gè)故障,但通過(guò)快速回滾恢復(fù)掉了。這中間有兩個(gè)點(diǎn):第一個(gè)點(diǎn),看變更能否發(fā)到線上,期間會(huì)有一系列的管控,通過(guò)很嚴(yán)格的變更紅線來(lái)衡量線上變更。第二個(gè)點(diǎn),看變更到線上后是否符合預(yù)期,這是非常關(guān)鍵的點(diǎn)。符合預(yù)期不是說(shuō)是否符合變更人的預(yù)期,而是指他是否符合不影響線上業(yè)務(wù)的預(yù)期,這是客戶最在乎的,也是我們GOC最關(guān)注的。比如某團(tuán)隊(duì)做了一個(gè)非核心的邊緣變更,但這個(gè)變更通過(guò)幾層鏈路的傳導(dǎo),可能會(huì)傳到電商交易的核心鏈路,那么整個(gè)交易就會(huì)被阻塞掉,阿里發(fā)生過(guò)這樣的案例。當(dāng)出現(xiàn)這種情況,你會(huì)

12、發(fā)現(xiàn),沒(méi)有很好的平臺(tái)支撐,你是很難找到引發(fā)這個(gè)故障的具體變更。因?yàn)閺某鰡?wèn)題的點(diǎn)往上回溯的時(shí)候往往是最難的,GOC通過(guò)大量實(shí)際案例,以及算法同學(xué)們的努力,我們現(xiàn)在能夠解決一些這樣的問(wèn)題。日常演練我們提日常,經(jīng)常會(huì)有一個(gè)反問(wèn)句,這個(gè)也是我在SRE讀到的,你到底是愿意圣誕節(jié)晚上和老婆、孩子看電視享受節(jié)日的時(shí)候,突然故障發(fā)生了,還是愿意在演練的時(shí)候,所有人都在一起,大家來(lái)模擬故障,故障一發(fā)生大家快速處理,我會(huì)選后者。演練很重要,而且需要頻繁做,要把他當(dāng)作日常的事情來(lái)做。阿里巴巴這邊我們演練就是老板非??粗羞@個(gè)事情。我們2015年發(fā)生過(guò)一個(gè)527事件,影響特別不好,我們后來(lái)通過(guò)技術(shù)來(lái)避免這個(gè)問(wèn)題,叫異地

13、多活和一鍵切換。但是這個(gè)工具是否每時(shí)每刻都是有效的,畢竟它的依賴很多,而且它所依賴的東西會(huì)因?yàn)橐恍┬枨蟮淖兓?。后?lái),大老板給我們出了一個(gè)難題,讓準(zhǔn)備一個(gè)核按鈕,隨時(shí)都可以按,按一下一個(gè)機(jī)房就掛了,這是人為造成的而且事先不告訴你,這把我們GOC訓(xùn)練地很警惕。我們有值班體系,7*24小時(shí)值班,這樣大老板早上一時(shí)興起就按一下,一個(gè)機(jī)房掛了,GOC趕緊一鍵切換掉,然后業(yè)務(wù)恢復(fù)。期間也就1分鐘、2分鐘。若是交易掛了的話,1分鐘是幾百萬(wàn)的損失,其實(shí)影響面是很大的,但是我們覺(jué)得在業(yè)務(wù)低峰期搞搞演練,讓大家一直保持對(duì)生產(chǎn)環(huán)境的警惕,是很有必要的。這個(gè)項(xiàng)目的代號(hào)叫虎虎虎。2、故障發(fā)現(xiàn)這個(gè)部分我也提3點(diǎn):一

14、個(gè)是業(yè)務(wù)監(jiān)控。我相信不同團(tuán)隊(duì)、不同公司會(huì)有不同的理解。甚至東西方也有很大的區(qū)別,在國(guó)外主要用service level agreement,在阿里巴巴主要從用戶視角來(lái)看業(yè)務(wù),比如業(yè)務(wù)是否不可用,用戶體驗(yàn)是否變差。如果有,那我們就劃出4級(jí)來(lái),然后告訴你這是風(fēng)險(xiǎn)非常高的級(jí)別,那么你必須要做好限流,必須做好降級(jí),必須做好容災(zāi)。這樣做,逼著你時(shí)刻在關(guān)鍵的功能點(diǎn)或接口上做好日志記錄或者做好鏈路信息上報(bào),從而形成業(yè)務(wù)日志監(jiān)控。業(yè)務(wù)監(jiān)控是監(jiān)控的一種,但核心跟用戶體驗(yàn)息息相關(guān)的故障等級(jí)定義相關(guān)聯(lián)。這在阿里巴巴特別有用。例如交易下跌10%,這是2010年定的,已經(jīng)七年了,一旦發(fā)生交易下跌10%,系統(tǒng)穩(wěn)定性偏低的

15、團(tuán)隊(duì)會(huì)比較緊張,怕是自己導(dǎo)致的,盡快響應(yīng)并恢復(fù),否則時(shí)間久了,就會(huì)發(fā)酵成更大的問(wèn)題。大家都認(rèn)同業(yè)務(wù)監(jiān)控的重要性,也是我們能夠集中力量去恢復(fù)很多復(fù)雜故障的一個(gè)很好的點(diǎn)。全維度監(jiān)控,就是說(shuō)從各個(gè)維度上,比如IDC、網(wǎng)絡(luò)、應(yīng)用、系統(tǒng)和業(yè)務(wù)層面。業(yè)務(wù)層面我們也分,不是所有的接口都是很致命的接口,有時(shí)候我們也會(huì)降級(jí)。比如雙十一時(shí),會(huì)把購(gòu)物車?yán)锩娣褚咽肇浀臓顟B(tài)接口降級(jí)掉,你就暫時(shí)看不了,但是不會(huì)影響你下單和支付。最后智能監(jiān)控,核心是為了解決報(bào)警不準(zhǔn)的問(wèn)題,一般來(lái)說(shuō),新上的業(yè)務(wù),該業(yè)務(wù)點(diǎn)很關(guān)鍵,但是量不大且經(jīng)常抖動(dòng),這時(shí)候,設(shè)置告警閾值會(huì)很痛苦。GOC主要通過(guò)智能監(jiān)控來(lái)解決這個(gè)問(wèn)題,通過(guò)算法計(jì)算基線,然后自

16、動(dòng)預(yù)測(cè)異常,而報(bào)警可以只設(shè)一個(gè)相對(duì)于預(yù)測(cè)基線的水位有沒(méi)有下跌即可,非常方便,而且準(zhǔn)確。這可以幫我們省掉很多問(wèn)題,因?yàn)闃I(yè)務(wù)根據(jù)其特性在某些情況下往往會(huì)有較大的波動(dòng),比如10點(diǎn)鐘聚劃算有活動(dòng),肯定會(huì)往上漲,中午大家都在吃飯的時(shí)候,支付寶肯定會(huì)漲,淘寶會(huì)跌,周末的量比周一到周五的量大。這種東西你配一個(gè)死的閾值很難搞定,智能監(jiān)控是比較好的,我們這邊使用范圍很廣。3、應(yīng)急響應(yīng)為什么會(huì)有這個(gè)智能,GOC做了非常有挑戰(zhàn)的事情,做724小時(shí)應(yīng)急。一個(gè)互聯(lián)網(wǎng)公司不該設(shè)這樣一個(gè)傳統(tǒng)的職位。大家小區(qū)里面門衛(wèi)是724小時(shí)的,我們就相當(dāng)于是阿里巴巴這些生產(chǎn)系統(tǒng)門衛(wèi)。真的是7*24小時(shí)去支持我們線上的故障。當(dāng)然解決這個(gè)問(wèn)

17、題,我們也想了一個(gè)辦法,其實(shí)這個(gè)也是我們從一些前輩的公司學(xué)到的,谷歌公司他們也是這么做的。他們分公司特別多,總是可以找人換過(guò)來(lái),google的SRE是可以實(shí)現(xiàn)日出而作,日落而息,總是有另外一個(gè)時(shí)區(qū)的同事能夠接替上。我們現(xiàn)在還不夠,大概做到了3個(gè)地方,硅谷、北京和杭州。未來(lái)我們也希望能夠在中東或者歐洲建立起來(lái)這樣一個(gè)團(tuán)隊(duì)。能夠真正讓GOC也實(shí)現(xiàn)日出而作、日落而息的7*24小時(shí)。4、快速恢復(fù)快速恢復(fù)是最重要的事情。我們前面做的不管是故障發(fā)現(xiàn)還是應(yīng)急響應(yīng),最終的目標(biāo)是快速恢復(fù)??焖倩謴?fù)有一個(gè)誤區(qū),不是說(shuō)故障恢復(fù)了你就恢復(fù)了,你故障可以不恢復(fù),你業(yè)務(wù)先恢復(fù)就好了。這里面有一個(gè)思路,就是隔離。隔掉就好了

18、,我不受影響,我的冗余能撐住現(xiàn)在的量,讓用戶不再受影響。那個(gè)故障,該哪個(gè)團(tuán)隊(duì)去查原因去搞就行了。還有一個(gè)是一鍵恢復(fù)。例如異地多活,因?yàn)槠綍r(shí)又不能切,切一下那十幾秒中還是會(huì)有交易影響的,必須等到真的發(fā)現(xiàn)單機(jī)房出現(xiàn)問(wèn)題的時(shí)候,大量報(bào)警涌出來(lái)時(shí),你果斷切掉就好了。所以這個(gè)點(diǎn),我們現(xiàn)在也不能做到完全的智能或者故障自愈的方式,還是通過(guò)一鍵的方式來(lái)搞定的,當(dāng)然非常方便,點(diǎn)一下就好了。5、故障定位這里面有兩個(gè)點(diǎn),一個(gè)是初因定位,一個(gè)是根因定位,這兩個(gè)一直在打架。初因定位對(duì)于我們來(lái)講,最淺層的話故障就兩種可能,要么是容量不夠,要么就是有變更。這里面的變更是指非常廣義的變更,我們對(duì)于變更的定義也是集團(tuán)通行的,叫

19、做生產(chǎn)環(huán)境上的一切操作都屬于變更。包括你從跳板機(jī)登陸生產(chǎn)機(jī)的操作,也屬于變更。這是很嚴(yán)格的,很多開(kāi)發(fā)不理解,有的開(kāi)發(fā)會(huì)說(shuō),發(fā)布才算變更,像配置,打一個(gè)日志,殺個(gè)進(jìn)程那就是個(gè)日常操作為什么是變更,會(huì)有這樣的爭(zhēng)論。我們這邊要求一定是這樣子的,我們發(fā)生過(guò)這樣的案例。以前比較早的時(shí)期,我們很厲害的一個(gè)B大師,有一次有一個(gè)很復(fù)雜的故障,影響面還挺大的,他就在那查了好久,最后才發(fā)現(xiàn)是有一個(gè)同學(xué)在線上改了一臺(tái)機(jī)器GVM的參數(shù),直接是在上面改的,那個(gè)參數(shù)有了問(wèn)題后,就會(huì)連鎖反應(yīng),會(huì)影響到上下游的很多東西,用戶會(huì)一直交易上會(huì)有問(wèn)題。這東西根本沒(méi)辦法查,你查的時(shí)候總是會(huì)去從可能性方面去查,從網(wǎng)絡(luò)、上下游、鏈路、哪

20、有發(fā)布。查了好幾個(gè)小時(shí)發(fā)現(xiàn)是這個(gè)東西的時(shí)候,這種事情找到它是很高興的,但找到之后我們的反思總結(jié)出來(lái)東西,其實(shí)可能就是紅線的事情。生產(chǎn)環(huán)境要敬畏生產(chǎn),嚴(yán)格把控。最近也有人在犯,發(fā)生變更的時(shí)候,他違規(guī)操作出了故障。他說(shuō)要凌晨1點(diǎn)半變更,然后夜深人靜時(shí)候,他就1點(diǎn)20選擇了變更,提前了10分鐘。這里面也有一個(gè)點(diǎn),就是我們能不能更智能判斷他到底是在故障應(yīng)急,還是違反了他自己聲稱的時(shí)間窗口的方式去做,但是他做了,最后我們給他的結(jié)果也是不太好,因?yàn)榇_實(shí)違反了紅線。這里核心的道理就是生產(chǎn)環(huán)境你要敬畏,你說(shuō)了什么時(shí)候做就什么時(shí)候做,畢竟我們不是消費(fèi)者,我們是拿著工資的開(kāi)發(fā)或運(yùn)維同學(xué),我們要對(duì)公司生產(chǎn)經(jīng)營(yíng)活動(dòng)負(fù)

21、責(zé)。根因就是指上下游鏈路。6、故障復(fù)盤(pán)故障復(fù)盤(pán)也有是兩個(gè),總結(jié)沉淀和措施改進(jìn)。這個(gè)ITIL里面也有,我們這里面其實(shí)基本上是一樣的,組織一個(gè)故障約會(huì),我們?nèi)グ褜?dǎo)致這個(gè)故障的前因后果按照時(shí)間序列列出來(lái),再有就是列好所有故障改進(jìn)的Action。故障改進(jìn),也是我們很看重的事情。我們會(huì)看故障改進(jìn)的及時(shí)完成率,而不是看他的完成率。因?yàn)楫?dāng)我們發(fā)生了一個(gè)故障,出現(xiàn)了改進(jìn)措施的時(shí)候,這個(gè)改進(jìn)措施會(huì)影響故障的再次發(fā)生,如果你及時(shí)的把他改掉了,那么這個(gè)故障再發(fā)生的概率就會(huì)降低很多。如果你不改掉,第二天很有可能還會(huì)再發(fā)生這個(gè)故障。這個(gè)風(fēng)險(xiǎn)我們覺(jué)得是非常嚴(yán)格的事,所以我們對(duì)于每一個(gè)同學(xué)的改進(jìn)措施,也是非常嚴(yán)格非常高要求

22、的去運(yùn)營(yíng)這個(gè)事情。我們也欣喜的可以看到,阿里云有很多團(tuán)隊(duì),每次故障之后他們能夠及時(shí)核對(duì)和檢查改進(jìn)措施是否已完成。我們盡可能把線上的風(fēng)險(xiǎn)發(fā)現(xiàn)了,就把它消滅掉。把真正的潛在的風(fēng)險(xiǎn)留出足夠的buffer。7、演練驗(yàn)收演練驗(yàn)收有一個(gè)悖論,有時(shí)會(huì)問(wèn)開(kāi)發(fā),優(yōu)化措施完成沒(méi),每次都說(shuō)落地了沒(méi)問(wèn)題了,然后故障又以同樣的原因再次發(fā)生了,然后解釋說(shuō)當(dāng)時(shí)搞改進(jìn)的時(shí)候沒(méi)有考慮到有這個(gè)case,這是意外情況,但是之前故障的那個(gè)場(chǎng)景考慮到了,不會(huì)再發(fā)生了。出現(xiàn)這樣的情況,就應(yīng)該嘗試去推動(dòng)演練驗(yàn)收,跟進(jìn)具體改進(jìn)措施的結(jié)果是不是能達(dá)到我們描述的預(yù)期。阿里巴巴演練做了很多,比如說(shuō)我們做發(fā)布的時(shí)候會(huì)有灰度,演練的時(shí)候在線上隔離環(huán)境

23、中造出來(lái)一套和線上類似環(huán)境,但其實(shí)走的是演練的量而不是正常用戶的量,然后灰度時(shí)候我們一部分會(huì)引入一些特定用戶量進(jìn)來(lái)。這里核心的點(diǎn)是,要具備隔離環(huán)境的能力,要具備演練的機(jī)制,真真切切的把線上的Action能夠盡快落地到演練里面,然后把他日?;饋?lái)。我們只有日常演練,反復(fù)演練,才能故障發(fā)生時(shí)心里有底。其實(shí)演練做法很簡(jiǎn)單,比如接口有做限流,那我給接口再多打一點(diǎn)量;比如說(shuō)的接口健壯性沒(méi)有問(wèn)題,那我就給你摘掉一個(gè)或者摘掉下游的一個(gè)DB什么的。通過(guò)阿里巴巴的演練系統(tǒng),可以很快地落地,并且形成閉環(huán),對(duì)于業(yè)務(wù)團(tuán)隊(duì)是非常寶貴的經(jīng)驗(yàn)。三、運(yùn)行無(wú)間最佳實(shí)踐基于運(yùn)維保障體系,我們摸索除了一個(gè)最佳實(shí)踐。這個(gè)圖還是比較復(fù)

24、雜,我簡(jiǎn)單的講一下,它是分三層。但其中最核心的,最重要的是產(chǎn)品支撐。不管我們用任何體系也好,用BCM,還是用ITIL,其核心點(diǎn)在于我們要有一套趁手的能夠管理好生產(chǎn)環(huán)境的平臺(tái)。我們的平臺(tái)主要有,故障管理平臺(tái)(OPM),應(yīng)急響應(yīng)平臺(tái)(OPM),容災(zāi)演練平臺(tái)(ODE),變更管理平臺(tái)(OCM),運(yùn)行分析平臺(tái)(ODA),數(shù)據(jù)質(zhì)量平臺(tái)(ODQ)等。第二個(gè)持續(xù)改進(jìn),就是運(yùn)行管理域體系的那7個(gè)流程,防范、發(fā)現(xiàn)、響應(yīng)、恢復(fù)、定位、復(fù)盤(pán)和驗(yàn)收。這里面,我又簡(jiǎn)單的分了三類,第一個(gè)防范層面做好規(guī)范建設(shè)。靜態(tài)去看每個(gè)公司都會(huì)認(rèn)為自己做的是最好的,我們也認(rèn)為做的最好。但在真正跑的過(guò)程中出了故障,發(fā)現(xiàn)規(guī)范里面有漏洞,那就要

25、回來(lái)形成一個(gè)故障的閉環(huán)。在規(guī)范建設(shè)里面,我們沒(méi)有做多深的理論,但一定要保證夠快夠權(quán)威。當(dāng)業(yè)務(wù)發(fā)展上到新臺(tái)階時(shí),或者出現(xiàn)新的問(wèn)題時(shí),你一定要把他盡快地放到規(guī)范里面去。比如說(shuō)某一天突然間我們發(fā)現(xiàn)盒馬鮮生有個(gè)交易故障,當(dāng)然那個(gè)故障處理的很快,15分鐘就恢復(fù)了。但我們以前沒(méi)有想到的問(wèn)題是,業(yè)務(wù)不答應(yīng),門店員工不答應(yīng),而且情緒激動(dòng),拍圖發(fā)過(guò)來(lái)說(shuō),你看這十幾分鐘時(shí)間,多少手推車被扔這了,這里面還有活蹦亂跳的魚(yú)和生鮮,我現(xiàn)在要怎么把這些全都收回去,因?yàn)榻灰子袉?wèn)題,顧客等不了就不買了。這其實(shí)講一個(gè)研發(fā)的體感,研發(fā)有很多確實(shí)沒(méi)有體驗(yàn)過(guò)線下業(yè)務(wù),淘寶、手淘與盒馬鮮生在支付場(chǎng)景最大的區(qū)別是,盒馬鮮生線下的用戶更易怒

26、。手淘支付失敗了十幾分鐘,大不了手機(jī)切到微信、微博吐吐槽,過(guò)十幾分鐘切回來(lái)再買也可以接收,對(duì)于交易故障的容忍度還是比較寬容,但是在盒馬鮮生門店,你拎著幾條魚(yú)或者大龍蝦,在那排隊(duì)等了十分鐘,基本就不會(huì)再等了,直接把東西扔在那里走人,換做是我也會(huì)是這樣,因?yàn)橄M(fèi)場(chǎng)景不一樣。這里面背后工程師對(duì)于穩(wěn)定性、以及交易的體感上確實(shí)理解不深,后來(lái)盒馬穩(wěn)定性小組就定了一個(gè)很簡(jiǎn)單的規(guī)范,盒馬門店是早9點(diǎn)到晚10營(yíng)業(yè),營(yíng)業(yè)期間一切變更停掉,晚10點(diǎn)后到第二天早上9點(diǎn)前合規(guī)的變更是可以做的,一條樸素的規(guī)范,解掉了很大的問(wèn)題。其實(shí)這個(gè)里面的三塊部分我們還是講一下運(yùn)行無(wú)間這個(gè)詞。運(yùn)行無(wú)間是指把運(yùn)行管理域體系里面的產(chǎn)品和服

27、務(wù)做一個(gè)打通,不要拘泥于這個(gè)是變更管理服務(wù),這個(gè)是故障管理服務(wù),其實(shí)我們希望是打通的,當(dāng)故障發(fā)現(xiàn)的時(shí)候,你是先去恢復(fù)他,還是說(shuō)如果你可以更趁手的找出來(lái)這里正在有一個(gè)變更發(fā)布,你回滾那個(gè)變更。實(shí)踐證明,當(dāng)監(jiān)控報(bào)警出來(lái)的時(shí)候,同時(shí)把變更信息推出來(lái)的時(shí)候,把變更回滾掉對(duì)更快的挽回業(yè)務(wù)有非常大時(shí)間的縮短。故障發(fā)生,然后我們通過(guò)監(jiān)控發(fā)現(xiàn)這個(gè)故障,然后迅速的把這個(gè)故障的業(yè)務(wù)指標(biāo)所對(duì)應(yīng)的接口,那個(gè)接口所對(duì)應(yīng)的后面的應(yīng)用,上下游畫(huà)個(gè)圈,所有相關(guān)聯(lián)的變更在最近15分鐘內(nèi)的故障全都列出來(lái)(15分鐘是一個(gè)黃金的線,我們統(tǒng)計(jì)過(guò)90%的變更導(dǎo)致故障,15分鐘內(nèi)一定會(huì)導(dǎo)致這個(gè)故障,只有10%的變更要一兩天或者兩三天通過(guò)一

28、些特定的條件觸發(fā)之后導(dǎo)致故障),然后發(fā)給相關(guān)變更的同學(xué),很有可能變更的同學(xué)第一時(shí)間是不知道有故障了,由于高強(qiáng)度的工作,不一定每個(gè)群都看,不一定每個(gè)信息都讀,我們是直接電話打到他,說(shuō)親請(qǐng)立即回滾。讓他回滾掉,然后業(yè)務(wù)恢復(fù)。這個(gè)恢復(fù)速度,是比要去查出來(lái)原因等應(yīng)急隊(duì)長(zhǎng)再調(diào)度一下組織救火要快很多。這里面很典型的,故障監(jiān)控以及變更的信息聯(lián)動(dòng)的操作,然后這個(gè)東西其實(shí)進(jìn)一步做,故障變更發(fā)現(xiàn)了之后,我們還是讓開(kāi)發(fā)自己做的回滾。進(jìn)一步去想故障能不能自愈,這類故障我們自己去操作回滾,而且回滾是安全的話。我們還有一個(gè)前置條件,任何變更如果你的回滾預(yù)案是不安全的,是不能回滾的變更,是不可能被審核通過(guò)的,任何回滾事件,

29、是建立在100%能夠回滾回去的,這時(shí)候我們就可以通過(guò)故障自愈的方式,很簡(jiǎn)單的把他恢復(fù)掉。快速的初因定位和智能根因定位。智能根因定位,是做智能基線算法的同一個(gè)團(tuán)隊(duì)的同學(xué)做的。智能根因定位難點(diǎn)在于那個(gè)鏈條,我們有兩種,一種基于應(yīng)用的鏈路,一種基于業(yè)務(wù)指標(biāo)的鏈路,這兩種分別有不同的優(yōu)化的效果。然后還有就是復(fù)盤(pán),我們這邊人手不夠,可能你在做故障復(fù)盤(pán)的同時(shí),又發(fā)生了一個(gè)故障讓,故障恢復(fù)后,你是先把這個(gè)復(fù)盤(pán)做完,還是接著做下一個(gè)呢,這樣的話人肯定是吃不消。我們提倡的是信息的自動(dòng)采集,自助式的復(fù)盤(pán)。只要質(zhì)量達(dá)標(biāo),里面關(guān)鍵鏈路的信息從SRE的角度或GOC的角度來(lái)看,質(zhì)量是沒(méi)有問(wèn)題,里面不會(huì)存在這種坑蒙拐騙的行

30、為就可以過(guò)的。自助式復(fù)盤(pán),是比較好的能夠減輕業(yè)務(wù)大發(fā)展時(shí)對(duì)穩(wěn)定性訴求越來(lái)越高的點(diǎn)。常態(tài)化演練,通過(guò)這個(gè)東西把一些我們常見(jiàn)的ITIL服務(wù)的相互之間的打通,我們的確可以看到運(yùn)行管理域的成本效率是有優(yōu)化的,這個(gè)東西的優(yōu)化可以帶來(lái)我們業(yè)務(wù)連續(xù)穩(wěn)定性的提升。最后一個(gè)是體系閉環(huán),就是說(shuō)我們做一個(gè)體系也好,不管是好體系還是壞體系,我們做的最佳實(shí)踐,最終還是要業(yè)務(wù)方買單的。而業(yè)務(wù)方還是一群易怒,不關(guān)心穩(wěn)定性這樣一群開(kāi)發(fā),你跟他談穩(wěn)定性時(shí),過(guò)后很快就忘了。核心點(diǎn)是閉環(huán)一定閉到他們那邊,讓他感受到我們是一起戰(zhàn)斗的。在去年元旦節(jié),大家都放假在家,凌晨?jī)扇c(diǎn)時(shí),發(fā)生了一個(gè)故障,我們GOC很快就響應(yīng)了,最后發(fā)現(xiàn)業(yè)務(wù)方起來(lái)4個(gè)非常高級(jí)別的專家,一線值班同學(xué)們都基本上沒(méi)看到,在放假凌晨的時(shí)候,大家是很難處理故障的。這里面希望跟大家講,穩(wěn)定性是要形成協(xié)同作戰(zhàn)、共擔(dān)共建的體系閉環(huán),只有這樣才可以真正保障線上業(yè)務(wù),一個(gè)故障恢復(fù),肯定不是某一個(gè)團(tuán)隊(duì)能夠做的好的,那個(gè)團(tuán)隊(duì)做的再好,他周邊的不給力,一樣會(huì)受非常大的牽連。而且這個(gè)體系閉環(huán)里面會(huì)面臨一個(gè)發(fā)展,他不是一個(gè)靜態(tài)的閉環(huán),不是說(shuō)你搞定了淘寶就搞定了一切,你會(huì)發(fā)現(xiàn)淘寶孵化出天貓,天貓孵化出天貓社區(qū)小店,孵化出新零售

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論