




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
SREGoogle運維解密目錄\h第Ⅰ部分概覽\h第1章介紹\h系統(tǒng)管理員模式\hGoogle的解決之道:SRE\hSRE方法論\h確保長期關(guān)注研發(fā)工作\h在保障服務(wù)SLO的前提下最大化迭代速度\h監(jiān)控系統(tǒng)\h應(yīng)急事件處理\h變更管理\h需求預(yù)測和容量規(guī)劃\h資源部署\h效率與性能\h小結(jié)\h第2章Google生產(chǎn)環(huán)境:SRE視角\h硬件\h管理物理服務(wù)器的系統(tǒng)管理軟件\h管理物理服務(wù)器\h存儲\h網(wǎng)絡(luò)\h其他系統(tǒng)軟件\h分布式鎖服務(wù)\h監(jiān)控與警報系統(tǒng)\h軟件基礎(chǔ)設(shè)施\h研發(fā)環(huán)境\h莎士比亞搜索:一個示范服務(wù)\h用戶請求的處理過程\h任務(wù)和數(shù)據(jù)的組織方式\h第Ⅱ部分指導(dǎo)思想\h第3章?lián)肀эL(fēng)險\h管理風(fēng)險\h度量服務(wù)的風(fēng)險\h服務(wù)的風(fēng)險容忍度\h辨別消費者服務(wù)的風(fēng)險容忍度\h基礎(chǔ)設(shè)施服務(wù)的風(fēng)險容忍度\h使用錯誤預(yù)算的目的注1\h錯誤預(yù)算的構(gòu)建過程\h好處\h第4章服務(wù)質(zhì)量目標\h服務(wù)質(zhì)量術(shù)語\h指標\h目標\h協(xié)議\h指標在實踐中的應(yīng)用\h運維人員和最終用戶各關(guān)心什么\h指標的收集\h匯總\h指標的標準化\h目標在實踐中的應(yīng)用\h目標的定義\h目標的選擇\h控制手段\hSLO可以建立用戶預(yù)期\h協(xié)議在實踐中的應(yīng)用\h第5章減少瑣事\h瑣事的定義\h為什么瑣事越少越好\h什么算作工程工作\h瑣事繁多是不是一定不好\h小結(jié)\h第6章分布式系統(tǒng)的監(jiān)控\h術(shù)語定義\h為什么要監(jiān)控\h對監(jiān)控系統(tǒng)設(shè)置合理預(yù)期\h現(xiàn)象與原因\h黑盒監(jiān)控與白盒監(jiān)控\h4個黃金指標\h關(guān)于長尾問題\h度量指標時采用合適的精度\h簡化,直到不能再簡化\h將上述理念整合起來\h監(jiān)控系統(tǒng)的長期維護\hBigtableSRE:警報過多的案例\hGmail:可預(yù)知的、可腳本化的人工干預(yù)\h長跑\h小結(jié)\h第7章Google的自動化系統(tǒng)的演進\h自動化的價值\h一致性\h平臺性\h修復(fù)速度更快\h行動速度更快\h節(jié)省時間\h自動化對GoogleSRE的價值\h自動化的應(yīng)用案例\hGoogleSRE的自動化使用案例\h自動化分類的層次結(jié)構(gòu)\h讓自己脫離工作:自動化所有的東西\h舒緩疼痛:將自動化應(yīng)用到集群上線中\(zhòng)h使用Prodtest檢測不一致情況\h冪等地解決不一致情況\h專業(yè)化傾向\h以服務(wù)為導(dǎo)向的集群上線流程\hBorg:倉庫規(guī)模計算機的誕生\h可靠性是最基本的功能\h建議\h第8章發(fā)布工程\h發(fā)布工程師的角色\h發(fā)布工程哲學(xué)\h自服務(wù)模型\h追求速度\h密閉性\h強調(diào)策略和流程\h持續(xù)構(gòu)建與部署\h構(gòu)建\h分支\h測試\h打包\hRapid系統(tǒng)\h部署\h配置管理\h小結(jié)\h不僅僅只對Google有用\h一開始就進行發(fā)布工程\h第9章簡單化\h系統(tǒng)的穩(wěn)定性與靈活性\h乏味是一種美德\h我絕對不放棄我的代碼\h“負代碼行”作為一個指標\h最小API\h模塊化\h發(fā)布的簡單化\h小結(jié)\h第Ⅲ部分具體實踐\h第10章基于時間序列數(shù)據(jù)進行有效報警\hBorgmon的起源\h應(yīng)用軟件的監(jiān)控埋點\h監(jiān)控指標的收集\h時間序列數(shù)據(jù)的存儲\h標簽與向量\hBorg規(guī)則計算\h報警\h監(jiān)控系統(tǒng)的分片機制\h黑盒監(jiān)控\h配置文件的維護\h十年之后\h第11章on-call輪值\h介紹\hon-call工程師的一天\hon-call工作平衡\h數(shù)量上保持平衡\h質(zhì)量上保持平衡\h補貼措施\h安全感\(zhòng)h避免運維壓力過大\h運維壓力過大\h奸詐的敵人—運維壓力不夠\h小結(jié)\h第12章有效的故障排查手段\h理論\h實踐\h故障報告\h定位\h檢查\h診斷\h測試和修復(fù)\h神奇的負面結(jié)果\h治愈\h案例分析\h使故障排查更簡單\h小結(jié)\h第13章緊急事件響應(yīng)\h當(dāng)系統(tǒng)出現(xiàn)問題時怎么辦\h測試導(dǎo)致的緊急事故\h細節(jié)\h響應(yīng)\h事后總結(jié)\h變更部署帶來的緊急事故\h細節(jié)\h事故響應(yīng)\h事后總結(jié)\h流程導(dǎo)致的嚴重事故\h細節(jié)\h災(zāi)難響應(yīng)\h事后總結(jié)\h所有的問題都有解決方案\h向過去學(xué)習(xí),而不是重復(fù)它\h為事故保留記錄\h提出那些大的,甚至不可能的問題:假如……\h鼓勵主動測試\h小結(jié)\h第14章緊急事故管理\h無流程管理的緊急事故\h對這次無流程管理的事故的剖析\h過于關(guān)注技術(shù)問題\h溝通不暢\h不請自來\h緊急事故的流程管理要素\h嵌套式職責(zé)分離\h控制中心\h實時事故狀態(tài)文檔\h明確公開的職責(zé)交接\h一次流程管理良好的事故\h什么時候?qū)ν庑际鹿蔦h小結(jié)\h第15章事后總結(jié):從失敗中學(xué)習(xí)\hGoogle的事后總結(jié)哲學(xué)\h協(xié)作和知識共享\h建立事后總結(jié)文化\h小結(jié)以及不斷優(yōu)化\h第16章跟蹤故障\hEscalator\hOutalator\h聚合\h加標簽\h分析\h未預(yù)料到的好處\h第17章測試可靠性\h軟件測試的類型\h傳統(tǒng)測試\h生產(chǎn)測試\h創(chuàng)造一個構(gòu)建和測試環(huán)境\h大規(guī)模測試\h測試大規(guī)模使用的工具\h針對災(zāi)難的測試\h對速度的渴求\h發(fā)布到生產(chǎn)環(huán)境\h允許測試失敗\h集成\h生產(chǎn)環(huán)境探針\h小結(jié)\h第18章SRE部門中的軟件工程實踐\h為什么軟件工程項目對SRE很重要\hAuxon案例分析:項目背景和要解決的問題\h傳統(tǒng)的容量規(guī)劃方法\h解決方案:基于意圖的容量規(guī)劃\h基于意圖的容量規(guī)劃\h表達產(chǎn)品意圖的先導(dǎo)條件\hAuxon簡介\h需求和實現(xiàn):成功和不足\h提升了解程度,推進采用率\h團隊內(nèi)部組成\h在SRE團隊中培養(yǎng)軟件工程風(fēng)氣\h在SRE團隊中建立起軟件工程氛圍:招聘與開發(fā)時間\h做到這一點\h小結(jié)\h第19章前端服務(wù)器的負載均衡\h有時候硬件并不能解決問題\h使用DNS進行負載均衡\h負載均衡:虛擬IP\h第20章數(shù)據(jù)中心內(nèi)部的負載均衡系統(tǒng)\h理想情況\h識別異常任務(wù):流速控制和跛腳鴨任務(wù)\h異常任務(wù)的簡單應(yīng)對辦法:流速控制\h一個可靠的識別異常任務(wù)的方法:跛腳鴨狀態(tài)\h利用劃分子集限制連接池大小\h選擇合適的子集\h子集選擇算法一:隨機選擇\h子集選擇算法二:確定性算法\h負載均衡策略\h簡單輪詢算法\h最閑輪詢策略\h加權(quán)輪詢策略\h第21章應(yīng)對過載\hQPS陷阱\h給每個用戶設(shè)置限制\h客戶端側(cè)的節(jié)流機制\h重要性\h資源利用率信號\h處理過載錯誤\h決定何時重試\h連接造成的負載\h小結(jié)\h第22章處理連鎖故障\h連鎖故障產(chǎn)生的原因和如何從設(shè)計上避免\h服務(wù)器過載\h資源耗盡\h服務(wù)不可用\h防止軟件服務(wù)器過載\h隊列管理\h流量拋棄和優(yōu)雅降級\h重試\h請求延遲和截止時間\h慢啟動和冷緩存\h保持調(diào)用棧永遠向下\h連鎖故障的觸發(fā)條件\h進程崩潰\h進程更新\h新的發(fā)布\h自然增長\h計劃中或計劃外的不可用\h連鎖故障的測試\h測試直到出現(xiàn)故障,還要繼續(xù)測試\h測試最常用的客戶端\h測試非關(guān)鍵性后端\h解決連鎖故障的立即步驟\h增加資源\h停止健康檢查導(dǎo)致的任務(wù)死亡\h重啟軟件服務(wù)器\h丟棄流量\h進入降級模式\h消除批處理負載\h消除有害的流量\h小結(jié)\h第23章管理關(guān)鍵狀態(tài):利用分布式共識來提高可靠性\h使用共識系統(tǒng)的動力:分布式系統(tǒng)協(xié)調(diào)失敗\h案例1:腦裂問題\h案例2:需要人工干預(yù)的災(zāi)備切換\h案例3:有問題的小組成員算法\h分布式共識是如何工作的\hPaxos概要:協(xié)議示例\h分布式共識的系統(tǒng)架構(gòu)模式\h可靠的復(fù)制狀態(tài)機\h可靠的復(fù)制數(shù)據(jù)存儲和配置存儲\h使用領(lǐng)頭人選舉機制實現(xiàn)高可用的處理系統(tǒng)\h分布式協(xié)調(diào)和鎖服務(wù)\h可靠的分布式隊列和消息傳遞\h分布式共識系統(tǒng)的性能問題\h復(fù)合式Paxos:消息流過程詳解\h應(yīng)對大量的讀操作\h法定租約\h分布式共識系統(tǒng)的性能與網(wǎng)絡(luò)延遲\h快速Paxos協(xié)議:性能優(yōu)化\h穩(wěn)定的領(lǐng)頭人機制\h批處理\h磁盤訪問\h分布式共識系統(tǒng)的部署\h副本的數(shù)量\h副本的位置\h容量規(guī)劃和負載均衡\h對分布式共識系統(tǒng)的監(jiān)控\h小結(jié)\h第24章分布式周期性任務(wù)系統(tǒng)\hCron\h介紹\h可靠性\hCron任務(wù)和冪等性\h大規(guī)模Cron系統(tǒng)\h對基礎(chǔ)設(shè)施的擴展\h對需求的擴展\hGoogleCron系統(tǒng)的構(gòu)建過程\h跟蹤Cron任務(wù)的狀態(tài)\hPaxos協(xié)議的使用\h領(lǐng)頭人角色和追隨者角色\h保存狀態(tài)\h運維大型Cron系統(tǒng)\h小結(jié)\h第25章數(shù)據(jù)處理流水線\h流水線設(shè)計模式的起源\h簡單流水線設(shè)計模式與大數(shù)據(jù)\h周期性流水線模式的挑戰(zhàn)\h工作分發(fā)不均造成的問題\h分布式環(huán)境中周期性數(shù)據(jù)流水線的缺點\h監(jiān)控周期性流水線的問題\h驚群效應(yīng)\h摩爾負載模式\hGoogleWorkflow簡介\hWorkflow是模型—視圖—控制器(MVC)模式\hWorkflow中的執(zhí)行階段\hWorkflow正確性保障\h保障業(yè)務(wù)的持續(xù)性\h小結(jié)\h第26章數(shù)據(jù)完整性:讀寫一致\h數(shù)據(jù)完整性的強需求\h提供超高的數(shù)據(jù)完整性的策略\h備份與存檔\h云計算環(huán)境下的需求\h保障數(shù)據(jù)完整性和可用性:GoogleSRE的目標\h數(shù)據(jù)完整性是手段,數(shù)據(jù)可用性是目標\h交付一個恢復(fù)系統(tǒng),而非備份系統(tǒng)\h造成數(shù)據(jù)丟失的事故類型\h維護數(shù)據(jù)完整性的深度和廣度的困難之處\hGoogleSRE保障數(shù)據(jù)完整性的手段\h24種數(shù)據(jù)完整性的事故組合\h第一層:軟刪除\h第二層:備份和相關(guān)的恢復(fù)方法\h額外一層:復(fù)制機制\h1Tvs.1E:存儲更多數(shù)據(jù)沒那么簡單\h第三層:早期預(yù)警\h確保數(shù)據(jù)恢復(fù)策略可以正常工作\h案例分析\hGmail—2011年2月:從GTape上恢復(fù)數(shù)據(jù)(磁帶)\hGoogleMusic—2012年3月:一次意外刪除事故的檢測過程\hSRE的基本理念在數(shù)據(jù)完整性上的應(yīng)用\h保持初學(xué)者的心態(tài)\h信任但要驗證\h不要一廂情愿\h縱深防御\h小結(jié)\h第27章可靠地進行產(chǎn)品的大規(guī)模發(fā)布\h發(fā)布協(xié)調(diào)工程師\h發(fā)布協(xié)調(diào)工程師的角色\h建立發(fā)布流程\h發(fā)布檢查列表\h推動融合和簡化\h發(fā)布未知的產(chǎn)品\h起草一個發(fā)布檢查列表\h架構(gòu)與依賴\h集成\h容量規(guī)劃\h故障模式\h客戶端行為\h流程與自動化\h開發(fā)流程\h外部依賴\h發(fā)布計劃\h可靠發(fā)布所需要的方法論\h灰度和階段性發(fā)布\h功能開關(guān)框架\h應(yīng)對客戶端濫用行為\h過載行為和壓力測試\hLCE的發(fā)展\hLCE檢查列表的變遷\hLCE沒有解決的問題\h小結(jié)\h第Ⅳ部分管理\h第28章迅速培養(yǎng)SRE加入on-call\h新的SRE已經(jīng)招聘到了,接下來怎么辦\h培訓(xùn)初期:重體系,而非混亂\h系統(tǒng)性、累積型的學(xué)習(xí)方式\h目標性強的項目工作,而非瑣事\h培養(yǎng)反向工程能力和隨機應(yīng)變能力\h反向工程:弄明白系統(tǒng)如何工作\h統(tǒng)計學(xué)和比較性思維:在壓力下堅持科學(xué)方法論\h隨機應(yīng)變的能力:當(dāng)意料之外的事情發(fā)生時怎么辦\h將知識串聯(lián)起來:反向工程某個生產(chǎn)環(huán)境服務(wù)\h有抱負的on-call工程師的5個特點\h對事故的渴望:事后總結(jié)的閱讀和書寫\h故障處理分角色演習(xí)\h破壞真的東西,并且修復(fù)它們\h維護文檔是學(xué)徒任務(wù)的一部分\h盡早、盡快見習(xí)on-call\hon-call之后:通過培訓(xùn)的儀式感,以及日后的持續(xù)教育\h小結(jié)\h第29章處理中斷性任務(wù)\h管理運維負載\h如何決策對中斷性任務(wù)的處理策略\h不完美的機器\h流狀態(tài)\h將一件事情做好\h實際一點的建議\h減少中斷\h第30章通過嵌入SRE的方式幫助團隊從運維過載中恢復(fù)\h第一階段:了解服務(wù),了解上下文\h確定最大的壓力來源\h找到導(dǎo)火索\h第二階段:分享背景知識\h書寫一個好的事后總結(jié)作為示范\h將緊急事件按類型排序\h第三階段:主導(dǎo)改變\h從基礎(chǔ)開始\h獲取團隊成員的幫助\h解釋你的邏輯推理過程\h提出引導(dǎo)性問題\h小結(jié)\h第31章SRE與其他團隊的溝通與協(xié)作\h溝通:生產(chǎn)會議\h議程\h出席人員\hSRE的內(nèi)部協(xié)作\h團隊構(gòu)成\h高效工作的技術(shù)\hSRE內(nèi)部的協(xié)作案例分析:Viceroy\hViceroy的誕生\h所面臨的挑戰(zhàn)\h建議\hSRE與其他部門之間的協(xié)作\h案例分析:將DFP遷移到F1\h小結(jié)\h第32章SRE參與模式的演進歷程\hSRE參與模式:是什么、怎么樣以及為什么\hPRR模型\hSRE參與模型\h替代性支持\hPRR:簡單PRR模型\h參與\h分析\h改進和重構(gòu)\h培訓(xùn)\h“接手”服務(wù)\h持續(xù)改進\h簡單PRR模型的演進:早期參與模型\h早期參與模型的適用對象\h早期參與模型的優(yōu)勢\h不斷發(fā)展的服務(wù):框架和SRE平臺\h經(jīng)驗教訓(xùn)\h影響SRE的外部因素\h結(jié)構(gòu)化的解決方案:框架\h新服務(wù)和管理優(yōu)勢\h小結(jié)\h第Ⅴ部分結(jié)束語\h第33章其他行業(yè)的實踐經(jīng)驗\h有其他行業(yè)背景的資深SRE\h災(zāi)難預(yù)案與演習(xí)\h從組織架構(gòu)層面堅持不懈地對安全進行關(guān)注\h關(guān)注任何細節(jié)\h冗余容量\h模擬以及進行線上災(zāi)難演習(xí)\h培訓(xùn)與考核\h對詳細的需求收集和系統(tǒng)設(shè)計的關(guān)注\h縱深防御\h事后總結(jié)的文化HYPERLINK\l"Jiang_Zhong
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人職業(yè)規(guī)劃的思路與方向計劃
- 幼兒成長之路小班教學(xué)活動規(guī)劃計劃
- 生產(chǎn)計劃與需求預(yù)測的關(guān)系
- 小班音樂與韻律教育活動計劃
- 《貴州連云礦業(yè)有限公司興仁縣潘家莊鎮(zhèn)旭東煤礦(延續(xù))礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》專家組評審意見
- 鹽邊縣中天礦業(yè)有限責(zé)任公司新九大老包鐵礦礦山地質(zhì)環(huán)境保護與土地復(fù)墾方案情況
- 第1課 互聯(lián)網(wǎng)與物聯(lián)網(wǎng) 教學(xué)設(shè)計 -初中信息技術(shù)七年級下冊浙教版2023
- 第八單元-第2課時-角的度量(教學(xué)設(shè)計)四年級數(shù)學(xué)上冊同步高效課堂系列(蘇教版)
- 《三位數(shù)乘兩位數(shù)的筆算乘法》(教學(xué)設(shè)計)-2024-2025學(xué)年四年級上冊數(shù)學(xué)人教版
- 不同茶葉沖泡方法
- 辦公樓招商知識培訓(xùn)課件
- 廣西壯族自治區(qū)馬山縣實驗高中-主題班會-高中如何上好自習(xí)課【課件】
- 2025年阜陽科技職業(yè)學(xué)院單招職業(yè)技能測試題庫及答案1套
- 開啟新征程??點亮新學(xué)期+課件=2024-2025學(xué)年高一下學(xué)期開學(xué)家長會
- 2025內(nèi)蒙古烏審旗圖克鎮(zhèn)圖克工業(yè)園區(qū)中天合創(chuàng)化工分公司招聘20人易考易錯模擬試題(共500題)試卷后附參考答案
- 2.3品味美好情感 課件 -2024-2025學(xué)年統(tǒng)編版道德與法治七年級下冊
- 七年級道法下冊 第一單元 綜合測試卷(人教海南版 2025年春)
- 海洋自主無人系統(tǒng)跨域協(xié)同任務(wù)規(guī)劃模型與技術(shù)發(fā)展研究
- GB/T 18851.2-2024無損檢測滲透檢測第2部分:滲透材料的檢驗
- 正弦穩(wěn)態(tài)電路分析
- 中國中材海外科技發(fā)展有限公司招聘筆試沖刺題2025
評論
0/150
提交評論