大數(shù)據(jù)系統(tǒng)運維課件_第1頁
大數(shù)據(jù)系統(tǒng)運維課件_第2頁
大數(shù)據(jù)系統(tǒng)運維課件_第3頁
大數(shù)據(jù)系統(tǒng)運維課件_第4頁
大數(shù)據(jù)系統(tǒng)運維課件_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)應用人才培養(yǎng)系列教材大數(shù)據(jù)系統(tǒng)運維劉 鵬 張 燕 總主編姜才康 主編 陶建輝 副主編第1頁,共22頁。第四章性能管理6.1高可用性概述6.2高可用性技術6.3業(yè)務連續(xù)性管理習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第2頁,共22頁。6.1 高可用性概述第六章 高可用性管理衡量系統(tǒng)運行穩(wěn)定性的關鍵指標是系統(tǒng)的可用性,可用性(availability)指的是系統(tǒng)的無故障運行時間的百分比,計算公式為:無故障運行時間/計劃對外服務時間*100%。為了保證系統(tǒng)有較高的可用性,會采取一些高可用(High Availability,簡稱HA)技術來減少故障中斷時間。高可用技術的核心思想是冗余,即關鍵部件要不止一個

2、,在原部件故障或者維修的的時候,備用的零部件要能頂替原有部件的作用。當發(fā)生大規(guī)模故障時,如機房整體電力故障,對外網(wǎng)絡被物理切斷,在一定區(qū)域內的部件冗余也失效,此時就需要考慮容災相關的方案。通過在其他物理區(qū)域的數(shù)據(jù)中心建立備份系統(tǒng),第3頁,共22頁。第四章性能管理6.1高可用性概述6.2高可用性技術6.3業(yè)務連續(xù)性管理習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第4頁,共22頁。6.2 高可用性技術第六章 高可用性管理系統(tǒng)架構機房環(huán)境機房環(huán)境的高可用主要考慮的是電力和機柜分配的方面。網(wǎng)絡、主機、存儲網(wǎng)絡是數(shù)據(jù)中心的核心,主機是高可用方案的主要部分,主機層面的高可用技術分為主從模式、雙機模式和集群模式。數(shù)據(jù)庫在

3、數(shù)據(jù)庫領域,有一些經(jīng)典的高可用技術,不同產(chǎn)品的原理和實現(xiàn)上都略有區(qū)別。應用在實現(xiàn)某個特定功能點時,應用程序可以通過多個實例完成該功能的服務。第5頁,共22頁。6.2 高可用性技術第六章 高可用性管理容災一般情況下,談到高可用技術時,討論的范圍都是在數(shù)據(jù)中心內部的各種保障技術,但當數(shù)據(jù)中心整體發(fā)生故障,或者稱之為災難時,就需要依靠容災技術,在6.3的業(yè)務連續(xù)性管理中,會有詳細闡述。第6頁,共22頁。6.2 高可用性技術第六章 高可用性管理監(jiān)控指標項應用自身狀態(tài):服務進程狀況、服務狀態(tài)、業(yè)務開關或可使用標志狀態(tài)。數(shù)據(jù)服務:數(shù)據(jù)及時、數(shù)據(jù)關鍵路徑、數(shù)據(jù)完整性和正確性關鍵表記錄變化情況、關鍵業(yè)務數(shù)據(jù)、

4、關鍵數(shù)據(jù)按預期清空。性能容量:用戶數(shù)量(終端/API),內存加載量、消息并發(fā)量、事務響應時間。批量作業(yè):批量處理情況、批量開始時間、批量結束時間、批量加載時間、批處理狀態(tài)。應用占用系統(tǒng)資源:文件句柄數(shù)、應用分區(qū)空間、應用文件增長情況、網(wǎng)絡連接、單個用戶或請求進程占用的系統(tǒng)資源。應用中間件(Weblogic、Tomcat):Weblogic Server、線程池、JVM、數(shù)據(jù)源、連接池、APP狀態(tài)。MQ:隊列管理器、通道、隊列、事件、(Event)。WEB服務器(例如Apache):Apache吞吐率、Apache并發(fā)連接數(shù)、httpd 進程數(shù)、httpd線程數(shù)目、提供網(wǎng)站服務的字節(jié)數(shù)、處理連接

5、的耗時時間。第7頁,共22頁。6.2 高可用性技術第六章 高可用性管理故障轉移主機/存儲/網(wǎng)絡/數(shù)據(jù)庫一般都是心跳包機制來進行健康狀態(tài)的監(jiān)控。由管理模塊向各個模塊之間按照一定時間間隔發(fā)送心跳包,或者兩個模塊之間互相發(fā)送心跳包,如果超過設定時間周期,某個模塊沒有響應,則判斷該模塊出現(xiàn)故障,備份模塊接管該模塊的服務,這個過程被稱為故障轉移(Failover)。在主備機的高可用系統(tǒng)中,在特殊情況下會發(fā)生腦裂(split-brain)的故障。發(fā)生這種故障的原因是心跳線或者網(wǎng)絡出現(xiàn)問題,造成主備機互相探測不到對方的心跳,都以為對方發(fā)生了故障,于是便主動獲取存儲或者服務IP等資源,雙方都啟動服務,造成服務

6、異常。為了解決腦裂問題,一般會在主備機之外,引入一個第三方模塊,作為仲裁者,由它來判斷到底是誰應該接管資源,對外提供服務。第8頁,共22頁。第四章性能管理6.1高可用性概述6.2高可用性技術6.3業(yè)務連續(xù)性管理習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第9頁,共22頁。6.3 業(yè)務連續(xù)性管理第六章 高可用性管理災備系統(tǒng)等級類別主要要求第一級每周一次的數(shù)據(jù)備份,場外存放備份介質。第二級每周一次的數(shù)據(jù)備份,有備用的基礎設施場地。第三級每天一次的數(shù)據(jù)備份,利用通信網(wǎng)絡將關鍵數(shù)據(jù)定時批量傳送至備用場地。第四級每天一次的數(shù)據(jù)備份,利用通信網(wǎng)絡將關鍵數(shù)據(jù)定時批量傳送至備用場地,配備災難恢復所需的全部數(shù)據(jù)處理設備,并處

7、于就緒狀態(tài)或運行狀態(tài)。第五級采用遠程數(shù)據(jù)復制技術,并利用通信網(wǎng)絡將關鍵數(shù)據(jù)實時復制到備用場地,配備災難恢復所需的全部數(shù)據(jù)處理設備,并處于就緒狀態(tài)或運行狀態(tài)。第六集遠程實時備份,實現(xiàn)數(shù)據(jù)零丟失,具備遠程集群系統(tǒng)的實時監(jiān)控和自動切換能力。第10頁,共22頁。6.3 業(yè)務連續(xù)性管理第六章 高可用性管理災備恢復能力要求要素要求數(shù)據(jù)備份系統(tǒng)完全數(shù)據(jù)備份至少每天一次;備份介質場外存放; 遠程實時備份,實現(xiàn)數(shù)據(jù)零丟失。備用數(shù)據(jù)處理系統(tǒng)備用數(shù)據(jù)處理系統(tǒng)具備與生產(chǎn)數(shù)據(jù)處理系統(tǒng)一致的處理能力并完全兼容;、應用軟件是“集群的”,可實時無縫切換;具備遠程集群系統(tǒng)的實時監(jiān)控和自動切換能力。備用網(wǎng)絡系統(tǒng)配備與主系統(tǒng)相同等

8、級的通信線路和網(wǎng)絡設備;備用網(wǎng)絡處于運行狀態(tài);最終用戶可通過網(wǎng)絡同時接入主、備中心。備用基礎設施有符合介質存放條件的場地;有符合備用數(shù)據(jù)處理系統(tǒng)和備用網(wǎng)絡設備運行要求的場地;有滿足關鍵業(yè)務功能恢復運作要求的場地;以上場地應保持7x24小時運作。 專業(yè)技術支持能力在災難備份中心7x24小時有專職的: 計算機機房管理人員;專職數(shù)據(jù)備份技術支持人員;專職硬件、網(wǎng)絡技術支持人員;專職操作系統(tǒng)、數(shù)據(jù)庫和應用軟件技術支持人員。 運行維護管理能力有介質存取、驗證和轉儲管理制度;按介質特性對備份數(shù)據(jù)進行定期的有效性驗證;有備用計算機機房運行管理制度;有硬件和網(wǎng)絡運行管理制度;有實時數(shù)據(jù)備份系統(tǒng)運行管理制度;有

9、操作系統(tǒng)、數(shù)據(jù)庫和應用軟件運行管理制度。災難恢復預案有相應的經(jīng)過完整測試和演練的災難恢復預案。第11頁,共22頁。6.3 業(yè)務連續(xù)性管理第六章 高可用性管理數(shù)據(jù)復制基于數(shù)據(jù)庫的復制基于應用的復制基于存儲的數(shù)據(jù)復制第12頁,共22頁。6.3 業(yè)務連續(xù)性管理第六章 高可用性管理災備切換災備切換是一系列操作的組合,不是單一的技術動作,服務的啟動順序也有嚴格的要求。比如數(shù)據(jù)庫必須先啟動,之后才能啟動應用程序;應用服務器接管完成,才能進行網(wǎng)絡的切換。如果應用程序先于數(shù)據(jù)庫啟動,會出現(xiàn)報錯。最好通過操作手冊和切換腳本對切換的步驟進行固化,并安排一定頻率的災備演練。第13頁,共22頁。6.3 業(yè)務連續(xù)性管理

10、第六章 高可用性管理應急預案需要對系統(tǒng)可能出現(xiàn)的故障做出預案,以便發(fā)生故障時能夠快速處理以恢復服務。應急預案中需要明確適用的故障場景,啟動預案的觸發(fā)條件,相關人員的職責,以及應急的操作步驟。其中,應急的操作步驟包括可能的技術操作步驟如重啟進程,業(yè)務操作步驟如發(fā)出通知。第14頁,共22頁。6.3 業(yè)務連續(xù)性管理第六章 高可用性管理日常演練01沙盤推演0203模擬演練真實切換第15頁,共22頁。第四章性能管理6.1高可用性概述6.2高可用性技術6.3業(yè)務連續(xù)性管理習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第16頁,共22頁。1.一個系統(tǒng)24*365小時對外服務,2017年度中斷服務20小時,該系統(tǒng)的可用性為多少?2.簡述腦裂現(xiàn)象是如何產(chǎn)生的,怎么避免?3.請列出三種數(shù)據(jù)復制技術。4.請列出三種常見的監(jiān)控指標項。習題:第17頁,共22頁。AIRack人工智能實驗平臺一站式的人工智能實驗平臺DeepRack深度學習一體機開箱即用的AI科研平臺BDRack大數(shù)據(jù)實驗平臺一站式的大數(shù)據(jù)實訓平臺第18頁,共22頁。云計算頭條微信號:chinacloudnj中國大數(shù)據(jù)微信號:cstorbigdata劉鵬看未來微信號:lpoutlook云創(chuàng)大數(shù)據(jù)訂閱號微信號:cStor_cn云創(chuàng)公眾號推薦深度學習世界微信號:dl-world云創(chuàng)大數(shù)據(jù)服務號微信號:cstorfw高校大數(shù)據(jù)與人工智能微信號:d

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論