云平臺服務(wù)器存儲應(yīng)急預(yù)案_第1頁
云平臺服務(wù)器存儲應(yīng)急預(yù)案_第2頁
云平臺服務(wù)器存儲應(yīng)急預(yù)案_第3頁
云平臺服務(wù)器存儲應(yīng)急預(yù)案_第4頁
云平臺服務(wù)器存儲應(yīng)急預(yù)案_第5頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、云平臺服務(wù)器存儲應(yīng)急預(yù)案目錄1 目的 32 適用范圍 33 規(guī)范內(nèi)容 33.1 故障分類 33.2 應(yīng)急準備 33.3 具體措施 34 故障處理規(guī)范 44.1 機房停電 44.2 主機故障 44.3 存儲系統(tǒng)故障 44.4 云平臺軟件系統(tǒng)故障 44.5 云平臺管理服務(wù)器故障預(yù)防 54.6 云平臺日常告警故障排除 55 硬件故障預(yù)防與排除 55.1 故障預(yù)防 55.2 故障排除 55.3 故障處理 61 目的為提高云平臺服務(wù)器、存儲故障處理能力,形成科學、有效、反應(yīng)迅速的日常管理流程和應(yīng)急處理機制,確保平臺的安全和穩(wěn)定運行,最大限度地減小故障 對生產(chǎn)的影響,降低業(yè)務(wù)中斷風險,特制定本規(guī)范。2 適

2、用范圍本規(guī)范適用于提供云計算虛擬化平臺服務(wù)的服務(wù)器、存儲管理,應(yīng)對發(fā)生和 可能發(fā)生的故障。3 規(guī)范內(nèi)容服務(wù)器運維和應(yīng)急處理應(yīng)包括風險評估, 檢測體系和應(yīng)急處理三個環(huán)節(jié),合 理有效的執(zhí)行控制將防止故障影響擴大。3.1 故障分類平臺故障包括服務(wù)器硬件和存儲系統(tǒng)故障;自然災(zāi)害(水、火、電等)造成 的物理破壞;人為誤操作造成的損害等。3.2 應(yīng)急準備部門責任人員明確職責和管理范圍, 根據(jù)實際情況,安排應(yīng)急值班,確保到 崗到人,聯(lián)絡(luò)暢通,處理及時準確。3.3 具體措施(1)建立安全、可靠、穩(wěn)定運行的機房環(huán)境,防火、防雷電、防水、防靜 電、防塵;建立備份電源系統(tǒng)。(2)虛擬化平臺服務(wù)器應(yīng)采用可靠、穩(wěn)定、兼

3、容性硬件,落實責任管理機制,遵守安全操作規(guī)范;對虛擬機和管理服務(wù)器進行定時備份; 采用有效的虛擬 化監(jiān)控工具,及時發(fā)現(xiàn)問題和日報告。4 故障處理規(guī)范4.1機房停電接到停電通知后,相關(guān)人員應(yīng)及時部署應(yīng)對具體措施,啟動備用電源,保證服務(wù)器正常運行。4.2主機故障(1)平臺服務(wù)器出現(xiàn)硬件告警需要停機維護, 服務(wù)器責任人應(yīng)立即通知相 關(guān)人員,將業(yè)務(wù)虛機遷移到集群中其他服務(wù)器主機上,再將故障服務(wù)器切換至維 護模式并從HA集群中移除,負責陪同硬件廠家現(xiàn)場更換至成功恢復。(2)若服務(wù)器硬件24小時內(nèi)無法恢復,服務(wù)器責任人需書面報告原因并 立即通知業(yè)務(wù)管理人員進行數(shù)據(jù)應(yīng)急備份,防止災(zāi)難擴大。(3)若虛擬化存儲

4、硬件出現(xiàn)告警,第一目擊人應(yīng)立即通知存儲管理員,并上報主管領(lǐng)導,存儲管理員應(yīng)在報告1小時內(nèi)聯(lián)系廠家到場處理,處理完成后因 報告原因,找到解決方法;并立即對數(shù)據(jù)做完整性檢查,消除重復發(fā)生隱患。4.3 存儲系統(tǒng)故障(1)做好存儲系統(tǒng)的定時備份,一旦出現(xiàn)數(shù)據(jù)損壞、丟失,能夠及時恢復 系統(tǒng)。(2)發(fā)生存儲系統(tǒng)故障后,相關(guān)人員應(yīng)檢查出現(xiàn)故障的原因并盡快排除。(3)如遇系統(tǒng)崩潰,數(shù)據(jù)丟失,應(yīng)啟用備份文件進行數(shù)據(jù)恢復。4.4 云平臺軟件系統(tǒng)故障(1)日常做好虛擬機的定時備份和快照,系統(tǒng)崩潰后,能夠及時恢復虛擬 機。(2)發(fā)生虛擬機系統(tǒng)故障后,相關(guān)人員應(yīng)及時通知業(yè)務(wù)人員檢查出現(xiàn)故障的原因并盡快排除。(3) 如遇

5、虛擬機系統(tǒng)需要啟用備份系統(tǒng)進行恢復時,應(yīng)在恢復后和業(yè)務(wù)管 理員仔細檢查業(yè)務(wù)是否恢復并做好恢復記錄。4.5 云平臺管理服務(wù)器故障預(yù)防虛擬化服務(wù)器采用群集配置。配套管理軟件對虛擬數(shù)據(jù)中心管理單元進行集 中管理,系統(tǒng)平臺常年24小時運行,每天將產(chǎn)生大量的任務(wù)日志和記錄信息。 同時管理服務(wù)器擔任了整個平臺主機管理和集中配置的角色,使用率極高。為了安全,應(yīng)定期備份配置數(shù)據(jù)庫,定期檢查告警日志。4.6 云平臺日常告警故障排除當虛擬化平臺出現(xiàn)告警信息,通過以下步驟排除:1. 確定故障原因。查看已觸發(fā)的警報內(nèi)容,確定故障前操作是否是引發(fā)該 故障的原因,對合規(guī)操作引起的告警,進行消除。2. 對提示硬件產(chǎn)生的告警

6、,應(yīng)查看硬件狀態(tài)信息,對確認是硬件的問題按 硬件維護預(yù)案處理。3. 對提示因資源不足或性能引發(fā)的告警,因查看近期性能圖表,找出原因, 消除故障提示。4. 對于無法判斷的故障,可導出系統(tǒng)日志發(fā)給廠家分析處理。5 硬件故障預(yù)防與排除5.1 故障預(yù)防保持雙機運行狀態(tài)正常,單機出現(xiàn)故障后,及時對故障單機進行修復。5.2 故障排除當服務(wù)器出現(xiàn)硬件故障,通過以下步驟排除:(1)確定故障原因。依次查看電源、硬盤、內(nèi)存、主板、處理器等, 如條件許可,可使用替換法檢測各硬件。(2)恢復固件缺省配置。比如去除第三方廠商備件和非標配備件。5.3 故障處理(1)硬盤故障處理:當硬盤出現(xiàn)黃燈提示預(yù)警時,應(yīng)先查看硬盤數(shù)據(jù)

7、是否丟 失,如數(shù)據(jù)存在應(yīng)先做好數(shù)據(jù)備份,將此服務(wù)器各應(yīng)用迅速轉(zhuǎn)移,然后排查報警 具體原因,如由于錯誤操作或硬盤連接不好引起的報警,可嘗試重啟服務(wù)器,重 新插拔硬盤等操作即可解決問題。 如硬盤損壞,應(yīng)及時將備用硬盤替換下故障硬 盤,使服務(wù)器恢復正常工作。排查過程中,如不能正確判斷問題原因,不能隨便 操作,可向售后服務(wù)咨詢處理。(2)內(nèi)存故障:由于我們的服務(wù)器有多組內(nèi)存,單條內(nèi)存故障時,會對服務(wù) 器性能稍有影響,當不會影響整體使用,所以如發(fā)現(xiàn)內(nèi)存條損壞時,安排時間將 損壞的內(nèi)存條替換掉即可。(3)RAID卡故障:服務(wù)器的RAID卡出現(xiàn)故障時,系統(tǒng)會無法識別出硬盤, 服務(wù)器不能正常使用,所以應(yīng)第一時間啟動備用服務(wù)器。 將故障服務(wù)器移出生產(chǎn) 網(wǎng)絡(luò)后更換RAID卡,RAID卡通過硬盤重新讀取RAID配置信息后即可恢復使用。(4)電源故障:現(xiàn)階段我們的服務(wù)器都是雙電,如果單路電源故障不影響運 行,如果長期單路停電

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論