版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
云平臺服務器存儲應急預案目錄1 目的 32 適用范圍 33 規(guī)范內容 33.1 故障分類 33.2 應急準備 33.3 具體措施 34 故障處理規(guī)范 44.1 機房停電 44.2 主機故障 44.3 存儲系統(tǒng)故障 44.4 云平臺軟件系統(tǒng)故障 44.5 云平臺管理服務器故障預防 54.6 云平臺日常告警故障排除 55 硬件故障預防與排除 55.1 故障預防 55.2 故障排除 55.3 故障處理 6目的為提高云平臺服務器、存儲故障處理能力,形成科學、有效、反應迅速的日常管理流程和應急處理機制,確保平臺的安全和穩(wěn)定運行,最大限度地減小故障對生產的影響,降低業(yè)務中斷風險,特制定本規(guī)范。適用范圍本規(guī)范適用于提供云計算虛擬化平臺服務的服務器、存儲管理,應對發(fā)生和可能發(fā)生的故障。規(guī)范內容服務器運維和應急處理應包括風險評估,檢測體系和應急處理三個環(huán)節(jié),合理有效的執(zhí)行控制將防止故障影響擴大。故障分類平臺故障包括服務器硬件和存儲系統(tǒng)故障;自然災害(水、火、電等)造成的物理破壞;人為誤操作造成的損害等。應急準備部門責任人員明確職責和管理范圍,根據實際情況,安排應急值班,確保到崗到人,聯絡暢通,處理及時準確。具體措施(1)建立安全、可靠、穩(wěn)定運行的機房環(huán)境,防火、防雷電、防水、防靜電、防塵;建立備份電源系統(tǒng)。(2)虛擬化平臺服務器應采用可靠、穩(wěn)定、兼容性硬件,落實責任管理機制,遵守安全操作規(guī)范;對虛擬機和管理服務器進行定時備份;采用有效的虛擬化監(jiān)控工具,及時發(fā)現問題和日報告。故障處理規(guī)范機房停電接到停電通知后,相關人員應及時部署應對具體措施,啟動備用電源,保證服務器正常運行。主機故障(1)平臺服務器出現硬件告警需要停機維護,服務器責任人應立即通知相關人員,將業(yè)務虛機遷移到集群中其他服務器主機上,再將故障服務器切換至維護模式并從HA集群中移除,負責陪同硬件廠家現場更換至成功恢復。(2)若服務器硬件24小時內無法恢復,服務器責任人需書面報告原因并立即通知業(yè)務管理人員進行數據應急備份,防止災難擴大。(3)若虛擬化存儲硬件出現告警,第一目擊人應立即通知存儲管理員,并上報主管領導,存儲管理員應在報告1小時內聯系廠家到場處理,處理完成后因報告原因,找到解決方法;并立即對數據做完整性檢查,消除重復發(fā)生隱患。存儲系統(tǒng)故障(1)做好存儲系統(tǒng)的定時備份,一旦出現數據損壞、丟失,能夠及時恢復系統(tǒng)。(2)發(fā)生存儲系統(tǒng)故障后,相關人員應檢查出現故障的原因并盡快排除。(3)如遇系統(tǒng)崩潰,數據丟失,應啟用備份文件進行數據恢復。云平臺軟件系統(tǒng)故障(1)日常做好虛擬機的定時備份和快照,系統(tǒng)崩潰后,能夠及時恢復虛擬機。(2)發(fā)生虛擬機系統(tǒng)故障后,相關人員應及時通知業(yè)務人員檢查出現故障的原因并盡快排除。(3)如遇虛擬機系統(tǒng)需要啟用備份系統(tǒng)進行恢復時,應在恢復后和業(yè)務管理員仔細檢查業(yè)務是否恢復并做好恢復記錄。云平臺管理服務器故障預防虛擬化服務器采用群集配置。配套管理軟件對虛擬數據中心管理單元進行集中管理,系統(tǒng)平臺常年24小時運行,每天將產生大量的任務日志和記錄信息。同時管理服務器擔任了整個平臺主機管理和集中配置的角色,使用率極高。為了安全,應定期備份配置數據庫,定期檢查告警日志。云平臺日常告警故障排除當虛擬化平臺出現告警信息,通過以下步驟排除:確定故障原因。查看已觸發(fā)的警報內容,確定故障前操作是否是引發(fā)該故障的原因,對合規(guī)操作引起的告警,進行消除。對提示硬件產生的告警,應查看硬件狀態(tài)信息,對確認是硬件的問題按硬件維護預案處理。對提示因資源不足或性能引發(fā)的告警,因查看近期性能圖表,找出原因,消除故障提示。對于無法判斷的故障,可導出系統(tǒng)日志發(fā)給廠家分析處理。硬件故障預防與排除故障預防保持雙機運行狀態(tài)正常,單機出現故障后,及時對故障單機進行修復。故障排除當服務器出現硬件故障,通過以下步驟排除:(1)確定故障原因。依次查看電源、硬盤、內存、主板、處理器等,如條件許可,可使用替換法檢測各硬件。(2)恢復固件缺省配置。比如去除第三方廠商備件和非標配備件。故障處理(1)硬盤故障處理:當硬盤出現黃燈提示預警時,應先查看硬盤數據是否丟失,如數據存在應先做好數據備份,將此服務器各應用迅速轉移,然后排查報警具體原因,如由于錯誤操作或硬盤連接不好引起的報警,可嘗試重啟服務器,重新插拔硬盤等操作即可解決問題。如硬盤損壞,應及時將備用硬盤替換下故障硬盤,使服務器恢復正常工作。排查過程中,如不能正確判斷問題原因,不能隨便操作,可向售后服務咨詢處理。(2)內存故障:由于我們的服務器有多組內存,單條內存故障時,會對服務器性能稍有影響,當不會影響整體使用,所以如發(fā)現內存條損壞時,安排時間將損壞的內存條替換掉即可。(3)RAID卡故障:服務器的RAID卡出現故障時,系統(tǒng)會無法識別出硬盤,服務器不能正常使用,所以應第一時間啟動備用服務器。將故障服務器移出生產網絡后更換RAID卡,RAID卡通過硬盤重新讀取RAID配置信息后即可恢復使用。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電銷服務知識培訓課件
- 員工關懷管理員工關懷培訓
- 熱泵基本知識培訓課件
- 中國臨終關懷-現狀及其發(fā)展探索
- 贏在執(zhí)行力培訓
- 二零二五年度安置房房票買賣貸款違約責任合同3篇
- 基于SpringBoot的社區(qū)防控管理系統(tǒng)的設計與實現
- 胸腔閉式引流護理
- 積極老齡化理論的國內外研究進展
- 人教版八年級歷史與社會上冊說課稿綜合探究三 探尋絲綢之路
- 店鋪交割合同范例
- 新生兒心臟病護理查房
- 規(guī)劃設計行業(yè)數字化轉型趨勢
- 物業(yè)年終總結匯報工作
- 金色簡約蛇年年終總結匯報模板
- 醫(yī)院住院病歷質量檢查評分表(評分標準)
- 12.1 擁有積極的人生態(tài)度(教學設計)2024七年級道德與法治上冊
- 視聽說課程(《走遍美國》)教學方案
- 2024年內蒙古中考語文試卷五套合卷附答案
- 高中體育與健康-短跑教學設計學情分析教材分析課后反思
- 廠房廠區(qū)保潔方案
評論
0/150
提交評論