機房服務(wù)器管理應(yīng)急預(yù)案_第1頁
機房服務(wù)器管理應(yīng)急預(yù)案_第2頁
機房服務(wù)器管理應(yīng)急預(yù)案_第3頁
機房服務(wù)器管理應(yīng)急預(yù)案_第4頁
機房服務(wù)器管理應(yīng)急預(yù)案_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

機房服務(wù)器管理應(yīng)急預(yù)案目錄695973547一.故障處理流程 22031462867二.應(yīng)急預(yù)案方案 42101385663三.預(yù)防保障措施 8472779479四.應(yīng)急資源配備 8315209653五.廠家聯(lián)系人 8故障處理流程系統(tǒng)故障通報與應(yīng)急恢復(fù)當值班人員發(fā)現(xiàn)系統(tǒng)故障時,應(yīng)立即采取應(yīng)急措施設(shè)法恢復(fù)故障,并在故障解決后以郵件方式通知技術(shù)中心領(lǐng)導(dǎo)。當故障處理需要技術(shù)部門協(xié)作時,由值班人員及時通知開發(fā)人員。不明確具體協(xié)作人員時,可直接聯(lián)系技術(shù)開發(fā)部經(jīng)理。如果故障30分鐘內(nèi)無法解決,值班人員應(yīng)以手機方式通知公司主要領(lǐng)導(dǎo),并通知系統(tǒng)維護人員與相關(guān)開發(fā)人員到場,一并協(xié)調(diào)盡快解決問題。故障恢復(fù)后30分鐘內(nèi),由值班人員發(fā)出《故障信息單》。通知單內(nèi)容包括故障信息、故障恢復(fù)信息。(恢復(fù)故障指:故障現(xiàn)象得到緩解,系統(tǒng)得到正常運行,但不代表引起故障的原因已明確定位,并徹底解決系統(tǒng)故障隱患。故障恢復(fù)后要求進行故障分析與故障糾正預(yù)防、徹底解決或減少故障重復(fù)發(fā)生次數(shù)。)系統(tǒng)管理人員在收到《故障信息單》后,及時將故障情況添加到“故障案例”中,以備日后學習總結(jié)。故障分析、糾正、預(yù)防故障恢復(fù)后,不代表故障已徹底解決,不會再發(fā)生。值班人員、系統(tǒng)管理人員及相關(guān)開發(fā)人員,需要對故障產(chǎn)生的原因進行定位,分析,制定徹底糾正、預(yù)防故障的解決方案。在故障恢復(fù)后的3個工作日內(nèi),由系統(tǒng)管理人員負責編寫《系統(tǒng)故障分析報告》?!断到y(tǒng)故障分析報告》內(nèi)容要求含蓋故障發(fā)生的時間、地點、項目名稱、故障描述、處理全過程、影響面大小、故障級別、故障審核等各方面信息,編寫人員必須認真填寫,以確保數(shù)據(jù)的準確性和完整性。若在技術(shù)上有疑問,可向技術(shù)處理協(xié)作人員咨詢?!断到y(tǒng)故障分析報告》要求在故障恢復(fù)后的3個工作日內(nèi)完成,再發(fā)給技術(shù)中心各領(lǐng)導(dǎo)知曉,并由專門人員將故障及處理過程錄入知識庫,以便于共享工作經(jīng)驗,提高故障處理能力與效率。故障若無法制定或?qū)嵤┘m正預(yù)防措施,技術(shù)部門應(yīng)做詳細的原因說明,同時跟蹤該故障是否重復(fù)發(fā)生。當故障需要進行系統(tǒng)升級方可解決時,按《程序上線流程》進行升級更新。

故障處理流程應(yīng)急預(yù)案方案應(yīng)急預(yù)案的目的為提高系統(tǒng)運行的可靠性和穩(wěn)定性,切實保障實網(wǎng)系統(tǒng)的通信質(zhì)量,尤其是在緊急情況下使運行維護人員及時、準確地查找、分析和解決出現(xiàn)的問題,將用戶損失和影響范圍減至最小,特制定本應(yīng)急處理預(yù)案。緊急情況的定義緊急情況是指系統(tǒng)軟件和硬件發(fā)生重大故障,導(dǎo)致系統(tǒng)業(yè)務(wù)全阻。緊急情況包括:(1)因違章操作、突發(fā)事故造成系統(tǒng)全面中斷,或出現(xiàn)異常,引起大量用戶集中投訴,造成重大經(jīng)濟損失和不良社會影響的故障。(2)因發(fā)生社會安全突發(fā)事件時的通信保障:大規(guī)模集會、游行以及恐怖暴力事件等。(3)因舉行重大活動時的通信保障:國事會議、大型體育運動會、大型展覽、軍事演習等。(4)重大節(jié)日期間的通信保障,如五一、十一、中秋節(jié)、春節(jié)等。(5)因電信運營企業(yè)自身運營事故導(dǎo)致系統(tǒng)發(fā)生重大異?;蛑袛嗲闆r時的通信保障。(6)上級領(lǐng)導(dǎo)下達的重要運營業(yè)務(wù)保障運行正常任務(wù)。故障處理預(yù)案WEB故障故障現(xiàn)象:HYPERLINKweb網(wǎng)頁提示:無法打開或者轉(zhuǎn)向錯誤頁面HYPERLINKweb網(wǎng)頁提示:java錯誤或tomcat的調(diào)試信息HYPERLINK頁面打開緩慢或無響應(yīng)處理方法:web網(wǎng)頁提示:無法打開或者轉(zhuǎn)向錯誤頁面故障的原因檢查方法處理方法1、web服務(wù)器宕機采用ping命令檢測服務(wù)器,返回都是“timeout”,且現(xiàn)場確認web服務(wù)器宕機。重起服務(wù)器操作系統(tǒng)。2、局方防火墻問題多個地點均確認無法ping通主機,但是現(xiàn)場檢查web服務(wù)器操作系統(tǒng)正常聯(lián)系局方人員開放端口3、我們系統(tǒng)防火墻問題暫時關(guān)閉防火墻,確認無問題后再開啟。4、網(wǎng)絡(luò)不暢聯(lián)系機房維護人員,要求配合檢查網(wǎng)絡(luò)問題。5、tomcat軟件異??梢哉5顷憌eb服務(wù)器,tomcat進程消失或者停止不動。進入$/tomcat/bin./目錄,重新啟動tomcat程序web網(wǎng)頁提示:java錯誤或tomcat的調(diào)試信息故障的原因檢查方法處理方法1、web程序文件錯誤通常是程序有錯,缺少文件或有未捕捉的異常,需要修改程序聯(lián)系開發(fā)人員處理2、tomcat目錄設(shè)置錯誤頁面打開很慢故障的原因檢查方法處理方法網(wǎng)絡(luò)不暢Ping服務(wù)器公網(wǎng)地址,看返回的time和ttl值是否比平時大很多聯(lián)系MDC機房人員配合檢查網(wǎng)絡(luò)web應(yīng)用的某個程序文件有錯誤,檢查文件的源代碼聯(lián)系開發(fā)人員檢查其他故障故障現(xiàn)象:HYPERLINK數(shù)據(jù)庫無法連接HYPERLINK服務(wù)器無法登陸HYPERLINK網(wǎng)絡(luò)故障處理方法:數(shù)據(jù)庫無法連接故障的原因檢查方法處理方法1、網(wǎng)絡(luò)不暢登陸系統(tǒng)內(nèi)網(wǎng)一臺服務(wù)器,用ping命令發(fā)現(xiàn)無法ping通數(shù)據(jù)庫服務(wù)器參見本文檔“網(wǎng)絡(luò)故障處理”2、監(jiān)聽程序未啟動登陸數(shù)據(jù)庫服務(wù)器,oracle用戶用lsnrctlstatus檢查監(jiān)聽程序是否運登陸數(shù)據(jù)庫服務(wù)器#Su-oracle#lsnrtlstop#lsnrtlstart3、數(shù)據(jù)庫連接數(shù)滿登陸數(shù)據(jù)庫服務(wù)器,sqlplus時提示:TNS-12540:TNS:internallimitrestrictionexceededOracle用戶登陸,#ps–ux|greporacle用kill命令殺掉一些oracle10g進程(注意不要把oracle后臺進程殺掉)4、個別進程占用資源過多,導(dǎo)致數(shù)據(jù)庫失去響應(yīng)Oracle用戶登陸,用ps–ux|greporacle,發(fā)現(xiàn)個別進程占用80%以上cpu和內(nèi)存資源。Oracle用戶登陸,#ps–ux|greporacle查找該進程號根據(jù)系統(tǒng)進程號,查找數(shù)據(jù)庫的session信息,進而確認導(dǎo)致資源耗盡的原因,并解決。。5、數(shù)據(jù)庫RAC集群服務(wù)offline使用crs_stat–t如果服務(wù)有offline的情況,需要重啟故障節(jié)點的集群服務(wù)。Root用戶登錄,停止crs服務(wù):crsctlstopcrs啟動crs服務(wù):crsctlstartcrs服務(wù)器無法登陸:故障的原因檢查方法處理方法1、遭到黑客攻擊,運行病毒或者木馬程序,占用大量cpu資源,使系統(tǒng)失去響應(yīng)之前日常檢查發(fā)現(xiàn)有可疑ip登陸,檢查事件查看器,有大量試探用戶名、密碼操作拔掉公網(wǎng)網(wǎng)線;重起服務(wù)器;修改用戶密碼進行全盤掃描殺毒并安裝補丁。2、硬盤故障,無法讀寫文件重新啟動操作系統(tǒng),出現(xiàn)信息“TRACK0BAD,DISKUNUSABLE“,或“Harddiskdrivefailure”或“Harddrivecontrollerfailure”切換備用服務(wù)器,盡快更換硬盤內(nèi)網(wǎng)網(wǎng)絡(luò)無法訪問:故障的原因檢查方法處理方法1、服務(wù)器宕機用ping命令檢測主機,返回“timeout”,現(xiàn)場觀察服務(wù)器確認宕機重新啟動操作系統(tǒng),啟動時注意啟動界面網(wǎng)卡啟動是否成功,啟動完畢后,觀察網(wǎng)卡狀態(tài)是否綠色。預(yù)防保障措施3.1組建應(yīng)急技術(shù)支持小組建應(yīng)急技術(shù)支持小組,以便在緊急情況發(fā)生時能迅速到位,及時指導(dǎo)現(xiàn)場處理各種情況。應(yīng)急小組成員手機7×24小時開機。由維護、研發(fā)、項目管理、工程、測試等相關(guān)模塊人員成立應(yīng)急小組,進行應(yīng)急預(yù)案實施。3.2建立系統(tǒng)巡檢制度建立每日系統(tǒng)遠程巡檢制度,每半月現(xiàn)場對運行設(shè)備和備用設(shè)備巡檢;遠程巡檢的同時對服務(wù)器進行病毒處理。3.3落實系統(tǒng)備份工作每日巡檢檢查數(shù)據(jù)庫備份文件是否正常;定期對系統(tǒng)的話單數(shù)據(jù)、接口處理數(shù)據(jù)進行備份,并將備份數(shù)據(jù)永久保存。3.4檢查系統(tǒng)容量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論