集中備份系統(tǒng)應急方案_第1頁
集中備份系統(tǒng)應急方案_第2頁
集中備份系統(tǒng)應急方案_第3頁
集中備份系統(tǒng)應急方案_第4頁
集中備份系統(tǒng)應急方案_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、集中備份系統(tǒng)應急方案6/6/2017目錄 TOC o 1-5 h z HYPERLINK l bookmark24 o Current Document 前言1 HYPERLINK l bookmark28 o Current Document 數(shù)據(jù)庫日志備份應急措施1 HYPERLINK l bookmark32 o Current Document Oracle數(shù)據(jù)庫的應急處理方法 1 HYPERLINK l bookmark38 o Current Document Informix數(shù)據(jù)庫的應急處理方法2 HYPERLINK l bookmark54 o Current Document

2、 集中備份系統(tǒng)故障應急措施3 HYPERLINK l bookmark58 o Current Document 障分類3 HYPERLINK l bookmark67 o Current Document 帶庫硬件故障應急步驟及恢復策略4帶庫單點故障4驅(qū)動器故障6驅(qū)動器卡帶故障8 HYPERLINK l bookmark103 o Current Document 備份軟件故障應急步驟及恢復策略8備份客戶端軟件故障8備份服務器備份服務啟不來9 HYPERLINK l bookmark127 o Current Document 備份服務器硬件故障10備份服務器硬件故障應急步驟及恢復策略10

3、HYPERLINK l bookmark138 o Current Document 光纖交換機故障應急步驟及恢復策略10光纖交換機個別端口故障10光纖線有問題11 HYPERLINK l bookmark150 o Current Document 網(wǎng)絡故障應急步驟及恢復策略11 HYPERLINK l bookmark162 o Current Document 主機HBA故障11前言集中備份系統(tǒng)由IBM 3584帶庫/STK L1400、SYMANTECInetbackup備份軟 件、SYMANTEC|netbackup備份客戶端、光纖交換機,IBM備份服務器等組成。 其中由于3584帶

4、庫及L1400帶庫屬機械設備,存在出現(xiàn)機械故障的風險點,還 有其他組件也存在出現(xiàn)故障的可能性;現(xiàn)針對集中備份系統(tǒng)可能出現(xiàn)的故障點, 為后期備份系統(tǒng)的進一步完善,特制定本應急方案。說明:以下操作步驟如果沒有特殊說明都是由備份管理員操作.數(shù)據(jù)庫日志備份應急措施針對Oracle ,Informix數(shù)據(jù)庫在線備份,都需要打開歸檔功能做日志備份.如 果備份系統(tǒng)出現(xiàn)問題,不能進行日志備份的話,需采取如下應急措施:Oracle數(shù)據(jù)庫的應急處理方法目前集中備份系統(tǒng)使用ORACLE數(shù)據(jù)庫的業(yè)務為ODSB,且歸檔日志與 ODSB項目組確認后是可以刪除的,清理日志的機制已下發(fā)分行。如分行有特色 系統(tǒng)使用ORACLE

5、數(shù)據(jù)庫且已經(jīng)加入集中備份系統(tǒng):1、保留歸檔日志方法一.可更改歸檔日志生成路徑,但確保更改后的文件系統(tǒng)足夠大。命令舉例:Archive Mode Enabled /uOl/logdir 14 16 16SQL archive log list; Database log mode Automatic archival Archive destination Oldest online log sequence Next log sequence to archive Current log sequence SQLSQL alter system set Iog_archive_dest=/u0

6、1/logdir2/ scope=both;System altered*方法二.當歸檔日志文件系統(tǒng)使用率達60%,可將歸檔日志拷貝、轉(zhuǎn)移到其他 文件系統(tǒng)(本機或異機)。2、不保留歸檔日志數(shù)據(jù)庫管理員可使用rman命令刪除歸檔日志(不要直接使用rm命令刪除), 命令舉例:L or a cl eo r a 1 門豐 rni an target / nocatal og ;Recovery Managst: ReleasA 10+210 + 1 + U - Pruduction on Fri Sep 11 09:59:36 2009Copyright (c) 1982, 2005, Oracle+

7、 All rights reserved+connected to target database: TEST (DBID=1370G01434)using target database control file instead of recovery catalogRMANRMANRMAN CROSSCHECK ARCHIVELOG ALL;allocated channel: URA_LHSK_1channel URA_ElISK_ 1: sid=15y de1.,.1 type=EU SKvalidstion succeeded for archived logarchive log

8、fi 1 ename= ZuO 1 /oracie/f 1 ash_recovery_area/TEST /archiyelog/2009_09_ll/ol_r DELETE NOPROMPT ARCHIVELOG ALL;released channel: ORA_DISK_1allocated channel: ORA_DISK_1channel LiRA_DISK_ 1: sid=153 de1-,.1 type=EU SKList of Archived Log CopiesKeyTh rd Seq S Lui.i T ime Nanis112A 1 l-SEP-09 /u01/ora

9、cie/flash_recovery_area/TEST /archivelog/2009_09_ 11 / l_rnf_l_ 12_5bmcq2v4_ + arc113A ll-SEF-Oy /u01 /oracie/flash_reco1.,1 ery_.=irea/TEST /archi*巳 1 口,日。心9_09_ 11/ul_rnF_l_13_5lzirncqdn:i_ + arcdeleted -archi|.,.1 e logarchive log fi1ename=/u01/oracie/f1ash_recovery_area/TEST/archivelog/2009_09_l

10、l/ol_mf_l_12_5bmcq2y4_4arc recid=58 stamp=697283938deleted archin1 e lugarchive log Fi1ename=/u01/oracie/Flash_recovery_area/TEST/archivelog/2009_09_11/ol_mf_l_13_5bmcqdn9_4arc recid=59 stamp=697283948Deleted 2 oljjectsRMAN exitRecovery Manager coniplete +E oracieora1 門車如果希望歸檔日志自動清理,請參照ODSB歸檔日志自動清理機

11、制。Informix數(shù)據(jù)庫的應急處理方法參數(shù)配置前提針對重要系統(tǒng)informix數(shù)據(jù)庫的邏輯日志采用 onbar進行備份時,目前的LTAPEDEV通常設置為一個文件,不能是null。故障現(xiàn)象當日志無法備份時,從數(shù)據(jù)庫的角度,出現(xiàn)大量未備份的日志,(U-),最終導致日志被用滿,數(shù)據(jù)庫的日志出現(xiàn)錯誤故障處理步驟1、停止帶庫備份軟件進程(如果臨時應急時間很短,可以考慮不停止)2、檢查系統(tǒng)中是否有掛起的onbar進程,如果存在,kill殺掉該進程(如果該進程僵死,存在殺不掉的可能)3、查看目前onconfig中的LTAPE配置參數(shù)LTAPEDEV /home/db/informix/log.bak #

12、 Log tape device pathLTAPEBLK 32# Log tape block size (Kbytes)LTAPESIZE 102400# Max amount of data to put on log tape (Kbytes)察看當前的LTAPEDEV所配置的文件是否存在咨詢具體負責人,是否要保留日志不保留日志:1、將/dev/null鏈接到具體的文件上,以上圖為例,ln -s /dev/null /home/db/informix/log.bak2、修改onconfig參數(shù)ALARMPROGRAM所指向的文件,即邏輯日志備 份腳本,將 BACKUP_CMD=onba

13、r -b -l改為 BACKUP_CMD=ontape -a3、再次確認所有onbar進程已經(jīng)被kill掉4、通過onstat -l監(jiān)控目前日志的變化情況注:此過程無需重啟informix數(shù)據(jù)庫。保留邏輯日志:1、可將邏輯日志備份至本地磁帶機或文件系統(tǒng),如果備份至文件系統(tǒng)需 保證文件系統(tǒng)空間(邏輯日志落地空間)充足;2、在有空間的文件系統(tǒng)創(chuàng)建一個文件(權(quán)限:660; informix:informix), 并將文件鏈接到LTAPEDEV所指向的文件,或?qū)ATPEDEV指向磁 帶機設備;3、修改onconfig參數(shù)ALARMPROGRAM所指向的文件,即邏輯日志備 份腳本,將 BACKUP_C

14、MD=onbar -b -l改為 BACKUP_CMD=,再 直接運行ontape -c,這個命令的作用是是連續(xù)不斷地備份數(shù)據(jù)庫邏輯 日志,只需要運行一次,一直掛界面上運行,或則放在后臺運行;4、再次確認所有onbar進程已經(jīng)被kill掉,并使用onstat -l查看日志狀 態(tài);5、對已經(jīng)備份出來的日志進行妥善保管,以應對緊急情況下的日志回 滾,并加強對文件系統(tǒng)空間使用率監(jiān)控。注:此過程無需重啟informix數(shù)據(jù)庫。集中備份系統(tǒng)故障應急措施3.1.故障分類(1)帶庫硬件故障(A.機械臂,B.控制面板,C.IO Station,D.MCP卡(負責磁帶機 通訊),E.ACC卡(控制機械臂的電路板

15、)等單點故障、驅(qū)動器故障)(2)NBU備份軟件故障(備份客戶端軟件故障、備份服務器備份進程異常)(3)備份服務器故障(備份服務器硬件故障)(4)光纖交換機故障(光纖交換機個別端口故障、光纖線有問題)(5)網(wǎng)絡故障(網(wǎng)絡不通)(6)主機HBA故障根據(jù)故障的業(yè)務影響面不同,我們把故障定義為以下三類:一般故障:只影響個別備份客戶端,影響不大;嚴重故障:涉及部分備份客戶端,影響一般;備份停業(yè):最嚴重的一種故障,導致備份系統(tǒng)癱瘓。故障分類細分類備份停業(yè)嚴重故障一般故障帶庫硬件故障帶庫單點故障.驅(qū)動器故障.備份軟件故障備份客戶端軟件故障.備份服務器備份進程異常.備份服務器故障備份服務器硬件故障.光纖交換機

16、故障光纖交換機個別端口故障.光纖線有問題.網(wǎng)絡故障網(wǎng)絡故障.主機HBA故障主機HBA故障.帶庫硬件故障應急步驟及恢復策略帶庫單點故障由于磁帶庫只有一個A.機械臂,B.控制面板,C.IO Station,D.MCP卡(負 責磁帶機通訊),E.ACC卡(控制機械臂的電路板)等部件,如果以上任一部 件有故障,整個備份系統(tǒng)就會癱瘓,影響非常嚴重。(1)帶庫單點故障應急步驟第一步:在備份服務器管理界面上,將所有的文件、數(shù)據(jù)庫0級備份 的policy “dactive” ;具體操作步驟如下:以管理員身份登陸 Netbackup Administration Console 界面將 “Active.Go i

17、nto effect at:”前的 “v”帶庫故障并不影響邏輯日志備份至磁盤存儲單元,避免因排查故障而頻繁 重啟備份服務器NBU進程及操作系統(tǒng),導致邏輯日志堆積;第二步:如果修復時間不超過8個小時,先通知各系統(tǒng)管理員密切關 注數(shù)據(jù)庫邏輯日志使用情況、邏輯日志落地文件系統(tǒng)的使用率,達到50% 發(fā)出通知,提前采取應急措施.各系統(tǒng)管理員需要實時監(jiān)控各數(shù)據(jù)庫日志、日志文件系統(tǒng)使用情況:Informix數(shù)據(jù)庫邏輯日志使用情況使用$onstat -l查看Informix數(shù)據(jù)庫落地日志文件系統(tǒng)使用#df-g查看Oracle數(shù)據(jù)庫日志文件系統(tǒng)使用#df-g查看如果日志達到50%,請數(shù)據(jù)管理員先將日志文件移到空

18、閑的文件系 統(tǒng)上.第三步:如果維修的時間過長,邏輯日志或存放日志的文件系統(tǒng)就會 出現(xiàn)滿的情況,這時數(shù)據(jù)庫就會宕機或歸檔日志就不能正常備份,就要采 取日志拋空或轉(zhuǎn)移,詳見第二章數(shù)據(jù)庫日志備份應急措施.(2 )恢復策略第一步:帶庫單點故障部件修復好了,在帶庫面板上做取帶、退帶操 作測試;選擇某一磁帶load到驅(qū)動器中;Mount成功后,選擇驅(qū)動器做umount操作Load,unload都操作成功的話,說明帶庫已經(jīng)正常.第二步:備份管理員在備份服務器上啟動備份服務;第三步:備份管理員在備份服務器管理界面上將置為“inactive”的備 份策略,置成“active” ;驅(qū)動器故障如果出現(xiàn)個別驅(qū)動器不能

19、讀寫的故障,首先檢查是否是鏈路的問題(光 纖線、交換機端口故障)如果確實是驅(qū)動器故障的話,需要更換驅(qū)動器。其具體的檢查方法為:如果驅(qū)動器有問題的話,在備份服務器的日志中會有報某個驅(qū)動器使用 有問題的信息同時在操作系統(tǒng)的系統(tǒng)日志中也會有相關報錯信息.(1)應急步驟第一步:如果驅(qū)動器有故障,NBU備份軟件會自動將其狀態(tài)設置為 “down”,也可以手工操作:在管理界面 “media and device management w “device monitor”中選中有故 障的驅(qū)動器,右鍵“down drive”第二步:通知IBM工程師更換有故障的驅(qū)動器;如果是3584帶庫的第 一個驅(qū)動器壞掉,需要

20、將機械手的光纖通路切到其余驅(qū)動器上,并在備份軟件上 配置相應的ovpass,詳見IBM 3584帶庫機械手多路冗余配置方法第二步:在管理界面 “media and device management” “device monitor” 中選中已更換的驅(qū)動器,右鍵up drive”第三步:備份管理員在備份管理界面上發(fā)起備份或新建測試用備份策 略驗證驅(qū)動器是否工作正常。驅(qū)動器卡帶故障如果出現(xiàn)所使用驅(qū)動器卡帶的情況,采取以下應急及恢復策略:(1)應急步驟第一步:備份管理員在備份管理界面上先停止相關項目的備份作業(yè);具體操作步驟如下:第二步:備份管理員在帶庫管理界面或液晶面板上彈出卡帶的磁帶;第三步:和

21、系統(tǒng)管理員協(xié)商補備時間,由備份管理員再次發(fā)起備份任 務;恢復策略通過以上應急步驟問題解決后,備份作業(yè)就能正常進行了.通過檢查 統(tǒng)計備份服務器日志,分析是磁帶的問題還是驅(qū)動器問題,確認后進行 更換.備份軟件故障應急步驟及恢復策略備份客戶端軟件故障(包括client及media server)備份客戶端軟件發(fā)生問題,導致本機不能進行數(shù)據(jù)庫及日志的備份。應急步驟第一步:聯(lián)系備份軟件廠商,如果一時無法定位問題,可考慮在主機 上刪除備份軟件及驅(qū)動程序,重裝備份客戶端。安裝刪除步驟詳見第二步:如果不能通過LANFree備份,先考慮通過網(wǎng)絡備份。恢復策略當故障排除后,恢復原有配置;如原來為LAN_FREE備

22、份方式,當前為 LAN,需重新安裝配置media server端。備份服務器備份服務啟不來備份服務器備份服務無法啟動,不能進行正常工作。此問題非常嚴重。(1)應急步驟第一步:如果可以的話在備份服務器管理界面上,將所有的備份策略為 “inactive” ;第二步:如果修復時間不超過8個小時,先通知各系統(tǒng)管理員密切關注 數(shù)據(jù)庫邏輯日志使用情況、邏輯日志落地文件系統(tǒng)的使用率,達到50% 發(fā)出通知,提前采取應急措施.各系統(tǒng)管理員需要實時監(jiān)控各數(shù)據(jù)庫日志文件系統(tǒng)使用情況:Informix數(shù)據(jù)庫邏輯日志使用情況使用$onstat -l查看Informix數(shù)據(jù)庫落地日志文件系統(tǒng)(一般為/home/ap/ns

23、rdboxx )使用#df-g查看Oracle數(shù)據(jù)庫日志文件系統(tǒng)(一般為/home/db/orarchxx )使用#df-g查看如果日志達到50%,請數(shù)據(jù)管理員先將日志文件移到空閑的文件系 統(tǒng)上.第三步:如果維修的時間過長,邏輯日志或存放日志的文件系統(tǒng)就會 出現(xiàn)滿的情況,這時數(shù)據(jù)庫就會宕機或歸檔日志就不能正常備份,就要采 取日志拋空或轉(zhuǎn)移,詳見第二章數(shù)據(jù)庫日志備份應急措施.(2)恢復策略當備份軟件問題解決后,第一步:備份管理員在備份服務器上啟動備份服務;第二步:備份管理員在備份管理界面上“active”所有的policy;備份服務器硬件故障備份服務器硬件故障應急步驟及恢復策略如果由于備份服務硬

24、件故障,如HBA卡、網(wǎng)卡、本地硬盤等出現(xiàn)問題,導 致不能提供正常的備份服務。(1)應急步驟第一步:備份管理員將備份服務進程停下來;第二步:備份管理員在備份服務器上做HA切換,接管正常的備份服 務;如果是服務器硬件或網(wǎng)絡問題,HA會自動切換.沒有發(fā) 生切換的話,在備機上啟動資源組.(2 )恢復策略當備份服務器硬件正常后,備份管理員在備份服務器上做HA切換, 接管正常的備份服務。光纖交換機故障應急步驟及恢復策略光纖交換機個別端口故障如果光纖交換機個別端口出現(xiàn)故障,影響正常備份,照以下應急步驟處理:(1)應急步驟第一步:如果是備份服務器連接存儲(disk storage unit)的光纖通路中斷, 首先進行HA切換,如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論