容災(zāi)技術(shù)介紹和IBM容災(zāi)方案_第1頁(yè)
容災(zāi)技術(shù)介紹和IBM容災(zāi)方案_第2頁(yè)
容災(zāi)技術(shù)介紹和IBM容災(zāi)方案_第3頁(yè)
容災(zāi)技術(shù)介紹和IBM容災(zāi)方案_第4頁(yè)
容災(zāi)技術(shù)介紹和IBM容災(zāi)方案_第5頁(yè)
已閱讀5頁(yè),還剩73頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

容災(zāi)方案第14頁(yè)共79頁(yè)容災(zāi)技術(shù)介紹和IBM容災(zāi)方案TIME\@"yyyy'年'M'月'd'日'"2022年4月17日目錄容災(zāi)方案 11 信息——企業(yè)的財(cái)富與麻煩 61.1 前言 61.2 IT大集中-把蛋都裝進(jìn)籃子里 71.3 容災(zāi)-覆巢之下,亦有完卵 82 容災(zāi)概述 102.1 概述 102.2 容災(zāi)的實(shí)質(zhì)是確保永不停頓的業(yè)務(wù)運(yùn)營(yíng) 132.3 容災(zāi)的IT實(shí)現(xiàn) 172.3.1 容災(zāi)的7個(gè)層次 192.3.2 容災(zāi)的業(yè)務(wù)恢復(fù)時(shí)間段 212.3.3 容災(zāi)所涉及的恢復(fù)技術(shù) 223 容災(zāi)方案分析 253.1 業(yè)務(wù)連續(xù)性開發(fā)模式 263.1.1 階段一、災(zāi)難類型分析(風(fēng)險(xiǎn)分析) 273.1.2 階段二、業(yè)務(wù)沖擊分析 273.1.3 階段三、企業(yè)容災(zāi)環(huán)境分析 293.1.4 階段四、容災(zāi)策略制訂 293.1.5 階段五、容災(zāi)方案設(shè)計(jì) 303.1.6 階段六、業(yè)務(wù)連續(xù)性流程設(shè)計(jì) 313.1.7 階段七、業(yè)務(wù)連續(xù)性流程及容災(zāi)方案管理和測(cè)試 313.2 七層災(zāi)難恢復(fù)解決方案 323.2.1 恢復(fù)的7個(gè)層次 323.2.2 細(xì)述7個(gè)層次 333.3 如何選擇最優(yōu)的災(zāi)難恢復(fù)方案 393.3.1 四個(gè)關(guān)鍵目標(biāo) 403.3.2 方案成本與業(yè)務(wù)停止帶來(lái)的損失 403.3.3 與系統(tǒng)體系結(jié)構(gòu)的關(guān)系 414 容災(zāi)系統(tǒng)的設(shè)計(jì)過(guò)程 444.1 災(zāi)難恢復(fù)計(jì)劃描述 444.2 災(zāi)難恢復(fù)計(jì)劃項(xiàng)目階段 454.3 數(shù)據(jù)收集和關(guān)鍵需求分析階段 504.4 風(fēng)險(xiǎn)分析階段 524.4.1 風(fēng)險(xiǎn)管理過(guò)程 524.4.2 商業(yè)影響分析 534.4.3 建立可靠的系統(tǒng) 544.5 數(shù)據(jù)保護(hù)階段 544.6 恢復(fù)階段 544.7 測(cè)試和培訓(xùn)階段 554.8 維護(hù)和修改階段 564.9 選擇災(zāi)難恢復(fù)方案的步驟介紹 575 典型方案介紹 615.1 基于軟件的數(shù)據(jù)備份技術(shù) 615.2 HACMP高可靠性災(zāi)備方案 655.2.1 HACMP方案 665.2.2 HACMP/XD 675.3 基于磁盤系統(tǒng)的PPRC數(shù)據(jù)級(jí)容災(zāi)解決方案 695.3.1 同步PPRC數(shù)據(jù)級(jí)災(zāi)難備份方案 715.3.2 異步PPRC數(shù)據(jù)級(jí)災(zāi)難備份方案 726 容災(zāi)方案演示環(huán)境 77圖表目錄TOC\h\z\t"附圖標(biāo)題"\c附圖1. 停機(jī)原因分析-北美 10附圖2. 災(zāi)難備份方案選擇標(biāo)準(zhǔn) 19附圖3. 容災(zāi)的7各層次 21附圖4. 容災(zāi)的業(yè)務(wù)恢復(fù)時(shí)間段 22附圖5. 數(shù)據(jù)復(fù)制技術(shù) 24附圖6. 災(zāi)難備份項(xiàng)目實(shí)施過(guò)程 27附圖7. 風(fēng)險(xiǎn)分析 27附圖8. 業(yè)務(wù)沖擊分析曲線 28附圖9. 容災(zāi)環(huán)境分析 29附圖10. 容災(zāi)策略制訂 30附圖11. 容災(zāi)方案層次 30附圖12. 容災(zāi)組織架構(gòu)圖 31附圖13. 三者的平衡關(guān)系 32附圖14. 災(zāi)難恢復(fù)的層次劃分 33附圖15. 四個(gè)關(guān)鍵目標(biāo) 40附圖16. 成本時(shí)間窗口 41附圖17. 高可用系統(tǒng)的構(gòu)成因素 41附圖18. 災(zāi)備計(jì)劃不同階段圖表 46附圖19. 事件間流程 53附圖20. 風(fēng)險(xiǎn)分析示例 53附圖21. 問(wèn)題模型 58附圖22. 災(zāi)備恢復(fù)方案矩陣 59附圖23. 方案評(píng)估矩陣 60附圖24. HDR工作原理1 62附圖25. HDR工作原理2 62附圖26. 63附圖27. 數(shù)據(jù)復(fù)制工作原理 63附圖28. 同步、異步數(shù)據(jù)更新 64附圖29. HACMP/XDPPRC方案 67附圖30. HAGEO集群 68附圖31. 同步遠(yuǎn)程拷貝 69附圖32. 異步遠(yuǎn)程拷貝 70附圖33. 全局鏡像 70附圖34. 71附圖35. PPRC同步實(shí)現(xiàn)機(jī)制 72附圖36. ESS的FlashCopy的使用 73附圖37. FlashCopyCOPY選項(xiàng) 74附圖38. 75附圖39. 76附圖40. 基于磁盤系統(tǒng)的PPRC數(shù)據(jù)級(jí)災(zāi)難備份解決方案典型應(yīng)用環(huán)境拓?fù)鋱D 77信息——企業(yè)的財(cái)富與麻煩前言1958年,BillGore和他的太太VieveGore在美國(guó)特拉華州Newark市,自己家里的地下室成立了Gore公司。1969年,Gore公司研制成功獨(dú)特的,具有防風(fēng)、防水、透氣功能的GORE-TEX面料并廣泛應(yīng)用于生產(chǎn)具有功能性、保護(hù)性和時(shí)尚感的服裝和鞋類產(chǎn)品。目前,Gore公司已成為一家在全球擁有6000多名員工、40多間加工廠的跨國(guó)公司,并在氟材料的技術(shù)研究和應(yīng)用領(lǐng)域始終占據(jù)世界領(lǐng)先地位。對(duì)于Gore這樣的以研發(fā)新型材料作為企業(yè)動(dòng)力的公司而言,材料的研發(fā)過(guò)程記錄、研發(fā)歷史數(shù)據(jù)、研發(fā)結(jié)果數(shù)據(jù)是企業(yè)最可寶貴的財(cái)富。請(qǐng)假設(shè)這樣一種情況,如果這些數(shù)據(jù)在一次事故中全部丟失,Gore公司會(huì)蒙受多么大的損失?1983年,當(dāng)個(gè)人電腦還處于萌芽期的時(shí)候,美國(guó)青年戴爾成立了自己的個(gè)人電腦公司,主要銷售IBM的舊電腦和自己組裝的品牌電腦。那是一個(gè)電腦群雄激烈廝殺的年代,當(dāng)行業(yè)的領(lǐng)導(dǎo)者們爭(zhēng)相以引人注目的技術(shù)推出計(jì)算機(jī)時(shí),戴爾注意到了平凡的供應(yīng)鏈。戴爾公司利用信息技術(shù)全面管理公司生產(chǎn)過(guò)程。通過(guò)互聯(lián)網(wǎng),戴爾公司和其上游的配件制造商能夠?qū)蛻舻亩▎窝杆俚刈龀龇磻?yīng):當(dāng)定單傳至戴爾的控制中心時(shí),控制中心把定單分解為一個(gè)個(gè)子任務(wù),并通過(guò)網(wǎng)絡(luò)分派給各獨(dú)立配件制造商進(jìn)行生產(chǎn)。各制造商按照戴爾的電子定單進(jìn)行生產(chǎn)組裝,并按照戴爾控制中心的時(shí)間表來(lái)供貨。戴爾所需要做的只是在成品車間完成組裝和系統(tǒng)測(cè)試,剩下的就是客戶服務(wù)中心的事情了?!敖?jīng)過(guò)優(yōu)化后,戴爾供應(yīng)鏈每20秒鐘匯集一次定單”,“平均庫(kù)存時(shí)間僅有7小時(shí)”。雖然沒(méi)有傲視群雄的杰出技術(shù),現(xiàn)在的戴爾公司卻已成長(zhǎng)為一個(gè)年銷售額達(dá)410億美金的企業(yè)。對(duì)戴爾公司來(lái)說(shuō),市場(chǎng)信息的獲取、物流信息的傳遞以及合作伙伴的信息交換,這些共同構(gòu)成了拉動(dòng)企業(yè)正常運(yùn)轉(zhuǎn)的信息鏈。如果有一天,一場(chǎng)意外的事故導(dǎo)致供應(yīng)鏈的崩裂,戴爾該如何面對(duì)客戶惱怒的面容和企業(yè)直線下滑的利潤(rùn)?信息,作為企業(yè)寶貴的資源,其重要性已經(jīng)得到了人們的充分認(rèn)識(shí)。但是我們?cè)撊绾伪Wo(hù)這一資源?假設(shè)您就是某企業(yè)的一位高級(jí)管理人員,當(dāng)您的企業(yè)遭遇以下事故時(shí),您將如何去面對(duì):1.某一天,證券公司的交易數(shù)據(jù)因操作失誤而損壞;2.某一天,保險(xiǎn)公司的所有保單數(shù)據(jù)因電源故障而丟失;3.石油勘探公司辛苦一年獲取的地質(zhì)數(shù)據(jù)因人為的惡意操作而丟失;4.醫(yī)院保存的所有病歷因?yàn)榇艓У膿p壞而無(wú)法使用;……這樣的例子還有很多很多。那么這樣的事故所帶來(lái)的后果是什么?至少,很難想象這個(gè)不幸的企業(yè)還能毫發(fā)無(wú)損的健康生存。因?yàn)?,?duì)于信息時(shí)代的企業(yè)而言,健全的信息往往是維持其運(yùn)轉(zhuǎn)所必須的基本條件。所以,如何保護(hù)企業(yè)的信息資源,如何使企業(yè)免遭信息災(zāi)難,已經(jīng)成為企業(yè)所必須考慮的沉重問(wèn)題。IT大集中-把蛋都裝進(jìn)籃子里在計(jì)算機(jī)應(yīng)用的早期,是大型主機(jī)一統(tǒng)天下的時(shí)代。這是一種高度集中的信息應(yīng)用模式。昂貴的計(jì)算機(jī)和同樣昂貴的存儲(chǔ)設(shè)備躲藏在幽深的機(jī)房里,客戶僅能依靠啞終端與主機(jī)進(jìn)行交互,以完成自己的工作。隨著IT設(shè)備的降價(jià)和網(wǎng)絡(luò)技術(shù)的發(fā)展,客戶機(jī)/服務(wù)器體系結(jié)構(gòu)和瀏覽器/服務(wù)器體系結(jié)構(gòu)這樣的信息應(yīng)用模式應(yīng)運(yùn)而生。這兩種全新的信息應(yīng)用模式,降低了用戶進(jìn)入計(jì)算機(jī)應(yīng)用系統(tǒng)的門檻,推進(jìn)了計(jì)算機(jī)應(yīng)用在現(xiàn)代社會(huì)的全面普及,并產(chǎn)生了今天計(jì)算機(jī)應(yīng)用分布式存在和數(shù)據(jù)存儲(chǔ)分布式存在的局面。合久必分,分久必合。隨著網(wǎng)絡(luò)速度的進(jìn)一步提高以及高速存儲(chǔ)設(shè)備的降價(jià),高速信息交換、大容量存儲(chǔ)等困擾IT人員多年的問(wèn)題基本得到了解決。同時(shí),過(guò)于分布的應(yīng)用和數(shù)據(jù)所導(dǎo)致的日益昂貴的維護(hù)和運(yùn)營(yíng)費(fèi)用,已經(jīng)給大型企業(yè)的發(fā)展帶來(lái)了束縛。于是,大集中的號(hào)角重新吹響。目前,在銀行信息化領(lǐng)域,數(shù)據(jù)大集中已經(jīng)成了一個(gè)熱門的話題。在國(guó)內(nèi),中國(guó)工商銀行在2000年就前瞻性地啟動(dòng)了數(shù)據(jù)大集中工程,并在2002年完成了全部工程的建設(shè)?,F(xiàn)在,中國(guó)工商銀行已經(jīng)將分布在全國(guó)各地的四十多個(gè)數(shù)據(jù)中心整合為互相連接、互為備份的北京、上海兩大數(shù)據(jù)中心,建成了全行統(tǒng)一的計(jì)算機(jī)系統(tǒng)平臺(tái)。同時(shí),國(guó)內(nèi)的其它銀行和大型證券公司也紛紛迎頭趕上。大集中已經(jīng)成為包括銀行、證券、保險(xiǎn)等行業(yè)在內(nèi)的整個(gè)金融信息化發(fā)展的大趨勢(shì)。鑒于信息資源對(duì)于企業(yè)的寶貴作用,我們不妨把它們比作一枚枚金蛋,而信息基礎(chǔ)設(shè)施就是用來(lái)裝這些金蛋的籃子。過(guò)去,不同的金蛋分布在不同地域的籃子里,而大集中所帶來(lái)的信息基礎(chǔ)設(shè)施整合則意味著我們將把越來(lái)越多的金蛋放進(jìn)同一個(gè)籃子。此刻,一個(gè)不得不考慮的問(wèn)題出現(xiàn)了:如果這個(gè)籃子翻了,怎么辦?覆巢之下,豈有完卵?容災(zāi)-覆巢之下,亦有完卵2001年9月11日,美國(guó)世貿(mào)中心雙子大廈遭受了誰(shuí)也無(wú)法預(yù)料的恐怖打擊。災(zāi)難發(fā)生前,約有350家企業(yè)在世貿(mào)大廈中工作。事故發(fā)生一年后,重返世貿(mào)大廈的企業(yè)變成了150家,有200家企業(yè)由于重要信息系統(tǒng)的破壞,關(guān)鍵數(shù)據(jù)的丟失而永遠(yuǎn)的關(guān)閉、消失了。其中的一家公司稱,自己要恢復(fù)到災(zāi)難前的狀態(tài)需要50年的時(shí)間。2003年,當(dāng)AT&T無(wú)線試圖對(duì)Siebel客戶關(guān)系管理(CRM)軟件進(jìn)行升級(jí)的時(shí)候,原定一個(gè)周末就能完成的項(xiàng)目演變?yōu)橐粓?chǎng)歷時(shí)六個(gè)星期的災(zāi)難。這次CRM軟件的升級(jí)使AT&T無(wú)線損失了1億多美元,僅增加的用戶欠款、員工加班費(fèi)和承包商的傭金就高達(dá)7500萬(wàn)美元。此外,技術(shù)故障也導(dǎo)致該公司去年第四季度的新增用戶數(shù)急降82%。而其損失并不僅限于這些,AT&T無(wú)線對(duì)分析師發(fā)布警告稱:“2004年上半年的用戶退網(wǎng)率將進(jìn)一步增加。”2003年,國(guó)內(nèi)某電信運(yùn)營(yíng)商的計(jì)費(fèi)存儲(chǔ)系統(tǒng)僅發(fā)生了兩個(gè)小時(shí)的故障,就造成400多萬(wàn)元的損失。這些尚不包括對(duì)公司聲譽(yù)的影響所導(dǎo)致的無(wú)形資產(chǎn)流失。這些災(zāi)難的發(fā)生或許是偶然而難以預(yù)料的,但是,對(duì)災(zāi)難的預(yù)防卻絕對(duì)不應(yīng)該是一個(gè)偶然的話題。據(jù)IDC的統(tǒng)計(jì)數(shù)字表明,美國(guó)在2000年以前的10年間發(fā)生過(guò)災(zāi)難的公司中,有55%當(dāng)時(shí)倒閉。剩下的45%中,因?yàn)閿?shù)據(jù)丟失,有29%也在兩年之內(nèi)倒閉,生存下來(lái)的僅占16%。國(guó)際調(diào)查機(jī)構(gòu)GartnerGroup的數(shù)據(jù)表明,在由于經(jīng)歷大型災(zāi)難而導(dǎo)致系統(tǒng)停運(yùn)的公司中,有2/5再也沒(méi)有恢復(fù)運(yùn)營(yíng),剩下的公司中也有1/3在兩年內(nèi)破產(chǎn)。美國(guó)德克薩斯州大學(xué)的調(diào)查顯示:“只有6%的公司可以在數(shù)據(jù)丟失后生存下來(lái),43%的公司會(huì)徹底關(guān)門,51%的公司會(huì)在兩年之內(nèi)消失?!绷硪环葆槍?duì)這一課題的研究報(bào)告也顯示:在災(zāi)難之后,如果無(wú)法在14天內(nèi)恢復(fù)信息作業(yè),有75%的公司業(yè)務(wù)會(huì)完全停頓,43%的公司再也無(wú)法重新開業(yè),20%的企業(yè)在兩年之內(nèi)被迫宣告破產(chǎn)。美國(guó)明尼蘇達(dá)大學(xué)的研究也表明,在遭遇災(zāi)難的同時(shí)又沒(méi)有災(zāi)難恢復(fù)計(jì)劃的企業(yè)中,將有超過(guò)60%在兩到三年后退出市場(chǎng)。而隨著企業(yè)對(duì)數(shù)據(jù)處理依賴程度的遞增,此比例還有上升的趨勢(shì)。災(zāi)難的發(fā)生對(duì)企業(yè)的打擊往往是致命的。但是,面對(duì)災(zāi)難,企業(yè)就真的不堪一擊嗎?答案是否定的!同樣是令人恐怖的“9.11”,世貿(mào)大廈倒塌后,在世貿(mào)大廈租有25層的金融界巨頭摩根斯坦利公司最為世人所關(guān)注。但是事發(fā)幾個(gè)小時(shí)后,該公司宣布:全球營(yíng)業(yè)部可以在第二天照常工作。這都是因?yàn)樵摴窘⒌臄?shù)據(jù)備份和遠(yuǎn)程容災(zāi)系統(tǒng),它們保護(hù)了公司的重要數(shù)據(jù),在關(guān)鍵時(shí)刻挽救了摩根斯坦利,同時(shí)也在一定程度上挽救了全球的金融行業(yè)。這一獨(dú)特的例子說(shuō)明了什么?它說(shuō)明擁有先知先覺(jué)的防范意識(shí)和充分的技術(shù)準(zhǔn)備,即使是在突如其來(lái)的覆巢之災(zāi)下,亦有完卵,亦有企業(yè)的一線生機(jī)。因此,預(yù)防災(zāi)難的發(fā)生,充分考慮災(zāi)難發(fā)生后的快速恢復(fù)手段,成為現(xiàn)代企業(yè)的一門必修課。其實(shí),在這一問(wèn)題上,中國(guó)古代的智者早就提出了自己的觀點(diǎn):生于憂患,死于安樂(lè)。無(wú)論是對(duì)一個(gè)國(guó)家,還是一個(gè)企業(yè),都是如此。容災(zāi)概述概述常言道,“知己知彼,百戰(zhàn)不殆”。要實(shí)現(xiàn)容災(zāi),首先要了解我們的“敵人”-災(zāi)難。那么,哪些事件可以定義為災(zāi)難呢?典型的災(zāi)難事件是自然災(zāi)難,如火災(zāi)、洪水、地震、颶風(fēng)、龍卷風(fēng)、臺(tái)風(fēng)等,還有其它如原先提供給業(yè)務(wù)運(yùn)營(yíng)所需的服務(wù)中斷,如設(shè)備故障、軟件錯(cuò)誤、電信網(wǎng)絡(luò)中斷和電力故障等等。此外,人為的因素往往也會(huì)釀成大禍,如操作員錯(cuò)誤、破壞、植入有害代碼和恐怖襲擊?,F(xiàn)階段,由于我國(guó)很多行業(yè)正處在高速發(fā)展的階段,很多生產(chǎn)流程和制度仍不完善,加之缺乏經(jīng)驗(yàn),這方面的損失屢見(jiàn)不鮮。事實(shí)上,我國(guó)2003年遭遇的“非典”,某種意義上也是災(zāi)難。對(duì)此,我們認(rèn)為需要做到兩點(diǎn):一是建立切實(shí)可行的應(yīng)急機(jī)制,這主要包含一套基于充分且清楚地將風(fēng)險(xiǎn)予以分類定義的業(yè)務(wù)持續(xù)計(jì)劃,二是在危機(jī)突然降臨時(shí),此計(jì)劃能被有效執(zhí)行。對(duì)于IT系統(tǒng),除了上述的災(zāi)難之外,與系統(tǒng)相關(guān)的計(jì)劃外宕機(jī)也可視作災(zāi)難(見(jiàn)圖1)。停機(jī)原因分析-北美自“9.11”之后,全球各企業(yè)均認(rèn)識(shí)到災(zāi)難防范保護(hù)的重要性。某些大型金融機(jī)構(gòu)之所以能夠在兩天內(nèi)恢復(fù)營(yíng)業(yè),其主要原因是它們不僅象一般公司那樣在內(nèi)部進(jìn)行數(shù)據(jù)備份,而且在數(shù)英里外的數(shù)據(jù)備份中心也保留著數(shù)據(jù)備份。這些備份都是通過(guò)數(shù)據(jù)備份軟件和數(shù)據(jù)復(fù)制軟件進(jìn)行的。采取了這種措施后,一旦工作現(xiàn)場(chǎng)發(fā)生意外,企業(yè)就可以立即使用另一套數(shù)據(jù)。華爾街的金融機(jī)構(gòu)重新對(duì)災(zāi)難恢復(fù)的步驟做了評(píng)估,并認(rèn)識(shí)到災(zāi)難恢復(fù)只是技術(shù)手段之一,它們開始強(qiáng)調(diào)BusinessContinuity-業(yè)務(wù)連續(xù)性而不僅僅是DisasterRecovery-"災(zāi)難"恢復(fù)。因?yàn)檫^(guò)去的"災(zāi)難"恢復(fù)計(jì)劃并沒(méi)有強(qiáng)調(diào)全局性及對(duì)整個(gè)市場(chǎng)的影響,而如何維持業(yè)務(wù)的連續(xù)運(yùn)作將成為企業(yè)運(yùn)營(yíng)風(fēng)險(xiǎn)評(píng)估中至關(guān)重要的一環(huán)。事實(shí)證明,只有對(duì)數(shù)據(jù)存儲(chǔ)備份制定完備、持續(xù)且可執(zhí)行的容災(zāi)計(jì)劃,特別是業(yè)務(wù)連續(xù)計(jì)劃,才能為人們提供萬(wàn)無(wú)一失的數(shù)據(jù)安全保護(hù)。嚴(yán)格的說(shuō),容災(zāi)計(jì)劃包括一系列應(yīng)急計(jì)劃,如業(yè)務(wù)持續(xù)計(jì)劃(BCP-BusinessContinuityPlan),業(yè)務(wù)恢復(fù)計(jì)劃(ERP-BusinessRecoveryPlan),運(yùn)行連續(xù)性計(jì)劃(COOP-ContinuityofOperationsPlan),事件響應(yīng)計(jì)劃(IRP-IncidentResponsePlan),場(chǎng)所緊急計(jì)劃(OEP-OccupantEmergencyPlan),危機(jī)通信計(jì)劃(CCP-CrisisCommunicationPlan),災(zāi)難恢復(fù)計(jì)劃(DRP-DisasterRecoveryPlan)等等。業(yè)務(wù)持續(xù)計(jì)劃(BCP)它是一套用來(lái)降低組織的重要營(yíng)運(yùn)功能遭受未料的中斷風(fēng)險(xiǎn)的作業(yè)程序,它可能是人工的或系統(tǒng)自動(dòng)的。業(yè)務(wù)持續(xù)計(jì)劃是高層管理人員的首要職責(zé),因?yàn)樗麄儽晃斡诒Wo(hù)公司的資產(chǎn)及公司的生存。業(yè)務(wù)持續(xù)計(jì)劃的目的是使得一個(gè)組織及其信息系統(tǒng)在災(zāi)難事件發(fā)生時(shí)仍可以繼續(xù)運(yùn)作。為了能對(duì)災(zāi)難事件有適當(dāng)?shù)膶?duì)策,嚴(yán)密的計(jì)劃及相關(guān)資源的投入是必須的。業(yè)務(wù)恢復(fù)計(jì)劃(BRP)它也叫業(yè)務(wù)繼續(xù)計(jì)劃,涉及緊急事件后對(duì)業(yè)務(wù)處理的恢復(fù),但與BCP不同,它在整個(gè)緊急事件或中斷過(guò)程中缺乏確保關(guān)鍵處理的連續(xù)性的規(guī)程。BRP的制定應(yīng)該與災(zāi)難恢復(fù)計(jì)劃及BCP進(jìn)行協(xié)調(diào)。BRP應(yīng)該附加在BCP之后。操作連續(xù)性計(jì)劃(COOP)COOP關(guān)注位于機(jī)構(gòu)(通常是總部單位)備用站點(diǎn)的關(guān)鍵功能以及這些功能在恢復(fù)到正常操作狀態(tài)之前最多30天的運(yùn)行。由于COOP涉及到總部級(jí)的問(wèn)題,它和BCP是互相獨(dú)立制定和執(zhí)行的。COOP的標(biāo)準(zhǔn)要素包括職權(quán)條款、連續(xù)性的順序和關(guān)鍵記錄和數(shù)據(jù)庫(kù)。由于COOP強(qiáng)調(diào)機(jī)構(gòu)在備用站點(diǎn)恢復(fù)運(yùn)行中的能力,所以該計(jì)劃通常不包括IT運(yùn)行方面的內(nèi)容。另外,它不涉及無(wú)需重新配置到備用站點(diǎn)的小型危害。但是COOP可以將BCP、BRP和災(zāi)難恢復(fù)計(jì)劃作為附錄。危機(jī)通信計(jì)劃(CCP)機(jī)構(gòu)應(yīng)該在災(zāi)難之前做好其內(nèi)部和外部通信規(guī)程的準(zhǔn)備工作。危機(jī)通信計(jì)劃通常由負(fù)責(zé)公共聯(lián)絡(luò)的機(jī)構(gòu)制定。危機(jī)通信計(jì)劃規(guī)程應(yīng)該和所有其它計(jì)劃協(xié)調(diào),以確保只有受到批準(zhǔn)的內(nèi)容公之于眾,它應(yīng)該作為附錄包含在BCP中。通信計(jì)劃通常指定特定的人員作為在災(zāi)難反應(yīng)中回答公眾問(wèn)題的唯一發(fā)言人。它還可以包括向個(gè)人和公眾散發(fā)狀態(tài)報(bào)告的規(guī)程,例如記者招待會(huì)的模板。計(jì)劃(IRP)事件響應(yīng)計(jì)劃建立了處理針對(duì)機(jī)構(gòu)的IT系統(tǒng)攻擊的規(guī)程。這些規(guī)程用來(lái)協(xié)助安全人員對(duì)有害的計(jì)算機(jī)事件進(jìn)行識(shí)別、消減并進(jìn)行恢復(fù),這些事件的例子包括:對(duì)系統(tǒng)或數(shù)據(jù)的非法訪問(wèn)、拒絕服務(wù)攻擊、或?qū)τ布?、軟件、?shù)據(jù)的非法更改(如有害邏輯:病毒、蠕蟲或木馬等)。本計(jì)劃可以包含在BCP的附錄中。災(zāi)難恢復(fù)計(jì)劃(DRP)正如其名字所表示的,DRP應(yīng)用于重大的、通常是災(zāi)難性的、造成長(zhǎng)時(shí)間無(wú)法對(duì)正常設(shè)施進(jìn)行訪問(wèn)的事件。通常,DRP指用于緊急事件后在備用站點(diǎn)恢復(fù)目標(biāo)系統(tǒng)、應(yīng)用或計(jì)算機(jī)設(shè)施運(yùn)行的IT計(jì)劃。DRP的范圍可能與IT應(yīng)急計(jì)劃重疊,但是DRP的范圍比較狹窄,它不涉及無(wú)需重新配置的小型危害。根據(jù)機(jī)構(gòu)的需要,可能會(huì)有多個(gè)DRP附加在BCP之后。場(chǎng)所緊急計(jì)劃(OEP)OEP在可能對(duì)人員的安全健康、環(huán)境或財(cái)產(chǎn)構(gòu)成威脅的事件發(fā)生時(shí),為設(shè)施中的人員提供反應(yīng)規(guī)程。OEP在設(shè)施級(jí)別進(jìn)行制定,與特定的地理位置和建筑結(jié)構(gòu)有關(guān)。設(shè)施OEP可以附加在BCP之后,但是獨(dú)立執(zhí)行。BCP關(guān)注在中斷期間和之后維持機(jī)構(gòu)的業(yè)務(wù)功能。業(yè)務(wù)功能的一個(gè)可能的例子是工資的支付處理或客戶的信息處理。BCP可以專門為某個(gè)特定的業(yè)務(wù)處理編寫也可以涉及到所有關(guān)鍵的業(yè)務(wù)處理。IT系統(tǒng)在BCP中被認(rèn)為是對(duì)于業(yè)務(wù)處理的支持。在某些情況下,BCP可能沒(méi)有涉及到對(duì)過(guò)程的長(zhǎng)期恢復(fù)并使其回到正常運(yùn)行狀態(tài),而只是包含過(guò)渡的業(yè)務(wù)連續(xù)性需求。災(zāi)難恢復(fù)計(jì)劃、業(yè)務(wù)繼續(xù)計(jì)劃和場(chǎng)所緊急計(jì)劃可以附加在BCP之后。在BCP中設(shè)定的職責(zé)和優(yōu)先順序應(yīng)該和其在操作連續(xù)性計(jì)劃(COOP)中的一致以消除可能的沖突。按一般慣例,備用站點(diǎn)維持機(jī)構(gòu)(通常是總部)要支持長(zhǎng)達(dá)30天的運(yùn)行,直到整個(gè)系統(tǒng)恢復(fù)到正常狀態(tài),COOP正是為了達(dá)到這個(gè)要求而制定的。BCP涉及到在重大中斷期間和之后維持業(yè)務(wù)處理所需的業(yè)務(wù)功能和IT系統(tǒng)。BRP記錄了機(jī)構(gòu)在備用站點(diǎn)進(jìn)行業(yè)務(wù)處理的持續(xù)規(guī)程。與BCP不同,BRP不涉及在緊急事件期間對(duì)關(guān)鍵處理的連續(xù)性維持。DRP是指設(shè)計(jì)用于重大和通常是毀滅性災(zāi)難之后的目標(biāo)系統(tǒng)、應(yīng)用程序或計(jì)算機(jī)設(shè)施的恢復(fù),它是以IT為主的計(jì)劃。兩個(gè)計(jì)劃都提供了IT系統(tǒng)的恢復(fù)和繼續(xù)規(guī)程。由于包括了對(duì)無(wú)需重新部署到備用站點(diǎn)的小型中斷進(jìn)行系統(tǒng)恢復(fù)的規(guī)程,所以這類計(jì)劃比DRP的范圍更廣泛。計(jì)算機(jī)事件響應(yīng)計(jì)劃建立了使安全人員可以確定、防止和恢復(fù)針對(duì)機(jī)構(gòu)IT系統(tǒng)進(jìn)行的計(jì)算機(jī)攻擊的規(guī)程。OEP則提供了在人員的健康和安全以及環(huán)境或財(cái)產(chǎn)等受到威脅的緊急情況下,設(shè)施工作人員所遵循的指導(dǎo)方針。計(jì)劃的制定者之間必須進(jìn)行協(xié)調(diào)以確保各自的策略和規(guī)程能夠互為補(bǔ)充,必須將所有有關(guān)計(jì)劃、系統(tǒng)和處理的變化情況反饋給系統(tǒng)和相應(yīng)處理計(jì)劃的制定者。容災(zāi)的實(shí)質(zhì)是確保永不停頓的業(yè)務(wù)運(yùn)營(yíng)讓我們來(lái)看一個(gè)真實(shí)的故事:FredAlger基金管理公司的總部設(shè)在世貿(mào)中心北樓的93層。在上個(gè)世紀(jì)90年代,F(xiàn)redAlger曾是美國(guó)業(yè)績(jī)最好的一家基金管理公司。它旗下的“光譜共同基金”(Spectramutualfund)的年均收益率曾達(dá)到讓人驚羨的29%。然而,公司2000年的業(yè)績(jī)大幅下滑,其前景不容樂(lè)觀。2001年9月11日上午發(fā)生恐怖襲擊后,該公司正在上班的35人全部遇難,老板DavidAlger也在其中,這對(duì)FredAlger公司來(lái)說(shuō)無(wú)疑是滅頂之災(zāi)。所幸的是,該公司居安思危,在繁榮期建設(shè)的IT系統(tǒng)早早就考慮到容災(zāi)的需要,在50英里以外的新澤西中心區(qū)建有一個(gè)數(shù)據(jù)備份點(diǎn)?!?11”過(guò)后的第三天,該公司幸存無(wú)幾的人在那里發(fā)現(xiàn),襲擊之前所有的交易記錄和所有的研究報(bào)告都有詳細(xì)備份,并被完好無(wú)損地保留了下來(lái)。所以,F(xiàn)redAlger公司沒(méi)有選擇關(guān)張,而是決定重建。他們并非盲目地不認(rèn)輸。幾年前就已退休的FredAlger,在弟弟David去世后立刻再度出山。當(dāng)整個(gè)市場(chǎng)在去年9月17日重新開市時(shí),F(xiàn)redAlger公司成了華爾街經(jīng)紀(jì)公司中的股票大買家。此后,當(dāng)其他基金管理公司的業(yè)績(jī)?cè)谌ツ瓿霈F(xiàn)滑坡時(shí),他們的利潤(rùn)反而因此大大增加。很快,F(xiàn)redAlger公司的投資管理隊(duì)伍也空前興旺起來(lái),并在第五大道的2層樓建立了新的總部。類似的故事令全世界在一夜之間認(rèn)識(shí)到,金融市場(chǎng)的數(shù)據(jù)備份和交易備份絕對(duì)不能缺少。自美國(guó)建國(guó)以來(lái),華爾街就一直主宰著美國(guó)的金融。而此次襲擊已經(jīng)給了華爾街以致命的一擊。事實(shí)上,對(duì)世貿(mào)中心的襲擊完全改變了紐約的金融景觀。以往,曼哈頓4/5寫字樓的底層都是金融服務(wù)機(jī)構(gòu)。而如今,這些金融機(jī)構(gòu)中的一半以上都遷走了,大多都換了個(gè)小地方。在曼哈頓中心區(qū)的5萬(wàn)名金融服務(wù)人員中,已有19000名離開了這個(gè)城市。其中也有像摩根斯坦利和高盛公司這樣的“金融巨人”。因此,即使在曼哈頓區(qū)還在燃燒時(shí),監(jiān)管者們已經(jīng)開始考慮,如何才能重振金融業(yè),并讓它強(qiáng)大到足以抵御下一次災(zāi)難。在銀行家和監(jiān)管者們看來(lái),“911”并不能被稱為信用事件。但下一次災(zāi)難,不論是什么樣的災(zāi)難,它一定會(huì)是一場(chǎng)信用事件。在龐大的支付鏈條上,一旦某個(gè)具有實(shí)力的環(huán)節(jié)受到支付困難的威脅,整個(gè)市場(chǎng),如外匯交易或美國(guó)財(cái)政債券交易就有可能出現(xiàn)大塞車。為此,英國(guó)的金融服務(wù)管理局在一個(gè)儲(chǔ)存有備份數(shù)據(jù)的秘密地點(diǎn),進(jìn)行了多次“業(yè)務(wù)持續(xù)”演習(xí)。美國(guó)的監(jiān)管者也拋出一份建議書。這份建議書的目的在于,要保持市場(chǎng)參與者之間實(shí)時(shí)的信息和通信聯(lián)系,即保持?jǐn)?shù)據(jù)備份點(diǎn)之間的通信聯(lián)系。監(jiān)管者和市場(chǎng)應(yīng)該能夠抵御住沉重的打擊,并應(yīng)在4小時(shí)以內(nèi)恢復(fù)工作。而對(duì)那些由15~20家大銀行和5~10家證券公司所組成的金融主干系統(tǒng)來(lái)說(shuō),在它們主要參與的市場(chǎng)中應(yīng)享受優(yōu)先權(quán),須在一天之內(nèi)恢復(fù)營(yíng)業(yè)。在“911”以前,銀行之間(包括獨(dú)立的通信和信息技術(shù)系統(tǒng)之間)的應(yīng)急計(jì)劃很少有彼此的溝通。為此,設(shè)在巴塞爾的發(fā)達(dá)國(guó)家10國(guó)“金融穩(wěn)定性論壇”,已經(jīng)起草了一個(gè)“應(yīng)急協(xié)議名單”。被列入這一名單的,都是些全球最重要的金融實(shí)體。根據(jù)這個(gè)協(xié)議,名單中的金融實(shí)體的監(jiān)管方可以在任何情況下及時(shí)取得聯(lián)系。此外,美國(guó)監(jiān)管機(jī)構(gòu)已經(jīng)提出,要持續(xù)不斷地進(jìn)行應(yīng)急計(jì)劃測(cè)試,以對(duì)付“一切可以想象得出的事件”。例如,進(jìn)行產(chǎn)業(yè)范圍的戰(zhàn)爭(zhēng)預(yù)演已經(jīng)提到議事日程,而“無(wú)線戰(zhàn)爭(zhēng)”被最先納入其中。那么,如何確保企業(yè)業(yè)務(wù)的連續(xù)運(yùn)營(yíng)以及數(shù)據(jù)的安全呢?嚴(yán)格的說(shuō),業(yè)務(wù)持續(xù)計(jì)劃的建立和實(shí)施過(guò)程,實(shí)際上是進(jìn)行一個(gè)涉及企業(yè)運(yùn)營(yíng)的項(xiàng)目,因此也涉及到項(xiàng)目管理的方方面面。標(biāo)準(zhǔn)的業(yè)務(wù)持續(xù)計(jì)劃項(xiàng)目應(yīng)按如下流程進(jìn)行:1、項(xiàng)目啟動(dòng)和管理確定業(yè)務(wù)持續(xù)計(jì)劃(BCP)實(shí)施過(guò)程的相關(guān)需求,包括獲得管理支持、以及組織和管理項(xiàng)目使其符合時(shí)間和預(yù)算的限制要求。2、風(fēng)險(xiǎn)評(píng)估和控制確定可能造成機(jī)構(gòu)及其設(shè)施中斷的災(zāi)難、具有負(fù)面影響的事件和周邊環(huán)境因素,以及事件可能造成的損失、防止或減少潛在損失影響的控制措施,提供成本效益分析以調(diào)整控制措施方面的投資,達(dá)到消減風(fēng)險(xiǎn)的目的。同時(shí),由于風(fēng)險(xiǎn)會(huì)隨著系統(tǒng)的發(fā)展而變化,所以風(fēng)險(xiǎn)管理過(guò)程也必須是動(dòng)態(tài)的。3、業(yè)務(wù)影響分析確定由于中斷和預(yù)期災(zāi)難可能對(duì)機(jī)構(gòu)造成的影響,以及用來(lái)定量和定性分析這種影響的技術(shù)。確定關(guān)鍵功能、恢復(fù)優(yōu)先順序和相關(guān)性以便確定恢復(fù)時(shí)間。4、定業(yè)務(wù)連續(xù)性策略確定和指導(dǎo)備用業(yè)務(wù)恢復(fù)運(yùn)行策略的選擇,以便在恢復(fù)時(shí)間目標(biāo)范圍內(nèi)恢復(fù)業(yè)務(wù)和信息技術(shù),并維持機(jī)構(gòu)的關(guān)鍵功能。5、應(yīng)急響應(yīng)和運(yùn)作制定和實(shí)施用于事件響應(yīng)以及對(duì)事件所引起狀況進(jìn)行穩(wěn)定的規(guī)程,包括建立和管理緊急事件運(yùn)作中心,該中心用于在緊急事件中發(fā)布命令。6、制定和實(shí)施業(yè)務(wù)連續(xù)性計(jì)劃設(shè)計(jì)、制定和實(shí)施業(yè)務(wù)連續(xù)性計(jì)劃,以便在恢復(fù)時(shí)間目標(biāo)范圍內(nèi)完成恢復(fù)。7、意識(shí)培養(yǎng)和培訓(xùn)項(xiàng)目準(zhǔn)備建立對(duì)機(jī)構(gòu)人員進(jìn)行意識(shí)培養(yǎng)和技能培訓(xùn)的項(xiàng)目,以便業(yè)務(wù)連續(xù)性計(jì)劃能夠得到制定、實(shí)施、維護(hù)和執(zhí)行。8、維護(hù)和演練業(yè)務(wù)連續(xù)性計(jì)劃對(duì)預(yù)先計(jì)劃和計(jì)劃間的協(xié)調(diào)性進(jìn)行演練、并評(píng)估和記錄計(jì)劃演練的結(jié)果。制定維持連續(xù)性能力和BCP文檔更新?tīng)顟B(tài)的方法,使其與機(jī)構(gòu)的策略方向保持一致。通過(guò)與適當(dāng)標(biāo)準(zhǔn)的比較來(lái)驗(yàn)證BCP的效率,并使用簡(jiǎn)明的語(yǔ)言報(bào)告驗(yàn)證的結(jié)果。9、公共關(guān)系和危機(jī)通信制定、協(xié)調(diào)、評(píng)價(jià)和演練在危機(jī)情況下與媒體交流的計(jì)劃;制定、協(xié)調(diào)、評(píng)價(jià)和演練與員工及其家庭、主要客戶、關(guān)鍵供應(yīng)商、業(yè)主/股東以及機(jī)構(gòu)管理層進(jìn)行溝通和在必要情況下提供心理輔導(dǎo)的計(jì)劃,確保所有利益群體能夠得到所需的信息。10、與公共當(dāng)局的協(xié)調(diào)建立適用的規(guī)程和策略,用于同地方當(dāng)局協(xié)調(diào)響應(yīng)、連續(xù)性和恢復(fù)活動(dòng),以確保符合現(xiàn)行的法令和法規(guī)。當(dāng)然,實(shí)際應(yīng)用中,如果受時(shí)間、成本等因素的限制,加之容災(zāi)目標(biāo)有限(企業(yè)不需要承擔(dān)應(yīng)由政府負(fù)責(zé)的國(guó)計(jì)民生之重任),我們可以簡(jiǎn)化并適當(dāng)改變上述標(biāo)準(zhǔn)流程。事實(shí)上,隨著IT系統(tǒng)在企業(yè)內(nèi)部應(yīng)用的深入,IT系統(tǒng)更容易受到各種災(zāi)難的傷害而導(dǎo)致中斷,特別是在許多情況下,關(guān)鍵資源可能屬于不可控范圍(如電力和電信)。對(duì)于倚仗IT系統(tǒng)的企業(yè)來(lái)說(shuō),從確保業(yè)務(wù)連續(xù)能力的角度出發(fā),可以依據(jù)下列容災(zāi)規(guī)劃步驟:1、災(zāi)難類型分析2、業(yè)務(wù)沖擊分析3、當(dāng)前業(yè)務(wù)環(huán)境及恢復(fù)能力分析4、容災(zāi)策略制訂5、容災(zāi)方案設(shè)計(jì)6、業(yè)務(wù)連續(xù)性流程設(shè)計(jì)7、業(yè)務(wù)連續(xù)性流程及容災(zāi)方案管理和測(cè)試每一個(gè)步驟的相關(guān)職責(zé)一般會(huì)落在“計(jì)劃協(xié)調(diào)人”或“應(yīng)急計(jì)劃制訂人”的身上,他們通常是職能或資源部門的經(jīng)理。協(xié)調(diào)人在其他相關(guān)系統(tǒng)或業(yè)務(wù)處理部門的職能經(jīng)理和資源經(jīng)理的協(xié)助下制定應(yīng)急策略;應(yīng)急計(jì)劃協(xié)調(diào)人通常管理應(yīng)急計(jì)劃的制定和執(zhí)行。容災(zāi)的IT實(shí)現(xiàn)除了詳盡的容災(zāi)計(jì)劃,實(shí)際上還需要合理的IT系統(tǒng)架構(gòu)來(lái)確保企業(yè)的容災(zāi)計(jì)劃得以實(shí)現(xiàn)。對(duì)于IT系統(tǒng)而言,在技術(shù)層面上,容災(zāi)需要考慮:*數(shù)據(jù)版本保護(hù)-建立容災(zāi)的多版本保護(hù)底線(BottomLine)*實(shí)時(shí)數(shù)據(jù)保護(hù)-數(shù)據(jù)復(fù)制,近乎0的數(shù)據(jù)丟失,數(shù)據(jù)一致性*應(yīng)用系統(tǒng)恢復(fù)-恢復(fù)時(shí)間(包括數(shù)據(jù)庫(kù)恢復(fù))、應(yīng)用版本的一致性(PTF)等*網(wǎng)絡(luò)系統(tǒng)恢復(fù)-數(shù)據(jù)訪問(wèn)點(diǎn)變化、建立新網(wǎng)絡(luò)路徑、動(dòng)態(tài)路由(收斂時(shí)間/穩(wěn)定性)*容災(zāi)切換決策-及時(shí)發(fā)現(xiàn)災(zāi)難(容災(zāi)系統(tǒng)管理)、容災(zāi)切換的損失和補(bǔ)救辦法*容災(zāi)切換過(guò)程-變更管理同時(shí),無(wú)論任何時(shí)候,備份都是非常重要的,并要定期測(cè)試備份的可靠性。一種技術(shù)只能減少或防止某些類型的災(zāi)難的影響。除了簡(jiǎn)單或一成不變的應(yīng)用,在沒(méi)有特別要求的情況下,盡量不要采用操作系統(tǒng)層面以上的數(shù)據(jù)復(fù)制技術(shù)。而沒(méi)有文檔化的流程就相當(dāng)于沒(méi)有流程,沒(méi)有流程的系統(tǒng)能夠在要求時(shí)間內(nèi)恢復(fù)完全靠運(yùn)氣(通常不能)。另外,在通常情況下,IT系統(tǒng)相關(guān)的災(zāi)難備份方案設(shè)計(jì)都必須考慮以下五大因素,1、災(zāi)難類型需要考慮哪些災(zāi)難?怎樣的災(zāi)難?會(huì)使業(yè)務(wù)中斷多久?2、恢復(fù)速度災(zāi)難發(fā)生后需要多久來(lái)啟動(dòng)及運(yùn)行系統(tǒng)?能否承受數(shù)天或數(shù)分鐘的等待?3、恢復(fù)程度需要恢復(fù)每條記錄和交易嗎?可以使用上星期或昨天的數(shù)據(jù)嗎?需要恢復(fù)一切嗎?有不相關(guān)的文件嗎?什么是合法隱含的要求?有少數(shù)的一組人輸入交易嗎?他們可以重新輸入災(zāi)難期間丟失的交易嗎?這些交易十分重要而不容許丟失嗎?4、可用的技術(shù)必須結(jié)合考慮所選技術(shù)在本地區(qū)的適用性、實(shí)現(xiàn)條件以及在實(shí)施時(shí)是否受某些現(xiàn)有條件的制約?5、方案總體成本實(shí)現(xiàn)災(zāi)難備份需要多少投資?不實(shí)現(xiàn)災(zāi)難備份會(huì)損失多少錢?綜合以上所述,可以如圖2所示:災(zāi)難備份方案選擇標(biāo)準(zhǔn)容災(zāi)的7個(gè)層次據(jù)國(guó)際標(biāo)準(zhǔn)SHARE78的定義,災(zāi)難恢復(fù)解決方案可根據(jù)以下主要方面所達(dá)到的程度分為七級(jí),即從低到高有七種不同層次的災(zāi)難恢復(fù)解決方案??梢愿鶕?jù)企業(yè)數(shù)據(jù)的重要性以及您需要恢復(fù)的速度和程度,來(lái)設(shè)計(jì)選擇并實(shí)現(xiàn)您的災(zāi)難恢復(fù)計(jì)劃(參見(jiàn)圖3)。這取決于下列要求:備份/恢復(fù)的范圍災(zāi)難恢復(fù)計(jì)劃的狀態(tài)在應(yīng)用中心與備份中心之間的距離應(yīng)用中心與備份中心之間是如何相互連接的數(shù)據(jù)是怎樣在兩個(gè)中心之間傳送的有多少數(shù)據(jù)被丟失怎樣保證更新的數(shù)據(jù)在備份中心被更新備份中心可以開始備份工作的能力現(xiàn)已證明,為實(shí)現(xiàn)有效的災(zāi)難恢復(fù),無(wú)需人工介入的自動(dòng)站點(diǎn)故障切換功能是一個(gè)必須被納入考慮范圍的重要事項(xiàng)。目前通用的異地遠(yuǎn)程恢復(fù)標(biāo)準(zhǔn)采用的是1992年Anaheim的SHARE78,M028會(huì)議的報(bào)告中所闡述的七個(gè)層次:0層-沒(méi)有異地?cái)?shù)據(jù)(Nooff-siteData)Tier0即沒(méi)有任何異地備份或應(yīng)急計(jì)劃。數(shù)據(jù)僅在本地進(jìn)行備份恢復(fù),沒(méi)有數(shù)據(jù)送往異地。事實(shí)上這一層并不具備真正災(zāi)難恢復(fù)的能力。1層-PTAM卡車運(yùn)送訪問(wèn)方式(PickupTruckAccessMethod)Tier1的災(zāi)難恢復(fù)方案必須設(shè)計(jì)一個(gè)應(yīng)急方案,能夠備份所需要的信息并將它存儲(chǔ)在異地。PTAM指將本地備份的數(shù)據(jù)用交通工具送到遠(yuǎn)方。這種方案相對(duì)來(lái)說(shuō)成本較低,但難于管理。2層-PTAM卡車運(yùn)送訪問(wèn)方式+熱備份中心(PTAM+HotCenter)Tier2相當(dāng)于Tier1再加上熱備份中心能力的進(jìn)一步的災(zāi)難恢復(fù)。熱備份中心擁有足夠的硬件和網(wǎng)絡(luò)設(shè)備去支持關(guān)鍵應(yīng)用。相比于Tier1,明顯降低了災(zāi)難恢復(fù)時(shí)間。3層-電子鏈接(ElectronicVaulting)Tier3是在Tier2的基礎(chǔ)上用電子鏈路取代了卡車進(jìn)行數(shù)據(jù)的傳送的進(jìn)一步的災(zāi)難恢復(fù)。由于熱備份中心要保持持續(xù)運(yùn)行,增加了成本,但提高了災(zāi)難恢復(fù)速度。4層-活動(dòng)狀態(tài)的備份中心(ActiveSecondaryCenter)Tier4指兩個(gè)中心同時(shí)處于活動(dòng)狀態(tài)并同時(shí)互相備份,在這種情況下,工作負(fù)載可能在兩個(gè)中心之間分享。在災(zāi)難發(fā)生時(shí),關(guān)鍵應(yīng)用的恢復(fù)也可降低到小時(shí)級(jí)或分鐘級(jí)。5層–兩個(gè)活動(dòng)的數(shù)據(jù)中心,確保數(shù)據(jù)一致性的兩階段傳輸承諾(Two-SiteTwo-PhaseCommit)Tier5則提供了更好的數(shù)據(jù)完整性和一致性。也就是說(shuō),Tier5需要兩中心與中心的數(shù)據(jù)都被同時(shí)更新。在災(zāi)難發(fā)生時(shí),僅是傳送中的數(shù)據(jù)被丟失,恢復(fù)時(shí)間被降低到分鐘級(jí)。6層-0數(shù)據(jù)丟失(ZeroDataLoss),自動(dòng)系統(tǒng)故障切換Tier6可以實(shí)現(xiàn)0數(shù)據(jù)丟失率,被認(rèn)為是災(zāi)難恢復(fù)的最高級(jí)別,在本地和遠(yuǎn)程的所有數(shù)據(jù)被更新的同時(shí),利用了雙重在線存儲(chǔ)和完全的網(wǎng)絡(luò)切換能力,當(dāng)發(fā)生災(zāi)難時(shí),能夠提供跨站點(diǎn)動(dòng)態(tài)負(fù)載平衡和自動(dòng)系統(tǒng)故障切換功能。容災(zāi)的7各層次容災(zāi)的業(yè)務(wù)恢復(fù)時(shí)間段對(duì)于IT系統(tǒng)的容災(zāi)指標(biāo),我們可以通過(guò)下列參數(shù)表示:*以恢復(fù)點(diǎn)為目標(biāo)(RPO--RecoveryPointObject)––數(shù)據(jù)的完整性(無(wú)數(shù)據(jù)丟失)––數(shù)據(jù)的一致性(數(shù)據(jù)正確且可用)*以恢復(fù)時(shí)間為目標(biāo)(RTO——RecoveryTimeObject)*以網(wǎng)絡(luò)恢復(fù)為目標(biāo)(NRO——NetworkRecoveryObject)*以服務(wù)支持能力為目標(biāo)(SDO——ServiceabilityDegradeObject)––性能––地域/支持的客戶總數(shù)––功能的限制圖4展示了業(yè)務(wù)恢復(fù)的不同時(shí)間段。容災(zāi)的業(yè)務(wù)恢復(fù)時(shí)間段容災(zāi)所涉及的恢復(fù)技術(shù)DR(容災(zāi)DisasterRecovery)項(xiàng)目的實(shí)施中涉及到多種技術(shù)。這些技術(shù)可以分為三類:應(yīng)用恢復(fù),網(wǎng)絡(luò)恢復(fù),數(shù)據(jù)恢復(fù)。應(yīng)用恢復(fù)技術(shù)常用的應(yīng)用恢復(fù)技術(shù)或方法如下:*通過(guò)負(fù)載均衡提供永不停頓的系統(tǒng)運(yùn)行能力(Tier-7)例如:IBMS/390的GDPS技術(shù)給用戶提供一個(gè)無(wú)中斷的操作環(huán)境,來(lái)運(yùn)行那些關(guān)鍵業(yè)務(wù)的應(yīng)用程序,通過(guò)自動(dòng)應(yīng)用恢復(fù)能力來(lái)滿足其第7級(jí)容災(zāi)要求*通過(guò)事先寫好的腳本來(lái)實(shí)現(xiàn)自動(dòng)的熱接管(Tier-6)例如:GDPS也可以在熱待命狀態(tài)下運(yùn)行,來(lái)為S/390系統(tǒng)提供第6級(jí)解決方案。HAGEO提供與GDPS熱待命相似的解決方案,并常被用來(lái)作為大型關(guān)鍵業(yè)務(wù)UNIX數(shù)據(jù)中心的DR解決方案*按預(yù)案手工實(shí)現(xiàn)站點(diǎn)接管(Tier4/5)例如:有些設(shè)施的DR包括必須有人介入和決策的手動(dòng)應(yīng)用恢復(fù)程序。在實(shí)際災(zāi)難發(fā)生時(shí),一些這樣的設(shè)施因?yàn)閷?duì)人工操作的依賴,造成恢復(fù)過(guò)程的延誤。因此,我們認(rèn)識(shí)到,容災(zāi)的實(shí)施必須包括一定程度的自動(dòng)化,這也是GDPS和HAGEO這樣的軟件的主旨。網(wǎng)絡(luò)恢復(fù)技術(shù)常用的網(wǎng)絡(luò)恢復(fù)技術(shù)或方法如下:*4-7層交換機(jī)(Tier-7)例如:無(wú)中斷的第7級(jí)網(wǎng)絡(luò)恢復(fù)需要?jiǎng)討B(tài)網(wǎng)絡(luò)路由重選,來(lái)保證應(yīng)用能夠在不中斷最終用戶的情況下轉(zhuǎn)入備用數(shù)據(jù)中心。在SNA環(huán)境下通過(guò)APPN來(lái)完成,而在IP環(huán)境下則通過(guò)第4-7層轉(zhuǎn)換來(lái)完成。APPN是在IBMS/390GDPS環(huán)境下,為動(dòng)態(tài)網(wǎng)絡(luò)恢復(fù)而開發(fā)的SNA網(wǎng)絡(luò)技術(shù)。通過(guò)標(biāo)準(zhǔn)的基于路由器的技術(shù),可以在通用的IP傳輸上使用APPN*路由(Tier-6)例如:在第6級(jí)DR的實(shí)施中,網(wǎng)絡(luò)恢復(fù)可以通過(guò)APPN和/或標(biāo)準(zhǔn)的路由協(xié)議來(lái)完成(OSPF/EIGRP/BGP-4)在非GDPS環(huán)境中,APPN應(yīng)用路由在容災(zāi)系統(tǒng)備用路徑可用時(shí),自動(dòng)恢復(fù)網(wǎng)絡(luò)連接*2層Reconnect(Tier-4/5)例如:SNA子網(wǎng)在以太網(wǎng)/SNA中通過(guò)ATM/幀中繼/DDN鏈路進(jìn)行互聯(lián),如果發(fā)生鏈路故障,則可以通過(guò)手工切換來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)恢復(fù)數(shù)據(jù)恢復(fù)技術(shù)數(shù)據(jù)容災(zāi)系統(tǒng)的實(shí)現(xiàn)可以采用不同的技術(shù)。一種技術(shù)是采用硬件進(jìn)行遠(yuǎn)程數(shù)據(jù)復(fù)制,我們稱為硬件復(fù)制技術(shù)。這種技術(shù)的提供者是一些存儲(chǔ)設(shè)備廠商,其技術(shù)例如PPRC、SRDF。數(shù)據(jù)的復(fù)制完全通過(guò)專用線路實(shí)現(xiàn)物理存儲(chǔ)設(shè)備之間的交換;另一種技術(shù)是采用軟件系統(tǒng)實(shí)現(xiàn)遠(yuǎn)程的實(shí)時(shí)數(shù)據(jù)復(fù)制,并且實(shí)現(xiàn)遠(yuǎn)程的全程高可用體系(遠(yuǎn)程監(jiān)控和切換)。這種技術(shù)的代表則是一些存儲(chǔ)軟件廠商,其技術(shù)例如HAGEO、VVR。數(shù)據(jù)復(fù)制是一個(gè)復(fù)雜的議題,但一般來(lái)說(shuō)這,它可以在硬件或軟件層上實(shí)施(參見(jiàn)圖5)。今天,市場(chǎng)上的硬件和軟件技術(shù)提供不同的第4級(jí)和第7級(jí)數(shù)據(jù)恢復(fù),對(duì)硬件或軟件的選擇取決于很多與設(shè)施相關(guān)的因素,如工作量、網(wǎng)絡(luò)成本要求、工作點(diǎn)和數(shù)據(jù)恢復(fù)點(diǎn)間的距離、同性或異性的平臺(tái)支持等等。我們將在下面的章節(jié)對(duì)以上兩種技術(shù)進(jìn)行詳細(xì)的論述。數(shù)據(jù)復(fù)制技術(shù)容災(zāi)方案分析在現(xiàn)代企業(yè)的IT系統(tǒng)管理過(guò)程中,常常會(huì)遇到各種有關(guān)災(zāi)難備份范疇的需求,例如:“無(wú)論發(fā)生任何問(wèn)題,業(yè)務(wù)系統(tǒng)必須在最短的時(shí)間內(nèi)恢復(fù)!”;“無(wú)論發(fā)生任何問(wèn)題,數(shù)據(jù)絕對(duì)不能丟失!”……針對(duì)這些問(wèn)題,有經(jīng)驗(yàn)的管理人員可能會(huì)考慮到一系列由此引發(fā)的問(wèn)題:“究竟有些什么因素可能導(dǎo)致業(yè)務(wù)中斷?”“究竟最短的時(shí)間是多長(zhǎng)?”“是否所有的應(yīng)用系統(tǒng)數(shù)據(jù)都不能丟失?”“這些恢復(fù)目標(biāo)是否合理?”“目前的IT架構(gòu)是否能夠滿足所要求的恢復(fù)目標(biāo)?”“是否IT系統(tǒng)得到恢復(fù),就意味著業(yè)務(wù)部門可以對(duì)客戶進(jìn)行服務(wù)?”“如何衡量災(zāi)難備份方案的投入產(chǎn)出比?”……回答以上這些問(wèn)題的過(guò)程,就是考慮企業(yè)業(yè)務(wù)連續(xù)性的過(guò)程。事實(shí)上,隨著IT系統(tǒng)在企業(yè)內(nèi)部應(yīng)用的深入,災(zāi)難備份在企業(yè)中已不是IT一個(gè)部門的問(wèn)題,而是整個(gè)企業(yè)各業(yè)務(wù)部門與IT部門緊密合作的問(wèn)題。其內(nèi)容也不僅局限于數(shù)據(jù)的備份和應(yīng)用的接管,還包含了網(wǎng)絡(luò)的冗余、人員與組織架構(gòu)的整理、恢復(fù)流程的設(shè)計(jì)等一系列技術(shù)以外的范疇。目的在于保證在災(zāi)難環(huán)境下,企業(yè)真正從業(yè)務(wù)的角度得到保護(hù),而不僅僅是IT環(huán)境的恢復(fù)。業(yè)務(wù)連續(xù)性開發(fā)模式各行各業(yè)的用戶,需要針對(duì)自身情況,設(shè)立可行的業(yè)務(wù)恢復(fù)目標(biāo),并制訂出切合實(shí)際、投資合理、可靠的業(yè)務(wù)連續(xù)性及技術(shù)方案。這種業(yè)務(wù)連續(xù)性開發(fā)模式,體現(xiàn)在業(yè)務(wù)連續(xù)性或?yàn)?zāi)難備份的項(xiàng)目中,就是災(zāi)難備份項(xiàng)目實(shí)施的步驟:1、災(zāi)難類型分析2、業(yè)務(wù)沖擊分析3、當(dāng)前業(yè)務(wù)環(huán)境及恢復(fù)能力分析4、容災(zāi)策略制訂5、容災(zāi)方案設(shè)計(jì)6、業(yè)務(wù)連續(xù)性流程設(shè)計(jì)7、業(yè)務(wù)連續(xù)性流程及容災(zāi)方案管理和測(cè)試其過(guò)程如下圖所示,是一個(gè)周而復(fù)始的過(guò)程,隨著企業(yè)內(nèi)部環(huán)境的變化隨時(shí)靈活變化:災(zāi)難備份項(xiàng)目實(shí)施過(guò)程階段一、災(zāi)難類型分析(風(fēng)險(xiǎn)分析)在本階段,需要進(jìn)行詳細(xì)而量化的風(fēng)險(xiǎn)分析,以確定當(dāng)前IT環(huán)境之中存在哪些無(wú)法接受的物理威脅或者可能發(fā)生的災(zāi)難,并對(duì)災(zāi)難發(fā)生的可能性、目前可能的防護(hù)措施的有效性和該災(zāi)難所威脅的資產(chǎn)價(jià)值進(jìn)行分析,最終得到帶有優(yōu)先級(jí)別的需要防護(hù)的災(zāi)難列表,并制訂可能的處理方法,如接受該災(zāi)難發(fā)生的風(fēng)險(xiǎn)而不進(jìn)行防護(hù)、自行制訂該災(zāi)難的防護(hù)方法或者采取購(gòu)買保險(xiǎn)等風(fēng)險(xiǎn)轉(zhuǎn)嫁策略。其結(jié)果可以由下圖表示:風(fēng)險(xiǎn)分析在該圖中,橫坐標(biāo)為風(fēng)險(xiǎn)發(fā)生的可能性,縱坐標(biāo)為風(fēng)險(xiǎn)發(fā)生所造成的損失。在某一風(fēng)險(xiǎn)發(fā)生的可能性極小時(shí),即使造成的損失極大,也可能屬于可接受的風(fēng)險(xiǎn)范疇,例如美國(guó)的“911”事件。但該接受程度是與時(shí)俱進(jìn)的,在“911”事件發(fā)生后,事實(shí)是大部分沒(méi)有考慮這種大范圍災(zāi)難性事件的企業(yè)基本沒(méi)有得到恢復(fù)的機(jī)會(huì)。目前業(yè)界也已經(jīng)將低概率事件逐漸納入防護(hù)的范圍。階段二、業(yè)務(wù)沖擊分析在本階段,應(yīng)該針對(duì)各種業(yè)務(wù)流程進(jìn)行分析,通過(guò)走訪各業(yè)務(wù)部門的相關(guān)人員,了解各種業(yè)務(wù)流程本身對(duì)該企業(yè)的重要程度。(例如在銀行業(yè)里,儲(chǔ)蓄和單據(jù)、網(wǎng)上支付、電話銀行等業(yè)務(wù)就具有不同的優(yōu)先等級(jí)。)同時(shí)根據(jù)一定的評(píng)判原則,得出在核心流程由于災(zāi)難的發(fā)生而無(wú)法正常進(jìn)行時(shí)對(duì)企業(yè)本身的損失情況。這種損失可能是可以量化的,例如單據(jù)的丟失、計(jì)算的錯(cuò)誤而導(dǎo)致的直接損失;也可以是無(wú)形的損失,例如客戶滿意度及競(jìng)爭(zhēng)優(yōu)勢(shì)的丟失。通過(guò)對(duì)可量化和不可量化損失的綜合考慮,得出各種核心業(yè)務(wù)流程由于災(zāi)難受損的可容忍程度及損失的決策依據(jù)。體現(xiàn)在IT系統(tǒng)上,是三個(gè)指標(biāo):數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo)(RECOVERYPOINTOBJECTIVE):體現(xiàn)為該流程在災(zāi)難發(fā)生后,恢復(fù)運(yùn)轉(zhuǎn)時(shí)數(shù)據(jù)丟失的可容忍程度;恢復(fù)時(shí)間目標(biāo)(RECOVERYTIMEOBJECTIE):體現(xiàn)為該流程在災(zāi)難發(fā)生后,需要恢復(fù)的緊迫性也即多久能夠得到恢復(fù)的問(wèn)題;網(wǎng)絡(luò)恢復(fù)目標(biāo)(NETWORKRECOVERYOBJECTIVE):即營(yíng)業(yè)網(wǎng)點(diǎn)什么時(shí)候才能通過(guò)備份網(wǎng)絡(luò)與數(shù)據(jù)中心重新恢復(fù)通信的指標(biāo);對(duì)于不同的業(yè)務(wù)流程,這三個(gè)指標(biāo)可能相差非常之大,各個(gè)流程本身對(duì)這三個(gè)目標(biāo)的優(yōu)先程度也是不一樣的,有的流程可能要求數(shù)據(jù)丟失的程度較小,但恢復(fù)時(shí)間可以較長(zhǎng),而另一些流程可能要求短時(shí)間內(nèi)恢復(fù),但數(shù)據(jù)的丟失程度可以放大一些。這三個(gè)指標(biāo)直接影響所使用的容災(zāi)策略及技術(shù)方案,并指導(dǎo)企業(yè)的投入成本。可以用下圖表示:業(yè)務(wù)沖擊分析曲線在該圖中,橫坐標(biāo)為災(zāi)難持續(xù)時(shí)間,縱坐標(biāo)為災(zāi)難損失,在某一程度以下屬于可接受的程度,即橫虛線所示。這種可接受決策應(yīng)該由負(fù)責(zé)該流程的業(yè)務(wù)部門綜合考慮后做出。階段三、企業(yè)容災(zāi)環(huán)境分析本階段主要針對(duì)業(yè)務(wù)沖擊分析的結(jié)果,對(duì)目前的內(nèi)部環(huán)境進(jìn)行評(píng)估,得出與恢復(fù)目標(biāo)之間的差距。分析的對(duì)象為業(yè)務(wù)流程需要的資源,如IT環(huán)境等。通過(guò)本階段的工作,得出各業(yè)務(wù)流程所牽涉的企業(yè)資產(chǎn)及資源(人力資源、IT架構(gòu)、技術(shù)儲(chǔ)備、技術(shù)使用程度、網(wǎng)絡(luò)環(huán)境等),并分析得出目前的業(yè)務(wù)環(huán)境對(duì)容災(zāi)需求、冗余程度、可能造成的數(shù)據(jù)損失是否能夠支持等方面的報(bào)告。用下圖表示:容災(zāi)環(huán)境分析圖中右邊紅線為目前環(huán)境所支持的容災(zāi)能力,左邊紅線為經(jīng)過(guò)業(yè)務(wù)沖擊分析所得到的需要達(dá)到的恢復(fù)能力,在災(zāi)難恢復(fù)時(shí)間和災(zāi)難造成損失兩個(gè)方面都需要得到降低。階段四、容災(zāi)策略制訂在本階段,結(jié)合以上各階段的分析成果,以及企業(yè)本身在容災(zāi)上的投入能力,制訂企業(yè)短期、長(zhǎng)期范圍內(nèi)的容災(zāi)策略和目標(biāo),并有意識(shí)地將企業(yè)本身的人員組成和組織架構(gòu)做出調(diào)整以適應(yīng)策略要求。最重要的是制訂出容災(zāi)實(shí)施步驟,優(yōu)先解決最為重點(diǎn)的問(wèn)題。如下圖所示:容災(zāi)策略制訂階段五、容災(zāi)方案設(shè)計(jì)容災(zāi)方案可供選擇的范圍很大,但所有的容災(zāi)方案都必須考慮的因素包括恢復(fù)時(shí)間、實(shí)施與維護(hù)容災(zāi)策略所需的投入等。容災(zāi)恢復(fù)時(shí)間的需求越短,所需的實(shí)施成本就越大,實(shí)施難度也就越高?;謴?fù)時(shí)間與投入的比值可以用以下這張曲線圖加以說(shuō)明:容災(zāi)方案層次圖中的各種層次方案可以分別滿足不同的數(shù)據(jù)恢復(fù)目標(biāo)和恢復(fù)時(shí)間目標(biāo),需要根據(jù)業(yè)務(wù)沖擊分析的結(jié)果,針對(duì)每一種業(yè)務(wù)流程,綜合選擇能夠滿足容災(zāi)目標(biāo)的方案。階段六、業(yè)務(wù)連續(xù)性流程設(shè)計(jì)有了IT系統(tǒng)的恢復(fù)方案,只能夠保證在災(zāi)難環(huán)境下,IT系統(tǒng)的恢復(fù)能夠保證業(yè)務(wù)沖擊分析的目標(biāo),但是業(yè)務(wù)的連續(xù)性并不只是IT系統(tǒng)的恢復(fù),還包括辦公場(chǎng)地、辦公設(shè)備、緊急流程、指揮架構(gòu)、人員調(diào)度等等多方面、各部門的綜合考慮。只有業(yè)務(wù)流程執(zhí)行過(guò)程的每一個(gè)環(huán)節(jié)都達(dá)到容災(zāi)目標(biāo)的要求,才能夠認(rèn)為業(yè)務(wù)沖擊分析的目標(biāo)得到了滿足。一般來(lái)說(shuō),每個(gè)企業(yè)都應(yīng)該設(shè)立一個(gè)由領(lǐng)導(dǎo)掛帥,各業(yè)務(wù)部門和IT部門聯(lián)合組成的一個(gè)容災(zāi)指揮小組:容災(zāi)組織架構(gòu)圖由該小組指揮,IT部門和業(yè)務(wù)部門分別執(zhí)行,IT恢復(fù)計(jì)劃和業(yè)務(wù)連續(xù)性計(jì)劃才能得到同步,從而達(dá)到容災(zāi)設(shè)計(jì)的目標(biāo)。階段七、業(yè)務(wù)連續(xù)性流程及容災(zāi)方案管理和測(cè)試任何制訂的計(jì)劃,都必須經(jīng)過(guò)不斷的測(cè)試和修正,才能滿足企業(yè)不斷發(fā)展的需求。同時(shí),通過(guò)測(cè)試過(guò)程,也能夠使企業(yè)內(nèi)部各部門及人員熟悉自己在業(yè)務(wù)連續(xù)性計(jì)劃中所扮演的角色,做到胸有成竹,才能夠在災(zāi)難真正發(fā)生的時(shí)刻有條不紊地開展恢復(fù)的過(guò)程。測(cè)試的過(guò)程可以分為“紙上談兵”和實(shí)地演習(xí)兩種方式,根據(jù)企業(yè)需要及對(duì)業(yè)務(wù)影響的不同分別采用。需要注意的是,無(wú)論平時(shí)的測(cè)試如何完善,也沒(méi)有辦法預(yù)測(cè)可能發(fā)生的災(zāi)難情況。關(guān)鍵人員的損失或者關(guān)鍵文檔的丟失,都有可能對(duì)災(zāi)難恢復(fù)計(jì)劃的執(zhí)行造成巨大影響。因此,在災(zāi)難演練過(guò)程中要注意到人員的交叉?zhèn)浞萸闆r,除了每個(gè)人自己所擔(dān)負(fù)的責(zé)任外,盡量做到關(guān)鍵步驟有后備人選作為應(yīng)變。七層災(zāi)難恢復(fù)解決方案在談到災(zāi)難恢復(fù)方案時(shí),經(jīng)常提到災(zāi)難恢復(fù)解決方案的7個(gè)層次(tier)。那么什么是7層解決方案?該如何為關(guān)鍵的業(yè)務(wù)應(yīng)用選擇最優(yōu)的容災(zāi)方案?恢復(fù)的7個(gè)層次災(zāi)難保護(hù)計(jì)劃的目的是,確保關(guān)鍵業(yè)務(wù)持續(xù)運(yùn)行以及減少非計(jì)劃宕機(jī)時(shí)間。所有與容災(zāi)方案相關(guān)的計(jì)劃都試圖在方案本身、宕機(jī)時(shí)間和實(shí)施方案所需成本三者之間找到一個(gè)平衡點(diǎn)。三者的平衡關(guān)系災(zāi)難恢復(fù)方案中的恢復(fù)時(shí)間與下列因素有關(guān):數(shù)據(jù)有效性的恢復(fù)IT基礎(chǔ)設(shè)施的恢復(fù)可操作流程的修復(fù)關(guān)鍵業(yè)務(wù)的修復(fù)災(zāi)難恢復(fù)的層次劃分細(xì)述7個(gè)層次災(zāi)難恢復(fù)方案的7個(gè)層次提供了一個(gè)簡(jiǎn)單方法論--如何定義當(dāng)前的服務(wù)水平、風(fēng)險(xiǎn)以及期望的服務(wù)水平和環(huán)境。0層:無(wú)異地備份數(shù)據(jù)(Nooff-siteData)對(duì)于使用0層災(zāi)難恢復(fù)解決方案的業(yè)務(wù),可稱其為沒(méi)有災(zāi)難恢復(fù)計(jì)劃,主要表現(xiàn)為:數(shù)據(jù)僅在本地進(jìn)行備份恢復(fù),沒(méi)有任何數(shù)據(jù)信息和資料被送往異地,沒(méi)有處理意外事故的計(jì)劃?;謴?fù)時(shí)間:在此種情況下,恢復(fù)時(shí)間不可預(yù)測(cè)。事實(shí)上也不可能恢復(fù)。例如,目前我們通常在機(jī)房?jī)?nèi)所做的數(shù)據(jù)備份,備份介質(zhì)保留在機(jī)房?jī)?nèi),用于本地的數(shù)據(jù)恢復(fù)。當(dāng)災(zāi)難發(fā)生時(shí),數(shù)據(jù)備份和設(shè)備有可能一同被毀,無(wú)法進(jìn)行恢復(fù)。1層:有數(shù)據(jù)備份,無(wú)備用系統(tǒng)(DataBackupwithNoHotSite)使用1層災(zāi)難恢復(fù)解決方案的業(yè)務(wù),通常將需要的數(shù)據(jù)備份到磁帶上,然后將這些介質(zhì)運(yùn)送到其它較為安全的地方。但在那里缺乏能恢復(fù)數(shù)據(jù)的系統(tǒng),若數(shù)據(jù)備份的頻率很高,則在恢復(fù)時(shí)丟失的數(shù)據(jù)就會(huì)少些。此類業(yè)務(wù)應(yīng)能忍受幾天乃至幾星期的數(shù)據(jù)丟失。例如,PTAM(PickupTruckAccessMethod)是一種許多數(shù)據(jù)中心所采用的標(biāo)準(zhǔn)備份方式。在完成所需的數(shù)據(jù)備份后,用適當(dāng)?shù)倪\(yùn)輸工具將它們送到遠(yuǎn)離本地的地方,同時(shí)備有數(shù)據(jù)恢復(fù)的程序。災(zāi)難發(fā)生后,一整套系統(tǒng)安裝需要在一臺(tái)未開啟的計(jì)算機(jī)上重新完成,系統(tǒng)和數(shù)據(jù)可以被恢復(fù)并重新與網(wǎng)絡(luò)相連。這種災(zāi)難恢復(fù)方案相對(duì)來(lái)說(shuō)成本較低(僅僅需要運(yùn)輸工具的消耗以及存儲(chǔ)設(shè)備的消耗)。但恢復(fù)的時(shí)間長(zhǎng),且數(shù)據(jù)不夠新。2層:有數(shù)據(jù)備份,有備用系統(tǒng)(DataBackupwithHotSite)使用2層容災(zāi)解決方案的業(yè)務(wù)會(huì)定期將數(shù)據(jù)備份到磁帶上,并將其運(yùn)到安全的地點(diǎn)。在備份中心有備用的系統(tǒng),當(dāng)災(zāi)難發(fā)生時(shí),可以使用這些數(shù)據(jù)備份磁帶來(lái)恢復(fù)系統(tǒng)。雖然還需要數(shù)小時(shí)或幾天的時(shí)間來(lái)恢復(fù)數(shù)據(jù)以使業(yè)務(wù)可用,但不可預(yù)測(cè)的恢復(fù)時(shí)間減少了。2層相當(dāng)于在1層上增加了備份中心的災(zāi)難恢復(fù)。備份中心擁有足夠的硬件和網(wǎng)絡(luò)設(shè)備來(lái)維持關(guān)鍵應(yīng)用的安裝需求,這樣的應(yīng)用是十分的關(guān)鍵的,它必須在災(zāi)難發(fā)生的同時(shí),在異地有正運(yùn)行著的硬件提供支持。這種災(zāi)難恢復(fù)的方式依賴于PTAM方法去將日常數(shù)據(jù)放入倉(cāng)庫(kù),當(dāng)災(zāi)難發(fā)生的時(shí)候,再將數(shù)據(jù)恢復(fù)到備份中心的系統(tǒng)上。雖然備份中心的系統(tǒng)增加了成本,但明顯降低了災(zāi)難恢復(fù)時(shí)間,系統(tǒng)可在幾天內(nèi)得以恢復(fù)。3層:電子鏈接(ElectronicVaulting)使用3層容災(zāi)解決方案的業(yè)務(wù),是在2層解決方案的基礎(chǔ)上,又使用了對(duì)關(guān)鍵數(shù)據(jù)的電子鏈接技術(shù)。電子鏈接將磁帶備份后更改的數(shù)據(jù)進(jìn)行記錄,并傳到備用中心,使用此種方法會(huì)比使用傳統(tǒng)的磁帶備份更快地得到更新的數(shù)據(jù)。所以,當(dāng)災(zāi)難發(fā)生后,只有少量的數(shù)據(jù)需要重新恢復(fù),恢復(fù)時(shí)間會(huì)縮短。由于備用中心要保持持續(xù)運(yùn)行,與生產(chǎn)中心間的通訊線路要保證暢通,增加了運(yùn)營(yíng)成本。但消除了對(duì)運(yùn)輸工具的依賴,提高了災(zāi)難恢復(fù)速度。例如,某企業(yè)在每天下班后,將當(dāng)日的流水全部記錄下來(lái),通過(guò)網(wǎng)絡(luò)傳到備份中心;備份中心在備用系統(tǒng)上,重新將所有業(yè)務(wù)重做,保證與生產(chǎn)中心的一致性。這一領(lǐng)域的產(chǎn)品可以分四層:1)存儲(chǔ)設(shè)備層:IBM-ESS-PPRC、IBM-DS4000-RM、EMC-SRDF、HP-EVA-StorageWorksContinuousAccess、FALCONSTOR-IPSTOR、NETAPP等。2)操作系統(tǒng)及系統(tǒng)軟件層:IBM-GEORM、VERITAS-StorageReplicator/VolumeReplicator、LEGATAL-RepliStor。3)數(shù)據(jù)庫(kù)層:IBM-DB2-HADR、IBM-INFORMIX-HDR、ORACLE-ORACLE-DATAGUARD等。4)應(yīng)用程序?qū)樱簯?yīng)用程序開發(fā)時(shí)考慮到數(shù)據(jù)的復(fù)制。4層:使用快照技術(shù)拷貝數(shù)據(jù)(Point-in-timeCopies)使用4層災(zāi)難恢復(fù)方案的業(yè)務(wù),對(duì)數(shù)據(jù)的實(shí)時(shí)性和快速恢復(fù)性要求更高些。1-3層的方案中較常使用磁帶備份和傳輸,在4層方案中開始使用基于磁盤的解決方案。此時(shí)仍然會(huì)出現(xiàn)幾個(gè)小時(shí)的數(shù)據(jù)丟失,但同基于磁帶的解決方案相比,通過(guò)加快備份頻率,使用最近時(shí)間點(diǎn)的快照拷貝恢復(fù)數(shù)據(jù)會(huì)更快。系統(tǒng)可在一天內(nèi)恢復(fù)。4層災(zāi)難恢復(fù)可有兩個(gè)中心同時(shí)處于活動(dòng)狀態(tài)并管理彼此的備份數(shù)據(jù),允許備份行動(dòng)在任何一個(gè)方向發(fā)生。接收方硬件必須保證與另一方平臺(tái)在地理上分離,在這種情況下,工作負(fù)載可能在兩個(gè)中心之間分享,中心1成為中心2的備份,反之亦然。在兩個(gè)中心之間,彼此的在線關(guān)鍵數(shù)據(jù)的拷貝不停地相互傳送著。在災(zāi)難發(fā)生時(shí),需要的關(guān)鍵數(shù)據(jù)通過(guò)網(wǎng)絡(luò)可迅速恢復(fù),通過(guò)網(wǎng)絡(luò)的切換,關(guān)鍵應(yīng)用的恢復(fù)也可降低到小時(shí)級(jí)。支持這種工作方式的產(chǎn)品包括IBM-HAGEO、VARITAS-GlobalClusterManager。5層:交易的完整性(TransactionIntegrity)使用5層災(zāi)難恢復(fù)方案的業(yè)務(wù),要求保證生產(chǎn)中心和數(shù)據(jù)備份中心的數(shù)據(jù)的一致性。在此層方案中只允許少量甚至是無(wú)數(shù)據(jù)丟失,但是該功能的實(shí)現(xiàn)完全依賴于所運(yùn)行的應(yīng)用。5層除了使用4層的技術(shù)外,還要維護(hù)數(shù)據(jù)的狀態(tài)-要保證在本地和遠(yuǎn)端數(shù)據(jù)庫(kù)中都要更新數(shù)據(jù)。只有當(dāng)兩地的數(shù)據(jù)都更新完成后,才認(rèn)為此次交易成功。生產(chǎn)中心和備用中心是由高速的寬帶連接的,關(guān)鍵數(shù)據(jù)和應(yīng)用同時(shí)運(yùn)行在兩個(gè)地點(diǎn)。當(dāng)災(zāi)難發(fā)生時(shí),只有正在進(jìn)行的交易數(shù)據(jù)會(huì)丟失。由于恢復(fù)數(shù)據(jù)的減少,恢復(fù)時(shí)間也大大縮短。數(shù)據(jù)庫(kù)的數(shù)據(jù)復(fù)制功能一般可以工作在這樣的方式下:IBM-DB2-HADR、ORACLE-ORACLE-Replication等。6層:少量或無(wú)數(shù)據(jù)丟失(Zeroorlittledataloss)6層災(zāi)難恢復(fù)方案可以保證最高一級(jí)數(shù)據(jù)的實(shí)時(shí)性。適用于那些幾乎不允許數(shù)據(jù)丟失并要求能快速將數(shù)據(jù)恢復(fù)到應(yīng)用中的業(yè)務(wù)。此種解決方案提供數(shù)據(jù)的一致性,不依賴于應(yīng)用而是靠大量的硬件技術(shù)和操作系統(tǒng)軟件來(lái)實(shí)現(xiàn)的。這一級(jí)別的要求很高,一般需要整個(gè)系統(tǒng)應(yīng)用程序?qū)拥接布泳扇∠鄳?yīng)措施。1)應(yīng)用程序?qū)硬捎没诮灰祝═RANSACTION)的方法開發(fā)。2)數(shù)據(jù)庫(kù)可以采取數(shù)據(jù)復(fù)制。IBM-DB2-HADR、IBM-INFORMIX-HDR、ORACLE-ORACLE-DATAGUARD等。3)操作系統(tǒng)使用集群軟件、站點(diǎn)遷移軟件、數(shù)據(jù)復(fù)制軟件:IBM-HACMP、VARITAS-GlobalClusterManager等。4)硬件層使用同步的數(shù)據(jù)復(fù)制:IBM-ESS-PPRC、IBM-DS4000-RM、EMC-SRDF或使用帶有CONSISTANCY-GROUP功能的異步數(shù)據(jù)復(fù)制IBM-ESS-PPRC、IBM-DS4000-RM。7層:解決方案與具體業(yè)務(wù)相結(jié)合,實(shí)現(xiàn)自主管理(HighlyAutomated,BussinessIntegratedSolution)7層災(zāi)難恢復(fù)方案在第6層的基礎(chǔ)上,集成了自主管理的功能。在保證數(shù)據(jù)一致性的同時(shí),又增加了應(yīng)用的自動(dòng)恢復(fù)能力,使得系統(tǒng)和應(yīng)用恢復(fù)的速度更快、更可靠(按照災(zāi)難恢復(fù)流程,手工操作也可實(shí)現(xiàn)整個(gè)恢復(fù)過(guò)程)。7層可以實(shí)現(xiàn)0數(shù)據(jù)丟失率,同時(shí)保證數(shù)據(jù)立即自動(dòng)地被傳輸?shù)交謴?fù)中心。7層被認(rèn)為是災(zāi)難恢復(fù)的最高級(jí)別,在本地和遠(yuǎn)程的所有數(shù)據(jù)被更新的同時(shí),利用了雙重在線存儲(chǔ)和完全的網(wǎng)絡(luò)切換能力。7層是災(zāi)難恢復(fù)中最昂貴的方式,但也是速度最快的恢復(fù)方式。當(dāng)一個(gè)工作中心發(fā)生災(zāi)難時(shí),7層能夠提供一定程度的跨站點(diǎn)動(dòng)態(tài)負(fù)載平衡和自動(dòng)系統(tǒng)故障切換功能。現(xiàn)在已經(jīng)證明,為實(shí)現(xiàn)有效的災(zāi)難恢復(fù),無(wú)需人工介入的自動(dòng)站點(diǎn)故障切換功能需要一個(gè)應(yīng)該納入考慮范圍的重要事項(xiàng)。如何選擇最優(yōu)的災(zāi)難恢復(fù)方案在選擇解決方案時(shí),非常重要的一點(diǎn)是,解決方案所需的投資在IT商業(yè)價(jià)值中應(yīng)占切實(shí)可行的部分,任何人都希望用較少的投資換取更多的利益--災(zāi)難恢復(fù)解決方案的投資一定要少于災(zāi)難本身帶來(lái)的財(cái)政損失。按照下述目標(biāo),為一個(gè)商業(yè)應(yīng)用選擇解決方案時(shí),決定起來(lái)就會(huì)簡(jiǎn)單:(按用戶的投入、希望恢復(fù)的速度等目標(biāo)來(lái)選擇,災(zāi)難恢復(fù)越快所需的投入就越多)*恢復(fù)時(shí)間目標(biāo)(RTO–RecoveryTimeObjective)沒(méi)有應(yīng)用系統(tǒng),可以忍受多長(zhǎng)時(shí)間?*恢復(fù)時(shí)間點(diǎn)目標(biāo)(RPO–RecoveryPointObjective)系統(tǒng)恢復(fù)后,可以允許重新創(chuàng)建多少數(shù)據(jù)?*降級(jí)操作目標(biāo)(DOO–DegradedOperationsObjective)數(shù)據(jù)中心減少了,會(huì)有什么負(fù)面影響?*網(wǎng)絡(luò)恢復(fù)目標(biāo)(NRO–NetworkRecoveryobjective)網(wǎng)絡(luò)切換需要多長(zhǎng)時(shí)間?通常,構(gòu)成應(yīng)用業(yè)務(wù)連續(xù)可用性的因素只適用于同一機(jī)房?jī)?nèi)的環(huán)境。機(jī)房本身就是一個(gè)單點(diǎn)故障。為了抵抗災(zāi)難,我們必須選擇一種比連續(xù)可用性考慮更多的恢復(fù)方案?;謴?fù)方案一定是在全面衡量了實(shí)施費(fèi)用、維護(hù)費(fèi)用、災(zāi)難對(duì)財(cái)政的影響,并對(duì)業(yè)務(wù)影響進(jìn)行了分析后而得出的一個(gè)綜合方案。四個(gè)關(guān)鍵目標(biāo)每一層災(zāi)難恢復(fù)方案的恢復(fù)時(shí)間通常是指恢復(fù)處理業(yè)務(wù)服務(wù)所需的安裝時(shí)間。然而在現(xiàn)實(shí)的災(zāi)難中,需要對(duì)其他更多的事項(xiàng)進(jìn)行考慮。例如,有些業(yè)務(wù)可以容忍較長(zhǎng)時(shí)間的停機(jī)服務(wù),但要求一旦業(yè)務(wù)開始就需要使用最多的實(shí)時(shí)數(shù)據(jù);有些業(yè)務(wù)必須在盡可能短的時(shí)間內(nèi)恢復(fù)服務(wù),而不考慮數(shù)據(jù)的實(shí)時(shí)性;還有一些既需要最短的時(shí)間內(nèi)恢復(fù)服務(wù),也需要最多的實(shí)時(shí)數(shù)據(jù)。通過(guò)評(píng)估具體場(chǎng)地的實(shí)際災(zāi)難恢復(fù)需求,為恢復(fù)計(jì)劃開好頭。四個(gè)關(guān)鍵目標(biāo)方案成本與業(yè)務(wù)停止帶來(lái)的損失災(zāi)難恢復(fù)方案的成本是根據(jù)以下兩點(diǎn)得出的:*客戶需要在多快的時(shí)間內(nèi)恢復(fù)數(shù)據(jù)*不能繼續(xù)業(yè)務(wù)處理將帶來(lái)多少損失恢復(fù)數(shù)據(jù)所需的時(shí)間越少,業(yè)務(wù)處理服務(wù)中斷的時(shí)間就越短,所需的方案成本就越多。另一方面,不能進(jìn)行業(yè)務(wù)處理的時(shí)間越長(zhǎng),由此帶來(lái)的損失就越大。最優(yōu)的方案就是,方案成本曲線和業(yè)務(wù)停止帶來(lái)的損失的曲線的交集。成本/時(shí)間窗口。成本時(shí)間窗口與系統(tǒng)體系結(jié)構(gòu)的關(guān)系為了災(zāi)難保護(hù),需要建立一個(gè)可靠并經(jīng)過(guò)驗(yàn)證的基礎(chǔ)結(jié)構(gòu),系統(tǒng)的每一級(jí)部件都一定要有冗余,這是必須的。高可用系統(tǒng)的構(gòu)成因素存儲(chǔ)設(shè)備級(jí)(StorageDeviceLevel)存儲(chǔ)設(shè)備級(jí),是指存儲(chǔ)的物理實(shí)體,如磁盤或磁帶機(jī)。為了實(shí)現(xiàn)設(shè)備級(jí)的可用性,使用嵌入在設(shè)備自身中的功能,這些冗余功能可通過(guò)在磁盤中使用備用磁道或在磁帶機(jī)中使用特定的寫機(jī)制來(lái)實(shí)現(xiàn)。存儲(chǔ)服務(wù)器(存儲(chǔ)子系統(tǒng))控制器級(jí)存儲(chǔ)控制器自身的接口用于連接SAN或服務(wù)器(Servers)和存儲(chǔ)設(shè)備。存儲(chǔ)控制器的內(nèi)置功能負(fù)責(zé)所有與存儲(chǔ)相關(guān)的執(zhí)行操作。*內(nèi)置的拷貝功能,如Point-in-Time拷貝,遠(yuǎn)程鏡像*內(nèi)置高可用性機(jī)制(冗余、接管Failover)SAN(StorageAreaNetwork)級(jí)SAN級(jí)的冗余可通過(guò)冗余SAN的基本模塊--SAN交換機(jī)或使用導(dǎo)向器(Director)來(lái)實(shí)現(xiàn)。SAN交換機(jī)和導(dǎo)向器的主要區(qū)別在于可維護(hù)性和可用性。導(dǎo)向器類的產(chǎn)品可以在不中斷服務(wù)的同時(shí),在線進(jìn)行Microcode/Firmware的升級(jí)。在出現(xiàn)硬件故障時(shí),導(dǎo)向器通常只需更換一個(gè)部件。操作系統(tǒng)中設(shè)備驅(qū)動(dòng)程序級(jí)設(shè)備驅(qū)動(dòng)程序是存儲(chǔ)設(shè)備,服務(wù)器的操作系統(tǒng)和主機(jī)適配卡之間溝通的橋梁,它負(fù)責(zé)實(shí)施與操作系統(tǒng)中所展示的全部硬件功能相關(guān)的操作,并負(fù)責(zé)與存儲(chǔ)設(shè)備之間的通訊,如光纖通道環(huán)境中多路徑和通道接管功能。操作系統(tǒng)級(jí)在操作系統(tǒng)級(jí),通過(guò)使用群集技術(shù)可以實(shí)現(xiàn)操作系統(tǒng)級(jí)的高可用性,如HACMPforAIX,STEELEYEforLINUX和MicrosoftWindowsClustering??梢钥紤]將群集技術(shù)作為災(zāi)難保護(hù)的一部分。在災(zāi)難保護(hù)方案中群集本身不代表基礎(chǔ)設(shè)施。應(yīng)用級(jí)要想在應(yīng)用級(jí)實(shí)現(xiàn)冗余,在很大程度上依賴于應(yīng)用的類型。如在三層的SAN環(huán)境中,通過(guò)使用多個(gè)應(yīng)用服務(wù)器(MultiApplicationServer),應(yīng)用層可以做到高可用性。如果任何服務(wù)器發(fā)生故障,加在其上的負(fù)載就會(huì)被重新分布到其他運(yùn)行中的服務(wù)器上,業(yè)務(wù)可繼續(xù)進(jìn)行。功能級(jí)功能級(jí)是系統(tǒng)整體架構(gòu)中最重要的一級(jí),它依賴以下級(jí)的可用性:*IT基礎(chǔ)設(shè)施架構(gòu)的可用性(操作系統(tǒng)+服務(wù)器+存儲(chǔ)+網(wǎng)絡(luò))*應(yīng)用的可用性(應(yīng)用+數(shù)據(jù))+IT基礎(chǔ)設(shè)施架構(gòu)的可用性*業(yè)務(wù)流程的可用性(應(yīng)用的可用性+外部相關(guān)條件)在規(guī)劃災(zāi)難保護(hù)的功能級(jí)時(shí)必須包括所有外在因素,如不同企業(yè)間的相互協(xié)作等。容災(zāi)系統(tǒng)的設(shè)計(jì)過(guò)程容災(zāi)方案的制定是一個(gè)系統(tǒng)的過(guò)程,包含一系列的工作及計(jì)劃的制訂,包括BusinessContinuityPlanning(BCP),BusinessRecoveryPlan(BRP),ContinuityofOperationsPlan(COOP),IncidentResponsePlan(IRP),OccupantEmergencyPlan(OEP),DisasterRecoveryPlan(DRP)等計(jì)劃,在此我們主要介紹災(zāi)難恢復(fù)計(jì)劃(DisasterRecoveryPlan或DRP)的制訂過(guò)程及方法相比于其它機(jī)構(gòu)和領(lǐng)域,IT系統(tǒng)更容易受到各種災(zāi)難的傷害而導(dǎo)致中斷,特別是在許多情況下,關(guān)鍵資源可能屬于不可控范圍(如電力和電信),于是有效的災(zāi)難恢復(fù)計(jì)劃、履行計(jì)劃和對(duì)計(jì)劃進(jìn)行有效地測(cè)試對(duì)于削減系統(tǒng)風(fēng)險(xiǎn)與各種服務(wù)的不可用性就顯得非常重要了。為了保證災(zāi)難恢復(fù)計(jì)劃的成功,管理者應(yīng)該做到以下幾點(diǎn):1、災(zāi)難恢復(fù)計(jì)劃的全部過(guò)程及其在整個(gè)運(yùn)行連續(xù)性計(jì)劃和業(yè)務(wù)連續(xù)性計(jì)劃過(guò)程中的地位。2、或復(fù)查其應(yīng)急策略及計(jì)劃過(guò)程并運(yùn)用計(jì)劃周期要素,包括預(yù)備計(jì)劃、業(yè)務(wù)影響分析、備用站點(diǎn)選擇和恢復(fù)策略。3、和復(fù)查其災(zāi)難恢復(fù)計(jì)劃策略,重點(diǎn)在于計(jì)劃的維護(hù)、培訓(xùn)以及對(duì)應(yīng)急計(jì)劃的演練。災(zāi)難恢復(fù)計(jì)劃描述簡(jiǎn)單地講,災(zāi)難恢復(fù)計(jì)劃的重點(diǎn)在于IT的恢復(fù),如系統(tǒng)、應(yīng)用、數(shù)據(jù)和相關(guān)的設(shè)施(如網(wǎng)絡(luò)等)。災(zāi)備的主要目標(biāo)是在事件發(fā)生時(shí),能夠保證全部或部分計(jì)算機(jī)服務(wù)的持續(xù)可用。災(zāi)難恢復(fù)計(jì)劃就是指,在災(zāi)難發(fā)生時(shí)需要采取的響應(yīng)步驟的詳細(xì)過(guò)程。災(zāi)難恢復(fù)計(jì)劃包含了一系列災(zāi)難發(fā)生前、過(guò)程中和災(zāi)難發(fā)生后所采取的動(dòng)作,災(zāi)備方案計(jì)劃書應(yīng)該文檔化,并經(jīng)過(guò)充分的測(cè)試,以保證災(zāi)難處理過(guò)程中各種操作的連續(xù)性和關(guān)鍵資源的可用性。根據(jù)災(zāi)難發(fā)生的時(shí)段或業(yè)務(wù)中斷的嚴(yán)重程度的不同,一個(gè)企業(yè)的生存能力也依賴于管理層重建其關(guān)鍵業(yè)務(wù)的能力。一般來(lái)講,這些業(yè)務(wù)功能的重建需要幾年的時(shí)間。但是,對(duì)于管理層,必須在幾個(gè)小時(shí)或幾天的時(shí)間內(nèi)重建,確實(shí)是一個(gè)難題。重建復(fù)雜的商業(yè)環(huán)境要求有一個(gè)經(jīng)過(guò)慎重考慮且具體的計(jì)劃,以備在災(zāi)難發(fā)生時(shí)執(zhí)行。從這份計(jì)劃中我們可以看到,為恢復(fù)初始環(huán)境,在重建過(guò)程中應(yīng)該采取的步驟。在一個(gè)組織中,災(zāi)難的發(fā)生是不可預(yù)測(cè)的。對(duì)客戶而言,最想知道的事情是災(zāi)難什么時(shí)候發(fā)生。系統(tǒng)和工作人員可以應(yīng)對(duì)災(zāi)難,并對(duì)可預(yù)知的災(zāi)難進(jìn)行反應(yīng)是最終的目標(biāo)。換句話說(shuō),災(zāi)難發(fā)生時(shí),不需要等待,而只需要確定你的計(jì)劃是否可行。災(zāi)難發(fā)生時(shí),客戶、供應(yīng)商和員工通常會(huì)關(guān)心中央處理設(shè)備的停機(jī)時(shí)間。在這種情況下,這些人都沒(méi)有什么過(guò)分的要求,只關(guān)心停機(jī)的等待時(shí)間,而停機(jī)時(shí)間的多少則依賴于災(zāi)難恢復(fù)方案。通常,這種停機(jī)時(shí)間可以分為以下兩個(gè)部分:服務(wù)丟失表示從災(zāi)難發(fā)生到系統(tǒng)恢復(fù)正常所損失的時(shí)間。數(shù)據(jù)丟失表示用戶數(shù)據(jù)的丟失,也就是說(shuō),系統(tǒng)恢復(fù)到災(zāi)難發(fā)生前的數(shù)據(jù)層面,要花費(fèi)多少時(shí)間可以重新工作。一個(gè)組織的大部分收入,如果過(guò)分的依賴于生產(chǎn)系統(tǒng),一旦應(yīng)用和網(wǎng)絡(luò)停機(jī),則將會(huì)造成巨額收入的損失。在不同的行業(yè),如果以小時(shí)為單位計(jì)算收入損失,因?yàn)?zāi)難而造成的收入減少也是不同的,如能源、電信、制造行業(yè)和金融部門,造成巨額收入的損失并不驚奇。另外,實(shí)際收入損失所占的百分比也和運(yùn)營(yíng)的關(guān)鍵業(yè)務(wù)有關(guān)系總之,災(zāi)備計(jì)劃就是要保證災(zāi)難發(fā)生后,能及時(shí)地按照一定的策略、過(guò)程和技術(shù)等方法迅速恢復(fù)IT系統(tǒng)、操作和數(shù)據(jù)。災(zāi)難恢復(fù)計(jì)劃項(xiàng)目階段如何制訂災(zāi)難恢復(fù)計(jì)劃,前面的章節(jié)中(參看3.1節(jié)業(yè)務(wù)連續(xù)性)給出了指導(dǎo)性的建議步驟。上述步驟中,每一步都包含了相關(guān)方面的各項(xiàng)內(nèi)容。實(shí)際上,在制定災(zāi)難恢復(fù)計(jì)劃時(shí),我們可以將這些步驟細(xì)化為下圖的操作流程。在下圖的流程中,包含了災(zāi)難恢復(fù)計(jì)劃的各個(gè)階段,并直觀的告訴我們,災(zāi)難恢復(fù)計(jì)劃的制定是一個(gè)循環(huán)往復(fù)的過(guò)程。災(zāi)備計(jì)劃不同階段圖表對(duì)上圖的簡(jiǎn)單分析如下,更詳細(xì)的內(nèi)容,將在以下的章節(jié)中給出:1)項(xiàng)目啟動(dòng)及項(xiàng)目組的選擇此階段包括取得管理層的正式同意、選擇項(xiàng)目協(xié)調(diào)人員和項(xiàng)目組成員、信息收集方式的標(biāo)準(zhǔn)化以及項(xiàng)目資源的調(diào)度等方面的內(nèi)容。2)數(shù)據(jù)收集和需求分析此階段包括收集業(yè)務(wù)過(guò)程的信息、技術(shù)基礎(chǔ)架構(gòu)的支撐環(huán)境、潛在的停機(jī)費(fèi)用消耗、災(zāi)難類型以及其它公司使用的相應(yīng)技術(shù)和策略等方面的內(nèi)容。3)風(fēng)險(xiǎn)分析在風(fēng)險(xiǎn)分析階段,我們將對(duì)為達(dá)到災(zāi)難恢復(fù)計(jì)劃的設(shè)定目標(biāo)收集的數(shù)據(jù)進(jìn)行處理,以便對(duì)風(fēng)險(xiǎn)以及在可接受的時(shí)間范圍內(nèi)恢復(fù)所需要的資源有較深的理解。作為風(fēng)險(xiǎn)分析的結(jié)果之一,災(zāi)難防范技術(shù)的實(shí)施可以幫助我們防止可以避免的災(zāi)難。比如:火災(zāi)的偵測(cè)和防止,不間斷電源系統(tǒng)等。4)數(shù)據(jù)保護(hù)數(shù)據(jù)保護(hù)是災(zāi)難恢復(fù)計(jì)劃中的關(guān)鍵模塊。必須清晰、完整地表述出各類數(shù)據(jù)(記錄、膠片、電子及光學(xué)數(shù)據(jù)等)的保護(hù)方法。5)恢復(fù)計(jì)劃恢復(fù)計(jì)劃是指對(duì)意外事件所采取的策略及明確的規(guī)劃。如替代的系統(tǒng)、網(wǎng)絡(luò)和終端用戶。6)培訓(xùn)和測(cè)試培訓(xùn)和計(jì)劃性的測(cè)試可以對(duì)所設(shè)計(jì)的災(zāi)難恢復(fù)策略進(jìn)行測(cè)試,并且提供了一種可以對(duì)災(zāi)難恢復(fù)計(jì)劃中的不足方面進(jìn)行發(fā)現(xiàn)和修改的手段。7)計(jì)劃的維護(hù)管理計(jì)劃的維護(hù)管理提供了一種機(jī)制,可以使災(zāi)難恢復(fù)計(jì)劃隨著業(yè)務(wù)和IT系統(tǒng)架構(gòu)的改變而改變。下面我們對(duì)各個(gè)階段給出較詳細(xì)的解釋。項(xiàng)目啟動(dòng)和項(xiàng)目組選擇的階段可細(xì)分為以下幾個(gè)主要組成部分:1、管理層的承諾企業(yè)的最高管理層必須支持且參與計(jì)劃的制定和協(xié)調(diào),以確保災(zāi)難恢復(fù)計(jì)劃在本公司內(nèi)的有效作用。制定一個(gè)有效的計(jì)劃,必須要有時(shí)間和資源的保證,時(shí)間就是計(jì)劃的制定所需要的時(shí)間,而資源則包括預(yù)算和人力。2、計(jì)劃制定委員會(huì)計(jì)劃制定委員會(huì)負(fù)責(zé)監(jiān)控計(jì)劃的制定和實(shí)施,由公司各個(gè)部門的代表組成,關(guān)鍵的委員會(huì)成員應(yīng)當(dāng)包括業(yè)務(wù)運(yùn)營(yíng)經(jīng)理和數(shù)據(jù)處理部門經(jīng)理。委員會(huì)還應(yīng)當(dāng)定義計(jì)劃的適用范圍。委員會(huì)的另一個(gè)職責(zé)是定期把項(xiàng)目信息通知給最高管理層,因?yàn)檫@是一個(gè)比較敏感的主題,可能需要花費(fèi)較多的人力和財(cái)力,這些都需要最高管理層來(lái)支持。3、范圍盡管大多數(shù)災(zāi)難恢復(fù)計(jì)劃只包含數(shù)據(jù)處理相關(guān)的項(xiàng)目,但是一個(gè)復(fù)雜的計(jì)劃也包含數(shù)據(jù)處理以外的操作領(lǐng)域,如果同時(shí)考慮到災(zāi)難的其它方面,災(zāi)備計(jì)劃涉及的范圍是相當(dāng)廣泛的。4、假定制定計(jì)劃要考慮的最基本問(wèn)題就是設(shè)想最壞的場(chǎng)景。對(duì)運(yùn)營(yíng)系統(tǒng)而言,最壞的場(chǎng)景就是主要設(shè)備的損壞。計(jì)劃的制定就是基于這樣一個(gè)前提,每一個(gè)災(zāi)難恢復(fù)計(jì)劃都基于一組假定的設(shè)想。這些假定對(duì)計(jì)劃所涉及的環(huán)境做了限制,這些限制定義了公司準(zhǔn)備接受的災(zāi)難量級(jí),它們可以通過(guò)以下問(wèn)題來(lái)識(shí)別:哪些設(shè)備被破壞中斷的時(shí)間是多少哪些記錄、文件和資料需要保護(hù)災(zāi)難發(fā)生時(shí),哪些資源是可用的員工設(shè)備通訊傳輸后備場(chǎng)地在制定災(zāi)難恢復(fù)計(jì)劃時(shí),可以借鑒以下典型的假定:公司主要的生產(chǎn)設(shè)備被破壞擁有在可以執(zhí)行計(jì)劃之內(nèi)的關(guān)鍵性功能的員工員工可以被通知到,并且可以到備份地點(diǎn)執(zhí)行關(guān)鍵性的恢復(fù)和重建工作災(zāi)難恢復(fù)計(jì)劃是可用的部分計(jì)劃可用于恢復(fù)相應(yīng)的環(huán)境中斷備份設(shè)備是可用的在異地或別的設(shè)備中保存有足夠多的備份備份地點(diǎn)可以處理公司的工作司本地和遠(yuǎn)端的通訊鏈路是可用的本地基本的傳輸是可用的災(zāi)難發(fā)生時(shí),供應(yīng)商應(yīng)根據(jù)承諾對(duì)公司提供支持以上的假定并不包含全部可能性,但在計(jì)劃制定的開始階段可供大家參考。5、項(xiàng)目組及其責(zé)任災(zāi)難恢復(fù)計(jì)劃可以按照組的形式來(lái)制定,特定的任務(wù)可以分配給特定的組。意外發(fā)生時(shí)的公司架構(gòu)可能與現(xiàn)有的架構(gòu)有所不同,那時(shí)通常是以組為基礎(chǔ),不同的組負(fù)責(zé)不同的功能領(lǐng)域,這些組可能包括:管理組業(yè)務(wù)恢復(fù)組部門恢復(fù)組計(jì)算機(jī)恢復(fù)組損壞評(píng)估組安全組設(shè)備支持組后勤支持組行政支持組用戶支持組計(jì)算機(jī)備份組異地?cái)?shù)據(jù)存儲(chǔ)組軟件組通訊組應(yīng)用組人力資源組市場(chǎng)和客戶關(guān)系組企業(yè)并不需要建立以上所有的這些組,但我們強(qiáng)烈建議與上述的每個(gè)組相關(guān)聯(lián)的功能都能被包含在其中。根據(jù)員工的技能和領(lǐng)導(dǎo)能力,可以將其選入不同的組。一般來(lái)講,各組的成員所擁有的技能應(yīng)與其平時(shí)的工作相一致。例如,服務(wù)器恢復(fù)組的成員應(yīng)當(dāng)包含系統(tǒng)管理員。組成員不僅要知道計(jì)劃的目的,而且要知道執(zhí)行恢復(fù)策略的過(guò)程??紤]到可能會(huì)聯(lián)系不到某些成員的情況,成員的組建應(yīng)基于“互有備份”的原則。同樣,成員也應(yīng)當(dāng)了解其它組的目的和執(zhí)行過(guò)程。每一個(gè)組由組長(zhǎng)領(lǐng)導(dǎo),組長(zhǎng)要負(fù)責(zé)本組的運(yùn)行,承擔(dān)同其它組的協(xié)調(diào)工作,向組員及時(shí)傳達(dá)需要的信息,并在組內(nèi)做決定。另外,如果組長(zhǎng)不能行使其職能,必須指定代理組長(zhǎng)。在災(zāi)難恢復(fù)計(jì)劃中,最重要的組是管理組。他們?cè)谑鹿拾l(fā)生時(shí)負(fù)責(zé)協(xié)調(diào)所有組的工作。管理組一般由高級(jí)管理經(jīng)理負(fù)責(zé),如CIO。以下是各個(gè)組的主要職能:負(fù)責(zé)計(jì)劃的執(zhí)行促進(jìn)與其它組之間的交流,監(jiān)督計(jì)劃的測(cè)試和執(zhí)行所有或是某一個(gè)成員可能領(lǐng)導(dǎo)特定的組協(xié)調(diào)恢復(fù)過(guò)程評(píng)估災(zāi)難,執(zhí)行恢復(fù)計(jì)劃,聯(lián)系組長(zhǎng)監(jiān)控并記錄恢復(fù)的過(guò)程是最終決定優(yōu)先級(jí)設(shè)置、各種政策和過(guò)程的人數(shù)據(jù)收集和關(guān)鍵需求分析階段要確定一個(gè)企業(yè)的關(guān)鍵性需求,每個(gè)部門應(yīng)該將本部門執(zhí)行的功能文檔化,經(jīng)過(guò)一定的分析來(lái)確認(rèn)部門內(nèi)部和外部的主要職能。部門的日操作記錄可以對(duì)確定關(guān)鍵性需求起到輔助作用。以下是一些輔助問(wèn)題:1)如果災(zāi)難發(fā)生而沒(méi)有現(xiàn)有的設(shè)備和部門架構(gòu),部門能運(yùn)轉(zhuǎn)多長(zhǎng)時(shí)間?2)在部門內(nèi),什么任務(wù)的優(yōu)先級(jí)最高?(包括關(guān)鍵的手工功能和處理)這些任務(wù)被執(zhí)行的頻率是多少?如每天、每星期或每月等。3)執(zhí)行最高級(jí)別的任務(wù),需要那些人力、設(shè)備、和供應(yīng)等?4)對(duì)于關(guān)鍵的設(shè)備及供應(yīng),在災(zāi)難的環(huán)境中應(yīng)如何替換?5)上述這些關(guān)鍵信息的替換需要多長(zhǎng)時(shí)間?6)部門內(nèi)有沒(méi)有可供參考的手冊(cè)和操作步驟?災(zāi)難發(fā)生時(shí)這些是如何替換的?7)任何供應(yīng)、設(shè)備和操作過(guò)程或手冊(cè)等,有沒(méi)有在異地存放?8)確定原始文檔的存儲(chǔ)設(shè)備和安全性。在災(zāi)難的時(shí)間中,這些信息如何被替代?有沒(méi)有更多的地方來(lái)保存?9)當(dāng)前計(jì)算機(jī)的備份過(guò)程是什么?如何恢復(fù)備份?任何關(guān)鍵的備份拷貝有沒(méi)有在異地存放?10)在災(zāi)難發(fā)生后,臨時(shí)性的操作步驟是什么?11)一個(gè)部門的運(yùn)轉(zhuǎn)中斷,對(duì)其它的部門有什么影響?12)依賴于正常運(yùn)轉(zhuǎn)的企業(yè)以外的服務(wù)商和供應(yīng)商有哪些?13)有沒(méi)有經(jīng)過(guò)跨部門培訓(xùn)的人員?14)誰(shuí)負(fù)責(zé)維護(hù)部門的異常計(jì)劃?15)災(zāi)難恢復(fù)計(jì)劃有沒(méi)有其它的考慮?在上述問(wèn)題的基礎(chǔ)上,我們列出了以下需要進(jìn)行文檔化的信息:備份地址列表,關(guān)鍵電話號(hào)碼記錄,通訊目錄,分發(fā)記錄,文檔目錄,設(shè)備目錄,表格目錄,保險(xiǎn)政策目錄,主要的計(jì)算機(jī)硬件目錄,主要客戶列表,主要供應(yīng)商列表,計(jì)算機(jī)硬件和軟件列表,通知列表,辦公用品供應(yīng)列表,異地存儲(chǔ)地址列表,軟件和數(shù)據(jù)文件備份和調(diào)度,電話目錄等資料和文檔。關(guān)鍵性需求可以通過(guò)問(wèn)卷的方式來(lái)獲得,問(wèn)卷主要是將每個(gè)部門的關(guān)鍵性工作記錄在案,并找出最小的必備資源,如人力、設(shè)備、供應(yīng)商、文檔等資源。確定了各部門的關(guān)鍵性需求并將其文檔化以后,管理層就可以為各部門在整個(gè)企業(yè)的災(zāi)難恢復(fù)過(guò)程中設(shè)置優(yōu)先級(jí)別。每一個(gè)部門的操作可以按照下面的方式給出優(yōu)先級(jí):1)基本操作(必需):服務(wù)中斷超過(guò)一天,將嚴(yán)重地危害到公司的運(yùn)轉(zhuǎn)。2)推薦操作(關(guān)鍵):服務(wù)中斷超過(guò)一個(gè)禮拜,將嚴(yán)重的危害到公司的運(yùn)轉(zhuǎn)。3)其它操作(非關(guān)鍵):這些信息的存在可以方便業(yè)務(wù)操作,如果一旦丟失也不會(huì)影響到業(yè)務(wù)的正常運(yùn)轉(zhuǎn)。根據(jù)RTO和RPO的不同,各公司采取的策略也會(huì)有所不同。以下是一些通用的標(biāo)準(zhǔn),可以根據(jù)這些標(biāo)準(zhǔn)將應(yīng)用進(jìn)行分級(jí):1)必需:從停機(jī)算起,RTO<8小時(shí),RPO在15

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論