![企業(yè)容災(zāi)規(guī)劃建設(shè)三大階段關(guān)鍵問(wèn)題總結(jié)及最佳實(shí)踐_第1頁(yè)](http://file4.renrendoc.com/view10/M02/1B/0D/wKhkGWW4TnuAbYurAAE10opG61I011.jpg)
![企業(yè)容災(zāi)規(guī)劃建設(shè)三大階段關(guān)鍵問(wèn)題總結(jié)及最佳實(shí)踐_第2頁(yè)](http://file4.renrendoc.com/view10/M02/1B/0D/wKhkGWW4TnuAbYurAAE10opG61I0112.jpg)
![企業(yè)容災(zāi)規(guī)劃建設(shè)三大階段關(guān)鍵問(wèn)題總結(jié)及最佳實(shí)踐_第3頁(yè)](http://file4.renrendoc.com/view10/M02/1B/0D/wKhkGWW4TnuAbYurAAE10opG61I0113.jpg)
![企業(yè)容災(zāi)規(guī)劃建設(shè)三大階段關(guān)鍵問(wèn)題總結(jié)及最佳實(shí)踐_第4頁(yè)](http://file4.renrendoc.com/view10/M02/1B/0D/wKhkGWW4TnuAbYurAAE10opG61I0114.jpg)
![企業(yè)容災(zāi)規(guī)劃建設(shè)三大階段關(guān)鍵問(wèn)題總結(jié)及最佳實(shí)踐_第5頁(yè)](http://file4.renrendoc.com/view10/M02/1B/0D/wKhkGWW4TnuAbYurAAE10opG61I0115.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
企業(yè)容災(zāi)規(guī)劃建設(shè)三大階段關(guān)鍵問(wèn)題總結(jié)及最佳實(shí)踐
近些年興起的雙活災(zāi)備解決方案逐漸成為探討業(yè)務(wù)連續(xù)性的主旋律。但是面對(duì)技術(shù)的日新月異和信息技術(shù)的多元化發(fā)展,如何提高企業(yè)整體容災(zāi)體系標(biāo)準(zhǔn),建立一套適合自己的容災(zāi)體系架構(gòu),一直是企業(yè)面臨的重大挑戰(zhàn)。甚至有些企業(yè)花費(fèi)大量時(shí)間調(diào)研學(xué)習(xí)之后還是無(wú)從下手。歸根結(jié)底是一些關(guān)鍵問(wèn)題困擾著。本文根據(jù)近期社區(qū)圍繞企業(yè)容災(zāi)規(guī)劃建設(shè)的全過(guò)程進(jìn)行的討論議題梳理而成。包括:容災(zāi)規(guī)劃建設(shè)之初需要考慮的問(wèn)題、容災(zāi)架構(gòu)規(guī)劃階段需要定性的問(wèn)題、容災(zāi)建設(shè)過(guò)程當(dāng)中必須要考慮的一些關(guān)鍵技術(shù)問(wèn)題。一、關(guān)于容災(zāi)規(guī)劃建設(shè)之初需要考慮的問(wèn)題【關(guān)鍵問(wèn)題】金融企業(yè)搞容災(zāi)建設(shè)應(yīng)該從什么地方著手?第一步需要做什么事情?容災(zāi)建設(shè)的合規(guī)性要求有哪些?如何進(jìn)行容災(zāi)建設(shè)規(guī)劃?容災(zāi)的RTO和RPO需要如何來(lái)制定?數(shù)據(jù)同步技術(shù)到底有沒(méi)有實(shí)際作用?【關(guān)鍵總結(jié)】1、何理解備份、高可用、容災(zāi)、容錯(cuò)等常用概念?從作用范疇上來(lái)講,備份恢復(fù)、高可用架構(gòu)設(shè)計(jì)、容錯(cuò)設(shè)計(jì)、容災(zāi)都是為了保障業(yè)務(wù)連續(xù)性的一種手段、技術(shù)和工具。在廣義的容災(zāi)設(shè)計(jì)當(dāng)中必然也會(huì)包括基礎(chǔ)架構(gòu)的高可用設(shè)計(jì)、設(shè)備軟件的容錯(cuò)設(shè)計(jì)以及必要的備份恢復(fù)。但是備份恢復(fù)、高可用和容錯(cuò)是可以獨(dú)立存在的,不依賴容災(zāi)架構(gòu)。從設(shè)計(jì)功能上來(lái)講,備份恢復(fù)不僅僅可以解決由物理故障引起的數(shù)據(jù)損壞和丟失,而且更重要的是它可以解決由人為的邏輯錯(cuò)誤導(dǎo)致的數(shù)據(jù)損壞和丟失,比如誤刪數(shù)據(jù)。備份恢復(fù)是一種事后的補(bǔ)救措施,也就是說(shuō)它只能發(fā)生在問(wèn)題發(fā)生之后。容錯(cuò)、高可用、容災(zāi)中核心的架構(gòu)設(shè)計(jì)是為了解決實(shí)時(shí)問(wèn)題,是一種事中解決問(wèn)題的思路,但是這兩者都無(wú)法解決人為導(dǎo)致的邏輯錯(cuò)誤故障導(dǎo)致的業(yè)務(wù)中斷,只能解決物理故障導(dǎo)致的業(yè)務(wù)中斷問(wèn)題。從所屬性質(zhì)來(lái)講,業(yè)務(wù)連續(xù)性是著眼業(yè)務(wù)層面的一套解決思路或者方法論指導(dǎo)下的制度、流程、方案、技術(shù)、工具、資源等一系列元素組成的。而容災(zāi)、高可用、備份恢復(fù)、容錯(cuò)僅僅是為了保障業(yè)務(wù)連續(xù)而對(duì)基礎(chǔ)架構(gòu)進(jìn)行設(shè)計(jì)實(shí)現(xiàn)的技術(shù)工具或者手段。2、企業(yè)容災(zāi)架構(gòu)的核心目標(biāo)是什么?也就是說(shuō)我們?yōu)槭裁匆ㄟ@么大力氣去搞容災(zāi)建設(shè)?就一句話,RTO&RPO是搞容災(zāi)建設(shè)的最核心目標(biāo),一切容災(zāi)建設(shè)目的都需要回到RTO和RPO的評(píng)估上來(lái)。RTO:企業(yè)可容許服務(wù)中斷的時(shí)間長(zhǎng)度,簡(jiǎn)言之業(yè)務(wù)可以恢復(fù)的最快時(shí)間。RPO:企業(yè)可容許數(shù)據(jù)丟失的數(shù)量級(jí),簡(jiǎn)言之?dāng)?shù)據(jù)可以恢復(fù)到最新的時(shí)刻點(diǎn)。RTO關(guān)注的是數(shù)據(jù)丟失的多少,而對(duì)什么時(shí)候恢復(fù)業(yè)務(wù)中斷沒(méi)有要求;RPO關(guān)注的是什么時(shí)候恢復(fù)業(yè)務(wù),但是歷史數(shù)據(jù)丟失多少并沒(méi)有要求。只有這兩個(gè)結(jié)合起來(lái)才是對(duì)現(xiàn)實(shí)生活當(dāng)中的業(yè)務(wù)連續(xù)性的約束。要實(shí)現(xiàn)什么樣的RTO&RPO目標(biāo),一定會(huì)有相應(yīng)的方案來(lái)支撐,也必然有對(duì)此方案需要付出的IT成本投入。我們?cè)u(píng)估容災(zāi)的目標(biāo)要求,一定是從RTO&RPO的選定范圍出發(fā),然后權(quán)衡企業(yè)可以付諸的投入,最終確定合理的容災(zāi)建設(shè)方案。3、數(shù)據(jù)復(fù)制技術(shù)在容災(zāi)當(dāng)中的意義?如果上升到商業(yè)業(yè)務(wù)的高度,那么一切容災(zāi)技術(shù)都是為了業(yè)務(wù)的連續(xù)性服務(wù)的。具體來(lái)說(shuō),數(shù)據(jù)復(fù)制技術(shù)即完成數(shù)據(jù)從一個(gè)數(shù)據(jù)中心到另外的數(shù)據(jù)中心的冗余性保護(hù)。一旦發(fā)生災(zāi)難導(dǎo)致一個(gè)數(shù)據(jù)中心的數(shù)據(jù)丟失或者損壞,可以通過(guò)另外一個(gè)數(shù)據(jù)中心的數(shù)據(jù)來(lái)支撐應(yīng)用系統(tǒng)運(yùn)行。沒(méi)有應(yīng)用系統(tǒng)的不中斷運(yùn)行就沒(méi)有業(yè)務(wù)的連續(xù)性可言,沒(méi)有數(shù)據(jù)的存在就沒(méi)有應(yīng)用系統(tǒng)的不中斷運(yùn)行可言,沒(méi)有數(shù)據(jù)復(fù)制技術(shù)的支撐就沒(méi)有容災(zāi)的必要性可言。數(shù)據(jù)在應(yīng)用系統(tǒng)當(dāng)中的地位直接決定了數(shù)據(jù)復(fù)制技術(shù)在容災(zāi)框架當(dāng)中的絕對(duì)必要性地位。①RPO:簡(jiǎn)言之,RPO就是衡量災(zāi)難時(shí)刻依靠容災(zāi)手段可以丟失的最少數(shù)據(jù)。數(shù)據(jù)復(fù)制的及時(shí)性直接決定RPO的量級(jí)標(biāo)準(zhǔn),如果數(shù)據(jù)復(fù)制是同步模式,那么RPO必然是零。如果數(shù)據(jù)是異步模式,那么RPO就直接與數(shù)據(jù)復(fù)制的異步效率指標(biāo)息息相關(guān)。②RTO:簡(jiǎn)言之,RTO就是衡量災(zāi)難時(shí)刻依靠容災(zāi)手段可以恢復(fù)業(yè)務(wù)的最短時(shí)間。這個(gè)不僅僅取決于數(shù)據(jù)復(fù)制技術(shù),還要依賴于縱向的網(wǎng)絡(luò)、負(fù)載分發(fā)、服務(wù)器、應(yīng)用、數(shù)據(jù)庫(kù)、存儲(chǔ)等各個(gè)層面的恢復(fù)技術(shù)。但是,數(shù)據(jù)復(fù)制技術(shù)一定是所有恢復(fù)技術(shù)的基石,沒(méi)有這個(gè)基石,及時(shí)所有層面都恢復(fù)了,沒(méi)有數(shù)據(jù)的業(yè)務(wù)訪問(wèn)也依然無(wú)效。因此,數(shù)據(jù)復(fù)制技術(shù)是容災(zāi)體系架構(gòu)當(dāng)中最關(guān)鍵的技術(shù)元素。數(shù)據(jù)同步技術(shù)是容災(zāi)備份技術(shù),參考的必要的條件。數(shù)據(jù)庫(kù)同步技術(shù)是應(yīng)用系統(tǒng)處理核心,不但應(yīng)用系統(tǒng)需要向數(shù)據(jù)庫(kù)進(jìn)行增/刪改/查操作,同樣數(shù)據(jù)倉(cāng)庫(kù)也需要從眾多的數(shù)據(jù)庫(kù)中獲取不同交易數(shù)據(jù)來(lái)完善自身的數(shù)據(jù)集。技術(shù)需求
:越來(lái)越多實(shí)時(shí)數(shù)據(jù)查詢應(yīng)用使得數(shù)據(jù)庫(kù)不能直接為客戶帶來(lái)直接查詢結(jié)果,因?yàn)閿?shù)據(jù)庫(kù)負(fù)荷越來(lái)越重,更多的系統(tǒng)無(wú)法享受直接查詢的結(jié)果,這樣數(shù)據(jù)庫(kù)同步技術(shù)就應(yīng)運(yùn)而生。技術(shù)指標(biāo)
:1--重要數(shù)據(jù)必須可以實(shí)時(shí)查詢,至少到秒級(jí)別2--必須能夠限制查詢?nèi)藛T的條件3--查詢系統(tǒng)主機(jī)和業(yè)務(wù)系統(tǒng)主機(jī)必須處于內(nèi)外網(wǎng),保證系統(tǒng)安全4--必須能夠?qū)π枰降腛WNER、TABLE、FIELDS進(jìn)行配置和過(guò)濾,保證查詢數(shù)據(jù)的安全。二、關(guān)于容災(zāi)架構(gòu)規(guī)劃階段需要定性的問(wèn)題【關(guān)鍵問(wèn)題】容災(zāi)方案中的異常處理方面的設(shè)計(jì)?災(zāi)備與雙活如何選擇?企業(yè)容災(zāi)的規(guī)劃者如何找到適合自己的規(guī)劃?異地容災(zāi)規(guī)劃的時(shí)候,在業(yè)務(wù)分級(jí)上有什么注意的地方?【關(guān)鍵總結(jié)】1、為什么要搞容災(zāi)建設(shè)?這個(gè)問(wèn)題非常重要,因?yàn)槠髽I(yè)搞容災(zāi)建設(shè)的背景可能會(huì)因?yàn)樾袠I(yè)背景、監(jiān)管標(biāo)準(zhǔn)、業(yè)務(wù)特點(diǎn)等情況不同而完全不一樣。例如多數(shù)金融行業(yè)搞容災(zāi)建設(shè)是因?yàn)楸O(jiān)管的行業(yè)要求,有的企業(yè)則是因?yàn)樵?jīng)面臨過(guò)數(shù)據(jù)中心災(zāi)難教訓(xùn)或者看到別人的教訓(xùn)而主動(dòng)搞容災(zāi)建設(shè)。不同的建設(shè)目的會(huì)導(dǎo)致追求的目標(biāo)不盡相同。2、建設(shè)成什么樣的容災(zāi)架構(gòu)體系,用什么樣的標(biāo)準(zhǔn)去衡量?企業(yè)因搞容災(zāi)的初衷不同,那么對(duì)RTO和RPO的目標(biāo)也會(huì)有嚴(yán)格和寬松之分,所謂嚴(yán)格的RTO&RPO指標(biāo)就是政府或行業(yè)監(jiān)管的最低標(biāo)準(zhǔn),不同規(guī)模性質(zhì)的企業(yè)有不同的最低標(biāo)準(zhǔn)要求。所謂寬松就是企業(yè)為了平衡投入成本和容災(zāi)架構(gòu)帶來(lái)的收益,可以將RTO&RPO鎖定在一定范圍內(nèi)。3、建設(shè)的容災(zāi)架構(gòu)應(yīng)該是什么級(jí)別(國(guó)家標(biāo)準(zhǔn)&國(guó)際標(biāo)準(zhǔn))?銀監(jiān)局和中國(guó)人民銀行對(duì)商業(yè)銀行業(yè)最嚴(yán)格的要求標(biāo)準(zhǔn)是5級(jí)容災(zāi)標(biāo)準(zhǔn),RPO<=15分鐘,RTO<=30分鐘。而根據(jù)國(guó)際標(biāo)準(zhǔn)share78,六級(jí)容災(zāi)標(biāo)準(zhǔn)是RPO=0,RTO=分鐘級(jí);七級(jí)容災(zāi)標(biāo)準(zhǔn)是RPO=0,RTO近似為0。企業(yè)可以根據(jù)這些標(biāo)準(zhǔn)界定自己應(yīng)該實(shí)現(xiàn)的最低標(biāo)準(zhǔn),比如說(shuō)5級(jí)或者6級(jí)標(biāo)準(zhǔn)。4、選擇什么樣的容災(zāi)架構(gòu)技術(shù)體系,如何評(píng)估各種容災(zāi)中技術(shù)方案?以同城雙中心容災(zāi)為例,企業(yè)需要評(píng)估網(wǎng)絡(luò)層、應(yīng)用層、數(shù)據(jù)庫(kù)層、存儲(chǔ)層等縱向各個(gè)功能層的具體技術(shù)方案,同時(shí)需要考慮到縱向和橫向的融合和擴(kuò)展。評(píng)估的時(shí)候,我們需要選擇好評(píng)估的維度以及關(guān)鍵風(fēng)險(xiǎn)的把控,后續(xù)章節(jié)我們會(huì)詳細(xì)介紹評(píng)估這些關(guān)鍵技術(shù)方案的方法和思路。每一種容災(zāi)技術(shù)方案,從實(shí)現(xiàn)的技術(shù)復(fù)雜度、需要投入的成本、需要承擔(dān)的風(fēng)險(xiǎn)、技術(shù)的先進(jìn)性、技術(shù)的成熟度等幾個(gè)方面來(lái)綜合評(píng)估,尋求適合企業(yè)的最佳技術(shù)組合方案。①技術(shù)復(fù)雜度:對(duì)于容災(zāi)技術(shù)方案的技術(shù)復(fù)雜度,總的原則是同目標(biāo)可達(dá)的情況下,架構(gòu)越簡(jiǎn)單越好。大的方面分析來(lái)看,不僅僅需要考慮建設(shè)的復(fù)雜度還需要考慮運(yùn)維的復(fù)雜度;不僅僅要考慮方案本身的復(fù)雜度還需要考慮方案需要依賴的環(huán)境的復(fù)雜度;不僅僅需要考慮橫向復(fù)雜度還要考慮縱向的復(fù)雜度。②投入成本:對(duì)于企業(yè)來(lái)講,投入成本是非??傄囊豁?xiàng)因素??偟脑瓌t是同目標(biāo)可達(dá)的情況下,成本越少越好。大的方面分析來(lái)看,投入成本不僅包括容災(zāi)方案本身的設(shè)備成本還需要考慮軟件成本;不僅需要考慮建設(shè)成本還需要考慮運(yùn)維成本;不僅需要考慮資源成本還需要考慮人力成本;不僅需要考慮一次性成本還需要考慮持續(xù)投入成本。③承擔(dān)風(fēng)險(xiǎn):所謂風(fēng)險(xiǎn),最主要的就是極端情況下的RTO和RPO風(fēng)險(xiǎn)??偟脑瓌t是可以在寬松目標(biāo)范圍內(nèi)適度降低,但是不能因此而承擔(dān)災(zāi)難性的風(fēng)險(xiǎn)概率。大的方面分析來(lái)看,承擔(dān)風(fēng)險(xiǎn)主要包括極端情況下的數(shù)據(jù)丟失風(fēng)險(xiǎn)、區(qū)域性業(yè)務(wù)中斷擴(kuò)展的風(fēng)險(xiǎn)。④技術(shù)先進(jìn)性:所謂技術(shù)先行性,一方面要看技術(shù)本身與主流發(fā)展的方向是否匹配,另外一方面要看技術(shù)本身在性能、高可用、擴(kuò)展性、兼容性等方面的能力??偟脑瓌t是在目標(biāo)可達(dá)的情況下,選用先進(jìn)的技術(shù)體系。⑤技術(shù)成熟性:所謂技術(shù)成熟性,不僅需要從技術(shù)體系本身的發(fā)展歷史來(lái)看它的健壯性和穩(wěn)定性,還需要從技術(shù)方案應(yīng)用的案例情況以及市場(chǎng)的反饋情況來(lái)看技術(shù)的成熟性。三、關(guān)于容災(zāi)建設(shè)過(guò)程當(dāng)中必須要考慮的一些關(guān)鍵技術(shù)問(wèn)題【關(guān)鍵問(wèn)題】雙活架構(gòu)中是否設(shè)定仲裁優(yōu)先級(jí),合理規(guī)避“腦裂”風(fēng)險(xiǎn)?是否更應(yīng)該考慮多種容災(zāi)方案的疊加?企業(yè)如果想建設(shè)三個(gè)數(shù)據(jù)中心,都跑應(yīng)用業(yè)務(wù),互備模式如何實(shí)現(xiàn)?同城雙活方案中關(guān)聯(lián)業(yè)務(wù)的保障與支撐主要依靠什么來(lái)實(shí)現(xiàn)?雙活數(shù)據(jù)中心如何保證數(shù)據(jù)同步實(shí)時(shí)與一致性?如何解決錯(cuò)誤傳遞問(wèn)題?【關(guān)鍵總結(jié)】1、如何選擇數(shù)據(jù)復(fù)制技術(shù)路線?數(shù)據(jù)復(fù)制最終完成的結(jié)果是在兩個(gè)磁盤介質(zhì)上完成同一個(gè)IO數(shù)據(jù),但是將來(lái)自客戶端的單個(gè)IO請(qǐng)求鏡像為兩個(gè)IO的源頭可以有三種不同的選擇:操作系統(tǒng)層面、數(shù)據(jù)庫(kù)層面以及存儲(chǔ)層面。1).操作系統(tǒng)層面的復(fù)制技術(shù):以LVM、VXVM等邏輯卷鏡像為基礎(chǔ),IO寫入的時(shí)候可以在組成同一個(gè)邏輯卷的物理鏡像上同時(shí)寫入數(shù)據(jù),底層數(shù)據(jù)寫入是需要通過(guò)SAN協(xié)議完成的。2).數(shù)據(jù)庫(kù)層面的復(fù)制技術(shù):一種是類似操作系統(tǒng)邏輯卷的模式,比如ORACLE的ASM,它也是一種邏輯卷管理模式,同樣也可以通過(guò)多個(gè)物理鏡像來(lái)組成一個(gè)邏輯卷,從而通過(guò)鏡像復(fù)制的方式完成數(shù)據(jù)副本的同時(shí)寫入。本質(zhì)上它與操作系統(tǒng)層面的邏輯卷鏡像技術(shù)沒(méi)有區(qū)別,只是它離數(shù)據(jù)庫(kù)更近,數(shù)據(jù)庫(kù)更懂它。另外一種是通過(guò)數(shù)據(jù)庫(kù)事務(wù)日志復(fù)制的方式將數(shù)據(jù)修改行為在另外一個(gè)備庫(kù)上重新演繹一遍,最終可以達(dá)到使數(shù)據(jù)結(jié)果一致的目的。3).存儲(chǔ)層面的復(fù)制技術(shù):一種是通過(guò)存儲(chǔ)網(wǎng)關(guān)將兩個(gè)物理存儲(chǔ)卷組成一個(gè)邏輯存儲(chǔ)卷,通過(guò)鏡像復(fù)制的方式完成數(shù)據(jù)在存儲(chǔ)落盤時(shí)的雙寫。本質(zhì)上它與操作系統(tǒng)層面的邏輯卷鏡像技術(shù)也沒(méi)有區(qū)別,只是它選擇在存儲(chǔ)層面實(shí)現(xiàn)。另外一種是通過(guò)存儲(chǔ)介質(zhì)之間以塊拷貝的方式來(lái)實(shí)現(xiàn)數(shù)據(jù)副本的冗余。究其原理,其實(shí)無(wú)論從哪個(gè)層面來(lái)實(shí)現(xiàn),這些技術(shù)從原理上可以劃分為三種類型:1.
IO雙寫(操作系統(tǒng)邏輯卷鏡像、ASM、存儲(chǔ)網(wǎng)關(guān)鏡像.etc)2.事務(wù)回放(以O(shè)racleADG為代表.etc)3.數(shù)據(jù)單元拷貝(以存儲(chǔ)CA、DP技術(shù)為代表的存儲(chǔ)復(fù)制技術(shù))基于鏡像技術(shù)實(shí)現(xiàn)的數(shù)據(jù)復(fù)制技術(shù)(無(wú)論是基于系統(tǒng)層還是存儲(chǔ)層)以及基于存儲(chǔ)本身BlockCopy的技術(shù)實(shí)現(xiàn)的數(shù)據(jù)復(fù)制技術(shù),都存在邏輯Block錯(cuò)誤傳導(dǎo)的問(wèn)題。也就是說(shuō)一旦發(fā)生存儲(chǔ)Block錯(cuò)誤,那么它一定會(huì)傳導(dǎo)到備數(shù)據(jù)中心。本質(zhì)上是因?yàn)檫@種傳輸機(jī)制跟IO應(yīng)用沒(méi)關(guān)系,識(shí)別不到IO應(yīng)用層的數(shù)據(jù),所以有些數(shù)據(jù)雖然在應(yīng)用層看已經(jīng)是壞掉的數(shù)據(jù)了,但是存儲(chǔ)層完全識(shí)別不到,所以正常復(fù)制。但是,這種問(wèn)題在整個(gè)數(shù)據(jù)中心容災(zāi)可防范的災(zāi)難列表里面占據(jù)的比例非常小?;跀?shù)據(jù)庫(kù)重做日志實(shí)現(xiàn)的數(shù)據(jù)復(fù)制技術(shù),不存在這種問(wèn)題。因?yàn)樗菓?yīng)用層的復(fù)制,它復(fù)制的是數(shù)據(jù)庫(kù)層做過(guò)的事務(wù),是過(guò)程復(fù)制,不是結(jié)果復(fù)制。只要過(guò)程沒(méi)錯(cuò),那么結(jié)果就不會(huì)有問(wèn)題。即使主中心的存儲(chǔ)Block發(fā)生了錯(cuò)誤,但是在災(zāi)備中心經(jīng)過(guò)日志回放實(shí)現(xiàn)的數(shù)據(jù)結(jié)果不會(huì)受到任何影響。所以從這一點(diǎn)上,這種技術(shù)相對(duì)安全。如果是人為失誤造成的數(shù)據(jù)損壞,那就是備份技術(shù)解決的問(wèn)題了,不是容災(zāi)方案能解決的了(比如DBA的誤操作刪除了一些數(shù)據(jù),無(wú)論哪種數(shù)據(jù)復(fù)制技術(shù)都會(huì)傳導(dǎo)到災(zāi)備中心,容災(zāi)方案沒(méi)有義務(wù)也沒(méi)有能力來(lái)區(qū)分DBA的操作到底是不是失誤)。2、為什么會(huì)集群可能產(chǎn)生腦裂?集群如果發(fā)生了腦裂問(wèn)題,那么會(huì)造成什么樣的結(jié)果?這個(gè)問(wèn)題需要回到集群的仲裁機(jī)制上來(lái),一般來(lái)講集群的仲裁算法是以每一個(gè)節(jié)點(diǎn)可以獲得仲裁資源的多少來(lái)判斷誰(shuí)是集群的主導(dǎo)。集群的仲裁資源無(wú)非是來(lái)自網(wǎng)絡(luò)層面的心跳信息和共享存儲(chǔ)的磁盤心跳資源,在普通的節(jié)點(diǎn)層故障場(chǎng)合下,發(fā)生故障的節(jié)點(diǎn)可以獲得的仲裁資源就會(huì)少于其他節(jié)點(diǎn),那么就不會(huì)發(fā)生腦裂問(wèn)題。但是在一種特殊的場(chǎng)合(雙數(shù)據(jù)中心之間的網(wǎng)絡(luò)發(fā)生了故障),兩個(gè)節(jié)點(diǎn)可以獲得的仲裁資源是一樣的,網(wǎng)絡(luò)彼此不能互通,存儲(chǔ)彼此不能看到對(duì)方,這樣的的場(chǎng)景下仲裁就會(huì)失效,腦裂發(fā)生。
那么為什么說(shuō)對(duì)于容災(zāi)架構(gòu)來(lái)講,腦裂是災(zāi)難性的事件呢?如果從一個(gè)統(tǒng)一集群的調(diào)度變成兩個(gè)相互獨(dú)立的集群調(diào)度,意味著雙方的寫操作相互也是獨(dú)立的,但是他們的存儲(chǔ)空間是共享的,AA模式下通過(guò)鎖機(jī)制控制并發(fā),HA模式下通過(guò)存儲(chǔ)卷的Owner控制寫的權(quán)限。但是獨(dú)立之后意味著兩個(gè)集群可以隨時(shí)寫入同樣的存儲(chǔ)地址,必然會(huì)造成臟寫臟讀等一系列數(shù)據(jù)不一致事件。這對(duì)業(yè)務(wù)來(lái)講是災(zāi)難性的。3、如何解決腦裂問(wèn)題?1.
優(yōu)先級(jí)解決方案OracleRAC優(yōu)先級(jí)解決方案以兩個(gè)節(jié)點(diǎn)的OracleRAC為例來(lái)講,當(dāng)私網(wǎng)發(fā)生故障而從網(wǎng)絡(luò)上導(dǎo)致集群分割為幾個(gè)孤島子集的時(shí)候,網(wǎng)絡(luò)心跳同票數(shù)情況下,仲裁算法有兩個(gè)非常重要的規(guī)則:①保障隔離后的集群子集中節(jié)點(diǎn)數(shù)目最多的子集存活。②當(dāng)隔離后的集群子集獲得的仲裁票數(shù)相等時(shí),保障實(shí)例號(hào)小者存活。從規(guī)則內(nèi)容上可以看出,第一條規(guī)則基本沒(méi)有什么意義,雙方的資源是對(duì)等的;但是第二條規(guī)則直接決定了集群的最終狀態(tài),那就是實(shí)例號(hào)小的節(jié)點(diǎn)成為新的集群,這就避免了腦裂的存在。資源失衡配置解決方案所謂資源失衡配置解決方案,就是要在容災(zāi)設(shè)計(jì)之初就保障主數(shù)據(jù)中心的資源配置要多于災(zāi)備中心,使得兩個(gè)數(shù)據(jù)中心節(jié)點(diǎn)可以獲取到的仲裁資源處于不平衡狀態(tài)。容災(zāi)設(shè)計(jì)的時(shí)候可以將主備數(shù)據(jù)中心的節(jié)點(diǎn)分布數(shù)量或者仲裁文件分布數(shù)量按照2:1的非平衡策略設(shè)置。那么按照集群仲裁的一般規(guī)則:發(fā)生集群分裂故障的時(shí)候,可以獲得更多仲裁資源的子集將成為新的集群。當(dāng)發(fā)生數(shù)據(jù)中心之間的網(wǎng)絡(luò)故障的時(shí)候:第一種架構(gòu),主數(shù)據(jù)中心內(nèi)部?jī)蓚€(gè)節(jié)點(diǎn)可以獲取到更多的網(wǎng)絡(luò)心跳,自然會(huì)接管集群。第二種架構(gòu),主數(shù)據(jù)中心的節(jié)點(diǎn)可以獲取到更多的磁盤心跳,同樣會(huì)接管集群。這也符合我們?cè)O(shè)計(jì)之初衷。但是,這種方法只適合于AA模式的多節(jié)點(diǎn)集群,不適合HA模式的架構(gòu)。自定義優(yōu)先級(jí)解決方案自定義優(yōu)先級(jí)的解決方案,其實(shí)本質(zhì)上與OracleRAC的仲裁算法第二條“當(dāng)隔離后的集群子集獲得的仲裁票數(shù)相等時(shí),保障實(shí)例號(hào)小者存活?!笔且粯拥?。只不過(guò)對(duì)于OracleRAC,當(dāng)通過(guò)第一條規(guī)則無(wú)法判斷的時(shí)候(節(jié)點(diǎn)獲取的仲裁資源矩陣是平衡的),它默認(rèn)采用了實(shí)例號(hào)定義其優(yōu)先級(jí)。而其他的一些容災(zāi)方案,這個(gè)優(yōu)先級(jí)定義的靈活性留給了客戶。例如VPLEX產(chǎn)品,尤其是在雙活架構(gòu)的設(shè)計(jì)當(dāng)中,有可能因?yàn)榈赜颉⒃O(shè)備新舊、運(yùn)營(yíng)管理等方面的差異,往往災(zāi)備中心的運(yùn)行能力會(huì)稍差,那么發(fā)生數(shù)據(jù)中心之間隔離的這種故障時(shí),大家往往希望保留主數(shù)據(jù)中心的運(yùn)行。那么這個(gè)時(shí)候客戶就可以根據(jù)主數(shù)據(jù)中心的節(jié)點(diǎn)標(biāo)識(shí)來(lái)固定其仲裁優(yōu)先級(jí)。2.
仲裁解決方案網(wǎng)絡(luò)仲裁網(wǎng)絡(luò)資源是集群仲裁當(dāng)中非常重要的一種心跳資源,因此通過(guò)第三方網(wǎng)絡(luò)資源的可達(dá)性心跳信息來(lái)判斷對(duì)稱集群分裂后的新秩序也是一種非常有效的方法。一般在以存儲(chǔ)網(wǎng)關(guān)實(shí)現(xiàn)數(shù)據(jù)雙寫的容災(zāi)架構(gòu)當(dāng)中比較常見(jiàn),比如VPLEX、SVC、MCC等。第三方仲裁點(diǎn)需要滿足的條件:①與主備兩個(gè)數(shù)據(jù)中心L3可達(dá),并且網(wǎng)絡(luò)質(zhì)量穩(wěn)定。②仲裁點(diǎn)需要安裝具備網(wǎng)絡(luò)探測(cè)功能的虛擬服務(wù)器或物理服務(wù)器,具備運(yùn)行條件。仲裁點(diǎn)服務(wù)器上的軟件會(huì)與組成集群的存儲(chǔ)器網(wǎng)關(guān)兩個(gè)節(jié)點(diǎn)分別發(fā)送PING/ACK來(lái)確認(rèn)雙方的健康情況,集群會(huì)把兩個(gè)節(jié)點(diǎn)與第三方仲裁點(diǎn)的網(wǎng)絡(luò)仲裁心跳看做是最終的裁判。VplexWitness通過(guò)管理IP網(wǎng)絡(luò)連接至兩個(gè)集群節(jié)點(diǎn),通過(guò)將其自身的觀察與集群定期報(bào)告的信息進(jìn)行協(xié)調(diào),讓集群可區(qū)分是集群內(nèi)故障還是集群間鏈路故障,并在這些情況下自動(dòng)繼續(xù)相應(yīng)站點(diǎn)上的I/O服務(wù)。VplexWitness僅當(dāng)分離規(guī)則沒(méi)有定義時(shí)才會(huì)生效。當(dāng)然細(xì)心的讀者可能產(chǎn)生了一個(gè)新的問(wèn)題:如果數(shù)據(jù)中心與第三仲裁站點(diǎn)的網(wǎng)絡(luò)發(fā)生故障,那會(huì)不會(huì)影響集群本身的運(yùn)行?什么是仲裁?仲裁是只有發(fā)生集群隔離故障的時(shí)候才會(huì)起作用,如果沒(méi)有發(fā)生數(shù)據(jù)中心之間的隔離故障的時(shí)候,即使他們的一方或者雙方于第三方仲裁站點(diǎn)發(fā)生網(wǎng)絡(luò)暫時(shí)中斷的事件,也不會(huì)對(duì)既有集群造成任何健康影響。我們需要做的是保障第三方仲裁資源在發(fā)生故障的時(shí)候有效就可以了(監(jiān)控&及時(shí)修復(fù))。存儲(chǔ)仲裁存儲(chǔ)一般是數(shù)據(jù)庫(kù)集群當(dāng)中非常關(guān)鍵的仲裁資源,數(shù)據(jù)庫(kù)集群的節(jié)點(diǎn)負(fù)載比較重,不像存儲(chǔ)網(wǎng)關(guān)模式的集群,可以再設(shè)計(jì)與WitnessNode的通訊接口。所以在這類技術(shù)方案的容災(zāi)設(shè)計(jì)當(dāng)中,通常會(huì)用第三方存儲(chǔ)陣列來(lái)作為集群的第三方仲裁點(diǎn)。例如OracleExtendedRAC、HA&Oracle、HA&DB2等。a.第三方站點(diǎn)放置一個(gè)存儲(chǔ)陣列、并且與兩個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)穩(wěn)定可達(dá)。b.存儲(chǔ)陣列以NFS或者ISCSI方式提供共享存儲(chǔ)卷或文件服務(wù)給兩個(gè)中心的集群節(jié)點(diǎn)。c.集群配置的時(shí)候,將這個(gè)共享存儲(chǔ)卷或者文件作為集群的磁盤仲裁之一。當(dāng)雙中心的集群發(fā)生隔離故障的時(shí)候,集群通過(guò)第三方的仲裁磁盤或者文件來(lái)判斷集群的新秩序。對(duì)稱隔離場(chǎng)景集群發(fā)生的故障場(chǎng)景有很多,有可能是網(wǎng)卡故障導(dǎo)致節(jié)點(diǎn)隔離,也有可能是鏈路問(wèn)題導(dǎo)致節(jié)點(diǎn)隔離。鏈路問(wèn)題本身又分很多種,有一種場(chǎng)景即使存在第三仲裁的場(chǎng)景下,依然有可能是對(duì)稱平衡的狀態(tài)。當(dāng)兩個(gè)中心之間的鏈路中斷,但是其他各條線路都完好無(wú)損的情況下,及時(shí)存在第三方仲裁,那么集群分裂后的仲裁資源分布依然是平衡對(duì)稱的,這又該如何解決呢?我們認(rèn)為有兩種解決方式:1.優(yōu)先級(jí)定義解決方案,也
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流管理中的客戶服務(wù)優(yōu)化
- 現(xiàn)代醫(yī)療辦公環(huán)境的電氣化改造
- 國(guó)慶節(jié)包廂套餐活動(dòng)方案
- 2024年五年級(jí)品社下冊(cè)《祖國(guó)不會(huì)忘記他們》說(shuō)課稿 山東版
- 2023二年級(jí)數(shù)學(xué)上冊(cè) 6 表內(nèi)乘法(二)綜合與實(shí)踐 量一量比一比說(shuō)課稿 新人教版
- 1 北京的春節(jié) 說(shuō)課稿-2023-2024學(xué)年語(yǔ)文六年級(jí)下冊(cè)統(tǒng)編版
- 9《生活離不開他們》 感謝他們的勞動(dòng) 說(shuō)課稿-2023-2024學(xué)年道德與法治四年級(jí)下冊(cè)統(tǒng)編版
- Unit 2 Weather Lesson 1(說(shuō)課稿設(shè)計(jì))-2023-2024學(xué)年人教新起點(diǎn)版英語(yǔ)二年級(jí)下冊(cè)001
- 2024年高中英語(yǔ) Unit 3 Welcome to the unit and reading I說(shuō)課稿 牛津譯林版選擇性必修第二冊(cè)
- 2024-2025學(xué)年高中歷史 第五單元 經(jīng)濟(jì)全球化的趨勢(shì) 第26課 經(jīng)濟(jì)全球化的趨勢(shì)(1)教學(xué)說(shuō)課稿 岳麓版必修2
- 中華人民共和國(guó)政府信息公開條例解讀PPT
- 《陳列展覽項(xiàng)目支出預(yù)算方案編制規(guī)范和預(yù)算編制標(biāo)準(zhǔn)試行辦法》的通知(財(cái)辦預(yù)〔2017〕56號(hào))
- 《質(zhì)量手冊(cè)》培訓(xùn)教材課件
- 公司戰(zhàn)略和績(jī)效管理doc資料
- 特種設(shè)備日管控、周排查、月調(diào)度模板
- 人大商學(xué)院博士研究生入學(xué)考試試題-企業(yè)管理歷年卷
- 2023質(zhì)量月知識(shí)競(jìng)賽試題及答案
- 《民航服務(wù)溝通技巧》教案第12課病殘旅客服務(wù)溝通
- 直埋電纜溝工程專項(xiàng)施工組織設(shè)計(jì)
- 第五章北方雜劇創(chuàng)作
- GB/T 4214.1-2017家用和類似用途電器噪聲測(cè)試方法通用要求
評(píng)論
0/150
提交評(píng)論