核心系統(tǒng)高可用性設(shè)計(jì)_第1頁(yè)
核心系統(tǒng)高可用性設(shè)計(jì)_第2頁(yè)
核心系統(tǒng)高可用性設(shè)計(jì)_第3頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、關(guān)于系統(tǒng)穩(wěn)定性策略的探討1. 前言系統(tǒng)作為業(yè)務(wù)系統(tǒng)的核心,其運(yùn)行穩(wěn)定性和高可用性至關(guān)重要。因 此,需要通過(guò)高可用性設(shè)計(jì)來(lái)盡量減少系統(tǒng)的計(jì)劃內(nèi)和計(jì)劃外停機(jī),并 在系統(tǒng)出現(xiàn)故障時(shí)與時(shí)響應(yīng)、快速恢復(fù),以保障關(guān)鍵數(shù)據(jù)和業(yè)務(wù)系統(tǒng)的 運(yùn)行穩(wěn)定性和可持續(xù)訪問(wèn)性。其中:1. 計(jì)劃內(nèi)停機(jī)是指管理員有組織、有計(jì)劃安排的停機(jī),比如升級(jí)硬件微碼、升級(jí)軟件版本、調(diào)整數(shù)據(jù)庫(kù)庫(kù)表、更換硬件設(shè)備、測(cè)試系統(tǒng)新功 能等時(shí),可能需要的停止系統(tǒng)運(yùn)行。2. 計(jì)劃外停機(jī)是指非人為安排的、意外的停機(jī),比如當(dāng)硬件出現(xiàn)重大故障、應(yīng)用程序停止運(yùn)行、機(jī)房環(huán)境遭到災(zāi)難性的破壞時(shí)所引起的業(yè)務(wù) 系統(tǒng)停止運(yùn)行。目前,對(duì)于計(jì)劃內(nèi)和計(jì)劃外停機(jī),可通過(guò)消除系統(tǒng)

2、中的單點(diǎn)失效來(lái)盡 量減少停機(jī)時(shí)間。同時(shí),通過(guò)采用可在線維護(hù)(固件升級(jí)、在線擴(kuò)充、故 障部件更換)的設(shè)備,并通過(guò)負(fù)載均衡機(jī)制實(shí)現(xiàn)應(yīng)用系統(tǒng)的在線升級(jí)、維 護(hù),將有效消除計(jì)劃內(nèi)停機(jī)對(duì)業(yè)務(wù)系統(tǒng)的影響。此外,由于系統(tǒng)中采用 了全面的負(fù)載均衡設(shè)計(jì),并針對(duì)系統(tǒng)失效提供了可靠的數(shù)據(jù)備份恢復(fù)和 多點(diǎn)容災(zāi)保護(hù),因而能夠有效減少系統(tǒng)計(jì)劃外停機(jī)的恢復(fù)時(shí)間。在造成系統(tǒng)宕機(jī)的原因方面,有統(tǒng)計(jì)中表明并非都是硬件問(wèn)題。其 中,硬件問(wèn)題只占 40 ,軟件問(wèn)題占 30 ,人為因素占 20 ,環(huán)境因素 占 10 。因此,高可用性設(shè)計(jì)應(yīng)盡可能地考慮到上述所有因素。對(duì)于系統(tǒng)而言,其整體的可用性將取決于內(nèi)部的應(yīng)用系統(tǒng)、主機(jī)、數(shù)據(jù)庫(kù)等多

3、種因素;同時(shí),訓(xùn)練有素的系統(tǒng)維護(hù)人員和良好的服務(wù)保障也是確保系 統(tǒng)穩(wěn)定運(yùn)行和故障快速恢復(fù)的關(guān)鍵。2. 應(yīng)用系統(tǒng)系統(tǒng)在應(yīng)用軟件架構(gòu)設(shè)計(jì)中應(yīng)從渠道層、渠道管理層、業(yè)務(wù)處理層等 不同層面通過(guò)多種措施和策略的綜合設(shè)計(jì)來(lái)提高應(yīng)用系統(tǒng)的高可用性和 穩(wěn)定性。在渠道管理層和業(yè)務(wù)處理層的設(shè)計(jì)中,要考慮設(shè)置應(yīng)用負(fù)載均衡、應(yīng) 用軟件失效備援、 vip 服務(wù)通道、流量控制、故障隔離等機(jī)制。1. 應(yīng)用負(fù)載均衡應(yīng)用軟件負(fù)載均衡通過(guò)多個(gè)層次上不同的負(fù)載均衡策略一起實(shí)現(xiàn)整體 的負(fù)載均衡,應(yīng)用負(fù)載均衡的設(shè)計(jì)思路是將大量的并發(fā)訪問(wèn)或數(shù)據(jù)流量 分擔(dān)到多臺(tái)節(jié)點(diǎn)設(shè)備上分別處理和將單個(gè)重負(fù)載的運(yùn)算分擔(dān)到多臺(tái)節(jié)點(diǎn) 設(shè)備上做并行處理來(lái)達(dá)到負(fù)

4、載均衡的效果,從而提高服務(wù)響應(yīng)速度,提 高服務(wù)器與其他資源的利用效率,避免服務(wù)請(qǐng)求集中于單一節(jié)點(diǎn)導(dǎo)致?lián)?塞。2. 應(yīng)用軟件失效備援應(yīng)用軟件構(gòu)建在面向服務(wù)的架構(gòu)、設(shè)計(jì)思想上,應(yīng)用服務(wù)具有較高的 可靈活部署性。通過(guò)這種靈活性,結(jié)合系統(tǒng)基礎(chǔ)設(shè)施的規(guī)劃、部署可以 實(shí)現(xiàn)應(yīng)用軟件的失效備援。系統(tǒng)可以考慮實(shí)現(xiàn)基于應(yīng)用服務(wù)和基于應(yīng)用 服務(wù)管理框架的多種應(yīng)用軟件失效備援機(jī)制?;趹?yīng)用服務(wù)的失效備援是在應(yīng)用服務(wù)管理框架中可以實(shí)現(xiàn)應(yīng)用服務(wù) 的冗余部署,利用硬件負(fù)載均衡設(shè)備或應(yīng)用軟件負(fù)載均衡可以在需要時(shí) 將服務(wù)請(qǐng)求切換到相應(yīng)的冗余服務(wù)?;趹?yīng)用服務(wù)管理框架的失效備是將應(yīng)用服務(wù)框架在系統(tǒng)中冗余部 署,利用硬件負(fù)載均衡設(shè)

5、備或應(yīng)用軟件負(fù)載均衡可以在需要時(shí)將服務(wù)請(qǐng) 求切換到相應(yīng)的冗余的應(yīng)用服務(wù)管理框架。3. vip 服務(wù)通道在系統(tǒng)中,從系統(tǒng)運(yùn)行穩(wěn)定性、持續(xù)性與處理性能的角度,配合物理 設(shè)備、系統(tǒng)支撐軟件(數(shù)據(jù)庫(kù)系統(tǒng)、操作系統(tǒng))的相關(guān)措施,應(yīng)用軟件可 通過(guò)構(gòu)建 VIP 服務(wù)通道的方式降低應(yīng)用服務(wù)運(yùn)行期間的相互影響。服務(wù)通 道可以基于不同業(yè)務(wù)產(chǎn)品或不同應(yīng)用服務(wù)管理框架的不同粒度來(lái)設(shè)置, 從而滿足部分應(yīng)用處理資源只響應(yīng)特定的服務(wù)請(qǐng)求或不同的服務(wù)監(jiān)聽(tīng)響 應(yīng)不同的通道傳遞過(guò)來(lái)的服務(wù)申請(qǐng)的功能。4. 流量控制在系統(tǒng)中,從系統(tǒng)運(yùn)行穩(wěn)定性、持續(xù)性角度,配合物理設(shè)備、系統(tǒng)支 撐軟件(數(shù)據(jù)庫(kù)系統(tǒng)、操作系統(tǒng))的相關(guān)措施,應(yīng)用軟件可以通

6、過(guò)對(duì)服務(wù) 請(qǐng)求的流量控制機(jī)制,在系統(tǒng)性能波動(dòng)較大時(shí)間段,對(duì)少部分影響程度 高的交易進(jìn)行流量控制,保障系統(tǒng)運(yùn)行平穩(wěn)運(yùn)行。流量控制是大集中系統(tǒng)體系結(jié)構(gòu)中提供的通過(guò)應(yīng)用軟件對(duì)系統(tǒng)實(shí)施控 制的功能。流量控制基于大集中系統(tǒng)邏輯架構(gòu),依據(jù)系統(tǒng)、子系統(tǒng)、渠 道等不同層面的交易流量、交易狀態(tài)和確定的控制策略、控制規(guī)則,對(duì) 系統(tǒng)實(shí)施控制。應(yīng)用系統(tǒng)具有如下功能:a) 流量數(shù)據(jù)采集:支持流量數(shù)據(jù)的采集功能。b) 流量值計(jì)算: 完成對(duì)采集的流量數(shù)據(jù)進(jìn)行計(jì)算, 檢索出有流量超過(guò) 額定量的服務(wù)或交易,為后續(xù)的流量控制提供依據(jù)。c) 交易流量控制:支持針對(duì)特定交易進(jìn)行流量控制。如:針對(duì)網(wǎng)絡(luò)流 量大的交易做控制, 如報(bào)表文件

7、傳輸; 交易高峰期對(duì)批量業(yè)務(wù)進(jìn)行 流量控制。d) 渠道流量控制:支持按照渠道進(jìn)行流量控制;e) 控制策略與規(guī)則管理:支持控制策略與規(guī)則的配置,修改等功能。5. 故障隔離在系統(tǒng)中將考慮實(shí)現(xiàn)故障隔離機(jī)制,在應(yīng)用軟件系統(tǒng)發(fā)生故障的時(shí) 候,通過(guò)故障隔離把故障造成的危害限制在最小范圍內(nèi),提高系統(tǒng)提供 對(duì)外服務(wù)的整體能力水平。故障隔離是大集中系統(tǒng)體系結(jié)構(gòu)中提供的通過(guò)應(yīng)用軟件對(duì)系統(tǒng)實(shí)施控 制的功能,應(yīng)用軟件設(shè)計(jì)可考慮應(yīng)用服務(wù)、應(yīng)用服務(wù)框架的靈活部署, 支持多角度,多層次的故障隔離。應(yīng)用系統(tǒng)具有如下功能:a) 支持按渠道的故障隔離,例如:當(dāng) POS 渠道交易響應(yīng)慢,可停止 POS 渠道的對(duì)外服務(wù)功能。b) 支

8、持按子系統(tǒng)的故障隔離,例如:當(dāng)查詢子系統(tǒng)出現(xiàn)異常時(shí),可停 止查詢子系統(tǒng)的對(duì)外服務(wù)功能。c) 支持異常服務(wù)的故障隔離, 例如:若某服務(wù)出現(xiàn)異常 (如服務(wù) CORE DOWN ),可停止此服務(wù)的對(duì)外服務(wù)功能。d) 支持按交易的故障隔離,例如:若某查詢交易出現(xiàn)服務(wù)堵塞,可停止此交易的對(duì)外服務(wù)功能。在渠道層的設(shè)計(jì)中,可考慮采用網(wǎng)絡(luò)負(fù)載均衡、 vip 服務(wù)通道等機(jī) 制。6. 網(wǎng)絡(luò)負(fù)載均衡在柜面網(wǎng)點(diǎn)前置系統(tǒng)側(cè),可以考慮采用硬件負(fù)載均衡器對(duì)網(wǎng)點(diǎn)終端連 接到網(wǎng)點(diǎn)前置的負(fù)載均衡,利用負(fù)載均衡器的連接狀態(tài)檢查和負(fù)載均衡 策略可以靈活地調(diào)整終端的連接指向,屏蔽因網(wǎng)點(diǎn)前置機(jī)故障導(dǎo)致的終 端操作異常,提高網(wǎng)點(diǎn)前置系統(tǒng)的

9、可用性。7. VIP 服務(wù)通道渠道層的 VIP 服務(wù)通道與業(yè)務(wù)處理層的 VIP 服務(wù)通道均針對(duì)提高系統(tǒng) 的可用性,但是在建設(shè)方式上有所區(qū)別。渠道層的 VIP 服務(wù)通道不僅可以 通過(guò)渠道層相關(guān)應(yīng)用軟件的服務(wù)通道設(shè)立來(lái)實(shí)現(xiàn),還可以考慮通過(guò)設(shè)置 物理上相互隔離的不同渠道通路來(lái)實(shí)現(xiàn)。3. 主機(jī)系統(tǒng)主機(jī)系統(tǒng)作為各應(yīng)用系統(tǒng)的運(yùn)行平臺(tái),其可用性和穩(wěn)定性是業(yè)務(wù)系統(tǒng) 能夠持續(xù)、穩(wěn)定運(yùn)行的前提。根據(jù)應(yīng)用軟件架構(gòu)設(shè)計(jì),每個(gè)子系統(tǒng)的功 能通過(guò)硬件負(fù)載均衡機(jī)制部署于多套主機(jī)設(shè)備上,從而消除單臺(tái)主機(jī)所 引入的單點(diǎn)故障。對(duì)于單臺(tái)主機(jī)系統(tǒng)而言,其高可用性和運(yùn)行穩(wěn)定性可從以下幾方面加以保障:1. 主機(jī)自身的高可靠性主機(jī)采用高度

10、冗余設(shè)計(jì),可充分保障自身的運(yùn)行可靠性,如:多處理 器架構(gòu)、冗余電源、冗余風(fēng)扇、冗余時(shí)鐘、冗余 IO 等;同時(shí),主機(jī)采用 多種容錯(cuò)技術(shù),可有效提升自身的可靠性,如:內(nèi)存與高速緩存上的檢 錯(cuò)與糾錯(cuò)(ECC)、內(nèi)存雙芯片備用、內(nèi)存和處理器自動(dòng)解除配置、用于 監(jiān)控系統(tǒng)狀態(tài)的獨(dú)立的服務(wù)處理器等。2. 主機(jī)關(guān)鍵部件全冗余配置 為確保主機(jī)運(yùn)行的可靠性和穩(wěn)定性,系統(tǒng)主機(jī)的所有關(guān)鍵部件均采用 了冗余配置,以消除主機(jī)自身的單點(diǎn)故障,其中包括:a)配置熱插拔 N+1 或 N+N 冗余電源、風(fēng)扇,避免電源或風(fēng)扇失效 造成的硬件故障或宕機(jī)。b)配置冗余系統(tǒng)盤,并通過(guò)操作系統(tǒng)進(jìn)行系統(tǒng)盤的 RAID 1 鏡像保護(hù); 或采用

11、 SAN BOOT 系統(tǒng)盤,在實(shí)現(xiàn)存儲(chǔ)網(wǎng)絡(luò)連接全冗余的同時(shí), 通過(guò)在 SAN BOOT 磁盤組中采用高可靠級(jí)別的 RAID 技術(shù)(如 RAID10+ 熱備盤)、不同存儲(chǔ)設(shè)備中的啟動(dòng)盤映像副本選擇啟動(dòng)、 磁盤陣列鏡像(即“雙陣列啟動(dòng)” )等技術(shù),切實(shí)保證 SAN BOOT 的可用性。c)配置冗余網(wǎng)卡, 并根據(jù)實(shí)際需求采用多網(wǎng)卡綁定技術(shù), 實(shí)現(xiàn)多網(wǎng)卡 間的自動(dòng)冗余和流量的負(fù)載均衡, 以提供更高的數(shù)據(jù)帶寬和鏈路的 高可用性。d)配置冗余光纖通道 HBA 卡和 InfinibandHCA 卡,并通過(guò)多路徑軟 件(操作系統(tǒng)或第三方軟件支持) 來(lái)實(shí)現(xiàn)多 HBA/HCA 卡的自動(dòng)冗 余與 IO 負(fù)載均衡e)

12、 配置冗余的主機(jī)管理處理器, 能夠在線配置、 管理主機(jī)并監(jiān)控主機(jī) 狀態(tài),同時(shí)支持透明接管和在線更換管理處理器。3. 主機(jī)自身的高可維護(hù)性 主機(jī)的高可維護(hù)性對(duì)于消除計(jì)劃內(nèi)停機(jī)的影響至關(guān)重要,主機(jī)通過(guò)其 在線維護(hù)功能來(lái)確保其計(jì)劃維護(hù)期間的高可用性。其中:a) 主機(jī)支持固件的在線升級(jí),避免了因固件升級(jí)造成的計(jì)劃內(nèi)停機(jī)。b) 在主機(jī)上采用高可用操作系統(tǒng), 通過(guò)支持在線處理單元板增加與刪 除、動(dòng)態(tài)內(nèi)核調(diào)試、動(dòng)態(tài)可加載內(nèi)核模塊框架(支持在線 IO 驅(qū)動(dòng) 加載與補(bǔ)丁升級(jí)) 、PCI 錯(cuò)誤自動(dòng)修復(fù)、動(dòng)態(tài)錯(cuò)誤管理與安全隔離、 動(dòng)態(tài)根盤 (支持軟件在線補(bǔ)丁升級(jí)) 等高可維護(hù)特性來(lái)實(shí)現(xiàn)不停機(jī) 的 IO 驅(qū)動(dòng)、操作系

13、統(tǒng)和應(yīng)用軟件的版本、補(bǔ)丁升級(jí),從而避免了 因軟件版本或補(bǔ)丁升級(jí)造成的計(jì)劃內(nèi)停機(jī)。c) 主機(jī)的處理單元板、電源、風(fēng)扇、磁盤、 IO 等關(guān)鍵部件均支持在 線增加與刪除, 同時(shí)其硬件支持熱插拔, 可實(shí)現(xiàn)故障部件的在線更 換,避免了因部件更換造成的計(jì)劃內(nèi)停機(jī)。4. 主機(jī)系統(tǒng)的高可用性設(shè)計(jì) 在主機(jī)上設(shè)計(jì)采用了電氣隔離的動(dòng)態(tài)硬件分區(qū)技術(shù),同時(shí)各分區(qū)采用 相互獨(dú)立、冗余的 IO 配置以實(shí)現(xiàn)自身的高可靠性。硬件分區(qū)技術(shù)在優(yōu)化 主機(jī)資源利用的同時(shí),可在同一主機(jī)硬件內(nèi)全面隔離分區(qū)故障。如果一 個(gè)分區(qū)中的操作系統(tǒng)、軟件或甚至是硬件出現(xiàn)問(wèn)題,運(yùn)行在其他分區(qū)中 的操作系統(tǒng)和軟件均不受影響。在主機(jī)硬件分區(qū)的基礎(chǔ)上,系統(tǒng)設(shè)

14、計(jì)采用多個(gè)主機(jī)分區(qū)形成集群來(lái)為各業(yè)務(wù)應(yīng)用提供運(yùn)行支撐,同時(shí)各主機(jī)集群通過(guò) Oracle RAC 或網(wǎng)絡(luò)負(fù)載 均衡機(jī)制實(shí)現(xiàn)主機(jī)間的負(fù)載均衡和自動(dòng)冗余。為保證最大的可用性,應(yīng)將同一集群內(nèi)的不同分區(qū)分別部署在相互獨(dú)立的主機(jī)硬件上,并通過(guò)各 分區(qū)相互獨(dú)立的 IO 接入數(shù)據(jù)網(wǎng)絡(luò)、心跳網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò),從而確保了主 機(jī)系統(tǒng)整體的高可用性。5. 主機(jī)系統(tǒng)的高可恢復(fù)性設(shè)計(jì)可恢復(fù)性定義了系統(tǒng)修復(fù)故障和恢復(fù)正常運(yùn)行的能力。主機(jī)系統(tǒng)的可恢復(fù)性從一定程度決定了系統(tǒng)出現(xiàn)故障時(shí)是否能夠自動(dòng)修復(fù)和快速恢復(fù),應(yīng)通過(guò)主機(jī)系統(tǒng)的備份與容災(zāi)設(shè)計(jì)來(lái)確保其高可恢復(fù)性。其中:a) 對(duì)主機(jī)系統(tǒng)盤定期進(jìn)行自動(dòng)化克隆備份, 以便于版本管理和系統(tǒng)

15、盤 的失效恢復(fù),同時(shí)其備份的系統(tǒng)盤映像副本可用于主機(jī)在線軟件、 補(bǔ)丁升級(jí)維護(hù)(通過(guò)動(dòng)態(tài)根盤技術(shù)實(shí)現(xiàn)) 。b) 目前,系統(tǒng)中采用了兩地三中心 + 同址備援的容災(zāi)體系設(shè)計(jì)。在上 述容災(zāi)體系中,通過(guò)以下方式實(shí)現(xiàn)主機(jī)系統(tǒng)的災(zāi)難恢復(fù):? 同城容災(zāi):現(xiàn)階段基于存儲(chǔ)同步復(fù)制實(shí)現(xiàn)數(shù)據(jù)級(jí)容災(zāi),今后可考慮通 過(guò)主機(jī)的城際集群實(shí)現(xiàn)同城災(zāi)備中心與主中心間的主機(jī)系統(tǒng)自動(dòng)災(zāi)難 接管。? 異地容災(zāi): 可基于存儲(chǔ)異步復(fù)制、 Oracle DataGuard 等技術(shù)實(shí)現(xiàn)應(yīng)用 級(jí)容災(zāi),今后可考慮通過(guò)主機(jī)的洲際集群實(shí)現(xiàn)異地災(zāi)備中心與主中心 間的主機(jī)系統(tǒng)自動(dòng)災(zāi)難接管。? 同址備援:可通過(guò)存儲(chǔ)陣列的異步復(fù)制和 Oracle DataG

16、uard 等技術(shù)來(lái)減少 Oracle 數(shù)據(jù)庫(kù)邏輯數(shù)據(jù)塊損壞故障對(duì)業(yè)務(wù)系統(tǒng)造成的影響, 相關(guān)系統(tǒng)主機(jī)可按策略實(shí)現(xiàn)故障接管。通過(guò)上述高可用性設(shè)計(jì),主機(jī)系統(tǒng)中將不再存在單點(diǎn)故障隱患,這充 分保證了主機(jī)系統(tǒng)的可靠性;同時(shí),主機(jī)的高可維護(hù)性設(shè)計(jì)保證了主機(jī) 能夠在線進(jìn)行故障硬件更換、在線擴(kuò)充、不停機(jī)進(jìn)行軟件和補(bǔ)丁升級(jí), 從而有效避免了主機(jī)的計(jì)劃內(nèi)停機(jī),提高了主機(jī)系統(tǒng)的可用性和穩(wěn)定 性;此外,通過(guò)備份、容災(zāi)設(shè)計(jì),在一定程度上保證了主機(jī)系統(tǒng)在發(fā)生 故障或遭到災(zāi)難時(shí)能夠快速恢復(fù)服務(wù),從而確保了系統(tǒng)的業(yè)務(wù)連續(xù)性。4. 數(shù)據(jù)庫(kù)為了避免數(shù)據(jù)庫(kù)主機(jī)、數(shù)據(jù)庫(kù)存儲(chǔ)或者數(shù)據(jù)庫(kù)邏輯錯(cuò)誤等引起的數(shù)據(jù) 庫(kù)故障,盡最大可能保障數(shù)據(jù)庫(kù)

17、提供 7*24 小時(shí)的對(duì)外服務(wù), Oracle 提供 了一個(gè)高可用性、 高可靠性和高可擴(kuò)展性的數(shù)據(jù)庫(kù)環(huán)境。 Oracle 數(shù)據(jù)庫(kù)提 供數(shù)據(jù)庫(kù)集群 RAC ( Real Application Cluster)、 Data Guard 、自動(dòng)存儲(chǔ)管理 ASM ( Automaic Storage Management)故障組鏡像、閃回技術(shù) Flashback 、 Stream 、 RMAN 快速備份和恢復(fù)等技術(shù)來(lái)保障數(shù)據(jù)庫(kù)的 高可用性和穩(wěn)定性等功能。在系統(tǒng)中,采用如下 Oracle 數(shù)據(jù)庫(kù)技術(shù)提供其高可用性和穩(wěn)定性:1. RAC 數(shù)據(jù)庫(kù)中如某個(gè)節(jié)點(diǎn)發(fā)生故障, 集群中剩余節(jié)點(diǎn)可繼續(xù)提供服務(wù), 同時(shí)

18、這些節(jié)點(diǎn)可自動(dòng)對(duì)失效實(shí)例進(jìn)行實(shí)例恢復(fù), 以保證數(shù)據(jù)的一致性; 崩潰節(jié)點(diǎn)的相關(guān)虛擬 IP 可飄移到某個(gè)存活節(jié)點(diǎn)以繼續(xù)響應(yīng)連接請(qǐng)求; 這樣可有效解決數(shù)據(jù)庫(kù)服務(wù)器的單點(diǎn)故障;2. RAC 數(shù)據(jù)庫(kù)是共享存儲(chǔ)的集群數(shù)據(jù)庫(kù),在 Oracle 10g 之前,如果數(shù)據(jù)文件所在陣列發(fā)生故障,數(shù)據(jù)庫(kù)依然無(wú)法提供服務(wù)。而進(jìn)入 10g 之后,可利用 ASM 故障組特性, 將數(shù)據(jù)文件存放在兩個(gè)不同的存儲(chǔ)陣列 上,來(lái)自同個(gè)存儲(chǔ)陣列的磁盤置于同一個(gè)故障組中,這樣即使單個(gè)存 儲(chǔ)陣列失效數(shù)據(jù)庫(kù)依然可對(duì)外提供服務(wù), 有效解決了介質(zhì)的單點(diǎn)故障;3. 在高可用性的人為錯(cuò)誤方面, Oracle 數(shù)據(jù)庫(kù)提供了多種特性來(lái)加以解 決:a)

19、閃回( Flashback )功能可解決刪除記錄( delete 操作)的誤操作 問(wèn)題;b) 如果打開回收站功能, 閃回特性也可解決刪除對(duì)象的誤操作 ( Drop 操作);c) 閃回特性需要額外的存儲(chǔ)空間;d) 如果 無(wú) 法做 閃回 操 作, 可使用“表 空間 基 于時(shí) 間點(diǎn) 的 恢復(fù) ”(TSPITR)將誤操作對(duì)象所在的某些表空間進(jìn)行不完全恢復(fù),以恢復(fù)誤操作數(shù)據(jù);一般情況下,此類操作需要額外的服務(wù)器資源;4. Oracle 本身提供了 Dataguard 容災(zāi)技術(shù), Dataguard 將數(shù)據(jù)量相對(duì) 較小的重做日志從生產(chǎn)系統(tǒng)傳輸?shù)綖?zāi)備系統(tǒng),并重新應(yīng)用相關(guān)日志, 使備庫(kù)與生產(chǎn)庫(kù)保持一致;進(jìn)入

20、Oracle 11g 后, DataGuard 還支持 日志的壓縮傳輸,減少了日志傳輸所需的網(wǎng)絡(luò)帶寬; Dataguard 除可 實(shí)現(xiàn)災(zāi)備,也可分流生產(chǎn)庫(kù)的部分工作負(fù)荷,如:生產(chǎn)庫(kù)的數(shù)據(jù)庫(kù)備 份、報(bào)表生成等; DataGuard 也有如下一些缺點(diǎn):a) 主備庫(kù)間耦合度較高, 會(huì)加重生產(chǎn)庫(kù)的工作負(fù)荷。 在 Oracle 9i 中, 如主備庫(kù)間歸檔日志差異過(guò)大, 可能所有歸檔進(jìn)程均用于向備庫(kù)傳 送歸檔, 造成生產(chǎn)庫(kù)因無(wú)歸檔進(jìn)程可用而掛起的嚴(yán)重后果; 新版本 中有無(wú)此類 Bug 尚需測(cè)試加以確認(rèn);b) 日志傳輸效率低下。 Oracle 的 DataGuard 體系結(jié)構(gòu)中, 一個(gè)歸檔 日志文件只能使用

21、一個(gè)歸檔進(jìn)程傳輸,即使使用了日志壓縮技術(shù), 其效率也較低;c) Oracle 只是判斷歸檔日志的檢驗(yàn)和來(lái)驗(yàn)證日志的完整性,在原災(zāi) 備中心建設(shè)時(shí)已經(jīng)過(guò)測(cè)試驗(yàn)證此種方式可造成備庫(kù)錯(cuò)誤; 因此,如果需要使用 Dataguard 實(shí)現(xiàn)容災(zāi), 建議仍然采用原災(zāi)備中心 的工作方式,使用第三方編寫的傳輸軟件進(jìn)行歸檔日志的傳輸,并使用類 似 MD5 校驗(yàn)等方式保證日志文件的完整性,這樣既實(shí)現(xiàn)了容災(zāi)目的,又 降低了主備庫(kù)之間的耦合度;5. 在高可用性中的計(jì)劃宕機(jī)與維護(hù)方面, Oracle 也提供了一系列的特性加以支持:a) 支持索引的在線重建;b) 可在線重定義表,此功能可實(shí)現(xiàn)諸如:添加 /刪除分區(qū)、添加 /

22、刪除 列、移動(dòng)表空間、 堆表與分區(qū)表的相互轉(zhuǎn)換、 改變存儲(chǔ)參數(shù)等操作;c) 新的“熱”升級(jí)( Out-of-Place )方式將補(bǔ)丁安裝到新的軟件目錄 中,以減少安裝軟件所需宕機(jī)時(shí)間;在實(shí)際生產(chǎn)環(huán)境中,除了介質(zhì)損壞、用戶誤操作等造成的損壞之外, 還有一種由于 Oracle Bug 導(dǎo)致的異常, 如內(nèi)存混亂、 數(shù)據(jù)塊邏輯損壞等。 針對(duì)于此類錯(cuò)誤,雖然無(wú)法全面規(guī)避,但可通過(guò)以下兩種途徑降低系統(tǒng)級(jí) 風(fēng)險(xiǎn)。a) 緊密關(guān)注 Oracle 公司定期發(fā)布的補(bǔ)丁,并根據(jù)實(shí)際情況完成補(bǔ)丁的評(píng)估、驗(yàn)證與生產(chǎn)庫(kù)的安裝使用,以降低系統(tǒng)潛在風(fēng)險(xiǎn);b) 采用同址備援方案, 通過(guò)異步數(shù)據(jù)庫(kù)備份模式, 以豐富處理 Oracl

23、e生產(chǎn)庫(kù)數(shù)據(jù)塊部分邏輯錯(cuò)誤處理試,加快系統(tǒng)恢復(fù)速度。5. 服務(wù)保障根據(jù) IT 系統(tǒng)運(yùn)維的多年經(jīng)驗(yàn), 系統(tǒng)的穩(wěn)定運(yùn)行離不開堅(jiān)實(shí)可靠的售后 服務(wù)體系、高水平的專業(yè)服務(wù)團(tuán)隊(duì)和高質(zhì)量的運(yùn)維管理流程的支撐,同時(shí) 訓(xùn)練有素的系統(tǒng)維護(hù)人員和良好的服務(wù)保障也是確保系統(tǒng)故障能夠快速 恢復(fù)的關(guān)鍵。結(jié)合系統(tǒng)建設(shè)的實(shí)際情況,需要從以下幾個(gè)層面來(lái)保障系統(tǒng)的運(yùn)行穩(wěn) 定性和高可用性。1. 運(yùn)維管理層面在數(shù)據(jù)中心,通過(guò)對(duì)所有硬件設(shè)備和應(yīng)用軟件運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控和 統(tǒng)一展現(xiàn),可以實(shí)現(xiàn)對(duì)設(shè)備、應(yīng)用軟件異常的預(yù)警,同時(shí)在系統(tǒng)故障發(fā)生 時(shí)與時(shí)報(bào)警。為減少人工運(yùn)維操作所需的時(shí)間,提高管理人員的工作效率,降低運(yùn) 維管理工作量并消除人為錯(cuò)誤導(dǎo)致的故障隱患,可考慮逐漸在數(shù)據(jù)中心運(yùn) 維工作中推廣標(biāo)準(zhǔn)化運(yùn)維操作的自動(dòng)化運(yùn)行,通過(guò)基于配置管理數(shù)據(jù)庫(kù)的 流程化運(yùn)維管理工具來(lái)實(shí)現(xiàn)自動(dòng)化日常巡檢(自動(dòng)化、流程化的系統(tǒng)健康 檢查)、軟件(操作系統(tǒng)、補(bǔ)丁、應(yīng)用等)的自動(dòng)化安裝、部署和變更監(jiān) 控、審計(jì)、以與自動(dòng)化的系統(tǒng)合規(guī)審計(jì)和數(shù)據(jù)的自動(dòng)化備份等運(yùn)維工作。2. 售后服務(wù)層面全面、與時(shí)、高質(zhì)量的售后服務(wù)是關(guān)鍵業(yè)務(wù)系統(tǒng)運(yùn)維的基礎(chǔ)支撐。對(duì) 于系統(tǒng)而言,其售后服

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論