


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、8月23日xxx雙機(jī)熱備維護(hù)事件23日上午接公司任務(wù), 要求去 XXX 單位在雙機(jī)熱備上將 E 分區(qū)也加入雙機(jī)熱備共享盤, 受 EMC 熱備軟件控制管理,實(shí)現(xiàn) E 分區(qū)上的數(shù)據(jù)和軟件雙機(jī)熱備。到達(dá) XXX 單位機(jī)房后打開雙機(jī)熱備軟件查看,發(fā)現(xiàn)主機(jī) 2 圖標(biāo)為紅色,表示主機(jī) 2 已 掉線無(wú)法和主機(jī) 1 心跳同步, 但是此時(shí)任然是主機(jī) 2 在對(duì)外提供應(yīng)運(yùn)系統(tǒng)服務(wù)。 經(jīng)過(guò)檢查各 項(xiàng)設(shè)置,以及網(wǎng)絡(luò)通信情況,沒(méi)有發(fā)現(xiàn)任何故障, 隨后詢問(wèn)單位相關(guān)管理人員,可否重啟服 務(wù)器2,裝在服務(wù)器2的0A系統(tǒng)是否要退出才可關(guān)閉系統(tǒng)重啟, 得到答復(fù)說(shuō)0A不用退出, 萬(wàn)維系統(tǒng)可暫時(shí)中斷,可直接重啟服務(wù)器,隨即重啟服務(wù)器2
2、,重啟后發(fā)現(xiàn)兩臺(tái)服務(wù)器雙機(jī)熱備連接正常, 隨后配置將 E 盤加入雙機(jī)熱備共享盤, 再次重啟服務(wù)器 2,重啟進(jìn)入系統(tǒng)時(shí), 發(fā)現(xiàn) 0A 自啟動(dòng)時(shí)已報(bào)錯(cuò),提示大意為找不到文件路徑,進(jìn)入 EMC 熱備軟件發(fā)現(xiàn) E 分區(qū)共 享盤已經(jīng)開始同步, 還有之前的共享 D分區(qū)也開始同步,此時(shí)知道,0A啟動(dòng)時(shí)提示找不到 文件路徑的原因就是因?yàn)?E分區(qū)已經(jīng)被熱備軟件控制接管,0A系統(tǒng)無(wú)法訪問(wèn)讀取 E分區(qū)。由于 0A 系統(tǒng)沒(méi)有在雙機(jī)上安裝,沒(méi)有加入雙機(jī)熱備,所以 E 分區(qū)是不應(yīng)該加入雙機(jī)熱備 共享盤的。此時(shí)立刻將資源組脫機(jī),刪除加入資源組的E 分區(qū),在數(shù)據(jù)源里刪除加入的 E共享盤, 再次重啟服務(wù)器 2,啟動(dòng)后 E 分區(qū)
3、已經(jīng)不在熱備軟件共享盤資源里, E 分區(qū)已經(jīng)變?yōu)?普通分區(qū)。但是此時(shí)發(fā)現(xiàn) 0A 依然在啟動(dòng)時(shí)報(bào)錯(cuò),中斷無(wú)法登陸使用。此時(shí)原來(lái)的 D 共享 盤又再次從頭開始同步, 在終端測(cè)試萬(wàn)維系統(tǒng)也無(wú)法登陸使用。 現(xiàn)在服務(wù)器上的兩個(gè)應(yīng)運(yùn)系 統(tǒng)全部不能使用。萬(wàn)維系統(tǒng)不能使用的原因是當(dāng)數(shù)據(jù)共享盤在完全同步時(shí),類似于ghost 鏡像,此時(shí)應(yīng)運(yùn)服務(wù)停止對(duì)外服務(wù)。 在雙機(jī)熱備兩臺(tái)服務(wù)器通信正常情況下是不會(huì)進(jìn)行完全同步的,而是實(shí)時(shí)在后臺(tái)同步數(shù)據(jù), 此時(shí)應(yīng)運(yùn)系統(tǒng)對(duì)數(shù)據(jù)共享盤讀寫正常, 對(duì)外應(yīng)運(yùn)服務(wù)不受影響。 雙機(jī)熱 備軟件只有在兩種情況下才會(huì)進(jìn)行完全數(shù)據(jù)同步工作,第一種情況是在新安裝熱備軟件時(shí), 第一次數(shù)據(jù)完全同步; 第二
4、種情況是在雙機(jī)熱備正常運(yùn)行過(guò)程中, 由于其中一臺(tái)服務(wù)器掉線, 導(dǎo)致掉線的服務(wù)器共享盤和對(duì)外服務(wù)的服務(wù)器對(duì)應(yīng)的共享盤數(shù)據(jù)差別太大而必須進(jìn)行完全 同步。此次共享盤完全同步就是服務(wù)器2掉線造成,掉線的原因可能是因?yàn)樵?21日機(jī)房停電導(dǎo)致。雖然已經(jīng)將加入共享盤的 E 分區(qū)重新變?yōu)槠胀ǚ謪^(qū),但是安裝在 E 分區(qū)的 0A 系統(tǒng)還 是無(wú)法正常運(yùn)行, 咨詢 0A 系統(tǒng)運(yùn)維人員, 運(yùn)維人員的解答是因?yàn)槲覀冊(cè)谥貑⒎?wù)器時(shí)沒(méi)有 正常退出0A系統(tǒng),退出的方法是在 OA “DOS”界面命令提示符后輸入 ”Q”回車即可,如 果沒(méi)有正常退出就關(guān)閉系統(tǒng), 在下次啟動(dòng)操作系統(tǒng)時(shí), 0A 系統(tǒng)啟動(dòng)時(shí)就要重新掃描數(shù)據(jù)庫(kù), 查找數(shù)據(jù)
5、,時(shí)間大致需要 15分鐘后0A才能正常運(yùn)行。但是過(guò)了 15分鐘之后在終端測(cè)試, 發(fā)現(xiàn) 0A 系統(tǒng)還是無(wú)法正常訪問(wèn),再次咨詢 0A 運(yùn)維人員, 0A 運(yùn)維人員說(shuō)在他們那端發(fā)現(xiàn) 有一個(gè)服務(wù)沒(méi)有啟動(dòng),啟動(dòng)服務(wù)后 0A 系統(tǒng)訪問(wèn)正常。在下午 2 點(diǎn)多后,雙機(jī)熱備共享盤同步完畢,雙機(jī)熱備軟件界面里一切顯示綠色正常, 但是萬(wàn)維系統(tǒng)還是無(wú)法正常使用, 此時(shí)聯(lián)系萬(wàn)維公司, 萬(wàn)維公司工程師上門后檢查發(fā)現(xiàn)萬(wàn)維 系統(tǒng)已損壞, 共享盤有大量損壞文件無(wú)法讀取, 經(jīng)過(guò)運(yùn)行磁盤掃描修復(fù)程序后, 損壞的文件 可以刪除重建,當(dāng)萬(wàn)維系統(tǒng)故障處理完成可以登錄后,發(fā)現(xiàn)7月 29日之后大約 500份文件已經(jīng)丟失。 此時(shí)分析這一系列故障
6、, 萬(wàn)維系統(tǒng)文件損壞混亂的原因是, 當(dāng)雙機(jī)熱備掉線的服 務(wù)器正常上線后在共享盤在完全同步過(guò)程中服務(wù)器多次重啟,因?yàn)楣蚕肀P在同步未完成時(shí)重啟服務(wù)器后同步工作會(huì)自動(dòng)從零開始同步, 就像分區(qū)在做 GH0S 鏡像過(guò)程中強(qiáng)制終止一樣, 會(huì)導(dǎo)致分區(qū)上的文件丟失和損壞及混亂。而 7月 29日之后的文件丟失是因?yàn)闊醾滠浖谧?動(dòng)同步共享盤時(shí)同步方向搞錯(cuò), 本應(yīng)該是將數(shù)據(jù)較新的數(shù)據(jù)向數(shù)據(jù)少的另一臺(tái)服務(wù)器共享盤 同步,卻把數(shù)據(jù)少的共享盤數(shù)據(jù)同步到數(shù)據(jù)新的服務(wù)器共享盤上。丟失的文件在24 日已經(jīng) 通過(guò)我方維護(hù)人員掃描后全部導(dǎo)入萬(wàn)維系統(tǒng)。此次事件總結(jié)如下:關(guān)于 OA 系統(tǒng),首先是 OA 系統(tǒng)及數(shù)據(jù)全部在第二臺(tái)服務(wù)器的
7、 E 分區(qū)。并沒(méi)有在第一臺(tái) 服務(wù)器上安裝, OA 系統(tǒng)服務(wù)也沒(méi)有加入雙機(jī)熱備管理軟件,受熱備軟件管理控制,所以 E 分區(qū)是不可以加入雙機(jī)熱備共享盤的,由于 OA 系統(tǒng)相應(yīng)服務(wù)沒(méi)有加入熱備軟件控制管理。 E 分區(qū)加入熱備共享盤后會(huì)導(dǎo)致 OA 系統(tǒng)無(wú)法正常訪問(wèn)讀寫數(shù)據(jù),導(dǎo)致 OA 系統(tǒng)故障。第二,根據(jù)在 XXX 單位日常服務(wù)的同事反應(yīng),當(dāng)雙機(jī)熱備的對(duì)外提供應(yīng)運(yùn)的服務(wù)器切 換到第一臺(tái)服務(wù)器時(shí), OA 系統(tǒng)也無(wú)法正常運(yùn)行。據(jù)此推測(cè)有兩種情況,首先是第二臺(tái)服務(wù) 器 E 分區(qū)上安裝的 OA 系統(tǒng)可能是和服務(wù)器上 SQL 數(shù)據(jù)庫(kù)有關(guān)聯(lián),當(dāng)承擔(dān)對(duì)外服務(wù)的服務(wù) 器切換到第一臺(tái)服務(wù)器時(shí),第二臺(tái)服務(wù)器的數(shù)據(jù)庫(kù)服務(wù)會(huì)
8、被 EMC 熱備軟件關(guān)閉而導(dǎo)致 OA 系統(tǒng)故障,第二就是 OA 系統(tǒng)在安裝時(shí)可能使用了 EMC 熱備軟件設(shè)定的虛擬映射 IP 地址, 當(dāng)雙機(jī)熱備的對(duì)外提供應(yīng)運(yùn)的服務(wù)器切換到第一臺(tái)服務(wù)器時(shí),虛擬的 IP 地址映射的已經(jīng)是 第一臺(tái)服務(wù)器了,但事實(shí)上 OA 系統(tǒng)是安裝在第二臺(tái)服務(wù)器的 E 分區(qū)的。第三,OA系統(tǒng)在退出時(shí)一定要在桌面 OA系統(tǒng)啟動(dòng)窗口中命令提示符后鍵入“ Q”回 車退出后才可以關(guān)閉或重啟操作系統(tǒng)。 否則在下次啟動(dòng)進(jìn)入系統(tǒng)后 OA 系統(tǒng)會(huì)重新掃描數(shù)據(jù) 庫(kù),查找文件,導(dǎo)致 OA 系統(tǒng)大約需要 15 分鐘后才能正常使用。關(guān)于雙機(jī)熱備 ,雙機(jī)熱備的兩臺(tái)服務(wù)器在斷電關(guān)機(jī)后, 再次開機(jī)時(shí), 開啟的
9、順序是有講 究的。就是需要哪臺(tái)服務(wù)器作為主機(jī)對(duì)外提供服務(wù)時(shí), 就要先開哪臺(tái)服務(wù)器, 之后再開備機(jī), 都開啟后要在熱備軟件主界面里檢查, 看看有無(wú)顯示橙色或紅色的項(xiàng)目, 如果有看看是哪一 項(xiàng),然后找到原因處理即可。而雙機(jī)熱備服務(wù)器在關(guān)閉時(shí),要先關(guān)閉備機(jī),再關(guān)主機(jī),如果 先關(guān)主機(jī), 對(duì)外應(yīng)運(yùn)服務(wù)會(huì)自動(dòng)被雙機(jī)熱備軟件切換到備機(jī)。 此次事件熱備軟件在做數(shù)據(jù)同 步時(shí), 同步反的原因就是, 雖然顯示第二臺(tái)服務(wù)器掉線, 但是當(dāng)時(shí)對(duì)外提供應(yīng)運(yùn)服務(wù)的還是 第二臺(tái)服務(wù)器。 當(dāng)重啟第二臺(tái)服務(wù)器的過(guò)程中對(duì)外應(yīng)運(yùn)的服務(wù)器已經(jīng)被雙機(jī)熱備軟件切換到 了第一臺(tái)服務(wù)器上。 由于掉線時(shí)間較長(zhǎng), 服務(wù)器重啟后, 雙機(jī)熱備恢復(fù)正常后
10、發(fā)現(xiàn)數(shù)據(jù)共享 盤差異較大, 勢(shì)必要對(duì)數(shù)據(jù)共享盤做完全同步。 熱備軟件數(shù)據(jù)同步的規(guī)律是正常情況下數(shù)據(jù) 同步實(shí)時(shí)在后臺(tái)即時(shí)同步, 而不影響應(yīng)運(yùn)服務(wù)對(duì)數(shù)據(jù)的訪問(wèn)讀寫操作, 同步的方向是對(duì)外提 供服務(wù)的服務(wù)器, 也就是主機(jī)的共享盤作為源數(shù)據(jù)盤把數(shù)據(jù)同步到備機(jī)的對(duì)應(yīng)共享盤。 此次 就是因?yàn)榈诙_(tái)服務(wù)器重啟后, 雙機(jī)熱備恢復(fù)了正常, 但此時(shí)對(duì)外應(yīng)運(yùn)的服務(wù)器已經(jīng)切換到 了第一臺(tái)服務(wù)器, 所以完全同步就把第一臺(tái)服務(wù)器的數(shù)據(jù)共享盤作為原數(shù)據(jù)給第二臺(tái)服務(wù)器 同步。結(jié)果就是不完整的舊數(shù)據(jù)覆蓋了新數(shù)據(jù),導(dǎo)致近期500 份文件丟失。當(dāng)前 XXX 單位雙擊熱備使用狀況: 現(xiàn)在由于萬(wàn)維系統(tǒng)只有一個(gè)加密狗是插在第二臺(tái)服 務(wù)器
11、上,且0A系統(tǒng)只安裝了一臺(tái)服務(wù)器,也安裝在第二臺(tái)服務(wù)器上,所以現(xiàn)在的情況是雙 機(jī)熱備不能發(fā)揮應(yīng)有的作用, 一旦雙機(jī)熱備切換到了第一臺(tái)服務(wù)器, 必須手動(dòng)切換回第二臺(tái) 服務(wù)器, 因?yàn)榈谝慌_(tái)服務(wù)器沒(méi)有萬(wàn)維系統(tǒng)的加密狗, 也沒(méi)有安裝 0A 系統(tǒng)。 切換到第一臺(tái)服 務(wù)器后兩個(gè)應(yīng)運(yùn)系統(tǒng)全部無(wú)法使用。解決方案: 解決方案只有兩種辦法, 一種是萬(wàn)維系統(tǒng)再提供一個(gè)加密狗裝在第一臺(tái)服務(wù) 器,在確認(rèn) EMC 這個(gè)雙機(jī)熱備軟件支持 0A 系統(tǒng)后,讓電子政務(wù)辦給第一臺(tái)服務(wù)器也安裝 0A 系統(tǒng),然后我方將 0A 系統(tǒng)服務(wù)加入雙機(jī)熱備軟件資源組,并將 0A 系統(tǒng)安裝分區(qū)加入 雙擊熱備共享盤, 0A 系統(tǒng)完全受熱備軟件統(tǒng)一管
12、理控制。 真正實(shí)現(xiàn)兩種應(yīng)運(yùn)服務(wù)雙機(jī)熱備。 第二種方案就是如果電子政務(wù)辦不同意安裝兩臺(tái)服務(wù)器, 那就只有把 0A 系統(tǒng)遷出雙機(jī)熱備 的服務(wù)器, 安裝在其他服務(wù)器上, 讓萬(wàn)維的系統(tǒng)在雙機(jī)熱備上正常運(yùn)行。 兩個(gè)應(yīng)運(yùn)服務(wù)互不 干擾。避免此類事件再次發(fā)生的教訓(xùn): 最主要的是數(shù)據(jù)安全,在沒(méi)有外接存貯的情況下,雙 擊熱備并不能對(duì)數(shù)據(jù)保證安全, 只是盡量保證對(duì)外應(yīng)運(yùn)服務(wù)不中斷, 所以我方維護(hù)人員必須至少每周對(duì)服務(wù)器上的數(shù)據(jù)進(jìn)行備份, 每天上班后都要在機(jī)房巡視一下, 看看雙機(jī)熱備系統(tǒng) 是否正常工作,有無(wú)報(bào)警或報(bào)錯(cuò),如有異常,通知公司,由公司指定人員去處理,并對(duì)每次 處理事件詳細(xì)記錄并上報(bào)。第二,如果雙機(jī)熱備服務(wù)
13、器要停機(jī),或已停機(jī), 在開機(jī)和關(guān)機(jī)順 序上是有講究的。如果兩臺(tái)服務(wù)器都在關(guān)機(jī)狀態(tài)下,要開機(jī)時(shí)想讓哪一臺(tái)服務(wù)器作為主機(jī), 那就要先看哪一臺(tái)服務(wù)器,后開備機(jī)。如果要關(guān)閉雙機(jī)服務(wù)器時(shí)要先關(guān)備機(jī),再關(guān)主機(jī)。如 果雙機(jī)熱備服務(wù)器都在運(yùn)行, 但是在熱備軟件里出現(xiàn)了異常, 比如某項(xiàng)資源報(bào)警, 或出現(xiàn)一 臺(tái)服務(wù)器脫機(jī)等其他異常, (在 EMC 雙機(jī)熱備軟件界面里只有全部項(xiàng)目顯示為綠色才是完 全正常,如果是橙色就是告警, 紅色為嚴(yán)重告警, 總之如果不是綠色就不完全正常)要首先 在熱備軟件里查看當(dāng)前是哪臺(tái)服務(wù)器是在對(duì)外提供服務(wù), 這時(shí)就要注意雙機(jī)熱備同步的規(guī)律 “數(shù)據(jù)同步方向是對(duì)外提供服務(wù)的服務(wù)器共享盤作為源數(shù)據(jù), 數(shù)據(jù)同步到備機(jī), 備機(jī)的共享 盤數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 實(shí)習(xí)就業(yè)基地協(xié)議書
- 收購(gòu)企業(yè)框架協(xié)議書
- 老人上班免責(zé)協(xié)議書
- 意向房屋租賃協(xié)議書
- 長(zhǎng)期財(cái)務(wù)服務(wù)協(xié)議書
- 簡(jiǎn)易酒店婚宴協(xié)議書
- 解除投資關(guān)系協(xié)議書
- 教育行業(yè)安全協(xié)議書
- 門面出租協(xié)議書范文
- 商鋪閣樓轉(zhuǎn)讓協(xié)議書
- 2023-2024學(xué)年湖北省荊門市京山市八年級(jí)(下)期中數(shù)學(xué)試卷(含解析)
- 創(chuàng)新思維拓展-知到答案、智慧樹答案
- 浙江宇翔職業(yè)技術(shù)學(xué)院?jiǎn)握新殰y(cè)參考試題庫(kù)(含答案)
- 給小學(xué)生科普地質(zhì)學(xué)知識(shí)
- 課程與教學(xué)評(píng)價(jià)課件
- 提高手衛(wèi)生正確率品管圈課件
- 中醫(yī)護(hù)理技術(shù)穴位貼敷
- 分布式光伏高處作業(yè)專項(xiàng)施工方案
- 《狼王夢(mèng)》小學(xué)讀后感400字
- 中國(guó)居民膳食指南(全)
- 水泥脫硝安全專篇
評(píng)論
0/150
提交評(píng)論