第五章集群存儲(chǔ)系統(tǒng)故障處理_第1頁
第五章集群存儲(chǔ)系統(tǒng)故障處理_第2頁
第五章集群存儲(chǔ)系統(tǒng)故障處理_第3頁
第五章集群存儲(chǔ)系統(tǒng)故障處理_第4頁
第五章集群存儲(chǔ)系統(tǒng)故障處理_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 0修訂記錄課程編碼課程編碼適用產(chǎn)品適用產(chǎn)品產(chǎn)品版本產(chǎn)品版本課程版本課程版本ISSUEHC1209205N8500V100R002V2.0開發(fā)開發(fā)/優(yōu)化者優(yōu)化者時(shí)間時(shí)間審核人審核人開發(fā)類型(新開發(fā)開發(fā)類型(新開發(fā)/優(yōu)化)優(yōu)化)張博2013-09-20余雷新開發(fā)本頁不打印Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. HC1209205 集群NAS存儲(chǔ)系統(tǒng)故障處理Copyri

2、ght 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 2目標(biāo)l學(xué)完本課程后,您將能夠:l了解N8500問題處理流程l掌握N8500常見問題及故障的處理方法l具備集群NAS典型故障分析處理能力Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 3目錄lN8500N8500故障處理的原則、方法故障處理的原則、方法lN8500N8500故障處理的流程故障處理的流程lN8500N8500分類故障以及典型問題處理方法分類故障以及典型問題處理

3、方法lN8500N8500故障處理案例故障處理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 4 故障處理原則Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 5故障處理方法分析法替換法看告警信息并配合對性能數(shù)據(jù)的分析替換懷疑工作不正常的部件Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 6目錄lN8500故障處理

4、的原則、方法lN8500故障處理的流程lN8500分類故障以及典型問題處理方法lN8500故障處理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 7N8500故障處理流程Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 8N8500信息收集l故障發(fā)生時(shí),需要第一時(shí)間收集故障相關(guān)信息,主要包括:l故障發(fā)生的具體時(shí)間l故障現(xiàn)象的詳細(xì)描述lN8000設(shè)備的版本l故障后已經(jīng)采取的措施和結(jié)果l客戶業(yè)務(wù)組網(wǎng)環(huán)境、目前業(yè)

5、務(wù)情況l收集N8000設(shè)備的日志信息Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 9集群NAS引擎日志系統(tǒng)日志位置日志位置 日志文件日志文件日志用途日志用途 /var/logmessage操作系統(tǒng)相關(guān)的所有關(guān)鍵事件/var/logsfsfs_event.log引擎的network,storage服務(wù)所產(chǎn)生的事件日志/opt/VRTSnasgw/logUpgrade.log引擎系統(tǒng)升級(jí)中的過程/opt/VRTSnasgw/logscanbus.log引擎掃描磁盤操作中搜集的相關(guān)信息和關(guān)鍵事件/opt/

6、VRTSnasgw/logCIFS.logCIFS共享操作相關(guān)的集群管理服務(wù)操作及相關(guān)事件/opt/VRTSnasgw/logNFSAgent.logNFS共享代理操作相關(guān)的集群管理服務(wù)操作及相關(guān)事件/var/VRTSvcs/logEngine_A.logVCS集群日志 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 10故障分析定位和排除l故障分析判斷和定位l通過對收集的信息進(jìn)行分析,從眾多可能原因中找出故障原因的過程,通過故障分析,可以確定故障范圍、故障種類、故障發(fā)生的具體原因以及故障排除的手段。

7、l故障排除l是指采取適當(dāng)?shù)拇胧┗虿襟E清除故障、恢復(fù)系統(tǒng)及業(yè)務(wù)的過程,具體的方式有檢修線路、更換硬件、修改配置數(shù)據(jù)、重新啟動(dòng)服務(wù)或應(yīng)用程序、替換損壞文件、重新啟動(dòng)系統(tǒng)、修復(fù)文件系統(tǒng)及服務(wù)等 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 11故障分析定位的主要方法l原始信息分析l指示燈狀態(tài)分析l告警信息分析l告警信息分析l日志信息分析l消息跟蹤分析Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 12故障分析定位

8、的主要方法l原始信息分析l指示燈狀態(tài)分析l告警信息分析l告警信息分析l日志信息分析l消息跟蹤分析Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 13目錄lN8500故障處理的原則、方法lN8500故障處理的流程lN8500分類故障以及典型問題處理方法lN8500故障處理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 141、節(jié)點(diǎn)控制器故障2、接口卡故障3、節(jié)點(diǎn)系統(tǒng)硬盤故障4、節(jié)點(diǎn)電源風(fēng)扇故障1、 引擎軟件

9、安裝和登錄故障2、 集群容錯(cuò)故障3、 功能使用故障1、硬件故障2、RAID和LUN故障3、性能故障4、主機(jī)與存儲(chǔ)連接故障5、數(shù)據(jù)丟失故障引擎節(jié)點(diǎn)硬件故障引擎節(jié)點(diǎn)硬件故障引擎節(jié)點(diǎn)軟件故障引擎節(jié)點(diǎn)軟件故障存儲(chǔ)單元故障存儲(chǔ)單元故障集群NAS系統(tǒng)故障分類Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 15集群NAS系統(tǒng)故障影響1、業(yè)務(wù)中斷2、業(yè)務(wù)性能下降1、 無法登錄2、 集群節(jié)點(diǎn)無法切換3、 業(yè)務(wù)性能下降4、業(yè)務(wù)功能無法使用1、文件資源失效2、業(yè)務(wù)中斷3、性能下降4、數(shù)據(jù)丟失引擎節(jié)點(diǎn)硬件故障引擎節(jié)點(diǎn)硬件故障

10、引擎節(jié)點(diǎn)軟件故障引擎節(jié)點(diǎn)軟件故障存儲(chǔ)單元故障存儲(chǔ)單元故障Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 16集群NAS典型故障診斷1.1.后端存儲(chǔ)故障引起系統(tǒng)異常后端存儲(chǔ)故障引起系統(tǒng)異常2.2.引擎節(jié)點(diǎn)硬件故障引起系統(tǒng)異常引擎節(jié)點(diǎn)硬件故障引起系統(tǒng)異常3.3.內(nèi)部通信鏈路問題診斷內(nèi)部通信鏈路問題診斷4.4.管理模塊問題診斷管理模塊問題診斷5.5.文件系統(tǒng)故障診斷文件系統(tǒng)故障診斷6.6.文件讀寫性能問題診斷文件讀寫性能問題診斷7.7.NFSNFS掛載和訪問問題診斷掛載和訪問問題診斷8.8.CIFSCIFS

11、掛載和訪問問題診斷掛載和訪問問題診斷9.9.網(wǎng)絡(luò)問題診斷網(wǎng)絡(luò)問題診斷Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 171、后端存儲(chǔ)故障引起NAS系統(tǒng)異常Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 182、引擎節(jié)點(diǎn)硬件故障引起系統(tǒng)異常Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 193、集群NAS內(nèi)部網(wǎng)絡(luò)問題C

12、opyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 20內(nèi)部通信鏈路問題分析和處理方法l引擎之間心跳網(wǎng)絡(luò)故障序號(hào)序號(hào)問題問題解決方案解決方案1腦裂1、停止業(yè)務(wù)2、修復(fù)心跳網(wǎng)絡(luò)3、配置iofencing硬盤,引擎識(shí)別到iofencing硬盤,但是不用加入pool4、啟用iofencing功能,重啟整個(gè)集群Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 21內(nèi)部通信鏈路問題分析和處理方法l引擎與存儲(chǔ)單元的鏈路故障序號(hào)序

13、號(hào)問題問題解決方案解決方案1某個(gè)節(jié)點(diǎn)不能掃描到硬盤1、檢查該節(jié)點(diǎn)的系統(tǒng)狀態(tài)2、查看該節(jié)點(diǎn)的HBA卡的狀態(tài)并恢復(fù)正常2執(zhí)行scanbus、mount操作時(shí)掛死1、檢查所有存儲(chǔ)單元的狀態(tài)2、查看所有存儲(chǔ)單元與引擎的FC連接狀態(tài),如果有存儲(chǔ)單元的FC連接異常,需要修復(fù)連接。3、在引擎主節(jié)點(diǎn)的support模式下,通過kill命令刪除scanbus進(jìn)程4、重啟主節(jié)點(diǎn)Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 22內(nèi)部通信鏈路問題分析和處理辦法序號(hào)序號(hào)問題問題解決方案解決方案1存儲(chǔ)單元端FC誤碼率過高1、更

14、換光纖線、光模塊和FC主機(jī)口2、更換控制器2引擎、存儲(chǔ)單元與光纖交換機(jī)的協(xié)商問題1、 登錄存儲(chǔ)單元,查看HBA卡的連接狀態(tài)和速率,修改HBA的連接狀態(tài)為點(diǎn)對點(diǎn)或者交換機(jī)模式2、登錄光纖交換機(jī),更改端口模式Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 234、管理模塊問題Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 24管理模塊問題解決方案序號(hào)序號(hào)問題問題解決方案解決方案1console口所在的物理網(wǎng)卡沒有

15、連網(wǎng)線連上網(wǎng)線,等待1分鐘后重新登錄2console地址與網(wǎng)絡(luò)上其他主機(jī)有沖突1、通過KVM修改console地址2、修改沖突主機(jī)上的IP地址3資源offline1、通過hagrp -stat |grep Man2、通過hagrp -online ManagementConsole -sys N8300_01 命令上線Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 255、集群NAS文件系統(tǒng)故障故障Copyright 2013 Huawei Technologies Co., Ltd. All rig

16、hts reserved. Page 26集群NAS文件系統(tǒng)故障分析和處理步驟l步驟一:確認(rèn)引擎和存儲(chǔ)單元間的鏈路是否正常l登錄N8000,執(zhí)行storage disk list paths,查看每個(gè)節(jié)點(diǎn)鏈路狀態(tài)l若存在非active的鏈路,恢復(fù)鏈路后執(zhí)行storage scanbus,手動(dòng)online文件系統(tǒng)l步驟二:登錄存儲(chǔ)單元,確認(rèn)存儲(chǔ)單元狀態(tài)l查看是否有存儲(chǔ)單元故障,參考存儲(chǔ)單元故障處理內(nèi)容。l是否誤刪N8000文件系統(tǒng)在用的LUN,請聯(lián)系技術(shù)支持l是否誤刪映射,恢復(fù)LUN映射,執(zhí)行storage scanbus,文件系統(tǒng)可自動(dòng)恢復(fù),若無法恢復(fù),聯(lián)系技術(shù)支持。Copyright 201

17、3 Huawei Technologies Co., Ltd. All rights reserved. Page 27集群NAS文件系統(tǒng)故障分析和處理步驟l步驟三:通過master賬號(hào)登錄引擎,確認(rèn)是否文件系統(tǒng)故障l手動(dòng)online文件系統(tǒng),如果online成功,則恢復(fù)業(yè)務(wù),收集debuginfo信息l如果無法online,查看文件系統(tǒng)標(biāo)志位l如果文件系統(tǒng)需要做fsck,請聯(lián)系技術(shù)支持。l步驟四:fsck完成后,手動(dòng)online文件系統(tǒng)l如果可以,收集debuginfo供技術(shù)支持定位原因;如果不能,則重啟系統(tǒng)再嘗試online,執(zhí)行過程時(shí)請聯(lián)系技術(shù)支持。Copyright 2013 Huaw

18、ei Technologies Co., Ltd. All rights reserved. Page 286、文件讀寫性能問題Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 29文件讀寫性能問題原因分析Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 30文件讀寫性能問題診斷-業(yè)務(wù)變更l原因分析l原來只有順序讀寫業(yè)務(wù),現(xiàn)在變成了隨機(jī)讀寫業(yè)務(wù);l原來有只有讀業(yè)務(wù),現(xiàn)在加入了寫業(yè)務(wù);l原來有10路用戶并發(fā),現(xiàn)在更

19、多路用戶同時(shí)并發(fā);l其他復(fù)雜業(yè)務(wù)變更。 l處理意見:l由于業(yè)務(wù)類型的變化而造成的流量上的下降屬正?,F(xiàn)象,無需處理。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 31文件讀寫性能問題診斷-存儲(chǔ)單元原因Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 32文件讀寫性能問題診斷思路-引擎原因l原因分析l文件系統(tǒng)l存儲(chǔ)及文件系統(tǒng)參數(shù)配置不當(dāng)l文件系統(tǒng)存放大量小文件,并且文件系統(tǒng)利用率大于80%,造成檢索速度下降l集群

20、狀態(tài) :IP地址在集群各節(jié)點(diǎn)上分布不均勻l服務(wù)狀態(tài)(NFS/CIFS)參數(shù)設(shè)置不當(dāng)。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 337、NFS掛載和訪問問題Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 34NFS掛載和訪問問題總結(jié)lNFS掛載和訪問問題常見問題包括:l客戶端原因:掛載參數(shù)錯(cuò)誤、防火墻原因、權(quán)限問題。l網(wǎng)絡(luò)原因: 無法ping通N8000的虛擬IP; DNS服務(wù)器無法連通;網(wǎng)絡(luò)鏈路不穩(wěn)定

21、。lN8000原因:NFS服務(wù)或虛擬IP offline;文件系統(tǒng)故障;NFS相關(guān)服務(wù)資源異常。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 358、CIFS掛載和訪問問題診斷Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 36CIFS掛載和訪問問題總結(jié)lCIFS模塊問題常見問題包括:l客戶端原因:掛載參數(shù)錯(cuò)誤、防火墻原因、權(quán)限問題l網(wǎng)絡(luò)原因:無法ping通N8000的虛擬IP;DNS服務(wù)器出現(xiàn)問題;網(wǎng)絡(luò)鏈

22、路不穩(wěn)定lN8000原因:CIFS服務(wù)或虛擬IP offline;文件系統(tǒng)故障;CIFS相關(guān)服務(wù)資源異常Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 379、NAS網(wǎng)絡(luò)問題Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 38NAS網(wǎng)絡(luò)問題診斷總結(jié)Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 39目錄lN8500故

23、障處理的原則、方法lN8500故障處理的流程lN8500分類故障以及典型問題處理方法lN8500故障處理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 40案例1:管理模塊無法登錄l問題描述:l客戶反映無法通過master登錄集群,顯示該賬號(hào)不可用l原因分析:l1、通過終端可以ping通管理console地址l2、通過KVM連接到集群,通過support賬號(hào)登錄集群,使用 hastatus sum |grep Man 查詢狀態(tài)為offline,執(zhí)行hagrp -online ManagementC

24、onsole -sys testN8300_01l3、在集群的support賬號(hào)下,使用ethtool查看管理網(wǎng)口的物理狀態(tài)。通過在主機(jī)端檢查arp a 發(fā)現(xiàn)consoleip的mac地址不是集群管理網(wǎng)口的mac地址,表明網(wǎng)絡(luò)中的ip地址有沖突Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 41案例2l問題及故障描述l集群在設(shè)置IO fencing后,重啟整個(gè)集群,出現(xiàn)部分節(jié)點(diǎn)無法加入集群的情況,此現(xiàn)象概率出現(xiàn)l原因分析l集群重啟時(shí),IO防護(hù)為了防止集群腦裂,會(huì)將部分啟動(dòng)較慢的節(jié)點(diǎn)排除出集群。因此不允

25、許直接重啟整個(gè)集群。若必須將所有節(jié)點(diǎn)都進(jìn)行重啟,請一次只重啟一個(gè)節(jié)點(diǎn),待該節(jié)點(diǎn)完全啟動(dòng)并可以提供業(yè)務(wù)時(shí),再重啟下一個(gè)節(jié)點(diǎn),直到所有節(jié)點(diǎn)全部重啟完畢,且可以正常提供業(yè)務(wù) l處理步驟l該現(xiàn)象發(fā)生后,重啟未能加入集群的節(jié)點(diǎn)即可修復(fù) Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 42案例3l問題及故障描述l在有NFS業(yè)務(wù)時(shí),重啟一個(gè)業(yè)務(wù)節(jié)點(diǎn)后,一個(gè)文件系統(tǒng)offline,導(dǎo)致該文件系統(tǒng)不可訪問l原因分析l重啟節(jié)點(diǎn)與主節(jié)點(diǎn)的時(shí)間不一致導(dǎo)致,集群為保護(hù)文件系統(tǒng)一致性,強(qiáng)制將文件系統(tǒng)標(biāo)志位設(shè)置為1,引起文件系統(tǒng)o

26、fflinel處理步驟l登錄到集群管理界面的storage模式下,使用fs fsck fs100g命令進(jìn)行文件系統(tǒng)修復(fù),修復(fù)完成后需要使用fs online fs100g的命令將文件系統(tǒng)上線 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 43案例4l問題及故障描述l把一個(gè)節(jié)點(diǎn)從集群刪除后再加入集群,該節(jié)點(diǎn)的NFS共享服務(wù)fault,業(yè)務(wù)IP無法切換到該節(jié)點(diǎn)l原因分析l在添加一個(gè)新的節(jié)點(diǎn)加入集群時(shí),必須保證該節(jié)點(diǎn)是全新安裝的節(jié)點(diǎn),否則由于原來刪除的節(jié)點(diǎn)依然保留有原有集群的信息,可能導(dǎo)致發(fā)生異常情況l處

27、理步驟l出現(xiàn)此問題時(shí),執(zhí)行nfs server start命令重啟NFS服務(wù),即可將虛擬IP online到新加入的節(jié)點(diǎn) Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 44案例5l問題及故障描述l將系統(tǒng)時(shí)區(qū)從GMT+8改為GMT+9,系統(tǒng)時(shí)間應(yīng)該增加一個(gè)小時(shí),實(shí)際情況是減少了一個(gè)小時(shí),反之亦然 l原因分析l該問題是由于linux下的時(shí)區(qū)修改和windows的處理方式不一致導(dǎo)致的 l處理步驟l出現(xiàn)該現(xiàn)象時(shí),立即進(jìn)行系統(tǒng)時(shí)間修改,修改時(shí)區(qū)會(huì)導(dǎo)致文件系統(tǒng)全部掛掉時(shí)區(qū)修改應(yīng)在系統(tǒng)安裝完畢后立即修改 l使用c

28、lock timezone設(shè)置時(shí)區(qū)時(shí)直接使用時(shí)區(qū)名進(jìn)行設(shè)置,不要使用GMT時(shí)間進(jìn)行設(shè)置Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 45案例6l問題及故障描述l使用fs online命令online一個(gè)offline狀態(tài)的文件系統(tǒng)時(shí),提示該文件系統(tǒng)“Filesystem is already online”l原因分析l由于文件系統(tǒng)在節(jié)點(diǎn)上mtab信息丟失,但cfs層掛載點(diǎn)正常,而fs list命令是檢測系統(tǒng)mount信息判斷文件系統(tǒng)是否online的,因此顯示文件系統(tǒng)為offline,而fs online是檢測cfs層掛載點(diǎn)狀態(tài),因此導(dǎo)致無法online文件系統(tǒng)l處理步驟l出現(xiàn)該現(xiàn)象時(shí),可以在support用戶下,將該文件系統(tǒng)信息手動(dòng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論