版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第一類、機(jī)房環(huán)境及物理檢查一、機(jī)房內(nèi)環(huán)境要求1.溫度與濕度:最佳工作溫度:20-25攝氏度極限工作溫度:10-40攝氏度 濕度: 8-80%(在23攝氏度條件下)如果不是工作在最佳溫度,請注意改善機(jī)房環(huán)境2.同時機(jī)房要保證清潔.機(jī)房應(yīng)保持清潔,若空氣灰塵過多,很容易造成資源讀寫錯誤及磁盤機(jī)中磁盤或讀寫磁頭毀損。二、電源要求電 壓:要求電壓穩(wěn)定, 尖峰電壓會損壞設(shè)備電壓范圍:220V +/- 10%, 即200-240V, 50-60Hz電源功率:視機(jī)器類型和系統(tǒng)配置而定電源線:標(biāo)準(zhǔn)的零, 地, 火三相電, 其中零, 地電壓不得超過3.0V.電源接駁:用符合電流要求的空氣開關(guān)或其他設(shè)備和主機(jī)電源
2、線接駁,保證計算機(jī)系統(tǒng)的可靠工作應(yīng)使用穩(wěn)壓電源和UPS,并建議配備發(fā)電機(jī)組;對于冗于電源的接入,建議采用兩路單獨(dú)輸入.三、硬件檢查檢查服務(wù)器、磁陣的安裝、電源線、7133和主機(jī)接線符合要求。服務(wù)器狀態(tài)檢查:1. 當(dāng)服務(wù)器處于啟動和正常工作狀態(tài)時,其前面板上的液晶顯示屏上應(yīng)無信息顯示。2. 當(dāng)液晶顯示器上出現(xiàn)帶數(shù)字和字母的信息時,說明有硬件告警??梢酝ㄟ^查詢相關(guān)機(jī)型的Service Guide查到相應(yīng)告警原因,情況嚴(yán)重的,則要立即通知IBM技術(shù)專家進(jìn)行問題排查。7133狀態(tài)檢查:磁陣前面板上有7133機(jī)柜的狀態(tài)燈(與電源燈并排)和各硬盤的狀態(tài)燈(一排小燈,與各硬盤位置一一對應(yīng))。1. 當(dāng)機(jī)柜的狀
3、態(tài)燈出現(xiàn)橙黃色時,說明有硬件告警,此時要檢查磁柜的電源、接線、硬盤等。如果有硬件故障則立即進(jìn)行更換和更正,如果查不出具體問題,則需要聯(lián)系相關(guān)專家進(jìn)一步診斷。2. 當(dāng)硬盤工作正常時,與各硬盤對應(yīng)的硬盤燈會呈綠色,如無讀寫,則綠燈一直亮,如該硬盤有讀寫操作,則綠燈會不規(guī)則閃爍,當(dāng)硬盤損壞時或SSA環(huán)路出現(xiàn)問題時,則硬盤狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以13秒的頻率有規(guī)律地、不停地閃爍第二類、系統(tǒng)日常維護(hù)流程2.1系統(tǒng)啟動系統(tǒng)啟動正常順序如下:首先對外設(shè)(磁盤陣列、磁帶庫等)加電。待所有外設(shè)加電自檢完成后, 主機(jī)加電正常起機(jī)。主機(jī)加電后,系統(tǒng)進(jìn)行自檢,在液晶顯示屏顯示”ok”后,才能按白色POWER鍵
4、起機(jī).啟動主機(jī)HACMP,啟動后可用命令 tail -f /tmp/hacmp.out 來檢查啟動情況,在HACMP未完全啟動前不要進(jìn)行下一步。檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat -i , netstat -rn 等),檢查文件系統(tǒng),邏輯卷(可用 mount , lsvg -o 等)。檢查各項應(yīng)用是否工作正常。2.2系統(tǒng)關(guān)閉停止HACMP( smitty clstop)。查看HACMP的狀態(tài),檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat -i , netstat -rn 等),檢查文件系統(tǒng),邏輯卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要進(jìn)行下
5、一步。關(guān)閉主機(jī) (shutdown F)。重啟系統(tǒng)可以使用:shutdown -Fr如有必要的話,按磁盤陣列前方的白色按鈕關(guān)閉磁盤陣列。2.3查看系統(tǒng)的錯誤記錄在系統(tǒng)運(yùn)行時,一些系統(tǒng)錯誤會記錄在errlog 中,其中有些錯誤還會在終端上顯示。檢查錯誤日志可用以下命令:#errpt|more 查看系統(tǒng)所有的記錄IDENTIFIERTIMESTAM PTCRESOURCE_NAMEDESCRIPTIONE85C5C4C P S CFGLFT SOFTWARE PROGRAM ERROR2BFA76F6 T S SYSPROC SYSTEM SHUTDOWN BY USER9D4CF6E7 T O
6、errdemon ERROR LOGGING TURNED ON1E2AC07E T O errdemon ERROR LOGGING TURNED OFF1E5EER4T T O clstrmgr OPERATOR NOTIFICATION 其中IDENTIFIER 為錯誤編號,當(dāng)需要檢查詳細(xì)信息時常會用到。TIME STAMP 為時間標(biāo)簽,它記錄的是出錯時間,其格式:月月日日時時分分年年T 為Type , 它記錄的是錯誤類型P :為永久錯誤,需引起注意T :為臨時錯誤。C 為Class,它記錄的是錯誤種類,如H : HardwareS : SoftwareO : Errloger comm
7、and messagesU : undeterminedRESOURCE_NAME為錯誤來源DESCRIPTION 為錯誤描述#errpt -aj 查看系統(tǒng)詳細(xì)記錄內(nèi)容其中IDENTIFIER為錯誤編號,如 #errpt -aj #errpt -dH 查看系統(tǒng)所有的硬件出錯記錄 2.4系統(tǒng)與數(shù)據(jù)備份有效及時的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當(dāng)系統(tǒng)出現(xiàn)故障時,特別是文件系統(tǒng)被嚴(yán)重?fù)p壞或硬盤損壞時,常需要使用系統(tǒng)備份來恢復(fù)系統(tǒng)。在以下情況下應(yīng)做系統(tǒng)備份:1、新裝機(jī)。在硬件及系統(tǒng)軟件安裝完成后,應(yīng)做系統(tǒng)備份。2、軟件改動。系統(tǒng)軟件或應(yīng)用軟件有改動時,應(yīng)做系統(tǒng)備份。3、定期備份。對系統(tǒng)進(jìn)行定期備份
8、,最好每兩或三個月做一次備份備份注意事項:進(jìn)行系統(tǒng)備份無須停止業(yè)務(wù),業(yè)務(wù)可以繼續(xù)進(jìn)行。建議客戶進(jìn)行定期的系統(tǒng)備份(使用命令smitty mksysb)??蛻粢部筛鶕?jù)需要利用SMIT對系統(tǒng)的特定的VG或FS進(jìn)行備份。smitty mksysb只備份rootvg中mount起來的文件系統(tǒng),其它文件系統(tǒng)或數(shù)據(jù)并沒有做備份,所以數(shù)據(jù)備份需要另外完成(建議客戶使用TAR格式)在條件允許的情況下,最好有一盤以上備份帶,以防止磁帶損壞。 系統(tǒng)備份過程中有時候會提示有些/tmp目錄下的文件無法備份,顯示如下:Creating list of files to back up.Backing up 34025
9、files.1694 of 34025 files (4%).2733 of 34025 files (8%).backup: 0511-449 An error occurred accessing ./tmp/sh34736.1: A file or directory in the path name does not exist.backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or directory in the path name does not exist.backup: 0511-449
10、 An error occurred accessing ./tmp/sh34736.3: A file or directory in the path name does not exist.15458 of 34025 files (45%).31920 of 34025 files (93%).0512-003 mksysb may not have been able to archive some files.The messages displayed on the Standard Error contained additionalinformation.這是正常現(xiàn)象,備份成
11、功。2.5系統(tǒng)恢復(fù) 當(dāng)系統(tǒng)發(fā)生比較嚴(yán)重的故障以致采取一般性維護(hù)手段不能在短期內(nèi)恢復(fù)原系統(tǒng),在與客戶進(jìn)行蹉商后,可將最近一次的系統(tǒng)備份帶倒回機(jī)器內(nèi)以全面恢復(fù)系統(tǒng)到最近 一次做備份時的系統(tǒng)環(huán)境,然后可將當(dāng)日的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi)。至此,系統(tǒng)可恢復(fù)正常運(yùn)行。此后,客戶應(yīng)當(dāng)與IBM工程師再進(jìn)行整個事件的全面分析與回 顧,以期找到故障發(fā)生的原因,并采取相應(yīng)措施以杜絕類似事件再次發(fā)生。2.6 DUMP當(dāng)系統(tǒng)運(yùn)行出現(xiàn)軟件故障導(dǎo)致系統(tǒng)down機(jī)時,機(jī)器的液晶顯示器會出現(xiàn) 888 102 xxx 0c0 (xxx可能為700或其它),AIX常會將當(dāng)時系統(tǒng)的運(yùn)行情況記錄下來,這就是DUMP。當(dāng)DUMP產(chǎn)生后,請將
12、磁帶放入磁帶機(jī),用命令 # snap -a -o /dev/rmt0將DUMP 文件拷貝到磁帶設(shè)備/dev/rmt0 中。注明磁帶機(jī)的block size, DUMP產(chǎn)生的日期和機(jī)器的型號及序列號。同時,請用# errpt -a /tmp/err.log 將errorlog 記在/tmp/err.log中,并將 /tmp/err.log 和 /tmp/hacmp.* 拷貝到軟盤或磁帶上。將磁帶和軟盤交給IBM工程師。2.7日常檢查服務(wù)器狀態(tài)的項目及其相關(guān)命令1 運(yùn)行l(wèi)sdev 命令配以各種參數(shù),所列各種設(shè)備狀態(tài)都應(yīng)為Available。#lsdev C H S a 列出系統(tǒng)中可用設(shè)備。#lsd
13、ev Cc processor 列出系統(tǒng)中的所有CPU。#lsdev Cc memory 列出系統(tǒng)中的所有內(nèi)存。#lsdev Cc disk 列出系統(tǒng)中的所有硬盤。#lsdev -Cc adapter | grep ent 列出系統(tǒng)中的所有網(wǎng)卡#lsdev -Cc adapter | grep scsi 列出系統(tǒng)中的所有SCSI卡。#lsdev -Cc adapter | grep ssa 列出系統(tǒng)中的所有SSA卡。2 lspv命令#lspv 顯示系統(tǒng)中可用的PV。#lspv hdiskn 顯示hdiskn的具體信息。#lsdev Cc pdisk顯示磁盤陣列的硬盤的具體信息。對SSA硬盤的檢
14、測:在對主機(jī)進(jìn)行工作之前可以先把磁盤陣列上電,等主機(jī)完全啟動后,登錄到主機(jī)上,運(yùn)行以下命令“ lsdev Cc pdisk “,應(yīng)該可以看到所有SSA硬盤,并且狀態(tài)應(yīng)為Available.。3lsattr命令# lsattr E l mem0列出系統(tǒng)中內(nèi)存mem0的大小,本項目中內(nèi)存有4GB。4lsvg命令#lsvg 列出系統(tǒng)中所有的vg。#lsvg rootvg 列出rootvg的詳細(xì)信息。#lsvg o 列出激活的vg5oslevel命令#oslevel 顯示操作系統(tǒng)版本信息。6netstat命令#netstat in 顯示系統(tǒng)中各網(wǎng)卡的配置。可查看網(wǎng)卡的IP配置好了沒有。7# diag
15、命令運(yùn)行硬件診斷程序檢測主機(jī)內(nèi)所有硬件,檢測結(jié)果為 “No trouble found ”顯示各部分工作正常。 8使用#diag命令(選擇:Task Selection- SSA Service Aids)對SSA硬盤鏈路連接的校驗,可以通過SSA 工具里的Link Verification 來檢測。如有必要,可以用 Certify Disk運(yùn)行硬盤診斷部分進(jìn)行硬盤的表面分析測試 ,由1% 至100%,檢測結(jié)果顯示主機(jī)內(nèi)置硬盤的所有扇區(qū)均讀寫正常。9lsps a 查看PAGING SPACE的使用情況,如果使用率超過70%,就需要采取措施。10lsvg o | lsvg il | grep i
16、 stale查看有無stale的lv,如果輸入該命令之后有輸出結(jié)果,就需要采取措施11有否發(fā)給root用戶的錯誤報告(mail)。12檢查雙機(jī)狀態(tài):lssrc g cluster 檢查ha三個工作進(jìn)程是否激活,/usr/sbin/cluster/clstat a檢查雙機(jī)狀態(tài)是否up,并檢查hacmp.out日志,看是否有異常信息。13用vmstat, topas,sar 命令檢查系統(tǒng)性能,檢查cpumemoyrIO ,是否存在性能瓶頸。14檢查能否順利進(jìn)入CDE界面,如果不能進(jìn)入的話,要檢查/etc/hosts表中有否錯誤的項目。15用smitty ssaraid 查看磁盤陣列RAID盤的狀態(tài)
17、是否是Good。如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了16用sysdumpdev l 查看系統(tǒng)的DUMP設(shè)置是否正常。17用instfix ik | grep ML當(dāng)前操作系統(tǒng)補(bǔ)丁版本補(bǔ)丁程序(PTF)是否滿足穩(wěn)定運(yùn)行的需要。一般要求433操作系統(tǒng)補(bǔ)丁要打到10以上,5.1操作系統(tǒng)補(bǔ)丁要打到5以上18使用df kP查看磁盤空間占用率,請確保以下文件系統(tǒng)的占用率高于80%立即上報: 2.8性能監(jiān)控與調(diào)優(yōu)通過命令vmstat 1 來觀察.kthr memory page faults cpu- - - - -rb avm frerepipofr srcyin sycs us sy
18、id wa命令解析:vmstat 命令的輸出可以反映系統(tǒng)整體運(yùn)行狀況,包括cpu、內(nèi)存、虛擬頁面、系統(tǒng)進(jìn)程和系統(tǒng)調(diào)用情況。檢查CPU是否為瓶頸,分別檢查CPU的四項數(shù)值和kthr的兩項數(shù)值.檢查MEM是否為瓶頸,分別檢查Memory的兩項數(shù)值和Page 的六項數(shù)值.通過命令 sar mu P ALL 來觀察。命令解析:sar可以用來收集反映系統(tǒng)運(yùn)行狀況,在這里主要是查看CPU的運(yùn)行狀況,CPU是否負(fù)載均衡,是否存在分配不均的情況。通過命令ps gv | more來觀察。PID TTY STATTIME PGINSIZE RSS LIMTSIZ TRS %CPU %MEM COMMAND 0 -
19、 A 4:20 7 12 14516 xx 0 145040.05.0 swapper 1 - A 1:33103 78952 79044 32768 25 360.0 29.0 /etc/ini命令解析:ps可以用來查看進(jìn)程的當(dāng)前狀態(tài)。在這里通過參數(shù)的配搭,可以觀察目前正在運(yùn)行的進(jìn)程所耗的時間,CPU和memory 量.其中,%CPU表示進(jìn)程所占用的CPU資源情況,%MEM表示進(jìn)程所占用的內(nèi)存情況。主要檢查是否有標(biāo)示為的僵尸進(jìn)程耗 用系統(tǒng)資源,以及informix 數(shù)據(jù)庫的oninit進(jìn)程的系統(tǒng)消耗情況。在機(jī)器上用dd命令進(jìn)行磁盤陣列的寫操作校驗,與此同時用iostat 1 dhdiskX觀
20、察磁盤。Disks: % tm_act Kbps tps Kb_read Kb_wrtn命令解析: iostat可以用來查看系統(tǒng)的 I/O的輸入輸出情況,在這里主要查看陣列上的硬盤的每秒讀寫量,同時估算磁盤陣列讀寫速度HHhHhh 。通過命令netstat a進(jìn)行查看。Active Internet connections (including servers)ProtoRecv-QSend-QLocal Address Foreign Address (state命令解析: netstat可以用來查看系統(tǒng)的網(wǎng)絡(luò)情況,在這里主要是查看網(wǎng)絡(luò)客戶端連接的情況和開銷,檢查參數(shù)為state,如有死連接
21、,state狀態(tài)為fin_wait, 這樣耗用系統(tǒng)網(wǎng)絡(luò)資源,從而導(dǎo)致網(wǎng)絡(luò)性能下降構(gòu)成瓶頸。2.9 安全工作守則a.系統(tǒng)定期進(jìn)行系統(tǒng)備份,系統(tǒng)盤建議鏡像。b.當(dāng)有系統(tǒng)變更或進(jìn)行操作系統(tǒng)補(bǔ)丁安裝的時候,必須作一次系統(tǒng)備份。c.在7133和shark發(fā)現(xiàn)有硬盤故障的時候,請?zhí)嵝芽蛻糇⒁猱?dāng)天的數(shù)據(jù)備份。在更換硬盤的時候,請確認(rèn)當(dāng)天數(shù)據(jù)備份已經(jīng)完成。d.在更換敏感的電子元件,時候一定要防靜電。e.在插拔外圍設(shè)備的時候,請把外圍設(shè)備下電。f.在進(jìn)行主機(jī)微碼升級時候,請留意微碼的完整性。 g.在進(jìn)行文件刪除的時候,請留意當(dāng)前路徑是否正確。h.在進(jìn)行文件解壓縮的時候,請留意參數(shù)和路徑。2.10 維護(hù)電話在日常
22、維護(hù)中碰到問題和疑難,可以致電:IBM 免費(fèi)技術(shù)支持保修熱線: 800-810-6677 010-5100客戶技術(shù)咨詢熱線: 800-810-1818IBM廣州分公司聯(lián)系電話: 020- 本帖最后由 mfkqwyc86 于 2010-11-4 12:32 編輯 _#君子務(wù)本,本立而道生。-mfkqwyc86,飛鷹工作室ITPUT個人空間: / -01.【Oracle RAC】Linux + Oracle 11g R2 RAC 安裝配置詳細(xì)過程/viewspace-02.【Oracle RAC】Oracle RA
23、C更改VIP IP地址_2節(jié)點(diǎn)的實驗/viewspace-03.【Oracle RAC】Oracle RAC刪除一個節(jié)點(diǎn)_3節(jié)點(diǎn)的實驗/viewspace-04.【Oracle RAC】Oracle RAC增加一個節(jié)點(diǎn)_3節(jié)點(diǎn)的實驗/viewspace-05.【Oracle RAC+DG】Oracle RAC+ASM+DataGuard配置實驗記錄/viewspace-06.【Oracle RAC】Oracle RAC CRS、
24、OCR、Voting破壞重建/viewspace-07.【Oracle 表分區(qū)管理】Oracle Partition表分區(qū)與分區(qū)索引幾種方式的實驗操作/viewspace-08.【IBM DB2表空間管理】db2表空間管理實例講解之精華/viewspace-09.【IBM DB2補(bǔ)丁升級】從v升級到DB2 v/viewspace-10.【中間件資料下載匯總】WebSphere,MQ,Portal,We
25、bLogic資料下載匯總【PDF格式-共51類】/viewspace-只看該作者 mfkqwyc86 飛鷹工作室 精華貼數(shù) 1 個人空間 400技術(shù)積分 826 (3079)社區(qū)積分 28 (9086)注冊日期 2007-4-28論壇徽章:1#2使用道具發(fā)表于 2010-11-4 12:22 跟貼說明:大家看了以下日常維護(hù)及故障處理匯總方法后,請大家在貼后跟上自己遇到過的錯誤問題,及解決方法!第三類、故障定位、故障排除根據(jù)我們在實際商用系統(tǒng)中碰到問題,我們總結(jié)出了以下幾種常見故障及其定位方式和解決方法。3.1硬件故障硬件故障有很多種,對系統(tǒng)產(chǎn)生的影響也
26、不一樣,這里按其故障對系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功能的硬件故障兩類進(jìn)行硬件分類:其損壞對系統(tǒng)產(chǎn)生致命影響(將使機(jī)器宕機(jī)或無法啟動)的硬件包括:主板、CPU、I/O柜(包含本地盤、光驅(qū)、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜與CEC柜的接線、電源模塊、風(fēng)扇、本地硬盤、內(nèi)存損壞等等注:I/O柜和CEC柜一般在比較高端的小型機(jī)才有,如M80,低端的是合一的。這些設(shè)備的損壞等將使系統(tǒng)無法完成自檢、引導(dǎo)和啟動,液晶顯示屏上都將有錯誤信息,可根據(jù)液晶顯示屏上的錯誤碼對照Service Guide查的錯誤原因,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,則系統(tǒng)將
27、被掛起或宕機(jī)。其損壞對僅對系統(tǒng)產(chǎn)生功能影響(機(jī)器不會宕機(jī)并能正常啟動)的硬件包括:網(wǎng)卡、本地硬盤有壞塊、顯卡、SSA卡和其他外圍設(shè)備這些設(shè)備的損壞只影響特定功能,如網(wǎng)絡(luò)功能、顯示功能、訪問磁陣的功能等,對于本地硬盤有壞塊的情況,則要看壞塊中是否包含了重要的系統(tǒng)文件,如果不是重要系統(tǒng)文件,則系統(tǒng)功能不受影響,但也建議立即更換該硬盤。故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的錯誤碼或:errpt dH 查看到根據(jù)錯誤碼確定是什么硬件出了故障,對商用系統(tǒng)來講,由于是雙機(jī)系統(tǒng),如果損壞機(jī)器是主機(jī)可以將此服務(wù)器切換成備機(jī),然后修復(fù)故障機(jī)器,恢復(fù)系統(tǒng)。3.2磁陣故障磁陣引起的故障是目前碰到的最
28、頻繁、危害最大的故障,據(jù)不完全統(tǒng)計,其故障覆蓋到總故障的70%以上,具體來講,可能引起磁陣故障的環(huán)節(jié)包括:磁陣硬盤、7133柜子、主機(jī)上的SSA卡、連接7133與主機(jī)的SSA線、硬盤的位置和ssa線的接線方式、以及盤柜使用的電壓及周圍磁場、磁陣/硬盤/ssa卡的微碼等都可能造成7133的異常。7133磁陣的問題是最復(fù)雜的,一般有物理損壞的原因也有環(huán)境原因,這是主因,如接線、插盤位置不符合要求、未及時查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按 照我們的經(jīng)驗,不管是什么硬件故障導(dǎo)致7133故障,系統(tǒng)都會產(chǎn)生告警,如果能及時發(fā)現(xiàn)問題并采取措施,一般都能防止故障的發(fā)生。故障定位:7133硬件故障也可以使用:
29、errpt dH 查看到伴隨的錯誤碼有:B4C00618 P H ssa0 RESOURCE UNAVAILABLEFE9E9357 P H ssa0 DISK OPERATION ERRORFE9E9357 P H pdisk3 DISK OPERATION ERROR03913B94 U H LVDD HARDWARE DISK BLOCK RELOCATION ACHIEVED613E5F38 P H LVDD I/O ERROR DETECTED BY LVM625E6B9A P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK26CA120B P H
30、ssa0 CACHE STORAGE CARD所有的錯誤碼都預(yù)示著7133有異常,紅色部分則表示肯定出現(xiàn)了硬件故障,需要立即進(jìn)行檢查并采取措施,否則磁陣將很快不能訪問。對于藍(lán)色部分:625E6B9A P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK表示ssa出現(xiàn)了開環(huán),出現(xiàn)開環(huán)不僅影響IO性能,也增加了風(fēng)險,即如果另一個環(huán)路也出現(xiàn)問題,將不能訪問磁陣。開環(huán)一般有兩種情況:1)如果625E6B9A報錯比較頻繁,如每天幾次,則表示系統(tǒng)很有可能出了硬件故障,雖然不會導(dǎo)致訪問磁陣失敗,但需要立即查出原 因并解決。查錯方法可以參考下面的描述。2)如果 625E6B9A
31、錯誤偶爾報一次,則要具體情況具體對待,有可能是讀寫忙出現(xiàn)的誤報,也按下面方法進(jìn)行排查,如果沒有查出具體的原因,則可以繼續(xù)觀察。26CA120B P H ssa0 CACHE STORAGE CARD該錯誤一般是在:SSA卡帶write cache并打開FastWrite,而ssa卡上用于write cache供電的可充電鎳鎘電池達(dá)到或接近安全壽命的情況下產(chǎn)生的。這類錯誤產(chǎn)生將影響IO寫性能,并且由于在FastWrite打開的情況下,主備機(jī)需 要同步ssa卡上的write cache,所以甚至?xí)绊懙街鱾錂C(jī)同步。具體解決方法可參考下文。故障排除:對于紅色部分錯誤的問題排除,一般可以使用diag命
32、令進(jìn)行進(jìn)一步診斷:#diag - Task Selection - SSA Service Aids - Link Verification 檢查環(huán)路中是否出現(xiàn)了?的盤符或狀態(tài)不是good的硬盤或使用:#smitty ssaraid - List All Defined SSA RAID Arrays查看磁盤陣列RAID盤的狀態(tài)是否是Good。如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了這時候不建議再進(jìn)行單獨(dú)硬盤的Certify,而是趕緊通知IBM準(zhǔn)備好相同型號和大小的硬盤(至少兩塊)到現(xiàn)場進(jìn)行進(jìn)一步的診斷和壞盤更換。625E6B9A P H ssa0 ADAPTER DETECTE
33、D OPEN SERIAL LINK的排查方法:1、要求將7133中未插硬盤的槽位全部插上dummy盤。 (dummy盤:啞元盤,就是那個空殼子,相當(dāng)于代替SSA硬盤裝在磁盤陣列的塑料模型,當(dāng)磁盤陣列的16個槽位沒有被SSA硬盤插滿時才用到.)2、看看Loop狀態(tài):diag-Task Selection-SSA Service Aids-Link Verification.正常Adapter Port下的兩列數(shù)字是連續(xù)不間斷的排列,且Status都為good,如果Physical列有?符號.或Status不是good,則說 明已經(jīng)存在硬盤或鏈路故障,這種情況則要立即采取行動,做進(jìn)一步檢查以確定
34、是否要更換硬盤。檢查單盤是否有問題的方法如下: diag-Task Selection-SSA Service Aids-Certify Disk 選擇認(rèn)為存在故障的硬盤進(jìn)行檢查3、如果7133存在硬件故障時,可從狀態(tài)燈上觀察到: 當(dāng)單塊硬盤出現(xiàn)故障或未被使用時,其面板上的硬盤狀態(tài)燈會不亮 陣列的狀態(tài)燈黃燈會亮 或接SSA線的端口的指示燈也會熄滅如果通過以上三種方法都未發(fā)現(xiàn)問題,而系統(tǒng)仍報Open Serial Link錯誤,建議繼續(xù)跟蹤。26CA120B P H ssa0 CACHE STORAGE CARD的處理方法:背景介紹: IBM小型機(jī)上連接7133磁陣所配置的SSA卡一般都帶有一塊
35、充電電池,該電池用于在突然停電的情況下保護(hù)ssa卡上的fast write cache中的信息不丟失,這塊電池的安全壽命一般是22000小時,差不多兩年半的時間,也就是說,當(dāng)fast write模式啟動的情況下,一般兩年半以后需要更換這塊電池。問題表現(xiàn): 對ssa卡上的電池保護(hù)是通過卡上的一個計數(shù)器實現(xiàn)的,每運(yùn)行一小時該計數(shù)器會增加一,當(dāng)該計數(shù)接近或超過22000時,系統(tǒng)會有26CA120B硬件報警:26CA120B P H ssa1 CACHE STORAGE CARD 可以用如下命令檢查ssa卡上的狀態(tài):(-a 后帶上卡的邏輯設(shè)備名,這里假設(shè)是ssa0) ssa_fw_status -a
36、ssa0-p (檢查電池已經(jīng)工作的時間,小時為單位) ssa_fw_status -a ssa0-l (檢查電池安全工作壽命,小時為單位) ssa_fw_status -a ssa0-c (檢查ssa卡上的fast write功能是否被激活)處理步驟: (按優(yōu)選方式列出,從中選擇一種即可)1)更換電池選擇系統(tǒng)閑時,更換主備機(jī)ssa卡電池,可以采用:停備機(jī)更換備機(jī)ssa卡電池起備機(jī)(雙機(jī)服務(wù))主備倒換停原主機(jī)更換原主機(jī)ssa卡電池起原主機(jī)(雙機(jī)服務(wù))2)如果系統(tǒng)出現(xiàn)26CA120B電池告警,使用ssa_fw_status -a ssa0-c 檢查主用ssa卡(一般是ssa0)的Fast Writ
37、e是否處于inactive(未被激活)狀態(tài),如果是,則以root執(zhí)行如下命令: ssa_format -l ssa0 -b errclear 0 /usr/lib/errstop /usr/lib/errdemon 可以暫緩更換電池時間,等有電池后再更換,但這段時間對磁陣讀寫性能會有所影響。3)如果短期內(nèi)不能更換電池,同時主機(jī)主用卡的Fast Write仍然處于Active狀態(tài),建議手工屏蔽fast write功能 1)先停止雙機(jī) 2)在1號機(jī)修改hdisk該屬性: smitty dev-ssa disks-ssa logical disks-change /show characters o
38、f . - choose hdisk2 - fast write no 3)在1號機(jī)激活卷組 varyonvg zxinvg 4)在1號機(jī)去激活卷組 varyoffvg zxinvg 5)在2號機(jī)上執(zhí)行 smitty dev-ssa disks-ssa logical disks-change /show characters of . - choose hdisk2 - fast write no 檢查fast write是否已經(jīng)改為no (只要1號機(jī)做了2好機(jī)就不用再修改了) 6)在2號機(jī)上執(zhí)行 rmdev -dl hdisk2 cfgmgr -v 7)在2號機(jī)上執(zhí)行 lspv(查看hdi
39、sk2是否已找到) 8)然后執(zhí)行 varyonvg zxinvg varyoffvg zxinvg 9)重新啟動雙機(jī) B4C00618 P H ssa0 RESOURCE UNAVAILABLE而不伴隨其他紅色標(biāo)出錯誤的情況,則通過以下方式排查:可能是hdisk中將enable user of hot spare打開了,而實際并沒有配置hot spare盤,可以通過如下方式解決:檢查RAID的狀態(tài):#smitty ssaraid list all defined SSA RAID arrays : all are in status good (ssa0 ) 檢查是否配置了hot spare:
40、list/identify SSA Physical disks-List hot spares : none修改每個ssa卡所配置的hdisk的屬性:: set enable use of hot spare to no然后再執(zhí)行:# /usr/lib/errstop# cp /var/adm/ras/errlog /var/adm/ras/errlog.bak#/usr/lib/errdemon#errclear 0對于物理硬盤的接法可參考如下說明:(有可能老局未配置hot spare,則連線方法按未配置hot spare盤的個數(shù)計算)分以下幾種情況講述:1) 數(shù)據(jù)盤小于等于6塊,建議配置
41、一塊hotspare2) 數(shù)據(jù)盤大于等于8塊小于等于10塊,建議配置兩塊hotspare3) 數(shù)據(jù)盤大于等于12塊小于等于14塊,建議配置兩塊hotsparel 數(shù)據(jù)盤小于等于6塊,配置一塊hotspare的接線和配置規(guī)則:a) 主機(jī)A1、A2接磁陣1、8位置;備機(jī)A1、A2接磁陣4、5位置b) 保證磁陣前排1458硬盤位置一定要插盤,其余的盤可以挑空位插,注意1-4、5-8兩側(cè)的數(shù)據(jù)盤保持軸對稱關(guān)系插入(如1和8是軸對稱的、4和5是軸對稱的)c) 沒有插硬盤的位置一定要插上dummy盤d) 做RAID01時,考慮到性能問題,請將1-4、5-8以軸對稱方式一一對應(yīng)做硬盤鏡像,舉例如下:ibm對
42、pdisk的排序與實際的物理位置是不同的,所以必須先通過lsdev -C |grep pdisk的方式找出其對應(yīng)關(guān)系并記錄下來,如:pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drivepdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drivepdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drivepdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Dri
43、ve看第三列中間字符中有-01-的字樣,表示其物理硬盤位置,以上對應(yīng)關(guān)系表示pdisk0-pdisk3對應(yīng)的物理槽位分別是前排1548的位置,所以在使用smitty ssaraid做RAID0+1時,需將18位置的硬盤(pdisk0/pdisk3)做成鏡像、45位置的硬盤(pdisk2/pdisk1)做成 鏡像,所以選擇Primary Disks/Secondary Disks時如下:smitty ssaraid- Add an SSA RAID Array - .Primary Disks 需要選擇:pdisk0 pdisk2 - 14槽位的硬盤作為主盤Secondary Disks 需要選
44、擇:pdisk3 pdisk1 - 85槽位的硬盤作為從盤該要求只是從性能考慮,并不增加其他特性。e) hot spare盤插入位置可以找前排8個位置中的空位插入即可。無特殊位置要求,制作方法如下:使用lsdev -C |grep pdisk方式找出其pdisk號,如pdisk5 然后使用如下方式將其做成hot spare盤。smitty ssaraid-Change Use of Multiple SSA Physical Disks-選擇ssa卡(連接磁陣的ssa卡,缺省為ssa0)-選擇作為hotspare的pdisk,如pdisk6 -New Use-選擇 hot spare 按回車創(chuàng)
45、建即可l 數(shù)據(jù)盤大于等于8塊小于等于10塊,配置兩塊hotspare的接線和配置規(guī)則:a) 主機(jī)A1、A2接磁陣1、12位置;備機(jī)A1、A2接磁陣8、9位置b) 保證磁陣前排18位置插滿數(shù)據(jù)盤,9-12位置的數(shù)據(jù)盤和hot spare盤位置可任意。c) 沒有插硬盤的位置一定要插上dummy盤d) 做RAID01時,考慮到性能問題,請將1-4、5-8以軸對稱方式一一對應(yīng)做硬盤鏡像,9-12位置中有數(shù)據(jù)盤的,將其對應(yīng)做鏡像,其余兩塊做hot spare,舉例如下:ibm對pdisk的排序與實際的物理位置是不同的,所以必須先通過lsdev -C |grep pdisk的方式找出其對應(yīng)關(guān)系并記錄下來,
46、如:pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drivepdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drivepdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drivepdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drivepdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drivepdi
47、sk5 Available 11-08-1641-03-P SSA160 Physical Disk Drivepdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drivepdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drivepdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drivepdisk9 Available 11-08-1641-11-P SSA160 Physical Disk Drivepdisk10
48、Available 11-08-1641-10-P SSA160 Physical Disk Drivepdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive看第三列中間字符中有-01-的字樣,表示其物理硬盤位置,以上對應(yīng)關(guān)系表示pdisk0-pdisk11對應(yīng)的物理槽位分別是154823769111012的位置,所以在使用smitty ssaraid做RAID0+1時,前面八塊盤按1-4、5-8軸對稱方式對應(yīng)做mirror,9-12中如選擇 9(pdisk8)/12(pdisk11)位置做mirror所以選擇Primary D
49、isks/Secondary Disks時如下:smitty ssaraid- Add an SSA RAID Array - .Primary Disks 選擇:pdisk0 pdisk4 pdisk5 pdisk2 pdisk8 物理1-4,9槽位Secondary Disks選擇:pdisk3 pdisk6 pdisk7 pdisk1 pdisk11物理8-5,12槽位該要求只是從性能考慮,并不增加其他特性。e) 剩余物理位置10(pdisk10)/11(pdisk9)盤做成hot spare,方法同上e)步驟 l 數(shù)據(jù)盤大于等于12塊小于等于14塊,配置兩塊hotspare的接線和配置規(guī)則:a)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項目工程基礎(chǔ)課程設(shè)計
- 2025年度旅游景區(qū)導(dǎo)游旅游安全責(zé)任合同4篇
- 2024淘寶年度平臺安全防護(hù)與隱私保護(hù)服務(wù)合同3篇
- 2025年度大理石石材翻新與維修服務(wù)合同3篇
- 二零二五版旅游企業(yè)導(dǎo)游崗位聘用合同3篇
- 2025年度老舊房屋拆除工程安全施工合同范本協(xié)議書4篇
- 二零二五年度煤炭運(yùn)輸合同環(huán)保評估協(xié)議4篇
- 二零二五版國際貿(mào)易跨境支付結(jié)算安全合同3篇
- 二零二五產(chǎn)學(xué)研合作開發(fā)合同:智能網(wǎng)聯(lián)汽車技術(shù)共享協(xié)議4篇
- 二零二四年分公司云計算服務(wù)協(xié)議3篇
- 春節(jié)英語介紹SpringFestival(課件)新思維小學(xué)英語5A
- 進(jìn)度控制流程圖
- 2023年江蘇省南京市中考化學(xué)真題
- 【閱讀提升】部編版語文五年級下冊第四單元閱讀要素解析 類文閱讀課外閱讀過關(guān)(含答案)
- 供電副所長述職報告
- 現(xiàn)在完成時練習(xí)(短暫性動詞與延續(xù)性動詞的轉(zhuǎn)換)
- 產(chǎn)品質(zhì)量監(jiān)控方案
- 物業(yè)總經(jīng)理述職報告
- 新起點(diǎn),新發(fā)展心得體會
- 深圳大學(xué)學(xué)校簡介課件
- 校園欺凌問題成因及對策分析研究論文
評論
0/150
提交評論