IBM rs6000小型機故障的基本定位方法

上傳人：7*** IP屬地：湖北上傳時間：2022-01-23 格式：DOC 頁數(shù)：34 大?。?5KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩29頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、RS/6000小型機故障的基本定位方法一故障的定義.弄清楚系統(tǒng)發(fā)生了什么問題.系統(tǒng)現(xiàn)在能做什么不能做什么.故障什么時候發(fā)生的 .有沒有做平時不同的操作.故障有沒有規(guī)律定時還是不定時發(fā)生的頻率有多高.是一臺機器出現(xiàn)故障還是多臺機器故障故障現(xiàn)象是否相同.最近有沒有做改動如安裝了新的硬件軟件改變了系統(tǒng)的一些設(shè)置二故障信息的收集1 收集故障信息對于判斷診斷故障原因修復(fù)系統(tǒng)非常重要2系統(tǒng)故障記錄(errorlogerrdemon 進程在系統(tǒng)啟動時自動運行記錄包括硬件軟件及其他操作信息故障記錄文件為/var/adm/ras/errlog可備份下來或拷貝到別的機器上分析 errpt 命令的使用(普通用戶

2、權(quán)限也可使用 #errpt |more 列出簡短出錯信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED 1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 04

3、05130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日時分年T 類型: P 永久; T 臨時; U未知永久性的錯誤應(yīng)引起重視C 分類: H 硬件; S 軟件; O 用戶; U未知 #errpt -d H 列出所有硬件出錯信息#errpt -d S 列出所有軟件出錯信息#errpt -aj ERROR_ID 列出詳細(xì)出錯信息# errpt -aj 0502f666<- ERROR_ID用大小寫均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Se

4、quence Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD:<- Virtal Product DataDevice Driver Level.00Diagnostic Level.00Displayable Message.SCSIEC Level.C25928FRU Number.30F8834Manufacturer.IBM97FPart Number.59F4566Serial N

5、umber.00002849ROS Level and ID.24Read/Write Register Ptr.0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DAT

6、A0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 3控制面板上的LED 代碼.8位代碼通常系統(tǒng)故障燈會同時亮起某些機型還會同時顯示故障設(shè)備位置代碼 .4 位代碼通常是Exxx.3 位代碼通常為0yyy 只看后3位.8 位和4位代碼可查看系統(tǒng)服務(wù)手冊 (Service Guide3 位代碼可查看系統(tǒng)診斷手冊(Diagnostic Information for Multiple BusSystem. 閃動的 888, 系統(tǒng)崩潰硬件或軟件原因造成按reset 鍵會顯示更多內(nèi)容888-102 一般為軟件故障888-102-20

7、7 例外系統(tǒng)會產(chǎn)生一個dump888-102-xxx-0C9 系統(tǒng)正在做dump, 請等待888-102-xxx-0C0 系統(tǒng)dump 完成可關(guān)電重啟888-103 或 105硬件故障一般有 SRN代碼及位置代碼4SMS (System Management Service 故障記錄如何進入SMS 菜單當(dāng)主控臺出現(xiàn)鍵盤圖標(biāo)后(LED 顯示E 1F 1時按1鍵選擇"Utilities"選擇"Error Log", 抄下8位故障代碼在SMS 中還可以更改系統(tǒng)啟動順序表5 MAIL #mail系統(tǒng)會向root 用戶發(fā)mail報告出錯信息通常系統(tǒng)出現(xiàn)故障后沒

8、有進行檢查修復(fù)系統(tǒng)會定時提醒root 6運行故障診斷程序(Diagnostic對系統(tǒng)硬件進行檢查和診斷當(dāng)發(fā)現(xiàn)有硬件故障時應(yīng)立即使用diag#diag> 選高級診斷Advance Diagnostic> 選問題診斷Problem Determination 或選系統(tǒng)檢查System Verification(選PD 會對系統(tǒng)錯誤記錄進行分析diag 運行后會給出SRN 代碼故障設(shè)備名稱及百分比地址代碼等對于PCI 機型應(yīng)在系統(tǒng)報錯7天之內(nèi)運行diag 程序?qū)Τ鲥e記錄里的sense 數(shù)據(jù)進行分析7其他用于收集系統(tǒng)信息的命令lsdev -C 系統(tǒng)設(shè)備信息#lsdev -Cc diskhd

9、isk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk 1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk 1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷組信息#lsvg datavgVO

10、LUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(sVG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytesLVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PV

11、s: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A.lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件組信息# lslpp -L |grep 23100020.de

12、vices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某個文件組是否已安裝如以太網(wǎng)卡驅(qū)動也用于查詢補丁程序的版本lsattr 查看設(shè)備參數(shù)設(shè)置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE

13、queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD 信息Virtual Product Data# lscfg -vl ssa1DEV

14、ICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500Part Number.097H0645FRU Number.097H0645 <- 備件號Serial Number.C8217227EC Level.0000F20825Manufacturer.IBM053ROS Level and ID.7201 <- 微碼版本 Loadable Microcode Level.04Device Driver Level.00Displayable Message.SSA-ADAPTERDevi

15、ce Specific.(Z0.DRAM=032Device Specific.(Z1.CACHE=0Device Specific.(Z2.000000062955dab2Device Specific.(YL.P2-I7 <- 槽號不同的硬件設(shè)備有不同的VPD 所含的格式和信息都不一樣通常備件號和微碼版本最有參考價值注FRU(Field Replace Unit才是真正的備件號三硬件故障定位方法IBM 小型機故障定位方法包括小型機I/O柜上的顯示面板上的Checkpoints信息Error Code 和SRNs Checkpoints Checkpoints 檢查點是系統(tǒng)加電CMO

16、S 初始化程序(initial program load (IPL運行后顯示在 I/O柜的顯示面板上一系列信息IPL 流程當(dāng)交流電源接到系統(tǒng)后IPL 流程就開始了IPL 流程包括四個步驟. Phase Phase 1: Service Processor 的初始化Phase 1 開始于交流電源接到系統(tǒng)后直到OK 顯示在I/O柜上的顯示面板上為止在這個步驟會顯示 8xxx 或9xxx checkpoints代碼 . Phase 2: Phase 2: 由 Service Processor 引導(dǎo)的硬件初始化 Phase 2 開始于按下I/O柜上的白色電源開關(guān)在這個步驟會顯示 9xxxcheckp

17、oints 91FF 是最后的代碼標(biāo)志著第三步驟的開始 . Phase 3: Phase 3: 系統(tǒng)固件的初始化在 Phase 3, 一個系統(tǒng)處理器接管控制并繼續(xù)初始化系統(tǒng) 資源在這個步驟會顯示 ExxxE 105是最后的代碼標(biāo)志著第四步驟AIX 啟動的開始在這個過程中還會顯示各種位置碼位置碼代表著系統(tǒng)的每一個部分. Phase 4: AIX Phase 4: AIX 啟動當(dāng)AIX 開始啟動時顯示面板上的代碼為 0xxx 同時位置碼會出現(xiàn)在第二行當(dāng)AIX 的登錄窗口出現(xiàn)在控制臺上時第四步驟結(jié)束同時顯示面板上再無任何信息出現(xiàn)Error Code當(dāng)系統(tǒng)運行有錯誤發(fā)現(xiàn)時一個8位碼會顯示在顯示面

18、板上同時在第二行顯示相對應(yīng)問題硬件的位置碼SRNs Service request numbers,服務(wù)請求碼當(dāng)系統(tǒng)運行有錯誤發(fā)現(xiàn)時SRNs 碼會以 xxx-xxx的形式顯示在顯示面板上同時在AIX 的error log中也會有記載以上所有代碼都會有相應(yīng)的步驟解決由于代碼繁多請在出現(xiàn)問題后記錄下代碼并致電IBM 服務(wù)熱線系統(tǒng)的啟動順序: . 系統(tǒng)不能啟動系統(tǒng)停在Stage 1可能為電源系統(tǒng)板CPU 內(nèi)存等硬件故障記錄故障代碼通知IBM 工程師系統(tǒng)停在Stage 2可能是啟動順序表(bootlist損壞或I/O子系統(tǒng)故障可嘗試進入SMS 菜單檢查啟動順序表并修改若在選擇bootlist 時沒

19、有硬盤設(shè)備可選或顯示的硬盤信息不正確則可能是硬盤故障若根本沒有SCSI 設(shè)備可選則鏈路有問題系統(tǒng)停在Stage3可能是硬盤數(shù)據(jù)損壞系統(tǒng)設(shè)置文件出錯或I/O子系統(tǒng)故障. 系統(tǒng)停在551555或557發(fā)生在系統(tǒng)啟動的第三階段 (Stage 3可能是文件系統(tǒng)損壞文件系統(tǒng)日志(jfslog損壞rootvg 中有壞硬盤修復(fù)方法用系統(tǒng)光盤或系統(tǒng)備份帶啟動必須與硬盤中的操作系統(tǒng)版本一致啟動后選擇選項3"Start Maintenance Mode for System Recovery"> "Access a Root Volume Group"> &q

20、uot;Access this volume group and start a shellbefore mounting the file systems"格式化文件系統(tǒng)日志(jfslog# /usr/sbin/logform /dev/hd8檢查修復(fù)文件系統(tǒng)# fsck -y /dev/hd1 /home 文件系統(tǒng)# fsck -y /dev/hd2/usr文件系統(tǒng)# fsck -y /dev/hd3/tmp 文件系統(tǒng)# fsck -y /dev/hd4/ 文件系統(tǒng)# fsck -y /dev/hd9var/var文件系統(tǒng) . . 用 exit 命令退出文件系統(tǒng)會自動 mount

21、起來重建bootimage# lslv -m hd5 找出bootimage 所在的硬盤如hdisk0# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0 重建啟動順序表重啟動系統(tǒng)# shutdown -Fr如上述步驟不奏效用系統(tǒng)備份帶恢復(fù)系統(tǒng)如備份帶不能恢復(fù)用診斷光盤Diagnostic CDROM檢查是否壞硬盤.CDE 圖形界面掛死CDE 運行時不要更改網(wǎng)絡(luò)參數(shù)如主機名和IP 地址更改網(wǎng)卡設(shè)置請先退出CDE 圖形環(huán)境選擇命令行方式登錄在字符界面下更改如CDE 已經(jīng)掛死遠(yuǎn)程 telnet 登錄找出所有dt 有關(guān)的進程用kill

22、命令殺掉# ps -ef |grep dt. .# kill PID檢查當(dāng)前主機名# hostnametscf50查看主機名是否對應(yīng)有效的IP 地址# netstat -i |grep tscf50tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0更改主機名或IP 地址使主機名與當(dāng)前有效的IP 地址存在對應(yīng)關(guān)系# smitty tcpip重新啟動CDE 界面HACMP 環(huán)境下可把主機名alias 到127.0.0. 1上# cat /etc/hosts127.0.0. 1 loopback localhost tscf50 # loopback (lo0

23、 name/addressbvg. 系統(tǒng)dump 發(fā)生在系統(tǒng)崩潰時AIX 會做dump(系統(tǒng)內(nèi)存的快照此時機器會顯示閃動的888 102 xxx 0cx 代碼0c9系統(tǒng)dump 進行中0c9狀態(tài)可能會維持超過2分鐘不要關(guān)電和按reset, 等待dump 做完0c0dump 成功完成這時可以斷電重起0c2 手動啟動dump 功能 0c4dump 設(shè)備空間不足只有部分信息保存下來0c5 不明原因?qū)е耫ump 失敗一般dump 是由于軟件出錯引起(888-102-207 除外機器通?？梢灾貑⒅貑r可能提示用戶插入磁帶拷貝dump 文件不要選擇退出這樣會丟失重要的故障信息dump 的有關(guān)設(shè)置估算系統(tǒng)

24、dump 的大小在系統(tǒng)最繁忙時內(nèi)存使用最多# sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376# lsps -aPage Space Physical Volume Volume Group Size %Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes當(dāng)前的設(shè)置#sysdumpdev -lprimary /dev/hd6<- dump的主設(shè)備secondary /dev/sysdumpnullcopy director

25、y /var/adm/ras<- dump拷貝的目錄forced copy flag TRUEalways allow dump TRUEhd6應(yīng)比估算值稍大/var/adm/ras 是默認(rèn)的dump 拷貝目錄比較估算值保證/var文件系統(tǒng)有足夠的剩余空間拷貝dump 文件否則機器重起時會提示用戶插入磁帶 dump 文件名為vmcore.#對PCI 機型如要手動做dump 須把" always allow dump" 先設(shè)成true# sysdumpdev -Kdump 打包# snap -a -o /dev/rmt#或# snap -a -c 把/tmp/ibmsu

26、pt目錄做成一個壓縮文件snap.tar.Z 如果/tmp文件系統(tǒng)空間不夠可用-d directory 參數(shù)指定別的目錄代替/tmp/ibmsupt四 7133-D40 SSA磁盤柜的故障定位當(dāng)SSA 磁盤柜出現(xiàn)故障時在磁盤柜前面板的液晶顯示屏上會顯示相應(yīng)的SRNs SRNs, 同時黃色的顯示燈會閃動在AIX 的error log中也會有記載錯誤信息如DISK_ERR1DISK_ERR4SSA_ARRAY_ERROR等請在出現(xiàn)問題后記錄下代碼并致電IBM 服務(wù)熱線五軟件故障定位方法軟件故障情況錯綜復(fù)雜下面列舉幾個常見案例的故障處理方法1文件系統(tǒng)空間不夠查看有沒有滿的文件系統(tǒng)特別是 /

27、 /var /tmp不要超過 90%文件系統(tǒng)滿可導(dǎo)致系統(tǒng)不能正常工作尤其是AIX 的基本文件系統(tǒng)如/ (根文件系統(tǒng) 滿則會導(dǎo)致用戶不能登錄用df k 查看# df -k (查看AIX 的基本文件系統(tǒng)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /

28、tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系統(tǒng)其他文件系統(tǒng)都不應(yīng)太滿一般不超過80%處理方法1刪除垃圾文件# du -sk * |sort -rn |head查找出當(dāng)前目錄下占空間最大的子目錄逐層往下直到找出占空間最大的文件要區(qū)分哪些目錄是文件系統(tǒng)的 mount point哪些是文件系統(tǒng)的子目錄刪除文件釋放空間有時刪除文件后空間并不馬上釋放這是由于你刪除的文件正被某個程序打開只有當(dāng)這個程序停止后空間才釋放有時甚至需要重起系統(tǒng)處理方法2增加文件系統(tǒng)大小# smitty chjfs文件系統(tǒng)可以在任何時候加大前提是卷組(VG中有剩余空間2 檢查文

29、件系統(tǒng)的完整性# umount filesystem_name# fsck -y filesystem_name注意文件系統(tǒng)必須先umount 再做檢查和修復(fù)否則可導(dǎo)致未知的后果3查看卷組信息(lsvg -l vg_name有沒有"stale" 狀態(tài)的邏輯卷若有用syncvg 命令修復(fù)"stale" 邏輯卷4檢查內(nèi)存交換區(qū)(paging space使用率(lsps -s使用率是否超過70%若有則用chps sX pgname增加X 個PP 或用 mkps a n sX myvg在myvg 上增加一個PP 數(shù)為X 的內(nèi)存交換區(qū)5 小型機內(nèi)存泄漏問題程就會造

30、成系統(tǒng)癱瘓通常我們可以用ps 和sar 命令來查看小型機內(nèi)存和CPU 占用率的大概情況以及各進程的內(nèi)存和CPU 占用率的發(fā)展趨勢(a ps# ps gv|head -n 1; ps gv|egrep -v "RSS" | sort +6b -7 -n -r |head -n 5PID TTY STAT TIME PGIN SIZE RSS SIZE RSS SIZE RSS LIM TSIZ TRS %CPU %MEM %MEM4.0 ./backups10256 pts/1 A 0:00 0 5692 15628 15692 32768 5 24 0.0 .04.0 kp

31、rocSIZESIZE virtual size (in the pagingspace, in kilobytes,RSSRSS real-memory (resident set size in kilobytes of the process.通過不同時間輸出的比較就能觀察出內(nèi)存和CPU 占用率的基本情況找出其中占用內(nèi)存數(shù)不斷變大的進程這個進程可能就已經(jīng)發(fā)生了內(nèi)存泄漏(b sar 指令也可以查看CPU 占用率但統(tǒng)計的結(jié)果不是很準(zhǔn)確通常使用sar 令的格式為#sar -P ALL 2 1009:29:37 cpu %usr %sys %wio %idle09:29:39 0 0 0 4 9

32、51 1 0 4 95- 0 0 4 9509:29:41 0 0 2 6 921 3 4 2 91- 2 3 4 9209:29:43 0 3 1 2 941 2 2 2 95- 2 1 2 9409:29:45 0 2 2 7 901 4 5 6 86- 3 3 6 8809:29:47 0 1 1 2 961 1 2 2 96- 1 1 2 9609:29:49 0 0 0 0 1001 0 1 0 99- 0 0 0 10009:29:51 0 2 0 0 981 0 1 0 98- 1 0 0 9809:29:53 0 7 1 6 861 2 2 5 90- 5 2 5 8809:2

33、9:55 0 4 5 56 351 12 2 55 32- 8 4 55 3309:29:57 0 16 8 14 641 15 9 11 65- 15 8 12 64Average 0 3 2 10 851 4 3 8 85- 4 2 9 85表示2秒鐘輸出一次結(jié)果總共有10次結(jié)果然后平均目前如果發(fā)現(xiàn)內(nèi)存泄漏最好重新啟動系統(tǒng)六 HACMP環(huán)境下的排錯在一般情況下,HACMP 軟件很少需要手工干預(yù), 但一旦有問題發(fā)生, 診斷和恢復(fù)的技巧是很重要的. 需要能很快地斷定問題然后運用你對HACMP 的理解來恢復(fù)HACMP 的正常運作.一般地,HACMP 環(huán)境下的排錯包括:.了解問題的存在.判斷問題的

34、出處.解決問題.一了解問題的存在您可以通過以下途徑了解到一個CLUSTER 環(huán)境下出現(xiàn)了問題.最終用戶的投訴, 他們無法訪問應(yīng)用程序.控制臺上出現(xiàn)一些HACMP 的信息.1. 應(yīng)用服務(wù)無法訪問最終用戶的抱怨通常預(yù)示CLUSTER 出現(xiàn)了問題. 他們無法正常執(zhí)行應(yīng)用或是無法登錄到系統(tǒng). 我們必須采集到詳細(xì)的信息以判斷到底那里出現(xiàn)了問題. 是否有錯誤的信息提示? 如果可能的話, 讓用戶重復(fù)步驟以確定那里是錯誤的開始. 您也可以在自己的系統(tǒng)上重復(fù). 要知道用戶應(yīng)用不可用并不代表HACMP 有問題. 問題可能出現(xiàn)在應(yīng)用程序本身或是它的啟動或終止腳本出現(xiàn)了問題. 因此應(yīng)用程序本身的排錯也應(yīng)是HA 排錯

35、的一部分.2. 控制臺上出現(xiàn)一些HACMP 的信息在HACMP 啟動, 終止或出錯時, 控制臺上會出現(xiàn)一些HACMP 的信息, 同時也會寫入相應(yīng)的文件中.二判斷問題的出處當(dāng)錯誤出現(xiàn)時, 我們應(yīng)嘗試發(fā)現(xiàn)錯誤的所在. 但我們常常被錯誤的表面所誤導(dǎo). 以下的步驟可以使我們得到更詳細(xì)的信息.1. 保存好一些LOG 文件.(/tmp/hacmp.out & /tmp/cm.log.因為它們可能被覆蓋.2. 仔細(xì)檢查HACMP 所產(chǎn)生的LOG 文件. 它們能提供最初的判斷線索.3. 用HACMP 的工具和AIX 的命令來檢查HACMP 的部件是否正常.4. 打開HACMP 的跟蹤工具來產(chǎn)生更詳細(xì)

36、的信息.HACMP 的LOG 文件:以下文件都是文本文件, 可以用VI 來看. 每個日志文件都含有每個信息的產(chǎn)生時間./usr/adm/cluster.log :記錄了HACMP 的狀態(tài), 由HA 的守護進程所產(chǎn)生. /tmp/hacmp.out :記錄了HA 的詳細(xì)腳本./usr/sbin/cluster/history/cluster.mmdd :記錄了HA 的各個事件的發(fā)生. /tmp/cm.log :由clstrmgr 進程產(chǎn)生, 每次HA 重起時會被覆蓋. .HACMP FOR AIX的結(jié)構(gòu)應(yīng)用層HACMP 軟件層LVM & TCPIP 層AIX 層物理網(wǎng)絡(luò)層物理硬盤層硬件層

37、在物理網(wǎng)絡(luò)層, 物理硬盤層, 硬件層,LVM & TCPIP 層,AIX 層我們可以用AIX 系統(tǒng)命令來看是否硬件和系統(tǒng)出現(xiàn)了問題. 一般地, 在用errpt 命令來看沒有類型為PH 的錯誤,lsvg -o 來看我們所須的VG 已varyon,mount 來看我們所須的文件系統(tǒng)已安裝, netstat -i來看我們所須的service IP是UP 的狀態(tài)(或用ifconfig en*,cluster node 之間的service 與service IP ,standby與 standby IP 互相可以ping 通. 在各個節(jié)點上執(zhí)行stty<</dev/tty* 有相

38、應(yīng)的信息出現(xiàn). 說明硬件層,LVM & TCPIP 層,AIX 層沒有問題, 問題可能出現(xiàn)在應(yīng)用層與HACMP 軟件層上. 否則問題就出現(xiàn)在相應(yīng)的層次上.在HACMP 軟件層上, 我們可以用vi /tmp/hacmp.out來看, 如果出現(xiàn)event failed 的字段, 則有可能問題出現(xiàn)在該層, 如果在問題出現(xiàn)的時段,hacmp.out 無信息出現(xiàn), 則問題可能出現(xiàn)在應(yīng)用層.以下是HA 排錯的一些守則:. 在第一時間保存好相關(guān)的日志文件, 特別是那些會被覆蓋的文件. 嘗試去重復(fù)問題的出現(xiàn). 不要被用戶所反映的問題迷惑. 漸進地去重復(fù)問題, 如果有多個可能導(dǎo)致問題的出現(xiàn), 一個一個地

39、去重復(fù), 而不要一次重復(fù)多個可能. 不要憑經(jīng)驗來判斷問題, 而是要在各種測試后, 由結(jié)果來判斷. 隔離問題的來源, 根據(jù)我們上面所敘述的層次關(guān)系, 至頂向下地診斷. 由簡到繁地做測試, 我們先從一個簡單的環(huán)境來做測試, 不要嘗試在一個復(fù)雜的環(huán)境中測試. 一次做一次改動, 否則我們無法知道是那個改動解決了問題. 不要忽略各種可能, 因小可失大, 留心系統(tǒng)的每一個細(xì)節(jié), 包括電源, 插頭, 連線等. . 保持各種測試的記錄以及解決的步驟, 用做將來排錯的參考. 撥打IBM 服務(wù)熱線, 將問題現(xiàn)象和您所做的測試結(jié)果告訴IBM 的工程師, 他們將在CALL CENTER的測試中心重復(fù)試驗, 必要時會派

40、工程師到場解決問題.三 IBM HACMP 雙機系統(tǒng)的管理和維護本節(jié)將說明HACMP 雙機軟件的一些基本管理和維護命令這些命令將會在HACMP 雙機系統(tǒng)的日常工作中經(jīng)常用到.1 HACMP 雙機系統(tǒng)的啟動要啟動HACMP 雙機系統(tǒng)必須要有root 用戶的特權(quán)分別進入到系統(tǒng)各節(jié)點主機在命令行上執(zhí)行下述命令即可.# smit clstart或# /usr/sbin/cluster/etc/rc.cluster -boot -N I需要注意的是在雙機系統(tǒng)中HACMP 雙機軟件先啟動的節(jié)點將成為主節(jié)點擁有資源并對外提供關(guān)鍵服務(wù)后啟動的節(jié)點將成為備節(jié)點.另外在啟動HACMP 前需要啟動雙機上的INFOR

41、MIX 和SCP 應(yīng)用.2 HACMP 雙機系統(tǒng)的關(guān)閉要關(guān)閉某節(jié)點上的HACMP 雙機軟件必須要有該節(jié)點root 用戶的特權(quán)以root 用戶進入到該節(jié)點主機在命令行上執(zhí)行下述命令即可.# smit clstop或# clstop -gr需要注意的是若該節(jié)點是主節(jié)點并且備節(jié)點上的HACMP 軟件亦正常運行則需注意clstop 關(guān)閉模式的三種選項的不同1 forced 是指立即關(guān)閉雙機軟件不調(diào)用任何客戶應(yīng)用的takeover 是指該節(jié)點將關(guān)閉雙機軟件并釋放資源請求備節(jié)點進行接管. 如該節(jié)點是備節(jié)點則關(guān)閉模式選項沒有多大意義.另外關(guān)閉HACMP 將關(guān)閉manager 和informix.3 查詢HA

42、CMP 雙機系統(tǒng)的狀態(tài)在雙機系統(tǒng)的運行當(dāng)中操作員經(jīng)常需要知道雙機系統(tǒng)的當(dāng)前狀態(tài)才有可能對雙機系統(tǒng)出現(xiàn)的異常情況進行恢復(fù)處理才能保證雙機系統(tǒng)的高可用性和高容錯性. 查詢HACMP 雙機系統(tǒng)的狀態(tài)只需以root 用戶進入需要查詢的節(jié)點進行下列操作首先檢查HACMP 雙機軟件在該節(jié)點是否已啟動命令如下# lssrc -g cluster若是系統(tǒng)顯示出下面類似的信息則說明HACMP 雙機軟件已正常啟動.Subsystem Group PID Statusclstrmgr cluster 22500 activeclsmuxpd cluster 23674 activeclinfo cluster 28

43、674 active在已確認(rèn)雙機軟件HACMP 正常啟動的情況下在命令行執(zhí)行下述命令來察看雙機系統(tǒng)的當(dāng)前狀態(tài)# /usr/sbin/cluster/clstat -a如果雙機系統(tǒng)一切工作正常則系統(tǒng)將顯示下述類似信息clstat - HACMP for AIX Cluster Status Monitor-Cluster: scp_cluster(80 Thu Jan 20 08:45:17 TAIST 2000State: UP Nodes: 2SubState: STABLENode: mscp1 State: UPState: UPState: UPNode: mscp2 State: U

44、PState: UPState: UP七常用的系統(tǒng)狀態(tài)查詢命令# lsdev C s scsi 列出各個SCSI 設(shè)備的所有相關(guān)信息如邏輯單元號硬件地址及設(shè)備文件名等# ps -ef列出正在運行的所有進程的各種信息如進程號及進程名等# netstat -rn列出網(wǎng)卡狀態(tài)及路由信息等# netstat -in列出網(wǎng)卡狀態(tài)及網(wǎng)絡(luò)配置信息# df -k列出已加載的邏輯卷及其大小信息# mount列出已加載的邏輯卷及其加載位置# uname -a列出系統(tǒng)ID 號系統(tǒng)名稱OS 版本等信息# hostname列出系統(tǒng)網(wǎng)絡(luò)名稱# lsvg l rootvg,lsvg p rootvg顯示邏輯卷組信息如包含

45、哪些物理盤及邏輯卷等# lslv l datalv,lslv p datalv顯示邏輯卷各種信息如包含哪些盤是否有鏡像等八網(wǎng)絡(luò)故障定位方法網(wǎng)絡(luò)不通的診斷過程ifconfig 查看網(wǎng)卡是否啟動 (upnetstat i 查看網(wǎng)卡狀態(tài)Ierrs/Ipkts 和 Oerrs/Opkts是否>1%ping自己網(wǎng)卡地址 (ip 地址ping 其它機器地址如不通在其機器上用diag 檢測網(wǎng)卡是否有問題在同一網(wǎng)中 subnetmask 應(yīng)一致網(wǎng)絡(luò)配置的基本方法(1 如需修改網(wǎng)絡(luò)地址主機名等一定要用 chdev 命令# chdev l inet0 a hostname=myhost(2 查看網(wǎng)卡狀態(tài)

46、# lsdev Cc if(3 確認(rèn)網(wǎng)絡(luò)地址# ifconfig en0 (4 啟動網(wǎng)卡# ifconfig en0 up(5 配置路由有兩種方式加入路由永久路由臨時路由用命令 netstat -rn 查看路由表附常用命令列表! ! " #"$ %& ! " ' # ($ %& !# * " " +, !# * % - * ! * ' !*" !* "&&&& ! $ ' *$ + !* , &&&&& !* $

47、' ' ' !* ' # ' ' !# . !(!# $ * (. %' $ ! && $ ! ' ' (&& / 00 * ! ! $ ! ! $ 1 # !* ' * , ' 1 2 !* ' , ' ! ! # ! ! $ * ( ! % !(% $ * ,345 (, ( 5 ' ! ! $ ' $ * ' ' ! # ( %+6 $ ' ! ! # ! % 78 ! % 99 ! & 99 * 99 !

48、 & 99 !' '' ' ! ' , ' : (, ! ! '' ! ; $ ! $ ! < ! +( , ! 8 ! * !< ! + ! = ! != ! 3 ! ' != 3 ! ' 3 !< 3 ! ' + ' ! *$ * $ ! % $ % ! % % # ! ! * > ,+55 4+55 " ?43 ,+55$ ! * $ $ $ ($ ! * $ & ! % 0 ! & * $% !# ! $ % 00 $% !# 4-

49、" #" ! $% & ! !# * A B3 C - " #" 3 ! 3 ! .! ! . ! ! !D &&&&&& ! ' # # !E ! ! ! $ * ( # # !E ' 33!3 ! # !E &&&&& !F ! # (&&& % # !E ! # ( # !E ! # # !E ! # # !E ! # ! $ ' ' ! $ * ( ' ' ! ' ! $

50、0E $ ' !# ! ' # +( 3 $ % ' !# 3 ! $ $ " 8;0 ! 1 G G ! ' H 7ID= ! # ! $ C ! # #, ! ! $ % # ' ' ! ! $ % # ' ' # ! $ $ # # $ % ! # # ! $ % ! ' # ' % ! ! #' ! # ' #' ! ! % # ' (&&&&& # ! $ & + ' ! ! ' $ $ ( '

51、; ! , , ! $ ' 0 8;0 $ ( # ( $ ! # # ! $ * # (J+4+5 # ' ! & + ! % # $ * / ! ! % # $ * / ! ! ' ! % ' * ! *$ ! ! ! # . * # ! ! # # # ! ! ! # # ! # ! # * $ $ # >*A !* ( # A D 1 % ! * $ 8DK % !% & $! * $ 8DK $ < ! %* * ! * # * < * * ( * $ D & ! & & & & ( 1 ! # * !( % + $ ! * $ (=7K ! * $ * ! * $ / ! # " #" " !* " # ! # " #" !* # ! " #" * ! * . < ! " #" +, J ! * # K !6 ! # (!6 ' ! # . ! %' * $ !$ * ' 0 $ * # ! # ! E0L % . * $ # . !, ($ * 4 ($ * *$ ! $ * *$ ! $ * . L8D $ * &#

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

IBM rs6000小型機故障的基本定位方法

文檔簡介

溫馨提示

最新文檔

評論

IBM rs6000小型機故障的基本定位方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔