IBM小型機常見故障的基本定位_第1頁
IBM小型機常見故障的基本定位_第2頁
IBM小型機常見故障的基本定位_第3頁
IBM小型機常見故障的基本定位_第4頁
IBM小型機常見故障的基本定位_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、一 故障的定義.弄清楚系統(tǒng)發(fā)生了什么問題.系統(tǒng)現(xiàn)在能做什么?不能做什么?.故障什么時候發(fā)生的?.有沒有做平時不同的操作?.故障有沒有規(guī)律?定時還是不定時?發(fā)生的頻率有多高?.是一臺機器出現(xiàn)故障還是多臺機器故障?故障現(xiàn)象是否相同?.最近有沒有做改動?如安裝了新的硬件、軟件,改變了系統(tǒng)的一些設置。 二 故障信息的收集1)收集故障信息對于判斷、診斷故障原因,修復系統(tǒng)非常重要。2)系統(tǒng)故障記錄(errorlog)errdemon 進程在系統(tǒng)啟動時自動運行記錄包括硬件、軟件及其他操作信息故障記錄文件為/var/adm/ras/errlog,可備份下來或拷貝到別的機器上分析errpt 命令的使用(普通用戶

2、權限也可使用)#errpt |more 列出簡短出錯信息 ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 04

3、05130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日時分年)T(類型): P 永久; T 臨時; U 未知 (永久性的錯誤應引起重視)C(分類): H 硬件; S 軟件; O 用戶; U未知 #errpt -d H 列出所有硬件出錯信息#errpt -d S 列出所有軟件出錯信息#errpt -aj ERROR_ID 列出詳細出錯信息# errpt -aj 0502f666 - ERROR_ID用大小寫均可例:LABEL: SCSI_ERR1ID: 0502F666 Date/Time: Jun 19 22:

4、29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: 選高級診斷(Advance Diagnostic) 選問題診斷(Problem Determination) 或選系統(tǒng)檢查(System Verification)(選PD 會對系統(tǒng)錯誤記錄進行分析)diag運行后會給出SRN 代碼,故障設備名稱及百分比,地址代碼等。對于P

5、CI機型應在系統(tǒng)報錯7天之內(nèi)運行diag程序?qū)Τ鲥e記錄里的sense數(shù)據(jù)進行分析。7)其他用于收集系統(tǒng)信息的命令lsdev -C 系統(tǒng)設備信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 root

6、vghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavg lsvg 查看卷組信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 me

7、gabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16 #lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A . lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/s

8、yncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqm lslpp 查看文件組信息# lslpp -L |grep 23100020.devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某個文件組是否已安裝,如以太網(wǎng)卡驅(qū)動。也用于查詢補丁程序的版本。 lsattr 查看設備參數(shù)設置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_p

9、riority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNE

10、T address Trueip_gap 96 Inter-Packet Gap True lscfg 查看VPD信息(Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500) Part Number.097H0645FRU Number.097H0645 - 備件號Serial Number.C8217227EC Level.0000F20825Manufacturer.IBM053ROS Level and ID.72

11、01 - 微碼版本Loadable Microcode Level.04Device Driver Level.00Displayable Message.SSA-ADAPTERDevice Specific.(Z0).DRAM=032 Device Specific.(Z1).CACHE=0Device Specific.(Z2).000000062955dab2Device Specific.(YL).P2-I7 Access a Root Volume Group Access this volume group and start a shellbefore mounting the

12、file systems格式化文件系統(tǒng)日志(jfslog)# /usr/sbin/logform /dev/hd8 檢查修復文件系統(tǒng)# fsck -y /dev/hd1 (/home 文件系統(tǒng))# fsck -y /dev/hd2 (/usr 文件系統(tǒng))# fsck -y /dev/hd3 (/tmp 文件系統(tǒng))# fsck -y /dev/hd4 (/ 文件系統(tǒng))# fsck -y /dev/hd9var (/var 文件系統(tǒng)). .用 exit 命令退出,文件系統(tǒng)會自動 mount 起來。 重建bootimage # lslv -m hd5 找出bootimage所在的硬盤,如hdisk0

13、# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0 重建啟動順序表。重啟動系統(tǒng)# shutdown -Fr 如上述步驟不奏效用系統(tǒng)備份帶恢復系統(tǒng)。 如備份帶不能恢復,用診斷光盤(Diagnostic CDROM)檢查是否壞硬盤。 .CDE圖形界面掛死CDE 運行時不要更改網(wǎng)絡參數(shù)(如:主機名和IP 地址)更改網(wǎng)卡設置,請先退出CDE圖形環(huán)境,選擇命令行方式登錄,在字符界面下更改。如CDE 已經(jīng)掛死遠程 telnet 登錄找出所有dt有關的進程用kill命令殺掉# ps -ef |grep dt . .# kill PID檢查當前主

14、機名# hostname tscf50查看主機名是否對應有效的IP地址# netstat -i |grep tscf50 tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0更改主機名或IP地址,使主機名與當前有效的IP地址存在對應關系。# smitty tcpip 重新啟動CDE界面# /etc/rc.dt HACMP環(huán)境下可把主機名alias到127.0.0.1上# cat /etc/hosts127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg .系統(tǒng)dump發(fā)生在系統(tǒng)

15、崩潰時,AIX會做dump(系統(tǒng)內(nèi)存的快照)。此時機器會顯示閃動的888 102 xxx 0cx 代碼:0c9 系統(tǒng)dump 進行中。0c9狀態(tài)可能會維持超過2分鐘,不要關電和按reset, 等待dump做完。0c0 dump 成功完成,這時可以斷電重起。0c2 手動啟動dump 功能0c4 dump 設備空間不足,只有部分信息保存下來 0c5 不明原因?qū)е耫ump 失敗一般dump是由于軟件出錯引起(888-102-207 除外),機器通??梢灾貑ⅰV貑r可能提示用戶插入磁帶拷貝dump文件,不要選擇退出,這樣會丟失重要的故障信息。dump的有關設置估算系統(tǒng)dump的大小,在系統(tǒng)最繁忙時(內(nèi)

16、存使用最多)# sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376 # lsps -aPage Space Physical Volume Volume Group Size %Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes當前的設置#sysdumpdev -l primary /dev/hd6 - dump的主設備secondary /dev/sysdumpnullcopy directory /var/adm/ras -

17、 dump拷貝的目錄forced copy flag TRUEalways allow dump TRUE hd6應比估算值稍大。/var/adm/ras 是默認的dump拷貝目錄,比較估算值,保證/var文件系統(tǒng)有足夠的剩余空間拷貝dump文件。否則機器重起時會提示用戶插入磁帶。dump文件名為vmcore.# 對PCI機型如要手動做dump,須把 always allow dump 先設成true。# sysdumpdev -Kdump打包# snap -a -o /dev/rmt# 或# snap -a -c 把/tmp/ibmsupt目錄做成一個壓縮文件snap.tar.Z如果/tmp

18、文件系統(tǒng)空間不夠,可用-d directory 參數(shù)指定別的目錄代替/tmp/ibmsupt 四 7133-D40 SSA磁盤柜的故障定位 當SSA磁盤柜出現(xiàn)故障時,在磁盤柜前面板的液晶顯示屏上會顯示相應的SRNs,同時黃色的顯示燈會閃動,在AIX的error log中也會有記載錯誤信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。請在出現(xiàn)問題后記錄下代碼,并致電IBM服務熱線。 五 軟件故障定位方法 軟件故障情況錯綜復雜,下面列舉幾個常見案例的故障處理方法。 1) 文件系統(tǒng)空間不夠。查看有沒有“滿”的文件系統(tǒng)。特別是/、/var、/tmp,不要超過90%。文

19、件系統(tǒng)滿可導致系統(tǒng)不能正常工作,尤其是AIX的基本文件系統(tǒng)。如/ (根文件系統(tǒng))滿則會導致用戶不能登錄。用df k 查看。# df -k (查看AIX的基本文件系統(tǒng))Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 1638

20、4 5332 68% 1402 35% /home除/usr文件系統(tǒng),其他文件系統(tǒng)都不應太滿,一般不超過80%。 處理方法1:刪除垃圾文件# du -sk * |sort -rn |head查找出當前目錄下占空間最大的子目錄,逐層往下直到找出占空間最大的文件。(要區(qū)分哪些目錄是文件系統(tǒng)的 mount point,哪些是文件系統(tǒng)的子目錄)刪除文件,釋放空間。有時刪除文件后空間并不馬上釋放,這是由于你刪除的文件正被某個程序打開。只有當這個程序停止后空間才釋放,有時甚至需要重起系統(tǒng)。處理方法2:增加文件系統(tǒng)大小# smitty chjfs 文件系統(tǒng)可以在任何時候加大,前提是卷組(VG)中有剩余空間。

21、 2) 檢查文件系統(tǒng)的完整性# umount filesystem_name# fsck -y filesystem_name 注意:文件系統(tǒng)必須先umount,再做檢查和修復,否則可導致未知的后果。 3)查看卷組信息(lsvg -l vg_name):有沒有stale狀態(tài)的邏輯卷。 若有,用syncvg 命令修復stale邏輯卷。 4)檢查內(nèi)存交換區(qū)(paging space)使用率(lsps -s):使用率是否超過70% ,若有則用chps sX pgname增加X個PP或用 mkps a n sX myvg在myvg上增加一個PP數(shù)為X的內(nèi)存交換區(qū)。 5) 小型機內(nèi)存泄漏問題小型機出現(xiàn)內(nèi)

22、存泄漏,即系統(tǒng)或應用進程無法將使用過的內(nèi)存釋放,使可用內(nèi)存的容量逐漸減少。如果可用內(nèi)存降到某最小值將造成系統(tǒng)或應用程序無法FORK子進程,就會造成系統(tǒng)癱瘓。通常我們可以用ps和sar命令來查看小型機內(nèi)存和CPU占用率的大概情況以及各進程的內(nèi)存和CPU占用率的發(fā)展趨勢。(a) ps# ps gv|head -n 1; ps gv|egrep -v RSS | sort +6b -7 -n -r |head -n 5PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND15674 pts/11 A 0:01 0 36108 36

23、172 32768 5 24 0.6 24.0 ./tctestp22742 pts/11 A 0:00 0 20748 20812 32768 5 24 0.0 14.0 ./backups10256 pts/1 A 0:00 0 15628 15692 32768 5 24 0.0 11.0 ./tctestp2064 - A 2:13 5 64 6448 xx 0 6392 0.0 4.0 kproc1806 - A 0:20 0 16 6408 xx 0 6392 0.0 4.0 kprocSIZE virtual size (in the pagingspace), in kilob

24、ytes, RSS real-memory (resident set) size in kilobytes of the process.通過不同時間輸出的比較,就能觀察出內(nèi)存和CPU占用率的基本情況。找出其中占用內(nèi)存數(shù)不斷變大的進程,這個進程可能就已經(jīng)發(fā)生了內(nèi)存泄漏。(b) sar 指令也可以查看CPU占用率,但統(tǒng)計的結果不是很準確。通常使用sar令的格式為:#sar -P ALL 2 10 09:29:37 cpu %usr %sys %wio %idle09:29:39 0 0 0 4 951 1 0 4 95- 0 0 4 9509:29:41 0 0 2 6 921 3 4 2 9

25、1- 2 3 4 9209:29:43 0 3 1 2 941 2 2 2 95- 2 1 2 9409:29:45 0 2 2 7 901 4 5 6 86- 3 3 6 8809:29:47 0 1 1 2 961 1 2 2 96- 1 1 2 9609:29:49 0 0 0 0 1001 0 1 0 99- 0 0 0 10009:29:51 0 2 0 0 981 0 1 0 98- 1 0 0 9809:29:53 0 7 1 6 861 2 2 5 90- 5 2 5 8809:29:55 0 4 5 56 351 12 2 55 32- 8 4 55 3309:29:57 0

26、 16 8 14 641 15 9 11 65- 15 8 12 64 Average 0 3 2 10 851 4 3 8 85- 4 2 9 85 表示2秒鐘輸出一次結果總共有10次結果,然后平均。目前,如果發(fā)現(xiàn)內(nèi)存泄漏,最好重新啟動系統(tǒng)。 六 HACMP環(huán)境下的排錯 在一般情況下,HACMP軟件很少需要手工干預,但一旦有問題發(fā)生,診斷和恢復的技巧是很重要的.需要能很快地斷定問題然后運用你對HACMP的理解來恢復HACMP的正常運作.一般地,HACMP環(huán)境下的排錯包括:.了解問題的存在.判斷問題的出處.解決問題. 一 了解問題的存在 您可以通過以下途徑了解到一個CLUSTER環(huán)境下出現(xiàn)了問

27、題.最終用戶的投訴,他們無法訪問應用程序.控制臺上出現(xiàn)一些HACMP的信息. 1.應用服務無法訪問最終用戶的抱怨通常預示CLUSTER出現(xiàn)了問題.他們無法正常執(zhí)行應用或是無法登錄到系統(tǒng).我們必須采集到詳細的信息以判斷到底那里出現(xiàn)了問題.是否有錯誤的信息提示?如果可能的話,讓用戶重復步驟以確定那里是錯誤的開始.您也可以在自己的系統(tǒng)上重復.要知道用戶應用不可用并不代表HACMP有問題.問題可能出現(xiàn)在應用程序本身或是它的啟動或終止腳本出現(xiàn)了問題.因此應用程序本身的排錯也應是HA排錯的一部分.2.控制臺上出現(xiàn)一些HACMP的信息在HACMP啟動,終止或出錯時,控制臺上會出現(xiàn)一些HACMP的信息,同時也

28、會寫入相應的文件中. 二 判斷問題的出處 當錯誤出現(xiàn)時,我們應嘗試發(fā)現(xiàn)錯誤的所在.但我們常常被錯誤的表面所誤導.以下的步驟可以使我們得到更詳細的信息.1.保存好一些LOG文件.(/tmp/hacmp.out & /tmp/cm.log).因為它們可能被覆蓋.2.仔細檢查HACMP所產(chǎn)生的LOG文件.它們能提供最初的判斷線索.3.用HACMP的工具和AIX的命令來檢查HACMP的部件是否正常.4.打開HACMP的跟蹤工具來產(chǎn)生更詳細的信息. .HACMP的LOG文件:以下文件都是文本文件,可以用VI來看.每個日志文件都含有每個信息的產(chǎn)生時間./usr/adm/cluster.log :記錄了HA

29、CMP的狀態(tài),由HA的守護進程所產(chǎn)生./tmp/hacmp.out :記錄了HA的詳細腳本./usr/sbin/cluster/history/cluster.mmdd :記錄了HA的各個事件的發(fā)生./tmp/cm.log :由clstrmgr進程產(chǎn)生,每次HA重起時會被覆蓋. .HACMP FOR AIX的結構 應用層HACMP軟件層LVM & TCPIP 層AIX 層物理網(wǎng)絡層物理硬盤層硬件層 在物理網(wǎng)絡層,物理硬盤層,硬件層,LVM & TCPIP 層,AIX 層 我們可以用AIX系統(tǒng)命令來看是否硬件和系統(tǒng)出現(xiàn)了問題.一般地,在用errpt命令來看沒有類型為PH的錯誤,lsvg -o 來

30、看我們所須的VG已varyon,mount來看我們所須的文件系統(tǒng)已安裝, netstat -i來看我們所須的service IP是UP的狀態(tài)(或用ifconfig en*),cluster node 之間的service 與service IP ,standby與 standby IP 互相可以ping通.在各個節(jié)點上執(zhí)行stty1%ping自己網(wǎng)卡地址 (ip 地址)ping其它機器地址,如不通,在其機器上用diag檢測網(wǎng)卡是否有問題。在同一網(wǎng)中, subnetmask 應一致。網(wǎng)絡配置的基本方法:(1) 如需修改網(wǎng)絡地址、主機名等,一定要用 chdev 命令# chdev l inet0

31、a hostname=myhost# chdev -l en0 -a netaddr=9.3.240.58 -a netmask=255.255.255.0(2) 查看網(wǎng)卡狀態(tài):# lsdev Cc if(3) 確認網(wǎng)絡地址:# ifconfig en0(4) 啟動網(wǎng)卡:# ifconfig en0 up(5) 配置路由有兩種方式加入路由:永久路由# chdev -l inet0 -a route=10.47.0.0,9.3.240.59臨時路由# route add 10.47.1.2 9.3.240.59用命令 netstat -rn 查看路由表 附:常用命令列表:Any XXXX, #,

32、 *, or X is to be substituted by a name, resource name or #,fn = filenameDIR = Directory| = pipe symbol bosboot -a -d /dev/hdiskx -rebuilds boot record/image on boot device(hdiskx)cat -view contents of a filecat /tmp/*.1 -view a file, look at outputcat fn fn newfile -combines two files to a single f

33、ilecd -will return you to default DIRcd / -will put in root DIRcd /xxxx -change you to a DIR anywhere is systemcd . -will drop you out of 1 DIR at a timecd xxxxx -will change you to a DIR in current dircfgmgr -will auto config devicescfgmgr -v & -(-v) shows processes (&) puts in backgroundchps -s xx

34、 hd# -increase paging space (xx=# of addtl PPs)cp oldfn newfn -copy a filecp oldfn Dirn -copy a file to another directorycrontab -l -list crontab entries for the current userctrl + v -will page down 1 pagectrl + 6 -will page up 1 pagedel fn -same as rm -i,promts to remove fndf -I -shows status of fi

35、le systems (no inodes)df -Ik -(k) show status in 1024 bites(1mb)(only AIX 4diag -a -updates changes in hardware configurationdiag * -*= a device type(as tape,disk.Fastpath)diag -cd rmtX -resets tape drivedosformat -formats a diskette to DOSdosdir -list files on dos formated diskettedosread XX YY -co

36、pies dos file XX to aix file YYdoswrite YY XX -copies aix file YY to dos file XXerrpt -generates a one line synopsis of logged errorserrpt | pg -list errorlog 1 page a time(1st column is ID)errpt -a -displays detailed information of logged errorserrpt -s Mmddhhmmyy -select entries posted later than

37、dateerrpt -aj XXXXXXX -list detail error by ID number.(XXX=1st column)errpt -d S -list software errorserrpt -j XXXXXXX -list summary report by ID number.errpt -aN XXXXXX -list detailed report by resource name columnerrpt -N XXXXXXX -list summary report by resource name columnerrclear 0 -clears error

38、logerrclear -N XXXXX 0 -clears errorlog by resource name, 0=all entererrclear -j XXXXX 0 -clears errorlog by ID number.finger -same as who but with more detailsflcopy -copies a diskette to another disketteformat -formats a diskette in default diskette driveformat -l -formats in lower denity: 1.44 on

39、 2.44 / 720 on 1.44hostname -responds with host system namehost (hostname) -responds with internet addressinstfix -ik IPAR# -lists ipar fix was completely installedlppchk -v -checks install status of LPPslppchk -v 2 /dev/lpX -sends output of lppchk to printer lpxlpstat -a all -view all printer queue

40、slptest 80 5 /dev/lp0 -send test pattern to lp0ls -list names of files & directories in current dirls -lia -list details of files, current dir & subdirls -al -list details of files or dir in current dirlsattr -El xxxxxx -list specific settings on a devicelsdev -C | sort -d -f -list system hardware (devices)lsdev -C | grep 00-0X -list resourses for a adapterlsdev -Cc xxxxx -H -list devices(xxx=tty,printer,disk,memory,adptlsdev -Cs scsi -list scsi devices(not serial

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論