版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、RS/6000小型機(jī)故障的基本定位方法一 故障的定義.弄清楚系統(tǒng)發(fā)生了什么問題.系統(tǒng)現(xiàn)在能做什么不能做什么.故障什么時(shí)候發(fā)生的 .有沒有做平時(shí)不同的操作.故障有沒有規(guī)律定時(shí)還是不定時(shí)發(fā)生的頻率有多高.是一臺(tái)機(jī)器出現(xiàn)故障還是多臺(tái)機(jī)器故障故障現(xiàn)象是否相同.最近有沒有做改動(dòng)如安裝了新的硬件軟件改變了系統(tǒng)的一些設(shè)置二 故障信息的收集1 收集故障信息對(duì)于判斷診斷故障原因修復(fù)系統(tǒng)非常重要2系統(tǒng)故障記錄(errorlogerrdemon 進(jìn)程在系統(tǒng)啟動(dòng)時(shí)自動(dòng)運(yùn)行記錄包括硬件軟件及其他操作信息故障記錄文件為/var/adm/ras/errlog可備份下來或拷貝到別的機(jī)器上分析 errpt 命令的使用(普通用戶
2、權(quán)限也可使用 #errpt |more 列出簡(jiǎn)短出錯(cuò)信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED 1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 04
3、05130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日時(shí)分年T 類型: P 永久; T 臨時(shí); U未知永久性的錯(cuò)誤應(yīng)引起重視C 分類: H 硬件; S 軟件; O 用戶; U未知 #errpt -d H 列出所有硬件出錯(cuò)信息#errpt -d S 列出所有軟件出錯(cuò)信息#errpt -aj ERROR_ID 列出詳細(xì)出錯(cuò)信息# errpt -aj 0502f666<- ERROR_ID用大小寫均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Se
4、quence Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD:<- Virtal Product DataDevice Driver Level.00Diagnostic Level.00Displayable Message.SCSIEC Level.C25928FRU Number.30F8834Manufacturer.IBM97FPart Number.59F4566Serial N
5、umber.00002849ROS Level and ID.24Read/Write Register Ptr.0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DAT
6、A0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 3控制面板上的LED 代碼.8位代碼通常系統(tǒng)故障燈會(huì)同時(shí)亮起某些機(jī)型還會(huì)同時(shí)顯示故障設(shè)備位置代碼 .4 位代碼通常是Exxx.3 位代碼通常為0yyy 只看后3位.8 位和4位代碼可查看系統(tǒng)服務(wù)手冊(cè) (Service Guide3 位代碼可查看系統(tǒng)診斷手冊(cè)(Diagnostic Information for Multiple BusSystem. 閃動(dòng)的 888, 系統(tǒng)崩潰 硬件或軟件原因造成按reset 鍵會(huì)顯示更多內(nèi)容888-102 一般為軟件故障888-102-20
7、7 例外系統(tǒng)會(huì)產(chǎn)生一個(gè)dump888-102-xxx-0C9 系統(tǒng)正在做dump, 請(qǐng)等待888-102-xxx-0C0 系統(tǒng)dump 完成可關(guān)電重啟888-103 或 105硬件故障一般有 SRN代碼及位置代碼4SMS (System Management Service 故障記錄 如何進(jìn)入SMS 菜單當(dāng)主控臺(tái)出現(xiàn)鍵盤圖標(biāo)后(LED 顯示E 1F 1時(shí) 按1鍵選擇"Utilities"選擇"Error Log", 抄下8位故障代碼在SMS 中還可以更改系統(tǒng)啟動(dòng)順序表5 MAIL #mail系統(tǒng)會(huì)向root 用戶發(fā)mail報(bào)告出錯(cuò)信息通常系統(tǒng)出現(xiàn)故障后沒
8、有進(jìn)行檢查修復(fù)系統(tǒng)會(huì)定時(shí)提醒root 6運(yùn)行故障診斷程序(Diagnostic對(duì)系統(tǒng)硬件進(jìn)行檢查和診斷當(dāng)發(fā)現(xiàn)有硬件故障時(shí)應(yīng)立即使用diag#diag> 選高級(jí)診斷Advance Diagnostic> 選問題診斷Problem Determination 或選系統(tǒng)檢查System Verification(選PD 會(huì)對(duì)系統(tǒng)錯(cuò)誤記錄進(jìn)行分析diag 運(yùn)行后會(huì)給出SRN 代碼故障設(shè)備名稱及百分比地址代碼等對(duì)于PCI 機(jī)型應(yīng)在系統(tǒng)報(bào)錯(cuò)7天之內(nèi)運(yùn)行diag 程序?qū)Τ鲥e(cuò)記錄里的sense 數(shù)據(jù)進(jìn)行分析7其他用于收集系統(tǒng)信息的命令lsdev -C 系統(tǒng)設(shè)備信息#lsdev -Cc diskhd
9、isk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk 1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk 1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷組信息#lsvg datavgVO
10、LUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(sVG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytesLVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PV
11、s: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A.lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件組信息# lslpp -L |grep 23100020.de
12、vices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某個(gè)文件組是否已安裝如以太網(wǎng)卡驅(qū)動(dòng)也用于查詢補(bǔ)丁程序的版本lsattr 查看設(shè)備參數(shù)設(shè)置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE
13、queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD 信息Virtual Product Data# lscfg -vl ssa1DEV
14、ICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500Part Number.097H0645FRU Number.097H0645 <- 備件號(hào)Serial Number.C8217227EC Level.0000F20825Manufacturer.IBM053ROS Level and ID.7201 <- 微碼版本 Loadable Microcode Level.04Device Driver Level.00Displayable Message.SSA-ADAPTERDevi
15、ce Specific.(Z0.DRAM=032Device Specific.(Z1.CACHE=0Device Specific.(Z2.000000062955dab2Device Specific.(YL.P2-I7 <- 槽號(hào)不同的硬件設(shè)備有不同的VPD 所含的格式和信息都不一樣通常備件號(hào)和微碼版本最有參考價(jià)值注FRU(Field Replace Unit才是真正的備件號(hào)三 硬件故障定位方法IBM 小型機(jī)故障定位方法包括小型機(jī)I/O柜上的顯示面板上的Checkpoints信息Error Code 和SRNs Checkpoints Checkpoints 檢查點(diǎn)是系統(tǒng)加電CMO
16、S 初始化程序(initial program load (IPL運(yùn)行后顯示在 I/O柜的顯示面板上一系列信息IPL 流程當(dāng)交流電源接到系統(tǒng)后IPL 流程就開始了IPL 流程包括四個(gè)步驟. Phase Phase 1: Service Processor 的初始化Phase 1 開始于交流電源接到系統(tǒng)后直到OK 顯示在I/O柜上的顯示面板上為止在這個(gè)步驟會(huì)顯示 8xxx 或9xxx checkpoints代碼 . Phase 2: Phase 2: 由 Service Processor 引導(dǎo)的硬件初始化 Phase 2 開始于按下I/O柜上的白色電源開關(guān)在這個(gè)步驟會(huì)顯示 9xxxcheckp
17、oints 91FF 是最后的代碼標(biāo)志著第三步驟的開始 . Phase 3: Phase 3: 系統(tǒng)固件的初始化在 Phase 3, 一個(gè)系統(tǒng)處理器接管控制并繼續(xù)初始化系統(tǒng) 資源 在這個(gè)步驟會(huì)顯示 ExxxE 105是最后的代碼標(biāo)志著第四步驟AIX 啟動(dòng)的開始在這個(gè)過程中還會(huì)顯示各種位置碼 位置碼代表著系統(tǒng)的每一個(gè)部分. Phase 4: AIX Phase 4: AIX 啟動(dòng)當(dāng)AIX 開始啟動(dòng)時(shí)顯示面板上的代碼為 0xxx 同時(shí)位置碼會(huì)出現(xiàn)在第二行當(dāng)AIX 的登錄窗口出現(xiàn)在控制臺(tái)上時(shí)第四步驟結(jié)束同時(shí)顯示面板上再無任何信息出現(xiàn)Error Code當(dāng)系統(tǒng)運(yùn)行有錯(cuò)誤發(fā)現(xiàn)時(shí) 一個(gè)8位碼會(huì)顯示在顯示面
18、板上同時(shí)在第二行顯示相對(duì)應(yīng)問題硬件的位置碼SRNs Service request numbers,服務(wù)請(qǐng)求碼 當(dāng)系統(tǒng)運(yùn)行有錯(cuò)誤發(fā)現(xiàn)時(shí)SRNs 碼會(huì)以 xxx-xxx的形式顯示在顯示面板上同時(shí)在AIX 的error log中也會(huì)有記載以上所有代碼都會(huì)有相應(yīng)的步驟解決由于代碼繁多請(qǐng)?jiān)诔霈F(xiàn)問題后記錄下代碼并致電IBM 服務(wù)熱線系統(tǒng)的啟動(dòng)順序: . 系統(tǒng)不能啟動(dòng)系統(tǒng)停在Stage 1可能為電源系統(tǒng)板CPU 內(nèi)存等硬件故障記錄故障代碼通知IBM 工程師 系統(tǒng)停在Stage 2可能是啟動(dòng)順序表(bootlist損壞或I/O子系統(tǒng)故障可嘗試進(jìn)入SMS 菜單檢查啟動(dòng)順序表并修改若在選擇bootlist 時(shí)沒
19、有硬盤設(shè)備可選或顯示的硬盤信息不正確則可能是硬盤故障若根本沒有SCSI 設(shè)備可選則鏈路有問題系統(tǒng)停在Stage3可能是硬盤數(shù)據(jù)損壞 系統(tǒng)設(shè)置文件出錯(cuò)或I/O子系統(tǒng)故障. 系統(tǒng)停在551555或557發(fā)生在系統(tǒng)啟動(dòng)的第三階段 (Stage 3可能是文件系統(tǒng)損壞文件系統(tǒng)日志(jfslog損壞rootvg 中有壞硬盤修復(fù)方法用系統(tǒng)光盤或系統(tǒng)備份帶啟動(dòng)必須與硬盤中的操作系統(tǒng)版本一致啟動(dòng)后選擇選項(xiàng)3"Start Maintenance Mode for System Recovery"> "Access a Root Volume Group"> &q
20、uot;Access this volume group and start a shellbefore mounting the file systems"格式化文件系統(tǒng)日志(jfslog# /usr/sbin/logform /dev/hd8檢查修復(fù)文件系統(tǒng)# fsck -y /dev/hd1 /home 文件系統(tǒng)# fsck -y /dev/hd2/usr文件系統(tǒng)# fsck -y /dev/hd3/tmp 文件系統(tǒng)# fsck -y /dev/hd4/ 文件系統(tǒng)# fsck -y /dev/hd9var/var文件系統(tǒng) . . 用 exit 命令退出文件系統(tǒng)會(huì)自動(dòng) mount
21、 起來重建bootimage# lslv -m hd5 找出bootimage 所在的硬盤如hdisk0# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0 重建啟動(dòng)順序表重啟動(dòng)系統(tǒng)# shutdown -Fr如上述步驟不奏效用系統(tǒng)備份帶恢復(fù)系統(tǒng)如備份帶不能恢復(fù)用診斷光盤Diagnostic CDROM檢查是否壞硬盤.CDE 圖形界面掛死CDE 運(yùn)行時(shí)不要更改網(wǎng)絡(luò)參數(shù)如主機(jī)名和IP 地址更改網(wǎng)卡設(shè)置請(qǐng)先退出CDE 圖形環(huán)境選擇命令行方式登錄在字符界面下更改 如CDE 已經(jīng)掛死遠(yuǎn)程 telnet 登錄找出所有dt 有關(guān)的進(jìn)程用kill
22、 命令殺掉# ps -ef |grep dt. .# kill PID檢查當(dāng)前主機(jī)名# hostnametscf50查看主機(jī)名是否對(duì)應(yīng)有效的IP 地址# netstat -i |grep tscf50tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0更改主機(jī)名或IP 地址使主機(jī)名與當(dāng)前有效的IP 地址存在對(duì)應(yīng)關(guān)系# smitty tcpip重新啟動(dòng)CDE 界面HACMP 環(huán)境下可把主機(jī)名alias 到127.0.0. 1上# cat /etc/hosts127.0.0. 1 loopback localhost tscf50 # loopback (lo0
23、 name/addressbvg. 系統(tǒng)dump 發(fā)生在系統(tǒng)崩潰時(shí)AIX 會(huì)做dump(系統(tǒng)內(nèi)存的快照此時(shí)機(jī)器會(huì)顯示閃動(dòng)的888 102 xxx 0cx 代碼0c9系統(tǒng)dump 進(jìn)行中0c9狀態(tài)可能會(huì)維持超過2分鐘不要關(guān)電和按reset, 等待dump 做完0c0dump 成功完成這時(shí)可以斷電重起0c2 手動(dòng)啟動(dòng)dump 功能 0c4dump 設(shè)備空間不足只有部分信息保存下來0c5 不明原因?qū)е耫ump 失敗一般dump 是由于軟件出錯(cuò)引起(888-102-207 除外 機(jī)器通??梢灾貑⒅貑r(shí)可能提示用戶插入磁帶拷貝dump 文件不要選擇退出這樣會(huì)丟失重要的故障信息dump 的有關(guān)設(shè)置估算系統(tǒng)
24、dump 的大小在系統(tǒng)最繁忙時(shí)內(nèi)存使用最多# sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376# lsps -aPage Space Physical Volume Volume Group Size %Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes當(dāng)前的設(shè)置#sysdumpdev -lprimary /dev/hd6<- dump的主設(shè)備secondary /dev/sysdumpnullcopy director
25、y /var/adm/ras<- dump拷貝的目錄forced copy flag TRUEalways allow dump TRUEhd6應(yīng)比估算值稍大/var/adm/ras 是默認(rèn)的dump 拷貝目錄比較估算值保證/var文件系統(tǒng)有足夠的剩余空間拷貝dump 文件否則機(jī)器重起時(shí)會(huì)提示用戶插入磁帶 dump 文件名為vmcore.#對(duì)PCI 機(jī)型如要手動(dòng)做dump 須把" always allow dump" 先設(shè)成true# sysdumpdev -Kdump 打包# snap -a -o /dev/rmt#或# snap -a -c 把/tmp/ibmsu
26、pt目錄做成一個(gè)壓縮文件snap.tar.Z 如果/tmp文件系統(tǒng)空間不夠可用-d directory 參數(shù)指定別的目錄代替/tmp/ibmsupt四 7133-D40 SSA磁盤柜的故障定位當(dāng)SSA 磁盤柜出現(xiàn)故障時(shí)在磁盤柜前面板的液晶顯示屏上會(huì)顯示相應(yīng)的SRNs SRNs, 同時(shí)黃色的顯示燈會(huì)閃動(dòng)在AIX 的error log中也會(huì)有記載錯(cuò)誤信息如DISK_ERR1DISK_ERR4SSA_ARRAY_ERROR等請(qǐng)?jiān)诔霈F(xiàn)問題后記錄下代碼并致電IBM 服務(wù)熱線 五 軟件故障定位方法軟件故障情況錯(cuò)綜復(fù)雜下面列舉幾個(gè)常見案例的故障處理方法1文件系統(tǒng)空間不夠 查看有沒有 滿 的文件系統(tǒng)特別是 /
27、 /var /tmp不要超過 90%文件系統(tǒng)滿可導(dǎo)致系統(tǒng)不能正常工作尤其是AIX 的基本文件系統(tǒng)如/ (根文件系統(tǒng) 滿則會(huì)導(dǎo)致用戶不能登錄用df k 查看# df -k (查看AIX 的基本文件系統(tǒng)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /
28、tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系統(tǒng)其他文件系統(tǒng)都不應(yīng)太滿一般不超過80%處理方法1刪除垃圾文件# du -sk * |sort -rn |head查找出當(dāng)前目錄下占空間最大的子目錄逐層往下直到找出占空間最大的文件要區(qū)分哪些目錄是文件系統(tǒng)的 mount point哪些是文件系統(tǒng)的子目錄刪除文件釋放空間有時(shí)刪除文件后空間并不馬上釋放這是由于你刪除的文件正被某個(gè)程序打開只有當(dāng)這個(gè)程序停止后空間才釋放有時(shí)甚至需要重起系統(tǒng)處理方法2增加文件系統(tǒng)大小# smitty chjfs文件系統(tǒng)可以在任何時(shí)候加大前提是卷組(VG中有剩余空間2 檢查文
29、件系統(tǒng)的完整性# umount filesystem_name# fsck -y filesystem_name注意文件系統(tǒng)必須先umount 再做檢查和修復(fù)否則可導(dǎo)致未知的后果3查看卷組信息(lsvg -l vg_name有沒有"stale" 狀態(tài)的邏輯卷若有用syncvg 命令修復(fù)"stale" 邏輯卷4檢查內(nèi)存交換區(qū)(paging space使用率(lsps -s使用率是否超過70%若有則用chps sX pgname增加X 個(gè)PP 或用 mkps a n sX myvg在myvg 上增加一個(gè)PP 數(shù)為X 的內(nèi)存交換區(qū)5 小型機(jī)內(nèi)存泄漏問題程就會(huì)造
30、成系統(tǒng)癱瘓通常我們可以用ps 和sar 命令來查看小型機(jī)內(nèi)存和CPU 占用率的大概情況以及各進(jìn)程的內(nèi)存和CPU 占用率的發(fā)展趨勢(shì)(a ps# ps gv|head -n 1; ps gv|egrep -v "RSS" | sort +6b -7 -n -r |head -n 5PID TTY STAT TIME PGIN SIZE RSS SIZE RSS SIZE RSS LIM TSIZ TRS %CPU %MEM %MEM4.0 ./backups10256 pts/1 A 0:00 0 5692 15628 15692 32768 5 24 0.0 .04.0 kp
31、rocSIZESIZE virtual size (in the pagingspace, in kilobytes,RSSRSS real-memory (resident set size in kilobytes of the process.通過不同時(shí)間輸出的比較就能觀察出內(nèi)存和CPU 占用率的基本情況找出其中占用內(nèi)存數(shù)不斷變大的進(jìn)程這個(gè)進(jìn)程可能就已經(jīng)發(fā)生了內(nèi)存泄漏(b sar 指令也可以查看CPU 占用率但統(tǒng)計(jì)的結(jié)果不是很準(zhǔn)確通常使用sar 令的格式為#sar -P ALL 2 1009:29:37 cpu %usr %sys %wio %idle09:29:39 0 0 0 4 9
32、51 1 0 4 95- 0 0 4 9509:29:41 0 0 2 6 921 3 4 2 91- 2 3 4 9209:29:43 0 3 1 2 941 2 2 2 95- 2 1 2 9409:29:45 0 2 2 7 901 4 5 6 86- 3 3 6 8809:29:47 0 1 1 2 961 1 2 2 96- 1 1 2 9609:29:49 0 0 0 0 1001 0 1 0 99- 0 0 0 10009:29:51 0 2 0 0 981 0 1 0 98- 1 0 0 9809:29:53 0 7 1 6 861 2 2 5 90- 5 2 5 8809:2
33、9:55 0 4 5 56 351 12 2 55 32- 8 4 55 3309:29:57 0 16 8 14 641 15 9 11 65- 15 8 12 64Average 0 3 2 10 851 4 3 8 85- 4 2 9 85表示2秒鐘輸出一次結(jié)果總共有10次結(jié)果然后平均目前如果發(fā)現(xiàn)內(nèi)存泄漏最好重新啟動(dòng)系統(tǒng)六 HACMP環(huán)境下的排錯(cuò)在一般情況下,HACMP 軟件很少需要手工干預(yù), 但一旦有問題發(fā)生, 診斷和恢復(fù)的技巧是很重要的. 需要能很快地?cái)喽▎栴}然后運(yùn)用你對(duì)HACMP 的理解來恢復(fù)HACMP 的正常運(yùn)作.一般地,HACMP 環(huán)境下的排錯(cuò)包括:.了解問題的存在.判斷問題的
34、出處.解決問題.一 了解問題的存在您可以通過以下途徑了解到一個(gè)CLUSTER 環(huán)境下出現(xiàn)了問題.最終用戶的投訴, 他們無法訪問應(yīng)用程序.控制臺(tái)上出現(xiàn)一些HACMP 的信息.1. 應(yīng)用服務(wù)無法訪問最終用戶的抱怨通常預(yù)示CLUSTER 出現(xiàn)了問題. 他們無法正常執(zhí)行應(yīng)用或是無法登錄到系統(tǒng). 我們必須采集到詳細(xì)的信息以判斷到底那里出現(xiàn)了問題. 是否有錯(cuò)誤的信息提示? 如果可能的話, 讓用戶重復(fù)步驟以確定那里是錯(cuò)誤的開始. 您也可以在自己的系統(tǒng)上重復(fù). 要知道用戶應(yīng)用不可用并不代表HACMP 有問題. 問題可能出現(xiàn)在應(yīng)用程序本身或是它的啟動(dòng)或終止腳本出現(xiàn)了問題. 因此應(yīng)用程序本身的排錯(cuò)也應(yīng)是HA 排錯(cuò)
35、的一部分.2. 控制臺(tái)上出現(xiàn)一些HACMP 的信息在HACMP 啟動(dòng), 終止或出錯(cuò)時(shí), 控制臺(tái)上會(huì)出現(xiàn)一些HACMP 的信息, 同時(shí)也會(huì)寫入相應(yīng)的文件中.二 判斷問題的出處當(dāng)錯(cuò)誤出現(xiàn)時(shí), 我們應(yīng)嘗試發(fā)現(xiàn)錯(cuò)誤的所在. 但我們常常被錯(cuò)誤的表面所誤導(dǎo). 以下的步驟可以使我們得到更詳細(xì)的信息.1. 保存好一些LOG 文件.(/tmp/hacmp.out & /tmp/cm.log.因?yàn)樗鼈兛赡鼙桓采w.2. 仔細(xì)檢查HACMP 所產(chǎn)生的LOG 文件. 它們能提供最初的判斷線索.3. 用HACMP 的工具和AIX 的命令來檢查HACMP 的部件是否正常.4. 打開HACMP 的跟蹤工具來產(chǎn)生更詳細(xì)
36、的信息.HACMP 的LOG 文件:以下文件都是文本文件, 可以用VI 來看. 每個(gè)日志文件都含有每個(gè)信息的產(chǎn)生時(shí)間./usr/adm/cluster.log :記錄了HACMP 的狀態(tài), 由HA 的守護(hù)進(jìn)程所產(chǎn)生. /tmp/hacmp.out :記錄了HA 的詳細(xì)腳本./usr/sbin/cluster/history/cluster.mmdd :記錄了HA 的各個(gè)事件的發(fā)生. /tmp/cm.log :由clstrmgr 進(jìn)程產(chǎn)生, 每次HA 重起時(shí)會(huì)被覆蓋. .HACMP FOR AIX的結(jié)構(gòu)應(yīng)用層HACMP 軟件層LVM & TCPIP 層AIX 層物理網(wǎng)絡(luò)層物理硬盤層硬件層
37、在物理網(wǎng)絡(luò)層, 物理硬盤層, 硬件層,LVM & TCPIP 層,AIX 層 我們可以用AIX 系統(tǒng)命令來看是否硬件和系統(tǒng)出現(xiàn)了問題. 一般地, 在用errpt 命令來看沒有類型為PH 的錯(cuò)誤,lsvg -o 來看我們所須的VG 已varyon,mount 來看我們所須的文件系統(tǒng)已安裝, netstat -i來看我們所須的service IP是UP 的狀態(tài)(或用ifconfig en*,cluster node 之間的service 與service IP ,standby與 standby IP 互相可以ping 通. 在各個(gè)節(jié)點(diǎn)上執(zhí)行stty<</dev/tty* 有相
38、應(yīng)的信息出現(xiàn). 說明硬件層,LVM & TCPIP 層,AIX 層沒有問題, 問題可能出現(xiàn)在應(yīng)用層與HACMP 軟件層上. 否則問題就出現(xiàn)在相應(yīng)的層次上.在HACMP 軟件層上, 我們可以用vi /tmp/hacmp.out來看, 如果出現(xiàn)event failed 的字段, 則有可能問題出現(xiàn)在該層, 如果在問題出現(xiàn)的時(shí)段,hacmp.out 無信息出現(xiàn), 則問題可能出現(xiàn)在應(yīng)用層.以下是HA 排錯(cuò)的一些守則:. 在第一時(shí)間保存好相關(guān)的日志文件, 特別是那些會(huì)被覆蓋的文件. 嘗試去重復(fù)問題的出現(xiàn). 不要被用戶所反映的問題迷惑. 漸進(jìn)地去重復(fù)問題, 如果有多個(gè)可能導(dǎo)致問題的出現(xiàn), 一個(gè)一個(gè)地
39、去重復(fù), 而不要一次重復(fù)多個(gè)可能. 不要憑經(jīng)驗(yàn)來判斷問題, 而是要在各種測(cè)試后, 由結(jié)果來判斷. 隔離問題的來源, 根據(jù)我們上面所敘述的層次關(guān)系, 至頂向下地診斷. 由簡(jiǎn)到繁地做測(cè)試, 我們先從一個(gè)簡(jiǎn)單的環(huán)境來做測(cè)試, 不要嘗試在一個(gè)復(fù)雜的環(huán)境中測(cè)試. 一次做一次改動(dòng), 否則我們無法知道是那個(gè)改動(dòng)解決了問題. 不要忽略各種可能, 因小可失大, 留心系統(tǒng)的每一個(gè)細(xì)節(jié), 包括電源, 插頭, 連線等. . 保持各種測(cè)試的記錄以及解決的步驟, 用做將來排錯(cuò)的參考. 撥打IBM 服務(wù)熱線, 將問題現(xiàn)象和您所做的測(cè)試結(jié)果告訴IBM 的工程師, 他們將在CALL CENTER的測(cè)試中心重復(fù)試驗(yàn), 必要時(shí)會(huì)派
40、工程師到場(chǎng)解決問題.三 IBM HACMP 雙機(jī)系統(tǒng)的管理和維護(hù)本節(jié)將說明HACMP 雙機(jī)軟件的一些基本管理和維護(hù)命令這些命令將會(huì)在HACMP 雙機(jī)系統(tǒng)的日常工作中經(jīng)常用到.1 HACMP 雙機(jī)系統(tǒng)的啟動(dòng)要啟動(dòng)HACMP 雙機(jī)系統(tǒng)必須要有root 用戶的特權(quán)分別進(jìn)入到系統(tǒng)各節(jié)點(diǎn)主機(jī)在命令行上執(zhí)行下述命令即可.# smit clstart或# /usr/sbin/cluster/etc/rc.cluster -boot -N I需要注意的是在雙機(jī)系統(tǒng)中HACMP 雙機(jī)軟件先啟動(dòng)的節(jié)點(diǎn)將成為主節(jié)點(diǎn)擁有資源并對(duì)外提供關(guān)鍵服務(wù)后啟動(dòng)的節(jié)點(diǎn)將成為備節(jié)點(diǎn).另外在啟動(dòng)HACMP 前需要啟動(dòng)雙機(jī)上的INFOR
41、MIX 和SCP 應(yīng)用.2 HACMP 雙機(jī)系統(tǒng)的關(guān)閉要關(guān)閉某節(jié)點(diǎn)上的HACMP 雙機(jī)軟件必須要有該節(jié)點(diǎn)root 用戶的特權(quán)以root 用戶進(jìn)入到該節(jié)點(diǎn)主機(jī)在命令行上執(zhí)行下述命令即可.# smit clstop或# clstop -gr需要注意的是若該節(jié)點(diǎn)是主節(jié)點(diǎn)并且備節(jié)點(diǎn)上的HACMP 軟件亦正常運(yùn)行則需注意clstop 關(guān)閉模式的三種選項(xiàng)的不同1 forced 是指立即關(guān)閉雙機(jī)軟件不調(diào)用任何客戶應(yīng)用的takeover 是指該節(jié)點(diǎn)將關(guān)閉雙機(jī)軟件并釋放資源請(qǐng)求備節(jié)點(diǎn)進(jìn)行接管. 如該節(jié)點(diǎn)是備節(jié)點(diǎn)則關(guān)閉模式選項(xiàng)沒有多大意義.另外關(guān)閉HACMP 將關(guān)閉manager 和informix.3 查詢HA
42、CMP 雙機(jī)系統(tǒng)的狀態(tài)在雙機(jī)系統(tǒng)的運(yùn)行當(dāng)中操作員經(jīng)常需要知道雙機(jī)系統(tǒng)的當(dāng)前狀態(tài)才有可能對(duì)雙機(jī)系統(tǒng)出現(xiàn)的異常情況進(jìn)行恢復(fù)處理才能保證雙機(jī)系統(tǒng)的高可用性和高容錯(cuò)性. 查詢HACMP 雙機(jī)系統(tǒng)的狀態(tài)只需以root 用戶進(jìn)入需要查詢的節(jié)點(diǎn)進(jìn)行下列操作首先檢查HACMP 雙機(jī)軟件在該節(jié)點(diǎn)是否已啟動(dòng)命令如下# lssrc -g cluster若是系統(tǒng)顯示出下面類似的信息則說明HACMP 雙機(jī)軟件已正常啟動(dòng).Subsystem Group PID Statusclstrmgr cluster 22500 activeclsmuxpd cluster 23674 activeclinfo cluster 28
43、674 active在已確認(rèn)雙機(jī)軟件HACMP 正常啟動(dòng)的情況下在命令行執(zhí)行下述命令來察看雙機(jī)系統(tǒng)的當(dāng)前狀態(tài)# /usr/sbin/cluster/clstat -a如果雙機(jī)系統(tǒng)一切工作正常則系統(tǒng)將顯示下述類似信息clstat - HACMP for AIX Cluster Status Monitor-Cluster: scp_cluster(80 Thu Jan 20 08:45:17 TAIST 2000State: UP Nodes: 2SubState: STABLENode: mscp1 State: UPState: UPState: UPNode: mscp2 State: U
44、PState: UPState: UP七 常用的系統(tǒng)狀態(tài)查詢命令# lsdev C s scsi 列出各個(gè)SCSI 設(shè)備的所有相關(guān)信息如邏輯單元號(hào)硬件地址及設(shè)備文件名等# ps -ef列出正在運(yùn)行的所有進(jìn)程的各種信息如進(jìn)程號(hào)及進(jìn)程名等# netstat -rn列出網(wǎng)卡狀態(tài)及路由信息等# netstat -in列出網(wǎng)卡狀態(tài)及網(wǎng)絡(luò)配置信息# df -k列出已加載的邏輯卷及其大小信息# mount列出已加載的邏輯卷及其加載位置# uname -a列出系統(tǒng)ID 號(hào)系統(tǒng)名稱OS 版本等信息# hostname列出系統(tǒng)網(wǎng)絡(luò)名稱# lsvg l rootvg,lsvg p rootvg顯示邏輯卷組信息如包含
45、哪些物理盤及邏輯卷等# lslv l datalv,lslv p datalv顯示邏輯卷各種信息如包含哪些盤是否有鏡像等八 網(wǎng)絡(luò)故障定位方法網(wǎng)絡(luò)不通的診斷過程ifconfig 查看網(wǎng)卡是否啟動(dòng) (upnetstat i 查看網(wǎng)卡狀態(tài)Ierrs/Ipkts 和 Oerrs/Opkts是否>1%ping自己網(wǎng)卡地址 (ip 地址ping 其它機(jī)器地址如不通在其機(jī)器上用diag 檢測(cè)網(wǎng)卡是否有問題 在同一網(wǎng)中 subnetmask 應(yīng)一致網(wǎng)絡(luò)配置的基本方法(1 如需修改網(wǎng)絡(luò)地址主機(jī)名等一定要用 chdev 命令# chdev l inet0 a hostname=myhost(2 查看網(wǎng)卡狀態(tài)
46、# lsdev Cc if(3 確認(rèn)網(wǎng)絡(luò)地址# ifconfig en0 (4 啟動(dòng)網(wǎng)卡# ifconfig en0 up(5 配置路由有兩種方式加入路由永久路由臨時(shí)路由用命令 netstat -rn 查看路由表附常用命令列表! ! " #"$ %& ! " ' # ($ %& !# * " " +, !# * % - * ! * ' !*" !* "&&&& ! $ ' *$ + !* , &&&&& !* $
47、' ' ' !* ' # ' ' !# . !(!# $ * (. %' $ ! && $ ! ' ' (&& / 00 * ! ! $ ! ! $ 1 # !* ' * , ' 1 2 !* ' , ' ! ! # ! ! $ * ( ! % !(% $ * ,345 (, ( 5 ' ! ! $ ' $ * ' ' ! # ( %+6 $ ' ! ! # ! % 78 ! % 99 ! & 99 * 99 !
48、 & 99 !' '' ' ! ' , ' : (, ! ! '' ! ; $ ! $ ! < ! +( , ! 8 ! * !< ! + ! = ! != ! 3 ! ' != 3 ! ' 3 !< 3 ! ' + ' ! *$ * $ ! % $ % ! % % # ! ! * > ,+55 4+55 " ?43 ,+55$ ! * $ $ $ ($ ! * $ & ! % 0 ! & * $% !# ! $ % 00 $% !# 4-
49、" #" ! $% & ! !# * A B3 C - " #" 3 ! 3 ! .! ! . ! ! !D &&&&&& ! ' # # !E ! ! ! $ * ( # # !E ' 33!3 ! # !E &&&&& !F ! # (&&& % # !E ! # ( # !E ! # # !E ! # # !E ! # ! $ ' ' ! $ * ( ' ' ! ' ! $
50、0E $ ' !# ! ' # +( 3 $ % ' !# 3 ! $ $ " 8;0 ! 1 G G ! ' H 7ID= ! # ! $ C ! # #, ! ! $ % # ' ' ! ! $ % # ' ' # ! $ $ # # $ % ! # # ! $ % ! ' # ' % ! ! #' ! # ' #' ! ! % # ' (&&&&& # ! $ & + ' ! ! ' $ $ ( '
51、; ! , , ! $ ' 0 8;0 $ ( # ( $ ! # # ! $ * # (J+4+5 # ' ! & + ! % # $ * / ! ! % # $ * / ! ! ' ! % ' * ! *$ ! ! ! # . * # ! ! # # # ! ! ! # # ! # ! # * $ $ # >*A !* ( # A D 1 % ! * $ 8DK % !% & $! * $ 8DK $ < ! %* * ! * # * < * * ( * $ D & ! & & & & ( 1 ! # * !( % + $ ! * $ (=7K ! * $ * ! * $ / ! # " #" " !* " # ! # " #" !* # ! " #" * ! * . < ! " #" +, J ! * # K !6 ! # (!6 ' ! # . ! %' * $ !$ * ' 0 $ * # ! # ! E0L % . * $ # . !, ($ * 4 ($ * *$ ! $ * *$ ! $ * . L8D $ *
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《近代燃燒技術(shù)》課件
- 甲下外生骨疣的臨床護(hù)理
- 株紫丁香課件趙秀梅
- 孕期手腳心發(fā)紅的健康宣教
- 《改革進(jìn)入新時(shí)期》課件
- 股份增值合同三篇
- 鐵路機(jī)車車輛修造合同三篇
- 健身運(yùn)動(dòng)APP相關(guān)行業(yè)投資規(guī)劃報(bào)告范本
- ALN-BN復(fù)合陶瓷相關(guān)行業(yè)投資規(guī)劃報(bào)告
- 保障性住房管理服務(wù)相關(guān)行業(yè)投資規(guī)劃報(bào)告
- (完整)《神經(jīng)病學(xué)》考試題庫(kù)及答案
- 閑置固定資產(chǎn)明細(xì)表
- 2022年雅思翻譯句精華版
- 單軸水泥攪拌樁施工方案設(shè)計(jì)
- 老年人睡眠障礙的護(hù)理(PPT課件)
- 《家庭禮儀》PPT課件
- 應(yīng)聘人員面試登記表(應(yīng)聘者填寫)
- T∕CAAA 005-2018 青貯飼料 全株玉米
- s鐵路預(yù)應(yīng)力混凝土連續(xù)梁(鋼構(gòu))懸臂澆筑施工技術(shù)指南
- 撥叉831006設(shè)計(jì)說明書
- 程序語(yǔ)言課程設(shè)計(jì)任意兩個(gè)高次多項(xiàng)式的加法和乘法運(yùn)算
評(píng)論
0/150
提交評(píng)論