計(jì)算機(jī)硬件及網(wǎng)絡(luò)小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第1頁
計(jì)算機(jī)硬件及網(wǎng)絡(luò)小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第2頁
計(jì)算機(jī)硬件及網(wǎng)絡(luò)小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第3頁
計(jì)算機(jī)硬件及網(wǎng)絡(luò)小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第4頁
計(jì)算機(jī)硬件及網(wǎng)絡(luò)小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 小機(jī)生產(chǎn)系統(tǒng)異常操作指南目錄 TOC o 1-3 h z u HYPERLINK l _Toc249169163 第一章 WAS篇 PAGEREF _Toc249169163 h 4 HYPERLINK l _Toc249169164 無法登陸管理控制臺(tái) PAGEREF _Toc249169164 h 4 HYPERLINK l _Toc249169165 應(yīng)用服務(wù)器無法啟動(dòng) PAGEREF _Toc249169165 h 4 HYPERLINK l _Toc249169166 應(yīng)用程序請(qǐng)求無響應(yīng) PAGEREF _Toc249169166 h 4 HYPERLINK l _Toc24916

2、9167 應(yīng)用程序無法訪問 PAGEREF _Toc249169167 h 5 HYPERLINK l _Toc249169168 應(yīng)用服務(wù)器java進(jìn)程crash PAGEREF _Toc249169168 h 5 HYPERLINK l _Toc249169169 概要文件被破壞 PAGEREF _Toc249169169 h 6 HYPERLINK l _Toc249169170 Java進(jìn)程CPU 100% PAGEREF _Toc249169170 h 10 HYPERLINK l _Toc249169171 新部署應(yīng)用程序無法訪問 PAGEREF _Toc249169171 h 1

3、0 HYPERLINK l _Toc249169172 在集群模式下節(jié)點(diǎn)不同步 PAGEREF _Toc249169172 h 12 HYPERLINK l _Toc249169173 第二章 MQ篇 PAGEREF _Toc249169173 h 13 HYPERLINK l _Toc249169174 通道無法啟動(dòng) PAGEREF _Toc249169174 h 13 HYPERLINK l _Toc249169175 隊(duì)列管理器無法啟動(dòng) PAGEREF _Toc249169175 h 13 HYPERLINK l _Toc249169176 隊(duì)列管理器無法停止 PAGEREF _Toc2

4、49169176 h 14 HYPERLINK l _Toc249169177 死信隊(duì)列不斷有消息堆積 PAGEREF _Toc249169177 h 14 HYPERLINK l _Toc249169178 MQ對(duì)象被損壞 PAGEREF _Toc249169178 h 14 HYPERLINK l _Toc249169179 第三章 DB2篇 PAGEREF _Toc249169179 h 16 HYPERLINK l _Toc249169180 實(shí)例停止 PAGEREF _Toc249169180 h 16 HYPERLINK l _Toc249169181 實(shí)例無法啟動(dòng) PAGEREF

5、 _Toc249169181 h 16 HYPERLINK l _Toc249169182 表空間暫時(shí)性的無法訪問 PAGEREF _Toc249169182 h 16 HYPERLINK l _Toc249169183 表空間永久性的無法訪問 PAGEREF _Toc249169183 h 17 HYPERLINK l _Toc249169184 數(shù)據(jù)庫活動(dòng)日志丟失 PAGEREF _Toc249169184 h 17 HYPERLINK l _Toc249169185 表空間滿 PAGEREF _Toc249169185 h 17 HYPERLINK l _Toc249169186 活動(dòng)日

6、志空間滿 PAGEREF _Toc249169186 h 17 HYPERLINK l _Toc249169187 活動(dòng)日志所在目錄文件系統(tǒng)滿 PAGEREF _Toc249169187 h 18 HYPERLINK l _Toc249169188 表被鎖,無法訪問 PAGEREF _Toc249169188 h 18 HYPERLINK l _Toc249169189 表中的內(nèi)容被誤刪除 PAGEREF _Toc249169189 h 18 HYPERLINK l _Toc249169190 第四章 AIX篇 PAGEREF _Toc249169190 h 19 HYPERLINK l _T

7、oc249169191 硬件故障 PAGEREF _Toc249169191 h 19 HYPERLINK l _Toc249169192 CPU使用過度 PAGEREF _Toc249169192 h 19 HYPERLINK l _Toc249169193 內(nèi)存使用過度 PAGEREF _Toc249169193 h 19 HYPERLINK l _Toc249169194 系統(tǒng)ping不通 PAGEREF _Toc249169194 h 20 HYPERLINK l _Toc249169195 系統(tǒng)可以ping通,但是無法telnet PAGEREF _Toc249169195 h 20

8、 HYPERLINK l _Toc249169196 部分主機(jī)不能訪問某臺(tái)主機(jī) PAGEREF _Toc249169196 h 20 HYPERLINK l _Toc249169197 HA無法切換,或切換不正常 PAGEREF _Toc249169197 h 21 HYPERLINK l _Toc249169198 文件系統(tǒng)滿 PAGEREF _Toc249169198 h 21 HYPERLINK l _Toc249169199 文件系統(tǒng)無法進(jìn)行正常讀寫 PAGEREF _Toc249169199 h 22 HYPERLINK l _Toc249169200 鏡像不同步 PAGEREF _

9、Toc249169200 h 22 HYPERLINK l _Toc249169201 Dump設(shè)備太小 PAGEREF _Toc249169201 h 22 HYPERLINK l _Toc249169202 密碼丟失 PAGEREF _Toc249169202 h 23 HYPERLINK l _Toc249169203 系統(tǒng)有報(bào)錯(cuò)信息 PAGEREF _Toc249169203 h 23 HYPERLINK l _Toc249169204 telnet的響應(yīng)很慢 PAGEREF _Toc249169204 h 23 HYPERLINK l _Toc249169205 文件系統(tǒng)不能umou

10、nt PAGEREF _Toc249169205 h 24 HYPERLINK l _Toc249169206 TCP網(wǎng)絡(luò)的socket端口不能釋放,始終處于close_wait狀態(tài) PAGEREF _Toc249169206 h 24 HYPERLINK l _Toc249169207 系統(tǒng)中包含大量的僵尸進(jìn)程 PAGEREF _Toc249169207 h 25 HYPERLINK l _Toc249169208 第五章 突發(fā)情況信息收集 PAGEREF _Toc249169208 h 26 HYPERLINK l _Toc249169209 DB2需要收集的信息 PAGEREF _Toc

11、249169209 h 26 HYPERLINK l _Toc249169210 WAS需要收集的信息 PAGEREF _Toc249169210 h 27 HYPERLINK l _Toc249169211 MQ需要收集的信息 PAGEREF _Toc249169211 h 29 HYPERLINK l _Toc249169212 SNA需要收集的信息 PAGEREF _Toc249169212 h 29 HYPERLINK l _Toc249169213 AIX需要收集的信息 PAGEREF _Toc249169213 h 30第一章 WAS篇無法登陸管理控制臺(tái)1、現(xiàn)象描述IE瀏覽: :/

12、IP:9060/admin判斷是否還能登陸,不能登錄時(shí)說明控制臺(tái)應(yīng)用沒有發(fā)布。其中9060是WAS的服務(wù)端口。2、處理方法進(jìn)入wsadmin狀態(tài)(AdminConsole.ear_Path, -server server1)AdminConfig.save()完成安裝/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server應(yīng)用服務(wù)器無法啟動(dòng)1、現(xiàn)象描述對(duì)于WAS5.1,在bin目錄下執(zhí)行:./startServer.sh server判斷是否能正常啟動(dòng)。對(duì)于WAS6.1,WAS使用的端口是9060,因此不會(huì)和9090端口沖突。2、處理

13、方法# netstat an|grep 9090查看端口(9090是WAS5.1控制臺(tái)所用的默認(rèn)端口)#/usr/websm/bin/wsmserver disable 關(guān)閉系統(tǒng)占用的9090端口/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server信息收集時(shí)請(qǐng)收集install_root/logs/server_name的所有信息應(yīng)用程序請(qǐng)求無響應(yīng)1、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問長時(shí)間沒有頁面顯示,在瀏覽器訪問后長時(shí)間沒有反應(yīng)。2、處理方法ps ef|grep java查看java進(jìn)程號(hào);/usr/WebSphere/AppServe

14、r/bin/目錄下執(zhí)行:./stopServer.sh server(若無法停止則使用kill 命令殺掉)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server在下圖中可以看到進(jìn)程號(hào)碼是8822。信息收集時(shí),參見5.2 3系統(tǒng)hung或者性能下降。應(yīng)用程序無法訪問1、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問出現(xiàn)404錯(cuò)誤頁面或者找不到服務(wù)器2、處理方法查看IBM Server的 d進(jìn)程是否正常狀態(tài)運(yùn)行;例如是否有父進(jìn)程為“1”的現(xiàn)象;/usr/IBMIHS/bin/apachectl stop 停止 IBM Server(若無法停止則把相關(guān)的 進(jìn)程

15、殺掉)/usr/IBMIHS/bin/apachectl start 啟動(dòng) IBM Server信息收集時(shí),收集IHS的logs目錄下的日志,ps ef|grep 的輸出。Plugin的日志和WAS的logs目錄的日志應(yīng)用服務(wù)器java進(jìn)程crash1、現(xiàn)象描述ps ef|grep java沒有WAS的java進(jìn)程在執(zhí)行2、處理方法/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server成功啟動(dòng)后可以看到類似如下的輸出:信息收集時(shí),參見5.2 - 2系統(tǒng)崩潰概要文件被破壞1、現(xiàn)象描述對(duì)于WAS6.1版本,創(chuàng)建服務(wù)器需要一個(gè)概要表,即p

16、rofile。概要文件位于$WAS_HOME/profiles,包含了一個(gè)應(yīng)用所用的一組server,如果遭到人為破壞,則需要重建整個(gè)profile。2、處理方法若以前對(duì)配置做過備份,先恢復(fù)以前的配置,看是否能夠啟動(dòng),若仍然不能啟動(dòng),則創(chuàng)建新的概要文件:/usr/WebSphere/AppServer/bin/manageprofiles.sh -help命令輸出如下,可以看到,針對(duì)所需的配置內(nèi)容,可以從命令中得到進(jìn)一步的聯(lián)機(jī)幫助,例如manageprofiles.sh -create -help用來查看創(chuàng)建profile的幫助內(nèi)容。信息收集時(shí),需要收集的內(nèi)容如下:1./startServer

17、.sh server trace的信息;2install_root/logs/server_name的所有信息。以下腳本會(huì)創(chuàng)建一個(gè)名為newProfileName的新的Default類型Profile,對(duì)應(yīng)節(jié)點(diǎn)名稱為newNode。1)進(jìn)入WAS安裝目錄下bin目錄,例如在AIX上為cd /usr/IBM/WebSphere/AppServer/bin2)在root權(quán)限下執(zhí)行:# ./manageprofiles.sh -create -profileName newProfileName -profilePath /usr/IBM/WebSphere/AppServer/profiles/n

18、ewProfileName -templatePath /usr/IBM/WebSphere/AppServer/profileTemplates/default -nodeName newNode概要文件名:newProfileName概要文件路徑:/usr/IBM/WebSphere/AppServer/profiles/newProfileName概要文件類型:defaultnode名稱:newNode如果需要使用Dmgr Profile對(duì)Default Profile進(jìn)行管理,則需要把Default Profile的節(jié)點(diǎn)添加到Dmgr Profile所在的單元。假設(shè)Dmgr Profi

19、le所在主機(jī)名稱為DMGR_HOSTNAME,則把名為newProfile的Default Profile添加其中的步驟為:1.進(jìn)入Default Profile安裝目錄下的bin目錄;cd /usr/IBM/WebSphere/AppServer/profiles/newProfile/bin;2.把節(jié)點(diǎn)添加到單元,在root權(quán)限中執(zhí)行:./addNode.sh DMGR_HOSTNAME 8879PMT是管理概要表的圖形工具,是profile management tool的簡稱。通常位于WAS_HOME/bin/ProfileManagement/pmt.sh,或pmt.bat,或pmt

20、AIX.sh,腳本取決于操作系統(tǒng)和WAS版本。如果使用PMT管理概要文件,可以通過圖形界面創(chuàng)建概要表 不同版本的pmt界面會(huì)有較大的差異,64位版本的was不包含管理概要表的圖形工具。選擇概要表類型:選擇概要表的創(chuàng)建位置和名稱:選擇節(jié)點(diǎn)名和主機(jī)名:在安裝過程不要啟用全局安全性,安裝后需要該功能時(shí)可以從管理控制臺(tái)啟用。由WAS生成默認(rèn)的端口,如果需要也可以自行修改,此時(shí)需要確保端口和該服務(wù)器上安裝的其他應(yīng)用不存在沖突。復(fù)核概要表的定義無誤后,點(diǎn)擊“下一步”創(chuàng)建概要表:Java進(jìn)程CPU 100%1、現(xiàn)象描述topas查看java的CPU使用情況2、處理方法ps ef|grep java查看jav

21、a進(jìn)程號(hào);用kill殺掉該進(jìn)程。/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server信息收集參見5.2 - 1 CPU利用率達(dá)到100%。新部署應(yīng)用程序無法訪問1、現(xiàn)象描述訪問新系統(tǒng)出現(xiàn)404錯(cuò)誤2、處理方法1).查看最新的插件更新日期:/usr/WebSphere/AppServer/config/cells/2).在IE管理控制臺(tái)里面更新插件,然后復(fù)制最新的插件到Web Server的指定目錄下;/usr/IBMIHS/bin/apachectl stop 停止 IBM Server/usr/IBMIHS/bin/apache

22、ctl start 啟動(dòng) IBM Server應(yīng)用程序部署完成后,需要為IHS配置插件,提供應(yīng)用的URI、虛擬主機(jī)、服務(wù)器地址等信息,以便IHS把請(qǐng)求轉(zhuǎn)發(fā)到應(yīng)用服務(wù)器。IHS PLUGIN的配置包含兩個(gè)步驟:插件的生成和傳播,這里的插件指的是IHS PLUGIN所需的配置文件plugin-cfg.xml。進(jìn)入WAS控制臺(tái),進(jìn)入應(yīng)用服務(wù)器web服務(wù)器,選中需要更新插件的web服務(wù)器,點(diǎn)擊“生成插件”所生成的服務(wù)器的插件位置將會(huì)顯示如下。如果IHS和AppServer處于同一臺(tái)服務(wù)器上,則不需要傳播插件。否則請(qǐng)按照下一節(jié)內(nèi)容完成插件的傳播。如果IHS和AppServer位于不同的機(jī)器上,請(qǐng)?jiān)诓寮?/p>

23、成后,再次選擇需要傳播插件的服務(wù)器,點(diǎn)擊傳播插件。此前需要確認(rèn)IHS服務(wù)器的控制臺(tái)已經(jīng)啟動(dòng),WAS將通過IHS的控制臺(tái)端口把插件配置傳播到IHS服務(wù)器中。信息收集時(shí),需要收集install_root/logs/server_name的所有信息。在集群模式下節(jié)點(diǎn)不同步1、現(xiàn)象描述訪問管理控制臺(tái)之后,管理控制臺(tái)無法修改和管理節(jié)點(diǎn),在nodeagent上顯示:不同步2、處理方法1).停止節(jié)點(diǎn)上的server和nodeagent,保持dmgr正常啟動(dòng)狀態(tài);在節(jié)點(diǎn)的bin目錄下執(zhí)行:#./syncNode.sh server 88792).在節(jié)點(diǎn)的bin目錄下執(zhí)行:3).進(jìn)管理控制臺(tái)查看節(jié)點(diǎn)是否同步信息

24、收集時(shí),需要收集install_root/logs/server_name的所有信息。第二章 MQ篇通道無法啟動(dòng)1、現(xiàn)象描述在Runmqsc中start channel(channel name)無法啟動(dòng)。2、處理方法將通道序列號(hào)復(fù)位。使用Reset channel命令。使用strmqm和endmqm命令重啟隊(duì)列管理器。根據(jù)錯(cuò)誤代碼檢查sna和網(wǎng)絡(luò)、對(duì)方MQ的狀態(tài)。下圖為dspmq命令的輸出樣例:信息收集時(shí),參見5.3 1-5點(diǎn)內(nèi)容。隊(duì)列管理器無法啟動(dòng)1、現(xiàn)象描述Strmqm QMGR命令失敗2、處理方法使用ps ef檢查,把所有的MQ進(jìn)程都?xì)⒌簟J褂胢qiclen x m QMGR命令清除共

25、享內(nèi)存資源。然后重啟MQ:strmqm該命令的輸出結(jié)果類似下面的情況:信息收集時(shí),參見5.3 1-5點(diǎn)內(nèi)容。隊(duì)列管理器無法停止1、現(xiàn)象描述Endmqm QMGR 命令不能停止隊(duì)列管理器2、處理方法使用endmqm i QMGR命令。仍然不能停止則使用endmqm p QMGR命令。命令的輸出情況如下所示:信息收集時(shí),參見5.3 1-6點(diǎn)內(nèi)容。死信隊(duì)列不斷有消息堆積1、現(xiàn)象描述Dis queue(DLQ)看到有消息堆積。2、處理方法查看通道的狀態(tài)是否正常:dis chs(*);以及對(duì)端MQ的狀態(tài)是否正常。使用amqsbcg Qname Qmgr命令瀏覽死信隊(duì)列的消息內(nèi)容,根據(jù)原因碼再采取相應(yīng)的措

26、施。該命令的使用參數(shù)列表如下:信息收集時(shí),參見5.3 1-5點(diǎn)內(nèi)容。MQ對(duì)象被損壞1、現(xiàn)象描述MQ隊(duì)列、通道等對(duì)象被刪除或者M(jìn)Q的系統(tǒng)文件被破壞,Dis queue(*)Dis channel(*)找不到對(duì)象。2、處理方法使用crtmqm QMGR的命令重新創(chuàng)建隊(duì)列管理器,使用runmqsc 80%表示CPU消耗過量2、處理方法方法 1控制應(yīng)用使用的CPU量,減小系統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進(jìn)行CPU緊急擴(kuò)容。使用LPAR動(dòng)態(tài)調(diào)整功能,擴(kuò)充系統(tǒng)的CPU總量。降低系統(tǒng)的CPU使用百分比方法 3在方法1和方法2都無法執(zhí)行,且系統(tǒng)問題非常緊急的情況下,使用sar 以及nice等命令,調(diào)整進(jìn)程的

27、使用CPU優(yōu)先級(jí),確保主要應(yīng)用暫時(shí)不受影響。另行安排時(shí)間進(jìn)行CPU擴(kuò)容。信息收集時(shí),需要收集perfpmr的信息。內(nèi)存使用過度1、現(xiàn)象描述Vmstat觀察pi po值;Svmon觀察free的內(nèi)存值;Topas觀察內(nèi)存和paging。如果free的內(nèi)存為零,并且pi po值持續(xù)保持較高的值,代表系統(tǒng)以及存在內(nèi)存緊缺的問題2、處理方法方法 1控制應(yīng)用使用的內(nèi)存量,減小系統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進(jìn)行內(nèi)存緊急擴(kuò)容。使用LPAR動(dòng)態(tài)調(diào)整功能,擴(kuò)充系統(tǒng)的內(nèi)存總量,保證有足夠的內(nèi)存使用。方法 3調(diào)整vmo參數(shù),平衡系統(tǒng)內(nèi)部內(nèi)存的分配情況,首先保證關(guān)鍵和繁忙的應(yīng)用擁有足夠的內(nèi)存。信息收集時(shí),需要收集

28、perfpmr的信息。系統(tǒng)ping不通1、現(xiàn)象描述Ping 時(shí),發(fā)生ping不通的現(xiàn)象2、處理方法由hmc登錄主機(jī),檢查系統(tǒng)的ip設(shè)置。重點(diǎn)檢查系統(tǒng)與網(wǎng)關(guān)之間的通訊是否正常。遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時(shí),需要收集snap ac的信息。系統(tǒng)可以ping通,但是無法telnet1、現(xiàn)象描述telnet 時(shí),發(fā)生telnet不通現(xiàn)象,但是這個(gè)系統(tǒng)可以被ping通2、處理方法方法1由hmc登錄主機(jī),檢查inetd進(jìn)程是否正常方法 2檢查所有的系統(tǒng)文件系統(tǒng)包括/ /tmp /var 是否有足夠空間方法 3檢查網(wǎng)絡(luò)設(shè)備是否存在防火墻或者telnet的限制遇到這種情況,最好直接登

29、錄系統(tǒng)查看和分析問題。信息收集時(shí),需要收集snap ac的信息。部分主機(jī)不能訪問某臺(tái)主機(jī)1、現(xiàn)象描述從某個(gè)(或某些)主機(jī)可以telnet到這臺(tái)主機(jī),但從另一個(gè)(或另一些)主機(jī)不能telnet到這臺(tái)主機(jī)2、處理方法方法1檢查主機(jī)的路由信息netstat rn,確定主機(jī)的路由表是否正常方法 2檢查不同網(wǎng)絡(luò)設(shè)備之間的通訊是否存在問題遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時(shí),需要收集snap ac的信息。HA無法切換,或切換不正常1、現(xiàn)象描述HA切換異常,表現(xiàn)為備機(jī)不能完全接管主機(jī)的資源。觀察應(yīng)用是否運(yùn)行正常;觀察 HA相關(guān)地址是否正確(boot、standby、service)。2、

30、處理方法方法1如果主機(jī)仍然可以訪問,依次手動(dòng)關(guān)閉主機(jī)的應(yīng)用,數(shù)據(jù)庫,文件系統(tǒng),vg。殺死HA進(jìn)程。在備機(jī)端關(guān)閉HA進(jìn)程,并確認(rèn)所有IP和資源正常。重起備機(jī)HA,拉起資源。方法2如果主機(jī)已經(jīng)無法訪問,關(guān)閉主機(jī)系統(tǒng)。在備機(jī)端重復(fù)方法1中的拉起資源的步驟。方法3如果主備機(jī)都無法使用,HA拉起資源和應(yīng)用,采取手動(dòng)方式恢復(fù)業(yè)務(wù)。依次手動(dòng)開啟vg,文件系統(tǒng),數(shù)據(jù)庫和應(yīng)用。信息收集時(shí),需要在兩個(gè)節(jié)點(diǎn)上分別收集snap ac的信息,并在其中任意一個(gè)節(jié)點(diǎn)上收集snap ec信息。文件系統(tǒng)滿1、現(xiàn)象描述df k發(fā)現(xiàn)文件系統(tǒng)使用率超過702、處理方法方法1采取緊急擴(kuò)容,擴(kuò)充文件系統(tǒng)的大小。方法 2如果已經(jīng)影響到主機(jī)

31、的正常使用,由HMC登錄主機(jī)。方法 3如果HMC也無法登錄主機(jī),使用光盤引導(dǎo)進(jìn)入系統(tǒng),在maintenance的模式下擴(kuò)充文件系統(tǒng)。這種情況一般不需要收集信息。如果一定要收,請(qǐng)收snap ac信息。文件系統(tǒng)無法進(jìn)行正常讀寫1、現(xiàn)象描述任何讀寫操作都會(huì)發(fā)生I/O 的報(bào)錯(cuò)2、處理方法首先備份文件系統(tǒng)所在的數(shù)據(jù)。將所有仍然可以訪問的數(shù)據(jù)全部備份方法 1關(guān)閉文件系統(tǒng),進(jìn)行fsck的檢查。試圖修復(fù)文件系統(tǒng)的邏輯錯(cuò)誤。方法 2如果文件系統(tǒng)無法修復(fù),則必須重建一個(gè)新的文件系統(tǒng),由備份數(shù)據(jù)恢復(fù)。(如果之前的備份數(shù)據(jù)完整,則可以使用事先準(zhǔn)備的備份數(shù)據(jù),不然則需要客戶提供完整的數(shù)據(jù)備份)信息收集時(shí),需要收集sna

32、p ac的信息。鏡像不同步1、現(xiàn)象描述lsvg l 發(fā)現(xiàn)有部分lv的狀態(tài)是stale2、處理方法檢查是否存在硬件故障。如果是,請(qǐng)解除鏡像、修復(fù)硬件、重做鏡像。如果不是硬件問題導(dǎo)致的不同步,則需要在系統(tǒng)中重新建立同步關(guān)系。syncvg l 做完后檢查是否狀態(tài)都是syncd。這種情況一般不需要收集信息。信息收集時(shí),需要收集snap ac的信息。Dump設(shè)備太小1、現(xiàn)象描述系統(tǒng)errpt會(huì)提示當(dāng)前的dump文件已經(jīng)超出了存放dump的空間2、處理方法尋找dump 存放的位置sysdumpdev l檢查dump 需要的空間sysudmpdev e擴(kuò)大dump 設(shè)備,達(dá)到預(yù)計(jì)的大小extendlv這種情

33、況一般不需要收集信息。信息收集時(shí),需要收集snap ac的信息。密碼丟失1、現(xiàn)象描述Root或其他用戶密碼丟失2、處理方法如果普通用戶密碼丟失,使用root 用戶登錄,su到普通用戶,然后執(zhí)行passwd命令修改密碼如果root用戶密碼丟失,停系統(tǒng),使用光盤引導(dǎo)進(jìn)入maintenance模式,執(zhí)行passwd命令修改密碼這種情況不需要收集信息。系統(tǒng)有報(bào)錯(cuò)信息1、現(xiàn)象描述使用errpt命令發(fā)現(xiàn)有報(bào)錯(cuò)信息。2、處理方法如果是小型機(jī)硬件設(shè)備報(bào)錯(cuò)(例如sysplanner0的錯(cuò)誤,fcs的H類錯(cuò)誤,網(wǎng)卡的H類錯(cuò)誤,內(nèi)置磁盤的H類報(bào)錯(cuò)等),請(qǐng)聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)行問題診斷和處理;如果是外置存儲(chǔ)磁盤和

34、鏈路報(bào)錯(cuò)(例如hdisk的報(bào)錯(cuò)),請(qǐng)聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)行問題診斷和處理;如果是軟件類報(bào)錯(cuò),請(qǐng)聯(lián)系IBM工程師進(jìn)行分析。info類的信息可以忽略不計(jì)。在這種情況下,需要收集snap gc的信息。telnet的響應(yīng)很慢1、現(xiàn)象描述在終端上使用telnet命令登錄AIX系統(tǒng)時(shí),終端會(huì)過很久(1,2分鐘左右)才顯示出登錄提示字符。2、處理方法這種情況一般是設(shè)置了域名解析造成的。處理方法:和應(yīng)用溝通,問是否可以刪除/etc/resolv.conf文件。如果可以,就刪除它。如果不可以,編輯文件,加參數(shù)c在telnet最后,如下 telnet stream tcp6 nowait root /usr/

35、sbin/telnetd telnetd -a -c 刷新inetd服務(wù): # refresh -s inetd在這種情況下,不需要收集信息文件系統(tǒng)不能umount1、現(xiàn)象描述在umount某一文件系統(tǒng)時(shí),終端上報(bào)文件系統(tǒng)busy,不能umount。2、處理方法首先使用fuser xuc ,查看有哪些進(jìn)程占著該文件系統(tǒng)。然后使用fuser kuxc ,強(qiáng)制關(guān)閉占用該文件系統(tǒng)的進(jìn)程。注意:這步風(fēng)險(xiǎn)很大。如果沒調(diào)查清楚,可能會(huì)導(dǎo)致誤殺應(yīng)用和系統(tǒng)進(jìn)程,從而導(dǎo)致系統(tǒng)或應(yīng)用crash。在這種情況下,不需要收集信息TCP網(wǎng)絡(luò)的socket端口不能釋放,始終處于close_wait狀態(tài)1、現(xiàn)象描述應(yīng)用已經(jīng)停

36、止,但它所在的端口一直得不到釋放。2、處理方法查看端口PCB的值:netstat An |grep 端口號(hào)清除tcpcb地址所在的socket:rmsock tcpcb 在這種情況下,不需要收集信息系統(tǒng)中包含大量的僵尸進(jìn)程1、現(xiàn)象描述ps Af查看到系統(tǒng)中有很多defunct進(jìn)程2、處理方法用ps Af查看defunct進(jìn)程的父進(jìn)程。如果父進(jìn)程是應(yīng)用進(jìn)程,則停止該應(yīng)用進(jìn)程即可清除僵尸進(jìn)程;如果父進(jìn)程是系統(tǒng)進(jìn)程,只有重啟系統(tǒng)才能清除僵尸進(jìn)程。在這種情況下,不需要收集信息第五章 突發(fā)情況信息收集對(duì)于開放平臺(tái)如發(fā)生突發(fā)事件,如果現(xiàn)場(chǎng)不能確定問題的根本原因,在進(jìn)行應(yīng)急預(yù)案的同時(shí),應(yīng)收集相關(guān)信息,包括故

37、障現(xiàn)場(chǎng)的環(huán)境、描述、日志、診斷文件等等,以進(jìn)行事后原因分析。對(duì)于宕機(jī),hang等問題,考慮收集trace文件。如果收集信息需要的時(shí)間較長,影響應(yīng)急生產(chǎn)恢復(fù),則應(yīng)保證后者的更高優(yōu)先級(jí)。DB2需要收集的信息任何故障都應(yīng)收集db2pd -file -everything數(shù)據(jù)庫hangdb2pd -db -stack all -repeat 3db2trc on -l 128Mrecreate the problem db2trc offdb2service.perf1 ( Performance/hang data collection scripts) 本命令將用到的script: 數(shù)據(jù)庫性能問題

38、db2 update monitor switches using bufferpool on lock on sort on statement on uow ondb2 get snapshot for dbmdb2 get snapshot for all on 實(shí)例故障db2support . -s數(shù)據(jù)庫故障db2support . -d -c -s WAS需要收集的信息CPU利用率達(dá)到100%得到所有網(wǎng)絡(luò)連接的信息得到CPU利用率使用信息tprof_ps.sh tprof_ps每隔2分鐘生成一個(gè)javacorekill -3 java的進(jìn)程號(hào)install_root/logs/ser

39、ver_name的所有信息系統(tǒng)崩潰executable is /usr/WebSphere/AppServer/java/jre/bin/javacore_file_name is the core filegetlib.sh java_executable_full_path core_filename (系統(tǒng)必須安裝dbx)tar cvf core_file_name core_file_nameinstall_root/java/jre/bin/jextract -o core.sdff core_pathinstall_root/logs/server_name的所有信息系統(tǒng)hung或

40、者性能下降svmon -P pid -m -r -I 60 5 svmon.out &tprof -k -s -e -x sleep 60每2分鐘生成一個(gè)javacorekill -3 PID_of_hung_JVMinstall_root/logs/server_name,plugin-cfg.xml, _plugin.log, install_root/logs/ffdc的所有信息數(shù)據(jù)庫連接問題檢查數(shù)據(jù)源配置情況,測(cè)試數(shù)據(jù)庫連接TroubleshootingLogging and TracingDiagonstic Trace Enable trace with the following

41、 specification is selectedTroubleshootingLogging and TracingDiagonstic TraceTrace Specification Connecting to a database in V5.1:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:Transaction=all=enabled Connecting to a database in V5.0:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:co

42、m.ibm.ejs.jts.*=all=enabled:com.ibm.ws.LocalTransaction.*=all=enabledRestart Application ServerCollect the resulting trace output fileMQ需要收集的信息收集mqs.ini 收集/var/mqm/errors/目錄下的日志收集/var/mqm/qmgrs/SYSTEM/errors/目錄下的日志收集/var/mqm/qmgrs/QM/errors目錄下的日志MQ TRACE INSTRUCTIONS:Start trace:trace -a -j30D,30E -

43、o /path/to/trace.out -L 50000000End trace:trcstopSNA需要收集的信息SNA TRACE INSTRUCTIONS:snaadmin set_log_file,log_file_type=AUDIT,file_size=20000000 snaadmin set_log_file,log_file_type=ERROR,file_size=20000000 snaadmin set_trace_file,trace_file_type=IPS,trace_file_size=100000000 snaadmin set_global_log_type,audit=YES, exception=YES snaadmin set_global_log_type,succinct_audits=YES, succinct_errors=YES snaadmin add_dlc_trace snaadmin set_trace_type,trace_flags=NONE,api_flags=NONE 等待相應(yīng)需要的時(shí)間執(zhí)行:snagetp

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論