小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第1頁(yè)
小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第2頁(yè)
小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第3頁(yè)
小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第4頁(yè)
小機(jī)生產(chǎn)系統(tǒng)異常操作指南_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

小機(jī)生產(chǎn)系統(tǒng)異常操作指南

目錄

第一章WAS篇4

無(wú)法登陸管理控制臺(tái)4

應(yīng)用服務(wù)器無(wú)法啟動(dòng)4

應(yīng)用程序請(qǐng)求無(wú)響應(yīng)4

應(yīng)用程序無(wú)法訪問(wèn)5

應(yīng)用服務(wù)器JAVA進(jìn)程CRASH5

概要文件被破壞6

JAVA進(jìn)程CPU100%10

新部署應(yīng)用程序無(wú)法訪問(wèn)10

在集群模式下節(jié)點(diǎn)不同步12

第二章MQ篇13

通道無(wú)法啟動(dòng)13

隊(duì)列管理器無(wú)法啟動(dòng)13

隊(duì)列管理器無(wú)法停止14

死信隊(duì)列不斷有消息堆積14

MQ對(duì)象被損壞14

第三章DB2篇16

實(shí)例停止16

實(shí)例無(wú)法啟動(dòng)16

表空間暫時(shí)性的無(wú)法訪問(wèn)16

表空間永久性的無(wú)法訪問(wèn)17

數(shù)據(jù)庫(kù)活動(dòng)日志丟失17

表空間滿17

活動(dòng)日志空間滿17

活動(dòng)日志所在目錄文件系統(tǒng)滿18

表被鎖,無(wú)法訪問(wèn)18

表中的內(nèi)容被誤刪除18

第四章AIX篇19

硬件故障19

CPU使用過(guò)度19

內(nèi)存使用過(guò)度19

系統(tǒng)PING不通20

系統(tǒng)可以PING通,但是無(wú)法TELNET20

部分主機(jī)不能訪問(wèn)某臺(tái)主機(jī)20

HA無(wú)法切換,或切換不正常21

文件系統(tǒng)滿21

文件系統(tǒng)無(wú)法進(jìn)行正常讀寫(xiě)22

鏡像不同步22

DUMP設(shè)備太小22

密碼丟失23

系統(tǒng)有報(bào)錯(cuò)信息23

TELNET的響應(yīng)很慢23

文件系統(tǒng)不能UMOUNT24

TCP網(wǎng)絡(luò)的SOCKET端口不能釋放,始終處于CLOSE_WAIT狀態(tài)24

系統(tǒng)中包含大量的僵尸進(jìn)程25

第五章突發(fā)情況信息收集26

DB2需要收集的信息26

WAS需要收集的信息27

MQ需要收集的信息29

SNA需要收集的信息29

AIX需要收集的信息30

第一章WAS篇

無(wú)法登陸管理控制臺(tái)

1、現(xiàn)象描述

IE瀏覽:://IP:9060/admin判斷是否還能登陸,不能登錄時(shí)說(shuō)明控制臺(tái)應(yīng)用沒(méi)有發(fā)

布。其中9060是WAS的服務(wù)端口。

2、處理方法

進(jìn)入wsadmin>狀態(tài)

('AdminConsole.earJPath','[-serverserverl]')

AdminConfig.save()完成安裝

Zusr/WebSphere/AppServer/bin/FI錄下執(zhí)行:./startServer.shserver

應(yīng)用服務(wù)器無(wú)法啟動(dòng)

1、現(xiàn)象描述

對(duì)于WAS5.1,在bin目錄下執(zhí)行:./startServer.shserver判斷是否能正常啟動(dòng)。

對(duì)于WAS6.1.WAS使用的端口是906(),因此不會(huì)和9090端口沖突。

2、處理方法

1)#netstat-an|grep9090查看端口(9090是RAS5.1控制臺(tái)所用的默認(rèn)端口)

2)#/usr/websm/bin/wsmserver-disable關(guān)閉系統(tǒng)占用的9090端口

3)Zusr/WebSphere/AppServer/bin/目錄卜執(zhí)行:./startServer.shserver

root@ISSACLAPTOP:~/wasProfiles/appProfile01/bin#./startServer.shserverl

ADMU0116I:Toolinformationisbeingloggedinfile

/root/wasProfil.es/appProfile01/logs/serverl/startServer.log

ADMU0128I:StartingtoolwiththeappProfiledprofile

ADMU31G0I:Readingconfigurationforserver:serverl

ADMU3200I:Serverlaunched.Waitingforinitializationstatus.

ADMU30G0I:Serverserverlopenfore-business;processidis8822

root@ISSACLAPTOP;-/wasProfiles/appProfile01/bin#|

信息收集時(shí)請(qǐng)收集install_root/logs/server_name的所有信息

應(yīng)用程序請(qǐng)求無(wú)響應(yīng)

1、現(xiàn)象描述

生產(chǎn)環(huán)境系統(tǒng)訪問(wèn)長(zhǎng)時(shí)間沒(méi)有頁(yè)面顯示,在瀏覽器訪問(wèn)后長(zhǎng)時(shí)間沒(méi)有反應(yīng)。

2、處理方法

1)ps-eflgrepjava查看java進(jìn)程號(hào);

2)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./slopServer.shserverC若無(wú)法停止貝!使用

kill命令殺掉J

3)/usr/WcbSphcrc/AppScrvcr/bin/目錄下執(zhí)行:./startScrvcr.shserver

在下圖中可以看到進(jìn)程號(hào)碼是8822。

FileEditViewTerminalHelp

ADMU3000I:Serverserverlopenfore-business;proce

root@ISSACLAPT0P:~/wasProfi'les/appProfile01/bin#ps

root882212616:38pts/000:00:40/opt

a/bin/java-Declipse.security-Dwas.status.socket=58

/IBM/WebSphere/AppServer-Dosgi.configuration.area=/

1/configuration-Djava.awt.headless=true-Dosgi.fram

-Xsha「eclasses:name=websphe「ev61%g,groupAccess,non

信息收集時(shí),參見(jiàn)5.2-3系統(tǒng)hung或者性能下降。

應(yīng)用程序無(wú)法訪問(wèn)

1、現(xiàn)象描述

生產(chǎn)環(huán)境系統(tǒng)訪問(wèn)出現(xiàn)404錯(cuò)誤頁(yè)面或者找不到服務(wù)器

2、處理方法

1.查看IBMServer的d進(jìn)程是否正常狀態(tài)運(yùn)行;例如是否有父進(jìn)程為“1”的

現(xiàn)象;

2./usr/IBMIHS/bin/apachectlstop停止IBMServer(若無(wú)法停止則把相關(guān)的

進(jìn)程殺掉)

3./usr/IBMIHS/bin/apachectlstart啟動(dòng)IBMServer

信息收集時(shí),收集IHS的logs目錄下的日志,ps-eflgrep的輸出。Phigin的日志

和WAS的logs目錄的日志

應(yīng)用服務(wù)器java進(jìn)程crash

1、現(xiàn)象描述

ps-eflgrepjava沒(méi)有WAS的java進(jìn)程在執(zhí)行

2、處理方法

Zusr/WebSphere/AppServenbin/目錄下執(zhí)行:./startServer.shserver

成功啟動(dòng)后可以看到類(lèi)似如下的輸出:

root@ISSACLAPTOP:~/wasProfiles/appProfile01/bin#./startserver.shserverl

ADMU0116I:Toolinformationisbeingloggedinfile

/root/wasProfil.es/appProfileGl/logs/serverl/startServer.log

ADMU0128I:StartingtoolwiththeappProfiledprofile

ADMU31G0I:Readingconfigurationforserver:serverl

ADMU3200I:Serverlaunched.Waitingforinitializationstatus.

ADMU30G0I:Serverserverlopenfore-business;processidis8822

root@ISSACLAPTOP:~/wasProfiles/appProfile/l/bin#■_____________________

信息收集時(shí),參見(jiàn)5.2-2系統(tǒng)崩潰

概要文件被破壞

1、現(xiàn)象描述

對(duì)于WAS6.I版本,創(chuàng)建服務(wù)器需要一個(gè)概要表,即profile。概要文件位于

$WAS_HOME/profiles,包含了一個(gè)應(yīng)用所用的一組server,如果遭到人為破壞,則需要重

建整個(gè)profileo

2、處理方法

若以前對(duì)配置做過(guò)備份,先恢復(fù)以前的配置,看是否能夠啟動(dòng),若仍然不能啟動(dòng),

則創(chuàng)建新的概要文件:

/usr/WebSphere/AppServer/bin/manageprofi1es.sh-help

命令輸出如下,可以看到,針對(duì)所需的配置內(nèi)容,可以從命令中得到進(jìn)一步的聯(lián)機(jī)

幫助,例如manageprofiles,sh-create-help用來(lái)查看創(chuàng)建profile的幫助內(nèi)容。

信息收集時(shí),需要收集的內(nèi)容如下:

1../startServer.shserver-trace的信息;

2.install_root/logs/server_name的所有信息。

以下腳本會(huì)創(chuàng)建一個(gè)名為newProfileName的新的Default類(lèi)型Profile,對(duì)應(yīng)節(jié)點(diǎn)名稱為

newNodeo

1)進(jìn)入WAS安裝目錄下bin目錄,例如在AIX上為cd/usr/IBM/WebSphere/AppServer/bin

2)在root權(quán)限下執(zhí)行:

#./manageprofiles.sh-create

-profileName"newProfileName"

-profilePath"/usr/IBM/VzebSphere/AppServer/profiles/newProfileName"

-templatePath"/usr/IBM.,WebSphere/AppServer/profileTemplates/default"

-nodeName"newNode"

概要文件名:newProfileName

概要文件路徑:/usr/IBMWebSphere/AppSener/profiles/newProfileName

概要文件類(lèi)型:default

node名稱:newNode

如果需要使用DmgrProfile對(duì)DefaultProfile進(jìn)行管理,則需要把DefaultProfile的節(jié)點(diǎn)

添加到DmgrProfile所在的單元。假設(shè)DmgrProfile所在主機(jī)名稱為DMGR_HOSTNAME,

則把名為ncwProfilc的DefaultProfile添加其中的步驟為:

1.進(jìn)入DefaultProfile安裝目錄下的bin目錄;

cd/usr/IBM/WebSphere/AppServer/profiles/newProfile/bin;

2.把節(jié)點(diǎn)添加到單元,在root權(quán)限中執(zhí)行:

./addNode.shDMGR.HOSTNAME8879

[rootebnsshaaplbin]#./addNode.shbnsshaapl8879

WMU0116I:Toolinformationisbeingloggedinfile

/opt/IBM/hebSphere/AppServer/profiles/CustonOl/logs/addNode.log

WMU0128I:StartingtoolwiththeCustomOlprofile

CWPKI0308I:Addingsigneralias"dunmyclientsigner"tolocalkeystore

"ClientDefaultTrustStore"withthefollowingSHAdigest:

0B:3F:C9:E0:70:54:58:F7:FD:81:80:70:83:A6:D0:92:38:7A:54:CD

CWPKI0308I:Addingsigneralias"dumryserversigner"tolocalkeystore

"ClientDefaultTrustStore"withthefollowingSHAdigest:

FB:38:FE:E6:CF:89:BA:01:67:8F:C2:30:74:84:E2:40:2C:B4:BS:65

PMT是管理概要表的圖形工具,是profilemanagementtool的簡(jiǎn)稱。通常位于

{WAS_HOME}/bin/ProfileManagement/pmt.sh,或pmt.bat,或pmtAIX.sh,腳本取決于操作

系統(tǒng)和WAS版本。

如果使用PMT管理概要文件,可以通過(guò)圖形界面創(chuàng)建概要表%

選擇概要表類(lèi)型:

不同版本的pmt界面會(huì)有較大的差異,64位版本的was不包含管埋概要表的圖形_E具。

選擇概要表的創(chuàng)建位置和名稱:

5概要文件管理工具

及夏文科名和傳u

豬.?《要爻件名加目熠稅以包鋌行時(shí)環(huán)購(gòu)文件,如令仇K1文件加日老文件,單擊湖覽的所囿目錄.

1更文件名0):__________________________________________________________________________________

|AppSrM3

號(hào)更文件目錄(?:_________________________________________________________________________________

Jd:\{或>Sphere\AppServer'profiles\AppSrvO3

湖—」

I更用開(kāi)發(fā)俁畦創(chuàng)建*務(wù)H(0?

法擇比法項(xiàng),U復(fù)月出于開(kāi)發(fā)目的而注行了優(yōu)化的酊[設(shè)珠創(chuàng)生霰務(wù)器,開(kāi)發(fā)橫板覆少后刷何并允注聚務(wù)唯急便

較少的硬件上碌不要對(duì)生產(chǎn)鬃務(wù)獨(dú)用比連網(wǎng),

r便比薇要文件應(yīng)力缺看概要文件(i>.

誓次歌VebScbtre夢(mèng)McatlyServer£,有一個(gè)?!灰酪募?不引用轉(zhuǎn)呈載更義件而運(yùn)行的臺(tái)令將使用i漲

有微更文件.透界比通撇該概要文件或?yàn)榭春沼懈乓募?/p>

要點(diǎn):H陡耍旻文件所在的目錄并不會(huì)徹底枷除該登要文件.使用.>naBeprofil?命令來(lái)徹底射第tt要文件.

〈上一步(6)|下一步但)>|______________|單>

選擇節(jié)點(diǎn)名和主機(jī)名:

在安裝過(guò)程不要啟用全局安全性,安裝后需要該功能時(shí)可以從管理控制臺(tái)啟用。

由WAS生成默認(rèn)的端I」,如果需要也可以自行修改,此時(shí)需要確保端口和該服務(wù)器上

安裝的其他應(yīng)用不存在沖突。

端口值分配

瑞麒照喀魁球靠踹*鐲睇繇朦蠹懿搗張.

軼??口值《心|口值<1)|

《統(tǒng)前策口力9*0》(A):

?st?冶次主u口(幢內(nèi)

ETTP憐都t口《鐵有第口力508);

町世傳*■口(較常墻口力9443):

引導(dǎo)現(xiàn)明■口(筑省■口為/)?)1

S1P?□(缺7?CR5CW):

SIP又至*口(較雜?口力W€l)(I):

求好透接取二(軟3環(huán)匚力8^)):

SIS這Serwiuth51口《能上簿口為m>i

C5IT2SerrerAuth?口《能?第口力M03);

CSII2lultlluth伙口⑷彳■口力9402):

徽?qǐng)鲫幖皟艨凇堵〖獑慰诹??>:

舸用依?11*~串口(DCS>9353)

國(guó)%震&?口(統(tǒng)首爆口力T276)0>:

用討U即I口《―端口為72BS>(£):

K#S£1Q耳事作慟I口《除/單口力5658>s

《上一步11》|下一#0)廠|____________|瓜>

復(fù)核概要表的定義無(wú)誤后,點(diǎn)擊“下一步”創(chuàng)建概要表:

核要文件創(chuàng)建忌結(jié)

杳看總結(jié)中的信息是否正硝.如果信息正隔,則班帝創(chuàng)金以開(kāi)始創(chuàng)建豪的概要文件.單由上一步以更改先前■板上的值.

要?jiǎng)?chuàng)建的應(yīng)用程序庶務(wù)磊訐境:應(yīng)用程序強(qiáng)務(wù)器.

位■:d:\febSpherc\AppServer\prof11es\AppSrvO3

簿耍的磁盤(pán)至Rh200IB

微宴文件名:AppSrvO3

便竟照要文件成為娥省概更文件:False

節(jié)點(diǎn)名:ISSAC-tIMimiode03

主機(jī)名:ISSAC-IIXHT

部孑管理控制令〈建議).:True

郤率缺看應(yīng)用程序。:True

啟用管理安全性〈建議):False

管理控制臺(tái)港口:9064

管理汶制臺(tái)安全繾口:9X7

HTTP9083

HTTPS傳購(gòu)端口:9446

引導(dǎo)程序靖口:2813

SOAP漣接器罐Ch8884

將應(yīng)用程序服號(hào)暮作為JK務(wù)運(yùn)行:False

二J

-c—鞏k|創(chuàng)建電|

Java進(jìn)程CPU100%

1、現(xiàn)象描述

topas查看java的CPU使用情況

2、處理方法

ps-efjgrepjava查看java進(jìn)程號(hào);用kill殺掉該進(jìn)程。

/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.shserver

信息收集參見(jiàn)5.2-1CPU利用率達(dá)到100%。

新部署應(yīng)用程序無(wú)法訪問(wèn)

1、現(xiàn)象描述

訪問(wèn)新系統(tǒng)出現(xiàn)404錯(cuò)誤

2、處理方法

1).查看最新的插件更新口期:

/usr/WebSphere/AppServer/config/cells/

2).在IE管理控制臺(tái)里面更新插件,然后復(fù)制最新的插件到WebServer的指定目錄

下;

/usr/IBMIHS/bin/apachectlstop停止IBMServer

/usr/IBMIHS/bin/apachectlstart啟動(dòng)IBMServer

應(yīng)用程序部署完成后,需要為IHS配置插件,提供應(yīng)用的URI、虛擬主機(jī)、服務(wù)器地

址等信息,以便IHS把請(qǐng)求轉(zhuǎn)發(fā)到應(yīng)用服務(wù)器。

IHSPLUGIN的配置包含兩個(gè)步驟:插件的生成和傳播,這里的插件指的是IHSPLUGIN所

需的配置文件plugin-cfg.xmlo

進(jìn)入WAS控制臺(tái),進(jìn)入應(yīng)用服務(wù)器〉web服務(wù)器,選中需要更新插件的web服務(wù)器,

點(diǎn)擊“生成插件”

所生成的服務(wù)器的插件位置將會(huì)顯示如下。如果IHS和AppSen-er處于同一臺(tái)服務(wù)器

上,則不需要傳播插件。否則請(qǐng)按照卜一節(jié)內(nèi)容完成插件的傳播。

如果IHS和AppServer位于不同的機(jī)器上,請(qǐng)?jiān)诓寮珊?,再次選擇需要傳播插件的

服務(wù)器,點(diǎn)擊傳播插件。此前需要確認(rèn)IHS服務(wù)器的控制臺(tái)已經(jīng)啟動(dòng),WAS將通過(guò)【HS的

控制臺(tái)端I」把插件配置傳播到IHS服務(wù)器中。

信息收集時(shí),需要收集install_root/logs/server_name的所有信息。

在集群模式下節(jié)點(diǎn)不同步

1、現(xiàn)象描述

訪問(wèn)管理控制臺(tái)之后,管理控制臺(tái)無(wú)法修改和管理節(jié)點(diǎn),在nodcagent上顯示:不同步

2、處理方法

1).停止節(jié)點(diǎn)上的sei-ver和nodeagent,保持dmgr正常啟動(dòng)狀態(tài);

在節(jié)點(diǎn)的bin目錄卜執(zhí)仃:

#./syncNode.shserver8879

2).在節(jié)點(diǎn)的bin目錄下執(zhí)行:

3).進(jìn)管理控制臺(tái)查看節(jié)點(diǎn)是否同步

信息收集時(shí),需要收集install_root/logs/scrvcr_namc的所有信息。

第二章MQ篇

通道無(wú)法啟動(dòng)

1、現(xiàn)象描述

在Runmqsc中startchannel(channelname)無(wú)法啟動(dòng)。

2、處理方法

將通道序列號(hào)復(fù)位。使用Resetchannel命令。

使用slnnqm和endmqm命令重啟隊(duì)列管理器。

根據(jù)錯(cuò)誤代碼檢查sna和網(wǎng)絡(luò)、對(duì)方MQ的狀態(tài)。

下圖為dspmq命令的輸出樣例:

mqm@ISSACLAPTOP:-$dspmc

QMNAME(MQBERNARD)STATUS(Running)

QMNAME(QMOOl)STATUS(Endednormally)

QMNAME(QMA)STATUS(Endedunexpectedly)

QMNAME(QMB)STATUS(Endedunexpectedly)

QMNAME(QMG)STATUS(Endedunexpectedly)

QMNAME(CG)STATUS(Endedunexpectedly)

QMNAME(CA)STATUS(Endedunexpectedly)

QMNAME(CB)STATUS(Endedunexpectedly)

QMNAME(CC)STATUS(Endedunexpectedly)

QMNAME(CD)STATUS(Endedunexpectedly)

QMNAME(CE)STATUS(Endedunexpectedly)

QMNAME(MQPLAIN)STATUS(Endedunexpectedly)

QMNAMECMQBOCOM)STATUS(Endedunexpectedly)

QMNAME(MQFW)STATUS(Running)

---------r-i

信息收集時(shí),參見(jiàn)5.31-5點(diǎn)內(nèi)容

隊(duì)列管理器無(wú)法啟動(dòng)

1、現(xiàn)象描述

StrmqmQMGR命令失敗

2、處理方法

使用ps-ef檢查,把所有的MQ進(jìn)程都?xì)⒌簟?/p>

使用niqiulenx-inQMGR命令清除共享內(nèi)存資源。

然后重啟MQ:strmqm

該命令的輸出結(jié)果類(lèi)似卜.面的情況:

mqm(aiSSACLAPTOP:-$strnqmMQBOCOM

WebSphereMQqueuemanager'MQBOCOM'starting.

402logrecordsaccessedonqueuemanager'MQBOCOM'duringthelogreplayphase.

Logreplayforqueuemanager'MQBOCOM'complete.

Transactionmanagerstaterecoveredforqueuemanager'MQBOCOM,.

WebSphereMQqueuemanager'MQBOCOM'started.

mqm(aiSSACLAPTOP:-$|

信息收集時(shí),參見(jiàn)5.31-5點(diǎn)內(nèi)容。

隊(duì)列管理器無(wú)法停止

1、現(xiàn)象描述

EndmqmQMGR命令不能停止隊(duì)列管理器

2、處理方法

使用endmqm-iQMGR命令。仍然不能停止則使用endinqm-pQMGR命令。

命令的輸出情況如下所示:

mqm@ISSACLAPTOP:-$endmqm-iMQBOCOM

WebSphereMQqueuemanager'MQBOCOM1ending.

WebSphereMQqueuemanager'MQBOCOM'ended.

叫頓SSACLAPTOPT口__________________

信息收集時(shí),參見(jiàn)531-6點(diǎn)內(nèi)容。

死信隊(duì)列不斷有消息堆積

1、現(xiàn)象描述

Disqueue(DLQ)看到有消息堆積。

2、處理方法

查看通道的狀態(tài)是否正常:dischs(*);以及對(duì)端MQ的狀態(tài)是否正常。

使用amqsbcgQnameQmgr命令瀏覽死信隊(duì)列的消息內(nèi)容,根據(jù)原因碼再采取相應(yīng)的措施。

該命令的使用參數(shù)列表如F:

mqm@ISSACLAPTOP:amqsbcg

A*M**Q*S*B*C*G*0**-**s*t*a*r*ts***h*e*r*e

Requiredparametermissing-queuename

Usage:amqsbcgQName[QMgrName]

信息收集時(shí),參見(jiàn)5.31-5點(diǎn)內(nèi)容。

MQ對(duì)象被損壞

1、現(xiàn)象描述

MQ隊(duì)列、通道等對(duì)象被刪除或者M(jìn)Q的系統(tǒng)文件被破壞,Disqucuc(*)

Dischannel(*)找不到對(duì)象。

2、處理方法

使用crtmqmQMGR的命令重新創(chuàng)建隊(duì)列管理器,使用runmqsc<mq.script(該腳本通常有

開(kāi)發(fā)人員提供)創(chuàng)建相關(guān)的對(duì)象。

命令輸出內(nèi)容類(lèi)似卜面的樣例:

mqm@ISSACLAPTOP:vimqsc.obj

mqm@ISSACLAPTOP:runmqscMQFW<mqsc.obj>mqfwmqobj.out

mqm@ISSACLAPTOP:catmqsc.obj

DISCHS(*)

mqm@ISSACLAPTOP:-$fl

這種問(wèn)題不需要進(jìn)行信息收集。

第三章DB2篇

實(shí)例停止

1、現(xiàn)象描述

ps-eflgrepdb2sysc找不到對(duì)應(yīng)實(shí)例的db2sysc進(jìn)程

2、處理方法

重啟實(shí)例

db2start

實(shí)例無(wú)法啟動(dòng)

1、現(xiàn)象描述

db2start失敗

2、處理方法

方法1

更新實(shí)例后重啟

db2iupdt-kinstancename

db2start

方法2

重建實(shí)例

備份實(shí)例配置參數(shù)dbmcfg和db2set

db2idropinstancename

db2icrtinstancencune

重啟實(shí)例

db2start

恢復(fù)實(shí)例配置參數(shù)

編目數(shù)據(jù)庫(kù)

db2catalogdbdbnameasdbnameondb_path

表空間暫時(shí)性的無(wú)法訪問(wèn)

1、現(xiàn)象描述

db2listtablespacesshowdetail發(fā)現(xiàn)該表空間處于0x4080,0x4000?0x0080狀態(tài)

2、處理方法

修正容器權(quán)限,并確保容器可訪問(wèn),然后執(zhí)行:

db2altertablespacetbspacenameswitchonline

db2rollforwarddbdbnametablespace(thspacename)toendoflogsandconimplctc

表空間永久性的無(wú)法訪問(wèn)

1、現(xiàn)象描述

表空間所在容器已破壞,或者容器上的數(shù)據(jù)已丟失。db2listtablespacesshowdetail發(fā)

現(xiàn)該表空間處于。ffline狀態(tài),

并且由存儲(chǔ)和應(yīng)用人員確認(rèn)。

2、處理方法

恢復(fù)數(shù)據(jù)庫(kù)備份

db2restoredbdbname

數(shù)據(jù)庫(kù)活動(dòng)日志丟失

1、現(xiàn)象描述

活動(dòng)口志已經(jīng)永久丟失,DB2診斷口志db2diag.log中發(fā)現(xiàn)有l(wèi)ogfilenotfind的信息。

2、處理方法

方法1

恢復(fù)數(shù)據(jù)庫(kù)備份

db2restoredbdbname

方法2

通過(guò)實(shí)驗(yàn)室申請(qǐng)修改日志控制文件啟動(dòng)數(shù)據(jù)庫(kù),導(dǎo)出數(shù)據(jù)后再通過(guò)重建數(shù)據(jù)庫(kù)進(jìn)行恢

表空間滿

1、現(xiàn)象描述

db2listtablespacesshowdetail得到表空間的可用空間為。

2、處理方法

方法1

刪除無(wú)用數(shù)據(jù)

方法2

增加新的容器

db2altertablespacetbspacencuneadd(device/file*Ivnameypagesize)

活動(dòng)日志空間滿

1、現(xiàn)象描述

db2getsnapshotfordbondbname看至ljLogspaceavailabletothedatabase等于0

2、處理去法、

增加輔助活動(dòng)日志的個(gè)數(shù)

db2updatedbcfgfordbnameusinglogsecondnumber

db2getsnapshotfordbondbname找到Applidholdingtheoldesttransaction,執(zhí)行db2

forceapplication(?/7/7/(Z)

活動(dòng)日志所在目錄文件系統(tǒng)滿

1、現(xiàn)象描述

df-g發(fā)現(xiàn)活動(dòng)日志所在目錄100%已用

2、處理方法

增加該文件系統(tǒng)大小

表被鎖,無(wú)法訪問(wèn)

1、現(xiàn)象描述

任何訪問(wèn)該表的請(qǐng)求在listapplicationsshowdetail的輸出中都處于lock-wait狀態(tài)

2、處理方法

db2getsnapshotfordbondbname找到持有該鎖的applicationid以及鎖的類(lèi)型,如果是

Z鎖,則必須等待其釋放,如果是其他類(lèi)型鎖,可用db2forceapplication

表中的內(nèi)容被誤刪除

K現(xiàn)象描述

表中的數(shù)據(jù)被誤刪除,如delete語(yǔ)句,由誤操作人員確認(rèn)。

2、處理方法

恢復(fù)數(shù)據(jù)庫(kù)備份

db2restoredbdb_name

前滾數(shù)據(jù)庫(kù)日志到故障前一刻的時(shí)間點(diǎn)

db2rollforwarddbdb_numetousinglocaltimeandcompleteoverflowlogpath

(7log_diry)noretrieve

第四章AIX篇

硬件故障

1、現(xiàn)象描述

HMC報(bào)錯(cuò),主機(jī)errpt報(bào)H類(lèi)型錯(cuò)。

2、處理方法

如果沒(méi)有影響系統(tǒng)正常使用,則安排維護(hù)時(shí)間更換硬件;

如果影響到系統(tǒng)正常使用,則啟動(dòng)HA切換,首先確?;謴?fù)應(yīng)用正常使用,再安排時(shí)間修復(fù)

硬件故障。

信息收集時(shí),需要收集snap-gc的信息。

CPU使用過(guò)度

1、現(xiàn)象描述

Vmstat觀察ur和sys的值,ur+sys>80%表示CPU消耗過(guò)量

2、處理方法

方法1

控制應(yīng)用使用的CPU量,減小系統(tǒng)的負(fù)荷來(lái)保證系統(tǒng)的穩(wěn)定

方法2

進(jìn)行CPU緊急擴(kuò)容。使用LPAR動(dòng)態(tài)調(diào)整功能,擴(kuò)充系統(tǒng)的CPU總量。降低系統(tǒng)的CPU使用

百分比

方法3

在方法1和方法2都無(wú)法執(zhí)行,且系統(tǒng)問(wèn)題非常緊急的情況下,使用sar以及nice等命令,

調(diào)整進(jìn)程的使用CPU優(yōu)先級(jí),確保主要應(yīng)用暫時(shí)不受影響。另行安排時(shí)間進(jìn)行CPU擴(kuò)容。

信息收集時(shí),需要收集perfpmr的信息。

內(nèi)存使用過(guò)度

1、現(xiàn)象描述

Vmstat觀察pipo值;Svmon觀察free的內(nèi)存值;Topas觀察內(nèi)存和paging。

如果free的內(nèi)存為零,并且pip。值持續(xù)保持較高的值,代表系統(tǒng)以及存在內(nèi)存緊缺的問(wèn)題

2、處理方法

方法I

控制應(yīng)用使用的內(nèi)存量,減小系統(tǒng)的負(fù)荷來(lái)保證系統(tǒng)的晦定

方法2

進(jìn)行內(nèi)存緊急擴(kuò)容。使用LPAR動(dòng)態(tài)調(diào)整功能,擴(kuò)充系統(tǒng)的內(nèi)存總量,保證有足夠的內(nèi)存使

用。

方法3

調(diào)整vmo參數(shù),平衡系統(tǒng)內(nèi)部?jī)?nèi)存的分配情況,首先保證關(guān)鍵和繁忙的應(yīng)用擁有足夠的內(nèi)

存。

信息收集時(shí),需要收集perfpmr的信息。

系統(tǒng)ping不通

1、現(xiàn)象描述

Ping<IPaddress〉時(shí),發(fā)生ping不通的現(xiàn)象

2、/理方法

由hmc登錄主機(jī),檢杳系統(tǒng)的ip設(shè)置。重點(diǎn)檢查系統(tǒng)與網(wǎng)關(guān)之間的通訊是否正常。

遇到這種情況,最好直接登錄系統(tǒng)查看和分析問(wèn)題。信息收集時(shí),需要收集snap-ac的信

息。

系統(tǒng)可以ping通,但是無(wú)法telnet

1、現(xiàn)象描述

telnet<IPaddress>時(shí),發(fā)生telnet不通現(xiàn)象,但是這個(gè)系統(tǒng)可以被ping通

2、處理方法

方法1

由hmc登錄主機(jī),檢查ineld進(jìn)程是否正常

方法2

檢查所有的系統(tǒng)文件系統(tǒng)包括//tmp/var是否有足夠空間

方法3

檢查網(wǎng)絡(luò)設(shè)備是否存在防火墻或者⑹net的限制

遇到這種情況,最好直接登錄系統(tǒng)查看和分析問(wèn)題。信總收集時(shí),需要收集snap-ac的信

息。

部分主機(jī)不能訪問(wèn)某臺(tái)主機(jī)

1、現(xiàn)象描述

從某個(gè)(或某些)主機(jī)可以telnet到這臺(tái)主機(jī),但從另一個(gè)(或另一些)主機(jī)不能telnet

到這臺(tái)主機(jī)

2、處理方法

方法1

檢杳主機(jī)的路由信息nelsla【-rn,確定主機(jī)的路由表是否正常

方法2

檢查不同網(wǎng)絡(luò)設(shè)備之間的通訊是否存在問(wèn)題

遇到這種情況,最好直接登錄系統(tǒng)查看和分析問(wèn)題。信息收集時(shí),需要收集snap-ac的信

息。

HA無(wú)法切換,或切換不正常

1、現(xiàn)象描述

HA切換異常,表現(xiàn)為備機(jī)不能完全接管主機(jī)的資源。

觀察應(yīng)用是否運(yùn)行正常;觀察HA相關(guān)地址是否正確(bool、slandby、service)o

2、處理方法

方法1

如果主機(jī)仍然可以訪問(wèn),依次手動(dòng)關(guān)閉主機(jī)的應(yīng)用,數(shù)據(jù)庫(kù),文件系統(tǒng),vgo殺死HA進(jìn)

程。

在備機(jī)端關(guān)閉HA進(jìn)程,并確認(rèn)所有IP和資源正常。重起備機(jī)HA,拉起資源。

方法2

如果主機(jī)己經(jīng)無(wú)法訪問(wèn),關(guān)閉主機(jī)系統(tǒng)。

在備機(jī)端重復(fù)方法1中的拉起資源的步驟。

方法3

如果主備機(jī)都無(wú)法使用,HA拉起資源和應(yīng)用,采取手動(dòng)方式恢復(fù)業(yè)務(wù)。依次手動(dòng)開(kāi)啟vg,

文件系統(tǒng),數(shù)據(jù)庫(kù)和應(yīng)用。

信息收集時(shí),需要在兩個(gè)節(jié)點(diǎn)上分別收集snap-ac的信息,并在其中任意一個(gè)節(jié)點(diǎn)上收集

snap-ec信息。

文件系統(tǒng)滿

1、現(xiàn)象描述

df-k發(fā)現(xiàn)文件系統(tǒng)使用率超過(guò)70%

2、處理方法

方法1

采取緊急擴(kuò)容,擴(kuò)充文件系統(tǒng)的大小。

方法2

如果已經(jīng)影響到主機(jī)的正常使用,由HMC登錄主機(jī)。

方法3

如果HMC也無(wú)法登錄主機(jī),使用光盤(pán)引導(dǎo)進(jìn)入系統(tǒng),在maintenance的模式下擴(kuò)充文件系

統(tǒng)。

這種情況--般不需要收集信息。如果一定要收,請(qǐng)收snap-ac信息。

文件系統(tǒng)無(wú)法進(jìn)行正常讀寫(xiě)

1、現(xiàn)象描述

任何讀寫(xiě)操作都會(huì)發(fā)生I/O的報(bào)錯(cuò)

2、處理方法

首先備份文件系統(tǒng)所在的數(shù)據(jù)。將所有仍然可以訪問(wèn)的數(shù)據(jù)全部備份

方法1

關(guān)閉文件系統(tǒng),進(jìn)行fsck的檢查。試圖修復(fù)文件系統(tǒng)的邏輯錯(cuò)誤。

方法2

如果文件系統(tǒng)無(wú)法修復(fù),則必須重建一個(gè)新的文件系統(tǒng),由備份數(shù)據(jù)恢復(fù)。

(如果之前的備份數(shù)據(jù)完整,則可以使用事先準(zhǔn)備的備份數(shù)據(jù),不然則需要客戶提供完整

的數(shù)據(jù)備份)

信息收集時(shí),需要收集snap-ac的信息。

鏡像不同步

1、現(xiàn)象描述

Isvg-I<vgname>發(fā)現(xiàn)有部分lv的狀態(tài)是siale

2、處理方法

檢查是否存在硬件故障。如果是,請(qǐng)解除鏡像、修里硬件、重做鏡像。

如果不是硬件問(wèn)題導(dǎo)致的不同步,則需要在系統(tǒng)中重新建立同步關(guān)系。

syncvg-1<lvnamc>

做完后檢查是否狀態(tài)都是syncd。

這種情況一般不需要收集信息。信息收集時(shí),需要收集snap-ac的信息。

Dump設(shè)備太小

1、現(xiàn)象描述

系統(tǒng)errpt會(huì)提示當(dāng)前的dump文件已經(jīng)超出了存放dump的空間

2、處理方法

尋找dump存放的位置

sysdumpdcv-1

檢杳dump需要的空間

sysudmpdev-e

擴(kuò)大dump設(shè)備,達(dá)到預(yù)計(jì)的大小

cxtcndlv

這種情況一般不需要收集信息。信息收集時(shí),需要收集snap-ac的信息。

密碼丟失

1、現(xiàn)象描述

Root或其他用戶密碼丟失

2、處理方法

如果普通用戶密碼丟失,使用root用戶登錄,su到普通用戶,然后執(zhí)行passwd命令修改密

如果root用戶密碼丟失,停系統(tǒng),使用光盤(pán)引導(dǎo)進(jìn)入maintenance模式,執(zhí)行passwd命令修

改密碼

這種情況不需要收集信息,

系統(tǒng)有報(bào)錯(cuò)信息

1、現(xiàn)象描述

使用errpt命令發(fā)現(xiàn)有報(bào)錯(cuò)信息。

2、處理方法

如果是小型機(jī)硬件設(shè)備報(bào)錯(cuò)(例如sysplannerO的錯(cuò)誤,fcs的H類(lèi)錯(cuò)誤,網(wǎng)卡的H類(lèi)錯(cuò)誤,

內(nèi)置磁盤(pán)的H類(lèi)報(bào)錯(cuò)等),請(qǐng)聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)吁問(wèn)題診斷和處理;

如果是外置存儲(chǔ)磁盤(pán)和鏈路報(bào)錯(cuò)?(例如hdisk的報(bào)錯(cuò)),請(qǐng)聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)行問(wèn)題

診斷和處理;

如果是軟件類(lèi)報(bào)錯(cuò),請(qǐng)聯(lián)系IBM工程師進(jìn)行分析。

info類(lèi)的信息可以忽略不計(jì)。

在這種情況下,需要收集snap-gc的信息。

telnet的響應(yīng)很慢

1、現(xiàn)象描述

在終端上使用telnet命令登錄AIX系統(tǒng)時(shí),終端會(huì)過(guò)很久(1,2分鐘左右)/顯示出登錄提

示字符O

2、處理方法

這種情況一般是設(shè)置了域名解析造成的。

處理方法:

和應(yīng)用溝通,問(wèn)是否可以刪除/etc/rcsolv.conf文件。

如果可以,就刪除它。

如果不可以,編輯文件,加參數(shù)c在telnet最后,如下

telnetstreamtcp6nowaitroot/usr/sbin/telnetdtelnetd-a-c

刷新inetd服務(wù):

#refresh-sinetd

在這種情況下,不需要收集信息

文件系統(tǒng)不能amount

1、現(xiàn)象描述

在umount某一文件系統(tǒng)時(shí),終端上報(bào)文件系統(tǒng)busy,不能umount。

2、處理方法

首先使用fuser-xuc<文件系統(tǒng)名〉,杳看有哪些進(jìn)程占著該文件系統(tǒng)。

然后使用fuserkuxc〈文件系統(tǒng)名》,強(qiáng)制關(guān)閉占用該文件系統(tǒng)的進(jìn)程。

注意:這步風(fēng)險(xiǎn)很大。如果沒(méi)調(diào)查清楚,可能會(huì)導(dǎo)致誤殺應(yīng)用和系統(tǒng)進(jìn)程,從而導(dǎo)致系統(tǒng)或

應(yīng)用crash。

在這種情況下,不需要收集信息

TCP網(wǎng)絡(luò)的socket端口不能釋放,始終處于close_wait狀態(tài)

1、現(xiàn)象描述

應(yīng)用已經(jīng)停止,但它所在的端口?直得不到釋放。

2、處理方法

查看端口PCB的值:

netstat-An|grep端口號(hào)

清除Icpcb地址所在的socket:

rmsock<PCB>tcpcb

在這種情況下,不需要收集信息

系統(tǒng)中包含大量的僵尸進(jìn)程

1、現(xiàn)象描述

ps-At查看到系統(tǒng)中有很多defunct進(jìn)程

2、處理方法

用ps?Af查看defunct進(jìn)程的父進(jìn)程。如果父進(jìn)程是應(yīng)用進(jìn)程,則停止該應(yīng)用進(jìn)程即可清除

僵尸進(jìn)程:如果父進(jìn)程是系統(tǒng)進(jìn)程,只有重啟系統(tǒng)才能清除僵尸進(jìn)程。

在這種情況下,不需要收集信息

第五章突發(fā)情況信息收集

對(duì)于開(kāi)放平臺(tái)如發(fā)生突發(fā)事件,如果現(xiàn)場(chǎng)不能確定問(wèn)題的根本原因,在進(jìn)行應(yīng)急預(yù)案

的同時(shí),應(yīng)收集相關(guān)信息,包括故障現(xiàn)場(chǎng)的環(huán)境、描述、日志、診斷文件等等,以進(jìn)行事

后原因分析。對(duì)于宕機(jī),hang等問(wèn)題,考慮收集trace文件。

如果收集信息需要的時(shí)間較長(zhǎng),影響應(yīng)急生產(chǎn)恢復(fù),則應(yīng)保證后者的更高優(yōu)先級(jí)。

5.1DB2需要收集的信息

1.任何故障都應(yīng)收集

db2Pd-file<filename>-everything

2.數(shù)據(jù)庫(kù)hang

db2Pd-db<(Jbrianie>-slackall-repeal3

db2trcon-1128M

recreatetheproblem

db2trcoff

db2service.perfl<dbname>(Perfbrmance/hangdatacollectionscripts)

本命令將用到的script:

dtpsorvice.fxrfI

3.數(shù)據(jù)庫(kù)性能問(wèn)題

db2updatemonitorswitchesusingbufferpoolonlockonsortonstatementon

uowon

db2getsnapshotfordbm

db2getsnapshotforallon<dbname>

4.實(shí)例故障

db2support.-s

5.數(shù)據(jù)庫(kù)故障

db2support.-d<dbname>-c-s

5.2WAS需要收集的信息

1.CPU利用率達(dá)到100%

a)得到所有網(wǎng)絡(luò)連接的信息

b)得到CPU利用率使用信息

tproLps.shtproLps

c)每隔2分鐘生成一個(gè)javacorc

kill-3|java的進(jìn)程號(hào)]

d)

e)ins(all_root/Iogs/server_name的所有信息

f)

2.系統(tǒng)崩潰

a)

b)

[executable]is/usr/WebSphere/AppServer/java/jre/bin/java

[core_file_name]isthecorefile

c)

d)getlib.shjava_executable_full_pathcore_filename(系統(tǒng)必須安裝dbx)

e)tarcvfcore_file_namecore_file_name

f)install_root/java/jre/bin/jexlract-ocore.sdff[core_pa(h]

g)install_root/logs/server_narne的所有信息

h)

3.系統(tǒng)hung或者性能下降

a)

b)

c)svmon-Ppid-m-r-I605>svmon.out&

d)(prof-k-s-e-xsleep60

e)每2分鐘生成一個(gè)javacore

kill-3[PID_of_hung_JVM]

0

g)

h)

i)

j)

k)ins(all_root/logs/server_name,plugin-cfg.xml,_plugin.log,

ins(all_root/logs/ffdc的所有信息

4.數(shù)據(jù)庫(kù)連接問(wèn)題

a)檢查數(shù)據(jù)源配置情況,測(cè)試數(shù)據(jù)庫(kù)連接

b)Troubleshooting'LoggingandTracing'DiagonsticTrace

Enable(racewiththefollowingspecificationisselected

c)Troubleshooting'LoggingandTracing'DiagonsticTrace'TraceSpecification

ConnectingtoadatabaseinV5.1:

2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:

Transaction=all=cnablcd

ConnectingtoadatabaseinV5.0:

2c=all=enablcd:RRA=all=enablcd:WAS.database=all=enabled:

com.ibin.ejs.jts.*=all=enabled:com.ibm.ws.LocalTransacdon.*=all=enablecl

d)RestartApplicationServer

e)Collecttheresultingtraceoutputfile

5.3MQ需要收集的信息

i.

2.收集mqs.ini

3.收集/var/mqm/eirors/目錄下的日志

4.收集/var/niqni/qmgrs/@SYSTEM/errors/目錄卜的日志

5.收集/var/mqm/qmgrs/QM/errors目錄下的日志

6.MQTRACEINSTRUCTIONS:

Starttrace:(race-a-j3OD,3OE-o/path/to/trace.out-L50000000

Endtrace:trcstop

5.4SNA需要收集的信息

i.

2.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論