




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
IBM小型機培訓(高級篇)2023年2月1日故障定位、故障排除系統(tǒng)日常維護流程機房環(huán)境及物理檢查目錄機房環(huán)境及物理檢查
機房內(nèi)需求一、機房內(nèi)環(huán)境要求溫度與濕度:最佳工作溫度:20-25攝氏度極限工作溫度:10-40攝氏度濕度:8-80%(在23攝氏度條件下)如果不是工作在最佳溫度,請注意改善機房環(huán)境同時機房要保證清潔.機房應保持清潔,若空氣灰塵過多,很容易造成資源讀寫錯誤及磁盤機中磁盤或讀寫磁頭毀損。機房環(huán)境及物理檢查
機房內(nèi)需求二、電源要求電壓:要求電壓穩(wěn)定,尖峰電壓會損壞設(shè)備電壓范圍:220V+/-10%,即200-240V,50-60Hz電源功率:視機器類型和系統(tǒng)配置而定電源線:標準的零,地,火三相電,其中零,地電壓不得超過3.0V.電源接駁:用符合電流要求的空氣開關(guān)或其他設(shè)備和主機電源線接駁,保證計算機系統(tǒng)的可靠工作應使用穩(wěn)壓電源和UPS,并建議配備發(fā)電機組;對于冗于電源的接入,建議采用兩路單獨輸入.機房環(huán)境及物理檢查
機房內(nèi)需求三、硬件檢查檢查服務器、磁陣的安裝、電源線、7133和主機接線符合要求。服務器狀態(tài)檢查:當服務器處于啟動和正常工作狀態(tài)時,其前面板上的液晶顯示屏上應無信息顯示。當液晶顯示器上出現(xiàn)帶數(shù)字和字母的信息時,說明有硬件告警??梢酝ㄟ^查詢相關(guān)機型的ServiceGuide查到相應告警原因,情況嚴重的,則要立即通知IBM技術(shù)專家進行問題排查。機房環(huán)境及物理檢查
機房內(nèi)需求7133狀態(tài)檢查:磁陣前面板上有7133機柜的狀態(tài)燈(與電源燈并排)和各硬盤的狀態(tài)燈(一排小燈,與各硬盤位置一一對應)。1.
當機柜的狀態(tài)燈出現(xiàn)橙黃色時,說明有硬件告警,此時要檢查磁柜的電源、接線、硬盤等。如果有硬件故障則立即進行更換和更正,如果查不出具體問題,則需要聯(lián)系相關(guān)專家進一步診斷。2.當硬盤工作正常時,與各硬盤對應的硬盤燈會呈綠色,如無讀寫,則綠燈一直亮,如該硬盤有讀寫操作,則綠燈會不規(guī)則閃爍,當硬盤損壞時或SSA環(huán)路出現(xiàn)問題時,則硬盤狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以1~3秒的頻率有規(guī)律地、不停地閃爍。故障定位、故障排除系統(tǒng)日常維護流程機房環(huán)境及物理檢查目錄日常系統(tǒng)維護流程系統(tǒng)啟動與關(guān)閉
2.1系統(tǒng)啟動系統(tǒng)啟動正常順序如下:首先對外設(shè)(磁盤陣列、磁帶庫等)加電。待所有外設(shè)加電自檢完成后,主機加電正常起機。主機加電后,系統(tǒng)進行自檢,在液晶顯示屏顯示”ok”后,才能按白色POWER鍵起機.啟動主機HACMP,啟動后可用命令
tail-f/tmp/hacmp.out
來檢查啟動情況,在HACMP未完全啟動前不要進行下一步。檢查服務器的網(wǎng)絡地址,路由表(可用netstat-i,netstat-rn等),檢查文件系統(tǒng),邏輯卷(可用mount,lsvg-o等)。檢查各項應用是否工作正常。日常系統(tǒng)維護流程系統(tǒng)啟動與關(guān)閉
2.2系統(tǒng)關(guān)閉停止HACMP(smittyclstop)。查看HACMP的狀態(tài),檢查服務器的網(wǎng)絡地址,路由表(可用netstat-i,netstat-rn等),檢查文件系統(tǒng),邏輯卷(可用mount,lsvg-o等)。在HACMP未完全停止前不要進行下一步。關(guān)閉主機(shutdown–F)。重啟系統(tǒng)可以使用:shutdown-Fr如有必要的話,按磁盤陣列前方的白色按鈕關(guān)閉磁盤陣列。日常系統(tǒng)維護流程查看系統(tǒng)的錯誤記錄
2.3查看系統(tǒng)的錯誤記錄在系統(tǒng)運行時,一些系統(tǒng)錯誤會記錄在errlog中,其中有些錯誤還會在終端上顯示。檢查錯誤日志可用以下命令:#errpt|more 查看系統(tǒng)所有的記錄IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTIONE85C5C4C0426104399PSCFGLFTSOFTWAREPROGRAMERROR2BFA76F60426104099TSSYSPROCSYSTEMSHUTDOWNBYUSER9D4CF6E70426104399TOerrdemonERRORLOGGINGTURNEDON1E2AC07E0426103999TOerrdemonERRORLOGGINGTURNEDOFF1E5EER4T0423132999TOclstrmgrOPERATORNOTIFICATION日常系統(tǒng)維護流程查看系統(tǒng)的錯誤記錄
其中,IDENTIFIER為錯誤編號,當需要檢查詳細信息時常會用到。TIMESTAMP為時間標簽,它記錄的是出錯時間,其格式:月月日日時時分分年年T為Type,它記錄的是錯誤類型P:為永久錯誤,需引起注意T:為臨時錯誤。C為Class,它記錄的是錯誤種類,日常系統(tǒng)維護流程查看系統(tǒng)的錯誤記錄
如:H:HardwareS:SoftwareO:ErrlogercommandmessagesU:undeterminedRESOURCE_NAME為錯誤來源DESCRIPTION 為錯誤描述#errpt-aj<IDENTIFIER> 查看系統(tǒng)詳細記錄內(nèi)容其中IDENTIFIER為錯誤編號,如#errpt-aj0426104399#errpt-dH 查看系統(tǒng)所有的硬件出錯記錄日常系統(tǒng)維護流程系統(tǒng)與數(shù)據(jù)備份
2.4系統(tǒng)與數(shù)據(jù)備份有效及時的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當系統(tǒng)出現(xiàn)故障時,特別是文件系統(tǒng)被嚴重損壞或硬盤損壞時,常需要使用系統(tǒng)備份來恢復系統(tǒng)。在以下情況下應做系統(tǒng)備份:1、新裝機。在硬件及系統(tǒng)軟件安裝完成后,應做系統(tǒng)備份。2、軟件改動。系統(tǒng)軟件或應用軟件有改動時,應做系統(tǒng)備份。3、定期備份。對系統(tǒng)進行定期備份,最好每兩或三個月做一次備份。系統(tǒng)備份操作介紹:在命令行中輸入smittymksysb,可見到以下畫面:日常系統(tǒng)維護流程系統(tǒng)與數(shù)據(jù)備份
日常系統(tǒng)維護流程系統(tǒng)與數(shù)據(jù)備份
按F4鍵,見到以下畫面:日常系統(tǒng)維護流程系統(tǒng)與數(shù)據(jù)備份
通過上下鍵選擇備份的目標設(shè)備(選/dev/rmt0
磁帶機),按回車,見到以下畫面:日常系統(tǒng)維護流程系統(tǒng)與數(shù)據(jù)備份
再按回車,開始備份,直到見到以下畫面,表示備份完成:備份注意事項:進行系統(tǒng)備份無須停止業(yè)務,業(yè)務可以繼續(xù)進行。建議客戶進行定期的系統(tǒng)備份(使用命令smittymksysb)。客戶也可根據(jù)需要利用SMIT對系統(tǒng)的特定的VG或FS進行備份。smittymksysb只備份rootvg中mount起來的文件系統(tǒng),其它文件系統(tǒng)或數(shù)據(jù)并沒有做備份,所以數(shù)據(jù)備份需要另外完成(建議客戶使用TAR格式)在條件允許的情況下,最好有一盤以上備份帶,以防止磁帶損壞。系統(tǒng)備份過程中有時候會提示有些/tmp目錄下的文件無法備份,顯示如下:日常系統(tǒng)維護流程系統(tǒng)與數(shù)據(jù)備份
Creatinglistoffilestobackup...Backingup34025files1694of34025files(4%)2733of34025files(8%)backup:0511-449Anerroroccurredaccessing./tmp/sh34736.1:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/sh34736.2:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/sh34736.3:Afileordirectoryinthepathnamedoesnotexist.15458of34025files(45%)31920of34025files(93%)0512-003mksysbmaynothavebeenabletoarchivesomefiles.ThemessagesdisplayedontheStandardErrorcontainedadditionalinformation.這是正?,F(xiàn)象,備份成功
日常系統(tǒng)維護流程系統(tǒng)與數(shù)據(jù)備份
日常系統(tǒng)維護流程系統(tǒng)回復與DUMP
2.5系統(tǒng)恢復
當系統(tǒng)發(fā)生比較嚴重的故障以致采取一般性維護手段不能在短期內(nèi)恢復原系統(tǒng),在與客戶進行蹉商后,可將最近一次的系統(tǒng)備份帶倒回機器內(nèi)以全面恢復系統(tǒng)到最近一次做備份時的系統(tǒng)環(huán)境,然后可將當日的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi)。至此,系統(tǒng)可恢復正常運行。此后,客戶應當與IBM工程師再進行整個事件的全面分析與回顧,以期找到故障發(fā)生的原因,并采取相應措施以杜絕類似事件再次發(fā)生。
日常系統(tǒng)維護流程系統(tǒng)回復與DUMP
2.6DUMP
當系統(tǒng)運行出現(xiàn)軟件故障導致系統(tǒng)down機時,機器的液晶顯示器會出現(xiàn)888102xxx0c0(xxx可能為700或其它),AIX常會將當時系統(tǒng)的運行情況記錄下來,這就是DUMP。
當DUMP產(chǎn)生后,請將磁帶放入磁帶機,用命令#snap-a-o/dev/rmt0將DUMP文件拷貝到磁帶設(shè)備/dev/rmt0中。注明磁帶機的blocksize,DUMP產(chǎn)生的日期和機器的型號及序列號。同時,請用#errpt-a>/tmp/err.log將errorlog記在/tmp/err.log中,并將/tmp/err.log和/tmp/hacmp.*拷貝到軟盤或磁帶上。將磁帶和軟盤交給IBM工程師。日常系統(tǒng)維護流程日常檢查服務器狀態(tài)
2.7日常檢查服務器狀態(tài)的項目及其相關(guān)命令1運行l(wèi)sdev命令配以各種參數(shù),所列各種設(shè)備狀態(tài)都應為Available。#lsdev–C–H–Sa 列出系統(tǒng)中可用設(shè)備。#lsdev–Ccprocessor 列出系統(tǒng)中的所有CPU。#lsdev–Ccmemory 列出系統(tǒng)中的所有內(nèi)存。#lsdev–Ccdisk 列出系統(tǒng)中的所有硬盤。#lsdev-Ccadapter|grepent 列出系統(tǒng)中的所有網(wǎng)卡#lsdev-Ccadapter|grepscsi 列出系統(tǒng)中的所有SCSI卡。#lsdev-Ccadapter|grepssa 列出系統(tǒng)中的所有SSA卡。日常系統(tǒng)維護流程日常檢查服務器狀態(tài)
2lspv命令#lspv 顯示系統(tǒng)中可用的PV。#lspvhdiskn 顯示hdiskn的具體信息。#lsdev–Ccpdisk顯示磁盤陣列的硬盤的具體信息。對SSA硬盤的檢測:在對主機進行工作之前可以先把磁盤陣列上電,等主機完全啟動后,登錄到主機上,運行以下命令“l(fā)sdev–Ccpdisk“,應該可以看到所有SSA硬盤,并且狀態(tài)應為Available.。
日常系統(tǒng)維護流程日常檢查服務器狀態(tài)
3lsattr命令#lsattr–E–lmem0 列出系統(tǒng)中內(nèi)存mem0的大小,本項目中內(nèi)存有4GBlsvg命令#lsvg 列出系統(tǒng)中所有的vg。#lsvgrootvg 列出rootvg的詳細信息。#lsvg–o列出激活的vg日常系統(tǒng)維護流程日常檢查服務器狀態(tài)
5oslevel命令#oslevel 顯示操作系統(tǒng)版本信息。6netstat命令#netstat–in 顯示系統(tǒng)中各網(wǎng)卡的配置??刹榭淳W(wǎng)卡的IP配置好了沒有。7通過運行#diag命令運行硬件診斷程序檢測主機內(nèi)所有硬件,檢測結(jié)果為“Notroublefound”顯示各部分工作正常。
日常系統(tǒng)維護流程日常檢查服務器狀態(tài)
使用#diag命令(選擇:TaskSelection->SSAServiceAids)對SSA硬盤鏈路連接的校驗,可以通過SSA工具里的LinkVerification來檢測。如有必要,可以用CertifyDisk運行硬盤診斷部分進行硬盤的表面分析測試,由1%至100%,檢測結(jié)果顯示主機內(nèi)置硬盤的所有扇區(qū)均讀寫正常。lsps–a查看PAGINGSPACE的使用情況,如果使用率超過70%,就需要采取措施。日常系統(tǒng)維護流程日常檢查服務器狀態(tài)
10lsvg–o|lsvg–il|grep–istale查看有無stale的lv,如果輸入該命令之后有輸出結(jié)果,就需要采取措施11有否發(fā)給root用戶的錯誤報告(mail)。日常系統(tǒng)維護流程日常檢查服務器狀態(tài)
12檢查雙機狀態(tài):lssrc–gcluster檢查ha三個工作進程是否激活,/usr/sbin/cluster/clstat–a檢查雙機狀態(tài)是否up,并檢查hacmp.out日志,看是否有異常信息。
13用vmstat,topas,sar命令檢查系統(tǒng)性能,檢查cpu\memoyr\IO,是否存在性能瓶頸。
14檢查能否順利進入CDE界面,如果不能進入的話,要檢查/etc/hosts表中有否錯誤的項目。
日常系統(tǒng)維護流程日常檢查服務器狀態(tài)
15用smittyssaraid查看磁盤陣列RAID盤的狀態(tài)是否是Good。如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了
16用sysdumpdev–l查看系統(tǒng)的DUMP設(shè)置是否正常。
17用instfix–ik|grepML當前操作系統(tǒng)補丁版本補丁程序(PTF)是否滿足穩(wěn)定運行的需要。一般要求433操作系統(tǒng)補丁要打到10以上,5.1操作系統(tǒng)補丁要打到5以上
18使用df–kP查看磁盤空間占用率,請確保以下文件系統(tǒng)的占用率高于80%立即上報:
//var/usr/home/tmp/zxindata/zxinbak,其余文件系統(tǒng)的占用率高于95%立即上報也可以到各文件系統(tǒng)下使用組合命令:find.–size+2048–octime1–execls–l{}\;查出大于1M或一天之內(nèi)修改過的文件。日常系統(tǒng)維護流程性能監(jiān)控與優(yōu)化
2.8性能監(jiān)控與調(diào)優(yōu)通過命令vmstat1來觀察.kthrmemorypagefaultscpu
rbavmfrerepipofrsrcyinsycsussyidwa
命令解析:vmstat命令的輸出可以反映系統(tǒng)整體運行狀況,包括cpu、內(nèi)存、虛擬頁面、系統(tǒng)進程和系統(tǒng)調(diào)用情況。檢查CPU是否為瓶頸,分別檢查CPU的四項數(shù)值和kthr的兩項數(shù)值.檢查MEM是否為瓶頸,分別檢查Memory的兩項數(shù)值和Page的六項數(shù)值.日常系統(tǒng)維護流程性能監(jiān)控與優(yōu)化
通過命令sar–mu–PALL來觀察命令解析:
sar可以用來收集反映系統(tǒng)運行狀況,在這里主要是查看CPU的運行狀況,CPU是否負載均衡,是否存在分配不均的情況。
通過命令psgv|more來觀察。PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND0-A4:2071214516xx0145040.05.0swapper1-A1:3310378952790443276825360.029.0/etc/init日常系統(tǒng)維護流程性能監(jiān)控與優(yōu)化
命令解析:ps可以用來查看進程的當前狀態(tài)。在這里通過參數(shù)的配搭,可以觀察目前正在運行的進程所耗的時間,CPU和memory量.其中,%CPU表示進程所占用的CPU資源情況,%MEM表示進程所占用的內(nèi)存情況。主要檢查是否有標示為<defunc>的僵尸進程耗用系統(tǒng)資源,以及informix數(shù)據(jù)庫的oninit進程的系統(tǒng)消耗情況在機器上用dd命令進行磁盤陣列的寫操作校驗,與此同時用iostat1–dhdiskX觀察磁盤。Disks:%tm_actKbpstpsKb_readKb_wrtn命令解析:iostat可以用來查看系統(tǒng)的
I/O的輸入輸出情況,在這里主要查看陣列上的硬盤的每秒讀寫量,同時估算磁盤陣列讀寫速度HHhHhh通過命令netstat–a進行查看。ActiveInternetconnections(includingservers)ProtoRecv-QSend-QLocalAddressForeignAddress (state)命令解析:netstat可以用來查看系統(tǒng)的網(wǎng)絡情況,在這里主要是查看網(wǎng)絡客戶端連接的情況和開銷,檢查參數(shù)為state,如有死連接,state狀態(tài)為fin_wait,這樣耗用系統(tǒng)網(wǎng)絡資源,從而導致網(wǎng)絡性能下降構(gòu)成瓶頸日常系統(tǒng)維護流程安全工作守則
2.9安全工作守則a.系統(tǒng)定期進行系統(tǒng)備份,系統(tǒng)盤建議鏡像。b.當有系統(tǒng)變更或進行操作系統(tǒng)補丁安裝的時候,必須作一次系統(tǒng)備份。c.在7133和shark發(fā)現(xiàn)有硬盤故障的時候,請?zhí)嵝芽蛻糇⒁猱斕斓臄?shù)據(jù)備份。在更換硬盤的時候,請確認當天數(shù)據(jù)備份已經(jīng)完成。d.在更換敏感的電子元件,時候一定要防靜電。e.在插拔外圍設(shè)備的時候,請把外圍設(shè)備下電。f.在進行主機微碼升級時候,請留意微碼的完整性。
g.在進行文件刪除的時候,請留意當前路徑是否正確。h.在進行文件解壓縮的時候,請留意參數(shù)和路徑。故障定位、故障排除系統(tǒng)日常維護流程機房環(huán)境及物理檢查目錄故障定位、故障排除3.1硬件故障硬件故障有很多種,對系統(tǒng)產(chǎn)生的影響也不一樣,這里按其故障對系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功能的硬件故障兩類進行硬件分類:其損壞對系統(tǒng)產(chǎn)生致命影響(將使機器宕機或無法啟動)的硬件包括:主板、CPU、I/O柜(包含本地盤、光驅(qū)、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜與CEC柜的接線、電源模塊、風扇、本地硬盤、內(nèi)存損壞等等注:I/O柜和CEC柜一般在比較高端的小型機才有,如M80,低端的是合一的。這些設(shè)備的損壞等將使系統(tǒng)無法完成自檢、引導和啟動,液晶顯示屏上都將有錯誤信息,可根據(jù)液晶顯示屏上的錯誤碼對照ServiceGuide查的錯誤原因,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,則系統(tǒng)將被掛起或宕機。硬件故障故障定位、故障排除其損壞對僅對系統(tǒng)產(chǎn)生功能影響(機器不會宕機并能正常啟動)的硬件包括:網(wǎng)卡、本地硬盤有壞塊、顯卡、SSA卡和其他外圍設(shè)備這些設(shè)備的損壞只影響特定功能,如網(wǎng)絡功能、顯示功能、訪問磁陣的功能等,對于本地硬盤有壞塊的情況,則要看壞塊中是否包含了重要的系統(tǒng)文件,如果不是重要系統(tǒng)文件,則系統(tǒng)功能不受影響,但也建議立即更換該硬盤。故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的錯誤碼或:errpt–dH查看到根據(jù)錯誤碼確定是什么硬件出了故障,對商用系統(tǒng)來講,由于是雙機系統(tǒng),如果損壞機器是主機可以將此服務器切換成備機,然后修復故障機器,恢復系統(tǒng)。故障定位、故障排除3.2磁陣故障磁陣引起的故障是目前碰到的最頻繁、危害最大的故障,據(jù)不完全統(tǒng)計,其故障覆蓋到總故障的70%以上,具體來講,可能引起磁陣故障的環(huán)節(jié)包括:磁陣硬盤、7133柜子、主機上的SSA卡、連接7133與主機的SSA線、硬盤的位置和ssa線的接線方式、以及盤柜使用的電壓及周圍磁場、磁陣/硬盤/ssa卡的微碼等都可能造成7133的異常。磁陣故障故障定位、故障排除7133磁陣的問題是最復雜的,一般有物理損壞的原因也有環(huán)境原因,這是主因,如接線、插盤位置不符合要求、未及時查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按照我們的經(jīng)驗,不管是什么硬件故障導致7133故障,系統(tǒng)都會產(chǎn)生告警,如果能及時發(fā)現(xiàn)問題并采取措施,一般都能防止故障的發(fā)生。磁陣故障故障定位、故障排除故障定位:7133硬件故障也可以使用:errpt–dH查看到伴隨的錯誤碼有:B4C006180115140004PHssa0RESOURCEUNAVAILABLEFE9E93570401082304PHssa0DISKOPERATIONERRORFE9E93571205000803PHpdisk3DISKOPERATIONERROR03913B941122031103UHLVDDHARDWAREDISKBLOCKRELOCATIONACHIEVED613E5F381121125103PHLVDDI/OERRORDETECTEDBYLVM625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK26CA120B0206081104PHssa0CACHESTORAGECARD磁陣故障故障定位、故障排除
所有的錯誤碼都預示著7133有異常,紅色部分則表示肯定出現(xiàn)了硬件故障,需要立即進行檢查并采取措施,否則磁陣將很快不能訪問。對于藍色部分:625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK表示ssa出現(xiàn)了開環(huán),出現(xiàn)開環(huán)不僅影響IO性能,也增加了風險,即如果另一個環(huán)路也出現(xiàn)問題,將不能訪問磁陣。開環(huán)一般有兩種情況:1)如果625E6B9A報錯比較頻繁,如每天幾次,則表示系統(tǒng)很有可能出了硬件故障,雖然不會導致訪問磁陣失敗,但需要立即查出原因并解決。查錯方法可以參考下面的描述。2)如果625E6B9A錯誤偶爾報一次,則要具體情況具體對待,有可能是讀寫忙出現(xiàn)的誤報,也按下面方法進行排查,如果沒有查出具體的原因,則可以繼續(xù)觀察。磁陣故障故障定位、故障排除26CA120B0206081104PHssa0CACHESTORAGECARD該錯誤一般是在:SSA卡帶writecache并打開FastWrite,而ssa卡上用于writecache供電的可充電鎳鎘電池達到或接近安全壽命的情況下產(chǎn)生的。這類錯誤產(chǎn)生將影響IO寫性能,并且由于在FastWrite打開的情況下,主備機需要同步ssa卡上的writecache,所以甚至會影響到主備機同步。具體解決方法可參考下文。磁陣故障故障定位、故障排除
故障排除:對于紅色部分錯誤的問題排除,一般可以使用diag命令進行進一步診斷:#diag->TaskSelection->SSAServiceAids->LinkVerification檢查環(huán)路中是否出現(xiàn)了???的盤符或狀態(tài)不是good的硬盤或使用:#smittyssaraid->ListAllDefinedSSARAIDArrays
查看磁盤陣列RAID盤的狀態(tài)是否是Good。如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了
這時候不建議再進行單獨硬盤的Certify,而是趕緊通知IBM準備好相同型號和大小的硬盤(至少兩塊)到現(xiàn)場進行進一步的診斷和壞盤更換。磁陣故障故障定位、故障排除625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK的排查方法:1、要求將7133中未插硬盤的槽位全部插上dummy盤。(dummy盤:啞元盤,就是那個空殼子,相當于代替SSA硬盤裝在磁盤陣列的塑料模型,當磁盤陣列的16個槽位沒有被SSA硬盤插滿時才用到.)2、看看Loop狀態(tài):diag>TaskSelection-->SSAServiceAids-->LinkVerification.正常AdapterPort下的兩列數(shù)字是連續(xù)不間斷的排列,且Status都為good,如果Physical列有???????符號.或Status不是good,則說明已經(jīng)存在硬盤或鏈路故障,這種情況則要立即采取行動,做進一步檢查以確定是否要更換硬盤。檢查單盤是否有問題的方法如下:diag>TaskSelection-->SSAServiceAids-->CertifyDisk
選擇認為存在故障的硬盤進行檢查磁陣故障故障定位、故障排除3、如果7133存在硬件故障時,可從狀態(tài)燈上觀察到:
當單塊硬盤出現(xiàn)故障或未被使用時,其面板上的硬盤狀態(tài)燈會不亮
陣列的狀態(tài)燈黃燈會亮
或接SSA線的端口的指示燈也會熄滅
如果通過以上三種方法都未發(fā)現(xiàn)問題,而系統(tǒng)仍報OpenSerialLink錯誤,建議繼續(xù)跟蹤。磁陣故障故障定位、故障排除26CA120B0206081104PHssa0CACHESTORAGECARD的處理方法:背景介紹:
IBM小型機上連接7133磁陣所配置的SSA卡一般都帶有一塊充電電池,該電池用于在突然停電的情況下保護ssa卡上的fastwritecache中的信息不丟失,這塊電池的安全壽命一般是22000小時,差不多兩年半的時間,也就是說,當fastwrite模式啟動的情況下,一般兩年半以后需要更換這塊電池。問題表現(xiàn):磁陣故障故障定位、故障排除對ssa卡上的電池保護是通過卡上的一個計數(shù)器實現(xiàn)的,每運行一小時該計數(shù)器會增加一,當該計數(shù)接近或超過22000時,系統(tǒng)會有26CA120B硬件報警:26CA120B0206120904PHssa1CACHESTORAGECARD
可以用如下命令檢查ssa卡上的狀態(tài):(-a后帶上卡的邏輯設(shè)備名,這里假設(shè)是ssa0)ssa_fw_status-assa0-p(檢查電池已經(jīng)工作的時間,小時為單位)ssa_fw_status-assa0-l(檢查電池安全工作壽命,小時為單位)ssa_fw_status-assa0-c(檢查ssa卡上的fastwrite功能是否被激活)磁陣故障故障定位、故障排除處理步驟:(按優(yōu)選方式列出,從中選擇一種即可)1)更換電池
選擇系統(tǒng)閑時,更換主備機ssa卡電池,可以采用:
停備機-》更換備機ssa卡電池-》起備機(雙機服務)-》主備倒換-》
停原主機-》更換原主機ssa卡電池-》起原主機(雙機服務)
磁陣故障故障定位、故障排除2)如果系統(tǒng)出現(xiàn)26CA120B電池告警,使用ssa_fw_status-assa0-c檢查主用ssa卡(一般是ssa0)的FastWrite是否處于inactive(未被激活)狀態(tài),如果是,則以root執(zhí)行如下命令:ssa_format-lssa0-berrclear0/usr/lib/errstop/usr/lib/errdemon
可以暫緩更換電池時間,等有電池后再更換,但這段時間對磁陣讀寫性能會有所影響。
磁陣故障故障定位、故障排除3)如果短期內(nèi)不能更換電池,同時主機主用卡的FastWrite仍然處于Active狀態(tài),建議手工屏蔽fastwrite功能1)先停止雙機;2)在1號機修改hdisk該屬性; smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no];3)在1號機激活卷組varyonvgzxinvg;4)在1號機去激活卷組varyoffvgzxinvg;
5)在2號機上執(zhí)smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]檢查fastwrite是否已經(jīng)改為no(只要1號機做了2好機就不用再修改了);6)在2號機上執(zhí)行rmdev-dlhdisk2,cfgmgr–v;7)在2號機上執(zhí)行l(wèi)spv(查看hdisk2是否已找到);8)然varyonvgzxinvg,varyoffvgzxinvg;9)重新啟動雙機磁陣故障故障定位、故障排除3.3網(wǎng)絡故障由于我們應用對網(wǎng)絡依賴很強,所以當網(wǎng)絡出現(xiàn)全阻或瞬斷都將對系統(tǒng)產(chǎn)生重大影響,網(wǎng)絡故障一般可分為硬件故障(如網(wǎng)卡故障和交換機、路由器故障)和軟件故障(網(wǎng)絡中有IP包攻擊或網(wǎng)絡擁塞)兩種情況。硬件故障:1.網(wǎng)卡對于網(wǎng)卡故障,由于商用系統(tǒng)中都是采用IBM的HA雙機系統(tǒng),而且每臺機器都配置有至少兩塊網(wǎng)卡,所以當單塊網(wǎng)卡或網(wǎng)線出現(xiàn)問題時,HA軟件都將采取措施實現(xiàn)ServiceIP切換。網(wǎng)卡故障定位方法:使用errpt–dH可查看到網(wǎng)卡服務中斷的錯誤,再使用diag進行網(wǎng)卡診斷網(wǎng)卡故障排查方法:如果診斷出網(wǎng)卡有問題,則關(guān)閉系統(tǒng)后進行更換。(如果是主機,則先手工切換為備機后再操作)網(wǎng)路故障故障定位、故障排除2.交換機我們的網(wǎng)絡一般都采取雙網(wǎng)雙平面的結(jié)構(gòu),所以當一個網(wǎng)絡平面的交換機出現(xiàn)問題時,也不會中斷網(wǎng)絡服務,但值得重視的是:主、備交換機之間的直連線要保持暢通,否則一單發(fā)生IBM服務器主機或SIU主機的網(wǎng)卡切換,將導致IBM服務器主機和SIU主機斷鏈,從而導致業(yè)務全阻。還有一種情況,有些地方為了網(wǎng)絡安全,對連到switch上的不同設(shè)備劃分了不同的VLAN,同時又將主、備switch之間改成通過兩個口連接,并劃分在一個channelgroup里,當時碰到的一種情況是:1)當時IBM服務器的主網(wǎng)卡從缺省VLAN0到VLAN6實現(xiàn)遷移時,網(wǎng)絡將出現(xiàn)15秒~30秒的瞬斷2)當時主、備交換機之間的channelgroup工作不正常,鏈路不通。當1)發(fā)生時,IBM雙機發(fā)生主、備網(wǎng)卡倒換,但由于2)的問題,導致IBM主機無法與SIU建鏈。交換機故障定位、故障排除問題排查及建議:建議開局時一定要做雙網(wǎng)雙平面中一個平面的swith發(fā)生掉電的故障測試建議一定要做主、備交換機之間的設(shè)備之間的網(wǎng)絡互訪測試,確保暢通盡量不要在白天在switch上進行配置修改,如果需要修改,也要在晚上進行,并有嚴格的方案交換機故障定位、故障排除軟件故障:1.網(wǎng)絡擁塞由于系統(tǒng)在封閉網(wǎng)絡中運行,所以發(fā)生網(wǎng)絡擁塞的可能性比較小,但如果網(wǎng)絡拓撲比較復雜的話,也可能發(fā)生這種情況,在主機上的表現(xiàn)為ping主機丟包嚴重,主機到SIU之間鏈路時通時斷,數(shù)據(jù)包丟失,設(shè)備功能異常。問題排查及建議:盡量使NT/2000的機器從網(wǎng)絡上隔離出去如果情況仍未改善,建議啟動SIU應急流程在恢復呼叫的前提下,使用網(wǎng)絡工具抓包,找出攻擊源、逐步將設(shè)備恢復到網(wǎng)絡。軟件故障故障定位、故障排除2.切換失敗現(xiàn)場碰到過一種情況,當發(fā)生主、備機切換時老是切換不成功,檢查發(fā)現(xiàn)是備機的主網(wǎng)卡綁定浮動IP老是失敗,再進一步排查,發(fā)現(xiàn)失敗的原因是備機主網(wǎng)卡綁定MAX地址失敗,由于IBM雙機配置時需要將ServiceIP配置為一個固定的MAC地址,規(guī)則是取主機主網(wǎng)卡的MAC地址,將最后兩位改為固定的兩個數(shù)字(要求與原主網(wǎng)卡地址不同,如定制為89)。但這樣的規(guī)則在現(xiàn)場不成功問題排除:最后修改了HA拓撲圖中以太網(wǎng)配置中ServiceAdapter配置,去掉MAC地址的配置(置為空),讓后同步雙機,再進行倒換,一切OK由于網(wǎng)絡故障出現(xiàn)會導致遠程登錄失效,所以無法進行系統(tǒng)維護。所以建議任何一套IBM服務器都要配置一個維護臺。軟件故障故障定位、故障排除3.4OS故障AIX是一個比較穩(wěn)定的操作系統(tǒng),出現(xiàn)故障一般是人為因素引起的:沒按要求打OS補丁,如433打了09的補丁造成內(nèi)存泄漏應用程序或數(shù)據(jù)庫消耗內(nèi)存太多或存在內(nèi)存泄漏導致物理內(nèi)存和pagingspace被耗盡導致系統(tǒng)掛起人為刪除了重要的目錄或文件,如:/dev、/usr、/bin、/sbin、/etc等故障排查:1.查操作系統(tǒng)補丁是否符合要求(433要求10以上,5.1要求5以上)2.檢查內(nèi)存、pagingspace的使用情況(使用lsps–a查看使用率要小于20%)3.檢查shell命令執(zhí)行時是否有報錯,errpt有無相關(guān)報錯OS故障故障定位、故障排除3.5HA故障對于HA安裝時出現(xiàn)的故障,如同步拓撲圖失敗,要求檢查以下條款看是否符合要求:1.對于4.4.1版本的HA一定要打上15以上的補丁,4.5版本的HA要求打上9以上的補丁2.網(wǎng)絡相關(guān)的配置文件一定要按照安裝手冊去設(shè)置3.網(wǎng)絡ip配置要正確并且保證物理鏈路暢通4.所有4.4.1、4.4.0版本一律使用標準版5.不能在同一臺機器中同時安裝標準版或ES版6.打補丁時請使用smittyupdate_all方式,不要選擇打所有補丁,因為標準版和ES版的補丁往往在一起,這樣會導致版本不一致HA故障故障定位、故障排除如果是新開局,一定要保證做雙機倒換測試并確保成功。如果在后續(xù)使用中,進行了如下操作,以后再做雙機切換會失?。?.在主機上做過磁陣RAID或共享VG相關(guān)信息的修改,如:增加了新的RAID盤,修改了共享VG的配置2.在共享VG中增加了新的FS、增加了新LV3.以上配置或修改只在主機上進行了操作,而未將共享VG信息及時同步到備機4.備機雖然導入了新的共享VG信息,但未修改共享VG屬性為系統(tǒng)啟動時不自動啟動5.未在共享VG激活、共享文件系統(tǒng)mount狀態(tài)下修改備機共享文件系統(tǒng)、裸設(shè)備的權(quán)限改為數(shù)據(jù)庫可操作的權(quán)限HA故障故障定位、故障排除以下是HA的正常操作流程和異常情況下的處理,供參考:HA正常操作流程a、啟動HA前必須保證:雙機結(jié)構(gòu)組件物理連接正確無誤操作系統(tǒng)運行正常HA軟件安裝配置正確,拓撲結(jié)構(gòu)和資源組同步成功完成系統(tǒng)當前無任何HA進程如clstrmgr、clsmuxpd或clinfo運行,如果有則首先執(zhí)行HA關(guān)閉操作系統(tǒng)當前無任何HA資源組中定義的應用進程或設(shè)備擊活,如共享磁盤vg未掛接在任何節(jié)點上、屬于資源組的數(shù)據(jù)庫和應用進程未啟動等HA故障故障定位、故障排除b、HA啟動過程是clstrmgr被擊活后由它在后臺調(diào)用執(zhí)行相關(guān)腳本完成,所以啟動過程是否結(jié)束不能單看cluster進程是否被擊活,最好方法是跟蹤hacmp.out日志記錄:#tail-f/tmp/hacmp.out啟動結(jié)束標志:hacmp.out記錄HACMPEventSummary(任何動作結(jié)束標志)建議主備節(jié)點順序啟動,不可主備機同時啟動HAc、任何事件操作必須等待該事件完全執(zhí)行完畢后方可執(zhí)行下一個事件HA故障故障定位、故障排除d、HA結(jié)合服務器的冗余部件可以完全消除雙機系統(tǒng)中的單點故障,但當系統(tǒng)出現(xiàn)多點故障時并不保證系統(tǒng)正常運行,多點故障包括雙機同時出現(xiàn)多個與HA相關(guān)部件錯誤,或者雙機出現(xiàn)某個錯誤引起HA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小飯店合同協(xié)議
- 合同欺詐后的補充協(xié)議
- 硬件合同終止協(xié)議
- 股東投資協(xié)議合同范本
- 酒店協(xié)議合同折扣
- 賣貓合同協(xié)議
- 購房合同違約協(xié)議書范本
- 冰箱買賣合同協(xié)議書
- 商品采購協(xié)議合同
- 入股合同生效前退股協(xié)議
- 產(chǎn)能分析報告模板及指標明細
- 瀝青混凝土面板單元工程質(zhì)量評定表
- GA/T 922.2-2011安防人臉識別應用系統(tǒng)第2部分:人臉圖像數(shù)據(jù)
- GA/T 543.5-2012公安數(shù)據(jù)元(5)
- 《綠色建筑概論》整套教學課件
- 證據(jù)法學李浩課件 第五章
- 考研考博-英語-北京建筑大學考試押題卷含答案詳解3
- 風生水起博主的投資周記
- 愛蓮說-王崧舟
- 光伏支架安裝施工協(xié)議
- 保定市縣級地圖PPT可編輯矢量行政區(qū)劃(河北省)
評論
0/150
提交評論