HACMP原廠培訓(xùn)教材_第1頁
HACMP原廠培訓(xùn)教材_第2頁
HACMP原廠培訓(xùn)教材_第3頁
HACMP原廠培訓(xùn)教材_第4頁
HACMP原廠培訓(xùn)教材_第5頁
已閱讀5頁,還剩242頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

HACMP培訓(xùn)第一章高可用性介紹什么是高可用性了解高可用性與容錯之間的差別了解為什么需要高可用性什么是高可用性最大化系統(tǒng)可用性或正常運(yùn)行時間掩蓋或消除系統(tǒng)停機(jī)時間是錯誤恢復(fù)而不是容錯最小化系統(tǒng)停機(jī)時間應(yīng)用范圍高可用性的概念高可用性集群冗余的組件協(xié)同工作的處理單元具有在處理單元間進(jìn)行資源切換的能力優(yōu)秀的性價比分布式計算機(jī)系統(tǒng)通過多個Server分散系統(tǒng)工作負(fù)載更好的靈活性更好的性能可由多個廠家提供更多更新的應(yīng)用軟件較多的單點(diǎn)失敗傳統(tǒng)容錯系統(tǒng)冗余的組件十分昂貴較差的性價比通常由單一廠家提供有限的應(yīng)用軟件操作系統(tǒng)是其單點(diǎn)失敗HACMPHACMP:HighAvailablityClusterMulti-Processing2-8個Server協(xié)同工作共享訪問磁盤和網(wǎng)絡(luò)可以并發(fā)訪問數(shù)據(jù)靈活的配置設(shè)備級容錯:磁盤鏡像或RAID多個磁盤控制卡多個網(wǎng)絡(luò)適配器多個網(wǎng)段為什么需要高可用性越來越多的業(yè)務(wù)需要7X24不間斷運(yùn)行越來越多的關(guān)鍵性業(yè)務(wù)客戶的信賴程度高可用性減少計劃內(nèi)和計劃外的系統(tǒng)停機(jī)時間系統(tǒng)停機(jī)的代價系統(tǒng)停機(jī)的平均代價系統(tǒng)停止服務(wù)每小時損失$78,000平均每次停止服務(wù)的總開銷$33,000大多數(shù)公司可以忍受每年9次故障故障開銷的例子航空預(yù)定系統(tǒng)每分鐘損失$36,000電話服務(wù)每分鐘損失$130,000供沒有災(zāi)難恢復(fù)系統(tǒng)的用戶使用當(dāng)災(zāi)難發(fā)生時50%的業(yè)務(wù)將失敗90%的業(yè)務(wù)在災(zāi)難發(fā)生后的兩年內(nèi)將無法進(jìn)行計劃內(nèi)和計劃外的停機(jī)時間研究表明:90%的系統(tǒng)停機(jī)是計劃內(nèi)停機(jī)如:備份、維護(hù)、升級、測試、開發(fā)等10%的系統(tǒng)停機(jī)是計劃外停機(jī)如:用戶操作錯誤、應(yīng)用程序運(yùn)行失敗、系統(tǒng)組件失效、操作系統(tǒng)失效、環(huán)境災(zāi)難等高可用性幫助減少計劃內(nèi)與計劃外的停機(jī)時間無單點(diǎn)失敗單點(diǎn)失?。⊿POF):任何單個的系統(tǒng)組建,當(dāng)其失效時將導(dǎo)致用戶無法訪問所需的應(yīng)用或數(shù)據(jù)設(shè)計HACMPFORAIXAIX操作系統(tǒng)RS/6000硬件平臺高可用性不僅僅是軟件一個成功的高可用性系統(tǒng)需要:完善的計劃和設(shè)計合適的硬件環(huán)境重要數(shù)據(jù)的鏡像自動或通過腳本實(shí)現(xiàn)改變管理規(guī)則記錄操作步驟教育和培訓(xùn)第二章HACMP介紹描述HACMP的特性了解其他HA產(chǎn)品理解關(guān)鍵的HACMP術(shù)語了解集群的組成概述配置選項(xiàng)了解HACMP的適用范圍IBM的高可用性產(chǎn)品-HACMPHACMP是IBM用于RS/6000和SP系統(tǒng)的核心高可用性產(chǎn)品一個成熟的產(chǎn)品用于開放式系統(tǒng)的業(yè)界領(lǐng)先的產(chǎn)品支持不同的磁盤、網(wǎng)絡(luò)、節(jié)點(diǎn)和應(yīng)用類型完善的支持和服務(wù)HACMP的發(fā)展歷程HACMP4.1:支持SMP不支持SP無CLVM無新功能HACMP4.1.1:支持SP支持CLVMXhacmpm快速配置支持HAGEOHACMP4.2:C-SPOCDARE兼容HACMP4.2、4.1Cl_convert工具更新HACMP4.2.1:HaView支持8路C-SPOC支持新硬件支持HAGEOHACMP4.2.2:快速錯誤恢復(fù)增強(qiáng)的HaView模擬DAREDARE遷移事件模擬支持用戶校驗(yàn)方式支持AIX4.3HACMP4.3:支持VSS,S70支持共享VG的TaskGuides支持AIX連接性錯誤恢復(fù)增強(qiáng)的C-SPOC支持SSA支持多事件高可用性集群完善的HACMP集群設(shè)計沒有單點(diǎn)失敗完善的集群設(shè)計需要的基本硬件要求:2-8個節(jié)點(diǎn)均運(yùn)行HACMP需要共享磁盤可共享訪問的TCP/IP網(wǎng)絡(luò)一個或更多的非IP網(wǎng)絡(luò)多個磁盤接口卡多個網(wǎng)絡(luò)適配器多個TCP/IP網(wǎng)絡(luò)en0SharedVGRS/6000NodeARS/6000NodeBen1en0en1SVCbootSTBSVCbootSTBSCSI/FCSCSI/FCRS232HeartBeatLANIP1IP2HACMP術(shù)語集群(cluster):由2-8各運(yùn)行HACMP的RS/6000和共同的IP網(wǎng)絡(luò)組成節(jié)點(diǎn)(node):及群眾的一臺RS/6000網(wǎng)絡(luò)(network):用于集群內(nèi)部通訊的TCP/IP和非IP網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(topology):HACMPODM對象類中的對節(jié)點(diǎn)、網(wǎng)絡(luò)、網(wǎng)卡的邏輯描述資源(resource):受到HACMP保護(hù)的邏輯體,包括:IP地址、文件系統(tǒng)、卷組、應(yīng)用等資源組(resourcegroup):與特定的應(yīng)用相關(guān)的具有相同故障接管行為的可管理的資源集合應(yīng)用服務(wù)器(applicationserver):在HACMP控制下的用于啟動和停止應(yīng)用的腳本標(biāo)識重整(reintegration):先前失效的節(jié)點(diǎn)、網(wǎng)絡(luò)或網(wǎng)卡重新加入集群的動作全局ODM(globalODM):由ODM維護(hù)的,可通過TCP/IP同步至集群中所有節(jié)點(diǎn)的HACMP的拓?fù)浣Y(jié)構(gòu)和資源配置信息同步(synchronization):從一個節(jié)點(diǎn)更新集群中所有節(jié)點(diǎn)的全局ODM的過程事件(event):導(dǎo)致事件腳本執(zhí)行的狀態(tài)改變高可用性的組成無單點(diǎn)失敗設(shè)計定制HACMPForAIXAIX操作系統(tǒng)RS/6000系統(tǒng)支持的硬件-CPU型號MCACompactServer:C10,C20MCAEntryServer:220,22W,230,23S,23T,23W,250,25T,25WMCADesktop:320,32E,32H,340,34H,350,355,360,36T,365,370,37T,375,380,390,397,39HPCIDesktop:43P-240,43P-260PCIServer:E20,E30,F30,F40,F50,H10,H50MCARackMounted:930,950,95E,970,97B,97E,97F,980,98B,98E,98F,990,99E,99F,99J,99K,R10,R20,R21,R24SMPServer:G30,G40,G50,J30,J40,J50,R30,R3U,R40,R50SP:9076ScalableRICS/SP64BitSystem:S70HAServerPackages:HA-50,HA-S70支持的硬件-磁盤子系統(tǒng)HACMP集群中唯一的組件HACMP支持AIX支持的大多數(shù)磁盤SSASCSI2DifferentialFast&WideSCSISE,SCSI2SE,SCSI2DE,9333,IBM7135、IBM7137RAID非IBM生產(chǎn)的磁盤子系統(tǒng):EMC,CLARiiON,DEC,SUN等支持的硬件-網(wǎng)絡(luò)HACMP至少需要一個IP網(wǎng)絡(luò)用于心跳和數(shù)據(jù)IP網(wǎng)絡(luò)(公有或私有):FDDI、TokenRing、Ethernet、SPSwitch、FibreChannelSwitch、SerialOpticalChannelConverter、AsynchronousTransfer、SerialLineInternetProtocol建議HACMP安裝一個非IP網(wǎng)絡(luò)非IP網(wǎng)絡(luò)(串口):SerialRS232/RS422、TargetModeSCSI(trmscsi)usingSCSI-2Differential、TargetmodeSSAAIX增加的可用性功能邏輯卷管理器(LVM)支持所有數(shù)據(jù)結(jié)構(gòu)的鏡像鏡像可以跨越不同類型的總線、磁盤和容量具有使邏輯卷停止工作的功能日志文件系統(tǒng)(JFS)Logredo能力不需要進(jìn)行完全的文件系統(tǒng)檢查比傳統(tǒng)的UNIX文件系統(tǒng)具有更大的數(shù)據(jù)完整性系統(tǒng)資源控制器(SRC)控制進(jìn)程的啟動、停止和刷新當(dāng)其控制的進(jìn)程非正常終止時,可以采取相應(yīng)的動作對象數(shù)據(jù)管理器(ODM)HACMP的配置數(shù)據(jù)存儲在ODM中ODM可以在節(jié)點(diǎn)之間分布和同步系統(tǒng)管理接口工具(SMIT)使系統(tǒng)管理工作更簡單,并減少操作錯誤的出現(xiàn)機(jī)會HACMP的組件HACMP包含四個守護(hù)進(jìn)程和許多腳本集群管理器(clstrmgr):主要的集群守護(hù)進(jìn)程,用于監(jiān)控節(jié)點(diǎn)、網(wǎng)絡(luò)和網(wǎng)卡,并在集群狀態(tài)改變時啟動事件腳本集群SNMP守護(hù)進(jìn)程(clsmuxpd):使基于SNMP的管理工具得到集群的狀態(tài),為企業(yè)維護(hù)管理信息基礎(chǔ)(MIB)集群信息維護(hù)守護(hù)進(jìn)程(clinfo):提供API,以使集群的狀態(tài)信息可以被client和server得到集群鎖守護(hù)進(jìn)程(cllockd):提供API供必須并發(fā)訪問共享數(shù)據(jù)的應(yīng)用程序使用,通常此進(jìn)程僅用于并發(fā)訪問配置事件腳本:執(zhí)行資源的重新配置以回應(yīng)集群狀態(tài)的更改,可以為每個事件制定多個預(yù)先或滯后的動作集群單點(diǎn)控制(C-SPOC):允許在集群中的一個節(jié)點(diǎn)上執(zhí)行特定的管理操作,管理集群中所有的節(jié)點(diǎn)動態(tài)重新配置(DARE):允許在集群運(yùn)行時改變集群的拓?fù)浣Y(jié)構(gòu)和資源任務(wù)指南(TaskGuides):幫助建立共享卷組的圖形工具HaView:Netview的擴(kuò)展,允許遠(yuǎn)程監(jiān)控集群集群校驗(yàn)工具(clverify):軟件和配置檢查,可擴(kuò)展的校驗(yàn)?zāi)緣K,可根據(jù)需要進(jìn)行定制集群狀態(tài)監(jiān)控工具(clstat):clinfo應(yīng)用程序,提供集群狀態(tài)的圖形監(jiān)控工具集群的定制所有集群都需要一定程度的定制以滿足可用性目標(biāo)需要定制的共同任務(wù):實(shí)現(xiàn)高可用性打印隊(duì)列掛載/卸載文件系統(tǒng)刷新Client/Server的路由表監(jiān)控應(yīng)用程序進(jìn)程可能需要的定制任務(wù)增加syncd進(jìn)程的調(diào)用頻度實(shí)現(xiàn)I/Opacing更改TCP/IP內(nèi)核參數(shù)設(shè)計和規(guī)劃需考慮的事情使用規(guī)劃表繪制結(jié)構(gòu)圖確保所有組件均有冗余應(yīng)包含串行網(wǎng)絡(luò)(tmscsi、tmssa、rs232)總線、電源和磁盤柜均應(yīng)鏡像在HACMP控制之外的任務(wù)用戶帳號集中訪問/home文件系統(tǒng)同步UID、GID以及password環(huán)境變量備份和恢復(fù)實(shí)現(xiàn)在線的備份集中訪問磁帶或光纖介質(zhì)可能需要一些腳本事件同步Timed服務(wù)進(jìn)程Xntpd同步進(jìn)程升級策略應(yīng)用和測試PTF升級為新版本的操作系統(tǒng)測試或開發(fā)集群HACMP可以處理的故障類型HACMP只能直接處理三種故障類型節(jié)點(diǎn)失效網(wǎng)絡(luò)失效網(wǎng)卡失效由AIX處理的故障類型硬盤故障硬盤控制卡故障硬盤總線故障TCP/IP故障HACMP故障故障切換(FailOver)行為當(dāng)一個節(jié)點(diǎn)故障時資源組將表現(xiàn)出三種可能的行為:Cascading資源按照從高至低的順序在節(jié)點(diǎn)間移動 重整時資源返回優(yōu)先級高的節(jié)點(diǎn)缺省情況下,資源只運(yùn)行在優(yōu)先級高的節(jié)點(diǎn)上Rotating:資源按照一定的順序自從一個節(jié)點(diǎn)移至下一個節(jié)點(diǎn)資源將保留在所在的節(jié)點(diǎn),除非此節(jié)點(diǎn)故障或系統(tǒng)管理者調(diào)用資源遷移動作Concurrent:所有節(jié)點(diǎn)共享并發(fā)訪問數(shù)據(jù)應(yīng)用以并行的方式運(yùn)行在所有節(jié)點(diǎn)之上鎖管理器協(xié)調(diào)并連續(xù)地訪問數(shù)據(jù)節(jié)點(diǎn)的失效將降低性能Cascading資源組(切換前)Cascading資源組(切換后)Cascading資源組(重整)Rotating資源組(切換前)Rotating資源組(切換后)Rotating資源組(重整)Concurrent資源組(切換前)Concurrent資源組(切換后)Concurrent資源組(重整)資源組有關(guān)資源組的要點(diǎn)一個集群中最大支持20個資源組每個節(jié)點(diǎn)可以有不止一個的資源組可以同時操作三種不同類型的資源組(Cascading、Rotating、Concurrent)每個資源組可以同時和其他資源組共享集群中的所有節(jié)點(diǎn)或不共享任何節(jié)點(diǎn)一個資源組中只能包含一個集群資源(文件系統(tǒng)、IP地址等)根據(jù)系統(tǒng)的工作負(fù)載仔細(xì)地考慮資源組的布局可在節(jié)點(diǎn)間移動的資源資源:Service地址:Client端連接的IP地址卷組所有者:必須是一共享卷組文件系統(tǒng)的所有者:必須放置在共享卷組中裸磁盤的訪問:必須是一共享卷組啟動/停止應(yīng)用的腳本:應(yīng)用必須已安裝在所有節(jié)點(diǎn)上輸出的NFS:采用缺省方式輸出掛載的NFS:采用缺省方式掛載并發(fā)的卷組:必須是一共享卷組AIX的連接:HACMP4.3的新特點(diǎn)配置參數(shù)串行或并行掛載標(biāo)志:將會影響接管時間完全fsck或logredo標(biāo)志:將會影響接管時間關(guān)閉接管標(biāo)志硬盤范圍標(biāo)志:僅用于Concurrent訪問方式與硬盤相關(guān)的故障硬盤故障:可通過LVM鏡像或RAID解決硬盤總線故障:采用冗余的總線或SSA環(huán)硬盤控制卡故障:每個節(jié)點(diǎn)安裝雙控制卡與網(wǎng)絡(luò)相關(guān)的故障網(wǎng)絡(luò)故障:采用兩個網(wǎng)絡(luò)(需要控制腳本)網(wǎng)卡故障:可通過網(wǎng)卡切換解決(可選擇采用硬件地址切換)TCP/IP故障:引發(fā)節(jié)點(diǎn)故障擴(kuò)展的保護(hù)其他通訊卡字組多路復(fù)用器:使用錯誤通告方式X.25卡:使用錯誤通告方式ESCON卡:使用錯誤通告方式周邊設(shè)備打印機(jī):使用附加的網(wǎng)絡(luò)設(shè)備和ADSM磁帶設(shè)備:使用ADSM和遠(yuǎn)程設(shè)備ASCII終端:使用終端服務(wù)器和Hub其他設(shè)備顯示器:用戶交互設(shè)備鍵盤和鼠標(biāo):用戶交互設(shè)備圖形輸入板:用戶交互設(shè)備HACMP不適合的環(huán)境不能有任何停機(jī)時間需要容錯7X24小時操作重要的系統(tǒng)不安全的環(huán)境有root口令的用戶未實(shí)現(xiàn)的網(wǎng)絡(luò)安全不穩(wěn)定的環(huán)境經(jīng)常變更管理部門沒有接受過系統(tǒng)管理培訓(xùn)系統(tǒng)環(huán)境經(jīng)常被用戶更改IBM的其他高可用性產(chǎn)品HACMP是IBMRS/6000和SP系統(tǒng)的核心高可用性環(huán)境HACWS用于SP控制的工作站的高可用性軟件需要預(yù)裝HACMP只支持SP環(huán)境HACMP-ES擴(kuò)展的可升縮的產(chǎn)品當(dāng)使用SP架構(gòu)時可支持32個節(jié)點(diǎn)支持單獨(dú)的RS/6000為最大128個節(jié)點(diǎn)的集群設(shè)計HANFS用于高可用性網(wǎng)絡(luò)文件系統(tǒng)不能和HACMP聯(lián)合使用GAGEO用于地理上很分散的集群可實(shí)現(xiàn)遠(yuǎn)距離鏡像第三章共享磁盤的考慮了解SCSI標(biāo)準(zhǔn)和SCSI的相關(guān)操作了解和區(qū)分各種SCSI卡和硬盤技術(shù)了解如何配置采用共享SCSI總線配置方式的SCSI卡了解SCSI磁盤子系統(tǒng)的組成、安裝和配置了解SCSI定位代碼的含義回顧導(dǎo)致大多數(shù)問題的SCSI配置SCSI發(fā)起者和對象SCSI總線用于以下兩項(xiàng)的通信:發(fā)起者負(fù)責(zé)選擇、提供命令和數(shù)據(jù)通常為主機(jī)中的SCSI卡目標(biāo)根據(jù)發(fā)起者設(shè)備發(fā)出的命令采取相應(yīng)的動作通常為磁盤驅(qū)動器或磁帶驅(qū)動器,但不會是SCSI卡自身SCSI配置發(fā)起者是每個系統(tǒng)中的主機(jī)SCSI卡對象是每個磁盤設(shè)備上的設(shè)備控制器AIX中,某些主機(jī)SCSI卡也可以是目標(biāo)SCSI總線怎樣通信SCSI總線上同時只能有一個設(shè)備進(jìn)行通信通信從總線空閑狀態(tài)開始,此時所有設(shè)備通過仲裁來使用總線贏得仲裁的設(shè)備通過選擇與對象進(jìn)行通信發(fā)起者向?qū)ο蟀l(fā)出合適的命令當(dāng)傳輸結(jié)束后對象發(fā)出斷開連接指令,總線返回總線空閑狀態(tài)SCSI標(biāo)準(zhǔn)SCSI總線類型連接線每秒傳輸數(shù)最大總線速度SCSI(SCSI-1)50針55MB/secFastSCSI(SCSI-2)50針1010MB/secFastWideSCSI(SCSI-2)68針1020MB/secUltraSCSI(SCSI-3)50針2020MB/secWideUltraSCSI(SCSI-3)682040MB/sec每個SCSI類型均有單端(Single-Ended)和差分(Differential-Ened)的差別SCSI標(biāo)準(zhǔn)(續(xù))單端和差分SCSI單端SCSI差分SCSI特性設(shè)計用于連接CPU機(jī)柜內(nèi)的設(shè)備最大連接線長度:SCSI-1SE=6米SCSI-2SE=4.75米數(shù)據(jù)和控制信號參考相同的地以決定位值設(shè)計用于連接CPU機(jī)柜間或機(jī)柜外的設(shè)備最大連接線長度:SCSI-2DE=19米SCSI-2DEF&W=25米數(shù)據(jù)和控制信號分為兩對線,位值通過這兩對線之間的信號差來決定優(yōu)點(diǎn)價格低較少的電源要求連接線長度更長抗干擾能力強(qiáng)缺點(diǎn)連接線長度受限抗干擾能力差較昂貴HACMP支持的SCSI磁盤技術(shù)SCSI1Single-EndedSCSI2Single-EndedSCSI2DifferentialSCSISCSI2DifferentialFast&WideUltraSCSISCSI總線終結(jié)器所有SCSI總線必須具有終結(jié)器以維持合適的阻抗在主機(jī)SCSI卡上和SCSI總線上最后的設(shè)備處通常均有終結(jié)器HACMP環(huán)境中,SCSI連接線自身具有終結(jié)器通過終結(jié)連接線,當(dāng)一個節(jié)點(diǎn)失效時,SCSI總線仍處于終結(jié)狀態(tài),因此一個節(jié)點(diǎn)可以很容易地從總線上刪除SCSIIDSCSI總線上的每個主機(jī)控制卡和設(shè)備必須具有唯一的SCSIIDAIX3.2版本的有效SCSIID是0-7,AIX4.1版本的有效SCSIID是0-15FastSCSI(50針)可以尋址8個SCSIIDWideSCSI(68針)可以尋址16個設(shè)備設(shè)備的優(yōu)先級由SCSIID決定大的SCSIID具有更高的優(yōu)先級主機(jī)控制卡應(yīng)具備更高優(yōu)先級的IDSCSIID通常通過設(shè)備上的DIP開關(guān)或跳線設(shè)置,但是也可以通過軟件設(shè)置所有的SCSI控制卡的SCSIID缺省設(shè)置為7配置控制卡上的SCSIIDSCSIID缺省為7新的SCSIID只有在系統(tǒng)重新啟動后才會生效SCSIDE總線的接線最大四個節(jié)點(diǎn)可以共享一條SCSIDE總線Y-Cable用于連接節(jié)點(diǎn)如果結(jié)點(diǎn)是總線上的最后一個設(shè)備,未用的Y-Cable的接口需要用終結(jié)器終結(jié)DESCSI可以提供各種長度和接口,用于Y-Cable與Y-Cable、Y-Cable與設(shè)備、設(shè)備與設(shè)備間的連接SCSI-2DE總線的最大長度為19米,SCSI-2DEFast&Wide總線的最大長度為25米SCSI總線上的每一個目標(biāo)和啟動器必須具有唯一的SCSIIDSCSI總線連接線長度不能超過SCSI總線長度限制連接線的總長度應(yīng)包含設(shè)備內(nèi)的連接線長度設(shè)備與設(shè)備、控制卡與控制卡、系統(tǒng)與系統(tǒng)之間的連接線長度應(yīng)計入連接線的總長度連接線類型特征代碼長度(米)注釋Y-Cable(68針)2114(PCI)2426(MCA)0.94已包含終結(jié)器,PCI版本有不同的接口Y-Cable(50針)2427(MCA)0.765已包含終結(jié)器9334內(nèi)部/011N/A3.1計入連接線總長度9334內(nèi)部/501N/A2.66計入連接線總長度7134內(nèi)部N/A2.7計入連接線總長度7135內(nèi)部N/A0.66計入連接線總長度微通道系統(tǒng)的SCSI硬盤定位碼定位碼將邏輯設(shè)備名映射為物理位置此信息在創(chuàng)建卷組、替換故障硬盤、了解系統(tǒng)配置時很重要PCI系統(tǒng)的SCSI硬盤定位碼PCI/ISA系統(tǒng)的定位碼與微通道系統(tǒng)的不同SCSI需考慮的問題不能熱插拔非熱插拔的SCSI設(shè)備,否則會引起:無法檢測的數(shù)據(jù)毀壞,SCSI硬件損壞,出現(xiàn)888錯誤確保SCSI總線長度(包括設(shè)備內(nèi)的連接線長度)在最大支持的長度之內(nèi)確保在一條SCSI總線上沒有兩個SCSIID相同的設(shè)備使用合適的終結(jié)器終結(jié)SCSI總線確保在twin-tailedSCSI配置中,終結(jié)器的電阻器或跳線已從控制卡上移除在twin-tailedSCSI配置中(HACMP),確保同時只有一個節(jié)點(diǎn)使用此SCSI總線SSA的特性采用全雙工和多路復(fù)用技術(shù),允許在任何通道(環(huán)路)內(nèi)有多個并發(fā)的通信連接在SSA控制卡上的4條雙絞線電纜中的任一條的最大傳輸速率均為20MB/sec,總共80MB/sec的傳輸速率設(shè)備之間的最大連接長度為25米(使用光纖擴(kuò)展器時可達(dá)2.4至10公里)硬盤和電纜均可熱插拔具備自動配置和替換通信路徑的能力沒有設(shè)備地址、總線終結(jié)器、電纜計算長度的擔(dān)心SSA提供性能和可用性在設(shè)備之間(控制或單個的硬盤)以菊花鏈方式實(shí)現(xiàn)點(diǎn)對點(diǎn)的連接提供錯誤的檢測和糾正采用Packetized協(xié)議允許環(huán)路中的每個連接在任何時間可以有不同的數(shù)據(jù)流(空間復(fù)用功能)類似FDDI的自動回送特性,可以實(shí)現(xiàn)硬盤或電纜故障恢復(fù)和通信的維護(hù)SSA4口控制卡每個卡上有兩對SSA接口(A&B)每對接口必須連接至相同的環(huán)路,并且A和B接口連接的環(huán)路不能混合每個環(huán)路最大支持48個設(shè)備,但從性能角度考慮應(yīng)小于此極限SSA卡的需求及限制適配器和特性只有較新的RAID/EL卡支持Target-ModeSSA,并且需要支持8路非RAID和2路RAID的微碼HACMP不支持SSA寫緩存選項(xiàng)互操作性PCI和MCA版本的RAID/EL卡支持同一環(huán)路內(nèi)的互操作MCA版本的6214(2路)和6216(8路)卡可以互操作,但只支持同一環(huán)路內(nèi)的兩塊卡不能和其他類型的卡進(jìn)行互操作同一環(huán)路中的所有卡的微碼必須一致7133串行存儲結(jié)構(gòu)硬盤支持并發(fā)和串行訪問方式每個環(huán)路中最多有8塊卡支持9GB、18GB、36GB的SSA磁盤驅(qū)動器每個模塊最大包含16個SSA硬盤硬盤和電纜支持熱插拔具有冗余的和可熱插拔的風(fēng)扇和電源模塊設(shè)計用于高可用并發(fā)維護(hù)情況7133的硬件7133內(nèi)部四個獨(dú)立的通道每個通道最大包含4塊SSA硬盤通道可與環(huán)路相連雖然連線更復(fù)雜,但提供了更多的靈活性和最大的可用性、性能和容量SSA設(shè)備列表#lsdev–Ccdisk物理磁盤:pdisk邏輯磁盤:hdisk#lsdev–C–sssar顯示系統(tǒng)中已知的SSA物理設(shè)備和邏輯設(shè)備信息提供很少的SSA物理配置信息#lsdev–C|grepssa顯示系統(tǒng)中已知的SSA控制卡信息SSA連接錯誤當(dāng)通信路徑斷開時將發(fā)生連接錯誤在AIX錯誤日志中的錯誤類型為LINK_ERROR將會導(dǎo)致系統(tǒng)性能的下降不影響用戶的使用SSA設(shè)備的通信路徑將自動切換到環(huán)路中的替換路徑導(dǎo)致連接錯誤的起因SSA單元或某個系統(tǒng)斷電SSA磁盤故障或通過SSA服務(wù)幫助轉(zhuǎn)至服務(wù)模式刪除某個SSA磁盤斷開某天連接電纜不允許在一條環(huán)路上同時出現(xiàn)兩個連接錯誤,這將會導(dǎo)致磁盤/控制卡被孤立,引起通信中斷HACMP中的RAID配置只支持RAID/EL卡(6215和6219)一條環(huán)路中最多有兩塊卡RAID通過控制卡來實(shí)現(xiàn),并且只支持RAID5在多發(fā)起者環(huán)路中沒有緩存(HACMP)在的一個系統(tǒng)中創(chuàng)建LUN(RAID),在另一個系統(tǒng)中通過“cfgmgr”命令將定義取過來第一個系統(tǒng)將多個hdisk通過RAID技術(shù)合并成一個hdisk在第二個系統(tǒng)中手動刪除被合并的hdisk對于LVM來說看到的是另一塊hdisk在配置過程中某個節(jié)點(diǎn)故障時,可以通過另一個節(jié)點(diǎn)重建PVID與hdisk的關(guān)系當(dāng)在系統(tǒng)中加入一塊新磁盤時,系統(tǒng)會為其按順序分配一個hdisk號hdisk號是在磁盤安裝時由cfgmgr命令分配的所有物理磁盤都會被分配一個唯一的表示號—PVIDPVID與hdisk號之間的關(guān)系保存在所有與共享磁盤相連的節(jié)點(diǎn)的ODM數(shù)據(jù)庫中為什么會出現(xiàn)PVID與邏輯號不匹配怎樣使其一致SCSI與SSA的比較磁盤怎樣在節(jié)點(diǎn)間“移動”LVM具有使卷組的所有權(quán)在節(jié)點(diǎn)間改變的能力HACMP自動執(zhí)行此步驟截斷磁盤保留注冊信息在故障接管發(fā)生時,失效的節(jié)點(diǎn)不清除磁盤保留注冊信息,因此接管節(jié)點(diǎn)必須將此信息清除,才能接管共享卷組HACMP使用二進(jìn)制工具自動執(zhí)行此功能幽靈磁盤是怎樣產(chǎn)生的當(dāng)節(jié)點(diǎn)失效和重整時,被恢復(fù)的節(jié)點(diǎn)在啟動時運(yùn)行cfgmgr命令,并發(fā)現(xiàn)外部有附加的“新磁盤”處理幽靈磁盤HACMP處理幽靈磁盤不需要手動干預(yù)AIX4.1.1版本以后,由于對操作系統(tǒng)進(jìn)行了修改不太可能看到幽靈磁盤HACMP通過事件腳本處理幽靈磁盤當(dāng)節(jié)點(diǎn)A重新獲得磁盤時,將刷新磁盤保留注冊信息節(jié)點(diǎn)A使用命令:#rmdev–lhdisk#-d,刪除新產(chǎn)生的磁盤節(jié)點(diǎn)A通過命令:#mkdev–lhdisk#,將真實(shí)磁盤的狀態(tài)從Defined更改為Available此步驟將增加HACMP的故障接管時間發(fā)生在某個節(jié)點(diǎn)被啟動,而總線上的其它節(jié)點(diǎn)varyon共享卷組時怎樣鏡像數(shù)據(jù)有三種提高共享磁盤資源上數(shù)據(jù)可用性的方法LVM鏡像類似于RAID1,邏輯卷被映射值位于獨(dú)立磁盤上的兩到三個物理拷貝數(shù)據(jù)分散跨越多個磁盤、總線、適配器,以改善性能和可用性RAID鏡像或條帶化HACMP支持RAID0、1、3、5數(shù)據(jù)條帶化跨越多個磁盤并使用校驗(yàn)優(yōu)化可用存儲空間磁盤、風(fēng)扇、電源通常支持熱插拔應(yīng)用級鏡像(數(shù)據(jù)庫)某些直接讀寫裸磁盤的數(shù)據(jù)庫能夠在數(shù)據(jù)庫或表一級實(shí)現(xiàn)其自己的鏡像功能某些應(yīng)用支持遠(yuǎn)程鏡像,以提高發(fā)生災(zāi)難時的可用性數(shù)據(jù)鏡像的規(guī)則鏡像所有重要的數(shù)據(jù)保存鏡像拷貝于獨(dú)立的磁盤上使鏡像拷貝分布在不同的總線上使鏡像拷貝分布在不同的電源上最好保留三個鏡像拷貝什么是RAID獨(dú)立磁盤的冗余陣列(RAID)在LVM看來是一塊hdisk的多個物理磁盤集合多個物理盤可以集中到一個邏輯單元中(LUN),這種概念與卷組的概念很相似一個LUN包含2個或更多的磁盤RAID提供6種不同級別的鏡像方式RAID區(qū)域內(nèi)通常包含冗余和熱備硬件RAID技術(shù)可應(yīng)用于SCSI或SSAHACMP支持的RAID級別有6種RAID級別,從0到5,每種都有其特有的可用性和性能特點(diǎn)HACMP支持RAID0、1、3、5級別特性冗余優(yōu)點(diǎn)0簡單的數(shù)據(jù)條帶化無I/O性能較好1二進(jìn)制鏡像與LVM鏡像類似增加可用性3數(shù)據(jù)條帶化專有校驗(yàn)磁盤適用于大塊傳輸5數(shù)據(jù)條帶化和校驗(yàn)條帶化的校驗(yàn)是用于處理數(shù)據(jù)傳輸RAID1RAID1與LVM鏡像相似,數(shù)據(jù)按字節(jié)從一塊磁盤拷貝至另一塊,磁盤的類型和大小必須相同RAID1可以提高讀的性能RAID3RAID3使用專有的校驗(yàn)磁盤,數(shù)據(jù)條帶化分布在2個或更多的磁盤上,同時校驗(yàn)和數(shù)據(jù)被寫入校驗(yàn)盤,由于校驗(yàn)盤的更新是進(jìn)行I/O操作時的瓶頸,因此很少使用RAID3對于大量的連續(xù)數(shù)據(jù)可提供很好的傳輸率RAID5RAID5是建立在RAID3的概念之上的,所有數(shù)據(jù)和校驗(yàn)數(shù)據(jù)都條帶化分布在所有磁盤上RAID5讀/寫操作可同時進(jìn)行,提供了更高的數(shù)據(jù)流量,RAID5更適合于小數(shù)據(jù)塊,隨機(jī)讀寫的數(shù)據(jù)如何避免電源出現(xiàn)單點(diǎn)故障盡可能地采用UPS在IBMSSA設(shè)備上不使用3路分配器不使用電源延長器插座多個磁盤單元接入不同的插座第四章LVM配置和HACMP回顧LVM概念了解LVM對集群可用性的幫助了解與HACMP相關(guān)的定額問題了解域最大可用性有關(guān)的LVM設(shè)計問題如何配置共享卷組如何創(chuàng)建共享卷組如何配置共享的jfslog了解與LVM結(jié)構(gòu)有關(guān)的LVM變更管理問題LVM的概念LVM是AIX對傳統(tǒng)UNIX磁盤管理的擴(kuò)展LVM負(fù)責(zé)管理磁盤存儲系統(tǒng)LVM怎樣實(shí)現(xiàn)鏡像LVM將LV中的每個LP映射至2和3個PV中的PP用LVM鏡像的數(shù)據(jù)用LVM鏡像比其他鏡像方式有顯著的優(yōu)點(diǎn)可以進(jìn)行鏡像的LV類型裸邏輯卷日志文件系統(tǒng)壓縮過的日志文件系統(tǒng)支持大文件的日志文件系統(tǒng)Jfslog啟動邏輯卷PagingLV用戶定義的邏輯卷鏡像可跨越多個磁盤總線鏡像可跨越多個磁盤并支持不同的容量鏡像可調(diào)整以提高性能和可靠性可鏡像采用并發(fā)訪問方式的磁盤可在線更改LV的鏡像LVM鏡像可選參數(shù)并行或串行更新串行比并行更可靠但較慢鏡像寫同步緩存對于非并發(fā)訪問的LV次參數(shù)應(yīng)為yes寫校驗(yàn)LP拷貝數(shù)鏡像只需要2個拷貝,但3個拷貝可以幫助你實(shí)現(xiàn)在線鏡像備份并提高可用性拷貝在磁盤內(nèi)的分布LP的拷貝放置在獨(dú)立的PV上對于高可用性此參數(shù)必須設(shè)為yesLVM設(shè)計考慮以下規(guī)則有助于設(shè)計集群中的共享磁盤使用更有意義并唯一的名字確保所有重要數(shù)據(jù)已經(jīng)被鏡像確保在向共享卷組中加入文件系統(tǒng)時,jfslog已經(jīng)鏡像過確保所有節(jié)點(diǎn)的共享卷組主號一致Rootvg中不能包含任何共享數(shù)據(jù)不能隨意更換共享卷組中的磁盤定額規(guī)則VG中的每塊磁盤都含有一個特殊的數(shù)據(jù)結(jié)構(gòu):VGDA,當(dāng)掛載VG時將會檢查VGDA,這種檢查稱為定額規(guī)則定額有效當(dāng)執(zhí)行varyonvg命令時應(yīng)有大于50%的VGDA可以訪問當(dāng)VG處于varied-on狀態(tài)時應(yīng)有大于50%的VGDA可以訪問如果不能滿足此要求VG會自動離線定額無效當(dāng)執(zhí)行varyonvg命令時應(yīng)有大于50%的VGDA可以訪問在訪問VG時,至少有一個完整的VGDA拷貝可以訪問沒有完整的VGDA時,VG會自動離線定額有效時的磁盤故障當(dāng)磁盤故障時,將影響到VG的可用性定額無效時的磁盤故障當(dāng)磁盤故障時,將不會影響到VG的可用性,但是如果某個節(jié)點(diǎn)進(jìn)行錯誤恢復(fù),掛載VG時將會失敗,這可以通過手工掛載VG來克服消除定額問題可采用下面幾個步驟消除定額問題不要創(chuàng)建少于三塊磁盤的VG確保磁盤分布在多條總線上對SCSI磁盤采用三條總線對SSA磁盤采用兩條環(huán)路從性能和可用性角度分配磁盤所屬的總線將磁盤柜連接到不同的電源上SCSI磁盤柜不使用4路電源延長器SSA磁盤柜不使用3路電源延長器使用SCSI或SSA磁盤陣列由LUN自己處理數(shù)據(jù)的保護(hù),丟失任一個組件均不會導(dǎo)致定額的丟是定額消除器在某些情況下,特別是在基于SCSI的系統(tǒng)中,可采用附加的磁盤消除定額問題創(chuàng)建JFS日志的鏡像在通常的環(huán)境中,往VG中加入第一個文件系統(tǒng),同時會創(chuàng)建一個未鏡像的jfslog,這將是一個單點(diǎn)故障,可通過下面的步驟來消除:創(chuàng)建一個新卷組,如:sharedvg在此卷組上創(chuàng)建一個新邏輯卷,如:sharedlog,其特性如下:類型:jfslog大?。?LP拷貝數(shù):2或3個拷貝位于不同的物理卷上串行更新用命令:#logform/dev/sharedlog格式化jfslog創(chuàng)建文件系統(tǒng)的鏡像當(dāng)jfslog創(chuàng)建完后就可以在共享卷組上創(chuàng)建文件系統(tǒng)了創(chuàng)建邏輯卷并分配一個唯一的名字,如:sharedlv類型:jfs大?。焊鶕?jù)實(shí)際的需要拷貝數(shù):2至3個拷貝位于不同的物理卷上串行更新采用寫校驗(yàn)在此基礎(chǔ)上創(chuàng)建文件系統(tǒng)建立文件系統(tǒng)的掛載點(diǎn)創(chuàng)建文件系統(tǒng)VG的主號任何包含NFS的VG,其VG主號在集群中的所有節(jié)點(diǎn)上必須一致顯示當(dāng)前VG的主號:#ls–l/dev/*vg*顯示集群中每個節(jié)點(diǎn)的可用VG主號#lvlsmajor可在創(chuàng)建VG時通過SMIT和命令設(shè)置VG主號#importvg–V44–ysharedvghdisk3LVM變更管理與LVM結(jié)構(gòu)有關(guān)的信息保存在共享卷組和rootvg的幾個不同位置,這些信息在所有節(jié)點(diǎn)上必須同步,以保證成功地接管共享卷組手動更新Lazy更新工具(HACMP4.2版本以上)C-SPOCVG同步工具(HACMP4.3版本以上)手動更新VG定義在當(dāng)前掛載共享卷組的節(jié)點(diǎn)上修改VG信息,如:增加文件系統(tǒng)的大小或更名LV卸載文件系統(tǒng)并卸載卷組在共享此VG的其它節(jié)點(diǎn)上輸出原先的共享卷組的定義輸入新的VGDA信息將共享卷組的Auto-varyon參數(shù)的值改為no將共享卷組的quorum參數(shù)的值改為no修改共享卷組中LV的所有者和權(quán)限信息Lazy更新工具在故障接管時執(zhí)行輸入輸出循環(huán)如果接管節(jié)點(diǎn)上的VGDA拷貝的時間和日期標(biāo)記與共享卷組的不一致,接管節(jié)點(diǎn)將根據(jù)共享卷組上的VGDA,更新自己的VGDA拷貝HACMP將會把Auto-varyon參數(shù)的值改為no,并保持原始的定額設(shè)置HACMP不會保持/dev目錄下的邏輯卷的所有者和權(quán)限信息/usr/sbin/cluster/etc/vg/VG_Name文件中包含時間和日期標(biāo)記AIX4.3LVM的擴(kuò)展功能當(dāng)其它節(jié)點(diǎn)擁有共享卷組時也可以執(zhí)行importvg命令釋放磁盤上的SCSI保留信息#varyongvg–b–uVG_Name輸入已存在的卷組信息#importvg–LVG_Namehdisk#這些命令不能用也增加或刪除LVM的組件,只能用于LVM信息的變更被操作的卷組的信息必須已經(jīng)存在仍然需要修改Auto-varyon、quorum和共享卷組中LV的所有者和權(quán)限信息不能執(zhí)行卷組的輸出動作Importvg–L命令將更新現(xiàn)有的結(jié)構(gòu)并保留所有的設(shè)置C-SPOC卷組同步工具HACMP4.3中新增加的工具,用于同步共享卷組所在的集群中所有節(jié)點(diǎn)的信息可實(shí)現(xiàn)在線信息更新使用新的LVM命令#varyonvg–b–uVG_Name#importvg–LVG_Namehdisk#網(wǎng)絡(luò)和HACMP能夠識別支持的網(wǎng)絡(luò)類型正確的配置HACMP網(wǎng)絡(luò)接口了解術(shù)語service、standby、boot卡的含義了解卡切換、IPAT和硬件地址切換的含義能夠正確的配置IPAT和硬件地址切換知道如何解決ARP緩存刷新的問題了解HACMP如何探測與網(wǎng)絡(luò)相關(guān)的故障什么是串行網(wǎng)絡(luò)HACMP使用串行網(wǎng)絡(luò),在節(jié)點(diǎn)間進(jìn)行通信,而不是使用TCP/IPHACMP使用自己的串行網(wǎng)絡(luò)協(xié)議,這樣即使TCP/IP故障時,也不會導(dǎo)致HACMP故障當(dāng)TCP/IP或主網(wǎng)絡(luò)失效時,節(jié)點(diǎn)之間的仍能夠通過串行網(wǎng)絡(luò)進(jìn)行通信串行網(wǎng)絡(luò)的重要性當(dāng)主心跳線失效時提供第二條心跳信息通路用于區(qū)分網(wǎng)絡(luò)和節(jié)點(diǎn)故障避免TCP/IP子系統(tǒng)單點(diǎn)失敗阻止節(jié)點(diǎn)孤立(接管失?。┑陌l(fā)生建議每個集群均配置三種串行網(wǎng)絡(luò)RS-232兩個節(jié)點(diǎn)之間的點(diǎn)對點(diǎn)的RS-232連接需要連接兩個節(jié)點(diǎn)端口的假調(diào)制解調(diào)器電纜可以使用普通的假調(diào)制解調(diào)器電纜TargetModeSCSI支持MCA結(jié)構(gòu)的三種類型差分SCSI-2卡不支持PCI結(jié)構(gòu)的任何類型差分SCSI卡無附加的硬件需求一條SCSI總線上最大支持4個節(jié)點(diǎn)TargetModeSSA需要RAID/EL類型的SSA卡一條SSA環(huán)路上最大支持8個節(jié)點(diǎn)RS-232串行網(wǎng)絡(luò)有兩個節(jié)點(diǎn)間的點(diǎn)對點(diǎn)RS-232電纜組成與SLIP很相似,但不使用TCP/IP協(xié)議采用tty端口定義方式,但不運(yùn)行g(shù)etty進(jìn)程采用RS-232物理端口需要假調(diào)制解調(diào)器電纜IBM3.7米串口對串口電纜IBM8米串口對串口電纜OEM假調(diào)制解調(diào)器電纜配置RS-232網(wǎng)絡(luò)配置完后運(yùn)行命令:#chedv–ltty#-attyprog_action=off,阻止getty進(jìn)程的運(yùn)行測試RS-232串行網(wǎng)絡(luò)在節(jié)點(diǎn)A上運(yùn)行:#stty</dev/tty1在節(jié)點(diǎn)B上運(yùn)行:#stty</dev/tty1兩個節(jié)點(diǎn)上均顯示stty信息則表明配置正確多發(fā)起者概念主機(jī)SCSI或SSA卡是I/O操作的發(fā)起者磁盤啟動器是對象,是操作的實(shí)現(xiàn)者AIX中,有些SCSI和SSA卡也可作為對象TargetModeSCSITargetModeSSA允許兩塊卡通過一條SCSI/SSA總線與另一塊卡進(jìn)行通信HACMP可以使用此方式傳遞心跳信息TargetModeSCSIHACMP能夠使用共享的SCSI2-DE總線作為串口網(wǎng)絡(luò),傳遞心跳信息RS/6000上除了PCI總線的SCSI卡之外,所有差分SCSI卡均可既為發(fā)起者又是對象需要安裝“devices.scsi.tm”文件集網(wǎng)采用了此方式時,系統(tǒng)的配置中將會出現(xiàn)一個新的偽設(shè)備TargetModeSCSI網(wǎng)絡(luò)在每個節(jié)點(diǎn)上啟動TargetModeSCSI后,會看到設(shè)備:tmscsi#測試TargetModeSCSI網(wǎng)絡(luò)在節(jié)點(diǎn)A上運(yùn)行:#cat</dev/tmscsi0.tm在節(jié)點(diǎn)B上運(yùn)行:#cat/etc/hosts>/dev/tmscsi0.tm在節(jié)點(diǎn)A上看到信息則表示配置正確TargetModeSSA與TM-SCSI相似,TM-SSA允許通過SSA環(huán)路在節(jié)點(diǎn)間傳遞心跳信息集群中的每個節(jié)點(diǎn)必須有唯一的SSA節(jié)點(diǎn)號在每個節(jié)點(diǎn)上啟動TargetModeSSA后,會看到設(shè)備:tmssa#TargetModeSSA的配置確保使用的是SSARAID/EL卡PCI版本類型代碼:4-NMCA版本類型代碼:4-M檢查卡的微碼版本是否大于1801檢查HACMP軟件是否支持TM-SSA為環(huán)路上的每個節(jié)點(diǎn)配置唯一的SSA節(jié)點(diǎn)號在所有節(jié)點(diǎn)上運(yùn)行cfgmgr命令檢查節(jié)點(diǎn)上的TM-SSA設(shè)備是否配置正確測試檢查微碼版本運(yùn)行命令:#lscfg–vissa0查看ROSLevelandID項(xiàng)是否大于1801檢查需要的TM-SSA軟件運(yùn)行命令:#lslpp–aldevices.ssa.tm.rte#lslpp–lcluster.base.server.rte查看上述軟件是否已安裝配置SSA節(jié)點(diǎn)號每個節(jié)點(diǎn)的節(jié)點(diǎn)號必須唯一,以區(qū)別環(huán)路上不同的系統(tǒng)在兩個節(jié)點(diǎn)間不支持多個TM-SSA網(wǎng)絡(luò)運(yùn)行命令:#chdev–lssar–anode_number=1Lsattr–Elssar檢查每個節(jié)點(diǎn)的節(jié)點(diǎn)號查看TM-SSA設(shè)備運(yùn)行命令:#cfgmgr#lsdev–C|grepssa#ls–l/dev/*ssa*可能需要運(yùn)行多次cfgmgr命令確保所有節(jié)點(diǎn)號唯一測試TM-SSA節(jié)點(diǎn)A上運(yùn)行#cat</dev/tmssa2.tm節(jié)點(diǎn)B上運(yùn)行#cat/etc/hosts>/dev/tmssa1.tm在節(jié)點(diǎn)A上看到信息說明配置正確TM-SSA網(wǎng)絡(luò)的可用性兩個節(jié)點(diǎn)間即使有多條環(huán)路,也只能配置一個TM-SSA網(wǎng)絡(luò)但是如果缺省的TM-SSA網(wǎng)絡(luò)故障時,TM-SSA網(wǎng)絡(luò)的信息傳輸會自動的切換至另一條SSA環(huán)路HACMP對串行網(wǎng)絡(luò)問題的反應(yīng)串行網(wǎng)絡(luò)配置不正確HACMP可以正常啟動和操作,但是HACMP不激活網(wǎng)絡(luò)串行網(wǎng)絡(luò)是替換通信路徑時會引起問題使得集群更容易受到影響,出現(xiàn)節(jié)點(diǎn)孤立情況串行網(wǎng)絡(luò)設(shè)備故障會導(dǎo)致HACMP的“network_down”事件如果節(jié)點(diǎn)間有多條環(huán)路時,一條環(huán)路故障可用另一條接管,不會引起“network_down”事件如果節(jié)點(diǎn)故障,存貨的節(jié)點(diǎn)將通過串行網(wǎng)絡(luò)嘗試與其通信,直至運(yùn)行“node_down”事件HACMP和網(wǎng)絡(luò)為了監(jiān)控TCP/IP,HACMP采用與Client/Server結(jié)構(gòu)相同的網(wǎng)卡和LAN發(fā)送KA(Keep-Alive)信息集群鎖管理器也使用TCP/IP發(fā)送集群鎖管理信息HACMP支持的網(wǎng)絡(luò)類型:Ethernet、FDDI、Token-Ring、ATM、FiberChannelSwitch、HiPS&SPSwitch點(diǎn)對點(diǎn)協(xié)議:SLIP、SOCCHACMP的網(wǎng)絡(luò)組件術(shù)語含義PublicNetwork任何支持HACMP和client網(wǎng)絡(luò)傳輸?shù)腡CP/IPLANPrivateNetwork通常僅用于HACMP通信的TCP/IPLANSerialNetworkRS-232或TM-SSA/TM-SCSI網(wǎng)絡(luò)Adapter與TCP/IP或串行網(wǎng)絡(luò)接口卡對應(yīng)的HACMPODM定義AdapterIPLabel位于/etc/hosts文件中用于映射IP地址的名字Nodename集群中的節(jié)點(diǎn)名,不是主機(jī)名NeyworkType標(biāo)識HACMP的物理網(wǎng)絡(luò)連接類型AdapterFunction標(biāo)識網(wǎng)卡的功能AdapterHardwareAddressLAN網(wǎng)卡的MAC地址主機(jī)名和地址一個系統(tǒng)中可能有多個TCP/IP接口卡,每個接口卡都應(yīng)分配唯一的名字和地址任何系統(tǒng)只有一個主機(jī)名一個系統(tǒng)的主機(jī)名與地址解析無關(guān)Service和Stanby卡Service卡傳輸標(biāo)準(zhǔn)的Client-Server通信其他系統(tǒng)知道和使用的卡Standby卡HACMP保留,用于節(jié)點(diǎn)或卡故障通常對于其他系統(tǒng)不可見或不能訪問地址交換Ifconfig命令將TCP/IP地址與網(wǎng)絡(luò)接口卡結(jié)合在一起#ifconfigenoinetup#ifconfigen1inetup這種結(jié)合很容易在任何時間進(jìn)行切換#ifconfigen0down#ifconfigen1down#ifconfigen0inetup#ifocnfigen1inetup這種能力是HACMP實(shí)現(xiàn)TCP/IP地址高可用性的基礎(chǔ)網(wǎng)卡信息所有HACMP網(wǎng)卡必須存在于/etc/hosts文件中,即使使用DNS/NISIP的值最大32位主service卡的IPAddressLabel應(yīng)與服務(wù)器主機(jī)名一致盡量避免使用特殊字符,如:-、$、#網(wǎng)卡切換在LAN網(wǎng)卡故障時,HACMP通過網(wǎng)卡切換來恢復(fù)service卡這包含將service地址切換到standby卡上(以及將standby地址切換到故障的卡上)網(wǎng)卡切換可在幾十秒鐘能完成網(wǎng)卡切換過程對用戶和應(yīng)用是透明的網(wǎng)卡切換對用戶的影響這依賴于用戶采用的連接方式基于TCP的服務(wù),如telnet、rlogin糾正錯誤,處理服務(wù)中斷通常用戶不會斷線應(yīng)用察覺不到服務(wù)中斷基于UDP的服務(wù),如NFS、RPC不提供錯誤自動恢復(fù)和糾正功能應(yīng)用必須進(jìn)行恢復(fù),處理錯誤HACMP不能將不可靠的連接轉(zhuǎn)換為可靠的連接網(wǎng)絡(luò)故障當(dāng)網(wǎng)絡(luò)故障時,HACMP探測到“networkdown”事件,并執(zhí)行相應(yīng)的腳本此腳本僅簡單地將事件記錄在HACMP的日志文件中,不采取任何動作通過HACMP事件定制工具,可以很容易地定義應(yīng)采取的動作檢測到的網(wǎng)絡(luò)故障分為針對所有節(jié)點(diǎn)的全局網(wǎng)絡(luò)故障,以及針對某個節(jié)點(diǎn)的局部網(wǎng)絡(luò)故障IP地址接管(IPAT)如果整個節(jié)點(diǎn)失效了失效節(jié)點(diǎn)的ServiceIP地址將由存活的節(jié)點(diǎn)接管,這稱為IPAT存活節(jié)點(diǎn)的Standby卡獲得失效節(jié)點(diǎn)的Service地址,這個行為可以選擇這種情況下還需要配置boot卡Boot地址在節(jié)點(diǎn)啟動時臨時使用這將阻止在同一個網(wǎng)絡(luò)上同時有兩個Service地址IPATIP地址重整激活I(lǐng)PAT激活I(lǐng)PAT的配置步驟是將IPLabel作為Cascading或Rotating資源組中的資源配置Rotating資源組時需要配置IPAT功能激活I(lǐng)PAT將改變AIX和HACMP的啟動方式配置IPAT的一個步驟是將ODM中的Service卡的IP地址修改為Boot地址HACMP啟動時會將Boot地址轉(zhuǎn)換為Service地址IPAT對TCP/IP的影響激活I(lǐng)PAT改變了集群中節(jié)點(diǎn)上的TCP/IP子系統(tǒng)的啟動方式采用地址接管的系統(tǒng),配置文件將會被修改/etc/inittab:TCP/IP的啟動延遲到Service卡啟動之后/etc/rc.net:確??ú粫籧fgmgr命令恢復(fù)為缺省狀態(tài)依賴于Service地址的應(yīng)用和服務(wù)將在運(yùn)行級別‘a(chǎn)’啟動Clinit必須是inittab中的最后一項(xiàng)集群監(jiān)控集群中的每個節(jié)點(diǎn)都運(yùn)行集群管理器守護(hù)進(jìn)程(clstrmgr),此進(jìn)程在指定的時間間隔內(nèi)發(fā)送Keep-Alive(KA)包節(jié)點(diǎn)和網(wǎng)絡(luò)事件的檢測是通過KA包的發(fā)送實(shí)現(xiàn)的故障檢測KA包通常在Service與Service之間,Standby與Standby之間雙向流動KA流的任何中斷都會導(dǎo)致問題決定活動被激活通過排除過程,故障很快被孤立,同時執(zhí)行相應(yīng)的恢復(fù)腳本避免節(jié)點(diǎn)孤立節(jié)點(diǎn)孤立發(fā)生在由于心跳信息中斷,導(dǎo)致一個節(jié)點(diǎn)誤認(rèn)為另一個節(jié)點(diǎn)失效的情況下會導(dǎo)致其它節(jié)點(diǎn)嘗試接管資源將導(dǎo)致集群及其控制的資源處于不可靠的狀態(tài)非TCP/IP的串行網(wǎng)絡(luò)是HACMP的重要組成部分當(dāng)LAN失敗時,提供替補(bǔ)的KA路徑由于它不使用TCP/IP,因此TCP/IP子系統(tǒng)的失效不會導(dǎo)致HACMP的失效允許HACMP進(jìn)行重組,而不是假設(shè)其它節(jié)點(diǎn)失效避免了節(jié)點(diǎn)孤立的發(fā)生在每個集群的配置中均使用串行網(wǎng)絡(luò)通過共享的SCSI總線使用TM-SCSI使用RS-232電纜在SSA環(huán)路中使用TM-SSA地址解析協(xié)議ARP用于將網(wǎng)卡的硬件地址(MAC)映射為TCP/IP地址網(wǎng)卡之間的通信實(shí)際使用的是硬件地址當(dāng)發(fā)生網(wǎng)卡切換或IPAT時,Client/Router的ARP緩存將會過時,這將導(dǎo)致Client無法與集群進(jìn)行通信如何解決ARP緩存問題刷新Client/Router的ARP緩存的方法在Client系統(tǒng)上設(shè)置集群信息守護(hù)進(jìn)程(clinfo)提供給Client系統(tǒng)基于SNMP的集群事件通告當(dāng)Server上發(fā)生HACMP事件時刷新Client的ARP緩存在Router上可能無法工作源代碼公開在Server上設(shè)置clinfo進(jìn)程,刷新本地ARP緩存,ping每個ClientPing動作會強(qiáng)制更新Client的ARP緩存編輯clinfo.rc文件,加入所有Client的IP地址設(shè)置HACMP的硬件地址切換將硬件地址和IP地址一起加入IPAT或網(wǎng)卡切換需要使用局部受管地址(LAA)在Client上運(yùn)行clinfo進(jìn)程此進(jìn)程和HACMP捆綁在一起當(dāng)SNMP捕捉到HACMP事件時,刷新本地(Client)的ARP緩存在集群的節(jié)點(diǎn)上運(yùn)行clinfo進(jìn)程對于網(wǎng)卡切換,編輯linfo.rc文件,加入所有Client的IP地址刷新Server的ARP緩存,并ping所有Client產(chǎn)生ARP請求,更新Client的ARP緩存實(shí)現(xiàn)硬件地址切換與IPAT和網(wǎng)卡切換協(xié)同工作支持Ethernet、TokenRing、FDDI,不支持ATM用于接管的卡冒充被接管卡的硬件地址和IP地址使用LAA,它允許系統(tǒng)管理員定義一個與卡本身的MAC地址不同硬件地址在網(wǎng)卡設(shè)備時不要使用“ALTERNATEaddress”項(xiàng)會導(dǎo)致Boot卡采用與被接管的Service卡具有相同的硬件地址會導(dǎo)致所有卡的TCP/IP通信均中斷使用SMIT管理工具的HACMP菜單配置HWATHWATHWAT重整Standby卡為什么需要Standby卡網(wǎng)卡切換的需要IPAT的需要用來決定通信故障的準(zhǔn)確原因Standby卡的需求必須與Service卡在同一個物理網(wǎng)絡(luò)內(nèi)必須與Service卡的類型相同必須與Service卡在不同的IP子網(wǎng)內(nèi)什么是IP子網(wǎng)用于將單個網(wǎng)絡(luò)分割為多個網(wǎng)絡(luò)子網(wǎng)掩碼用于定義不同的子網(wǎng)通常不同的子網(wǎng)位于不同的物理網(wǎng)絡(luò)在HACMP中Service和Standby位于不同的子網(wǎng),但處于相同的物理網(wǎng)絡(luò)內(nèi)Boot地址與Service地址處于相同的子網(wǎng)內(nèi)IP地址=23Netmask=140.168.200代表子網(wǎng)地址,123代表主機(jī)地址高可用性網(wǎng)絡(luò)HACMP不提供高可用性網(wǎng)絡(luò),但是提供一些有價值的工具來實(shí)現(xiàn)網(wǎng)絡(luò)的高可用性HACMP可以提供網(wǎng)絡(luò)故障的識別方法可在遇到網(wǎng)絡(luò)故障時執(zhí)行適當(dāng)?shù)拿罨蚴录_本當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時,可以警告系統(tǒng)管理員可以透明地進(jìn)行網(wǎng)卡的切換網(wǎng)絡(luò)設(shè)備(如冗余的Hub)可以提供各種針對網(wǎng)路故障的保護(hù)措施,HACMP可以擴(kuò)展或增強(qiáng)這些硬件設(shè)備的能力第六章集群的組成了解HACMP的關(guān)鍵組件了解clstrmgr模塊的作用了解HAView工具更改網(wǎng)絡(luò)接口模塊的故障檢測速率了解DMS的功能了解集群分區(qū)的概念及其如何發(fā)生HACMP的組件HACMP由六個關(guān)鍵的軟件組成集群管理器守護(hù)進(jìn)程(clstrmgr)集群SNMP用戶擴(kuò)展守護(hù)進(jìn)程(clsmuxpd)集群鎖管理器守護(hù)進(jìn)程(cllockd)集群信息守護(hù)進(jìn)程(clinfo)集群單點(diǎn)控制(C-SPOC)TivoliNetview的擴(kuò)展-HaView必須的組件下面幾個組件必須運(yùn)行在所有節(jié)點(diǎn)上Clstrmgr必須運(yùn)行在集群中的所有節(jié)點(diǎn)上監(jiān)控集群的狀態(tài)調(diào)用事件腳本處理故障從HACMP的ODM中讀取集群的拓?fù)浣Y(jié)構(gòu)Clsmuxpd維持對HACMP企業(yè)專有MIB的訪問產(chǎn)生SNMP陷阱回應(yīng)集群事件與clstrmgr、cllockd進(jìn)程進(jìn)行通信C-SPOC用于大部分集群管理任務(wù)的集中管理工具可擴(kuò)展的腳本分析器支持最大8個節(jié)點(diǎn)可選的組件下面的組件可以有選擇的運(yùn)行在集群的節(jié)點(diǎn)、client和SNMP管理的工作站上Clinfo可在Client和Server上運(yùn)行向非AIX的Client提供源代碼提供開發(fā)集群應(yīng)用軟件的API接口可通過運(yùn)行命令或腳本回應(yīng)集群事件Cllockd協(xié)調(diào)共享資源訪問的分布式鎖管理器咨詢級鎖包含應(yīng)用開發(fā)的接口支持UNIX鎖模式和增強(qiáng)的鎖模式通常僅用于concurrent配置HaView需要TivoliNetview提供遠(yuǎn)程的集群狀態(tài)監(jiān)控和NetviewEUI整合雜項(xiàng)組件下面的組件不一定需要運(yùn)行Clstat圖形和ASCII方式的集群監(jiān)控工具提供簡單的集群狀態(tài)監(jiān)控方法需要安裝X11組件可利用clinfoAPIXclconfig(快速配置工具)用于配置4個預(yù)定義集群中的1個的情況需要配置專用的硬件clstrmgrClstrmgr分為4個組件內(nèi)部集群控制器事件管理器網(wǎng)絡(luò)接口層外部網(wǎng)絡(luò)接口模塊集群控制器(CC)集群控制器執(zhí)行一些協(xié)調(diào)功能在進(jìn)行啟動和刷新DARE操作時,從HACMPODM對象類中獲得集群的配置信息建立集群鄰居的順序關(guān)系,以便發(fā)送KA信息跟蹤集群拓?fù)浣Y(jié)構(gòu)的更改通過NIL從NIMs接收集群狀態(tài)改變信息安排回應(yīng)集群狀態(tài)改變的事件處理節(jié)點(diǎn)孤立和集群分區(qū)網(wǎng)絡(luò)接口層(NIL)NIL提供一個或多個NIMs和集群管理器之間的共同接口NIL減弱HACMP中對附加的新網(wǎng)卡的支持為每種網(wǎng)絡(luò)計算合適的KA和故障檢測速率為不同的網(wǎng)絡(luò)類型調(diào)用合適的NIMs傳送給NIMs一系列KA發(fā)送目標(biāo)的IP地址和/dev文件當(dāng)NIMs異常掛起或中斷時重啟NIM網(wǎng)絡(luò)接口模塊(NIMs)NIM是HACMP與網(wǎng)絡(luò)接口之間的聯(lián)系點(diǎn)NIMs發(fā)送和接收KA和消息檢測與網(wǎng)絡(luò)相關(guān)的故障消息接收的確認(rèn)NIM用于所有支持的網(wǎng)絡(luò)Nim_etherNim_slNim_tokNim_tmssa集群鄰居HACMP2.1版本之前每個節(jié)點(diǎn)均向其他所有節(jié)點(diǎn)發(fā)送KA信息HACMP3.1版本之后每個節(jié)點(diǎn)只向相鄰的節(jié)點(diǎn)發(fā)送KA信息安排集群鄰居的順序按字母順序在給定的網(wǎng)絡(luò)中進(jìn)行集群內(nèi)節(jié)點(diǎn)名的排序鄰居是指名字列表中相鄰的節(jié)點(diǎn)當(dāng)集群內(nèi)的成員關(guān)系改變時進(jìn)行修改不同的網(wǎng)絡(luò)有不同的鄰居排序方式節(jié)點(diǎn)也可以向集群內(nèi)的所有節(jié)點(diǎn)發(fā)送消息消息在集群事件發(fā)生之前和過程中發(fā)送消息必須進(jìn)行確認(rèn)當(dāng)所有節(jié)點(diǎn)不共享同一個網(wǎng)絡(luò)時,消息可以被節(jié)點(diǎn)進(jìn)行轉(zhuǎn)發(fā)集群管理器組建和集群網(wǎng)絡(luò)之間的關(guān)系KA和消息包KA在節(jié)點(diǎn)間進(jìn)行交換用于監(jiān)控網(wǎng)卡、網(wǎng)絡(luò)和節(jié)點(diǎn)包括NIM版本信息Clstrmgr的進(jìn)程ID源和目標(biāo)節(jié)點(diǎn)名消息包必要時才進(jìn)行交換在集群事件發(fā)生前和過程中發(fā)送節(jié)點(diǎn)加入消息事件檢測消息同步消息必須經(jīng)過確認(rèn),否則認(rèn)為節(jié)點(diǎn)失效包括集群管理器版本源和目標(biāo)節(jié)點(diǎn)名消息重試和跳數(shù)消息正文故障檢測速率故障檢測速率的兩個參數(shù)KA的發(fā)送頻率在假設(shè)節(jié)點(diǎn)失效前的KA重試次數(shù)三種預(yù)定義的值慢:適用于間歇網(wǎng)絡(luò)正常:缺省參數(shù)快:不建議用于繁忙或間接網(wǎng)絡(luò)中故障檢測速率慢正??扉g隔(秒)重試次數(shù)間隔(秒)重試次數(shù)間隔(秒)重試次數(shù)ATM1.5241.25241.024Ethernet1.0120.5120.59FDDI1.0120.5120.59SLIP3.062.061.06Serial3.062.061.06TokenRing1.0240.5240.512故障檢測的時間=時間間隔X重試次數(shù)故障檢測速率的設(shè)置網(wǎng)卡的故障檢測檢測開始時間=故障檢測時間/2Ethernet為3秒,TokenRing為6秒心跳信息仍在可用的網(wǎng)卡之間傳輸HACMP創(chuàng)建一條路由,在同一節(jié)點(diǎn)的網(wǎng)卡之間執(zhí)行ping本地節(jié)點(diǎn)運(yùn)行swap_adapter事件,將Standby卡的地址配置為Service卡的IP的地址同時執(zhí)行fail_standby事件,將Standby卡的IP地址配置到故障的卡上去所有節(jié)點(diǎn)運(yùn)行swap_adapter_complete事件,刷新ARP緩存網(wǎng)絡(luò)故障檢測網(wǎng)絡(luò)故障檢測發(fā)生在節(jié)點(diǎn)內(nèi)的所有網(wǎng)卡均接收不到KA信息時其他網(wǎng)絡(luò)仍能接收KA信息(RS232)Clstrmgr進(jìn)程決定此網(wǎng)絡(luò)故障是全局故障還是局部故障一條需要確認(rèn)的消息被發(fā)送給其它節(jié)點(diǎn)Network_down事件將被執(zhí)行用戶可以根據(jù)需要定制network_down事件節(jié)點(diǎn)故障檢測當(dāng)集群中最快的網(wǎng)絡(luò)上發(fā)生network_down事件時,將會引發(fā)節(jié)點(diǎn)故障檢測一條需要確認(rèn)的消息發(fā)送給集群中所有的節(jié)點(diǎn)任何未能確認(rèn)此消息的節(jié)點(diǎn)將會被認(rèn)為失效了此時網(wǎng)絡(luò)故障被提示為節(jié)點(diǎn)故障每個存活的節(jié)點(diǎn)將運(yùn)行node_down事件,并獲得失效節(jié)點(diǎn)的資源事件管理器事件管理器執(zhí)行下述功能執(zhí)行合適的事件腳本回應(yīng)集群狀態(tài)的改變設(shè)置所需的環(huán)境變量必要時與clsmuxpd和cllockd進(jìn)程通信任何沒能在6分鐘之內(nèi)成功執(zhí)行(返回值為0)的事件,將導(dǎo)致config_too_long事件的發(fā)生事件限制可能被修改HACMP的事件主事件Node_upNode_downNode_up_completeNode_down_completeNetwork_downNetwork_upNetwork_up_completeNetwork_down_completeSwap_adapterSwap_adapter_completeFail_standbyJoin_standbyEvent_errorConfig_too_longReconfig_topology_completeReconfig_resource_releaseReconfig_resource_acquireReconfig_resource_complete從事件Node_up_localNode_up_remoteNode_down_localNode_down_remoteNode_up_local_completeNode_up_remote_completeNode_down_local_completeNode_down_remote_completeAcquire_aconn_serviceAcquire_service_addrAcquire_takeover_addrStart_serverStop_serverGet_disk_vg_fsGet_aconn_fsRelease_service_addrRelease_takeover_addrRelease_vg_fsRelease_aconn_rsSwap_aconn_protocols事件同步-節(jié)點(diǎn)加入節(jié)點(diǎn)孤立當(dāng)兩個節(jié)點(diǎn)之間的所有網(wǎng)絡(luò)都失效時,會引發(fā)節(jié)點(diǎn)孤立兩個節(jié)點(diǎn)都認(rèn)為對方失效,都試圖接管對方的資源如果通信重新建立起來,節(jié)點(diǎn)ID高(按字母順序)的節(jié)點(diǎn)將被關(guān)閉(halt-q)采用一或多條串行網(wǎng)絡(luò)的集群設(shè)計可以避免此問題的發(fā)生集群分區(qū)集群分區(qū)發(fā)生在兩個或多個活動的節(jié)點(diǎn)之間的通信丟失的情況下這可能是由分段的集群網(wǎng)絡(luò)或僅通過一個Hub連接網(wǎng)絡(luò)引起的將有兩個較大的集群存活下來如果被分為兩個相等的大小的集群,那么節(jié)點(diǎn)ID號較高的分區(qū)將被關(guān)閉采用一或多條串行網(wǎng)絡(luò)的集群設(shè)計可以避免此問題的發(fā)生Deadman開關(guān)(DMS)Deadman開關(guān)是一個確保在事件運(yùn)行過程中被關(guān)閉的節(jié)點(diǎn)不會產(chǎn)生心跳信息的安全措施問題節(jié)點(diǎn)未能成功發(fā)送心跳信息,存活的節(jié)點(diǎn)開始接管資源節(jié)點(diǎn)恢復(fù)正常狀態(tài),嘗試訪問已被其它節(jié)點(diǎn)接管的資源,集群處于不穩(wěn)定的狀態(tài)解決方法如果沒有足夠的時間發(fā)送KA包,就立刻關(guān)閉系統(tǒng)如何工作內(nèi)核擴(kuò)展中包含Deadman開關(guān)Clstrmgr每秒重置此開關(guān)一次如果此開關(guān)在上一秒每被重置,關(guān)閉系統(tǒng)SNMP、clinfo、clstat、HAMIBHACMP的clsmuxpd進(jìn)程維護(hù)包含集群狀態(tài)信息的SNMP管理信息庫(MIB)此信息可以用標(biāo)準(zhǔn)的SNMP命令發(fā)送給任何的基于SNMP的應(yīng)用Clinfo和HAView就是這樣的應(yīng)用程序,他們通過SNMP獲得由clsmuxpd進(jìn)程提供的集群狀態(tài)信息clinfoclinfo進(jìn)程提供監(jiān)控集群中的client和server的工具Clinfo是可選項(xiàng)維護(hù)節(jié)點(diǎn)、網(wǎng)卡、網(wǎng)絡(luò)的狀態(tài)信息Clinfo執(zhí)行clinfo.rc腳本回應(yīng)所有的集群事件使得應(yīng)用程序可以通過API接口使用集群的狀態(tài)信息Clinfo基于SNMP進(jìn)行通信/usr/sbin/cluster/etc/clhosts文件中包含運(yùn)行clsmuxpd進(jìn)程的Server的IP地址列表Clinfo可以在狀態(tài)改變時接收trapsHACMP中包含面向非AIX系統(tǒng)的client的源代碼Clstst是使用clinfo的API接口的應(yīng)用程序HACMP/ES-擴(kuò)展的伸縮性用于SP和RS/6000系統(tǒng)的可伸縮的高可用性軟件最大支持32個節(jié)點(diǎn)設(shè)計目標(biāo)是可支持128個節(jié)點(diǎn)使用RS/6000集群技術(shù)(RSCT)具有與HACMP相同界面HACMP與HAES的區(qū)別HACMP/ES所有SP集群節(jié)點(diǎn)必須在同一個SP分區(qū)中每個節(jié)點(diǎn)最大支持32個boot、service、standby接口關(guān)閉集群命令中無強(qiáng)制關(guān)閉選項(xiàng)使用拓?fù)鋫鬟f心跳信息不再支持SOCC、SLIP、TM-SSA網(wǎng)絡(luò)第七章集群配置如何規(guī)劃集群HACMP的安裝HACMP的幾種配置方式配置集群的拓?fù)浣Y(jié)構(gòu)和資源配置IPAT和HWAT同步和校驗(yàn)集群配置了解xhacmpm圖形系統(tǒng)管理工具和xclconfig快速配置工具配置集群的步驟步驟描述重點(diǎn)1規(guī)劃集群使用工作表和文本2配置TCP/IP和LVM/etc/hosts、/.rhosts、jfs鏡像和布局3安裝HACMP軟件選擇合適的文件集4定義集群的拓?fù)浣Y(jié)構(gòu)節(jié)點(diǎn)、網(wǎng)絡(luò)和網(wǎng)卡5同步集群拓?fù)浣Y(jié)構(gòu)校驗(yàn)會自動進(jìn)行6配置應(yīng)用的啟動和停止腳本應(yīng)用服務(wù)器7定義集群的資源文件系統(tǒng)、IP地址、NFS的輸出及掛載點(diǎn)8同步集群資源校驗(yàn)會自動進(jìn)行9測試集群包括應(yīng)用測試第一步規(guī)劃集群集群規(guī)劃工作表集群規(guī)劃圖用圖形描述集群的規(guī)劃描述如何連接client標(biāo)記集群的組件保存此圖直至集群規(guī)劃更改存儲布局圖SSA設(shè)備的連線圖數(shù)據(jù)的鏡像和命名圖第二步配置前的檢查/.rhosts文件是否存在于所有節(jié)點(diǎn)上必須包含集群中所有service、boot、standby卡的IP標(biāo)識用戶可以遠(yuǎn)程登錄所有節(jié)點(diǎn)/etc/hosts文件是否存在于所有節(jié)點(diǎn)上必須包含集群中所有service、boot、standby卡所有節(jié)點(diǎn)上的名字解析工作正常網(wǎng)絡(luò)接口卡已配置所有的網(wǎng)絡(luò)接口卡的子網(wǎng)掩碼必須一致Service和Standby卡的IP地址必須處于不同的網(wǎng)段路由存在于集群內(nèi)的所有邏輯網(wǎng)絡(luò)配置中Service卡之間,Standby卡之間應(yīng)能夠ping通LVM組件及建立所有共享的組件具有唯一的名字所有共享卷組的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論