服務(wù)器的可用性下_第1頁
服務(wù)器的可用性下_第2頁
服務(wù)器的可用性下_第3頁
服務(wù)器的可用性下_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、服務(wù)器的可用性(下)二、硬件在線診斷技術(shù)硬件在線診斷技術(shù)主要包括熱插拔技術(shù)、內(nèi)存保護、內(nèi)存檢查和糾錯技術(shù)、內(nèi)存鏡像技術(shù),內(nèi)存熱添加/交換技術(shù)、活動PCI技術(shù),活動診斷技術(shù)等,下面我們分別介紹。1. 熱插拔技術(shù)熱插拔技術(shù)就是指有些部件可以在系統(tǒng)帶電的情況下對部件進行插、撥操作。這非常重要,因為有時我們發(fā)現(xiàn)一些部件已損壞,但因為提供了硬件冗余,所以系統(tǒng)仍能繼續(xù)保持良好運行。損壞的設(shè)備需要更換下來,這時如果這些硬件不支持熱插拔技術(shù),則必須關(guān)掉服務(wù)器的電源才能進行,這樣就會嚴重影響服務(wù)器所管網(wǎng)絡(luò)的正常長期不間斷運行。一般來說具有熱插拔性能的硬件主要有:硬盤、CPU、RAM、電源、風(fēng)扇、PCI適配器、網(wǎng)

2、卡等。2. 內(nèi)存查糾錯技術(shù)服務(wù)器中的內(nèi)存我們知道一般來是采用帶有ECC技術(shù)的,ECC的英文全稱是“ Error Checking and Correcting”,中文名為“錯誤檢查和糾正”,從這個名稱就可以看出它的主要功能就是“發(fā)現(xiàn)并糾正錯誤”。ECC比以前的奇偶校正技術(shù)更先進的方面體現(xiàn)在它不僅能發(fā)現(xiàn)錯誤,而且能糾正這些錯誤,這些錯誤糾正之后計算機才能正確執(zhí)行下面的任務(wù),確保服務(wù)器的正常運行。但要注意的是它不是一種內(nèi)存型號,是一種內(nèi)存技術(shù),不僅以前的EDO內(nèi)存可以有、SD內(nèi)存也可有,現(xiàn)在主流的DDR內(nèi)存同樣可以有。那是因為并不是一種影響內(nèi)存結(jié)構(gòu)和存儲速度的技術(shù),它可以應(yīng)用到不同的內(nèi)存類型之中,

3、就象我們在前講到的“奇遇校正”內(nèi)存。但ECC技術(shù)只能糾正單比特的內(nèi)存錯誤,IBM還有一種更先進的特殊內(nèi)存糾錯技術(shù),那就是ChipKill內(nèi)存技術(shù)。Chipkill內(nèi)存最初是由20年前的IBM大型機發(fā)展過來的,ChipKill最初是為美國航空航天局(NASA)的“探路者”探測器赴火星探險而研制。它是IBM公司為了解決目前服務(wù)器內(nèi)存中ECC技術(shù)的不足而開發(fā)的,是一種新的ECC內(nèi)存保護標(biāo)準(zhǔn)。ECC內(nèi)存可以同時檢測和糾正單一比特錯誤,但如果同時檢測出兩個以上比特的數(shù)據(jù)有錯誤,則一般不能糾正。但隨著基于Intel處理器架構(gòu)的服務(wù)器的CPU性能在以幾何級的倍數(shù)提高,而硬盤驅(qū)動器的性能同期只提高了5倍,因此

4、為了獲得足夠的性能。服務(wù)器需要大量的內(nèi)存來臨時保存在CPU上讀取的數(shù)據(jù),這樣大的數(shù)據(jù)訪問量就導(dǎo)致單一內(nèi)存芯片上每次訪問時通常要提供4(32位)或8(64位)比特以上的數(shù)據(jù)。一次性讀取這么多數(shù)據(jù),出現(xiàn)多位數(shù)據(jù)錯誤的可能性會大大地提高,而ECC又不能糾正雙比特以上的錯誤,這樣就很可能造成全部比特數(shù)據(jù)的丟失,系統(tǒng)就很快崩潰了。IBM的Chipkill技術(shù)是利用內(nèi)存的子結(jié)構(gòu)方法來解決這一難題。Chipkill技術(shù)內(nèi)存子系統(tǒng)的設(shè)計原理是這樣的,單一芯片,無論數(shù)據(jù)寬度是多少,只對于一個給定的ECC識別碼,它的影響最多為一比特。舉個例子來說明的就是,如果使用4比特寬的DRAM,4比特中的每一位的奇偶性將分別

5、組成不同的ECC識別碼,每個ECC單元可單獨用一個數(shù)據(jù)位來保存的,也就是說保存在不同的內(nèi)存空間地址。因此,即使整個內(nèi)存芯片出了故障,每個ECC單元也將最多出現(xiàn)一比特壞數(shù)據(jù)。這種情況完全可以通過ECC邏輯修復(fù),從而保證內(nèi)存子系統(tǒng)的容錯性,保證了服務(wù)器在出現(xiàn)故障時,有強大的自我恢復(fù)能力。采用這種Chipkill內(nèi)存技術(shù)的內(nèi)存可以同時檢查并修復(fù)4個錯誤數(shù)據(jù)位。3. 內(nèi)存保護(Memory ProteXion)IBM的內(nèi)存保護技術(shù)就是保護由于意外的內(nèi)存錯誤而帶來的損失,它比ECC內(nèi)存錯誤糾正技術(shù)有效得多,同時它使用的是標(biāo)準(zhǔn)的ECC 168內(nèi)存。它的工作方式有點像在Windows NT的NTFS文件系統(tǒng)

6、下的在線備份磁盤扇區(qū)一樣,當(dāng)操作系統(tǒng)在磁盤上檢測到壞的磁盤扇區(qū)時,它將在另外的扇區(qū)中寫下這些數(shù)據(jù)放一邊留作備用,我們可以認為內(nèi)存保護就是提供在線備份數(shù)據(jù)位。這內(nèi)存錯誤的糾正是通過內(nèi)存控制器來完成的,所以不會增加操作系統(tǒng)的工作量,也不需要操作系統(tǒng)來提供支持,完全與操作系統(tǒng)無關(guān)。因為這是在標(biāo)準(zhǔn)的ECC 168線內(nèi)存起作用的,無需為這種保護增加另外的開支。內(nèi)存保護(在其它系統(tǒng)中也有稱“多余的數(shù)據(jù)位”)技術(shù)最初的發(fā)展是在IBM大型機上,而且在Z系列和I系列服務(wù)器上使用了許多年。IBM的高可靠性測試和分析使得帶有內(nèi)存保護技術(shù)的服務(wù)器每年因內(nèi)存出錯的機會比使用標(biāo)準(zhǔn)的ECC內(nèi)存的少200倍。舉個例子,給同樣

7、8GB內(nèi)存的服務(wù)器多臺,用戶希望經(jīng)過測試每132臺使用ECC內(nèi)存的服務(wù)器中每年只允許1臺出現(xiàn)錯誤,而使用內(nèi)存保護后就會看到每26042臺服務(wù)器中每年只有1臺因內(nèi)存出錯。在一個2路交叉存取的內(nèi)存系統(tǒng)中,每2片168線ECC內(nèi)存包含144位,但是只有140位是用于數(shù)據(jù)存取和校驗的。余下的4位是沒有用上的,標(biāo)準(zhǔn)的ECC內(nèi)存可以檢測出2位的數(shù)據(jù)錯誤,但它只能糾正一位錯誤。如果在同時內(nèi)存上有多位出錯,那么這整個內(nèi)存讀取就失敗了,此時唯有使系統(tǒng)臨時掛起來,以盡量減少內(nèi)存容量的需求,直到這個節(jié)點被更換。如果具有內(nèi)存保護,那么就可以立即隔離這個失效的內(nèi)存,重寫數(shù)據(jù)在空余的數(shù)據(jù)位。通過這種方法可以在每4對(1個

8、內(nèi)存控制器,有的服務(wù)器不止包括一個內(nèi)存控制器)168線內(nèi)存中修復(fù)4個4位連續(xù)的內(nèi)存錯誤。當(dāng)服務(wù)器下次重啟就會重新檢查內(nèi)存的狀態(tài),如果是內(nèi)存軟錯誤(臨時的),系統(tǒng)重啟后內(nèi)存的這些用于在線數(shù)據(jù)備份的數(shù)據(jù)位就重新釋放了,恢復(fù)空的狀態(tài)。如果是屬于硬故障,這些在線備份數(shù)據(jù)位還會繼續(xù)用來備份,直到更換為止。這種先進技術(shù)可以使減少停機機時間,使服務(wù)器持續(xù)保持高效的計算平臺。這對于大型的數(shù)據(jù)庫系統(tǒng)中尤其重要。4. 內(nèi)存鏡像 (Memory Mirroring)另一種防止服務(wù)器因內(nèi)存錯誤的發(fā)生而導(dǎo)致整個服務(wù)器不穩(wěn)定性事件發(fā)生的措施就是內(nèi)存鏡像。或許有可能服務(wù)器不知什么原因遇到了許多內(nèi)存保護和Chipkill修復(fù)

9、技術(shù)都不能完全修復(fù)的情況,此時內(nèi)存鏡像就會開始在系統(tǒng)中運行。內(nèi)存鏡像很像磁盤鏡像,就是將數(shù)據(jù)同時寫入到兩個獨立的內(nèi)存卡中(每個內(nèi)存卡的配置者是一樣的),平時的內(nèi)存數(shù)據(jù)讀取只從激活的內(nèi)存卡中進行。如圖7所示的是CPU同時把數(shù)據(jù)寫入到兩片內(nèi)存中的示意圖。圖7在圖7中如果一個內(nèi)存中有足以引起系統(tǒng)報警的軟故障,頻繁報告系統(tǒng)管理員警告說這個內(nèi)存條將要出故障,或者整個內(nèi)存條都要徹底損壞,服務(wù)器就會自動地切換到使用鏡像內(nèi)存卡,直到這個有故障的內(nèi)存被更換。允許系統(tǒng)照常運行,直到方便的時候?qū)Τ龉收系膬?nèi)存單元進行檢測。鏡像內(nèi)存允許進行熱交換和在線添加內(nèi)存(因為鏡像內(nèi)存的存在,所以對于軟件系統(tǒng)來說也就只有整個內(nèi)存的

10、一半容量是可用的,如果不希望鏡像,在BIOS中進行禁止即可。)5. 內(nèi)存熱添加/熱交換 (Hot-add/Hot swap Memory)熱交換技術(shù)就是允許在服務(wù)器運行中將失效的內(nèi)存進行更換,熱添加就是在需要的時候允許在服務(wù)器運行狀態(tài)下添加新的內(nèi)存。IBM X系列服務(wù)器已經(jīng)允許服務(wù)人員在需要時在線進行熱添加新的驅(qū)動器、適配器、電源和風(fēng)扇。在一個服務(wù)器上安裝的內(nèi)存越多,在系統(tǒng)中發(fā)生與內(nèi)存有關(guān)的錯誤的可能性也就越大?,F(xiàn)在,由于服務(wù)器可以容納幾十上百GB的內(nèi)存,可靠性就顯得比以前更重要了。就像磁盤容量的增加一樣,現(xiàn)在的磁盤容量遠遠超過20年前用戶希望尋找方法來提高硬盤性能和保護他們的數(shù)據(jù)時所作的希望

11、。這些都需要一個確切的方法,如離線存儲、磁帶驅(qū)動器一樣。Chipkill修復(fù)技術(shù)、內(nèi)存保護、內(nèi)存鏡像和熱交換性能屬于純硬件方法,并沒有依靠操作系統(tǒng),而內(nèi)存熱添加技術(shù)需要進一步的軟件支持。這些內(nèi)存保護機制都是經(jīng)過試驗為可靠的技術(shù),已在IBM大型機和其它大型系統(tǒng)中經(jīng)過幾年的考驗。最重要的一點就是這些技術(shù)都在普通的工業(yè)標(biāo)準(zhǔn)ECC 168線內(nèi)存實現(xiàn)的,所以內(nèi)存也不會特別貴。6. Active PCI-X(活動PCI-X)技術(shù)在說明這一技術(shù)之前我們要明白什么是PCI-X,它是一種新的過渡型的總線標(biāo)準(zhǔn),它的主頻帶寬可以比原來的PCI總線寬一倍,可以提供更高的I/O訪問速度,現(xiàn)有一種更新的總線技術(shù)PCI-E

12、xpress接口將全面替代PCI和PCI-X接口,當(dāng)然不是現(xiàn)在。IBM在成功實現(xiàn)Active PCI(活動PCI)技術(shù)的基礎(chǔ)之上,在基于企業(yè)級服務(wù)器X架構(gòu)設(shè)計的一些X系列服務(wù)器中引入同時支持PCI和PCI-X兩種適配器接口的Active PCI-X(活動PCI-X)技術(shù)?;顒覲CI-X總線技術(shù)就為IBM提供了提升服務(wù)器總體性能的另一個解決方案?;顒覲CI-X的主要特性如下:熱交換 (Hot Swap)允許在不用關(guān)閉和重啟服務(wù)器的情況下更換適配器。熱添加(Hot add)提供了一種容易的升級方式,允許在服務(wù)器運行的狀態(tài)下添加新的適配器(在工業(yè)標(biāo)準(zhǔn)中IBM是第一個提供這種性能的)。切換(Failo

13、ver)允許在主適配器出現(xiàn)故障的情況下極快地用另一個備用適配器接替原來適配器的工作繼續(xù)運行。7. Active Diagnostics(活動診斷)技術(shù)活動診斷是IBM企業(yè)級服務(wù)器X架構(gòu)的另一個特征,這種特征將會在使用這種芯片的服務(wù)器上得到整合提供。基于在通用信息模塊的分布式任務(wù)管理面,活動診斷技術(shù)允許管理員在用戶在工作的時候在系統(tǒng)上實施診斷,所以提高了系統(tǒng)的開機時間,使IBM客戶真正接近“永遠計算”的高性能水平。這在工業(yè)服務(wù)器市場中是很少見的特性,而這個空白被IBM企業(yè)級X架構(gòu)技術(shù)填補了。IBM在1999年與Intel 、PC-Doctor公司一起努力,引入工業(yè)標(biāo)準(zhǔn)中的擴展技術(shù)到通用信息模塊來支持協(xié)作診斷。這個通用診斷模塊是如何通過操作系統(tǒng)去分界面協(xié)同診斷標(biāo)準(zhǔn)化(也稱“當(dāng)前操作系統(tǒng)診斷”,或者叫做“在線診斷”),使所有通用信息模塊診斷應(yīng)用常規(guī)化。因為現(xiàn)在診斷擴展到通用信息模塊,IBM正在與獨立的硬件生產(chǎn)廠商一起努力去重新定義這種方法,建立協(xié)同診斷的工具,以使X系列服務(wù)器永遠運行。IBM活動診斷是用通用診斷模塊來執(zhí)行的,結(jié)合IBM的預(yù)先失效分析技術(shù),活動診斷和熱交換組件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論