



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、解析 IBM 服務(wù)器內(nèi)存技術(shù)IBM 作為全球服務(wù)器行業(yè)的領(lǐng)導(dǎo)廠商,不完全是依靠它幾十年建立起來的品牌優(yōu)勢,更重要是它在服務(wù)器領(lǐng)域長期處于領(lǐng)先地位的各項服務(wù)器技術(shù)。雖然它的服務(wù)器內(nèi)存技術(shù)并不是IBM 的一項關(guān)鍵優(yōu)勢,但這也不是隨便那個廠商都具備的,同時它卻對整個服務(wù)器穩(wěn)定性的保障起著至關(guān)重要的作用。正因如此, IBM 的服務(wù)器除了具備更高的性能外,另一個重要賣點就是具有非常高的穩(wěn)定性,可以在各種非常復(fù)雜的運算環(huán)境下永久保持高度的穩(wěn)定性,這其中本文所要介紹的 IBM 三大內(nèi)存技術(shù)功不可沒。IBM 的服務(wù)器三大內(nèi)存技術(shù)包括: Chipkill 內(nèi)存、 Memory ProteXion (內(nèi)存保護)和
2、 Memory Mirroring (內(nèi)存鏡像)。下面分別予以介紹。一、 Chipkill 內(nèi)存技術(shù)在服務(wù)嚦嚦領(lǐng)域, ECC 幾乎是內(nèi)存技術(shù)的代名詞,基本上所有品牌服務(wù)器都支持 ECC 技術(shù),但要說明的是, ECC 并不是最先進的內(nèi)存技術(shù)。本文所要介紹的 IBM 三大內(nèi)存技術(shù)就是三種更先進的內(nèi)存技術(shù)。Chipkill內(nèi)存最初是由20 年前的 IBM 大型機發(fā)展過來的,ChipKill最初是為美國航空航天局 (NASA )的“探路者 ”探測器赴火星探險而研制。它是 IBM 公司為了解決通用服務(wù)器ECC 內(nèi)存技術(shù)的不足而開發(fā)的,是一種新的ECC 內(nèi)存保護技術(shù)(HP 也有更新的ECC 內(nèi)存技術(shù))。要
3、注意,Chipkill 內(nèi)存只是一種內(nèi)存技術(shù),并不是一種特殊的內(nèi)存類型,所采用的只需普通的內(nèi)存即可,如原來的SD 內(nèi)存,現(xiàn)在的DDR 內(nèi)存均可。這樣就可大大節(jié)省用戶的投資,適應(yīng)范圍更廣。要正確理解了解。因為IBMIBM 的 Chipkill內(nèi)存技術(shù)優(yōu)勢,先要對通用的ECC 內(nèi)存技術(shù)有一個全面的的 Chipkill 內(nèi)存技術(shù)是在ECC 技術(shù)基礎(chǔ)上的改進。ECC的英文全稱是 “Error Checking and Correcting(錯”誤檢查和糾正),從這個名稱就可以看出它的主要功能就是“發(fā)現(xiàn)并糾正錯誤”。奇偶校驗技術(shù)一樣,ECC 糾錯技術(shù)也需要額外的空間來儲存校正碼,但其占用的位數(shù)跟數(shù)據(jù)的長
4、度并非成線性關(guān)系。具體來說,它是以8 位數(shù)據(jù)、 5 位 ECC 碼為基準,隨后每增加一個 8 位數(shù)據(jù)只需另增加一位ECC 碼即可。通俗地講就是, 一個 8 位的數(shù)據(jù)產(chǎn)生的ECC碼要占用5 位的空間,而一個16 位數(shù)據(jù) ECC 碼只需在原來基礎(chǔ)上再增加一位,也就是6位;而 32 位的數(shù)據(jù)則只需再在原來基礎(chǔ)增加一位,即7 位的 ECC 碼即可,如此類推。ECC 碼將信息進行8 比特位的編碼,采用這種方式可以恢復(fù)1 比特的錯誤。每一次數(shù)據(jù)寫入內(nèi)存的時候, ECC 碼使用一種特殊的算法對數(shù)據(jù)進行計算,其結(jié)果稱為校驗位 ( checkbits)。然后將所有校驗位加在一起的和是“校驗和 ”( checks
5、um),校驗和與數(shù)據(jù)一起存放。當這些數(shù)據(jù)從內(nèi)存中讀出時,采用同一算法再次計算校驗和,并和前面的計算結(jié)果相比較,如果結(jié)果相同,說明數(shù)據(jù)是正確的,反之說明有錯誤,ECC 可以從邏輯上分離錯誤并通知系統(tǒng)。當只出現(xiàn)單比特錯誤的時候, ECC 可以把錯誤改正過來不影響系統(tǒng)運行。工作原理見圖 1。圖 1除了能夠檢查到并改正單比特錯誤之外,ECC 碼還能檢查到(但不改正)單DRAM 芯片上發(fā)生的任意2 個隨機錯誤, 并最多可以檢查到4 比特的錯誤。 當有多比特錯誤發(fā)生的時候, ECC 內(nèi)存會生成一個不可隱藏(non-maskable interrupt )的中斷( NMI ),會中止系統(tǒng)運行,以避免出現(xiàn)數(shù)據(jù)
6、惡化。顯然 ECC 碼的長度跟數(shù)據(jù)的長度是成對數(shù)關(guān)系,當數(shù)據(jù)長度在64 位以上的時候, ECC碼在空間占用上就會凸現(xiàn)優(yōu)勢。此外,ECC 校驗最大的優(yōu)點是如果數(shù)據(jù)中有一位錯誤,它不但能發(fā)現(xiàn)而且可以對其更正,ECC 校驗還可以發(fā)現(xiàn)24 位錯誤(不能更正),當然這樣的情況出現(xiàn)的幾率是非常低的。但ECC 碼的校驗算法比奇偶校驗復(fù)雜不少,需要專門的芯片來支持, 所以普通的電腦主板不一定支持。而且因為系統(tǒng)需要時間來等待校驗的結(jié)果,所以 ECC 校驗會降低系統(tǒng)速度 2%-3% 左右, 但這小小的代價換來系統(tǒng)穩(wěn)定性的大大提高可以說事非常值得的。注意 :ECC 不是一種內(nèi)存類型,只是一種內(nèi)存技術(shù),不僅以前的ED
7、O 內(nèi)存可以有、內(nèi)存也可有,現(xiàn)在主流的DDR 內(nèi)存同樣可以有,所以在現(xiàn)在服務(wù)器配置中我們都可見到“ 512MB ECC DDR-400 內(nèi)存 ”之類的字樣。那是因為它并不是一種影響內(nèi)存結(jié)構(gòu)和存儲速度的技術(shù),可以應(yīng)用到不同的內(nèi)存類型之中,就象我們經(jīng)常到的“奇遇校正 ”內(nèi)存技術(shù)一樣。SDECC 內(nèi)存技術(shù)雖然可以同時檢測和糾正單一比特錯誤,但如果同時檢測出兩個以上比特的數(shù)據(jù)有錯誤,則無能為力。但隨著基于Intel 處理器架構(gòu)服務(wù)器的CPU 性能呈幾何級的倍數(shù)提高, 而硬盤驅(qū)動器的性能同期只提高了5 倍。因此為了獲得足夠的性能,服務(wù)器需要大量的內(nèi)存來臨時保存在CPU 上讀取的數(shù)據(jù)。這樣大的數(shù)據(jù)訪問量就
8、導(dǎo)致單一內(nèi)存芯片上每次訪問時通常要提供4( 32 位)或 8(64 位)比特以上的數(shù)據(jù)。一次性讀取這么多數(shù)據(jù),出現(xiàn)多位數(shù)據(jù)錯誤的可能性會大大地提高,而ECC 又不能糾正雙比特以上的錯誤,這樣就很可能造成全部比特數(shù)據(jù)的丟失,系統(tǒng)就很快崩潰了。IBM 的 Chipkill技術(shù)是利用內(nèi)存的子結(jié)構(gòu)方法來解決這一難題。Chipkill內(nèi)存子系統(tǒng)的設(shè)計原理是這樣的:在Chipkill 技術(shù)支持下,單一內(nèi)存芯片,無論數(shù)據(jù)寬度是多少,只有一個給定的ECC 識別碼,它的影響最多為一比特。舉個例子來說明的就是,如果使用4 比特寬的SDRAM ,4 比特中的每一位奇偶性將分別組成不同的ECC識別碼,每個ECC 單元
9、可單獨用一個數(shù)據(jù)位來保存的,也就是說這些識別碼分別保存在不同的內(nèi)存空間中。因此,即使整個內(nèi)存芯片出了故障,每個ECC 單元也將最多出現(xiàn)一比特壞數(shù)據(jù)。這種情況完全可以通過ECC 邏輯修復(fù),從而保證內(nèi)存子系統(tǒng)的容錯性,保證了服務(wù)器在出現(xiàn)故障時,有強大的自我恢復(fù)能力。Chipkill 內(nèi)存控制器所提供的存儲保護在概念上和具有校驗功能的磁盤陣列類似,在寫數(shù)據(jù)的時候,把數(shù)據(jù)寫到多個DIMM 內(nèi)存芯片上。這樣,每個DIMM所起的作用和存儲陣列相同。 如果其中任何一個芯片失效了,它只影響到一個數(shù)據(jù)字節(jié)的某一比特,因為其他比特存儲在另外的芯片上。 出現(xiàn)錯誤后, 內(nèi)存控制器能夠從失效的芯片重新構(gòu)造“失去 ”的數(shù)
10、據(jù),使得服務(wù)器可以繼續(xù)正常工作。采用這種 Chipkill 內(nèi)存技術(shù)的內(nèi)存可以同時檢查并修復(fù)4 個錯誤數(shù)據(jù)位,進一步提高服務(wù)器的實用性。新型的第三代 Chipkill內(nèi)存技術(shù)已經(jīng)集成到了IBM 的 X 架構(gòu)芯片組中, 不必另外定制。與 ECC 技術(shù)相比, Chipkill內(nèi)存技術(shù)更加有效,它提供對每個DIMM內(nèi)存芯片糾正4 比特錯誤的能力。如果內(nèi)存發(fā)生錯誤,Chipkill 內(nèi)存將自動和平穩(wěn)地讓出錯的內(nèi)存芯片離線,而服務(wù)器繼續(xù)保持正常工作。由于 Chipkill 內(nèi)存技術(shù)是通過內(nèi)存控制器提供的,所以可以在標準的ECC DIMM內(nèi)存上實現(xiàn),并且對于操作系統(tǒng)是透明的。目前Chipkill 內(nèi)存技術(shù)
11、不僅在IBM 的 x 系列服務(wù)器廣泛采用,而且通過授權(quán)許多國內(nèi)外品牌服務(wù)器中使用,如寶德公司的64 位新至強機架式服務(wù)器 PR2520(該公司還有許多其它服務(wù)器也支持這一內(nèi)存技術(shù),如PT4050R 和 PR2520等)、方正公司的方正圓明MT500 等。二、內(nèi)存保護(Memory ProteXion )技術(shù)Memory ProteXion技術(shù)最初是為務(wù)器中應(yīng)用了多年。它相對前面介紹的IBM 的主機開發(fā)的,在IBM 公司的 z 系列和Chipkill內(nèi)存技術(shù)在保護能力上更強些。i 系列服它的工作原理與硬盤的熱備份類似,為了確保當某個DIMM存儲芯片失效的時候,內(nèi)存保護技術(shù)能夠自動利用備用的比特位
12、自動找回數(shù)據(jù),從而保證服務(wù)器的平穩(wěn)運行。該技術(shù)可以糾正發(fā)生在每對DIMM內(nèi)存中多達4 個連續(xù)比特位的錯誤。當出現(xiàn)隨機性的軟內(nèi)存錯誤,可以通過使用熱備份的比特位來解決;如果出現(xiàn)永久性的硬件錯誤,也將利用熱備份的比特位使得DIMM內(nèi)存芯片繼續(xù)工作,直到被替換為止。在存儲器糾錯方面,Memory ProteXion技術(shù)比 ECC 技術(shù)更加有效,同時它使用的是標準的ECC 168 內(nèi)存。它的工作方式有點像在Windows NT 的 NTFS 文件系統(tǒng)下的在線備份磁盤扇區(qū)一樣: 當操作系統(tǒng)在磁盤上檢測到壞的磁盤扇區(qū)時,它將在另外的扇區(qū)中寫下這些數(shù)據(jù)留作備用。 我們可以認為內(nèi)存保護技術(shù)就是提供在線備份數(shù)據(jù)
13、位。在一個 2 路交叉存取的內(nèi)存系統(tǒng)中, 每片 168 線 ECC 內(nèi)存包含72 位,但其實只有700 位是用于數(shù)據(jù)存取和校驗的,余下的 2 位是備用的,如圖2 所示。圖 2因為 IBM 的內(nèi)存鏡像技術(shù)對內(nèi)存錯誤的糾正是通過內(nèi)存控制器來完成的,所以不會增加操作系統(tǒng)的工作量, 也不需要操作系統(tǒng)來提供支持, 完全與操作系統(tǒng)無關(guān)。 另因為只需采用標準的 ECC 168 線內(nèi)存,所以也無需另外購買定制的內(nèi)存,也就無需為這種保護增加另外的開支。標準的 ECC 內(nèi)存雖然可以檢測出2 位的數(shù)據(jù)錯誤,但它只能糾正一位錯誤。如果同時在內(nèi)存上有多位出錯,僅采用ECC 技術(shù)的整塊內(nèi)存讀取就失敗了,此時唯有使系統(tǒng)臨時
14、掛起來, 以盡量減少內(nèi)存容量的需求,直到這個節(jié)點被更換。如果采用內(nèi)存保護技術(shù),那么就可以立即隔離這個失效的內(nèi)存,重寫數(shù)據(jù)在空余的數(shù)據(jù)位。通過這種方法可以在每4對 168線內(nèi)存中修復(fù) 4 個 4 位連續(xù)的內(nèi)存錯誤,是前面介紹的Chipkill 內(nèi)存技術(shù)保護能力的兩倍。而且它還還無需添加另外的硬件、無需增加額外的費用,獨立操作系統(tǒng)工作, 也不會給系統(tǒng)增加任何額外負擔。 當服務(wù)器下次重啟就會重新檢查內(nèi)存的狀態(tài),如果是內(nèi)存軟錯誤 (臨時的),系統(tǒng)重啟后內(nèi)存的這些用于在線數(shù)據(jù)備份的數(shù)據(jù)位就重新釋放了,恢復(fù)空的狀態(tài)。如果是屬于硬故障, 這些在線備份數(shù)據(jù)位還會繼續(xù)用來備份,直到更換為止。 這種先進技術(shù)可以使減少停機時間, 使服務(wù)器持續(xù)保持高效的計算平臺。這對于大型的數(shù)據(jù)庫系統(tǒng)中尤其重要。三、內(nèi)存鏡像(Memory Mirroring )技術(shù)IBM 的另一種更高級內(nèi)存技術(shù)就是內(nèi)存鏡像技術(shù),它又相對前面的內(nèi)存保護技術(shù),在內(nèi)存保護能力上更強。 當服務(wù)器遇到了前面介紹的 Chipkill 修復(fù)技術(shù)和內(nèi)存保護技校術(shù)都不能完全修復(fù)時,內(nèi)存鏡像技術(shù)可以得到更高級的內(nèi)存保護。內(nèi)存鏡像技術(shù)很像磁盤鏡像技術(shù),就是將數(shù)據(jù)同時寫入到兩個獨立的內(nèi)存卡中(每個內(nèi)存卡的配置者是一樣的) 。正常工作情況下, 內(nèi)存數(shù)據(jù)讀取只從活動內(nèi)存卡中進行,只是當活動內(nèi)存出現(xiàn)故障時,才會從鏡像內(nèi)存中讀取數(shù)據(jù)。如圖 3 所示的是 CPU
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學年三年級英語下冊期末試卷(PEP版)(含答案含聽力原文無音頻)
- 2025年基礎(chǔ)設(shè)施建設(shè)的貸款合同模板示例
- 2025年貨物運輸合同范本
- 2025網(wǎng)絡(luò)維護及安全服務(wù)合同
- 2025園林景觀施工合同樣本
- 2025電商平臺代理銷售合同書范本
- 2025標準的企業(yè)租賃合同范本下「」
- 2025年工程合同價格條款解析(中英文對照版)
- 2025合作伙伴合同 獨家代理合作協(xié)議
- 膽囊結(jié)石患者護理常規(guī)
- 廣州廣州市天河區(qū)華陽小學-畢業(yè)在即家校共話未來-六下期中家長會【課件】
- 公司事故隱患內(nèi)部報告獎勵制度
- 大學生創(chuàng)新創(chuàng)業(yè)基礎(chǔ)(創(chuàng)新創(chuàng)業(yè)課程)完整全套教學課件
- 2023年科技特長生招生考試試卷word
- GB/T 6283-2008化工產(chǎn)品中水分含量的測定卡爾·費休法(通用方法)
- GB/T 23468-2009墜落防護裝備安全使用規(guī)范
- 2023年北京亦莊國際投資發(fā)展有限公司招聘筆試題庫及答案解析
- ansys電磁場分析經(jīng)典教程
- 美國數(shù)學競賽AMC8講座課件
- 2020年國家義務(wù)教育質(zhì)量測查德育科目模塊一模擬試題含參考答案
- 導(dǎo)管固定-PPT課件
評論
0/150
提交評論