服務器硬件架構(gòu)_第1頁
服務器硬件架構(gòu)_第2頁
服務器硬件架構(gòu)_第3頁
服務器硬件架構(gòu)_第4頁
服務器硬件架構(gòu)_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

從性能角度來看,處理器、內(nèi)存和I/O這三個子系統(tǒng)在服務器中是最重要的,它們也是最容易出現(xiàn)性能瓶頸的地方。目前市場上主流的服務器大多使用英特爾Nehalem、Westmere微內(nèi)核架構(gòu)的三個家族處理器:Nehalem-EP,Nehalem-EX和Westmere-EP。下表總結(jié)了這些處理器的主要特性:Nehalem-EPWestmere-EPNehalem-EXNehalem-EX商業(yè)名稱至強5500至強5600至強6500至強7500支持的最插座數(shù)2228每插座最大核心數(shù)4688每插座最大線程數(shù)8121616MB緩存(3級)8121824最大內(nèi)存J5IMM數(shù)181832128在本文中,我們將分別從處理器、內(nèi)存、I/O三大子系統(tǒng)出發(fā),帶你一起來梳理和了解最新英特爾架構(gòu)服務器的變化和關(guān)鍵技術(shù)。一、處理器的演變現(xiàn)代處理器都采用了最新的硅技術(shù),但一個單die(構(gòu)成處理器的半導體材料塊)上有數(shù)百萬個晶體管和數(shù)兆存儲器。多個die組織到一起就形成了一個硅晶片,每個die都是獨立切塊,測試和用陶瓷封裝的,下圖顯示了封裝好的英特爾至強5500處理器外觀。圖1英特爾至強5500處理器插座處理器是通過插座安裝到主板上的,下圖顯示了一個英特爾處理器插座,用戶可根據(jù)自己的需要,選擇不同時鐘頻率和功耗的處理器安裝到主板上。

圖2英特爾處理器插座主板上插座的數(shù)量決定了最多可支持的處理器數(shù)量,最初,服務器都只有一個處理器插座,但為了提高服務器的性能,市場上已經(jīng)出現(xiàn)了包含2,4和8個插座的主板。在處理器體系結(jié)構(gòu)的演變過程中,很長一段時間,性能的改善都與提高時鐘頻率緊密相關(guān),時鐘頻率越高,完成一次計算需要的時間越短,因此性能就越好。隨著時鐘頻率接近4GHz,處理器材料物理性質(zhì)方面的原因限制了時鐘頻率的進一步提高,因此必須找出提高性能的替代方法。核心晶體管尺寸不斷縮小(Nehalem使用45nm技術(shù),Westmere使用32nm技術(shù)),允許在單塊die上集成更多晶體管,利用這個優(yōu)勢,可在一塊die上多次復制最基本的CPU(核心),因此就誕生了多核處理器。

現(xiàn)在市場上多核處理器已經(jīng)隨處可見,每顆處理器包含多個CPU核心(通常是2,4,6,8個),每個核心都有一級緩存(L1),通常所有的核心會共享二級(L2)、三級緩存(L3)、總線接口和外部連接,下圖顯示了一個雙核心的CPU架構(gòu)。圖3雙核心CPU架構(gòu)示意圖現(xiàn)代服務器通常提供了多個處理器插座,例如,基于英特爾至強5500系列(Nehalem-EP)的服務器通常包含兩個插座,每個插座四個核心,總共可容納八個核心,而基于英特爾至強7500系列(Nehalem-EX)的服務器通常包含八個插座,每個插座八個核心,總共可容納64個核心。下圖顯示了更詳細的雙核處理器架構(gòu)示意圖,CPU的主要組件(提取指令,解碼和執(zhí)行)都被復制,但系統(tǒng)總線是公用的。Syst-emBusROMRename/Alloc!nstru<tionFetchInstrudticinFetchaMP『白D1白士0d在SchedulersLID-CacheandD-TLBReorder0uerRetirementUnitL2Gchm豈ROMRename/Alloc!nstru<tionFetchInstrudticinFetchaMP『白D1白士0d在SchedulersLID-CacheandD-TLBReorder0uerRetirementUnitL2Gchm豈C口2ro一InstructianOu-eueDecod-eR(?name/AIIpcckPDMReorde-rBu史「

RetirementUnitStzh^dwlers圖4雙核處理器的詳細架構(gòu)示意圖線程為了更好地理解多核架構(gòu)的含義,我們先看一下程序是如何執(zhí)行的,服務器會運行一個內(nèi)核(如Linux,Windows的內(nèi)核)和多個進程,每個進程可進一步細分為線程,線程是分配給核心的最小工作單元,一個線程需要在一個核心上執(zhí)行,不能進一步分割到多個核心上執(zhí)行。下圖顯示了進程和線程的關(guān)系。

P#1圖5進程和線程的關(guān)系進程可以是單線程也可以是多線程的,單線程進程同一時間只能在一個核心上執(zhí)行,其性能取決于核心本身,而多線程進程同一時間可在多個核心上執(zhí)行,因此它的性能就超越了單一核心上的性能表現(xiàn)。因為許多應用程序都是單線程的,在多進程環(huán)境中,多插座、多核心的架構(gòu)通常會帶來方便,在虛擬化環(huán)境中,這個道理一樣正確,Hypervisor允許在一臺物理服務器上整合多個邏輯服務器,創(chuàng)建一個多進程和多線程的環(huán)境。英特爾超線程技術(shù)雖然單線程不能再拆分到兩個核心上運行,但有些現(xiàn)代處理器允許同一時間在同一核心上運行兩個線程,每個核心有多個并行工作能力的執(zhí)行單元,很難看到單個線程會讓所有資源繁忙起來。下圖展示了英特爾超線程技術(shù)是如何工作的,同一時間在同一核心上有兩個線程執(zhí)行,它們使用不同的資源,因此提高了吞吐量。ThroughpuePhwsicaI LogicalprocessorprocessorsvisibletoOSPThroughpuePhwsicaI LogicalprocessorprocessorsvisibletoOSP圖6英特爾超線程技術(shù)工作原理前端總線在多插座和多核心的情況下,理解如何訪問內(nèi)存和兩個核心之間是如何通信的非常重要,下圖顯示了過去許多英特爾處理器使用的架構(gòu),被稱作前端總線(FSB)架構(gòu)。在FSB架構(gòu)中,所有通信都是通過一個單一的,共享的雙向總線發(fā)送的。在現(xiàn)代處理器中,64位寬的總線以4倍速總線時鐘速度運行,在某些產(chǎn)品中,F(xiàn)SB信息傳輸速率已經(jīng)達到1.6GT/s。Process-orProcess-or圖7基于前端總線的服務器平臺架構(gòu)FSB將所有處理器連接到芯片組的叫做北橋(也叫做內(nèi)存控制器中樞),北橋連接所有處理器共享訪問的內(nèi)存。這種架構(gòu)的優(yōu)點是,每個處理器都可以訪問其它所有處理可以訪問的所有內(nèi)存,每個處理器都實現(xiàn)了緩存一致性算法,保證它的內(nèi)部緩存與外部存儲器,以及其它所有處理器的緩存同步。但這種方法設計的平臺要爭奪共享的總線資源,隨著總線上信號傳輸速度的上升,要連接新設備就變得越來越困難了,此外,隨著處理器和芯片組性能的提升,F(xiàn)SB上的通信流量也會上升,會導致FSB變得擁擠不堪,成為瓶頸。雙獨立總線為了進一步提高帶寬,單一共享總線演變成了雙獨立總線架構(gòu)(DIB),其架構(gòu)如下圖所示,帶寬基本上提高了一倍。圖8基于雙獨立總線的服務器平臺架構(gòu)但在雙獨立總線架構(gòu)中,緩存一致性通信必須廣播到兩條總線上,因此減少了總有效帶寬,為了減輕這個問題,在芯片組中引入了“探聽過濾器”來減少帶寬負載。如果緩存未被擊中,最初的處理器會向FSB發(fā)出一個探聽命令,探聽過濾器攔截探聽,確定是否需要傳遞探聽給其它FSB。如果相同F(xiàn)SB上的其它處理器能滿足讀請求,探聽過濾器訪問就被取消,如果相同F(xiàn)SB上其它處理器不滿意讀請求,探聽過濾器就會確定下一步的行動。如果讀請求忽略了探聽過濾器,數(shù)據(jù)就直接從內(nèi)存返回,如果探聽過濾器表示請求的目標緩存在其它FSB上不存在,它

將向其它部分反映探聽情況。如果其它部分仍然有緩存,就會將請求路由到該FSB,如果其它部分不再有目標緩存,數(shù)據(jù)還是直接從內(nèi)存返回,因為協(xié)議不支持寫請求,寫請求必須全部傳播到有緩存副本的所有FSB上。專用高速互聯(lián)在雙獨立總線之后又出現(xiàn)了專用高速互聯(lián)架構(gòu)(DedicatedHigh-SpeedInterconnect,DHSI),其架構(gòu)如下圖所示。Pro<essorPracessarProcessorProcessorChipsetMemoryInterfaceUptoPlatformElandwidthPro<essorPracessarProcessorProcessorChipsetMemoryInterfaceUptoPlatformElandwidth圖9基于DHSI的服務器平臺架構(gòu)11$你申■服罵留頻道.eB.ccirn基于DHSI的平臺使用四個獨立的FSB,每個處理器使用一個FSB,引入探聽過濾器實現(xiàn)了更好的帶寬擴容,F(xiàn)SB本身沒多大變化,只是現(xiàn)在變成點對點的配1111—7直了。使用這種架構(gòu)設計的平臺仍然要處理快速FSB上的電信號挑戰(zhàn),DHSI也增加了芯片組上的針腳數(shù)量,需要擴展PCB路線,才能為所有FSB建立好連接。英特爾QuickPath互聯(lián)隨英特爾酷睿i7處理器引入了一種新的系統(tǒng)架構(gòu),即著名的英特爾QuickPath互聯(lián)(QuickPathInterconnect,QPI),這個架構(gòu)使用了多個高速單向連接將處理器和芯片組互聯(lián),使用這種架構(gòu)使我們認識到了:

.多插座和多核心通用的內(nèi)存控制器是一個瓶頸;.引入多個分布式內(nèi)存控制器將最符合多核處理器的內(nèi)存需要;.在大多數(shù)情況下,在處理器中集成內(nèi)存控制器有助于提升性能;.提供有效的方法處理多插座系統(tǒng)一致性問題對大規(guī)模系統(tǒng)是至關(guān)重要的。下圖顯示了一個多核處理器,集成了內(nèi)存控制器和多個連接到其它系統(tǒng)資源的英特爾QuickPath的功能示意圖。DDR3網(wǎng)事Channels1nt嚙腳。KDDR3網(wǎng)事Channels1nt嚙腳。K蓼嗯頻道inter3nli團5匚心港 CoreCrossbarRouterfqfobmlNn儂rniterface(51|山=口上c口)山口E山工PSE」5g=圖10集成英特爾QPI和DDR3內(nèi)存通道的處理器架構(gòu)在這個架構(gòu)中,每個插座中的所有核心共享一個可能有多個內(nèi)存接口的IMC(IntegratedMemoryControllers,集成內(nèi)存控制器)。IMC可能有不同的外部連接:①.DDR3內(nèi)存通道-在這種情況下,DDR3DIMM直接連接到插座,如下圖所示,Nehalem-EP(至強5500)和Westmere-EP(至強5600)就使用了這種架構(gòu)。

口口酢他的yChannehMenwryChannels□工QProcessorCores你勖、眼嶗端頻遒server.it168口口酢他的yChannehMenwryChannels□工QProcessorCores你勖、眼嶗端頻遒server.it168.corn(5HOJ=oJ=co20£中Ifd圖11具有高速內(nèi)存通道的處理器②.高速串行內(nèi)存通道-如下圖所示,在這種情況下,外部芯片(SMB:ScalableMemoryBuffer,可擴展內(nèi)存緩存)創(chuàng)建DDR3內(nèi)存通道,DDR3DIMM通過這個通道連接,Nehalem-EX使用了這種架構(gòu)。Bo^Lk?fc-EXBo^Lk?fc-EXPCle2.0PCle2.0server,itl68/r/圖12四插座Nehalem-EXIMC和插座中的不同核心使用英特爾QPI相互通信,實現(xiàn)了英特爾QPI的處理器也可以完全訪問其它處理器的內(nèi)存,同時保持緩存的一致性,這個架構(gòu)也叫做“緩存一致性NUMA(Non-UniformMemoryArchitecture非統(tǒng)一內(nèi)存架構(gòu))”,內(nèi)存互聯(lián)系統(tǒng)保證內(nèi)存和所有潛在的緩存副本總是一致的。英特爾QPI是一個端到端互聯(lián)和消息傳遞方案,在目前的實現(xiàn)中,每個連接由最高速度可達25.6GB/s或6.4GT/s的20條線路組成。英特爾QPI使用端到端連接,因此在插座中需要一個內(nèi)部交叉路由器,提供全局內(nèi)存訪問,通過它,不需要完整的連接拓撲就可以構(gòu)建起系統(tǒng)了。圖12顯示了四插座Nehalem-EX配置,每個處理器有四個QPI與其它三個處理器和Boxboro-EX芯片組互聯(lián)。二、內(nèi)存子系統(tǒng)電子業(yè)在內(nèi)存子系統(tǒng)上付出了艱辛的努力,只為緊跟現(xiàn)代處理器需要的低訪問時間和滿足當今應用程序要求的高容量需求。解釋當前內(nèi)存子系統(tǒng)之前,我們先了解一下與內(nèi)存有關(guān)的一些常用術(shù)語。.RAM(隨機訪問存儲器).SRAM(靜態(tài)RAM).DRAM(動態(tài)RAM).SDRAM(同步DRAM).SIMM(單列直插式內(nèi)存模塊).口國附(雙列直插內(nèi)存模塊).UDIMM(無緩沖DIMM).RDIMM(帶寄存器的DIMM).口口區(qū)(雙數(shù)據(jù)速率SDRAM).DDR2(第二代DDR)DDR3(第三代DDR)電子器件工程聯(lián)合委員會(JointElectronDeviceEngineeringCouncil,JEDEC)是半導體工程標準化機構(gòu),JEDEC21,22定義了從256位SRAM到最新的DDR3模組的半導體存儲器標準?,F(xiàn)代服務器的內(nèi)存子系統(tǒng)是由RAM組成的,允許數(shù)據(jù)在一個固定的時間按任意順序訪問,不用考慮它所在的物理位置,RAM可以是靜態(tài)的或動態(tài)的。

SRAMSRAM(靜態(tài)RAM)通常非??欤菵RAM的容量要小,它們有一塊芯片結(jié)構(gòu)維持信息,但它們不夠大,因此不能作為服務器的主要內(nèi)存。DRAMDRAM(動態(tài)RAM)是服務器的唯一選擇,術(shù)語“動態(tài)”表示信息是存儲在集成電路的電容器內(nèi)的,由于電容器會自動放電,為避免數(shù)據(jù)丟失,需要定期充電,內(nèi)存控制器通常負責充電操作。SDRAMSDRAM(同步DRAM)是最常用的DRAM,SDRAM具有同步接口,它們的操作與時鐘信號保持同步,時鐘用于驅(qū)動流水線內(nèi)存訪問的內(nèi)部有限狀態(tài)機,流水線意味著上一個訪問未結(jié)束前,芯片可以接收一個新的內(nèi)存訪問,與傳統(tǒng)DRAM相比,這種方法大大提高了SDRAM的性能。DDR2和DDR3是兩個最常用的SDRAM,下圖顯示了一塊DRAM芯片的內(nèi)部結(jié)構(gòu)?!觥鯯itLines**,頻適不自購r.itl展SenseAmpsColumnD&coder■■SitLines**,頻適不自購r.itl展SenseAmpsColumnD&coderofPCD呂Memory4『付丫圖13DRAM芯片的內(nèi)部結(jié)構(gòu)內(nèi)存陣列是由存儲單元按矩陣方式組織組成的,每個單元都一個行和列地址,每一位都是存儲在電容器中的。

為了提高性能,降低功耗,內(nèi)存陣列被分割成多個“內(nèi)存庫(bank)”,下圖顯示了一個4-bank和一個8-bank的內(nèi)存陣列組織方式。DRAMColufYimDecorJor工-XuDatain/OufBuersg招WOuiBuenSenseAmpsMemory

ArrayDRAMColufYimDecorJor工-XuDatain/OufBuersg招WOuiBuenSenseAmpsMemory

ArrayCotumciD?cad(?f妒嘴群?cl圖14內(nèi)存bankDDR2芯片有四個內(nèi)部內(nèi)存bank,DDR3芯片有八個內(nèi)部內(nèi)存bank。DIMM需要將多個內(nèi)存芯片組裝到一起才能構(gòu)成一個內(nèi)存子系統(tǒng),它們就是按著名的口國兇(雙列直插內(nèi)存模塊)組織的。下圖顯示了內(nèi)存子系統(tǒng)的傳統(tǒng)組織方式,例如,內(nèi)存控制器連接四個DIMM,每一個由多塊DRAM芯片組成,內(nèi)存控制器有一個地址總線,一個數(shù)據(jù)總線和一個命令(也叫做控制)總線,它負責讀,寫和刷新存儲在DIMM中的信息。圖15傳統(tǒng)內(nèi)存子系統(tǒng)示例下圖展示了一個內(nèi)存控制器與一個DDR3DIMM連接的示例,該DIMM由八塊DRAM芯片組成,每一塊有8位數(shù)據(jù)存儲能力,每存儲字(內(nèi)存數(shù)據(jù)總線的寬度)則共有64位數(shù)據(jù)存儲能力。地址總線有15位,它可在不同時間運送“行地址”或“列地址”,總共有30個地址位。此外,在DDR3芯片中,3位的bank地址允許訪問8個bank,可被視作提高了控制器的地址空間總?cè)萘?,但即使?nèi)存控制器有這樣的地址容量,市面上DDR3芯片容量還是很小。最后,RAS(RowAddressSelection,行地址選擇),CAS(ColumnAddressSelection,列地址選擇),WE(WriteEnabled,寫啟用)等都是命令總線上的。

圖16DDR3內(nèi)存控制器示例下面是一個DIMM的示意圖。圖17DIMM示意圖上圖顯示了8個DDR3芯片,每個提供了8位信息(通常表示為圖16DDR3內(nèi)存控制器示例下面是一個DIMM的示意圖。圖17DIMM示意圖上圖顯示了8個DDR3芯片,每個提供了8位信息(通常表示為x8)。ECC和Chipkill數(shù)據(jù)完整性是服務器架構(gòu)最關(guān)注的一個點,很多時候需要安裝額外的DIMM檢測和恢復內(nèi)存錯誤,最常見的辦法是增加8位ECC(糾錯碼),將存儲字從64位擴大到72位,就象海明碼一樣,允許糾正一位錯誤,檢測兩位錯誤,它們也被稱作SEC(SingleErrorCorrection,單糾錯)/DED(DoubleErrorDetection,雙檢錯)。加皿55:40]Da詞班30Addre?Bank【砌RASE與CA4*WEf,CSff,CKEck,m你的T服勢弱頻遒4出口口口12/4訓|口?.第;j[5耳1431;2用加助StrobeDataMa$k125H.i用J-3[635.cam1.D1Q|J5.65I如hg司多能頻道s&ryer.it16S先組織存儲字再寫入到內(nèi)存芯片中,EEC可以用于保護任一內(nèi)存芯片的失效,以及單內(nèi)存芯片的任意多位錯誤,這些功能有幾個不同的名字。.Chipkill是IBM的商標.Oracle稱之為擴展EEC.惠普稱之為Chipspare.英特爾有一個類似的功能叫做x4單設備數(shù)據(jù)校正(Intelx4SDDC)Chipkill通過跨多個內(nèi)存芯片位散射EEC字的位實現(xiàn)這個功能,任一內(nèi)存芯片失效只會影響到一個ECC位,它允許重建內(nèi)存中的內(nèi)容。下圖了顯示了一個讀和寫128位數(shù)據(jù)的內(nèi)存控制器,增加EEC后就變成144位了,144位分成4個36位的存儲字,每個存儲字將是SEC/DED。如果使用兩個DIMM,每個包含18個4位芯片,可以按照下圖所示的方法重組位,如果芯片失效,每4個字中只會有一個錯誤,但因為字是SEC/DED的,每4個字可以糾正一個錯誤,因此所有錯誤都可以被糾正過來。Divide-144bitslr^to4words144b36bwordUbword36bward36bw*rdinterleave-1heModulesuehthat白3匕卜wordcoBiains1biLfromeachkAmcsdulewardword36bwarditbword|>4]淄甲?巡今器頻溫serve圖18Chipkill示例內(nèi)存Rank我們重新回到DIMM是如何組織的,一組產(chǎn)生64位有用數(shù)據(jù)(不計ECC)的芯片叫做一個Rank,為了在DIMM上存儲更多的數(shù)據(jù),可以安裝多個Rank,目前有單,雙和四個Rank的DIMM,下圖顯示了這三種組織方法。

-4b5『rrg拒-rm很■72b?AbDual-rank1.4bI4L-4b5『rrg拒-rm很■72b?AbDual-rank1.4bI4L)卿的:脂條嘴頻道7s^rver.itl68,com■SbI..Jr興 -1.4L圖19DIMM和內(nèi)存排i.qb上圖最前面顯示的是一個單Rank的RAM,由9個8位芯片組成,一般表示為1Rx8,中間顯示的是一個1Rx4,由18個4位芯片組成,最后顯示的是一個2Rx8,由18個8位芯片組成。內(nèi)存Rank不能使用地址位選擇,只能使用芯片選擇,現(xiàn)代內(nèi)存控制器最多可達8個獨立的芯片選擇,因此最大可支持8個Rank。UDIMM和RDIMMSDRAMDIMM進一步細分為UDIMM(無緩沖DIMM)和RDIMM(帶寄存器的DIMM),在UDIMM中,內(nèi)存芯片直接連接到地址總線和控制總線,無任何中間部分。RDIMM在傳入地址和控制總線,以及SDRAM之間有額外的組件(寄存器),這些寄存器增加了一個延遲時鐘周期,但它們減少了內(nèi)存控制器上的電負荷,允許內(nèi)存控制器安裝更多的DIMM。RDIMM通常更貴,因為它需要附加組件,但它們在服務器中得到了普遍使用,因為對于服務器來說,擴展能力和穩(wěn)定性比價格更重要。雖然理論上帶寄存器/無緩沖的和ECC/非ECCDIMM是可以任何組合的,但大多數(shù)服務器級內(nèi)存模塊都同時具有ECC和帶寄存器功能。

下圖顯示了一個ECCRDIMM,寄存器是箭頭指向的芯片,這個ECCDIMM由9個內(nèi)存芯片組成。圖20ECCRDIMMDDR2和DDR3第一代SDRAM技術(shù)叫做SDR(SingleDataRate),表示每個時鐘周期傳輸一個數(shù)據(jù)單元,之后又出現(xiàn)了DDR(DoubleData區(qū)2{《)標準,其帶寬幾乎是SDR的兩倍,無需提高時鐘頻率,可在時鐘上升沿和下降沿信號上同時傳輸數(shù)據(jù),DDR技術(shù)發(fā)展到今天形成了兩套標準:DDR2和DDR3。DDR2SDRAM的工作電壓是1.8V,采用240針DIMM模塊封裝,通過改善總線信號,它們可以以兩倍于DDR的速度工作在外部數(shù)據(jù)總線上,規(guī)則是:.每DRAM時鐘數(shù)據(jù)傳輸兩次.每次數(shù)據(jù)傳輸8個字節(jié)(64位)下表顯示了口口區(qū)2標準。表2.DDR2DIMM標準名稱DRAM時鐘頻率每秒傳輸?shù)臄?shù)據(jù)(百萬)模塊名稱峰值傳輸速率GB/sDDR2-400200MHz400PC2-32003.200DDR2-533266MHz533PC2-42004.266DDR2-667333MHz667PC2-5300PC2-54005.333DDR2-800400MHz800PC2-64006.400DDR2-1066533MHz1,066PC2-8500 PC2-86008.533DDR3SDRAM在DDR2的基礎上對以下這些方面做了改進:①.將工作電壓降低到1.5v,減少功耗;.通過引入0.5-8Gb的芯片增加了內(nèi)存密度,單Rank的容量最大可達16GB;.增加了內(nèi)存帶寬,內(nèi)存突發(fā)長度從4字增加到8字,增加突發(fā)長度是為了更好地滿足不斷增長的外部數(shù)據(jù)傳輸速率,隨著傳輸速率的增長,突發(fā)長度(傳輸?shù)拇笮?必須增長,但不能超出DRAM核心的訪問速度。DDR3DIMM有240針,數(shù)量和尺寸都和DDR2一樣,但它們在電氣特性上是不兼容的,缺口位置不一樣,未來,DDR3將工作在更快的時鐘頻率,目前,市面上存在DDR3-800,1066和1333三種類型。下表對不同的DDR3DIMM模塊進行了總結(jié)。表3.DDR3DIMM標準名稱RAM時鐘頻率每秒傳輸?shù)臄?shù)據(jù)(百萬)塊名稱峰值傳輸速率GB/sDDR3-800400MHz800PC3-64006.400DDR3-1066533MHz1,066PC3-85008.533DDR3-1333667MHz1,333PC3-1060010.667DDR3-1600800MHz1,600PC3-1280012.800DDR3-1866933MHz1,866PC3-1490014.900三、I/O子系統(tǒng)I/O子系統(tǒng)負責在服務器內(nèi)存和外部世界之間搬運數(shù)據(jù),傳統(tǒng)上,它是通過服務器主板上兼容PCI標準的I/O總線實現(xiàn)的,開發(fā)PCI的目的就是讓計算機系統(tǒng)的外圍設備實現(xiàn)互聯(lián),PCI的歷史非常悠久,現(xiàn)在最新的進化版叫做PCI-Express。外圍組件互聯(lián)特殊興趣小組(PeripheralComponentInterconnectSpecialInterestGroup,PCI-SIG)負責開發(fā)和增強PCI標準。PCIExpressPCIExpress(PCIe)是一個計算機擴展接口卡格式,旨在替代PCI,PCI-X和AGP。它消除了整個所有I/O引起的限制,如服務器總線缺少I/O帶寬,目前所有的操作系統(tǒng)都支持PCIExpress。上一代基于總線拓撲的PCI和PCI-X已經(jīng)被點到點連接取代,由此產(chǎn)生的拓撲結(jié)構(gòu)是一個單根聯(lián)合體的樹形結(jié)構(gòu),根聯(lián)合體負責系統(tǒng)配置,枚舉PCIe資源,管理中斷和PCIe樹的錯誤。根聯(lián)合體和它的端點共享一個地址空間,通過內(nèi)存讀寫和中斷進行通信。PCIe使用點到點鏈接連接兩個組件,鏈接由N個通道組成,每個通道包含兩對電路,一對用于傳輸,另一對用于接收。南橋(也叫做ICH:I/OControllerHub)通常會提供多個PCIe通道實現(xiàn)根聯(lián)合體的功能。每個通道連接到—個PCIExpress端點,—個PCIExpressSwitch,—個PCIe或一個PCIe橋,如下圖所示。圖21PCIExpress根聯(lián)合體根據(jù)通道編號使用不同的連接器,下圖顯示了四個不同的連接器,及單/雙向時的速度。

PCIExpress.Ejarmp/eCo口門e匚tcr5圖22PCIExpress連接器在PCIel.1中,通道運行在2.5Gbps,可同時部署16條通道,如下圖所示,可支持的速度從2Gbps(1x)到32Gbps(16x),由于協(xié)議開銷,支持10GE接口需要8x0TraniSiFerRateXl1Ltne:-1bicPCIe-CardTransferR^[e / Tran&r$rRat?工Umhh工品 f xl2>3 =>\ZMpfirqnJi:1,--> ■, jpPCIeCrd KitCini陽的t服務割頻宦上時血41眈.0皿圖23PCIExpress通道PCIe2.0(也叫第二代PCIe)帶寬提升了一倍,從2Gbit/s提高到4Gbit/s,通道數(shù)量也擴大到了32x,PCIe4x就足以支持106£了。PCIe3.0將會再增加一倍帶寬,最終的PCIe3.0規(guī)范預計會在2010年年中發(fā)布,到2011年就可看到支持PCIe3.0的產(chǎn)品,PCIe3.0能有效地支持40GE(下一代以太網(wǎng)標準)。目前所有的PCIExpress產(chǎn)品都是單根的(SingleRoot,SR),如控制多個端點的單I/O控制器中樞(ICH)。多根(MultiRoot,MR)也發(fā)展了一段時間,但目前還未見到曙光,由于缺少元件和關(guān)注,目前還有諸多問題。SR-IOV(SingleRootI/OVirtualization,單根I/O虛擬化)是PCI-SIG開發(fā)的另一個相關(guān)標準,主要用于連接虛擬機和Hypervisor。四、英特爾微架構(gòu)英特爾Nehalem和Westmere微架構(gòu),也被稱為32和45nm酷睿微架構(gòu)。Nehalem微架構(gòu)于2009年初引入了服務器,也是第一個使用45nm硅技術(shù)的架構(gòu),Nehalem處理器可應用于高端桌面應用程序,超大規(guī)模服務器平臺等,代號名來源于美國俄勒岡州的Nehalem河。根據(jù)英特爾的說法,處理器的發(fā)展速度就象嘀嗒(TickandTock)鐘聲的節(jié)奏一樣,如下圖所示,Tick是對現(xiàn)有處理器架構(gòu)進行縮小,而Tock則是在前一代技術(shù)上發(fā)展起來的全新架構(gòu),Nehalem就是45nm的Tock,Westmere就是緊跟Nehalem的32nmTick。SandyMeromPenrynNehalemWestmereBridgeNEWNEWNEWNEWNEWMicroirchit?ciur@ProcessProcess.Mici-oarchiftectuw65nm45nm45nm32nmTockTkkTock 你爭膻^頻遒聒濯酊圖24英特爾“嘀嗒”處理器開發(fā)模式Nehalem和Westmere在不同需求之間取得了平衡:①.與新興應用程序(如多媒體)相比,現(xiàn)有應用程序的性能;.對輕量級或重量級應用程序的支持同樣良好;.可用范圍從筆記本到服務器全包括。平臺架構(gòu)這可能是近10年來英特爾最大的平臺架構(gòu)轉(zhuǎn)變,包括多個高速點到點連接,如英特爾的QuickPath互聯(lián),集成內(nèi)存控制器(IMC)等。下圖顯示了一個雙插座英特爾至強5500(Nehalem-EP)系統(tǒng)示例,請注意CPU插座之間,以及CPU插座與I/O控制器之間的QPI鏈接,內(nèi)存DIMM直接附加到CPU插座。ICH(I/OControllerHub),蕓的■服靜器頻通場新甘才工1E;a-.tizim圖25雙插座英特爾至強5500(Nehalem-EP)集成內(nèi)存控制器(IMC)在Nehalem-EP和Westmere-EP中,每個包含集成內(nèi)存控制器(IMC)的插座支持三個DDR3內(nèi)存通道,與DDR2相比,DDR3內(nèi)存運行在更高的頻率,因此它具有更高的內(nèi)存帶寬。此外,對于雙插座架構(gòu),有兩套內(nèi)存控制器,所有這些改進與前一代英特爾平臺相比,帶寬提高了3.4倍,如下圖所示。

33376333763.4XstreamBandwidthNtbyteai/SecfTriad)3.4X6102’溫EHg版f那急聲哪邕藏盟隰比巾'圖26RAM帶寬隨著時間的推移,帶寬以后還會繼續(xù)增加,有了集成的內(nèi)存控制器后,延遲也減小了。其功耗也減少了,因為DDR3的工作電壓是1.5V,DDR2是1.8V,功耗與電壓的平方成正比,因此電壓降低20%,功耗就減少40%。最后,IMC支持單,雙和四RankRDIMM和UDIMM。Nehalem-EX有一個類似的,但不完全相同的架構(gòu),在Nehalem-EX中,每個插座有兩個IMC,每個IMC支持兩個英特爾可擴展內(nèi)存互聯(lián)(ScalableMemoryInterconnects,SMI)連接到兩個可擴展內(nèi)存緩沖區(qū)(ScalableMemoryBuffers,SMB),每個插座就可以連接到四個SMB,如下圖所示,每個SMB有兩個DDR3總線,每條總線連接到兩個DIMM,因此每個插座可連接的RDIMM總量就是16。2xDDR34xSMINehalem-EX

7500/650。你的4xSMINehalem-EX

7500/650。你的圖27SMI/SMBNehalem-EX系統(tǒng)的總內(nèi)存容量與插座數(shù)量,以及RDIMM的容量總結(jié)如下表所示。表4.Nehalem-EX內(nèi)存容量4GBRDIMM8GBRDIMM16GBRDIMM2sockets128GB256GB512GB4sockets256GB512GB1TB8sockets512GB1TB2TB英特爾QuickPath互聯(lián)(QPI)所有的通信架構(gòu)都從總線架構(gòu)向點到點連接演變,因為點到點連接架構(gòu)具有更快的速度,更好的擴展性,在Nehalem中,英特爾QuickPath互聯(lián)已經(jīng)取代了前端總線,如下圖所示。

20D^taLanes+flockinEachDirection84TotalSignal=Ltnk ,一D:irniNPairHEjILmtljLan。I20D^taLanes+flockinEachDirection84TotalSignal=Ltnk ,一D:irniNPairHEjILmtljLan。I 二???FwdClk19TXLanesTXLanesneLu00ch-KrbrQP-PW-;Rad£lkCfoe1<招%由6Tglt打打商的,I server.it1S8.com圖28英特爾QPI英特爾QuickPath互聯(lián)是一個一致的點到點協(xié)議,不局限于任何特定的處理器,可在處理器,I/O設備和其它設備,如加速器之間提供通信??捎玫腝PI數(shù)量取決于處理器的類型,在Nehalem-EP和Westmere-EP中,每個插座有兩個QPI,如圖25所示,Nehalem-EX支持四個QPI,允許更多無縫的拓撲結(jié)構(gòu),如下圖所示。f \4ProcessorsSProcessorsGiuetess3pc?「,atinop2hopsIOHU8f \4ProcessorsSProcessorsGiuetess3pc?「,atinop2hopsIOHU8柞兇■服務輯工高遒、好rvcr.MEE:am圖29Nehalem-EX拓撲結(jié)構(gòu)英特爾至強7500處理器也與第三方節(jié)點控制器兼容,可以擴大到8個插座以外,實現(xiàn)更大規(guī)模的擴展。CPU架構(gòu)在Nehalem中,英特爾通過一些技術(shù)革新,增加了每個CPU每秒執(zhí)行的指令數(shù),如下圖所示。L10用口E由RPagingBranch^diitianfmtrtmianDecode&MicrocodeL2CacheServicingL10用口E由RPagingBranch^diitianfmtrtmianDecode&MicrocodeL2CacheServicingExecutionMemoryOrdwi.Oul-Gf-Or(f<rSth^cfuting良Fletir^mentInstructionFeJcfr&L7Cache口。BuffenImprowedLock AddirtonGiCactiingSupport HierarchySimultaneodjs FflEi?r BetterSiunctiMulti-Treading 舊施物畸器頻茴薛蹄嬲心皿圖30Nehalem微架構(gòu)創(chuàng)新

其中有些創(chuàng)新是不言自明的,我們將集中介紹最重要的性能和功耗方面的創(chuàng)新。在比較性能和功耗時,通常是1%的性能增強就會增多3%的功耗,因為減少1%的電壓,功耗幾乎總是降低3%。英特爾最重要的創(chuàng)新就是增強1%的性能,而功耗僅增多了1%。英特爾超線程技術(shù)英特爾超線程技術(shù)(HT)可在相同內(nèi)核上同時運行多個線程,在Nehalem/Westmere中實現(xiàn)了兩個線程,提高了性能和能源效率。超線程的基本思想是增加每個執(zhí)行單元的復雜度,對于單線程,要保持執(zhí)行單元繁忙是很困難的,通過在相同核心上運行兩個線程,讓所有資源保持忙碌的可能性更大,這樣整體效率就提高了,如下圖所示,超線程使用的領(lǐng)域非常有限(不到5%),但在多線程環(huán)境中極大地提高了效率,超線程也不能取代多核心,它是對核心的合理補充。CoreCoreCoreCoreNehdlem伽的.據(jù)牖溫解腰帶的圖31英特爾超線程技術(shù)緩存分級一個理想的內(nèi)存系統(tǒng)的需求是它應該有無限的容量,無限的帶寬和零延遲,當然沒有人知道如何構(gòu)建這樣的系統(tǒng),最接近的方法是使用分級的內(nèi)存子系統(tǒng),從大到小,從慢到快設計緩存級別,在Nehalem中,英特爾將緩存層增加到了3層,如下圖所示。£密CCL-fiCoreCore[32山1?皿牛][MNL1Lu舊匚he]翼乜TJra加[彳2AL1Dtisuhe][瀏11d皿力q[aiALJD匚6g]r32kLTD-cache[1256kL2c-xhedma+g.Jdaro+Iflsr.data+加注?5砧L2tuche【一Fivoilappiistions fnduiiveeachepolicyfotoshare m相麗/鴕[聞所c描minDifps你的■服務器頻道server.it1SSjcom圖32緩存分級結(jié)構(gòu)與英特爾以前的設計相比,一級緩存(L1,指令和數(shù)據(jù))沒有發(fā)生變化,在英特爾過去的設計中,所有內(nèi)核共享二級緩存(L2),如果核心數(shù)量限制為2,那這種設計倒是可行的,但Nehalem將核心數(shù)增加到了4或8,二級緩存不能再繼續(xù)共享下去,因為帶寬和仲裁請求都會變多(可能會達到8倍),為此,英特爾在Nehalem中為每個核心獨立增加了二級緩存(指令和數(shù)據(jù)),現(xiàn)在核心之間共享的只有三級緩存93)了。模塊Nehalem采用了模塊化設計,核心,緩存和英特爾QPI都是組成Nehalem處理器的模塊實例,如圖30所示。這些模塊都是獨立設計的,它們可以工作在不同頻率,不同電壓下,將模塊粘接在一起的是一種新的同步通信協(xié)議,它提供了非常低的延遲,以前曾嘗試過異步協(xié)議,事實證明那樣做的效率非常低。集成功率門限這是一種電源管理技術(shù),它是“時鐘門控”技術(shù)的進化版本,所有現(xiàn)代英特爾處理器都使用了時鐘門控技術(shù),遇到空閑邏輯時,時鐘門控會自動關(guān)閉時鐘信號,從而消除了開關(guān)電源,但仍然存在漏電流,漏電流引起了無用的功耗。

功率門控代替了時鐘門控,讓一個空閑的核心消耗的電力幾乎為零,如下圖所示,對于軟件和應用程序來說這完全是透明的。Voltage(Core?)CareO匚白伯1Care?匚aruH0y5忸岫C^the,I/OVo^ge[斛J幅麴端*打出/r/圖33Nehalem功率門控y電alow附由館打第package-likemetaldepositedonSiliconTocreatelowon-resistancepowerga〔白y電alow附由館打第package-likemetaldepositedonSiliconTocreatelowon-resistancepowerga〔白$*亳也力1泣自力附陋市卜力自令

transistordevelopedforhigh

off-resistancefor作的■服冬疆頻道3Zcr.淚6&.com圖34功率門控晶體管Nehalem-EP和Westmere-EP都擁有“動態(tài)的”功率門控能力,當核心不需要執(zhí)行工作負載時,它可以完全關(guān)掉電源,當工作負載需要核心的計算能力時,核心的電源又重新激活。Nehalem-EX擁有“靜態(tài)的”功率門控功能,當個別核心失去工作能力時,核心電源被完全關(guān)閉,例如,當8核心變成6核心時,這些被停用的核心不能重

新打開。對于前一代處理器,在工廠中停用的核心仍然會消耗一些電力,但在Nehalem-EX中,電源是完全關(guān)閉的。電源管理功率傳感器是建設電源管理系統(tǒng)的關(guān)鍵,上一代英特爾處理器內(nèi)置有熱傳感器,但沒有功率傳感器,Nehalem既有熱傳感器又有功率傳感器,通過集成的微控制器(PCU)負責電源管理和監(jiān)控,如下圖所示。in^egr^tedproprietarymicroconin^egr^tedproprietarymicrocon(rollerShifuconLralfromhardwaretoemhedldedftrmwsreReallimasemisforternperjcute,currenLpowerFlexibtliiyc忤mBI白ssophiiticaredalgonthims,tun^dforeurrenioperatingconditions,眼若黑頻遒.aerve^itlGff.cpm圖35圖35電源控制單元(PowerControlUnit,PCU)英特爾TurboBoost技術(shù)功率門控和電源管理是英特爾TurboBoost技術(shù)的基礎組件,當操作系統(tǒng)需要更好的性能時可以使用英特爾的TurboBoost模式,如果條件允許(足夠的制冷和供電能力),例如,因為一或多個核心被關(guān)閉,英特爾TurboBoost會提高活動核心的頻率(以及功耗),從而提高核心的性能,如下圖所示,但它算不上一個巨大的改進(3%-11%),但在無線程,不是所有核心都被并行使用的環(huán)境中,它還是很有價值的。每上升一步,頻率提高133Mhz。

「心「Em!4cTurbo<4CTurboAllcoresrat-efrequencyAficores「心「Em!4cTurbo<4CTurboAllcoresrat-efrequencyAficores F2V旭fc&res卯軟班口「 mayoperare加圖36英特爾TurboBoost技術(shù)上圖顯示了三個不同的可能性,正常情況下,所有核心都運行在標稱頻率(2.66GHz),在“4CTurbo”模式下,所有核心的頻率上升一步(達到了2.79GHz),在“<4CTurbo”模式下,兩個核心的頻率上升了兩步(達到了2.93GHz)。四、硬件輔助虛擬化英特爾虛擬化技術(shù)(VirtualizationTechnology,VT)擴展了核心平臺架構(gòu),可以更好地支持虛擬化軟件,如VM(虛擬機)和Hypervisor(也叫做虛擬機監(jiān)視器),如下圖所示。ApptJentionsCPU.Metnary.iV訛皿也Appli-cafionsCPUMemory.JQrPifkIApptJentionsCPU.Metnary.iV訛皿也Appli-cafionsCPUMemory.JQrPifkIVirtualMsrhinpMonitorfVMM)也同mHardware(Ph/般副履黜爵像器(圖37虛擬化支持VT包含四個主要的組件:.英特爾VT-x指的是英特爾64和IA32處理器中所有的虛擬化輔助技術(shù);.英特爾VT-d指的是英特爾芯片組中所有虛擬化輔助技術(shù);.英特爾VT-c指的是英特爾網(wǎng)絡和I/O設備中所有虛擬化輔助技術(shù);.簡化虛擬機移動的VTFlexMigration。a)英特爾VT-x增強的功能包括:.一個新的,更高特權(quán)的Hypervisor-允許客戶機操作系統(tǒng)和應用程序運行在他們設計的特權(quán)級別中,確保Hypervisor有權(quán)控制平臺資源;.基于硬件的轉(zhuǎn)移-在Hypervisor和客戶機操作系統(tǒng)之間轉(zhuǎn)移在硬件級得到了支持,減少了復雜的,計算密集的軟件轉(zhuǎn)換需求;.基于硬件的內(nèi)存保護-處理器狀態(tài)信息在專用地址空間為Hypervisor和每個客戶機操作系統(tǒng)保留著。此外,Nehalem還增加了:.EPT(ExtendedPageTable,擴展頁表).VPID(VirtualProcessorID,虛擬處理器ID).客戶機計時器優(yōu)先(GuestPreemptionTimer).描述符表退出(DescriptorTableExiting).英特爾虛擬化技術(shù)FlexPriority.暫停退出循環(huán)(PauseLoopExiting)VTFlexMigrationFlexMigration允許在不同指令集處理器之間移動VM,它是通過同步所有處理器都支持的最小指令集來實現(xiàn)的。當VM第一次實例化時,它會查詢處理器獲取指令集水平(SSE2,SSE3,SSE4),處理器返回商定的最低指令集水平,而不是處理器本身支持的指令集水平,這樣就允許VMotion在不同指令集處理器之間移動VM了。

擴展頁表(EPT)EPT是一種新的處于Hypervisor控制下的頁表結(jié)構(gòu),如下圖所示,它定義了客戶機地址和宿主物理地址之間的映射。QSfeise EPrease口國門女e PointerV

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論