英特爾、AMD下一代處理器架構(gòu)解析_第1頁(yè)
英特爾、AMD下一代處理器架構(gòu)解析_第2頁(yè)
英特爾、AMD下一代處理器架構(gòu)解析_第3頁(yè)
英特爾、AMD下一代處理器架構(gòu)解析_第4頁(yè)
英特爾、AMD下一代處理器架構(gòu)解析_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

沒(méi)錯(cuò),英特爾、AMD又到了產(chǎn)品升級(jí)換代的時(shí)候了。英特爾的Tick-Tock到了Tock這一步,新產(chǎn)品Haswell箭在弦上;AMD雖然暫時(shí)落后一局,但新的壓路機(jī)也是曙光在前,蓄勢(shì)待發(fā)。那么,究竟Haswell和壓路機(jī)都有哪些改進(jìn)?英特爾和AMD的競(jìng)爭(zhēng)又會(huì)開(kāi)發(fā)出哪些新技術(shù)呢?本文將帶你提前了解英特爾和AMD的下一代處理器架構(gòu)。Haswell 小改進(jìn),大步伐從英特爾發(fā)布了基于CoreMicroarchitecture(酷睿微架構(gòu))的Core2Duo系列到現(xiàn)在,英特爾對(duì)處理器內(nèi)部核心架構(gòu)的改進(jìn)并不算大。從Core2Duo,到NehalemCorei7,然后到Westmere、SandyBridge直到今天的IvyBridge,CPU微架構(gòu)都可以算作是酷睿微架構(gòu)的繼承和發(fā)展,更多的變化則是工藝、總線(xiàn)、緩存等外圍部件。在IvyBridge后,英特爾執(zhí)行的是’Tick-Tock”中的“Tock”戰(zhàn)略,這意味著IvyBridge的繼承人"Haswell”所面對(duì)的目標(biāo)是"使用成熟工藝,升級(jí)CPU架構(gòu)”。除了處理器外,Haswell處理器將搭配代號(hào)為L(zhǎng)ynxPoint的主板芯片組,組成SharkBay計(jì)算平臺(tái)。Tick/TockDevelopmentModelTICKUmsHEllCPUF日Eil¥22nmProcess7ednnolug*NEWIntel"Mlcr^srchitertuiie(Nehalem)newIntelMiCn^arthiteCtur^(SandyBridge^TICKUmsHEllCPUF日Eil¥22nmProcess7ednnolug*NEWIntel"Mlcr^srchitertuiie(Nehalem)newIntelMiCn^arthiteCtur^(SandyBridge^MEWrntEiMl-trO^rthil良Cfur■&fHawaii)45nmProceuTechnology1FrGCtssT^chnOlO^yTOOCTOCKTICKBuildsuponInnovations的the2ndand3rdGenerationIntel?Core?J3/£Haswell屬于Tock部分,工藝不變(實(shí)際上也升級(jí)了),架構(gòu)進(jìn)步。從目前掌握的消息來(lái)看,Haswell相比SandyBridge來(lái)說(shuō),在CPU架構(gòu)方面改進(jìn)最大的當(dāng)屬加入了新的、有利于多線(xiàn)程執(zhí)行的TSX擴(kuò)展,以及大幅度提升整數(shù)計(jì)算性能的AVX2.0技術(shù)。除此之外,Haswell在工藝方面也有所改進(jìn),當(dāng)然CPU內(nèi)部一些組件也會(huì)做出微小調(diào)整,但對(duì)整個(gè)CPU架構(gòu)的影響不大。另外,在集成圖形處理器方面,Haswell的圖形性能會(huì)有比較明顯的增長(zhǎng),EU單元數(shù)量會(huì)增加,功能上會(huì)進(jìn)一步支持DirectX11.1。在結(jié)構(gòu)和擴(kuò)展性能方面,Haswell在接口、封裝模式上會(huì)做出一系列改動(dòng),CPU內(nèi)部集成的電壓控制單元會(huì)有改進(jìn),芯片組方面會(huì)采用更新的8系列芯片組。對(duì)玩家的一個(gè)好消息是,Haswell有望實(shí)現(xiàn)一定幅度的自由超外頻。ACanonicalIntel?TSXExecutionThread1Thread2OJE

匚AcquireReleaseCriticalsectionAcquireCriticalsectionReleaseThread1Thread2OJE

匚AcquireReleaseCriticalsectionAcquireCriticalsectionReleaseNoserializationandnocommunicationifnoconflictsLni:已Lni:已I滋TranHC±ana£^vncnrnniKBti口口Extenslcns<Cntri*TSX]微型計(jì)S?機(jī)鬥山&匚英特爾在IDF2012會(huì)議中對(duì)TSX擴(kuò)展的解釋。TSX和TSX和AVX2.0進(jìn)主Haswell的CPU架構(gòu)改進(jìn)Haswell的CPU架構(gòu)改進(jìn)主要集中在對(duì)CPU應(yīng)用的改進(jìn)上,本身硬件基礎(chǔ)如傳統(tǒng)的四發(fā)射設(shè)計(jì)、分支預(yù)測(cè)、內(nèi)存控制器、緩存設(shè)計(jì)等部分的改進(jìn)都比較小。因此本文的介紹重點(diǎn)也會(huì)集中在Haswell新增的TSX和AVX2.0功能上。可用、安全的細(xì)粒度線(xiàn)程鎖定一一TSX擴(kuò)展說(shuō)起TSX的功能,先要從CPU超線(xiàn)程技術(shù)講起。CPU超線(xiàn)程技術(shù)的主要目的是在CPU的一個(gè)處理核心中,同時(shí)運(yùn)行多個(gè)線(xiàn)程。這項(xiàng)技術(shù)的思想來(lái)源甚至可以追溯到上個(gè)世紀(jì)90年代的“指令并行化”思想。從技術(shù)發(fā)展的角度來(lái)看,類(lèi)似“指令并行化”在發(fā)展過(guò)程中出現(xiàn)了諸如粗粒度多線(xiàn)程(Coarse-GrainedMulti-Threading)、細(xì)粒度多線(xiàn)程(Fine-GrainedMulti-Threading)和同步多線(xiàn)程(SimultaneousMulti-Threading)等多種方式,這些方式各有特色,也各有優(yōu)劣。

所謂粗粒度多線(xiàn)程,是指在單一線(xiàn)程操作過(guò)程中,如果遇到某線(xiàn)程長(zhǎng)時(shí)間延遲,那么立刻將此線(xiàn)程鎖定并切換到另一線(xiàn)程,執(zhí)行完后再切換回來(lái)。舉個(gè)例子來(lái)說(shuō),粗粒度多線(xiàn)程類(lèi)似于如下情況:在公用服務(wù)器上有一個(gè)文件夾,里面有100個(gè)文件。當(dāng)A用戶(hù)修改文件夾中任何一個(gè)文件時(shí),整個(gè)文件夾會(huì)被鎖定并進(jìn)入只讀狀態(tài),當(dāng)B用戶(hù)要訪(fǎng)問(wèn)文件夾時(shí),他只能讀取、復(fù)制文件夾內(nèi)的文件,但無(wú)法修改。HaswellNewComputeInstructions*IntersAdvancedVectorExtensions2(Intd?AVX2)-Includes256"bltintegerveet&re*IntersAdvancedVectorExtensions2(Intd?AVX2)-Includes256"bltintegerveet&reFMA:Fused^luttlply'AddJFull-widthelementpermutesJGather-BenefitsHigtiperfamisriCecOrtiputing'Audio&VideoGamesT訕inn誕SPFLQPspercycleDPFLOPSN硼血SEE(129"bitsJB4SandyBridgeAVX(25^-bit^)ISaHaswellAVX2&FMA32lbGroup*NewIntegerInstructions-Indexingandhashing-Cryptography-Endianconversion-MOVBEVariableSkLength5trtamD電SdfiBtt百ether/空a世i.rArbltrarvPrecisianArithmetic&HustlingBZHJrSHLX,SHRX,SftRJGE)EXTR LZCNT/TZCNXBLSFlrBL5M5K,BL5lrANDNFDEP,PEKTMULX,RORXDedicatedSessiononIntel?AVX2aBMI:ARCS005-Wednesday3:30 1■—■FullInstructionSpecificationAvaildbleat:http?:"softMreDedicatedSessiononIntel?AVX2aBMI:ARCS005-Wednesday3:30 1■—卜口irnFFFF時(shí)評(píng)臨底鍛型訐算機(jī)21器呂目0匚對(duì)IrntT轉(zhuǎn)tmiEhJMwna|Sa初Bndfle:];inreT咒crniHiWRji -JJ'1'p''■■-Iv *lessi□njiiAVX2.0將帶來(lái)整數(shù)和浮點(diǎn)性能的大提升。粗粒度多線(xiàn)程是相當(dāng)容易實(shí)現(xiàn)的一種多線(xiàn)程方案。這種方案的優(yōu)勢(shì)在于控制起來(lái)很簡(jiǎn)單,不容易出現(xiàn)沖突,但相對(duì)來(lái)說(shuō),粗粒度多線(xiàn)程“競(jìng)爭(zhēng)損耗”比較大。所謂“競(jìng)爭(zhēng)損耗”是指多個(gè)并行線(xiàn)程由于鎖定等問(wèn)題,最終并行化不理想,操作中串行化大于并行化,最終帶來(lái)的性能增益很微小。為了解決這個(gè)問(wèn)題,細(xì)粒度多線(xiàn)程開(kāi)始出現(xiàn)。它是指在每個(gè)時(shí)鐘周期內(nèi),多個(gè)線(xiàn)程并行切換操作。依舊使用上文的例子來(lái)解釋細(xì)粒度多線(xiàn)程:公用服務(wù)器上的文件夾中有100個(gè)文件,A修改文件夾的0號(hào)文件時(shí),其余的99個(gè)文件并不會(huì)被鎖定,B如果想修改3號(hào)文件,依舊可以自行修改。這樣的鎖定“粒度”相比之前的案例要小很多,可以鎖定發(fā)生在更為細(xì)微的單個(gè)文件上,而不是整個(gè)文件夾。

細(xì)粒度多線(xiàn)程相比粗粒度多線(xiàn)程,對(duì)線(xiàn)程的控制更為細(xì)致,理論上并行度更好,但實(shí)際上細(xì)粒度多線(xiàn)程對(duì)程序的鎖定更為細(xì)致,因此編程更為復(fù)雜,更容易出現(xiàn)錯(cuò)誤和沖突。此外,細(xì)粒度多線(xiàn)程由于經(jīng)常需要來(lái)回切換線(xiàn)程,每一次切換會(huì)浪費(fèi)一定的時(shí)間,因此在單任務(wù)性能上細(xì)粒度多線(xiàn)程可能不如粗粒度多線(xiàn)程。總的來(lái)看,無(wú)論是細(xì)粒度還是粗粒度,都各自有優(yōu)缺點(diǎn),不能一概而論。下面回歸主題,目前處理器使用的多線(xiàn)程技術(shù)由于編程難度等問(wèn)題,多使用粗粒度多線(xiàn)程,程序員只要在多個(gè)線(xiàn)程有可能沖突時(shí)直接鎖定某線(xiàn)程即可。但這種粗粒度多線(xiàn)程在當(dāng)前的應(yīng)用環(huán)境下對(duì)性能提升的幫助有限,特別是對(duì)CPU多線(xiàn)程性能提升不大。實(shí)際上早在IDF2006上,英特爾提出未來(lái)的處理器將使用事務(wù)型內(nèi)存(TransactionalMemory)和一些擴(kuò)展技術(shù)來(lái)加強(qiáng)多線(xiàn)程的性能。所謂事務(wù)型內(nèi)存,英特爾在這里應(yīng)該并非是指物理內(nèi)存或者與之相配的硬件設(shè)計(jì)要做出重大變化,而是指在程序編制過(guò)程中內(nèi)存控制和使用的方法要改進(jìn)為事務(wù)型內(nèi)存的所代表的方法,也就是軟事務(wù)型內(nèi)存,其主要內(nèi)容是原子對(duì)象和沖突判決器。簡(jiǎn)單來(lái)說(shuō),事務(wù)型內(nèi)存的作用是針對(duì)不同事務(wù)(可以簡(jiǎn)單理解為線(xiàn)程)處理進(jìn)行判斷和溝通,并且在事務(wù)出錯(cuò)時(shí)能夠回到之前的狀態(tài),從而在多任務(wù)并行處理時(shí)盡量避免發(fā)生錯(cuò)誤。在提出事物型內(nèi)存后,英特爾又發(fā)布了一篇名為"TransactionalSynchronizationinHaswell”的文章,介紹了下一代Haswell上即將使用的TSX擴(kuò)展。TSX的作用很明確,就是搭配事務(wù)型內(nèi)存使用,為未來(lái)的CPU提供更強(qiáng)大的多線(xiàn)程能力。英特爾認(rèn)為,在使用了事務(wù)型內(nèi)存、并采用了TSX擴(kuò)展后,TSX擴(kuò)展能夠自動(dòng)判斷、評(píng)估軟硬件的情況。在使用細(xì)粒度線(xiàn)程鎖時(shí),TSX擴(kuò)展能夠幫助程序員實(shí)現(xiàn)更為簡(jiǎn)單、準(zhǔn)確的無(wú)錯(cuò)細(xì)粒度線(xiàn)程鎖。根據(jù)英特爾數(shù)據(jù),在使用了事務(wù)型內(nèi)存和TSX擴(kuò)展后,部分鎖操作的性能可提升1?3倍。在軟件仿真中,比如事務(wù)型內(nèi)存鎖操作只需要4.6秒,而傳統(tǒng)內(nèi)存需要高達(dá)10.6秒,性能提升顯而易見(jiàn)。當(dāng)然,采用TSX擴(kuò)展后,性能提升并非馬上體現(xiàn)。TSX擴(kuò)展的應(yīng)用場(chǎng)合和內(nèi)容都比較復(fù)雜,需要軟件、硬件的全面配合,并且目前的軟件基本上不會(huì)在TSX擴(kuò)展中帶來(lái)明顯的性能增益。只有那些符合英特爾要求的軟件,才能在多線(xiàn)程應(yīng)用中有相當(dāng)明顯的、相對(duì)于傳統(tǒng)編程方法的性能提升,這屬于軟件普及和應(yīng)用的道路問(wèn)題,還相當(dāng)漫長(zhǎng)。整數(shù)和浮點(diǎn)性能繼續(xù)提升——AVX2.0

AVX是AdvaneedVectorExtensions高級(jí)矢量擴(kuò)展的簡(jiǎn)寫(xiě),AVX在之前的SandyBridge和IvyBridge上就已經(jīng)開(kāi)始使用。目前的AVX指令集主要是用于增強(qiáng)浮點(diǎn)計(jì)算性能,它使用了256bitSIMD浮點(diǎn)指令集,支持三位數(shù)和四位數(shù)操作,也支持VEX編碼方式。新的256bit浮點(diǎn)計(jì)算以及各種特色功能等相比前代的128bit有了巨大提升,在最理想的情況下,256bit一次可以讀更多的指令,浮點(diǎn)性能最高提升可以達(dá)到128bit的2倍。另外,目前的新軟件也開(kāi)始使用AVX指令集來(lái)提升浮點(diǎn)計(jì)算能力,增強(qiáng)計(jì)算效能。Haswell的芯片面積并不大,圖為早前流傳出的Haswell對(duì)比IvyBridge、SandyBridge等處理器的核心晶片。在新的AVX2.0中,英特爾也將整數(shù)計(jì)算部分升級(jí)到256bitSIMD陣列,CPU的整數(shù)計(jì)算性能得到大幅度提高,此外還添加了一些新的指令用于繼續(xù)加強(qiáng)浮點(diǎn)性能。之前SandyBridge和IvyBridge不支持的FMA浮點(diǎn)乘積累(FloatingPointMultiplyAccumulate),在Haswell中終于給予支持。不過(guò)英特爾支持的FMA指令依舊是FMA3,AMD則更進(jìn)一步支持FMA4(FMA4相比FMA3,除了在數(shù)據(jù)格式要求上更為靈活一些外,和FMA3相比只是一種計(jì)算的兩個(gè)方面而已,并非換代性技術(shù))。不過(guò)英特爾則認(rèn)為FMA3已經(jīng)能夠提供更高的峰值速度,在高性能計(jì)算、圖形處理等計(jì)算中有不錯(cuò)效果。業(yè)內(nèi)人士根據(jù)英特爾公布的Hawell的GPU部分架構(gòu)圖畫(huà)出的詳細(xì)架構(gòu)內(nèi)容,相比IvyBridge的GPU部分基本沒(méi)太大變化。AVX2.0除了256bit整數(shù)計(jì)算以及FMA指令的加入外,還額外增加了不少用于加強(qiáng)計(jì)算、降低編程難度和提高精度的指令集,比如任意到任意排列(Any-to-Anypermutes)、矢量位移(Vector-VectorShifts)、Gather/Scatter指令以及3操作數(shù)通用位處理指令(3-operandgeneralpurposeBitmanipulationinstructions)等。這些指令的加入,使得CPU可以在數(shù)據(jù)壓縮、大規(guī)模計(jì)算、圖形處理中速度更快,對(duì)程序員來(lái)說(shuō),編程過(guò)程也可能由于新指令集的使用而更為簡(jiǎn)單輕松。根據(jù)英特爾的數(shù)據(jù),AVX2.0搭配Haswell(L1緩存帶寬從前代的48Byte/cycle增加到Haswell的96Byte/cycle,L2從32Byte/cycle增加到64Byte/cycle)后,CPU的每個(gè)核心、每時(shí)鐘周期的單精度和雙精度浮點(diǎn)理論最高性能翻了一番,每個(gè)核心、每時(shí)鐘周期的計(jì)算能力分別達(dá)到了32FLOPS和16FLOPS。再考慮CPU的高頻率和多核心,在浮點(diǎn)能力方面Haswell將繼續(xù)大幅度前進(jìn)。更多亮點(diǎn) 封裝規(guī)格、超頻和功耗等在CPU其余架構(gòu)部分,比如桌面CPU的四個(gè)物理核心、環(huán)狀總線(xiàn)、TurboBoost加速、PCI-E3.0支持以及雙通道內(nèi)存等,Haswell和上代IvyBridge基本沒(méi)有差別。其余的一些參數(shù),如接口等物理規(guī)格,Haswell相對(duì)前代產(chǎn)品還是做出了一定程度的更改。Haswell處理器的桌面平臺(tái)使用了新的SocketH3接口,針腳數(shù)量更改為1150個(gè),支持35W?95W的散熱解決方案。移動(dòng)平臺(tái)分為兩部分,第一部分是SocketG3插槽,947針腳,依舊是雙芯片封裝,TDP范圍是37W?47W之間,嵌入

式產(chǎn)品會(huì)降低到15W;第二部分則是全新的單芯片SOC接口,TDP降低到15W。第二種SOC類(lèi)型的單芯片封裝是專(zhuān)門(mén)為超級(jí)本和一些對(duì)面積要求很?chē)?yán)格的產(chǎn)品而設(shè)計(jì)的,因此玩家可能會(huì)看到基于Haswell的體積更小、更輕薄的移動(dòng)設(shè)備上市。Haswell還有特別值得注意的改進(jìn)之處,那就是調(diào)壓模塊?,F(xiàn)在的CPU中往往會(huì)集成不同的部分,比如CPU核心、緩存、北橋、I/O接口等。這些部件在工作時(shí)需要不同的電壓輸入,因此CPU中會(huì)涉及調(diào)壓模塊來(lái)調(diào)整、監(jiān)控每個(gè)部分的電壓、電流等情況。在Haswell之前的產(chǎn)品中,調(diào)壓模塊分為五大部分,分別針對(duì)PLL鎖相環(huán)、處理器內(nèi)核、圖形內(nèi)核、SystemAgent部分、I/O部分等分別調(diào)節(jié)。在Haswell上這五部分合為一體成為一個(gè)獨(dú)立的輸入VR,集成度更高。目前尚沒(méi)有特別明確的消息說(shuō)明調(diào)壓模塊和為一體后對(duì)超頻時(shí)的電壓控制有什么影響,不過(guò)和Haswell對(duì)超頻略微友善的態(tài)度來(lái)看,至少不應(yīng)該太過(guò)負(fù)面才是。沒(méi)錯(cuò),Haswell對(duì)超頻更為友善了。之前的SandyBridge和IvyBridge的外頻幾乎不能調(diào)節(jié),倍頻調(diào)節(jié)除了“K”系列產(chǎn)品外,其余產(chǎn)品都受到很大限制。在Haswell上,英特爾決定對(duì)超頻特別是外頻的控制稍稍放開(kāi),引入了之前在LGA2011平臺(tái)上所使用過(guò)的技術(shù) 時(shí)鐘參考比率(RefereneeClockRatio)。Haswell外頻被分為1.0、1.25和1.67三個(gè)級(jí)別,最高外頻可以達(dá)到167MHz,雖然對(duì)超頻玩家來(lái)說(shuō),傳統(tǒng)以“1MHz”為單位的超外頻再也不會(huì)回來(lái)了,但至少Haswell有希望通過(guò)改變外頻來(lái)提升頻率。Haswell的功耗也進(jìn)一步下降,首先是工藝,Haswell的工藝依舊是22nm3D晶體管。但由于工藝進(jìn)步,Haswell的22nm工藝和IvyBridge相比顯然要更為先進(jìn)一些,英特爾沒(méi)有具體說(shuō)明改進(jìn)在哪些方面,只是含混地說(shuō)“工藝不斷進(jìn)步,產(chǎn)品設(shè)計(jì)也有了變化,晶體管分配自由度更高”等。其次則是具體功耗數(shù)值了,一些演示消息表示Haswell功耗可以降低到最低7.5W的驚人程度,技術(shù)上自然有一定革新。英特爾為Haswell加入了一個(gè)24MH的超低BaskClock,用于超低電壓處理器節(jié)能。節(jié)能模式上也加入了更深度休眠、更低電壓?jiǎn)拘?、更少組件運(yùn)轉(zhuǎn)的C8、C9、C10節(jié)能模式,甚至可以直接關(guān)閉除了電源和部分緩存外的其余所有部分,在不同的睡眠模式中切入切出的速度也最多提升了25%,更有利于節(jié)約能源了。規(guī)模更大的EU單元——Haswell的GPU改進(jìn)

英特爾在圖形性能上每一次產(chǎn)品革新都宣稱(chēng)大幅度提升性能,但實(shí)際產(chǎn)品的表現(xiàn)卻依舊難以和同期的入門(mén)級(jí)獨(dú)立顯卡抗衡。除了驅(qū)動(dòng)等一直以來(lái)都不占優(yōu)勢(shì)的部分外,英特爾在GPU硬件設(shè)計(jì)上的弱勢(shì)也是非常重要的原因之一。不過(guò)好在IvyBridge的GPU部分終于在硬件架構(gòu)上支持了DirectX11,也加入了一個(gè)曲面細(xì)分單元,算是完成了DirectX11的所有功能支持。相比AMD和NVIDIA比拼抗鋸齒技術(shù)、比拼通用計(jì)算性能,英特爾暫時(shí)還處在“是否跑得起來(lái)不重要,有沒(méi)有才是關(guān)鍵”的層次上。由于IvyBridge的GPU部分設(shè)計(jì)還算比較合理,因此Haswell的架構(gòu)沒(méi)有大規(guī)模改動(dòng),反倒是開(kāi)始進(jìn)行橫向的規(guī)模擴(kuò)張。根據(jù)英特爾的介紹,Haswell的GPU部分和CPU完全捆綁在環(huán)形總線(xiàn)上,可以使用L3緩存,并且GPU和CPU部分的TDP可以做到動(dòng)態(tài)調(diào)整。一般情況下GPU和CPU不會(huì)同時(shí)滿(mǎn)載,GPU很忙碌的時(shí)候CPU往往都是在等待GPU傳回處理數(shù)據(jù),因此Haswell可能會(huì)讓GPU和CPU頻率、功耗在更大范圍內(nèi)聯(lián)動(dòng)。這樣能夠在TDP允許的范圍內(nèi)獲得更為優(yōu)秀的圖形性能。此外,Haswell還改進(jìn)了GPU的紋理采樣性能,最高可提升4倍,這種改進(jìn)在目前高清晰紋理普遍使用的情況下非常有用。至于GPU規(guī)格方面,英特爾確認(rèn)了三種版本,GT1、GT2和GT3。從英特爾給出的消息來(lái)看,GT2的規(guī)格可能是GT1的兩倍、GT3則是GT2的兩倍。不過(guò)GT3僅僅用于移動(dòng)設(shè)備,桌面CPU只有GT1和GT2兩個(gè)版本。根據(jù)業(yè)內(nèi)一些消息,每個(gè)EU單元有4個(gè)ALU,GT1版本可能有6個(gè)或者10個(gè)EU單元,總共就是24個(gè)或者40個(gè)ALU,1個(gè)曲面細(xì)分單元(之所以有兩種猜測(cè),是因?yàn)樵赟andyBridge和IvyBridge上,英特爾給GT1同檔次的產(chǎn)品都只布置了6個(gè)EU單元,Haswell上也可能存在這樣的情況,不過(guò)英特爾也有可能布置10個(gè)EU單元用于加強(qiáng)入門(mén)級(jí)產(chǎn)品的圖形性能)。GT2則擁有20個(gè)EU單元,80個(gè)ALU和2個(gè)曲面細(xì)分單元,GT3則直接翻倍到40個(gè)EU單元、160個(gè)ALU單元和4個(gè)曲面細(xì)分單元。僅僅從ALU的數(shù)量來(lái)看,目前的入門(mén)級(jí)顯卡比如NVIDIA的GK107核心,至少有384個(gè)ALU,而AMD的HD7750也擁有512個(gè)ALU,Haswell的ALU數(shù)量上還是無(wú)法和入門(mén)級(jí)低端顯卡抗衡,性能表現(xiàn)上自然不會(huì)太好了。英特爾在圖形性能上追求的是“功能型”產(chǎn)品,因此除了圖形性能,傳統(tǒng)屬于顯卡處理的視頻方面,Haswell也有改進(jìn)。首先是視頻輸出方面,Haswell的GPU

支持DVI、HDMI1.4a、DisplayPort12e-DisplayPort等新規(guī)格,視頻輸出能力方面有了保證。在視頻的編、解碼能力上,它支持JEPG、MotionJPEG(一種使用JPEG壓縮幀的視頻格式)、SVC(彈性視頻編碼)和MVC(多視角視頻編碼)等多種視頻格式的解碼。在視頻處理上,Haswell的GPU擁有一些新的模塊,比如伽瑪擴(kuò)展(GE)、膚色調(diào)節(jié)過(guò)濾器、幀率轉(zhuǎn)換、圖像穩(wěn)定引擎等。功能更多 全新的8系列芯片組在本文一開(kāi)始,曾提到過(guò)Haswell處理器的接口已經(jīng)改變,目前的7系列主板已經(jīng)不能繼續(xù)支持Haswell處理器。Haswell處理器相搭配的是全新的英特爾8系列主板,芯片代號(hào)為L(zhǎng)ynxPoint。英特爾表示LynxPoint在I/O接口、存儲(chǔ)性能、安全性能以及管理性能方面都有頗多特色。安全性能和管理性能主要是商業(yè)用途,與普通玩家關(guān)系不大,比較有亮點(diǎn)的是I/O接口和存儲(chǔ)性能。首先來(lái)看I/O接口。LynxPoint對(duì)USB3.0和SATA6Gbps支持更為靈活,比如USB3.0最多可以支持6個(gè)、SATA6Gbps最多可以擁有6個(gè)。但這是有條件的,因?yàn)長(zhǎng)ynxPoint—共有18條PCI-E2.0通道,其中5、6兩條通道可以根據(jù)需要分配為USB3.0或者PCI-E2.0,13、14兩條通道也可以分配給SATA6Gbps或者PCI-E2.0。換句話(huà)來(lái)說(shuō),LynxPoint的PCI-E通道有4條可以靈活配置,既可以作為USB3.0或者SATA6Gbps,又可以作為PCI-E存在。這讓廠(chǎng)商設(shè)計(jì)和用戶(hù)選擇余地更廣,可以根據(jù)需求來(lái)搭配是要更多的USB、SATA還是PCI-E接口。其次則是存儲(chǔ)方面的進(jìn)步。LynxPoint支持FastSynchStreaming(快速同步流)、UEFI快速啟動(dòng)以及LakeTiny??焖偻搅髦饕糜谔嵘齀/O同步速度,比較有趣的是LakeTiny,這項(xiàng)技術(shù)主要是根據(jù)功耗和負(fù)載情況來(lái)配置I/O接口,有助于提高SSD的性能。英特爾的數(shù)據(jù)表示,在使用了LakeTiny后,SSD的突發(fā)數(shù)據(jù)流會(huì)提升到220MB/S,遠(yuǎn)遠(yuǎn)高于未使用LakeTiny時(shí)最高大約157B/s的速度。高突發(fā)數(shù)據(jù)讀取速度有助于降低系統(tǒng)響應(yīng)時(shí)間,提高系統(tǒng)反應(yīng)速度。在型號(hào)方面,LakeTiny在消費(fèi)級(jí)市場(chǎng)方面分為Z87、H87和H81三款芯片組,商務(wù)市場(chǎng)則分出了Q87、Q85和B85等產(chǎn)品。消費(fèi)級(jí)市場(chǎng)的產(chǎn)品是用戶(hù)最為關(guān)注的產(chǎn)品。其中Z87支持把CPU提供的PCI-E3.0x16拆分為兩條PCI-E3.0x8

或者一條PCI-E3.0x8和兩條PCI-E3.0x4,也支持CPU超頻;H87則只支持將CPU提供的PCI-E3.0x16拆分為兩條PCI-E3.0x8,不支持超頻;H81既不支持拆分PCI-E通道也不支持超頻。其他方面三款芯片組差距比較小,市場(chǎng)劃分情況也類(lèi)似目前的Z77、H77和Z71的情形。全新的8系列芯片組規(guī)格表規(guī)格Z87H87H81處理器接口LGA1150LGA1150LGA1150圖形接口支持1X16或者2X8或者1X8+2X41X16或者2X81X16英特爾RES12支持支持支持LakeTiny支持不支持不支持英特爾SmartResponseTechonlogy支持支持不支持USB(USB3.0)14(4)14(4)10(2)SATA(SATA6Gbps最多)6(6)6(6)4(2)PCI-E2.0886CPU超頻支持支持不支持不支持壓路機(jī),開(kāi)拓新局面?接下來(lái),我們來(lái)看看AMD方面的變化。推土機(jī)架構(gòu)是自K8以來(lái)AMD所進(jìn)行的架構(gòu)設(shè)計(jì)中變革最大的一次,盡管解決了先前K10核心中存在的一些問(wèn)題,也跟進(jìn)英特爾的步伐加入了宏指令融合等技術(shù),但市場(chǎng)表現(xiàn)仍然不算很好。在A(yíng)MD規(guī)劃的路線(xiàn)圖上,推土機(jī)之后還有打樁機(jī)、壓路機(jī)與挖掘機(jī)三次架構(gòu)調(diào)整。其中壓路機(jī)的初始設(shè)計(jì)目標(biāo)是提高并行性。但是計(jì)劃趕不上變化,推土機(jī)與打樁機(jī)連續(xù)被壓制,AMD的設(shè)計(jì)重心已經(jīng)和路線(xiàn)圖上強(qiáng)調(diào)的部分有了微妙的不同。下面,就讓我們從AMD首席技術(shù)官M(fèi)arkPapermaster在HotChips2012年會(huì)上的主題演講中所透露出的信息,對(duì)壓路機(jī)的架構(gòu)進(jìn)行分析。他的演說(shuō)主要集中在三個(gè)方面:流水線(xiàn)前端、單核心執(zhí)行效率提升,以及改進(jìn)能耗效率。一個(gè)本來(lái)

要繼續(xù)強(qiáng)化并行性能的架構(gòu)卻將一部分精力花在了單核心效率上,這讓我們對(duì)壓路機(jī)的前景更加迷惑,AMD究竟改動(dòng)了什么?流水線(xiàn)前端優(yōu)化首先來(lái)看指令讀取。AMD加大了指令緩存的大小,并且使用了更加積極的指令預(yù)讀取策略,指令向執(zhí)行單元的交付效率也有所提高。據(jù)傳,推土機(jī)架構(gòu)的基本流水線(xiàn)長(zhǎng)度略高于20級(jí),這種長(zhǎng)流水的設(shè)計(jì)能夠幫助推土機(jī)推高主頻,但是也增加了總體的執(zhí)行延遲,更加大了分支預(yù)測(cè)失敗的損失。為了彌補(bǔ)這個(gè)缺陷,推土機(jī)當(dāng)中設(shè)置了一個(gè)與指令讀取分離的多級(jí)分支預(yù)測(cè)器,期望以此減少流水線(xiàn)停頓。壓路機(jī)架構(gòu)在此基礎(chǔ)上進(jìn)一步加大了分支目標(biāo)緩沖區(qū)的大小,期望以此提升分支預(yù)測(cè)的準(zhǔn)確率。據(jù)AMD內(nèi)部的仿真測(cè)試結(jié)果顯示,壓路機(jī)的分支預(yù)測(cè)失敗率降低了20%。MDOPTEROM?FUTURETECHNOLOGYDeliveringmultiplegenerationsofgr&at^rfunctionalityandimprovedperformancePiledriver2ndgerieratidiniTiDdul^rcore*ImprovedIPCandfrequer>cv4shgenerstiQnmoduilarcart?Greaterperformartct1輯gieiier^tionmiDdLiirarcore"BulldozedDeliveringmultiplegenerationsofgr&at^rfunctionalityandimprovedperformancePiledriver2ndgerieratidiniTiDdul^rcore*ImprovedIPCandfrequer>cv4shgenerstiQnmoduilarcart?Greaterperformartct1輯gieiier^tionmiDdLiirarcore"Bulldozed■FlexFP百128/2S6-brtAVXrXOPanduSteamrol(e:ru3"*gener^tjorimgduldrcore?Greaterparallelism寧琴戰(zhàn)羅松應(yīng)忌AMD處理器路線(xiàn)圖FmExcavator此前推土機(jī)架構(gòu)引發(fā)討論的另一個(gè)問(wèn)題是它的指令解碼器共享設(shè)計(jì),坊間傳聞這是限制推土機(jī)架構(gòu)執(zhí)行效率的一大敗筆。讓我們先來(lái)看看競(jìng)爭(zhēng)對(duì)手英特爾,它早在2006年的Core架構(gòu)上就大膽引入了3組簡(jiǎn)單指令解碼器+1組復(fù)雜指令解碼器的設(shè)計(jì),理想狀況下每個(gè)時(shí)鐘周期能夠給每個(gè)處理核心提供四條已經(jīng)解碼完畢的待處理指令。而推土機(jī)的指令解碼器與之相比則縮水一半,雖然每個(gè)推土機(jī)模

塊當(dāng)中被配置了四個(gè)指令解碼器,但是卻有兩個(gè)處理核心。于是有人擔(dān)心,這種縮水的指令解碼器能否以足夠快的速度去解碼指令?SiteamrollerEnhancein^tructioTipre-fetchToIMTJ3ToFPO+26%iwThread2fir^FichtBRecfwcedbym130%SiteamrollerEnhancein^tructioTipre-fetchToIMTJ3ToFPO+26%iwThread2fir^FichtBRecfwcedbym130%OpSiper ImprOV^m^rlit2Moreefficientdespatchl^acheMl^^asReducwlby3*川NocompironrtisestwothreadperformanceD更曲c噩eddecodeFor&achintegerpip?Increaseinstructioncachesize壓路機(jī)前端布局niii曹衛(wèi)ofesa-i口答案是在大多數(shù)情況下不會(huì),只有在一些對(duì)每時(shí)鐘周期執(zhí)行指令數(shù)有較高要求的多線(xiàn)程應(yīng)用下,這種兩個(gè)核心共享四個(gè)指令解碼器的設(shè)計(jì)才會(huì)輕微地影響性能。性能略微降低的代價(jià)帶來(lái)的好處是執(zhí)行解碼器數(shù)量的降低以及芯片復(fù)雜度的降低。x86不同于A(yíng)RM,它是一種復(fù)雜指令集,其指令解碼器設(shè)計(jì)比ARM的精簡(jiǎn)指令集要復(fù)雜很多,也會(huì)消耗更多功耗。因此AMD削減推土機(jī)模塊指令解碼器數(shù)量的決策是一個(gè)犧牲性能換取低功耗的權(quán)衡之計(jì)。但是現(xiàn)在,AMD希望能提升單核心的執(zhí)行能力,提高指令解碼的速度,于是這一權(quán)衡已經(jīng)不再成立,壓路機(jī)也變成了每核心四路指令解碼器的設(shè)計(jì),這樣一來(lái)一個(gè)推土機(jī)模塊內(nèi)就有了可以并行工作的八個(gè)指令解碼器。上述改進(jìn)加在一起讓壓路機(jī)在A(yíng)MD內(nèi)部仿真測(cè)試中得以將每周期執(zhí)行指令數(shù)提升30%。單核心執(zhí)行效率提升與指令讀取、解碼上的改進(jìn)相呼應(yīng),壓路機(jī)在指令調(diào)度方面也有所變化。早在上世紀(jì)60年代,當(dāng)時(shí)構(gòu)筑超級(jí)計(jì)算機(jī)體系結(jié)構(gòu)的架構(gòu)師們就已經(jīng)意識(shí)到,程序的指令不必按照順序執(zhí)行,在保持邏輯順序的情況下打亂指令的執(zhí)行次序,將后面不相關(guān)的指令提前執(zhí)行可以獲得相當(dāng)不錯(cuò)的性能提升。從1995年開(kāi)始,這種原先應(yīng)用在超級(jí)計(jì)算機(jī)上的亂序執(zhí)行技術(shù)被英特爾首先引入到微處理器Pentium

Pro中,從而飛入尋常百姓家。如何在指令與指令之間既保持原有邏輯順序,又要進(jìn)行聰明的調(diào)度來(lái)加速執(zhí)行,是一門(mén)并不簡(jiǎn)單的學(xué)問(wèn),壓路機(jī)中為了方便進(jìn)行調(diào)度增加了更多的寄存器,經(jīng)過(guò)改良后的整數(shù)指令調(diào)度效率提高了5%~10%,這意味著執(zhí)行單元停頓的幾率更少。上一個(gè)部分中提到,為了獲取性能的提升,AMD將指令解碼器的數(shù)量加倍,這就導(dǎo)致了芯片面積的增大(意味著成本提高)和功耗的增加。為了抵消這個(gè)部分的影響,壓路機(jī)的其余部分就必須作出權(quán)衡。MMX執(zhí)行單元和FMAC執(zhí)行一一單元現(xiàn)在共享一部分執(zhí)行部件_這是什么意思呢?讓我們回憶一下手算乘除法。乘除法在手算過(guò)程中會(huì)進(jìn)行一系列的加減法,在處理器當(dāng)中也是一樣,只不過(guò)加減法被統(tǒng)一到加法器上運(yùn)行。如果我們仿照乘除法的手算過(guò)程來(lái)設(shè)計(jì)乘法執(zhí)行單元和除法執(zhí)行單元,就會(huì)發(fā)現(xiàn)乘法和除法都需要用到加法器。如果我們?cè)诔朔ê统▋蓚€(gè)執(zhí)行單元中都配備獨(dú)立的加法器,那么一個(gè)乘法操作就可以與另一個(gè)除法操作并行執(zhí)行,但是劣勢(shì)在于多出的一個(gè)加法器抬高了芯片面積和功耗。與此相對(duì)的是,如果我們只設(shè)計(jì)一個(gè)加法器,然后讓乘除法單元共享它,性能會(huì)受到損失,但是芯片面積和功耗則可以節(jié)省下來(lái)。AMD在MMX單元和FMAC單元上進(jìn)行的改動(dòng)與此類(lèi)似,但這是一個(gè)精巧復(fù)雜的權(quán)衡,AMD的工程師們仔細(xì)拆分了MMX和FMAC指令的執(zhí)行過(guò)程,保證這兩種指令不可能同時(shí)用到那部分共享的硬件,這使得它在保證一定的芯片面積以及能耗的同時(shí),性能不會(huì)受到影響。除此之外,壓路機(jī)還進(jìn)行了一些調(diào)整,例如Load指令的壓縮能更有效率地利用寄存器空間,改進(jìn)了Store-to-Load的數(shù)據(jù)旁路設(shè)計(jì),這些改進(jìn)加在一起使得壓路機(jī)的單核心執(zhí)行效率有所提咼。存儲(chǔ)器體系的改進(jìn)在推土機(jī)的架構(gòu)中,每個(gè)模塊共享一個(gè)64KB大小的兩路組關(guān)聯(lián)一級(jí)指令緩存,模塊內(nèi)的每個(gè)核心單獨(dú)使用一路(在《微型計(jì)算機(jī)》2012年7月上刊的《劍指低端獨(dú)顯IntelIvyBridgeGPU圖形架構(gòu)解析》一文中,我們介紹過(guò)組關(guān)聯(lián)緩存的設(shè)計(jì)利弊,讀者可參閱相關(guān)內(nèi)容)。每個(gè)核心單獨(dú)使用一路的設(shè)計(jì)意味著這個(gè)組關(guān)聯(lián)緩存蛻變成為事實(shí)上的全相連緩存,全相連緩存完全抹消了由地址沖突引來(lái)的緩存缺失,但代價(jià)是需要附加大量的比較器,引入更大的訪(fǎng)問(wèn)延遲。為了彌補(bǔ)這一點(diǎn),推土機(jī)使用組內(nèi)預(yù)測(cè)技術(shù)來(lái)預(yù)測(cè)每次訪(fǎng)問(wèn)緩存時(shí)會(huì)檢索的一組寄存器,

在理想狀況下90%以上的訪(fǎng)問(wèn)可以準(zhǔn)確預(yù)測(cè),只需直接把這組數(shù)據(jù)取出即可,不用檢索整個(gè)緩存,從而縮短延遲并降低功耗。這是一箭雙雕的聰明設(shè)計(jì),但是無(wú)法補(bǔ)足每個(gè)核心指令緩存大小相比上一代有所減小的缺憾。為此壓路機(jī)重新加大了一級(jí)指令緩存,而容量加大之后一級(jí)指令緩存的缺失率降低了30%。但目前AMD仍然沒(méi)有透露壓路機(jī)一級(jí)指令緩存具體的大小,也沒(méi)有數(shù)據(jù)緩存大小的資料,因此數(shù)據(jù)緩存的部分是否有所改變還未可知。"STEAMROLLER':IMPROVINGSiNGLE-COREEXECUTIONDesigntotimeifpintegerexecutionbandwidth:InconcertwithfeedingthecorefasterMoic rt?^duree&.l^t^ncyMoremteJIigentschedulingDesigntodecreaseJtyersgeloadIstpnqy:MinimumlatencyisonlypartofstoryFa&t^ihpHfllinpofcIhLr miqS■護(hù)Acceleratestorelfl」Designtotimeifpintegerexecutionbandwidth:InconcertwithfeedingthecorefasterMoic rt?^duree&.l^t^ncyMoremteJIigentschedulingDesigntodecreaseJtyersgeloadIstpnqy:MinimumlatencyisonlypartofstoryFa&t^ihpHfllinpofcIhLr miqS■護(hù)Acceleratestorelfl」aadforwardingkft*gvrSchedulerCJERdEHiadLcunlK□E=vaE苣n一¥£u-$nnSchiMiulcf| |L1irnpmcMjfirnurntsin

>1nr4-tr^ndlinqinScMdulingEffi匚i?F>cv'aThHKJltbnpURIri3IH?l?5!ttrW機(jī)両倖戸取叵pCofripyfp??-1hXJI*—J"fof4-5Kian3l壓路機(jī)執(zhí)行單元布局壓路機(jī)的二級(jí)緩存也有較大的變化,終于支持以四分之一緩存大小為步長(zhǎng)的動(dòng)態(tài)增減。在對(duì)一個(gè)大容量緩存進(jìn)行檢索時(shí),功耗是比較大的,此外二級(jí)緩存在推土機(jī)架構(gòu)內(nèi)占有的漏電流份額也不容忽視,在計(jì)算負(fù)載比較低的時(shí)候關(guān)閉一部分二級(jí)緩存能夠有效節(jié)省功耗,AMD認(rèn)為這對(duì)于一些移動(dòng)終端上的常見(jiàn)應(yīng)用,例如視頻回放(對(duì)二級(jí)緩存的大小要求不高),可以帶來(lái)更佳的續(xù)航能力。

啓菖.a4YJM-pdldwpdld■sTEAf^ROLLER"PERFORMANCE/WATTDESIGNDynamicresizingofL2 Adaptivem&debatedon\-A)rkloadMicroarclidcetupoweropirmizatiDn Loweraverageci^namjcpow&rOptirnif-efcrlooph-Hhavia^&Floathngpointrebalance啓菖.a4YJM-pdldwpdld■sTEAf^ROLLER"PERFORMANCE/WATTDESIGNDynamicresizingofL2 Adaptivem&debatedon\-A)rkloadMicroarclidcetupoweropirmizatiDn Loweraverageci^namjcpow&rOptirnif-efcrlooph-Hhavia^&FloathngpointrebalanceStrearrilinedeKecutianhandwareAdpJstioappiicatian1rendsL1EX^ctH另一項(xiàng)跟進(jìn)英特爾步伐的改變是uop緩存。uop指代"微指令”,由

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論