發(fā)展戰(zhàn)略從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展方向_第1頁
發(fā)展戰(zhàn)略從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展方向_第2頁
發(fā)展戰(zhàn)略從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展方向_第3頁
發(fā)展戰(zhàn)略從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展方向_第4頁
發(fā)展戰(zhàn)略從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展方向_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、微處理器體系結(jié)構(gòu)隨著高性能計算的需求,計算機體系結(jié)構(gòu)發(fā)生了很大變化。作為計算機核心部件的微處理器,其性能和復雜性(晶體管數(shù)、時鐘頻率和峰值)也按照摩爾定律增長。微處理器性能的改善在很大程度上歸功于體系結(jié)構(gòu)的發(fā)展和VLSI工藝的改進。體系結(jié)構(gòu)的發(fā)展主要體現(xiàn)在三個方面,即超流水、多指令發(fā)射和多指令操作。超流水技術(shù)主要開發(fā)時間并行性。流水線技術(shù)是RISC處理器區(qū)別于CISC處理器的重要特征。采用超流水技術(shù),盡管可以減少關(guān)鍵路徑中每級流水的時間,但同時也引入了更多的寄存器,進而增加了面積開銷以及時鐘歪斜問題。另一方面,深度流水在 指令相關(guān)和指令跳轉(zhuǎn)時會大大降低流水線的性能。多指令發(fā)射和多指令操作均是開

2、發(fā)空間并行性。多指令發(fā)射面臨的首要問題是如何保持應用程序語義的正確性,MIMD超標量和數(shù)據(jù)流技術(shù)是多指令發(fā)射的典型結(jié)構(gòu)。MIMC是并行計算的重要研究領(lǐng)域。超標量采用時序指令流發(fā)射技術(shù),兼容性好,硬件開銷大,功耗開銷大,是目前多數(shù)商用高端處理器采用的主流技術(shù)。數(shù)據(jù)流采用token環(huán)技術(shù),理論上可以開發(fā)出高度指令并行性。然而,其商用開發(fā)不成功,原因是運行時間開銷大,尤其是token環(huán)匹配需要很高的時間代價。多指令操作是當前體系結(jié)構(gòu)的重要研究方向。多指令操作包括數(shù)據(jù)并行性開發(fā)和操作并行性開發(fā)。盡管在CISC處理器中均采用過這兩種技術(shù),但CISC給體系結(jié)構(gòu)開發(fā)帶來三個負面影響:一是CISC指令不適合流

3、水處理,二是指令差異很大造成譯碼困難,三是編譯器很難開發(fā)出有效的指令操作。與CISC處理器相反,多指令操作非常適合RISC處理器,其中SIMD和VLIW就是數(shù)據(jù)并行性和操作并行性的典型結(jié)構(gòu)。向量處理器和SIMD處理器都是利用多個操作數(shù)來實現(xiàn)數(shù)據(jù)并行性。但二者有很大不同。向量處理器對線性向量元素順序操作,SIMD則對向量元素進行并發(fā)操作。對前者,每條指令只能作用于一個功能部件,執(zhí)行時間較長;而后者在執(zhí)行指令時可以作用 于多個功能部件。向量處理器采用交叉存儲器實現(xiàn)向量的訪存操作,同時可對短向量進行有效操作,即對稀疏向量進行壓縮以 獲得高性能。SIMD適合多媒體中的分組數(shù)據(jù)流,通過特定算法將長的數(shù)據(jù)

4、流截成定長短向量序列,從而可以和向量處理器那樣 實現(xiàn)對定長短向量序列的高效處理。VLIW是實現(xiàn)操作并行性開發(fā)的重要途徑。CISC處理器采用垂直編碼技術(shù),而VLIW則采用水平編碼技術(shù),指令中的每個操作域可以并發(fā)執(zhí)行。同CISC處理器相比,VLIW具有的優(yōu)點是:指令操作域定長,譯碼簡單;適合流水處理,減少CPI;編譯器需要開發(fā)程序潛在的指令級操作并行性。傳統(tǒng)VLIW的不足是指令帶寬較高,二進制目標代碼不兼容。VLIW和SIMD結(jié)構(gòu)都能接受單一指令流,每條指令可以包含多個操作。但前者允許每條指令包含多個不同類型的操作,同時可以開發(fā)細粒度并行性。VLIW指令字較長,而SIMD具有很強的數(shù)據(jù)壓縮能力。事

5、實上,VLIW和SIMD技術(shù)相結(jié)合可以獲得更高的性能加速比,且非常適合多媒體數(shù)據(jù)處理。從微處理器體系結(jié)構(gòu)和編譯器界面劃分的角度上講,指令級體系結(jié)構(gòu)可以分為順序結(jié)構(gòu)、相關(guān)結(jié)構(gòu)和獨立結(jié)構(gòu)三類。在順序結(jié) 構(gòu)中,程序不包含任何指令并行信息,完全通過硬件進行調(diào)度,即硬件負責操作間的相關(guān)分析、獨立操作分析和操作調(diào)度,編 譯器只負責程序代碼的重組,程序中不附加任何信息。超標量是該類結(jié)構(gòu)的典型代表。在相關(guān)結(jié)構(gòu)中,程序顯式指定操作的相 關(guān)信息,即編譯器負責操作間的相關(guān)分析,而硬件負責獨立操作分析和調(diào)度,如數(shù)據(jù)流處理器。獨立結(jié)構(gòu)完全由程序提供各個 獨立操作間的信息,即編譯器負責操作間相關(guān)性分析、獨立操作間分析和指

6、令調(diào)度,VLIW是其主要代表。超標量處理器架構(gòu)現(xiàn)代超標量處理器體系結(jié)構(gòu)均基于IBM360/91采用的Tomasulo和CDC6600采用的Scoreboard動態(tài)調(diào)度技術(shù),MIPS R10000和DEC21264微處理器均基于該體系結(jié)構(gòu)。典型超標量處理器通常采用如下邏輯結(jié)構(gòu)實現(xiàn)動態(tài)調(diào)度:寄存器重命名邏輯、窗口喚醒邏輯、窗口選擇邏輯和數(shù)據(jù)旁路邏輯。In tel的Pen tium處理器、Motorola的PowerPC 604和SPARC6則采用基于預約站的超標量體系結(jié)構(gòu)。兩種體系結(jié)構(gòu)的主要區(qū)別是:在典型超標量結(jié)構(gòu)中,無論是推測還是非推測寄存器值都放在物理寄存器堆中;在預約站超標量,推測數(shù)據(jù)放在重

7、排序緩沖器中,非推測數(shù)據(jù)和已經(jīng)執(zhí)行完成提交的數(shù)據(jù)則放在寄存器文件中。在典型結(jié)構(gòu)中,操作數(shù) 不廣播到窗口,而只將操作數(shù)標志TAG進行廣播,操作數(shù)則送到物理寄存器文件。在預約站結(jié)構(gòu)中,指令執(zhí)行結(jié)果廣播到預約指令發(fā)射時從預約站去取操作數(shù)。超標量處理器性能與IPC(InstructionsPer Cycle)和時鐘頻率的乘積成正比。時鐘速率同系統(tǒng)結(jié)構(gòu)的關(guān)鍵路徑時延有關(guān),而IPC和如下因素有關(guān):程序中潛在的指令級并行性、體系結(jié)構(gòu)字長寬度、指令窗口大小和并行性開發(fā)策略。超標量處理器一般通 過增加發(fā)射邏輯提高IPC,這將導致更寬的發(fā)射窗口和更復雜的發(fā)射策略。眾所周知,超標量處理器是通用微處理器的主流體系結(jié)構(gòu)

8、,幾乎所有商用通用微處理器都采用超標量體系結(jié)構(gòu)。而在DSP方面,LSI邏輯公司的ZSP200、ZSP4O0 ZSP500和ZSP600均采用超標量體系結(jié)構(gòu)。ZSP200采用并行MAC和ALU運算部件,2發(fā)射超標量結(jié)構(gòu);ZSP400采用雙MAC單元、4發(fā)射超標量處理器體系結(jié)構(gòu);ZSP500為4發(fā)射體系結(jié)構(gòu)、采用增強型雙MAC和雙ALU運算單元;ZSP600采用4MAC和雙ALU運算部件,每個時鐘周期發(fā)射6條指令。圖1為ZSP400結(jié)構(gòu)框圖。BMOlCore圖1 ZSP400內(nèi)核超標量體系結(jié)構(gòu)框圖ADI公司的TigerSHARC系列采用靜態(tài)超標量體系結(jié)構(gòu)。該系列采用了許多傳統(tǒng)超標量處理器的特征,如

9、load/store結(jié)構(gòu)、分之預測和互鎖寄存器堆等技術(shù)。每個時鐘周期發(fā)射4條指令。而靜態(tài)超標量的含義是指指令級并行性識別是在運行之前,即編寫程序時確定的(事實上以VLIW結(jié)構(gòu)為基礎(chǔ))。同時,Tiger SHARC系統(tǒng)處理器采用SIMD技術(shù),用戶可以對數(shù)據(jù)進行廣播和合并。 所有寄存器均是互鎖的,支持簡單的編程模型,該模型不依賴于不同型號間的時延變化。分支目標緩沖器BTB為128位,可以有效減小循環(huán)操作和其它非順序代碼的執(zhí)行時間。圖2為TigerSHARC系列中的ADSP-TS201結(jié)構(gòu)框圖。圖2 ADSP-TS201S靜態(tài)超標量體系結(jié)構(gòu)框圖超長指令字VLIW體系結(jié)構(gòu)自從耶魯大學的J.A Fish

10、er于1979年首次提出VLIW體系結(jié)構(gòu)以來,先后由耶魯大學開發(fā)出基于跟蹤調(diào)度仃race Scheduling)技術(shù)的MultiFlow處理器和Cydrome公司Bob Rau等人開發(fā)的基于巨塊調(diào)度(Superblock Scheduling)的Cydra-5處理器。但 直到九十年代中期,基于VLIW結(jié)構(gòu)的處理器基本上停留在實驗室原型機階段。因為VLIW本身固有的幾個關(guān)鍵問題一直沒有徹底解決,導致了其后的商用處理器體系結(jié)構(gòu)從RISC轉(zhuǎn)向了超標量和超流水,而不是VLIW。盡管如此,由于VLIW結(jié)構(gòu)的許多優(yōu)點仍然使許多研究機構(gòu)競相對該技術(shù)進行堅持不懈地研究,并在體系結(jié)構(gòu)和編譯器方面實現(xiàn)了突破,其中

11、最重要的是解決了目 標代碼兼容問題并支持推斷推測機制(盡管大部分處理器僅支持部分推斷推測機制)。這之后出現(xiàn)了Philip的Trimedia、Equator的MAP1000AM體處理器、Chromatic的Mact、TI的TMS320C6XXTransmeta的Crusoe以及INTEL和HP聯(lián)盟提出的IA-64體系 結(jié)構(gòu) (EPIC) 。事實上VLIW作為下一代高性能處理器體系結(jié)構(gòu)的首選技術(shù)已成共識,該體系結(jié)構(gòu)和優(yōu)化編譯器形成的SIMD指令流將更加適合多媒體數(shù)據(jù)處理。TI的TMS320C系列是典型的超長指令字VLIW體系結(jié)構(gòu),該系列每個指令周期可以執(zhí)行8條32位指令,C62為定點處理器,C67

12、為浮點處理器。C62和C67系列的CPU內(nèi)核是相同的,包含32個通用寄存器、8個執(zhí)行部件。C64包含64個通用寄存器和8個執(zhí)行部件。8個執(zhí)行部件包含2個乘法器和6個ALU支持8/16/32數(shù)據(jù)類型,所有指令均為條件執(zhí)行,減小了分支指令開銷。 圖3為C62和C67系統(tǒng)框圖。圖3基于VLIW體系結(jié)構(gòu)的TMS320C6系統(tǒng)框圖中國科學院聲學研究所在“973國家重大基礎(chǔ)研究發(fā)展規(guī)劃”資助下研制成功國內(nèi)第一款基于多發(fā)射VLIW和SIMD技術(shù)的具有可重組結(jié)構(gòu)的高性能微處理器芯片-華威處理器(SuperV)。該處理器為四發(fā)射VLIW處理器,當執(zhí)行向量處理功能時,每個周期可執(zhí)行35個操作。在執(zhí)行32位乘累加操

13、作時可獲得2.9 GOPS的數(shù)據(jù)處理速度;執(zhí)行16位乘累加操作時可獲得5.1 GOPS的 數(shù)據(jù)處理速度;執(zhí)行8位乘累加操作時可獲得9.3 GOPS的數(shù)據(jù)處理速度。該處理器是目前國內(nèi)數(shù)據(jù)處理能力最強的微處理器, 可以廣泛應用于信息家電、網(wǎng)絡(luò)通信、聲音圖像以及雷達聲納等信號處理領(lǐng)域??芍貥?gòu)處理器架構(gòu)從二十世紀七十年代開始的第一代CISC處理器開始至今,微處理器體系結(jié)構(gòu)已經(jīng)經(jīng)過了三代。然而,即使是第三代的RISC技術(shù)仍然停留在固定模式的體系架構(gòu)設(shè)計。隨著ASIC和SO(技術(shù)的發(fā)展,微處理器設(shè)計進入到第四代,即后RISC和可重構(gòu)處理器時代。其重要特征是系統(tǒng)架構(gòu)不再采用固定模式,而是將DSP的靈活性與硬

14、線連接的專用性相結(jié)合,使得微處理器可以針對不同的應用需求建立自己獨特的體系結(jié)構(gòu),達到性能最優(yōu)、功耗更低的目的。華威處理器(SuperV)體系結(jié)構(gòu)不僅基于RISC VLIW和SIMD技術(shù),而且采用了可重構(gòu)技術(shù),使得用戶在不增加硬件開銷的情 況下通過對系統(tǒng)功能部件的重構(gòu)完成對不同應用的處理,不僅提高了系統(tǒng)性能,而且大大降低了系統(tǒng)的功耗。例如,在華威處 理器中設(shè)計了若干32位可重構(gòu)乘法器,每個可重構(gòu)乘法器可以完成32位乘法、若干個16位乘法或者8位乘法。因此,華威處理器可以采用一條指令完成16個8位數(shù)據(jù)的乘(累)加操作;一條指令可以完成8個16位數(shù)據(jù)的乘(累)加操作;一條指令可以完成4個32位數(shù)據(jù)的

15、乘加操作;一條指令可以完成4個32位數(shù)據(jù)的累加操作;一條指令可以完成16個索引、16個地址計 算和16次數(shù)據(jù)加載操作;兩條指令完成16個8位數(shù)據(jù)累加操作;兩條指令可以完成8個16位數(shù)據(jù)累加操作;兩條指令可以完成對256項、8位元素的數(shù)據(jù)表進行的16路并行查找。Ten silica的可配置技術(shù)是可重構(gòu)處理器的重要代表。例如,Vectra LX定點向量DSP引擎就是通過配置選項在Xten sa LX可配置處理器的基礎(chǔ)上建立起來的。即Vectra LX定點DSP引擎是Xtensa LX微處理器內(nèi)核的一種配置。該定點DSP引擎是一個3發(fā)射SIMD處理器,具有四個乘法器/累加器(四MAC,它可以處理12

16、8位的向量。128位向量可以分成8個16位或者4個32位的元素。整個Vectra LX DSP引擎是用TIE(Ten silicas In struction Exte nsion)語言開發(fā)的,通過修改可以適合不同的應用領(lǐng)域。Vectra LX DSF引擎增加了16個向量寄存器(每個寄存器160位寬)、四個128位的向量隊列寄存器、第二個load/store單元和210多條現(xiàn)有Xtensa LX處理器指令集體系結(jié)構(gòu)中的通用DSP指令。Vectra LX DSP引擎如圖4所示。圖4 Vectra LX DSP體系結(jié)構(gòu)框圖結(jié)語作為信息產(chǎn)業(yè)的核心技術(shù),微處理器體系結(jié)構(gòu)正在發(fā)生很大的變化,而這種變化無

17、不體現(xiàn)出市場需求的強大動力?,F(xiàn)代微處理 器,無論是通用微處理器還是數(shù)字信號處理器在體系結(jié)構(gòu)方面正在趨于融合。通用處理器通過增加媒體處理指令來提高數(shù)據(jù)處 理器能力;而數(shù)字信號處理器也借鑒了通用處理器的體系結(jié)構(gòu),使得數(shù)字信號處理器的數(shù)據(jù)處理器能力更加強大、管理更加靈 活。同時,隨著嵌入式應用的需求,對功耗的要求也越來越苛刻,使得可重構(gòu)處理器在未來將會起到重要的作用。由于不同的 應用需求可以通過重構(gòu)技術(shù)獲得所需要的微處理器系統(tǒng)架構(gòu),這將大大提高產(chǎn)品的競爭力,同時也降低了整個系統(tǒng)的功耗和成 本。多處理器的體系結(jié)構(gòu)隨著單個處理器的性能越來越逼近其物理極限,現(xiàn)在的處理器設(shè)計方向可以大致有兩類,一是采用單片

18、上集成多個核中或者采用一個核中多個物理線程的方法來達到并行的目的,從而提高性能;另一個方向是嵌入式應用,這有兩種思路即將通用處理器擴展、改裝成能適合各種嵌入式應用(9 0%的份額是DSP),或者將DSP擴展、改裝以吸收部分通用微處理器的特點。事實上,在 2000 年,嵌入式芯片的銷售量已經(jīng)是通用PC微處理能的兩倍多。但是從編譯的角度來看DSP由于其不規(guī)則、復雜的結(jié)構(gòu)以及指令集結(jié)構(gòu), 導致無法很好的利用編譯器。當然,現(xiàn)在DSP的一個研究方向就是吸收通用微處理器的特點,以方便編譯器的使用。2.1相關(guān)的體系結(jié)構(gòu)介紹2.1.1多發(fā)射處理器(multi-issue processor) 多發(fā)射處理器(m

19、ulti-issue processor)包括 超標量(Superscalar)和超長指令字(Very-Long Instruction Word,VLIW)處理器,其思想是允許在一個時鐘周期內(nèi)發(fā)射多條指令以減少處理器的平均CPI,更好地利用處理器的功能部件。 提高多發(fā)射處理器資源利用率的關(guān)鍵問題是: 如何在程序中找到足夠的指令級并行 性。超MMir加腫1X5Mt林TUirMmKlgEMgjwLViRe.nlnWiaSSNUbltEoofiiaQumwi “igir切TJGIrtlfWPg” & 輕一=”FILTna , taflki -bM*boMCthMA電槪kLad %rtIM標

20、量處理器在每個時鐘周期發(fā)射由硬件動態(tài)確定的指令,而VLIW處理器則在每個時鐘周期發(fā)射出編譯器確定的固定數(shù)目的操作。超標量處理器是依賴硬件來發(fā)現(xiàn)ILP, 而VLIW 處理器則依賴編譯器來發(fā)現(xiàn)ILP。不管是超標量還是VLTW處理器都只能挖掘同一個線程的 ILP 來提高處理器資源利用率。 當多發(fā)射處理器不能發(fā)現(xiàn)足夠的指令來添滿發(fā)射 槽時,水平浪費(Horizontal Waste )就發(fā)生了。此外當資源沖突造成多發(fā)射處理器在接下來 的時鐘周期中不能發(fā)射指令,則造成了垂直浪費( Vertical Waste)。如圖 1 所示為多發(fā)射處 理器中可能造成的垂直浪費和水平浪費情況。圖1中空白塊表示該指令發(fā)射

21、槽(Issue Slot)浪費了; 不同的填充色表示不同線程?,F(xiàn)代超標量處理器包括:DEC/Compaq 21162,PowerPC,MIPSR10000,Sun UltraSparc.HP PA-8000。 現(xiàn)代 VLIW 處理器包括: In tel IA-64(Itanium),transmeta Crusoe 。2.1.2 多線程處理器( multi-thread processor) 為了減少長延遲對處理器效率的影響, 例如減少 cache 不命中和執(zhí)行時間長的指令對處理器效率的影響,在單個處理器內(nèi)部實現(xiàn)多個硬件線程。當某個線程處理 cache 不命中時,其他線程可以以繼續(xù)執(zhí)行有效工作

22、,從而隱藏訪存延遲,提高綜合性能。 多線程處理器的優(yōu)點在于由于能夠快速切換線程上下文,因此多 線程處理器能在每個時鐘周期發(fā)射一個獨立線程的指令。 能夠利用線程級并行提高處理器資 源的利用率。 其主要缺點是由于每個時鐘周期只能允許一個線程活躍,所以沒能發(fā)現(xiàn)橫向的資源效率。多線程處理器通常為每個線程維護獨立的PC和寄存器,可以分為細粒度多線 程,即每個時鐘周期都可以進行線程切換, 以及粗粒度多線程, 即可以等到有長延遲操作時 再做線程切換。2.1.3 同時多線程處理器( simultaneous multi-thread processor) 同時多線程是一種處理器體系結(jié)構(gòu),它結(jié)合了超標量和多線程

23、處理器的特點,可以同時減少水平和垂直浪費。SMT在一個時鐘周期內(nèi)發(fā)射(Isssue)來自多個線程的多條指令。同時多線程技術(shù)在兩個方面提高了處理器的總體性能:(l)SMT允許在一個時鐘周期內(nèi)執(zhí)行來自不同線程的多條指令。因此在一個時鐘周期內(nèi)SMT能夠同時利用程序的TLP和ILP 消除水平浪費,提高處理器發(fā)射槽以及功能部件的利用率(如圖 1e)(2)理論上來說,SMT允許任何活動線程的組合來發(fā)射指令。 當由于長延遲操作或者資源沖突導致只有一個活動線程時,該線程能夠使用所有可獲得的發(fā)射槽。這就使得,可以通過使用其他線程的未阻塞指令來消除垂直浪費。由于 SMT處理器在每個時鐘周期可以選擇多個線程的指令執(zhí)

24、行,因此能夠更好地利用處理 器資源。 取指階段有更多選擇, 比如可以增加取非投機指令執(zhí)行的可能性,可以同時提高水平和垂直的資源效率。 盡管多發(fā)射處理器在一個時鐘周期內(nèi)能執(zhí)行多條指令, 但是當在一個 時鐘周期內(nèi)不能找到足夠的并行指令時, 多發(fā)射處理器效率會下降。 多線程處理器可以能夠 克服長延遲操作和資源沖突所帶來的限制,但是不能有效地利用處理器中的所有資源。SMT結(jié)合了超標量和多線程的好處,而不需要很大的代價(例如芯片面積)。為了允許在一個時鐘內(nèi)發(fā)射多個線程的多條指令SMT業(yè)為每個線程維護一套獨立的體系結(jié)構(gòu)狀態(tài)包括通 用寄存器,控制寄存器和其他的狀態(tài)寄存器等。其主要缺點是,由于采用集中式指令發(fā)

25、射指令發(fā)射階段變得復雜, 采用什么策略發(fā)射指令的問題; 另外, 未來微處理器設(shè)計主要采用 功能分布的方法來克服片上線延遲, 而集中式發(fā)射束縛了功能分布, 這是不如片上多處理器 的地方。2.1.4單片多處理器(chip multi-processor)隨著單個芯片上晶體管數(shù)目的增 加,構(gòu)造片上多處理器系統(tǒng)成為可能。 片上多處理器是指中在單個芯片上的多個處理器核所 構(gòu)成的多處理器系統(tǒng)。 片上多處理器系統(tǒng)允許線程在多個處理器核上并行執(zhí)行,它利用線程級并行性來提高系統(tǒng)性能。 然而由于片上多處理器系統(tǒng)的資源是采用劃分方式的, 當沒有足 夠線程時,資源就浪費了。圖1d 即為CMP的發(fā)射槽利用圖。片上多處理

26、器的主要好處是片上的處理器核可以很簡單, 使得設(shè)計和驗證時間短 ,也易于獲得較高主頻。 典型的 CMP 系統(tǒng)包括 : Standford Hydra,IBM Power4,Sun MAJC,Broadcom sb1250,Cradles Universal Microsystem 。 在程序運行時,允許線程在多個處理器上執(zhí)行,利用線程級并行性來提高系 統(tǒng)性能。 其主要缺點是, 由于資源是各個處理器獨有的, 所以當沒有足夠的線程時會造成資 源浪費。必須注意的是, 嚴格的講,此處關(guān)心的線程數(shù)最小僅僅指單純的線程數(shù), 而應該指(線程數(shù)X并行性),因為如果線程的并行性不高(比如一個線程長時間依賴于另一

27、個線程) 再多的線程在某一個時刻表現(xiàn)出來的實際效果是很差的。2.1.5 多核多線程處理器 這是單片多處理器和多線程的結(jié)合體, 也是未來的處理科體系結(jié)構(gòu)的一個可能的發(fā)展趨勢。 現(xiàn)在也 有叫clustered SMTprocessor 也屬于這種類型。其結(jié)構(gòu)特點是一個片上有多個處理器,同時 每個處理器內(nèi)部支持多個線程,所以說是單片多處理器和多線程的結(jié)合體。單獨采用片上多處理器的優(yōu)點是, 能夠把許多時間關(guān)鍵的資源分布到不同的處理器上,故能夠使邏輯稍微簡單,也能夠提高時鐘頻率;其缺點是不同處理器之間通信延遲很大。單獨采用SMT/MT能夠增加指令發(fā)射寬度,消除掉許多延遲;其缺點是必然增加單個處理器上的時

28、間關(guān)鍵的 資源的競爭,如寄存器堆和重命名機制,同時這種競爭必然會要求利用出復雜的邏輯。但是可以看到上述兩種結(jié)構(gòu)具有明顯的互補性, 所以說, 多處理器多線程是一個發(fā)展方向。 但 必須指出的是, 這種體系結(jié)構(gòu)最大的瓶頸就是隨著處理速度提高, 對共享資源的競爭將更加 激烈。各段均取周期法:流水線各段執(zhí)行時間最長的那段為整個流水線的瓶頸, 一般地, 將其執(zhí)行時間稱為流 水線的周期。若在計算 n 個任務(wù)地執(zhí)行時間時,將各個子功能段的實際執(zhí)行時間限制為周期時間, 則稱為各段均取周期法。該方法中,計算公式為 :T 總=(n+k-1)凋期其中,k 為總段數(shù),n 為任務(wù)總數(shù)。各疊加段取最大值法: 該方法中,計算

29、公式為 :T 總=t1+maxt1,t2+maxt1,t2,t3+maxt1,t2,-1tk+maxt1,t2,tkx-(k- 1)+maxt2,t3,tk+maxt3,t4,tk+ +maxtk,tk+tk其中, k 為總段數(shù), n 為任務(wù)總數(shù)。最省時法: 該方法中,計算公式為 :T 總=t1+t2+ +tk+maxt1,t2,t3,.,tk-1)x(n其中, k 為總段數(shù), n 為任務(wù)總數(shù)。采取哪種方法?當各段執(zhí)行時間不一樣時,上述 3 種方法才存在區(qū)別。若各段執(zhí)行時間一樣,三者無 區(qū)別。第2, 3 種方式依各段時間取值不一樣而可能存在區(qū)別。問題一、現(xiàn)采用四級流水線結(jié)構(gòu)分別完成一條指令的取

30、指、指令譯碼和取數(shù)、運算以及送回運算結(jié)果四個基本操作,每步操作時間依次為60ns, 100ns,50ns和70ns。該流水線的操作周期應為_A_ns。若有一小段程序需要用20條基本指令完成(這些指令完全適合于流水線上執(zhí)行),則得到第一條指令結(jié)果需_B_ns,完成該段程序需_C_ns供選擇的答案:A:5070100280B: 100200280400C:1400200023002600答案:A.3 B.4 C.3問題二、若流水線把一條指令分為取指、分析和執(zhí)行三個部分,且三部分的時間分別是A、163 B、183 C、192 D、203答案D以上兩題計算方法存在著沖突:問題一、第一條指令結(jié)果所需時間=100*4=400問題二、第一條指令結(jié)果所需時間=2+2+1=5t取指=2ns,t分析=2ns,t執(zhí)行=1ns,則100條指令全部執(zhí)行完畢需n

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論