高級計算機系統(tǒng)結(jié)構(gòu)期末考試復(fù)習總結(jié)_第1頁
高級計算機系統(tǒng)結(jié)構(gòu)期末考試復(fù)習總結(jié)_第2頁
高級計算機系統(tǒng)結(jié)構(gòu)期末考試復(fù)習總結(jié)_第3頁
高級計算機系統(tǒng)結(jié)構(gòu)期末考試復(fù)習總結(jié)_第4頁
高級計算機系統(tǒng)結(jié)構(gòu)期末考試復(fù)習總結(jié)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選文檔第一章量化設(shè)計與剖析基礎(chǔ)計算機性能提高表此刻哪些方面:半導(dǎo)體技術(shù)不停提高,如特色尺寸和時鐘頻次;計算機系統(tǒng)構(gòu)造精益求精,如高級語言編譯器、標準化的操作系統(tǒng)和指令更加簡單的RISC系統(tǒng)構(gòu)造。并行分類:1)應(yīng)用程序的并行分類:數(shù)據(jù)級并行(DLP):同時操作多半據(jù)任務(wù)級并行(TLP):創(chuàng)立了一些能夠獨立辦理但大批采納并行方式履行的工作任務(wù)2)硬件的系統(tǒng)構(gòu)造:指令級并行(ILP):在編譯器幫助下。利用流水線的思想開發(fā)數(shù)據(jù)級并行,利用推理履行的思想以中等水平開發(fā)數(shù)據(jù)集并行。向量系統(tǒng)構(gòu)造和圖像辦理單元(GPUs):將單條指令并行應(yīng)用于一個數(shù)據(jù)集,來達到數(shù)據(jù)集并行線程級并行:在緊耦合硬件模型中開發(fā)數(shù)

2、據(jù)集并行或任務(wù)及并行,這種模型同意在線程之間進行交互。懇求級并行:在程序員或操作系統(tǒng)擬訂的大批去耦合任務(wù)之間開發(fā)并行Flynns分類是怎樣分類的?Flynns分類主要分為四類:1)單指令流、單數(shù)據(jù)流(SISD):一條指令辦理一個數(shù)據(jù),能夠利用指令級并行(ILP)2)單指令流、多半據(jù)流(SIMD):將大批重復(fù)設(shè)置的辦理單元按必定方式互連成陣列,在單調(diào)控制零件CU(ContrulUnit)控制下對各自所分派的不一樣數(shù)據(jù)并行履行同一指令規(guī)定的操作,主要應(yīng)用于向量系統(tǒng)構(gòu)造、多媒體擴展指令和圖像辦理單元(Graphicsprocessorunits)3)多指令流、單數(shù)據(jù)流(MISD):用多個指令作用于單

3、個數(shù)據(jù)流,沒有商業(yè)實現(xiàn)4)多指令流多半據(jù)流(MIMD):每個辦理器都提取自己的指令,對自己的數(shù)據(jù)進行操作,主要用于開發(fā)線程級并行TLP(緊耦合MIMD)和懇求級并行RLP(松耦合MIMD)什么是“真實”的計算機系統(tǒng)構(gòu)造?1)知足目標和功能需求的構(gòu)成和硬件;2)限制條件下最大化性能:成本、功耗、可用性;3)包含指令集系統(tǒng)構(gòu)造(ISA),微系統(tǒng)構(gòu)造,硬件計算題:靠譜性的計算均勻無故障時間:Meantimetofailure(MTTF),MTTF是故障率的倒數(shù)。均勻修復(fù)時間:Meantimetorepair(MTTR)均勻故障間隔時間:Meantimebetweenfailures(MTBF)=MT

4、TF+MTTR可用性:Availability=MTTF/MTBF例:設(shè)磁盤子系統(tǒng)的組件及MTTF以下:10個磁盤,1000000小時MTTF;1個ATA控制器,500000小時MTTF;1個電源,200000小時MTTF;1個電扇,200000小時MTTF;1根ATA電纜,1000000小時MTTF;采納簡化假定,壽命切合指數(shù)分布,各故障互相獨立,試計算整個系統(tǒng)的MTTF.解答:系統(tǒng)故障率=10*1/1000000+1/500000+1/200000+1/200000+1/1000000=23000FIT(每10億小時).精選文檔MTTF=1/故障率=43500小時第二章儲存器層次構(gòu)造設(shè)計1

5、.層次化儲存存放器多級CACHE內(nèi)存磁盤2.命中時間:命中時接見需要的時間,包含判斷能否命中的時間;缺失代價:從內(nèi)存中代替塊的時間;3.塊擱置策略有全相聯(lián)映照和組相聯(lián)映照兩種策略全相聯(lián)映照:一個塊能夠放在CACHE中的任何地點;需要檢索CACHE中的所有項:并行比較器組相聯(lián)映照:每個塊有n個地點可放的cache稱為n路組相聯(lián)cache;儲存器中的一個塊對應(yīng)到cache中獨一的組,可是能夠放在組內(nèi)的隨意地點上1)命中方法的兩種方式有寫直抵法和寫回法寫直抵法:保持CACHE和主存的一致;寫回法:修悔過的塊被代替時才寫入主存;2)不命中(寫缺失)的兩種方式有寫分派和寫不分派寫分派:分派CACHE中的

6、塊,并寫入CACHE;寫不分派:不分派,直接寫主存。缺失率是什么?致使缺失的原由是什么?缺失率是指CACHE接見不命中的比率。致使缺失的原由有強迫缺失、容量缺失和矛盾缺失強迫缺失:第一次接見相應(yīng)cache塊,cache中必定沒有改cache塊容量缺失:cache塊被移除后又被接見矛盾缺失:重復(fù)接見的多個地點映照在CACHE的同一地點6.性能的定量計算:程序履行時間=CPU履行程序的時間+等候儲存接見的時間鑒于CPI的計算:儲存器堵塞時鐘周期=(儲存器總接見次數(shù)/指令數(shù))*缺失率*缺失代價均勻接見時間(AMAT)=命中時間+缺失率*缺失代價.精選文檔舉例1:假定指令cache的缺失率為2%,數(shù)據(jù)

7、cache的缺失率為4%,辦理器的CPI為2(沒有儲存器堵塞),且每次缺失的代價為100個時鐘周期,那么配置一個從不發(fā)生缺失的理想的cache,辦理器的速度快多少?假定所有LOAD和STORE的頻次為36%.解:指令缺失機鐘周期:1*2%100=2.0I數(shù)據(jù)缺失:136%*4%*100=1.44I總儲存器堵塞:2.0I+1.44I=3.44I總CPU:2+3.44=5.44配置理想cache:5.44/2=2.72倍舉例2:辦理器時鐘周期的時間1ns,缺失代價是20個時鐘周期,缺失率為每條指令0.05次缺失,cache的接見時間(包含命中判斷)為1個時鐘周期。假定讀操作和寫操作的缺失代價同樣并

8、且忽視其余寫堵塞。請計算AMAT.解:每條指令的均勻儲存器接見時間為:AMAT=命中時間+缺失率缺失代價=1+0.0520=2個時鐘周期舉例3:假定辦理器基本的CPI為1.0,時鐘頻次為4GHz。假定主存接見時間為100ns,其中包含缺失辦理時間。設(shè)一級cache中每條指令缺失率為2%。假如增添一個二級cache,命中或缺失接見的時間都是5ns,并且容量大到一定使接見主存的缺失率減少到0.5%,這時的辦理器速率能提高多少?解:主存的缺失代價:100ns/(0.25ns/時鐘周期)=400個時鐘周期只有一級cache時:總的CPI=1.0+2%*400=9關(guān)于兩級cache:二級cache的缺失

9、代價:5ns/(0.25ns/時鐘周期)=20個時鐘周期總的CPI=1+2%*20+0.5%*400=3.4有二級cache的辦理器性能是沒有二級cache性能的9.0/3.4=2.6倍層次化儲存優(yōu)化方法有6種基本的CACHE優(yōu)化方法:1)更大的cache塊:強迫缺失減少;容量和矛盾缺失增添,缺失代價增添;2)更大的CACHE容量:缺失率降低;命中時間,功耗增添;3)更高的相聯(lián)度:矛盾缺失減少;命中時間增添,功耗增添;4)更多級CACHE:內(nèi)存接見時間減少;5)讀缺失優(yōu)先級更高:缺失代價降低;6)緩存索引時期防止地點變換:減少命中時間;第三章指令級并行1.開發(fā)指令級并行的目標:最小化CPI(履

10、行指令均勻時鐘周期數(shù))流水線CPI=理想流水線CPI+構(gòu)造冒險停留+數(shù)據(jù)冒險停留+控制冒險停留2.Load指令的5個階段或5級流水線的分法?5個階段的詳細內(nèi)容?Load指令的5個階段:Ifetch(取指)、Reg/Dec(取數(shù)和譯碼)、Exec(履行)、Mem(讀儲存器)和Wr(寫存放器)Ifetch(取指):從指令儲存器取指令并計算PC+4(指令儲存器、Addr)Reg/Dec(取數(shù)和譯碼):存放器取數(shù),同時對指令進行譯碼(存放器堆讀口、指令譯碼器)Exec(履行):計算內(nèi)存單元地點(擴展器、ALU).精選文檔Mem(讀儲存器):從數(shù)據(jù)儲存器中(數(shù)據(jù)儲存器)Wr(寫存放器):將數(shù)據(jù)寫到存放器

11、中(存放器堆寫口)用什么解決數(shù)據(jù)冒險?方法1:硬件堵塞(stall)方法2:軟件插入“NOP”指令方法3:編譯優(yōu)化:調(diào)整指令次序方法4:合理實現(xiàn)存放器堆的讀/寫操作即前半時鐘周期寫,后半時鐘周期讀,若同一個時鐘內(nèi)前面指令寫入的數(shù)據(jù)正好是后邊指令所讀數(shù)據(jù),則不會發(fā)生數(shù)據(jù)冒險方法5:轉(zhuǎn)發(fā)(Forwarding或Bypassing旁路)技術(shù),若有關(guān)數(shù)據(jù)是ALU結(jié)果,可經(jīng)過轉(zhuǎn)發(fā)解決;若有關(guān)數(shù)據(jù)是上條指令DM讀出內(nèi)容,不可以經(jīng)過轉(zhuǎn)發(fā)解決,隨后指令需被堵塞一個時鐘或加NOP指令。稱為Load-use數(shù)據(jù)冒險!4.怎樣解決控制冒險?方法1:硬件上堵塞(stall)分支指令后三條指令的履行使后邊三條指令清0或

12、其操作信號清0,以插入三條NOP指令方法2:軟件上插入三條“NOP”指令(以上兩種方法的效率太低,需聯(lián)合分支展望進行)方法3:分支展望(Predict)簡單(靜態(tài))展望:老是展望條件不知足(nottaken),即:持續(xù)履行分支指令的后續(xù)指令??杉訂⒌鲜揭?guī)則:在特定狀況下老是展望知足(taken),其余狀況老是展望不知足。如:循環(huán)頂(底)部分支老是展望為不知足(知足)。能達65%-85%的展望正確率動向展望:依據(jù)程序履行的歷史狀況,進行動向展望調(diào)整,能達90%的展望正確率注:采納分支展望方式時,流水線控制一定保證錯誤展望指令的履行結(jié)果不可以奏效,并且要能從正確的分支地點處從頭啟動流水線工作方法4

13、:延緩分支(Delayedbranch)(經(jīng)過編譯程序優(yōu)化指令次序?。┌逊种е噶钋懊媾c分支指令沒關(guān)的指令調(diào)到分支指令后邊履行,也稱延緩轉(zhuǎn)移5.動向展望基本方法采納一位展望位:老是按上一次實質(zhì)發(fā)生的狀況來展望下次,其特色:1)1表示近來一次發(fā)生過轉(zhuǎn)移(taken),0表示未發(fā)生(nottaken)2)展望時,若為1,則展望下次taken,若為0,則展望下次nottaken3)實質(zhì)履行時,若展望錯,則該位取反,不然,該位不變4)可用一個簡單的展望狀態(tài)圖表示5)弊端:當連續(xù)兩次的分支狀況發(fā)生改變時,展望錯誤采納二位展望位1)用2位組合四種狀況來表示展望和實質(zhì)轉(zhuǎn)移狀況2)依據(jù)展望狀態(tài)圖進行展望和調(diào)整3

14、)在連續(xù)兩次分支發(fā)生不一樣時,只會有一次展望錯誤.精選文檔兩位展望狀態(tài)圖基本思想:只有兩次展望錯誤才改變展望方向00狀態(tài)時展望發(fā)生(強轉(zhuǎn)移),實質(zhì)不發(fā)生時,轉(zhuǎn)到狀態(tài)01(弱轉(zhuǎn)移),下次仍展望為發(fā)生,假如再次展望錯誤(實質(zhì)不發(fā)生),才使下次展望調(diào)整為不發(fā)生11。第四章數(shù)據(jù)級并行1.SIMD并行的3種實現(xiàn)方法:向量系統(tǒng)構(gòu)造、SIMD擴展和圖形辦理單元(GPUs)向量系統(tǒng)構(gòu)造的基本思想:讀儲存器中分布的數(shù)據(jù)集至“vectorregisters”;存放器操作;分別結(jié)果儲存至儲存器;SIMD擴展的基本思想:固定了操作中操作數(shù)的數(shù)量:向量系統(tǒng)構(gòu)造采納向量長度存放器;SIMD擴展沒有復(fù)雜的尋址模式:步幅和集

15、中-分別尋址模式;.精選文檔沒有遮罩存放器。圖形辦理單元(GPUs)的基本思想:異構(gòu)履行模型是CPU為主機,GPU為加快器;開發(fā)類C的編程語言;一致所有的GPU并行為CUDA線程;編程模型“SIMT”。GPU架構(gòu)的3種方法各有什么異同點?同樣點:NVIDIAGPU架構(gòu)與向量機近似,善于數(shù)據(jù)級并行;集中-分別;遮罩存放器;大的存放器組。不一樣點:沒有標量辦理器;使用多線程隱蔽內(nèi)存接見延緩;有好多功能單元深度流水化。第五章線程級并行1.UMA和NUMA的兩個特色?UMA(UniformMemoryAccess)模型:物理儲存器被所有節(jié)點共享;所有節(jié)點接見隨意存儲單元的接見時間同樣;發(fā)生訪存競爭時,

16、仲裁策略同等對待每個節(jié)點,即每個節(jié)點時機均等;各節(jié)點的CPU可帶有局部私有高速緩存;外頭I/O設(shè)施也能夠共享,且每個節(jié)點有同等的接見權(quán)益。NUMA(Non-UniformMemoryAccess)模型:物理儲存器被所有節(jié)點共享,隨意節(jié)點能夠直接接見隨意內(nèi)存模塊;節(jié)點接見內(nèi)存模塊的速度不一樣,接見當?shù)貎Υ婺K的速度一般是接見其余節(jié)點內(nèi)存模塊的3倍以上;發(fā)生訪存競爭時,仲裁策略對節(jié)點可能是不一樣等的;各節(jié)點的CPU可帶有局部私有高速緩存cache;外頭I/O設(shè)施也能夠共享,但對各節(jié)點是不一樣等的。2.計算題:例:假定有一個應(yīng)用程序運轉(zhuǎn)在包含32個辦理器的多辦理器上,它在引用遠程儲存器時需要的時間為

17、200ns。關(guān)于這一應(yīng)用程序,假定除波及通訊的引用以外,其余所有引用都會在當?shù)貎Υ嫫鲗哟螛?gòu)造中命中。辦理器會在遠程懇求時停留,辦理器時鐘頻次為3.3GHz。假如基礎(chǔ)CPI(假定所有引用都在緩存中命中)為0.5,請對照在沒有通訊、0.2%的指令涉及遠程通訊引用這兩種狀況下,多辦理器會快多少?解:沒有遠程引用時,CPI為0.5;有遠程引用時:CPI=基礎(chǔ)CPI+遠程懇求率*遠程懇求成本=0.5+0.2%*遠程懇求成本=0.5+0.2%*(200ns*3.3G/s)=0.5+1.2=1.7當所有引用均為當?shù)匾脮r,多辦理器快:1.7/0.5=3.4倍粒度的觀點,并行級別按粒度分類?各級其余權(quán)衡標準?

18、粒度:權(quán)衡一個軟件進度的計算量的胸懷。最簡單的是指此程序段中的指令數(shù)。分細、中、粗三種。按粒度的不一樣,并行性級別能夠分為指令級、循環(huán)級、過程級、子程序級和作業(yè)級等不一樣的層次。指令級:細粒度,一般少于20條指令。循環(huán)級:典型循環(huán)含少于500條指令。易于并行(向量化)過程級:中粒度并行,指令少于2000條。并行較困難子程序級:粗/中粒度并行,幾千條指令。常在messagepassing多計算機上以SPMD或MPMD方式履行。并行性主要由算法設(shè)計人員與程序員開發(fā)。.精選文檔作業(yè)級:粗粒度并行,數(shù)萬條指令。常由加載程序和操作系統(tǒng)辦理這種并行性,靠算法有效性來保證。MESI協(xié)議的四個狀態(tài)?各個狀態(tài)的意思?畫出相應(yīng)的圖?MESI協(xié)議的四個狀態(tài)分別為M(Modified)、E(Exclusive)、S(Share)和I(Invalid).E狀態(tài):數(shù)占有效,數(shù)據(jù)和內(nèi)存中的數(shù)據(jù)一致,數(shù)據(jù)只存在于本Cache中。S狀態(tài):數(shù)占有效,數(shù)據(jù)和內(nèi)存中的數(shù)據(jù)一致,數(shù)據(jù)存在于好多Cache中。M狀態(tài):數(shù)占有效,數(shù)據(jù)被改正了,和內(nèi)存中的數(shù)據(jù)不一致,數(shù)據(jù)只存在于本Cache中。I狀態(tài):數(shù)據(jù)無效MESI協(xié)議狀態(tài)遷徙圖:第六章以庫房級計算機開發(fā)懇求級、數(shù)據(jù)級并行1.庫房級計算機的定義?與HPC“集群”、數(shù)據(jù)中心有何不一樣?庫房級計算機是用來供給互聯(lián)網(wǎng)服務(wù),主要用于搜尋、交際網(wǎng)絡(luò)、在線地圖、視頻分享、在線購

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論