版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第一章1.7,1.10,1.111.7某臺主頻為400MHz的計算機執(zhí)行標準測試程序,程序中指令類型、執(zhí)行數(shù)量和平均時鐘周期數(shù)如下:指令類型指令執(zhí)行數(shù)量平均時鐘周期數(shù)整數(shù)450001數(shù)據(jù)傳送750002浮點80004分支15002求該計算機的有效CPI、MIPS和程序執(zhí)行時間。解:(1)(2)(3)1.10計算機系統(tǒng)有三個部件可以改進,這三個部件的加速比如下: 部件加速比130; 部件加速比220; 部件加速比310;(1) 如果部件1和部件2的可改進比例為30,那么當部件3的可改進比例為多少時,系統(tǒng)的加速比才可以達到10?(2) 如果三個部件的可改進比例為30、30和20,三個部件同時改進,
2、那么系統(tǒng)中不可加速部分的執(zhí)行時間在總執(zhí)行時間中占的比例是多少?解:(1)11(2)1.11 假設(shè)浮點數(shù)指令FP指令的比例為30%,其中浮點數(shù)平方根FPQSR占全部指令的比例為4%,F(xiàn)P操作的CPI為5,F(xiàn)PSQR操作的CPI為20,其他指令的平均CPI為1.25.現(xiàn)有兩種改進方案,第一種是把FPSQR操作的CPI減至3,第二種是把所有的FP操作的CPI減至3,試比較兩種方案對系統(tǒng)性能的提高程度。解:沒有改進之前,每條指令的平均時鐘周期CPI為:第一種方案:CPI1 = CPI-(CPIFPSQR-CPIFPSQR)0.04 = 2.375-(20-3)0.04 = 1.695第二種方案:CPI
3、2 = CPI-(CPIFP-CPIFP)0.3= 2.375-(5-3)0.3 = 1.775從CPI來看,第一種方案優(yōu)于第二種。解法2:先使用已知條件求出原始CPI,再求出除去FPSQR指令外其他指令的平均CPI,最后比較改進后的CPI大小。沒有改進之前,每條指令的平均時鐘周期CPI為:設(shè)除FPSQR外其余指令的平均CPI為X,則 2.375 = 20 4% + (1 - 4%)X ,解出X = 1.640625方案1:CPI1 = 3 4% + 1.640625 (1 - 4%) = 1.695方案2:CPI2 = 3 30% + 1.25 (1 - 30%) = 1.775解法3(用A
4、mdahl公式):設(shè)指令總條數(shù)=M,時鐘周期長度=CYCLE。沒有改進之前總時間Told = 0.3M 5 CYCLE + 0.7M 1.25 CYCLE = M 2.375 CYCLETFP = 0.3M 5 CYCLE = M 1.5 CYCLE,所占比例為1.5/2.375 63%TFPSQR = 0.04M 20 CYCLE = M 0.8 CYCLE,所占比例為0.8/2.375 34%方案1:Se = 20/3,F(xiàn)e 34%,Sn1 = 1 / (1 - Fe) + Fe / Se 1.4方案2:Se = 5/3,F(xiàn)e 63%,Sn2 = 1 / (1 - Fe) + Fe / S
5、e 1.3方案1的加速比更大,性能更好 第二章2.14(補充),實驗1【補充習(xí)題2.14】人工模擬以下MIPS程序的單條指令運行方式,在表中用16進制編碼記錄每一步產(chǎn)生的結(jié)果(不得借助模擬軟件)。 .datan: .word 3x: .double 0.5 .text LD R1, n(R0) L.DF0, x(R0) DADDIR2, R0, 1; R2 1 MTC1R2, F11; F11 1 CVT.D.LF2, F11; F2 1loop: MUL.DF2, F2, F0; F2 F2F0 DADDIR1, R1, -1; decrement R1 by 1 BNEZR1, loop;
6、 if R10 continue HALT ; 此條不填表(提示:MIPS浮點數(shù)的格式是IEEE754)解:序號結(jié)果寄存器名稱結(jié)果值(16進制)序號結(jié)果寄存器名稱結(jié)果值(16進制)1R100000000000000038無無2F03fe00000000000009F23fd00000000000003R2000000000000000110R100000000000000014F11000000000000000111無無5F23ff000000000000012F23fc00000000000006F23fe000000000000013R100000000000000007R1000000
7、000000000214無無0.5的二進制表示:0.1=1.02-1尾數(shù):(1).0000階碼:-1+1023=0x3fe 0x3fe0000000000000 1的二進制表示:1.0=1.020尾數(shù):(1).0000階碼:0+1023=0x3ff 0x3ff0000000000000 補充知識:目前國際上流行的浮點數(shù)標準是IEEE 754,其基本組成是32bit單精度、64bit雙精度兩種類型。該標準規(guī)定基值為2,階碼E用移碼表示,尾數(shù)M用原碼表示,根據(jù)原碼的規(guī)格化方法,最高數(shù)字位總是1,該標準將這個1缺省存儲,使得尾數(shù)表示范圍比實際存儲的一位。IEEE 754的標準文件是ANSI/IEEE
8、 Std 754-1985IEEE Standard for Binary Floating-Point Arithmetic,通過Google可搜到pdf文件下載。在IEEE 754浮點數(shù)國際標準中,32位單精度浮點數(shù)和64位雙精度浮點數(shù)的格式分別如下: 對于單精度浮點數(shù),階碼用移-127碼表示,即階碼的0255分別表示階碼的真值為-127128。尾數(shù)(原碼)用1位符號位、23位小數(shù)和1位隱藏的整數(shù)共25位表示。尾數(shù)的基值和階碼的基值都是2。 當0e255時,表示一個非零的規(guī)格化浮點數(shù),數(shù)值為:N=(-1)s2e-127(1.m) 當e=255,且m0時,表示一個非數(shù)NaN(Not-a-Nu
9、mber)。NaN可能是在許多非確定的情況下,如零除以零、求負數(shù)的平方根等產(chǎn)生的結(jié)果。 當e=255,且m=0時,表示一個無窮數(shù):N=(-1)s。注意+和-的表示是不同的。 當e=0,且m0時,表示規(guī)格化浮點數(shù):N=(-1)s2-126(0.m)。 當e=0,且m=0時,表示浮點數(shù)零:N=(-1)s0。注意+0與-0的表示是不同的。 對于64位雙精度浮點數(shù),階碼用移-1023碼表示,其他規(guī)定與單精度浮點數(shù)類似?!緦嶒?】實驗要求:用MIPS64指令編寫一個盡可能短小的程序,將事先存放在數(shù)據(jù)區(qū)的4字節(jié)字符串(例如“3901”)轉(zhuǎn)換為一個4位BCD整數(shù),賦給R9。在WinMIPS64模擬器調(diào)試通過
10、。實驗報告:(1) 程序清單;(2) 運行結(jié)果(每輪循環(huán)末尾R9的數(shù)值,高位的0可以不寫)循環(huán)輪數(shù)1234R9的值(BCD整數(shù))(3) 程序效率指令總條數(shù)(不算HALT)運行總時間(節(jié)拍數(shù))解:(1) 程序清單無統(tǒng)一答案;(2) 運行結(jié)果循環(huán)輪數(shù)1234R9的值(BCD整數(shù))3393903901第八章 8.11,8.128.11假設(shè)在一個計算機系統(tǒng)中: (1)每頁為32KB,cache塊大小為128B(2)對應(yīng)新頁的地址不在cache中,CPU不訪問新頁中的任何數(shù)據(jù); (3)Cache中95%的被替換塊將再次被讀取,并引起一次不命中; (4)cache使用寫回方法,平均60%的塊被修改過; (
11、5)I/O系統(tǒng)緩沖能夠存儲一個完整的cache塊 (6)訪問或不命中在所有cache塊中均勻分布; (7)在CPU和I/O之間,沒有其他訪問cache的干擾; (8)無I/O時,每100萬個時鐘周期內(nèi)有18000次不命中; (9)不命中開銷是40個時鐘周期,如果被替換的塊被修改過,則再加上30個周期用于寫回主存; (10)假設(shè)計算機平均每200萬個周期處理一頁 試分析I/O對于性能的影響有多大 解:每個主存頁有32K/128256塊。因為是按塊傳輸,所以I/O傳輸本身并不引起Cache失效。但是它可能要替換Cache中的有效塊。如果這些被替換塊中有60被修改過,將需要(25660)304608
12、個時鐘周期將這些被修改過的塊寫回主存。這些被替換出去的塊中,有95的后繼需要訪問,從而產(chǎn)生95256244次失效,將再次發(fā)生替換。由于這次被替換的244塊中數(shù)據(jù)是從I/O直接寫入Cache的,因此所有塊都為被修改塊,需要寫回主存(因為CPU不會直接訪問從I/O來的新頁中的數(shù)據(jù)),需要時間是244(4030)17080個時鐘周期。沒有I/O時,每一頁平均使用200萬個時鐘周期,Cache失效36000次,其中60被修改過,所需的處理時間為:(3600040)40(3600060)(4030)2088000(時鐘周期)I/O造成的額外性能損失比例為(460817080)(2000000208800
13、0)0.53Lets look at the impact on the CPU of reading a disk page directly into the cache. Make the following assumptions: .Each page is 16 KB, and the cache-block size is 64 bytes. .The addresses corresponding to the new page are not in the cache. .The CPU will not access any of the data in the new p
14、age. .95% of the blocks that were displaced from the cache will be read in again, and each will cause a miss. .The cache uses write back, and 50% of the blocks are dirty on average. .The I/O system buffers a full cache block before writing to the cache (this is called a speed-matching buffer, matchi
15、ng transfer bandwidth of the I/O system and memory). .The accesses and misses are spread uniformly to all cache blocks. .There is no other interference between the CPU and I/O for the cache slots. .There are 15,000 misses every 1 million clock cycles when there is no I/O. .The miss penalty is 30 clo
16、ck cycles, plus 30 more cycles to write the block if it was dirty.Assuming one page is brought in every 1 million clock cycles, what is the impact on performance?1. Each page fills 16,384/64 or 256 blocks.(1)2. I/O transfers do not cause cache misses on their own because entire cache blocks are tran
17、sferred. However, they do displace blocks already in the cache. (2)3. If half of the displaced blocks are dirty, it takes 128 x 30 clock cycles to write them back to memory. (5)(10)4. There are also misses from 95% of the blocks displaced in the cache because they are referenced later, adding anothe
18、r 95% x 256 (4), or 244 misses. 244 x30 cycles (10)5. Since this data was placed into the cache from the I/O system, all these blocks are dirty and will need to be written back when replaced. Thus, the total is on average 128 x 30 + 244 x 60 more clock cycles than the original 1,000,000+ 7500 x 30 +
19、 7500 x 60.6. This turns into a 1% decrease in performance:8.12(補充) 假定某網(wǎng)絡(luò)型RAID系統(tǒng)包含6個SCSI磁盤,采用RAID 1+0結(jié)構(gòu),對給定時間t,各部分可靠度為:網(wǎng)絡(luò)接口通道NIC的R1=0.9,陣列控制器R2=0.95,SCSI通道適配器R3=0.95,磁盤R4=0.8。(1)畫出系統(tǒng)可靠性框圖;(2)寫出系統(tǒng)可靠性R的表達式,計算R的數(shù)值;(3)提出進一步增強系統(tǒng)可靠性的若干建議。NIC陣列控制器SCSI通道適配器NICGGHHIIDDEEFFAABBCC解:R1R1R2R3R4R4R4R4R4R4(1)(2)R=
20、(1-(1-R1)2)R2R3(1-(1-R4)2)30.79(3)采用雙控制器、雙SCSI適配器、提高數(shù)據(jù)冗余度、網(wǎng)絡(luò)通道冗余度、提高各部分器件可靠度等。第九章 9.9,9.139.9 設(shè)32個處理器編號為0、1、31,(1) 分別計算下列互連函數(shù):(2) 用Cube0和構(gòu)成混洗交換網(wǎng)(每步只能使用Cube0或一次),網(wǎng)絡(luò)直徑是多少?從5號處理機發(fā)送數(shù)據(jù)到7號處理機,最短路徑要經(jīng)過幾步?請列出經(jīng)過的處理機編號。解: (1) (2) 2n個結(jié)點的均勻洗牌交換網(wǎng)的網(wǎng)絡(luò)直徑為2n-1,32個結(jié)點的均勻洗牌交換網(wǎng)的網(wǎng)絡(luò)直徑為9。從5號處理機發(fā)送數(shù)據(jù)到7號處理機,最短路徑要經(jīng)過6步:00101001000100001001100101001100111(3) 網(wǎng)絡(luò)直徑是3,結(jié)點度是9,與2號處理機距離最遠的是13、15、21、23號處理機。9.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)開發(fā)合同(2篇)
- 2025年度數(shù)據(jù)中心通風(fēng)排煙系統(tǒng)建設(shè)與維護服務(wù)合同2篇
- 個人向公司借款合同(2024年)
- 2025版民房建筑工程勞務(wù)分包合同4篇
- 2025年建筑保溫材料專用黏結(jié)劑銷售合同3篇
- 2025年度農(nóng)用車出口貿(mào)易代理合同范本3篇
- 2025年度能源行業(yè)個人勞務(wù)派遣及安全生產(chǎn)合同3篇
- 2025年度個人企業(yè)全額承包經(jīng)營服務(wù)合同規(guī)范3篇
- 2025年度智能培訓(xùn)班租賃合同范本3篇
- 二零二五模具加工企業(yè)臨時工用工合同范本4篇
- 副總經(jīng)理招聘面試題與參考回答(某大型國企)2024年
- PDCA循環(huán)提高護士培訓(xùn)率
- 2024-2030年中國智慧水務(wù)行業(yè)應(yīng)用需求分析發(fā)展規(guī)劃研究報告
- 《獅子王》電影賞析
- 河北省保定市定州市2025屆高二數(shù)學(xué)第一學(xué)期期末監(jiān)測試題含解析
- 中醫(yī)護理人文
- 2024-2030年中國路亞用品市場銷售模式與競爭前景分析報告
- 貨物運輸安全培訓(xùn)課件
- 前端年終述職報告
- 2024小說推文行業(yè)白皮書
- 市人民醫(yī)院關(guān)于開展“改善就醫(yī)感受提升患者體驗主題活動”2023-2025年實施方案及資料匯編
評論
0/150
提交評論