版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
龍芯2號(hào)處理器設(shè)計(jì)中國(guó)科學(xué)院計(jì)算技術(shù)研究所CPU組2004.11.101內(nèi)容提要基本情況介紹研究目標(biāo)目前進(jìn)展近期工作計(jì)劃關(guān)鍵技術(shù)結(jié)構(gòu)設(shè)計(jì)處理器驗(yàn)證物理設(shè)計(jì)2龍芯2號(hào)研究目標(biāo)研究目標(biāo)研制出具有自主知識(shí)產(chǎn)權(quán)、達(dá)到國(guó)際先進(jìn)水平的64位高性能通用CPU芯片和配套的PC以及服務(wù)器系統(tǒng)樣機(jī)。建立開發(fā)平臺(tái)、設(shè)計(jì)方法、研究隊(duì)伍。樣機(jī)系統(tǒng)指標(biāo)MIPS兼容,64位,超流水,4發(fā)射,亂序執(zhí)行流片主頻500MHz以上,SPECCPU2000值為300分以上,性能與1GHz以上的PIII或PIV相當(dāng)300MHz的UntraSparcII的分值為100分。1.3GHz
PIV實(shí)測(cè)結(jié)果:INT346;FP272。運(yùn)行完整的64位Linux操作系統(tǒng)和X-window視窗系統(tǒng),通過包括SPECCPU2000在內(nèi)的若干基準(zhǔn)程序的功能和性能測(cè)試,通過包括Office、瀏覽器、WEB服務(wù)器在內(nèi)的一批應(yīng)用程序的考核,可試運(yùn)行電子政務(wù)等大型應(yīng)用。3部分處理器的SPECCPU2000值4333342001450MHz,64K+32K(L1),8M(L2)Power3-II100100300MHz,16K+16K(L1),L2UltraSPARC-II4104662001900MHz,32K+64K(L1),8M(L2)UltraSPARC-III1158651414745264386343756422SPECfp200091020031.45GHz,64K+32K(L1),1.5M(L2,on),8M(L3)Power4+6762002875MHz,0.75M+1.5M(L1)PA-8700+4222000550MHz,512K+1M(L1)PA-860068420022GHz,12K+8K(L1),256K(L2,on)PentiumIV40320011GHz,16K+16K(L1),256K(L2,on)PentiumIII4122001500MHz,32K+32K(L1),8M(L2)MIPSR140003472000500MHz,32K+32K(L1),8M(L2)MIPSR1200062120011001MHz,64K+64K(L1),8M(L2)Alpha21264C3131999500MHz,64K+64K(L1),4M(L2)Alpha21264SPECint2000日期參數(shù)處理器4MidLowHighMIPSMIPSXScaleARMIA32IA64HighPerformance(GHz)LowPower(mW)440/750/970/Power4+主流CPU的譜系和龍芯的位置高性能低能耗龍芯1/龍芯2/龍芯35龍芯處理器Roadmap0.18um,32位單發(fā)射龍芯1SPEC分值時(shí)間
200120022003200420052006200720040060080010000.18-0.13um,64位,4發(fā)射0.13-0.09um,64位,多線程以300MHzUltraSparcII為基準(zhǔn)龍芯21.3GHz的P4實(shí)測(cè)分值為定點(diǎn)342浮點(diǎn)2722GHz的P4SPEC分值在600到750之間龍芯1.2龍芯2.2龍芯2.3龍芯1.3龍芯3龍芯3.2龍芯3.36龍芯2號(hào)處理器特點(diǎn)高性能64位、四發(fā)射、亂序執(zhí)行64KB+64KB片內(nèi)一級(jí)Cache,1MB-8MB片外二級(jí)CacheIEEE754兼容浮點(diǎn)部件,專門的媒體支持雙精度浮點(diǎn)運(yùn)算10億次/秒,單精度浮點(diǎn)運(yùn)算20億次/秒SPECCPU2000實(shí)測(cè)性能相當(dāng)于500MHz-1GHz的PIII系列完全滿足桌面應(yīng)用的要求采用0.18umCMOS標(biāo)準(zhǔn)單元工藝,500MHz針對(duì)緩沖區(qū)溢出攻擊的專門安全支持MIPS兼容,支持LINUX,VxWorks,WinCE等主流操作系統(tǒng)1350萬(wàn)晶體管,面積6.2mm*6.7mm功耗:2w-4w@500MHz低成本:CPU+套片<20美元7龍芯2號(hào)進(jìn)展已經(jīng)完成多次流片,包括0.18um的定型芯片2002年7月開始概念結(jié)構(gòu)設(shè)計(jì),10月開始詳細(xì)結(jié)構(gòu)設(shè)計(jì)2003年10月17日首片成功運(yùn)行2004年9月28日0.18um定型芯片的試流片運(yùn)行基本完成院重大專項(xiàng)和863重點(diǎn)項(xiàng)目實(shí)測(cè)性能是龍芯1號(hào)的10倍以上全面超過VIA的性能、實(shí)測(cè)性能達(dá)到PIII的水平完全可以滿足桌面的應(yīng)用系統(tǒng)設(shè)計(jì)進(jìn)展完成PC和服務(wù)器主板的設(shè)計(jì),正在進(jìn)行筆記本主板的聯(lián)調(diào)64位北橋設(shè)計(jì),已經(jīng)完成RTL設(shè)計(jì)完成MIPS64Linuxkernel和Debian的完整發(fā)行版的移植,包括xwindows,OpenOffice,Mozilla,媒體播放,Email,Xpdf等8VersionPhysicalDesignArchitectureFeaturesTapeoutTimePerformance2AASIC,0.18um,250MHz64-bit,4-issue,OOO,32KB+32KBL12003.07.13Failed2BASIC,0.18um,300MHz64-bit,4-issue,OOO,32KB+32KBL1reducedqueuesize2003.08.133X-5XGodson-12B1Tiledplacement,craftedcell,0.18um,350-400MHzSplitRead,BTB,RAS,Off-chipL22004.03.072XGodson-2B2CMorecustom,0.18um,450-500MHz9-stagepipeline,64KB+64KBL1,pairedsingleFP2004.06-08500-800MHzPIII2D0.13um,Cu,600-800MHzMultiply-Add,SMP,On-chipL2,Prefetch,2004.09-121.3-1.4GHzPIV2D10.13um,Cu,morecustom,800-1000MHzPico-architecturetuning2005.01-061.5-2.0GHzPIVSOCBasedonGodson-2IPDDRcontroller,interconnect,IO2006.01-06TeraFLOPsCC-NUMA龍芯2號(hào)研發(fā)歷程Balancebetweenfrequencyandarchitectureismostimportant9Godson-2C主頻已完成多次流片,目前為C方案(Godson-2C)是0.18um的定型芯片正常電壓范圍(1.8v±10%)主頻為400MHz-450MHz目前由于封裝散熱較?。ㄖ荒苌?w-2w,實(shí)測(cè)400MHz時(shí)3w左右),因此降低電壓運(yùn)行在90MHz*3或90MHz*4通過封裝改進(jìn)和工藝調(diào)整,正常電壓范圍達(dá)到500MHz-600MHz改進(jìn)封裝:通過散熱片可以散3w-4w溝道寬度:0.16um或0.17um閾值電壓:-5%或-10%不用改gds2版圖,SMIC已經(jīng)開始加工10龍芯1號(hào)和龍芯2號(hào)11SPEC初步性能比較(1)266MHzGodson-1vs.270MHzGodson-2C500MHz的龍芯2號(hào)性能是龍芯1號(hào)性能的10倍以上12SPEC初步性能比較(2)733MHzVia-C3vs.270MHzGodson-2C500MHz的龍芯2號(hào)性能將大大超過VIA的處理器13SPEC初步性能比較(3)360MHzGodson-2Cvs.450MHz的PIII500MHz的Godson-2C的性能達(dá)到600MHz以上PIII的性能14Godson-2C的SPEC分值分析目前gcc編譯器270MHz時(shí)90-100分龍芯1號(hào)是定點(diǎn)18分,浮點(diǎn)25分Godson-2B在225MHz時(shí)40-50分通過硬件、OS和編譯優(yōu)化270MHz時(shí)達(dá)到100-120分主頻提高到500MHz使gcc編譯的SPEC分值提高到200分左右外頻和二級(jí)Cache的增大使性能隨主頻線性增加目前外頻為90MHz,可以提高到125MHz。目前二級(jí)Cache配置為4MB,可以配置到8MB。編譯器提高30%-50%估計(jì)需要2-3個(gè)月時(shí)間二進(jìn)制優(yōu)化可以提高10%-20%已經(jīng)把Alpha的ALTO移植到MIPS上最后達(dá)到250分或300分以上15Godson-2D的設(shè)計(jì)一個(gè)CPU設(shè)計(jì)、兩種芯片形態(tài)、三個(gè)應(yīng)用系統(tǒng)一:Godson-2處理器的增強(qiáng)型,1GHz,SPEC分值600分二:CPU和基于CPU的SOC(互連、存儲(chǔ)控制、IO)三:PC、SMP服務(wù)器、TeraFLOPS高性能機(jī)計(jì)算所負(fù)責(zé)CPU核和PC機(jī)結(jié)構(gòu)改進(jìn)浮點(diǎn)乘加:峰值性能雙精度4GFLOPS,單精度8GFLOPS片內(nèi)512KB二級(jí)Cache和SMP支持物理設(shè)計(jì)0.13um的HP工藝,更多的定制目前進(jìn)展已完成乘加部件改造、11月完成二級(jí)Cache和SMP支持11月中完成8端口寄存器堆的定制設(shè)計(jì)2005年2月tapeout第一個(gè)芯片。2005年底完成1GHz,SPEC分值600分的任務(wù)16龍芯3號(hào)考慮處理器結(jié)構(gòu)已經(jīng)歷了一個(gè)簡(jiǎn)單、復(fù)雜、簡(jiǎn)單、復(fù)雜的過程早期的處理器結(jié)構(gòu)一般都是簡(jiǎn)單的串行執(zhí)行工藝技術(shù)的發(fā)展及流水線、CACHE、向量機(jī)等使處理器結(jié)構(gòu)變復(fù)雜RISC的出現(xiàn)使處理器結(jié)構(gòu)得到一次較大的簡(jiǎn)化工藝技術(shù)的發(fā)展及亂序執(zhí)行和多發(fā)射技術(shù)又使RISC處理器結(jié)構(gòu)變復(fù)雜網(wǎng)絡(luò)及媒體應(yīng)用及功耗問題使處理器需求發(fā)生了變化Performancepersecond,Performanceperdollar,Performanceperwatt連線延遲和設(shè)計(jì)復(fù)雜度越來(lái)越大應(yīng)該用層次化的結(jié)構(gòu)簡(jiǎn)化設(shè)計(jì),物理設(shè)計(jì)對(duì)結(jié)構(gòu)設(shè)計(jì)的制約對(duì)處理器的微體系結(jié)構(gòu)進(jìn)行突破性的變革的時(shí)機(jī)已經(jīng)到來(lái)從復(fù)雜到簡(jiǎn)單、面向網(wǎng)絡(luò)和媒體應(yīng)用、低功耗多處理器核和多線程結(jié)構(gòu)已成為研究熱點(diǎn),但沒有解決已困擾二十年的并行程序編程難,對(duì)傳統(tǒng)串行程序加速小的問題現(xiàn)在沒有一種結(jié)構(gòu)(包括IRAM、PIM、SMT、CMP、Tracecache、微線程等)能全面解決上述問題,需要包括指令系統(tǒng)在內(nèi)的系統(tǒng)創(chuàng)新17目前的研究方向片內(nèi)多處理器結(jié)構(gòu)SMT、CMP、Micro-threading、TraceCache存儲(chǔ)層次與預(yù)取Cache一致性協(xié)議用有效的預(yù)取達(dá)到大容量CACHE的效果性能分析模型和方法把龍芯2號(hào)結(jié)構(gòu)移植到SimpleScalar上片內(nèi)多處理器模擬器低功耗設(shè)計(jì)系統(tǒng)級(jí)、邏輯級(jí)、電路級(jí)Java協(xié)處理器針對(duì)java中類處理的特點(diǎn)18科研隊(duì)伍情況龍芯課題組共80多人其中員工30人,研究員3人、副研3人,助研10人左右絕大部分是年輕人分成結(jié)構(gòu)組、系統(tǒng)組、物理組、驗(yàn)證組、IP組、龍芯實(shí)驗(yàn)室等6個(gè)組三名具有十年以上物理設(shè)計(jì)經(jīng)驗(yàn)的硅谷設(shè)計(jì)人員常年合作編譯組為龍芯2號(hào)做編譯器測(cè)試組負(fù)責(zé)龍芯2號(hào)的測(cè)試所外合作中科院微電子所、772所19關(guān)鍵技術(shù)結(jié)構(gòu)設(shè)計(jì)處理器驗(yàn)證物理設(shè)計(jì)20龍芯2號(hào)結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)“可執(zhí)行的結(jié)構(gòu)設(shè)計(jì)”用C模擬器作為詳細(xì)結(jié)構(gòu)設(shè)計(jì)的文檔,并用于驗(yàn)證、性能分析等。步步為營(yíng)的性能分析:C模擬器、RTL、FPGA、流片多發(fā)射和亂序執(zhí)行的關(guān)鍵技術(shù)9級(jí)流水:取指、預(yù)譯碼、譯碼、重命名、送入隊(duì)列、發(fā)射、讀寄存器、執(zhí)行、提交4發(fā)射,5個(gè)功能部件,浮點(diǎn)部件的定點(diǎn)和媒體復(fù)用轉(zhuǎn)移猜測(cè):Gshare+BTB+RAS,高效的轉(zhuǎn)移取消機(jī)制寄存器重命名:兩個(gè)64*64的物理寄存器堆動(dòng)態(tài)調(diào)度:ROB32-64項(xiàng),定點(diǎn)浮點(diǎn)發(fā)射隊(duì)列各16項(xiàng)存儲(chǔ)層次的關(guān)鍵技術(shù)TLB:64項(xiàng)全相聯(lián),每項(xiàng)兩頁(yè),獨(dú)立的16項(xiàng)指令TLBTLB中增加可執(zhí)行位,防止緩沖區(qū)溢出攻擊CACHE:指令與數(shù)據(jù)CACHE各64KB,4路組相聯(lián)Non-blocking:最多允許16-32條。Disambiguation:動(dòng)態(tài)解決訪存相關(guān),不用重新發(fā)射
Load猜測(cè)執(zhí)行:前面的store操作未確定的情況下執(zhí)行l(wèi)oad操作21常見處理器部分技術(shù)參數(shù)22結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)(1)浮點(diǎn)部件的定點(diǎn)和媒體復(fù)用對(duì)MIPS浮點(diǎn)指令的fmt域進(jìn)行擴(kuò)充,把浮點(diǎn)部件用做定點(diǎn)以及媒體處理部件的功能,不用額外增加指令。同一條指令(如加法指令)通過fmt域來(lái)指定不同數(shù)據(jù)的相同運(yùn)算。ADD.S,ADD.D,ADD.PS,ADD.64,ADD.32,ADD.4x16,ADD.8x8不用對(duì)主要的數(shù)據(jù)通路(如寄存器重命名、發(fā)射、讀寄存器、訪存等)做任何修改,只需對(duì)在功能部件中增加適當(dāng)?shù)墓δ芫涂梢源蟠蠹訌?qiáng)處理能力。實(shí)際上實(shí)現(xiàn)了簡(jiǎn)單的定點(diǎn)多線程,如有兩套可用做定點(diǎn)操作的寄存器堆、發(fā)射通路、以及訪存通路等。23結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)(2)轉(zhuǎn)移取消機(jī)制轉(zhuǎn)移猜測(cè):在轉(zhuǎn)移條件確定前,猜測(cè)某個(gè)分支取指并執(zhí)行。普通定點(diǎn)程序平均6-7條指令中有一條轉(zhuǎn)移指令。Godson-2使用混合預(yù)測(cè)+Gshare+BTB+RAS的轉(zhuǎn)移猜測(cè)方式當(dāng)發(fā)生轉(zhuǎn)移猜測(cè)錯(cuò)誤時(shí)要取消該轉(zhuǎn)移指令及其后續(xù)指令。在亂序執(zhí)行的環(huán)境下,有可能該轉(zhuǎn)移指令后面的指令已經(jīng)執(zhí)行,而該轉(zhuǎn)移指令前面的指令反而沒有執(zhí)行。因此如何判斷在各個(gè)流水階段中的指令與猜測(cè)錯(cuò)誤的指令的先后關(guān)系是一個(gè)關(guān)鍵技術(shù)。與其他處理器如MIPSR10000相比,Godson-2在猜錯(cuò)的轉(zhuǎn)移指令與其他指令的先后關(guān)系判斷上更簡(jiǎn)單高效。采用把程序分成若干基本塊的方法正因?yàn)槿绱?,Godson-2中較容易地實(shí)現(xiàn)了8項(xiàng)轉(zhuǎn)移隊(duì)列,而R10000中的轉(zhuǎn)移隊(duì)列只有4項(xiàng)。24結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)(3)Godson-2的安全機(jī)制利用緩沖區(qū)溢出進(jìn)行攻擊的例子Godson-2通過可執(zhí)行保護(hù)防止緩沖區(qū)溢出攻擊TLB增加可執(zhí)行位MIPS的ISA沒有執(zhí)行保護(hù)25cp0qtailSW100LW100SB100SW100cp0qhead6666543215321cp0qtailLW100SW100LW100SB100SW100cp0qhead66666666543215321結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)(4)訪存地址相關(guān)的解決:結(jié)構(gòu)設(shè)計(jì)的難點(diǎn)Alpla21264和MIPSR10000在遇到訪存相關(guān)時(shí)都需要退回重新發(fā)射Godson-2在訪存隊(duì)列中通過物理地址的全相聯(lián)比較動(dòng)態(tài)解決訪存相關(guān)LoadSpeculationCache命中的load操作必須等它前面的所有store的地址都確定后才能把值寫回寄存器并傳遞給后面的操作(30%-40%的概率不能返回)Godson-2實(shí)現(xiàn)了load操作Cache命中時(shí)可直接返回,并在發(fā)現(xiàn)訪存相關(guān)時(shí)取消該load及其后面的操作(<<1%的概率需要取消)cp0qtailSW100LW100SB?SW100cp0qhead6666543215321?26結(jié)構(gòu)設(shè)計(jì)研究方法兩個(gè)流程基于C模擬器的驗(yàn)證和評(píng)估基于FPGA的驗(yàn)證和評(píng)估兩個(gè)角度工作負(fù)載分析處理器瓶頸分析27C模擬器Cycle-by-cycle精確每秒可模擬約100k拍全系統(tǒng)模擬,運(yùn)行實(shí)際操作系統(tǒng),模擬串口,內(nèi)存,磁盤等外設(shè)。調(diào)試,數(shù)據(jù)收集能力和靈活度不斷提高詳細(xì)的數(shù)據(jù)統(tǒng)計(jì)重要的整體行為特性:IPC,cache失效率,分支預(yù)測(cè)失效率等指令相關(guān)統(tǒng)計(jì):每條指令在各流水級(jí)花費(fèi)的拍數(shù),遇到的失效數(shù)等28C模擬器(續(xù))專用的AMD64機(jī)群,大量使用批處理和自制腳本分析數(shù)據(jù)發(fā)展方向—能夠方便地在合理時(shí)間內(nèi)完成比較全面的評(píng)估:改善代碼可維護(hù)性提高運(yùn)行速度增加功耗分析等功能快速原型評(píng)估支持:更高層的模擬器29FPGA比C模擬器快30x以上,潛力還很大和最終系統(tǒng)更接近,可以運(yùn)行更大的數(shù)據(jù)集更多的應(yīng)用FPGA用于性能分析:FPGA和最終系統(tǒng)的差別在于接口時(shí)序大不相同可以插入邏輯模擬最終系統(tǒng)的接口時(shí)序可以加入更多的硬件支持來(lái)幫助性能分析:如更多的性能計(jì)數(shù)器,tracebuffer等30FPGA模擬的精確度延遲
read(cycle)Write(cycle)Godson-2B26.0037.88<35,46>25.9737.98<32,45>25.6537.77帶寬CopyScaleAddTriadGodson-2B71.8870.0075.1276.09<35,46>71.770.376.277.2<32,45>73.4672.277.9579.19SPECCPU2000test數(shù)據(jù)集誤差:整數(shù)平均:0.045%浮點(diǎn)平均:2%.31SpecCPU2000性能比較(test輸入集,運(yùn)行時(shí)間,使用FPGA得出)32工作負(fù)載分析基準(zhǔn)程序SPECCPU2000,mediabench,dhryd/whetd,stream等分析工具模擬器Performancecounter:perfctr,PAPI,pfmon,Vtune等二進(jìn)制工具,類似MIPS的pixie,Alpha的atom分析角度:(隨時(shí)間變化的)各種特性,熱點(diǎn)基本塊分析,編譯優(yōu)化等33處理器瓶頸分析理想上限分析專題研究34幾個(gè)例子訪存子系統(tǒng)性能分析Load猜測(cè)流水線中的IPC分布Storemiss優(yōu)化35訪存子系統(tǒng)性能分析目標(biāo)系統(tǒng):Godson-2B測(cè)量度量:延遲帶寬36延遲調(diào)查分析揭露了以下問題:北橋花費(fèi)過多時(shí)間訪問sdram:片外13~15總線周期出第一個(gè)數(shù)Godson-2B’s不流水的接口比RM7K多花5-6個(gè)總線周期總線利用率很低(<1/8)由于沒有二級(jí)cache,godson2B對(duì)訪存延遲非常敏感37不同訪存延遲下Godson2B的性能38帶寬標(biāo)準(zhǔn)的stream帶寬不是很理想:91MB/sat100x2MHz<1/8of峰值總線帶寬(100x8=800MB/s)原因延遲過長(zhǎng)不流水的接口Sysad總線協(xié)議開銷較大39Executiontimebreakdown40片外二級(jí)cache的性能41應(yīng)對(duì)措施增加流水讀接口支持增加片外二級(jí)cache支持在C模擬器中實(shí)現(xiàn)訪存控制器,評(píng)估各種實(shí)現(xiàn),包括訪存調(diào)度,訪存策略,片上控制器等尋求二級(jí)cache的替代方案啟動(dòng)北橋設(shè)計(jì)42Load猜測(cè)-現(xiàn)象數(shù)組拷貝匯編碼:433e58: lw $v0,0($a1)433e5c: addiu $a2,$a2,-1433e60: addiu $a1,$a1,4433e64: sw $v0,0($v1)433e68: bgez $a2,433e58433e6c: addiu $v1,$v1,4在沒有猜測(cè)的情況下,每個(gè)lw都隱式地依賴上一個(gè)循環(huán)的sw,導(dǎo)致代碼IPC很低Lw->sw->lw->sw…43Load猜測(cè)-更多的觀察Load被前面的store延遲的現(xiàn)象非常普遍:~30%一個(gè)被延遲的load(發(fā)射后)至少需要5拍才能寫回,30%將使得平均load指令的延遲拉長(zhǎng)到:3x0.7+5x0.3=3.6這惡化了原本就已經(jīng)比較長(zhǎng)的load延遲。44Load猜測(cè)-應(yīng)對(duì)措施讓準(zhǔn)備好的load直接寫回,不考慮前面是否還有為解決的store,然后檢測(cè)發(fā)生相關(guān)的情況,利用例外機(jī)制取消錯(cuò)誤的猜測(cè)—極小的硬件代價(jià)45Load猜測(cè)-效果對(duì)于上述數(shù)組拷貝代碼,load猜測(cè)后硬件看起來(lái)就像是能夠自動(dòng)把循環(huán)展開成如下形式:
lw..lw..lw..sw..sw..sw..46整數(shù)基準(zhǔn)程序速度提高(平均10%)47浮點(diǎn)基準(zhǔn)程序速度提高(平均6%)48Load猜測(cè)-更多的評(píng)估增加預(yù)測(cè)器來(lái)減少錯(cuò)誤的猜測(cè)使用1024位的預(yù)測(cè)器可以再提高1%更激進(jìn)的猜測(cè)?不僅猜測(cè)相關(guān),同時(shí)猜測(cè)cache是否命中,進(jìn)一步降低load延遲結(jié)合預(yù)測(cè)器相關(guān)paper49流水線各級(jí)的IPC分布理想的IPC是4,在哪里損失掉了?為什么?50各流水級(jí)的IPC損失51譯碼階段IPC損失原因52寄存器重命名階段IPC損失原因53發(fā)射階段IPC損失原因54Storemiss優(yōu)化目前L1采取write-back,write-allocateStore引起的refill有時(shí)不必要整個(gè)cache塊都被重寫(如memset)只有寫過的部分被用到統(tǒng)計(jì)數(shù)據(jù)優(yōu)化措施55統(tǒng)計(jì)數(shù)據(jù)SPECCPU2000定點(diǎn)(test)平均storemiss占總miss33%Storemiss時(shí)%64在被替換前寫滿整個(gè)cache塊,30%沒寫滿,但只使用了此期間寫的值SPECCPU2000浮點(diǎn)(test)平均storemiss占總miss47%Storemiss時(shí)%78在被替換前寫滿整個(gè)cache塊,20%沒寫滿,但只使用了此期間寫的值56STB測(cè)試數(shù)據(jù)(stream帶寬測(cè)試)STB(16):FunctionRate(MB/s)RMStimeMintimeMaxtimeCopy:127.13020.02550.02520.0260Scale:112.39090.02850.02850.0286Add:115.14940.04170.04170.0417Triad:111.70570.04300.04300.0430-----------------------------------------------------------------------------BASE(NOSTB):FunctionRate(MB/s)RMStimeMintimeMaxtimeCopy:81.67230.03920.03920.0393Scale:81.38580.03940.03930.0394Add:86.18380.05570.05570.0558Triad:86.54890.05550.05550.0555補(bǔ)充:STB(8)與STB(16)結(jié)果幾乎一樣。~50%的提高!57關(guān)鍵技術(shù)結(jié)構(gòu)設(shè)計(jì)處理器驗(yàn)證物理設(shè)計(jì)58Godson-2的驗(yàn)證特點(diǎn)(1)驗(yàn)證占總工作量的60-70%驗(yàn)證和設(shè)計(jì)代碼比例為5:1,包括測(cè)試生成、仿真環(huán)境、覆蓋代碼等驗(yàn)證的困難是只能證明有錯(cuò),不能證明正確驗(yàn)證目的是增加項(xiàng)目管理人員的信心驗(yàn)證是不斷發(fā)現(xiàn)沒有被驗(yàn)證的代碼或功能的過程Godson-2的兩維驗(yàn)證流程動(dòng)態(tài)系統(tǒng)級(jí)驗(yàn)證過程:在C模擬器、RTL、及FPGA等多個(gè)層次運(yùn)行系統(tǒng)軟件及應(yīng)用軟件覆蓋率分析:代碼覆蓋率、功能覆蓋率RTL仿真測(cè)試生成FPGA驗(yàn)證C模擬覆蓋率分析?Time%CoverageGoal無(wú)覆蓋率反饋有覆蓋率反饋59Godson-2的驗(yàn)證特點(diǎn)(2)測(cè)試向量構(gòu)造隨機(jī)測(cè)試向量、功能測(cè)試向量、微結(jié)構(gòu)測(cè)試向量、真實(shí)應(yīng)用程序手工編寫驗(yàn)證代碼:需要高級(jí)結(jié)構(gòu)工程師的大量勞動(dòng),需要積累,極有價(jià)值指令級(jí)的隨機(jī)驗(yàn)證隨機(jī)測(cè)試向量生成一般用在模塊級(jí),其優(yōu)點(diǎn)是容易達(dá)到較高的覆蓋率,缺點(diǎn)是缺乏模塊級(jí)的正確性標(biāo)準(zhǔn)對(duì)于CPU來(lái)說,指令系統(tǒng)是唯一的正確性標(biāo)準(zhǔn)Godson-2設(shè)計(jì)了指令級(jí)隨機(jī)驗(yàn)證系統(tǒng),達(dá)到很高的覆蓋率,可以容易判斷執(zhí)行結(jié)果,大大降低了編寫手工代碼的工作量多片F(xiàn)PGA驗(yàn)證Godson-2的驗(yàn)證需要用3片最大的FPGA。在芯片引腳上實(shí)現(xiàn)了倍頻傳輸,即復(fù)用同一個(gè)引腳,傳送多個(gè)信號(hào)。浮點(diǎn)部件的形式驗(yàn)證使用動(dòng)態(tài)仿真不能證明正確,只能發(fā)現(xiàn)錯(cuò)誤通過形式證明一個(gè)浮點(diǎn)部件設(shè)計(jì)符合IEEE754標(biāo)準(zhǔn),目前可以做到純組合邏輯的形式驗(yàn)證60關(guān)鍵技術(shù)結(jié)構(gòu)設(shè)計(jì)處理器驗(yàn)證物理設(shè)計(jì)61龍芯2號(hào)物理設(shè)計(jì)關(guān)鍵技術(shù)物理設(shè)計(jì)和結(jié)構(gòu)設(shè)計(jì)緊密結(jié)合從micro-architecture到pico-architecture以ASIC流程為主的半定制流程定制模塊設(shè)計(jì):3w6r64*64寄存器堆、4w8r64*64寄存器堆、1w1r64*64寄存器堆。定制庫(kù)單元:包括基本單元,如與非門、或非門、選擇器、觸發(fā)器等;針對(duì)Godson-2結(jié)構(gòu)的宏單元,如多位比較器、選擇器、觸發(fā)器、全加器等,一般為雙倍高度;一些特殊單元,如為了利用usefulclockskew而設(shè)計(jì)的CLKBUF,適用于Flip-Chip封裝的PAD單元建立
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥理學(xué)知識(shí)培訓(xùn)課件
- 論文寫作指南
- 2025年度餐飲加盟連鎖經(jīng)營(yíng)合作協(xié)議書3篇
- 2025年度廣告?zhèn)髅讲鸹锖贤瑓f(xié)議4篇
- 專業(yè)藝術(shù)教師勞務(wù)合作合同(2024版)一
- 二零二四醫(yī)院護(hù)士勞動(dòng)合同范本:護(hù)理危機(jī)管理與責(zé)任界定3篇
- 2025年茶山茶葉采摘與加工承包經(jīng)營(yíng)合同4篇
- 2025年度快遞快遞業(yè)務(wù)市場(chǎng)營(yíng)銷承包合同3篇
- 2025年度餐飲行業(yè)節(jié)能減排合作協(xié)議范本3篇
- 2025年度情侶忠誠(chéng)保障不分手協(xié)議書電子版下載3篇
- 直播帶貨助農(nóng)現(xiàn)狀及發(fā)展對(duì)策研究-以抖音直播為例(開題)
- 腰椎間盤突出疑難病例討論
- 《光伏發(fā)電工程工程量清單計(jì)價(jià)規(guī)范》
- 2023-2024學(xué)年度人教版四年級(jí)語(yǔ)文上冊(cè)寒假作業(yè)
- (完整版)保證藥品信息來(lái)源合法、真實(shí)、安全的管理措施、情況說明及相關(guān)證明
- 營(yíng)銷專員績(jī)效考核指標(biāo)
- 陜西麟游風(fēng)電吊裝方案專家論證版
- 供應(yīng)商審核培訓(xùn)教程
- 【盒馬鮮生生鮮類產(chǎn)品配送服務(wù)問題及優(yōu)化建議分析10000字(論文)】
- 肝硬化心衰患者的護(hù)理查房課件
- 2023年四川省樂山市中考數(shù)學(xué)試卷
評(píng)論
0/150
提交評(píng)論