版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
計算機組成原理v1.0第一章鯤鵬處理器鯤鵬處理器是華為面向ICT領(lǐng)域兼容ARM64bit指令集的多核處理器芯片,基于華為自研的具有完全知識產(chǎn)權(quán)的ARMV8架構(gòu),采用業(yè)界領(lǐng)先的7nm制程,多Die合封的Chiplet封裝工藝,在提供強大計算能力的同時還集成了豐富且強大的IO能力,為行業(yè)用戶實現(xiàn)業(yè)務(wù)加速提供支撐。本章主要介紹華為鯤鵬芯片的關(guān)鍵技術(shù),以及基于鯤鵬系列芯片的TaiShan服務(wù)器產(chǎn)品知識和典型應(yīng)用案例,包括鯤鵬920芯片硬件設(shè)計、芯片規(guī)格、架構(gòu)、加速引擎、流水線技術(shù)等相關(guān)的內(nèi)容。學完本課程后,您將能夠:描述華為鯤鵬芯片的關(guān)鍵技術(shù)描述鯤鵬920處理器的產(chǎn)品特點了解鯤鵬920處理器的設(shè)計架構(gòu)了解鯤鵬920處理器的加速引擎功能ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈指令集:RISCvsCISCARM:使用精簡指令集(RISC),大幅簡化架構(gòu),僅保留所需要的指令,可以讓整個處理器更為簡化,擁有小體積、高效能的特性;ARM指令集主要使用NEON;ARMv8架構(gòu)支持64位操作,指令32位,寄存器64位,尋址能力64位;X86:使用復(fù)雜指令集(CISC),以增加處理器本身復(fù)雜度作為代價,去換取更高的性能;X86指令集從MMX,發(fā)展到了SSE,AVX;Page6ARMv8架構(gòu)的特點:1、31個64位通用寄存器,原來架構(gòu)只有15個通用寄存器。2、新指令集支持64位運算,指令中的寄存器編碼由4位擴充到5位。3、新指令集仍然是32位,減少了條件執(zhí)行指令,條件執(zhí)行指令的4位編碼釋放出來用于寄存器編碼。4、堆棧指針SP和程序指針PC都不再是通用寄存器了,同時推出了零值寄存器。(類似PowerPC的r0)5、A64與A32的高級SIMD和FP相同6、高級SIMD與VFP共享浮點寄存器,支持128位寬的vector7、新增加解密指令A(yù)RM處理器體系結(jié)構(gòu)ARM的基本數(shù)據(jù)類型:雙字節(jié)(DoubleWord):64位字(Word):在ARM體系結(jié)構(gòu)中,字的長度為32位半字(Half-Word):在ARM體系結(jié)構(gòu)中,半字的長度為16位字節(jié)(Byte):在ARM體系結(jié)構(gòu)中,字節(jié)的長度為8位ARM處理器體系結(jié)構(gòu)ARM內(nèi)核工作模式:用戶模式(user):正常程序執(zhí)行模式;快速中斷模式(FIQ):高優(yōu)先級的中斷產(chǎn)生會進入該種模式,用于高速通道傳輸;外部中斷模式(IRQ):低優(yōu)先級中斷產(chǎn)生會進入該模式,用于普通的中斷處理;特權(quán)模式(Supervisor):復(fù)位和軟中斷指令會進入該模式;數(shù)據(jù)訪問中止模式(Abort):當存儲異常時會進入該模式;未定義指令中止模式(Undefined):執(zhí)行未定義指令會進入該模式;系統(tǒng)模式(System):用于運行特權(quán)級操作系統(tǒng)任務(wù);監(jiān)控模式(Monitor):可以在安全模式和非安全模式之間切換;ARM處理器體系結(jié)構(gòu)ARM流水線的執(zhí)行順序:取指令(Fetch):從存儲器讀取指令;譯碼(Decode):譯碼以鑒別它是屬于哪一條指令;執(zhí)行(Execute):將操作數(shù)進行組合以得到結(jié)果或存儲器地址;緩沖/數(shù)據(jù)(Buffer/data):如果需要,則訪問存儲器以存儲數(shù)據(jù);回寫:(Write-back):將結(jié)果寫回到寄存器組中;ARM處理器體系結(jié)構(gòu)ARM指令集:數(shù)據(jù)操作指令;乘法指令;Load/Store指令;跳轉(zhuǎn)指令;狀態(tài)操作指令;異常產(chǎn)生指令A(yù)RM處理器體系結(jié)構(gòu)ARM指令的尋址方式:立即數(shù)尋址;寄存器尋址;寄存器移位尋址;寄存器間接尋址;基址變址尋址;多寄存器尋址/塊拷貝尋址;相對尋址ARM處理器體系結(jié)構(gòu)ARM處理器有七種類型的異常中斷:復(fù)位異常(Reset):處理器在工作時,突然按下重啟鍵,就會觸發(fā)該異常;數(shù)據(jù)異常(DataAbort):讀取數(shù)據(jù)失敗;快速中斷異常(FIQ):快速中斷要比普通中斷響應(yīng)速度要快一些;外部中斷異常(IRQ):普通中斷;預(yù)取異常(PrefetchAbort):預(yù)取指令失敗,ARM在執(zhí)行指令的過程中,要先去預(yù)取指令準備執(zhí)行,如果預(yù)取指令失敗,就會產(chǎn)生該異常;軟中斷異常(SWI):軟件中需要去打斷處理器工作,可以使用軟中斷來執(zhí)行;未定義指令異常(UndefinedInstruction):處理器無法識別指令的異常,處理器執(zhí)行的指令是有規(guī)范的,如果嘗試執(zhí)行不符合要求的指令,就會進入到該異常指令對應(yīng)的地址中;當異常發(fā)生時,分組寄存器R14和SPSR用于保存處理器狀態(tài),異常返回時,SPSR內(nèi)容恢復(fù)到SPSR,鏈接寄存器R14的內(nèi)容恢復(fù)到程序計數(shù)器PCARM架構(gòu)發(fā)展史ARM架構(gòu)發(fā)展史(2)ARM處理器系列命名規(guī)則命名格式:ARM{x}{y}{z}{T}{D}{M}{I}x:處理器系列,是共享相同硬件特性的一組處理器,如:ARM7TDMI、ARM740T都屬于ARM7系列y:存儲管理/保護單元z:CacheT:Thumb,Thumb16位譯碼器D:Debug,JTAG調(diào)試器M:Multipler,快速乘法器I:EmbeddedICELogic,嵌入式跟蹤宏單元ARM架構(gòu)發(fā)展史(3)從ARMv7開始,CPU命名為Cortex,并劃分為A、R、M三大系列,分別為不同的市場提供服務(wù);A(Application)系列:應(yīng)用型處理器,面向具有復(fù)雜軟件操作系統(tǒng)的面向用戶的應(yīng)用,為手機、平板、AP等終端設(shè)備提供全方位的解決方案;R(Real-Time)系列:實時高性能處理器,為要求可靠性、高可用性、容錯功能、可維護性和實時響應(yīng)的嵌入式系統(tǒng)提供高性能計算解決方案;M(Microcontroller)系列:高能效、易于使用的處理器,主要用于通用低端,工業(yè),消費電子領(lǐng)域微控制器。ARM架構(gòu)發(fā)展史(4)ARM服務(wù)器處理器的優(yōu)勢低功耗一直以來都是ARM架構(gòu)芯片最大的優(yōu)勢;ARM架構(gòu)的芯片在成本、集成度方面也有較大的優(yōu)勢;端、邊、云全場景同構(gòu)互聯(lián)與協(xié)同;更高的并發(fā)處理效率;完善的生態(tài)系統(tǒng),與多元化的市場供應(yīng)ARM服務(wù)器處理器的興起亞馬遜公司的Graviton服務(wù)器處理器與EC2彈性計算云;Marvell/Cavium公司的ThunderX系列服務(wù)器處理器;Ampere公司的eMAG/Altra系列服務(wù)器處理器;飛騰公司FT2000+系列服務(wù)器處理器;華為公司鯤鵬系列服務(wù)器處理器ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈199120052009201420162019第一顆傳輸網(wǎng)絡(luò)的ASIC芯片第一顆基于ARM的無線基站芯片第一顆基于ARM的移動端處理器第一顆基于ARM的64位處理器業(yè)界第一顆支持多路ARM處理器業(yè)界第一顆7nm數(shù)據(jù)中心處理器K3Hi1612鯤鵬916鯤鵬920開放生態(tài)開放平臺,支持業(yè)界主流軟硬件;構(gòu)建鯤鵬生態(tài),與開發(fā)者、伙伴和產(chǎn)業(yè)組織共同打造智能計算新底座安全可靠鯤鵬處理器基于自研內(nèi)核,TaiShan服務(wù)器計算芯片全自研17年計算創(chuàng)新鑄就穩(wěn)如泰山的高品質(zhì)高效能計算提供兼容ARM架構(gòu)的高性能鯤鵬處理器、TaiShan服務(wù)器和解決方案,將高效能計算帶入數(shù)據(jù)中心。鯤鵬系列處理器發(fā)展歷程性能核數(shù)64核40核32核16核20172019201516*A57@16FF2.1GHz2*64bitDDR3/4PCIe3.0/SAS3.0/10GE32*A57@16FF2.1GHz4*64bitDDR3/4PCIe3.0/SAS3.0/10GE32*A72@16FF+2.4GHz2P互聯(lián)4*64bitDDR3/4PCIe3.0/SAS3.0/10GE24/32/48/64*自研核V1Upto3GHz4P,8*64bitDDR4RoCEv2PCIe4.0/100GE92091291091624/32*自研核V1Upto3GHz2P,4*64bitDDR4RoCEv2PCIe4.0/100GE920SPlanningUnderDevProduction鯤鵬系列處理器路標CPUDieCPUDieI/O
Die鯤鵬開放主板鯤鵬服務(wù)器分析掃描工具代碼遷移工具使能合作伙伴鯤鵬是計算平臺鯤鵬是生態(tài)應(yīng)用制程工藝領(lǐng)先:業(yè)界領(lǐng)先7nm制程,多Die合封的Chiplet架構(gòu)自研多核內(nèi)核:自研CPU內(nèi)核算力提升50%,自研片間互聯(lián),支持多路互聯(lián)率先支持下一代網(wǎng)絡(luò)和接口:支持8通道內(nèi)存控制器和100GE端口處理器->單機->集群,鯤鵬開放硬件平臺完備的軟件工具鏈,發(fā)揮鯤鵬最佳性能性能優(yōu)化工具加速庫使能行業(yè)應(yīng)用應(yīng)用中間件
數(shù)據(jù)庫操作系統(tǒng)服務(wù)器/PC大數(shù)據(jù)分布式存儲
高性能計算原生應(yīng)用云服務(wù)鯤鵬是SoC鯤鵬簡介32核,2.4GHz主頻SPECint性能匹配業(yè)界中端,功耗低至75W支持4通道DDR4控制器支持PCIe3.0和SAS/SATA3.0集成板載GE/10GE網(wǎng)絡(luò)支持2路互聯(lián)7nm制程,數(shù)據(jù)中心ARM處理器計算核數(shù)提升1倍,最多64核SPECint性能提升超過2倍內(nèi)存通道數(shù)提升1倍,支持8通道DDR4控制器支持PCIe4.0和CCIX集成板載100GE網(wǎng)絡(luò)和加密、壓縮等引擎支持2路或4路互聯(lián)鯤鵬916鯤鵬920支持多路互聯(lián)的ARM處理器
鯤鵬處理器鯤鵬主板開放共享接口與設(shè)備規(guī)范整機參考設(shè)計共享工程能力整機參考設(shè)計指南(含機箱、散熱、供電等設(shè)計)部件與OS兼容性列表主板(含鯤鵬處理器)主板接口規(guī)范BIOS軟件&規(guī)范BMC芯片/軟件&設(shè)備管理規(guī)范快速開發(fā)(3個月)持續(xù)供應(yīng)安全可靠(低于業(yè)界平均故障率15%)伙伴價值PC服務(wù)器打造多樣化計算產(chǎn)品基于鯤鵬主板的多樣化計算產(chǎn)品17年的工程工藝積累高速互聯(lián)可靠設(shè)計質(zhì)量品控40度以上異常高溫運行56G/112G板級高速互聯(lián)無源背板&三重硬盤抗震故障率低于業(yè)界15%液冷散熱52804U40盤存儲型X60002U4節(jié)點高密型22802U2路均衡型2280E邊緣型數(shù)據(jù)中心邊緣計算存儲密集型計算密集型12801U2路高密型52904U72盤存儲型(新產(chǎn)品)(新產(chǎn)品)(新產(chǎn)品)(新產(chǎn)品)24802U4路高性能型基于鯤鵬920的華為TaiShan200服務(wù)器ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈鯤鵬920系列芯片概覽鯤鵬920提供強大的計算能力,基于華為自研的具有完全知識產(chǎn)權(quán)的ARMV8架構(gòu),最多支持64Core。通過片間Cache一致性接口Hydra可擴展系統(tǒng)核數(shù),最多支持到256Core,形成性能超強的板級計算節(jié)點。支持CPUCore虛擬化、內(nèi)存虛擬化、中斷虛擬化、IO虛擬化等多項虛擬化等技術(shù),使得系統(tǒng)的資源共享更加靈活、系統(tǒng)的遷移過程變得相對簡單。鯤鵬920具有豐富且強大的I/O能力。集成以太網(wǎng)控制器;提供SAS控制器;集成PCIe控制器。芯片集成安全算法引擎、壓縮/解壓縮引擎、存儲算法引擎等加速引擎進行業(yè)務(wù)加速。Kunpeng920加速性能集成①CPU性能是關(guān)鍵:通過自研泰山核和多核,性能是SkyLake6148的1.4倍,達到下一代XEONV6性能。多P架構(gòu)支撐產(chǎn)品性能擴展。性能不低于友商的同時,保持26%+功耗優(yōu)勢。②SoC高度集成:豐富的IO接口,支撐硬件極簡設(shè)計8ChannelDDR4。PCIe4.0、100GE、SAS3.0、NVME、RoCEv2③芯片和產(chǎn)品Co-Design,架構(gòu)創(chuàng)新:X86性能提升乏力,異構(gòu)加速卸載成為常態(tài)內(nèi)置RAID、RSA/SEC、GZIP、EC、重刪、POE加速,為產(chǎn)品提供In-Line業(yè)務(wù)加速,免鎖隊列和SSDNVMeDMA加速。外接擴展加速(CCIX、SDI),承載存儲和云業(yè)務(wù)卸載架構(gòu)創(chuàng)新。Kunpeng920芯片概述:高性能、高集成、異構(gòu)加速高集成:4in1LLC30GT/s
HCCSLocalBusNANDC/USB/UART100GENIC/RoCESAS/SATA3.0
控制器PCIe4.08通道DDR464
cores高能效:30%高并發(fā):25%
高I/O:25%
業(yè)界性能最高的多核架構(gòu)處理器,基于RISC指令集和7nm工藝業(yè)界最高性能ARM-Based處理器Kunpeng920SAS控制器橋片CPURoCE網(wǎng)卡Kunpeng920Kunpeng920HCCSHCCSHCCSHCCSKunpeng920Kunpeng920多合一SoCxPU高速互聯(lián)注:HCCS(HuaweiCacheCoherenceSystem)華為自研片間互聯(lián)協(xié)議高集成高能效單位功耗的SPECint性能更高5.03Kunpeng920-48核Kunpeng920-32核Others3.634.5230%每1萬臺Hadoop節(jié)點每年節(jié)電
1千萬度碳排放每年減少
1萬多噸高集成,高能效Kunpeng920支持PCIe4.0
PCIe4.0雙口卡能帶來兩倍帶寬和更低時延
華為與Mellanox公司聯(lián)合對PCIeGen4進行深度性能優(yōu)化時延(低數(shù)值為優(yōu))單向帶寬(高數(shù)值為優(yōu))雙向帶寬(高數(shù)值為優(yōu))更高的鏈路帶寬、更低的通信時延更安全:鯤鵬加速引擎,數(shù)據(jù)安全加解密
內(nèi)存內(nèi)置加解密加速引擎……片內(nèi)總線鯤鵬920處理器數(shù)據(jù)密鑰處理器核處理器核內(nèi)存數(shù)據(jù)密鑰……PCIe總線傳統(tǒng)處理器處理器核處理器核PCIe數(shù)據(jù)加密卡傳統(tǒng)PCIe加密卡方案鯤鵬安全加解密方案明文數(shù)據(jù)密文數(shù)據(jù)明文數(shù)據(jù)密文數(shù)據(jù)明文數(shù)據(jù)通過PCIe總線傳輸,有數(shù)據(jù)泄密風險鯤鵬內(nèi)置加解密加速引擎,不占用計算資源明文數(shù)據(jù)僅通過片內(nèi)總線傳輸,安全性高支持SM3/SM4國密算法加速ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈集成最多64×自研核指令集兼容ARMv8.2,最高主頻達3.0GHz每核集成64KBL1I/D緩存每核獨享512KBL2緩存,單芯片共享48-64MBL3緩存8×DDR4控制器@2933MT/s集成PCIe/SAS接口支持PCIe4.0,向下兼容PCIe3.0/2.0/1.0支持x16,x8,x4,x2,x1PCIe4.0,集成20PCIe控制器支持16×SAS/SATA3.0控制器支持CCIX接口,支持加速器的緩存一致性支持2×100GRoCEv2,支持25GE/50GE/100GE標準NIC支持2P/4P擴展封裝大小:60mm×75mm鯤鵬920系列芯片規(guī)格Hi1620/Hi1620S/Hi1601規(guī)格Hi1620SHi1620Hi1620Hi1620SHi1601CPU核數(shù)48@2.6GHz24@2.6GHz/L3cache48MB24MB/內(nèi)存通道8ChannelDDR44ChannelDDR4/多P互連1P/2P/3P/4P/2P+IOB1P/2P/1P+IOB/PCI-E40lanesofPCIeG4.040lanesofPCIeG4.040lanesofPCIeG4.0Networking(NIC、ROCE)8lanesofETH,ComboMACssupport2x100GE,2x50GE,2x40GE,
4x25GE,8x10GE,8xGERoCEv2/RoCEv18lanesofETH,ComboMACssupport2x100GE,2x50GE,2x40GE,
4x25GE,8x10GE,8xGERoCEv2/RoCEv18lanesofETH,ComboMACssupport2x100GE,2x50GE,2x40GE,
4x25GE,8x10GE,8xGERoCEv2/RoCEv1StorageIOx1USB3.0;x2USB2.0;x16SAS3.0;x2SATA3.0AHCIx2USB2.0;x16SAS3.0;x2SATA3.0AHCIx1USB3.0;x2USB2.0;x16SAS3.0;x2SATA3.0AHCI存儲相關(guān)加速器POE/CryptoEngineAES,DES/3DES,MD5,SHA1,SHA2,HMAC,CMACUpto100GbpsRSA1024/204854KbpsCompressionGZIPUpto40Gbps(compress)/100Gbps(decompress)RAIDXOR/PQ/EC/in-lineDIFaccelerationMEIsolatedmanagementsubsystem.Co-workswithBMCandprovidesfirmwareconfigurationoftheserverchip封裝60mm*75mm53mm*53mm37.5mm*37.5mm功耗158W97W40W場景:SDINOFJBOFIPJBOF入門級存儲場景:Dorado中高端融合存儲Taishan服務(wù)器云存儲大數(shù)據(jù)HPCHi1601場景:NOFJBOFIPJBOF入門級存儲CPUDIEIODIEARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈鯤鵬920系列芯片架構(gòu)–樂高架構(gòu)Page38IntelSkylake芯片為一個die,片內(nèi)通過mesh相互通信鯤鵬920芯片采用樂高架構(gòu)封裝而成,die內(nèi)有ring通信,而die間需要通過SLLC接口進行通信ARMCoreL1IL1DL2ARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DL2L2L2L2L2L2L2L2L2L2L2L2L2L2L2ARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DringLLCLLCLLCLLCARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DringLLCLLCLLCLLCSLLCARM獨享L1Cache和L2Cache,4個Core和1個L3Cachetag組成一個Cluster,6~8個Cluster組成一個CPUDie,合封后的兩個CPUDie共享LLC。鯤鵬920系列芯片架構(gòu)–樂高架構(gòu)(2)芯片架構(gòu)-樂高架構(gòu)(3)-可支持多種封裝形態(tài)Page40Hi1620:2CPUDIE+1I/ODIEHi1620s:1CPUDIE+1I/ODIEHi1601:1I/ODIE鯤鵬920系列芯片架構(gòu)(2)鯤鵬920處理器片上系統(tǒng)組成2P服務(wù)器處理器多片互聯(lián)方案鯤鵬920系列芯片架構(gòu)(3)4P服務(wù)器處理器多片互聯(lián)方案示例如右圖所示:每顆芯片各提供2個SCCL和1個SICL。芯片之間通過片間緩存一致接口連接,片間帶寬高達240Gbps。鯤鵬920系列芯片架構(gòu)(4)鯤鵬處理器超級I/O集群:網(wǎng)絡(luò)ICLPCIeICLHydra接口HAC_ICLIO_MGMT_ICLShareCache:對所有的L2來說L3cache是共享的,一個進程可以使用整個L3的容量L2L2L2…L2L2L2L3PrivateCache:有N個Private的L3,每個PrivateL3只緩存對應(yīng)的L2的數(shù)據(jù)。即一個進程只能使用對應(yīng)的部分L3的容量,無法使用全部L3的容量,L3和L3之間不通信L2L2L2…L2L2L2L3L3…L3PartitionedCache:與Private相同的是,一個進程只能使用對應(yīng)的部分L3容量;與Private不同的是,L3細分為一個Home的L3和N個Remote的L3,Home的L3類似L4,所以L3和L3之間會通信,由Home的L3來維護多個PartitionedL3之間的一致性L2L2L2…L2L2L2RemoteL3RemoteL3…HomeL3Non-inclusiveL3:支持Non-inclusive模式,Memory和L2間直接數(shù)據(jù)訪問L2L3MainMemory鯤鵬920系列芯片架構(gòu)——Cache模式芯片架構(gòu)–Cache時延前端限制:主要是iCacheMiss,iTLBMiss。指令解碼能力不足也是原因之一,但可能性較低。后端限制:主要是各級cache包括dTLBmiss。執(zhí)行單元資源不足也是原因之一,但可能性較低。錯誤分支預(yù)測:與Cache無關(guān),但好的編碼習慣能減少分支預(yù)測錯誤。Page45RegL1I-cacheL1D-cacheL2cacheL3cacheMainMemoryCoreUnCoreFrontEndstallBackEndstall三類CacheMissesCompulsoryMisses第一次讀取數(shù)據(jù)時的Cachemiss。CapacityMisses沒有足夠Cache空間存儲所有熱數(shù)據(jù)在兩次連續(xù)使用某一Cache數(shù)據(jù)之間,出現(xiàn)了太多的其它數(shù)據(jù)沖刷。ConflictMisses太多(超過AssociativityWay)不同數(shù)據(jù)映射到同一CacheSet中造成Cache碰撞。
鯤鵬920系列芯片架構(gòu)——內(nèi)存子系統(tǒng)SMMU(SystemMemoryManagementSystem),為設(shè)備提供地址轉(zhuǎn)換和訪問保護功能。CCL訪問的內(nèi)存空間的屬性由MMU(memorymanagementunit,內(nèi)存管理單元)中的頁表控制ICL訪問的內(nèi)存空間的屬性由SMMU中的頁表或源設(shè)備控制內(nèi)存訪問延遲受數(shù)據(jù)所在位置影響。如果目標數(shù)據(jù)位置在物理上接近內(nèi)存訪問發(fā)起者,則時延較低。一個CPUDie包含4個DDRChannel一個Socket包含2個CPUDie,8個DDRChannel每個控制器支持2DPC2933本地內(nèi)存訪問均在本地進行,不走片間互聯(lián)總線,因此訪存時延最小,總體性能最好。時延ARMCPUCyclesSkylakeCyclesRegister11L1cache44L2cache814L3cache4055DRAM71-221(ns)83-143(ns)鯤鵬920系列芯片架構(gòu)—內(nèi)存子系統(tǒng)鯤鵬920系列芯片架構(gòu)——內(nèi)存子系統(tǒng)(2)6148Kunpeng920每通道速率總帶寬通道數(shù)量682667
MHz2933
MHz1.5
Tb/s1.02
Tb/s內(nèi)存帶寬8通道DDR4帶來46%帶寬提升,同時容量也可按需提升延遲優(yōu)化,和業(yè)界主流水平相當/更優(yōu)完整的Cache&MemoryQoS方案(類似于RDT),為用戶的不同業(yè)務(wù)部署帶來方便芯片架構(gòu)–IO子系統(tǒng)豐富的IO,PCIE化設(shè)計。各子系統(tǒng)PCIE(含CCIX),Hydra(多片互聯(lián)),Network,Storage,HAC,ME。各自遵循行業(yè)標準,兼容軟件接口規(guī)范,滿足開源及演進要求。Page49SBSAGIC:GICv3/v4;SMMU:SMMUv3.1UART/Watchdog:PCI-E36lanesofPCIeG4.0,20Rootportsatmax,Peer2Peer,ATS/PRI,CCIXNetworking(NIC、ROCE)8lanesofETH,ComboMACssupport2x100GE,2x50GE,4x25GE,8x10GE,8xGERoCEv2/RoCEv1withprogrammableDC-QCN,long/normalAtomic,SR-IOVStorageIOx4USB3.0EHCI/UHCIx16SAS3.0(STPsupported)x2SATA3.0AHCICryptoEngineAES,DES/3DES,MD5,SHA1,SHA2,HMAC,CMAC
Upto50GbpsCompression/DecompressionGZIP,LZS,LZ4Upto40Gbps(compress)/100Gbps(decompress)StatefullandstatelessRAIDXOR/PQ/EC/in-lineDIFaccelerationME(IMU)Isolatedmanagementsubsystem.Co-workswithBMCandprovidesfirmwareconfigurationoftheserverchipScaleupCoherentSMPinterfacefor2P/4PUpto240Gbpsperport南橋RoCE網(wǎng)卡SAS控制器CPUQAT鯤鵬920系列芯片架構(gòu)(6)—網(wǎng)絡(luò)子系統(tǒng)網(wǎng)絡(luò)子系統(tǒng)包括NetworkICL和RoCE引擎兩大部分。NetworkICL包括多個1Gbps~100Gbps以太網(wǎng)控制器,二層DCB、MAC地址表,多播表,VLAN過濾表,流表,中斷,PCIe化,具有完整的NIC引擎,可以在RoCE引擎關(guān)閉的情況下單獨工作。RoCE(RDMAoverConvergeEthernet)是一種在以太網(wǎng)上采用RDMA(RemoteDirectMemoryAccess,遠程直接內(nèi)存訪問)的網(wǎng)絡(luò)互聯(lián)技術(shù)。華為鯤鵬920處理器使用的RoCEv2協(xié)議是由InfiniBand(IB)協(xié)議演進而來,既具有InfiniBand網(wǎng)絡(luò)的低時延、低CPU利用率等特點,又能夠很好地兼容于Ethernet網(wǎng)絡(luò)。鯤鵬920系列芯片架構(gòu)(6)—網(wǎng)絡(luò)子系統(tǒng)華為鯤鵬920處理器RoCE設(shè)備的軟件呈現(xiàn)是一個PCI網(wǎng)絡(luò)設(shè)備。RoCE驅(qū)動依賴于OFED的驅(qū)動框架,由用戶態(tài)驅(qū)動和內(nèi)核態(tài)驅(qū)動構(gòu)成。當業(yè)務(wù)建立后,在執(zhí)行過程中,RoCE用戶態(tài)驅(qū)動可以Kernelbypass將數(shù)據(jù)發(fā)給硬件。RoCE內(nèi)核態(tài)驅(qū)動在初始化時從HNS3網(wǎng)卡驅(qū)動程序獲取RoCE設(shè)備的一些信息。EthernetPhysicalPortConfiguration2x100GE/50GE/40GE/25GE/10GE/GE+2*GE4x50GE/25GE/10GE/GE+2*GE8x25GE/10GE/GESpeedAuto-NegotiationMACSpeedcanauto-negotiatebetweenGE/XGE/25GESupportDCB(DataCenterBridge)ETS(EnhancedTransmissionSelection)PFC(Priority-basedFlowControl)QCN(QuantizedCongestionNotification)SupportRoCEv1,RoCEv2VirtualizationswitchacceleratorgenericflowtablebasedswitchingSupportVEB,butnotsupportEVB.[RFC]SharedresourcebetweenmultiplePhysicalPortsDCBBuffersQueueResourceFlowTableEntry鯤鵬920系列芯片架構(gòu)(6)—網(wǎng)絡(luò)子系統(tǒng)鯤鵬920系列芯片架構(gòu)(7)—SAS子系統(tǒng)SAS(SerialAttachedSCSI)即串行SCSI技術(shù),一種磁盤連接技術(shù)。SAS控制器用于磁盤與內(nèi)存之間進行交互。SAS控制器主要通過總線與CPU和內(nèi)存進行交互,同時通過SERDES與硬盤進行連接。SAS控制器與設(shè)備連接方式有兩種:直連和Expander連接。直連表示SAS控制器的PHY與設(shè)備直接連接,不經(jīng)過中間轉(zhuǎn)換或擴展;Expander連接表示SAS控制器與設(shè)備之間通過擴展器進行連接SAS盤分為SAS機械盤和SASSSD盤,SAS盤是為滿足高性能、高可靠性而設(shè)計,在內(nèi)部驅(qū)動電機的可靠性、轉(zhuǎn)速以及基板方面都與SATA盤有差異。鯤鵬920系列芯片架構(gòu)(7)—SAS子系統(tǒng)提供2個X8SAS3.0控制器:支持SAS3.0,向下兼容SAS2.0和SAS1.0;支持SATA3.0,向下兼容SATA2.0和SATA1.0;SAS支持12G/6G/3G/1.5G四種速率,SATA支持6G/3G/1.5G速率,同時可以實現(xiàn)速率的自協(xié)商;可以直接不經(jīng)過Expander最大連接8個SAS盤或者SATA盤,兩者可以混插;可以連接SASExpander擴展更多磁盤。提供1個X2SATA控制器:支持SATA3.0,向下兼容SATA2.5;支持AHCI1.3,向下兼容AHCI1.2;支持6G/3G/1.5G速率自協(xié)商;支持直連兩個SATA盤。支持NORFlash控制器,4個片選,NORFLASH最大支持512K。支持SPIFlash控制器,2個片選,SPIFlash最大支持32M。支持NANDFLASH接口,4個片選。鯤鵬920系列芯片架構(gòu)(8)—PCIe子系統(tǒng)PCIe是一種高性能、通用的I/O互連接口,適用于各種計算和通信平臺。鯤鵬920PCIe子系統(tǒng)提供了實現(xiàn)PCIe根聯(lián)合體(RootComplex,RC)或端點(Endpoint,EP)應(yīng)用程序的解決方案。鯤鵬920PCIe子系統(tǒng)包含3個PCIeCore,最多支持40個PCIeLane。每個PCIeCore包括多個PCIe端口。PCIeCore0共享16個Lane。PCIeCore1共享16個Lane。PCIeCore2共享8個Lane。3個PCIeCore均可作為根端口(RootPort,RP)使用。只有PCIeCore1能作為EP端口。PCIe模塊通過PIPe接口與PCS連接,連接速率支持最大16Gbps,兼容8Gbps、5Gbps和2.5Gbps。另一方面,PCIe模塊通過AMBA總線與系統(tǒng)總線相連。PCIeGEN1/2/3/4.0SupportedRunatthe2.5G/5G/8G/16Gx16PCIeControllerEmbeddedDMAengine40Lanessupporttotally3PCIeControllerSupport20RootPortHardwarefeaturesSRIS(SeparateRefclkIndependentSSC)SupportSR-IOVSupportSharedVirtualMemorySupportCCIXSupportP2P(PeertoPeer)PeertoPeertrafficbetweendifferentcontroller鯤鵬920系列芯片架構(gòu)(8)—PCIe子系統(tǒng)鯤鵬流水線亮點:CPU流水線主要階段Fetch:提取指令并計算下一次Fetch的地址。包括指令緩存、BranchPrediction、BranchTargetBuffer、ReturnAddressStack。Decode
(1)分解指令流到獨立指令;(2)TranslateX86指令到RISC-likeUops;(3)理解指令語義,包括指令類型(Control、Memory、Arithmetic,等等),運算操作類型、需要什么資源(讀和寫需要的寄存器,等等)。Allocation:RegisterRenaming+ResourcesReservation.Issue:分發(fā)指令到相應(yīng)執(zhí)行單元,從這兒開始進入錯序執(zhí)行階段。Execute:指令執(zhí)行階段WriteBack:將執(zhí)行結(jié)果寫入RegisterFile、ReorderBuffer、等等Commit:重整執(zhí)行結(jié)果次序、決定SpeculativeExecution正確性,最終輸出結(jié)果。Page57AllocationFetchDecodeIssueExecuteWriteBackCommitCPU流水線:ARMvsX86Page58流水線前端流水線后端分支預(yù)測FetchDecode
AllocationIssueExecuteWriteBackCommitARM流水線與Xeon基本一致,按流水線前后端分解ARM64X86XeonCPU流水線:弱保序Page59CPU弱保序,即亂序執(zhí)行:
處理器不按程序規(guī)定的順序執(zhí)行指令,它根據(jù)內(nèi)部功能部件的空閑狀態(tài),動態(tài)分發(fā)執(zhí)行指令,但是指令結(jié)束的順序還是按照原有程序規(guī)定的順序。處理器內(nèi)部功能部件并行運轉(zhuǎn),避免了不必要的阻塞,有效提高了處理器執(zhí)行指令的性能。處理器分析影響執(zhí)行結(jié)果的指令,避免出現(xiàn)有顯式的數(shù)據(jù)依賴和控制依賴的亂序,但是,特殊情況下的讀寫亂序可能影響程序執(zhí)行結(jié)果,需要軟件甄別。制約CPU效率因素CPU流水線前端限制:執(zhí)行單元空閑,但前端不能輸送充分多操作指令CPU流水線后端限制:執(zhí)行單元繁忙或執(zhí)行時等待數(shù)據(jù),指令執(zhí)行出現(xiàn)等待分支預(yù)測錯誤:執(zhí)行錯誤分支浪費時間+處理錯誤分支執(zhí)行消耗時間。系統(tǒng)安全:支持安全啟動,以及保證系統(tǒng)在可信環(huán)境內(nèi)運行的一套軟硬件方案。該方案由SecureBoot技術(shù)和ARM架構(gòu)中的TrustZone技術(shù)結(jié)合而成。IMU(IntelligentManagementUnit)是Hi162x芯片內(nèi)部的智能管理單元,完善ARM節(jié)點在數(shù)據(jù)中心的管理和控制,未來數(shù)據(jù)中心設(shè)備管理要求統(tǒng)一、智能和協(xié)同,遵循管理系統(tǒng)集中決策+節(jié)點執(zhí)行監(jiān)控,按照設(shè)備節(jié)點模型統(tǒng)一管理。IMU作為數(shù)據(jù)中心的管理末端,協(xié)同BMC,完成數(shù)據(jù)中心的節(jié)點執(zhí)行監(jiān)控。IMU可以覆蓋的功能:RAS故障預(yù)處理以及錯誤記錄上報、安全信任根、能效管理、芯片內(nèi)部管理。芯片架構(gòu)–系統(tǒng)安全&IMUARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈鯤鵬920系列芯片——加速器引擎功能(1)組件算法規(guī)格描述OpenSSL引擎庫SM4支持SM4-CBC/SM4-CTR/SM4-XTS,符合GM/T0002-2012規(guī)范。單處理器(Kunpeng920)最大帶寬30Gbps。支持同步、異步模式。SM3支持SM3,符合GM/T0004-2012規(guī)范。單處理器(Kunpeng920)最大帶寬60Gbps。支持同步、異步模式。RSA支持RSA1024/RSA2048/RSA3072/RSA4096,符合NISTFIPS-197標準規(guī)范。單處理器(Kunpeng920)RSA2048sign最大帶寬54Kops。支持同步、異步模式。DH支持DH768/1024/1536/2048/3072/4096,符合NISTFIPS-197標準規(guī)范單處理器(Kunpeng920)DH768/1024/1536/2048/3072/4096最大帶寬為94.4/56/25.6/14/4.8/2.24kops。支持同步、異步模式。AES支持AES-ECB/AES-CBC/AES-CTR/AES-XTS,符合NISTFIPS-197標準規(guī)范。單處理器(Kunpeng920)最大帶寬60Gbps。支持同步、異步模式。鯤鵬920系列芯片——加速器引擎功能(2)組件算法規(guī)格描述Zlib庫ZLIB支持ZLIB數(shù)據(jù)格式,符合RFC1950標準規(guī)范。單處理器(Kunpeng920)最大壓縮帶寬7GB/s,靜態(tài)Huffman解壓最大帶寬8GB/s。壓縮率50%。支持同步模式。GZIP支持GZIP數(shù)據(jù)格式,符合RFC1952標準規(guī)范。單處理器(Kunpeng920)最大壓縮帶寬7GB/s,靜態(tài)Huffman解壓最大帶寬8GB/s。壓縮率50%。支持同步模式。內(nèi)核CryptoSM4支持SM4-XTS,符合GM/T0002-2012規(guī)范。單處理器(Kunpeng920)最大帶寬30Gbps。支持異步模式。SPECint?_rate_base2006評測跑分越高越好TDP功耗對比(W)越低越好性能功耗比越高越好極致效能極致性能低功耗25%+30%+11%鯤鵬92064核型號鯤鵬92032/48核型號鯤鵬91632核型號鯤鵬系列處理器vs業(yè)界主流產(chǎn)品的性能和效能對比越低越好平臺TaiShanV2with2-socketKunpeng920-4826/DDR4-2666)X86serverwith2-socketSkylake6148(20cores,2.0GHz/DDR4-2666)STREAM測試結(jié)果287GB/Swith84.28%efficiency192GB/Swith75.08%efficiency越低越好越低越好鯤鵬整體性能對比-內(nèi)存帶寬和時延性能鯤鵬整體性能對比-IO性能Page66特性模式規(guī)格類別目標實測數(shù)據(jù)(本地關(guān)SMMU)實測數(shù)據(jù)(本地開SMMU)PCIeIB:MlxCX5ppsread>95Mpps@4B
write:>64Mpps@4Bsend:>63Mpps@4Bread:24并發(fā)時達到86.4Mpps@4Bwrite:24并發(fā)時達到86.4Mpps@4Bsend:24并發(fā)時達到90Mpps@4Bread:24并發(fā)時達到86.4Mpps@4Bwrite:24并發(fā)時達到86.4Mpps@4Bsend:24并發(fā)時達到90Mpps@4B時延Intel對接CX4數(shù)據(jù):
read:1.95us@2B
write:0.93us@2B
read:4.09us@4KB
write:3.22us@4KBread:1.66us@2B
write:0.99us@2B
send:1.06@2B
read:2.21us@4KB
write:1.98us@4KB
send:2.05@4KBread:1.65us@2B
write:1.01us@2B
send:1.06@2B
read:2.18us@4KB
write:1.95us@4KB
send:2.04@4KB帶寬read:線速@2KB
write:線速@2KB
read:線速90%@2KB,線速@8KB;
write:線速87%@2KB,線速@8KB;(與x86+CX5持平)read:線速90%@2KB,線速@8KB;
write:線速86%@2KB,線速@8KB;(與x86+CX5持平)網(wǎng)絡(luò):MlxCX5/1822PPS>10Mpps@64BCX5:24隊列25.3Mpps@64B;
1822:16隊列13.7Mpps@64B;CX5:24隊列14.5Mpps@64B;
1822:16隊列12Mpps@64B;時延13.5us@64BCX5:1隊列1Mpps7.8us
1822:1隊列1Mpps9.4usCX5:1隊列0.7Mpps11.5us1822:1隊列0.7Mpps13us帶寬線速@1518KBCX5:16隊列線速@1518KB
1822:16隊列98Gb@1518KBCX5:16隊列90Gb@1518KB
1822:16隊列68Gb@1518KBNVME:ES3000V3/V5最大讀帶寬(MB/s)@256KB31003025.73012.4持續(xù)隨機讀KIOPS@4KB760775.2753.64K讀延時(us)88avg:44.72
99%:88avg:46.24
99%:89最大寫帶寬(MB/s)@256KB19502005.41957.7持續(xù)隨機寫KIOPS@4KB175508.6503.64K寫延時(us)18avg:11.75
99%:10avg:12.57
99%:11鯤鵬整體性能對比-IO性能(2)Page67特性模式類別規(guī)格實測數(shù)據(jù)(本地關(guān)SMMU)實測數(shù)據(jù)(本地開SMMU)NIC100GPPS>10Mpps@64B24核:25Mpps@64B24核:14.7Mpps@64B時延100GE:<13.5us@64B10GE:<15us@64B100G:12us@64B10G:12us@64B10G:12.1us@64B100G:12.6us@64B帶寬100GE:>94Gbps@雙向帶寬25GE:>23.5Gbps@雙向帶寬10GE:9.35Gbps@雙向帶寬100G:94.1Gbps@1518B25G:23.5@1518B10GE:9.41@1518B100G:94.1Gbps@1518B25G:23.5@1518B10GE:9.41@1518BRoCE100GMppsread:>30Mpps@2B
write:>30Mpps@2B
send:>30Mpps@2Bread:31.5Mpps@2Bwrite:33.2Mpps@2Bsend:33.12Mpps@2Bread:31.02Mpps@2Bwrite:33.35Mpps@2Bsend:32.67Mpps@2B時延read:2.0us@2B
write:0.85us@2B
send:1.5@2B
read:3us@4KB
write:2.5us@4KB
send:2.5@4KBread:1.51us@2Bwrite:0.83us@2Bsend:1.14@2Bread:2.41us@4KBwrite:1.70us@4KBsend:1.87@4KBread:1.58us@2Bwrite:0.98us@2Bsend:1.79@2Bread:1.83us@4KBwrite:1.56us@4KBsend:2.29@4KB帶寬read:線速@1KB
write:線速@1KB
send:線速@1KBread:>99.5Gbps@1024Bwrite:>99.5Gbps@1024Bsend:99.2Gbps@1024Bread:>99.5Gbps@1024Bwrite:>99.5Gbps@1024Bsend:97Gbps@1024BSASX8*12GIOPS讀:800K/S@4KB
寫:800K/S@4KB讀:1451.6K/s@4K寫:982.37K/s@4K讀:1031.2K/s@4K寫:941.4K/s@4K時延4KB讀:800us
4KB寫:800us4KB讀:345.5us4KB寫:514.94us4KB讀:489.79us4KB寫:536.96us帶寬讀:8000MB/S@256KB
寫:8000MB/S@256KB讀:8539.6MB/s@256KB寫:8282.7MB/s@256KB讀:8539.6MB/s@256KB寫:8282.7MB/s@256KB詳細數(shù)據(jù)鯤鵬整體性能對比-智能計算應(yīng)用場景應(yīng)用場景性能對比vsSkylake6148差距和措施風險1HPC單節(jié)點:氣象:WRF+23%;環(huán)保:CAMx+30%;汽車制造:OpenFoam+36%,ParmCrash+10%,Lsdyna+17.53%;航空航天:CFL3D+10%;生物分子:VASP-38%4節(jié)點集群:汽車制造:ParmCrash
-9%,Openfoam+9.36%,Lysdyna-0.47%;差距:vasp與6148的差距在于雙精度浮點計算能力以及MPI集合通信;車廠應(yīng)用4節(jié)點線性度相比6148要差,單節(jié)點的性能優(yōu)勢隨著節(jié)點數(shù)增加會逐漸消失;措施:雙精度浮點計算能力需要下一代芯片來提升;MPI相關(guān)性能目前中硬有團隊在做優(yōu)化;HPC解決方案場景下目前暫時避免在VASP相關(guān)領(lǐng)域里用ARM服務(wù)器來替代X86;線性度問題正在聯(lián)合定位;低2大數(shù)據(jù)FusionInsightHD(9節(jié)點):
1)Kafka-2%;2)Storm-5%以內(nèi);3)HIVESQL1+10%,SQL2+60%;4)Spark2xSQL1+26%,SQL2-2%;5)
FLINK待驗證;6)HBASE隨機讀+50%,隨機寫-1%順序掃描0%,BulkLoad+2.66%。7)REDIS待驗證;8)ELASTICSEARCH待驗證NA3數(shù)據(jù)庫2P單實例場景:讀模型:+15%,混合讀寫:+4.7%
,寫模型:-47%;差距:2P單實例寫模型受鎖和跨片延時影響大,銷售場景受限制。(但實際業(yè)務(wù)中數(shù)據(jù)庫業(yè)務(wù)以讀訪問為主),CS芯片鎖性能上的優(yōu)化在MYSQL寫場景未體現(xiàn);措施:需要海思團隊一起定位;低4Native單臺安卓虛擬機(綁2core)魯大師跑分13.3萬分,提高+45%以上(vsHi1616);高密場景,單numa節(jié)點+2張GPU運行魯大師跑分約6.96萬分,相比1616+20%以上;1620CS上云手機的CTS模塊通過數(shù)與1616平臺一致;1620CS上top50的游戲和應(yīng)用兼容性測試完成100%;NA其中已測試項90%相比6148持平或超越,部分場景數(shù)據(jù)IT芯片/ARMLab/圖靈解決方案會繼續(xù)聯(lián)合產(chǎn)品共同調(diào)優(yōu)和問題解決。鯤鵬整體性能對比-智能計算應(yīng)用場景(2)應(yīng)用場景性能對比vsSkylake6148差距和措施風險5云存儲(FusionStorage)塊存儲:全閃存場景,單卷時延相比ES+14%,系統(tǒng)能力+6%,整體性能全面持平或超越6148;NA6Ceph塊存儲:NVME
4Krandwrite,+10%,4Krandread+20%以上;文件存儲:6MDS讀操作持平,寫操作數(shù)據(jù)-28%,后續(xù)可利用1620多核優(yōu)勢,結(jié)合ceph新版本多活MDS配置,來持平X86性能;差距:單核性能強相關(guān)的MDS節(jié)點,需要通過配置多MDS解決性能瓶頸;措施:可利用1620多核優(yōu)勢,結(jié)合ceph新版本多活MDS配置,IT芯片和圖靈解決方案正在優(yōu)化,計劃Q2解決。低7虛擬化JVM:SPECjbb:max得分(系統(tǒng)最大吞吐量)+10%~20%,critical得分+16%;SPECjvm(31G):+20%;整體上如果能發(fā)揮1620的多核能力,java方面的性能會優(yōu)于6148NAPage69ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈AI邊緣,5G移動邊緣場景電信、交通邊緣計算場景鯤鵬RSA安全加解密加速引擎互聯(lián)網(wǎng)Web
HTTPS連接加速電信、政務(wù)、金審、金稅等行業(yè)云虛擬化性能優(yōu)越實時音視頻極致體驗鯤鵬+昇騰協(xié)同加速使能AI應(yīng)用:人臉識別、車牌識別等業(yè)界首款兼容ARM的四路服務(wù)器,超強算力32個DDR4超大內(nèi)存車輛通行告別收費站省際高速公路打造SKA區(qū)域中心原型系統(tǒng)天文臺電商互聯(lián)網(wǎng)更快速的安全連接體驗基于鯤鵬電信云的VoLTE首呼運營商行業(yè)云AI計算邊緣計算Web應(yīng)用HPC鯤鵬計算的典型應(yīng)用場景ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈數(shù)據(jù)庫中間件操作系統(tǒng)虛擬化數(shù)據(jù)管理大數(shù)據(jù)存儲HPC應(yīng)用軟件基礎(chǔ)軟件OEHIWebNEMOCANUGATKGaussDB鯤鵬計算產(chǎn)業(yè)生態(tài)ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計算典型應(yīng)用場景鯤鵬計算產(chǎn)業(yè)生態(tài)鯤鵬軟件開發(fā)工具鏈解決90%C/C++和50%匯編移植問題99%問題自動識別匯編/C/C++編譯型語言JAVA/PHP/Python解釋型語言性能提升10%~30%注:ARM64平臺優(yōu)化前后的性能平均增幅分析掃描工具代碼遷移工具自動掃描軟件兼容性代碼評估、依賴庫檢查C++/匯編語言自動轉(zhuǎn)換JavaJDK自動安裝、依賴庫自動編譯性能優(yōu)化工具性能全景&熱點函數(shù)分析多核綁定、內(nèi)存就近訪問、中斷優(yōu)化一鍵執(zhí)行,聯(lián)動分析無需代碼修改原有生態(tài)鯤鵬生態(tài)遷移評估編譯移植性能調(diào)優(yōu)匯編/C/C++編譯型語言JAVA/PHP/Python解釋型語言鯤鵬軟件開發(fā)工具鏈代碼遷移軟件包遷移編譯型語言C/C++/Go解釋型語言Java/Python掃描依賴:掃描軟件包的運行依賴庫/可執(zhí)行程序依賴庫編譯:編譯型語言需重新編譯,解釋型語言基于對應(yīng)的虛擬機運行軟件打包:按照軟件安裝包原有結(jié)構(gòu)重新制作成鯤鵬的軟件包內(nèi)聯(lián)匯編:替換后重新編譯,比如rdtsc指令等不兼容指令:如SSEIntrinsic類加速指令,需重新編寫腳本修改:替換成支持鯤鵬的編譯選項代碼修改:源碼中對指令集依賴的宏定義及Builtin函數(shù)遷移類型子類修改點RPMDEB直接翻譯:純解釋型語言開發(fā)的應(yīng)用程序,代碼無需修改,程序也不需要重新編譯,如Java軟件安裝ARM版本JDK即可依賴庫編譯:如果軟件含依賴庫,則需要重新編譯各類型遷移功能:分析移植軟件包依賴庫,評估可移植性;分析移植軟件代碼文件輸入分析處理輸出輸入方式:支持UI和命令行兩種方式UI顯示及CVS/HTML報告文件軟件安裝包:RPM/DEB/TAR軟件包安裝路徑源碼文件:C/C++/Java/匯編源代碼文件Makefile文件軟件安裝包掃描分析:分析軟件包中依賴庫評估依賴庫可移植性(黑白名單機制)源碼文件掃描分析:分析源碼文件,過濾出需移植代碼分析Makefile編譯依賴庫可移植性評估待移植代碼量和工作量報告文件:版本、分析時間戳等信息依賴庫列表(可移植性分類)源碼文件列表(可移植性分類)移植代碼量評估結(jié)果工作量評估結(jié)果華為工程師鯤鵬社區(qū)開發(fā)人員ISV軟件開發(fā)人員客戶側(cè)開發(fā)人員軟件移植人員最終客戶DependencyAdvisor內(nèi)建函數(shù)識別編譯選項識別匯編語言識別宏定義識別掃描報告應(yīng)用程序目錄Jar等打包文件Tar,Zip,Gz打包文件C/C++/ASM.Makefile等源代碼文件目錄RPM,Debian
安裝包白名單匹配分析掃描工具(DependencyAdvisor)功能:分析軟件源文件,提供代碼移植指導(dǎo)報告輸入分析處理輸出輸入方式:支持UI和命令行兩種方式UI顯示及CVS/HTML報告文件源碼文件:C/C++源代碼文件匯編源代碼文件Makefile文件X86的rpm源碼文件掃描分析:用戶C/C++需要移植部分識別匯編源碼同功能指令集、兼容指令集移植部分從Makefile中識需要移植/替代的編譯依賴庫根據(jù)知識庫給出移植指導(dǎo)建議報告文件:分析文件、分析時間戳等信息關(guān)鍵修改內(nèi)容綜述,簡單說明詳細cvs文檔,需修改的代碼行號,更改點及指導(dǎo)建議編譯依賴庫移植或替換建議華為工程師鯤鵬社區(qū)開發(fā)人員ISV軟件開發(fā)人員客戶側(cè)開發(fā)人員軟件移植人員最終客戶PortingAdvisor應(yīng)用程序目錄C/C++/ASM.Makefile等源代碼文件目錄白名單匹配編譯選項識別內(nèi)建函數(shù)識別宏定義識別匯編語言識別移植字典移植指導(dǎo)代碼遷移工具(PortingAdvisor)功能:系統(tǒng)性能數(shù)據(jù)采集和分析,分析出系統(tǒng)性能指標,定位到瓶頸點及熱點函數(shù),給出調(diào)優(yōu)建議輸入分析處理輸出創(chuàng)建工作任務(wù)配置任務(wù)屬性參數(shù)(分析類型、軟件路徑、采樣率等)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- QC/T 1213-2024汽車活塞環(huán)等離子噴涂層檢驗
- 工作總結(jié)之初中畢業(yè)總結(jié)
- 銀行內(nèi)部審計質(zhì)量控制制度
- 非機動車停放管理規(guī)范制度
- 《高分子物理與化學》課件
- 綠色低碳生活演講稿(35篇)
- 福建省莆田第二十五中學2024屆九年級上學期期末考試數(shù)學試卷(含答案)
- 服裝行業(yè)微商城成功案例
- 《設(shè)計培訓(xùn)和交流》課件
- 安徽省黃山市黟縣中學2025屆高三第一次調(diào)研測試語文試卷含解析
- 病理學知到智慧樹章節(jié)測試課后答案2024年秋溫州醫(yī)科大學
- 學習對新時代馬克思主義理論研究和建設(shè)工程重要指示心得體會
- 2023年湖北交投智能檢測股份有限公司社會招聘筆試真題
- 鋼結(jié)構(gòu)施工環(huán)保方案
- 痛經(jīng)中醫(yī)治未病干預(yù)方案
- 眼科考試題含答案
- 心理健康與大學生活學習通超星期末考試答案章節(jié)答案2024年
- 借款協(xié)議(父母借款給子女買房協(xié)議)(二篇)
- 外研版英語2024七年級上冊全冊單元知識清單(記憶版)
- 國家開放大學電大本科《工程經(jīng)濟與管理》2023-2024期末試題及答案(試卷代號:1141)
- 歌唱語音智慧樹知到期末考試答案章節(jié)答案2024年齊魯師范學院
評論
0/150
提交評論