(21)-《計(jì)算機(jī)組成與結(jié)構(gòu)》-華為-鯤鵬處理器_第1頁
(21)-《計(jì)算機(jī)組成與結(jié)構(gòu)》-華為-鯤鵬處理器_第2頁
(21)-《計(jì)算機(jī)組成與結(jié)構(gòu)》-華為-鯤鵬處理器_第3頁
(21)-《計(jì)算機(jī)組成與結(jié)構(gòu)》-華為-鯤鵬處理器_第4頁
(21)-《計(jì)算機(jī)組成與結(jié)構(gòu)》-華為-鯤鵬處理器_第5頁
已閱讀5頁,還剩93頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《計(jì)算機(jī)組成與結(jié)構(gòu)》—鯤鵬處理器版本:V1.0課程說明本課程PPT及配套講義是對貴?,F(xiàn)已開設(shè)的計(jì)算機(jī)原理類課程內(nèi)容的補(bǔ)充,目的是在現(xiàn)有計(jì)算機(jī)原理類課程中添加關(guān)于ARM處理器架構(gòu)及鯤鵬等相關(guān)知識點(diǎn);任課講師可以根據(jù)現(xiàn)有課程大綱與授課安排挑選適當(dāng)內(nèi)容植入到課程中;任課講師可以根據(jù)現(xiàn)有班級學(xué)生對前序知識的掌握程度挑選適當(dāng)內(nèi)容植入到課程中;本課程同時(shí)提供參考資料文檔及資料庫鏈接供任課講師與學(xué)生使用。鯤鵬處理器是面向ICT領(lǐng)域兼容ARM64bit指令集的多核處理器芯片,基于華為自研的具有完全知識產(chǎn)權(quán)的ARMV8架構(gòu),采用業(yè)界領(lǐng)先的7nm制程,多Die合封的Chiplet封裝工藝,在提供強(qiáng)大計(jì)算能力的同時(shí)還集成了豐富且強(qiáng)大的I/O能力,為行業(yè)用戶實(shí)現(xiàn)業(yè)務(wù)加速提供支撐。本章將以兼容ARMv8-A架構(gòu)的TaiShanV110處理器核為例介紹基于ARMv8架構(gòu)的處理器片上系統(tǒng)的整體架構(gòu)和組織結(jié)構(gòu);討論基于鯤鵬處理器的面向高端的TaiShan服務(wù)器的特性、體系結(jié)構(gòu)與管理架構(gòu),以及與鯤鵬系統(tǒng)的設(shè)備輸入/輸出相關(guān)的部件結(jié)構(gòu)。英國ARM公司是全球領(lǐng)先的半導(dǎo)體知識產(chǎn)權(quán)(IP)提供商。全世界超過95%的智能手機(jī)和平板電腦都采用ARM架構(gòu)

。ARM設(shè)計(jì)了大量高性價(jià)比、耗能低的RISC處理器、相關(guān)技術(shù)及軟件。2014年基于ARM技術(shù)的全年全球出貨量是120億顆,從誕生到現(xiàn)在為止基于ARM技術(shù)的芯片有600億顆

。技術(shù)具有性能高、成本低和能耗省的特點(diǎn)。在智能機(jī)、平板電腦、嵌入控制、多媒體數(shù)字等處理器領(lǐng)域擁有主導(dǎo)地位。學(xué)完本課程后,您將能夠:描述鯤鵬芯片的關(guān)鍵技術(shù)描述鯤鵬920處理器的產(chǎn)品特點(diǎn)了解鯤鵬920處理器的設(shè)計(jì)架構(gòu)了解鯤鵬920處理器的加速引擎功能計(jì)算機(jī)系統(tǒng)概述ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器鯤鵬計(jì)算典型應(yīng)用場景鯤鵬軟件開發(fā)工具鏈馮諾依曼計(jì)算機(jī)模型計(jì)算機(jī)之父——約翰·馮·諾依曼運(yùn)算器存儲(chǔ)器控制器輸入設(shè)備輸出設(shè)備數(shù)據(jù)流控制流存儲(chǔ)器運(yùn)算器控制器輸入設(shè)備輸出設(shè)備數(shù)據(jù)信號控制信號CPU功能解釋計(jì)算機(jī)指令處理計(jì)算機(jī)軟件中的數(shù)據(jù)CPU組成控制單元運(yùn)算單元存儲(chǔ)單元什么是中央處理器中央處理器

(Central

Processing

Unit,CPU)是計(jì)算機(jī)的主要設(shè)備之一,功能主要是解釋計(jì)算機(jī)指令以及處理計(jì)算機(jī)軟件中的數(shù)據(jù)。中央處理器主要包括控制器,運(yùn)算器,高速緩沖存儲(chǔ)器(Cache)及實(shí)現(xiàn)它們之間聯(lián)系的數(shù)據(jù)、控制及狀態(tài)的總線。它與主存(Memory)和輸入/輸出設(shè)備合稱為電子計(jì)算機(jī)三大核心部件。CPU什么是芯片芯片(Chip)是一種把電路(主要包括半導(dǎo)體設(shè)備,也包括被動(dòng)組件等)小型化的方式,并制造在半導(dǎo)體晶圓表面上。晶圓芯片電路芯片是信息社會(huì)的基石內(nèi)存世界第一臺(tái)通用電子計(jì)算機(jī)—ENIAC1946年誕生,由18,800多個(gè)電子管組成,重量30多噸,占地面積170多平方米。得益于芯片的發(fā)展小型化,高性能手機(jī)數(shù)碼相機(jī)計(jì)算機(jī)芯片行業(yè)產(chǎn)業(yè)鏈芯片設(shè)計(jì)晶圓加工芯片封裝測試集成電路設(shè)計(jì)涉及對電子器件和器件間互連線模型的創(chuàng)建。晶圓加工是一系列化學(xué)處理步驟,使得電子電路逐漸形成在使用純半導(dǎo)體材料制作的芯片上。封裝是將器件的核心晶粒封裝在一個(gè)支撐物之內(nèi)的過程,這個(gè)封裝可以防止物理損壞以及化學(xué)腐蝕,并提供對外連接的引腳,之后將進(jìn)行集成電路性能測試。指令集:RISCvsCISCARM:使用精簡指令集(RISC),大幅簡化架構(gòu),僅保留所需要的指令,可以讓整個(gè)處理器更為簡化,擁有小體積、高效能的特性;ARMv8架構(gòu)支持64位操作,指令32位,寄存器64位,尋址能力64位;指令集使用NEON擴(kuò)展結(jié)構(gòu);

X86:使用復(fù)雜指令集(CISC),以增加處理器本身復(fù)雜度為代價(jià),換取更高的性能;X86指令集從MMX,發(fā)展到了SSE,AVX;Page11ARMv8架構(gòu)的特點(diǎn):31個(gè)64位通用寄存器,原來架構(gòu)只有15個(gè)通用寄存器;新指令集支持64位運(yùn)算,指令中的寄存器編碼由4位擴(kuò)充到5位;新指令集仍然是32位,減少了條件執(zhí)行指令,條件執(zhí)行指令的4位編碼釋放出來用于寄存器編碼;堆棧指針SP和程序指針PC都不再是通用寄存器了,同時(shí)推出了零值寄存器(類似PowerPC的r0);A64與A32的高級SIMD和FP相同;高級SIMD與VFP共享浮點(diǎn)寄存器,支持128位寬的vector;新增加解密指令。處理器發(fā)展趨勢POWERX86MIPSARM高端服務(wù)器PC&服務(wù)器嵌入式/移動(dòng)/消費(fèi)POWERPA-RISCSPARCItaniumMoto68KX86MIPSPPCARMZDSPNP完全開放,生態(tài)良好眾核異構(gòu)融合學(xué)習(xí)ARM,謀求復(fù)生開放封閉架構(gòu)內(nèi)核數(shù)量大量增加,處理器互聯(lián)。CPU+GPGPU+FPGA內(nèi)存體系重構(gòu),CPU/內(nèi)存深度融合,內(nèi)存更貼近計(jì)算。過去:架構(gòu)眾多,百花齊放現(xiàn)在:生態(tài)成熟,架構(gòu)壟斷未來:摩爾定律失效,尋求多方向突破主流CPU發(fā)展路徑1970s1990s1980s2000sIBM801POWER5POWER6POWER3POWER2e100/e200ARM7ARMPPCMIPSX86ARM9ARM11ARM10MIPS3kMIPS10KMIPS5KMIPS4KMIPS32/64PowerPC700PowerPC600BE(cell)MPC750400448638680868008pentiumpentiumIIpentiumIVpentiumIIICoreK10K8K6K5486386K7286e300/e500MPC7400e600PxxxxPowerPC9xxPOWER480286POWER1IntelARM提供更多計(jì)算核心工藝、主頻遇到瓶頸后,開始通過增加核數(shù)的方式來提升性能;芯片的物理尺寸有限制,不能無限制的增加;ARM的眾核橫向擴(kuò)展空間優(yōu)勢明顯。單核多核眾核單個(gè)ARM核面積~1.15mm2單個(gè)X86核面積~8mm2ARM服務(wù)器級別處理器一覽Hi161232C,2.1GHz16nm32C,2.4GHz16nmThunder-X48C,2.5GHz28nmThunder-X232-54C,3.0GHz14nm240048Cores,2.2-2.6GHz14nm48C,3.0GHz7nm32C,3.3GHz16nmX-Gene364Cores,2.3GHz16nmFT2000+Hi1616Hi1620FT150016

Cores,1.6GHz28nmCAVIUM高通飛騰橫軸代表性能內(nèi)存PCIe擴(kuò)展插槽風(fēng)扇電源CPU服務(wù)器內(nèi)部視圖硬盤TaiShan服務(wù)器物理結(jié)構(gòu)1IO模組12IO模組23電源模塊4機(jī)箱5IO模組36超級電容支架7導(dǎo)風(fēng)罩8前置硬盤背板9風(fēng)扇支架10風(fēng)扇模塊11前置硬盤12理線架13散熱器14DIMM15主板16RAID扣卡17靈活I(lǐng)O卡1(CPU1)18iBMC插卡19靈活I(lǐng)O卡2(CPU2)--TaiShan200服務(wù)器(型號2280)TaiShan服務(wù)器邏輯結(jié)構(gòu)支持兩路自研鯤鵬9207260、5250、5240或5230處理器,每個(gè)處理器支持16個(gè)DDR4DIMM。以太網(wǎng)靈活插卡可支持2種插卡包括4*GE和4*25GE,通過CPU本身自帶高速Serdes接口完成。RAID扣卡通過PCIe總線跟CPU1連接,RAID卡出SAS信號線纜跟硬盤背板連接,通過不同的硬盤背板可支持多種本地存儲(chǔ)規(guī)格。BMC使用自研管理芯片Hi1710,可外出VGA、管理網(wǎng)口、調(diào)試串口等管理接口。TaiShan服務(wù)器物理結(jié)構(gòu)1IO模組12IO模組23后置硬盤4后置硬盤背板5電源模塊6機(jī)箱7IO模組38超級電容9導(dǎo)風(fēng)罩10前置硬盤背板11風(fēng)扇支架12風(fēng)扇模塊13前置硬盤14理線架15散熱器16DIMM17RAID控制扣卡18主板19靈活I(lǐng)O卡1(CPU1)20iBMC插卡21靈活I(lǐng)O卡2(CPU2)--TaiShan200服務(wù)器(型號5280)TaiShan服務(wù)器邏輯結(jié)構(gòu)支持兩路華為自研鯤鵬9207260、5250、5240或5230處理器,每個(gè)處理器支持16個(gè)DDR4DIMM。以太網(wǎng)靈活插卡可支持2種插卡包括4*GE和4*25GE,通過CPU本身自帶高速Serdes接口完成。RAID扣卡通過PCIe總線跟CPU1連接,RAID卡出SAS信號線纜跟硬盤背板連接,通過不同的硬盤背板可支持多種本地存儲(chǔ)規(guī)格。BMC使用華為自研管理芯片Hi1710,可外出VGA、管理網(wǎng)口、調(diào)試串口等管理接口。計(jì)算機(jī)系統(tǒng)概述ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器鯤鵬計(jì)算典型應(yīng)用場景鯤鵬軟件開發(fā)工具鏈ARM處理器體系結(jié)構(gòu)ARM內(nèi)核工作模式:用戶模式(user):正常程序執(zhí)行模式;快速中斷模式(FIQ):高優(yōu)先級的中斷產(chǎn)生會(huì)進(jìn)入該種模式,用于高速通道傳輸;外部中斷模式(IRQ):低優(yōu)先級中斷產(chǎn)生會(huì)進(jìn)入該模式,用于普通的中斷處理;特權(quán)模式(Supervisor):復(fù)位和軟中斷指令會(huì)進(jìn)入該模式;數(shù)據(jù)訪問中止模式(Abort):當(dāng)存儲(chǔ)異常時(shí)會(huì)進(jìn)入該模式;未定義指令中止模式(Undefined):執(zhí)行未定義指令會(huì)進(jìn)入該模式;系統(tǒng)模式(System):用于運(yùn)行特權(quán)級操作系統(tǒng)任務(wù);監(jiān)控模式(Monitor):可以在安全模式和非安全模式之間切換;ARM處理器體系結(jié)構(gòu)ARM體系結(jié)構(gòu)的指令集(InstructionSet):ARM指令集Thumb指令集Thumb-2指令集ARM處理器體系結(jié)構(gòu)ARM的微體系結(jié)構(gòu)(Micro-architecture):ARM處理器內(nèi)核(ProcessorCore)ARM處理器(Processor)基于ARM架構(gòu)處理器的片上系統(tǒng)(SoC)ARM公司授權(quán)體系A(chǔ)RM目前在全球擁有大約1000個(gè)授權(quán)合作商、320家伙伴,但是購買架構(gòu)授權(quán)的廠家不超過20家,中國有華為、飛騰獲得了架構(gòu)授權(quán)。只能按照ARM設(shè)計(jì)好的處理器類型、在指定的代工廠進(jìn)行生產(chǎn)。處理器優(yōu)化包/物理IP包授權(quán)(POP)處理器授權(quán)架構(gòu)/指令集授權(quán)提供RTL代碼,處理器的核數(shù)、緩存可以自己配置。自主設(shè)計(jì)主頻、工藝、代工廠等。按照所授權(quán)的架構(gòu)和指令集(如ARMv8)自行編寫代碼、設(shè)計(jì)芯片。ARM處理器體系結(jié)構(gòu)ARM流水線的執(zhí)行順序:取指令(Fetch):從存儲(chǔ)器讀取指令;譯碼(Decode):譯碼以鑒別它是屬于哪一條指令;執(zhí)行(Execute):將操作數(shù)進(jìn)行組合以得到結(jié)果或存儲(chǔ)器地址;緩沖/數(shù)據(jù)(Buffer/data):如果需要,則訪問存儲(chǔ)器以存儲(chǔ)數(shù)據(jù);回寫:(Write-back):將結(jié)果寫回到寄存器組中;Branch預(yù)測和取指流水線解耦設(shè)計(jì),取指流水線每拍最多可提供32Bytes指令供譯碼,分支預(yù)測流水線可以不受取指流水停頓影響,超前進(jìn)行預(yù)測處理;定浮點(diǎn)流水線分開設(shè)計(jì),解除定浮點(diǎn)相互反壓,每拍可為后端執(zhí)行部件提供4條整型微指令及3條浮點(diǎn)微指令;整型運(yùn)算單元支持每拍4條ALU運(yùn)算(含2條跳轉(zhuǎn))及1條乘除運(yùn)算;浮點(diǎn)及SIMD運(yùn)算單元支持每拍2條ARMNeon128bits浮點(diǎn)及SIMD運(yùn)算;訪存單元支持每拍2條讀或?qū)懺L存操作,讀操作最快4拍完成,每拍訪存帶寬為2x128bits讀及1x128bits寫;基于ARMv8的鯤鵬流水線技術(shù)ARM處理器體系結(jié)構(gòu)ARM處理器的分類:ARM經(jīng)典處理器(ClassicProcessors);ARMCortex應(yīng)用處理器;面向復(fù)雜操作系統(tǒng)和用戶應(yīng)用的Cortex-A(Applications,應(yīng)用)系列針對實(shí)時(shí)處理和控制應(yīng)用的Cortex-R(Real-time,實(shí)時(shí))系列針對微控制器與低功耗應(yīng)用優(yōu)化的Cortex-M(Microcontroller)系列ARMCortex嵌入式處理器;ARM專業(yè)處理器ARM處理器系列命名規(guī)則命名格式:ARM{x}{y}{z}{T}{D}{M}{I}x:處理器系列,是共享相同硬件特性的一組處理器,如:ARM7TDMI、ARM740T都屬于ARM7系列y:存儲(chǔ)管理/保護(hù)單元z:CacheT:Thumb,Thumb16位譯碼器D:Debug,JTAG調(diào)試器M:Multipler,快速乘法器I:EmbeddedICELogic,嵌入式跟蹤宏單元ARM架構(gòu)發(fā)展史(1)ARM架構(gòu)發(fā)展史(2)ARM架構(gòu)發(fā)展史(3)從ARMv7開始,CPU命名為Cortex,并劃分為A、R、M三大系列,分別為不同的市場提供服務(wù);A(Application)系列:應(yīng)用型處理器,面向具有復(fù)雜軟件操作系統(tǒng)的面向用戶的應(yīng)用,為手機(jī)、平板、AP等終端設(shè)備提供全方位的解決方案;R(Real-Time)系列:實(shí)時(shí)高性能處理器,為要求可靠性、高可用性、容錯(cuò)功能、可維護(hù)性和實(shí)時(shí)響應(yīng)的嵌入式系統(tǒng)提供高性能計(jì)算解決方案;M(Microcontroller)系列:高能效、易于使用的處理器,主要用于通用低端,工業(yè),消費(fèi)電子領(lǐng)域微控制器。ARM架構(gòu)發(fā)展史(4)ARM服務(wù)器處理器的優(yōu)勢低功耗一直以來都是ARM架構(gòu)芯片最大的優(yōu)勢;ARM架構(gòu)的芯片在成本、集成度方面也有較大的優(yōu)勢;端、邊、云全場景同構(gòu)互聯(lián)與協(xié)同;更高的并發(fā)處理效率;多元化的市場供應(yīng)計(jì)算機(jī)系統(tǒng)概述ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計(jì)算典型應(yīng)用場景鯤鵬軟件開發(fā)工具鏈CPUDieCPUDieI/O

Die鯤鵬開放主板鯤鵬服務(wù)器分析掃描工具代碼遷移工具使能合作伙伴鯤鵬是計(jì)算平臺(tái)鯤鵬是生態(tài)應(yīng)用制程工藝領(lǐng)先:業(yè)界領(lǐng)先7nm制程,多Die合封的Chiplet架構(gòu)自研多核內(nèi)核:自研CPU內(nèi)核算力提升50%,自研片間互聯(lián),支持多路互聯(lián)率先支持下一代網(wǎng)絡(luò)和接口:支持8通道內(nèi)存控制器和100GE端口處理器->單機(jī)->集群,鯤鵬開放硬件平臺(tái)完備的軟件工具鏈,發(fā)揮鯤鵬最佳性能性能優(yōu)化工具加速庫使能行業(yè)應(yīng)用應(yīng)用中間件

數(shù)據(jù)庫操作系統(tǒng)服務(wù)器/PC大數(shù)據(jù)分布式存儲(chǔ)

高性能計(jì)算原生應(yīng)用云服務(wù)鯤鵬是SoC鯤鵬簡介分支預(yù)測算法改進(jìn)的性能提升;V8.1/V8.2新指令,RAS

定浮點(diǎn)pipe獨(dú)立,提升dispatch帶寬支持V8.2半精度浮點(diǎn)計(jì)算Memory子系統(tǒng)深度優(yōu)化,提升內(nèi)存訪問的outstanding深度降低memory訪問時(shí)延,每個(gè)核私有L2,Latency9cycles提供降低和規(guī)避Device訪問對性能影響的解決方案定制針對產(chǎn)品應(yīng)用的指令和數(shù)據(jù)Cache的預(yù)取和Streaming算法基于ARMv8的鯤鵬處理器微架構(gòu)32核,2.4GHz主頻SPECint性能匹配業(yè)界中端,功耗低至75W支持4通道DDR4控制器支持PCIe3.0和SAS/SATA3.0集成板載GE/10GE網(wǎng)絡(luò)支持2路互聯(lián)7nm制程,數(shù)據(jù)中心ARM處理器計(jì)算核數(shù)提升1倍,最多64核SPECint性能提升超過2倍內(nèi)存通道數(shù)提升1倍,支持8通道DDR4控制器支持PCIe4.0和CCIX集成板載100GE網(wǎng)絡(luò)和加密、壓縮等引擎支持2路或4路互聯(lián)鯤鵬916鯤鵬920支持多路互聯(lián)的ARM處理器

鯤鵬處理器串行ATA(SerialATA:SerialAdvancedTechnologyAttachment)是一種計(jì)算機(jī)總線,負(fù)責(zé)主板和大容量存儲(chǔ)設(shè)備(如硬盤及光盤驅(qū)動(dòng)器)之間的數(shù)據(jù)傳輸,主要用于個(gè)人計(jì)算機(jī)。串行ATA與串列SCSI(SAS:SerialAttachedSCSI)的兩者排線兼容,SATA硬盤可接上SAS接口。DDR

又稱雙倍速率SDRAM,Double

Date

Rate

SDRSM

DDR

SDRAM

是一種高速CMOS動(dòng)態(tài)隨即訪問的內(nèi)存。鯤鵬主板開放共享接口與設(shè)備規(guī)范整機(jī)參考設(shè)計(jì)共享工程能力整機(jī)參考設(shè)計(jì)指南(含機(jī)箱、散熱、供電等設(shè)計(jì))部件與OS兼容性列表主板(含鯤鵬處理器)主板接口規(guī)范BIOS軟件&規(guī)范BMC芯片/軟件&設(shè)備管理規(guī)范快速開發(fā)(3個(gè)月)持續(xù)供應(yīng)安全可靠(低于業(yè)界平均故障率15%)伙伴價(jià)值PC服務(wù)器打造多樣化計(jì)算產(chǎn)品基于鯤鵬主板的多樣化計(jì)算產(chǎn)品17年的工程工藝積累高速互聯(lián)可靠設(shè)計(jì)質(zhì)量品控40度以上異常高溫運(yùn)行56G/112G板級高速互聯(lián)無源背板&三重硬盤抗震故障率低于業(yè)界15%液冷散熱52804U40盤存儲(chǔ)型X60002U4節(jié)點(diǎn)高密型22802U2路均衡型2280E邊緣型數(shù)據(jù)中心邊緣計(jì)算存儲(chǔ)密集型計(jì)算密集型12801U2路高密型52904U72盤存儲(chǔ)型(新產(chǎn)品)(新產(chǎn)品)(新產(chǎn)品)(新產(chǎn)品)24802U4路高性能型基于鯤鵬920的華為TaiShan200服務(wù)器計(jì)算機(jī)系統(tǒng)概述ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計(jì)算典型應(yīng)用場景鯤鵬軟件開發(fā)工具鏈鯤鵬920系列芯片概覽鯤鵬920提供強(qiáng)大的計(jì)算能力,基于華為自研的具有完全知識產(chǎn)權(quán)的ARMV8架構(gòu),最多支持64Core。通過片間Cache一致性接口Hydra可擴(kuò)展系統(tǒng)核數(shù),最多支持到256Core,形成性能超強(qiáng)的板級計(jì)算節(jié)點(diǎn)。支持CPUCore虛擬化、內(nèi)存虛擬化、中斷虛擬化、IO虛擬化等多項(xiàng)虛擬化等技術(shù),使得系統(tǒng)的資源共享更加靈活、系統(tǒng)的遷移過程變得相對簡單。鯤鵬920具有豐富且強(qiáng)大的I/O能力。集成以太網(wǎng)控制器;提供SAS控制器;集成PCIe控制器。芯片集成安全算法引擎、壓縮/解壓縮引擎、存儲(chǔ)算法引擎等加速引擎進(jìn)行業(yè)務(wù)加速。Kunpeng920加速性能集成①CPU性能是關(guān)鍵:通過自研泰山核和多核,性能是SkyLake6148的1.4倍,達(dá)到下一代XEONV6性能。多P架構(gòu)支撐產(chǎn)品性能擴(kuò)展。性能不低于友商的同時(shí),保持26%+功耗優(yōu)勢。②SoC高度集成:豐富的IO接口,支撐硬件極簡設(shè)計(jì)8ChannelDDR4。PCIe4.0、100GE、SAS3.0、NVME、RoCEv2③芯片和產(chǎn)品Co-Design,架構(gòu)創(chuàng)新:X86性能提升乏力,異構(gòu)加速卸載成為常態(tài)內(nèi)置RAID、RSA/SEC、GZIP、EC、重刪、POE加速,為產(chǎn)品提供In-Line業(yè)務(wù)加速,免鎖隊(duì)列和SSDNVMeDMA加速。外接擴(kuò)展加速(CCIX、SDI),承載存儲(chǔ)和云業(yè)務(wù)卸載架構(gòu)創(chuàng)新。鯤鵬920芯片概覽:高性能、高集成、異構(gòu)加速高集成:4in1LLC30GT/s

HCCSLocalBusNANDC/USB/UART100GENIC/RoCEPCIe4.08通道DDR4SAS/SATA3.0

控制器64

cores高能效:30%高并發(fā):25%

高I/O:25%

業(yè)界性能最高的多核架構(gòu)處理器,基于RISC指令集和7nm工藝業(yè)界最高性能ARM-Based處理器Kunpeng920SAS控制器橋片CPURoCE網(wǎng)卡Kunpeng920Kunpeng920HCCSHCCSHCCSHCCSKunpeng920Kunpeng920多合一SoCxPU高速互聯(lián)注:HCCS(HuaweiCacheCoherenceSystem)華為自研片間互聯(lián)協(xié)議高集成高能效單位功耗的SPECint性能更高5.03Kunpeng920-48核Kunpeng920-32核Others3.634.5230%每1萬臺(tái)Hadoop節(jié)點(diǎn)每年節(jié)電

1千萬度碳排放每年減少

1萬多噸高集成,高能效Kunpeng920支持PCIe4.0

PCIe4.0雙口卡能帶來兩倍帶寬和更低時(shí)延

華為與Mellanox公司聯(lián)合對PCIeGen4進(jìn)行深度性能優(yōu)化時(shí)延(低數(shù)值為優(yōu))單向帶寬(高數(shù)值為優(yōu))雙向帶寬(高數(shù)值為優(yōu))更高的鏈路帶寬、更低的通信時(shí)延更安全:鯤鵬加速引擎,數(shù)據(jù)安全加解密

內(nèi)置加解密加速引擎……片內(nèi)總線鯤鵬920處理器數(shù)據(jù)密鑰處理器核處理器核內(nèi)存……PCIe總線傳統(tǒng)處理器處理器核處理器核PCIe數(shù)據(jù)加密卡傳統(tǒng)PCIe加密卡方案鯤鵬安全加解密方案明文數(shù)據(jù)密文數(shù)據(jù)明文數(shù)據(jù)通過PCIe總線傳輸,有數(shù)據(jù)泄密風(fēng)險(xiǎn)鯤鵬內(nèi)置加解密加速引擎,不占用計(jì)算資源明文數(shù)據(jù)僅通過片內(nèi)總線傳輸,安全性高支持SM3/SM4國密算法加速內(nèi)存明文數(shù)據(jù)密文數(shù)據(jù)數(shù)據(jù)密鑰計(jì)算機(jī)系統(tǒng)概述ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計(jì)算典型應(yīng)用場景鯤鵬軟件開發(fā)工具鏈集成最多64×自研核指令集兼容ARMv8.2,最高主頻達(dá)3.0GHz每核集成64KBL1I/D緩存每核獨(dú)享512KBL2緩存,單芯片共享48-64MBL3緩存8×DDR4控制器@2933MT/s集成PCIe/SAS接口支持PCIe4.0,向下兼容PCIe3.0/2.0/1.0支持x16,x8,x4,x2,x1PCIe4.0,集成20PCIe控制器支持16×SAS/SATA3.0控制器支持CCIX接口,支持加速器的緩存一致性支持2×100GRoCEv2,支持25GE/50GE/100GE標(biāo)準(zhǔn)NIC支持2P/4P擴(kuò)展封裝大小:60mm×75mm鯤鵬920系列芯片規(guī)格Hi1620/Hi1620S/Hi1601規(guī)格Hi1620SHi1620Hi1620Hi1620SHi1601CPU核數(shù)48@2.6GHz24@2.6GHz/L3cache48MB24MB/內(nèi)存通道8ChannelDDR44ChannelDDR4/多P互連1P/2P/3P/4P/2P+IOB1P/2P/1P+IOB/PCI-E40lanesofPCIeG4.040lanesofPCIeG4.040lanesofPCIeG4.0Networking(NIC、ROCE)8lanesofETH,ComboMACssupport2x100GE,2x50GE,2x40GE,

4x25GE,8x10GE,8xGERoCEv2/RoCEv18lanesofETH,ComboMACssupport2x100GE,2x50GE,2x40GE,

4x25GE,8x10GE,8xGERoCEv2/RoCEv18lanesofETH,ComboMACssupport2x100GE,2x50GE,2x40GE,

4x25GE,8x10GE,8xGERoCEv2/RoCEv1StorageIOx1USB3.0;x2USB2.0;x16SAS3.0;x2SATA3.0AHCIx2USB2.0;x16SAS3.0;x2SATA3.0AHCIx1USB3.0;x2USB2.0;x16SAS3.0;x2SATA3.0AHCICryptoEngineAES,DES/3DES,MD5,SHA1,SHA2,HMAC,CMACUpto100GbpsRSA1024/204854KbpsCompressionGZIPUpto40Gbps(compress)/100Gbps(decompress)RAIDXOR/PQ/EC/in-lineDIFaccelerationMEIsolatedmanagementsubsystem.Co-workswithBMCandprovidesfirmwareconfigurationoftheserverchip封裝60mm*75mm53mm*53mm37.5mm*37.5mm功耗158W97W40W場景:SDINOFJBOFIPJBOF入門級存儲(chǔ)場景:Dorado中高端融合存儲(chǔ)TaiShan服務(wù)器云存儲(chǔ)大數(shù)據(jù)HPCHi1601場景:NOFJBOFIPJBOF入門級存儲(chǔ)CPUDIEIODIE計(jì)算機(jī)系統(tǒng)概述ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計(jì)算典型應(yīng)用場景鯤鵬軟件開發(fā)工具鏈鯤鵬920系列芯片架構(gòu)–樂高架構(gòu)

(1)Page53IntelSkylake芯片為一個(gè)die,片內(nèi)通過mesh相互通信鯤鵬920芯片采用樂高架構(gòu)封裝而成,die內(nèi)有ring通信,而die間需要通過SLLC接口進(jìn)行通信ARMCoreL1IL1DL2ARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DL2L2L2L2L2L2L2L2L2L2L2L2L2L2L2ARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DringLLCLLCLLCLLCARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DARMCoreL1IL1DringLLCLLCLLCLLCSLLC鯤鵬920系列芯片架構(gòu)–樂高架構(gòu)(2)ARM獨(dú)享L1Cache和L2Cache,4個(gè)Core和1個(gè)L3Cachetag組成一個(gè)Cluster,6~8個(gè)Cluster組成一個(gè)CPUDie,合封后的兩個(gè)CPUDie共享LLC。芯片架構(gòu)-樂高架構(gòu)(3)-可支持多種封裝形態(tài)Hi1620:2CPUDIE+1I/ODIEHi1620s:1CPUDIE+1I/ODIEHi1601:1I/ODIE鯤鵬920系列芯片架構(gòu)鯤鵬920處理器片上系統(tǒng)組成2P服務(wù)器處理器多片互聯(lián)方案鯤鵬920系列芯片架構(gòu)(2)4P服務(wù)器處理器多片互聯(lián)方案示例如右圖所示:每顆芯片各提供2個(gè)SCCL和1個(gè)SICL。芯片之間通過片間緩存一致接口連接,片間帶寬高達(dá)240Gbps。鯤鵬920系列芯片架構(gòu)(3)鯤鵬處理器超級I/O集群:網(wǎng)絡(luò)ICLPCIeICLHydra接口HAC_ICLIO_MGMT_ICLShareCache:對所有的L2來說L3cache是共享的,一個(gè)進(jìn)程可以使用整個(gè)L3的容量L2L2L2…L2L2L2L3PrivateCache:有N個(gè)Private的L3,每個(gè)PrivateL3只緩存對應(yīng)的L2的數(shù)據(jù)。即一個(gè)進(jìn)程只能使用對應(yīng)的部分L3的容量,無法使用全部L3的容量,L3和L3之間不通信L2L2L2…L2L2L2L3L3…L3PartitionedCache:與Private相同的是,一個(gè)進(jìn)程只能使用對應(yīng)的部分L3容量;與Private不同的是,L3細(xì)分為一個(gè)Home的L3和N個(gè)Remote的L3,Home的L3類似L4,所以L3和L3之間會(huì)通信,由Home的L3來維護(hù)多個(gè)PartitionedL3之間的一致性L2L2L2…L2L2L2RemoteL3RemoteL3…HomeL3Non-inclusiveL3:支持Non-inclusive模式,Memory和L2間直接數(shù)據(jù)訪問L2L3MainMemory鯤鵬920系列芯片架構(gòu)——Cache模式芯片架構(gòu)–Cache時(shí)延前端限制:主要是iCacheMiss,iTLBMiss。指令解碼能力不足也是原因之一,但可能性較低。后端限制:主要是各級cache包括dTLBmiss。執(zhí)行單元資源不足也是原因之一,但可能性較低。錯(cuò)誤分支預(yù)測:與Cache無關(guān),但好的編碼習(xí)慣能減少分支預(yù)測錯(cuò)誤。RegL1I-cacheL1D-cacheL2cacheL3cacheMainMemoryCoreUnCoreFrontEndstallBackEndstall三類CacheMissesCompulsoryMisses第一次讀取數(shù)據(jù)時(shí)的Cachemiss。CapacityMisses沒有足夠Cache空間存儲(chǔ)所有熱數(shù)據(jù)在兩次連續(xù)使用某一Cache數(shù)據(jù)之間,出現(xiàn)了太多的其它數(shù)據(jù)沖刷。ConflictMisses太多(超過AssociativityWay)不同數(shù)據(jù)映射到同一CacheSet中造成Cache碰撞。

鯤鵬920系列芯片架構(gòu)——內(nèi)存子系統(tǒng)SMMU(SystemMemoryManagementSystem),為設(shè)備提供地址轉(zhuǎn)換和訪問保護(hù)功能。CCL訪問的內(nèi)存空間的屬性由MMU(memorymanagementunit,內(nèi)存管理單元)中的頁表控制ICL訪問的內(nèi)存空間的屬性由SMMU中的頁表或源設(shè)備控制內(nèi)存訪問延遲受數(shù)據(jù)所在位置影響。如果目標(biāo)數(shù)據(jù)位置在物理上接近內(nèi)存訪問發(fā)起者,則時(shí)延較低。一個(gè)CPUDie包含4個(gè)DDRChannel一個(gè)Socket包含2個(gè)CPUDie,8個(gè)DDRChannel每個(gè)控制器支持2DPC2933本地內(nèi)存訪問均在本地進(jìn)行,不走片間互聯(lián)總線,因此訪存時(shí)延最小,總體性能最好。時(shí)延ARMCPUCyclesSkylakeCyclesRegister11L1cache44L2cache814L3cache4055DRAM71-221(ns)83-143(ns)鯤鵬920系列芯片架構(gòu)—內(nèi)存子系統(tǒng)鯤鵬920系列芯片架構(gòu)——內(nèi)存子系統(tǒng)(2)682667

MHz2933

MHz1.5

Tb/s1.02

Tb/s內(nèi)存帶寬通道數(shù)量每通道速率總帶寬Kunpeng92061488通道DDR4帶來46%帶寬提升,同時(shí)容量也可按需提升延遲優(yōu)化,和業(yè)界主流水平相當(dāng)/更優(yōu)完整的Cache&MemoryQoS方案(類似于RDT),為用戶的不同業(yè)務(wù)部署帶來方便芯片架構(gòu)–IO子系統(tǒng)豐富的IO,PCIE化設(shè)計(jì)。各子系統(tǒng)PCIE(含CCIX),Hydra(多片互聯(lián)),Network,Storage,HAC,ME。各自遵循行業(yè)標(biāo)準(zhǔn),兼容軟件接口規(guī)范,滿足開源及演進(jìn)要求。SBSAGIC:GICv3/v4;SMMU:SMMUv3.1UART/Watchdog:PCI-E36lanesofPCIeG4.0,20Rootportsatmax,Peer2Peer,ATS/PRI,CCIXNetworking(NIC、ROCE)8lanesofETH,ComboMACssupport2x100GE,2x50GE,4x25GE,8x10GE,8xGERoCEv2/RoCEv1withprogrammableDC-QCN,long/normalAtomic,SR-IOVStorageIOx4USB3.0EHCI/UHCIx16SAS3.0(STPsupported)x2SATA3.0AHCICryptoEngineAES,DES/3DES,MD5,SHA1,SHA2,HMAC,CMAC

Upto50GbpsCompression/DecompressionGZIP,LZS,LZ4Upto40Gbps(compress)/100Gbps(decompress)StatefullandstatelessRAIDXOR/PQ/EC/in-lineDIFaccelerationME(IMU)Isolatedmanagementsubsystem.Co-workswithBMCandprovidesfirmwareconfigurationoftheserverchipScaleupCoherentSMPinterfacefor2P/4PUpto240Gbpsperport南橋RoCE網(wǎng)卡SAS控制器CPUQAT鯤鵬920系列芯片架構(gòu)(6)—網(wǎng)絡(luò)子系統(tǒng)網(wǎng)絡(luò)子系統(tǒng)包括NetworkICL和RoCE引擎兩大部分。NetworkICL包括多個(gè)1Gbps~100Gbps以太網(wǎng)控制器,二層DCB、MAC地址表,多播表,VLAN過濾表,流表,中斷,PCIe化,具有完整的NIC引擎,可以在RoCE引擎關(guān)閉的情況下單獨(dú)工作。RoCE(RDMAoverConvergeEthernet)是一種在以太網(wǎng)上采用RDMA(RemoteDirectMemoryAccess,遠(yuǎn)程直接內(nèi)存訪問)的網(wǎng)絡(luò)互聯(lián)技術(shù)。華為鯤鵬920處理器使用的RoCEv2協(xié)議是由InfiniBand(IB)協(xié)議演進(jìn)而來,既具有InfiniBand網(wǎng)絡(luò)的低時(shí)延、低CPU利用率等特點(diǎn),又能夠很好地兼容于Ethernet網(wǎng)絡(luò)。鯤鵬920系列芯片架構(gòu)(6)—網(wǎng)絡(luò)子系統(tǒng)華為鯤鵬920處理器RoCE設(shè)備的軟件呈現(xiàn)是一個(gè)PCI網(wǎng)絡(luò)設(shè)備。RoCE驅(qū)動(dòng)依賴于OFED的驅(qū)動(dòng)框架,由用戶態(tài)驅(qū)動(dòng)和內(nèi)核態(tài)驅(qū)動(dòng)構(gòu)成。當(dāng)業(yè)務(wù)建立后,在執(zhí)行過程中,RoCE用戶態(tài)驅(qū)動(dòng)可以Kernelbypass將數(shù)據(jù)發(fā)給硬件。RoCE內(nèi)核態(tài)驅(qū)動(dòng)在初始化時(shí)從HNS3網(wǎng)卡驅(qū)動(dòng)程序獲取RoCE設(shè)備的一些信息。EthernetPhysicalPortConfiguration2x100GE/50GE/40GE/25GE/10GE/GE+2*GE4x50GE/25GE/10GE/GE+2*GE8x25GE/10GE/GESpeedAuto-NegotiationMACSpeedcanauto-negotiatebetweenGE/XGE/25GESupportDCB(DataCenterBridge)ETS(EnhancedTransmissionSelection)PFC(Priority-basedFlowControl)QCN(QuantizedCongestionNotification)SupportRoCEv1,RoCEv2VirtualizationswitchacceleratorgenericflowtablebasedswitchingSupportVEB,butnotsupportEVB.[RFC]SharedresourcebetweenmultiplePhysicalPortsDCBBuffersQueueResourceFlowTableEntry鯤鵬920系列芯片架構(gòu)(6)—網(wǎng)絡(luò)子系統(tǒng)鯤鵬920系列芯片架構(gòu)(7)—SAS子系統(tǒng)SAS(SerialAttachedSCSI)即串行SCSI技術(shù),一種磁盤連接技術(shù)。SAS控制器用于磁盤與內(nèi)存之間進(jìn)行交互。SAS控制器主要通過總線與CPU和內(nèi)存進(jìn)行交互,同時(shí)通過SERDES與硬盤進(jìn)行連接。SAS控制器與設(shè)備連接方式有兩種:直連和Expander連接。直連表示SAS控制器的PHY與設(shè)備直接連接,不經(jīng)過中間轉(zhuǎn)換或擴(kuò)展;Expander連接表示SAS控制器與設(shè)備之間通過擴(kuò)展器進(jìn)行連接SAS盤分為SAS機(jī)械盤和SASSSD盤,SAS盤是為滿足高性能、高可靠性而設(shè)計(jì),在內(nèi)部驅(qū)動(dòng)電機(jī)的可靠性、轉(zhuǎn)速以及基板方面都與SATA盤有差異。鯤鵬920系列芯片架構(gòu)(7)—SAS子系統(tǒng)提供2個(gè)X8SAS3.0控制器:支持SAS3.0,向下兼容SAS2.0和SAS1.0;支持SATA3.0,向下兼容SATA2.0和SATA1.0;SAS支持12G/6G/3G/1.5G四種速率,SATA支持6G/3G/1.5G速率,同時(shí)可以實(shí)現(xiàn)速率的自協(xié)商;可以直接不經(jīng)過Expander最大連接8個(gè)SAS盤或者SATA盤,兩者可以混插;可以連接SASExpander擴(kuò)展更多磁盤。提供1個(gè)X2SATA控制器:支持SATA3.0,向下兼容SATA2.5;支持AHCI1.3,向下兼容AHCI1.2;支持6G/3G/1.5G速率自協(xié)商;支持直連兩個(gè)SATA盤。支持NORFlash控制器,4個(gè)片選,NORFLASH最大支持512K。支持SPIFlash控制器,2個(gè)片選,SPIFlash最大支持32M。支持NANDFLASH接口,4個(gè)片選。鯤鵬920系列芯片架構(gòu)(8)—PCIe子系統(tǒng)PCIe是一種高性能、通用的I/O互連接口,適用于各種計(jì)算和通信平臺(tái)。鯤鵬920PCIe子系統(tǒng)提供了實(shí)現(xiàn)PCIe根聯(lián)合體(RootComplex,RC)或端點(diǎn)(Endpoint,EP)應(yīng)用程序的解決方案。鯤鵬920PCIe子系統(tǒng)包含3個(gè)PCIeCore,最多支持40個(gè)PCIeLane。每個(gè)PCIeCore包括多個(gè)PCIe端口。PCIeCore0共享16個(gè)Lane。PCIeCore1共享16個(gè)Lane。PCIeCore2共享8個(gè)Lane。3個(gè)PCIeCore均可作為根端口(RootPort,RP)使用。只有PCIeCore1能作為EP端口。PCIe模塊通過PIPe接口與PCS連接,連接速率支持最大16Gbps,兼容8Gbps、5Gbps和2.5Gbps。另一方面,PCIe模塊通過AMBA總線與系統(tǒng)總線相連。PCIeGEN1/2/3/4.0SupportedRunatthe2.5G/5G/8G/16Gx16PCIeControllerEmbeddedDMAengine40Lanessupporttotally3PCIeControllerSupport20RootPortHardwarefeaturesSRIS(SeparateRefclkIndependentSSC)SupportSR-IOVSupportSharedVirtualMemorySupportCCIXSupportP2P(PeertoPeer)PeertoPeertrafficbetweendifferentcontroller鯤鵬920系列芯片架構(gòu)(8)—PCIe子系統(tǒng)CPU流水線:ARMvsX86Page72流水線前端流水線后端分支預(yù)測FetchDecode

AllocationIssueExecuteWriteBackCommitARM流水線與Xeon基本一致,按流水線前后端分解ARM64X86Xeon鯤鵬流水線技術(shù)亮點(diǎn):CPU流水線主要階段Fetch:提取指令并計(jì)算下一次Fetch的地址。包括指令緩存、BranchPrediction、BranchTargetBuffer、ReturnAddressStack。Decode

分解指令流到獨(dú)立指令;TranslateX86指令到RISC-likeUops;理解指令語義,包括指令類型(Control、Memory、Arithmetic,等等),運(yùn)算操作類型、需要什么資源(讀和寫需要的寄存器,等等)。Allocation:RegisterRenaming+ResourcesReservation.Issue:分發(fā)指令到相應(yīng)執(zhí)行單元,從這兒開始進(jìn)入錯(cuò)序執(zhí)行階段。Execute:指令執(zhí)行階段WriteBack:將執(zhí)行結(jié)果寫入RegisterFile、ReorderBuffer、等等Commit:重整執(zhí)行結(jié)果次序、決定SpeculativeExecution正確性,最終輸出結(jié)果。AllocationFetchDecodeIssueExecuteWriteBackCommit鯤鵬流水線技術(shù):弱保序CPU弱保序,即亂序執(zhí)行:

處理器不按程序規(guī)定的順序執(zhí)行指令,它根據(jù)內(nèi)部功能部件的空閑狀態(tài),動(dòng)態(tài)分發(fā)執(zhí)行指令,但是指令結(jié)束的順序還是按照原有程序規(guī)定的順序。處理器內(nèi)部功能部件并行運(yùn)轉(zhuǎn),避免了不必要的阻塞,有效提高了處理器執(zhí)行指令的性能。處理器分析影響執(zhí)行結(jié)果的指令,避免出現(xiàn)有顯式的數(shù)據(jù)依賴和控制依賴的亂序,但是,特殊情況下的讀寫亂序可能影響程序執(zhí)行結(jié)果,需要軟件甄別。制約CPU效率因素CPU流水線前端限制:執(zhí)行單元空閑,但前端不能輸送充分多操作指令CPU流水線后端限制:執(zhí)行單元繁忙或執(zhí)行時(shí)等待數(shù)據(jù),指令執(zhí)行出現(xiàn)等待分支預(yù)測錯(cuò)誤:執(zhí)行錯(cuò)誤分支浪費(fèi)時(shí)間+處理錯(cuò)誤分支執(zhí)行消耗時(shí)間。系統(tǒng)安全:支持安全啟動(dòng),以及保證系統(tǒng)在可信環(huán)境內(nèi)運(yùn)行的一套軟硬件方案。該方案由SecureBoot技術(shù)和ARM架構(gòu)中的TrustZone技術(shù)結(jié)合而成。IMU(IntelligentManagementUnit)是Hi162x芯片內(nèi)部的智能管理單元,完善ARM節(jié)點(diǎn)在數(shù)據(jù)中心的管理和控制,未來數(shù)據(jù)中心設(shè)備管理要求統(tǒng)一、智能和協(xié)同,遵循管理系統(tǒng)集中決策+節(jié)點(diǎn)執(zhí)行監(jiān)控,按照設(shè)備節(jié)點(diǎn)模型統(tǒng)一管理。IMU作為數(shù)據(jù)中心的管理末端,協(xié)同BMC,完成數(shù)據(jù)中心的節(jié)點(diǎn)執(zhí)行監(jiān)控。IMU可以覆蓋的功能:RAS故障預(yù)處理以及錯(cuò)誤記錄上報(bào)、安全信任根、能效管理、芯片內(nèi)部管理。芯片架構(gòu)–系統(tǒng)安全&IMU計(jì)算機(jī)系統(tǒng)概述ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器什么是鯤鵬鯤鵬920系列芯片概覽鯤鵬920系列芯片規(guī)格鯤鵬920系列芯片架構(gòu)鯤鵬920系列芯片加速器引擎功能鯤鵬計(jì)算典型應(yīng)用場景鯤鵬軟件開發(fā)工具鏈鯤鵬920系列芯片——加速器引擎功能(1)組件算法規(guī)格描述OpenSSL引擎庫SM4支持SM4-CBC/SM4-CTR/SM4-XTS,符合GM/T0002-2012規(guī)范。單處理器(Kunpeng920)最大帶寬30Gbps。支持同步、異步模式。SM3支持SM3,符合GM/T0004-2012規(guī)范。單處理器(Kunpeng920)最大帶寬60Gbps。支持同步、異步模式。RSA支持RSA1024/RSA2048/RSA3072/RSA4096,符合NISTFIPS-197標(biāo)準(zhǔn)規(guī)范。單處理器(Kunpeng920)RSA2048sign最大帶寬54Kops。支持同步、異步模式。DH支持DH768/1024/1536/2048/3072/4096,符合NISTFIPS-197標(biāo)準(zhǔn)規(guī)范單處理器(Kunpeng920)DH768/1024/1536/2048/3072/4096最大帶寬為94.4/56/25.6/14/4.8/2.24kops。支持同步、異步模式。AES支持AES-ECB/AES-CBC/AES-CTR/AES-XTS,符合NISTFIPS-197標(biāo)準(zhǔn)規(guī)范。單處理器(Kunpeng920)最大帶寬60Gbps。支持同步、異步模式。鯤鵬920系列芯片——加速器引擎功能(2)組件算法規(guī)格描述Zlib庫ZLIB支持ZLIB數(shù)據(jù)格式,符合RFC1950標(biāo)準(zhǔn)規(guī)范。單處理器(Kunpeng920)最大壓縮帶寬7GB/s,靜態(tài)Huffman解壓最大帶寬8GB/s。壓縮率50%。支持同步模式。GZIP支持GZIP數(shù)據(jù)格式,符合RFC1952標(biāo)準(zhǔn)規(guī)范。單處理器(Kunpeng920)最大壓縮帶寬7GB/s,靜態(tài)Huffman解壓最大帶寬8GB/s。壓縮率50%。支持同步模式。內(nèi)核CryptoSM4支持SM4-XTS,符合GM/T0002-2012規(guī)范。單處理器(Kunpeng920)最大帶寬30Gbps。支持異步模式。SPECint?_rate_base2006評測跑分越高越好TDP功耗對比(W)越低越好性能功耗比越高越好極致效能極致性能低功耗25%+30%+11%鯤鵬92064核型號鯤鵬92032/48核型號鯤鵬91632核型號鯤鵬系列處理器vs業(yè)界主流產(chǎn)品的性能和效能對比平臺(tái)TaiShanV2with2-socketKunpeng920-4826/DDR4-2666)X86serverwith2-socketSkylake6148(20cores,2.0GHz/DDR4-2666)STREAM測試結(jié)果287GB/Swith84.28%efficiency192GB/Swith75.08%efficiency越低越好越低越好鯤鵬整體性能對比-內(nèi)存帶寬和時(shí)延性能鯤鵬整體性能對比-IO性能Page81特性模式規(guī)格類別目標(biāo)實(shí)測數(shù)據(jù)(本地關(guān)SMMU)實(shí)測數(shù)據(jù)(本地開SMMU)PCIeIB:MlxCX5PPSread>95Mpps@4B

write:>64Mpps@4Bsend:>63Mpps@4Bread:24并發(fā)時(shí)達(dá)到86.4Mpps@4Bwrite:24并發(fā)時(shí)達(dá)到86.4Mpps@4Bsend:24并發(fā)時(shí)達(dá)到90Mpps@4Bread:24并發(fā)時(shí)達(dá)到86.4Mpps@4Bwrite:24并發(fā)時(shí)達(dá)到86.4Mpps@4Bsend:24并發(fā)時(shí)達(dá)到90Mpps@4B時(shí)延Intel對接CX4數(shù)據(jù):

read:1.95us@2B

write:0.93us@2B

read:4.09us@4KB

write:3.22us@4KBread:1.66us@2B

write:0.99us@2B

send:1.06@2B

read:2.21us@4KB

write:1.98us@4KB

send:2.05@4KBread:1.65us@2B

write:1.01us@2B

send:1.06@2B

read:2.18us@4KB

write:1.95us@4KB

send:2.04@4KB帶寬read:線速@2KB

write:線速@2KB

read:線速90%@2KB,線速@8KB;

write:線速87%@2KB,線速@8KB;(與x86+CX5持平)read:線速90%@2KB,線速@8KB;

write:線速86%@2KB,線速@8KB;(與x86+CX5持平)網(wǎng)絡(luò):MlxCX5/1822PPS>10Mpps@64BCX5:24隊(duì)列25.3Mpps@64B;

1822:16隊(duì)列13.7Mpps@64B;CX5:24隊(duì)列14.5Mpps@64B;

1822:16隊(duì)列12Mpps@64B;時(shí)延13.5us@64BCX5:1隊(duì)列1Mpps7.8us

1822:1隊(duì)列1Mpps9.4usCX5:1隊(duì)列0.7Mpps11.5us1822:1隊(duì)列0.7Mpps13us帶寬線速@1518KBCX5:16隊(duì)列線速@1518KB

1822:16隊(duì)列98Gb@1518KBCX5:16隊(duì)列90Gb@1518KB

1822:16隊(duì)列68Gb@1518KBNVME:ES3000V3/V5最大讀帶寬(MB/s)@256KB31003025.73012.4持續(xù)隨機(jī)讀KIOPS@4KB760775.2753.64K讀延時(shí)(us)88avg:44.72

99%:88avg:46.24

99%:89最大寫帶寬(MB/s)@256KB19502005.41957.7持續(xù)隨機(jī)寫KIOPS@4KB175508.6503.64K寫延時(shí)(us)18avg:11.75

99%:10avg:12.57

99%:11鯤鵬整體性能對比-IO性能(2)特性模式類別規(guī)格實(shí)測數(shù)據(jù)(本地關(guān)SMMU)實(shí)測數(shù)據(jù)(本地開SMMU)NIC100GPPS>10Mpps@64B24核:25Mpps@64B24核:14.7Mpps@64B時(shí)延100GE:<13.5us@64B10GE:<15us@64B100G:12us@64B10G:12us@64B10G:12.1us@64B100G:12.6us@64B帶寬100GE:>94Gbps@雙向帶寬25GE:>23.5Gbps@雙向帶寬10GE:9.35Gbps@雙向帶寬100G:94.1Gbps@1518B25G:23.5@1518B10GE:9.41@1518B100G:94.1Gbps@1518B25G:23.5@1518B10GE:9.41@1518BRoCE100GMppsread:>30Mpps@2B

write:>30Mpps@2B

send:>30Mpps@2Bread:31.5Mpps@2Bwrite:33.2Mpps@2Bsend:33.12Mpps@2Bread:31.02Mpps@2Bwrite:33.35Mpps@2Bsend:32.67Mpps@2B時(shí)延read:2.0us@2B

write:0.85us@2B

send:1.5@2B

read:3us@4KB

write:2.5us@4KB

send:2.5@4KBread:1.51us@2Bwrite:0.83us@2Bsend:1.14@2Bread:2.41us@4KBwrite:1.70us@4KBsend:1.87@4KBread:1.58us@2Bwrite:0.98us@2Bsend:1.79@2Bread:1.83us@4KBwrite:1.56us@4KBsend:2.29@4KB帶寬read:線速@1KB

write:線速@1KB

send:線速@1KBread:>99.5Gbps@1024Bwrite:>99.5Gbps@1024Bsend:99.2Gbps@1024Bread:>99.5Gbps@1024Bwrite:>99.5Gbps@1024Bsend:97Gbps@1024BSASX8*12GIOPS讀:800K/S@4KB

寫:800K/S@4KB讀:1451.6K/s@4K寫:982.37K/s@4K讀:1031.2K/s@4K寫:941.4K/s@4K時(shí)延4KB讀:800us

4KB寫:800us4KB讀:345.5us4KB寫:514.94us4KB讀:489.79us4KB寫:536.96us帶寬讀:8000MB/S@256KB

寫:8000MB/S@256KB讀:8539.6MB/s@256KB寫:8282.7MB/s@256KB讀:8539.6MB/s@256KB寫:8282.7MB/s@256KB詳細(xì)測試數(shù)據(jù)計(jì)算機(jī)系統(tǒng)概述ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器鯤鵬計(jì)算典型應(yīng)用場景鯤鵬軟件開發(fā)工具鏈199120052009201420162019第一顆傳輸網(wǎng)絡(luò)的ASIC芯片第一顆基于ARM的無線基站芯片第一顆基于ARM的移動(dòng)端處理器第一顆基于ARM的64位處理器業(yè)界第一顆支持多路ARM處理器業(yè)界第一顆7nm數(shù)據(jù)中心處理器K3Hi1612鯤鵬920開放生態(tài)開放平臺(tái),支持業(yè)界主流軟硬件;構(gòu)建鯤鵬生態(tài),與開發(fā)者、伙伴和產(chǎn)業(yè)組織共同打造智能計(jì)算新底座安全可靠鯤鵬處理器基于自研內(nèi)核,TaiShan服務(wù)器計(jì)算芯片全自研17年計(jì)算創(chuàng)新鑄就穩(wěn)如泰山的高品質(zhì)高效能計(jì)算提供兼容ARM架構(gòu)的高性能鯤鵬處理器、TaiShan服務(wù)器和解決方案,將高效能計(jì)算帶入數(shù)據(jù)中心。鯤鵬系列處理器發(fā)展歷程鯤鵬916AI邊緣,5G移動(dòng)邊緣場景電信、交通邊緣計(jì)算場景鯤鵬RSA安全加解密加速引擎互聯(lián)網(wǎng)Web

HTTPS連接加速電信、政務(wù)、金審、金稅等行業(yè)云虛擬化性能優(yōu)越實(shí)時(shí)音視頻極致體驗(yàn)鯤鵬+昇騰協(xié)同加速使能AI應(yīng)用:人臉識別、車牌識別等業(yè)界首款兼容ARM的四路服務(wù)器,超強(qiáng)算力32個(gè)DDR4超大內(nèi)存車輛通行告別收費(fèi)站省際高速公路打造SKA區(qū)域中心原型系統(tǒng)天文臺(tái)電商互聯(lián)網(wǎng)更快速的安全連接體驗(yàn)基于鯤鵬電信云的VoLTE首呼運(yùn)營商行業(yè)云AI計(jì)算邊緣計(jì)算Web應(yīng)用HPC鯤鵬計(jì)算的典型應(yīng)用場景計(jì)算機(jī)系統(tǒng)概述ARM處理器體系結(jié)構(gòu)鯤鵬系列處理器鯤鵬計(jì)算典型應(yīng)用場景鯤鵬軟件開發(fā)工具鏈解決90%C/C++和50%匯編移植問題99%問題自動(dòng)識別匯編/C/C++編譯型語言JAVA/PHP/Python解釋型語言性能提升10%~30%分析掃描工具代碼遷移工具自動(dòng)掃描軟件兼容性代碼評估、依賴庫檢查C++/匯編語言自動(dòng)轉(zhuǎn)換JavaJDK自動(dòng)安裝、依賴庫自動(dòng)編譯性能優(yōu)化工具性能全景&熱點(diǎn)函數(shù)分析多核綁定、內(nèi)存就近訪問、中斷優(yōu)化一鍵執(zhí)行,聯(lián)動(dòng)分析無需代碼修改原有生態(tài)鯤鵬生態(tài)遷移評估編譯移植性能調(diào)優(yōu)匯編/C/C++編譯型語言JAVA/PHP/Python解釋型語言鯤鵬軟件開發(fā)工具鏈注:ARM64平臺(tái)優(yōu)化前后的性能平均增幅功能:系統(tǒng)性能數(shù)據(jù)采集和分析,分析出系統(tǒng)性能指標(biāo),定位到瓶頸點(diǎn)及熱點(diǎn)函數(shù),給出調(diào)優(yōu)建議輸入分析處理輸出創(chuàng)建工作任務(wù)配置任務(wù)屬性參數(shù)(分析類型、軟件路徑、采樣率等)運(yùn)行待分析軟件采集處理器性能指標(biāo)數(shù)據(jù)采集O

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論