版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1GB/TXXXXX.1—XXXX人工智能計(jì)算設(shè)備調(diào)度與協(xié)同第1部分:虛擬化與調(diào)度本文件給出了人工智能計(jì)算設(shè)備虛擬化與調(diào)度的架構(gòu),規(guī)定了技術(shù)要求,描述了測(cè)試方法。本文件適用于人工智能計(jì)算設(shè)備虛擬化與調(diào)度的系統(tǒng)設(shè)計(jì)、研發(fā)和測(cè)試。2規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/TAAAAA-AAAA人工智能服務(wù)器系統(tǒng)性能測(cè)試規(guī)范3術(shù)語(yǔ)和定義GB/T41867-2022界定的以及下列術(shù)語(yǔ)和定義適用于本文件。3.1人工智能計(jì)算單元artificialintelligencecomputingunit執(zhí)行人工智能計(jì)算任務(wù)所必要的部件的最小集合。3.2人工智能加速[處理]器artificialintelligenceacceleratingprocessor人工智能加速芯片artificialintelligenceacceleratingchip具備適配人工智能算法的運(yùn)算微架構(gòu),能夠完成人工智能應(yīng)用運(yùn)算處理的集成電路元件。3.3人工智能加速卡artificialintelligenceacceleratingcard專(zhuān)為人工智能計(jì)算設(shè)計(jì)、符合人工智能服務(wù)器硬件接口的擴(kuò)展加速設(shè)備。注:人工智能加速卡按功能可分為人工智能訓(xùn)練加速卡,3.4人工智能計(jì)算實(shí)例artificialintelligencecomputinginstance執(zhí)行人工智能計(jì)算任務(wù)的虛擬化對(duì)象。3.5虛擬化virtualization一種資源表示形式,表示與潛在的物理資源解耦。[來(lái)源:ISO/IEC17826:2022,3.55]2GB/TXXXXX.1—XXXX3.6[異構(gòu)]資源池[heterogeneous]resourcepool一種由不同架構(gòu)的人工智能計(jì)算資源集合形成的抽象實(shí)體,資源池內(nèi)的人工智能計(jì)算資源能夠被管理調(diào)度,以滿(mǎn)足不同人工智能計(jì)算任務(wù)的需求。注1:異構(gòu)資源池提供一種可伸縮計(jì)算架構(gòu),有利于合理分配計(jì)算資源,為不同運(yùn)行環(huán)境(例如云、集群、移動(dòng)設(shè)備、物聯(lián)網(wǎng))的人工智能應(yīng)用系統(tǒng)的開(kāi)發(fā)和部署提供計(jì)算能力、輯門(mén)陣列(FPGA)、數(shù)字信號(hào)處理器(DSP)、專(zhuān)用集成電路(3.7計(jì)算能力computingcapability產(chǎn)品或系統(tǒng)參數(shù)能夠滿(mǎn)足計(jì)算需求的最大程度。3.8神經(jīng)網(wǎng)絡(luò)處理器neural-networkprocessingunit一種專(zhuān)門(mén)針對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算進(jìn)行特殊優(yōu)化設(shè)計(jì)的集成電路元件。3.9人工智能計(jì)算任務(wù)artificialintelligencecomputingtask為取得特定人工智能計(jì)算目標(biāo)所需的活動(dòng)。[來(lái)源:ISO/IEC25062:2006,4.9,有修改]3.10性能performance人工智能加速卡在運(yùn)行計(jì)算任務(wù)時(shí),可被測(cè)量的特性,在評(píng)估人工智能任務(wù)的性能時(shí),一般采用吞吐率特性。注2:性能基于一個(gè)或多個(gè)參數(shù)(如能耗、流量、吞吐率、運(yùn)行時(shí)間以及速率等)的測(cè)量或計(jì)算獲得,以表征在某[來(lái)源:ISO/IEC20000.10:2018,3.1.16,有修改]3.11人工智能計(jì)算集群artificialintelligencecluster遵循統(tǒng)一控制的,人工智能計(jì)算功能單元的集合。注2:當(dāng)由人工智能服務(wù)器組成時(shí),人工智能3.123GB/TXXXXX.1—XXXX節(jié)點(diǎn)node由網(wǎng)絡(luò)連接的能完成特定人工智能計(jì)算任務(wù)的物理或邏輯人工智能計(jì)算設(shè)備。[來(lái)源:ISO/IEC14575:2000,3.2.27,有修改]3.13調(diào)度scheduling控制特定任務(wù)的整體或部分的執(zhí)行場(chǎng)所和時(shí)間的過(guò)程。[來(lái)源:ISO/IEC10164.15:2002,3.7.4,有修改]3.14調(diào)度器scheduler一種在系統(tǒng)中完成調(diào)度的組件。3.15隔離isolation計(jì)算實(shí)例間的計(jì)算和數(shù)據(jù)相互不影響和不可訪(fǎng)問(wèn)。[來(lái)源:ISO/IECTS25052:1:2022,3.1.5.3,有修改]4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。AI:人工智能(ArtificialIntelligence)BAR:基址寄存器(BaseAddressRegister)CPU:中央處理器(CenterProcessingUnits)DDR:雙倍速率傳輸率(DoubleDataRate)DMA:直接存儲(chǔ)器訪(fǎng)問(wèn)(DirectMemoryAccess)FPGA:現(xiàn)場(chǎng)可編程邏輯門(mén)陣列(FieldProgrammableGateArray)GDDR:圖形雙倍速率傳輸存儲(chǔ)器(GraphicsDDRSDRAM)GPU:圖形處理器(GraphicsProcessingUnits)HBM:高帶寬存儲(chǔ)器(HighBandwidthMemory)NPU:神經(jīng)網(wǎng)絡(luò)處理器(Neural-networkProcessingUnits)PCIE:外設(shè)部件互聯(lián)高速通道(PeripheralComponentInterconnectExpress)QEMU:快速模擬器(QuickEMUlator)QoS:服務(wù)質(zhì)量(QualityofService)USB:通用串行總線(xiàn)(UniversalSerialBus)VFIO:虛擬功能輸入/輸出(VirtualFunctionInputOutput)VM:虛擬機(jī)(VirtualMachine)VMX:虛擬機(jī)擴(kuò)展(VirtualMachineExtension)5概述4GB/TXXXXX.1—XXXXAI計(jì)算設(shè)備虛擬化與調(diào)度的架構(gòu)見(jiàn)圖1。AI計(jì)算虛擬化,為AI物理計(jì)算資源提供特定的表示形式,虛擬化方案包含對(duì)基于CPU、GPU、NPU、FPGA等物理AI加速卡的虛擬化。(多種)虛擬化方案通過(guò)統(tǒng)一的接入組件形成(異構(gòu))資源池,以一致的方式使用AI物理計(jì)算資源。調(diào)度器根據(jù)AI任務(wù)和資源池的情況,選擇若干虛擬化的AI計(jì)算實(shí)例,分配并執(zhí)行特定任務(wù)。運(yùn)維監(jiān)控實(shí)現(xiàn)對(duì)AI計(jì)算實(shí)例、AI物理計(jì)算資源(AI加速卡)、AI任務(wù)及其狀態(tài)的監(jiān)測(cè)與控制。注3:1個(gè)AI應(yīng)用可被分解為若干個(gè)AI計(jì)算任務(wù),下發(fā)給調(diào)度器。圖1AI計(jì)算設(shè)備虛擬化與調(diào)度架構(gòu)6計(jì)算設(shè)備虛擬化技術(shù)要求6.1概述計(jì)算設(shè)備虛擬化技術(shù)是一種計(jì)算資源管理的方法,切分、調(diào)配或整合含有各類(lèi)型加速器的不同AI加速卡,使其執(zhí)行AI計(jì)算任務(wù),以提高計(jì)算資源利用率。注:本文件規(guī)定計(jì)算設(shè)備虛擬化技術(shù)不對(duì)網(wǎng)絡(luò)、存儲(chǔ)等其他物理資源6.2基本要求6.2.1AI加速卡虛擬化AI加速卡的虛擬化,包含以下要求:a)應(yīng)支持單個(gè)AI加速卡虛擬化為多個(gè)計(jì)算實(shí)例;b)宜支持多個(gè)AI加速卡虛擬成單個(gè)計(jì)算實(shí)例;c)計(jì)算實(shí)例應(yīng)能在虛擬機(jī)或容器中執(zhí)行計(jì)算任務(wù);d)宜支持單個(gè)AI加速卡的算力隔離;e)計(jì)算實(shí)例應(yīng)能被計(jì)算設(shè)備調(diào)用。6.2.2監(jiān)控功能5GB/TXXXXX.1—XXXX虛擬化組件或系統(tǒng),宜實(shí)現(xiàn)下列對(duì)計(jì)算實(shí)例的監(jiān)控功能,包括:a)資源(含計(jì)算資源)利用率監(jiān)測(cè);b)算子執(zhí)行時(shí)延統(tǒng)計(jì);c)計(jì)算實(shí)例帶寬利用率監(jiān)測(cè);d)計(jì)算實(shí)例的性能波動(dòng)(見(jiàn)9.1.4.4)監(jiān)測(cè);e)虛擬化后,AI加速卡的計(jì)算能力損耗統(tǒng)計(jì);f)計(jì)算實(shí)例運(yùn)行時(shí)長(zhǎng)統(tǒng)計(jì)。6.2.3隔離性虛擬化組件或系統(tǒng)的隔離性包含如下要求:a)故障隔離,應(yīng)符合以下要求:1)計(jì)算實(shí)例內(nèi)的單點(diǎn)故障信息只上報(bào)其所屬的虛擬機(jī)或容器及虛擬化管理系統(tǒng);2)支持多個(gè)計(jì)算實(shí)例運(yùn)行互不干擾;3)提供調(diào)用、返回特定計(jì)算實(shí)例的業(yè)務(wù)故障;4)支持計(jì)算實(shí)例獲知其所依賴(lài)物理設(shè)備的單點(diǎn)故障。b)性能隔離,即特定用戶(hù)使用計(jì)算資源的性能,不被并發(fā)執(zhí)行的其他用戶(hù)的任務(wù)影響,而出現(xiàn)下降的情況;c)安全隔離,應(yīng)能實(shí)現(xiàn)下列功能,包含但不限于:1)防止仿冒;2)防止篡改;3)防止信息泄露;4)防止拒絕服務(wù)攻擊;5)防止權(quán)限提升;6)防止抵賴(lài)。6.2.4重配置虛擬化組件或系統(tǒng),實(shí)現(xiàn)在多用戶(hù)和動(dòng)態(tài)任務(wù)情況下的計(jì)算資源重配置,以提高系統(tǒng)整體性能,符合以下要求:a)應(yīng)為單個(gè)AI任務(wù)的獨(dú)立運(yùn)行,實(shí)現(xiàn)QoS服務(wù)質(zhì)量機(jī)制;b)應(yīng)為多個(gè)AI任務(wù)的同時(shí)運(yùn)行,實(shí)現(xiàn)資源獲得公平性機(jī)制;注:公平性指的是相同優(yōu)先級(jí)的不同用戶(hù)和程序?qū)τ谟?jì)算c)應(yīng)為AI任務(wù)的動(dòng)態(tài)負(fù)載特性或資源可變特性要求,實(shí)現(xiàn)資源復(fù)用機(jī)制(如分時(shí)復(fù)用或分區(qū)復(fù)用d)宜能與下列機(jī)制或過(guò)程配合使用,包含但不限于:1)高可用集群;2)負(fù)載均衡,即分配特定的業(yè)務(wù)(網(wǎng)絡(luò)服務(wù)、網(wǎng)絡(luò)流量等)給多臺(tái)網(wǎng)絡(luò)設(shè)備(包括服務(wù)器、防火墻等)或多條鏈路;3)內(nèi)存復(fù)用,方式包括內(nèi)存氣泡、內(nèi)存置換、內(nèi)存共享等;4)CPU、內(nèi)存、AI加速處理器等的擴(kuò)容。e)宜支持查詢(xún)AI計(jì)算加速卡間互聯(lián)信息。6.2.5資源抽象虛擬化與調(diào)度系統(tǒng)的資源抽象,符合以下要求:a)計(jì)算實(shí)例應(yīng)支持執(zhí)行以下計(jì)算,包括但不僅限于:6GB/TXXXXX.1—XXXX1)完整的卷積計(jì)算;2)完整的向量計(jì)算;3)完整的標(biāo)量計(jì)算;4)數(shù)據(jù)傳輸、交換和格式轉(zhuǎn)換。b)計(jì)算實(shí)例應(yīng)包含以下部件并作為調(diào)度依據(jù):1)計(jì)算部件;2)存儲(chǔ)部件,如緩存、內(nèi)存等;3)數(shù)據(jù)通信部件。c)1個(gè)計(jì)算實(shí)例可對(duì)應(yīng)單臺(tái)或多臺(tái)AI計(jì)算設(shè)備的全部物理資源或部分物理資源;d)當(dāng)虛擬出多個(gè)計(jì)算實(shí)例時(shí),單AI加速卡所含的硬件資源應(yīng)能被映射為多個(gè)AI加速卡,包含對(duì)處理器、內(nèi)存等資源的切分,映射為不同的設(shè)備,并受硬件資源總數(shù)的限制;e)事件、標(biāo)識(shí)和任務(wù)及相關(guān)機(jī)制以軟件實(shí)現(xiàn)時(shí),應(yīng)不受硬件資源總數(shù)的限制。6.2.6協(xié)調(diào)性AI任務(wù)的計(jì)算圖的任務(wù)抽象與資源抽象應(yīng)具備協(xié)調(diào)性,符合如下要求:注:AI計(jì)算圖用有向圖表示,1個(gè)有向圖由點(diǎn)和邊構(gòu)成,表示神經(jīng)網(wǎng)絡(luò)的計(jì)算流程,是一種邏輯流圖,在硬件上轉(zhuǎn)a)AI任務(wù)數(shù)據(jù)流圖中的資源抽象包括:1)有向圖中的點(diǎn)表示計(jì)算;2)有向圖中的邊表示數(shù)據(jù)依賴(lài);3)數(shù)據(jù)流連接線(xiàn)以外出箭頭表示將數(shù)據(jù)寫(xiě)入數(shù)據(jù)存儲(chǔ);4)數(shù)據(jù)流連接線(xiàn)以輸入箭頭表示從數(shù)據(jù)存儲(chǔ)中讀取數(shù)據(jù)。b)應(yīng)考慮用于執(zhí)行數(shù)據(jù)流圖的虛擬設(shè)備;c)計(jì)算流應(yīng)考慮如下約束:1)計(jì)算流的同步,即一個(gè)計(jì)算流中的任務(wù)依賴(lài)于另一個(gè)計(jì)算流中的任務(wù);2)計(jì)算流可并行處理,受硬件資源約束。6.2.7計(jì)算實(shí)例要求6.2.7.1計(jì)算實(shí)例表示計(jì)算實(shí)例應(yīng)由以下屬性表示:a)計(jì)算實(shí)例規(guī)格,包含:1)計(jì)算能力,如吞吐率、有效計(jì)算能力、FLOPS等;2)內(nèi)存空間,如片上內(nèi)存等;3)數(shù)據(jù)傳輸率,如上下行帶寬;4)計(jì)算精度,如FP16、INT8等。b)計(jì)算實(shí)例拓?fù)洌?)計(jì)算實(shí)例所屬的AI加速卡;2)加速卡所屬的服務(wù)器及其在服務(wù)器中的位置;3)服務(wù)器所屬的集群,及其在集群中的位置。c)計(jì)算實(shí)例狀態(tài),包含:1)使用中:計(jì)算實(shí)例當(dāng)前正在執(zhí)行相關(guān)的計(jì)算任務(wù);2)可用:當(dāng)前的計(jì)算實(shí)例整體或其部分,處于空閑狀態(tài);7GB/TXXXXX.1—XXXX3)不可用:當(dāng)前計(jì)算實(shí)例已被占用或損壞,無(wú)法執(zhí)行相關(guān)任務(wù)。6.2.7.2計(jì)算實(shí)例管理6.2.7.2.1AI計(jì)算設(shè)備虛擬化系統(tǒng)或組件,提供如下功能:a)應(yīng)支持在以下情況更新資源池:1)加入新的計(jì)算實(shí)例;2)計(jì)算實(shí)例被釋放;3)空閑計(jì)算實(shí)例被占用;4)計(jì)算實(shí)例進(jìn)入等待隊(duì)列;5)計(jì)算實(shí)例被損壞;6)損壞的計(jì)算實(shí)例修復(fù)。b)單個(gè)AI加速卡的虛擬化,宜通過(guò)接口調(diào)用滿(mǎn)足如下功能:1)創(chuàng)建的AI虛擬計(jì)算資源,關(guān)聯(lián)其歸屬的父設(shè)備(AI虛擬計(jì)算資源所在的物理AI加速器并提供相關(guān)的查詢(xún),包括但不限于:Python編程接口、sysfs接口、或命令;2)對(duì)計(jì)算實(shí)例的操作、控制接口;3)提供可寫(xiě)接口,用于填入創(chuàng)建虛擬化節(jié)點(diǎn)的必要信息;4)設(shè)備描述信息獲取接口;5)虛擬化計(jì)算節(jié)點(diǎn)的驅(qū)動(dòng)接口信息(驅(qū)動(dòng)API);6)指向每個(gè)虛擬化計(jì)算節(jié)點(diǎn)的軟鏈接。6.2.7.2.2AI計(jì)算設(shè)備虛擬化系統(tǒng)或組件應(yīng)支持計(jì)算資源的刪除與恢復(fù),包含如下要求:a)計(jì)算資源的非物理刪除;b)恢復(fù)已刪除的資源(如計(jì)算資源的重新發(fā)現(xiàn))。6.2.7.2.3AI計(jì)算設(shè)備虛擬化系統(tǒng)或組件應(yīng)支持提供接口,獲取如下實(shí)例信息:a)計(jì)算能力的監(jiān)控和統(tǒng)計(jì)信息(如資源調(diào)度層所管理的物理計(jì)算能力的總和);b)計(jì)算實(shí)例所在的AI加速卡信息;c)計(jì)算實(shí)例的規(guī)格信息,包括內(nèi)存、可觀測(cè)帶寬等;d)計(jì)算實(shí)例的算子時(shí)延剖析、時(shí)延統(tǒng)計(jì)信息。6.2.7.2.4AI計(jì)算設(shè)備虛擬化系統(tǒng)或組件,應(yīng)支持計(jì)算資源分配,包括:a)單AI加速器的分配;b)多AI加速器的整體原子分配(全部分配成功,或全部都分配失?。?。6.2.7.2.5AI計(jì)算設(shè)備虛擬化系統(tǒng)或組件,應(yīng)支持計(jì)算實(shí)例的回收,包括:a)一次回收單個(gè)計(jì)算實(shí)例;b)一次回收多個(gè)計(jì)算實(shí)例,且保證操作的原子性。6.3擴(kuò)展要求6.3.1CPU虛擬化6.3.1.1概述8GB/TXXXXX.1—XXXXCPU虛擬化分為基于軟件的虛擬化和硬件輔助的虛擬化。CPU一般用于推理任務(wù)。虛擬機(jī)可使用多個(gè)CPU計(jì)算實(shí)例,這些計(jì)算實(shí)例可源于同一個(gè)物理CPU或多個(gè)物理CPU的虛擬化。CPU虛擬化的參考架構(gòu)見(jiàn)A.2。6.3.1.2CPU計(jì)算實(shí)例CPU虛擬化系統(tǒng)或組件,應(yīng)符合以下要求:a)CPU計(jì)算實(shí)例能完成機(jī)器學(xué)習(xí)推理任務(wù);b)能避免宿主機(jī)上CPU資源的浪費(fèi);c)支持CPU計(jì)算實(shí)例的動(dòng)態(tài)橫向彈性伸縮,為虛擬機(jī)添加CPU計(jì)算實(shí)例;d)支持CPU計(jì)算實(shí)例親和性配置;e)CPU計(jì)算實(shí)例的規(guī)格,應(yīng)使用以下指標(biāo)衡量:1)處理器內(nèi)核數(shù);2)每個(gè)內(nèi)核的線(xiàn)程數(shù);3)CPU劃分的比例;4)內(nèi)存容量;5)緩存容量。6.3.2GPU虛擬化6.3.2.1通則GPU的虛擬化,應(yīng)符合如下要求:a)支持計(jì)算能力按需使用;b)支持計(jì)算能力動(dòng)態(tài)調(diào)用和釋放。6.3.2.2GPU計(jì)算實(shí)例GPU虛擬化系統(tǒng)或組件,應(yīng)符合以下要求:a)支持其非虛擬化版本能執(zhí)行的機(jī)器學(xué)習(xí)算法;b)通過(guò)時(shí)分復(fù)用或空分復(fù)用的方式得到計(jì)算實(shí)例;c)GPU計(jì)算實(shí)例,包含以下部件:1)計(jì)算部件:執(zhí)行計(jì)算的單元,即流處理器,完成整型和浮點(diǎn)型計(jì)算;2)視頻編解碼部件;3)內(nèi)存,包括單不限于DDR、GDDR和HBM(容量單位是MB或GB,帶寬單位是GB/s);4)各級(jí)緩存(容量單位是MB或GB,帶寬單位是GB/s);5)共享存儲(chǔ)。d)支持負(fù)載均衡;e)GPU計(jì)算實(shí)例的規(guī)格,應(yīng)使用以下指標(biāo)衡量:1)計(jì)算能力(單位如:OPS\FLOPS\吞吐率\算力比例);2)視頻編解碼能力(單位如:1路1080P,30FPS);3)顯存容量(單位如:MB\GB);4)緩存容量(單位如:MB);5)網(wǎng)絡(luò)寬帶和收發(fā)包吞吐率(GPU間)。6.3.3NPU虛擬化6.3.3.1通則9GB/TXXXXX.1—XXXX圖2NPU虛擬化架構(gòu)圖NPU的虛擬化架構(gòu)見(jiàn)圖2,參考方案見(jiàn)A.1。NPU的虛擬化組件或系統(tǒng),符合以下要求:a)應(yīng)能根據(jù)計(jì)算任務(wù)需要選擇合適的虛擬化調(diào)度方案,包括:1)將AI加速卡虛擬化為多個(gè)NPU計(jì)算實(shí)例,掛載至虛擬機(jī);2)將AI加速卡虛擬化為多個(gè)NPU計(jì)算實(shí)例,掛載至容器;3)將AI加速卡虛擬化為多個(gè)NPU計(jì)算實(shí)例,掛載至虛擬機(jī),在虛擬機(jī)內(nèi)再將NPU計(jì)算實(shí)例掛載到容器;4)將AI加速卡直通NPU到虛擬機(jī),在虛擬機(jī)內(nèi)劃分NPU計(jì)算實(shí)例,再掛載到虛擬機(jī)內(nèi)的容器。b)宜具備N(xiāo)PU計(jì)算QoS控制機(jī)制;c)NPU實(shí)例,應(yīng)提供如下計(jì)算屬性:1)張量計(jì)算能力,如張量計(jì)算單元個(gè)數(shù);2)向量、標(biāo)量等通用計(jì)算能力,如通用計(jì)算單元個(gè)數(shù)\協(xié)處理器核的個(gè)數(shù);3)如具備視頻圖像預(yù)處理模塊,應(yīng)提供相關(guān)的計(jì)算能力屬性,如視頻解碼器計(jì)算核個(gè)數(shù)。d)NPU實(shí)例,應(yīng)提供內(nèi)存容量(單位:GB)作為存儲(chǔ)屬性;e)宜支持按AI任務(wù)的計(jì)算量,動(dòng)態(tài)調(diào)整計(jì)算實(shí)例規(guī)格。6.3.3.2NPU計(jì)算實(shí)例NPU計(jì)算實(shí)例,應(yīng)符合以下要求:a)提供矩陣乘的計(jì)算部件,執(zhí)行卷積與全連接的計(jì)算:1)具有執(zhí)行矩陣計(jì)算的計(jì)算核心;2)具備緩存矩陣分別存儲(chǔ)中間過(guò)程數(shù)據(jù)和結(jié)果數(shù)據(jù);3)具備數(shù)據(jù)寄存器,寄存矩陣運(yùn)算的過(guò)程數(shù)據(jù)與結(jié)果。b)提供向量運(yùn)算的部件,以執(zhí)行池化、激活函數(shù)以及批正則化等運(yùn)算:1)執(zhí)行向量計(jì)算的單元;2)相關(guān)的存儲(chǔ)單元。c)提供控制和標(biāo)量運(yùn)算的計(jì)算部件,包含:1)執(zhí)行標(biāo)量運(yùn)算的單元;2)通用寄存器;3)專(zhuān)用寄存器。GB/TXXXXX.1—XXXXd)提供數(shù)據(jù)的存儲(chǔ)部件;e)提供數(shù)據(jù)通路部件,保證計(jì)算部件與存儲(chǔ)部件之間的數(shù)據(jù)供應(yīng);f)NPU計(jì)算實(shí)例能執(zhí)行并完成AI推理和訓(xùn)練任務(wù);g)NPU計(jì)算實(shí)例的規(guī)格,用以下指標(biāo)衡量:1)計(jì)算能力(單位:FLOPS/OPS/吞吐率);2)內(nèi)存容量(單位:GB);3)緩存(單位:KB/MB);4)剩余帶寬(單位:GB/s)。6.3.4FPGA虛擬化6.3.4.1通則FPGA虛擬化是在時(shí)間和空間維度上,對(duì)多個(gè)FPGA的各類(lèi)資源的調(diào)度與使用。FPGA的虛擬化,應(yīng)符合以下要求:a)支持深度學(xué)習(xí)加速,并具備性能隔離特性;b)支持多路計(jì)算;c)支持FPGAOverlay,在FPGA硬件之上,形成虛擬可編程架構(gòu),支持上層使用;d)支持部分可重構(gòu),將FPGA劃分為多個(gè)FPGA計(jì)算實(shí)例;e)支持FPGA動(dòng)態(tài)重構(gòu)和配置。6.3.4.2FPGA計(jì)算實(shí)例FPGA計(jì)算實(shí)例,應(yīng)符合以下要求:a)支持其非虛擬化版本能執(zhí)行的機(jī)器學(xué)習(xí)任務(wù);b)為一個(gè)或多個(gè)動(dòng)態(tài)重構(gòu)的FPGA區(qū)域;c)對(duì)特定FPGA計(jì)算實(shí)例實(shí)施動(dòng)態(tài)重構(gòu)時(shí),其他運(yùn)行不受影響;d)提供可重構(gòu)區(qū)域的劃分機(jī)制,避免FPGA資源的空置和浪費(fèi);e)FPGA計(jì)算實(shí)例規(guī)格,由以下指標(biāo)衡量:1)計(jì)算能力(如:OPS/吞吐率);2)延遲;3)功耗;4)靈活度。7計(jì)算資源調(diào)度技術(shù)要求7.1概述7.1.1任務(wù)流程框架計(jì)算資源調(diào)度的任務(wù)流程見(jiàn)圖3,包含以下步驟:a)用戶(hù)提出訓(xùn)練或推理請(qǐng)求,作為AI任務(wù)放入任務(wù)池;b)調(diào)度器從AI任務(wù)池中取任務(wù),根據(jù)任務(wù)的規(guī)格(所需計(jì)算能力、內(nèi)存等)和可用AI加速卡,申請(qǐng)符合AI任務(wù)要求的計(jì)算實(shí)例;c)調(diào)度器對(duì)所有的異構(gòu)計(jì)算資源和計(jì)算實(shí)例實(shí)施監(jiān)控,完成任務(wù)的調(diào)度。GB/TXXXXX.1—XXXX圖3AI計(jì)算任務(wù)調(diào)度流程框架7.1.2訓(xùn)練場(chǎng)景訓(xùn)練場(chǎng)景中,任務(wù)池中含有訓(xùn)練任務(wù)請(qǐng)求。訓(xùn)練任務(wù)的吞吐量較大時(shí),對(duì)單AI加速卡的資源利用效率較高。單訓(xùn)練任務(wù)對(duì)AI加速卡資源的占用情況包括以下情形:a)在單AI加速卡上運(yùn)行,該卡資源被全部占用;b)在單AI加速卡上運(yùn)行,該卡資源未被全部占用;c)在多AI加速卡上運(yùn)行,全部加速卡資源均被占用;d)在多AI加速卡上運(yùn)行,部分加速卡存在空閑資源。7.1.3推理場(chǎng)景推理任務(wù)對(duì)AI計(jì)算單元的占用,包含如下情形:a)模型體量較小,能容納于單卡或單片內(nèi)存時(shí):1)推理需要異構(gòu)的AI計(jì)算資源,但大多數(shù)場(chǎng)景吞吐量較小,資源使用率較低;2)計(jì)算資源的調(diào)度需細(xì)粒度劃分(如以單卡中的塊或片為調(diào)度單位,使多推理任務(wù)共用特定計(jì)算資源,即單芯片多任務(wù)模式);3)部署時(shí)根據(jù)計(jì)算任務(wù)申請(qǐng)所需計(jì)算資源,優(yōu)先在單芯片上安排推理任務(wù),使單芯片滿(mǎn)載。注:滿(mǎn)載指的是對(duì)特定計(jì)算設(shè)備的計(jì)算能力全部用b)模型體量較大,不能容納于單卡或單片內(nèi)存時(shí):1)模型所含參數(shù)量多,模型結(jié)構(gòu)復(fù)雜,任務(wù)吞吐量大,拆分為多個(gè)子模型;2)數(shù)據(jù)搬運(yùn)在單芯片內(nèi)數(shù)據(jù)搬運(yùn)速度最快,跨卡調(diào)度影響計(jì)算速度;3)計(jì)算資源的調(diào)度以卡為單位分配;4)調(diào)度器將推理任務(wù)按照模型體量實(shí)施拆分;5)在單AI加速卡上優(yōu)先安排同一子模型,計(jì)算完成后則分配剩余子模型給卡計(jì)算。7.2功能要求調(diào)度器應(yīng)實(shí)現(xiàn)下列功能:a)對(duì)整AI加速卡(處理器)的調(diào)度;b)對(duì)池化的多AI加速卡的調(diào)度;GB/TXXXXX.1—XXXXc)對(duì)單AI加速卡上計(jì)算單元的調(diào)度;d)對(duì)單AI加速卡虛擬化所得的多計(jì)算實(shí)例的調(diào)度;e)對(duì)多AI加速卡中的多個(gè)計(jì)算單元的調(diào)度;f)對(duì)多個(gè)計(jì)算單元或多個(gè)AI加速卡的調(diào)度,應(yīng)保證調(diào)度操作的原子性;g)任務(wù)拆分,當(dāng)同一任務(wù)包含的多個(gè)模型時(shí),能將不同模型分配給不同計(jì)算實(shí)例,保證全局資源利用率最高;h)模型切換,在同一計(jì)算實(shí)例上,在某模型運(yùn)行完成時(shí),能換入另一個(gè)模型并運(yùn)行;i)負(fù)載均衡,在有剩余計(jì)算節(jié)點(diǎn)時(shí),能分配任務(wù),避免單卡、單片或單塊的負(fù)載過(guò)大。7.3性能優(yōu)化要求調(diào)度器性能優(yōu)化符合以下要求:a)應(yīng)能采集、分析和匯總性能數(shù)據(jù),涵蓋以下設(shè)備,包含但不限于:控制CPU、調(diào)度CPU、AI加速器、外圍設(shè)備、內(nèi)存等;b)對(duì)多卡調(diào)度,宜能在調(diào)度過(guò)程中參考集合通信組件的屬性和狀態(tài);c)宜提供AI任務(wù)在異構(gòu)計(jì)算設(shè)備上的系統(tǒng)性能分析工具。7.4調(diào)度策略要求調(diào)度器調(diào)度策略宜考慮如下的因素:a)使全局資源的平均利用率最高;b)調(diào)度的計(jì)算資源涉及多個(gè)AI加速器時(shí),根據(jù)卡的拓?fù)鋪?lái)制定調(diào)度策略(如親和性調(diào)度);c)支持用戶(hù)自定義調(diào)度。7.5接口要求7.5.1接口類(lèi)型虛擬化接口包括:a)調(diào)度器與CPU、GPU、FPGA、NPU等計(jì)算資源之間的接口;b)調(diào)度器與AI應(yīng)用中機(jī)器學(xué)習(xí)框架的接口。7.5.2接口描述7.5.2.1計(jì)算實(shí)例創(chuàng)建計(jì)算實(shí)例創(chuàng)建應(yīng)符合表1列出的接口要求:表1計(jì)算實(shí)例創(chuàng)建相關(guān)接口實(shí)例表示模板設(shè)置虛擬化切分得到的計(jì)算計(jì)算能力(如張量虛擬化時(shí)所包含的數(shù)字視覺(jué)預(yù)處理模塊GB/TXXXXX.1—XXXX創(chuàng)建計(jì)算實(shí)例按照需求,指定規(guī)格,創(chuàng)建需要?jiǎng)?chuàng)建的虛擬設(shè)設(shè)置虛擬化在物理機(jī)執(zhí)行,設(shè)置計(jì)算容器模式:適用于計(jì)算實(shí)例掛載到容器虛擬機(jī)模式:適用于計(jì)算實(shí)例掛載到7.5.2.2計(jì)算實(shí)例監(jiān)控計(jì)算實(shí)例監(jiān)控應(yīng)符合:a)獲取單個(gè)物理AI加速卡的信息,見(jiàn)表2:表2獲取加速卡信息獲取單個(gè)物理AI加速例資源占比和剩余可虛擬化的資源b)獲取計(jì)算實(shí)例規(guī)格,接口描述見(jiàn)表3,獲取的規(guī)格信息滿(mǎn)足6.4.1和6.5.1.2e),6.5.2.2h),6.5.3.2g)或6.5.4.2e)的要求:表3獲取計(jì)算實(shí)例規(guī)格獲取計(jì)算實(shí)例規(guī)格獲取計(jì)算實(shí)例的規(guī)格c)獲取計(jì)算實(shí)例狀態(tài),接口描述見(jiàn)表4,狀態(tài)屬性要求見(jiàn)6.4.1:表4獲取計(jì)算實(shí)例狀態(tài)獲取計(jì)算實(shí)例狀態(tài)GB/TXXXXX.1—XXXX8運(yùn)維監(jiān)控技術(shù)要求8.1AI加速卡監(jiān)控AI加速卡監(jiān)控符合以下要求:a)應(yīng)能監(jiān)控AI加速卡的下列屬性:1)計(jì)算能力;2)帶寬;b)應(yīng)能監(jiān)控并返回計(jì)算實(shí)例的下列統(tǒng)計(jì)信息:1)計(jì)算實(shí)例的總數(shù);2)可用的計(jì)算實(shí)例數(shù);3)占用的計(jì)算實(shí)例數(shù)。c)應(yīng)能監(jiān)控單AI加速卡上各計(jì)算實(shí)例的性能偏移的情況;注:對(duì)單AI加速卡,虛擬化N(N是正整數(shù))個(gè)相同規(guī)格的計(jì)算實(shí)例時(shí),每個(gè)實(shí)例的參考性能是1/N,實(shí)際性能與參d)應(yīng)能監(jiān)控返回AI加速卡的狀態(tài):1)資源占用比例;2)可用比例;3)是否損壞。e)應(yīng)能監(jiān)控返回以下關(guān)于AI任務(wù)的信息:1)訓(xùn)練任務(wù)或推理任務(wù)的吞吐量;2)訓(xùn)練任務(wù)或推理任務(wù)占用的計(jì)算實(shí)例信息,以及計(jì)算實(shí)例所處的AI加速卡。8.2計(jì)算實(shí)例監(jiān)控計(jì)算實(shí)例監(jiān)控符合以下要求:a)支持對(duì)計(jì)算實(shí)例狀態(tài)的監(jiān)控(見(jiàn)6.6.2.2);b)支持對(duì)計(jì)算實(shí)例的異常檢測(cè),并對(duì)用戶(hù)開(kāi)放定制化的檢測(cè)項(xiàng);c)支持計(jì)算實(shí)例的異常警告,并支持用戶(hù)自定義警告的閾值和警告的方式;d)支對(duì)計(jì)算實(shí)例的日志收集、分析和可視化展示的功能。8.3AI任務(wù)監(jiān)控AI任務(wù)通過(guò)系統(tǒng)性能分析工具監(jiān)控,工具宜提供系統(tǒng)狀態(tài)預(yù)測(cè)或監(jiān)控信息,包括但不限于:a)時(shí)序信息圖方式,以時(shí)間線(xiàn)的形式展示AI任務(wù)相關(guān)性能信息:1)計(jì)算圖信息:計(jì)算圖執(zhí)行時(shí)間、推理時(shí)間、圖像等數(shù)據(jù)的預(yù)處理時(shí)間;2)算子的執(zhí)行時(shí)間:?jiǎn)嗡阕訄?zhí)行起止時(shí)間、單算子耗時(shí);3)每個(gè)線(xiàn)程運(yùn)行時(shí)API的時(shí)序信息;4)AI計(jì)算單元上內(nèi)核函數(shù)的運(yùn)行時(shí)序信息;5)任務(wù)調(diào)度的任務(wù)運(yùn)行時(shí)序信息。b)硬件視圖方式,展示數(shù)據(jù)傳輸?shù)膸捫畔?,可幫助用?hù)或調(diào)度器找出數(shù)據(jù)處理和傳輸?shù)钠款i,如讀寫(xiě)帶寬過(guò)低可能是算子編寫(xiě)的數(shù)據(jù)搬運(yùn)過(guò)程有問(wèn)題;c)AI處理器函數(shù)和CPU函數(shù)視圖:1)采集各形式處理器上的熱點(diǎn)函數(shù)(執(zhí)行頻率較高的函數(shù));GB/TXXXXX.1—XXXX2)展示的信息應(yīng)包含但不限于:模塊名、函數(shù)名、調(diào)用堆棧、指令數(shù)、指令數(shù)耗時(shí)占比、對(duì)應(yīng)子項(xiàng)的循環(huán)次數(shù)等。d)概括性視圖,匯總采集的信息并展示,包含但不限于:1)性能數(shù)據(jù)采集起止時(shí)間及耗時(shí);2)服務(wù)器性能基本信息,包括操作系統(tǒng)和CPU信息;3)加速設(shè)備信息(包含GPU、NPU或FPGA),如協(xié)處理CPU的核數(shù)、AI計(jì)算單元數(shù)量等;4)內(nèi)存及高級(jí)緩存信息,即整個(gè)采集過(guò)程中內(nèi)存讀寫(xiě)帶寬的平均值;5)CPU的利用率;6)系統(tǒng)信息,包含但不限于:系統(tǒng)總內(nèi)存、空閑空間、內(nèi)存緩沖區(qū)大小、高速緩沖存儲(chǔ)器使用量、共享內(nèi)存、虛擬內(nèi)存限值等;7)控制CPU的信息,包括但不限于:運(yùn)行的函數(shù)名稱(chēng)、此函數(shù)關(guān)聯(lián)的模塊、此函數(shù)運(yùn)行的時(shí)鐘周期數(shù)、虛擬環(huán)境中操作系統(tǒng)消耗占比、內(nèi)核態(tài)進(jìn)程時(shí)長(zhǎng)占比、空閑狀態(tài)時(shí)長(zhǎng)占比等;8)AI計(jì)算單元的信息;9)算子統(tǒng)計(jì)信息,包括但不限于:算子的個(gè)數(shù)、名稱(chēng)、耗時(shí)、對(duì)應(yīng)的起止調(diào)度時(shí)間、輸入輸出張量的內(nèi)存大小、權(quán)重大小等;10)圖像視頻任務(wù)相關(guān)信息,包括但不限于:任務(wù)的時(shí)間、任務(wù)的幀數(shù)等。e)模型的數(shù)據(jù)輸入、AI計(jì)算任務(wù)(推理或訓(xùn)練)、數(shù)據(jù)輸出的耗時(shí)。8.4日志監(jiān)控8.4.1日志收集級(jí)別運(yùn)維監(jiān)控過(guò)程應(yīng)收集以下級(jí)別的日志:a)提供一般級(jí)別錯(cuò)誤的日志(ERROR):1)非預(yù)期的數(shù)據(jù)或事件;2)影響面較大但是內(nèi)部模塊可處理的錯(cuò)誤;3)限制在模塊內(nèi)的錯(cuò)誤;4)對(duì)其他模塊有影響但較輕微的錯(cuò)誤,如統(tǒng)計(jì)任務(wù)創(chuàng)建失??;5)引起調(diào)用失敗的錯(cuò)誤。b)提供警告級(jí)別的日志(WARNING),如設(shè)備狀態(tài)與預(yù)期不一致,但不影響系統(tǒng)的運(yùn)行。c)提供正常級(jí)別的日志(INFO),設(shè)備正常運(yùn)行的信息;d)提供調(diào)式級(jí)別日志(DEBUG),記錄調(diào)式信息,協(xié)助開(kāi)發(fā)維護(hù)人員定位問(wèn)題;e)提供關(guān)鍵事件的日志(EVENT),如:1)整網(wǎng)運(yùn)算啟動(dòng)、完成和異常終止;2)內(nèi)存耗盡;3)設(shè)備溫度超出正常閾值。8.4.2日志記錄信息日志的記錄,應(yīng)包含以下信息:a)日志的級(jí)別;b)產(chǎn)生日志的模塊名稱(chēng);c)進(jìn)程標(biāo)識(shí)符;d)進(jìn)程名稱(chēng);e)日志打印的時(shí)間;GB/TXXXXX.1—XXXXf)各模塊日志內(nèi)容。8.4.3日志處理日志的處理,應(yīng)符合以下要求:a)支持加速設(shè)備的管理,如新增、刪除、修改等;b)對(duì)用戶(hù),提供日志的查詢(xún),按關(guān)鍵字搜索日志內(nèi)容;c)提供清除顯示的功能;d)提供和日志下載和保存的功能。9測(cè)試方法9.1虛擬化測(cè)試9.1.1性能隔離測(cè)試9.1.1.1概述性能隔離測(cè)試應(yīng)計(jì)量性能偏差,即實(shí)際性能與理論性能之差的絕對(duì)值,性能指標(biāo)為吞吐率。示例:?jiǎn)斡脩?hù)或任務(wù)獨(dú)占單AI加速卡時(shí),訓(xùn)練或推理的性能是p。當(dāng)給計(jì)算實(shí)例分配25%的計(jì)算資源時(shí),其性能理論上應(yīng)該為P/4。虛擬化方案應(yīng)盡可能使計(jì)算實(shí)例的實(shí)際計(jì)算能力接近理論值。偏差(小于理論值的幅度)越大,性能注:?jiǎn)蜛I加速卡通過(guò)虛擬化切分為多計(jì)算實(shí)例時(shí),各實(shí)例應(yīng)能分配給多9.1.1.2測(cè)試方法性能隔離測(cè)試應(yīng)按以下規(guī)則實(shí)施:a)選取特定AI任務(wù),實(shí)施測(cè)試;b)測(cè)得基準(zhǔn)性能作為理論值(見(jiàn)9.1.1.3ac)對(duì)特定AI任務(wù),分配單AI加速卡一定比例(見(jiàn)9.1.1.3b)~9.1.1.3e))的計(jì)算資源;注:比例數(shù)值在具體測(cè)試時(shí)確定,但對(duì)同一測(cè)試批次中不同AI加速卡的虛d)設(shè)定單AI加速器上所執(zhí)行的最大任務(wù)數(shù)量n(n為正整數(shù)),對(duì)該任務(wù)使用已分配的計(jì)算資源,為剩余(n-1)個(gè)任務(wù)分配剩余的計(jì)算資源;e)按9.1.1.1計(jì)算性能偏差;f)性能隔離測(cè)試,按下列因素排列組合,確定模式:1)訓(xùn)練或推理;2)單一模型或多模型負(fù)載;3)是否滿(mǎn)載。9.1.1.3測(cè)試負(fù)載性能隔離測(cè)試負(fù)載包含:a)基準(zhǔn)性能:?jiǎn)文P拓?fù)載獨(dú)占單AI加速卡(無(wú)虛擬化),測(cè)得基準(zhǔn)性能,負(fù)載見(jiàn)表5;表5基準(zhǔn)負(fù)載測(cè)試GB/TXXXXX.1—XXXX1234b)單模型滿(mǎn)載:將單AI加速卡按比例虛擬化獲得多個(gè)計(jì)算實(shí)例,每個(gè)計(jì)算實(shí)例運(yùn)行相同的AI任務(wù),負(fù)載見(jiàn)表6;表6單模型滿(mǎn)載訓(xùn)練1MobileNet22MobileNet4324452647284c)多模型滿(mǎn)載:將單AI加速卡按比例虛擬化獲得多個(gè)計(jì)算實(shí)例,每個(gè)計(jì)算實(shí)例運(yùn)行不同的模型,負(fù)載見(jiàn)表7;表7多模型滿(mǎn)載訓(xùn)練12MobileNet/25%3d)多模型非滿(mǎn)載:將單AI加速卡按比例虛擬化獲得多個(gè)計(jì)算實(shí)例,但留有空余,每個(gè)計(jì)算實(shí)例運(yùn)行不同的模型,負(fù)載見(jiàn)表7;e)單模型非滿(mǎn)載測(cè)試:將單AI加速卡按比例虛擬化獲得多個(gè)計(jì)算實(shí)例,但留有空余,每個(gè)計(jì)算實(shí)例運(yùn)行相同的模型,負(fù)載見(jiàn)表8。表8單模型非滿(mǎn)載訓(xùn)練1223324352GB/TXXXXX.1—XXXX6472849.1.2任務(wù)動(dòng)態(tài)擴(kuò)展測(cè)試9.1.2.1概述實(shí)際應(yīng)用場(chǎng)景中任務(wù)可能動(dòng)態(tài)添加(任務(wù)到達(dá))或刪除(任務(wù)執(zhí)行完畢或取消應(yīng)測(cè)試任務(wù)數(shù)量的動(dòng)態(tài)變化對(duì)性能的影響。隨任務(wù)數(shù)增大,整體性能波動(dòng)(見(jiàn)9.1.4.4)宜盡可能小。9.1.2.2測(cè)試方法任務(wù)動(dòng)態(tài)擴(kuò)展測(cè)試應(yīng)按以下規(guī)則實(shí)施:a)對(duì)相同的訓(xùn)練或推理任務(wù),實(shí)施擴(kuò)展測(cè)試,每個(gè)任務(wù)應(yīng)完全一致,包括模型、數(shù)據(jù)集、訓(xùn)練方法或推理模式(如離線(xiàn)模型壓縮、部署方式)等;b)任務(wù)數(shù)取值為1,2,4,8,16;c)記錄不同任務(wù)量下的吞吐量。9.1.2.3測(cè)試負(fù)載任務(wù)動(dòng)態(tài)擴(kuò)展測(cè)試的負(fù)載見(jiàn)表9。表9基準(zhǔn)負(fù)載測(cè)試1MobileNet2349.1.3性能損耗測(cè)試9.1.3.1概述對(duì)單AI加速卡,性能損耗是非虛擬化使用時(shí)的滿(mǎn)載性能與虛擬化后滿(mǎn)載性能的差值。9.1.3.2測(cè)試方法性能損耗測(cè)試應(yīng)按以下規(guī)則實(shí)施:a)被測(cè)AI加速卡的計(jì)算實(shí)例數(shù)應(yīng)不小于3;b)性能損耗測(cè)試,按下列因素排列組合,確定模式:1)多計(jì)算實(shí)例相同負(fù)載;2)多計(jì)算實(shí)例不同負(fù)載。9.1.3.3測(cè)試負(fù)載性能損耗測(cè)試的負(fù)載見(jiàn)9.1.13)a)~9.1.1.3c)。9.1.4測(cè)試指標(biāo)GB/TXXXXX.1—XXXX9.1.4.1吞吐率吞吐率定義及計(jì)算方法見(jiàn)GB/TAAAAA-AAAA中6.3.3(訓(xùn)練)和7.3.3(推理)。9.1.4.2性能偏差性能偏差指虛擬化后所得AI計(jì)算資源的理論性能與實(shí)際性能之差的絕對(duì)值,按公式(1)計(jì)算:注:如有超過(guò)1個(gè)指標(biāo)同時(shí)作用,應(yīng)設(shè)定在其他指標(biāo)相同式中:Δpii——單AI加速卡虛擬化后的性能偏差;n——計(jì)算實(shí)例的個(gè)數(shù);P——理論性能(基準(zhǔn)性能);ai——每個(gè)計(jì)算實(shí)例分配的資源占整卡的比例,取值可為:12.5%,25%,50%,75%;pii——每個(gè)計(jì)算實(shí)例的實(shí)際性能。9.1.4.3性能損耗性能損耗指非虛擬化使用時(shí)的滿(mǎn)載性能與虛擬化后滿(mǎn)載性能的差值,按公式(2)計(jì)算:式中:clthh——性能損耗;Tv——AI任務(wù)在計(jì)算實(shí)例上的執(zhí)行時(shí)長(zhǎng);Tp——相同AI任務(wù)在未虛擬化的物理機(jī)上的執(zhí)行時(shí)長(zhǎng);ctrep——是物理機(jī)的計(jì)算單元數(shù);ctrev——虛擬化后計(jì)算實(shí)例的計(jì)算單元數(shù)。9.1.4.4性能波動(dòng)性能波動(dòng)指單物理加速卡上虛擬化得到多個(gè)規(guī)格相同的計(jì)算實(shí)例,同時(shí)運(yùn)行相同的AI任務(wù)時(shí),所有計(jì)算實(shí)例中最大的執(zhí)行時(shí)長(zhǎng)均值與最小時(shí)長(zhǎng)均值的比,按公式(3)計(jì)算:(3)式中:n——第n個(gè)計(jì)算實(shí)例;N——計(jì)算實(shí)例總數(shù);T——運(yùn)行特定計(jì)算任務(wù)的時(shí)間長(zhǎng)度,按GB/TAAAAA-AAAA中6.3.1(訓(xùn)練)和7.3.1(推理)9.2調(diào)度測(cè)試9.2.1概述調(diào)度測(cè)試范圍包含:a)集群利用率:所有AI加速卡(含已經(jīng)故障下線(xiàn)的AI加速卡)的使用情況。越接近1.0越好;b)資源調(diào)度成功率:特定周期內(nèi)調(diào)度成功次數(shù)與資源請(qǐng)求總次數(shù)的比例;注:前提要求實(shí)際物理資源與請(qǐng)求的資源是匹配的,請(qǐng)求的資源量沒(méi)有GB/TXXXXX.1—XXXXc)任務(wù)資源利用率:實(shí)際分配給單AI任務(wù)使用的計(jì)算資源的使用情況。9.2.2測(cè)試方法調(diào)度測(cè)試按以下規(guī)則實(shí)施:a)集群調(diào)度的測(cè)試應(yīng)規(guī)定具體的測(cè)試時(shí)間段,如7自然天,15自然天或30自然天等;b)對(duì)比測(cè)試時(shí),測(cè)試負(fù)載模型、數(shù)據(jù)集、優(yōu)化方法等應(yīng)保持一致;c)任務(wù)負(fù)載按下列因素排列組合,確定模式:1)數(shù)據(jù)量;2)計(jì)算量,按負(fù)載模型體量劃分;3)場(chǎng)景,按模型功能覆蓋劃分(如resnet系列、MobileNet系列等);4)任務(wù)(訓(xùn)練或推理)到達(dá)的模式,包括:離線(xiàn)、時(shí)分均勻、泊松到達(dá)等。d)集群利用率的檢測(cè)周期為1個(gè)月,如對(duì)特定單AI加速卡,在周期內(nèi)以固定頻率(如1s)檢測(cè),記錄每次的利用率。9.2.3測(cè)試負(fù)載調(diào)度測(cè)試使用以下負(fù)載:a)單一負(fù)載,包含:1)視覺(jué)負(fù)載,包括圖片、視頻任務(wù);2)自然語(yǔ)言處理負(fù)載;3)普通機(jī)器學(xué)習(xí)負(fù)載(可選)。b)混合負(fù)載,即3種單負(fù)載,按特定比例組合,實(shí)施測(cè)試。9.2.4測(cè)試指標(biāo)9.2.4.1集群利用率集群利用率按公式(4)計(jì)算:Σkqk(4)式中:Q——集群利用率;k——集群中AI加速卡的數(shù)量;qk——單AI加速卡的利用率。9.2.4.2單AI加速卡的利用率單AI加速卡的利用率按公式(5)計(jì)算:(5)式中:qk——統(tǒng)計(jì)周期內(nèi),特定AI加速卡的利用率;Nb——該AI加速卡被占用的次數(shù);qu——是抽樣時(shí)的瞬時(shí)利用率(在無(wú)法檢測(cè)瞬時(shí)利用率的系統(tǒng)中,占用時(shí)利用率為1.0)。9.2.4.3任務(wù)資源利用率GB/TXXXXX.1—XXXX任務(wù)資源利用率按公式(6)計(jì)算。其中,k為分配給特定任務(wù)的AI加速卡的數(shù)量。對(duì)動(dòng)態(tài)任務(wù)(任務(wù)執(zhí)行中釋放資源或申請(qǐng)新的資源),則分段計(jì)量,以時(shí)長(zhǎng)求加權(quán)平均。j式中:qk——某個(gè)時(shí)間段內(nèi)(期間,該分配給該任務(wù)的資源數(shù)恒定),單AI加速卡的利用率,計(jì)算方法見(jiàn)9.2.4.2;T——該任務(wù)的執(zhí)行總時(shí)長(zhǎng);j——執(zhí)行該任務(wù)的第j個(gè)時(shí)間段(期間,分配給該任務(wù)的資源數(shù)恒定);k——在第j個(gè)時(shí)間段內(nèi),分配給該任務(wù)的AI加速卡的數(shù)量;j——第j個(gè)時(shí)間段的長(zhǎng)度。GB/TXXXXX.1—XXXX典型處理器的虛擬化參考架構(gòu)A.1NPU虛擬化參考架構(gòu)NPU的虛擬化包含但不限于以下方案:a)方案一,軟件模擬vNPU虛擬化:通過(guò)VFIO-mdev框架創(chuàng)建出虛擬NPU設(shè)備,并經(jīng)過(guò)Qemu設(shè)備模擬層將vNPU設(shè)備模擬成標(biāo)準(zhǔn)的PCIE設(shè)備給GuestOS的設(shè)備驅(qū)動(dòng)或虛擬機(jī)使用,使用方式與NPU設(shè)備直通虛擬化一致。PCIE設(shè)備的配置空間如下,設(shè)備模擬整體方案見(jiàn)圖A.1:圖A.1QEMU-NPU設(shè)備模擬方案1)PCIE配置模擬:根據(jù)PCIE協(xié)議模擬PCIE設(shè)備的VendorID、DeviceID等,呈現(xiàn)出一個(gè)跟物理設(shè)備相同功能的虛擬設(shè)備給GuestOS驅(qū)動(dòng)。2)BAR空間:Host驅(qū)動(dòng)和Guest驅(qū)動(dòng)共享數(shù)據(jù)的通道,用以收發(fā)消息等。3)中斷通知機(jī)制:Guest發(fā)送消息通知Host,Host通過(guò)中斷通知Guest。4)DMA內(nèi)存訪(fǎng)問(wèn)機(jī)制:數(shù)據(jù)拷貝流程將GPA地址轉(zhuǎn)換成發(fā)起DMA訪(fǎng)問(wèn)使用的IOVA地址。b)方案二,軟硬協(xié)同SR-IOV虛擬化:SR-IOV是一種IO虛擬化的技術(shù)標(biāo)準(zhǔn),它是由PCI-SIG組織制定,它是一種基于硬件輔助的虛擬化技術(shù),SR-IOV允許在虛擬機(jī)之間高效共享PCIE設(shè)備,由于它是基于硬件實(shí)現(xiàn),因此可以獲得與真實(shí)硬件性能接近的I/O性能。SR-IOV架構(gòu)設(shè)備允許一個(gè)物理設(shè)備支持多個(gè)虛擬功能
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 沈陽(yáng)市房產(chǎn)證辦理攻略合同
- 建筑供暖承攬合同范本
- 消防工程監(jiān)理廉潔自律保證
- 證券投資部衛(wèi)生室醫(yī)生招聘
- 基建項(xiàng)目招投標(biāo)監(jiān)督與審查流程
- 優(yōu)化拆除施工合同
- 員工績(jī)效評(píng)估典范
- 債權(quán)轉(zhuǎn)讓及債權(quán)轉(zhuǎn)讓通知書(shū)
- 互聯(lián)網(wǎng)企業(yè)技能工資體系
- 飲用水行業(yè)應(yīng)急預(yù)案編制指南
- 藝術(shù)療法策劃方案
- 橡膠制品行業(yè)的社會(huì)責(zé)任與可持續(xù)發(fā)展
- 超級(jí)實(shí)用的腳手架含量計(jì)算表腳手架計(jì)算表
- 設(shè)立法律咨詢(xún)服務(wù)公司可行性研究報(bào)告
- 10kV電力電纜試驗(yàn)報(bào)告
- 生產(chǎn)批次號(hào)管理規(guī)定
- -期末復(fù)習(xí)試題(五)(試題)北師大版四年級(jí)上冊(cè)數(shù)學(xué)
- 《經(jīng)緯網(wǎng)的應(yīng)用》課件
- 山東省淄博市張店區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期中化學(xué)試題(解析版)
- 啦啦操智慧樹(shù)知到課后章節(jié)答案2023年下西安體育學(xué)院
- 一般生產(chǎn)經(jīng)營(yíng)單位安全培訓(xùn)考試題及完整答案(全國(guó)通用)
評(píng)論
0/150
提交評(píng)論