人工智能 加速卡技術要求及測試方法_第1頁
人工智能 加速卡技術要求及測試方法_第2頁
人工智能 加速卡技術要求及測試方法_第3頁
人工智能 加速卡技術要求及測試方法_第4頁
人工智能 加速卡技術要求及測試方法_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

團體標準Artificialintelligence—Technicalrequirementsandtestingmethodsfor中國互聯(lián)網(wǎng)協(xié)會發(fā)布I 1 1 1 3 3 4 4 4 8 A.1操作系統(tǒng) A.2深度學習框架 A.3參考測試用例 A.3.1訓練場景 A.3.2推理場景 本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定張久仙、張亞麗、楊鵬霖、肖國峰、萬曉蘭、賀群、馮濤、張順四、蔣曉琳、申佳、尹1人工智能加速卡技術要求及測試方法GB/T9813.3-2017計算機通用規(guī)范第3部GB/T17235.1-1998信息技術GB/T34986-2017產(chǎn)品GB/T37092-2018信息安全技術密GB/T41867-2022信息技術人工智能GB/T42018-2022信息技術人工智能平臺計算GM/T0008-2012安全芯片密碼GM/T0028-2014密碼模塊安全YD/T3944-2021人工智能芯片基準測試評估方法ISO/IEC15948:2004信息技術計算機圖形和圖像處理便攜式網(wǎng)絡圖形:功能規(guī)范[Informationtechnology–ComputergraphicsandimageprocessiITU-TH.264—2021通用視聽服務高級視頻編碼(AdvancedvideocodingforgenericaudiovisualITU-TH.265—2021高效視頻編碼(Highefficiency2信息系統(tǒng)中能夠為人工智能應用提供高效能計算處理能力的服注1:以通用服務器為基礎,配備人工智能加速卡后34縮略語ARM:高級精簡指令集處理器(AdvancedReducedInstrBF16:腦浮點數(shù)(BrainFloatingPoint)ECC:錯誤糾正碼(ErrorCorrectingCoFP16:半精度浮點數(shù)(Half-precisionFloatingPoint)FP32:單精度浮點數(shù)(Single-precisionFPS:幀每秒(FramesPerSecond)HBM:高帶寬內(nèi)存(HighBandwidthMemorLPDDR:低功率雙數(shù)據(jù)率(LowPowerDoubleDataRaMTBF:平均無故障工作時間(MeanTimeBetweenFaiOAM:開放計算項目加速器模塊(OpenComputeProjectAcPCIe:外設部件互聯(lián)高速通道(PeripheralComponentInterconnectExpress)RDMA:遠程直接內(nèi)存訪問(RemoteDirectMemoryAccess)RoCE:以太網(wǎng)上的遠程直接內(nèi)存訪問(RDMAoverConveTF32:張量單精度浮點數(shù)(TensorFloaTFLOPS:每秒一萬億次浮點運算(TeraFloating-pointOperatTOPS:每秒一萬億次運算(TeraOperationsPerSecTRNG:真隨機數(shù)發(fā)生器(TrueRandomNumberGener5概述處理的集成電路元件,可作為服務器的一部分,與其他組件(如CPU、存儲設備等)協(xié)同工作,提供更矩陣計算,使其相比于CPU具有更加出色的計算能力和效率,/推理性能度量指標,以及安全性要求。測試環(huán)境部分針對技術要求中的各項內(nèi)容給出測試所需明確的4b)應支持資產(chǎn)管理功能,可通過服務器遠程管理系統(tǒng)讀取加速卡的序列號信息,且該信息應與配置了加速卡的設備操作系統(tǒng)讀取的信息保c)應支持固件版本管理功能,可通過服務器遠程管理系統(tǒng)讀取加速卡的固件版本信息,且該信d)應支持功耗監(jiān)控功能,可通過服務器遠程管理系統(tǒng)讀取加速卡的當前功耗信息,且該信息與e)應支持溫度監(jiān)控功能,可通過服務器遠程管理系統(tǒng)讀取加速卡的當前溫度信息,且該信息與m)應具備針對錯誤或異常的處理及上報機制;d)應支持自定義算子開發(fā)功能,如矩陣乘法、卷積等;f)應支持服務器內(nèi)部訓練卡的卡間高);h)應支持集合通訊庫及典型的集合通信算法(如a5k)宜直接具備或與解碼器配合實現(xiàn)圖像和視頻的解碼能力(支持ITU-TH.264-2021、ITU-T等規(guī)定的圖像格式中的一種或多種)。d)面向大模型等訓練場景,節(jié)點內(nèi)卡間互聯(lián)b)應支持至少一種分布式訓練框架;a)應支持模型斷點續(xù)訓功能,能夠自動斷點保存、故障診斷與上報、自動恢復訓練模型在特定數(shù)據(jù)集上訓練一輪或多輪所用的時間來衡量從訓練開始命令調(diào)用到訓練6訓練吞吐率體現(xiàn)了訓練卡對選定的模型訓練任務的計算能力。對視覺類測試,單位為圖片數(shù)每秒期處理的數(shù)據(jù)量與時間的比a)統(tǒng)計每個訓期i所使用的時間Ti,計算每訓期平均時間T;numberof(*)表示計量特定數(shù)據(jù)集合所含的樣本數(shù)量;numberoftokens(*)表示計量特定數(shù)據(jù)集合所含的語素數(shù)7訓練卡單位時間內(nèi)消耗單位訓練卡所支持的全部數(shù)據(jù)精n:支持的數(shù)據(jù)精度種類數(shù)量;Ti:在第i種數(shù)據(jù)精度下進行模型訓練的張量峰值算力,單位為使用單臺服務器節(jié)點的多張卡并行訓練時每秒處理的樣每秒處理的樣本數(shù)量之間的8使用包含多臺服務器節(jié)點及多張訓練卡的集群開展并行與使用單張卡訓練時每秒處用此比值除以集群中卡的數(shù)次去掉最低和最高的數(shù)字后取平均值。檢查點保將模型狀態(tài)從訓練卡保存到存a)模型狀態(tài)保存開始前,串行并緊鄰調(diào)用計b)模型狀態(tài)保存完成后,串行并緊鄰調(diào)用計時命令,從存儲設備中將模型狀態(tài)加載a)模型狀態(tài)加載開始前,串行并緊鄰調(diào)用計b)模型狀態(tài)加載完成后,串行并緊鄰調(diào)用計時命令,b)宜支持FP8、BF16、FP32、T);g)應支持集合通訊庫及典型的集合通h)應支持通過模型推理服務部署工具實現(xiàn)模型的在線服務部署和運行;j)宜直接具備或與解碼器配合實現(xiàn)圖像和視頻解碼能力(支持ITU-TH.264-2021、ITU-T等規(guī)定的圖像格式中的一種或多種)。9間間隔。對于自然語言語句生成類任務,使用首字時延和模型穩(wěn)定輸出時單token的生成時間來衡量推計算被測設備對某樣本推理的開始時間與結束時間的時b)推理退出時,串行并緊鄰調(diào)用計時命令自然語言語句生成類任務的本推理的開始時間與模型輸b)輸出首個token時,串行并緊鄰調(diào)用計時命令,獲自然語言語句生成類任務的單token生成時間,為被測設備穩(wěn)定生成每個token所用的b)當模型生成下一個新的token后,串行推理吞吐率代表了推理卡對特定推理任務的計算能力。對視覺類測試,單位為圖片數(shù)每秒(images/s);對自然語言處理類測試,單位為句數(shù)每秒(sentences/s);對自然語言語句生成的模a)計算整個推理測試過程的時間T;numberof(*):整個推理測試過程中,由所有實際發(fā)送的樣本以及實numberoftokens(*):統(tǒng)計整個推理測試過程中,由所有實際發(fā)送的推理卡單位時間內(nèi)消耗單位sizeof(*):在整個推理測試過程中,累計返回結果的任務數(shù)據(jù)量,c)可基于硬件的密碼運算功能支持模型和數(shù)據(jù)加解所示?;趫D1所示的組網(wǎng)環(huán)境,可分別開展單機單卡環(huán)境被測設備應安裝操作系統(tǒng)的開源或商業(yè)版本,常用的操作系統(tǒng)可參考附錄A的表A.1本節(jié)給出測試人工智能訓練加速卡和推理加速卡技術指標時宜加載的測試場景和任務,如表12所1234123c)被測設備預裝業(yè)務操作系統(tǒng)并且各d)被測設備預裝容器化服務必要的組件,如容器化引擎、編排管理器c)驗證相關信息是否可正常讀取,并核對與加速卡實際配置及規(guī)格信息是否一致。b)進入管理界面或帶外命令,查看并讀取加速卡的序列號信息;b)進入管理界面或帶外命令,查看并讀取加速卡的固件版本信息;c)登錄到被測設備業(yè)務操作系統(tǒng)中,查看相應加速卡的固件版本;b)進入管理界面或帶外命令,查看并讀取加速卡的功d)對比b)和c)中查詢出來的加速卡功耗值差距是否在5%以內(nèi)。b)進入管理界面或帶外命令,查看并讀取加速卡當前d)對比b)和c)中查詢出來的加速卡溫度值差距是否在5%以內(nèi)。b)執(zhí)行操作系統(tǒng)檢測腳本,檢查業(yè)務操作系統(tǒng)中的版本和型號信息;c)在此業(yè)務操作系統(tǒng)環(huán)境中,完成與加速卡所有技術要求對應的c)在此業(yè)務操作系統(tǒng)環(huán)境中,完成與加速卡所有技術要求對應的e)對c)和d)中獲取的所有帶寬值求平均值,得出CPU與加速卡之間的通b)編譯并安裝加速卡性能分析工具以及依賴的軟件工b)編譯并安裝加速卡虛擬化依賴的軟件工具;進入容器服務查看加速卡虛擬化的比例值,并記錄輸e)執(zhí)行相關命令進入加速卡虛擬化容器中并執(zhí)行加速卡基本計算測試腳本f)驗證是否輸出正確結果,以及計算過程是否對加速c)執(zhí)行相關命令,通過步驟b)中的軟件工具,對加速卡施加負載進行壓測,通過監(jiān)控工具查看d)驗證加速卡的電流值及功率值是否超出額定范圍,以及測試過程中是否c)執(zhí)行相關命令,通過步驟b)中的軟件工具,對加速卡分別施加空置、普通卡監(jiān)控工具查看加速卡的功率值、工作頻率、使用率等信息,記錄d)驗證加速卡的功耗是否隨負載動態(tài)變化,以及測d)依據(jù)異常上報機制的相關設計,通過軟件或人為模擬f)執(zhí)行相關命令對b)中選擇的模型進行訓練或測g)根據(jù)接口文檔的相關錯誤碼內(nèi)容驗證加速卡是否可捕獲并上報硬b)編譯并安裝加速卡云原生接入依賴的c)編譯并安裝使能加速卡云原生接入的設備插件等軟件工具;8.3.1.1訓練卡支持的數(shù)據(jù)精度類型e)獲取訓練卡在選定數(shù)據(jù)精度類型下的峰值算力;c)導入相關測試腳本并部署,加載訓練數(shù)據(jù)集e)使用驗證數(shù)據(jù)集驗證訓練得到的模型準確率,要求達到8.3.1.3訓練卡自定義算子開發(fā)功能b)編譯并安裝訓練卡編譯器功能依賴的軟件工具;c)執(zhí)行相關命令,通過b)中的軟件棧編譯器工具,根據(jù)訓練卡支持的編譯階段、編譯輸入、編c)導入相關測試腳本并部署;c)執(zhí)行相關命令,通過b)中的測試工具),8.3.1.6訓練卡節(jié)點間高性能通信能力b)通過測試機登錄被測設備業(yè)務操作系統(tǒng)中;d)導入相關測試腳本并部署(相關操作需涵蓋典型f)驗證訓練卡是否支持集合通訊庫正常運行,集合通訊操作結果與預期結果all、gather、reduce、reducescatter、scae)導入相關測試腳本并部署,加載訓練數(shù)據(jù)g)使用驗證數(shù)據(jù)集驗證訓練得到的模型準確率,要求達到訓練并開啟加速庫訓練的相關代碼或參數(shù)(非單c)導入相關測試腳本并部署,加載訓練數(shù)據(jù)集e)使用驗證數(shù)據(jù)集驗證訓練得到的模型準確率,要求達到b)編譯并安裝訓練卡視頻解碼依賴的軟件工b)編譯并安裝訓練卡圖像解碼依賴的軟件工c)執(zhí)行相關命令,讀取加速卡的顯存類型、顯存容量和顯存帶寬。b)選取至少一種主流的深度學習框架并安裝;d)導入相關測試腳本并部署,加載訓練數(shù)據(jù)集f)使用驗證數(shù)據(jù)集驗證訓練得到的模型準確率,要求達到訓練8.3.3.2訓練卡分布式訓練框架適配d)導入相關測試腳本并部署,加載訓練數(shù)據(jù)集f)使用驗證數(shù)據(jù)集驗證訓練得到的模型準確率,要求達到訓練d)導入相關測試腳本并部署,加載訓練數(shù)據(jù)集f)執(zhí)行相關命令對b)中選擇的模型進行訓練,g)使用驗證數(shù)據(jù)集驗證訓練得到的模型準確率,要求達到訓練i)驗證系統(tǒng)是否能夠執(zhí)行自動斷點保存、進行故障診斷并a)通過測試機登錄被測設備業(yè)務操作系統(tǒng)中;b)安裝加速卡加壓測試工具;8.3.4.4訓練卡平均失效間隔工作時間參照GB/T34986-2017及GB/T9813.3-2本節(jié)通過在滿足7.3.3節(jié)要求的深度學習框架下,使用選定的深度學習算法模型在相應的數(shù)據(jù)集上c)導入相關測試腳本并部署,設置檢查點保存和加載操作,加載訓練數(shù)據(jù)集和e)根據(jù)模型訓練的需要和測試目的,啟用單機單卡、單機多卡,或者多機多卡h)驗證訓練過程中,所有加速卡是否均在位且運行正常,無告警;依據(jù)6.2.5節(jié)中給出的性能度量指標及其計算方法,在8.3.5.2節(jié)的測試過程中獲取并記錄相關數(shù)練線性度、檢查點保存和加載時間等,通過相關指標對訓練卡的模型訓練性能進行度量。8.4.1.1推理卡支持的數(shù)據(jù)精度類型8.4.1.2推理卡自定義算子開發(fā)功能b)編譯并安裝推理卡編譯器功能依賴的軟件工具;c)執(zhí)行相關命令,通過b)中的軟件棧編譯器工具,根據(jù)推理卡支持的編譯階段、編譯輸入、編c)執(zhí)行相關命令,通過b)中的測試工具),8.4.1.5推理卡節(jié)點間高性能通信能力推理卡支持節(jié)點間高性能通信能力的測試方b)通過測試機登錄被測設備業(yè)務操作系統(tǒng)中;b)編譯并安裝集合通訊庫運行所依賴的軟件工具;d)導入相關測試腳本并部署(相關操作需涵蓋典型f)驗證推理卡是否支持集合通訊庫正常運行,集合通訊操作結果與預期結果all、gather、reduce、reducescatter、scab)編譯并安裝推理卡依賴的推理軟件棧runtime等d)通過b)中的軟件工具調(diào)用算法模型,通過運行模型推理服務部署工具實現(xiàn)模型的在線服務部f)通過相關測試腳本在客戶端實現(xiàn)模型的c)選取一種支持并行推理策略的深度學習框架或深度學習推f)執(zhí)行相關命令對d)中選擇的模型執(zhí)行數(shù)據(jù)b)編譯并安裝推理卡視頻解碼依賴的軟件工b)編譯并安裝推理卡圖像解碼依賴的軟件工c)執(zhí)行相關命令,讀取加速卡的顯存類型、顯存容量和顯存帶寬。推理卡的圖像解碼性能采用8.4.1.10的測試方法進行b)選取至少一種主流的深度學習框架并安裝;e)執(zhí)行相關命令用c)中選擇的模型執(zhí)行數(shù)據(jù)推理,直到完成數(shù)據(jù)集所有數(shù)據(jù)的推理;8.4.3.2推理卡深度學習推理引擎適配b)安裝推理卡支持的深度學習推理引擎;d)將模型文件處理、轉換為可通過深度學習推理引擎運行的f)執(zhí)行相關命令用c)中選擇的模型執(zhí)行數(shù)據(jù)推理,直到完成數(shù)據(jù)集所有數(shù)據(jù)的推理;8.4.3.4推理卡跨廠商模型推理兼容性d)通過模型訓練生成模型文件,并將模型文件處理、轉換為被測設備支持的模型f)執(zhí)行相關命令采用d)中轉換后的模型文件執(zhí)b)選取一種主流的深度學習框架或深度學習推理引擎并安裝;b)安裝加速卡加壓測試工具;8.4.4.4推理卡平均失效間隔工作時間參照GB/T34986-2017及GB/T9813.3-2對相關測試過程及結果進行統(tǒng)計和度量,來測試人b)安裝被測設備支持的推理引擎或可運行a)中模型推f)根據(jù)模型推理的需要和測試目的,啟用單機單卡、單機多卡,或者多機多卡的組網(wǎng)模式;g)推理過程不限制數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論