2023電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范_第1頁(yè)
2023電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范_第2頁(yè)
2023電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范_第3頁(yè)
2023電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范_第4頁(yè)
2023電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范II目 次目 次 I前 言 II范圍 3規(guī)范引用件 3術(shù)語(yǔ)定義 3符號(hào)代號(hào)縮略語(yǔ) 4電力工智算法構(gòu)硬件速框架 55力人智能訓(xùn)異構(gòu)加(非須) 5力人智能推異構(gòu)加速 7電力工智異構(gòu)件加速技術(shù)求 8力人智能訓(xùn)異構(gòu)硬加速技術(shù)(非必) 8力人智能推異構(gòu)硬加速要求 9電力工智異構(gòu)速性能估指及測(cè)法 10電人工能模練異構(gòu)速性評(píng)估和測(cè)試法 10電人工能模理異構(gòu)速性評(píng)估和測(cè)試法 12參 考 文 獻(xiàn) 1433電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范范圍規(guī)范規(guī)定了電力領(lǐng)域中人工智能算法模型訓(xùn)練、推理異構(gòu)硬件加速的技術(shù)要求和評(píng)價(jià)方法,為電力領(lǐng)域中線(xiàn)路巡檢、監(jiān)控等算法模型加速提供了技術(shù)參考和評(píng)價(jià)依據(jù)。適用于支持訓(xùn)練和推理的人工智能框架硬件加速技術(shù)的評(píng)估。下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T1.1-2020 1GBT41867-2022 GB/T5271.1-2000 1GB/T5271.28-2001 28GB/T5271.34-2006 信息術(shù)詞匯第34:人智能 經(jīng)T/CES128-2022 YD/T3944-2021 術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。人工智能ArtificialIntelligence一門(mén)交叉學(xué)科,通常視為計(jì)算機(jī)科學(xué)的分支,研究表現(xiàn)出與人類(lèi)智能(如推理和學(xué)習(xí))相關(guān)的各種功能的模型和系統(tǒng)。[來(lái)源GB/T5271.28-2001,定義28.01.01]3.2異構(gòu)計(jì)算HeterogeneousComputing 3.3分布式計(jì)算Distributedcomputing是一種需要進(jìn)行大量計(jì)算的工程數(shù)據(jù)分割成小塊,由多臺(tái)計(jì)算機(jī)機(jī)器分別計(jì)算,在上傳計(jì)算結(jié)果3.4深度學(xué)習(xí)deeplearning通過(guò)訓(xùn)練具有許多隱藏層的神經(jīng)網(wǎng)絡(luò)來(lái)創(chuàng)建豐富層次表示的方法。[來(lái)源:GBT41867-2022,3.4.27]訓(xùn)練training教會(huì)神經(jīng)網(wǎng)絡(luò)在輸入值的樣本和正確輸出值之間做出結(jié)合的步驟。[來(lái)源:GB/T5271.34-2006,34.03.18]推理inference44從已知前提導(dǎo)出結(jié)論的推理方法。注1:在人工智能領(lǐng)域,前提是事實(shí)或者規(guī)則。注2:術(shù)語(yǔ)“推理”既指過(guò)程也指結(jié)果。[來(lái)源:GB/T5271.28-2001,28.03.01]計(jì)算量 FLOPs 參數(shù)量Params模型參數(shù)所占用的字節(jié)數(shù),衡量模型的空間復(fù)雜度。AI加速器artificialintelligenceaccelerator一類(lèi)專(zhuān)用于人工智能硬件加速的微處理器或計(jì)算系統(tǒng),通常由專(zhuān)用AI芯片制成,在通用或特定GPUGPU、FPGA、ASIC3.10批量batch訓(xùn)練樣本的一部分。注1:對(duì)特定計(jì)算設(shè)備,當(dāng)訓(xùn)練樣本數(shù)量過(guò)大時(shí),可將樣本分成若干批,分批訓(xùn)練。注2:批中含有的樣本量是訓(xùn)練超參之一。[來(lái)源:GB/T41867-2022,3.04.21]3.11批次epoch在深度學(xué)習(xí)模型訓(xùn)練場(chǎng)景中,完整訓(xùn)練數(shù)據(jù)集的一次訓(xùn)練循環(huán),一個(gè)Epoch中,模型會(huì)對(duì)整個(gè)數(shù)據(jù)集進(jìn)行一次前向傳播和反向傳播,更新所有的參數(shù)。3.12迭代iteration(inneuralnetworks)針對(duì)一批樣本,重復(fù)地執(zhí)行系列步驟直至完成訓(xùn)練的過(guò)程。注1:一個(gè)(訓(xùn))期中的迭代數(shù)量等于該期中,訓(xùn)練樣本的批數(shù)。[來(lái)源:GB/T41867-2022,3.04.04]下列號(hào)代和略適用本件AI: 人工能(ArtificialIntelligence)GPU: 圖處器(GraphicsProcessingUnit)FPGA:場(chǎng)程門(mén)列(Field-ProgrammableGateArray)CPU: 中處器(CentralProcessingUnit)NPU: 神網(wǎng)處器(Neural-networkProcessingUnit)TPU: 張計(jì)器ProcessingUnit)RDMA:程接存問(wèn)(RemoteDirectMemoryAccess)PS: 參服器(ParameterServer)IR: IntermediateRepresentation)FPS:FramesPerSecond)QPS:QueriesPerSecond)55loss:損失函數(shù)的值MOPS:處理器每秒鐘可進(jìn)行一百萬(wàn)次(MillionOperationPerSecond)GOPS:處理器每秒鐘可進(jìn)行十億次(GigaOperationsPerSecond)TOPS:處理器每秒鐘可進(jìn)行一萬(wàn)億次(TeraOperationsPerSecond)Broadcast:廣播機(jī)制概述電力人工智能算法異構(gòu)加速包括:訓(xùn)練異構(gòu)硬件加速和推理異構(gòu)硬件加速,其總體架構(gòu)見(jiàn)圖1。1)硬件加速評(píng)價(jià)指標(biāo):安裝部署、模型支持與驗(yàn)證、訓(xùn)練性能測(cè)試、推理性能測(cè)試等;(QPS...FPSQPS...FPS能效功耗時(shí)間推理性能測(cè)試訓(xùn)練性能測(cè)試模型支持與驗(yàn)證安裝部署設(shè)備管理層接入算子適配層接入設(shè)備管理層接入算子適配層接入推理異構(gòu)硬件加速設(shè)備管理層接入分布式通信接入算子適配層接入訓(xùn)練異構(gòu)硬件加速通用處理器(CPU通用處理器(CPU、GPU等)/AI加速器(ASIC類(lèi)型的加速器,如NPU等/FPGA類(lèi)型的加速器/GPU類(lèi)型的加速器)推理芯片(服務(wù)器/終端嵌入式)訓(xùn)練芯片(服務(wù)器/集群)圖1電力人工智能算法異構(gòu)硬件加速框架()、數(shù)據(jù)預(yù)處理(loss根據(jù)訓(xùn)練異構(gòu)加速分為單機(jī)訓(xùn)練模式的異構(gòu)組合和多級(jí)訓(xùn)練模式的異構(gòu)組合。66單機(jī)訓(xùn)練模式:異構(gòu)硬件在同一臺(tái)物理機(jī)器上,任務(wù)間不宜進(jìn)行網(wǎng)絡(luò)通信。異構(gòu)硬件工作流程如下圖所示。圖2單機(jī)多卡模式工作流程batchbatchAIlossAIPS(ParameterServer)RingAllReducePSPS/心節(jié)點(diǎn)接受其他broadcast廣播到所有其他。隨RingAllReduceN(N≥2)worker2*(N-1)圖3多機(jī)多卡PS結(jié)構(gòu)77圖4RingAllReduce結(jié)構(gòu)電力人工智能推理異構(gòu)加速是將訓(xùn)練得到的模型部署到特定異構(gòu)硬件上,其流程如下圖所示。圖5電力人工智能推理異構(gòu)流程圖推理步驟如下:88IRIRIRIRc)異構(gòu)硬件加速應(yīng)至少包括AI處理器、AI服務(wù)器、AI集群三種之一,應(yīng)符合但不限于以下要求:a)1x86、x64RISC-V、ARM、MIPSb)FPGAARM1CPUGPU;ASICNPUFPGAGPU1、應(yīng)支持的INT8、FP16。2AIi)系統(tǒng)應(yīng)考慮兼容性問(wèn)題,主板接口上支持多種計(jì)算設(shè)備的接入,電源系統(tǒng)應(yīng)能滿(mǎn)足多種計(jì)算設(shè)備的功率需求。)電力人工智能訓(xùn)練異構(gòu)硬件加速的技術(shù)要求應(yīng)符合但不限于以下要求:a)學(xué)習(xí)框架:應(yīng)具備基礎(chǔ)單卡、多卡與多機(jī)的模型訓(xùn)練功能;LinuxCPUGPUAIIR99電力人工智能推理異構(gòu)硬件加速的技術(shù)要求應(yīng)符合但不限于以下要求:linux、windowsCPUGPUAI012表1模型參數(shù)大小等級(jí)參數(shù)量(單位MB)級(jí)別≥1000C1≥100C2≥10C3>0C4表2模型計(jì)算量大小等級(jí)計(jì)算量(G)級(jí)別≥1000C1≥100C2≥10C3>0C4注:每秒操作數(shù)量OPS(Operationspersecond)作為衡量硬件算力水平的一個(gè)性能指標(biāo),單位包括:MOPS:處理器每秒鐘可進(jìn)行一百萬(wàn)次(MillionOperationPerSecond)GOPS:處理器每秒鐘可進(jìn)行十億次(GigaOperationsPerSecond)TOPS:處理器每秒鐘可進(jìn)行一萬(wàn)億次(TeraOperationsPerSecond)i)異構(gòu)硬件加速部署相對(duì)于原始的訓(xùn)練模型輸出(典型以CPUFloat32計(jì)算為例)存在差異,差異值的均方誤差作為異構(gòu)硬件的精度標(biāo)準(zhǔn),均方誤差值越小,整體的推理精度越高。電力人工智能推理異構(gòu)加速精度等級(jí)如表3所示。表3推理異構(gòu)硬件加速精度輸出差異均方誤差級(jí)別<10C1<1C2<0.1C3<0.01C46.2.1電力人工智能不同場(chǎng)景的性能要求4推理所需精度級(jí)別場(chǎng)景精度級(jí)別電路巡檢數(shù)據(jù)離線(xiàn)檢測(cè)C1電路巡檢數(shù)據(jù)實(shí)時(shí)檢測(cè)C21010配電變電監(jiān)控C3大數(shù)據(jù)分析預(yù)測(cè)C4表5推理所需速度級(jí)別場(chǎng)景速度級(jí)別電路巡檢數(shù)據(jù)實(shí)時(shí)檢測(cè)C1配電變電實(shí)時(shí)監(jiān)控C2數(shù)據(jù)離線(xiàn)檢測(cè)C3大數(shù)據(jù)分析預(yù)測(cè)C4基于選定的基礎(chǔ)軟硬件平臺(tái),人工智能框架應(yīng)具備多種安裝部署能力,以便開(kāi)發(fā)/測(cè)試/運(yùn)維人員進(jìn)行使用/管理/維護(hù)/升級(jí)等工作://b)/c)/d)CPUCPUCPUkernel基于選定的基礎(chǔ)軟硬件平臺(tái),人工智能框架應(yīng)支持在圖像分類(lèi)、目標(biāo)檢測(cè)等應(yīng)用領(lǐng)域的人工智能模型及其評(píng)估。時(shí)間msbatch--在batch數(shù)據(jù)送入input節(jié)點(diǎn)的時(shí)間記為T(mén)0;--在梯度更新完成的時(shí)間記為T(mén)1;--單步訓(xùn)練的用時(shí)就為T(mén)1–T0。說(shuō)明:?jiǎn)蝹€(gè)step的時(shí)間可以描述異構(gòu)計(jì)算中的純粹網(wǎng)絡(luò)計(jì)算的時(shí)間和梯度更新時(shí)間,這個(gè)時(shí)間越短就越好,同時(shí)單個(gè)step下可以針對(duì)不同的batch的維度進(jìn)行時(shí)間的統(tǒng)計(jì),在時(shí)間比較上采用相同的batch下進(jìn)行比較。,epoch--啟動(dòng)訓(xùn)練的腳本的時(shí)間設(shè)置為T(mén)s;--訓(xùn)練程序退出的時(shí)間設(shè)置為T(mén)e;--總的訓(xùn)練時(shí)間為T(mén)e–Ts。說(shuō)明:總的訓(xùn)練時(shí)間包含模型的初始化,數(shù)據(jù)加載,網(wǎng)絡(luò)訓(xùn)練計(jì)算,梯度更新模型保存等所有的時(shí)間,這個(gè)可以反映整個(gè)人工智能算法訓(xùn)練異構(gòu)加速系統(tǒng)的整體性能,時(shí)間越短性能越高。訓(xùn)練階段統(tǒng)計(jì)異構(gòu)計(jì)算中計(jì)算設(shè)備在一段訓(xùn)練時(shí)間內(nèi)的實(shí)際利用率。1111--在一個(gè)epoch的訓(xùn)練過(guò)程中間隔1s采樣獲取計(jì)算設(shè)備的使用率Si;--統(tǒng)計(jì)一個(gè)epoch中所有的使用率的總和S以及采樣的個(gè)數(shù)N;--單個(gè)epoch中計(jì)算單元的使用率為S/N。說(shuō)明:計(jì)算設(shè)備的利用率反映了整個(gè)訓(xùn)練系統(tǒng)在異構(gòu)硬件加速上的使用效率,這個(gè)指標(biāo)越高說(shuō)明系統(tǒng)采用設(shè)備的硬件加速越明顯,整體的效果越明顯。吞吐率吞吐率反應(yīng)了整個(gè)異構(gòu)硬件加速系統(tǒng)針對(duì)訓(xùn)練業(yè)務(wù)的計(jì)算能力,單位是MB/s。EPOC--統(tǒng)計(jì)單個(gè)epoch的訓(xùn)練處理時(shí)間Ti;--統(tǒng)計(jì)各個(gè)epoch的平均訓(xùn)練處理時(shí)間Ta;--最終就是一個(gè)epoch的訓(xùn)練樣本數(shù)量/Ta。說(shuō)明:實(shí)際的吞吐率反映了單臺(tái)機(jī)器上異構(gòu)硬件針對(duì)訓(xùn)練過(guò)程中的數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)前向計(jì)算、反向傳播更新梯度全流程的能力。2)方法:--統(tǒng)計(jì)單個(gè)節(jié)點(diǎn)上異構(gòu)硬件系統(tǒng)的吞吐率Thi;--所有節(jié)點(diǎn)上的Thi進(jìn)行平均就是系統(tǒng)的The。功耗功耗是以瓦(W)為單位,反映了異構(gòu)設(shè)備在實(shí)際訓(xùn)練中功率使用情況。明平功反映整異加系在訓(xùn)中能使情。 --通過(guò)提高batch提高整個(gè)異構(gòu)設(shè)備的負(fù)載壓力;--用功率計(jì)采集滿(mǎn)負(fù)荷下的運(yùn)行功率,選擇功率做大的一個(gè)值作為峰值功率。說(shuō)明:峰值功率反映了異構(gòu)加速系統(tǒng)在使用過(guò)程中的最大功率。能效MB(W* epochEi;--對(duì)所有的epoch期間的電量求平均E;--以到終效為N/E這的N是個(gè)epoch數(shù)數(shù))b)群 1)定義:集群在單位能耗下訓(xùn)練處理的數(shù)據(jù)的數(shù)量多少。2)方法:--統(tǒng)計(jì)每個(gè)epoch運(yùn)行期間集群的用電量Ei;--對(duì)所有的epoch期間的電量求平均E;--可以得到最終的能效為N/E(這里的N是一個(gè)epoch的數(shù)據(jù)數(shù)量)。1212能效也可以反映出異構(gòu)硬件在加速算法訓(xùn)練過(guò)程中的能源利用情況,能效越高整個(gè)異構(gòu)加速硬件的能力越高?;谶x定的基礎(chǔ)軟硬件平臺(tái),人工智能框架應(yīng)應(yīng)具備多種安裝部署能力,以便開(kāi)發(fā)/測(cè)試/運(yùn)維人員進(jìn)行使用/管理/維護(hù)/升級(jí)等工作:///C/C++//基于選定的基礎(chǔ)軟硬件平臺(tái),深度學(xué)習(xí)框架應(yīng)支持基礎(chǔ)模型,結(jié)果正確,性能符合對(duì)應(yīng)硬件預(yù)期。時(shí)間msbatch大小為1NTi3)1?????1??。????0針對(duì)嵌入式實(shí)時(shí)場(chǎng)景,在功耗、輸入數(shù)據(jù)相同的情況下,單個(gè)數(shù)據(jù)的平均處理時(shí)間越短,整個(gè)異構(gòu)硬件加速更好。FPSFPS反應(yīng)了整個(gè)異構(gòu)硬件加速系統(tǒng)針對(duì)推理業(yè)務(wù)的計(jì)算能力,單位是MB/s。FPS--選取N個(gè)測(cè)試的數(shù)據(jù);--統(tǒng)計(jì)每個(gè)數(shù)據(jù)經(jīng)過(guò)推理模塊的耗時(shí)Ti;NTs;FPSN/Ts。FPS--選取N個(gè)測(cè)試數(shù)據(jù);--將N個(gè)測(cè)試數(shù)據(jù)平均分配到M個(gè)計(jì)算節(jié)點(diǎn)上;--統(tǒng)計(jì)每個(gè)節(jié)點(diǎn)上計(jì)算任務(wù)的開(kāi)始時(shí)間Tis和介紹時(shí)間Tio;MTisTismin;MTioTiomax;--整個(gè)計(jì)算系統(tǒng)的總耗時(shí)為T(mén)=Tiomax-Tismin;--整個(gè)計(jì)算集群的FPS為N/T。針對(duì)嵌入式實(shí)時(shí)場(chǎng)景,在網(wǎng)絡(luò)模型一定、數(shù)據(jù)一定的情況下,這個(gè)參數(shù)越大,反應(yīng)異構(gòu)加速能力越強(qiáng)。QPSQPS反映出異構(gòu)硬件服務(wù)器的推理服務(wù)提供能力,單位是MB/s。QPS1313--客戶(hù)端安裝jmeter壓測(cè)工具;--jmeter設(shè)定平均的響應(yīng)時(shí)間;--客戶(hù)端會(huì)根據(jù)平均響應(yīng)時(shí)間設(shè)置不同的請(qǐng)求線(xiàn)程數(shù)進(jìn)行壓測(cè),jemter獲取對(duì)應(yīng)的Qi;--選擇Qi最大的值作為最大的QPS。b)服務(wù)器集群的最大QPS--跟單機(jī)時(shí)測(cè)量方式一樣。QPS在推理階段異構(gòu)體系中計(jì)算資源的實(shí)際利用率。--編寫(xiě)定時(shí)采集資源利用率的腳本;--設(shè)置好最大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論