




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
踐行深度用云大模型混合云十大創(chuàng)新技術(shù)編制委員會主
編
單
位
華為云計算技術(shù)有限公司編
委
顧
問
尚海峰胡玉海李金鋒尤鵬編
審
組
成
員參編主要專家徐曹韓羅強朝坤翕楊志勇王飛徐俊王馬晨奇徐禮鋒許田立王立王寧徐田袁軍紅李品新馬紅偉麥宇庭唐盛軍孫思東黨致遠黃立王志宇蔣東生趙培森王興昊劉靜趙軍張秦濤吳信威朱藝徐航曾祖祥王榮仕毛金哲張煜金王釗瑞蔣昱鑫王冰責(zé)
任
編
輯(排名不分先后)目錄314-18AI-Native存儲創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢105-09多樣性算力調(diào)度全局統(tǒng)籌,提升算力效率419-23增強AI網(wǎng)絡(luò)算網(wǎng)協(xié)同,高吞吐無阻塞網(wǎng)絡(luò)210-13云邊協(xié)同海量邊緣管理,模型邊用邊學(xué)524-28算子加速融合優(yōu)化,實現(xiàn)高效算子供應(yīng)839-42精細視覺神經(jīng)網(wǎng)絡(luò)對齊細節(jié),精準識別629-34全鏈路數(shù)據(jù)工程8大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集943-46無感斷點續(xù)訓(xùn)分鐘級感知恢復(fù),保障長穩(wěn)運行735-38統(tǒng)一數(shù)據(jù)編碼創(chuàng)新多模數(shù)據(jù)統(tǒng)一編碼,預(yù)測最優(yōu)解1047-54安全護欄立體檢測,智能攔截多樣性算力調(diào)度全局統(tǒng)籌,提升算力效率1.1業(yè)界難題在AI場景中,CPU扮演著指揮統(tǒng)籌與核心控制的角色,GPU/NPU負責(zé)核心AI大模型的并行高性能訓(xùn)練與推理計算??紤]到算力的供應(yīng)多樣性與長期可獲得性,以x86和ARM為代表的通用算力和以GPU和NPU為代表的AI算力,將長期協(xié)同發(fā)展與配合使用,因此需要考慮異構(gòu)算力的統(tǒng)一調(diào)度問題:AI資源碎片問題:單個訓(xùn)練/推理作業(yè)所需要的AI算力卡數(shù)典型值為1、2、4、8、n*8,大于8卡的作業(yè),需運行在完全空閑的節(jié)點上。隨著多個任務(wù)的異步結(jié)束,集群中會出現(xiàn)資源碎片,即便整體上存在足夠的資源,需要多卡的作業(yè)也無法運行,導(dǎo)致資源利用率降低。推理算力利用率提升的挑戰(zhàn)異構(gòu)算力管理的挑戰(zhàn)AI算力多團隊共享問題:集團內(nèi)部需要考慮不同部門多個彼此隔離的AI小集群可能導(dǎo)致的整體資源利用率較低的問題,資源池化按需調(diào)度是提升資源利用率的有效辦法。資源管理:集群管理的資源從通常的CPU+內(nèi)存,變?yōu)镃PU+內(nèi)存+AI算力卡等多種異構(gòu)硬件管理。除了多種型號的AI算力卡、同型號多代AI算力卡、還有整卡與切分卡的統(tǒng)一管理調(diào)度。算力復(fù)用:在推理場景,需要實現(xiàn)推理卡的多路任務(wù)并行復(fù)用,即多個算法共用一張AI卡,以提升算力利用率。拓撲感知:大模型分布式訓(xùn)練過程中,AI算力卡之間或AI服務(wù)器之間的帶寬并不完全一致。因此調(diào)度時,必須考慮異構(gòu)資源的拓撲關(guān)系,才能獲得最佳的訓(xùn)練效率。分布式訓(xùn)練調(diào)度的挑戰(zhàn)資源爭奪沖突死鎖:傳統(tǒng)容器調(diào)度邏輯都是按照單個容器依次調(diào)度。而分布式AI訓(xùn)練容器必須同時運行以進行集合通信,且只能同時調(diào)度成功或調(diào)度失敗。否則,多個分布式作業(yè)在資源調(diào)度層面出現(xiàn)爭搶并導(dǎo)致死鎖,所有訓(xùn)練任務(wù)都無法得到有效調(diào)度。061.2多樣性算力調(diào)度:全局統(tǒng)籌,提升算力效率華為云多樣性算力調(diào)度基于云原生集群管理框架,并融入面向AI場景的Volcano調(diào)度框架,實現(xiàn)分布式AI任務(wù)調(diào)度增強。同時還針對算力資源的利用率提升做了系列創(chuàng)新優(yōu)化,包括:邏輯子池、隊列優(yōu)先級、拓撲感知、整柜親和、算力切分等。多樣性算力調(diào)度模型訓(xùn)推模型開發(fā)模型訓(xùn)練模型推理訓(xùn)練&推理任務(wù)豐富調(diào)度策略高效任務(wù)調(diào)度資源調(diào)度容器調(diào)度調(diào)度控制模塊調(diào)度策略模塊CPUGPUNPUAI任務(wù)實例AI任務(wù)實例AI任務(wù)實例CPU資源池GPU資源池NPU資源池CPUCPUCPUGPUGPUNPUNPUNPUNPU統(tǒng)一納管異構(gòu)算力資源通用服務(wù)器通用服務(wù)器AI服務(wù)器節(jié)點3AI服務(wù)器節(jié)點4AI服務(wù)器節(jié)點5節(jié)點1節(jié)點2圖1.1華為云多樣性算力調(diào)度多樣算力資源池化傳統(tǒng)的K8s集群管理系統(tǒng)在啟動容器時,會將負載調(diào)度至合適的節(jié)點。但其調(diào)度的維度僅支持“CPU+內(nèi)存”,無法識別和調(diào)度“GPU/NPU”這種異構(gòu)算力資源。07分布式AI訓(xùn)練的組調(diào)度2啟動容器Master節(jié)點在分布式AI訓(xùn)練中,需要通過容器組調(diào)度算法,來避免多個分布式任務(wù)因爭搶資源而導(dǎo)致任務(wù)死鎖。華為云設(shè)計了Volcano調(diào)度框架,實現(xiàn)了組調(diào)度功能并做了更多能力增強:過濾節(jié)點3調(diào)節(jié)-擴展插件SchedExtender調(diào)度器Node節(jié)點1啟動容器統(tǒng)一的作業(yè)管理:提供作業(yè)的全生命周期管理,支持所有主流的計算框架,如Pytorch、MPI、Horovod、Tensorflow、Spark-op-erator、Flink-operator等。異構(gòu)資源-擴展DevicePluginKubelet5啟動+配置4分配“異構(gòu)資源”容器運行時RunTime容容器器豐富的高階調(diào)度策略:公平調(diào)度、任務(wù)拓撲調(diào)度、基于SLA調(diào)度、作業(yè)搶占、回填、彈性調(diào)度、混部等。圖1.2GPU/NPU異構(gòu)資源識別和調(diào)度因此華為云引入了K8s的Device-plugin調(diào)度插件框架,并開發(fā)了AI異構(gòu)算力插件,實時獲取和上報各異構(gòu)資源池中AI算力的狀態(tài),輔助完成異構(gòu)算力的混合調(diào)度。如常見的推理任務(wù)會包含LB負載均衡(通用算力調(diào)度)、AI推理多實例(AI算力調(diào)度),兩者共同配合完成。細粒度的資源管理:提供作業(yè)隊列、隊列資源預(yù)留、隊列容量管理、多租戶的動態(tài)資源共享。調(diào)度性能優(yōu)化:結(jié)合Kubernetes提供擴展性、大吞吐等多項優(yōu)化。AI作業(yè)調(diào)度批量調(diào)度硬件拓撲感知vNPU調(diào)度業(yè)務(wù)拓撲感知NodeNode拓撲管理拓撲管理1/2NPU1/4NPUvNPU1/7NPU算力切分1/7NPUCPUGPUGPUGPUnvlinknv-switchPIC-e圖1.3分布式AI訓(xùn)練的組調(diào)度08算力切分在部分AI推理場景(如視頻推理)中,單NPU卡如果只承載1個AI推理應(yīng)用,會出現(xiàn)富裕算力的空置浪費??梢詫⒁粡圢PU卡切分為多張vNPU卡,每個vNPU卡運行單獨的AI推理應(yīng)用,才能最大程度利用AI算力。在K8s設(shè)定的AI資源調(diào)度框架中只能為容器綁定整個AI卡資源,無法靈活綁定如1/2、1/4NPU卡資源。因此,華為云開發(fā)了增強調(diào)度邏輯,在同一個集群中,實現(xiàn)了對NPU整卡和更小顆粒度的vNPU卡的靈活調(diào)度,確保為AI任務(wù)匹配顆粒度最合適的NPU資源,大幅提升NPU的算力利用率。容器容器容器容器容器容器AppAppAppAppAppApp...vNPUvNPU1切多vNPUvNPUvNPU算力切分NPU...NPUNPUNPU...NPUNPU節(jié)點節(jié)點圖1.4NPU算力切分調(diào)度1.3價值收益全局統(tǒng)籌,提升算力效率47%1
11卡多任務(wù)統(tǒng)一納管調(diào)度x86|ARM|GPU|NPU卡
任務(wù)千億模型訓(xùn)練算力利用率推理算力切分09云邊協(xié)同海量邊緣管理,模型邊用邊學(xué)2.1業(yè)界難題隨著AI大模型逐步應(yīng)用到煤礦生產(chǎn)、電力巡檢、工業(yè)質(zhì)檢等工業(yè)場景,邊緣實時推理的需求日益凸顯。業(yè)界也在思考如何解決規(guī)?;渴鹋c運維的效率問題,并構(gòu)建異常樣本反饋與模型的快速迭代機制,讓模型常用常新。模型持續(xù)迭代:生產(chǎn)工況或者應(yīng)用現(xiàn)場情況復(fù)雜并多變,部分工業(yè)生產(chǎn)環(huán)境中缺少足量的異常樣本進行訓(xùn)練,所以原始模型精度有限,并且隨著使用環(huán)境的變化,原始模型精度會下降。因此,模型精度需要不斷地通過異?,F(xiàn)場數(shù)據(jù)來進行迭代訓(xùn)練,不斷地升級模型,實現(xiàn)精準推理。海量邊緣管理:面向工業(yè)場景的海量邊緣推理部署需求,傳統(tǒng)人工部署管理的方案,工作量大且上線慢。缺乏自動化、可視化的管理技術(shù),將導(dǎo)致每一次后續(xù)模型迭代都需要重復(fù)操作,管理效率極低。綜上,需要創(chuàng)新模型訓(xùn)練、推理部署、長期迭代的辦法,才能幫助政企行業(yè)真正實現(xiàn)AI智能化的規(guī)?;瘧?yīng)用。2.2云邊協(xié)同:海量邊緣管理,模型邊用邊學(xué)華為混合云推出云邊協(xié)同方案,支持中心訓(xùn)練、邊緣推理以及模型邊學(xué)邊用、持續(xù)迭代。中心訓(xùn)練:基于混合云的ModelArtsAI開發(fā)平臺和盤古大模型,形成一站式的場景化模型訓(xùn)練工作流。通過采集原始生產(chǎn)樣本數(shù)據(jù)和模型運行中產(chǎn)生的存疑樣本數(shù)據(jù),使用工作流高效訓(xùn)練模型,并統(tǒng)一管理模型版本。AI應(yīng)用開發(fā)中心集團AI中心訓(xùn)練數(shù)據(jù)使能①AI模型訓(xùn)練智能邊端管理AI基礎(chǔ)設(shè)施邊用邊學(xué)②模型部署④異常樣本回流生產(chǎn)單位智能邊端節(jié)點③AI推理智能邊端節(jié)點③AI推理智能邊端節(jié)點③AI推理運維管理邊AI邊緣推理應(yīng)用運行運維管理應(yīng)用運行運維管理應(yīng)用運行AI基礎(chǔ)設(shè)施AI基礎(chǔ)設(shè)施AI基礎(chǔ)設(shè)施圖2.1云邊協(xié)同架構(gòu)11邊緣推理:模型按需部署到指定邊緣節(jié)點,完成推理識別到告警處置的端到端業(yè)務(wù)閉環(huán),推理和處置結(jié)果同步上報至中心云平臺,實現(xiàn)中心統(tǒng)一管控。邊緣節(jié)點的固件版本等。中心云可高效實現(xiàn)10萬+海量邊緣節(jié)點的納管。AI模型部署:中心云將AI場景化工作流訓(xùn)練好的模型,一鍵式部署到指定邊緣節(jié)點。可實現(xiàn)分鐘級模型持續(xù)更新,大幅降低上線時間和運維成本。邊用邊學(xué):邊緣側(cè)將AI誤報、新增場景樣本數(shù)據(jù)反饋至中心側(cè)統(tǒng)一分析,重新訓(xùn)練升級模型,從而構(gòu)建高效反饋-迭代升級-部署應(yīng)用的循環(huán)升級機制。離線可用性:當(dāng)邊緣節(jié)點與中心的連線中斷后,邊緣業(yè)務(wù)可正常運行;節(jié)點故障或業(yè)務(wù)異常后,可秒級恢復(fù)業(yè)務(wù)。海量邊緣管理面向海量邊緣,云邊協(xié)同提供統(tǒng)一的部署、管理、運維能力:模型邊用邊學(xué)基于云邊協(xié)同架構(gòu),通過持續(xù)異常/錯誤樣本的回傳和模型迭代,實現(xiàn)AI模型邊用邊學(xué)、快速迭代、持續(xù)升級、能適應(yīng)新的工況和數(shù)據(jù)變化。設(shè)備接入與資源管理:邊緣節(jié)點以VPN或云專線方式接入邊緣管理平臺,注冊后管理員可以通過可視化界面,統(tǒng)一對資源進行管理,包括激活、查看、注銷邊緣節(jié)點,以及一鍵升級中心云AI模型邊用邊學(xué)工作流樣本數(shù)據(jù)回傳AI應(yīng)用平臺(集團端)在線標注AI訓(xùn)練平臺樣本數(shù)據(jù)回傳平臺統(tǒng)計數(shù)據(jù)收集數(shù)據(jù)開發(fā)訓(xùn)練模型下發(fā)邊是否誤報數(shù)據(jù)采集rtsp推送推理結(jié)果人工智能應(yīng)用平臺(生產(chǎn)端)錄像儀邊緣側(cè)AI模型推理視頻流邊緣計算節(jié)點現(xiàn)場設(shè)備告警聯(lián)動數(shù)據(jù)采集邊網(wǎng)端工業(yè)環(huán)網(wǎng)視頻流視頻流視頻流生產(chǎn)設(shè)備攝像機1攝像機2攝像機3廣播圖2.2邊用邊學(xué)工作流程12邊緣回傳:在AI服務(wù)推理過程中,通過回傳接口將推理過程中識別的異常/錯誤樣本回傳到中心側(cè)AI應(yīng)用平臺。樣本標注:中心AI應(yīng)用平臺對異常/錯誤樣本進行快速復(fù)核和在線標注后,回傳給中心AI訓(xùn)練平臺。模型迭代:中心AI訓(xùn)練平臺的工作流,調(diào)用標注過的異常/錯誤樣本數(shù)據(jù)對模型進行再訓(xùn)練和評估,以提高模型的準確性和泛化能力。然后將新模型快速推送部署回邊緣設(shè)備,更新推理模型,使得模型學(xué)習(xí)到的最新知識能夠立刻應(yīng)用于生產(chǎn),實現(xiàn)邊用邊學(xué)。2.3價值收益海量邊緣管理,模型邊用邊學(xué)10
+20%萬邊端推理設(shè)備納管分鐘級模型一鍵式部署毫秒級邊緣推理低時延邊用邊學(xué)模型精度13AI-Native存儲創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢3.1業(yè)界難題隨著AI大模型參數(shù)量的增加,訓(xùn)練集群規(guī)模也不斷擴大,存儲成為制約大模型訓(xùn)練效率提升的關(guān)鍵瓶頸:生大量開銷,當(dāng)恢復(fù)時所有計算節(jié)點都來讀取Checkpoint文件,保存和恢復(fù)通常會成為瓶頸。目前業(yè)界典型的AI服務(wù)器年故障率10%至17%,大規(guī)模集群訓(xùn)練單次故障恢復(fù)需數(shù)小時,其中檢查點的加載耗時占65%。海量小文件加載慢:10億訓(xùn)練原始數(shù)據(jù)加載時間超過10小時。傳統(tǒng)存儲從架構(gòu)上就已經(jīng)難以應(yīng)對超大規(guī)模AI集群數(shù)據(jù)快讀、Checkpoint快存、故障快速恢復(fù)的需求,業(yè)界亟需面向AI大模型場景更專業(yè)的存儲。故障影響大、恢復(fù)慢,造成算力空轉(zhuǎn):分布式訓(xùn)練中出現(xiàn)故障時,訓(xùn)練集群需要從存儲中讀取上一Checkpoint(訓(xùn)練任務(wù)檢查點)重新執(zhí)行訓(xùn)練。Checkpoint讀取過程本身會產(chǎn)3.2AI-Native存儲:創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢傳統(tǒng)架構(gòu)華為云AI-Native存儲三層架構(gòu)NPUNPUNPUNPUNPUNPUNPUNPU算力層算力層AITurboSDKAITurboSDKAITurboSDKbSDKCPUCPUL3加速L2緩存SFSTurbo客戶端SFSTurbo客戶端本地盤本地盤內(nèi)存緩存內(nèi)存緩存主機主機主機主機SFSTurbo高性能并行文件系統(tǒng)性能層SFSTurbo服務(wù)端分布式SSD存儲L1緩存容量層容量層OBS數(shù)據(jù)湖分布式HDD存儲對象存儲圖3.1華為云AI-Native存儲三層架構(gòu)15AI原始數(shù)據(jù)集通常存儲在大容量對象存儲上,然后通過單機拷貝到AI服務(wù)器的本地盤,傳統(tǒng)的存儲架構(gòu)下,這一過程普遍需要10小時才能完成10億訓(xùn)練原始數(shù)據(jù)的讀取,無法滿足AI大模型的性能要求。通過分布式數(shù)據(jù)節(jié)點的云原生彈性擴縮,將帶寬從GB級提升到TB級,進而充分發(fā)揮L1服務(wù)端TB級的內(nèi)存緩存帶寬優(yōu)勢,實現(xiàn)比NVMeSSD硬盤層更大的吞吐能力。通過分布式元數(shù)據(jù)節(jié)點的云原生彈性擴縮,將IOPS從50萬級提升到千萬級,輕松應(yīng)對海量億級小文件并發(fā)處理。華為云AI-Native存儲,基于OBS數(shù)據(jù)湖、SFSTurbo高性能并行文件系統(tǒng)和AITurbo加速的創(chuàng)新三層架構(gòu),系統(tǒng)性地應(yīng)對大模型訓(xùn)練場景的挑戰(zhàn)。AITurbo:加速訓(xùn)練檢查點保存和加載AITurboSDK部署到訓(xùn)練進程中,感知和協(xié)同模型參數(shù)切分與并行策略、故障分類等,最大程度減少Checkpoint保存耗時和故障恢復(fù)加載耗時,減少訓(xùn)練任務(wù)阻塞。OBS數(shù)據(jù)湖:為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、訓(xùn)練、推理、模型部署全流程提供海量數(shù)據(jù)的統(tǒng)一存儲底座。SFSTurbo高性能并行文件系統(tǒng):作為OBS訪問的加速層,滿足核心訓(xùn)練環(huán)節(jié)海量小文件高性能、低時延的加載訴求。保存階段:如下圖所示,采用兩階段寫的Checkpoint異步持久化方案,最大程度減少耗時,避免訓(xùn)練任務(wù)長期阻塞。AITurbo加速:將AITurboSDK部署到訓(xùn)練節(jié)點,與AI框架配合讓存儲主動感知模型的參數(shù)切分、冗余數(shù)據(jù)策略、訓(xùn)練任務(wù)的故障分類、AI訓(xùn)練平臺的容器部署與回收等,為大模型訓(xùn)練和Checkpoint快存快恢加速。SFSTurbo:加速訓(xùn)練數(shù)據(jù)集訪問AI訓(xùn)練數(shù)據(jù)集通常以KB級的小文件居多,因此AI訓(xùn)練訪問數(shù)據(jù)集時存在緩存友好特征。在業(yè)務(wù)訪問數(shù)據(jù)集文件時,SFSTurbo會將NVMeSSD存儲池中的數(shù)據(jù)文件緩存到L1服務(wù)端分布式內(nèi)存緩存中,減少AI訓(xùn)練訪問數(shù)據(jù)集的時延,同時在大規(guī)模訓(xùn)練集群并發(fā)訪問數(shù)據(jù)集時:16階段①寫本地客戶端:各節(jié)點將自己的Checkpoint高速同步寫入SFSTurbo客戶端本地內(nèi)存緩存,向上返回成功。階段②Checkpoint去重:將DP(數(shù)據(jù)并行)維度上Checkpoint相同的多個GPU/NPU作為一組,在組內(nèi)推舉1個代表節(jié)點執(zhí)行Checkpoint存儲持久化操作,將DP倍數(shù)寫操作變?yōu)?次,有效降低對存儲的帶寬和容量的需求。數(shù)據(jù)并行組1(Checkpoint相同)數(shù)據(jù)并行組2(Checkpoint相同)組1代表節(jié)點組2代表節(jié)點NPUNPUNPUNPUNPUNPU算力層AITurboSDKAITurboSDKAITurboSDKAITurboSDKAITurboSDKAITurboSDK111111SFSTurbo客戶端SFSTurbo客戶端內(nèi)存緩存SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端內(nèi)存緩存內(nèi)存緩存內(nèi)存緩存內(nèi)存緩存內(nèi)存緩存22性能層SFSTurbo服務(wù)端內(nèi)存緩存分布式SSD存儲容量層OBS數(shù)據(jù)湖分布式HDD存儲圖3.2Checkpoint異步持久化方案在恢復(fù)階段,AITurboSDK可以感知故障分類,針對性實現(xiàn)檢查點快速加載:退到使用遠端SFSTurbo服務(wù)端持久化存儲上的Checkpoint。如下圖所示,為避免所有GPU/NPU卡同時加載Checkpoint導(dǎo)致存儲帶寬成為瓶頸,選擇代表節(jié)點替代所有節(jié)點執(zhí)行加載Checkpoint操作,然后再利用空閑的計算集群的參數(shù)網(wǎng)絡(luò)將Checkpoint廣播到組內(nèi)其余節(jié)點上,從而顯著降低大規(guī)模訓(xùn)練集群故障恢復(fù)過程對遠端SFSTurbo服務(wù)端存儲帶寬的需求,加速Checkpoint恢復(fù)過程。進程級故障:硬件仍然健康的故障場景,主機側(cè)客戶端內(nèi)存緩存中的Checkpoint仍可正常訪問,直接加載Checkpoint進行原地秒級快速恢復(fù)。任務(wù)級故障:硬件故障導(dǎo)致個別故障節(jié)點隔離甚至是整個集群機器均發(fā)生崩潰時,此時將回17組1代表節(jié)點組2代表節(jié)點NPUNPUNPUNPUNPUNPUAITurboSDKAITurboSDKAITurboSDKAITurboSDKAITurboSDKAITurboSDK算力層通過參數(shù)網(wǎng)絡(luò)進行組內(nèi)廣播通過參數(shù)網(wǎng)絡(luò)進行組內(nèi)廣播323323SFSTurbo客戶端SFSTurbo客戶端內(nèi)存緩存SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端內(nèi)存緩存內(nèi)存緩存內(nèi)存緩存內(nèi)存緩存內(nèi)存緩存11性能層SFSTurbo服務(wù)端內(nèi)存緩存分布式SSD存儲圖3.3任務(wù)級故障Checkpoint快速加載與廣播3.3價值收益創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢20倍小時級分鐘級億級訓(xùn)練原始數(shù)據(jù)集群故障恢復(fù)檢查點加載耗時加載效率18增強AI網(wǎng)絡(luò)算網(wǎng)協(xié)同,高吞吐無阻塞網(wǎng)絡(luò)4.1業(yè)界難題大模型的訓(xùn)練過程是計算和通信緊密耦合的,在諸如MLPerf、T5、GLaM等常見模型訓(xùn)練中,通信開銷占比都達到了40%左右!其它時間通信開銷時間GPT_1T22%25%42%39%42%Meena_500BMLPerf_200BT5_300BGLaM_1TBigSSL_10B36%0%25%50%75%100%圖4.1模型通信時間在集群訓(xùn)練中的占比Source:Google《OverlapCommunicationwithDependentComputationviaDecompositioninLargeDeepLearningModels》隨著AI大模型參數(shù)量的增加,參數(shù)同步帶來的網(wǎng)絡(luò)通信開銷也會同步大幅增加。為了降低通信時間,一方面可以優(yōu)化計算平臺,比如通過計算和網(wǎng)絡(luò)通信時間的重疊;另一方面,采用兼容成熟以太網(wǎng)生態(tài)的ROCE(RDMAoverConvergedEthernet)無損網(wǎng)絡(luò),通過單端口200G以上配置構(gòu)建無損大帶寬網(wǎng)絡(luò),也已經(jīng)成為業(yè)界共識。流量不均而網(wǎng)絡(luò)擁塞,使得“算等網(wǎng)”,拉低整體訓(xùn)練效率。因此,要實現(xiàn)大模型的高效訓(xùn)練,還需要創(chuàng)新增強AI網(wǎng)絡(luò)技術(shù)。4.2增強AI網(wǎng)絡(luò):算網(wǎng)協(xié)同,高吞吐無阻塞網(wǎng)絡(luò)但AI大模型訓(xùn)練的流量特征是流數(shù)量少、周期性、大流為主,并行phase間有強同步性要求,通信效率取決于最慢的流。因此,大模型的高效訓(xùn)練要求參數(shù)面網(wǎng)絡(luò)無阻塞,保障整網(wǎng)設(shè)備之間通信達到滿吞吐。而傳統(tǒng)的ECMP(EqualCostMultiPath)等價路由負荷分擔(dān)機制,是為了應(yīng)對通用計算的“多流”、“小流”的場景創(chuàng)建的,但在“少流”、“大流”的AI場景,容易造成鏈路AI智算網(wǎng)絡(luò)涉及參數(shù)面、樣本面、業(yè)務(wù)面和管理面網(wǎng)絡(luò),其中參數(shù)面網(wǎng)絡(luò)要求最高。參數(shù)面網(wǎng)絡(luò)主要用于AI集群分布式訓(xùn)練時參數(shù)交換,要求網(wǎng)絡(luò)具備高吞吐和無阻塞。網(wǎng)絡(luò)高吞吐體現(xiàn)在端口高吞吐和全網(wǎng)高吞吐:端口高吞吐從以前10G/25G到現(xiàn)在的200G/400G,并逐步向未來的800G演進。20AI訓(xùn)練與管理平臺AI大模型訓(xùn)練通用服務(wù)器12帶外管理網(wǎng)絡(luò)參數(shù)面網(wǎng)絡(luò)樣本面網(wǎng)絡(luò)計算業(yè)務(wù)面網(wǎng)絡(luò)存儲業(yè)務(wù)面網(wǎng)絡(luò)6345789帶外管理區(qū)AI訓(xùn)練集群區(qū)存儲區(qū)通用服務(wù)器業(yè)務(wù)流描述123數(shù)據(jù)集及訓(xùn)練模型導(dǎo)入存儲系統(tǒng)AI平臺下發(fā)訓(xùn)練任務(wù)456AI計算節(jié)點加載AI模型AI計算節(jié)點讀取訓(xùn)練數(shù)據(jù)集AI訓(xùn)練過程中完成模型的參數(shù)同步789AI訓(xùn)練中的CKPT文件寫入存儲系統(tǒng)完成AI訓(xùn)練的模型寫入存儲系統(tǒng)導(dǎo)出訓(xùn)練好的模型AI計算節(jié)點加載訓(xùn)練任務(wù)鏡像圖4.2AI大模型訓(xùn)練網(wǎng)絡(luò)全網(wǎng)高吞吐是指基于全網(wǎng)進行路徑規(guī)劃,使AI流量的吞吐達到全局最優(yōu)。技術(shù)路線2:包級負載均衡技術(shù)將基于路徑的狀態(tài)信息,針對包進行動態(tài)選路,從而達到流量散列均衡。理論上均衡度最好,但實際在接收端側(cè)存在大量亂序問題,嚴重依賴網(wǎng)卡的亂序重排能力,應(yīng)用案例極少。傳統(tǒng)的ECMP是基于五元組的逐流Hash,在流數(shù)少的時候極易出現(xiàn)Hash不均的情況。AI訓(xùn)練場景特征就是流數(shù)少、單流帶寬大,因此傳統(tǒng)的ECMP基本無法使用。面向AI訓(xùn)練的2種場景,華為云基于ROCE無損網(wǎng)絡(luò)打造了全網(wǎng)負載均衡算法。ECMP機制導(dǎo)致的流量不均,業(yè)界廠商主要從如下兩條技術(shù)路徑進行突破:場景1:主要針對單AI訓(xùn)練任務(wù),網(wǎng)絡(luò)本身即可實現(xiàn)高吞吐,不需要和AI調(diào)度平臺互動。這種場景要求設(shè)備的上下行是1:1無收斂的,如圖中的Leaf1,接入的上行是4個端口,下行也是4個端口?;趓ailgroup的算法,在Leaf1把下行4個端口配置到一個組中,在Spine1把下技術(shù)路線1:網(wǎng)絡(luò)級負載均衡技術(shù)通過繪制全局的流量矩陣,計算出最佳的流量分布,然后自動進行導(dǎo)流。也就是擁有縱觀全局的視角,從而達到全網(wǎng)吞吐最優(yōu)。21行連接不同Leaf的端口配置到不同組中,這樣交換機在轉(zhuǎn)發(fā)時會把流量均勻的負載到各個端口上,實現(xiàn)AI單任務(wù)網(wǎng)絡(luò)級負載均衡,全網(wǎng)有效吞吐提升到95%以上。Spine交換機Spine1Spine2Leaf1Leaf2Leaf交換機AI服務(wù)器圖4.3單任務(wù)訓(xùn)練場景場景2:通過AI調(diào)度平臺、網(wǎng)絡(luò)控制器、設(shè)備的統(tǒng)一協(xié)同,實現(xiàn)全網(wǎng)流量負載均衡。在支持多任務(wù)并行的同時,相比逐流Hash,網(wǎng)絡(luò)性能實現(xiàn)大幅提升??刂破骷兴懵罚ê诵乃惴ǎ?控制器獲取AI任務(wù)信息3租戶、模型、IP網(wǎng)絡(luò)控制器控制器獲取網(wǎng)絡(luò)拓撲控制器下發(fā)路徑51ModelArtsAI調(diào)度平臺AI任務(wù)調(diào)度212345678step1step2step3圖4.4網(wǎng)絡(luò)負載均衡方案(算網(wǎng)協(xié)同)AI調(diào)度平臺把任務(wù)信息通知給網(wǎng)絡(luò)控制器,網(wǎng)絡(luò)控制器結(jié)合已經(jīng)建立的整網(wǎng)通信關(guān)系與拓撲信息,通過全網(wǎng)負載均衡算法,進行整網(wǎng)路徑計算,得到最優(yōu)路徑并動態(tài)下發(fā)網(wǎng)絡(luò),實現(xiàn)多任務(wù)全網(wǎng)負載均衡。224.3價值收益算網(wǎng)協(xié)同,高吞吐無阻塞網(wǎng)絡(luò)100G200G/400G30%95%無損大帶寬全網(wǎng)有效吞吐23算子加速融合優(yōu)化,實現(xiàn)高效算子供應(yīng)5.1業(yè)界難題AI大模型訓(xùn)練效率提升,是一項復(fù)雜的系統(tǒng)工程,最關(guān)鍵的是要充分釋放AI硬件能力。華為云基于CANN異構(gòu)計算框架,讓盤古以及更多第三方大模型也能在華為混合云平臺上高效訓(xùn)練。但未經(jīng)調(diào)優(yōu)的模型,可能面臨性能差、開發(fā)效率低昇算子開發(fā)門檻高:算子開發(fā)與傳統(tǒng)應(yīng)用開發(fā)的編程方式存在較大的差異,需要管理多個性質(zhì)差異很大的存儲實體。在實際運算過程是多個部件并行執(zhí)行,在邏輯和時序上也需依賴其他部件一起確定。因此每個微觀細節(jié)的調(diào)整,都會比較明顯影響到算力效率,導(dǎo)致算子開發(fā)門檻高,典型場景算子開發(fā)周期一般長達1~2人月。等問題,騰算力無法充分釋放。模型開箱性能差:未經(jīng)過深度優(yōu)化的模型通常存在較多小算子,如果每個算子都在加速器上執(zhí)行輸入-計算-輸出這個過程,會有大量的輸入輸出開銷,造成性能下降。另外,若耗時較高的算子未命中最優(yōu)執(zhí)行策略,也會導(dǎo)致算力利用不充分。因此,需要采用高效工具和方法論來提升模型性能、降低算子開發(fā)門檻,實現(xiàn)高效的算子供應(yīng)。5.2算子加速:融合優(yōu)化,實現(xiàn)高效算子供應(yīng)支持業(yè)界主流AI框架AI框架···融合算子庫FlashAttention等Transformer網(wǎng)絡(luò)加速算子,多模型/多尺寸/多shape全面支持,精度、性能持平業(yè)界AscendC支持算子極簡開發(fā)CANN符合開發(fā)者編程習(xí)慣遵循C/C++標準規(guī)范簡化算子編程邏輯自動獲取最優(yōu)調(diào)度自動化流水并行調(diào)度結(jié)構(gòu)化函數(shù)編程使能處理器并行加速自動流水算子深度融合整圖下沉自適應(yīng)梯度切分······昇昇騰硬件騰系列處理器圖5.1異構(gòu)計算架構(gòu)圖25華為圍繞昇騰AI處理器打造了CANN異構(gòu)計算架構(gòu)。作為基礎(chǔ)使能軟件,CANN提供豐富的算子庫和AscendC算子編程語言,降低算子開發(fā)門檻,幫助開發(fā)者實現(xiàn)自定義算子的快速開發(fā)與算法創(chuàng)新,最大程度發(fā)揮算力價值。分,做到更精細的流水控制,減少其他計算組件的等待時間;在資源開銷方面,通過減少Scalar操作、降低通信開銷來進一步壓縮資源的損耗。MoE-FFN融合:MoE結(jié)構(gòu)將稠密網(wǎng)絡(luò)的FFN層擴展成具有相同結(jié)構(gòu)的專家網(wǎng)絡(luò),通過路由或門控網(wǎng)絡(luò)決定激活哪些專家進行計算。基于巧妙的數(shù)學(xué)等價實現(xiàn)MoE-FFN融合,更好發(fā)揮多核算力及流水編排的優(yōu)勢,如把部分矩陣運算用Vector單元進行計算,在進行計算單元運算時提前完成數(shù)據(jù)的搬運。合理運用L2Cache,通過提升L2的命中率,提升SOC中的綜合帶寬,減輕訪存耗時以實現(xiàn)Mac利用率提升。根據(jù)L0buffersize和輸入shape的特征,優(yōu)化L0tiling切分,提升L1/L0的利用率,實現(xiàn)Cube的高效利用。融合算子庫,提升模型開箱性能針對大模型關(guān)鍵模塊的算子,設(shè)計出昇騰親和的算子融合算法,最大化利用帶寬、顯存和算力資源。Attention融合優(yōu)化:Attention是大模型Transformer結(jié)構(gòu)的核心組件,整網(wǎng)耗時占比超過50%,是影響整網(wǎng)性能和資源消耗的關(guān)鍵點。在算子優(yōu)化方面,通過更好的復(fù)用右矩陣,減少Cube和Vector在特定配比下的資源消耗。在流水方面,對消息粒度做進一步的拆y1y2yAdd+NormalizeAdd+NormalizeFFN1FFN2FFN3FFN4FFN1FFN2FFN3FFN4p=0.8p=0.65SwitchingFFNLayerAdd+NormalizeRouterRouterAdd+NormalizeSelf-AttentionSelf-AttentionPositionalembeddingPositionalembeddingxx1x2MoreParameters圖5.3大模型MoE結(jié)構(gòu)示意圖26通算融合:通過Matmul(MatrixMultiplication)矩陣乘法與AllReduce分布式通信操作算子的融合,實現(xiàn)計算和通信的并行流水,應(yīng)用于模型并行切分場景。將矩陣乘的A和B分別進行切分并分配到不同的NPU上執(zhí)行乘法運算,最后通過求和的AllReduce操作將結(jié)果匯總后再分配到各個節(jié)點上。A1B1MatMul·NPU1NPU1MatMul·=+AllReduceA2B2ABMatMul·NPU2NPU2圖5.4MatMul與AllReduce算子融合示意AscendC算子編程語言,降低算子開發(fā)門檻昇結(jié)構(gòu)化核函數(shù)編程CPU/NPU孿生調(diào)試提升算子開發(fā)調(diào)試效率騰接口抽象算子tiling策略兩級并行調(diào)度隱藏復(fù)雜指令映射簡化繁瑣數(shù)據(jù)搬運獲得最優(yōu)執(zhí)行性能圖5.5AscendC算子編程語言能力棧AscendC使用C++語法和一組編程API,實現(xiàn)自動流水同步和Buffer地址管理,并提供CPU調(diào)試能力,解決了算子開發(fā)的關(guān)鍵技術(shù)難題。依然管理內(nèi)存,但針對典型的流水方式的數(shù)據(jù)傳遞,設(shè)計API進而簡化了難度。兩級并行調(diào)度:易于理解TPIPE流水編程范式解決流水并行問題,引入Que操作和Buffer操作,解決流水同步問題。昇騰接口抽象:通過在類庫中直接封裝intrin-sic方式提供一組編程API解決了內(nèi)存地址管理、流水同步的關(guān)鍵問題。結(jié)構(gòu)化核函數(shù)編程:提供CPU/NPU孿生調(diào)試能力,提升算子開發(fā)調(diào)試效率。算子tiling策略:簡化Buffer的使用,程序員275.3價值收益融合優(yōu)化,實現(xiàn)高效算子供應(yīng)50%2人月2人周常用模型性能提升算子開發(fā)周期28全鏈路數(shù)據(jù)工程8大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集6.1業(yè)界難題在AI的數(shù)據(jù)理論中,模型性能是由數(shù)據(jù)質(zhì)量和算法設(shè)計共同決定的。數(shù)據(jù)質(zhì)量直接決定了算法性能的上限,算法本身的設(shè)計僅決定了能多大程度接近這個上限。當(dāng)前,主要有三方面因素,制約數(shù)據(jù)質(zhì)量的提升:海量、多樣化的數(shù)據(jù)進行集成、清洗、標注,但這個過程往往因為工具零散、人工處理等導(dǎo)致效率和質(zhì)量低下,僅15%的臟數(shù)據(jù)就可能導(dǎo)致模型準確率下降高達50%。結(jié)果不準確:模型訓(xùn)練通常用到大量公開的數(shù)據(jù)集,這些數(shù)據(jù)集可能存在價值觀問題,需要在訓(xùn)練時加以校正對齊;針對不同質(zhì)量和相關(guān)度的數(shù)據(jù),建立合理的配比模型,避免過擬合問題。數(shù)據(jù)獲取難:在我國,政府和企業(yè)的數(shù)據(jù)開放率不足7%。行業(yè)大模型需要與場景化的數(shù)據(jù)結(jié)合才能更精準,然而這些數(shù)據(jù)往往散落在企業(yè)生產(chǎn)的各個環(huán)節(jié)中,缺少統(tǒng)一的匯聚和治理;甚至一些關(guān)鍵數(shù)據(jù)還需要從外部獲取,進一步增加了數(shù)據(jù)獲取的難度。因此,要打造高質(zhì)量的AI大模型,企業(yè)必須面向數(shù)據(jù)量、數(shù)據(jù)質(zhì)量和數(shù)據(jù)價值觀等方向構(gòu)筑核心的數(shù)據(jù)工程能力,為大模型高質(zhì)量供數(shù)。數(shù)據(jù)質(zhì)量差:AI訓(xùn)練開始前,需要利用工具將6.2全鏈路數(shù)據(jù)工程:8大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集數(shù)據(jù)獲取數(shù)據(jù)加工科學(xué)利用體系化獲數(shù)智能加工安全合規(guī),好用好管批量集成增量集成負向過濾風(fēng)險管控智能算子內(nèi)部數(shù)據(jù)集成數(shù)據(jù)清洗數(shù)據(jù)標注質(zhì)量評估數(shù)據(jù)安全智能配比數(shù)據(jù)可視智能標注手動標注成分分析場景配比數(shù)據(jù)膠囊標準化檢測資產(chǎn)看板外部數(shù)據(jù)流通圖6.1全鏈路數(shù)據(jù)工程30華為云從數(shù)據(jù)獲取、加工到利用三個階段開展技術(shù)創(chuàng)新,打造大模型數(shù)據(jù)工程和8大工具,幫助企業(yè)構(gòu)建多維、體系化的語料供給體系,解決數(shù)據(jù)獲取難、質(zhì)量差、不準確等問題。2大數(shù)據(jù)獲取工具數(shù)據(jù)獲取工具旨在讓企業(yè)具備體系化數(shù)據(jù)獲取能力,包括內(nèi)部數(shù)據(jù)集成和外部數(shù)據(jù)流通,從而形成匹配自身業(yè)務(wù)特點的專屬數(shù)據(jù)集:數(shù)據(jù)獲取:2大工具構(gòu)建全鏈路體系化的數(shù)據(jù)獲取能力,包括內(nèi)部數(shù)據(jù)集成和外部數(shù)據(jù)流通,幫助企業(yè)擴充多維模型訓(xùn)練數(shù)據(jù)源,提高獲數(shù)效率。內(nèi)部數(shù)據(jù)全域集成:數(shù)據(jù)集成工具提供IT/OT全域數(shù)據(jù)接入能力,支持結(jié)構(gòu)化、非結(jié)構(gòu)化等各類數(shù)據(jù)的實時或離線接入?;谂窟w移、增量同步的獨創(chuàng)算法設(shè)計,大大簡化數(shù)據(jù)集成流程,減少50%手工操作。同時也支持對數(shù)據(jù)集成鏈路、安全入湖和數(shù)據(jù)同步質(zhì)量進行實時管理,確保數(shù)據(jù)集成工作有序運行。數(shù)據(jù)加工:通過智能清洗、智能標注和質(zhì)量評估3個工具,構(gòu)建數(shù)據(jù)全流程加工能力,實現(xiàn)圖、文、音、視頻等4類數(shù)據(jù)10大場景的智能加工。外部數(shù)據(jù)可信流通:基于隱私計算和區(qū)塊鏈技術(shù)打造數(shù)據(jù)膠囊,確保數(shù)據(jù)可用不可見。同時提供數(shù)據(jù)訪問日期、訪問次數(shù)、使用方式等20+數(shù)據(jù)訪問策略,過期數(shù)據(jù)文件能夠自動清除;數(shù)據(jù)和訪問控制策略捆綁加密保存、安全策略強制執(zhí)行,并且數(shù)據(jù)使用過程上鏈審計,確??勺匪???茖W(xué)利用:基于數(shù)據(jù)安全合規(guī)、智能配比、數(shù)據(jù)可視等3大工具,建立全生命周期合規(guī)、合理、可視的優(yōu)質(zhì)數(shù)據(jù)集,保證模型價值觀和數(shù)據(jù)易用性。內(nèi)部數(shù)據(jù)集成外部數(shù)據(jù)流通原始數(shù)據(jù)任務(wù)統(tǒng)一配置ABE不滿足解密驗簽批量集成增量集成鏈路管理安全入湖質(zhì)量核對數(shù)據(jù)膠囊ABE算法加密數(shù)據(jù)膠囊離線實時數(shù)據(jù)策略數(shù)據(jù)膠囊資源池資源池ABEsecuritylevel>4...滿足解密驗簽使用策略結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)提供方數(shù)據(jù)消費方圖6.2內(nèi)外部數(shù)據(jù)高效獲取313大數(shù)據(jù)加工工具智能標注:通過對海量圖像、文本、音頻、視頻等4大類數(shù)據(jù)進行預(yù)訓(xùn)練形成智能標注模型算法,可支持自動標注和交互式標注,數(shù)據(jù)標注效率提升10倍以上。傳統(tǒng)大數(shù)據(jù)、數(shù)倉和數(shù)據(jù)庫系統(tǒng)的優(yōu)勢在于處理結(jié)構(gòu)化數(shù)據(jù)處理,但在大模型場景下存在大量的文本、圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù),缺少合適的數(shù)據(jù)清洗、標注和質(zhì)量評估的工具。為此,華為云打造了3大數(shù)據(jù)加工工具,幫助企業(yè)提升數(shù)據(jù)質(zhì)量。質(zhì)量評估:質(zhì)量評估工具供標準化、自動化的數(shù)據(jù)質(zhì)量評估功能,具有圖文格式、內(nèi)容信息、導(dǎo)向合規(guī)3大類檢測能力,包含15類指標項47個檢測點,讓數(shù)據(jù)質(zhì)量管理前移到數(shù)據(jù)獲取階段,從源頭優(yōu)化數(shù)據(jù)質(zhì)量。智能清洗:基于低代碼、可視化能力實現(xiàn)清洗任務(wù)編排,面向特定場景,用戶可以通過拖拉拽特定清洗算子實現(xiàn)數(shù)據(jù)自動化清洗,目前已覆蓋90%以上的企業(yè)數(shù)據(jù)清洗場景。智能化清洗標注|標準化質(zhì)量評估智能清洗算子全流程標注數(shù)據(jù)質(zhì)量評估豐富清洗算子|自動化數(shù)據(jù)流水線數(shù)據(jù)集和標注任務(wù)解耦|智能標注標準化評估|端到端迭代優(yōu)化資產(chǎn)管理數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)質(zhì)檢原始語
規(guī)則過
模型過去重分詞手動標注自動標注標注交互層可信度過濾重復(fù)性過濾自動清洗:格式正確性字符正確性文本重復(fù)通順性平臺化自動化圖像物體圖像聲音語音分類檢測分割分類內(nèi)容主動學(xué)習(xí)預(yù)標注語音文本命名文本視頻分割分類實體三元組標注交互式標注處理層正確性流程編排處理算子內(nèi)容歧義圖6.3智能數(shù)據(jù)加工3大數(shù)據(jù)利用工具數(shù)據(jù)安全:數(shù)據(jù)安全工具面向事前、事中和事后三階段構(gòu)建核心能力。事前主動構(gòu)建正向價值觀、負向數(shù)據(jù)和全量合規(guī)數(shù)據(jù)集,提供負向數(shù)據(jù)過濾和正向價值觀引導(dǎo)能力;事中通過正負向數(shù)據(jù)可視化配比,使模型知道什么是對的,什么錯的,具備正向價值觀、辨別是非能力;事后通過風(fēng)險管控能力,主動攔截輸入輸出風(fēng)險。智能配比:提供數(shù)據(jù)質(zhì)量分析、成分分析、場景配比和智能配比能力,能夠自動推薦合適的配比數(shù)據(jù)和比例,建立數(shù)據(jù)配比到模型效果的反饋優(yōu)化機制,基于應(yīng)用效果反饋持續(xù)調(diào)優(yōu)。理行業(yè)專屬優(yōu)質(zhì)數(shù)據(jù)集,通過數(shù)據(jù)血緣能力實現(xiàn)數(shù)據(jù)版本和模型版本的全流程關(guān)系可視,雙向可溯源,解決數(shù)據(jù)可用不可感知的問題。數(shù)據(jù)可視:提供數(shù)據(jù)資產(chǎn)看板,讓企業(yè)可視化管全生命周期數(shù)據(jù)安全合規(guī)|智能數(shù)據(jù)配比|企業(yè)級數(shù)據(jù)管理全生命周期數(shù)據(jù)安全智能數(shù)據(jù)配比企業(yè)級數(shù)據(jù)管理負向數(shù)據(jù)過濾|正向數(shù)據(jù)引導(dǎo)深度分析數(shù)據(jù)集|一鍵智能配比數(shù)據(jù)資產(chǎn)可視化|數(shù)據(jù)血緣事前事中事后行業(yè)數(shù)據(jù)集①質(zhì)量分析正向價值觀數(shù)據(jù)②成分分析配比模型訓(xùn)練風(fēng)險管控行業(yè)數(shù)據(jù)集行業(yè)專屬大模型③場景配比④智能配比負向數(shù)據(jù)調(diào)優(yōu)反饋全量安全合規(guī)數(shù)據(jù)效果反饋事前構(gòu)建正向價值觀數(shù)據(jù),過濾負向數(shù)據(jù)深度分析數(shù)據(jù)集,推薦配比數(shù)據(jù)和比例基于應(yīng)用效果反饋持續(xù)調(diào)優(yōu)全流程關(guān)系可視,雙向可溯源事中正負向數(shù)據(jù)合理配比,事后外掛風(fēng)控系統(tǒng)數(shù)據(jù)資產(chǎn)可視化管理,讓數(shù)據(jù)更好管圖6.4數(shù)據(jù)科學(xué)利用336.3價值收益8大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集50%10
+95%倍加工效率手工操作準確率34統(tǒng)一數(shù)據(jù)編碼創(chuàng)新多模數(shù)據(jù)統(tǒng)一編碼,預(yù)測最優(yōu)解7.1業(yè)界難題業(yè)務(wù)數(shù)據(jù)通常以價值高的結(jié)構(gòu)化數(shù)據(jù)為主,在預(yù)測時主要基于結(jié)構(gòu)化數(shù)據(jù)結(jié)合人工經(jīng)驗和工業(yè)機理,導(dǎo)致預(yù)測大模型技術(shù)的規(guī)模應(yīng)用仍然存在以下兩大挑戰(zhàn):數(shù)據(jù)來源多樣,人工適配工作量大:通常智能化場景多,不同領(lǐng)域?qū)λ惴ǖ囊笄Р钊f別,傳統(tǒng)方法不具備根據(jù)場景自動泛化能力,更無法統(tǒng)一建模,需要人工多次建模和調(diào)優(yōu)適配,開發(fā)周期長,導(dǎo)致模型難以批量復(fù)制和大規(guī)模應(yīng)用。數(shù)據(jù)種類單一,預(yù)測精度低:業(yè)界通用預(yù)測模型僅支持結(jié)構(gòu)化數(shù)據(jù)結(jié)合工藝去預(yù)測,缺少關(guān)鍵的過程圖文音視頻數(shù)據(jù)參與預(yù)測任務(wù),限制了預(yù)測大模型的應(yīng)用范圍和精度,通常僅能達到60%的精度。因此,需要統(tǒng)一數(shù)據(jù)編碼和統(tǒng)一預(yù)測大模型架構(gòu)來整合多樣、多源數(shù)據(jù)來提升預(yù)測精度和規(guī)模復(fù)制能力。7.2統(tǒng)一數(shù)據(jù)編碼:創(chuàng)新多模數(shù)據(jù)統(tǒng)一編碼,預(yù)測最優(yōu)解數(shù)據(jù)類型統(tǒng)一數(shù)據(jù)編碼1表格文本灰分1熱強2耐磨性3N…N…X1灰分熱強2X2X33耐磨性R13時間序列R12X1X3X5X1X2X3X4X5X2X4R23TimeR12X1X2X3X1X2X5X8X3X6X9圖文音視頻R24X47XXX645XX7X8X9更多類型X1X2圖7.1統(tǒng)一數(shù)據(jù)編碼36統(tǒng)一數(shù)據(jù)編碼征與特征之間通過可學(xué)習(xí)權(quán)重相連構(gòu)成三元組。由于結(jié)構(gòu)化數(shù)據(jù)拓撲結(jié)構(gòu)的模糊性,這里采用可學(xué)習(xí)的參數(shù)表征三元組拓撲結(jié)構(gòu)通過自學(xué)習(xí)確定對應(yīng)連接的值。大模型混合云創(chuàng)新統(tǒng)一數(shù)據(jù)編碼技術(shù),將不同來源的數(shù)據(jù)進行統(tǒng)一編碼轉(zhuǎn)換為三元組,使它們成為獨立的節(jié)點,消除不同模態(tài)數(shù)據(jù)之間的差異,再將這些編碼的節(jié)點統(tǒng)一按圖的方式組織,形成一個統(tǒng)一的、多樣化、大規(guī)模的訓(xùn)練數(shù)據(jù)集,讓模型具備處理不同模態(tài)數(shù)據(jù)的能力,使多維訓(xùn)推數(shù)據(jù)參與預(yù)測過程,提升模型精準度。常見的數(shù)據(jù)進行統(tǒng)一三元組編碼轉(zhuǎn)化過程如下:時序數(shù)據(jù):時序數(shù)據(jù)以時間點作為節(jié)點,臨近節(jié)點連接作為拓撲結(jié)構(gòu)形成三元組。圖像數(shù)據(jù):圖像數(shù)據(jù)經(jīng)過切分,連接圖塊與其他臨近的圖塊,形成三元組。結(jié)構(gòu)化數(shù)據(jù):將每一維特征作為一個節(jié)點,特統(tǒng)一預(yù)測大模型架構(gòu)在提升精度的同時,因為企業(yè)復(fù)雜多樣的生產(chǎn)場景對模型的泛化能力也有著較高要求,盤古預(yù)測大模型提供針對任意下游任務(wù)微調(diào)的能力,支持全量微調(diào)、LoRA和部分參數(shù)的微調(diào),使客戶從傳統(tǒng)AI模型按場景單獨建模,走向通過微調(diào)即可快速完成新場景的訓(xùn)練,使下游任務(wù)統(tǒng)一建模,高精度預(yù)測,實現(xiàn)“一模多用”。統(tǒng)一預(yù)訓(xùn)練大模型架構(gòu)主要由構(gòu)建統(tǒng)一三元組結(jié)構(gòu)、對三元組進行遮罩及添加噪聲、訓(xùn)練預(yù)訓(xùn)練模型三個部分組成,通過重建遮罩的部分數(shù)據(jù)完成模型的預(yù)訓(xùn)練,該方法實現(xiàn)了多種模態(tài)的統(tǒng)一預(yù)訓(xùn)練,通過遮罩三元組的節(jié)點或者邊使得預(yù)訓(xùn)練過程同時獲得數(shù)據(jù)的數(shù)值信息和拓撲結(jié)構(gòu),得到更加準確的預(yù)訓(xùn)練模型。統(tǒng)一預(yù)測大模型架構(gòu)表格文本時間序列關(guān)系網(wǎng)絡(luò)圖文音視頻……X1X2L1編碼層L…編碼層Ln解碼層最優(yōu)解圖7.2統(tǒng)一預(yù)測大模型架構(gòu)7.3價值收益創(chuàng)新多模數(shù)據(jù)統(tǒng)一編碼,預(yù)測最優(yōu)解10%天級微調(diào)上線預(yù)測精度38精細視覺神經(jīng)網(wǎng)絡(luò)對齊細節(jié),精準識別8.1業(yè)界難題視覺大模型已廣泛應(yīng)用在城市、政務(wù)、礦山、鐵路等領(lǐng)域,成為當(dāng)前應(yīng)用最廣泛的AI技術(shù)之一。但它也并不完美,尤其是在一些新的場景下,其精度和處理效率依然存在一些短板:通過隱式信息挖掘可以提升模型的訓(xùn)練粒度,但也可能引入噪聲,影響模型的泛化能力和精度,無法支撐視覺模型處理的規(guī)模使用。高分辨率圖像處理效率問題:高分辨率的圖像具有更多細節(jié)特征信息,影響著視覺模型的精度和泛化性。而在視覺模型訓(xùn)推過程中,需要將圖像切分為圖塊處理,計算量和圖塊數(shù)量平方成正比,考慮到企業(yè)有限的計算資源,亟需破解高分辨率場景下算力消耗劇增的難題。泛化能力弱,精度差:傳統(tǒng)視覺模型的主要問題是特征提取的語義粒度不完整和可重復(fù)性差。這主要是因為傳統(tǒng)訓(xùn)練方法只關(guān)注全局圖像和語義的對齊,而忽略了局部區(qū)域和語義之間的重要對齊關(guān)系,導(dǎo)致特征提取不完整。雖然8.2精細視覺神經(jīng)網(wǎng)絡(luò):對齊細節(jié),精準識別傳統(tǒng)全局對齊方案精細視覺神經(jīng)網(wǎng)絡(luò)區(qū)域標題1:奔跑中的貓和狗區(qū)域標題2:一對小動物區(qū)域標題…中華田園犬文本編碼器文本編碼器區(qū)域標簽1:狗區(qū)域標簽2:貓區(qū)域標簽…圖像編碼器(全圖重建)細粒度圖文對齊編碼器(視覺空間壓縮)特征提取不全精準、全面訓(xùn)推狗貓狗貓忽略圖文空間位置上下文和空間位置關(guān)系對齊...圖8.1精細視覺神經(jīng)網(wǎng)絡(luò)針對視覺分析中特征提取粒度不完整導(dǎo)致的模型泛化性弱、精度差以及有限算力資源挑戰(zhàn),大模型混合云創(chuàng)新精細視覺神經(jīng)網(wǎng)絡(luò),能精準、全面、高效地實現(xiàn)視覺任務(wù)的訓(xùn)練和推理,通過細粒度圖文對齊技術(shù),對像素、區(qū)域、全圖等不同層級進行對齊預(yù)訓(xùn)練,解決傳統(tǒng)方案忽視局部區(qū)域和語義之間的重要對齊關(guān)系問題;通過視覺空間壓縮技術(shù),對圖像冗余信息進行壓縮,解決高分辨率圖像處理效率問題。40細粒度圖文對齊大幅度提高盤古視覺大模型在不同粒度任務(wù)上的泛化性和準確性,該技術(shù)在圖像分類、檢測、分割等不同粒度視覺任務(wù)上實現(xiàn)了技術(shù)領(lǐng)先,突破了傳統(tǒng)全局圖像表征與文本關(guān)系對齊的局限性,并且有效避免了噪聲的影響,使得80%以上的場景能夠開箱即用。通過細粒度圖文對齊技術(shù)對訓(xùn)練的圖像數(shù)據(jù)先進行局部信息提煉,再實現(xiàn)區(qū)域特征與圖像特征的對齊,在計算圖像與文本描述之間的對比損失后,得到局部物體與對應(yīng)類別之間的對比損失,以及局部物體與局部文本描述之間的對比損失,...ROIAlign細粒度圖文對齊編碼器圖像特征+Bbox1Bbox2tag/labellossregion-ioss圖像特征Image-loss文本特征圖片標題圖片標簽區(qū)域1圖片標題/標簽區(qū)域2圖片標題/標簽...文本編碼器圖8.2細粒度圖文對齊視覺空間壓縮圖像本身的相似性來選出冗余的圖像信息,這一策略在預(yù)訓(xùn)練和推理階段均取得了很好的效果,使得采用同一套策略打通了上下游任務(wù)。在實際測試中,通過視覺空間壓縮40%的圖像信息,訓(xùn)推速度提升近一倍。視覺圖像信號通常具有高度的空間冗余信息,通過視覺空間壓縮技術(shù),在保持圖像關(guān)鍵信息的前提下,通過選擇性舍棄不太重要的冗余的圖塊信息,降低計算復(fù)雜度,顯著加快訓(xùn)推速度。除此之外,通過無需監(jiān)督信號的丟棄策略,直接根據(jù)傳統(tǒng)方案視覺空間壓縮*過程示意圖漸進壓縮圖像切分Stage1Stage2Stage3計算量計算量計算量計算量圖8.3視覺空間壓縮8.3價值收益對齊細節(jié),精準識別80%+80%+40%1倍場景開箱即用新場景精度計算量壓縮訓(xùn)推提速42無感斷點續(xù)訓(xùn)分鐘級感知恢復(fù),保障長穩(wěn)運行9.1業(yè)界難題大模型訓(xùn)練任務(wù)通常需要連續(xù)執(zhí)行數(shù)天甚至數(shù)月,出現(xiàn)的任何故障都可能造成訓(xùn)練中斷,導(dǎo)致算力空轉(zhuǎn),需實現(xiàn)故障的快速感知和恢復(fù)還要解決如下兩個問題:對于其他如網(wǎng)絡(luò)靜默丟包、網(wǎng)絡(luò)擁塞等不常見的故障,往往難以及時發(fā)現(xiàn),需數(shù)天時間才能感知。故障恢復(fù)僅支持重調(diào)度,耗時長:傳統(tǒng)故障恢復(fù)方案往往需要通過冷啟動重調(diào)度,對作業(yè)任務(wù)重新調(diào)度。如果資源不足,故障作業(yè)無法及時恢復(fù)會導(dǎo)致大量資源被空置。故障感知不全且感知慢:當(dāng)前業(yè)界方案僅能識別大約70%的常見故障,例如HBM多比特ECC故障、磁盤故障、網(wǎng)絡(luò)不通等。然而,9.2無感斷點續(xù)訓(xùn):分鐘級感知恢復(fù),保障長穩(wěn)運行斷點續(xù)訓(xùn)全棧故障模式庫三級故障快恢架構(gòu)進程級-原地恢復(fù)節(jié)點級-備機恢復(fù)集群級-作業(yè)恢復(fù)服務(wù)器(NPU)存儲交換機軟件分鐘級感知分鐘級恢復(fù)盤古大模型ModelArtsMindSpore開源AI框架計算存儲網(wǎng)絡(luò)圖9.1無感斷點續(xù)訓(xùn)44針對大模型訓(xùn)練過程中的故障感知和恢復(fù)慢的問題,大模型混合云創(chuàng)新無感斷點續(xù)訓(xùn)技術(shù),具備全棧故障模式庫和三級自愈架構(gòu),將故障感知和恢復(fù)的時間從小時級降至分鐘級,有效地避免因為故障導(dǎo)致大量算力空置的問題,從而提升大模型的穩(wěn)定性。復(fù)雜故障跨層跨域聯(lián)合感知:通過統(tǒng)一收集和管理計算、網(wǎng)絡(luò)、AI框架、AI開發(fā)平臺故障,構(gòu)建故障傳播鏈,快速定位故障源頭,具備全??梢暬晥D,實現(xiàn)跨層跨域的故障感知能力,解決非常見故障發(fā)現(xiàn)難的問題。全棧故障模式庫大模型訓(xùn)練故障往往涉及服務(wù)器、NPU、存儲、交換機、軟件等多個環(huán)節(jié),橫跨多個領(lǐng)域。業(yè)界通常僅有服務(wù)器和軟件2大類300+故障模式庫,華為提供跨領(lǐng)域的全棧模式庫,覆蓋95%的常見問題,實現(xiàn)最快1分鐘感知。4大類1000+種全棧故障模式庫硬件軟件盤古大模型服務(wù)器存儲常見故障分鐘級感知:結(jié)合華為長期服務(wù)企業(yè)積累的算力、網(wǎng)絡(luò)、軟件的運維經(jīng)驗,梳理包含服務(wù)器、NPU、存儲、交換機、軟件(包含操作系統(tǒng)、框架、平臺、大模型)的1000多種典型故障模式庫,讓95%以上的常見故障能夠分鐘級感知。ModelArtsMindSpore開源AI框架…網(wǎng)絡(luò)交換機圖9.2全棧故障模式庫三級自愈架構(gòu)點的任務(wù),覆蓋例如NPU故障、內(nèi)存故障、磁盤故障等場景。進程級自愈:針對可自修復(fù)的故障,采用進程自愈先掛起作業(yè),修復(fù)故障后再原地拉起進程,覆蓋例如HBM多比特ECC、網(wǎng)絡(luò)閃斷等70%常見故障。集群級自愈:針對未知的故障,采用集群自愈重新拉起集群作業(yè)恢復(fù),提供圖編譯緩存、CKPT并行加載等加速技術(shù),讓最復(fù)雜的故障能從小時級降至分鐘級。節(jié)點級自愈:針對整機節(jié)點級故障,啟用節(jié)點自愈機制隔離故障節(jié)點,僅需重新調(diào)度故障節(jié)三級自愈架構(gòu)進程級自愈節(jié)點級自愈集群級自愈原地恢復(fù)單機隔離重調(diào)度多機隔離作業(yè)重調(diào)度故障發(fā)生時恢復(fù)時JobJobJobJobJobJobJob隔離維修隔離維修正常狀態(tài)JobJob正常節(jié)點進程級故障故障節(jié)點離線節(jié)點圖9.3三級自愈架構(gòu)9.3價值收益分鐘級感知恢復(fù),保障長穩(wěn)運行95%分鐘級故障感知分鐘級故障恢復(fù)覆蓋常見故障46安全護欄立體檢測,智能攔截10.1業(yè)界難題大模型廣泛進入政企的生產(chǎn)系統(tǒng),在提升生產(chǎn)和工作效率的同時,也引入了一些新的風(fēng)險:內(nèi)容合規(guī)風(fēng)險:在數(shù)據(jù)收集、處理和訓(xùn)練過程中,存在圖文音多樣性數(shù)據(jù)樣本不均衡、錯誤價值觀等問題,導(dǎo)致大模型輸出帶有偏見或不符合價值觀的結(jié)果,產(chǎn)生負面影響。Prompt攻擊:大模型通常采用自然語言提供問答對話服務(wù)作為入口,但是惡意用戶通過特定構(gòu)造Prompt提示詞,來欺騙模型使其產(chǎn)生錯誤的結(jié)果,這種開放域?qū)映霾桓F的攻擊手段往往難以及時應(yīng)對。鑒偽檢測難:大模型如今已經(jīng)可以快速生成海量音視頻,其中不乏錯誤的信息。為保證模型可靠性,需要對信息進行回溯和鑒偽,并及時糾正錯誤。但在信息被修改、裁剪、二次創(chuàng)作等情況下,溯源變得困難。隱私泄露風(fēng)險:大模型的訓(xùn)練和推理過程中,會涉及到大量的隱私數(shù)據(jù)、電子虛擬財產(chǎn)等信息,攻擊者可能會采用各種手段繞過檢測,導(dǎo)致這些數(shù)據(jù)泄露,且在海量數(shù)據(jù)下難以甄別,帶來巨大的風(fēng)險。因此,建立全鏈路安全可信的大模型安全體系勢在必行,在確保大模型為政企業(yè)務(wù)創(chuàng)造價值的同時,也能夠保障個人隱私、內(nèi)容合規(guī)和信息的本質(zhì)安全。10.2安全護欄:立體檢測,智能攔截90%+30+種95%+毫秒級攔截攻擊隱私數(shù)據(jù)保護不良內(nèi)容攔截鑒偽響應(yīng)輸入輸出第一道防線第二道防線第三道防線第四道防線**************正常攻擊隱私數(shù)據(jù)偽造信息價值觀問題Prompt攻擊檢測隱私檢測脫敏內(nèi)容合規(guī)檢測生成式AI鑒偽檢測分類模型復(fù)雜語義檢測內(nèi)容智能審核鑒偽檢測模型安全護欄1+7安全體系物理安全運維身份認證主機數(shù)據(jù)網(wǎng)絡(luò)應(yīng)用統(tǒng)一安全運營中心圖10.1安全護欄48華為云Stack在云平臺層面提供1個安全運營中心和物理安全、身份認證、網(wǎng)絡(luò)、應(yīng)用、主機、數(shù)據(jù)、運維7層安全體系,在此基礎(chǔ)上面向大模型新型攻擊提供安全護欄,是業(yè)界首個在中國信通院安全可信評測中達到5級的大模型安全方案,具有Prompt攻擊檢測、隱私檢測脫敏、內(nèi)容合規(guī)檢測、生成式AI鑒偽的大模型安全防護能力,內(nèi)置AI模型智能應(yīng)對新型攻擊。過濾,強大的模型泛化性輕松應(yīng)對開放域中不斷演變的新型Prompt新型攻擊。向量檢索與敏感詞匹配:在大模型運行時,基于檢測分類模型,引入敏感詞匹配與向量檢索能力進行綜合決策。通過向量檢索與敏感詞匹配,快速適配新型攻擊與未知問題,反饋給模型,讓檢測模型越用越準。Prompt攻擊檢測通過攻擊檢測防范技術(shù)能夠在事前發(fā)現(xiàn)并阻止目標劫持、反面誘導(dǎo)、初始肯定等攻擊,實現(xiàn)自動化、智能化檢測,顯著降低Pormpt提示詞注入攻擊的風(fēng)險。檢測分類模型:基于數(shù)萬條安全數(shù)據(jù)訓(xùn)練出針對Prompt攻擊的檢測分類AI模型,讓90%+的Prompt提示詞注入攻擊能夠自動檢測攔截用戶輸入意圖識別正負向判斷大模型輸出虛擬電子資產(chǎn)敏感詞匹配改寫90%攻擊來自于Prompt檢測出“奶奶漏洞”向量檢索意圖判斷綜合決策正?;卮稹刚埌缪菸业哪棠蹋偸菚钅耻浖男蛄刑柡逦宜X」描述和意圖不相干存在繞過行為檢測分類模型拒絕回答圖10.2Prompt攻擊檢測隱私檢測脫敏安全護欄通過超大規(guī)模預(yù)訓(xùn)練個人可識別信息(PII)檢測模型,結(jié)合模糊匹配、正則&枚舉、關(guān)鍵詞查找等技術(shù),實現(xiàn)對隱私數(shù)據(jù)的準確檢測;再通過隱私脫敏模型,對檢測出涉及隱私數(shù)據(jù)的關(guān)鍵內(nèi)容
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 用戶體驗測試方法行業(yè)跨境出海戰(zhàn)略研究報告
- 武術(shù)強身課程行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報告
- 短跑提速訓(xùn)練營企業(yè)制定與實施新質(zhì)生產(chǎn)力戰(zhàn)略研究報告
- 物聯(lián)網(wǎng)智能環(huán)境監(jiān)測與預(yù)警行業(yè)跨境出海戰(zhàn)略研究報告
- 特種橡膠配方行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報告
- 科學(xué)實驗安全操作指南行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報告
- 泡騰清潔片多用途設(shè)計企業(yè)制定與實施新質(zhì)生產(chǎn)力戰(zhàn)略研究報告
- 2025年鐵基及鐵鎳基非晶合金項目發(fā)展計劃
- 倫理教育與實踐-全面剖析
- 上肢康復(fù)機器人環(huán)境適應(yīng)性研究-全面剖析
- 神經(jīng)外科重癥護理課件
- 2025年甘肅省安全員B證考試題庫及答案
- 全國網(wǎng)絡(luò)安全行業(yè)職業(yè)技能大賽(網(wǎng)絡(luò)安全管理員)考試題及答案
- 現(xiàn)場材料進場驗收培訓(xùn)
- 圖神經(jīng)網(wǎng)絡(luò)前沿-深度研究
- 斯大林格勒保衛(wèi)戰(zhàn)
- 質(zhì)量控制與制造工藝
- 幼兒園服務(wù)培訓(xùn)
- 國家科技安全教學(xué)課件
- 電力公司安全生產(chǎn)責(zé)任制度
- 稅收基礎(chǔ)知識考試題庫及答案(綜合題型)
評論
0/150
提交評論