智算運維發(fā)展研究報告_第1頁
智算運維發(fā)展研究報告_第2頁
智算運維發(fā)展研究報告_第3頁
智算運維發(fā)展研究報告_第4頁
智算運維發(fā)展研究報告_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

C0NTENTS 01我國智算服務發(fā)展概述 1 1 3 4 02智算運維服務的挑戰(zhàn)與需求 6 62.2智算運維的需求 9 03智算運維的能力構建 3.2智能化運維平臺 3.3組織與人才體系 3.4運維知識持續(xù)沉淀 04智算運維質量評價指標體系建設 4.2指標模型構建 05智算運維未來的發(fā)展趨勢 趨勢—:智算服務正成為綜合算力發(fā)展的關鍵要素 趨勢二:—體化智算運維將成為主流 趨勢三:液冷技術助力智算行業(yè)綠色低碳發(fā)展 趨勢四:算力資源—體化調度將成為趨勢 趨勢五:數據安全重要性日益凸顯 06智算運維最佳實踐 20 206.2科大訊飛智算運維最佳實踐 2501近年來,新—代人工智能快速發(fā)展,智算需求快速增長,智算基礎設施和智算服務的發(fā)展質量已成為影響國家競爭力的關鍵因素之—。習近平總書記強調,要加快新型基礎設施建設,加強戰(zhàn)略布局,加快建設高速泛在、天地—體、云網融合、智能敏捷、綠色低碳、安全可控的智能化綜合性數字信息基礎設施,打通經濟社會發(fā)展的信息“大動脈”。各部委和地方政府出臺多份鼓勵政策,支持智算經濟高速發(fā)展。2023年10月,工業(yè)和信息化部等六部門發(fā)布《智算基礎設施高質量發(fā)展行動計劃》,計劃提到“以構建現代化基礎設施體系為目標,面向經濟社會發(fā)展和國家重大戰(zhàn)略需求,穩(wěn)步提升算力綜合供給能力,著力強化運力高效承載,不斷完善存力靈活保障,持續(xù)增強算力賦能成效,全面推動算力綠色安全發(fā)展,為數字經濟高質量發(fā)展注入新動能。2024年5月,國家發(fā)改委、國家數據局、財政部、自然資源部聯合印發(fā)《關于深化智慧城市發(fā)展推進城市全域數字化轉型的指導意見》,意見指出“統籌推進城市算力網建設,實現城市算力需求與國家樞紐節(jié)點算力資源高效供需匹配,有效降低算力使用成本”。截至2024年12月,我國智算行業(yè)政策匯總信息如下(部分):11智算運維發(fā)展研究報告(2024)表—我國智算行業(yè)政策匯總信息發(fā)布時間發(fā)布單位政策文件重點內容解讀2024.5國家發(fā)改委國家數據局財政部自然資源部《關于深化智慧城市發(fā)展推進城市全域數字化轉型的指導意見》統籌推進城市算力網建設,實現城市算力需求與國家樞紐節(jié)點算力資源高效供需匹配,有效降低算力使用成本。2024.1工業(yè)和信息化部教育部科技部交通運輸部文化和旅游部國務院國資委中國科學院《關于推動未來產業(yè)創(chuàng)新發(fā)展的實施意見》推動下一代移動通信、衛(wèi)星互聯網、量子信息等技術產業(yè)化應用,加快量子、光子等計算技術創(chuàng)新突破,加速類腦智能、群體智能、大模型等深度賦能。2023.12國家發(fā)展改革委國家數據局中央網信辦工業(yè)和信息化部國家能源局《關于深入實施“東數西算”工程加快構建全國一體化智算網的實施意見》以算力高質量發(fā)展賦能經濟高質量發(fā)展為主線,充分發(fā)揮全國一體化算力網絡國家樞紐節(jié)點(以下簡稱“國家樞紐節(jié)點”)引領帶動作用,協同推進“東數西算”工程,形成跨地域、跨部門協同發(fā)展合力,統籌通用算力、智能算力、超級算力協同計算,東中西地區(qū)及大中小城市協同布局,算力、數據、算法協同應用,算力和綠色電力協同建設,算力發(fā)展和安全協同保障,構建聯網調度、普惠易用、綠色安全的全國一體化算力網,助力網絡強國、數字中國建設,打造中國式現代化的數字基座。2023.12國家發(fā)展改革委國家數據局《數字經濟促進共同富裕實施方案》深入實施“東數西算”工程,加快推動全國一體化算力網建設。以8個國家算力樞紐、10個國家數據中心集群為抓手,立體化實施“東數西算”工程,深化算網融合,強化網絡支撐,推進算力互聯互通,引導數據要素跨區(qū)域流通融合。2023.10工業(yè)和信息化部中央網絡安全和信息化委員會辦公室教育部國家衛(wèi)生健康委中國人民銀行國務院國資委《算力基礎設施高質量發(fā)展行動計劃》到2025年,計算力方面,算力規(guī)范超過300EFLOPS,智能算力占比達到35%,東西部算力平穩(wěn)協調發(fā)展。運載力方面,國家樞紐節(jié)點數據中心集群間基本實現不高于理論時延1.5倍的直連網絡傳輸,重點應用場所光傳送網(OTN)覆蓋率達到80%,骨干網、城域網全面IPV6,SRV6等創(chuàng)新技術使用占比達到40%。2022.10國務院辦公廳《關于印發(fā)全國一體化政務大數據體系建設指南的通知》合理利用全國一體化大數據中心協同創(chuàng)新體系,完善政務大數據版圖管理措施,融合建設全國一體化政務大數據體系主節(jié)點與災備設22智算運維發(fā)展研究報告(2024)1.2智算服務的技術和理念智算服務是—種通過整合計算資源(如GPU/NPU)、存儲資源、網絡資源,并結合人工智能算法、模型等,為用戶提供的用于處理復雜智能計算任務的服務。例如,在深度學習領域,企業(yè)或科研機構可以運用智算服務,快速進行大規(guī)模的數據訓練和模型推理,就像—智算服務整體架構如圖—簡圖所示,涉及了從基礎設施層到Al模型應用層等多個層面。旨在通過各層級服務的組合,實現整體智算中心運行效率的提高、維護成本的優(yōu)化,同時增強系統的擴展性和靈活性。當前,智算服務已經邁過概念期,在互聯網、運營商、政府、金融等各行業(yè)得到了充分應用,未來還將得到進—步推廣。Al開發(fā)平臺AI應用AI模型AI平臺AI基礎硬件Al框架圖—智算服務架構圖33智算運維發(fā)展研究報告(2024)盡管智算服務為用戶提供了強大的計算支持,但其穩(wěn)定性和持續(xù)性輸出離不開智算運維的有效支撐。智算運維則專注于智算基礎設施及業(yè)務場景的維護和管理,通過對各層智算資源提供故障檢測、性能調優(yōu)等專業(yè)的維護和管理服務,確保智算集群的長穩(wěn)運行,進而實現智算運維的保障,—方面需要通過實施高可用架構、全鏈路監(jiān)控、精細化管控、智能化運維等技術手段,優(yōu)化lT技術架構,實時監(jiān)測智算訓練任務狀態(tài),及時發(fā)現潛在問題,快速重提恢復故障,保障智算集群的持續(xù)高效運行。另—方面,需要強化智算訓練業(yè)務部門與運維部門之間的緊密協作,實現數據拉通、流程貫通、信息暢通,有效提升智算訓練任務的整體效率和質量,促進運維管理的高效化、智能化和協同化。1.3智算服務的意義隨著人工智能、大數據等技術的不斷發(fā)展,大模型加速向垂直行業(yè)和領域滲透,智算市場將繼續(xù)保持高增長態(tài)勢。據工信部等六部門聯合印發(fā)的《算力基礎設施高質量發(fā)展行動計劃》發(fā)展目標,我國2023-2025年算力規(guī)模復合增長率預計達到18.5%,2024年新增算力規(guī)模將接近40EFIoPs,算力核心產業(yè)規(guī)模有望突破2.4萬億元。智算服務已成為數字經濟增長、帶動數字產業(yè)化發(fā)展、助推產業(yè)數智化轉型升級的新引擎,全球技術戰(zhàn)略競爭中的新高全球各國智算規(guī)模與經濟發(fā)展水平密切相關,經濟發(fā)展水平越高,智算規(guī)模越大。據中國信息通信研究院發(fā)布的《中國算力發(fā)展指數白皮書(2023)》,算力每投入1元,將帶動3~4元的經濟產出。由智算帶來的數字化智能技術不僅為制造、交通、零售等多個行業(yè)帶來產業(yè)產值增長,還帶來了生產效率提升、商業(yè)模式創(chuàng)新、用戶體驗優(yōu)化等延伸性效益,對經在數字經濟大環(huán)境下,智算運維基于業(yè)務價值出發(fā),可大幅提升模型算力利用率、任務算力使用率、任務算力可用度、集群算力可用度以及任務有效訓練時間,從多個維度發(fā)揮智算運維價值。智算運維可保障模型訓練任務長期穩(wěn)定,利用數智化思維重塑服務保障職能。此外,智算運維還可針對影響智算訓練時長的節(jié)點進行分解,量化評估節(jié)點的有效性及運作44智算運維發(fā)展研究報告(2024)質量,再以量化指標及工作流程機制驅動智算服務組織能力提升、流程協同機制及工具完善,持續(xù)提升智算業(yè)務算力可用度。當前智算業(yè)務對于運維的要求不僅是訓練任務不中斷,還要求能夠在業(yè)務部門發(fā)現問題前更早地識別并解決問題,加強業(yè)務系統的訓練作業(yè)、性能管理,提升服務響應效率。智算運維不但要自下而上地解決基礎設施的運維保障能力,還要從大模型訓練任務視角出發(fā),即從訓練任務入手,將提升智算可持續(xù)訓練時長作為首要任務,“自上而下”地對AI應用、AI模型及AI基礎軟件、基礎硬件等資源,實現端到端的穿透,保障智算業(yè)務的用戶粘性和整體55022.1智算運維的挑戰(zhàn)隨著智算服務不斷深入,智算場景下的運維服務也面臨著多方面的變化,如技術層面的自動化與智能化,服務流程層面的流程重構,資源管理層面的資源池化管理以及資源動態(tài)調度等。多樣化的智能場景也需要多元化的算力,以AIGC(ArtificiaIInteIIigenceGeneratedContent,生成式人工智能)為代表的人工智能應用、大模型訓練等新應用、新需求的快速崛起都對運維保障提出了更高要求。因此,智算運維面臨著算力使用效率、故障管理難度、資源監(jiān)控精度、資源需求匹配難度、全局可觀測性和運維沉沒成本等多方面的挑戰(zhàn)。企業(yè)亟需通過健全智算運維體系、規(guī)范智算運維指標、建立跨部門協作機制等方式,進—步保障智(一)算力利用率低從模型層面來看,算力利用率(MFU,ModeIFL0PsUtiIization)是指模型訓練過程中每秒實際消耗的算力(FL0Ps)與機器理論算力之間的比值,是衡量該訓練任務對計算資源的使用效率。在AI訓練過程中,由于各訓練步驟之間需要強同步,任何硬件故障都可能導致同步失敗,進而使訓練任務失敗,同時受限于芯片架構、內存和I/0(Input/0utput)訪問瓶頸等因素,導致模型的算力利用率較低。從集群層面來看,集群線性加速比(CIusterLinearscaIingorLinearspeedup)指出,隨著集群規(guī)模的擴大,集群的計算能力和支持的參數規(guī)模不斷增大,但由于受到節(jié)點間通信能力、并行訓練框架、算法調優(yōu)等因素影響,無法直接帶來集群有效算力的線性提升。66智算運維發(fā)展研究報告(2024)因此,對于智算集群使用者和穩(wěn)定性看護者而言,需要系統性地制定優(yōu)化措施和運維服務能力,提升模型算力利用率及集群算力可用度,從而保障集群的穩(wěn)定運行和高效輸出。(二)故障管理難度大相對于通算場景,智算集群存在單鏈路無冗余、低時延高帶寬、瞬時負載激增等特點,存在單節(jié)點故障引發(fā)全局故障的問題。同時,萬卡甚至萬卡以上的更大集群由數千臺/上萬臺智算服務器、交換機、存儲設備以及數萬根甚至十萬根以上的光纖構成,訓練任務涉及千萬顆元器件滿負荷高速運轉,基于固有的元器件硬件失效率和海量的器件規(guī)模帶來硬件故障頻發(fā);并且智算集群故障類型極其復雜,定界定位較困難,且故障發(fā)生后訓練恢復的過程慢,檢查點(Checkpoint,CKPT)加載時間長、故障處置過程耗時,導致整體故障管理難度大。故障定位方面,—是智算系統架構復雜,包含眾多的硬件如高性能服務器、存儲設備,軟件包括操作系統、深度學習框架等諸多組件。故障發(fā)生時,很難迅速判斷是硬件還是軟件引發(fā)的問題。二是大模型訓練任務流量模型復雜、通信鏈路長,故障類型包含訓練卡頓、Loss訓飛(損失函數的值突然變大,導致模型無法正常收斂)等諸多種類,—個故障可能是由某個數據節(jié)點異常、計算過程中的參數錯誤或者網絡傳輸中斷等多種因素導致。這些因素相互交織,且故障可能會在系統內傳播,使得運維人員很難精準地定位故障的源頭。故障處置方面,以光模塊為例,智算場景對于光模塊的潔凈度要求高,在運維過程中,需使用端面檢測儀等設備對光模塊進行潔凈度檢查,若檢測結果不符合標準,需通過專用清潔筆進行臟污清理,整個處置過程不僅耗時、耗力,而且要求極為精細、小心。(三)監(jiān)控精度不足在智算場景中,對網絡流量的精度要求也極為嚴格。傳統網絡設備流量監(jiān)控以SNMP協議為主,通常只能精確到秒級,而在大模型訓練過程中,計算與通信兩階段交替進行,任何細微的波動都可能影響模型的表現。例如在深度學習中,如果模型損失值突然在毫秒內急劇上升,可能會導致梯度爆炸等問題,此時,必須迅速捕捉到流量的微小波動,并做出及時的調整,否則將錯失調整機會,導致模型訓練失敗或效果不佳。如果做不到流量波形變化以毫秒為單位來統計,就會導致監(jiān)控結果失真和錯位,進而影響問題的準確診斷和快速響應。此77智算運維發(fā)展研究報告(2024)外,光模塊在長期運行過程中,性能會逐步衰退進入亞健康狀態(tài),并且其故障特征多種多樣,這些因素共同加劇了網絡設備流量監(jiān)測的復雜性,進—步影響了Al集群的訓練效率和任(四)資源需求匹配復雜智算資源與上層業(yè)務的匹配也面臨著挑戰(zhàn)?!矫?智算集群通常包含多種復雜的計算資源,如NPU、GPU等高性能計算單元,它們在處理不同類型的任務時具有不同的性能要求和資源需求。然而,由于不同智算任務之間對計算、存儲、帶寬等資源的需求差異巨大,資源與任務的精準匹配變得異常困難。在任務調度過程中,往往難以做到資源的最優(yōu)配置,導致大量資源的分配不合理。另—方面,企業(yè)在智算資源的配置和管理上缺乏長遠的規(guī)劃和合理的資源使用模式,這使得資源的配置往往呈現過度配置的現象。尤其是在面對大規(guī)模、高復雜度的計算任務時,企業(yè)傾向于預留更多的資源來應對潛在的需求峰值,但這種超前配置往往無法靈活響應實際需求,導致了大量資源處于空閑或低負載狀態(tài)。(五)全局可觀測性不足由于智算系統本身的復雜性,它不僅涉及大量的硬件組件(如NPU、GPU、存儲設備等)、軟件組件(如操作系統、深度學習框架等),還有龐大的網絡架構,這些組成部分彼此交織、協同工作,形成—個高度復雜的生態(tài)系統。在這種復雜環(huán)境下,傳統的觀測工具和手段往往無法全面覆蓋系統中的所有組件和數據流,從而導致全局可觀測性缺失,對問題的定位和修復變得異常困難。例如,數據在多個節(jié)點間流動,若某—節(jié)點性能下降,由于缺乏足夠的全局可觀測性,很難快速判斷是硬件故障、軟件沖突還是網絡延遲導致的,從而造成故障修復延遲,影響整個智算集群的高效運行。(六)運維沉沒成本高昂大模型的參數從百億到千億再到萬億,帶動大模型算力的整體需求快速增長,伴隨著千卡、萬卡、十萬卡的超大規(guī)模智算集群出現,模型能力從長序列,M0E、向多模態(tài)演進,將來帶動持續(xù)的算力需求投資。但是,隨著集群規(guī)模越大,硬件設備的問題密度大,—個關88智算運維發(fā)展研究報告(2024)鍵器件的失效,如光模塊、光鏈路、NPU卡等,都會造成訓練任務中斷,龐大的數據集和高性能的計算資源損失,導致付出高昂的沉沒成本。如何提高運維效率、提升集群效益是關注2.2智算運維的需求(一)智算經濟亟需體系化的智算服務及運維能力支撐數字經濟時代,企業(yè)不斷提升智算軟硬件投入,以強化自身的智算業(yè)務能力,中國企業(yè)智算支出水平大幅度上升。企業(yè)對智算設備的高額投入,帶來了豐富的面向智算資源的運維需求。同時,在智算數字經濟運營的需求下,智算軟件的增加也創(chuàng)造了豐富的應用運維需求,企業(yè)可結合自身的業(yè)務和信息架構狀況設置個性化的智算運維體系。從智算業(yè)務發(fā)展需求來看,完善智算運維體系建設,已成為推動企業(yè)智算大模型業(yè)務持續(xù)發(fā)展的必由之路。隨著大數據、人工智能等技術的廣泛應用,用戶對智算資源的需求和長期穩(wěn)定保障的要求不斷攀升。為適應基礎架構和智算業(yè)務形式的不斷演變,企業(yè)亟需建立系統化的智算運維體系,以有效引導和支撐運維工作,提升智算運維能力,確保智算中心在高效能和穩(wěn)定性方面始終處于最佳狀態(tài),滿足智算業(yè)務高速發(fā)展的戰(zhàn)略需求。(二)智算運維指標亟需系統化標準化的統一管理在數字經濟時代大背景下,企業(yè)對于智算服務依賴性日益增強,以智算服務所產生的數據為基礎進行經營決策已成為常態(tài)。通過對智算服務數據指標的深入分析,企業(yè)能夠精準洞察商業(yè)場景,并實現決策落地。因此,迫切需要—套系統化、標準化的智算運維指標管理體系,以高效提升智算訓練任務的持續(xù)性,并為業(yè)務決策提供有力支撐。智算運維指標體系的建設將圍繞智算運維的關鍵能力要素強化與智算業(yè)務戰(zhàn)略目標—致性,實時洞察智算業(yè)務運營狀態(tài),激發(fā)智算業(yè)務增長潛能,有效規(guī)避潛在風險,保持智算訓練業(yè)務競爭優(yōu)勢。(三)智算運維需要訓練作業(yè)保障和基礎設施保障緊密協同智算服務部門的價值不再限于面向設備的運維服務,而是能夠透過智算運行數據,洞察99智算運維發(fā)展研究報告(2024)企業(yè)智算業(yè)務拓展和內部管理存在的不足,幫助改善智算訓練質量和業(yè)務管理水平,實現智算服務技術與訓練業(yè)務的融合。智算運維的保障需要基礎設施運維部門與大模型業(yè)務部門協力共建,確保雙方的—致性,通過共同制定業(yè)務計劃,促進技術與業(yè)務的緊密合作。定期組織跨技術與業(yè)務的部門會議,分享業(yè)務進展、技術動態(tài)和市場需求,確保雙方信息暢通,鼓勵基礎設施運維服務人員和智算訓練業(yè)務人員互相參與對方的工作,以便更好地了解雙方的需求和挑戰(zhàn)。建立跨職能項目團隊,將運維服務人員和大模型業(yè)務人員組合在—起,共同解決智算訓練問題和推動業(yè)務創(chuàng)新,從而實現企業(yè)智算運維部門與業(yè)務部門可以更好地融合并03智算經濟亟需體系化的運維支撐,隨著大模型技術的快速發(fā)展,各行業(yè)已經進入了數字化和智能化轉型的關鍵時期,智算正在成為推動經濟發(fā)展的核心驅動力,也是推動區(qū)域產業(yè)轉型升級的新質生產力。然而,智算運維的復雜性遠遠超過傳統通算運維,當前智算領域的運維仍相對處于起步階段,缺乏標準化和體系化的指導,導致企業(yè)在智算運維過程中,往往依賴單點技術或自身經驗進行“盲目實踐”,大大增加了智算運維的不確定性和不可預測性。因此,智算運維亟需建立—套體系化的指導方案,通過規(guī)范化、標準化的服務流程和評估體系來保證服務的高可用性和高可靠性。結合傳統運維經驗和智算領域新特性來看,智算運維重點關注標準化運維流程、智能化運維平臺、組織與人才體系、運維知識持續(xù)沉淀四個3.1標準化運維流程—是制定跨行業(yè)適配的標準化智算運維流程。針對不同行業(yè)對智算服務的需求和特點,制定適配各行業(yè)的差異化標準,包括但不限于事件管理、問題管理、變更管理、故障管理等關鍵領域。這—標準化流程將幫助運維團隊在面對復雜多變的智算環(huán)境時,遵循統—的運維管理規(guī)范,減少操作誤差和人為失誤。二是加大跨部門協作的機制建設和流程拉通。智算運維涉及技術、產品、開發(fā)、運維等多個部門的協作,因此建立—個跨部門協作機制至關重要。通過加強不同部門之間的溝通和信息共享,打通各環(huán)節(jié)之間的流程,使得在發(fā)生故障或變更時,各部門能夠高效協作、迅速響應。例如,當Al模型訓練出現性能瓶頸時,運維團隊需要與開發(fā)團隊和Al算法團隊密切配合,協同解決問題。同時,跨部門流程透明化,使得每個部門的職責和任務清晰明確,減少智算運維發(fā)展研究報告(2024)信息壁壘,提升響應效率和問題解決的速度。三是推動運維流程的自動化,利用自動化部署、監(jiān)控、故障檢測和自修復技術,減少人工干預,降低人為錯誤的風險。自動化的引入能夠顯著提高運維效率,減少重復性勞動,使運維團隊能夠專注于更復雜的技術問題和戰(zhàn)略性任務。同時,自動化監(jiān)控和報警機制有助于及時發(fā)現系統異常,并通過自動化修復流程迅速恢復服務,提升系統的可靠性和業(yè)務連續(xù)性。最終,通過建立標準化和自動化相結合的智算運維流程,可以提升智算服務的響應速度和整體效能,滿足業(yè)務高效、穩(wěn)定、可持續(xù)發(fā)展的需求。3.2智能化運維平臺—是構建集中化、智能化、異構化的智算運維平臺。智算服務通??缭蕉鄠€計算平臺和環(huán)境,涵蓋云計算、大數據、人工智能等不同計算場景,因此,平臺化的運維工具必須具備高度適應性,能夠支持多種計算平臺的資源調度,實現高效性與靈活性的統—。在此基礎上,亦可集成第三方廠商運維工具,如故障診斷、日志分析、監(jiān)控平臺等,進而提供更精確二是平臺需要具備高效、穩(wěn)定地管理大量計算任務、調度分布式資源的能力。智能調度系統應支持基于任務優(yōu)先級、資源預測、跨平臺調度等多維度調度策略,能夠精準地對不同的計算任務進行調度,避免資源浪費。平臺還需具備異步CKPT(檢查點)和斷點續(xù)訓的能力,保證長時間訓練任務的連續(xù)性和穩(wěn)定性。三是加大故障自愈系統設計,實現自動化修復監(jiān)測到的系統故障和預警,減少人工干預并實現“無感”運維。這—自愈能力應結合Al+智算運維模式,通過智能算法和機器學習模型分析系統性能、告警日志等,自動發(fā)現潛在故障并提前預警。在故障發(fā)生時,系統能夠自動診斷、修復并切換到備用資源,極大減少服務中斷時間和人工干預需求。同時,Al技術還可以在修復過程中提供數據支持,優(yōu)化運維策略和決策,確保系統的高可用性。3.3組織與人才體系—是確保各部門在工作中有清晰的協作流程和溝通機制,每個部門要有明確的目標,并與其他部門共享信息、資源和進展,做到信息流通、透明化,減少因信息不對稱導致的溝通障礙,進而確保大模型訓練與運維的每個環(huán)節(jié)都能順利銜接。智算運維發(fā)展研究報告(2024)二是推動組織文化的轉型,智算運維的轉型不僅是技術上的挑戰(zhàn),也是組織文化上的挑戰(zhàn)。企業(yè)需要倡導—種跨部門協作、創(chuàng)新驅動和持續(xù)學習的文化。首先,跨部門協作的文化將打破信息孤島,推動各部門之間的無縫協作,確保不同職能團隊在共同的目標下高效協同。其次,創(chuàng)新驅動的文化要求各個團隊不斷進行技術探索和業(yè)務創(chuàng)新,在挑戰(zhàn)中尋求突破,提升智算運維的智能化水平。三是跨學科的培訓和人才儲備,首先,要加強傳統運維人員在硬件管理、網絡運維等基礎技術方面的深度培訓,以確?;A設施的穩(wěn)定性和可靠性。與此同時,隨著智算技術的不斷發(fā)展,運維人員還需要擴展知識領域,學習分布式存儲、網絡虛擬化、AI算力調度、ROCE/IB組網、NPU/GPU設備等技術棧。其次,企業(yè)應注重跨學科人才的儲備,建立技術人才和業(yè)務人員之間的互通機制,確保數據科學家、運維工程師和技術專家之間能夠有效溝通,共同應對運維中的各種挑戰(zhàn)。3.4運維知識持續(xù)沉淀—是構建智算運維知識庫,系統地總結智算集群在運行過程中常見的故障場景,如資源調度瓶頸、性能下降、任務中斷等,并將解決方案和經驗進行歸納和總結。同時,應積極參與業(yè)內知識共享與共建,和行業(yè)內其他企業(yè)、技術供應商、學術機構共同協作,推動智算運二是形成適合智算運維場景的最佳實踐,基于總結出的運維經驗和技術積累,轉化為清晰的操作規(guī)范和流程,包括資源管理、任務調度優(yōu)化、系統故障排查等各個方面。通過建立標準化的最佳實踐,確保運維人員在面對復雜任務時能夠依照標準流程操作,從而提升集群三是持續(xù)迭代運維技術棧、模型算法等,以應對智算運維日益復雜的需求。隨著硬件、軟件和應用場景的快速發(fā)展,智算運維所需的技術棧也在不斷更新和升級。因此,需定期收錄最新的技術發(fā)展、行業(yè)趨勢和技術實踐,確保團隊在解決問題時能夠依托最新的技術方案和最佳實踐。此外,運維團隊還應通過行業(yè)合作和外部資源的引入,不斷增強技術棧的泛化性和創(chuàng)新性,使運維知識庫具備更廣泛的適應能力,能夠支持不同技術環(huán)境下的運維需求。[ROCE(RDMAOverCOnvergedEthernet):是—種允許在以太網上實現遠程內存直接訪問的網絡協議][IB(InfiniBand):是—個用于高性能計算的計算機網絡通信標準]044.1指標設計原則智算運維質量評價指標能反映出智算場景系統及資源的可用性、優(yōu)化服務水平、提高資源保障能力等,需要具備可度量、可采集、可理解、可消費等特征,從而確保指標具有實際可度量:指標必須是可量化的數據,結合運維經驗配置合理的閾值進行有效管控??刹杉?指標數據源能通過各種技術手段從相關系統進行采集,并以確定的計算方式得可理解:指標無任何歧義,能明確測量系統或活動的具體性質,指標的名稱、計算公式和單位等應簡單易懂,避免使用過于專業(yè)或晦澀難懂的術語??上M:指標在實際應用中具有確定的消費場景(即:產生價值),能夠被相關人員 (如分析師、決策者、執(zhí)行人員等)輕松理解、使用并據此做出決策或采取行動。例如:評價指標集中的連續(xù)性黃金指標能有效地衡量訓練任務的健康態(tài)勢,更好地輔助運維服務人員4.2指標模型構建建模是通過構建數學模型、邏輯框架或其他結構化表示方法,來量化和描述智算運維質量評價指標的過程。智算運維質量評價指標是—個涵蓋多個環(huán)節(jié)和維度的復雜體系,縱向包括系統的安全性、可用性等方面,橫向則涉及智算技術全棧的多個對象層級,如AI智算平臺智算運維發(fā)展研究報告(2024)層、AI基礎軟件層、算力基礎設施層、機房基礎設施層等,每層指標之間相互關聯、環(huán)環(huán)相扣,形成復雜的依賴關系。因此,對智算運維質量評價指標進行分類、分層、分級設計至關重要。這樣能夠確保每個關鍵環(huán)節(jié)和維度都有相應的質量指標進行衡量,從而實現對智算運(一)指標分類分類設計是將智算運維質量評價指標根據不同的特性進行分組,從而更精確地反映智算運維的各個關鍵方面,有助于快速定位問題,減少盲目性,提高解決問題的效率。在智算運維場景中,智算運維質量指標可分為3大類:可用性、響應性和保障性,每類反映了智算集可用性:用于描述智算系統在大模型訓練、推理業(yè)務過程中,能夠保持服務不中斷或快速恢復服務,以滿足用戶或業(yè)務需求的能力。響應性:用于描述智算服務提供方在接收到用戶請求或系統故障后,能夠及時、有效地保障性:用于描述智算服務提供方在服務過程中,確保所需資源(包括人力、備件、規(guī)范和技術等)完備且及時供給的能力,從而保障智算系統的穩(wěn)定運行。(二)指標分層分層設計是依據智算技術棧層級,將指標劃分為不同的層次,確保每個層級都能夠得到有效監(jiān)控和優(yōu)化,有助于從整體到局部逐步細化運維目標,使不同層級的資源和服務能夠得到精確的管理與調優(yōu)。智算運維質量指標橫向上可分為機房基礎設施層、算力基礎設施層、AI基礎軟件層、AI智算平臺層、AI業(yè)務應用層,縱向上包括運維服務和安全服務。機房基礎設施層:用于表征數據中心的電力供應、冷卻系統、物理安全的指標,是確保智算集群物理安全和穩(wěn)定運行的基本保障。如供電算力基礎設施層:用于表征所提供的計算、存儲、網絡等基礎設施的指標,如參數面網智算運維發(fā)展研究報告(2024)AI基礎軟件層:用于表征模型加速庫、AI計算框架等基礎軟件的指標,如集群軟件故障AI智算平臺層:用于表征智算平臺資源調度能力、斷點續(xù)訓能力、資源利用情況的指標,如集群算力利用率、任務調度成功率等。AI業(yè)務應用層:用于表征訓練任務算力使用效率、性能的指標,如模型算力利用率、模運維服務:用于表征運維支撐能力、支撐效率的指標,如運維SLA達標率、平均服務響安全服務:用于表征智算系統的安全性指標,如入侵檢測率、漏洞修復率等。(三)指標分級分級設計是在分層設計的基礎上,對每個層次和類別的指標進—步細化,按照系統運行的重要性、復雜性和對業(yè)務影響的程度,將指標劃分為不同的優(yōu)先級,有助于運維工作更加精細化、高效化,確保系統各層次的關鍵指標得到及時響應和優(yōu)化。上述智算運維質量評價關鍵指標:用于表征智算運維整體質量、效益/損失、支撐管理層決策的指標,能夠直接反映智算訓練業(yè)務核心狀況,具有高度的敏感性和影響力,對于決策和綜合評價具有重要的意義,是評價大模型訓練業(yè)務服務質量最不可或缺的核心要素。例如:在智算系統中,基于大模型訓練業(yè)務,可通過模型算力利用率(MFU)、有效訓練時長、長穩(wěn)訓練時長、任務最短恢復時長、集群算力可用度等關鍵指標,能夠全面評估智算運維質量。標準指標:用于支撐大模型訓練任務時長、集群算力可用度等關鍵指標的達成,通常是需要重點關注、對業(yè)務影響大的指標,通過持續(xù)監(jiān)測標準指標,可以實時掌握集群整體的運行態(tài)勢,及時發(fā)現潛在問題,優(yōu)化決策并最終提升整體成效。例如:集群軟件故障率、集群軟件故障次數等,都是衡量集群運行狀態(tài)的指標?;局笜?用于表征智算資源日常運維監(jiān)控、服務支撐能力的指標,主要反映了系統或安全服務的保障能力,例如:風冷/液冷系統可用性、機房環(huán)境達標率、平均服務響應時間等。都是保證服務質量穩(wěn)定性和連續(xù)性的基礎指標。雖然它們在評價中的權重較低,但對確智算運維發(fā)展研究報告(2024)(四)指標模型通過對智算運維指標的分類、分層、分級設計,構建智算運維指標體系,確保每個層級、每個關鍵環(huán)節(jié)都有相應的衡量指標,從而實現對智算運維體系的全面評估。在此基礎上,通過效益、效果、效能、效率四個維度深入分析,構建智算運維質量評價模型,該模型旨在適應智算場景下的運維需求,確保智算運維的有序開展,為智算運維的持續(xù)優(yōu)化和整體發(fā)展提供—定的度量參考。同時,該模型也具備—定的靈活性和彈性,可根據業(yè)務實際需求進行調整和優(yōu)化,確保其長期適用不同的智算業(yè)務場景。業(yè)務監(jiān)控業(yè)務預測業(yè)務預警業(yè)務協調業(yè)務調業(yè)務監(jiān)控業(yè)務預測業(yè)務預警業(yè)務協調業(yè)務調時間(MTTR)時間(MTBF)運維SLA……AIAI業(yè)務應用層模型算力利用率(MFU)…AI智算平臺層……AI基礎軟件層……風冷/液冷…效效效圖二智算運維質量評價指標體系模型05趨勢一:智算服務正成為綜合算力發(fā)展的關鍵要素隨著智算中心的不斷發(fā)展,服務力正成為綜合算力新質生產力發(fā)展的關鍵要素,并貫穿智算中心的各個環(huán)節(jié)。隨著算力需求的多樣化和復雜化,傳統的建設服務模式已難以滿足當前市場的需求。智算服務將通過整合信息計算力、網絡運載力、數據存儲力,覆蓋從基礎設施建設到行業(yè)智能應用的全過程,實現智算服務的規(guī)劃建設—體化、運維保障智能化、模型訓練高效化,有效提高智算服務效率。未來,服務力將以系統工程為核心理念,貫穿算力中心的每—環(huán)節(jié),推動計算力、運載力、存儲力、服務力共存的算力產業(yè)體系,促進區(qū)域經濟均衡與協調發(fā)展,共同構筑—個高效、智能、協同的新型生產力體系,促進綜合算力新質生趨勢二:一體化智算運維將成為主流智能算力將促進IDC(互聯網數據中心)和云服務升級,以數據為中心、云計算為基礎的—體化智算運維正成為主流。它通過實現通算算力、智算算力、存儲數據、網絡拓撲、模型算法的高效資源調度和協同,推動運維服務向自動化和智能化的全面升級。這使得智算運維全流程操作在同—服務環(huán)境中得以實現,從而提高靈活性和運維效率,促進智算中心服務智算運維發(fā)展研究報告(2024)趨勢三:液冷技術助力智算行業(yè)綠色低碳發(fā)展為實現更低的PUE,智算中心亟需加快節(jié)能降碳技術改造,液冷技術可有效助力智算行業(yè)綠色低碳發(fā)展。液冷技術不僅提升了散熱效率,還優(yōu)化了電能和水資源的使用效率,單位算力密度更高,可以滿足芯片持續(xù)TDP(高散熱設計功耗)運行,可最大限度利用機房面積。這可以更好地滿足高性能計算、人工智能計算、云數據中心多樣化算力需求,支持算力快速部署和按需靈活擴容,為數據中心的可持續(xù)發(fā)展和能效優(yōu)化提供了關鍵技術支持。趨勢四:算力資源一體化調度將成為趨勢隨著多模態(tài)大模型的發(fā)展和算力技術的不斷進步,算力資源的—體化調度正成為行業(yè)發(fā)展的新趨勢。政府、運營商、云服務商等作為主要的運營主體,正在構建和試點運營算力—體化調度平臺和算力互聯互通平臺,旨在實現算力、網絡、云計算資源的融合調度與—體化發(fā)展,從而解決算力資源分散、供需匹配失衡和使用成本高等問題。此外,圍繞樞紐節(jié)點的算力生態(tài)聚集效應進—步加強,區(qū)域級、城市級的公共算力服務平臺將初步顯現,并可能形趨勢五:數據安全重要性日益凸顯在數字化時代,數據洪流的挑戰(zhàn)日益嚴峻,數據安全的重要性也隨之凸顯。隨著《網絡安全法》《數據安全法》和《個人信息保護法》等—系列法律法規(guī)的相繼出臺,政府和企業(yè)在數據安全治理方面的工作變得更加規(guī)范化和常態(tài)化,對數據安全的重視程度也在不斷提升。在智能計算運維(智算運維)的場景中,數據安全保障面臨著更加復雜的挑戰(zhàn)。在數據采集階段,我們需要制定嚴格的敏感數據處理流程,確保個人信息和敏感數據得到妥善保護,防止數據泄露和濫用。在模型訓練和內容生成環(huán)節(jié),建立全面的安全評測機制顯得尤為關鍵,這不僅有助于識別潛在的安全漏洞,還能有效預防惡意注入攻擊等安全威脅。為了應對這些挑戰(zhàn),不僅需要制定數據加密、訪問控制、安全審計、應急響應計劃等多維度的安全策略,還需要法律、管理和教育等多方面的協同配合,以構建—個全面、立體的數據安全防066.1中國移動智算運維最佳實踐為深入貫徹落實國家發(fā)改委《關于促進數字經濟創(chuàng)新發(fā)展的若干意見》及《“十四五”數字經濟發(fā)展規(guī)劃》對新型基礎設施建設的政策要求,中國移動積極響應國家數字化轉型戰(zhàn)略,并錨定“世界—流信息服務科技創(chuàng)新公司”發(fā)展定位,著力推進智算新型基礎設施的建設和運維管理。為確保智算資源的高效利用、服務質量的持續(xù)提升以及智能化運維的落地實施,公司結合自身實際,構建了獨具特色的智算運維評價指標體系,旨在通過標準化、智能化、自動化的手段,提升整體運維服務質量,保障智算業(yè)務的穩(wěn)定運行,推動數字經濟和智(一)智算運維流程設計及實現中國移動網絡事業(yè)部深入了解并分析智算訓練、推理等業(yè)務場景,牽頭省公司、專業(yè)公司、華為智算團隊等展開充分調研交流,并結合現網成熟運維體系流程,初步完成對智算運維七大核心流程和S0P梳理,擴展流程及細則設計共識,并納入集團運維體系進行統—運維(1)事件管理流程:將事件管理從“純故障”視角擴展至涵蓋投訴、日志、告警、故障四個維度組成的“綜合事件”視角,全面提升對事件的監(jiān)控、響應和處理能力;組建集省專協同運維團隊,制定跨部門協作機制,對所有事件進行統—的事件級別評估,確定優(yōu)先級,及時響應處理各類事件,提升服務穩(wěn)定性。2020智算運維發(fā)展研究報告(2024)(2)問題管理流程:針對智算運維過程中反復出現的問題進行深入根因分析,并制定有效的解決方案,建立問題閉環(huán)管理機制,對已解決問題進行驗證和回顧,確保問題根因得到徹底消除,進而降低問題的重復發(fā)生率。(3)變更管理流程:以“智算安全”為首要目標,建立變更操作全鏈路保障體系。變更前進行全面的風險評估,確保變更操作不會影響智算業(yè)務的安全性和可用性,變更中實施嚴格的監(jiān)控和審批機制,嚴格把控變更操作質量,確保變更按計劃實施,變更后及時對智算業(yè)務進行確認,避免因變更引發(fā)服務中斷等事件。(4)運維保障流程:在運維保障中引入集群健康檢查、智能監(jiān)控、預警機制等能力,及時發(fā)現潛在風險點,提前進行預防和處理,有效降低智算集群故障發(fā)生率,提升集群穩(wěn)定(5)驗收流程管理:在智算驗收過程中,加強對建設質量的審查,全面檢查集群可運維性,包括但不限于可擴展性、可維護性、可監(jiān)控性等關鍵要素,確保智算基礎設施在交付(6)告警管理流程:以告警治理和壓縮為目標,通過數據分析和機器學習等技術,減少噪音告警,優(yōu)化告警閾值,提高告警的準確性和處理效率;建立告警處理機制,確??焖?7)調度管理流程:建立多級調度機制,確保在智算故障發(fā)生時,通過高效調度跨部門、跨區(qū)域團隊,快速響應和處理故障,大幅減少故障響應和恢復時間,提高集群可用性和(二)智算運維指標體系定義中國移動以保障上層訓練業(yè)務的高穩(wěn)定性和高效率性為目標,確保智算集群MFU(模型算力利用率)、MTTR(斷點續(xù)訓時長)、長穩(wěn)訓練時長等黃金指標在同規(guī)模集群中國內領先、國際—流。并結合上述七大核心運維流程,構建三橫三縱智算運維指標體系,研究明確80個智算運維質量指標(含黃金指標),支撐實現算、網、存、業(yè)的全生命周期運維監(jiān)控。2222智算運維發(fā)展研究報告(2024)智算運維發(fā)展研究報告(2024)算力集群穩(wěn)定運行,提升有效訓練時長(共18項)(共19項)(共27項)橫向指標………………(共6項)…縱向指標(共5項)…(共2項)(共2項)圖三中國移動智算運維指標體系智算運維發(fā)展研究報告(2024)(1)基礎設施層構建全鏈路監(jiān)控體系,實時監(jiān)控GPU/NPU、光模塊等硬件性能指標,重點關注集合通信帶寬、存儲讀/寫時延、網絡丟包率等關鍵指標,有效分析慢節(jié)點慢網絡,(2)Al智算平臺層建立高可用容災架構。做好訓推任務熱備功能開發(fā)和優(yōu)化,優(yōu)化故障隔離、資源重調度策略,推動實現千臺智算集群分鐘級熱備主機切換;持續(xù)優(yōu)化斷點續(xù)訓能力,最大支持分鐘級checkpoint保存頻率,支撐千/萬卡訓練任務快速恢復。(3)智算業(yè)務層完善用戶反饋機制和個性化服務,以用戶訓練/推理任務為目標,重點關注任務訓練時長、任務中斷次數、首token時延等關鍵指標,高效、穩(wěn)定地支撐復雜的訓推任務,滿足用戶對智算運維的高標準要求。(4)運維質量方面的核心在于快速響應和高效處理各類故障,制定高效運維SLA標準,實現故障響應時限縮短至10分鐘,關鍵指標主要包括故障處理及時率、硬件更換及時率等,(5)運行質量方面重點關注設備和服務穩(wěn)定性,關鍵指標主要包括設備故障率、計算/存儲/網絡設備可用率等,反映了設備的健康狀態(tài)及集群的穩(wěn)定性,高質量的運行狀態(tài)保障了(6)服務質量方面則側重于用戶體驗和用戶滿意度,尤其是對服務響應速度和問題解決效果的評估。投訴處理滿意度是衡量服務質量的核心指標,通過快速響應和有效解決用戶問題,可以提升用戶滿意度。(三)智算運維體系構建基于上述七大智算運維管理流程分析和智算運維指標定義,中國移動網絡事業(yè)部牽頭打準,—系列技能提升機制”的“五個—”卓越智算運維體系,構建“訓練中斷少,故障恢復(1)一支高水平協同團隊2323智算運維發(fā)展研究報告(2024)建立—支具備深厚技術背景、運維經驗豐富且高度協同的集省專智算運維團隊,確保智算運維能高效響應、快速解決各類技術難題,保障智算平臺的平穩(wěn)運行。(2)一套標準化規(guī)范制度制定—套完整、標準化、可執(zhí)行的運維流程與規(guī)范,包括但不限于事件管理、故障處理、變更管理、性能監(jiān)控、告警響應、故障恢復、備件管理等方面的標準化流程,確保各項運維工作有章可循,有序推進,保證運維質量的—致性和高效性。(3)一體化運維服務平臺建設—個集監(jiān)控、調度、故障響應、資源管理、自動告警等功能于—體的智能化運維平臺,通過平臺,運維人員可以實時查看系統健康狀況、設備運行狀態(tài)、任務進度等關鍵數據,支持故障快速定位與解決方案推薦,運維團隊能夠更加精準地監(jiān)控智算資源,提前預警潛在故障,并通過自動化的調度和恢復機制,快速響應并解決問題。(4)一套高水平質量標準建立嚴格的質量標準,包括但不限于服務響應時間、故障恢復時長、設備可用性、任務調度效率等多個維度,確保智算運維在各個環(huán)節(jié)中都能達到高水平的質量要求,保障智算平(5)一系列技能提升機制建立持續(xù)的員工技能提升機制,提高運維團隊的技術水平和運維能力,推動團隊內部技術分享和知識沉淀,形成良好的技術文化,確保團隊具備最新的技術能力和解決方案,快速(四)智算運維應用成效目前中國移動打造的“五個—”卓越智算運維體系已常態(tài)化支撐九天大模型訓練推理任務,智算集群整體運行平穩(wěn),硬件、網絡類故障定位耗時從小時級降至10分鐘,實現國產化萬卡資源池模型訓練算力利用率(MFU)約50%,任務重提恢復時長(MTTR)小于302424智算運維發(fā)展研究報告(2024)6.2科大訊飛智算運維最佳實踐(一)需求驅動2023年10月,科大訊飛發(fā)布了支持萬億浮點參數的基于全國產算力的星火大模型,真智算業(yè)務作為—個新的場景出現后,目前在業(yè)界還缺乏—個統—的度量標準,如何衡量算力的軟硬件穩(wěn)定性、集群效率、效果等問題是普遍的—個痛點訴求。訊飛基礎設施團隊認為,集群的長穩(wěn)訓練需要—套完整的方法論來指導,需要通過梳理影響集群長穩(wěn)的關鍵因素,并通過持續(xù)不斷的優(yōu)化,配套流程、工具和系統,才能持續(xù)地提升集群的MFU。(二)解決思路為了確保集群訓練的長時穩(wěn)定,科大訊飛聯合華為攻關團隊,從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論