AI+DC白皮書-一份給CIO 規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考_第1頁
AI+DC白皮書-一份給CIO 規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考_第2頁
AI+DC白皮書-一份給CIO 規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考_第3頁
AI+DC白皮書-一份給CIO 規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考_第4頁
AI+DC白皮書-一份給CIO 規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考_第5頁
已閱讀5頁,還剩107頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

構(gòu)建萬物互聯(lián)的智能世界一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考算力正成為新“黑金”十幾年前,美國(guó)《時(shí)代》周刊提到:網(wǎng)絡(luò)帶寬將成為石油之后,二十一世紀(jì)的新“黑金B(yǎng)lackGold”。那個(gè)時(shí)候,或許沒有人預(yù)見到,十年之后的人工智能會(huì)躍遷到今天的水平。大模型的瘋狂“涌現(xiàn)”,生成噴管”,全球人工智能產(chǎn)業(yè)正無限逼近“迸發(fā)”的狀態(tài),人類社會(huì)將以遠(yuǎn)超我們想象的速度,加速邁向智AI是趨勢(shì),不是潮流從1956年人類首次提出“人工智能”的定義以來,AI的發(fā)展經(jīng)歷了多次的起起伏伏,即使在AI持續(xù)占對(duì)人工智能的未來表示懷疑、擔(dān)憂和猶豫;但AI從應(yīng)用從單點(diǎn)到多元化擴(kuò)張、從通用場(chǎng)景向行業(yè)特定場(chǎng)景不斷深入。AI必將重構(gòu)傳統(tǒng)產(chǎn)業(yè),并將催生出諸ChatGPT的橫空出世,讓人類通往通用人工智能AGI之路從未像今天這樣清晰,AI已經(jīng)是不可逆轉(zhuǎn)和信息(Information)為主的信息社會(huì),到以產(chǎn)生知識(shí)(Knowledge)和智慧(Wisdom)為主的認(rèn)知社會(huì)。未來幾十年,我們將迎來一場(chǎng)認(rèn)知革命,今這是DC白皮書,不是AI白皮書當(dāng)“百模千態(tài)”已然成型,當(dāng)“千行萬業(yè)智能化”快速成勢(shì),首先得到全行業(yè)重點(diǎn)關(guān)注的不是AI應(yīng)用,條“路”修好,而數(shù)據(jù)中心恰恰是AI基礎(chǔ)設(shè)施的核數(shù)據(jù)中心的雛形從1940年前后就開始出現(xiàn),隨后幾十年間,隨著互聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算的發(fā)展,數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理變得越來越重要,數(shù)據(jù)中心也成為企業(yè)信息化、數(shù)字化的核心基礎(chǔ)設(shè)施。邁向智能時(shí)代,數(shù)據(jù)中心首先要提供的是算力,承載的主要是AI訓(xùn)練和推理,支撐的是企業(yè)關(guān)鍵智能化應(yīng)用,這類面向未來的數(shù)據(jù)中心我們稱之為智算數(shù)據(jù)中心AIDC。defined)的基礎(chǔ)設(shè)施,未來的數(shù)據(jù)中心基礎(chǔ)設(shè)施一定是AI定義的。AI帶給數(shù)據(jù)中心的挑戰(zhàn)也將是多維度的,如:算力密度、能源效率、AI-powered的強(qiáng)大而堅(jiān)實(shí)的AI算力底座,是智能化轉(zhuǎn)型的基石。數(shù)據(jù)中心不斷演進(jìn),從存儲(chǔ)數(shù)據(jù)、支撐應(yīng)用,到提供算力、承載AI訓(xùn)練和推理,再到生產(chǎn)智慧、使能智能化,其重要性和行業(yè)價(jià)值不斷凸顯,值得產(chǎn)業(yè)鏈各方重點(diǎn)關(guān)注。希望這本白皮書能為全行業(yè)AIDC的——華為公司董事、ICT產(chǎn)品與解決方案總裁最近一段時(shí)間,圍繞企業(yè)AI落地、AI算力基礎(chǔ)設(shè)施建設(shè),我與很多客戶伙伴、AI生態(tài)鏈的朋友們進(jìn)行了溝通交流,大家基本有一個(gè)共識(shí),都把建設(shè)作為企業(yè)智能化轉(zhuǎn)型的優(yōu)先舉措;但AIDC與傳統(tǒng)數(shù)據(jù)中心別,在企業(yè)數(shù)智基礎(chǔ)設(shè)施中的定位變了、承載的業(yè)務(wù)變了、數(shù)據(jù)處理和算力提供的要求也變了,再加上技術(shù)還在不斷創(chuàng)新升級(jí),如何高效高質(zhì)量建設(shè)AIDC值得全行業(yè)深入思考。從實(shí)踐中進(jìn)行復(fù)盤總結(jié),匯聚全行業(yè)智慧,這就——華為公司高級(jí)副總裁、ICT銷售與服務(wù)總裁實(shí)現(xiàn)商業(yè)成功的基石。AIDC作為新一代數(shù)智基礎(chǔ)設(shè)施的核心,華為在過去幾年與客戶的建設(shè)實(shí)踐與創(chuàng)新探索中,有經(jīng)驗(yàn)、有教訓(xùn),也還存在許多新課題需要大家一起解決。這本白皮書只是一個(gè)開始,全行業(yè)需要協(xié)同創(chuàng)新,共同推動(dòng)AIDC發(fā)展,千行萬業(yè)正在積極擁抱人工智能,把行業(yè)知識(shí)、創(chuàng)新升級(jí)與大模型能力相結(jié)合,以此改變傳統(tǒng)行業(yè)生產(chǎn)作業(yè)、組織方式。在如何用好人工電解鋁、高端鋁加工等領(lǐng)域持續(xù)實(shí)踐。這本白皮書提出了很多可供企業(yè)參考的觀點(diǎn),特別是針對(duì)如何規(guī)劃建設(shè)企業(yè)數(shù)智基礎(chǔ)設(shè)施的核心--AIDC上,給出了方向性的建議和非常實(shí)用的評(píng)估指標(biāo),而這也是企生成式生成式AI為保險(xiǎn)行業(yè)發(fā)展提供了新質(zhì)生產(chǎn)力,場(chǎng)景落地和價(jià)值閉環(huán)是當(dāng)前核心問題,不論是技術(shù)探索,還是大規(guī)模應(yīng)用部署的效率和成本考量,對(duì)企業(yè)AIDC的建設(shè)和運(yùn)營(yíng)都提出了極高的要求。白皮書基于技術(shù)趨勢(shì)和產(chǎn)業(yè)實(shí)踐,系統(tǒng)性地闡述了AIGC產(chǎn)業(yè)應(yīng)用的建設(shè)策略和實(shí)現(xiàn)路徑,并給出不同場(chǎng)景下的AIDC建設(shè)方案,具有重要參考價(jià)值,激發(fā)深入思智能時(shí)代,AI只有進(jìn)入企業(yè)的核心生產(chǎn)場(chǎng)景才能發(fā)揮巨大價(jià)值,這勢(shì)必驅(qū)動(dòng)企業(yè)業(yè)務(wù)系統(tǒng)從傳統(tǒng)的“構(gòu)成式”變成“生成式”。企業(yè)智算數(shù)據(jù)中心作為數(shù)智基礎(chǔ)設(shè)施的核心,將從成本中心變成創(chuàng)新中心,技術(shù)架構(gòu)也會(huì)發(fā)生顛覆式變化,傳統(tǒng)數(shù)據(jù)中心時(shí)代的建設(shè)模式、系統(tǒng)架構(gòu)、運(yùn)維運(yùn)營(yíng)等可能再適用。這本白皮書是對(duì)當(dāng)前行業(yè)實(shí)踐的總結(jié)和復(fù)盤,面向未來我們還將持續(xù)探索和思考,就如何規(guī)劃建設(shè)好AIDC給出更多參考——華為公司副總裁、ICT產(chǎn)品組合管理與解決方案部人工智能應(yīng)用繁榮的基礎(chǔ)是算力。作為提供算力的關(guān)鍵數(shù)智基礎(chǔ)設(shè)施,AIDC需要充分發(fā)揮計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、云、能源等技術(shù)領(lǐng)域的綜合優(yōu)勢(shì),以系統(tǒng)架構(gòu)創(chuàng)新,持續(xù)突破規(guī)模算力瓶頸。從2019年發(fā)布AI戰(zhàn)略及解決方案開始,華為就廣泛參與到全球客戶AI算力基礎(chǔ)設(shè)施的建設(shè)實(shí)踐中,并不斷與產(chǎn)業(yè)鏈相關(guān)方開展聯(lián)合創(chuàng)新,打造有競(jìng)爭(zhēng)力的產(chǎn)品與解決方案,為客戶創(chuàng)造價(jià)值。把這些有價(jià)值的客戶建設(shè)實(shí)踐與全行業(yè)的智慧匯聚在一起,形成了這本白皮書,希望幫助客戶更快更好地建設(shè)AIDC,加速千企業(yè)也不斷加快探索實(shí)踐步伐,推動(dòng)AIDC向大規(guī)模、高質(zhì)量和強(qiáng)應(yīng)用的方向發(fā)展。本研究報(bào)告在規(guī)、建、管、用等多個(gè)維度,體系化梳理,立體化呈現(xiàn)AIDC最新態(tài)勢(shì),有助于促進(jìn)產(chǎn)業(yè)發(fā)展。型的數(shù)據(jù)中心存在很大的差異。當(dāng)前的人工智能發(fā)展迅速,新技術(shù)新應(yīng)用層出不窮。如何去構(gòu)建一個(gè)堅(jiān)實(shí)可靠的算力底座來滿足長(zhǎng)遠(yuǎn)未來的發(fā)展需求和應(yīng)付人工智能應(yīng)用的迭代演進(jìn)是每AIWorld總體愿景及宏觀驅(qū)動(dòng)力 AIforAll 理想主義與現(xiàn)實(shí)主義交相輝映邁向AGI AllinAI生成式業(yè)務(wù)系統(tǒng) 18 23 32 34數(shù)據(jù)中心走向智算數(shù)據(jù)中心AIDC 35AIDC主要承載AI模型的“訓(xùn)推用” 37AIDC四大建設(shè)場(chǎng)景及三大類型 39AIDC五大特征變化 43 53 08AIDC白皮書典型AIDC規(guī)劃與建設(shè) 56超大型AIDC 大型AIDC 小型AIDC 88AIDC建設(shè)與發(fā)展倡議 94適度超前建設(shè)AIDC 95共同實(shí)現(xiàn)AIDC集約化建設(shè)和綠色發(fā)展 98 99 一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考 AIWorld總體愿景及宏觀驅(qū)動(dòng)力生成式AI日新月異的發(fā)展,讓人工智能如風(fēng)卷殘?jiān)聘鶕?jù)中國(guó)信息通信研究院的相關(guān)報(bào)告顯示,截止2024年7月,全球AI企業(yè)近3萬家,全球人工智能大模型有1328個(gè),其中中國(guó)各類企業(yè)在不到2年人類社會(huì)發(fā)展帶來一個(gè)“天大的機(jī)會(huì)”。斯坦福大學(xué)年人工智能指數(shù)報(bào)告》顯示,從2023年到2024年第一季度,全球AI獨(dú)角獸已有234家,新增數(shù)量為37家,占新增獨(dú)角獸總量的40%;2023年,雖然全球AI投資總額有所下滑、降至1892億美元,但六十年的芯片技術(shù)發(fā)展,三十年的互聯(lián)網(wǎng)發(fā)展,Transformer架構(gòu)的不斷突破,以及數(shù)據(jù)的極大豐富,讓AI技術(shù)不斷走深,AI應(yīng)用不斷向?qū)?。繼OpenAI公司推出ChatGPT之后,2024年華為公司推出的盤古大模型5.0版本,以及Anthropic公司推出的大模型Claude3.5Sonnet版本,宣告大一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l11lAI是過去70年ICT產(chǎn)業(yè)發(fā)展的總成果1956年,時(shí)任達(dá)特矛斯學(xué)院助理教授的約翰·麥卡錫組織召集了達(dá)特矛斯討論,正是在這次會(huì)議上,第一次正式提出了“人工智能”的定義。從那以后,人工智能經(jīng)歷了兩次發(fā)展的低谷,即所謂的“冬天”,自從1971年英特爾發(fā)布第一顆微處理器開始,摩爾定律見證了ICT產(chǎn)業(yè)的蓬勃發(fā)展。如果把AI產(chǎn)業(yè)和ICT產(chǎn)業(yè)這70年的發(fā)展軌跡畫到一起,我們發(fā)現(xiàn),人工智能與ICT產(chǎn)業(yè)的總體發(fā)展水平密切相關(guān),學(xué)術(shù)研究發(fā)現(xiàn)和工程技術(shù)發(fā)展相輔相成。而AI產(chǎn)業(yè)兩次“冬天”的出現(xiàn),都是因?yàn)樯鐣?huì)對(duì)AI的應(yīng)用期望今天,我們?cè)俅芜M(jìn)入了“收獲”的季節(jié)。這是70年來全球ICT學(xué)術(shù)界和工業(yè)界長(zhǎng)期耕耘、協(xié)作創(chuàng)新的摩爾定律牽引下的ICT產(chǎn)業(yè)發(fā)展摩爾定律牽引下的ICT產(chǎn)業(yè)發(fā)展AI流行度A19561970s1990s2020s圖1-1AI是過去70年ICT產(chǎn)業(yè)圖1-1AI是過去70年ICT產(chǎn)業(yè)技術(shù)的準(zhǔn)確定位是發(fā)揮其最大價(jià)值的前提。給人工智能技術(shù)進(jìn)行合理的定位,是我們理解和應(yīng)用此技術(shù)的以及20世紀(jì)的汽車、電腦、互聯(lián)網(wǎng)一樣,人工智能是一組技術(shù)集合,是一種新的通用目的技術(shù)。加拿大學(xué)者RichardGLipsey在其著作《經(jīng)濟(jì)轉(zhuǎn)型:通用技術(shù)和長(zhǎng)期經(jīng)濟(jì)增長(zhǎng)》一書中提出:社會(huì)經(jīng)濟(jì)的持續(xù)發(fā)展是靠通用技術(shù)的不斷出現(xiàn)而持續(xù)推動(dòng)的。所謂通用技術(shù),簡(jiǎn)單理解就是要有多種用途,應(yīng)用到經(jīng)濟(jì)的12AIDC白皮書面向未來,我們應(yīng)該充分用好人工智能技術(shù),抓緊收獲,努力擴(kuò)大收獲成果,同時(shí)要讓收獲的季節(jié)持續(xù)的AI將引發(fā)百年未有之大變革縱觀人類社會(huì)發(fā)展史,通用目的技術(shù)的大規(guī)模應(yīng)用歷來是社會(huì)變革的催化劑,而被彼得·戴曼迪斯在《未來呼嘯而來》一書中定義為“指數(shù)型技術(shù)”之首的人工智能,將引發(fā)一場(chǎng)百年未有之大變革。自十八世紀(jì)蒸汽機(jī)問世,科技創(chuàng)新將時(shí)代劃分為蒸汽時(shí)代、工業(yè)時(shí)代與信息時(shí)代,現(xiàn)今,智能時(shí)代正撲面而來,其背后的驅(qū)動(dòng)力正是AI算力。這股力量不僅將為公眾生活注入個(gè)性化與便捷體驗(yàn),還將以創(chuàng)新邏輯推動(dòng)各行各業(yè)效能提升與經(jīng)驗(yàn)革新,為科研開辟新路徑。AI的普及深化不僅會(huì)加速傳統(tǒng)產(chǎn)業(yè)智能化轉(zhuǎn)型,優(yōu)化資源配置,提升決策質(zhì)量,激發(fā)產(chǎn)品與服務(wù)創(chuàng)新,還將進(jìn)一步優(yōu)化社會(huì)經(jīng)濟(jì)結(jié)構(gòu),推動(dòng)全球經(jīng)濟(jì)步入高質(zhì)量AI引發(fā)的變革將是一場(chǎng)體驗(yàn)革命、效率革命、經(jīng)驗(yàn)蒸汽時(shí)代信息時(shí)代通用算力智能時(shí)代Al算力可持續(xù)發(fā)展數(shù)字經(jīng)濟(jì)新增長(zhǎng)智慧城市建設(shè)場(chǎng)景化升級(jí)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型圖1-2人類進(jìn)入智能時(shí)代圖1-2人類進(jìn)入智能時(shí)代一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l13l當(dāng)前,全球數(shù)字經(jīng)濟(jì)保持持續(xù)快速發(fā)展。根據(jù)中國(guó)信德國(guó)、日本、韓國(guó)五個(gè)國(guó)家的數(shù)字經(jīng)濟(jì)總量已逾33萬億美元,年增長(zhǎng)率超過8%,數(shù)字經(jīng)濟(jì)對(duì)GDP的更凸顯了其在全球經(jīng)濟(jì)版圖中的核心角色。其中,人技術(shù)發(fā)展A技術(shù)發(fā)展1760-19901990-20172018-Future時(shí)間圖1-3智能經(jīng)濟(jì)將成為全球經(jīng)濟(jì)發(fā)展新引擎圖1-3智能經(jīng)濟(jì)將成為全球經(jīng)濟(jì)發(fā)展新引擎人工智能驅(qū)動(dòng)的智能經(jīng)濟(jì)將在人機(jī)交互、IT基礎(chǔ)設(shè)施與新業(yè)態(tài)三個(gè)層面帶來重大變革。首先是人機(jī)交互模式的優(yōu)化,讓交流更加自然流暢;其次,它將重塑IT基礎(chǔ)設(shè)施,構(gòu)建更高效、更智能的信息處理與傳輸體系;最后,智能經(jīng)濟(jì)會(huì)催生一系列新業(yè)態(tài),激發(fā)跨領(lǐng)域創(chuàng)新。這三個(gè)方面并非孤立存在,而是相互影過去四十年,信息化和數(shù)字化給ICT行業(yè)帶來了數(shù)萬億美元的戰(zhàn)略機(jī)會(huì)。展望潛力十足的智能時(shí)代,華為預(yù)測(cè),至2030年,全球智能經(jīng)濟(jì)規(guī)模將超過18.8萬億美元,將為ICT領(lǐng)域的未來發(fā)展開啟全新AIforAll一個(gè)組織和每個(gè)人的生活。專家和機(jī)構(gòu)預(yù)測(cè)AI將深刻影響世界。那目前企業(yè)和個(gè)人對(duì)AI的接受度及應(yīng)麥肯錫2023年的報(bào)告指出,55%的組織已在至少倍。Gartner在其《2024年重要戰(zhàn)略技術(shù)趨勢(shì)》報(bào)告中預(yù)測(cè),到2026年,超80%的企業(yè)將運(yùn)用生成式AI;到2028年,75%的企業(yè)軟件工程師將使用AI編碼助手,而2023年初這一比例不足在人工智能觸發(fā)的產(chǎn)業(yè)變革大潮中,所有行業(yè)重塑。今天我們已經(jīng)可以清晰地預(yù)見一些行業(yè)將發(fā)生…智能監(jiān)控智能監(jiān)控...機(jī)場(chǎng)安防...可預(yù)測(cè)性維護(hù)...智能調(diào)度...智能藥物研發(fā)...礦業(yè)與農(nóng)牧業(yè)鋼鐵建筑食品飲料零售汽車。媒資金融油氣教學(xué)和評(píng)分助手...地質(zhì)圖像分析...教育。電力化工政務(wù)機(jī)場(chǎng)。公共安全軌道交通互聯(lián)網(wǎng)通信高低智能運(yùn)維…數(shù)字化水平起步期爆發(fā)期引領(lǐng)期圖1-4AI正在改變千行萬業(yè)圖1-4AI正在改變千行萬業(yè)一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l15lAI重塑行業(yè)的速度確實(shí)遠(yuǎn)超想象。2023年初,比亞動(dòng)駕駛技術(shù)的迭代升級(jí)已經(jīng)悄然發(fā)生,2024年中國(guó)新能源汽車市場(chǎng)中,自動(dòng)駕駛功能的滲透率已超過51%。這一成就的背后是先進(jìn)的感知系統(tǒng)、強(qiáng)大的印度IT服務(wù)外包業(yè)曾憑借人力成本和語言優(yōu)勢(shì)成為全球中心。然而,AI技術(shù)的興起導(dǎo)致該行業(yè)面臨嚴(yán)峻挑戰(zhàn)。據(jù)統(tǒng)計(jì),過去一年,印度五大IT服務(wù)公司裁員69,197人,創(chuàng)下20年新高。這一現(xiàn)象背后,是AI在服務(wù)領(lǐng)域的廣泛應(yīng)用,高效接管了原本由人力完成的任務(wù)。由此可見,AI技術(shù)不僅僅能通過技生成式AI是革命性的跨越,有人稱之為AI2.0,它不是AI1.0的升級(jí)。AI2.0可以用無需人工標(biāo)注的超級(jí)海量數(shù)據(jù)、去訓(xùn)練一個(gè)具有跨領(lǐng)域知識(shí)的基礎(chǔ)大模型(FoundationModel它能夠從無到有,真正實(shí)現(xiàn)智慧的產(chǎn)生;AI2.0讓每個(gè)人都能創(chuàng)造,甚至可能讓每個(gè)人成為程序員,催生了數(shù)字分身等長(zhǎng)期以來僅存于想象的產(chǎn)品。AI2.0的生成能力還能將創(chuàng)新AI2.0的創(chuàng)造能力和商業(yè)能力,讓智能時(shí)代的每個(gè)應(yīng)進(jìn)入生產(chǎn)系統(tǒng)使能行業(yè)核心軟件使能大量通用軟件網(wǎng)絡(luò)自治。使能大量通用軟件網(wǎng)絡(luò)自治。運(yùn)營(yíng)商智能客服智能風(fēng)控。金融量化交易2C應(yīng)用為主催生現(xiàn)象級(jí)應(yīng)用文檔摘要。2C應(yīng)用為主催生現(xiàn)象級(jí)應(yīng)用文檔摘要。辦公文檔寫作視覺代碼開發(fā)網(wǎng)站制作智能對(duì)話語音社交編程短文創(chuàng)作醫(yī)療咨詢代碼開發(fā)網(wǎng)站制作智能對(duì)話語音社交編程短文創(chuàng)作海量離散小模型精準(zhǔn)獲客海量離散小模型結(jié)構(gòu)化感知大模型語義 模型基礎(chǔ)能力模型能力開放營(yíng)銷行業(yè)知識(shí)結(jié)合城市調(diào)研報(bào)告城市大腦大模型語義少數(shù)大模型匯聚圖片生成少數(shù)大模型匯聚圖片生成設(shè)計(jì)搜索平面廣告商業(yè)文案。消費(fèi)視頻生成內(nèi)容推薦內(nèi)容剪輯平面廣告商業(yè)文案。消費(fèi)視頻生成內(nèi)容推薦分子生成智能教學(xué)分子生成智能教學(xué)生物行業(yè)通用場(chǎng)景數(shù)據(jù)智能問答。教育理想主義與現(xiàn)實(shí)主義交相輝映邁向AGI類邁向通用人工智能(AGI)的一個(gè)新起點(diǎn)。隨后,2020年GPT-3的推出,以及ScalingLaw被確立為AGI的第一性原理,標(biāo)志著人類向AGI目標(biāo)的探索步伐大大加快。為了支撐AI能力的持續(xù)進(jìn)化,旨在構(gòu)建更加強(qiáng)大的算力基礎(chǔ)設(shè)施,預(yù)計(jì)2028年將發(fā)布一個(gè)由數(shù)百萬XPU算力卡互聯(lián)的集群數(shù)據(jù)中心。理想主義者們相信,跨越技術(shù)裂谷的人工智能將加速前行,他們致力于在未來10年內(nèi)將深度學(xué)習(xí)的計(jì)算能力提升100萬倍。AI領(lǐng)域的新論文、新模型層出),數(shù)據(jù)來源從公開網(wǎng)絡(luò)擴(kuò)展到合成數(shù)據(jù),AI的技術(shù)發(fā)展讓所有人感受到了強(qiáng)烈的"推背感",人類終將走向AGI。然而,我們也看到,AI在面向消費(fèi)者(ToC)的應(yīng)用和面向企業(yè)(ToB)的行業(yè)落地中,依然面臨諸多挑戰(zhàn)。許多AI應(yīng)用和項(xiàng)目仍處于起步階段或短暫出現(xiàn)后便消失,實(shí)現(xiàn)商業(yè)閉環(huán)成為業(yè)界關(guān)注的焦點(diǎn)。對(duì)于人工智能產(chǎn)業(yè)的發(fā)展戰(zhàn)略制定者來說,是選擇一路直沖,將ScalingLaw推向極致,無限接近AGI;還是"見好就收",盡快實(shí)現(xiàn)技術(shù)落地并盈利,快速大多數(shù)新興技術(shù)的發(fā)展都是從理想主義的美好愿景開始,同時(shí)受到現(xiàn)實(shí)主義的理性制約。如果能夠?qū)⒗硐胛覀冋J(rèn)為,人工智能是一個(gè)不可逆轉(zhuǎn)的大趨勢(shì)。AI產(chǎn)業(yè)在垂直方向上,既需要科學(xué)家的理想主義,也需要與商業(yè)現(xiàn)實(shí)主義相結(jié)合,尋找技術(shù)驅(qū)動(dòng)與商業(yè)落地理想主義者的代表是工程師和科學(xué)家,他們基于科技改變世界的理想化出發(fā)點(diǎn),用探索精神和創(chuàng)新思維,致力于開發(fā)更智能、更自主的學(xué)習(xí)算法,追求更高的計(jì)算效率和更低的能耗。這些努力不斷拓展AI技術(shù)的可能性邊界,為現(xiàn)實(shí)應(yīng)用提供了豐富的理論支撐和技術(shù)儲(chǔ)備。而現(xiàn)實(shí)主義者的代表是理性的市場(chǎng)經(jīng)濟(jì)參與者,他們將AI技術(shù)視為推動(dòng)商業(yè)變革和社會(huì)進(jìn)步的關(guān)鍵力量,注重技術(shù)的實(shí)用性和經(jīng)濟(jì)效益,主要將AI的商業(yè)化落地作為目標(biāo),使其融入金融服務(wù)、健康醫(yī)療、零售物流等行業(yè)場(chǎng)景。他們希望通過實(shí)踐驗(yàn)證AI技術(shù)的市場(chǎng)價(jià)值,為持續(xù)發(fā)展提供應(yīng)用場(chǎng)景和AI技術(shù)的演進(jìn)歷程正是理想主義與現(xiàn)實(shí)主義辯證關(guān)系的生動(dòng)體現(xiàn),二者相輔相成、交相輝映,共同塑造人工智能的未來。理想主義與現(xiàn)實(shí)主義產(chǎn)生了奇妙的雙輪效應(yīng),每一次技術(shù)飛躍都會(huì)帶動(dòng)商業(yè)應(yīng)用的創(chuàng)新與拓展,而商業(yè)成功又會(huì)以更多的研究資金和資源反哺科研領(lǐng)域,推動(dòng)技術(shù)的進(jìn)一步成熟和完善。這種正向循環(huán)一旦建立,就能夠幫助企業(yè)在采用新技術(shù)時(shí)實(shí)現(xiàn)新的價(jià)值鏈閉環(huán)。成功的案例將加速AI技術(shù)在各行業(yè)核心生產(chǎn)環(huán)節(jié)的滲透,推動(dòng)一系列高效、智能的一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l17l AllinAI生成式業(yè)務(wù)系統(tǒng)企業(yè)發(fā)展AI的不確定性和確定性根據(jù)麥肯錫的調(diào)研,超過70%的企業(yè)領(lǐng)導(dǎo)者預(yù)見AI將在接下來的五年內(nèi)深刻改變其業(yè)務(wù)格局。同業(yè)發(fā)展AI有著相當(dāng)大的不確定性,據(jù)德勤的數(shù)據(jù)顯示,90%的大型企業(yè)計(jì)劃投資AI,但真正能夠成功這是因?yàn)樯墒紸I的革命性創(chuàng)新和內(nèi)在局限性兼而一方面,ChatGPT對(duì)奧林匹克數(shù)學(xué)競(jìng)賽題可以給出優(yōu)雅的證明;另一方面,在回答13.11和13.8比大小的試題中輸給小學(xué)生。一方面,自動(dòng)駕駛顛覆汽車行業(yè),改變大眾的出行服務(wù);另一方升輔助影像診斷的醫(yī)療專用模型仍舊在創(chuàng)新研究階巨大的AI投資換來寫作助手是否值得?模型回答質(zhì)對(duì)于企業(yè)來說,是追逐潮頭引領(lǐng)行業(yè)革新、還ChatGPT等大語言模型帶來的革命性變化,源于其匯聚世界知識(shí)帶來的泛化能力,本質(zhì)是顯性知識(shí)的壓縮和隱性經(jīng)驗(yàn)的沉淀,是基于結(jié)構(gòu)化數(shù)據(jù)發(fā)現(xiàn)內(nèi)在規(guī)律的概率模型。各行各業(yè)尤其是頭部企業(yè),往往蘊(yùn)藏著海量的數(shù)據(jù)、沉淀的業(yè)務(wù)知識(shí)和內(nèi)化于業(yè)務(wù)流程的經(jīng)驗(yàn)等寶貴資源,當(dāng)它們被用于語料來訓(xùn)練AI模型時(shí),模型自然就記憶了這些知識(shí)與經(jīng)驗(yàn)。企業(yè)通過引入基礎(chǔ)模型、行業(yè)模型并構(gòu)建自己的私有化場(chǎng)景模型時(shí),相當(dāng)于“一杯咖啡吸收宇宙能量”,可以更高效的傳承和利用企業(yè)內(nèi)部經(jīng)驗(yàn)、行業(yè)經(jīng)驗(yàn)、世界知識(shí),能客服到海量高可信代碼的生成等。華為AI2.0的目標(biāo)是實(shí)現(xiàn)“1個(gè)頂級(jí)專家+AI能力增強(qiáng)型數(shù)字員一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l19l從海量數(shù)據(jù)中發(fā)現(xiàn)未知規(guī)律。越來越多企業(yè)希望AI能夠基于核心生產(chǎn)場(chǎng)景,創(chuàng)造企業(yè)產(chǎn)品和服務(wù)的核心競(jìng)爭(zhēng)力,先行者可以建立領(lǐng)先能力。比如特種鋼的誤差要求嚴(yán)苛,液面波動(dòng)是煉鋼的關(guān)鍵參數(shù)之一,結(jié)晶器液面波動(dòng)與液面高度、水量、溫度、壓力、原材料批次等200多種參數(shù)相關(guān),超過專家的經(jīng)驗(yàn)和科學(xué)公式計(jì)算的適用范圍。鋼鐵企業(yè)在思考如何利用AI優(yōu)化生產(chǎn)制造工藝,基于積累的高價(jià)值歷史數(shù)據(jù)訓(xùn)練場(chǎng)景模型,并在實(shí)時(shí)生產(chǎn)過程中不斷反饋增強(qiáng),找到企業(yè)發(fā)展AI需要構(gòu)建企業(yè)級(jí)綜合智能體。如同一個(gè)并貫穿感知、預(yù)測(cè)到?jīng)Q策全流程。當(dāng)AI的視野從語建議企業(yè)戰(zhàn)略上要明確發(fā)展AI的確定性,戰(zhàn)術(shù)上要應(yīng)對(duì)好AI的不確定性。從現(xiàn)在開始、著眼未來,以20AIDC白皮書簡(jiǎn)單的幾何圖形:?jiǎn)♀徯偷姆欠€(wěn)定性結(jié)構(gòu)和行業(yè)大模架構(gòu)挑戰(zhàn)之一:?jiǎn)♀徯偷姆欠€(wěn)定性結(jié)構(gòu)。企業(yè)傳統(tǒng)IT架構(gòu)是穩(wěn)定的正三角,基礎(chǔ)設(shè)施和技術(shù)平臺(tái)穩(wěn)定,變化頻率低;數(shù)據(jù)和應(yīng)用使能平臺(tái)按照產(chǎn)品化、版本化的方式迭代,變化可預(yù)期;應(yīng)用受用戶體驗(yàn)驅(qū)動(dòng),更而模型因處于快速發(fā)展迭代期,變化幅度和升級(jí)頻率均超過應(yīng)用。如何規(guī)劃設(shè)計(jì)IT架構(gòu),實(shí)現(xiàn)“在行駛架構(gòu)挑戰(zhàn)之二:行業(yè)大模型的不可能三角。大模型在泛化性、專業(yè)性、經(jīng)濟(jì)性三方面很難兼得,泛化性強(qiáng)調(diào)基于小樣本的場(chǎng)景化學(xué)習(xí)能力,專業(yè)性強(qiáng)調(diào)監(jiān)督學(xué)習(xí)能力強(qiáng),經(jīng)濟(jì)性強(qiáng)調(diào)模型規(guī)模適中。同時(shí),不同類算力高,經(jīng)濟(jì)性要求高;產(chǎn)品質(zhì)檢視頻類負(fù)樣本少,泛化性要求高;風(fēng)險(xiǎn)預(yù)警類對(duì)精度要求苛刻而專業(yè)性要求高。由于行業(yè)數(shù)據(jù)的稀缺性,行業(yè)模型追求泛化企業(yè)發(fā)展AI的核心理念是:以架構(gòu)的確定性應(yīng)對(duì)模型的不確定性,形成具備持續(xù)開發(fā)態(tài)模型層的非常規(guī)小步迭代,基礎(chǔ)設(shè)施和AI技術(shù)平臺(tái)保持穩(wěn)定,震蕩模型多源:算力底座封裝軟硬件的復(fù)雜性,彈性資源調(diào)度解決算力效率,服務(wù)化的標(biāo)準(zhǔn)接三重進(jìn)化:模型能力進(jìn)行API封裝,應(yīng)用與模型解耦,形成可替換的“發(fā)動(dòng)機(jī)”;L0基礎(chǔ)大模型隨產(chǎn)業(yè)進(jìn)化,L1行業(yè)模型隨行業(yè)模型市應(yīng)用編排:業(yè)務(wù)從邊緣、支撐型應(yīng)用到核心生產(chǎn)應(yīng)用,按需組合交互理解(NLP)、感知API輕量式嵌入或助手型接入業(yè)務(wù)流程。一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l21l可大規(guī)模復(fù)制“生成式”AI系統(tǒng):與各行業(yè)應(yīng)用可大規(guī)模復(fù)制“生成式”AI系統(tǒng):與各行業(yè)應(yīng)用視頻質(zhì)檢……污染源管理…人臉鑒權(quán)…銷售客服銷售客服…工藝控制……客戶服務(wù)客戶服務(wù)………水文監(jiān)測(cè)水文監(jiān)測(cè)…汛期預(yù)測(cè)…給排水優(yōu)化…征信采集征信采集……………APIr行業(yè)進(jìn)化r行業(yè)進(jìn)化企業(yè)進(jìn)化企業(yè)進(jìn)化API模型組合:能力API一次封裝原子服務(wù)編排組合服務(wù)行業(yè)使能學(xué)習(xí)進(jìn)化能力行業(yè)模型市場(chǎng)原子服務(wù)編排組合服務(wù)行業(yè)使能學(xué)習(xí)進(jìn)化能力行業(yè)模型市場(chǎng)NLP大模型決策大模型圖2-2以架構(gòu)開放支持進(jìn)化中的百模千態(tài)圖2-2以架構(gòu)開放支持進(jìn)化中的百模千態(tài)可控的開放生態(tài)應(yīng)對(duì)行業(yè)模型的不可能三角,構(gòu)建按需組合的行業(yè)模型層。一方面擁抱標(biāo)準(zhǔn)和行業(yè)生態(tài),保障按需融入與利用行業(yè)生態(tài);另一方面建立企業(yè)的剛需應(yīng)用、普通應(yīng)用等,根據(jù)企業(yè)的競(jìng)爭(zhēng)力策略、能力等,靈活選擇自主開發(fā)、戰(zhàn)略伙伴聯(lián)合攻關(guān)和生態(tài)伙伴供應(yīng)等不同模式,實(shí)現(xiàn)自建和共建生態(tài)模22AIDC白皮書企業(yè)發(fā)展AI的初期容易以模型為綱,從技術(shù)出發(fā),基于產(chǎn)業(yè)的基礎(chǔ)大模型能力去“臨摹”容易落地的應(yīng)用,可應(yīng)用場(chǎng)景為綱的實(shí)質(zhì)是從解決問題的第一性原理出發(fā),場(chǎng)景是起點(diǎn)也是終點(diǎn),是價(jià)值的閉環(huán)。不要先關(guān)注大模型本身和模型參數(shù)量,而要看是否能夠解決過去解決不了、或解決不好的問題,是否能夠?qū)崿F(xiàn)收益大于成本的正循環(huán),是否具備廣泛的適用性常常采用AI模型與機(jī)理模型結(jié)合的方式。比如勘探中,AI模型優(yōu)化鉆探位置的選擇,機(jī)理模型則確保用場(chǎng)景、數(shù)據(jù)、模型和算力四個(gè)要素缺一不可。場(chǎng)景是價(jià)值閉環(huán)的基礎(chǔ),低業(yè)務(wù)價(jià)值而又消耗大量算技術(shù)三角以算力為基礎(chǔ),實(shí)現(xiàn)數(shù)據(jù)的轉(zhuǎn)換、清洗和加工,加速大模型的訓(xùn)練和推理,而包含知識(shí)與經(jīng)驗(yàn)的廣義數(shù)據(jù)支撐模型的訓(xùn)練和能力增強(qiáng);業(yè)務(wù)三角以應(yīng)用場(chǎng)景為原點(diǎn),進(jìn)行知識(shí)管理和經(jīng)驗(yàn)結(jié)構(gòu)萃取,不斷豐富企業(yè)數(shù)據(jù)集,數(shù)據(jù)與模型雙向交互,實(shí)現(xiàn)業(yè)務(wù)支撐和效果反饋,“非正常即異?!弊鳛樽畹湫偷睦右环萁oCIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l23l從易到難,沿著企業(yè)價(jià)值流的方向,逐步深入核企業(yè)發(fā)展AI首先要梳理應(yīng)用場(chǎng)景,建立“點(diǎn)線面”的場(chǎng)景地圖。而AI業(yè)務(wù)價(jià)值三角,則可作為識(shí)別場(chǎng)景業(yè)務(wù)價(jià)值的經(jīng)驗(yàn)范式和向?qū)?。其中,通過AI助手提升業(yè)務(wù)效率和用戶體驗(yàn),是企業(yè)AI應(yīng)用最基礎(chǔ)和常見的方式,如辦公、HR、客服等;當(dāng)AI深入生產(chǎn)環(huán)節(jié)后,常常能夠帶來生產(chǎn)力和競(jìng)爭(zhēng)力的提升,如在線顧問、工藝優(yōu)化、需求和供應(yīng)預(yù)測(cè)等;最后是對(duì)黑天鵝式低概率風(fēng)險(xiǎn)的防范,如業(yè)務(wù)連續(xù)性風(fēng)控、財(cái)務(wù)企業(yè)落地AI需要積微成著。繪制場(chǎng)景地圖時(shí)所謀者大、所思者遠(yuǎn),不用局限在已知的模型能力、已就緒行業(yè)發(fā)展趨勢(shì)的角度構(gòu)思和規(guī)劃。制定實(shí)施路線圖則需要從小處著眼、近處著眼,從一個(gè)個(gè)具體場(chǎng)景作為基于具體場(chǎng)景做能力分解,組合感知、理解、預(yù)測(cè)、決策等模型能力。任務(wù)的分解讓問題的求解更容易,AIAI業(yè)務(wù)價(jià)值三角業(yè)務(wù)效率和體驗(yàn)提升生產(chǎn)力和競(jìng)爭(zhēng)力提升供采制智能丨財(cái)經(jīng)智能丨辦公智能丨HR智能|…圖2-4場(chǎng)景選擇的價(jià)值三角圖2-4場(chǎng)景選擇的價(jià)值三角24AIDC白皮書場(chǎng)景落地選擇從三個(gè)維度入手:業(yè)務(wù)準(zhǔn)備度、技術(shù)準(zhǔn)備度和數(shù)據(jù)準(zhǔn)備度。業(yè)務(wù)準(zhǔn)備度衡量與場(chǎng)景相關(guān)的業(yè)務(wù)流程是否清晰、業(yè)務(wù)規(guī)則是否固化、業(yè)務(wù)組織是否算力等是否完備,是否匹配價(jià)值期望;數(shù)據(jù)準(zhǔn)備度衡量場(chǎng)景所需的數(shù)據(jù)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分布、數(shù)據(jù)標(biāo)場(chǎng)景選擇的總原則是先易后難,先在實(shí)現(xiàn)較簡(jiǎn)單的高頻、剛需場(chǎng)景小切口啟動(dòng),快速找到智能化價(jià)值并同步培養(yǎng)人才,然后持續(xù)迭代、螺旋式發(fā)展。行業(yè)的引領(lǐng)型企業(yè)通常可以選擇已具備相對(duì)充足的數(shù)據(jù)積累的爐場(chǎng)景”、化工的“中試場(chǎng)景”等,聯(lián)合行業(yè)研究機(jī)構(gòu)、AI科技公司、大模型公司等聯(lián)合攻關(guān),一旦突AI場(chǎng)景實(shí)施框架 數(shù)據(jù)復(fù)雜性創(chuàng)新模式(加強(qiáng)創(chuàng)造與構(gòu)思能力)·原創(chuàng)、創(chuàng)新工作 數(shù)據(jù)復(fù)雜性創(chuàng)新模式(加強(qiáng)創(chuàng)造與構(gòu)思能力)·原創(chuàng)、創(chuàng)新工作A專家模式(充分利用專業(yè)知識(shí))·高度依賴于專業(yè)知識(shí)和經(jīng)驗(yàn) 經(jīng)驗(yàn)復(fù)雜性>協(xié)同模式(支持無縫集成與協(xié)作)·廣泛延伸的互聯(lián)型工作活動(dòng)·高度依賴協(xié)調(diào)與溝通·僅需少量人工判斷的日常工作·高度依賴于定義完善且容易理解的標(biāo)準(zhǔn)常規(guī)、可預(yù)測(cè)、基于規(guī)則圖2-5場(chǎng)景選擇由易到難的路徑圖2-5場(chǎng)景選擇由易到難的路徑一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l25l語言大模型表現(xiàn)出強(qiáng)大的“內(nèi)容生成”能力,不僅僅是人機(jī)對(duì)話、知識(shí)問答,還包括看圖說話、情緒識(shí)別等非結(jié)構(gòu)化信息生成結(jié)構(gòu)數(shù)據(jù)的能力,工程設(shè)計(jì)、代碼設(shè)計(jì)等非結(jié)構(gòu)化強(qiáng)規(guī)則的文本生成能力。圍繞知識(shí)密集型場(chǎng)景,在語言大模型的延長(zhǎng)線上出現(xiàn)了大量數(shù)要將機(jī)理分析與AI模型結(jié)合起來,將感知、理解、3個(gè)維從度進(jìn)行模型選擇3個(gè)維圖2-6模型選擇方法圖2-6模型選擇方法隨著行業(yè)逐步理解這些需求,"合適"成為了模型評(píng)估的新標(biāo)準(zhǔn)。“大”追求規(guī)模和參數(shù)數(shù)量,而是要根據(jù)實(shí)際需求做出權(quán)衡。大小模型各有所長(zhǎng),結(jié)合場(chǎng)景的多樣性和復(fù)雜性,靈活運(yùn)用不同模型成為了未來的趨勢(shì)。模型的合適性與適用26AIDC白皮書數(shù)據(jù)之道延續(xù),AIGC治理結(jié)構(gòu)變革,價(jià)值最大化長(zhǎng)遠(yuǎn)看,隨著基礎(chǔ)模型的同質(zhì)化和算力稀缺性緩解,個(gè)性化數(shù)據(jù)將決定企業(yè)AI的差異化能力。企業(yè)數(shù)據(jù)之道將過程的、多維的、海量的細(xì)微原始數(shù)據(jù),以及頂端行業(yè)專家實(shí)踐中產(chǎn)生的業(yè)務(wù)判斷和執(zhí)行結(jié)果成為最寶貴的資產(chǎn)。海量的歷史、過程數(shù)據(jù)的存儲(chǔ)不再是純粹的生成式AI導(dǎo)致數(shù)據(jù)安全治理結(jié)構(gòu)發(fā)生體系性變革,模型記憶數(shù)據(jù),模型生成數(shù)據(jù),模型形成企業(yè)內(nèi)外新的數(shù)據(jù)邊界。大模型將數(shù)據(jù)、知識(shí)沉淀在模型的參數(shù)中,并且生成文本、視頻、策略等數(shù)據(jù),導(dǎo)致應(yīng)用和整合行業(yè)數(shù)據(jù)和本企業(yè)數(shù)據(jù)成為重要課題。沿著原始以數(shù)據(jù)的原始保護(hù)等級(jí)為原則,在域間采用可溯源、數(shù)據(jù)不搞大而全,要“先易后難、以用促建”,從具體場(chǎng)景入手,基于具體場(chǎng)景模型效果不斷對(duì)數(shù)據(jù)反向提出要求,獲取更多數(shù)據(jù),讓模型效果越來越好,由數(shù)據(jù)治理是數(shù)據(jù)質(zhì)量的保障,最佳的治理是基于數(shù)據(jù)采集的源頭式治理。在智慧城市、礦山、油田、工廠等大量行業(yè)場(chǎng)景中,涉及的終端、傳感器、裝備數(shù)量大、類型多,特別是多主體的場(chǎng)景中,通過統(tǒng)一智能終端和數(shù)據(jù)采集的標(biāo)準(zhǔn)規(guī)范,能夠極大降低數(shù)據(jù)治理的成本。通過邊緣推理與中心訓(xùn)練的協(xié)同,視頻感知場(chǎng)景的異常自動(dòng)標(biāo)注,或者將數(shù)據(jù)標(biāo)注的工作集成在業(yè)務(wù)人員的執(zhí)行操作流程中,低成本地獲得高質(zhì)量的AI應(yīng)用于全數(shù)據(jù)價(jià)值鏈,從數(shù)據(jù)再生產(chǎn)、數(shù)據(jù)標(biāo)識(shí)一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l27l主數(shù)據(jù)在交易打通維度數(shù)據(jù)在報(bào)告打通基于主業(yè)務(wù)流的信息價(jià)值鏈綜合治理(數(shù)據(jù)、流程、IT):縱橫打通+數(shù)據(jù)清潔主數(shù)據(jù)在交易打通維度數(shù)據(jù)在報(bào)告打通基于主業(yè)務(wù)流的信息價(jià)值鏈綜合治理(數(shù)據(jù)、流程、IT):縱橫打通+數(shù)據(jù)清潔AIGC模型內(nèi)部數(shù)據(jù)熱內(nèi)部數(shù)據(jù)熱程文件、營(yíng)銷知識(shí)庫(kù)...外部數(shù)據(jù)會(huì)外部數(shù)據(jù)會(huì)計(jì)準(zhǔn)則、開源代碼、路測(cè)數(shù)據(jù)...原始數(shù)據(jù)與訓(xùn)練環(huán)境訓(xùn)練數(shù)據(jù)集與模型AIGC模型模型與用戶人機(jī)交互ChatBox文本生成視頻生成跨模態(tài)文本生成視頻生成跨模態(tài)生成音頻生成圖2-8圖2-8AIGC治理結(jié)構(gòu)變革可信、精準(zhǔn)的數(shù)據(jù)跨部門共享通過共享高階數(shù)據(jù)(如視頻中人或物的安全狀態(tài))實(shí)現(xiàn)數(shù)據(jù)可用不可見,確保在充分利用數(shù)據(jù)價(jià)值的同時(shí),嚴(yán)可信、精準(zhǔn)的數(shù)據(jù)跨部門共享通過共享高階數(shù)據(jù)(如視頻中人或物的安全狀態(tài))實(shí)現(xiàn)數(shù)據(jù)可用不可見,確保在充分利用數(shù)據(jù)價(jià)值的同時(shí),嚴(yán)各主體基于自身和關(guān)聯(lián)主體的數(shù)據(jù)實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè),能夠發(fā)現(xiàn)更多、更復(fù)雜的規(guī) 公司數(shù)據(jù)OwnerIT主數(shù)據(jù)管理平臺(tái)維度數(shù)據(jù)管理平臺(tái)元數(shù)據(jù)管理平臺(tái)數(shù)據(jù)質(zhì)量管理工具圖2-7數(shù)據(jù)之道的延續(xù)海量、異構(gòu)數(shù)據(jù)的處理及數(shù)AI能夠?qū)⒏黝惍悩?gòu)數(shù)據(jù)(如圖紙、視頻監(jiān)控、互聯(lián)網(wǎng)輿為數(shù)據(jù)分析和風(fēng)險(xiǎn)評(píng)估提供 圖2-9數(shù)據(jù)價(jià)值最大化圖2-9數(shù)據(jù)價(jià)值最大化2828AIDC白皮書>>API>>圖2-10大模型開發(fā)的工程難題圖2-10大模型開發(fā)的工程難題大模型的開發(fā)與應(yīng)用是一個(gè)復(fù)雜的系統(tǒng)工程,需要高度集成、內(nèi)部硬軟件高度耦合、外部提供標(biāo)準(zhǔn)化的接口的AI算力平臺(tái)來支撐,重點(diǎn)解決集群建設(shè)、模集群建設(shè):如何實(shí)現(xiàn)超大集群的高性能長(zhǎng)穩(wěn)運(yùn)行?如何構(gòu)建參數(shù)面集群建設(shè):如何實(shí)現(xiàn)超大集群的高性能長(zhǎng)穩(wěn)運(yùn)行?如何構(gòu)建參數(shù)面模型訓(xùn)練:如何選擇最高效的并行組合策略?如何實(shí)現(xiàn)多任務(wù)可視化調(diào)優(yōu)?如何實(shí)現(xiàn)斷點(diǎn)續(xù)訓(xùn)?如何預(yù)測(cè)大模型的擴(kuò)展性和性能?推理壓縮:如何實(shí)現(xiàn)分布式推理和推理加速?如何進(jìn)行大模型的應(yīng)用落地:如何搭建大規(guī)模推理集群調(diào)度系統(tǒng)?如何進(jìn)行防攻擊30AIDC白皮書集群化AI集群化AI算力RDMA節(jié)點(diǎn)-1節(jié)點(diǎn)-2節(jié)點(diǎn)-N數(shù)據(jù)網(wǎng)絡(luò)平面存儲(chǔ)訓(xùn)練數(shù)據(jù)(PB級(jí))訓(xùn)練加速數(shù)據(jù)網(wǎng)絡(luò)平面存儲(chǔ)訓(xùn)練數(shù)據(jù)(PB級(jí))訓(xùn)練加速生態(tài)生態(tài)方案應(yīng)用模型算法算子數(shù)據(jù)AI平臺(tái)應(yīng)用對(duì)接SFTPrompt數(shù)據(jù)管理模型開發(fā)與訓(xùn)練分布式訓(xùn)練框架分布式訓(xùn)練框架AIAI框架異構(gòu)計(jì)算架構(gòu)異構(gòu)計(jì)算架構(gòu)算力的選擇也是技術(shù)路線的選擇。AI算力供應(yīng)鏈的可持續(xù)是路線選擇的前提,不僅要考慮硬件的長(zhǎng)期可獲得性,還要考慮軟件棧的可持續(xù)性。大模型訓(xùn)練與推理過程中,模型參數(shù)規(guī)模從數(shù)十億到萬億,這不僅要求算力平臺(tái)具備強(qiáng)大的并行計(jì)算能力,也要求算子(執(zhí)行基本運(yùn)算任務(wù)的軟件模塊)具備高效的執(zhí)行效率,從而最大程度釋放硬件計(jì)算、內(nèi)存訪問、卡間通信的潛力。比如,華為NPU針對(duì)AI負(fù)載的矩陣計(jì)算框架進(jìn)行了專門設(shè)計(jì),更適用于卷積神經(jīng)網(wǎng)絡(luò)等類型的模型加速。值得注意的是,AI算力芯片的支持不僅僅是硬件層面的問題,還需要有相應(yīng)的開發(fā)者生態(tài)作為支撐,包括開發(fā)工具鏈、軟件庫(kù)、框架支持以及開發(fā)者社區(qū)等。最后,算力路線選擇需要兼顧訓(xùn)練一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l31l信息時(shí)代,網(wǎng)絡(luò)是主角,聯(lián)接企業(yè)IT系統(tǒng)及萬物;數(shù)字時(shí)代,云是主角,使能敏捷的應(yīng)用開發(fā);進(jìn)入智其效率成為企業(yè)AI效能的基礎(chǔ)。數(shù)據(jù)中心不再是單DX4000>DX4000>2020年2030年“花錢”圖2-12從成本中心到創(chuàng)新中心圖2-12從成本中心到創(chuàng)新中心數(shù)據(jù)中心的規(guī)模性、算力效率和開發(fā)效率成為企業(yè)在算力供給受限和投資約束的情況下,數(shù)據(jù)中心的規(guī)模性、集群的有效算力、節(jié)能水平等成為企業(yè)模型開期價(jià)值閉環(huán)不是個(gè)別殺手級(jí)模型的低頻次推理,而是32AIDC白皮書的高頻使用。當(dāng)一次普通的交互需要背后百億次的運(yùn)練和推理成為最復(fù)雜的IT工程,數(shù)據(jù)中心正在成為企業(yè)數(shù)智基礎(chǔ)設(shè)施的核心,成為企業(yè)AI商業(yè)價(jià)值閉多模態(tài)交互知識(shí)檢索多模態(tài)交互知識(shí)檢索基礎(chǔ)大模型基礎(chǔ)大模型L0(CV,NLP,多模態(tài)…)企業(yè)云企業(yè)云DC企業(yè)邊緣企業(yè)邊緣DC行業(yè)行業(yè)DC公共公共DC數(shù)據(jù)中心將被AI重新定義,提供多樣性澎湃算力、使能百模千態(tài)和AI原生應(yīng)用創(chuàng)新成為愿景目標(biāo)。算力類型不再被機(jī)房基礎(chǔ)設(shè)施限定、集群規(guī)模不再被通信網(wǎng)絡(luò)限定、任務(wù)可以低約束地調(diào)度、算力資源可以跨數(shù)據(jù)中心共享,使算力跟上大模型擴(kuò)展的步幅;支持開放的模型生態(tài),針對(duì)不同業(yè)務(wù)場(chǎng)景,提供靈活的模型挑選與組合服務(wù),確保每項(xiàng)任務(wù)都能匹配到最適配的算法模型組合;基于Agent的任務(wù)設(shè)計(jì)模式,融合企業(yè)和行業(yè)的知識(shí)資產(chǎn)、數(shù)據(jù)資產(chǎn)和模型資產(chǎn),一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l33l 數(shù)據(jù)中心走向智算數(shù)據(jù)中心AIDC數(shù)據(jù)中心走向智算數(shù)據(jù)中心AIDC1940-19901940-1990DC云DCAIDC2010-20201990-20102020~智算數(shù)據(jù)中心:以xPU為中心傳統(tǒng)數(shù)據(jù)中心:以CPU為中心數(shù)據(jù)中心的發(fā)展與變化智算數(shù)據(jù)中心:以xPU為中心傳統(tǒng)數(shù)據(jù)中心:以CPU為中心內(nèi)存(DRAM)內(nèi)存(DRAM)內(nèi)存(DRAM)NPUCPUSSDPCIePCIexPUDDRNPUCPUSSDPCIePCIexPUCPUDPUSSDPCIeDPUSSDNIC·馮·馮·諾依曼主從架構(gòu)圖3-1數(shù)據(jù)中心走向智算數(shù)據(jù)中心AIDC圖3-1數(shù)據(jù)中心走向智算數(shù)據(jù)中心AIDC隨著互聯(lián)網(wǎng)的興起,數(shù)據(jù)中心作為IT基礎(chǔ)設(shè)施的核心載體開始規(guī)模出現(xiàn)。從2010年開始,隨著大數(shù)據(jù)和云服務(wù)的迅猛發(fā)展,數(shù)據(jù)中心的架構(gòu)隨之發(fā)生變?nèi)斯ぶ悄艿目焖侔l(fā)展加速智能時(shí)代的到來,對(duì)算力的需求爆發(fā)式增長(zhǎng)。智算數(shù)據(jù)中心應(yīng)運(yùn)而生,專注于提供AI模型訓(xùn)練和推理所需的高性能計(jì)算能力。如谷34AIDC白皮書一份給CIO34AIDC白皮書如Web服務(wù)、數(shù)據(jù)庫(kù)管理和文件存儲(chǔ)等常規(guī)AIDC:主要承載AI模型的訓(xùn)練與推理,高傳統(tǒng)DC:采用馮·諾依曼的主從架構(gòu),其中CPU扮演指揮官的角色,負(fù)責(zé)分配任務(wù)給其他部件。這種架構(gòu)在面對(duì)大規(guī)模并行計(jì)算任務(wù)時(shí)存在“計(jì)算墻”、“內(nèi)存墻”和“I/O墻”AIDC:采用更加先進(jìn)的全互聯(lián)對(duì)等架構(gòu),允許處理器之間,以及處理器到內(nèi)存、網(wǎng)卡等直接通信,減少了中心化控制帶來的延遲,突破主從架構(gòu)的算力瓶頸,實(shí)現(xiàn)了高效的分布式傳統(tǒng)DC:以CPU為中心,適用于一般性AIDC:以xPU為中心,提供并行計(jì)算,傳統(tǒng)DC:?jiǎn)螜C(jī)柜功率密度通常在3~8千瓦之間,可裝載的服務(wù)器設(shè)備數(shù)量有限,算力密AIDC:?jiǎn)螜C(jī)柜功率密度通常在20~100千液冷能夠更有效地帶走熱量,保證高性能計(jì)算36AIDC白皮書AIDC主要承載AI模型的“訓(xùn)推用”AIDC最主要的是要圍繞AI模型訓(xùn)練、推理和應(yīng)用來規(guī)(ToC推理、中心推理、邊緣推理)......能源終端......HR政策問答投標(biāo)SOC答復(fù)HR企業(yè)應(yīng)用企業(yè)應(yīng)用>人質(zhì)檢場(chǎng)景模型營(yíng)銷客服辦公財(cái)務(wù)......質(zhì)檢人> 行業(yè)模型廣告游戲傳媒文旅金融醫(yī)療教育法律出行制造......>人CV科學(xué)計(jì)算預(yù)測(cè)...... CV科學(xué)計(jì)算預(yù)測(cè)......NLPNLP圖3-2典型大模型應(yīng)用之旅圖3-2典型大模型應(yīng)用之旅一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l37lAI模型分為基礎(chǔ)模型、行業(yè)模型以及場(chǎng)景模型。其中,基礎(chǔ)模型具備廣泛的適用性,能夠在多種任務(wù)深入地理解該領(lǐng)域的專業(yè)術(shù)語和業(yè)務(wù)流程;場(chǎng)景模型針對(duì)具體的業(yè)務(wù)場(chǎng)景或問題進(jìn)行定制化設(shè)計(jì),精確地解決特定任務(wù)的需求,全面提升模型的專業(yè)化水平和服務(wù)能力。AI模型的全面應(yīng)用,是從訓(xùn)練到推理多環(huán)節(jié)緊密協(xié)作的過程。這個(gè)過程包括基礎(chǔ)模型預(yù)訓(xùn)練、行業(yè)或企業(yè)模型的二次訓(xùn)練以及場(chǎng)景模型的微調(diào),最終實(shí)現(xiàn)模型在實(shí)際環(huán)境中的部署與推理應(yīng)用。每一步都對(duì)數(shù)據(jù)訓(xùn)練-推理預(yù)訓(xùn)練二次訓(xùn)練全參微調(diào)局部微調(diào)ToC推理ToB中心ToB邊緣業(yè)務(wù)主體行業(yè)頭部企業(yè)大中型企業(yè)大中小企業(yè)超大規(guī)模大規(guī)模較小規(guī)模小規(guī)模超大規(guī)模大規(guī)模數(shù)百卡~算力需求超大規(guī)模大規(guī)模較小規(guī)模小規(guī)模超大規(guī)模大規(guī)模數(shù)百卡~算力需求小規(guī)模數(shù)十卡工程難度很高TP/DP/PP并行,海量數(shù)據(jù)高基模選擇,高質(zhì)量數(shù)據(jù)較高很高TP/DP/PP并行,海量數(shù)據(jù)高基模選擇,高質(zhì)量數(shù)據(jù)較高十萬~百萬條指令集一般<萬條指令集很高極致性能高融合高效較高靈快輕易圖3-3不同場(chǎng)景訓(xùn)練推理的算力需求及工程難度圖3-3不同場(chǎng)景訓(xùn)練推理的算力需求及工程難度大型互聯(lián)網(wǎng)企業(yè)和專注于大模型訓(xùn)練的模型公司,其AIDC規(guī)劃建設(shè)目標(biāo)明確,即支撐基礎(chǔ)模型預(yù)訓(xùn)練。還需要收集和處理萬億級(jí)別的Token數(shù)據(jù),以確保模型能夠?qū)W習(xí)足夠的知識(shí)和技能。這種規(guī)模的訓(xùn)練不僅僅是技術(shù)上的挑戰(zhàn),更是對(duì)資源調(diào)配和系統(tǒng)運(yùn)維管行業(yè)頭部企業(yè)在AIDC規(guī)劃時(shí),重點(diǎn)是行業(yè)模型的二次訓(xùn)練。行業(yè)模型是基于基礎(chǔ)模型,通過疊加大量特定行業(yè)數(shù)據(jù)進(jìn)行增量訓(xùn)練而產(chǎn)生的。相比基礎(chǔ)模型的訓(xùn)練,復(fù)雜程度有所降低,但仍需要數(shù)百到數(shù)千張NPU/GPU的算力卡支持,并需要處理數(shù)億級(jí)Token數(shù)據(jù)量。38AIDC白皮書對(duì)于多數(shù)企業(yè)而言,AIDC的建設(shè)重點(diǎn)在于承載AI模型的微調(diào)、推理及應(yīng)用。鑒于AI應(yīng)用的高度場(chǎng)景化特性,企業(yè)通常需要基于行業(yè)模型或基礎(chǔ)模型,結(jié)合自身特有的場(chǎng)景化數(shù)據(jù)進(jìn)行進(jìn)一步的微調(diào),從而使模型具備特定場(chǎng)景下的理解和生成能力,進(jìn)而達(dá)到在實(shí)際業(yè)務(wù)環(huán)境中部署應(yīng)用的標(biāo)準(zhǔn)。AI推理的關(guān)鍵指標(biāo)包括延遲(Latency)、準(zhǔn)確性(Accuracy)、并發(fā)處理能力(Concurrency)以及算力使用效率(Efficiency)。根據(jù)推理服務(wù)的目標(biāo)用戶數(shù)量,如面向廣大個(gè)人消費(fèi)者的2C服務(wù)、面向眾多企業(yè)的2B服務(wù)或是僅限企業(yè)內(nèi)部使用的應(yīng)用,AIDC的規(guī)劃建設(shè)標(biāo)準(zhǔn)和技術(shù)要求也會(huì)有所不同。AIDC四大建設(shè)場(chǎng)景及三大類型根據(jù)不同需求,企業(yè)規(guī)劃建設(shè)AIDC主要涵蓋四大典型場(chǎng)景及用途。頭部互聯(lián)網(wǎng)公司、通信運(yùn)營(yíng)商及大模型廠商等,金融、電力等國(guó)計(jì)民生的重要行業(yè)頭部企業(yè),正在一些集團(tuán)化運(yùn)營(yíng)的企業(yè)中,其總部通常會(huì)建立時(shí),在各個(gè)分支機(jī)構(gòu)或靠近生產(chǎn)的地方,也會(huì)設(shè)與企業(yè)整體組織結(jié)構(gòu)相匹配的中心+邊緣相互協(xié)同的架構(gòu),這種架構(gòu)不僅能夠充分利用資源,還場(chǎng)景4:輕量化推理場(chǎng)景4:輕量化推理但考慮到數(shù)據(jù)安全性和隱私保護(hù)的重要性,這些機(jī)構(gòu)通常選擇自建小型AIDC,用于輕量化的推理任務(wù)及模型微調(diào)。例如,某三甲醫(yī)院利用AI技術(shù)進(jìn)行醫(yī)學(xué)影像分析,幫助醫(yī)生更快速準(zhǔn)確地場(chǎng)景3場(chǎng)景場(chǎng)景3場(chǎng)景4ToC海量推理三類AIDC超大型超大型AIDC大型大型AIDC小型小型AIDC圖3-4圖3-4AIDC建設(shè)場(chǎng)景及類型綜上所述,業(yè)界典型的AIDC主要有三大類:超大型AIDC、大型AIDC以及小型AIDC。一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l39l一、超大型一、超大型AIDC隨著隨著AIDC計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備的規(guī)模不斷擴(kuò)大,如何高效地整合這些資源以實(shí)現(xiàn)算力的最大化,成為了業(yè)界研究熱點(diǎn)。首先,要實(shí)現(xiàn)大規(guī)模設(shè)備的有效互聯(lián),就需要解決網(wǎng)絡(luò)架構(gòu)、通信協(xié)議以及數(shù)據(jù)傳輸效率等多個(gè)方面的問題。這要求在網(wǎng)絡(luò)設(shè)計(jì)上更加注重可擴(kuò)展性、靈活性和可靠性,以確保設(shè)備之間能夠高效、穩(wěn)定地進(jìn)行數(shù)據(jù)傳輸和通信。其次,簡(jiǎn)單的設(shè)備堆疊并不能實(shí)現(xiàn)算力的線性增長(zhǎng),需要采用更加智能化的調(diào)度和管理策略,實(shí)現(xiàn)集群內(nèi)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源之間的緊密協(xié)同。從當(dāng)前業(yè)界的數(shù)據(jù)來看,即使是業(yè)界頂尖的千卡智算集群,其算力利用率不超過60%,萬卡40%,這進(jìn)一步說明了提高超大規(guī)模集群有效超大規(guī)模AIDC的耗電量極為驚人。例如,一),相當(dāng)于7.5萬戶普通美國(guó)家庭的用電超大規(guī)模集群由成百上千萬的器件構(gòu)成,大模型的訓(xùn)練一般需要集群上百天7x24小時(shí)滿負(fù)荷運(yùn)轉(zhuǎn),導(dǎo)致光模塊、NPU/GPU、HBM內(nèi)存等器件極易發(fā)生故障,而訓(xùn)練的同步性質(zhì)使其對(duì)故障的容忍度較低,任何單點(diǎn)故障都可能導(dǎo)致訓(xùn)練任務(wù)中斷,造成巨大經(jīng)濟(jì)損失。業(yè)界在其16K集群訓(xùn)練Llama3405B模型時(shí),54天內(nèi)發(fā)生了466次作業(yè)中斷。故障恢復(fù)常為應(yīng)對(duì)上述挑戰(zhàn),業(yè)界領(lǐng)先的超大型AIDC需要具備極致能效和極致算效的能力。I二、大型二、大型AIDC大型AIDC通常由行業(yè)頭部企業(yè)規(guī)劃建設(shè),既要承擔(dān)多種模型的訓(xùn)練及微調(diào)任務(wù),又要承擔(dān)較大規(guī)模的中心推對(duì)于金融、政府、電力等國(guó)計(jì)民生行業(yè),某些場(chǎng)景有嚴(yán)格的AI輸出要求,需要確保生成式DC建設(shè)使用的瓶頸。降低AIDC運(yùn)維難度一方面可幫助企業(yè)更快的將智能應(yīng)用部署到實(shí)際生產(chǎn)環(huán)境中,縮短開發(fā)周期,從而在競(jìng)爭(zhēng)激烈的市場(chǎng)中保持領(lǐng)先優(yōu)勢(shì);另一方面可以節(jié)省建一個(gè)大型的AIDC,企業(yè)往往需巨額的資金04一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l41l4242AIDC白皮書AIDC五大特征變化三、小型三、小型AIDC小型AIDC主要承擔(dān)輕量級(jí)的推理及AI業(yè)務(wù)應(yīng)用,有些還要求提供模型微調(diào)能力,一般建在貼近生產(chǎn)小型AIDC主要承擔(dān)輕量級(jí)的推理及AI業(yè)務(wù)應(yīng)用,有些還要求提供模型微調(diào)能力,一般建在貼近生產(chǎn)或靠近典型典型AIDC關(guān)鍵挑戰(zhàn)5大技術(shù)方向超大規(guī)模:萬卡/十萬卡大規(guī)模集群系統(tǒng)構(gòu)建大型AIDC小型AIDC系統(tǒng)摩爾極致算效:極致的算力效率,加速訓(xùn)練推理長(zhǎng)穩(wěn)運(yùn)行:千萬級(jí)器件、故障點(diǎn)多,如何長(zhǎng)穩(wěn)運(yùn)行能基木桶故障定位:智算平臺(tái)中斷損失大,需快速故障定位修復(fù)供電制冷:供電、制冷、承重、布線等機(jī)房環(huán)境準(zhǔn)備系統(tǒng)摩爾極致算效:極致的算力效率,加速訓(xùn)練推理長(zhǎng)穩(wěn)運(yùn)行:千萬級(jí)器件、故障點(diǎn)多,如何長(zhǎng)穩(wěn)運(yùn)行能基木桶故障定位:智算平臺(tái)中斷損失大,需快速故障定位修復(fù)供電制冷:供電、制冷、承重、布線等機(jī)房環(huán)境準(zhǔn)備迭代式平臺(tái)極致能效:超高功率供電下,極致的能源效率資源高效:大規(guī)模高效任務(wù)調(diào)度,提升算力資源利用率編排式應(yīng)用持續(xù)演進(jìn):傳統(tǒng)流程,無法適應(yīng)Al能力快速、持續(xù)迭代的要求模型應(yīng)用:模型迭代快,如何和應(yīng)用有效隔離生成式安全多模編排:大小模型、多模型組合編排,快速應(yīng)用創(chuàng)新Al安全:大模型黑盒無法解釋,內(nèi)容合規(guī)、提示注入、模型竊取等對(duì)于小型AIDC,企業(yè)一般配備較少、甚至沒DC故障要少、日常運(yùn)維極簡(jiǎn),在出故障時(shí),04如何確保小型AIDC的安全,也是必須解決的小型AIDC受環(huán)境限制,所能提供的算力資源有些小型AIDC的位置相對(duì)較偏,甚至遠(yuǎn)離城署,交付人員最好只跑一趟就能完成AIDC的圖3-5典型圖3-5典型AIDC的關(guān)鍵挑戰(zhàn)及技術(shù)方向算力大小決定了模型能力上限。當(dāng)前,大模型的能力上限尚未觸及,ScalingLaw尺寸定律依然有效。預(yù)如此大規(guī)模的模型訓(xùn)練需要算力規(guī)模和能力的進(jìn)一步突破,而當(dāng)前主導(dǎo)算力發(fā)展的傳統(tǒng)通算摩爾定律正遭遇物理學(xué)和經(jīng)濟(jì)學(xué)雙重限制,致使傳統(tǒng)的硅基電子技術(shù)臨近發(fā)展極限,算力增長(zhǎng)速度遠(yuǎn)遠(yuǎn)慢于算力需求的增長(zhǎng)速度,算力裂谷越來越大,業(yè)界迫切需要新的算一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l43lPFlopsPFlops/每天Neural●1e-1VGG1e-2AlexNetGoogleNetvirtualMachineAI算力增長(zhǎng)速度·understandingConv20122013201420152016201720192020AlphaGoZero●DeepSpeech2ResNetMachineTranslationAlphaGo●Tl7Dota1e-31e-4巨大的GAPSEQ2SEQXceptionGPT-3圖3-6智能時(shí)代加速而來,算力裂谷越來越大圖3-6智能時(shí)代加速而來,算力裂谷越來越大系統(tǒng)摩爾是華為最初在《數(shù)據(jù)中心2030》報(bào)告中提出的概念,它定義為一種新的算力提升方法,主要依賴系統(tǒng)級(jí)架構(gòu)創(chuàng)新、算存網(wǎng)深度協(xié)同、軟硬深度協(xié)同來提升算力,滿5大創(chuàng)新5大創(chuàng)新圖3-7圍繞系統(tǒng)摩爾的5大創(chuàng)新圖3-7圍繞系統(tǒng)摩爾的5大創(chuàng)新44AIDC白皮書過去70年,計(jì)算機(jī)一直遵循馮·諾依曼架構(gòu)設(shè)計(jì),運(yùn)行時(shí)數(shù)據(jù)需要在處理器和內(nèi)存之間來回傳輸。在人工智能等高并發(fā)計(jì)算場(chǎng)景中,這種傳輸方式會(huì)產(chǎn)生巨大的通信延遲,從而導(dǎo)致“通信墻”;而且目前內(nèi)存系統(tǒng)的性能提升速度大幅落后于處理器的性能提升速度,有限的內(nèi)存帶寬無法保證數(shù)據(jù)高速傳輸,帶來了“內(nèi)存墻”。在此背景下,全互聯(lián)的對(duì)等計(jì)算架構(gòu)應(yīng)運(yùn)而生,它能夠讓NPU、DPU、CPU、內(nèi)存以及其他異構(gòu)芯片之間實(shí)現(xiàn)高效的數(shù)據(jù)交換,打破傳統(tǒng)計(jì)算架構(gòu)的“通信墻”和“內(nèi)存墻”等瓶頸,支持AI等場(chǎng)景對(duì)跨主機(jī)高帶寬、低時(shí)延的訴求,實(shí)現(xiàn)DCasaComputer,算網(wǎng)存深度協(xié)同,通過系統(tǒng)級(jí)架首先,計(jì)算類型的演變。從以CPU為中心的通用計(jì)算,向以GPU和NPU為中心的智能計(jì)算轉(zhuǎn)變。這種轉(zhuǎn)變不僅適應(yīng)了AI算法所需的大量并行處理能力,還大幅提升了計(jì)算效率和靈活性。并行計(jì)算技術(shù),如同千軍萬馬并駕齊驅(qū),能夠同時(shí)處理多個(gè)計(jì)提高了計(jì)算資源的利用率和整體計(jì)算效率。通過并行計(jì)算,不僅能夠縮短計(jì)算時(shí)間,還在更短的時(shí)間內(nèi)完成更復(fù)雜的計(jì)算任務(wù),從而更有力地推動(dòng)了人工智能領(lǐng)域的發(fā)展。其次,芯片技術(shù)的進(jìn)步。首先是Chiplet技術(shù),不僅且這種方法可以根據(jù)不同的產(chǎn)品規(guī)格需求靈活調(diào)整,實(shí)現(xiàn)更高水平的芯片性能。此外,與傳統(tǒng)的封裝板級(jí)互連方案相比,2.5D封裝技術(shù)能夠?qū)⒚勘忍氐哪芎脑凇靶麓鎯?chǔ)”領(lǐng)域,隨著大模型的廣泛應(yīng)用,對(duì)高性在訓(xùn)練階段,需要從存儲(chǔ)系統(tǒng)快速加載樣本數(shù)據(jù)到U/GPU,并定期將Checkpoint/GPU寫回到存儲(chǔ)系統(tǒng)中保存。因此,提升存儲(chǔ)I/O性能,縮短數(shù)據(jù)讀寫時(shí)間,成為了提高訓(xùn)練效率的重要手段之一。為此,NPU/GPU直通存儲(chǔ)技術(shù)應(yīng)運(yùn)而生。這種技術(shù)為NPU/GPU與存儲(chǔ)之間提供了一條直接的內(nèi)存訪問傳輸路徑,消除了原先涉及的CPU內(nèi)存緩沖和復(fù)制過程,從而大幅縮短了數(shù)據(jù)讀在推理階段,尤其是在面對(duì)高并發(fā)、長(zhǎng)序列的推理場(chǎng)景時(shí),業(yè)界提出了以KVCache(鍵值緩存)為中心的多級(jí)緩存加速技術(shù)。這一技術(shù)能夠顯著提升大規(guī)模推理系統(tǒng)的吞吐性能,通過優(yōu)化數(shù)據(jù)訪問路徑,確??傊?,無論是訓(xùn)練過程中的NPU/GPU直通存儲(chǔ)技術(shù),還是推理過程中的KVCache多級(jí)緩存加速技術(shù),都是為了在大數(shù)據(jù)量和高并發(fā)場(chǎng)景下,提升系統(tǒng)的整體性能和響應(yīng)速度,從而更好地滿足大模型應(yīng)用一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l45l網(wǎng)絡(luò)作為連接計(jì)算和存儲(chǔ)的關(guān)鍵紐帶,在滿足大規(guī)模計(jì)算集群的連接需求方面,正迅速向十萬乃至數(shù)十萬xPU(如GPU、NPU等)的互聯(lián)演進(jìn)。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,參數(shù)面網(wǎng)絡(luò)的接入速率已從200GE提升至400GE乃至800GE。大模型本身也在不斷發(fā)展,從早期的張量并行、數(shù)據(jù)并行和流水線并行等分割方式,快速演進(jìn)到MOE(MixtureofExperts,專家混合)等更高級(jí)別的并行方法。這一演進(jìn)對(duì)網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)提出了更高的要求。為應(yīng)對(duì)這一挑戰(zhàn),各大廠商紛紛推出各自的負(fù)載均衡解決方案。例如,華為推出了與昇騰平臺(tái)配套的動(dòng)態(tài)NSLB(全局負(fù)載均衡)技術(shù)。據(jù)測(cè)試結(jié)果顯示,在512卡規(guī)模內(nèi),該技術(shù)能夠提升Llama2總之,隨著網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步和大模型的演進(jìn),網(wǎng)絡(luò)架構(gòu)和負(fù)載均衡技術(shù)也在不斷創(chuàng)新,以滿足更高性I新的管理模式必須具備跨域協(xié)同管理的端到端系統(tǒng)運(yùn)控制以及分析等全生命周期運(yùn)維管理。具體包括以下全鏈路可視化監(jiān)控:通過實(shí)時(shí)監(jiān)控整個(gè)系統(tǒng)的運(yùn)行跨域故障快速定位:利用先進(jìn)的故障檢測(cè)技術(shù),快速準(zhǔn)確定位故障點(diǎn),減少故障排查時(shí)間,避免訓(xùn)練任保一旦發(fā)生故障,能夠迅速采取措施恢復(fù)系統(tǒng)正常運(yùn)通過這些措施,可以顯著提升訓(xùn)練效率、降低訓(xùn)練成這種全方位的系統(tǒng)運(yùn)維管理能力是未來大型乃至超大AIDC算力密度增長(zhǎng)帶來功率密度的急劇攀升,給供電、散熱及布局等帶來極大挑戰(zhàn),正在重塑數(shù)據(jù)中心能源DC云DCAIDC圖3-8不同時(shí)代數(shù)據(jù)中心機(jī)柜的典型功率圖3-8不同時(shí)代數(shù)據(jù)中心機(jī)柜的典型功率隨著數(shù)據(jù)中心用電量的飆升,尤其是當(dāng)單個(gè)數(shù)據(jù)中心用電量躍升至200MW乃至500MW以上時(shí),城市現(xiàn)有電力基礎(chǔ)設(shè)施的瓶頸日益凸顯。如OpenAI的“星際之門”項(xiàng)目所預(yù)計(jì)的高達(dá)數(shù)千兆瓦的電力需求,已迫使數(shù)據(jù)中心選擇跨越地域界限的電力供給解決方案。因此,如何高效、穩(wěn)定地獲取并匹配如此龐大的電力資源,成為了制約算力規(guī)模進(jìn)一步提升的首要難題。高功率密度帶來的不僅僅是電力挑戰(zhàn),更對(duì)散熱技術(shù)提出了嚴(yán)苛要求。液冷技術(shù)雖已成為行業(yè)共識(shí),但面對(duì)未來更高功率密度的挑戰(zhàn),如何在確保可靠性和易維護(hù)的同時(shí),提升散熱效率,仍是亟待解決一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l47lAIDC的設(shè)計(jì)需兼顧IT機(jī)房、制冷設(shè)施與電力供應(yīng)區(qū)域的復(fù)雜需求,打破傳統(tǒng)設(shè)計(jì)模式,采用更為前瞻性的布局思路。這包括降低IT設(shè)施與機(jī)電設(shè)施的耦合度、實(shí)現(xiàn)機(jī)電設(shè)施的模塊化與室外化布置、以及結(jié)為避免能源基礎(chǔ)設(shè)施成為數(shù)據(jù)中心發(fā)展的瓶頸,并減優(yōu)化數(shù)據(jù)中心布局:通過科學(xué)合理的規(guī)劃與設(shè)計(jì),確保電力供應(yīng)、冷卻系統(tǒng)與算力需求之提升能源使用效率:采用先進(jìn)的節(jié)能技術(shù)與管理手段,降低能耗水平,實(shí)現(xiàn)綠色算力的發(fā)發(fā)展可再生能源與儲(chǔ)能技術(shù):積極利用太陽能、風(fēng)能等可再生能源資源,并配套建設(shè)儲(chǔ)能設(shè)施,提升數(shù)據(jù)中心的電力供給能力與抗風(fēng)險(xiǎn)升級(jí)供電與制冷設(shè)備:緊跟技術(shù)發(fā)展步伐,不斷引入更高效、更可靠的供電與制冷設(shè)備,前瞻的視角,積極探索并實(shí)踐上述應(yīng)對(duì)策略,在保障48AIDC白皮書相比于傳統(tǒng)DC,AIDC規(guī)模更大、業(yè)務(wù)更為復(fù)雜且技術(shù)更新更快。因此,提供資源管理調(diào)度、支撐模型AI算力資源的高效利用:AI服務(wù)器采購(gòu)價(jià)力資源,讓單位算力產(chǎn)出更大,就成了企業(yè)用AI開發(fā)的高門檻和高成本:傳統(tǒng)AI模型的泛化能力較差,面對(duì)不同的用戶或數(shù)據(jù)源時(shí),性能容易下降。缺少算法專家的企業(yè)難以完成模型的調(diào)試和優(yōu)化,而即便大模型的泛化能力有所改進(jìn),但面對(duì)廣泛的應(yīng)用需求,算法專家務(wù)于企業(yè)業(yè)務(wù)的各個(gè)領(lǐng)域。此外,模型維護(hù)也AIDC運(yùn)維運(yùn)營(yíng)難度大:AIDC作為一種新以及高性能網(wǎng)絡(luò)和存儲(chǔ)設(shè)備經(jīng)驗(yàn)的運(yùn)維人員,他們面臨的問題包括合理的資源分配、變更管不僅需要運(yùn)維人員個(gè)人能力提升,還需要有完為了應(yīng)對(duì)上述挑戰(zhàn),需要一個(gè)能夠持續(xù)迭代的AI平臺(tái),不斷整合新技術(shù)和架構(gòu),以成熟的方式提供給用戶,朝戶提升性能并降低成本。數(shù)據(jù)并行、網(wǎng)絡(luò)優(yōu)化等技術(shù)有助于提高訓(xùn)練效率;量化壓縮則提升了推理效率;PD分離技術(shù)增強(qiáng)了長(zhǎng)序列輸出的性能;提示工程優(yōu)化則能低成本地提升推理關(guān)重要。通過優(yōu)化存儲(chǔ)方案和通信算法,可以克服并行訓(xùn)練中的瓶頸,提高數(shù)據(jù)傳輸效率,縮短訓(xùn)練時(shí)間。對(duì)于以交互為主的推理應(yīng)用,平臺(tái)應(yīng)支持動(dòng)態(tài)調(diào)度,如API、定時(shí)及按負(fù)載擴(kuò)縮容,以釋放閑置資源。夜間空閑資源可用于微調(diào)訓(xùn)練,另外,平臺(tái)還需提供安全隔離和靈活調(diào)度支持,確保業(yè)務(wù)連續(xù)性和資源的有效大規(guī)模NPU/GPU和光模塊使AI集群運(yùn)維復(fù)雜化。新一代運(yùn)維系統(tǒng)應(yīng)具備全面監(jiān)控、故障預(yù)測(cè)、智能分析等功能,提升硬件的無故障運(yùn)行時(shí)間和集群效率。在推理環(huán)節(jié),運(yùn)維系統(tǒng)需監(jiān)控硬件利用率等關(guān)鍵指標(biāo),識(shí)別低效作業(yè)并方向04大模型應(yīng)用開發(fā)已有多種模式,如RAG和Agent。AI平臺(tái)應(yīng)提供相應(yīng)的支持工具,比如數(shù)據(jù)工程模塊簡(jiǎn)化數(shù)據(jù)預(yù)處理,模型開發(fā)模塊降低訓(xùn)練門檻,Agent開發(fā)模塊則簡(jiǎn)化服務(wù)構(gòu)一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l49l隨著數(shù)字化進(jìn)程的加速,許多領(lǐng)先企業(yè)已擁有從幾十到數(shù)百個(gè)應(yīng)用不等。在過去的一年多時(shí)間里,AI技術(shù)的快速發(fā)展推動(dòng)了“所有行業(yè)、所有應(yīng)用、所有軟件都值得用AI重做一遍”的理念。與此同時(shí),大模型的應(yīng)用極大地改變了軟件開發(fā)的方式,催生了一種新的編排式應(yīng)用開發(fā)模式。面向未來,企業(yè)在智能化轉(zhuǎn)型的過程中,將擁有成千上萬的各種模型,如此龐大的模型庫(kù),導(dǎo)致未來企業(yè)必須通過編排式應(yīng)用開發(fā),才能快速響應(yīng)企業(yè)的智能化改造需求,以促進(jìn)業(yè)務(wù)創(chuàng)新。編排式應(yīng)用的構(gòu)建與傳統(tǒng)應(yīng)用構(gòu)建方式在構(gòu)建主體、流程分解、實(shí)現(xiàn)形式以及處理形態(tài)等方面存在根本性的區(qū)別。在基于大模型的編排式應(yīng)用構(gòu)建中,業(yè)務(wù)工程師和系統(tǒng)工程師可以根據(jù)具體的業(yè)務(wù)邏輯,通然語言提示的方式引導(dǎo)大模型對(duì)業(yè)務(wù)流程進(jìn)行分解規(guī)劃。這種流程處理依據(jù)大模型的規(guī)劃結(jié)果進(jìn)行實(shí)施,其形態(tài)也從固定的靜態(tài)流程轉(zhuǎn)變?yōu)楦哽`活性的動(dòng)態(tài)流程。未來的應(yīng)用構(gòu)建方式將更多地依賴于業(yè)務(wù)人員而非專業(yè)的開發(fā)人員,編排式應(yīng)用模式的轉(zhuǎn)變使得業(yè)務(wù)人員乃至最終用戶自主構(gòu)建智能體(Agent)應(yīng)用以開發(fā)人員為主系統(tǒng)工程師人工分解,依賴代碼化實(shí)現(xiàn)和擴(kuò)展固定流程以業(yè)務(wù)人員為主業(yè)務(wù)工程師&系統(tǒng)工程師以開發(fā)人員為主系統(tǒng)工程師人工分解,依賴代碼化實(shí)現(xiàn)和擴(kuò)展固定流程以業(yè)務(wù)人員為主業(yè)務(wù)工程師&系統(tǒng)工程師大模型分解、自動(dòng)編排,零編碼動(dòng)態(tài)流程ASIS:傳統(tǒng)應(yīng)用TOBe:編排式應(yīng)用走向零編碼,讓業(yè)務(wù)人員自主構(gòu)建應(yīng)用成為可能圖3-9從傳統(tǒng)應(yīng)用到編排式應(yīng)用圖3-9從傳統(tǒng)應(yīng)用到編排式應(yīng)用在編排式應(yīng)用開發(fā)中,重要的是要充分利用大模型在理解和生成方面的能力,以及小模型在感知和執(zhí)行上的專長(zhǎng),通過合理編排這兩種模型,實(shí)現(xiàn)能力互補(bǔ),共同支撐應(yīng)用的功能。通過對(duì)多個(gè)行業(yè)中實(shí)際AI應(yīng)用案例的分析,我們總結(jié)了四種主要的應(yīng)用50AIDC白皮書模式模式A首先由一系列的小模型進(jìn)行感知層面的數(shù)據(jù)收首先由一系列的小模型進(jìn)行感知層面的數(shù)據(jù)收集與初步分析,隨后將這些數(shù)據(jù)輸入到大模型中進(jìn)行深入的理解和生成。例如,在智慧城市管理中,可以通過人臉識(shí)別、車輛識(shí)別、異常行為檢測(cè)等視頻分析算法獲取結(jié)構(gòu)化數(shù)據(jù),再將這些數(shù)據(jù)輸入到自然語言處理(NLP)大模型中進(jìn)行綜合分析,幫助識(shí)別城市中的潛在風(fēng)模式B......首先由NLP大模型理解并分發(fā)任務(wù),然后由......首先由NLP大模型理解并分發(fā)任務(wù),然后由NLP大模型可以理解醫(yī)生提供的患者病歷資料,并據(jù)此規(guī)劃出診斷流程,再將具體的眼部圖像分析任務(wù)分配給計(jì)算機(jī)視覺(CV)模型來執(zhí)行,從而生成診斷報(bào)告,形成一個(gè)高效的模式C模式C..................大模型與小模型共同協(xié)作完成任務(wù),先是大模型理解問題并生成具體的任務(wù)列表,接著調(diào)用實(shí)際上是對(duì)模式A和模式C的綜合運(yùn)用,即先由小模型進(jìn)行感知層面的工作,再由大模型進(jìn)行理解和生成任務(wù),最后由多個(gè)小模型和大圖3-10圖3-10四種應(yīng)用編排模式一份給CIO規(guī)劃建設(shè)智算數(shù)據(jù)中心的參考l51l除了傳統(tǒng)數(shù)據(jù)中心面臨的安全風(fēng)險(xiǎn),AIDC還要面臨新的安全挑戰(zhàn)。一是AI內(nèi)容生產(chǎn)過程的“黑盒”特性,導(dǎo)致其輸出內(nèi)容具有很大的不確定性和不可解釋性,帶來較大的應(yīng)用風(fēng)險(xiǎn),尤其是一些對(duì)輸出內(nèi)容要求比較嚴(yán)格的場(chǎng)景。二是AI系統(tǒng)面臨新型安全攻擊的威脅,大模型基于統(tǒng)計(jì)和語言規(guī)則的預(yù)測(cè)機(jī)制使得它很難區(qū)分是合法的指令還是惡意的輸入,攻擊者可以通過精心設(shè)計(jì)的提示詞來操縱大模型,如在2023年中針對(duì)ChatGPT的“奶奶講故事”漏洞,誘導(dǎo)AI執(zhí)行本應(yīng)禁止的操作。三是潛在引入新的數(shù)據(jù)安全風(fēng)險(xiǎn),大模型在訓(xùn)練過程中可能會(huì)接觸到大量的用戶數(shù)據(jù),并加以記憶存儲(chǔ),而在推理階段可能會(huì)無意泄露客戶的隱私信息,如三星電子半導(dǎo)體員工在使用ChatGPT的過程中,無意中泄露了半導(dǎo)體設(shè)備測(cè)量資料和產(chǎn)品良率等敏感信息,競(jìng)爭(zhēng)對(duì)手可通過ChatGPT問答來獲取相關(guān)信息,對(duì)三星的市場(chǎng)地位和競(jìng)爭(zhēng)力造成了極大的負(fù)面影響。為此,全球權(quán)威的OWASP(OpenWebApplicationSecurityProject)在線社區(qū)集合了全球500+安全專家,在1不安全輸出(InsecureOutput1不安全輸出(InsecureOutputHanding)276不安全的插件設(shè)計(jì)(InsecurePluginDesign)訓(xùn)練數(shù)據(jù)投毒(TrainingDataPoisoning)38Top10for訓(xùn)練數(shù)據(jù)投毒(TrainingDataPoisoning)38Top10forLLM模型拒絕服務(wù)(ModelDenialofservice)49過度代理(ExcessiveAgency)過度依賴(Overreliance)供應(yīng)鏈漏洞(SupplyChain供應(yīng)鏈漏洞(SupplyChainVulnerability)5模型竊取(ModelTheft)圖3-11圖3-11OWASP發(fā)布的大語言模型10大安全風(fēng)險(xiǎn)針對(duì)上述安全風(fēng)險(xiǎn),需要構(gòu)建立體、多元的系統(tǒng)性安全防御,從源頭上控制風(fēng)險(xiǎn),確保大模型安全做事。首先需要保證訓(xùn)練數(shù)據(jù)集的安全,重點(diǎn)加強(qiáng)數(shù)據(jù)版權(quán)保護(hù),隱私合規(guī),確保數(shù)據(jù)可追溯;其次在模型訓(xùn)練52AIDC白皮書階段,要增強(qiáng)模型的內(nèi)生安全能力,通過教會(huì)大模型各類安全知識(shí),提升大模型自身的健壯性;最后通過構(gòu)建大模型安全護(hù)欄,確保大模型從容應(yīng)對(duì)各種安全運(yùn)維管理安全防護(hù)運(yùn)維管理安全防護(hù)傳統(tǒng)數(shù)據(jù)中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論