異構(gòu)融合計(jì)算技術(shù)白皮書 2023_第1頁(yè)
異構(gòu)融合計(jì)算技術(shù)白皮書 2023_第2頁(yè)
異構(gòu)融合計(jì)算技術(shù)白皮書 2023_第3頁(yè)
異構(gòu)融合計(jì)算技術(shù)白皮書 2023_第4頁(yè)
異構(gòu)融合計(jì)算技術(shù)白皮書 2023_第5頁(yè)
已閱讀5頁(yè),還剩100頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

點(diǎn)中國(guó)賽寶智庫(kù)I編寫者參編單位:浪潮電子信息產(chǎn)業(yè)股份有限公司、上海矩向科技有限公司、中國(guó)電信研究院、清華大學(xué)、中國(guó)科學(xué)院軟件研究所、國(guó)防科技大學(xué)、復(fù)旦大學(xué)、中國(guó)長(zhǎng)城研究院、中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、曙光信息產(chǎn)業(yè)(北京)有限公司、同方計(jì)算機(jī)有限公司、上海熠知電子科技有限公司、阿里云技術(shù)有限公司、中參編人員:楊曉明、陳平、劉建、熊婧、李冬、黃朝波、廉建芳、顏秉珩、林顯成、董剛、王洲、蔡彥、陳小文、盧晶雨、任翔、劉娜、張政、李寧、崔士偉、徐揚(yáng)、李璇、劉玉海、尹航、李陽(yáng)、買強(qiáng)、張磊、張震寧、趙立新、左明敏、周鵬、戴少鵬、楊蔚才、李亞軍、伍海龍、陳碩、張陽(yáng)、劉占民、王佑站、版權(quán)聲明:本白皮書版權(quán)屬于工業(yè)和信息化部電子第五研究所及參編單位,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本白皮書文字或者觀點(diǎn)的,應(yīng)注明“來(lái)源:工業(yè)和信息化部電子第五研究所”。違反上述聲明者,將追究其相關(guān)法律責(zé)任。編者序近年來(lái),自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用不斷創(chuàng)新發(fā)展,數(shù)據(jù)規(guī)模、算法復(fù)雜度以及算力需求爆發(fā)式增長(zhǎng)。各類加速處理器已成為算力基礎(chǔ)設(shè)施的重要組件,基于和維護(hù)成本增高等問(wèn)題愈發(fā)凸顯,亟需從異構(gòu)年開始,隨著AI大模型應(yīng)用的涌現(xiàn),算力需求平均每2個(gè)月翻一倍;摩根士丹利估計(jì)“2022年谷歌的3.3萬(wàn)億次搜索,平均成本約于大模型搜索的成本是標(biāo)準(zhǔn)關(guān)鍵詞搜索的10倍”。需求的變化和成本的約束,再加上基礎(chǔ)架構(gòu)的變革。計(jì)算架構(gòu)已逐漸從目前各自為政、孤島式的異構(gòu)計(jì)算,走向異構(gòu)融合計(jì)算。同時(shí),以系統(tǒng)設(shè)計(jì)為中心,按照應(yīng)用需求來(lái)設(shè)計(jì)、定義和規(guī)劃計(jì)算架構(gòu),推動(dòng)多層級(jí)狹義的異構(gòu)融合計(jì)算,指的是多種不同類型、不同架構(gòu)處理器組成的計(jì)算架構(gòu)。廣義的異構(gòu)融合計(jì)算,是指通過(guò)將處理器、芯片、硬件設(shè)備、操作系統(tǒng)、編程框架、編程語(yǔ)言、網(wǎng)絡(luò)通信協(xié)議、數(shù)據(jù)中心等不同層次、不同類型的計(jì)算技術(shù)進(jìn)行整合優(yōu)化,以實(shí)現(xiàn)多種異構(gòu)計(jì)算資源的高效利用。本白皮書旨在探討異構(gòu)融合計(jì)算技術(shù)的內(nèi)在機(jī)制、應(yīng)用場(chǎng)景和發(fā)展趨勢(shì),通過(guò)概述計(jì)算領(lǐng)域相關(guān)概念,回顧計(jì)算架構(gòu)發(fā)展歷程,分析了異構(gòu)計(jì)算技術(shù)的發(fā)展現(xiàn)狀及面臨的主要問(wèn)題,從硬件層面(芯片級(jí)、設(shè)備級(jí)框架)、系統(tǒng)層面分別提出了異構(gòu)融合計(jì)算技術(shù)的探索方案及演進(jìn)方向,引出了異構(gòu)融合計(jì)算技術(shù)的發(fā)展趨勢(shì),并介紹了異構(gòu)融合計(jì)算領(lǐng)域相關(guān)的實(shí)踐案例。同時(shí),指出了異構(gòu)融合計(jì)算發(fā)展面臨的挑戰(zhàn):一是,處理器架構(gòu)的限制,可擴(kuò)的異構(gòu)代碼編寫、優(yōu)化和管理;三是,系統(tǒng)集成和互操作性技術(shù)要求高,難以構(gòu)建統(tǒng)一的在此,對(duì)參與本白皮書編制的各位專家表示衷心的感謝。我們相信,白皮書將為讀者提供一個(gè)新的視角和思考方式,希望讀者能夠結(jié)合實(shí)際應(yīng)用場(chǎng)景,對(duì)異構(gòu)融合計(jì)算當(dāng)今,數(shù)字化技術(shù)作為科技與產(chǎn)業(yè)新一輪變革的核心驅(qū)動(dòng)力,正在加速各行各業(yè)轉(zhuǎn)型升級(jí),一個(gè)以計(jì)算能力為基礎(chǔ)的萬(wàn)物感知、萬(wàn)物互聯(lián)、萬(wàn)物智能的數(shù)字經(jīng)濟(jì)時(shí)代正加速到來(lái)。在這一進(jìn)程中,算力作為數(shù)字經(jīng)濟(jì)的核心生產(chǎn)力,由單一算力演變?yōu)槎鄻有运懔?,如《異?gòu)融合計(jì)算技術(shù)白皮書》針對(duì)現(xiàn)有算力基礎(chǔ)設(shè)施無(wú)法滿足算力需求的問(wèn)題,深入刨析了異構(gòu)計(jì)算應(yīng)用場(chǎng)景特點(diǎn)以及計(jì)算架構(gòu)異構(gòu)演進(jìn)歷程,提出了異構(gòu)計(jì)算發(fā)展所面臨的問(wèn)題,引入異構(gòu)融合計(jì)算的概念,并分別從硬件、軟件、系統(tǒng)三大層面概述了異構(gòu)融合趨勢(shì)和關(guān)鍵技術(shù),系統(tǒng)全面地論證了異構(gòu)融合計(jì)算如何解決傳統(tǒng)異構(gòu)計(jì)算的問(wèn)題,并融合優(yōu)勢(shì),與產(chǎn)業(yè)鏈上下游廣泛協(xié)同,積極打造云智、訓(xùn)推一體,云網(wǎng)邊端協(xié)同的分算力基礎(chǔ)設(shè)施。本白皮書為算力基礎(chǔ)設(shè)施建設(shè)和算力賦能提供了相關(guān)技術(shù)指引和參考,從基本概念到實(shí)踐案例,再到未來(lái)展望和發(fā)展建議,具有較高的實(shí)踐指導(dǎo)價(jià)值,我們相信該白皮書能夠?yàn)橄嚓P(guān)企業(yè)和研究機(jī)構(gòu)提供有益的啟示,我們也期待我國(guó)在異構(gòu)融合計(jì)算領(lǐng)域數(shù)字化時(shí)代,創(chuàng)新應(yīng)用爆發(fā)式增長(zhǎng),傳統(tǒng)單一架構(gòu)計(jì)算平臺(tái)已難以滿足多樣性算力需求,異構(gòu)融合計(jì)算技術(shù)的提出顯得尤為重要。該白皮書深入淺出地解析了異構(gòu)融合計(jì)算技融合在一起,實(shí)現(xiàn)多種處理器的協(xié)同工作,以實(shí)現(xiàn)更高效、更靈活的計(jì)算能力。本白皮書通過(guò)研判芯粒級(jí)、設(shè)備級(jí)的技術(shù)融合趨勢(shì),為實(shí)現(xiàn)更高計(jì)算能力、更高能效比、更低算力成本的算力硬件實(shí)現(xiàn),提供了一種實(shí)現(xiàn)方案。在軟件及操作系統(tǒng)優(yōu)化、算法定制、統(tǒng)一編程框架、編譯器優(yōu)化等軟硬件高效協(xié)同設(shè)計(jì)的思路,這一點(diǎn)對(duì)硬件和軟件開發(fā)都具有重要的引導(dǎo)意義。盡管異構(gòu)融合計(jì)算這一技術(shù)還存在一些挑域得到應(yīng)用和發(fā)展。我們有理由相信這一技術(shù)將帶來(lái)更多的社會(huì)和經(jīng)濟(jì)效益。因此,希望未來(lái)的研究能夠繼續(xù)關(guān)注這一領(lǐng)域的發(fā)展動(dòng)態(tài),以推動(dòng)異構(gòu)融合計(jì)算技術(shù)的進(jìn)一步創(chuàng)新和V可以媲美人類語(yǔ)言的誕生!然而,AI算力的猛增,也讓IT基礎(chǔ)架構(gòu)面臨著前所未有的挑感謝組織方和各位參編人員,適時(shí)地推出了這份前瞻且系統(tǒng)的《異構(gòu)融合計(jì)算技術(shù)白皮書》。從計(jì)算領(lǐng)域相關(guān)概念出發(fā),系統(tǒng)梳理了異構(gòu)計(jì)算的背景和發(fā)展歷程,剖析了異構(gòu)計(jì)算面臨的問(wèn)題,進(jìn)而引出異構(gòu)融合計(jì)算的提法,在硬件、軟件和系統(tǒng)層面進(jìn)行了充分闡釋,最后給出了展望和建議。全文較好地遵循了以系統(tǒng)設(shè)計(jì)為中心的理念,結(jié)合融合架構(gòu)這一發(fā)展方向,指出了異構(gòu)融合計(jì)算的三條演進(jìn)路徑:需要在硬件層面實(shí)現(xiàn)芯片級(jí)和級(jí)的技術(shù)創(chuàng)新,需要在軟件層面實(shí)現(xiàn)跨平臺(tái)的編程框架和運(yùn)行環(huán)境,需要在系統(tǒng)層面白皮書最大的亮點(diǎn)在于提出了“異構(gòu)融合計(jì)算”的前瞻性概念,強(qiáng)調(diào)實(shí)現(xiàn)更深層次的協(xié)同,突破各異構(gòu)系統(tǒng)之間的鴻溝,實(shí)現(xiàn)通用性和高性能的更高統(tǒng)一,這一觀點(diǎn)前瞻性強(qiáng),值得業(yè)界關(guān)注。異構(gòu)融合計(jì)算通過(guò)多元融合的軟硬件協(xié)同,實(shí)現(xiàn)大規(guī)模計(jì)算資源池化,更總體來(lái)說(shuō),白皮書對(duì)異構(gòu)融合計(jì)算的概念闡釋和技術(shù)路線給出了參考,相信在實(shí)踐中還需要不斷豐富和發(fā)展。希望大家能夠攜手并進(jìn),共同推動(dòng)異構(gòu)融合計(jì)算理念的傳播,并推薦序4VI異構(gòu)融合技術(shù)是一種將不同種類、不同架構(gòu)、不同性能的計(jì)算或處理單元融合在一起的技術(shù)。這種技術(shù)的目標(biāo)是充分利用各種硬件的優(yōu)勢(shì),以實(shí)現(xiàn)更高的性能、能效或功能擴(kuò)展。異構(gòu)融合技術(shù)通常涉及不同類型的處理器、加速器、存儲(chǔ)設(shè)備等的協(xié)同工作,以滿足日益復(fù)雜的計(jì)算需求。從整體出發(fā),“以系統(tǒng)為中心”是異構(gòu)融合的指導(dǎo)思想,浪潮信息的融合架構(gòu)3.0是其中的典型代表。總的來(lái)說(shuō),異構(gòu)融合技術(shù)在不同領(lǐng)域都發(fā)揮著重要作用,幫助實(shí)現(xiàn)更高效、更強(qiáng)大的計(jì)算能力,從而推動(dòng)了科學(xué)、技術(shù)和應(yīng)用的發(fā)展。因此,在本白皮書中,編者詳細(xì)介紹了異構(gòu)融合的概念、應(yīng)用場(chǎng)景、現(xiàn)有問(wèn)題以及未來(lái)發(fā)展這些案例涉及不同領(lǐng)域,包括人工智能、高性能計(jì)算等,可以幫助讀者更好地理解異構(gòu)融合的應(yīng)用和價(jià)值。總的來(lái)說(shuō),這本白皮書對(duì)異構(gòu)融合技術(shù)進(jìn)行了全面的介紹和分析,為讀者提供了深入的了解和洞察。同時(shí),編者也進(jìn)一步探討了異構(gòu)融合技術(shù)的挑戰(zhàn)和問(wèn)題,以----趙雅倩浪潮信息體系結(jié)構(gòu)研究部VII勢(shì)性預(yù)警變成迫切的現(xiàn)實(shí)。在計(jì)算平臺(tái)的半導(dǎo)體PPA、多層級(jí)數(shù)據(jù)訪問(wèn)架構(gòu)、總線網(wǎng)絡(luò)計(jì)求的挑戰(zhàn)。圍繞“如何讓數(shù)據(jù)每一跳都產(chǎn)生更多價(jià)值的高效能算力架構(gòu)”科學(xué)發(fā)展問(wèn)題,“異構(gòu)”是指計(jì)算資源或技術(shù)具有不同的體系結(jié)構(gòu)、指令集、算法、工作模式等?!叭诤稀笔侵笇⒉煌N類的計(jì)算資源或技術(shù)進(jìn)行組合和優(yōu)化,以實(shí)現(xiàn)更高效、更穩(wěn)定的計(jì)算效果?!爱悩?gòu)融合”則包含硬件層面(芯片級(jí)、設(shè)備級(jí))軟件層面、系統(tǒng)層面的軟硬件協(xié)同,既有傳統(tǒng)軟件的硬件化卸載,也有總線和網(wǎng)絡(luò)級(jí)的融合,整體上形成多種獨(dú)立的xPU計(jì)算引擎間的異構(gòu)融合互補(bǔ),甚至表現(xiàn)出一些顛覆性的架構(gòu)創(chuàng)新,它將引領(lǐng)計(jì)算技術(shù)的闡述了異構(gòu)計(jì)算技術(shù)全棧的歷史、現(xiàn)狀和前沿探索情況。通過(guò)深入淺出的方式,作者讓我們了解到異構(gòu)融合計(jì)算技術(shù)在提高計(jì)算性能、降低功耗以及節(jié)約成本等方面的優(yōu)勢(shì)。結(jié)合實(shí)際案例分析,我們更加確信該技術(shù)在未來(lái)的發(fā)展前景。希望能引起異構(gòu)計(jì)算業(yè)界對(duì)融崛起,種種跡象都在提醒,當(dāng)前正在孕育著新一代信息技術(shù)大變革,我們必硬件和計(jì)算模式有難以估量的創(chuàng)新發(fā)展空間。摩爾定律失效造成算力增長(zhǎng)緩慢,這是目前信息產(chǎn)業(yè)面臨的重要挑戰(zhàn),對(duì)于我們是機(jī)遇大于挑戰(zhàn)。在后摩爾時(shí)代,產(chǎn)業(yè)界提出了領(lǐng)域?qū)S眉軜?gòu)(DomainSpecificArchitecture,DSA)來(lái)應(yīng)長(zhǎng)的需要。云計(jì)算的業(yè)務(wù)形態(tài)使得其可以通過(guò)將底層異構(gòu)芯片進(jìn)行融合、對(duì)算力進(jìn)行抽象和池化,讓用戶更方便的使用異構(gòu)芯片和DSA架構(gòu),可操作系統(tǒng)系統(tǒng)軟件迎來(lái)場(chǎng)景驅(qū)動(dòng)的創(chuàng)新發(fā)展大機(jī)遇。操作系統(tǒng)是最為基礎(chǔ)的系統(tǒng)軟件,協(xié)同的邊界拓展到運(yùn)行時(shí)組件,實(shí)現(xiàn)硬件芯片、操作系統(tǒng)、編譯器等的協(xié)同設(shè)計(jì),可以說(shuō)“異構(gòu)融合計(jì)算技術(shù)白皮書”匯聚了領(lǐng)域?qū)<业募w智慧,對(duì)計(jì)算架構(gòu)演化、發(fā)展趨勢(shì)、實(shí)踐案例等進(jìn)行了全方位的梳理,對(duì)信息技術(shù)發(fā)展具有一定的預(yù)見性,必將促使更多----楊勇龍蜥社區(qū)技術(shù)委員會(huì)主席、阿里云操作系統(tǒng)研在當(dāng)今快速發(fā)展的技術(shù)世界中,計(jì)算領(lǐng)域的挑戰(zhàn)和機(jī)遇無(wú)處不在。本白皮書深入探討了計(jì)算領(lǐng)域的發(fā)展歷程和關(guān)鍵問(wèn)題,提出了異構(gòu)融合作為計(jì)算發(fā)展的重要解決方案,給我眾所周知,自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用正在塑造我們的未來(lái)。然而,這些新興技術(shù)的快速發(fā)展也帶來(lái)了巨大的挑戰(zhàn),尤其是在算力需求方面。本白皮書詳細(xì)闡述些挑戰(zhàn),強(qiáng)調(diào)算力成本不斷上升,對(duì)企業(yè)和研究機(jī)構(gòu)構(gòu)成了重大挑戰(zhàn)。白皮書中異構(gòu)融合計(jì)算的概念引發(fā)了我們的思考,它為應(yīng)對(duì)算力需求提供了一個(gè)行之有效的途徑。通過(guò)整合多個(gè)異構(gòu)計(jì)算系統(tǒng),我們可以構(gòu)建更強(qiáng)大、高效的計(jì)算架構(gòu),為未來(lái)的技術(shù)應(yīng)用和創(chuàng)新鋪此外,白皮書強(qiáng)調(diào)了行業(yè)共同努力和協(xié)同創(chuàng)新的重要性。中國(guó)科學(xué)院微電子研究所在智能計(jì)算領(lǐng)域積累了豐富的研究經(jīng)驗(yàn)并取得了一系列重要成就,研究所也在積極推動(dòng)跨學(xué)科合作,與其他學(xué)院、研究機(jī)構(gòu)和行業(yè)合作,以推動(dòng)智能計(jì)算領(lǐng)域的研究和創(chuàng)新。我們相信,只有通過(guò)全行業(yè)的合作,我們才能夠應(yīng)對(duì)當(dāng)前和未來(lái)的計(jì)算挑戰(zhàn),共同推動(dòng)技術(shù)的發(fā)這份白皮書能夠激發(fā)更多關(guān)于異構(gòu)融合計(jì)算的討論,為我們共同的數(shù)字化未來(lái)打下----喬樹山中國(guó)科學(xué)院微電子研究所智能感知研發(fā)中心副主任X 1 1 1 2 2 3 42.1計(jì)算架構(gòu)的發(fā)展歷程 4 4 5 5 62.2.1異構(gòu)計(jì)算技術(shù)成 62.2.2異構(gòu)計(jì)算架構(gòu)品 72.2.3異構(gòu)編程軟件逐 8 82.3.1芯片性能提升陷 82.3.2性能和靈活性難 92.3.3異構(gòu)計(jì)算孤島問(wèn) 92.3.4異構(gòu)計(jì)算編程框 10 12 12 12 17 21 21 24 26 28 28 32 334.1通用性與高性能統(tǒng)一 334.2計(jì)算架構(gòu)走向收斂 344.3編程復(fù)雜度降低 344.4基礎(chǔ)組件優(yōu)化 35 36 36 36 36 37 3811異構(gòu)計(jì)算領(lǐng)域相關(guān)概念1.1異構(gòu)計(jì)算異構(gòu)計(jì)算(HeterogeneousComputing)是指不同類型指令集和體系結(jié)構(gòu)的處理器組成可以獨(dú)立運(yùn)行,其他加速處理器需要在CPU的協(xié)助下運(yùn)行。因此,異構(gòu)計(jì)算通常是指依據(jù)指令的復(fù)雜度,處理器引擎分為CPU、Coprocessor(協(xié)處理器)、GPU、FPGA、圖1-1不同典型處理器間性能與靈活性對(duì)比圖協(xié)處理器集成在CPU內(nèi)部,用于協(xié)助CPU處理特定的計(jì)算任務(wù);加速處理器(如.基于DSA的異構(gòu)并行。CPU和DSA共同構(gòu)成異構(gòu)計(jì)算系統(tǒng),DSA可以在定制異構(gòu)的目標(biāo)是將任務(wù)分解為計(jì)算上同構(gòu)的子任務(wù),然后將每個(gè)子任務(wù)分配給最適合執(zhí)行的計(jì)算資源(或并行模式)。異構(gòu)系統(tǒng)通常是由使用不同類型指令集和體系架構(gòu)的計(jì)算單1.2異構(gòu)融合計(jì)算“異構(gòu)融合計(jì)算”是一個(gè)全新的概念,目前行業(yè)還沒有形成統(tǒng)一的定義。從概念上講,2本白皮書認(rèn)為,狹義的“異構(gòu)融合計(jì)算”,是一種新的計(jì)算架構(gòu)和方法,通過(guò)融合CPU和多種不同類型、不同架構(gòu)的加速處理器,以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。而廣義的“異構(gòu)融合計(jì)算”,則通過(guò)不同層次、不同類型的技.超異構(gòu):系統(tǒng)中異構(gòu)處理器的數(shù)量為三個(gè)或三個(gè)以上。“一個(gè)稱為同構(gòu).硬件融合:強(qiáng)調(diào)不同處理器之間的深度協(xié)同(指單處理器運(yùn)行,也可以跨同類型中的不同架構(gòu)處理器運(yùn)行)。各處理器之間可以通過(guò)高速總.軟件融合:面向異構(gòu)(硬件)計(jì)算環(huán)境,將操作系統(tǒng)、應(yīng)用軟件、編程模型、語(yǔ)言、通信協(xié)議、數(shù)據(jù)等技術(shù)資源進(jìn)行融合和優(yōu)化,提供統(tǒng)一的軟件運(yùn)行環(huán)境和編譯.系統(tǒng)融合:通過(guò)合理地任務(wù)分配和資源調(diào)度,異構(gòu)融合計(jì)算系統(tǒng)可以實(shí)現(xiàn)更高傳統(tǒng)異構(gòu)計(jì)算,特指CPU+xPU的計(jì)算架構(gòu)。異構(gòu)融合計(jì)算與傳統(tǒng)異構(gòu)計(jì)算的差異點(diǎn)異構(gòu)融合計(jì)算則具有兩種或兩種以上的加速處理器類型,并且需要重點(diǎn)關(guān)注所有處理器之1.3其他相關(guān)概念1.3.1ASIC與DSAASIC(Application-SpecificIntegratedCircuit,專用集成電路)是指應(yīng)特定需求而設(shè)計(jì)、3Architecture,特定領(lǐng)域架構(gòu)),可根據(jù)特定應(yīng)用場(chǎng)景定制處理引擎甚至芯片,支持部分軟性價(jià)比。SoC(SystemonChip,片上系統(tǒng)),是一種將多種電子組件集成在一個(gè)先進(jìn)的電路設(shè)計(jì)和封裝技術(shù)實(shí)現(xiàn)將不同的組件集成到一個(gè)芯片上。這種集成方式可以SiP(SysteminPackage,系統(tǒng)級(jí)封裝)是一種先進(jìn)的封裝技術(shù),它):MEMS、光學(xué)元件等)組合在一起的技術(shù),42異構(gòu)計(jì)算的發(fā)展及問(wèn)題2.1計(jì)算架構(gòu)的發(fā)展歷程上述計(jì)算機(jī)體系結(jié)構(gòu)的時(shí)代劃分,是站在單處理器引擎視角進(jìn)行的。本白皮書參考上述五個(gè)時(shí)代的劃分,站在多處理器引擎計(jì)算架構(gòu)從簡(jiǎn)單到復(fù)雜的發(fā)展視角,提出了如下的2.1.1基于單核CPU的串行計(jì)算Computer),其線路必須被重設(shè)才能執(zhí)行不同的程序,通常需要花費(fèi)長(zhǎng)達(dá)三周的時(shí)間。而CPU微處理器通過(guò)支持跳轉(zhuǎn)、調(diào)用等控制類指令,使得計(jì)算機(jī)可以執(zhí)行各種復(fù)雜的計(jì)算和CPU的這種設(shè)計(jì)理念實(shí)現(xiàn)了軟件與硬件的解耦。即在更在這種架構(gòu)中,軟件開發(fā)是基于串行計(jì)算的思維,程序或問(wèn)題被分解成一系列離散的指令,圖2-1單核CPU串行計(jì)算示意圖乘法/除法器等復(fù)雜執(zhí)行單元、指令多發(fā)射、亂序執(zhí)行、52.1.2基于多核CPU的同構(gòu)并行計(jì)算的超高并行計(jì)算能力。圖2-2多核CPU同構(gòu)并行計(jì)算示意圖并行計(jì)算(ParallelComputing)是通過(guò)擴(kuò)大問(wèn)題求解規(guī)模,解決大型而復(fù)雜的計(jì)算問(wèn)題。并行計(jì)算主要分為時(shí)間上的并行和空間上的并行。時(shí)間上的并行是指流水線技術(shù),而空間上的并行則是指用多個(gè)處理器并發(fā)的執(zhí)行計(jì)算,以此擴(kuò)大問(wèn)題求解1967年,吉恩·阿姆達(dá)爾(GeneAmdahl)提出阿姆達(dá)爾定律。并行性的理論性能提升受任務(wù)順序部分的限制。阿姆達(dá)爾定律證明了處理器數(shù)量的增加帶來(lái)的收益會(huì)遞減。一方面受系統(tǒng)工作任務(wù)并行特征的約束,另一方面,受單芯片設(shè)計(jì)規(guī)模上限的約束,通過(guò)多2.1.3基于CPU+xPU的異構(gòu)并行計(jì)算基于CPU+xPU的異構(gòu)并行計(jì)算廣泛應(yīng)用于高性能計(jì)算、人工智能等領(lǐng)域。CPU和單位計(jì)算的功耗面積等成本也較低;CPU擅長(zhǎng)處理串行任務(wù),而GPU則更適合處理并行6),性能和功耗之間的關(guān)系是決定計(jì)算設(shè)備選擇的核心因素。為了滿足大規(guī)模計(jì)算的需求,從CPU到GPU,再到TPU(DSA),每一個(gè)技術(shù)進(jìn)步都帶來(lái)了性能的顯著提升。基于陣列邏輯)等可編程器件的基礎(chǔ)上的半定制電路,或叫可編程的邏輯列陣。FPGA基本結(jié)構(gòu)包括可編程輸入輸出單元、可配置邏輯塊、數(shù)字時(shí)鐘管理模塊、內(nèi)嵌專用硬核,底層內(nèi)相比,F(xiàn)PGA提供了更大的硬件靈活性,允許開發(fā)者根據(jù)需要進(jìn)行硬件編程和定制。這樣CGRA可重構(gòu)計(jì)算(Coarse-grainedReconfigurableArchitecture)是一種以空域?yàn)榛A(chǔ)的并行計(jì)算架構(gòu),它通過(guò)空域硬件結(jié)構(gòu)組織不同粒度和功能的計(jì)算資源。與傳統(tǒng)的指令驅(qū)動(dòng)計(jì)算架構(gòu)不同,CGRA在運(yùn)行時(shí)根據(jù)數(shù)據(jù)流的特點(diǎn)進(jìn)行硬件配置,讓計(jì)算資源形成相對(duì)固定的計(jì)算通路,從而以接近“專用電路”的方式并行計(jì)算。這種結(jié)構(gòu)既減少了取指和譯碼的延時(shí)及能耗,又能以專用電路的方式高效執(zhí)行。當(dāng)面臨不同的算法和應(yīng)用時(shí),可2.2異構(gòu)計(jì)算技術(shù)蓬勃發(fā)展2.2.1異構(gòu)計(jì)算技術(shù)成為主流處理器性能平均每2年翻一番;隨著登納德縮放定律的逐漸失效、阿姆達(dá)爾定律的充分挖的硅面積,算力密度低,運(yùn)算單元少,不適合人工智能領(lǐng)域的高并發(fā)密集的向量、張量計(jì)7的算力需求和密集多樣計(jì)算需求,單純依賴CPU一種計(jì)算架構(gòu)已經(jīng)無(wú)法滿足,結(jié)合不同架異構(gòu)計(jì)算技術(shù)已經(jīng)成為超級(jí)計(jì)算機(jī)、嵌入式系統(tǒng)、人工智能等領(lǐng)域的主流計(jì)算模式,未來(lái)2.2.2異構(gòu)計(jì)算架構(gòu)品類眾多場(chǎng)景(Scenario)是領(lǐng)域(Domain)的子集。比如AES加解密是一個(gè)具體的場(chǎng)景異構(gòu)計(jì)算架構(gòu)的品類眾多,并且不同的品類具體的架構(gòu)實(shí)現(xiàn)也不盡相同。按照不同的DSA/ASIC異構(gòu)里,異構(gòu)計(jì)算架構(gòu)8如何實(shí)現(xiàn)平衡性能與靈活性,并從系統(tǒng)層面上以更低的成本獲取更大的算力、更多的領(lǐng)域2.2.3異構(gòu)編程軟件逐漸成熟隨著異構(gòu)計(jì)算的發(fā)展和廣泛應(yīng)用,異構(gòu)編程技術(shù)也逐漸成熟。異構(gòu)編程是指通過(guò)編寫在平臺(tái)支持方面,主流的異構(gòu)計(jì)算平臺(tái)都提供了相應(yīng)的開發(fā)工具和編程模型,以支持異構(gòu)編程。例如,NVIDIA提供的CUDA編程模型;Xi),在編程模型方面,針對(duì)異構(gòu)計(jì)算的編程模型也在不斷完善和發(fā)展。傳統(tǒng)的編程模型如構(gòu)編程的難度,同時(shí)充分發(fā)揮了異構(gòu)計(jì)算的優(yōu)勢(shì),目的是讓開發(fā)者可以更加輕松地進(jìn)行異在優(yōu)化工具和框架方面,為了提高異構(gòu)計(jì)算的效率,研究人員和廠商們開發(fā)了各種優(yōu)化工具和框架。這些工具和框架提供了各種編譯、調(diào)度、調(diào)試和優(yōu)化的功能,以幫助開發(fā)簡(jiǎn)而言之,越來(lái)越多的案例表明了異構(gòu)編程正在逐漸成熟,不僅有全棧的軟硬件平臺(tái)2.3異構(gòu)計(jì)算技術(shù)演進(jìn)困境異構(gòu)計(jì)算技術(shù)已經(jīng)廣泛應(yīng)用于多個(gè)領(lǐng)域,如云計(jì)算、邊緣計(jì)算、高性能計(jì)算等。但異構(gòu)計(jì)算也逐漸面臨性能瓶頸問(wèn)題,同時(shí)面臨性能和靈活性難以兼顧、編程框架不統(tǒng)一等問(wèn)2.3.1芯片性能提升陷入瓶頸升一倍。單個(gè)異構(gòu)計(jì)算設(shè)備的性能提升有限,只能通過(guò)擴(kuò)大計(jì)算集群規(guī)模的方式來(lái)滿足算力快速提升的需求。然而,受限于集群效率,目前上千臺(tái)服務(wù)器和上萬(wàn)張GPU加速卡的.摩爾定律放緩:隨著制程工藝不斷縮小,摩爾定律的推進(jìn)速度已經(jīng)放緩,單純依靠.能源和散熱限制:隨著芯片制程工藝的進(jìn)步,晶體管的體積不斷縮小,但同時(shí)也帶來(lái)了更高的功耗和熱量產(chǎn)生。在有限的能源和散熱條件下,單純追求性能提升將導(dǎo)致芯片.軟件和硬件的協(xié)同優(yōu)化不足:為了充分發(fā)揮硬件性能,需要與之相應(yīng)的軟件和算法支持。但在實(shí)際應(yīng)用中,軟件和硬件之間的協(xié)同優(yōu)化并不總是能夠?qū)崿F(xiàn),導(dǎo)致部分硬件性9機(jī)系統(tǒng)性能時(shí),不僅需要考慮單個(gè)處理器的性能,還需要考慮如何并行化計(jì)算任務(wù),2.3.2性能和靈活性難以兼顧性能與靈活性在不同的加速處理器上呈現(xiàn)出不同的特器之間的高效數(shù)據(jù)交換和協(xié)作。這使得DSA在處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)時(shí)例,以滿足不同場(chǎng)景下性能和資源需求的平衡。此外,DSA還支持動(dòng)態(tài)地添加或刪除處理適配。這意味著開發(fā)者需要投入更多的精力進(jìn)行硬件和軟件設(shè)計(jì),提高了開發(fā)和維護(hù)成本。件系統(tǒng)的兼容性問(wèn)題。在使用過(guò)程中,可能需要額外的適配和優(yōu)化工在異構(gòu)計(jì)算中,不同的處理器各有優(yōu)勢(shì)和劣勢(shì),選擇最適合的處理器取決于特定應(yīng)用的性能和靈活性需求。盡管DSA提供了一種介于高性能ASIC和靈活的通用處理器之間的解決方案,但其在某些迅速變化的領(lǐng)域中仍面臨著挑戰(zhàn)。未來(lái)的技術(shù)研究應(yīng)集中在如何實(shí)2.3.3異構(gòu)計(jì)算孤島問(wèn)題突顯隨著異構(gòu)計(jì)算在各領(lǐng)域的應(yīng)用落地,多異構(gòu)共存的異構(gòu)計(jì)算孤島問(wèn)題也逐漸突顯。多異構(gòu)計(jì)算的硬件層次高集成度和系統(tǒng)軟件層次多協(xié)同、通用編程模型和開發(fā)環(huán)境,已成為圖2-4從同構(gòu)到異構(gòu)再到多異構(gòu)的演進(jìn).各領(lǐng)域加速器難以全局協(xié)同:不同的加速器在處理特定領(lǐng)域的問(wèn)題時(shí)表現(xiàn)出色,但相互協(xié)同能力差,可能導(dǎo)致系統(tǒng)整體的性能下降。協(xié)同能力差主要體現(xiàn)在兩個(gè)方面:不同的加速器的存儲(chǔ)器和內(nèi)存管理機(jī)制不同,導(dǎo)致數(shù)據(jù)訪問(wèn)和傳輸方式復(fù)雜,數(shù)據(jù)通路難同;多個(gè)加速器的控制機(jī)制不同,導(dǎo)致它們之間的同步和協(xié)調(diào),需要復(fù)雜的并行控制機(jī)制.各領(lǐng)域加速器之間交互困難:不同類型的加速器之間進(jìn)行通信和數(shù)據(jù)交換需要使用特定的接口和機(jī)制,增加了開發(fā)的復(fù)雜性和難度;頻繁大量的通信和數(shù)據(jù)交換,導(dǎo)致數(shù)據(jù)負(fù)責(zé)協(xié)調(diào)和管理其他硬件加速器的工作。然而,當(dāng)加速器數(shù)量增多或任務(wù)復(fù)雜度增加時(shí),.物理空間無(wú)法容納多個(gè)異構(gòu)加速卡:由于物理空間的限制,系統(tǒng)中只能容納有限數(shù)2.3.4異構(gòu)計(jì)算編程框架各異不同的異構(gòu)計(jì)算編程框架都擁有其獨(dú)特的特性和適用環(huán)境,開發(fā)者在編寫程序時(shí)需要依據(jù)實(shí)際需求和硬件設(shè)備選擇最適合的框架。由于硬件的獨(dú)特性質(zhì),每種硬件都配備了專例如,CUDA是由NVIDIA推出的并行計(jì)算平臺(tái)和編程模型,它允許開發(fā)者利用加速的并行計(jì)算。AmpxAI是由AMD開發(fā)的基于Python的并行計(jì)算庫(kù),可在AMD的GPU上實(shí)現(xiàn)高效的計(jì)算。這就要求開發(fā)者掌握多種編程模型和語(yǔ)言,使得代碼移植面臨巨大的挑戰(zhàn)。例如,專即使有統(tǒng)一編程模型的支持,要實(shí)現(xiàn)高效的代碼仍需要針對(duì)特定硬件進(jìn)行手動(dòng)優(yōu)化,這無(wú)疑增加了編程的復(fù)雜性和開發(fā)周期。雖然業(yè)界提出了多種方法試圖建立統(tǒng)一的異構(gòu)計(jì)算編程框架,以簡(jiǎn)化開發(fā)過(guò)程并解決這些挑戰(zhàn),但至今仍未找到完美的解決方案。因此,尋找一個(gè)真正統(tǒng)一、能滿足所有硬件和應(yīng)用需求的編程方法,仍然是計(jì)算領(lǐng)域的熱門研究3異構(gòu)融合計(jì)算技術(shù)探索隨著計(jì)算模式從集中式的單節(jié)點(diǎn)計(jì)算逐漸走向分布式的多節(jié)點(diǎn)協(xié)同計(jì)算,計(jì)算系統(tǒng)變得越來(lái)越復(fù)雜。異構(gòu)融合計(jì)算技術(shù),不僅僅需要芯片級(jí)、設(shè)備級(jí)等硬件層面技術(shù)的支撐,還需要操作系統(tǒng)、編程框架以及跨平臺(tái)等多種軟件層面技術(shù)的支持,以及數(shù)據(jù)中心和新型計(jì)算模式等系統(tǒng)層面技術(shù)的全力配合。通過(guò)整個(gè)系統(tǒng)的全方位軟硬件協(xié)同工作,來(lái)達(dá)到異3.1硬件層面融合技術(shù)探索3.1.1芯片級(jí)融合計(jì)算架構(gòu)2015之后,摩爾定律逐漸放緩,集成電路發(fā)展進(jìn)入后摩爾時(shí)代,集成電路的整體發(fā)展術(shù)、SoC驗(yàn)證技術(shù)、可測(cè)性設(shè)計(jì)技術(shù)、低功耗設(shè)計(jì)技術(shù)、超深亞微米電路實(shí)現(xiàn)技術(shù)等。SoC設(shè)計(jì)技術(shù)可以降低系統(tǒng)板上因信號(hào)在多個(gè)芯片之間進(jìn)出帶來(lái)的延遲而導(dǎo)致的性能局限,NoC是目前大規(guī)模芯片內(nèi)部互聯(lián)的最主要通信架構(gòu),通過(guò)芯片內(nèi)實(shí)現(xiàn)類似于網(wǎng)構(gòu),包括目標(biāo)的處理單元(PE)、交換節(jié)點(diǎn)(routers)和互連線(wires),這種互聯(lián)結(jié)構(gòu)相比傳統(tǒng)交叉開關(guān)(Crossbar)總線具有可擴(kuò)展性好、并發(fā)性強(qiáng)等特點(diǎn)。隨著SoC集成度直接型拓?fù)浣Y(jié)構(gòu):所有的路由節(jié)點(diǎn)均與計(jì)算資源相連,并通過(guò)雙向鏈路直接連接。常(Hypercube)NoC。網(wǎng)絡(luò)是由交換節(jié)點(diǎn)和互連線構(gòu)成的,每個(gè)節(jié)點(diǎn)連接一個(gè)處理單元(RE)和上下左右四個(gè)相鄰的路由器,每個(gè)處理單元通過(guò)一個(gè)網(wǎng)絡(luò)接口(Net-InterfaceNI)連接著一個(gè)路由器。其中的處理單元可以是處理器核、內(nèi)存、用戶自定義硬件模塊或者其他任何可以插入插槽并且可以和網(wǎng)絡(luò)接口相配的IP(IntellectualProperty路由器之間,路由器和資源之間是由一對(duì)輸入和輸出通道連接。通道是由兩條單向的點(diǎn)對(duì)各個(gè)路由節(jié)點(diǎn)之間不一定是直接通過(guò)雙向鏈路相連接,而可能是通過(guò)這些專門的開關(guān)節(jié)點(diǎn)SiP是從封裝的立場(chǎng)出發(fā),對(duì)不同芯片進(jìn)行并排或疊加的方式封裝,將多個(gè)具有不同功能的有源電子元件與可選無(wú)源器件,以及諸如MEMS或者光學(xué)器件等其行分解,然后開發(fā)出多種具有單一特定功能、可相互進(jìn)行模塊化組裝的裸芯片(如實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)、計(jì)算、信號(hào)處理、數(shù)據(jù)流管理等功能再將這些模塊化的芯粒(裸片)互聯(lián)起來(lái),采用新型封裝技術(shù),將不同功能不同工藝制造的芯粒封裝在一起,成為一個(gè)異構(gòu)集Chiplet芯片設(shè)計(jì)具備三大優(yōu)勢(shì):快速開發(fā)、低成本、多功能;借助先進(jìn)的封裝技術(shù),特定設(shè)計(jì)部分選擇最先進(jìn)的技術(shù),而在其他部分選擇更成熟、更廉價(jià)的技術(shù),從而節(jié)省整間、芯片與存儲(chǔ)之間的連線封裝在硅中介層中,可提供近似在同一個(gè)芯片內(nèi)的互聯(lián)性能。量,MI300A則把CPU和GPU通過(guò)3D裝的技術(shù),構(gòu)建更高效、更經(jīng)濟(jì)的芯片系統(tǒng)。這種設(shè)計(jì)方法簡(jiǎn)化了芯片設(shè)計(jì)的復(fù)雜性,而根據(jù)算力的快速增長(zhǎng)需求,以及異構(gòu)融合的發(fā)展大趨勢(shì),作為芯片設(shè)計(jì)集成/融合的主將朝著提供更高的帶寬和更低的通信延遲方向總之,NOC技術(shù)的發(fā)展趨勢(shì)將主要關(guān)注高度異構(gòu)集成、高帶寬低延遲、靈活性、能在工藝進(jìn)步日益走向物理極限的今天,多種異構(gòu)芯粒的封裝逐漸成為芯片規(guī)模持續(xù)提綜合來(lái)看,Chiplet技術(shù)的發(fā)展趨勢(shì)包括模塊化設(shè)計(jì)、高性能、能效、低成本制造、標(biāo)準(zhǔn)化和應(yīng)用領(lǐng)域擴(kuò)展。這些趨勢(shì)均有利于推動(dòng)芯片設(shè)計(jì)和制造的變革,走向異構(gòu)融合,為計(jì)算核心、內(nèi)存、和互連集成到單個(gè)芯片或芯片上實(shí)現(xiàn)高性能計(jì)算的同時(shí)保持合理的能性能提升的主要瓶頸。為了適應(yīng)大規(guī)模的計(jì)算需求,晶圓級(jí)芯片技術(shù)發(fā)展的重點(diǎn)放在3.1.2設(shè)備級(jí)融合計(jì)算架構(gòu)異構(gòu)計(jì)算架構(gòu)的融合,可以是芯片級(jí)的,也可以是設(shè)備級(jí)的。在采用現(xiàn)有的、非異構(gòu)融合芯片的情況下,可以通過(guò)設(shè)備級(jí)多芯片融合計(jì)算,有效地獲取高性能計(jì)算能力。芯片內(nèi)融合的核心技術(shù)是片內(nèi)總線,類似的,設(shè)備級(jí)融合的核心技術(shù)是芯片間互聯(lián)的高速總線,部件互聯(lián)總線)基礎(chǔ)上把傳輸機(jī)制從并行改成了串行,通過(guò)使用差分信號(hào)傳輸,干擾可以品),每一代的帶寬大致上翻倍。到PCIe5.0,通過(guò)x16組總線,可以支持雙向共約CXL是Intel發(fā)布的一種支持緩存一致性協(xié)議的芯片間互聯(lián)總線,CXL基于PCIe內(nèi)存池,通過(guò)硬件機(jī)制在加速器和處理器之間高效的共享內(nèi)存,提升性能并且降低延遲,充當(dāng)主設(shè)備,而設(shè)備充當(dāng)從設(shè)備。并且能夠支持易失性和非易CXL.io協(xié)議用于初始化和鏈接,因此所有CXL設(shè)備都必須支持該協(xié)議。其他兩種協(xié)NVLink是NVIDIA針對(duì)GPU加速計(jì)算而開發(fā)的全新高速互聯(lián)技術(shù),它大大提升了NVLink2.0開始支持?jǐn)?shù)據(jù)一致性,允許從CPU直接訪問(wèn)GPU內(nèi)存,允許讀取來(lái)自最炙手可熱的服務(wù)器類型。通過(guò)QPI、PCIe、NVLink等芯片間總線,在設(shè)備級(jí)實(shí)現(xiàn)了(二)設(shè)備級(jí)融合計(jì)算架構(gòu)技術(shù)探索多種異構(gòu)融合,必然是更加龐大的計(jì)算系統(tǒng)。通過(guò)功能強(qiáng)大的芯片間互聯(lián)總線,實(shí)現(xiàn)設(shè)備級(jí)的異構(gòu)融合計(jì)算系統(tǒng),是一個(gè)切實(shí)可行的方式。芯片間高速互聯(lián)總線,級(jí)異構(gòu)融合的關(guān)鍵。也因此,從異構(gòu)不斷融合的發(fā)展視角,必然對(duì)芯片間互聯(lián)總線提出一而不是異構(gòu)融合。如果要想在設(shè)備級(jí)實(shí)現(xiàn)完全異構(gòu)融合的對(duì)等架構(gòu),勢(shì)必需要采用CPUCPUGPUNVMeNVMeSSD合CPU、GPU、其他各類DSA的計(jì)算能力,構(gòu)建設(shè)備級(jí)異構(gòu)3.2軟件層面融合技術(shù)探索可以提升異構(gòu)融合計(jì)算的適用范圍和性能,還能為后續(xù)的硬件開發(fā)提供指導(dǎo)。在這一部分,我們首先對(duì)異構(gòu)軟件優(yōu)化的相關(guān)技術(shù)進(jìn)行了深入分析,然后重點(diǎn)討論了兩大關(guān)鍵支持技術(shù)領(lǐng)域,即操作系統(tǒng)和編程框架。我們不僅剖析了當(dāng)前國(guó)內(nèi)外最先進(jìn)的技術(shù),還明確了未來(lái)3.2.1面向異構(gòu)軟件優(yōu)化技術(shù)分析在異構(gòu)融合計(jì)算的背景下,需要進(jìn)行異構(gòu)軟件優(yōu)化技術(shù)的分析,這包括針對(duì)異構(gòu)計(jì)算環(huán)境中的軟件應(yīng)用所設(shè)計(jì)的性能優(yōu)化方法和策略。異構(gòu)計(jì)算環(huán)境通常綜合了不同類型的處的性能特點(diǎn)和能力。為了確保在不同類型的計(jì)算資源上執(zhí)行的軟件能夠以一致的方式運(yùn)行,避免潛在的錯(cuò)誤和運(yùn)行不一致性問(wèn)題,需要采用特定的優(yōu)化技術(shù)和方法。每種硬件都有其獨(dú)有的架構(gòu)和性能特征。為了充分利用這些硬件資源并確保一致性,軟件不僅需要能夠在不同的平臺(tái)上運(yùn)行,而且應(yīng)該盡可能的利用平臺(tái)硬針對(duì)異構(gòu)計(jì)算設(shè)備,統(tǒng)一的操作系統(tǒng)級(jí)開發(fā)工具鏈需要支持針對(duì)不同設(shè)備類型的編譯、在編譯器方面,需要支持針對(duì)不同設(shè)備類型的編譯,并為各種硬件架構(gòu)生成高效的代在調(diào)試器方面,針對(duì)異構(gòu)計(jì)算設(shè)備的調(diào)試器需要支持對(duì)不同設(shè)備類型的調(diào)試,以幫助開發(fā)人員在異構(gòu)設(shè)備上查找和修復(fù)錯(cuò)誤。例如,對(duì)于GPU,調(diào)試器需要能夠準(zhǔn)確地調(diào)試GPU代碼,同時(shí)能追蹤和分析GPU的內(nèi)存訪問(wèn)和計(jì)算操作。調(diào)試器還應(yīng)該提供全面的調(diào)在開發(fā)庫(kù)方面,簡(jiǎn)化編程的工具和庫(kù)對(duì)異構(gòu)計(jì)算設(shè)備至關(guān)重要。針對(duì)異構(gòu)計(jì)算設(shè)備的開發(fā)庫(kù)需要提供針對(duì)不同設(shè)備類型的抽象接口和函數(shù)庫(kù),以簡(jiǎn)化異構(gòu)設(shè)備的編程。例如,CUDA和OpenCL提供了針對(duì)GPU的函數(shù)庫(kù)和API,幫助開發(fā)人員輕松地編寫高效的GPU程序。此外,開發(fā)庫(kù)還應(yīng)提供豐富的示例代碼和詳盡的文檔,以便開發(fā)人員快速上手C/C++一種廣泛用于跨平臺(tái)開發(fā)的編程語(yǔ)言,具有高度的移植性,可以在多種硬件上編寫和運(yùn)行代碼。Python一種高級(jí)編程語(yǔ)言,具有豐富的庫(kù)和工具生態(tài)系統(tǒng),可以通過(guò)不同的庫(kù)和框架實(shí)現(xiàn)跨平臺(tái)的計(jì)算。Java一種跨平臺(tái)的編程語(yǔ)言,通過(guò)Java虛擬機(jī)(JVM)可以在不同操作系統(tǒng)上運(yùn)行。OpenCL一種開放計(jì)算語(yǔ)言,也代表了一種異構(gòu)計(jì)算標(biāo)準(zhǔn),允許在不同類型的計(jì)算設(shè)備上進(jìn)行并行編程,包括CPU、GPU和FPGA。選擇合適的編程語(yǔ)言取決于具體的應(yīng)用需求和硬件平臺(tái)。關(guān)鍵是要確保所選編程語(yǔ)言O(shè)penMP一種支持共享內(nèi)存并行編程的API,可以在不同操作系統(tǒng)和硬件上使用,用于多線程并行計(jì)算。CUDANVIDIA推出的用于GPU編程的平臺(tái),提供了一套標(biāo)準(zhǔn)化的API和庫(kù),用于在NVIDIAGPU上進(jìn)行并行計(jì)算。OpenCL一種跨平臺(tái)的異構(gòu)計(jì)算標(biāo)準(zhǔn),提供了一致的API,允許在不同硬件上執(zhí)行并行計(jì)算任務(wù)。標(biāo)準(zhǔn)化的API和庫(kù)可以確保在多種硬件之間實(shí)現(xiàn)功能一致性,并能夠簡(jiǎn)化軟算力是指計(jì)算設(shè)備在單位時(shí)間內(nèi)所能完成的計(jì)算量。鑒于異構(gòu)計(jì)算設(shè)備具有不同的硬件特性和架構(gòu),其在計(jì)算能力上也存在差異。不同的計(jì)算單元具有不同的計(jì)算方式和計(jì)算密度是指設(shè)備在單位面積或單位體積內(nèi)所能完成的計(jì)算量。對(duì)于同一類型的異構(gòu)設(shè)備,可以通過(guò)計(jì)算其計(jì)算單元數(shù)量、時(shí)鐘頻率、并行度等參數(shù),來(lái)計(jì)算其通過(guò)操作系統(tǒng)、虛擬化和容器等技術(shù),我們可以在軟件層面對(duì)底層異構(gòu)算力設(shè)備(如隱藏底層不同硬件設(shè)備的差異性,提供統(tǒng)一的計(jì)算運(yùn)行時(shí)環(huán)可變粒度資源技術(shù)是實(shí)現(xiàn)運(yùn)行一致性的關(guān)鍵技術(shù)。由于計(jì)算環(huán)境中的資源具有非常高的動(dòng)態(tài)性和不確定性,這要求對(duì)應(yīng)程序能夠自動(dòng)適應(yīng)不同的計(jì)算負(fù)載和需求??勺兞6荣Y源技術(shù)可以將計(jì)算資源分解為更小的粒度,并能夠根據(jù)實(shí)際需求進(jìn)行動(dòng)態(tài)調(diào)整。這種技術(shù)可以讓計(jì)算資源更加靈活地適應(yīng)不同的應(yīng)用程序需求,從而更好地利用資源。在云計(jì)算環(huán)境中,通常會(huì)將計(jì)算資源分解為裸金屬、虛擬機(jī)、容器、函數(shù)等更小的粒度,并動(dòng)態(tài)調(diào)整資源分配和使用。通過(guò)可變粒度資源技術(shù)可以更好地保證服務(wù)的可靠異構(gòu)計(jì)算設(shè)備因其多樣的硬件架構(gòu)和接口而帶來(lái)了管理、維護(hù)和安全上的挑戰(zhàn)。為了更有效地應(yīng)對(duì)這些挑戰(zhàn),必須提供一種綜合的方法,包算設(shè)備的性能、溫度、功耗等關(guān)鍵指標(biāo)。通過(guò)對(duì)異構(gòu)計(jì)算設(shè)備的監(jiān)控,可以及時(shí)發(fā)現(xiàn)設(shè)備例如,通過(guò)提供統(tǒng)一的操作界面,可以方便地進(jìn)行軟件的安裝、配置和更新,同時(shí)對(duì)硬件進(jìn)行管理和維護(hù)。對(duì)于異構(gòu)計(jì)算設(shè)備的軟件管理,可以采用容器化技術(shù),將不同種安全管理方面,需要提供統(tǒng)一的安全工具,以確保異構(gòu)計(jì)算設(shè)備的安全性。異構(gòu)計(jì)算設(shè)備的安全問(wèn)題主要涉及數(shù)據(jù)安全、身份認(rèn)證、漏洞管理等方面。例如,可以采用統(tǒng)一的身份認(rèn)證機(jī)制,對(duì)設(shè)備的訪問(wèn)進(jìn)行認(rèn)證和授權(quán);同時(shí)可以通過(guò)安全補(bǔ)丁管理遷移工具方面,需要提供統(tǒng)一的遷移方案,以便在不同異構(gòu)計(jì)算設(shè)備之間進(jìn)行快速遷移。異構(gòu)計(jì)算設(shè)備之間的遷移涉及到不同的處理器和加速器之間的轉(zhuǎn)換,需要提供一套標(biāo)將不同種類的處理器和加速器虛擬化為同一種處理器和加速器,以實(shí)現(xiàn)快速的遷移。3.2.2面向異構(gòu)融合的操作系統(tǒng)元異構(gòu)硬件管理和使用的復(fù)雜性?;谝陨蠁?wèn)題,操作系統(tǒng)需要在多方面進(jìn)行優(yōu)化。首先,操作系統(tǒng)需要能夠?qū)Ξ悩?gòu)設(shè)備進(jìn)行抽象,將不同的異構(gòu)設(shè)備抽象成標(biāo)準(zhǔn)的Linux設(shè)備供程用程序性能;最后,操作系統(tǒng)需要對(duì)異構(gòu)設(shè)備的調(diào)度使用進(jìn)行優(yōu)化,充分發(fā)揮異構(gòu)設(shè)備的操作系統(tǒng)提供了標(biāo)準(zhǔn)的設(shè)備驅(qū)動(dòng)程序接口,包括字符設(shè)備、塊設(shè)備、網(wǎng)絡(luò)設(shè)備等,異構(gòu)設(shè)備可以通過(guò)編寫標(biāo)準(zhǔn)的設(shè)備驅(qū)動(dòng)程序與操作系統(tǒng)進(jìn)行交互,從而實(shí)現(xiàn)異構(gòu)設(shè)備的統(tǒng)一異構(gòu)設(shè)備的管理流程包括:1)硬件檢測(cè),系統(tǒng)啟動(dòng)時(shí)檢測(cè)接入的異構(gòu)設(shè)備,如GPU/DPU/FPGA等,系統(tǒng)創(chuàng)建對(duì)應(yīng)的device。2)驅(qū)動(dòng)程序裝載,操作系統(tǒng)檢測(cè)到異構(gòu)設(shè)備時(shí),會(huì)嘗試加載對(duì)應(yīng)的驅(qū)動(dòng)程序進(jìn)行異構(gòu)設(shè)備的初始化、資源的分配、中斷的注冊(cè)等,程序可以通過(guò)相應(yīng)的設(shè)備節(jié)點(diǎn)訪問(wèn)異構(gòu)設(shè)備,比如通過(guò)標(biāo)準(zhǔn)的open/read/write系統(tǒng)調(diào)用對(duì)為了充分利用多種硬件架構(gòu)的性能優(yōu)勢(shì),開發(fā)人員需要為不同的硬件平臺(tái)編寫不同的代碼,這對(duì)開發(fā)人員來(lái)說(shuō)是一個(gè)挑戰(zhàn),同時(shí)也限制了應(yīng)用程序的可移植性,所以需要提供一個(gè)統(tǒng)一的編程模型和一套工具,使開發(fā)人員可以使用一種語(yǔ)言和一組庫(kù)來(lái)開發(fā)可以在不實(shí)現(xiàn)統(tǒng)一編程模型的關(guān)鍵是提供一種跨多種硬件架構(gòu)的高性能并行計(jì)算編程語(yǔ)言。這種語(yǔ)言能夠支持統(tǒng)一編寫可以在各種硬件架構(gòu)上執(zhí)行的代碼,還應(yīng)提供一組性能庫(kù),覆蓋高效的數(shù)學(xué)、數(shù)據(jù)分析和圖形處理等常見的高性能計(jì)算場(chǎng)景,從而能夠針對(duì)特定的硬件架除了編程語(yǔ)言和性能庫(kù),統(tǒng)一編程模型還應(yīng)提供一組性能工具優(yōu)化器,幫助開發(fā)人員找到應(yīng)用程序的性能瓶頸并提供優(yōu)化建議,從而提升應(yīng)用程序虛擬機(jī)、容器、安全容器、裸金屬服務(wù)器等更多粒度基于云計(jì)算的算力抽象方法,以滿足用戶多樣化的資源需求和業(yè)務(wù)訴求。通過(guò)虛擬機(jī)承載穩(wěn)態(tài)業(yè)務(wù),搭配更加靈活敏捷的容器和安全容器承載敏態(tài)業(yè)務(wù),并基于云物理機(jī)提供更高性能的計(jì)算能力的首選,與此同時(shí)對(duì)云操作系統(tǒng)提出了可變粒度資源統(tǒng)一池化、統(tǒng)一管理及形態(tài)互轉(zhuǎn)的要求??勺兞6鹊馁Y源池化需要解決多種粒度的算力抽象在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源的割裂問(wèn)題,構(gòu)建統(tǒng)一的底層資源池,進(jìn)行統(tǒng)一的池化管理。在此基礎(chǔ)上,通過(guò)云操作系統(tǒng)提供數(shù)據(jù)互通的能力。更進(jìn)一步的,實(shí)現(xiàn)資源之間的形態(tài)互轉(zhuǎn),以滿足用戶希望的隨業(yè)務(wù)變化而改變業(yè)務(wù)承載實(shí)體的靈活需求可變粒度的資源管理能夠提升資源調(diào)度的靈活性、業(yè)務(wù)敏理各個(gè)進(jìn)程之間的執(zhí)行。由于目前調(diào)度策略不能滿足所有調(diào)度器。這種做法可以有效解決升級(jí)內(nèi)核成本較高、調(diào)度優(yōu)化無(wú)法快速規(guī)?;渴鸬膯?wèn)題。模塊中將不同內(nèi)存介質(zhì)劃分到不同的NUMAnode,然后將同類型的NUMAnode劃分到同提升容器部署密度的同時(shí)又不影響業(yè)務(wù)運(yùn)行是重點(diǎn)研究的方向。目前資源隔離技術(shù)主源優(yōu)先訪問(wèn)。為了解決這些問(wèn)題可以采用多種①基于GroupIdentity技術(shù),提升高優(yōu)先級(jí)組的及②基于處理器的硬件資源管理技術(shù),實(shí)現(xiàn)CPUcache和內(nèi)存帶寬③memcg內(nèi)存回收優(yōu)化,避免應(yīng)用自身陷入直接內(nèi)存回收,適用于對(duì)時(shí)延敏感的容3.2.3面向異構(gòu)融合的編程框架異構(gòu)融合計(jì)算在計(jì)算機(jī)領(lǐng)域的應(yīng)用將逐步擴(kuò)大,隨著各種新型硬件的出現(xiàn)和異構(gòu)計(jì)算框架的不斷完善,異構(gòu)計(jì)算編程有望成為計(jì)算發(fā)展的重要趨勢(shì)。特別地,在AI領(lǐng)域、HPC科學(xué)計(jì)算領(lǐng)域方面,對(duì)于異構(gòu)和異構(gòu)融合的需求是極為迫切的。軟件的編程框架決定了其適應(yīng)性,從底層標(biāo)準(zhǔn)到上層接口套件,目前已有多種異構(gòu)并行編程框架。特定于底層硬件設(shè)備的標(biāo)準(zhǔn)和框架允許開發(fā)者直接針對(duì)特定硬件設(shè)備進(jìn)行編程,包括全棧異構(gòu)框架聚焦于開發(fā)適用于多平臺(tái)的編程框架,包含硬件抽象、編程語(yǔ)言、庫(kù)和在未來(lái),異構(gòu)融合編程框架的發(fā)展在統(tǒng)一性、易用性和廣泛性上還有大幅發(fā)展空間,也就是1)統(tǒng)一編程模型,以簡(jiǎn)化異構(gòu)編程2)向更高級(jí)別的抽象發(fā)展,以降低并行編程的復(fù)雜性3)逐步擴(kuò)大支持的硬件范圍等。近年來(lái),隨著人工智能技術(shù)的飛速發(fā)展,各種深度學(xué)習(xí)框架如雨后春筍般涌現(xiàn)出來(lái)。提供高效的推理服務(wù)。雖然上述框架對(duì)主流的模型類型都有支持,但在硬件支持方面,僅這些不被支持的異構(gòu)芯片面臨極大挑戰(zhàn)。深度學(xué)習(xí)框架和推理Server框便是機(jī)器學(xué)習(xí)模型的優(yōu)化技術(shù)。對(duì)于同構(gòu)編程框架,一般的優(yōu)化技術(shù)包括編譯加速、循環(huán)優(yōu)化和指令優(yōu)化、內(nèi)存優(yōu)化、低比特量化、模型壓縮、多線程優(yōu)化等。這些對(duì)異構(gòu)編程的第一是對(duì)于底層異構(gòu)算力的支持。上述編程框架除了支持典型本身的發(fā)展推廣和新興異構(gòu)處理器的推廣都具有積極的作用。在這方面,已有的一些解決),芯片的代碼生成器生成代碼。這種方法主要用于推理任務(wù),并且通常需要編寫適配新異構(gòu)都是通用的編程框架。國(guó)產(chǎn)的PaddlePaddle等已經(jīng)考慮了對(duì)包含高維稀疏離散異構(gòu)數(shù)據(jù)的處理。在企業(yè)的實(shí)際應(yīng)用中,可能還存在別的場(chǎng)景。針對(duì)這些場(chǎng)景的擴(kuò)展和優(yōu)化等可以進(jìn)除了注重深度學(xué)習(xí)優(yōu)化、強(qiáng)化學(xué)習(xí)支持、靈活和輕量部署,未來(lái)的異構(gòu)編程框架可能會(huì)向著自適應(yīng)計(jì)算發(fā)展,即在運(yùn)行時(shí)根據(jù)輸入數(shù)據(jù)的特征和任務(wù)需求,動(dòng)態(tài)地選擇最佳的理器集群,來(lái)處理大規(guī)模計(jì)算、求解復(fù)雜問(wèn)題的技術(shù),對(duì)并行和分布式計(jì)算、大數(shù)據(jù)處理HPC在科研和工程中的許多方面都有廣泛應(yīng)用,例如基因測(cè)序、天氣預(yù)報(bào)、分子動(dòng)力、工程仿真、天文數(shù)據(jù)處理、粒子運(yùn)動(dòng)求解等。隨著高性統(tǒng)方式難以實(shí)現(xiàn)性能突破,異構(gòu)融合的方式逐漸成為流方式之一,勢(shì)必對(duì)異構(gòu)并行編程框架需求更高。那么更加靈活和可編程的加速器以及更也在發(fā)生變化,從而在各個(gè)層次面向異構(gòu)實(shí)現(xiàn)。典型的轉(zhuǎn)變主要體現(xiàn)在兩個(gè)方面,第一是化和異構(gòu)設(shè)計(jì)需求的出現(xiàn),很多原先使用Fortran算等復(fù)雜計(jì)算領(lǐng)域中,這背后往往是對(duì)指數(shù)級(jí)計(jì)算量需求的不斷增加。隨著網(wǎng)格稠密程度增加、模擬尺度增加,計(jì)算量呈現(xiàn)出了指數(shù)型增長(zhǎng),促使多學(xué)科模擬等正在嘗試和建立異面對(duì)的是復(fù)雜的,涉及大氣、陸地等多模塊的大規(guī)模數(shù)據(jù)和復(fù)雜物理過(guò)程。在版本迭代發(fā)將趨向于支持更多不同類型的加速器,因此未來(lái)也將注重高級(jí)別的抽象和編程模型。此外,可能會(huì)更加智能化,具備自動(dòng)優(yōu)化和并行化的能力。這將會(huì)推動(dòng)更大規(guī)模的數(shù)據(jù)處理和提3.3系統(tǒng)層面融合技術(shù)探索系統(tǒng)層面的融合計(jì)算技術(shù)探索,主要討論大規(guī)模數(shù)據(jù)中心級(jí)的融合技術(shù)3.3.1數(shù)據(jù)中心融合隨著新型應(yīng)用的加速演變,數(shù)據(jù)中心正轉(zhuǎn)向從單一規(guī)模擴(kuò)展到復(fù)雜架構(gòu)融合。轉(zhuǎn)變之是一個(gè)邏輯上的單一的“大應(yīng)用”,是數(shù)據(jù)中心級(jí)別的業(yè)務(wù)系統(tǒng);因此硬件重構(gòu)需按照“數(shù)據(jù)中心即計(jì)算機(jī)”的理念來(lái)實(shí)踐。以系統(tǒng)設(shè)計(jì)為中心的原則,需要我們重新思考如何構(gòu)建和部署數(shù)據(jù)中心資源。它意味著要超越硬件和軟件的傳統(tǒng)界限,考慮整個(gè)數(shù)據(jù)中心作為一個(gè)協(xié)同工作的系統(tǒng)。例如,對(duì)棧如何相互作用以提高效率。按照業(yè)務(wù)需求來(lái)設(shè)計(jì)包括如下部分:1)針對(duì)性優(yōu)化:傳統(tǒng)的芯片設(shè)計(jì)通常是通用的,不考慮其在特定應(yīng)用場(chǎng)景中的性能。而針對(duì)特定業(yè)務(wù)需求的系統(tǒng)用率:傳統(tǒng)的通用設(shè)計(jì)導(dǎo)致資源在某些應(yīng)用場(chǎng)景中被浪費(fèi)。而按需設(shè)計(jì)可以確保資源在特結(jié)構(gòu)和組件交互關(guān)系,但打破軟硬件界限,通過(guò)系統(tǒng)級(jí)的協(xié)同設(shè)計(jì),實(shí)現(xiàn)更高效、更靈活出發(fā),專門針對(duì)深度學(xué)習(xí)的特征進(jìn)行了系統(tǒng)設(shè)計(jì)。在芯片層面,通過(guò)定制高密度的8比特以滿足深度學(xué)習(xí)應(yīng)用的延遲需求。如下圖,主要的計(jì)算部分是右上角的黃色矩陣乘法單元(MatrixMultiplyUnit其輸入為藍(lán)色的權(quán)重(UnifiedBuffer),輸出是藍(lán)色的累加器(Accumulators);黃色的激活(Activation)單元對(duì)累加器(Accumulators)執(zhí)行非線性函數(shù),這些函數(shù)傳輸至緩沖器(UnifiedBuffer)。TPU的硬件設(shè)計(jì)都緊緊圍繞數(shù)據(jù)中心的業(yè)務(wù)需求進(jìn)行了系統(tǒng)設(shè)計(jì),在矩陣乘法運(yùn)算單元方面實(shí)現(xiàn)了高密度低位寬的設(shè)計(jì),大幅提升了吞吐量;在存儲(chǔ)系統(tǒng)方面采用了大容量片上推動(dòng)了數(shù)據(jù)中心從規(guī)模擴(kuò)展到架構(gòu)融合的轉(zhuǎn)變,異構(gòu)計(jì)算的快速發(fā)展,不僅反映了算力資源的多樣性,還驅(qū)動(dòng)著處理器技術(shù)的不斷演進(jìn)和創(chuàng)新。異構(gòu)計(jì)算的融合趨勢(shì),降低了超算中心、數(shù)據(jù)中心和智算中心間的算力服務(wù)邊界,各類型算力中心利用相似的異構(gòu)引擎和分布式計(jì)算架構(gòu),實(shí)現(xiàn)更靈活地跨越應(yīng)用算力架構(gòu)的本質(zhì)在于硬件重構(gòu)與軟件定義。其核心技術(shù)包括物理層面的“解耦、集中、智能調(diào)ISCA2017,In-DatacenterPerformance動(dòng)的資源動(dòng)態(tài)分配。融合架構(gòu)可以按照軟硬件協(xié)同的方式,分三個(gè)階段逐步發(fā)展,如下圖:進(jìn)行計(jì)算和存儲(chǔ)等資源的池化和集中管理,其典型代表為整機(jī)柜服務(wù)器。融合架構(gòu)1.0相樣可以池化和任意分配,形成各種規(guī)模和配置的計(jì)算資源。同時(shí),配合應(yīng)用感知的資源分圖,將硬件資源清晰地組織成不同的功能區(qū),功能區(qū)在軟件定義的控制下形成不同的資源最佳的運(yùn)行環(huán)境,讓應(yīng)用軟件與運(yùn)行環(huán)境之間的契合程度達(dá)到一個(gè)前所未有的水平。這種創(chuàng)新的體系結(jié)構(gòu),能夠?qū)崿F(xiàn)異構(gòu)資源的高效融合,這一階段被視為“數(shù)據(jù)中心即計(jì)算 ),通過(guò)軟件定義實(shí)現(xiàn)遠(yuǎn)端內(nèi)存多主機(jī)共享與靈活調(diào)配。網(wǎng)絡(luò)可采用非阻塞的多級(jí)CLOS拓?fù)湟詰?yīng)用先進(jìn)的光互連技術(shù),實(shí)現(xiàn)機(jī)柜間乃至數(shù)據(jù)中心級(jí)別的資源互聯(lián),鏈路傳輸距離可達(dá)本在服務(wù)器內(nèi)部的互連總線需要在機(jī)柜內(nèi)甚至機(jī)柜間的外部連接;隨著數(shù)據(jù)速率的升和系統(tǒng)鏈路變得更加復(fù)雜,互連鏈路延展已經(jīng)接因此,需要應(yīng)用實(shí)驗(yàn)設(shè)計(jì)法和響應(yīng)曲面統(tǒng)計(jì)法等仿真方法論,對(duì)復(fù)雜鏈路高速互連進(jìn)行高精度的擬合仿真研究,充分考慮多變量及造工藝、溫度等因素),準(zhǔn)確分析解耦池化系統(tǒng)多樣化拓?fù)浜蛡鬏斔俾实幕ミB鏈路風(fēng)險(xiǎn)與(3)運(yùn)用新型供電與散熱技術(shù)(如直流供電、液冷),提升計(jì)算密度與系統(tǒng)能效。例提升服務(wù)器功率密度,并保證冷卻液零泄漏。優(yōu)化散熱系統(tǒng)流阻,提升傳熱系數(shù),降低PUE值。這些技術(shù)可以有效提高計(jì)算密綜上所述,數(shù)據(jù)中心級(jí)融合架構(gòu)通過(guò)在互聯(lián)、調(diào)度、軟件和基礎(chǔ)設(shè)施等多個(gè)層面進(jìn)行基礎(chǔ)設(shè)施的靈活性和使用效率。這是未來(lái)數(shù)據(jù)中心發(fā)展的重要另外,數(shù)據(jù)中心級(jí)融合架構(gòu)在支持業(yè)務(wù)敏捷性方面也具有發(fā)展?jié)摿ΑN磥?lái)有望通過(guò)應(yīng)用感知調(diào)度技術(shù),實(shí)現(xiàn)業(yè)務(wù)類型的智能識(shí)別,然后自動(dòng)調(diào)配匹配的計(jì)算資源。這種技術(shù)手段包括:應(yīng)用特征抽取,通過(guò)分析應(yīng)用程序代碼、通信模式等自動(dòng)提取應(yīng)用特征;資源建模,成動(dòng)態(tài)資源調(diào)度方案。這種機(jī)制進(jìn)一步提高了數(shù)據(jù)中心資源利用率,也使得業(yè)務(wù)部署和擴(kuò)從戰(zhàn)略高度看,數(shù)據(jù)中心級(jí)融合架構(gòu)已經(jīng)逐步在云計(jì)算中心、智算中心等領(lǐng)域開始落地,在助力企業(yè)實(shí)現(xiàn)IT基礎(chǔ)設(shè)施數(shù)字化轉(zhuǎn)型,具有多方面優(yōu)勢(shì)。首先,它支撐云計(jì)算、AI等新業(yè)務(wù)在數(shù)據(jù)中心層面的彈性部署,使企業(yè)IT系統(tǒng)具備敏捷性。其次,它提升資源3.3.2新型計(jì)算模式融合測(cè),量子計(jì)算有望在3~5年后實(shí)現(xiàn)一些小規(guī)模的實(shí)際應(yīng)用。這些先進(jìn)計(jì)算技術(shù)也面臨著如存算一體的計(jì)算架構(gòu)融合代表著計(jì)算領(lǐng)域的一項(xiàng)重要前沿技術(shù),其潛在影響巨大。傳統(tǒng)的PIM方法將計(jì)算引入了存儲(chǔ)器中,實(shí)現(xiàn)了在的創(chuàng)新。例如,美國(guó)加州大學(xué)的謝源教授在JUMP項(xiàng)目中推動(dòng)一項(xiàng)名為“Intelligentmemoryandstorage”的研究任務(wù),探索如何在存儲(chǔ)器內(nèi)部實(shí)現(xiàn)智能計(jì)算。三星電子在業(yè)內(nèi)率先將存算一體化(PIM)融合集成到高帶寬內(nèi)存(HBM)的進(jìn)一步計(jì)算架構(gòu)融合方案,(PCU)將性能提高4倍,同時(shí)降低能耗高達(dá)70%。AMD將這合,在其InstinctMI100GPU計(jì)算加速卡中搭載了三星HBM存算一體技術(shù)領(lǐng)域取得了顯著的進(jìn)展,推出了基于SRAM的存算一體芯片,如“摩鴻途的典型功耗。與量子計(jì)算的架構(gòu)融合是另一個(gè)關(guān)鍵方向。與傳統(tǒng)計(jì)算機(jī)相比,量子計(jì)算機(jī)具有天然的量子并行計(jì)算能力,已被證明在若干場(chǎng)景上具有相對(duì)于傳統(tǒng)計(jì)算的極大優(yōu)勢(shì)。全球有超過(guò)20家公司正在開展量子計(jì)算相關(guān)的研究。其中,在分布式超導(dǎo)量子計(jì)算方面,2019科學(xué)技術(shù)大學(xué)研究團(tuán)隊(duì)推出了包含66個(gè)比特的“祖沖之號(hào)”超導(dǎo)量子處理器;2021年40比特量子芯片。在光學(xué)量子計(jì)算方面,美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院、代爾夫特大學(xué)、中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所等機(jī)構(gòu)可以生產(chǎn)兼具高探測(cè)效率(>90%)、高重復(fù)頻率(>150MHz)的超導(dǎo)納米線單光子探測(cè)器,光學(xué)量子計(jì)算的基本操作(如概率性的控制邏輯門)、各種量子算法的簡(jiǎn)單演示驗(yàn)證均已實(shí)現(xiàn)。中國(guó)科學(xué)技術(shù)大學(xué)研究團(tuán)隊(duì)構(gòu)建了光量子計(jì)算原型機(jī)“九章”及其升級(jí)版“九章2.0”,據(jù)此實(shí)現(xiàn)了量子優(yōu)越性這一4異構(gòu)融合計(jì)算發(fā)展趨勢(shì)NVIDIA市值超過(guò)了萬(wàn)億美金。從同構(gòu)走向異構(gòu),再進(jìn)一步走向異構(gòu)融合,是計(jì)算架構(gòu)從簡(jiǎn)單到復(fù)雜的必然演進(jìn)趨勢(shì)。異構(gòu)融合計(jì)算方向的早期探索中,國(guó)際巨頭Intel、NVIDIA4.1通用性與高性能統(tǒng)一計(jì)算架構(gòu)一直存在通用和專用的矛盾,即系統(tǒng)越復(fù)雜,計(jì)算模式越發(fā)展快速,越需要通用性較強(qiáng)的靈活計(jì)算平臺(tái);但系統(tǒng)算力需求越來(lái)越高,就需要盡可能把業(yè)務(wù)邏輯固化成硬件加速電路,也就越需要專用性高的定制計(jì)算平臺(tái)。解決這個(gè)矛盾的思路是:為不型的系統(tǒng)內(nèi)計(jì)算工作任務(wù),匹配最合適的計(jì)算處理器類型,同時(shí)不同的計(jì)算處理器組整的通用性較強(qiáng)的整體系統(tǒng)。通俗的講,就是通過(guò)工作任務(wù)專業(yè)分工,實(shí)現(xiàn)系統(tǒng)整體圖4-1根據(jù)靈活性特征的系統(tǒng)工作任務(wù)分類系統(tǒng)可以看作是多項(xiàng)工作任務(wù)的組合,這些工作任務(wù)雖然各有特點(diǎn),但整體上具備“二八定律”的特點(diǎn),即不同系統(tǒng)中大約80%的工作任務(wù)是相似甚至相同的。針對(duì)任務(wù)的針對(duì)不同任務(wù)的靈活性/性能特征,把任務(wù)劃分到這三個(gè)層次,然后采取各自特征能力4.2計(jì)算架構(gòu)走向收斂圖4-2根據(jù)指令復(fù)雜度的典型處理器類型劃分型、不同領(lǐng)域、不同場(chǎng)景、不同廠家、不同架構(gòu)的處理器,如果不加以約束,會(huì)導(dǎo)致處理異構(gòu)融合計(jì)算,會(huì)面臨多種處理器類型和架構(gòu);并且,隨著云網(wǎng)邊端逐漸走向融合,4.3編程復(fù)雜度降低要想推動(dòng)異構(gòu)融合計(jì)算的編程適配,核心的思路跟異構(gòu)計(jì)算架構(gòu)一致,就是要簡(jiǎn)化異全跟不上軟件的更新節(jié)奏。需要更進(jìn)一步的系統(tǒng)架構(gòu)創(chuàng)新,把傳統(tǒng)的軟件層面的能力(如4.4基礎(chǔ)組件優(yōu)化常規(guī)的系統(tǒng)棧是分層的,即系統(tǒng)的多個(gè)基礎(chǔ)組件組成單個(gè)系統(tǒng)層,多個(gè)系統(tǒng)層成系統(tǒng)棧。異構(gòu)融合計(jì)算的軟硬件系統(tǒng)棧,是在縱向的單個(gè)異構(gòu)軟硬件系統(tǒng)棧的基礎(chǔ)上,進(jìn)行的橫向整合和優(yōu)化。單個(gè)縱向的異構(gòu)計(jì)算軟硬件系統(tǒng)棧性能,決定了異構(gòu)融合系統(tǒng)最應(yīng)用層框架層系統(tǒng)層硬件層圖4-3系統(tǒng)棧分層示意圖以人工智能領(lǐng)域?yàn)槔?。隨著人工智能技術(shù)的快速發(fā)展,基于自研芯片算力服務(wù)平臺(tái)進(jìn)行訓(xùn)練已經(jīng)成為趨勢(shì)。然而,這種訓(xùn)練方式不可避免地會(huì)帶來(lái)更多的移植與調(diào)優(yōu)工作。在這個(gè)過(guò)程中,除了在集群、并行策略、算子和工具包等方面的優(yōu)化外,還需要完成包括DeepSpeed/Megatron/Colossal-AI/a程序系統(tǒng)調(diào)度也需要進(jìn)行調(diào)整,包括操作系統(tǒng)配置和網(wǎng)絡(luò)協(xié)議參數(shù)等。其中訓(xùn)練的優(yōu)化工作主要包含以下三個(gè)方面:能,提升硬件使用率。通過(guò)這種方式,可以更有效地利用硬件多級(jí)并行策略,實(shí)現(xiàn)超大規(guī)模訓(xùn)練。這樣不僅可以提高訓(xùn)練速度,還可以擴(kuò)大模型的規(guī)模,組配比等進(jìn)行定制優(yōu)化,提升訓(xùn)練擴(kuò)展比。這樣可以進(jìn)一步提高訓(xùn)練效率,擴(kuò)大訓(xùn)練規(guī)模。在針對(duì)每一個(gè)縱向的單個(gè)異構(gòu)系統(tǒng)全棧優(yōu)化的基礎(chǔ)上,進(jìn)一步對(duì)橫向的整個(gè)異構(gòu)融合系統(tǒng)進(jìn)行全棧協(xié)同優(yōu)化。異構(gòu)融合全棧協(xié)同優(yōu)化將幫助我們更好地利用硬件資源,提高系5異構(gòu)融合計(jì)算發(fā)展建議異構(gòu)融合計(jì)算是未來(lái)計(jì)算領(lǐng)域的重要趨勢(shì),它將不同架構(gòu)、硬件和技術(shù)融合在一起,以實(shí)現(xiàn)更高性能、更低能耗和更廣泛應(yīng)用的計(jì)算。為了推動(dòng)異構(gòu)融合計(jì)算的發(fā)展,以下是5.1加強(qiáng)政策引導(dǎo),布局重點(diǎn)項(xiàng)目建設(shè)稅收優(yōu)惠、人才引進(jìn)等舉措。此外,應(yīng)該加強(qiáng)對(duì)異構(gòu)融合計(jì)算領(lǐng)域的專業(yè)人才培養(yǎng)和支持,包括設(shè)立相關(guān)課程、提供創(chuàng)業(yè)支持、建立培訓(xùn)和獎(jiǎng)勵(lì)機(jī)制,培養(yǎng)具備交叉學(xué)科背景的復(fù)合同時(shí),積極推動(dòng)產(chǎn)業(yè)合作,鼓勵(lì)企業(yè)、高校和科研機(jī)構(gòu)建立“異構(gòu)融合計(jì)算產(chǎn)業(yè)聯(lián)盟”。通過(guò)組織技術(shù)論壇、舉辦創(chuàng)新賽事等方式,加強(qiáng)異構(gòu)融合計(jì)算技術(shù)的市場(chǎng)推廣和宣傳,以吸引更多開發(fā)者參與該領(lǐng)域的研發(fā)和應(yīng)用。此外,還應(yīng)引導(dǎo)國(guó)家基金與社會(huì)資本有明確定義異構(gòu)融合計(jì)算領(lǐng)域的發(fā)展目標(biāo),制定中長(zhǎng)期技術(shù)攻關(guān)研究規(guī)劃,為技術(shù)研發(fā)和應(yīng)用提供明確的指導(dǎo)方向。重點(diǎn)涵蓋通用大芯片、普適互聯(lián)操作系統(tǒng)、高性能數(shù)學(xué)庫(kù)、卓越性能圖形庫(kù)、異構(gòu)統(tǒng)一編程框架、異構(gòu)任務(wù)調(diào)度軟件、下一代存儲(chǔ)技術(shù)、以及下一代網(wǎng)絡(luò)通信協(xié)議等關(guān)鍵研發(fā)項(xiàng)目。并在實(shí)際中落地這些項(xiàng)目,包括建設(shè)智算中心、超算中心等新型基礎(chǔ)設(shè)施,特別關(guān)注支持具備競(jìng)爭(zhēng)優(yōu)勢(shì)的項(xiàng)目,積極推動(dòng)產(chǎn)業(yè)、學(xué)術(shù)界和研究機(jī)構(gòu)5.2構(gòu)建標(biāo)準(zhǔn)體系,強(qiáng)化融合技術(shù)牽引建立異構(gòu)融合計(jì)算的標(biāo)準(zhǔn)組織,制定相關(guān)標(biāo)準(zhǔn)和規(guī)范,引導(dǎo)企業(yè)和研究機(jī)構(gòu)關(guān)注前沿為核心理念的基礎(chǔ)上,依托“異構(gòu)融合計(jì)算產(chǎn)業(yè)聯(lián)盟”和其他平臺(tái)組織,與算力生態(tài)的上下游標(biāo)準(zhǔn)化組織共同制定硬件、軟件以及軟硬件層面的異構(gòu)融合計(jì)算技術(shù)標(biāo)準(zhǔn)規(guī)范,覆蓋指令集架構(gòu)、產(chǎn)品參數(shù)規(guī)格、通信協(xié)議、數(shù)據(jù)交換、系統(tǒng)架構(gòu)、交互接口、外觀形態(tài)、服建立適用于異構(gòu)融合計(jì)算的標(biāo)準(zhǔn)體系,積極與國(guó)際標(biāo)準(zhǔn)化組織合作,特別在NOC技術(shù)、SiP技術(shù)、融合架構(gòu)技術(shù)、統(tǒng)一編程框架等領(lǐng)域,促進(jìn)異構(gòu)融合計(jì)算技術(shù)的規(guī)范化和普及,以避免碎片化研究和低質(zhì)量的重復(fù)工作。我們鼓勵(lì)開放的發(fā)展模式,推動(dòng)計(jì)算產(chǎn)業(yè)鏈中各環(huán)節(jié)主體的協(xié)同參與,促進(jìn)標(biāo)準(zhǔn)與科技的互動(dòng)和協(xié)調(diào),以促進(jìn)標(biāo)準(zhǔn)體系建設(shè)的開源5.3聚焦關(guān)鍵技術(shù),推動(dòng)計(jì)算技術(shù)創(chuàng)新包括微架構(gòu)設(shè)計(jì)(例如指令集、邏輯單元、邏輯單元布局、流水線、分支預(yù)測(cè)、緩存設(shè)計(jì)、內(nèi)存管理等)、芯片封裝、內(nèi)核與線程設(shè)計(jì)(包括多核心、超線程、并發(fā)管理等)、低功耗設(shè)計(jì)(例如節(jié)能模式、動(dòng)態(tài)頻率調(diào)整等)、安全性與可靠性(如加密技術(shù)、錯(cuò)誤檢測(cè)與糾正等)、芯片調(diào)試與性能優(yōu)化以及制造工藝等方面的投入。加速通用大芯片的設(shè)計(jì)進(jìn)程,實(shí)現(xiàn)不同類型計(jì)算單元的協(xié)同設(shè)計(jì),研究最佳任務(wù)映射和調(diào)度策略,以提升芯片性能和能務(wù)能力(包括資源管理、并行計(jì)算、交叉編譯、異構(gòu)兼容等)。同時(shí),開發(fā)統(tǒng)一的編程模型和語(yǔ)言,設(shè)計(jì)領(lǐng)域特定語(yǔ)言,突破多層次編譯優(yōu)化技術(shù),開發(fā)輕量級(jí)運(yùn)行時(shí)調(diào)度系統(tǒng),研究高效的資源管理和調(diào)度技術(shù),實(shí)現(xiàn)統(tǒng)一的系統(tǒng)管理和監(jiān)控工具以實(shí)現(xiàn)動(dòng)態(tài)的任務(wù)調(diào)度和資源管理,以實(shí)現(xiàn)不同計(jì)算單元之間的最優(yōu)任務(wù)分配和資源共享,從而提高系統(tǒng)的探索新的系統(tǒng)集成和驗(yàn)證技術(shù),開發(fā)系統(tǒng)集成和驗(yàn)證工具,以確保不同計(jì)算單元之間的有效集成和驗(yàn)證,保證系統(tǒng)的穩(wěn)定性和可靠性。通過(guò)電路級(jí)優(yōu)化、算法級(jí)優(yōu)化、系統(tǒng)級(jí)優(yōu)化等多種手段,提高異構(gòu)計(jì)算系統(tǒng)的能效和性能,將異構(gòu)融合計(jì)算技術(shù)應(yīng)用到實(shí)際場(chǎng)景中,通過(guò)實(shí)踐驗(yàn)證技術(shù)的可行性和有效性,推動(dòng)技術(shù)的推廣和應(yīng)5.4加速產(chǎn)業(yè)變革,促進(jìn)新型技術(shù)應(yīng)用物計(jì)算等,推動(dòng)包括更高性能的融合芯片、更高效的算法、更優(yōu)化的編譯器、更快速的內(nèi)存/網(wǎng)絡(luò)訪問(wèn)等異構(gòu)計(jì)算技術(shù)的研發(fā)和創(chuàng)新,以滿足未來(lái)計(jì)算需求的增長(zhǎng)。將異構(gòu)融合計(jì)算技術(shù)應(yīng)用到具體的行業(yè)和領(lǐng)域,如自動(dòng)駕駛、人工智能、元宇宙等,通過(guò)實(shí)際應(yīng)用來(lái)推動(dòng)技術(shù)的進(jìn)步,促進(jìn)產(chǎn)業(yè)鏈上下游企業(yè)的合作,建立健全的產(chǎn)業(yè)生態(tài)系統(tǒng),推動(dòng)多產(chǎn)業(yè)的變案,并進(jìn)行宣傳推廣,推動(dòng)異構(gòu)融合計(jì)算技術(shù)在這些領(lǐng)域的應(yīng)用和推廣,形成良好的應(yīng)用附錄異構(gòu)融合計(jì)算實(shí)踐案例1CPU+XPU技術(shù)融合案例硬件架構(gòu)的演變和基于XPU的軟件生態(tài)系統(tǒng)的發(fā)展代,相應(yīng)的軟件生態(tài)系統(tǒng)也進(jìn)行了跨平臺(tái)、開源聯(lián)盟等嘗試,主要應(yīng)用于工業(yè)自動(dòng)化、網(wǎng)將不同類型和功能的芯片部署在同一平臺(tái)上,采用先進(jìn)的封裝技術(shù)實(shí)現(xiàn)多節(jié)點(diǎn)部署,同時(shí)Intel目前在芯片和異構(gòu)融合方案上的重要成果是2023年推出的第四代至強(qiáng)可擴(kuò)展處理器。這款處理器增加了多種加速引擎,以提供AI、高性能計(jì)算、安全、網(wǎng)絡(luò)、數(shù)據(jù)分析Intel推出的oneAPI是一種基于CPU+XPU異oneAPI,開發(fā)者可以獲得一致的編程接口,覆蓋了庫(kù)、工具和解決方案等多個(gè)層面,實(shí)現(xiàn)了OpenVINO、AnalyticsZoo、BigDL等技術(shù),從而實(shí)現(xiàn)應(yīng)用的跨平臺(tái)復(fù)用,降低軟件開為IPDK的社區(qū)驅(qū)動(dòng)的基礎(chǔ)設(shè)施層編程開發(fā)框架,提供了基礎(chǔ)設(shè)施應(yīng)用接口和目標(biāo)抽象接口,用于工作任務(wù)應(yīng)用和硬件能力供應(yīng)。此外,2022年,Intel聯(lián)合Linux基金會(huì)發(fā)起了OPI(開放可編程基礎(chǔ)設(shè)施項(xiàng)目),為IPU等下一代架構(gòu)和框架培養(yǎng)社區(qū)驅(qū)動(dòng)的開放生態(tài)下表總結(jié)了Intel在基礎(chǔ)設(shè)施和應(yīng)用加速上的全面推進(jìn),并分12適應(yīng)全新的工作負(fù)載。沒有歷史包3IntelFPGA是全球第二大FPGA平456等,融合+重構(gòu)到超異構(gòu)計(jì)算7任務(wù)可運(yùn)行在云端、邊緣甚至終端,運(yùn)行在不同廠家的硬件8從完全可編程網(wǎng)絡(luò),擴(kuò)展到完全可編9OneAPI(框架)、IPDK(框架)+OPI(開2GPU+DPU融合案例和垃圾郵件過(guò)濾等應(yīng)用卸載字符串搜索,同時(shí)還提供公鑰加密引擎、真隨機(jī)數(shù)發(fā)生器圖1BlueField系列產(chǎn)品圖DOCA對(duì)于DPU就像是CUDA對(duì)于GPU。為了使ISV、服務(wù)提庫(kù)文件、運(yùn)行時(shí)組件和服務(wù)組成的框架,建立在一套經(jīng)過(guò)驗(yàn)證的驅(qū)動(dòng)程序之上。其中的一絡(luò)數(shù)據(jù)包的實(shí)時(shí)GPU處理為例。在原來(lái)的處理過(guò)程中,CPU是協(xié)調(diào)人,也是主要瓶頸。它在同步NIC和GPU任務(wù)以及管理多個(gè)網(wǎng)絡(luò)隊(duì)列方面承擔(dān)了太多的責(zé)任。因?yàn)樗仨毷箞D2CPU協(xié)調(diào)原理圖以協(xié)調(diào)發(fā)送或接收網(wǎng)絡(luò)操作,CUDA內(nèi)核可以直接向GPU發(fā)送和接收數(shù)據(jù)包,而無(wú)需CPU核心或內(nèi)存。圖3GPU協(xié)調(diào)原理圖3CPU+DSA技術(shù)融合案例上海熠知電子科技有限公司(以下簡(jiǎn)稱“熠知電子”)定位高端計(jì)業(yè)務(wù),并具備芯片架構(gòu)設(shè)計(jì)、前端邏輯設(shè)計(jì)、后端布圖設(shè)計(jì)、產(chǎn)品板級(jí)設(shè)計(jì)、驅(qū)動(dòng)集成構(gòu)融合的方式在單芯片內(nèi)集成了40核的ARMv8.2CPU(主頻2.5GHz~3.0GHz)、基于DSA架構(gòu)的自研NPU(40TOPS@INT8算力)、視頻編解TF7000系列選用了新型的MESH片上網(wǎng)絡(luò)(Network-on-Chip確保數(shù)據(jù)可以圖4MESH片上網(wǎng)絡(luò)架構(gòu)然有助于提示性能,但其價(jià)格昂貴且存在供應(yīng)鏈風(fēng)險(xiǎn)。TF7000系列的設(shè)計(jì)采用片上內(nèi)存NPU之間共享地址訪問(wèn)空間,這使得需要以便快速交接處理。使用這種存算一體和共享存儲(chǔ)空間的設(shè)計(jì)之后,基于普遍可以買到的圖5片上內(nèi)存SRAM架構(gòu)人工智能推理運(yùn)算的計(jì)算模式通常是可預(yù)測(cè)的,因此采用DSA芯片面積、更低的功耗、更高的運(yùn)行速度下面實(shí)現(xiàn)人工智能的圖6TF7000片內(nèi)局部圖圖7TF7000系列異構(gòu)處理器連接拓?fù)銫hiplet是目前行業(yè)內(nèi)實(shí)現(xiàn)芯片算圖8TF7000系列TF7000系統(tǒng)異構(gòu)處理器可廣泛應(yīng)用于電信、金融、作系統(tǒng)、云平臺(tái)、集中式數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)、中間件、大數(shù)據(jù)平臺(tái)、數(shù)據(jù)安全等軟件4DPU+云原生技術(shù)融合案例但大量sidercar容器的使用,不僅導(dǎo)致系統(tǒng)資源消耗較高,也讓容器網(wǎng)絡(luò)存在實(shí)現(xiàn)負(fù)載,圖9

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論