異構(gòu)融合計(jì)算技術(shù)白皮書 2023

上傳人：策*** IP屬地：山西上傳時(shí)間：2023-09-28 格式：DOCX 頁(yè)數(shù)：105 大?。?.51MB 積分：19.9 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩100頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

點(diǎn)中國(guó)賽寶智庫(kù)I編寫者參編單位：浪潮電子信息產(chǎn)業(yè)股份有限公司、上海矩向科技有限公司、中國(guó)電信研究院、清華大學(xué)、中國(guó)科學(xué)院軟件研究所、國(guó)防科技大學(xué)、復(fù)旦大學(xué)、中國(guó)長(zhǎng)城研究院、中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、曙光信息產(chǎn)業(yè)（北京）有限公司、同方計(jì)算機(jī)有限公司、上海熠知電子科技有限公司、阿里云技術(shù)有限公司、中參編人員：楊曉明、陳平、劉建、熊婧、李冬、黃朝波、廉建芳、顏秉珩、林顯成、董剛、王洲、蔡彥、陳小文、盧晶雨、任翔、劉娜、張政、李寧、崔士偉、徐揚(yáng)、李璇、劉玉海、尹航、李陽(yáng)、買強(qiáng)、張磊、張震寧、趙立新、左明敏、周鵬、戴少鵬、楊蔚才、李亞軍、伍海龍、陳碩、張陽(yáng)、劉占民、王佑站、版權(quán)聲明：本白皮書版權(quán)屬于工業(yè)和信息化部電子第五研究所及參編單位，并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本白皮書文字或者觀點(diǎn)的，應(yīng)注明“來(lái)源：工業(yè)和信息化部電子第五研究所”。違反上述聲明者，將追究其相關(guān)法律責(zé)任。編者序近年來(lái)，自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用不斷創(chuàng)新發(fā)展，數(shù)據(jù)規(guī)模、算法復(fù)雜度以及算力需求爆發(fā)式增長(zhǎng)。各類加速處理器已成為算力基礎(chǔ)設(shè)施的重要組件，基于和維護(hù)成本增高等問(wèn)題愈發(fā)凸顯，亟需從異構(gòu)年開始，隨著AI大模型應(yīng)用的涌現(xiàn)，算力需求平均每2個(gè)月翻一倍；摩根士丹利估計(jì)“2022年谷歌的3.3萬(wàn)億次搜索，平均成本約于大模型搜索的成本是標(biāo)準(zhǔn)關(guān)鍵詞搜索的10倍”。需求的變化和成本的約束，再加上基礎(chǔ)架構(gòu)的變革。計(jì)算架構(gòu)已逐漸從目前各自為政、孤島式的異構(gòu)計(jì)算，走向異構(gòu)融合計(jì)算。同時(shí)，以系統(tǒng)設(shè)計(jì)為中心，按照應(yīng)用需求來(lái)設(shè)計(jì)、定義和規(guī)劃計(jì)算架構(gòu)，推動(dòng)多層級(jí)狹義的異構(gòu)融合計(jì)算，指的是多種不同類型、不同架構(gòu)處理器組成的計(jì)算架構(gòu)。廣義的異構(gòu)融合計(jì)算，是指通過(guò)將處理器、芯片、硬件設(shè)備、操作系統(tǒng)、編程框架、編程語(yǔ)言、網(wǎng)絡(luò)通信協(xié)議、數(shù)據(jù)中心等不同層次、不同類型的計(jì)算技術(shù)進(jìn)行整合優(yōu)化，以實(shí)現(xiàn)多種異構(gòu)計(jì)算資源的高效利用。本白皮書旨在探討異構(gòu)融合計(jì)算技術(shù)的內(nèi)在機(jī)制、應(yīng)用場(chǎng)景和發(fā)展趨勢(shì)，通過(guò)概述計(jì)算領(lǐng)域相關(guān)概念，回顧計(jì)算架構(gòu)發(fā)展歷程，分析了異構(gòu)計(jì)算技術(shù)的發(fā)展現(xiàn)狀及面臨的主要問(wèn)題，從硬件層面（芯片級(jí)、設(shè)備級(jí)框架）、系統(tǒng)層面分別提出了異構(gòu)融合計(jì)算技術(shù)的探索方案及演進(jìn)方向，引出了異構(gòu)融合計(jì)算技術(shù)的發(fā)展趨勢(shì)，并介紹了異構(gòu)融合計(jì)算領(lǐng)域相關(guān)的實(shí)踐案例。同時(shí)，指出了異構(gòu)融合計(jì)算發(fā)展面臨的挑戰(zhàn)：一是，處理器架構(gòu)的限制，可擴(kuò)的異構(gòu)代碼編寫、優(yōu)化和管理；三是，系統(tǒng)集成和互操作性技術(shù)要求高，難以構(gòu)建統(tǒng)一的在此，對(duì)參與本白皮書編制的各位專家表示衷心的感謝。我們相信，白皮書將為讀者提供一個(gè)新的視角和思考方式，希望讀者能夠結(jié)合實(shí)際應(yīng)用場(chǎng)景，對(duì)異構(gòu)融合計(jì)算當(dāng)今，數(shù)字化技術(shù)作為科技與產(chǎn)業(yè)新一輪變革的核心驅(qū)動(dòng)力，正在加速各行各業(yè)轉(zhuǎn)型升級(jí)，一個(gè)以計(jì)算能力為基礎(chǔ)的萬(wàn)物感知、萬(wàn)物互聯(lián)、萬(wàn)物智能的數(shù)字經(jīng)濟(jì)時(shí)代正加速到來(lái)。在這一進(jìn)程中，算力作為數(shù)字經(jīng)濟(jì)的核心生產(chǎn)力，由單一算力演變?yōu)槎鄻有运懔?，如《異?gòu)融合計(jì)算技術(shù)白皮書》針對(duì)現(xiàn)有算力基礎(chǔ)設(shè)施無(wú)法滿足算力需求的問(wèn)題，深入刨析了異構(gòu)計(jì)算應(yīng)用場(chǎng)景特點(diǎn)以及計(jì)算架構(gòu)異構(gòu)演進(jìn)歷程，提出了異構(gòu)計(jì)算發(fā)展所面臨的問(wèn)題，引入異構(gòu)融合計(jì)算的概念，并分別從硬件、軟件、系統(tǒng)三大層面概述了異構(gòu)融合趨勢(shì)和關(guān)鍵技術(shù)，系統(tǒng)全面地論證了異構(gòu)融合計(jì)算如何解決傳統(tǒng)異構(gòu)計(jì)算的問(wèn)題，并融合優(yōu)勢(shì)，與產(chǎn)業(yè)鏈上下游廣泛協(xié)同，積極打造云智、訓(xùn)推一體，云網(wǎng)邊端協(xié)同的分算力基礎(chǔ)設(shè)施。本白皮書為算力基礎(chǔ)設(shè)施建設(shè)和算力賦能提供了相關(guān)技術(shù)指引和參考，從基本概念到實(shí)踐案例，再到未來(lái)展望和發(fā)展建議，具有較高的實(shí)踐指導(dǎo)價(jià)值，我們相信該白皮書能夠?yàn)橄嚓P(guān)企業(yè)和研究機(jī)構(gòu)提供有益的啟示，我們也期待我國(guó)在異構(gòu)融合計(jì)算領(lǐng)域數(shù)字化時(shí)代，創(chuàng)新應(yīng)用爆發(fā)式增長(zhǎng)，傳統(tǒng)單一架構(gòu)計(jì)算平臺(tái)已難以滿足多樣性算力需求，異構(gòu)融合計(jì)算技術(shù)的提出顯得尤為重要。該白皮書深入淺出地解析了異構(gòu)融合計(jì)算技融合在一起，實(shí)現(xiàn)多種處理器的協(xié)同工作，以實(shí)現(xiàn)更高效、更靈活的計(jì)算能力。本白皮書通過(guò)研判芯粒級(jí)、設(shè)備級(jí)的技術(shù)融合趨勢(shì)，為實(shí)現(xiàn)更高計(jì)算能力、更高能效比、更低算力成本的算力硬件實(shí)現(xiàn)，提供了一種實(shí)現(xiàn)方案。在軟件及操作系統(tǒng)優(yōu)化、算法定制、統(tǒng)一編程框架、編譯器優(yōu)化等軟硬件高效協(xié)同設(shè)計(jì)的思路，這一點(diǎn)對(duì)硬件和軟件開發(fā)都具有重要的引導(dǎo)意義。盡管異構(gòu)融合計(jì)算這一技術(shù)還存在一些挑域得到應(yīng)用和發(fā)展。我們有理由相信這一技術(shù)將帶來(lái)更多的社會(huì)和經(jīng)濟(jì)效益。因此，希望未來(lái)的研究能夠繼續(xù)關(guān)注這一領(lǐng)域的發(fā)展動(dòng)態(tài)，以推動(dòng)異構(gòu)融合計(jì)算技術(shù)的進(jìn)一步創(chuàng)新和V可以媲美人類語(yǔ)言的誕生！然而，AI算力的猛增，也讓IT基礎(chǔ)架構(gòu)面臨著前所未有的挑感謝組織方和各位參編人員，適時(shí)地推出了這份前瞻且系統(tǒng)的《異構(gòu)融合計(jì)算技術(shù)白皮書》。從計(jì)算領(lǐng)域相關(guān)概念出發(fā)，系統(tǒng)梳理了異構(gòu)計(jì)算的背景和發(fā)展歷程，剖析了異構(gòu)計(jì)算面臨的問(wèn)題，進(jìn)而引出異構(gòu)融合計(jì)算的提法，在硬件、軟件和系統(tǒng)層面進(jìn)行了充分闡釋，最后給出了展望和建議。全文較好地遵循了以系統(tǒng)設(shè)計(jì)為中心的理念，結(jié)合融合架構(gòu)這一發(fā)展方向，指出了異構(gòu)融合計(jì)算的三條演進(jìn)路徑：需要在硬件層面實(shí)現(xiàn)芯片級(jí)和級(jí)的技術(shù)創(chuàng)新，需要在軟件層面實(shí)現(xiàn)跨平臺(tái)的編程框架和運(yùn)行環(huán)境，需要在系統(tǒng)層面白皮書最大的亮點(diǎn)在于提出了“異構(gòu)融合計(jì)算”的前瞻性概念，強(qiáng)調(diào)實(shí)現(xiàn)更深層次的協(xié)同，突破各異構(gòu)系統(tǒng)之間的鴻溝，實(shí)現(xiàn)通用性和高性能的更高統(tǒng)一，這一觀點(diǎn)前瞻性強(qiáng)，值得業(yè)界關(guān)注。異構(gòu)融合計(jì)算通過(guò)多元融合的軟硬件協(xié)同，實(shí)現(xiàn)大規(guī)模計(jì)算資源池化，更總體來(lái)說(shuō)，白皮書對(duì)異構(gòu)融合計(jì)算的概念闡釋和技術(shù)路線給出了參考，相信在實(shí)踐中還需要不斷豐富和發(fā)展。希望大家能夠攜手并進(jìn)，共同推動(dòng)異構(gòu)融合計(jì)算理念的傳播，并推薦序4VI異構(gòu)融合技術(shù)是一種將不同種類、不同架構(gòu)、不同性能的計(jì)算或處理單元融合在一起的技術(shù)。這種技術(shù)的目標(biāo)是充分利用各種硬件的優(yōu)勢(shì)，以實(shí)現(xiàn)更高的性能、能效或功能擴(kuò)展。異構(gòu)融合技術(shù)通常涉及不同類型的處理器、加速器、存儲(chǔ)設(shè)備等的協(xié)同工作，以滿足日益復(fù)雜的計(jì)算需求。從整體出發(fā)，“以系統(tǒng)為中心”是異構(gòu)融合的指導(dǎo)思想，浪潮信息的融合架構(gòu)3.0是其中的典型代表。總的來(lái)說(shuō)，異構(gòu)融合技術(shù)在不同領(lǐng)域都發(fā)揮著重要作用，幫助實(shí)現(xiàn)更高效、更強(qiáng)大的計(jì)算能力，從而推動(dòng)了科學(xué)、技術(shù)和應(yīng)用的發(fā)展。因此，在本白皮書中，編者詳細(xì)介紹了異構(gòu)融合的概念、應(yīng)用場(chǎng)景、現(xiàn)有問(wèn)題以及未來(lái)發(fā)展這些案例涉及不同領(lǐng)域，包括人工智能、高性能計(jì)算等，可以幫助讀者更好地理解異構(gòu)融合的應(yīng)用和價(jià)值。總的來(lái)說(shuō)，這本白皮書對(duì)異構(gòu)融合技術(shù)進(jìn)行了全面的介紹和分析，為讀者提供了深入的了解和洞察。同時(shí)，編者也進(jìn)一步探討了異構(gòu)融合技術(shù)的挑戰(zhàn)和問(wèn)題，以----趙雅倩浪潮信息體系結(jié)構(gòu)研究部VII勢(shì)性預(yù)警變成迫切的現(xiàn)實(shí)。在計(jì)算平臺(tái)的半導(dǎo)體PPA、多層級(jí)數(shù)據(jù)訪問(wèn)架構(gòu)、總線網(wǎng)絡(luò)計(jì)求的挑戰(zhàn)。圍繞“如何讓數(shù)據(jù)每一跳都產(chǎn)生更多價(jià)值的高效能算力架構(gòu)”科學(xué)發(fā)展問(wèn)題，“異構(gòu)”是指計(jì)算資源或技術(shù)具有不同的體系結(jié)構(gòu)、指令集、算法、工作模式等?！叭诤稀笔侵笇⒉煌N類的計(jì)算資源或技術(shù)進(jìn)行組合和優(yōu)化，以實(shí)現(xiàn)更高效、更穩(wěn)定的計(jì)算效果?！爱悩?gòu)融合”則包含硬件層面（芯片級(jí)、設(shè)備級(jí)）軟件層面、系統(tǒng)層面的軟硬件協(xié)同，既有傳統(tǒng)軟件的硬件化卸載，也有總線和網(wǎng)絡(luò)級(jí)的融合，整體上形成多種獨(dú)立的xPU計(jì)算引擎間的異構(gòu)融合互補(bǔ)，甚至表現(xiàn)出一些顛覆性的架構(gòu)創(chuàng)新，它將引領(lǐng)計(jì)算技術(shù)的闡述了異構(gòu)計(jì)算技術(shù)全棧的歷史、現(xiàn)狀和前沿探索情況。通過(guò)深入淺出的方式，作者讓我們了解到異構(gòu)融合計(jì)算技術(shù)在提高計(jì)算性能、降低功耗以及節(jié)約成本等方面的優(yōu)勢(shì)。結(jié)合實(shí)際案例分析，我們更加確信該技術(shù)在未來(lái)的發(fā)展前景。希望能引起異構(gòu)計(jì)算業(yè)界對(duì)融崛起，種種跡象都在提醒，當(dāng)前正在孕育著新一代信息技術(shù)大變革，我們必硬件和計(jì)算模式有難以估量的創(chuàng)新發(fā)展空間。摩爾定律失效造成算力增長(zhǎng)緩慢，這是目前信息產(chǎn)業(yè)面臨的重要挑戰(zhàn)，對(duì)于我們是機(jī)遇大于挑戰(zhàn)。在后摩爾時(shí)代，產(chǎn)業(yè)界提出了領(lǐng)域?qū)Ｓ眉軜?gòu)（DomainSpecificArchitecture,DSA）來(lái)應(yīng)長(zhǎng)的需要。云計(jì)算的業(yè)務(wù)形態(tài)使得其可以通過(guò)將底層異構(gòu)芯片進(jìn)行融合、對(duì)算力進(jìn)行抽象和池化，讓用戶更方便的使用異構(gòu)芯片和DSA架構(gòu)，可操作系統(tǒng)系統(tǒng)軟件迎來(lái)場(chǎng)景驅(qū)動(dòng)的創(chuàng)新發(fā)展大機(jī)遇。操作系統(tǒng)是最為基礎(chǔ)的系統(tǒng)軟件，協(xié)同的邊界拓展到運(yùn)行時(shí)組件，實(shí)現(xiàn)硬件芯片、操作系統(tǒng)、編譯器等的協(xié)同設(shè)計(jì)，可以說(shuō)“異構(gòu)融合計(jì)算技術(shù)白皮書”匯聚了領(lǐng)域?qū)＜业募w智慧，對(duì)計(jì)算架構(gòu)演化、發(fā)展趨勢(shì)、實(shí)踐案例等進(jìn)行了全方位的梳理，對(duì)信息技術(shù)發(fā)展具有一定的預(yù)見性，必將促使更多----楊勇龍蜥社區(qū)技術(shù)委員會(huì)主席、阿里云操作系統(tǒng)研在當(dāng)今快速發(fā)展的技術(shù)世界中，計(jì)算領(lǐng)域的挑戰(zhàn)和機(jī)遇無(wú)處不在。本白皮書深入探討了計(jì)算領(lǐng)域的發(fā)展歷程和關(guān)鍵問(wèn)題，提出了異構(gòu)融合作為計(jì)算發(fā)展的重要解決方案，給我眾所周知，自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用正在塑造我們的未來(lái)。然而，這些新興技術(shù)的快速發(fā)展也帶來(lái)了巨大的挑戰(zhàn)，尤其是在算力需求方面。本白皮書詳細(xì)闡述些挑戰(zhàn)，強(qiáng)調(diào)算力成本不斷上升，對(duì)企業(yè)和研究機(jī)構(gòu)構(gòu)成了重大挑戰(zhàn)。白皮書中異構(gòu)融合計(jì)算的概念引發(fā)了我們的思考，它為應(yīng)對(duì)算力需求提供了一個(gè)行之有效的途徑。通過(guò)整合多個(gè)異構(gòu)計(jì)算系統(tǒng)，我們可以構(gòu)建更強(qiáng)大、高效的計(jì)算架構(gòu)，為未來(lái)的技術(shù)應(yīng)用和創(chuàng)新鋪此外，白皮書強(qiáng)調(diào)了行業(yè)共同努力和協(xié)同創(chuàng)新的重要性。中國(guó)科學(xué)院微電子研究所在智能計(jì)算領(lǐng)域積累了豐富的研究經(jīng)驗(yàn)并取得了一系列重要成就，研究所也在積極推動(dòng)跨學(xué)科合作，與其他學(xué)院、研究機(jī)構(gòu)和行業(yè)合作，以推動(dòng)智能計(jì)算領(lǐng)域的研究和創(chuàng)新。我們相信，只有通過(guò)全行業(yè)的合作，我們才能夠應(yīng)對(duì)當(dāng)前和未來(lái)的計(jì)算挑戰(zhàn)，共同推動(dòng)技術(shù)的發(fā)這份白皮書能夠激發(fā)更多關(guān)于異構(gòu)融合計(jì)算的討論，為我們共同的數(shù)字化未來(lái)打下----喬樹山中國(guó)科學(xué)院微電子研究所智能感知研發(fā)中心副主任X 1 1 1 2 2 3 42.1計(jì)算架構(gòu)的發(fā)展歷程 4 4 5 5 62.2.1異構(gòu)計(jì)算技術(shù)成 62.2.2異構(gòu)計(jì)算架構(gòu)品 72.2.3異構(gòu)編程軟件逐 8 82.3.1芯片性能提升陷 82.3.2性能和靈活性難 92.3.3異構(gòu)計(jì)算孤島問(wèn) 92.3.4異構(gòu)計(jì)算編程框 10 12 12 12 17 21 21 24 26 28 28 32 334.1通用性與高性能統(tǒng)一 334.2計(jì)算架構(gòu)走向收斂 344.3編程復(fù)雜度降低 344.4基礎(chǔ)組件優(yōu)化 35 36 36 36 36 37 3811異構(gòu)計(jì)算領(lǐng)域相關(guān)概念1.1異構(gòu)計(jì)算異構(gòu)計(jì)算（HeterogeneousComputing）是指不同類型指令集和體系結(jié)構(gòu)的處理器組成可以獨(dú)立運(yùn)行，其他加速處理器需要在CPU的協(xié)助下運(yùn)行。因此，異構(gòu)計(jì)算通常是指依據(jù)指令的復(fù)雜度，處理器引擎分為CPU、Coprocessor（協(xié)處理器）、GPU、FPGA、圖1-1不同典型處理器間性能與靈活性對(duì)比圖協(xié)處理器集成在CPU內(nèi)部，用于協(xié)助CPU處理特定的計(jì)算任務(wù)；加速處理器（如.基于DSA的異構(gòu)并行。CPU和DSA共同構(gòu)成異構(gòu)計(jì)算系統(tǒng)，DSA可以在定制異構(gòu)的目標(biāo)是將任務(wù)分解為計(jì)算上同構(gòu)的子任務(wù)，然后將每個(gè)子任務(wù)分配給最適合執(zhí)行的計(jì)算資源(或并行模式)。異構(gòu)系統(tǒng)通常是由使用不同類型指令集和體系架構(gòu)的計(jì)算單1.2異構(gòu)融合計(jì)算“異構(gòu)融合計(jì)算”是一個(gè)全新的概念，目前行業(yè)還沒有形成統(tǒng)一的定義。從概念上講，2本白皮書認(rèn)為，狹義的“異構(gòu)融合計(jì)算”，是一種新的計(jì)算架構(gòu)和方法，通過(guò)融合CPU和多種不同類型、不同架構(gòu)的加速處理器，以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。而廣義的“異構(gòu)融合計(jì)算”，則通過(guò)不同層次、不同類型的技.超異構(gòu)：系統(tǒng)中異構(gòu)處理器的數(shù)量為三個(gè)或三個(gè)以上。“一個(gè)稱為同構(gòu).硬件融合：強(qiáng)調(diào)不同處理器之間的深度協(xié)同（指單處理器運(yùn)行，也可以跨同類型中的不同架構(gòu)處理器運(yùn)行）。各處理器之間可以通過(guò)高速總.軟件融合：面向異構(gòu)（硬件）計(jì)算環(huán)境，將操作系統(tǒng)、應(yīng)用軟件、編程模型、語(yǔ)言、通信協(xié)議、數(shù)據(jù)等技術(shù)資源進(jìn)行融合和優(yōu)化，提供統(tǒng)一的軟件運(yùn)行環(huán)境和編譯.系統(tǒng)融合：通過(guò)合理地任務(wù)分配和資源調(diào)度，異構(gòu)融合計(jì)算系統(tǒng)可以實(shí)現(xiàn)更高傳統(tǒng)異構(gòu)計(jì)算，特指CPU+xPU的計(jì)算架構(gòu)。異構(gòu)融合計(jì)算與傳統(tǒng)異構(gòu)計(jì)算的差異點(diǎn)異構(gòu)融合計(jì)算則具有兩種或兩種以上的加速處理器類型，并且需要重點(diǎn)關(guān)注所有處理器之1.3其他相關(guān)概念1.3.1ASIC與DSAASIC（Application-SpecificIntegratedCircuit，專用集成電路）是指應(yīng)特定需求而設(shè)計(jì)、3Architecture，特定領(lǐng)域架構(gòu)），可根據(jù)特定應(yīng)用場(chǎng)景定制處理引擎甚至芯片，支持部分軟性價(jià)比。SoC(SystemonChip，片上系統(tǒng))，是一種將多種電子組件集成在一個(gè)先進(jìn)的電路設(shè)計(jì)和封裝技術(shù)實(shí)現(xiàn)將不同的組件集成到一個(gè)芯片上。這種集成方式可以SiP（SysteminPackage，系統(tǒng)級(jí)封裝）是一種先進(jìn)的封裝技術(shù)，它）：MEMS、光學(xué)元件等）組合在一起的技術(shù)，42異構(gòu)計(jì)算的發(fā)展及問(wèn)題2.1計(jì)算架構(gòu)的發(fā)展歷程上述計(jì)算機(jī)體系結(jié)構(gòu)的時(shí)代劃分，是站在單處理器引擎視角進(jìn)行的。本白皮書參考上述五個(gè)時(shí)代的劃分，站在多處理器引擎計(jì)算架構(gòu)從簡(jiǎn)單到復(fù)雜的發(fā)展視角，提出了如下的2.1.1基于單核CPU的串行計(jì)算Computer），其線路必須被重設(shè)才能執(zhí)行不同的程序，通常需要花費(fèi)長(zhǎng)達(dá)三周的時(shí)間。而CPU微處理器通過(guò)支持跳轉(zhuǎn)、調(diào)用等控制類指令，使得計(jì)算機(jī)可以執(zhí)行各種復(fù)雜的計(jì)算和CPU的這種設(shè)計(jì)理念實(shí)現(xiàn)了軟件與硬件的解耦。即在更在這種架構(gòu)中，軟件開發(fā)是基于串行計(jì)算的思維，程序或問(wèn)題被分解成一系列離散的指令，圖2-1單核CPU串行計(jì)算示意圖乘法/除法器等復(fù)雜執(zhí)行單元、指令多發(fā)射、亂序執(zhí)行、52.1.2基于多核CPU的同構(gòu)并行計(jì)算的超高并行計(jì)算能力。圖2-2多核CPU同構(gòu)并行計(jì)算示意圖并行計(jì)算（ParallelComputing）是通過(guò)擴(kuò)大問(wèn)題求解規(guī)模，解決大型而復(fù)雜的計(jì)算問(wèn)題。并行計(jì)算主要分為時(shí)間上的并行和空間上的并行。時(shí)間上的并行是指流水線技術(shù)，而空間上的并行則是指用多個(gè)處理器并發(fā)的執(zhí)行計(jì)算，以此擴(kuò)大問(wèn)題求解1967年，吉恩·阿姆達(dá)爾（GeneAmdahl）提出阿姆達(dá)爾定律。并行性的理論性能提升受任務(wù)順序部分的限制。阿姆達(dá)爾定律證明了處理器數(shù)量的增加帶來(lái)的收益會(huì)遞減。一方面受系統(tǒng)工作任務(wù)并行特征的約束，另一方面，受單芯片設(shè)計(jì)規(guī)模上限的約束，通過(guò)多2.1.3基于CPU+xPU的異構(gòu)并行計(jì)算基于CPU+xPU的異構(gòu)并行計(jì)算廣泛應(yīng)用于高性能計(jì)算、人工智能等領(lǐng)域。CPU和單位計(jì)算的功耗面積等成本也較低；CPU擅長(zhǎng)處理串行任務(wù)，而GPU則更適合處理并行6），性能和功耗之間的關(guān)系是決定計(jì)算設(shè)備選擇的核心因素。為了滿足大規(guī)模計(jì)算的需求，從CPU到GPU，再到TPU（DSA），每一個(gè)技術(shù)進(jìn)步都帶來(lái)了性能的顯著提升。基于陣列邏輯）等可編程器件的基礎(chǔ)上的半定制電路，或叫可編程的邏輯列陣。FPGA基本結(jié)構(gòu)包括可編程輸入輸出單元、可配置邏輯塊、數(shù)字時(shí)鐘管理模塊、內(nèi)嵌專用硬核，底層內(nèi)相比，F(xiàn)PGA提供了更大的硬件靈活性，允許開發(fā)者根據(jù)需要進(jìn)行硬件編程和定制。這樣CGRA可重構(gòu)計(jì)算（Coarse-grainedReconfigurableArchitecture）是一種以空域?yàn)榛A(chǔ)的并行計(jì)算架構(gòu)，它通過(guò)空域硬件結(jié)構(gòu)組織不同粒度和功能的計(jì)算資源。與傳統(tǒng)的指令驅(qū)動(dòng)計(jì)算架構(gòu)不同，CGRA在運(yùn)行時(shí)根據(jù)數(shù)據(jù)流的特點(diǎn)進(jìn)行硬件配置，讓計(jì)算資源形成相對(duì)固定的計(jì)算通路，從而以接近“專用電路”的方式并行計(jì)算。這種結(jié)構(gòu)既減少了取指和譯碼的延時(shí)及能耗，又能以專用電路的方式高效執(zhí)行。當(dāng)面臨不同的算法和應(yīng)用時(shí)，可2.2異構(gòu)計(jì)算技術(shù)蓬勃發(fā)展2.2.1異構(gòu)計(jì)算技術(shù)成為主流處理器性能平均每2年翻一番；隨著登納德縮放定律的逐漸失效、阿姆達(dá)爾定律的充分挖的硅面積，算力密度低，運(yùn)算單元少，不適合人工智能領(lǐng)域的高并發(fā)密集的向量、張量計(jì)7的算力需求和密集多樣計(jì)算需求，單純依賴CPU一種計(jì)算架構(gòu)已經(jīng)無(wú)法滿足，結(jié)合不同架異構(gòu)計(jì)算技術(shù)已經(jīng)成為超級(jí)計(jì)算機(jī)、嵌入式系統(tǒng)、人工智能等領(lǐng)域的主流計(jì)算模式，未來(lái)2.2.2異構(gòu)計(jì)算架構(gòu)品類眾多場(chǎng)景（Scenario）是領(lǐng)域（Domain）的子集。比如AES加解密是一個(gè)具體的場(chǎng)景異構(gòu)計(jì)算架構(gòu)的品類眾多，并且不同的品類具體的架構(gòu)實(shí)現(xiàn)也不盡相同。按照不同的DSA/ASIC異構(gòu)里，異構(gòu)計(jì)算架構(gòu)8如何實(shí)現(xiàn)平衡性能與靈活性，并從系統(tǒng)層面上以更低的成本獲取更大的算力、更多的領(lǐng)域2.2.3異構(gòu)編程軟件逐漸成熟隨著異構(gòu)計(jì)算的發(fā)展和廣泛應(yīng)用，異構(gòu)編程技術(shù)也逐漸成熟。異構(gòu)編程是指通過(guò)編寫在平臺(tái)支持方面，主流的異構(gòu)計(jì)算平臺(tái)都提供了相應(yīng)的開發(fā)工具和編程模型，以支持異構(gòu)編程。例如，NVIDIA提供的CUDA編程模型；Xi），在編程模型方面，針對(duì)異構(gòu)計(jì)算的編程模型也在不斷完善和發(fā)展。傳統(tǒng)的編程模型如構(gòu)編程的難度，同時(shí)充分發(fā)揮了異構(gòu)計(jì)算的優(yōu)勢(shì)，目的是讓開發(fā)者可以更加輕松地進(jìn)行異在優(yōu)化工具和框架方面，為了提高異構(gòu)計(jì)算的效率，研究人員和廠商們開發(fā)了各種優(yōu)化工具和框架。這些工具和框架提供了各種編譯、調(diào)度、調(diào)試和優(yōu)化的功能，以幫助開發(fā)簡(jiǎn)而言之，越來(lái)越多的案例表明了異構(gòu)編程正在逐漸成熟，不僅有全棧的軟硬件平臺(tái)2.3異構(gòu)計(jì)算技術(shù)演進(jìn)困境異構(gòu)計(jì)算技術(shù)已經(jīng)廣泛應(yīng)用于多個(gè)領(lǐng)域，如云計(jì)算、邊緣計(jì)算、高性能計(jì)算等。但異構(gòu)計(jì)算也逐漸面臨性能瓶頸問(wèn)題，同時(shí)面臨性能和靈活性難以兼顧、編程框架不統(tǒng)一等問(wèn)2.3.1芯片性能提升陷入瓶頸升一倍。單個(gè)異構(gòu)計(jì)算設(shè)備的性能提升有限，只能通過(guò)擴(kuò)大計(jì)算集群規(guī)模的方式來(lái)滿足算力快速提升的需求。然而，受限于集群效率，目前上千臺(tái)服務(wù)器和上萬(wàn)張GPU加速卡的.摩爾定律放緩：隨著制程工藝不斷縮小，摩爾定律的推進(jìn)速度已經(jīng)放緩，單純依靠.能源和散熱限制：隨著芯片制程工藝的進(jìn)步，晶體管的體積不斷縮小，但同時(shí)也帶來(lái)了更高的功耗和熱量產(chǎn)生。在有限的能源和散熱條件下，單純追求性能提升將導(dǎo)致芯片.軟件和硬件的協(xié)同優(yōu)化不足：為了充分發(fā)揮硬件性能，需要與之相應(yīng)的軟件和算法支持。但在實(shí)際應(yīng)用中，軟件和硬件之間的協(xié)同優(yōu)化并不總是能夠?qū)崿F(xiàn)，導(dǎo)致部分硬件性9機(jī)系統(tǒng)性能時(shí)，不僅需要考慮單個(gè)處理器的性能，還需要考慮如何并行化計(jì)算任務(wù)，2.3.2性能和靈活性難以兼顧性能與靈活性在不同的加速處理器上呈現(xiàn)出不同的特器之間的高效數(shù)據(jù)交換和協(xié)作。這使得DSA在處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)時(shí)例，以滿足不同場(chǎng)景下性能和資源需求的平衡。此外，DSA還支持動(dòng)態(tài)地添加或刪除處理適配。這意味著開發(fā)者需要投入更多的精力進(jìn)行硬件和軟件設(shè)計(jì)，提高了開發(fā)和維護(hù)成本。件系統(tǒng)的兼容性問(wèn)題。在使用過(guò)程中，可能需要額外的適配和優(yōu)化工在異構(gòu)計(jì)算中，不同的處理器各有優(yōu)勢(shì)和劣勢(shì)，選擇最適合的處理器取決于特定應(yīng)用的性能和靈活性需求。盡管DSA提供了一種介于高性能ASIC和靈活的通用處理器之間的解決方案，但其在某些迅速變化的領(lǐng)域中仍面臨著挑戰(zhàn)。未來(lái)的技術(shù)研究應(yīng)集中在如何實(shí)2.3.3異構(gòu)計(jì)算孤島問(wèn)題突顯隨著異構(gòu)計(jì)算在各領(lǐng)域的應(yīng)用落地，多異構(gòu)共存的異構(gòu)計(jì)算孤島問(wèn)題也逐漸突顯。多異構(gòu)計(jì)算的硬件層次高集成度和系統(tǒng)軟件層次多協(xié)同、通用編程模型和開發(fā)環(huán)境，已成為圖2-4從同構(gòu)到異構(gòu)再到多異構(gòu)的演進(jìn).各領(lǐng)域加速器難以全局協(xié)同：不同的加速器在處理特定領(lǐng)域的問(wèn)題時(shí)表現(xiàn)出色，但相互協(xié)同能力差，可能導(dǎo)致系統(tǒng)整體的性能下降。協(xié)同能力差主要體現(xiàn)在兩個(gè)方面：不同的加速器的存儲(chǔ)器和內(nèi)存管理機(jī)制不同，導(dǎo)致數(shù)據(jù)訪問(wèn)和傳輸方式復(fù)雜，數(shù)據(jù)通路難同；多個(gè)加速器的控制機(jī)制不同，導(dǎo)致它們之間的同步和協(xié)調(diào)，需要復(fù)雜的并行控制機(jī)制.各領(lǐng)域加速器之間交互困難：不同類型的加速器之間進(jìn)行通信和數(shù)據(jù)交換需要使用特定的接口和機(jī)制，增加了開發(fā)的復(fù)雜性和難度；頻繁大量的通信和數(shù)據(jù)交換，導(dǎo)致數(shù)據(jù)負(fù)責(zé)協(xié)調(diào)和管理其他硬件加速器的工作。然而，當(dāng)加速器數(shù)量增多或任務(wù)復(fù)雜度增加時(shí)，.物理空間無(wú)法容納多個(gè)異構(gòu)加速卡：由于物理空間的限制，系統(tǒng)中只能容納有限數(shù)2.3.4異構(gòu)計(jì)算編程框架各異不同的異構(gòu)計(jì)算編程框架都擁有其獨(dú)特的特性和適用環(huán)境，開發(fā)者在編寫程序時(shí)需要依據(jù)實(shí)際需求和硬件設(shè)備選擇最適合的框架。由于硬件的獨(dú)特性質(zhì)，每種硬件都配備了專例如，CUDA是由NVIDIA推出的并行計(jì)算平臺(tái)和編程模型，它允許開發(fā)者利用加速的并行計(jì)算。AmpxAI是由AMD開發(fā)的基于Python的并行計(jì)算庫(kù)，可在AMD的GPU上實(shí)現(xiàn)高效的計(jì)算。這就要求開發(fā)者掌握多種編程模型和語(yǔ)言，使得代碼移植面臨巨大的挑戰(zhàn)。例如，專即使有統(tǒng)一編程模型的支持，要實(shí)現(xiàn)高效的代碼仍需要針對(duì)特定硬件進(jìn)行手動(dòng)優(yōu)化，這無(wú)疑增加了編程的復(fù)雜性和開發(fā)周期。雖然業(yè)界提出了多種方法試圖建立統(tǒng)一的異構(gòu)計(jì)算編程框架，以簡(jiǎn)化開發(fā)過(guò)程并解決這些挑戰(zhàn)，但至今仍未找到完美的解決方案。因此，尋找一個(gè)真正統(tǒng)一、能滿足所有硬件和應(yīng)用需求的編程方法，仍然是計(jì)算領(lǐng)域的熱門研究3異構(gòu)融合計(jì)算技術(shù)探索隨著計(jì)算模式從集中式的單節(jié)點(diǎn)計(jì)算逐漸走向分布式的多節(jié)點(diǎn)協(xié)同計(jì)算，計(jì)算系統(tǒng)變得越來(lái)越復(fù)雜。異構(gòu)融合計(jì)算技術(shù)，不僅僅需要芯片級(jí)、設(shè)備級(jí)等硬件層面技術(shù)的支撐，還需要操作系統(tǒng)、編程框架以及跨平臺(tái)等多種軟件層面技術(shù)的支持，以及數(shù)據(jù)中心和新型計(jì)算模式等系統(tǒng)層面技術(shù)的全力配合。通過(guò)整個(gè)系統(tǒng)的全方位軟硬件協(xié)同工作，來(lái)達(dá)到異3.1硬件層面融合技術(shù)探索3.1.1芯片級(jí)融合計(jì)算架構(gòu)2015之后，摩爾定律逐漸放緩，集成電路發(fā)展進(jìn)入后摩爾時(shí)代，集成電路的整體發(fā)展術(shù)、SoC驗(yàn)證技術(shù)、可測(cè)性設(shè)計(jì)技術(shù)、低功耗設(shè)計(jì)技術(shù)、超深亞微米電路實(shí)現(xiàn)技術(shù)等。SoC設(shè)計(jì)技術(shù)可以降低系統(tǒng)板上因信號(hào)在多個(gè)芯片之間進(jìn)出帶來(lái)的延遲而導(dǎo)致的性能局限，NoC是目前大規(guī)模芯片內(nèi)部互聯(lián)的最主要通信架構(gòu)，通過(guò)芯片內(nèi)實(shí)現(xiàn)類似于網(wǎng)構(gòu)，包括目標(biāo)的處理單元（PE）、交換節(jié)點(diǎn)（routers）和互連線（wires），這種互聯(lián)結(jié)構(gòu)相比傳統(tǒng)交叉開關(guān)（Crossbar）總線具有可擴(kuò)展性好、并發(fā)性強(qiáng)等特點(diǎn)。隨著SoC集成度直接型拓?fù)浣Y(jié)構(gòu)：所有的路由節(jié)點(diǎn)均與計(jì)算資源相連，并通過(guò)雙向鏈路直接連接。常（Hypercube）NoC。網(wǎng)絡(luò)是由交換節(jié)點(diǎn)和互連線構(gòu)成的，每個(gè)節(jié)點(diǎn)連接一個(gè)處理單元（RE）和上下左右四個(gè)相鄰的路由器，每個(gè)處理單元通過(guò)一個(gè)網(wǎng)絡(luò)接口（Net-InterfaceNI）連接著一個(gè)路由器。其中的處理單元可以是處理器核、內(nèi)存、用戶自定義硬件模塊或者其他任何可以插入插槽并且可以和網(wǎng)絡(luò)接口相配的IP（IntellectualProperty路由器之間，路由器和資源之間是由一對(duì)輸入和輸出通道連接。通道是由兩條單向的點(diǎn)對(duì)各個(gè)路由節(jié)點(diǎn)之間不一定是直接通過(guò)雙向鏈路相連接，而可能是通過(guò)這些專門的開關(guān)節(jié)點(diǎn)SiP是從封裝的立場(chǎng)出發(fā)，對(duì)不同芯片進(jìn)行并排或疊加的方式封裝，將多個(gè)具有不同功能的有源電子元件與可選無(wú)源器件，以及諸如MEMS或者光學(xué)器件等其行分解，然后開發(fā)出多種具有單一特定功能、可相互進(jìn)行模塊化組裝的裸芯片（如實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)、計(jì)算、信號(hào)處理、數(shù)據(jù)流管理等功能再將這些模塊化的芯粒（裸片）互聯(lián)起來(lái)，采用新型封裝技術(shù)，將不同功能不同工藝制造的芯粒封裝在一起，成為一個(gè)異構(gòu)集Chiplet芯片設(shè)計(jì)具備三大優(yōu)勢(shì)：快速開發(fā)、低成本、多功能；借助先進(jìn)的封裝技術(shù)，特定設(shè)計(jì)部分選擇最先進(jìn)的技術(shù)，而在其他部分選擇更成熟、更廉價(jià)的技術(shù)，從而節(jié)省整間、芯片與存儲(chǔ)之間的連線封裝在硅中介層中，可提供近似在同一個(gè)芯片內(nèi)的互聯(lián)性能。量，MI300A則把CPU和GPU通過(guò)3D裝的技術(shù)，構(gòu)建更高效、更經(jīng)濟(jì)的芯片系統(tǒng)。這種設(shè)計(jì)方法簡(jiǎn)化了芯片設(shè)計(jì)的復(fù)雜性，而根據(jù)算力的快速增長(zhǎng)需求，以及異構(gòu)融合的發(fā)展大趨勢(shì)，作為芯片設(shè)計(jì)集成/融合的主將朝著提供更高的帶寬和更低的通信延遲方向總之，NOC技術(shù)的發(fā)展趨勢(shì)將主要關(guān)注高度異構(gòu)集成、高帶寬低延遲、靈活性、能在工藝進(jìn)步日益走向物理極限的今天，多種異構(gòu)芯粒的封裝逐漸成為芯片規(guī)模持續(xù)提綜合來(lái)看，Chiplet技術(shù)的發(fā)展趨勢(shì)包括模塊化設(shè)計(jì)、高性能、能效、低成本制造、標(biāo)準(zhǔn)化和應(yīng)用領(lǐng)域擴(kuò)展。這些趨勢(shì)均有利于推動(dòng)芯片設(shè)計(jì)和制造的變革，走向異構(gòu)融合，為計(jì)算核心、內(nèi)存、和互連集成到單個(gè)芯片或芯片上實(shí)現(xiàn)高性能計(jì)算的同時(shí)保持合理的能性能提升的主要瓶頸。為了適應(yīng)大規(guī)模的計(jì)算需求，晶圓級(jí)芯片技術(shù)發(fā)展的重點(diǎn)放在3.1.2設(shè)備級(jí)融合計(jì)算架構(gòu)異構(gòu)計(jì)算架構(gòu)的融合，可以是芯片級(jí)的，也可以是設(shè)備級(jí)的。在采用現(xiàn)有的、非異構(gòu)融合芯片的情況下，可以通過(guò)設(shè)備級(jí)多芯片融合計(jì)算，有效地獲取高性能計(jì)算能力。芯片內(nèi)融合的核心技術(shù)是片內(nèi)總線，類似的，設(shè)備級(jí)融合的核心技術(shù)是芯片間互聯(lián)的高速總線，部件互聯(lián)總線）基礎(chǔ)上把傳輸機(jī)制從并行改成了串行，通過(guò)使用差分信號(hào)傳輸，干擾可以品），每一代的帶寬大致上翻倍。到PCIe5.0，通過(guò)x16組總線，可以支持雙向共約CXL是Intel發(fā)布的一種支持緩存一致性協(xié)議的芯片間互聯(lián)總線，CXL基于PCIe內(nèi)存池，通過(guò)硬件機(jī)制在加速器和處理器之間高效的共享內(nèi)存，提升性能并且降低延遲，充當(dāng)主設(shè)備，而設(shè)備充當(dāng)從設(shè)備。并且能夠支持易失性和非易CXL.io協(xié)議用于初始化和鏈接，因此所有CXL設(shè)備都必須支持該協(xié)議。其他兩種協(xié)NVLink是NVIDIA針對(duì)GPU加速計(jì)算而開發(fā)的全新高速互聯(lián)技術(shù)，它大大提升了NVLink2.0開始支持?jǐn)?shù)據(jù)一致性，允許從CPU直接訪問(wèn)GPU內(nèi)存，允許讀取來(lái)自最炙手可熱的服務(wù)器類型。通過(guò)QPI、PCIe、NVLink等芯片間總線，在設(shè)備級(jí)實(shí)現(xiàn)了（二）設(shè)備級(jí)融合計(jì)算架構(gòu)技術(shù)探索多種異構(gòu)融合，必然是更加龐大的計(jì)算系統(tǒng)。通過(guò)功能強(qiáng)大的芯片間互聯(lián)總線，實(shí)現(xiàn)設(shè)備級(jí)的異構(gòu)融合計(jì)算系統(tǒng)，是一個(gè)切實(shí)可行的方式。芯片間高速互聯(lián)總線，級(jí)異構(gòu)融合的關(guān)鍵。也因此，從異構(gòu)不斷融合的發(fā)展視角，必然對(duì)芯片間互聯(lián)總線提出一而不是異構(gòu)融合。如果要想在設(shè)備級(jí)實(shí)現(xiàn)完全異構(gòu)融合的對(duì)等架構(gòu)，勢(shì)必需要采用CPUCPUGPUNVMeNVMeSSD合CPU、GPU、其他各類DSA的計(jì)算能力，構(gòu)建設(shè)備級(jí)異構(gòu)3.2軟件層面融合技術(shù)探索可以提升異構(gòu)融合計(jì)算的適用范圍和性能，還能為后續(xù)的硬件開發(fā)提供指導(dǎo)。在這一部分，我們首先對(duì)異構(gòu)軟件優(yōu)化的相關(guān)技術(shù)進(jìn)行了深入分析，然后重點(diǎn)討論了兩大關(guān)鍵支持技術(shù)領(lǐng)域，即操作系統(tǒng)和編程框架。我們不僅剖析了當(dāng)前國(guó)內(nèi)外最先進(jìn)的技術(shù)，還明確了未來(lái)3.2.1面向異構(gòu)軟件優(yōu)化技術(shù)分析在異構(gòu)融合計(jì)算的背景下，需要進(jìn)行異構(gòu)軟件優(yōu)化技術(shù)的分析，這包括針對(duì)異構(gòu)計(jì)算環(huán)境中的軟件應(yīng)用所設(shè)計(jì)的性能優(yōu)化方法和策略。異構(gòu)計(jì)算環(huán)境通常綜合了不同類型的處的性能特點(diǎn)和能力。為了確保在不同類型的計(jì)算資源上執(zhí)行的軟件能夠以一致的方式運(yùn)行，避免潛在的錯(cuò)誤和運(yùn)行不一致性問(wèn)題，需要采用特定的優(yōu)化技術(shù)和方法。每種硬件都有其獨(dú)有的架構(gòu)和性能特征。為了充分利用這些硬件資源并確保一致性，軟件不僅需要能夠在不同的平臺(tái)上運(yùn)行，而且應(yīng)該盡可能的利用平臺(tái)硬針對(duì)異構(gòu)計(jì)算設(shè)備，統(tǒng)一的操作系統(tǒng)級(jí)開發(fā)工具鏈需要支持針對(duì)不同設(shè)備類型的編譯、在編譯器方面，需要支持針對(duì)不同設(shè)備類型的編譯，并為各種硬件架構(gòu)生成高效的代在調(diào)試器方面，針對(duì)異構(gòu)計(jì)算設(shè)備的調(diào)試器需要支持對(duì)不同設(shè)備類型的調(diào)試，以幫助開發(fā)人員在異構(gòu)設(shè)備上查找和修復(fù)錯(cuò)誤。例如，對(duì)于GPU，調(diào)試器需要能夠準(zhǔn)確地調(diào)試GPU代碼，同時(shí)能追蹤和分析GPU的內(nèi)存訪問(wèn)和計(jì)算操作。調(diào)試器還應(yīng)該提供全面的調(diào)在開發(fā)庫(kù)方面，簡(jiǎn)化編程的工具和庫(kù)對(duì)異構(gòu)計(jì)算設(shè)備至關(guān)重要。針對(duì)異構(gòu)計(jì)算設(shè)備的開發(fā)庫(kù)需要提供針對(duì)不同設(shè)備類型的抽象接口和函數(shù)庫(kù)，以簡(jiǎn)化異構(gòu)設(shè)備的編程。例如，CUDA和OpenCL提供了針對(duì)GPU的函數(shù)庫(kù)和API，幫助開發(fā)人員輕松地編寫高效的GPU程序。此外，開發(fā)庫(kù)還應(yīng)提供豐富的示例代碼和詳盡的文檔，以便開發(fā)人員快速上手C/C++一種廣泛用于跨平臺(tái)開發(fā)的編程語(yǔ)言，具有高度的移植性，可以在多種硬件上編寫和運(yùn)行代碼。Python一種高級(jí)編程語(yǔ)言，具有豐富的庫(kù)和工具生態(tài)系統(tǒng)，可以通過(guò)不同的庫(kù)和框架實(shí)現(xiàn)跨平臺(tái)的計(jì)算。Java一種跨平臺(tái)的編程語(yǔ)言，通過(guò)Java虛擬機(jī)（JVM）可以在不同操作系統(tǒng)上運(yùn)行。OpenCL一種開放計(jì)算語(yǔ)言，也代表了一種異構(gòu)計(jì)算標(biāo)準(zhǔn)，允許在不同類型的計(jì)算設(shè)備上進(jìn)行并行編程，包括CPU、GPU和FPGA。選擇合適的編程語(yǔ)言取決于具體的應(yīng)用需求和硬件平臺(tái)。關(guān)鍵是要確保所選編程語(yǔ)言O(shè)penMP一種支持共享內(nèi)存并行編程的API，可以在不同操作系統(tǒng)和硬件上使用，用于多線程并行計(jì)算。CUDANVIDIA推出的用于GPU編程的平臺(tái)，提供了一套標(biāo)準(zhǔn)化的API和庫(kù)，用于在NVIDIAGPU上進(jìn)行并行計(jì)算。OpenCL一種跨平臺(tái)的異構(gòu)計(jì)算標(biāo)準(zhǔn)，提供了一致的API，允許在不同硬件上執(zhí)行并行計(jì)算任務(wù)。標(biāo)準(zhǔn)化的API和庫(kù)可以確保在多種硬件之間實(shí)現(xiàn)功能一致性，并能夠簡(jiǎn)化軟算力是指計(jì)算設(shè)備在單位時(shí)間內(nèi)所能完成的計(jì)算量。鑒于異構(gòu)計(jì)算設(shè)備具有不同的硬件特性和架構(gòu)，其在計(jì)算能力上也存在差異。不同的計(jì)算單元具有不同的計(jì)算方式和計(jì)算密度是指設(shè)備在單位面積或單位體積內(nèi)所能完成的計(jì)算量。對(duì)于同一類型的異構(gòu)設(shè)備，可以通過(guò)計(jì)算其計(jì)算單元數(shù)量、時(shí)鐘頻率、并行度等參數(shù)，來(lái)計(jì)算其通過(guò)操作系統(tǒng)、虛擬化和容器等技術(shù)，我們可以在軟件層面對(duì)底層異構(gòu)算力設(shè)備（如隱藏底層不同硬件設(shè)備的差異性，提供統(tǒng)一的計(jì)算運(yùn)行時(shí)環(huán)可變粒度資源技術(shù)是實(shí)現(xiàn)運(yùn)行一致性的關(guān)鍵技術(shù)。由于計(jì)算環(huán)境中的資源具有非常高的動(dòng)態(tài)性和不確定性，這要求對(duì)應(yīng)程序能夠自動(dòng)適應(yīng)不同的計(jì)算負(fù)載和需求?？勺兞６荣Y源技術(shù)可以將計(jì)算資源分解為更小的粒度，并能夠根據(jù)實(shí)際需求進(jìn)行動(dòng)態(tài)調(diào)整。這種技術(shù)可以讓計(jì)算資源更加靈活地適應(yīng)不同的應(yīng)用程序需求，從而更好地利用資源。在云計(jì)算環(huán)境中，通常會(huì)將計(jì)算資源分解為裸金屬、虛擬機(jī)、容器、函數(shù)等更小的粒度，并動(dòng)態(tài)調(diào)整資源分配和使用。通過(guò)可變粒度資源技術(shù)可以更好地保證服務(wù)的可靠異構(gòu)計(jì)算設(shè)備因其多樣的硬件架構(gòu)和接口而帶來(lái)了管理、維護(hù)和安全上的挑戰(zhàn)。為了更有效地應(yīng)對(duì)這些挑戰(zhàn)，必須提供一種綜合的方法，包算設(shè)備的性能、溫度、功耗等關(guān)鍵指標(biāo)。通過(guò)對(duì)異構(gòu)計(jì)算設(shè)備的監(jiān)控，可以及時(shí)發(fā)現(xiàn)設(shè)備例如，通過(guò)提供統(tǒng)一的操作界面，可以方便地進(jìn)行軟件的安裝、配置和更新，同時(shí)對(duì)硬件進(jìn)行管理和維護(hù)。對(duì)于異構(gòu)計(jì)算設(shè)備的軟件管理，可以采用容器化技術(shù)，將不同種安全管理方面，需要提供統(tǒng)一的安全工具，以確保異構(gòu)計(jì)算設(shè)備的安全性。異構(gòu)計(jì)算設(shè)備的安全問(wèn)題主要涉及數(shù)據(jù)安全、身份認(rèn)證、漏洞管理等方面。例如，可以采用統(tǒng)一的身份認(rèn)證機(jī)制，對(duì)設(shè)備的訪問(wèn)進(jìn)行認(rèn)證和授權(quán)；同時(shí)可以通過(guò)安全補(bǔ)丁管理遷移工具方面，需要提供統(tǒng)一的遷移方案，以便在不同異構(gòu)計(jì)算設(shè)備之間進(jìn)行快速遷移。異構(gòu)計(jì)算設(shè)備之間的遷移涉及到不同的處理器和加速器之間的轉(zhuǎn)換，需要提供一套標(biāo)將不同種類的處理器和加速器虛擬化為同一種處理器和加速器，以實(shí)現(xiàn)快速的遷移。3.2.2面向異構(gòu)融合的操作系統(tǒng)元異構(gòu)硬件管理和使用的復(fù)雜性?；谝陨蠁?wèn)題，操作系統(tǒng)需要在多方面進(jìn)行優(yōu)化。首先，操作系統(tǒng)需要能夠?qū)Ξ悩?gòu)設(shè)備進(jìn)行抽象，將不同的異構(gòu)設(shè)備抽象成標(biāo)準(zhǔn)的Linux設(shè)備供程用程序性能；最后，操作系統(tǒng)需要對(duì)異構(gòu)設(shè)備的調(diào)度使用進(jìn)行優(yōu)化，充分發(fā)揮異構(gòu)設(shè)備的操作系統(tǒng)提供了標(biāo)準(zhǔn)的設(shè)備驅(qū)動(dòng)程序接口，包括字符設(shè)備、塊設(shè)備、網(wǎng)絡(luò)設(shè)備等，異構(gòu)設(shè)備可以通過(guò)編寫標(biāo)準(zhǔn)的設(shè)備驅(qū)動(dòng)程序與操作系統(tǒng)進(jìn)行交互，從而實(shí)現(xiàn)異構(gòu)設(shè)備的統(tǒng)一異構(gòu)設(shè)備的管理流程包括：1）硬件檢測(cè)，系統(tǒng)啟動(dòng)時(shí)檢測(cè)接入的異構(gòu)設(shè)備，如GPU/DPU/FPGA等，系統(tǒng)創(chuàng)建對(duì)應(yīng)的device。2）驅(qū)動(dòng)程序裝載，操作系統(tǒng)檢測(cè)到異構(gòu)設(shè)備時(shí)，會(huì)嘗試加載對(duì)應(yīng)的驅(qū)動(dòng)程序進(jìn)行異構(gòu)設(shè)備的初始化、資源的分配、中斷的注冊(cè)等，程序可以通過(guò)相應(yīng)的設(shè)備節(jié)點(diǎn)訪問(wèn)異構(gòu)設(shè)備，比如通過(guò)標(biāo)準(zhǔn)的open/read/write系統(tǒng)調(diào)用對(duì)為了充分利用多種硬件架構(gòu)的性能優(yōu)勢(shì)，開發(fā)人員需要為不同的硬件平臺(tái)編寫不同的代碼，這對(duì)開發(fā)人員來(lái)說(shuō)是一個(gè)挑戰(zhàn)，同時(shí)也限制了應(yīng)用程序的可移植性，所以需要提供一個(gè)統(tǒng)一的編程模型和一套工具，使開發(fā)人員可以使用一種語(yǔ)言和一組庫(kù)來(lái)開發(fā)可以在不實(shí)現(xiàn)統(tǒng)一編程模型的關(guān)鍵是提供一種跨多種硬件架構(gòu)的高性能并行計(jì)算編程語(yǔ)言。這種語(yǔ)言能夠支持統(tǒng)一編寫可以在各種硬件架構(gòu)上執(zhí)行的代碼，還應(yīng)提供一組性能庫(kù)，覆蓋高效的數(shù)學(xué)、數(shù)據(jù)分析和圖形處理等常見的高性能計(jì)算場(chǎng)景，從而能夠針對(duì)特定的硬件架除了編程語(yǔ)言和性能庫(kù)，統(tǒng)一編程模型還應(yīng)提供一組性能工具優(yōu)化器，幫助開發(fā)人員找到應(yīng)用程序的性能瓶頸并提供優(yōu)化建議，從而提升應(yīng)用程序虛擬機(jī)、容器、安全容器、裸金屬服務(wù)器等更多粒度基于云計(jì)算的算力抽象方法，以滿足用戶多樣化的資源需求和業(yè)務(wù)訴求。通過(guò)虛擬機(jī)承載穩(wěn)態(tài)業(yè)務(wù)，搭配更加靈活敏捷的容器和安全容器承載敏態(tài)業(yè)務(wù)，并基于云物理機(jī)提供更高性能的計(jì)算能力的首選，與此同時(shí)對(duì)云操作系統(tǒng)提出了可變粒度資源統(tǒng)一池化、統(tǒng)一管理及形態(tài)互轉(zhuǎn)的要求?？勺兞６鹊馁Y源池化需要解決多種粒度的算力抽象在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源的割裂問(wèn)題，構(gòu)建統(tǒng)一的底層資源池，進(jìn)行統(tǒng)一的池化管理。在此基礎(chǔ)上，通過(guò)云操作系統(tǒng)提供數(shù)據(jù)互通的能力。更進(jìn)一步的，實(shí)現(xiàn)資源之間的形態(tài)互轉(zhuǎn)，以滿足用戶希望的隨業(yè)務(wù)變化而改變業(yè)務(wù)承載實(shí)體的靈活需求可變粒度的資源管理能夠提升資源調(diào)度的靈活性、業(yè)務(wù)敏理各個(gè)進(jìn)程之間的執(zhí)行。由于目前調(diào)度策略不能滿足所有調(diào)度器。這種做法可以有效解決升級(jí)內(nèi)核成本較高、調(diào)度優(yōu)化無(wú)法快速規(guī)?；渴鸬膯?wèn)題。模塊中將不同內(nèi)存介質(zhì)劃分到不同的NUMAnode，然后將同類型的NUMAnode劃分到同提升容器部署密度的同時(shí)又不影響業(yè)務(wù)運(yùn)行是重點(diǎn)研究的方向。目前資源隔離技術(shù)主源優(yōu)先訪問(wèn)。為了解決這些問(wèn)題可以采用多種①基于GroupIdentity技術(shù)，提升高優(yōu)先級(jí)組的及②基于處理器的硬件資源管理技術(shù)，實(shí)現(xiàn)CPUcache和內(nèi)存帶寬③memcg內(nèi)存回收優(yōu)化，避免應(yīng)用自身陷入直接內(nèi)存回收，適用于對(duì)時(shí)延敏感的容3.2.3面向異構(gòu)融合的編程框架異構(gòu)融合計(jì)算在計(jì)算機(jī)領(lǐng)域的應(yīng)用將逐步擴(kuò)大，隨著各種新型硬件的出現(xiàn)和異構(gòu)計(jì)算框架的不斷完善，異構(gòu)計(jì)算編程有望成為計(jì)算發(fā)展的重要趨勢(shì)。特別地，在AI領(lǐng)域、HPC科學(xué)計(jì)算領(lǐng)域方面，對(duì)于異構(gòu)和異構(gòu)融合的需求是極為迫切的。軟件的編程框架決定了其適應(yīng)性，從底層標(biāo)準(zhǔn)到上層接口套件，目前已有多種異構(gòu)并行編程框架。特定于底層硬件設(shè)備的標(biāo)準(zhǔn)和框架允許開發(fā)者直接針對(duì)特定硬件設(shè)備進(jìn)行編程，包括全棧異構(gòu)框架聚焦于開發(fā)適用于多平臺(tái)的編程框架，包含硬件抽象、編程語(yǔ)言、庫(kù)和在未來(lái)，異構(gòu)融合編程框架的發(fā)展在統(tǒng)一性、易用性和廣泛性上還有大幅發(fā)展空間，也就是1）統(tǒng)一編程模型，以簡(jiǎn)化異構(gòu)編程2）向更高級(jí)別的抽象發(fā)展，以降低并行編程的復(fù)雜性3）逐步擴(kuò)大支持的硬件范圍等。近年來(lái)，隨著人工智能技術(shù)的飛速發(fā)展，各種深度學(xué)習(xí)框架如雨后春筍般涌現(xiàn)出來(lái)。提供高效的推理服務(wù)。雖然上述框架對(duì)主流的模型類型都有支持，但在硬件支持方面，僅這些不被支持的異構(gòu)芯片面臨極大挑戰(zhàn)。深度學(xué)習(xí)框架和推理Server框便是機(jī)器學(xué)習(xí)模型的優(yōu)化技術(shù)。對(duì)于同構(gòu)編程框架，一般的優(yōu)化技術(shù)包括編譯加速、循環(huán)優(yōu)化和指令優(yōu)化、內(nèi)存優(yōu)化、低比特量化、模型壓縮、多線程優(yōu)化等。這些對(duì)異構(gòu)編程的第一是對(duì)于底層異構(gòu)算力的支持。上述編程框架除了支持典型本身的發(fā)展推廣和新興異構(gòu)處理器的推廣都具有積極的作用。在這方面，已有的一些解決），芯片的代碼生成器生成代碼。這種方法主要用于推理任務(wù)，并且通常需要編寫適配新異構(gòu)都是通用的編程框架。國(guó)產(chǎn)的PaddlePaddle等已經(jīng)考慮了對(duì)包含高維稀疏離散異構(gòu)數(shù)據(jù)的處理。在企業(yè)的實(shí)際應(yīng)用中，可能還存在別的場(chǎng)景。針對(duì)這些場(chǎng)景的擴(kuò)展和優(yōu)化等可以進(jìn)除了注重深度學(xué)習(xí)優(yōu)化、強(qiáng)化學(xué)習(xí)支持、靈活和輕量部署，未來(lái)的異構(gòu)編程框架可能會(huì)向著自適應(yīng)計(jì)算發(fā)展，即在運(yùn)行時(shí)根據(jù)輸入數(shù)據(jù)的特征和任務(wù)需求，動(dòng)態(tài)地選擇最佳的理器集群，來(lái)處理大規(guī)模計(jì)算、求解復(fù)雜問(wèn)題的技術(shù)，對(duì)并行和分布式計(jì)算、大數(shù)據(jù)處理HPC在科研和工程中的許多方面都有廣泛應(yīng)用，例如基因測(cè)序、天氣預(yù)報(bào)、分子動(dòng)力、工程仿真、天文數(shù)據(jù)處理、粒子運(yùn)動(dòng)求解等。隨著高性統(tǒng)方式難以實(shí)現(xiàn)性能突破，異構(gòu)融合的方式逐漸成為流方式之一，勢(shì)必對(duì)異構(gòu)并行編程框架需求更高。那么更加靈活和可編程的加速器以及更也在發(fā)生變化，從而在各個(gè)層次面向異構(gòu)實(shí)現(xiàn)。典型的轉(zhuǎn)變主要體現(xiàn)在兩個(gè)方面，第一是化和異構(gòu)設(shè)計(jì)需求的出現(xiàn)，很多原先使用Fortran算等復(fù)雜計(jì)算領(lǐng)域中，這背后往往是對(duì)指數(shù)級(jí)計(jì)算量需求的不斷增加。隨著網(wǎng)格稠密程度增加、模擬尺度增加，計(jì)算量呈現(xiàn)出了指數(shù)型增長(zhǎng)，促使多學(xué)科模擬等正在嘗試和建立異面對(duì)的是復(fù)雜的，涉及大氣、陸地等多模塊的大規(guī)模數(shù)據(jù)和復(fù)雜物理過(guò)程。在版本迭代發(fā)將趨向于支持更多不同類型的加速器，因此未來(lái)也將注重高級(jí)別的抽象和編程模型。此外，可能會(huì)更加智能化，具備自動(dòng)優(yōu)化和并行化的能力。這將會(huì)推動(dòng)更大規(guī)模的數(shù)據(jù)處理和提3.3系統(tǒng)層面融合技術(shù)探索系統(tǒng)層面的融合計(jì)算技術(shù)探索，主要討論大規(guī)模數(shù)據(jù)中心級(jí)的融合技術(shù)3.3.1數(shù)據(jù)中心融合隨著新型應(yīng)用的加速演變，數(shù)據(jù)中心正轉(zhuǎn)向從單一規(guī)模擴(kuò)展到復(fù)雜架構(gòu)融合。轉(zhuǎn)變之是一個(gè)邏輯上的單一的“大應(yīng)用”，是數(shù)據(jù)中心級(jí)別的業(yè)務(wù)系統(tǒng)；因此硬件重構(gòu)需按照“數(shù)據(jù)中心即計(jì)算機(jī)”的理念來(lái)實(shí)踐。以系統(tǒng)設(shè)計(jì)為中心的原則，需要我們重新思考如何構(gòu)建和部署數(shù)據(jù)中心資源。它意味著要超越硬件和軟件的傳統(tǒng)界限，考慮整個(gè)數(shù)據(jù)中心作為一個(gè)協(xié)同工作的系統(tǒng)。例如，對(duì)棧如何相互作用以提高效率。按照業(yè)務(wù)需求來(lái)設(shè)計(jì)包括如下部分：1）針對(duì)性優(yōu)化：傳統(tǒng)的芯片設(shè)計(jì)通常是通用的，不考慮其在特定應(yīng)用場(chǎng)景中的性能。而針對(duì)特定業(yè)務(wù)需求的系統(tǒng)用率：傳統(tǒng)的通用設(shè)計(jì)導(dǎo)致資源在某些應(yīng)用場(chǎng)景中被浪費(fèi)。而按需設(shè)計(jì)可以確保資源在特結(jié)構(gòu)和組件交互關(guān)系，但打破軟硬件界限，通過(guò)系統(tǒng)級(jí)的協(xié)同設(shè)計(jì)，實(shí)現(xiàn)更高效、更靈活出發(fā)，專門針對(duì)深度學(xué)習(xí)的特征進(jìn)行了系統(tǒng)設(shè)計(jì)。在芯片層面，通過(guò)定制高密度的8比特以滿足深度學(xué)習(xí)應(yīng)用的延遲需求。如下圖，主要的計(jì)算部分是右上角的黃色矩陣乘法單元（MatrixMultiplyUnit其輸入為藍(lán)色的權(quán)重（UnifiedBuffer），輸出是藍(lán)色的累加器（Accumulators）；黃色的激活（Activation）單元對(duì)累加器（Accumulators）執(zhí)行非線性函數(shù)，這些函數(shù)傳輸至緩沖器（UnifiedBuffer）。TPU的硬件設(shè)計(jì)都緊緊圍繞數(shù)據(jù)中心的業(yè)務(wù)需求進(jìn)行了系統(tǒng)設(shè)計(jì)，在矩陣乘法運(yùn)算單元方面實(shí)現(xiàn)了高密度低位寬的設(shè)計(jì)，大幅提升了吞吐量;在存儲(chǔ)系統(tǒng)方面采用了大容量片上推動(dòng)了數(shù)據(jù)中心從規(guī)模擴(kuò)展到架構(gòu)融合的轉(zhuǎn)變，異構(gòu)計(jì)算的快速發(fā)展，不僅反映了算力資源的多樣性，還驅(qū)動(dòng)著處理器技術(shù)的不斷演進(jìn)和創(chuàng)新。異構(gòu)計(jì)算的融合趨勢(shì)，降低了超算中心、數(shù)據(jù)中心和智算中心間的算力服務(wù)邊界，各類型算力中心利用相似的異構(gòu)引擎和分布式計(jì)算架構(gòu)，實(shí)現(xiàn)更靈活地跨越應(yīng)用算力架構(gòu)的本質(zhì)在于硬件重構(gòu)與軟件定義。其核心技術(shù)包括物理層面的“解耦、集中、智能調(diào)ISCA2017，In-DatacenterPerformance動(dòng)的資源動(dòng)態(tài)分配。融合架構(gòu)可以按照軟硬件協(xié)同的方式，分三個(gè)階段逐步發(fā)展，如下圖：進(jìn)行計(jì)算和存儲(chǔ)等資源的池化和集中管理，其典型代表為整機(jī)柜服務(wù)器。融合架構(gòu)1.0相樣可以池化和任意分配，形成各種規(guī)模和配置的計(jì)算資源。同時(shí)，配合應(yīng)用感知的資源分圖，將硬件資源清晰地組織成不同的功能區(qū)，功能區(qū)在軟件定義的控制下形成不同的資源最佳的運(yùn)行環(huán)境，讓應(yīng)用軟件與運(yùn)行環(huán)境之間的契合程度達(dá)到一個(gè)前所未有的水平。這種創(chuàng)新的體系結(jié)構(gòu)，能夠?qū)崿F(xiàn)異構(gòu)資源的高效融合，這一階段被視為“數(shù)據(jù)中心即計(jì)算），通過(guò)軟件定義實(shí)現(xiàn)遠(yuǎn)端內(nèi)存多主機(jī)共享與靈活調(diào)配。網(wǎng)絡(luò)可采用非阻塞的多級(jí)CLOS拓?fù)湟詰?yīng)用先進(jìn)的光互連技術(shù)，實(shí)現(xiàn)機(jī)柜間乃至數(shù)據(jù)中心級(jí)別的資源互聯(lián)，鏈路傳輸距離可達(dá)本在服務(wù)器內(nèi)部的互連總線需要在機(jī)柜內(nèi)甚至機(jī)柜間的外部連接；隨著數(shù)據(jù)速率的升和系統(tǒng)鏈路變得更加復(fù)雜，互連鏈路延展已經(jīng)接因此，需要應(yīng)用實(shí)驗(yàn)設(shè)計(jì)法和響應(yīng)曲面統(tǒng)計(jì)法等仿真方法論，對(duì)復(fù)雜鏈路高速互連進(jìn)行高精度的擬合仿真研究，充分考慮多變量及造工藝、溫度等因素），準(zhǔn)確分析解耦池化系統(tǒng)多樣化拓?fù)浜蛡鬏斔俾实幕ミB鏈路風(fēng)險(xiǎn)與（3）運(yùn)用新型供電與散熱技術(shù)(如直流供電、液冷），提升計(jì)算密度與系統(tǒng)能效。例提升服務(wù)器功率密度，并保證冷卻液零泄漏。優(yōu)化散熱系統(tǒng)流阻，提升傳熱系數(shù)，降低PUE值。這些技術(shù)可以有效提高計(jì)算密綜上所述，數(shù)據(jù)中心級(jí)融合架構(gòu)通過(guò)在互聯(lián)、調(diào)度、軟件和基礎(chǔ)設(shè)施等多個(gè)層面進(jìn)行基礎(chǔ)設(shè)施的靈活性和使用效率。這是未來(lái)數(shù)據(jù)中心發(fā)展的重要另外，數(shù)據(jù)中心級(jí)融合架構(gòu)在支持業(yè)務(wù)敏捷性方面也具有發(fā)展?jié)摿ΑＮ磥?lái)有望通過(guò)應(yīng)用感知調(diào)度技術(shù)，實(shí)現(xiàn)業(yè)務(wù)類型的智能識(shí)別，然后自動(dòng)調(diào)配匹配的計(jì)算資源。這種技術(shù)手段包括:應(yīng)用特征抽取，通過(guò)分析應(yīng)用程序代碼、通信模式等自動(dòng)提取應(yīng)用特征;資源建模，成動(dòng)態(tài)資源調(diào)度方案。這種機(jī)制進(jìn)一步提高了數(shù)據(jù)中心資源利用率，也使得業(yè)務(wù)部署和擴(kuò)從戰(zhàn)略高度看，數(shù)據(jù)中心級(jí)融合架構(gòu)已經(jīng)逐步在云計(jì)算中心、智算中心等領(lǐng)域開始落地，在助力企業(yè)實(shí)現(xiàn)IT基礎(chǔ)設(shè)施數(shù)字化轉(zhuǎn)型，具有多方面優(yōu)勢(shì)。首先，它支撐云計(jì)算、AI等新業(yè)務(wù)在數(shù)據(jù)中心層面的彈性部署，使企業(yè)IT系統(tǒng)具備敏捷性。其次，它提升資源3.3.2新型計(jì)算模式融合測(cè)，量子計(jì)算有望在3~5年后實(shí)現(xiàn)一些小規(guī)模的實(shí)際應(yīng)用。這些先進(jìn)計(jì)算技術(shù)也面臨著如存算一體的計(jì)算架構(gòu)融合代表著計(jì)算領(lǐng)域的一項(xiàng)重要前沿技術(shù)，其潛在影響巨大。傳統(tǒng)的PIM方法將計(jì)算引入了存儲(chǔ)器中，實(shí)現(xiàn)了在的創(chuàng)新。例如，美國(guó)加州大學(xué)的謝源教授在JUMP項(xiàng)目中推動(dòng)一項(xiàng)名為“Intelligentmemoryandstorage”的研究任務(wù)，探索如何在存儲(chǔ)器內(nèi)部實(shí)現(xiàn)智能計(jì)算。三星電子在業(yè)內(nèi)率先將存算一體化（PIM）融合集成到高帶寬內(nèi)存（HBM）的進(jìn)一步計(jì)算架構(gòu)融合方案，（PCU）將性能提高4倍，同時(shí)降低能耗高達(dá)70%。AMD將這合，在其InstinctMI100GPU計(jì)算加速卡中搭載了三星HBM存算一體技術(shù)領(lǐng)域取得了顯著的進(jìn)展，推出了基于SRAM的存算一體芯片，如“摩鴻途的典型功耗。與量子計(jì)算的架構(gòu)融合是另一個(gè)關(guān)鍵方向。與傳統(tǒng)計(jì)算機(jī)相比，量子計(jì)算機(jī)具有天然的量子并行計(jì)算能力，已被證明在若干場(chǎng)景上具有相對(duì)于傳統(tǒng)計(jì)算的極大優(yōu)勢(shì)。全球有超過(guò)20家公司正在開展量子計(jì)算相關(guān)的研究。其中，在分布式超導(dǎo)量子計(jì)算方面，2019科學(xué)技術(shù)大學(xué)研究團(tuán)隊(duì)推出了包含66個(gè)比特的“祖沖之號(hào)”超導(dǎo)量子處理器；2021年40比特量子芯片。在光學(xué)量子計(jì)算方面，美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院、代爾夫特大學(xué)、中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所等機(jī)構(gòu)可以生產(chǎn)兼具高探測(cè)效率（>90%）、高重復(fù)頻率（>150MHz）的超導(dǎo)納米線單光子探測(cè)器，光學(xué)量子計(jì)算的基本操作（如概率性的控制邏輯門）、各種量子算法的簡(jiǎn)單演示驗(yàn)證均已實(shí)現(xiàn)。中國(guó)科學(xué)技術(shù)大學(xué)研究團(tuán)隊(duì)構(gòu)建了光量子計(jì)算原型機(jī)“九章”及其升級(jí)版“九章2.0”，據(jù)此實(shí)現(xiàn)了量子優(yōu)越性這一4異構(gòu)融合計(jì)算發(fā)展趨勢(shì)NVIDIA市值超過(guò)了萬(wàn)億美金。從同構(gòu)走向異構(gòu)，再進(jìn)一步走向異構(gòu)融合，是計(jì)算架構(gòu)從簡(jiǎn)單到復(fù)雜的必然演進(jìn)趨勢(shì)。異構(gòu)融合計(jì)算方向的早期探索中，國(guó)際巨頭Intel、NVIDIA4.1通用性與高性能統(tǒng)一計(jì)算架構(gòu)一直存在通用和專用的矛盾，即系統(tǒng)越復(fù)雜，計(jì)算模式越發(fā)展快速，越需要通用性較強(qiáng)的靈活計(jì)算平臺(tái)；但系統(tǒng)算力需求越來(lái)越高，就需要盡可能把業(yè)務(wù)邏輯固化成硬件加速電路，也就越需要專用性高的定制計(jì)算平臺(tái)。解決這個(gè)矛盾的思路是：為不型的系統(tǒng)內(nèi)計(jì)算工作任務(wù)，匹配最合適的計(jì)算處理器類型，同時(shí)不同的計(jì)算處理器組整的通用性較強(qiáng)的整體系統(tǒng)。通俗的講，就是通過(guò)工作任務(wù)專業(yè)分工，實(shí)現(xiàn)系統(tǒng)整體圖4-1根據(jù)靈活性特征的系統(tǒng)工作任務(wù)分類系統(tǒng)可以看作是多項(xiàng)工作任務(wù)的組合，這些工作任務(wù)雖然各有特點(diǎn)，但整體上具備“二八定律”的特點(diǎn)，即不同系統(tǒng)中大約80%的工作任務(wù)是相似甚至相同的。針對(duì)任務(wù)的針對(duì)不同任務(wù)的靈活性/性能特征，把任務(wù)劃分到這三個(gè)層次，然后采取各自特征能力4.2計(jì)算架構(gòu)走向收斂圖4-2根據(jù)指令復(fù)雜度的典型處理器類型劃分型、不同領(lǐng)域、不同場(chǎng)景、不同廠家、不同架構(gòu)的處理器，如果不加以約束，會(huì)導(dǎo)致處理異構(gòu)融合計(jì)算，會(huì)面臨多種處理器類型和架構(gòu)；并且，隨著云網(wǎng)邊端逐漸走向融合，4.3編程復(fù)雜度降低要想推動(dòng)異構(gòu)融合計(jì)算的編程適配，核心的思路跟異構(gòu)計(jì)算架構(gòu)一致，就是要簡(jiǎn)化異全跟不上軟件的更新節(jié)奏。需要更進(jìn)一步的系統(tǒng)架構(gòu)創(chuàng)新，把傳統(tǒng)的軟件層面的能力（如4.4基礎(chǔ)組件優(yōu)化常規(guī)的系統(tǒng)棧是分層的，即系統(tǒng)的多個(gè)基礎(chǔ)組件組成單個(gè)系統(tǒng)層，多個(gè)系統(tǒng)層成系統(tǒng)棧。異構(gòu)融合計(jì)算的軟硬件系統(tǒng)棧，是在縱向的單個(gè)異構(gòu)軟硬件系統(tǒng)棧的基礎(chǔ)上，進(jìn)行的橫向整合和優(yōu)化。單個(gè)縱向的異構(gòu)計(jì)算軟硬件系統(tǒng)棧性能，決定了異構(gòu)融合系統(tǒng)最應(yīng)用層框架層系統(tǒng)層硬件層圖4-3系統(tǒng)棧分層示意圖以人工智能領(lǐng)域?yàn)槔?。隨著人工智能技術(shù)的快速發(fā)展，基于自研芯片算力服務(wù)平臺(tái)進(jìn)行訓(xùn)練已經(jīng)成為趨勢(shì)。然而，這種訓(xùn)練方式不可避免地會(huì)帶來(lái)更多的移植與調(diào)優(yōu)工作。在這個(gè)過(guò)程中，除了在集群、并行策略、算子和工具包等方面的優(yōu)化外，還需要完成包括DeepSpeed/Megatron/Colossal-AI/a程序系統(tǒng)調(diào)度也需要進(jìn)行調(diào)整，包括操作系統(tǒng)配置和網(wǎng)絡(luò)協(xié)議參數(shù)等。其中訓(xùn)練的優(yōu)化工作主要包含以下三個(gè)方面：能，提升硬件使用率。通過(guò)這種方式，可以更有效地利用硬件多級(jí)并行策略，實(shí)現(xiàn)超大規(guī)模訓(xùn)練。這樣不僅可以提高訓(xùn)練速度，還可以擴(kuò)大模型的規(guī)模，組配比等進(jìn)行定制優(yōu)化，提升訓(xùn)練擴(kuò)展比。這樣可以進(jìn)一步提高訓(xùn)練效率，擴(kuò)大訓(xùn)練規(guī)模。在針對(duì)每一個(gè)縱向的單個(gè)異構(gòu)系統(tǒng)全棧優(yōu)化的基礎(chǔ)上，進(jìn)一步對(duì)橫向的整個(gè)異構(gòu)融合系統(tǒng)進(jìn)行全棧協(xié)同優(yōu)化。異構(gòu)融合全棧協(xié)同優(yōu)化將幫助我們更好地利用硬件資源，提高系5異構(gòu)融合計(jì)算發(fā)展建議異構(gòu)融合計(jì)算是未來(lái)計(jì)算領(lǐng)域的重要趨勢(shì)，它將不同架構(gòu)、硬件和技術(shù)融合在一起，以實(shí)現(xiàn)更高性能、更低能耗和更廣泛應(yīng)用的計(jì)算。為了推動(dòng)異構(gòu)融合計(jì)算的發(fā)展，以下是5.1加強(qiáng)政策引導(dǎo)，布局重點(diǎn)項(xiàng)目建設(shè)稅收優(yōu)惠、人才引進(jìn)等舉措。此外，應(yīng)該加強(qiáng)對(duì)異構(gòu)融合計(jì)算領(lǐng)域的專業(yè)人才培養(yǎng)和支持，包括設(shè)立相關(guān)課程、提供創(chuàng)業(yè)支持、建立培訓(xùn)和獎(jiǎng)勵(lì)機(jī)制，培養(yǎng)具備交叉學(xué)科背景的復(fù)合同時(shí)，積極推動(dòng)產(chǎn)業(yè)合作，鼓勵(lì)企業(yè)、高校和科研機(jī)構(gòu)建立“異構(gòu)融合計(jì)算產(chǎn)業(yè)聯(lián)盟”。通過(guò)組織技術(shù)論壇、舉辦創(chuàng)新賽事等方式，加強(qiáng)異構(gòu)融合計(jì)算技術(shù)的市場(chǎng)推廣和宣傳，以吸引更多開發(fā)者參與該領(lǐng)域的研發(fā)和應(yīng)用。此外，還應(yīng)引導(dǎo)國(guó)家基金與社會(huì)資本有明確定義異構(gòu)融合計(jì)算領(lǐng)域的發(fā)展目標(biāo)，制定中長(zhǎng)期技術(shù)攻關(guān)研究規(guī)劃，為技術(shù)研發(fā)和應(yīng)用提供明確的指導(dǎo)方向。重點(diǎn)涵蓋通用大芯片、普適互聯(lián)操作系統(tǒng)、高性能數(shù)學(xué)庫(kù)、卓越性能圖形庫(kù)、異構(gòu)統(tǒng)一編程框架、異構(gòu)任務(wù)調(diào)度軟件、下一代存儲(chǔ)技術(shù)、以及下一代網(wǎng)絡(luò)通信協(xié)議等關(guān)鍵研發(fā)項(xiàng)目。并在實(shí)際中落地這些項(xiàng)目，包括建設(shè)智算中心、超算中心等新型基礎(chǔ)設(shè)施，特別關(guān)注支持具備競(jìng)爭(zhēng)優(yōu)勢(shì)的項(xiàng)目，積極推動(dòng)產(chǎn)業(yè)、學(xué)術(shù)界和研究機(jī)構(gòu)5.2構(gòu)建標(biāo)準(zhǔn)體系，強(qiáng)化融合技術(shù)牽引建立異構(gòu)融合計(jì)算的標(biāo)準(zhǔn)組織，制定相關(guān)標(biāo)準(zhǔn)和規(guī)范，引導(dǎo)企業(yè)和研究機(jī)構(gòu)關(guān)注前沿為核心理念的基礎(chǔ)上，依托“異構(gòu)融合計(jì)算產(chǎn)業(yè)聯(lián)盟”和其他平臺(tái)組織，與算力生態(tài)的上下游標(biāo)準(zhǔn)化組織共同制定硬件、軟件以及軟硬件層面的異構(gòu)融合計(jì)算技術(shù)標(biāo)準(zhǔn)規(guī)范，覆蓋指令集架構(gòu)、產(chǎn)品參數(shù)規(guī)格、通信協(xié)議、數(shù)據(jù)交換、系統(tǒng)架構(gòu)、交互接口、外觀形態(tài)、服建立適用于異構(gòu)融合計(jì)算的標(biāo)準(zhǔn)體系，積極與國(guó)際標(biāo)準(zhǔn)化組織合作，特別在NOC技術(shù)、SiP技術(shù)、融合架構(gòu)技術(shù)、統(tǒng)一編程框架等領(lǐng)域，促進(jìn)異構(gòu)融合計(jì)算技術(shù)的規(guī)范化和普及，以避免碎片化研究和低質(zhì)量的重復(fù)工作。我們鼓勵(lì)開放的發(fā)展模式，推動(dòng)計(jì)算產(chǎn)業(yè)鏈中各環(huán)節(jié)主體的協(xié)同參與，促進(jìn)標(biāo)準(zhǔn)與科技的互動(dòng)和協(xié)調(diào)，以促進(jìn)標(biāo)準(zhǔn)體系建設(shè)的開源5.3聚焦關(guān)鍵技術(shù)，推動(dòng)計(jì)算技術(shù)創(chuàng)新包括微架構(gòu)設(shè)計(jì)（例如指令集、邏輯單元、邏輯單元布局、流水線、分支預(yù)測(cè)、緩存設(shè)計(jì)、內(nèi)存管理等）、芯片封裝、內(nèi)核與線程設(shè)計(jì)（包括多核心、超線程、并發(fā)管理等）、低功耗設(shè)計(jì)（例如節(jié)能模式、動(dòng)態(tài)頻率調(diào)整等）、安全性與可靠性（如加密技術(shù)、錯(cuò)誤檢測(cè)與糾正等）、芯片調(diào)試與性能優(yōu)化以及制造工藝等方面的投入。加速通用大芯片的設(shè)計(jì)進(jìn)程，實(shí)現(xiàn)不同類型計(jì)算單元的協(xié)同設(shè)計(jì)，研究最佳任務(wù)映射和調(diào)度策略，以提升芯片性能和能務(wù)能力（包括資源管理、并行計(jì)算、交叉編譯、異構(gòu)兼容等）。同時(shí)，開發(fā)統(tǒng)一的編程模型和語(yǔ)言，設(shè)計(jì)領(lǐng)域特定語(yǔ)言，突破多層次編譯優(yōu)化技術(shù)，開發(fā)輕量級(jí)運(yùn)行時(shí)調(diào)度系統(tǒng)，研究高效的資源管理和調(diào)度技術(shù)，實(shí)現(xiàn)統(tǒng)一的系統(tǒng)管理和監(jiān)控工具以實(shí)現(xiàn)動(dòng)態(tài)的任務(wù)調(diào)度和資源管理，以實(shí)現(xiàn)不同計(jì)算單元之間的最優(yōu)任務(wù)分配和資源共享，從而提高系統(tǒng)的探索新的系統(tǒng)集成和驗(yàn)證技術(shù)，開發(fā)系統(tǒng)集成和驗(yàn)證工具，以確保不同計(jì)算單元之間的有效集成和驗(yàn)證，保證系統(tǒng)的穩(wěn)定性和可靠性。通過(guò)電路級(jí)優(yōu)化、算法級(jí)優(yōu)化、系統(tǒng)級(jí)優(yōu)化等多種手段，提高異構(gòu)計(jì)算系統(tǒng)的能效和性能，將異構(gòu)融合計(jì)算技術(shù)應(yīng)用到實(shí)際場(chǎng)景中，通過(guò)實(shí)踐驗(yàn)證技術(shù)的可行性和有效性，推動(dòng)技術(shù)的推廣和應(yīng)5.4加速產(chǎn)業(yè)變革，促進(jìn)新型技術(shù)應(yīng)用物計(jì)算等，推動(dòng)包括更高性能的融合芯片、更高效的算法、更優(yōu)化的編譯器、更快速的內(nèi)存/網(wǎng)絡(luò)訪問(wèn)等異構(gòu)計(jì)算技術(shù)的研發(fā)和創(chuàng)新，以滿足未來(lái)計(jì)算需求的增長(zhǎng)。將異構(gòu)融合計(jì)算技術(shù)應(yīng)用到具體的行業(yè)和領(lǐng)域，如自動(dòng)駕駛、人工智能、元宇宙等，通過(guò)實(shí)際應(yīng)用來(lái)推動(dòng)技術(shù)的進(jìn)步，促進(jìn)產(chǎn)業(yè)鏈上下游企業(yè)的合作，建立健全的產(chǎn)業(yè)生態(tài)系統(tǒng)，推動(dòng)多產(chǎn)業(yè)的變案，并進(jìn)行宣傳推廣，推動(dòng)異構(gòu)融合計(jì)算技術(shù)在這些領(lǐng)域的應(yīng)用和推廣，形成良好的應(yīng)用附錄異構(gòu)融合計(jì)算實(shí)踐案例1CPU+XPU技術(shù)融合案例硬件架構(gòu)的演變和基于XPU的軟件生態(tài)系統(tǒng)的發(fā)展代，相應(yīng)的軟件生態(tài)系統(tǒng)也進(jìn)行了跨平臺(tái)、開源聯(lián)盟等嘗試，主要應(yīng)用于工業(yè)自動(dòng)化、網(wǎng)將不同類型和功能的芯片部署在同一平臺(tái)上，采用先進(jìn)的封裝技術(shù)實(shí)現(xiàn)多節(jié)點(diǎn)部署，同時(shí)Intel目前在芯片和異構(gòu)融合方案上的重要成果是2023年推出的第四代至強(qiáng)可擴(kuò)展處理器。這款處理器增加了多種加速引擎，以提供AI、高性能計(jì)算、安全、網(wǎng)絡(luò)、數(shù)據(jù)分析Intel推出的oneAPI是一種基于CPU+XPU異oneAPI，開發(fā)者可以獲得一致的編程接口，覆蓋了庫(kù)、工具和解決方案等多個(gè)層面，實(shí)現(xiàn)了OpenVINO、AnalyticsZoo、BigDL等技術(shù)，從而實(shí)現(xiàn)應(yīng)用的跨平臺(tái)復(fù)用，降低軟件開為IPDK的社區(qū)驅(qū)動(dòng)的基礎(chǔ)設(shè)施層編程開發(fā)框架，提供了基礎(chǔ)設(shè)施應(yīng)用接口和目標(biāo)抽象接口，用于工作任務(wù)應(yīng)用和硬件能力供應(yīng)。此外，2022年，Intel聯(lián)合Linux基金會(huì)發(fā)起了OPI（開放可編程基礎(chǔ)設(shè)施項(xiàng)目），為IPU等下一代架構(gòu)和框架培養(yǎng)社區(qū)驅(qū)動(dòng)的開放生態(tài)下表總結(jié)了Intel在基礎(chǔ)設(shè)施和應(yīng)用加速上的全面推進(jìn)，并分12適應(yīng)全新的工作負(fù)載。沒有歷史包3IntelFPGA是全球第二大FPGA平456等，融合+重構(gòu)到超異構(gòu)計(jì)算7任務(wù)可運(yùn)行在云端、邊緣甚至終端，運(yùn)行在不同廠家的硬件8從完全可編程網(wǎng)絡(luò)，擴(kuò)展到完全可編9OneAPI(框架)、IPDK(框架)+OPI(開2GPU+DPU融合案例和垃圾郵件過(guò)濾等應(yīng)用卸載字符串搜索，同時(shí)還提供公鑰加密引擎、真隨機(jī)數(shù)發(fā)生器圖1BlueField系列產(chǎn)品圖DOCA對(duì)于DPU就像是CUDA對(duì)于GPU。為了使ISV、服務(wù)提庫(kù)文件、運(yùn)行時(shí)組件和服務(wù)組成的框架，建立在一套經(jīng)過(guò)驗(yàn)證的驅(qū)動(dòng)程序之上。其中的一絡(luò)數(shù)據(jù)包的實(shí)時(shí)GPU處理為例。在原來(lái)的處理過(guò)程中，CPU是協(xié)調(diào)人，也是主要瓶頸。它在同步NIC和GPU任務(wù)以及管理多個(gè)網(wǎng)絡(luò)隊(duì)列方面承擔(dān)了太多的責(zé)任。因?yàn)樗仨毷箞D2CPU協(xié)調(diào)原理圖以協(xié)調(diào)發(fā)送或接收網(wǎng)絡(luò)操作，CUDA內(nèi)核可以直接向GPU發(fā)送和接收數(shù)據(jù)包，而無(wú)需CPU核心或內(nèi)存。圖3GPU協(xié)調(diào)原理圖3CPU+DSA技術(shù)融合案例上海熠知電子科技有限公司（以下簡(jiǎn)稱“熠知電子”）定位高端計(jì)業(yè)務(wù)，并具備芯片架構(gòu)設(shè)計(jì)、前端邏輯設(shè)計(jì)、后端布圖設(shè)計(jì)、產(chǎn)品板級(jí)設(shè)計(jì)、驅(qū)動(dòng)集成構(gòu)融合的方式在單芯片內(nèi)集成了40核的ARMv8.2CPU（主頻2.5GHz~3.0GHz）、基于DSA架構(gòu)的自研NPU（40TOPS@INT8算力）、視頻編解TF7000系列選用了新型的MESH片上網(wǎng)絡(luò)（Network-on-Chip確保數(shù)據(jù)可以圖4MESH片上網(wǎng)絡(luò)架構(gòu)然有助于提示性能，但其價(jià)格昂貴且存在供應(yīng)鏈風(fēng)險(xiǎn)。TF7000系列的設(shè)計(jì)采用片上內(nèi)存NPU之間共享地址訪問(wèn)空間，這使得需要以便快速交接處理。使用這種存算一體和共享存儲(chǔ)空間的設(shè)計(jì)之后，基于普遍可以買到的圖5片上內(nèi)存SRAM架構(gòu)人工智能推理運(yùn)算的計(jì)算模式通常是可預(yù)測(cè)的，因此采用DSA芯片面積、更低的功耗、更高的運(yùn)行速度下面實(shí)現(xiàn)人工智能的圖6TF7000片內(nèi)局部圖圖7TF7000系列異構(gòu)處理器連接拓?fù)銫hiplet是目前行業(yè)內(nèi)實(shí)現(xiàn)芯片算圖8TF7000系列TF7000系統(tǒng)異構(gòu)處理器可廣泛應(yīng)用于電信、金融、作系統(tǒng)、云平臺(tái)、集中式數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)、中間件、大數(shù)據(jù)平臺(tái)、數(shù)據(jù)安全等軟件4DPU+云原生技術(shù)融合案例但大量sidercar容器的使用，不僅導(dǎo)致系統(tǒng)資源消耗較高，也讓容器網(wǎng)絡(luò)存在實(shí)現(xiàn)負(fù)載，圖9

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

異構(gòu)融合計(jì)算技術(shù)白皮書 2023

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

異構(gòu)融合計(jì)算技術(shù)白皮書 2023

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔