英偉達研究報告：從硬件GPU設計到軟件CUDA+ Omniverse開發(fā)

上傳人：y*** IP屬地：廣東上傳時間：2022-12-20 格式：DOCX 頁數(shù)：26 大?。?86.03KB 積分：48 舉報 版權申訴

英偉達研究報告：從硬件GPU設計到軟件CUDA+ Omniverse開發(fā)_第2頁

英偉達研究報告：從硬件GPU設計到軟件CUDA+ Omniverse開發(fā)_第3頁

英偉達研究報告：從硬件GPU設計到軟件CUDA+ Omniverse開發(fā)_第4頁

英偉達研究報告：從硬件GPU設計到軟件CUDA+ Omniverse開發(fā)_第5頁

已閱讀5頁，還剩21頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

英偉達研究報告：從硬件GPU設計到軟件CUDA+Omniverse開發(fā)1.公司歷史及業(yè)務簡介1.1.GPU簡介多核心的并行結構GPU比少核心串行結構的CPU更適合處理圖形圖像（矩陣結構）信息。CPU（CentralProcessingUnit，中央處理器）的功能主要是解釋計算機指令以及處理計算機軟件中的數(shù)據(jù)，是計算機的核心大腦，可以處理計算機遇到的所有指令。GPU（GraphicsProcessingUnit，圖形處理器）是圖形計算的重要元件，主要用來處理與與圖形圖像相關的數(shù)據(jù)，在高端PC中通常會有獨立GPU，以獲得更好的視覺體驗。他們二者的區(qū)別主要是，CPU通常有4個、8個或16個強力ALU核心（arithmeticlogicunit，算術邏輯單元），適合做復雜的通用串行任務；而GPU可能有數(shù)千個簡單ALU核心，適合做簡單特定的并行任務。我們通過以下的例子來說明CPU和GPU的差異：CPU就像一個大學生，可以進行微積分等復雜計算，但若要在短時間內(nèi)完成幾萬道加減算數(shù)問題，也是很難辦得到的；而GPU就像幾百個小學生，雖然都不會微積分等復雜計算的能力，但人數(shù)多，可以在很短時間內(nèi)完成幾萬道加減算數(shù)問題。也有例子把CPU比作跑車，GPU比作大卡車，對于將少量貨物從A運到B來說，是作為跑車的CPU更快；但如果貨物非常多，那么作為跑車的CPU需要往返的次數(shù)遠遠多于作為貨車的GPU，作為貨車的GPU雖然完成一次任務較慢，但是可以攜帶更多的貨物，其效率會高于CPU?？偠灾瑢τ趶碗s的單個計算任務來說，CPU的執(zhí)行效率更高，通用性更強；而對于圖形圖像這種矩陣式多像素點的簡單計算，更適合用GPU來處理，但通用性較弱。GPU按接入方式分為獨立GPU和集成GPU；按照應用端劃分為移動GPU、服務器GPU和PCGPU。GPU是圖形處理單元，在PC（個人電腦）早期，圖形數(shù)據(jù)較為簡單，主要都是由CPU來進行圖形處理。隨著圖形顯示規(guī)模的增加，CPU已經(jīng)很難分出更多精力來處理圖形信息，而且CPU的架構決定了其處理圖形信息的效率是偏低的，因此逐漸發(fā)展出了專門處理圖形信息的GPU。英偉達專做GPU，開發(fā)了獨立于CPU的GPU；英特爾作為CPU的霸主，開發(fā)了寄生于CPU芯片上的GPU單元，被稱為集成GPU。通常來講，獨立GPU的性能都要優(yōu)于集成GPU，在對圖形實時處理要求不高的日常辦公領域，使用普通的集成GPU即可；在對圖形實時處理能力要求很高的游戲及設計領域，一般都需要使用獨立GPU。隨著移動設備的發(fā)展，GPU也從PC端擴展到了移動端，高通驍龍以及蘋果的A系列芯片都開發(fā)了相應的GPU芯片模塊。隨著AI以及云計算的興起，具有并行計算架構的GPU具有更高的效率，這也使得GPU被應用到AI及云計算等數(shù)據(jù)處理之中。這是一個全新的領域，擁有巨大的成長空間。值得一提的是，市場上還存在著比GPU專用程度更高的芯片，包括FPGA（Fieldprogrammablegatearray，可編程邏輯陣列）和針對某一類AI計算的ASIC（Applicationspecificintegratedcircuit，特定場景芯片），包括谷歌推出的TPU（張量計算單元）和特斯拉推出的NPU（神經(jīng)網(wǎng)絡計算單元），雖然在某些特定計算上效率更高，但目前這些芯片的使用場景比較單一，市場規(guī)模還較小。1.2.

英偉達發(fā)展歷史英偉達（NVIDIA）是一家以GPU（GraphicsProcessUnit，圖形處理單元）芯片設計起家的人工智能計算公司。公司創(chuàng)立于1993年，總部位于美國加利福尼亞州圣克拉拉市。美籍華人JensenHuang（黃仁勛）是創(chuàng)始人兼CEO。1999年，NVIDIA定義了GPU，GPU的出現(xiàn)被業(yè)界視為現(xiàn)代計算機圖形技術的開端。英偉達于1999年1月在納斯達克掛牌上市，在2000年它收購了曾經(jīng)在90年代稱霸圖形顯示市場的3dfx公司的知識產(chǎn)權，逐漸占據(jù)圖形顯示市場的優(yōu)勢地位。到2021年為止，在消費PC領域，能夠量產(chǎn)GPU的公司只有英偉達、AMD和英特爾，其中英特爾主要是以集成GPU為主，AMD既有集成GPU也有獨立GPU，英偉達主要是獨立GPU。在獨立GPU領域，英偉達2021Q1占據(jù)81%的市場份額，處于絕對的領先地位。公司20多年來始終引領GPU行業(yè)的發(fā)展，將GPU的主要應用場景從游戲以及畫圖等圖像顯示擴展到了以AI、云計算等大數(shù)據(jù)相關的并行計算領域。英偉達保持著兩年升級一次GPU架構的步伐，不斷提高GPU的性能。在英偉達GTC2020主題演講中，NVIDIA宣布推出安培(Ampere)架構，這是NVIDIA發(fā)布的第八代GPU架構，包含超過540億個晶體管，性能相較于前代提升了高達20倍，也是NVIDIA8代GPU歷史上最大的一次性能飛躍。安培架構的最新一代RTX30系列游戲GPU和AI計算GPUA100作為各自領域的代表產(chǎn)品，繼續(xù)推動著相關領域的發(fā)展。1.3.

英偉達業(yè)務簡介2.傳統(tǒng)業(yè)務：消費者（游戲）相關業(yè)務保持穩(wěn)定增長2.1.

英偉達

GPU五年來持續(xù)占據(jù)PC獨顯六成以上市場由于疫情導致的居家時間延長，公司GPU量價齊升，F(xiàn)Y2022Q2游戲相關營收同比大增85%，單季收入首次超過30億美元。英偉達的GPU在PC端是以獨立顯卡的形式存在，通過獨立顯卡可以實現(xiàn)高幀率高分辨率3A游戲、專業(yè)繪圖等應用。獨顯領域是一個壁壘極高的市場，經(jīng)過20多年的充分競爭后，目前僅有英偉達、AMD可以推出相關產(chǎn)品，而英偉達占據(jù)絕對的領先優(yōu)勢。2021Q1英偉達在PC獨顯市場占據(jù)81%的市場份額（2020全年為77%）。以每兩年更新一次架構、每半年性能翻倍的速度，持續(xù)引領消費級GPU市場。2020年9月2日，英偉達發(fā)布了新一代顯卡RTX30系列，與前一代RTX20系列相比，采用了全新的安培架構，在核心數(shù)、顯存、頻率等性能都有了大幅度提升。RTX30的高算力加上英偉達的DLSS（DeepLearningSuperSampling，深度學習超采樣）技術，大大提高實際場景的運算力（在算力不變的情況下提高幀率），使得英偉達顯卡深受游戲玩家的喜愛。在中國，RTX30系列中的RTX3080由發(fā)售價的5499元人民幣被一路炒高至18000元左右，足見其火爆程度（雖然部分原因是受到數(shù)字貨幣“挖礦”搶貨的影響）。英偉達以半年性能提升一倍的“黃氏定律”牢牢占據(jù)GPU的領導者地位。截止到2021年3月，英偉達的各系列GPU在性能排行的前20名中占據(jù)了包括第一名在內(nèi)的14個席位，可以看出英偉達在GPU領域的霸主地位。2.2.借助Bluefield能力，發(fā)力云游戲GeforceNow業(yè)務云游戲是以云計算為基礎的游戲方式，在云游戲的運行模式下，所有游戲都在服務器端運行，并將渲染完畢后的游戲畫面壓縮后通過網(wǎng)絡傳送給用戶。在客戶端，用戶的游戲設備不需要任何高端處理器和顯卡，只需要基本的視頻解壓能力就可以，因此其市場潛力很大，據(jù)Newzoo2021年3月發(fā)布的報告預測，2023年全球云游戲市場收入可能達到51億美元。但目前主要受限于網(wǎng)絡延遲以及服務器延遲等方面，市場尚處于初期階段。除英偉達外，目前還有微軟、谷歌、索尼、騰訊以及網(wǎng)易等也在拓展云游戲業(yè)務。3.成長業(yè)務：數(shù)據(jù)中心成為云和AI領域基礎設施，營收迅速擴大英偉達成為云計算和AI這個未來“金礦”行業(yè)的芯片及服務器等“鏟子”工具——GPU的主要供應商，2020年以來以AI和云計算為主要服務對象的數(shù)據(jù)中心業(yè)務營收規(guī)模已經(jīng)和游戲業(yè)務相當。英偉達創(chuàng)始人、CEO黃仁勛于2021年6月份在接受第一財經(jīng)的采訪中表示，“數(shù)據(jù)中心規(guī)模計算的時代已經(jīng)來臨。我們想成為一家數(shù)據(jù)中心企業(yè)，數(shù)據(jù)中心正在占據(jù)我們業(yè)務越來越重要的地位。”他說道，“而各種新興技術的匯聚，比如云計算、人工智能、加速計算、工業(yè)5G等，將會成為解決計算時代重要問題的最后幾塊拼圖?！庇ミ_在數(shù)據(jù)中心上布局很早，利用在GPU中積累的芯片設計經(jīng)驗，推廣到了數(shù)據(jù)中心業(yè)務。從英偉達近一年的財報中也可以看出，英偉達在數(shù)據(jù)中心的業(yè)務收入已經(jīng)和游戲業(yè)務比肩，且有超越游戲業(yè)務的潛力。從2021年6月舉辦的國際超級計算大會ISC上公布的超級計算榜單可以看出，TOP10中有8臺使用英偉達的技術，TOP500中有342臺使用英偉達的技術，可見英偉達在數(shù)據(jù)中心業(yè)務的優(yōu)勢。英偉達在數(shù)據(jù)中心領域的成功離不開硬件（A100、DGXA100、InfiniBand）以及相關軟件（CUDA）等的支持，英偉達在云與數(shù)據(jù)中心領域形成了一整套完整的生態(tài)系統(tǒng)，成為云和AI領域基礎算力及算法工具鏈等基礎工具的供應商，在AI的布局中擁有不可替代的位置。3.1.采用并行計算的GPU天生適合AI領域的運算AI算法多為并行結構。AI領域中用于圖像識別的深度學習、用于決策和推理的機器學習以及超級計算都需要大規(guī)模的并行計算，更適合采用GPU架構。我們以深度學習中的神經(jīng)網(wǎng)絡算法來舉例說明GPU架構的優(yōu)勢。神經(jīng)網(wǎng)絡是一種模擬人腦的以期能夠?qū)崿F(xiàn)人工智能的機器學習技術，適合采用并行計算的GPU架構。一個經(jīng)典的神經(jīng)網(wǎng)絡分為輸入層、隱藏層和輸出層，通常隱藏層的數(shù)量越多，神經(jīng)網(wǎng)絡模擬的結果越精確，但相應的計算量會呈指數(shù)的增長。最初人們使用CPU來模擬多層神經(jīng)網(wǎng)絡需要很長時間；隨后科學家認為，輸入層到輸出層的計算關系是矩陣形式，與GPU對圖像像素處理的架構類似，都是并行計算為主，因此產(chǎn)生了使用GPU來進行神經(jīng)網(wǎng)絡計算的想法。2010年時，Google負責人工智能的吳恩達為了訓練神經(jīng)網(wǎng)絡來識別貓，最初使用了16000臺計算機的CPU完成了訓練，但為了搭建龐大的CPU耗費巨大；隨后他與英偉達公司探討了這件事情，英偉達僅采用12個GPU就完成了訓練，使人們看到了GPU對神經(jīng)網(wǎng)絡的優(yōu)勢。隨著神經(jīng)網(wǎng)絡的復雜程度逐漸提高，用GPU來訓練神經(jīng)網(wǎng)絡成為了更優(yōu)的選擇。在輸入通道上滑動的底部有一個陰影的卷積濾波器，還有一個綠色的輸出通道。卷積算法流程如下：藍色（底部）→輸入通道→陰影（覆蓋在藍色上）→3x3的卷積過濾器→綠色（頂部）→輸出通道。對于藍色輸入通道上的每個位置，3x3過濾器進行計算，將藍色輸入通道的陰影部分映射到綠色輸出通道的相應陰影部分。每個計算都是獨立于其他計算的，這意味著任何計算都不依賴于任何其他計算的結果，所有這些獨立的計算都可以在GPU上并行進行，雖然單個卷積計算要比CPU慢，但是對于整個任務來說，CPU要逐個依次完成，速度要大大慢于GPU。因此，卷積運算可以通過使用并行編程方法和GPU來加速。3.2.

英偉達全面布局數(shù)據(jù)中心硬件市場CPU+GPU+DPU形成產(chǎn)品矩陣，全面發(fā)力數(shù)據(jù)中心市場。自從2021年GTC大會上英偉達宣布推出第一款CPUGrace以來，英偉達已經(jīng)涉足了與AI和云計算相關的數(shù)據(jù)中心市場的大部分領域。利用GPU在AI領域的先天優(yōu)勢，英偉達借此切入數(shù)據(jù)中心市場。針對芯片內(nèi)部帶寬以及系統(tǒng)級互聯(lián)等諸多問題，英偉達推出了BluefieldDPU和GraceCPU，提升了整體硬件性能。在2021年GTC大會上，英偉達公布了GPU、CPU和DPU的發(fā)展規(guī)劃，每年都會有新產(chǎn)品問世；英偉達在數(shù)據(jù)中心硬件市場的不斷升級，推動了數(shù)據(jù)中心以及AI整個產(chǎn)業(yè)的發(fā)展步伐。3.2.1.基于安培架構的A100系列，為數(shù)據(jù)中心打造高性能算力基礎采用第三代TensorCore核心。通過全新TF32，將上一代Volta架構的AI吞吐量提高多達20倍。通過FP64，將HPC性能提升了2.5倍。通過INT8，將AI推理性能提高多達20倍，并且支持BF16數(shù)據(jù)格式。采用更大、更快的HBM2eGPU內(nèi)存。從而使內(nèi)存容量增加一倍，在業(yè)內(nèi)率先實現(xiàn)2TB/s以上的內(nèi)存帶寬。采用MIG（Multi-InstanceGPU，多實例GPU）技術，將單個獨立實例的內(nèi)存增加一倍，可最多提供七個MIG，每個實例具備10GB內(nèi)存。采用結構化稀疏技術，將推理稀疏模型的速度提高兩倍。第三代NVLink和NVSwitch，相較于上一代互連技術，可使GPU之間的帶寬增加至原來的兩倍，將數(shù)據(jù)密集型工作負載的GPU數(shù)據(jù)傳輸速度提高至600GB/s。A100被廣泛應用于大數(shù)據(jù)分析、天氣預報、量子化學以及材料模擬等領域，推動了相關領域的發(fā)展?；谝陨纤懔Α?nèi)存以及數(shù)據(jù)交互上的優(yōu)化，A100在自然語言識別、大數(shù)據(jù)分析、科學計算領域提供了更強的硬件實力。對于如RNN－T等自動語言識別模型的AI推理，單個A100MIG實例可處理更大規(guī)模的批量數(shù)據(jù)，將生產(chǎn)中的推理吞吐量提高1.25倍。在TB級零售大數(shù)據(jù)分析基準上，A100將其性能提高了2倍，使其成為可對最大規(guī)模數(shù)據(jù)集進行快速分析的理想平臺。隨著數(shù)據(jù)的動態(tài)更新，企業(yè)可以實時做出關鍵決策。對于科學應用，A100可為天氣預報和量子化學等領域提供巨大的加速。材料模擬軟件QuantumEspresso采用單節(jié)點A100實現(xiàn)了近2倍的吞吐量提升。除了高性能的A100系列外，英偉達還在在功耗、性能上做了優(yōu)化與調(diào)整，推出了A10、A30等產(chǎn)品，旨在面向中小型客戶。英偉達的一系列產(chǎn)品滿足了不同用戶的需求。3.2.2.DGXA100數(shù)據(jù)中心及DGXSuperPOD解決方案，使英偉達保持超算領域優(yōu)勢一體式AI數(shù)據(jù)中心DGXStationA100，使AI超算中心的搭建更為方便。以A100GPU為核心的數(shù)據(jù)中心DGXStationA100，AI性能可以達到2.5Petaflops，通過NVIDIANVLink完全互連，實現(xiàn)多個NVIDIAA100GPU融合在一起的工作組服務器，目前有320GB/640GB等不同版本可供選擇。借助MIG，單一DGXStationA100最多可提供28個獨立GPU實例以運行并行任務，并可在不影響系統(tǒng)性能的前提下支持多用戶應用。作為服務器級的系統(tǒng)，DGXStationA100無需配備數(shù)據(jù)中心級電源或散熱系統(tǒng)，用戶可以極為方便地部署AI超算中心；與前代相比，如果要搭建同樣算力的數(shù)據(jù)中心，成本會降低90%，耗電量會減少95%，大大降低了數(shù)據(jù)中心的使用門檻，客觀上推動了AI領域的蓬勃發(fā)展。NVIDIADGXSuperPOD解決方案，促進了AI超算行業(yè)的發(fā)展。全新DGXA100640GB系統(tǒng)也將集成到企業(yè)版NVIDIADGXSuperPOD解決方案，使機構能基于以20個DGXA100系統(tǒng)為單位的一站式AI超級計算機，實現(xiàn)大規(guī)模AI模型的構建、訓練和部署。配備A10080GBGPU的NVIDIADGXSuperPOD系統(tǒng)將率先安裝于英國的Cambridge-1超級計算機，以加速推進醫(yī)療健康領域研究；佛羅里達大學的全新HiPerGatorAI超級計算機，將開展AI賦能的科學發(fā)現(xiàn)。新一代DGXStationA100和DGXA100640GB移動數(shù)據(jù)中心的出現(xiàn)，將給AI超級計算機的行業(yè)格局帶來一次新的震動。同時AI超算上的創(chuàng)新也將因為DGXStationA100而再次迎來新的發(fā)展，對AI超算的行業(yè)應用普及帶來了更大的發(fā)展?jié)摿εc空間。3.2.3.戰(zhàn)略眼光獨到，收購Mellanox，提高數(shù)據(jù)交互性能英偉達并購Mellanox后，充分挖掘了其掌握的InfiniBand技術，使網(wǎng)絡交換速度得到保證。2019年，英偉達以69億美元并購了Mellanox，后者以InfiniBand技術見長。InfiniBand和以太網(wǎng)是超算領域較常用的互聯(lián)和協(xié)議，以太網(wǎng)設計的初衷是解決各種各樣設備之間的連接問題，其核心是通用性強；而InfiniBand的設計初衷是解決同一個系統(tǒng)中不同設備之間的連接問題，其核心是為了讓通訊更快。舉例來說，以太網(wǎng)像是快遞中轉站，它需要盡可能識別所有的包裹并將其送到各種各樣的目的地，其主要精力需要放在數(shù)據(jù)處理上，信息的傳遞效率相對較低；而InfiniBand更像是地鐵系統(tǒng)，軌道都是確定好的且目標車站數(shù)量有限，因此不同站點間信息獲取速度就會很快。對于高性能超級計算機來說，為了提高數(shù)據(jù)交換速度，一般會采用InfiniBand技術。英偉達在得到InfiniBand技術后，開發(fā)出了NVIDIAMellanoxInfiniBand交換器系統(tǒng)，每個端口的速度可達400Gb/s（以太網(wǎng)的速度通常在0.1~25Gb/s），這讓運算叢集和聚合數(shù)據(jù)中心能在任何規(guī)模中運作，并同時降低營運成本和基礎架構的復雜性。Bluefield芯片可分擔CPU的網(wǎng)絡、存儲和安全等任務，可以大大減少CPU的工作量的同時提高數(shù)據(jù)交互性能。Mellanox的主要產(chǎn)品就是名為Bluefield的芯片，英偉達也將其稱為DPU（DataProcessingUnit，數(shù)據(jù)處理單元），其實際上是一個高級的網(wǎng)卡。基于DPU的智能網(wǎng)卡將成為云數(shù)據(jù)中心設備中的核心網(wǎng)絡部件，逐漸承擔原先需要CPU來執(zhí)行的網(wǎng)絡數(shù)據(jù)處理、分發(fā)的重任，從而從根本上實現(xiàn)軟件定義網(wǎng)絡（SDN）和網(wǎng)絡功能虛擬化（NFV）的諸多優(yōu)勢，有效降低云計算的性能損失，釋放CPU算力，降低功耗的同時大大減少云數(shù)據(jù)中心的運營成本。按照英偉達的說法，一個DPU頂125個CPU的網(wǎng)絡處理能力。英偉達計劃在2022~2023年推出第3代與第4代Bluefield，在保持400Gb/s的數(shù)據(jù)傳輸速度下，其AI算力會從75TOPS提高到400TOPS，進一步滿足高性能數(shù)據(jù)交互的要求。3.2.4.推出英偉達自研CPU，補齊數(shù)據(jù)中心短板推出自研CPUGrace，實現(xiàn)英偉達在數(shù)據(jù)中心、HPC以及計算設備上的的全自研。在2021GTC大會上，英偉達推出了GraceCPU并計劃在2023年量產(chǎn)。這款CPU是英偉達第一次推出的CPU產(chǎn)品，采用了ARMv9指令集，該指令集主要是增強面向矢量、機器學習和數(shù)字信號處理器的相關內(nèi)容，與數(shù)據(jù)中心所需要處理的事物息息相關，因此這款CPU的主要應用場景將是在數(shù)據(jù)中心領域。據(jù)英偉達宣稱，GraceCPU是高度專業(yè)化的、面向巨型人工智能和HPC的產(chǎn)品，可以訓練擁有超過一萬億個參數(shù)的NLP模型。自研CPU的主要目的是為了解決GPU讀取內(nèi)存數(shù)據(jù)的帶寬瓶頸問題。英特爾的x86CPU的優(yōu)勢是靈活的擴展性和對各類設備的支持，因此x86依然是目前HPC和服務器應用場合的重點，但x86架構存在帶寬不足的缺點。目前x86CPU通過內(nèi)存控制器連接DDR4內(nèi)存，最新的英特爾至強處理器可以實現(xiàn)8通道DDR4內(nèi)存連接，其帶寬大約為200GB/s，GPU本地內(nèi)存（顯存）的帶寬在使用HBM2的情況下大約可以達到2000GB/s；CPU和GPU自身的連接帶寬都是足夠的，但是CPU和GPU連接的帶寬只能依靠PCIe4.0x16，帶寬大約只有16GB/s，如果考慮典型的一個x86CPU帶4個GPU的情形，則將一個待處理文件從內(nèi)存（Memory）經(jīng)過CPU到GPU的最大帶寬就只有64GB/s，這就是帶寬瓶頸的由來。英偉達擁有NVlink技術，其帶寬可達500GB/s，但x86并不支持其協(xié)議，因此英偉達決定自研CPU，來解決帶寬瓶頸問題。英特爾回應稱其PCIe總線技術也會逐步升級，但據(jù)推測在2023年也就是Grace推出的當年，PCIe的帶寬也只能達到32GB/s（或者更進一步升級到64GB/s），這也比NVLink的帶寬要小一個數(shù)量級。因此，英偉達可能會重塑數(shù)據(jù)中心的底層硬件市場，進一步獲取數(shù)據(jù)中心領域的優(yōu)勢地位。3.3.CUDA軟件生態(tài)助力GPU硬件，打造軟硬件生態(tài)系統(tǒng)，形成行業(yè)壁壘CUDA系統(tǒng)助力英偉達

GPU方便且高效地發(fā)揮其并行計算能力，使GPU的使用范圍不僅限于顯卡，而成為了GPGPU（General-PurposeGraphicsProcessingUnit，圖形處理器通用計算）。GPU的微架構天生適合矩陣類并行計算，其能力不僅限于顯卡領域，于是從21世紀早期就有專業(yè)的計算人員想要使用GPU做一些AI領域相關的并行計算。但在CUDA問世之前，想要調(diào)用GPU的計算能力必須編寫大量的底層語言代碼，這是主要使用高級語言為主的程序員不折不扣的噩夢。英偉達公司的DavidKirk慧眼識珠，在他的主導下，英偉達推出了CUDA系統(tǒng)。CUDA（ComputeUnifiedDeviceArchitecture，統(tǒng)一計算架構）是一個基于英偉達GPU平臺上面定制的特殊計算體系/算法，一般只能在英偉達的GPU系統(tǒng)上使用。CUDA是一種類C語言，本身也兼容C語言，所以其雖然是一種獨立語言，但CUDA本身和C差距不算很大，適合普通開發(fā)者使用且能夠最大化GPU的計算效率，這使得GPU的使用范圍不僅僅局限在顯卡，而是擴展到所有適合并行計算的領域，GPU也逐漸成為了GPGPU。我們通過一個例子來說明CPU、GPU以及擁有CUDA的GPU的運算能力：比如，我們要算100次從1加到100的加法，如果利用一個4線程CPU，需要100/4X100=2500次，而用GPU（假定它是1000個線程），性能相同的情況下，AMD公司的GPU要算100/1000X100=10次。如果使用CUDA優(yōu)化的英偉達的GPU來計算的話，它能提供優(yōu)化算法的“1+100，2+99的這種利用首尾相加再除以2”的方法來簡化計算，那么使用CUDA后的英偉達顯卡可能只需要計算100/1000X100/5=2次，可見效率提高了很多。所以，即便競爭對手的GPU在硬件參數(shù)上比肩英偉達的GPU，但缺少CUDA的優(yōu)化，其計算效率還是無法達到英偉達GPU的水平。CUDA初期采用免費推廣策略，不求短期回報，使英偉達迅速占領AI市場。英偉達的CEO黃仁勛高瞻遠矚，對GPU的擴展應用十分重視，早在2006年就大力支持CUDA系統(tǒng)在AI領域的開發(fā)與推廣，在當時每年投入5億美元的研發(fā)經(jīng)費（年營業(yè)額只有30億美元）對CUDA進行不斷更新與維護，并讓當時美國大學及科研機構免費使用CUDA系統(tǒng)，使CUDA系統(tǒng)迅速在AI以及通用計算領域開花結果。CUDA經(jīng)過多年優(yōu)化，形成獨特軟硬件配合的生態(tài)系統(tǒng)，業(yè)界獨此一家，產(chǎn)品壁壘極高。為了讓廣大程序員以及科研人員方便使用GPU的算力，英偉達不斷優(yōu)化CUDA的開發(fā)庫及驅(qū)動系統(tǒng)。操作系統(tǒng)的多任務機制可以同時管理CUDA訪問GPU和圖形程序的運行庫，其計算特性支持利用CUDA直觀地編寫GPU核心程序。CUDA在軟件方面組成有：一個CUDA開發(fā)庫、一個應用驅(qū)動及其運行環(huán)境(Runtime)、兩個較高級別的通用數(shù)學庫，即CUFFT和CUBLAS。CUDA改進了DRAM的讀寫靈活性，使得GPU與CPU的機制相吻合。另一方面，CUDA提供了片上（on-chip）共享內(nèi)存，使得線程之間可以共享數(shù)據(jù)。應用程序可以利用共享內(nèi)存來減少DRAM的數(shù)據(jù)傳送，更少的依賴DRAM的內(nèi)存帶寬。除CUDA外，目前還有OpenCL也可以實現(xiàn)對GPU計算能力的調(diào)用，但由于其通用性較強，整體優(yōu)化效果不如CUDA，在大規(guī)模計算中劣勢很大。CUDA成為連接AI的中心節(jié)點，CUDA+GPU系統(tǒng)極大推動了AI領域的發(fā)展。搭載英偉達

GPU硬件的工作站（Workstation）、服務器（Server）和云（Cloud）通過CUDA軟件系統(tǒng)以及開發(fā)的CUDA-XAI庫，為AI領域的機器學習（MachineLearning）、深度學習（DeepLearing）中的訓練（Train）和推理（Inference）提供軟件工具鏈，來服務眾多的框架、云服務等等，推動了AI領域的迅速發(fā)展。因此，英偉達也被稱作AI時代最大的推動力量。英偉達CEO黃仁勛2020年在接受Barron周刊的采訪時也不斷強調(diào)，“我們是一家擁有高性能計算的AI公司，視頻游戲只是我們一個極為成功的應用”；

“

Nvidia不是游戲公司，它將推動下一個人工智能大爆炸”。3.4.AI的普及助力數(shù)據(jù)中心業(yè)務蓬勃發(fā)展3.4.1.GPU在AI應用領域的硬件占比逐漸增加隨著AI的不斷普及，GPU在云計算、工業(yè)、金融及醫(yī)療領域的硬件結構的占比會越來越多。在云計算剛剛興起的時候，人們沿用計算時期的慣性，首先選擇CPU來進行底層的搭建。隨著AI等并行計算越來越流行，人們發(fā)現(xiàn)在AI等特定領域中CPU的效率遠不如GPU，因此隨著AI的不斷發(fā)展，以GPU架構為主的硬件系統(tǒng)占比會不斷增加。據(jù)Yole預測，AI計算領域的硬件營收中，GPU的占比會從2019年的12%上升到2025年的16%；而作為GPU的主要供應商，英偉達將會從這個趨勢中受益。目前，英偉達的硬件系統(tǒng)已經(jīng)廣泛使用在金融防詐騙系統(tǒng)、石油開采預測系統(tǒng)、醫(yī)療影像識別以及云計算領域中。3.4.2.全球云服務提供商采用英偉達的硬件系統(tǒng)為其用戶賦能全球頂級云服務商采用英偉達硬件系統(tǒng)為其用戶賦能。鑒于英偉達GPU在并行計算中的良好表現(xiàn)，亞馬遜

AWS、微軟Azure、谷歌、甲骨文都紛紛采用英偉達的GPU進行硬件架構的搭建。英偉達的數(shù)據(jù)中心收入也快速增加，目前其營收已經(jīng)可以與游戲顯卡業(yè)務比肩，F(xiàn)Y2021Q2營收還一度超過游戲業(yè)務，成為英偉達所有業(yè)務板塊中收入最高的項目，可見數(shù)據(jù)中心業(yè)務的發(fā)展勢頭。英偉達積極開拓中國市場，推動中國云服務業(yè)務發(fā)展。除美國客戶外，英偉達還積極拓展中國的客戶。在GTCChina2020大會上，英偉達宣布阿里云、百度智能云、滴滴云、騰訊云的大型數(shù)據(jù)中心正在遷移至基于英偉達安培架構的平臺，以充分利用A100在圖像識別、語音識別以及包括計算流體動力學、計算金融學、分子動力學在內(nèi)的推理和訓練方面提供的速度與可擴展性。A100不僅可以滿足全球云服務提供商用戶對性能的要求，而且還可以為全球用戶提供強大的可靠性支持。中國云服務提供商正在采用A100來滿足各行各業(yè)的多樣化需求：阿里云已經(jīng)發(fā)布了基于NVIDIAA100打造的gn7GPU系列云服務器，該產(chǎn)品主要面向AI訓練和高性能計算應用，可提供新一代GPU計算實例。云服務器中的8塊NVIDIAA100GPU可通過NVIDIANVLinkTM和NVSwitchTM技術實現(xiàn)先進的多GPU通信。這些NVIDIA技術可支持阿里巴巴

gn7云服務器相比上一代平臺實現(xiàn)最高20倍的AI性能，以及2.5倍的高性能計算速度。百度智能云即將推出基于NVIDIAA100打造的lgn3GPU系列云服務器、vGPU云服務器以及百度太行裸金屬服務器產(chǎn)品，該系列產(chǎn)品最高將搭載8塊NVIDIAA100GPU，8TNVMeSSD磁盤以及百G帶寬，主要面向AI訓練/推理、高性能計算應用、科學計算等場景。基于A100TF32新技術，百度新一代GPU云服務器提供20倍于V100FP32云服務器的計算能力。滴滴云A100裸金屬服務器配置了8塊NVIDIAA100GPU、2顆AMDEPYC7302CPU處理器、1024GB內(nèi)存、2個240GBSATASSD，以及2個2TNVMESSD磁盤，適用于AI、數(shù)據(jù)分析、高性能計算等多種應用場景。騰訊云已推出首款搭載NVIDIAA100的GPU云服務器GT4，其搭配AMDROMECPU平臺，支持PCIe4.0技術以及最高180核的vGPU配置。適用于深度學習訓練、推理、高性能計算、數(shù)據(jù)分析、視頻分析等領域，可提供更高性能的計算資源，從而進一步降低使用成本，幫助企業(yè)、高校及研究人員聚焦模型的優(yōu)化與創(chuàng)新。中國OEM廠商致力于滿足全球?qū)Υ钶dA100的NVIDIA認證系統(tǒng)不斷增長的需求，包括新華三、浪潮、聯(lián)想、寧暢等在內(nèi)的中國領先系統(tǒng)制造商也在以前所未有的速度將NVIDIAA100GPU引入到它們的產(chǎn)品中，并推出了多款針對不同應用場景的系列產(chǎn)品，為超大型數(shù)據(jù)中心提供基于NVIDIA安培架構的加速系統(tǒng)，進而為用戶提供兼具超強性能與靈活性的AI計算平臺。4.未來業(yè)務：布局自動駕駛平臺化芯片，搶占智能汽車市場份額4.1.自動駕駛介紹自動駕駛主要指自動駕駛汽車，也即無人車（driverlesscar），是一種無須人工干預而能夠完成出行需求的車輛。它利用了包括雷達、超聲波、GPS、計算機視覺等多種技術來感知其周邊環(huán)境，通過先進的計算和控制系統(tǒng)，來識別障礙物和各種標識牌，規(guī)劃合適的路徑來控制車輛行駛。4.1.1.自動駕駛歷史科技巨頭、獨角獸公司以及整車廠紛紛開展自動駕駛研究，自動駕駛迎來快速發(fā)展的時期。自動駕駛的研究歷史非常悠久，早在1977年時日本就有基于攝像頭的自動駕駛汽車問世。但限于軟硬件能力及成本的束縛，自動駕駛的發(fā)展較為緩慢。直到2004年美國國防部推出的DARPA項目，很大程度上推動了自動駕駛的復興?，F(xiàn)代意義上的自動駕駛技術在DARPA挑戰(zhàn)賽上已經(jīng)成型，參賽車輛上已經(jīng)配備了激光雷達、攝像頭以及分析決策系統(tǒng)。2005年的DARPA挑戰(zhàn)賽中，有五支隊伍的參賽車輛已經(jīng)可以完成限定場景的無人駕駛。目前的自動駕駛技術都是在這個基礎上進行的不斷升級，主要在成本優(yōu)化和車規(guī)級適配性等實用性方面進行完善，不僅有各種科技巨頭領導相關研究，科技獨角獸公司以及整車廠也都紛紛加入這個領域，自動駕駛全面商業(yè)化的時代就要到來。4.1.2.自動駕駛等級分類及技術路線目前有兩種自動駕駛研發(fā)思路。一種是可稱之為自上而下的不考慮成本的研究L4+級完全自動駕駛，代表企業(yè)有谷歌的Waymo、通用的Cruise、百度的Apollo等，目前其實現(xiàn)自動駕駛的系統(tǒng)成本在數(shù)十萬到百萬元人民幣以上；另一種主要是車企，他們要考慮成本因素，所以一般是自下而上的，由低級別的自動駕駛開始逐漸提升水平，目前商業(yè)化的汽車基本上可以達到L2級的水平，代表企業(yè)有特斯拉、奧迪、蔚來、小鵬等。值得一提的是，本文所提到的分類級別是從法律意義上已經(jīng)實現(xiàn)的級別而不是能力上的分類級別，也即如果是L3級以上的話，自動駕駛公司將為車輛的事故負責。因此本文所謂的L3及以上級別主要是由Robotaxi組成的。4.2.自動駕駛細分領域的市場規(guī)模汽車市場正在經(jīng)歷快速的變革期，電動化是汽車升級的上半場，智能化是汽車升級的下半場。智能化將會迎來快速發(fā)展期，主要源于以下幾個方面：半導體技術的提升與成本的下降：隨著半導體制造商向汽車領域逐漸發(fā)展，規(guī)?；a(chǎn)有利于成本的降低，從而推動銷量擴大形成正反饋，汽車半導體有望復制手機半導體領域的發(fā)展規(guī)模和速度；電動化的不斷普及加速了智能化：電動車的電機電控特性，相較于燃油車更有助于智能化的控制系統(tǒng)發(fā)展；對安全性便捷性和高效出行的要求：為了提升車輛差異化的競爭力，汽車廠商將繼續(xù)增加在駕駛輔助系統(tǒng)ADAS方面的投入，提升自動避險剎車、自動泊車、道路領航等能力，以提升車輛的安全性與便捷性；隨著自動駕駛能力的不斷提高，自動駕駛將有效緩解交通擁堵，大大提高出行的效率。我們預計，擁有智能化功能的車輛將從2020年的2773萬輛增長到2025年的6332萬輛。據(jù)IDC報告，2020年售出的汽車中，擁有自動駕駛（輔助）功能的汽車數(shù)量（包含L1~5級）為2773.2萬輛，其中L1為1874萬輛，L2為896萬輛，L3+為3.2萬輛。我們根據(jù)市場智能化趨勢以及前幾年的增速為基礎進行測算，到2025年，擁有自動駕駛（輔助）功能的汽車數(shù)量（包含L1~5級）為6332萬輛，其中L1為3900萬輛，L2為2320萬輛，L3+為112萬輛；2020~2025的CAGR為17.8%。到2025年時，與單車自動駕駛相關的革新性部件，其市場總額可達781億美元，2020~2025CAGR可達35.8%。巨大的市場增量使得相關公司都希望能夠乘著智能化升級的東風擴大公司業(yè)務，占領市場空間。我們將與自動駕駛有關的市場進行拆分，主要有八個模塊，其中與人工智能息息相關的決策軟件、AI芯片以及傳感器（攝像頭、激光雷達、高精地圖、毫米波雷達）的發(fā)展空間更大。4.3.積極入局汽車芯片領域，成為平臺化芯片的領導者4.3.1.從移動業(yè)務起家，逐漸擴大應用市場在智能手機興起的2008年時，英偉達試圖進入移動芯片市場。為此，公司開發(fā)了Tegra系列芯片，

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

英偉達研究報告：從硬件GPU設計到軟件CUDA+ Omniverse開發(fā)

文檔簡介

溫馨提示

最新文檔

評論

英偉達研究報告：從硬件GPU設計到軟件CUDA+ Omniverse開發(fā)

文檔簡介

溫馨提示

最新文檔

評論

相關文檔