AI算力芯片那些事兒_第1頁(yè)
AI算力芯片那些事兒_第2頁(yè)
AI算力芯片那些事兒_第3頁(yè)
AI算力芯片那些事兒_第4頁(yè)
AI算力芯片那些事兒_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要:1.相比于ASIC芯片,GPGPU具有更強(qiáng)的通用性。主流的AI加速芯片市場(chǎng)上,GPGPU占到90%的市場(chǎng)份額。2.傳統(tǒng)的小體量模型依賴CUDA,因此GPGPU更加合適,而大模型對(duì)于CUDA生態(tài)的依賴小,因此GPGPU和ASIC的差距不明顯。但是國(guó)內(nèi)的大模型訓(xùn)練目前只有GPGPU可以完成,ASIC還不夠成熟。3.第一梯隊(duì)的海光芯片(深算1號(hào))可以運(yùn)行通用的大模型,只是效率比較差。第二位應(yīng)該是華為的昇騰910,但是只能運(yùn)行華為自己優(yōu)化后的大模型。寒武紀(jì)只能運(yùn)行大模型的推理。景嘉微不屬于這個(gè)市場(chǎng)。沐曦的C100預(yù)期性能對(duì)標(biāo)英偉達(dá)的H100,壁仞的BR100受到了美國(guó)商務(wù)部的限制。目前最值得期待廠商的是沐曦。4.AI芯片的硬件門檻不高,軟件門檻較高。在幾個(gè)核心專利中國(guó)內(nèi)都沒有積累,因此會(huì)受到美國(guó)限制。5.如果英偉達(dá)新品發(fā)布節(jié)奏不變,國(guó)內(nèi)外的差距很可能逐漸增大。6.GPT-3,openai訓(xùn)練使用了1萬(wàn)張A100,訓(xùn)練了14.8天左右。每個(gè)用戶的請(qǐng)求需要5張A100來(lái)推理。GPT-4估計(jì)大約需要2萬(wàn)-3萬(wàn)張A100,訓(xùn)練一個(gè)月左右的時(shí)間。這些比例都是線性的。7.假設(shè)十個(gè)大廠要做大模型,可能每家需要2000片A100,換算到國(guó)內(nèi)芯片再乘上一個(gè)參數(shù),比如1.5-2,大概是3000-4000片,那么十家就是3萬(wàn)-4萬(wàn)片。但是前提是產(chǎn)品具有充足的穩(wěn)定性。8.國(guó)內(nèi)模型品質(zhì)差,數(shù)據(jù)集不足,并且算力與海外相差甚遠(yuǎn)。9.AI算力芯片折舊一般2-3年,最長(zhǎng)不超過(guò)5年。從2019年開始,算力需求每10個(gè)月會(huì)翻一番,產(chǎn)品更新迭代很快。10.國(guó)內(nèi)幾家頭部互聯(lián)網(wǎng)廠家都向英偉達(dá)下了1.5萬(wàn)-1.6萬(wàn)的A800和H800訂單,每家的金額在十幾億美金左右。大概保證在2024年能有足夠的產(chǎn)能。11.中文沒有邏輯對(duì)應(yīng)的語(yǔ)義庫(kù),廠商之間數(shù)據(jù)不互通,并且存在一定問(wèn)題。交流正文:Q:GPGPU和ASIC芯片在AI算力中分別承擔(dān)什么樣的角色?A:早期開放框架基于GPGPU架構(gòu)實(shí)現(xiàn),因此軟件生態(tài)更為成熟,對(duì)于初級(jí)客戶來(lái)說(shuō),上手使用更加方便。GPGPU的通用性也更好,架構(gòu)更加適合AI中針對(duì)模型的訓(xùn)練以及針對(duì)通用模型的部署。對(duì)于ASIC芯片來(lái)說(shuō),如果客戶對(duì)于模型有深度的研究,也有能力對(duì)模型進(jìn)行特殊的定制化處理,那么ASIC芯片的產(chǎn)品和解決方案有更高的性價(jià)比。ASIC芯片由于模型中特殊算子、特殊結(jié)構(gòu)已經(jīng)完成了硬件的固化,因此對(duì)于一些較大的改動(dòng),或是一些與硬件架構(gòu)強(qiáng)相關(guān)的計(jì)算來(lái)說(shuō),可能會(huì)存在一定的限制。總體來(lái)說(shuō),如果模型已經(jīng)比較成熟,改動(dòng)都在有限的范圍內(nèi),那么IC芯片具有更高的性價(jià)比,但如果是一個(gè)初步的模型,未來(lái)需要不斷地演進(jìn)和完善,那么GPGPU是更合適的。Q:市場(chǎng)上主要關(guān)注的AI算力芯片,尤其是海外廠商,如英偉達(dá),都是GPGPU嗎?A:對(duì),市場(chǎng)上主流的AI加速設(shè)備,GPGPU大約占了90%的市場(chǎng)份額,剩下的10%是一些FPGA、ASIC類的產(chǎn)品。Q:如果換一個(gè)角度理解的話,我們現(xiàn)在所處的階段還不成熟,所以更適合通用性強(qiáng)的GPGPU,如果發(fā)展成熟之后,才會(huì)需要更多的ASIC芯片。A:這分為兩部分解釋。第一,傳統(tǒng)的AI相對(duì)于目前的大模型來(lái)說(shuō),可以稱之為是小模型的AI,比如早期的CV算法(人臉識(shí)別、語(yǔ)音識(shí)別、自動(dòng)應(yīng)答),這些模型的體量很小。而這個(gè)時(shí)期的模型很多都是基于英偉達(dá)的CUDA生態(tài)開發(fā)的,使用的框架(如PyTorch、Tensorflow)只是利用了一部分,還有一部分是直接調(diào)用CUDA的,這個(gè)階段GPGPU是最合適的。如果現(xiàn)在客戶的主營(yíng)業(yè)務(wù)還是在這個(gè)層面上,那么GPGPU會(huì)更加適用。第二,如果客戶模型已經(jīng)基本固化,不會(huì)發(fā)生大的變化,那么在這種情況下可以采用ASIC,ASIC芯片可以針對(duì)它原有的模型做深度的定制化。但是大模型有一定的區(qū)別,大模型更加依賴框架,比如Tensorflow和PyTorch,而對(duì)于CUDA生態(tài)的依賴非常小,在這種情況下,GPGPU和ASIC的重要性的差距就變得很小。這個(gè)時(shí)候,用戶更加關(guān)注芯片對(duì)于框架的支持和性價(jià)比,不存在CUDA產(chǎn)生的影響。Q:國(guó)內(nèi)的大模型主要使用GPGPU還是ASIC?A:目前能運(yùn)行大模型訓(xùn)練的只有GPGPU,如英偉達(dá)的A100、A800、H100、H800,效率也是最高的。目前ASIC沒有大規(guī)模的部署,很多ASIC的廠家集中在國(guó)內(nèi),這些廠商處于早期的階段,產(chǎn)品不夠成熟。但是在一些場(chǎng)景中,我們經(jīng)過(guò)測(cè)試發(fā)現(xiàn),ASIC支持大模型的效率高于GPGPU。Q:國(guó)內(nèi)的廠商,寒武紀(jì)、景嘉微、海光和昇騰,性能達(dá)到了海外什么層級(jí)的水平?A:第一,景嘉微。我們認(rèn)為景嘉微不是做AI芯片的廠商,景嘉微的產(chǎn)品目前只能用于圖形處理、圖像渲染,未來(lái)可能能實(shí)現(xiàn)光線追蹤。目前景嘉微最好的JM9系列產(chǎn)品,大概達(dá)到英偉達(dá)GTX1050的水平,只能算入門級(jí)GPU。第二,寒武紀(jì)。寒武紀(jì)最好的產(chǎn)品是思元590,這款產(chǎn)品在文心一言中有小規(guī)模的部署,大概幾百件,并且也只是文心一言中眾多業(yè)務(wù)場(chǎng)景的一小部分,沒有實(shí)現(xiàn)大規(guī)模部署。我們認(rèn)為寒武紀(jì)的產(chǎn)品只能用于大規(guī)模推理中的一小部分場(chǎng)景,還不能做大模型訓(xùn)練,還有許多需要彌補(bǔ)的地方。第三,華為昇騰。華為昇騰只能用于華為自身生態(tài)中的大模型業(yè)務(wù),通用性差。比如昇騰不能做GPT-3,因?yàn)闀N騰910不支持32位浮點(diǎn),而目前大模型訓(xùn)練幾乎都要使用32位的浮點(diǎn),所以華為昇騰芯片只能利用華為開發(fā)的框架(如MindSpore),在加上優(yōu)化好的大模型,比如盤古CV。任何公開模型都必須經(jīng)過(guò)華為的深度優(yōu)化才能在華為的平臺(tái)上運(yùn)行,而這部分優(yōu)化工作華為還沒有開始,所以我們現(xiàn)在認(rèn)為華為只能運(yùn)行自己閉環(huán)的大模型產(chǎn)品。第四,海光信息。海光的深算1號(hào)可以運(yùn)行大模型,目前正在開發(fā)深算2號(hào)。深算1號(hào)相當(dāng)于英偉達(dá)的P100的水平,但是性價(jià)比低,即便在openai最早訓(xùn)練GPT-3的時(shí)候,也采用了V100芯片。此外,海光還存在迭代問(wèn)題,因?yàn)楹9庵荒玫搅薃MD第一代GPGPU的授權(quán)。Q:P100相當(dāng)于那一年的產(chǎn)品?A:大概是2014-2015年的產(chǎn)品。Q:目前海光是可以排在第一梯隊(duì)嗎?A:對(duì),海光的芯片可以運(yùn)行通用的大模型,只是效率比較差。第二位應(yīng)該是華為的昇騰910,但是只能運(yùn)行華為自己優(yōu)化后的大模型。寒武紀(jì)只能運(yùn)行大模型的推理。景嘉微不屬于這個(gè)市場(chǎng)。Q:其他AI芯片廠商有什么比較重要的嗎?A:沐曦,今年6月會(huì)發(fā)布第一款A(yù)I訓(xùn)練產(chǎn)品C100,但是還需要經(jīng)過(guò)一些內(nèi)部的調(diào)試、軟件適配等,預(yù)計(jì)在今年年底會(huì)對(duì)外發(fā)布。目前來(lái)說(shuō),從公布的性能指標(biāo)來(lái)說(shuō),C100接近于英偉達(dá)的H100的水平。壁仞,最早的一代產(chǎn)品BR100,本身指標(biāo)是對(duì)標(biāo)H100的,但是由于美國(guó)商務(wù)部的禁止條款,壁仞必須把互聯(lián)帶寬降低一半,因此產(chǎn)品要重新設(shè)計(jì),影響產(chǎn)品進(jìn)度,并且性能也受到了影響。目前BR100還在內(nèi)幕測(cè)試過(guò)程中,距離真正的批量使用大約還需要半年的時(shí)間。天數(shù)智芯的芯片只能勉強(qiáng)做大模型推理。百度的昆侖芯只能勉強(qiáng)用于大模型推理,并且是基于Paddle平臺(tái)的,通用性差。Q:是不是目前最值得期待的就是沐曦的產(chǎn)品?A:對(duì),從團(tuán)隊(duì)背景來(lái)講,沐曦的團(tuán)隊(duì)背景經(jīng)驗(yàn)是最豐富的,沐曦的一些核心人員,是參與AMD的MI100、MI200產(chǎn)品開發(fā)的,這都是AMD目前最主流的GPGPU產(chǎn)品。從產(chǎn)品規(guī)劃來(lái)看,沐曦產(chǎn)品對(duì)標(biāo)H100,未來(lái)實(shí)現(xiàn)量產(chǎn)大概與英偉達(dá)只有一代左右的差距,因此目前來(lái)看是與英偉達(dá)最接近的。壁仞還需要再觀察BR100的應(yīng)用情況,因?yàn)槭艿矫绹?guó)商務(wù)部禁止,目前還沒有看到具體的性能表現(xiàn)。Q:如果景嘉微和沐曦合作,是否能獲得長(zhǎng)足的進(jìn)步?A:應(yīng)該可以。首先,這兩款產(chǎn)品的底層架構(gòu)是GPU,景嘉微是傳統(tǒng)GPU,沐曦是GPGPU,存在互相借鑒的可能性。如果景嘉微采用了沐曦的產(chǎn)品和技術(shù),那么就能從傳統(tǒng)GPU市場(chǎng)一下躍升到AI市場(chǎng)。Q:AI芯片的門檻應(yīng)該是非常高的,為什么會(huì)有這么多初創(chuàng)型的企業(yè)涉足這個(gè)領(lǐng)域?A:首先,AI芯片設(shè)計(jì)的門檻不是很高,比如GPGPU架構(gòu)上沒有什么高深的要求,而且很多核心部件、核心功能模塊都有現(xiàn)成的IP,比如總線接口PCIE、內(nèi)存以及內(nèi)存控制器的HBM、DDR、GDDR。很多加速的組件都有現(xiàn)成的內(nèi)容,可以用成熟的產(chǎn)品代替。所以唯一要做的就是把內(nèi)部的邏輯加速單元整合起來(lái),發(fā)揮對(duì)AI計(jì)算的優(yōu)勢(shì),所以硬件上門檻不是很高,但是軟件門檻很高。因?yàn)樵谛∧P偷臅r(shí)代,軟件必須解決兼容擴(kuò)大的問(wèn)題,還要發(fā)揮硬件本身的設(shè)計(jì)性能。在大模型時(shí)代,就要做好對(duì)于一些框架的支持,所以我們認(rèn)為設(shè)計(jì)AI芯片,從技術(shù)角度上來(lái)說(shuō)難度不高,主要在于是否擁有整個(gè)軟硬件的整體設(shè)計(jì)能力。根據(jù)市場(chǎng)上現(xiàn)有模型以及前景模型的內(nèi)部架構(gòu)需求,設(shè)計(jì)硬件的底層,這樣才能實(shí)現(xiàn)效率提升。否則如果硬件完成,用軟件彌補(bǔ)硬件設(shè)計(jì)的失誤,那么就需要消耗很多的軟件資源,硬件的效率也不能充分發(fā)揮。這些初創(chuàng)企業(yè)都是從硬件著手的,門檻并不是非常高。Q:那這些企業(yè)是自主可控的嗎?A:不是純粹的自主可控,因?yàn)橐恍┖诵腎P都是國(guó)外的產(chǎn)品,并且企業(yè)依賴臺(tái)積電。Q:如果拋開流片不談,只看設(shè)計(jì)方面,會(huì)不會(huì)受到美國(guó)限制?A:會(huì),因?yàn)檫@里面存在幾個(gè)核心的專利,比如PCIE,目前掌握在cadence和Synopsis這樣的公司手里,都是美國(guó)公司。HBM基本上只來(lái)自于三星、海力士和鎂光,如果美國(guó)商務(wù)部有禁令,這些企業(yè)都不能像中國(guó)企業(yè)提供產(chǎn)品。純國(guó)產(chǎn)化在這方面的確沒有相應(yīng)的積累,所以會(huì)被美國(guó)卡脖子。Q:海光是否能做到不受影響?A:第一個(gè)問(wèn)題是海光在美國(guó)禁運(yùn)產(chǎn)品名單中,所以海光投片只能通過(guò)第三方代理公司,導(dǎo)致投片價(jià)格會(huì)偏高、產(chǎn)能會(huì)不足。第二個(gè)問(wèn)題是海光拿不到新一代架構(gòu)的授權(quán),限制了海光產(chǎn)品迭代,可能會(huì)與海外主流產(chǎn)品代差越來(lái)越大,這是海光最大的問(wèn)題。Q:海光當(dāng)前的架構(gòu)是買斷的嗎?A:對(duì),這一代架構(gòu)不會(huì)侵權(quán),唯一要解決的是產(chǎn)能供應(yīng)鏈的問(wèn)題。Q:昇騰、寒武紀(jì)、沐曦這三家企業(yè)會(huì)不會(huì)涉及到海外侵權(quán)的可能性?A:昇騰不涉及,因?yàn)闀N騰涉及的IP都是買斷的,但是昇騰面臨下一代產(chǎn)品更迭的問(wèn)題,新一代IP沒法拿到海外廠家的支持,所以昇騰全部的IP都需要國(guó)內(nèi)的替代,但是國(guó)內(nèi)目前還非常不成熟。目前昇騰920和昇騰910差距不大,只是生產(chǎn)工藝使用了中芯國(guó)際的14納米工藝。沐曦目前不在美國(guó)商務(wù)部的黑名單中,用的很多核心是國(guó)外的廠家的,所以如果沐曦嚴(yán)格遵守美國(guó)高端芯片的條款,短時(shí)間內(nèi)不存在風(fēng)險(xiǎn),還是可以用國(guó)外的IP和臺(tái)積電。Q:中國(guó)的算力芯片對(duì)于美國(guó)的英偉達(dá)巨頭來(lái)說(shuō),是否還有追趕的可能性?差距是否在縮?。緼:差距在一點(diǎn)點(diǎn)縮小,但是縮小的難度會(huì)越來(lái)越大。如果英偉達(dá)仍然保持每十個(gè)月發(fā)布一代產(chǎn)品,對(duì)于中國(guó)廠商來(lái)講,可能差距會(huì)慢慢增大。因?yàn)橛布牡度胧蔷薮蟮模L(fēng)險(xiǎn)也很高,中國(guó)廠商沒有雄厚的資金投入,所以追趕有一定的難度。所以如果英偉達(dá)產(chǎn)品發(fā)布節(jié)奏不變,那么這個(gè)差距可能會(huì)越來(lái)越大,尤其是在美國(guó)商務(wù)部存在很多禁令的約束情況下。Q:英偉達(dá)的CUDA在未來(lái)AI算力芯片中是越來(lái)越重要還是不重要?A:在小模型上CUDA仍然很重要,但在大模型上它的地位越來(lái)越輕了。如果未來(lái)中國(guó)市場(chǎng)以小模型為主,那CUDA還是有很大的影響力,而如果是以大模型為主,對(duì)于CUDA的依賴就越來(lái)越小了。Q:能否簡(jiǎn)單介紹一下為什么大模型對(duì)于CUDA的依賴小?A:大模型底層基于transformer的架構(gòu),增加參數(shù)和層數(shù)。而transformer是完全基于框架實(shí)現(xiàn)的架構(gòu),并沒有使用CUDA的特殊算子,所以不需要必須兼容CUDA。而小模型早期都調(diào)用了CUDA的算子,所以是繞不開CUDA的。Q:國(guó)內(nèi)大廠的大模型底層算力是什么?A:他們的底層算力都是英偉達(dá)的,比如V100和A100。Q:V100、A100的存量還有多少?A:目前騰訊、字節(jié)、百度的存量都不超過(guò)2000片,只有阿里大約能夠過(guò)萬(wàn)。Q:那華為情況呢?A:華為只有自己的昇騰910,圍繞盤古。目前比較流行的GPT-2、GPT-3都無(wú)法運(yùn)行。Q:這是不是說(shuō)明華為的算法是自研的?A:對(duì),華為基于開源的算法,針對(duì)昇騰910的特性做了很大程度的優(yōu)化。Q:GPT的訓(xùn)練和推理需要多少算力?A:以GPT-3為例,openai訓(xùn)練使用了一萬(wàn)張A100,訓(xùn)練了14.8天左右。使用A100類似的產(chǎn)品,如果以512張卡來(lái)訓(xùn)練,大約需要3個(gè)月;如果用1024張卡,大約需要1個(gè)月;如果用2000張卡,大約需要18天左右。GPT-3或者說(shuō)ChatGPT,對(duì)于每個(gè)用戶的請(qǐng)求大約需要5張類似A100的卡進(jìn)行推理,隨著并行客戶增加,硬件需求線性增加。Q:如果GPT-4大概量級(jí)有多大增長(zhǎng)?A:目前沒有公開宣傳,我們估計(jì)大約需要2萬(wàn)-3萬(wàn)張A100,訓(xùn)練一個(gè)月左右的時(shí)間。Q:這些比例都是線性的嗎?A:對(duì),GPT-4和ChatGPT訓(xùn)練的數(shù)據(jù)集沒有太大變化,最大的變化是參數(shù)發(fā)生變化,算力增加完全依據(jù)模型參數(shù)增加的比例,數(shù)據(jù)量大概還是四十多T,沒有太大變化。Q:在中國(guó)的算力需求怎么樣進(jìn)行量化?A:目前國(guó)內(nèi)最大的模型是阿里達(dá)摩院的M6,擁有十萬(wàn)億個(gè)參數(shù),體量是最大的。對(duì)于大模型訓(xùn)練的場(chǎng)景,國(guó)內(nèi)廠家只能用很短的時(shí)間做一次大模型訓(xùn)練,沒有專門的訓(xùn)練場(chǎng)景,對(duì)于推理來(lái)說(shuō)資源更加緊張,所以目前百度不能廣泛地、免費(fèi)地提供服務(wù)。目前國(guó)內(nèi)的模型比國(guó)外差,但是參數(shù)、體量對(duì)算力的消耗不相上下。所以目前國(guó)內(nèi)模型品質(zhì)差,數(shù)據(jù)集不足,并且算力與海外相差甚遠(yuǎn)。Q:假設(shè)十個(gè)大廠要做大模型,可能每家需要2000片A100,換算到國(guó)內(nèi)芯片再乘上一個(gè)參數(shù),比如1.5-2,大概是3000-4000片,那么十家就是3萬(wàn)-4萬(wàn)片,可以這樣理解嗎?A:2000片A100訓(xùn)練GPT-3(不是ChatGPT),大約需要一個(gè)月,存在時(shí)間代價(jià)。目前國(guó)內(nèi)芯片的整體性能只有A100的一半左右,那么大概需要4000片,十個(gè)廠商是4萬(wàn)片,這個(gè)是正確的。Q:這需要花多長(zhǎng)時(shí)間?A:一般這種訓(xùn)練都是十幾天。一個(gè)很重要的前提是,國(guó)內(nèi)的產(chǎn)品穩(wěn)定性都必須絕對(duì)高,如果在大模型訓(xùn)練過(guò)程中,中間出現(xiàn)一兩個(gè)節(jié)點(diǎn)的宕機(jī),以及一兩個(gè)節(jié)點(diǎn)計(jì)算失效,那么這個(gè)大模型就要推翻重來(lái)一次。一般訓(xùn)練過(guò)程中都需要checkpoint保存結(jié)果,如果穩(wěn)定性不好,第一次checkpoint都做不到,就沒法實(shí)行了。如果產(chǎn)品不穩(wěn)定,那么大模型訓(xùn)練的時(shí)間就會(huì)很長(zhǎng)。國(guó)內(nèi)某家大模型,最早做訓(xùn)練的時(shí)候使用了2400片左右的A100,大概訓(xùn)練了8天左右。后來(lái)他們覺得資源耗費(fèi)大,就去海光平臺(tái)做訓(xùn)練。海光提供了6萬(wàn)片,用了一個(gè)月沒訓(xùn)練完成,主要原因就是海光芯片出現(xiàn)掉線的問(wèn)題。產(chǎn)品穩(wěn)定性是需要時(shí)間打磨的。Q:這個(gè)穩(wěn)定性、可靠性不是算力本身,更取決與生態(tài)和軟件。A:取決于軟件和工程能力。在運(yùn)行過(guò)程中,需要解決很多BUG,還有軟硬件結(jié)合,中間會(huì)不會(huì)有很多冗余的機(jī)制。這些都需要時(shí)間和成本作為代價(jià),但是商業(yè)客戶一般不會(huì)給這個(gè)機(jī)會(huì)。我們認(rèn)為,如果中國(guó)想要發(fā)展大模型,那政府的介入是不可或缺的,政府介入可以給企業(yè)帶來(lái)資金支持,從而使企業(yè)生產(chǎn)更多的產(chǎn)品,或者是讓一些企業(yè)有意愿部署大規(guī)模的算力。其次,政府需要補(bǔ)貼幫助第三方做大模型開發(fā)的企業(yè),讓他們有意愿在新平臺(tái)嘗試。Q:AI算力芯片折舊一般是多久?A:一般2-3年,最長(zhǎng)不超過(guò)5年。Q:國(guó)內(nèi)的高端算力芯片是不是很快就報(bào)廢了?A:是的,從2019年開始,算力需求每10個(gè)月會(huì)翻一番,對(duì)于企業(yè)來(lái)講,他們更愿意追求高算力的硬件產(chǎn)品,對(duì)于老產(chǎn)品就會(huì)慢慢從業(yè)務(wù)中剝離。Q:所以在一兩年后,高端算力芯片會(huì)面臨非常短缺的狀態(tài)?A:即使目前AI的算力芯片對(duì)于很多大廠來(lái)說(shuō)也是非常短缺的。Q:AI算力芯片未來(lái)是否會(huì)演變成寡頭壟斷。A:對(duì),不會(huì)做到百花齊放。因?yàn)樵诓煌瑧?yīng)用場(chǎng)景下一家獨(dú)大,對(duì)于整個(gè)生態(tài)的影響和標(biāo)桿作用非常明顯。如果一家企業(yè)有意愿選擇替代解決方案,往往要求產(chǎn)品比主流廠家有1.5-2倍的性價(jià)比優(yōu)勢(shì),這個(gè)對(duì)于初創(chuàng)型企業(yè)是一個(gè)非常大的門檻。Q:國(guó)內(nèi)的AI算力芯片市場(chǎng),您看好哪些企業(yè)?A:華為,擁有完整的解決方案,在某些應(yīng)用場(chǎng)景下是能做的。沐曦、壁仞,他們從硬件架構(gòu)到軟件方面,相對(duì)來(lái)說(shuō)在國(guó)內(nèi)廠商中脫穎而出。互聯(lián)網(wǎng)廠商的投入,比如阿里達(dá)摩院投入了一款GPGPU產(chǎn)品,宣傳指標(biāo)大概是A100的兩倍,互聯(lián)網(wǎng)企業(yè)有應(yīng)用場(chǎng)景,也有雄厚的資金支持。Q:央國(guó)企有可能嗎?A:央國(guó)企比較難。第一,AI芯片需要較大的人員投入,組建團(tuán)隊(duì)的成本比較高。第二,央國(guó)企面臨沒有積累的問(wèn)題,從無(wú)到有的跨越難度是很大的餓。如果國(guó)家拿出資金專門組建團(tuán)隊(duì)研發(fā),未來(lái)2-3年可能會(huì)打磨出一款比較合適的產(chǎn)品。如果政府沒有扶持的話,央國(guó)企不會(huì)做這種投入。Q:6萬(wàn)片海光GPU出現(xiàn)宕機(jī)的情況,是因?yàn)檫\(yùn)行問(wèn)題嗎?A:對(duì)。第一,海光這代產(chǎn)品時(shí)AMD第一代產(chǎn)品,本身沒有經(jīng)過(guò)大規(guī)模部署和驗(yàn)證,所以存在硬件上的不穩(wěn)定因素。第二,配合產(chǎn)品需要一個(gè)非常穩(wěn)定軟件架構(gòu),但是目前運(yùn)營(yíng)方開發(fā)能力不足。隨著集群規(guī)模增大,出現(xiàn)錯(cuò)誤的風(fēng)險(xiǎn)也增大,而企業(yè)很少遇到大規(guī)模一次性使用的場(chǎng)景,所以產(chǎn)品不夠成熟。Q:硬件上什么量級(jí)的芯片會(huì)導(dǎo)致中斷?A:如果單片發(fā)生單點(diǎn)故障,那么在檢查點(diǎn)和出現(xiàn)故障之間的這部分業(yè)務(wù)就失效了,需要重新計(jì)算。Q:說(shuō)明斷電數(shù)目很多?A:對(duì),斷電數(shù)很多并且不定時(shí)隨機(jī)出現(xiàn),產(chǎn)品之間的穩(wěn)定性不一致。Q:下一代海光的硬件和軟件更新后的效果是什么?A:深算2號(hào)首先要解決生產(chǎn)問(wèn)題,有一些提升,但是沒有解決硬件穩(wěn)定、可靠性問(wèn)題。此外,由于修改制程,還可能存在一些新問(wèn)題。并且,如何解決大規(guī)模并行環(huán)境下的可靠性問(wèn)題,海光沒有太多的試驗(yàn)場(chǎng)景。Q:對(duì)比英偉達(dá)的2400片A100,斷點(diǎn)大概有多少?A:總共宕機(jī)3次。Q:所以二者的差距還是很大的。A:對(duì),并且宕機(jī)3次,8天左右的時(shí)間計(jì)算完成了。海光的產(chǎn)品中間宕機(jī)不斷,一個(gè)月都沒有完成。Q:芯片宕機(jī)是不可預(yù)知的嗎?所以也沒有很好的規(guī)避方法?A:對(duì)。硬件規(guī)避有一定的難度,因?yàn)樾枰兇獾靥岣哂布O(shè)計(jì),比如信號(hào)質(zhì)量和出現(xiàn)問(wèn)題后的快速恢復(fù)。所以更需要軟硬件結(jié)合,比如軟件要隨時(shí)檢查硬件是否正常運(yùn)行,如果出現(xiàn)宕機(jī)能否及時(shí)保護(hù)現(xiàn)場(chǎng)。Q:軟件是海光自己設(shè)計(jì)嗎?A:不是,應(yīng)該是由平臺(tái)使用方來(lái)設(shè)計(jì),海光只提供硬件的驅(qū)動(dòng)和接口。Q:寒武紀(jì)會(huì)面臨隨機(jī)宕機(jī)的問(wèn)題嗎?A:寒武紀(jì)的產(chǎn)品目前不能用于大模型下,所以沒法判斷。主要是應(yīng)用在推理場(chǎng)景,如果出現(xiàn)宕機(jī),只是會(huì)導(dǎo)致推理失效,那么可以重新加載,用戶端反饋只是一定的延遲,影響不明顯。Q:寒武紀(jì)的思元590參數(shù)指標(biāo)比海光的Z100要好,為什么不能進(jìn)行大模型訓(xùn)練呢?A:大模型訓(xùn)練需要幾個(gè)前提。第一,需要有充足的算力,這方面問(wèn)題不大。第二,需要有較大的內(nèi)存放置大模型,寒武紀(jì)的卡相對(duì)內(nèi)存容量較小,但是這不是主要問(wèn)題。第三,片間互聯(lián)的解決方案,寒武紀(jì)要比海光差。最重要的,寒武紀(jì)對(duì)于Tensorflow和PyTorch框架支持不好,不穩(wěn)定,如果要運(yùn)行大模型,需要額外的開發(fā)工作量。Q:華為昇騰會(huì)面臨隨機(jī)宕機(jī)的問(wèn)題嗎?A:會(huì)。但是華為的全套都是自己做的,比如管理平臺(tái)和框架,所以有一套完整的閉環(huán)的解決方案。Q:如果海光向阿里、百度等廠商,也會(huì)存在這樣的問(wèn)題嗎?A:會(huì)有所改善,因?yàn)榘俣群桶⒗镌诖笠?guī)模集群調(diào)度和部署上具有經(jīng)驗(yàn)。但是由于海光的產(chǎn)品性能較差,性價(jià)比也比較低,因此百度、阿里不會(huì)考慮海光的產(chǎn)品。Q:如果A100的庫(kù)存用完了,他們寧愿買H100被閹割的芯片,也不會(huì)買國(guó)產(chǎn)芯片嗎?A:不一定。如果國(guó)產(chǎn)算力芯片整體性價(jià)比能夠達(dá)到英偉達(dá)60%-70%,就有購(gòu)買的意愿,但是目前還達(dá)不到。Q:目前國(guó)產(chǎn)芯片能達(dá)到多少?A:如果和英偉達(dá)比,大約是30%。對(duì)于寒武紀(jì),硬件指標(biāo)大概接近A100,價(jià)格比A100低,但是寒武紀(jì)的供應(yīng)鏈很緊張,沒法提供大規(guī)模的部署,并且開發(fā)需要大量人力配合客戶開發(fā),寒武紀(jì)不一定有意愿投入。Q:所以目前來(lái)看,國(guó)內(nèi)要做大模型,還是要買英偉達(dá)的閹割版芯片嗎?A:對(duì)。國(guó)內(nèi)幾家頭部互聯(lián)網(wǎng)廠家都向英偉達(dá)下了1.5萬(wàn)-1.6萬(wàn)的A800和H800訂單,每家的金額在十幾億美金左右。大概保證在2024年能有足夠的產(chǎn)能。留給國(guó)內(nèi)廠商的時(shí)間不多,既要解決性能問(wèn)題,也要解決軟件兼容問(wèn)題,難度很大。國(guó)內(nèi)廠家更多關(guān)注大模型的推理場(chǎng)景。Q:推理方面一個(gè)用戶需要5張A100,那么一億個(gè)用戶呢?A:以chatGPT來(lái)講,需要5張A100才能滿足一個(gè)客戶的一次性訪問(wèn)。線性疊加指的是并行訪問(wèn),以谷歌為例,并行訪問(wèn)量每秒鐘大概是20萬(wàn)次,未來(lái)GPT大概

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論