版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
分析師:金榮(S0010521080002)2024年2月6日華安證券研究所AIGC行業(yè):大模型改變開發(fā)及交互環(huán)境,處于高速迭代創(chuàng)新周期證券研究報(bào)告2投資建議GPTs上線2個(gè)月后用戶便創(chuàng)建了超過300萬個(gè)應(yīng)用,GPT提供了基于大模型的原生開發(fā)環(huán)境,用戶可通過更加自然的語言交互方式,減少對(duì)傳統(tǒng)GUI的依賴,同時(shí)多模態(tài)的趨勢(shì)仍在繼續(xù),大模型仍處于高速創(chuàng)新迭代周期,頭部公司對(duì)2024年的Gen
AI的資本開支保持積極,建議關(guān)注AI算力及大模型布局廠商
NVIDIA,AMD,Intel,IBM,Microsoft,Alphabet,Amazon,Arista,百度集團(tuán)-SW,阿里巴巴-SW,騰訊控股等。上游算力側(cè):受AI產(chǎn)業(yè)驅(qū)動(dòng)影響,算力需求持續(xù)擴(kuò)張,AI大模型的持續(xù)優(yōu)化及多樣化AI應(yīng)用終端的入市商用持續(xù)提升全球算力需求,推動(dòng)AI基礎(chǔ)設(shè)施建設(shè),在AI基建需求出現(xiàn)井噴的情況下,全球主流AI芯片廠商最新季度業(yè)績(jī)均超市場(chǎng)預(yù)期,建議關(guān)注算力板塊機(jī)會(huì)。1)臺(tái)積電:2023Q4
營(yíng)業(yè)收入
196.7
億美元,基本符合預(yù)期。調(diào)整后凈利潤(rùn)
75.1
億美元,超一致預(yù)期5.4
。AI
方面,公司預(yù)計(jì)未來
AI
收入的
CAGR
有望達(dá)到
50
。2)AMD:23Q3營(yíng)收58億美元,yoy+4
,qoq+21
,超過彭博一致預(yù)期57億美元。1月30日,公司對(duì)AI芯片業(yè)務(wù)收入上調(diào)指引75
,預(yù)計(jì)2024年AMD人工智能芯片的銷售額將達(dá)到35億美元以上(此前指引為20億美元)。3)Meta:1月19日,扎克伯格宣布Meta內(nèi)部正在訓(xùn)練下一代模型Llama
3,而到2024年底Meta將擁有35萬塊H100,擁有近60萬個(gè)GPU等效算力,這些算力很大部分將用于訓(xùn)練Llama
3大模型。4)NVIDIA:FY24Q3,公司收入同比上升206
至181.2億美元,大超此前160億美元的指引,四季度指引收入200±2
億美元,這也是由于大語言模型帶動(dòng)的訓(xùn)練和推理算力需求較為強(qiáng)勁,各大數(shù)據(jù)中心均加大了對(duì)英偉達(dá)AI芯片(H100、A100等)和HGX平臺(tái)的采購(gòu)力度導(dǎo)致的。建議關(guān)注:臺(tái)積電、AMD、Nvidia等。23年以來大模型重點(diǎn)發(fā)展方向:1)NLP領(lǐng)域:23年隨著GPT4、GPT4
Turbo、Gemini的陸續(xù)推出,我們可以看出NLP領(lǐng)域大模型的發(fā)展趨勢(shì)體現(xiàn)在兩方面:①模型參數(shù)量呈現(xiàn)增長(zhǎng)趨勢(shì);②由單模態(tài)向多模態(tài)演變。其中,參數(shù)量規(guī)模的增長(zhǎng)在很大程度上推動(dòng)了大模型的學(xué)習(xí)能力(但不絕對(duì),也取決于模型的算法和參數(shù)質(zhì)量,過多的參數(shù)也會(huì)導(dǎo)致過擬合情況發(fā)生),而大模型由單模態(tài)向多模態(tài)的演變,也意味著模型能夠處理和理解來自不同數(shù)據(jù)模態(tài)的信息,這些模態(tài)可以包括但不限于圖像、文本、音頻、視頻等,實(shí)現(xiàn)復(fù)雜生成任務(wù)。建議關(guān)注在相關(guān)領(lǐng)域持續(xù)探索AI算法的公司,關(guān)注阿里巴巴-SW、京東集團(tuán)-SW、焦點(diǎn)科技、值得買、網(wǎng)易-S、騰訊控股、吉比特、三七互娛、巨人網(wǎng)絡(luò)、天娛數(shù)科、科大訊飛、昆侖萬維等。敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明3敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明投資建議CV領(lǐng)域:通過復(fù)盤CV領(lǐng)域主流應(yīng)用(Midjourney、Dall·E和Stable
Diffusion)的版本迭代,其發(fā)展方向除了生成內(nèi)容的質(zhì)量?jī)?yōu)化外(如清晰度、生成時(shí)長(zhǎng)),也向多模態(tài)、更具可控性(指模型對(duì)Prompt理解能力的躍升等)。在技術(shù)升級(jí)方面,23年3D
GS推出,相較于原始的NeRF方法,3D
GS在實(shí)現(xiàn)高質(zhì)量渲染的同時(shí)可以做到實(shí)時(shí)渲染。此外,2023年初ControlNet
橫空出世,與傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)不同,ControlNet
允許用戶對(duì)生成的圖像進(jìn)行精細(xì)的控制,給出了一條完美解決
AI
繪畫發(fā)展進(jìn)程中“精準(zhǔn)控制”難題的道路。我們認(rèn)為新的底層技術(shù)為其產(chǎn)品的可用性賦能,會(huì)使得用戶使用學(xué)習(xí)成本更低,吸引更多B或者C的用戶,并提升用戶的留存及復(fù)購(gòu),建議關(guān)注布局大模型的阿里巴巴-SW、騰訊控股、百度集團(tuán)-SW、美圖公司、昆侖萬維、科大訊飛等。此外,CV領(lǐng)域的發(fā)展會(huì)提高電影、動(dòng)畫片制作、游戲建模的生產(chǎn)效率,從而生產(chǎn)更多優(yōu)質(zhì)內(nèi)容,建議關(guān)注兼具IP的上海電影、光線傳媒、華策影視、奧飛娛樂等,以及游戲相關(guān)板塊的騰訊控股、網(wǎng)易-S、三七互娛、盛天網(wǎng)絡(luò)等。應(yīng)用側(cè):海內(nèi)外AI應(yīng)用相繼落地,2024年1月份GPTStore的上線催生出了新的商業(yè)模式,AI大模型應(yīng)用將迎來新一輪熱潮,建議關(guān)注海內(nèi)外AI應(yīng)用的落地情況。GPTStore上線后,OpenAI把GPT-4
vision(視覺)、Code
interpreter(代碼)、DALLE-3(圖像)、TTS(語音)的API進(jìn)行開放,并且新推出了Assistants
API。所以用戶除了可以使用除了目前已有的300多萬個(gè)應(yīng)用之外,ChatGPT
Plus用戶也可以自己創(chuàng)建新的GPT上架到GPTStore中供其他用戶付費(fèi)使用。此外,微軟也于2023年11月1日正式上線包含Copilot集成的Microsoft
365應(yīng)用程序,為企業(yè)客戶提供商用服務(wù),24年1月15日,微軟宣布
Copilot
Pro正式面向個(gè)人,用戶可以
Edge瀏覽器和
Microsoft
Office
365上使用Copilot
Pro。國(guó)內(nèi)方面,以豆包、天工、文心一言等為代表的AI應(yīng)用用戶規(guī)模呈現(xiàn)持續(xù)增長(zhǎng)勢(shì)頭,建議關(guān)注具有AI應(yīng)用布局的公司:Microsoft、阿里巴巴-SW、騰訊控股、科大訊飛、美圖公司等。硬件側(cè):當(dāng)前手機(jī)和PC受AI驅(qū)動(dòng)影響,預(yù)計(jì)將迎來新一輪換機(jī)潮,主流手機(jī)廠商已經(jīng)陸續(xù)自研大模型,部分旗艦款手機(jī)已經(jīng)側(cè)端搭載大模型發(fā)售,以聯(lián)想、戴爾、華碩為代表的主流PC廠商也將在今年陸續(xù)發(fā)售自家旗艦AIPC,建議關(guān)注AI手機(jī)和AIPC產(chǎn)品的落地情況,建議關(guān)注小米集團(tuán)-W、聯(lián)想集團(tuán)、戴爾科技等。風(fēng)險(xiǎn)提示:人工智能相關(guān)政策風(fēng)險(xiǎn);AI模型等技術(shù)進(jìn)步不及預(yù)期;用戶增長(zhǎng)不及預(yù)期等。4敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明目錄LLM發(fā)展歷程與變遷趨勢(shì)LLM爆發(fā)關(guān)鍵節(jié)點(diǎn):2017年Transformer架構(gòu)的出現(xiàn)海外LLM大模型布局:科技巨頭領(lǐng)銜行業(yè),版本持續(xù)迭代國(guó)內(nèi)主流玩家大模型布局:互聯(lián)網(wǎng)大廠大模型相繼落地,主要賦能自身旗下產(chǎn)品CV領(lǐng)域發(fā)展歷程與變遷趨勢(shì)CV領(lǐng)域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進(jìn)方向23年以來CV領(lǐng)域技術(shù)升級(jí):3D渲染能力增強(qiáng),生成內(nèi)容更為精準(zhǔn)可控CV領(lǐng)域主流應(yīng)用迭代歷程:生成內(nèi)容更為精細(xì),Prompt理解能力進(jìn)一步深入AI手機(jī)+AIPC主流廠家布局盤點(diǎn):AI驅(qū)動(dòng)新一輪換機(jī)潮,關(guān)注AI產(chǎn)品落地情況海內(nèi)外熱門AI應(yīng)用盤點(diǎn):聊天類機(jī)器人仍是主流,海內(nèi)外主流應(yīng)用用戶規(guī)模持續(xù)擴(kuò)大國(guó)內(nèi)熱門AI應(yīng)用:豆包、天工、文心一言海外熱門AI應(yīng)用:ChatGPT、Bard、Poe、Notion、Bing、Character.ai5資料來源:CNDS,華安證券研究所整理注:Xt為輸入值,ht為輸出值LLM大模型爆發(fā)的關(guān)鍵節(jié)點(diǎn):
2017年“Transformer”模型的出現(xiàn)在“Transformer”模型還未出現(xiàn)時(shí),NLP(自然語言處理)領(lǐng)域的主流架構(gòu)基本采用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)),RNN的痛點(diǎn)可以總結(jié)為兩點(diǎn):①由于遞歸性質(zhì),訓(xùn)練過程中通常無法并行計(jì)算;RNN在工作過程中將會(huì)對(duì)內(nèi)容按順序逐字處理,每一步的輸出取決于先前的隱藏狀態(tài)和當(dāng)前的輸入,需要等到上一個(gè)步驟完成后才能進(jìn)行當(dāng)前計(jì)算,因此無法進(jìn)行并行計(jì)算,訓(xùn)練效率較低。②不擅長(zhǎng)處理長(zhǎng)序列、長(zhǎng)文本;當(dāng)
RNN
處理長(zhǎng)序列時(shí),由于信息的不斷累積,時(shí)間步長(zhǎng)增加時(shí),梯度會(huì)不斷變小,這會(huì)導(dǎo)致梯度消失或梯度爆炸問題,使得網(wǎng)絡(luò)難以學(xué)習(xí)長(zhǎng)期依賴(long-term
dependency)的關(guān)系。當(dāng)梯度消失時(shí),前面的信息無法有效地傳遞到后面,也就導(dǎo)致詞之間距離越遠(yuǎn),前面對(duì)后面的影響越弱,所以RNN難以有效的捕獲長(zhǎng)距離的語義關(guān)系,當(dāng)梯度爆炸時(shí),網(wǎng)絡(luò)的權(quán)重會(huì)變得極大,導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定。雖然之后也出現(xiàn)了如LSTM(Long
Short-Term
Memory)和GRU(Gated
Recurrent
Unit)等的RNN變體,但解決長(zhǎng)期依賴問題的能力也有限,也依舊無法解決無法并行計(jì)算的痛點(diǎn)。注:長(zhǎng)期依賴(long-term
dependency):在一個(gè)序列中,后面的某個(gè)位置的輸出,可能會(huì)依賴于前面的若干個(gè)位置的輸入,這種依賴跨越了很長(zhǎng)的時(shí)間間隔。圖表1:RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))架構(gòu)示意圖敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明6LLM大模型爆發(fā)的關(guān)鍵節(jié)點(diǎn):
2017年“Transformer”模型的出現(xiàn)“Transformer”是谷歌的研究團(tuán)隊(duì)在2017年6月在論文《Attention
is
All
YouNeed》中首次發(fā)布的。該論文提出了一種全新的序列轉(zhuǎn)換架構(gòu),完全基于自注意力機(jī)制,摒棄了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在處理序列數(shù)據(jù)時(shí)的局限性?!癟ransformer”有能力學(xué)習(xí)輸入序列里所有詞的相關(guān)性,不會(huì)受到短時(shí)記憶的影響。我們可以將“Transformer”的創(chuàng)新總結(jié)為兩點(diǎn):①自注意力機(jī)制;②位置編碼。其中,“Transformer”的自注意力機(jī)制簡(jiǎn)單來說就是“Transformer”在處理每個(gè)詞的時(shí)候,不僅會(huì)關(guān)注這個(gè)詞本身以及附近的詞,還會(huì)去注意輸入序列里所有其他的詞,然后給予每個(gè)詞不一樣的注意力權(quán)重(權(quán)重是模型通過大量文本訓(xùn)練習(xí)得的)。圖表2:Transformer架構(gòu)示意圖Encoder(編碼器)圖表3:Transformer多頭自注意力機(jī)制(Multi-Head
Attention)Decoder(解碼器)例:“Theanimaldidn'tcrossthestreetbecauseitwastoo
tired”,其中“it”可以代指任何東西,“Transformer”中的注意力機(jī)制可以關(guān)注到輸入序列里所有詞,并給予不同權(quán)重,而像這樣的自注意力機(jī)制有很多個(gè),每個(gè)自注意力機(jī)制都有自己的注意力權(quán)重,用來關(guān)注文本里不同特征,每個(gè)權(quán)重互不影響,也就意味著可以實(shí)現(xiàn)并行計(jì)算。資料來源:《Attention
is
all
your
need》,華安證券研究所整理資料來源:CNDS,華安證券研究所整理敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明7LLM大模型爆發(fā)的關(guān)鍵節(jié)點(diǎn):
2017年“Transformer”模型的出現(xiàn)Transformer模型拋棄了RNN、CNN作為序列學(xué)習(xí)的基本模型,循環(huán)神經(jīng)網(wǎng)絡(luò)本身就是一種順序結(jié)構(gòu),天生就包含了詞在序列中的位置信息。當(dāng)拋棄循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),完全采用Attention取而代之,這些詞序信息就會(huì)丟失,模型就沒有辦法知道每個(gè)詞在句子中的相對(duì)和絕對(duì)的位置信息。因此,有必要把詞序信號(hào)加到詞向量上幫助模型學(xué)習(xí)這些信息,位置編碼(PositionalEncoding)就是用來解決這種問題的方法。圖表4:Transformer架構(gòu)示意圖例:當(dāng)接收到輸入內(nèi)容后,“Transformer”與其他NLP模型一樣,會(huì)將詞轉(zhuǎn)化為詞向量(這里舉例維度為4個(gè),但在Transformer中詞向量維度為512個(gè),每個(gè)維度都代表不同特征),此外還會(huì)根據(jù)每個(gè)詞所在文中的不同位置,給予位置向量。這樣就可以實(shí)現(xiàn)讓模型既理解每個(gè)詞的意義,又能夠捕獲每個(gè)詞在文中的位置,從而理解不同詞之間的順序關(guān)系。借助位置編碼,詞可以不按順序輸入給神經(jīng)網(wǎng)絡(luò),模型可以同時(shí)處理輸入序列里的所有位置,不需要像RNN那樣依次處理。圖表5:位置編碼(PositionalEncoding)示意圖資料來源:《Attention
is
all
your
need》,華安證券研究所整理資料來源:CNDS,華安證券研究所整理敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明8資料來源:CNDS,華安證券研究所整理基于Transformer架構(gòu)的LLM發(fā)展圖譜:Decoder-only成為主流圖表6:基于Transformer架構(gòu)的LLM發(fā)展圖譜敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明①粉色枝:Encoder-Only(僅用解碼器)。代表LLM為BERT,該類模型主要用于處理輸入數(shù)據(jù),專注于理解和編碼信息,而不是生成新的文本。②綠色枝:Encoder-Decoder(編碼器+解碼器)。代表LLM為T5,該類模型擅長(zhǎng)處理需要理解輸入然后生成相關(guān)輸出的任務(wù),比如翻譯或問答系統(tǒng)。③藍(lán)色枝:Decoder-Only(僅解碼器)。代表LLM為GPT系、LLaMA、Bard等。該類模型擅長(zhǎng)創(chuàng)造性的寫作,比如寫小說或自動(dòng)生成文章。它更多關(guān)注于從已有的信息(開頭)擴(kuò)展出新的內(nèi)容。這種架構(gòu)能夠更好地理解和預(yù)測(cè)語言模式,尤其適合處理開放式的、生成性的任務(wù)。*注:實(shí)心方框?yàn)殚_源模型,空心方框?yàn)殚]源模型9敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明目錄LLM發(fā)展歷程與變遷趨勢(shì)LLM爆發(fā)關(guān)鍵節(jié)點(diǎn):2017年Transformer架構(gòu)的出現(xiàn)海外LLM大模型布局:科技巨頭領(lǐng)銜行業(yè),版本持續(xù)迭代國(guó)內(nèi)主流玩家大模型布局:互聯(lián)網(wǎng)大廠大模型相繼落地,主要賦能自身旗下產(chǎn)品CV領(lǐng)域發(fā)展歷程與變遷趨勢(shì)CV領(lǐng)域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進(jìn)方向23年以來CV領(lǐng)域技術(shù)升級(jí):3D渲染能力增強(qiáng),生成內(nèi)容更為精準(zhǔn)可控CV領(lǐng)域主流應(yīng)用迭代歷程:生成內(nèi)容更為精細(xì),Prompt理解能力進(jìn)一步深入AI手機(jī)+AIPC主流廠家布局盤點(diǎn):AI驅(qū)動(dòng)新一輪換機(jī)潮,關(guān)注AI產(chǎn)品落地情況海內(nèi)外熱門AI應(yīng)用盤點(diǎn):聊天類機(jī)器人仍是主流,海內(nèi)外主流應(yīng)用用戶規(guī)模持續(xù)擴(kuò)大國(guó)內(nèi)熱門AI應(yīng)用:豆包、天工、文心一言海外熱門AI應(yīng)用:ChatGPT、Bard、Poe、Notion、Bing、Character.ai10敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明圖表7:海外公司大模型布局海外LLM大模型布局:科技巨頭領(lǐng)銜行業(yè),版本持續(xù)迭代模型公司大模型分類版本技術(shù)能力微軟/OpenAIGPTGPT-12018年6月,GPT-1發(fā)布,參數(shù)量達(dá)到1.17億個(gè),語言泛化能力不足,無法解決通用的語言任務(wù);GPT-22019年2月,GPT-2發(fā)布,參數(shù)量達(dá)到15億個(gè),舍棄模型微調(diào),通過大模型進(jìn)行預(yù)訓(xùn)練,開始能夠解決多語言任務(wù)能力;GPT-32020年5月,GPT-3發(fā)布,參數(shù)量達(dá)到1750億個(gè),引入In-context訓(xùn)練方式學(xué)習(xí)上下文,翻譯、聊天問答和文本填空等任務(wù)表現(xiàn)出色,能夠生成難辯真假新聞的能力;InstructGP2022年3月,InstructGPT發(fā)布,參數(shù)量達(dá)到5400億個(gè);ChatGPT2022年11月,推出對(duì)話式AI模型ChatGPT,由GPT-3.5大型語言模型微調(diào)而來,并引入人工反饋的強(qiáng)化學(xué)習(xí)(RLHF)。能夠處理復(fù)雜語言工作,包括自動(dòng)文本生成、自動(dòng)問答、編寫和調(diào)試計(jì)算機(jī)程序及創(chuàng)作故事;GPT-42023年3月,GPT-4發(fā)布,參數(shù)量為1.8萬億,能夠閱讀文字和識(shí)別圖像并生成文本結(jié)果,回復(fù)的準(zhǔn)確性較歷史版本有提升;GPT-4
Turbo和GPTs2023年11月,GPT-4
Turbo和GPTs發(fā)布,GPT-4
Turbo上下文理解能力強(qiáng)化,控制權(quán)更靈活,價(jià)格更具競(jìng)爭(zhēng)力,GPTs可以通過適當(dāng)指令構(gòu)建GPT;GoogleGeminiUltra谷歌最強(qiáng)大的模型,在廣泛的高度復(fù)雜的任務(wù)中提供最先進(jìn)的性能,包括推理和多模態(tài)任務(wù),可以在TPU加速器上有效地提供服務(wù),能夠完成高度復(fù)雜的任務(wù),主要面向數(shù)據(jù)中心和企業(yè)級(jí)應(yīng)用。Pro在成本和延遲方面的性能優(yōu)化模型,在廣泛的任務(wù)中提供顯著的性能。該模型具有較強(qiáng)的推理性能和廣泛的多模態(tài)能力。NanoGemini
Nano是三個(gè)版本中最小、最高效的模型,本專為移動(dòng)設(shè)備和特定任務(wù)設(shè)計(jì),這使得它成為在智能手機(jī)和其他便攜設(shè)備上實(shí)現(xiàn)先進(jìn)AI功能的理想選擇。其中,Nano-1的參數(shù)為1.8B,Nano-2為3.25B,分別針對(duì)低內(nèi)存和高內(nèi)存設(shè)備。BERTBERT-baseGoogle在2018年推出的一種革命性的預(yù)訓(xùn)練語言模型。它基于Transformer架構(gòu),摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或卷積神經(jīng)網(wǎng)絡(luò)(CNN),使得模型并行計(jì)算成為可能,大大提升了訓(xùn)練效率。其中參數(shù)方面,BERT-base具有12層Transformer塊(encoder層),每層有12個(gè)自注意力頭,參數(shù)量大約在110M左右,BERT-large參數(shù)量大約是340M左右。BERT-largeT5T5一種統(tǒng)一文本到文本轉(zhuǎn)換框架的預(yù)訓(xùn)練模型,由Google在2020年提出。該模型的設(shè)計(jì)理念是將所有自然語言處理任務(wù)都轉(zhuǎn)化為文本到文本的任務(wù),即無論是機(jī)器翻譯、問答、摘要生成還是文本分類等任務(wù),輸入和輸出都是文本形式。T5家族包含多個(gè)版本,參數(shù)量從60M到11B不等LaMDALaMDA
1.0是一款專門針對(duì)對(duì)話應(yīng)用設(shè)計(jì)的大型預(yù)訓(xùn)練語言模型,于2021年推出。該模型是Google在自然語言處理領(lǐng)域的一項(xiàng)重要突破,旨在通過深度學(xué)習(xí)技術(shù)提供更為流暢、連貫和有意義的對(duì)話體驗(yàn),具備開放式對(duì)話能力。參數(shù)量方面,LaMDA
1.0參數(shù)量未知,LaMDA
2.0參數(shù)量為1370億個(gè)。LaMDA
2.0MUM模型于2021年5月在Google
I/O大會(huì)上首次被推出,MUM通過訓(xùn)練來完成多種復(fù)雜的NLP任務(wù),例如問題解答、文檔摘要生成、語義相似度計(jì)算等,與BERT等前一代模型相比,MUM更擅長(zhǎng)理解復(fù)雜查詢的上下文,包括用戶的潛在需求和意圖。PaLMPaLM最初公開的PaLM模型版本之一,其參數(shù)量達(dá)到5400億,2022年4月前發(fā)布PaLM-2在
2023谷歌
I/O大會(huì)上,谷歌
CEO皮查伊宣布推出對(duì)標(biāo)
GPT-4的大模型
PaLM2,并正式發(fā)布預(yù)覽版本,改進(jìn)了數(shù)學(xué)、代碼、推理、多語言翻譯和自然語言生成能力,訓(xùn)練參數(shù)量達(dá)3400億,分為S\M\L三個(gè)規(guī)模的版本。PaLM-E2023年3月6日,谷歌和德國(guó)柏林工業(yè)大學(xué)的人工智能研究人員公布了PaLM-E,PaLM-E由兩部分組成,PaLM(5400億)+ViT-22B(220億),也就是
540B
的語言參數(shù)+
22B
的圖像參數(shù)。PaLM-E整合了視覺信息處理能力,能夠理解圖像并結(jié)合文本進(jìn)行生成和推理,成為當(dāng)時(shí)已知的最大規(guī)模的“通才”AI模型。11敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明資料來源:各公司官網(wǎng),Wikipedia,華安證券研究所整理海外LLM大模型布局:科技巨頭領(lǐng)銜行業(yè),版本持續(xù)迭代模型公司大模型分類版本技術(shù)能力MetaLLaMALLaMA1是MetaAI公司于2023年2月發(fā)布的大型語言模型。它訓(xùn)練了各種模型,這些模型的參數(shù)從70億到650億不等。LLaMA22023年7月,Meta推出了LLaMA2,Meta訓(xùn)練并發(fā)布了三種模型大小的
Llama
2:70、130
和
700億個(gè)參數(shù),模型架構(gòu)與
Llama
1模型基本保持不變Code
LLaMA2023年8月,Meta繼發(fā)布用于生成文本、翻譯語言和創(chuàng)建音頻的人工智能模型之后,開源了
Code
Llama。這是一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),可以用自然語言(特別是英語)生成和解釋代碼。可以免費(fèi)商用和研究。OPT-175BOPT-175B是由Meta
AI于2022年發(fā)布的一個(gè)大型預(yù)訓(xùn)練語言模型,擁有約1750億個(gè)參數(shù)。作為一款開源模型,OPT-175B在規(guī)模上與GPT-3相當(dāng),但它的主要特點(diǎn)是完全免費(fèi)開放給研究社區(qū)使用。OPT-175B通過大規(guī)模文本數(shù)據(jù)集進(jìn)行訓(xùn)練,旨在提供強(qiáng)大的自然語言處理能力,包括但不限于文本生成、問答系統(tǒng)、語義理解和對(duì)話交互等方面。SeamlessM4TSeamlessM4T-Large
v2是Meta于2023年發(fā)布的一款先進(jìn)的人工智能模型,專門針對(duì)多語言翻譯和轉(zhuǎn)錄任務(wù)設(shè)計(jì)。該模型能夠支持近100種不同語言之間的文本到文本、文本到語音以及語音到語音的翻譯,并且在語音識(shí)別和合成方面表現(xiàn)出強(qiáng)大的能力。參數(shù)方面,Large
v1和v2均為2.3B,medium版本為1.2B.SeamlessM4T-Large
(v1)SeamlessM4T-Medium
(v1)AmazonAmazon
TitanTitanText
Express可用于檢索增強(qiáng)生成、開放式文本生成、頭腦風(fēng)暴、摘要、代碼生成、表格創(chuàng)建、數(shù)據(jù)格式化、釋義、思維鏈、重寫、提取、問答和聊天。支持100+語言,最高輸出8ktokensTitanText
Lite適合文本生成任務(wù)和微調(diào),僅支持英語,最高輸出4ktokens。TitanText
Embeddings適用于文本檢索、語義相似性和聚類,支持25+種語言,最高輸出8ktokens。TitanMultimodal
Embeddings可提供準(zhǔn)確的多模式搜索,僅支持英語,最高輸出128tokens,最大輸出圖片大小為25MB。TitanImage
Generator適用于文本到圖像生成、圖像編輯、圖像變體,最高輸出77tokens,最大輸入圖片大小為25MBOlympus暫無細(xì)節(jié)披露AnthropicClaudeClaude初代版本包括Claude1.0、claude-instant-1、
claude-1.2、
claude-1.3等Claude2.0全球公測(cè)開始于2023年12月24日前后,該版本增強(qiáng)了AI模型,并支持文檔上傳識(shí)別功能Claude2.1發(fā)布日期為2023年11月,這個(gè)版本支持輸入多達(dá)20萬個(gè)Token,并且改進(jìn)了準(zhǔn)確度,同時(shí)增加了新的系統(tǒng)預(yù)設(shè)功能或其他增強(qiáng)特性。InflectionInflection
1.0發(fā)布于2023年6月22日,在大規(guī)模多任務(wù)語言理解(MMLU)中,優(yōu)于Meta的LLAMA、OpenAI的GPT
3.5和谷歌的PaLM
(540B)。Inflection
2.0發(fā)布于2023年11月22日,在
MMLU上評(píng)估中,Inflection-2
是
GPT-4之外性能最高的模型,甚至思維鏈推理優(yōu)于
Claude
2。xAIGrokGrok
1.0于
2023年
11月發(fā)布,上下文長(zhǎng)度為
8,192個(gè)token,用于自然語言處理任務(wù),包括問答、信息檢索、創(chuàng)意寫作和編碼輔助。圖表7:海外公司大模型布局(續(xù)表)12敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明模型名稱模型類型應(yīng)用軟件應(yīng)用上線時(shí)間軟件所屬公司公司是否上市軟件所屬公司融資情況應(yīng)用描述商業(yè)模式戰(zhàn)略合作關(guān)系GPT3NLPCopy.ai2020-10-1CopyAI
Inc否種子輪:CraftVentures領(lǐng)投,融資數(shù)額290萬美金文本生成類:用于自動(dòng)化文案生成包括廣告文案、博客
文章、社交媒體帖子、產(chǎn)品描述免費(fèi)(有收費(fèi)Pro版)groove、zoom、hubspot、confluent、seismic、datadogA輪:WingVentureCapital領(lǐng)投,紅杉、Tiger、個(gè)人天使投資人EladGil跟投,融資數(shù)額1100萬美金Jasper
AI2021-1-1Jasper否2022年10月:融資額1.31億美金,估值15億美元文本生成類:用于自動(dòng)化生成高質(zhì)量的營(yíng)銷和廣告文案、
博客文章、產(chǎn)品描述、電子郵件、社交媒體帖子等收費(fèi),基礎(chǔ)版$29.99每月intel、klarna、
zoomDeloitte、
ibm、Google、
airbnb、digital
marketerNotion.AI2022-11-1Notion否天使輪:2013年融資200萬美元A輪:2019年7月融資1800萬美金B(yǎng)輪:2020年4月融資5000萬美金C輪:2021年10月融資2.5億美元,投后估值103億美元文本生成類:能幫助用戶快速生成和修改文本內(nèi)容,可運(yùn)
用在文學(xué)、會(huì)議日程、新聞稿、銷售文案等內(nèi)容的輔助性
創(chuàng)作中免費(fèi)(有收費(fèi)Pro版)airbnb、nike、Amazon、uber、toyota、ibm等Replica2016-02Luka
Inc否A1輪:2016年4月獲442萬美元融資文本生成類:可以模擬人類對(duì)話,對(duì)用戶的輸入提供真實(shí)的反應(yīng),可用于心理健康咨詢、語言學(xué)習(xí)、娛樂等。免費(fèi)(有收費(fèi)Pro版)A2輪:2017年11月獲650萬美元融資Elai2021Elai.io否2022年獲5萬美元融資視頻生成類:只需要文本就能制作出有真人主持的專業(yè)視
頻,可用于教育、營(yíng)銷、企業(yè)溝通、帶貨等用途收費(fèi),基礎(chǔ)版$29每月partner:NVidia、Amazon、Microsoft、thinkific、Googlefor
startupInworld:AI2022-04Inworld:AI否種子輪:21年11月融資700萬美元(投資方包括Meta);Pre-A輪:22年3月融資1000萬美元;A輪:22年8月獲得Intel
Capital領(lǐng)投的5000萬美元3D生成類:文生NPC,可創(chuàng)建角色設(shè)定場(chǎng)景、設(shè)定世界觀
常識(shí)等免費(fèi),(有收
費(fèi)基礎(chǔ)版$10/
月、專業(yè)版、
定制版)DisneyDALL·E多模態(tài)Craiyon2021-06Boris
Dayma(個(gè)人)否圖像生成類:只需要在搜索框中輸入相應(yīng)場(chǎng)景的文字描述,就能生成各種或唯美、搞笑又或者是畫面驚悚的圖片。免費(fèi)(有收費(fèi)Pro版)CLIP多模態(tài)starryai2021o
Kahn(個(gè)人否圖像生成類:能生成各種風(fēng)格和主題的藝術(shù)作品,可為客戶
提供所創(chuàng)建圖像的完全所有權(quán),可用于個(gè)人或商業(yè)用途。免費(fèi)(有收費(fèi)
會(huì)員和積分制
度)GPT-4多模態(tài)GitHubCopilot
X2023-03GitHub否A輪:2012年由AndreessenHorowitz領(lǐng)投,融資1億美元代碼生成類:具備對(duì)話、文本生成代碼、語音生成代碼、自動(dòng)修復(fù)代碼Bug,以及解釋代碼等功能收費(fèi),個(gè)人版$10每月微軟旗下的公司,與Open
AI合作開發(fā)B輪:2015年由SequoiaCapital領(lǐng)投,融資2.5億美元GPT-4
Turbo多模態(tài)MicrosoftCopilot2023-12Microsoft是2013年,微軟曾發(fā)行了80億美元的債券;2015年,微軟進(jìn)行了一次大舉發(fā)債融資,金額高達(dá)107.5億美元2016年,為了籌集收購(gòu)領(lǐng)英的資金,微軟發(fā)債融資達(dá)到197.5億美元。人工智能輔助工具:具備代碼編寫;文檔創(chuàng)作、辦公協(xié)同、搜索與問答自定義助手構(gòu)建、部分用戶免費(fèi),Microsoft365
Copilot定$30每/月微軟旗下的公司,與Open
AI合作開發(fā))海外LLM大模型布局:科技巨頭領(lǐng)銜行業(yè),版本持續(xù)迭代圖表8:海外大模型主要應(yīng)用13敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明模型所屬公司模型名稱模型類型應(yīng)用軟件應(yīng)用上線時(shí)間軟件所屬公司公司是否上市軟件所屬公司融資情況應(yīng)用描述商業(yè)模式戰(zhàn)略合作關(guān)系DeepMindBigGANCVArtbreeder2019-05StudioMorphoge(工作室)否圖像生成類:用于創(chuàng)作人物肖像、人物形
象、動(dòng)漫角色、建筑畫作、自然景觀等還包括改變面部特征的能力、免費(fèi)(有收費(fèi)Pro版)英偉達(dá)StyleGANCVGoogleViTCVMurf2020-10Murf否種子輪:Elevation
Capital領(lǐng)投,獲150萬美元融資音頻生成類:支持文本轉(zhuǎn)語音、添加視頻
旁白、幻燈片旁白、語音克隆,可用于
Youtubers、播客、有聲讀物、游戲、產(chǎn)
品和解說視頻中免費(fèi)(有收費(fèi)基礎(chǔ)版、專業(yè)版、企業(yè)版)A輪:Matrix
Partners領(lǐng)投,獲1000萬美元融資基于
transformerNLPMem2021-06Mem
Labs否A輪:22年11月獲得OpenAI領(lǐng)投的2350萬美元輔助決策類:AI驅(qū)動(dòng)的辦公記事應(yīng)用,可以幫助用戶快速記錄和整理個(gè)人信息數(shù)據(jù)
并利用AI將這些數(shù)據(jù)連接成有意義的知識(shí)
圖譜免費(fèi)(有收費(fèi)個(gè)人版$8/月,企業(yè)版$15/月、定制版)Open
AI為其投資方;為Twitter打造專屬功能Mem
itGemini
Pro多模態(tài)Bard2023-3-21Google是N.A.人工智能技術(shù)的聊天軟件:多角度回答問題、智能搜索集成、交互體驗(yàn)優(yōu)化、支持多語言交流、持續(xù)學(xué)習(xí)與提升、應(yīng)用場(chǎng)景廣泛免費(fèi)(計(jì)劃推出付費(fèi)版本)NotebookLM2023-12-09筆記應(yīng)用軟件:智能搜索和整理、內(nèi)容分析與理解、個(gè)性化學(xué)習(xí)輔助、增強(qiáng)交互體驗(yàn)、跨平臺(tái)整合免費(fèi)Gemini
Nano多模態(tài)AICore2023系統(tǒng)級(jí)模塊:允許開發(fā)者更加便捷地集成和利用AI模型在應(yīng)用程序中,以實(shí)現(xiàn)諸如語音識(shí)別、自然語言處理、圖像識(shí)別等智能化功能。為Google
Pixel
8Pro提供支持LaMDA
2.0NLPAITestKitchen2023-08實(shí)驗(yàn)性應(yīng)用程序:允許用戶在安全、可控的環(huán)境中測(cè)試和體驗(yàn)谷歌正在研發(fā)中的自然語言處理模型,如LaMDA(對(duì)話應(yīng)用模型)及其后續(xù)版本。PaLMNLPBard2023-3-21人工智能技術(shù)的聊天軟件:多角度回答問題、智能搜索集成、交互體驗(yàn)優(yōu)化、支持多語言交流、持續(xù)學(xué)習(xí)與提升、應(yīng)用場(chǎng)景廣泛免費(fèi)(計(jì)劃推出付費(fèi)版本)PaLM-2多模態(tài)Bard2023-3-21人工智能技術(shù)的聊天軟件:多角度回答問題、智能搜索集成、交互體驗(yàn)優(yōu)化、支持多語言交流、持續(xù)學(xué)習(xí)與提升、應(yīng)用場(chǎng)景廣泛免費(fèi)(計(jì)劃推出付費(fèi)版本)Gmail2004網(wǎng)絡(luò)郵件服務(wù):支持實(shí)時(shí)郵件同步、多賬戶管理、智能回復(fù)、自定義通知設(shè)置等諸多功能免費(fèi)PaLM-E多模態(tài)GoogleSearch1996搜索服務(wù):通過這款應(yīng)用輕松查找互聯(lián)網(wǎng)上的各種信息,包括網(wǎng)頁、圖片、視頻、新聞和本地商家信息等。日常搜索服務(wù)免費(fèi)GoogleAssistant2017智能語音助手:提供語音交互、多語言支持、智能家居控制、日程管理、信息獲取、娛樂功能、第三方應(yīng)用整合、情境感知服務(wù)免費(fèi)Google
Docs2005在線文檔處理軟件:允許用戶創(chuàng)建、編輯和共享多種類型的文檔并支持實(shí)時(shí)協(xié)作功能基本功能免費(fèi)、企業(yè)版$15/月MetaLLaMA2NLPAzure2010Microsoft是N.A.云計(jì)算服務(wù)平臺(tái):為用戶提供了廣泛的云服務(wù)選項(xiàng),涵蓋了計(jì)算存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫、人工智能、物聯(lián)網(wǎng)(IoT)、數(shù)據(jù)分析等多個(gè)領(lǐng)域收費(fèi),其收費(fèi)情況、根據(jù)所使用的服務(wù)類型、資源量、使用時(shí)長(zhǎng)等因素而定海外LLM大模型布局:科技巨頭領(lǐng)銜行業(yè),版本持續(xù)迭代14敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明模型所屬公司模型名稱模型類型應(yīng)用軟件應(yīng)用上線時(shí)間軟件所屬公司公司是否上市軟件所屬公司融資情況應(yīng)用描述商業(yè)模式戰(zhàn)略合作關(guān)系A(chǔ)mazonAmazonTitan多模態(tài)AmazonBedrock2023-09AWS否N.A.全托管服務(wù):允許用戶和開發(fā)者訪問多種領(lǐng)先的AI模型根據(jù)使用量、模型類型、計(jì)算資源消耗以及API調(diào)用次數(shù)等因素而定InflectionNLPStability.aiStableDiffusion(基于LatentDiffusionModels)多模態(tài)Stability.
ai2022-08Stabilityai否種子輪:22年10月,由Coatue
和Lightspeed領(lǐng)投,融資額1.01
億美金,估值10億美元圖像生成類:根據(jù)所需圖像的文本描述,
生成符合匹配該描述的高質(zhì)量圖像。免費(fèi)(有收費(fèi)Pro版)partner:Krikey.ai、亞馬遜、GeeneeMidjourneyMidjourneyV5(基于DiffusionModels)多模態(tài)Midjourney2022-03Midjourney否N.A.圖像生成類:根據(jù)所需圖像的文本描述,
生成相對(duì)應(yīng)的圖片,可以選擇不同畫家的
藝術(shù)風(fēng)格例如安迪華荷、達(dá)芬奇、達(dá)利
和畢加索等,還能識(shí)別特定鏡頭或攝影術(shù)語。收費(fèi),基礎(chǔ)版$10每月partner:MirrorX、Discard、NFT加州大學(xué)伯克利分校、谷歌加州大學(xué)圣地亞哥分校、NeRF多模態(tài)Luma2021-09Luma
AI否種子輪:2021年10月,獲得SouthPark
Commons、Matrix
Partners等投資,數(shù)額為430萬美元;A輪:23年3月,由AmplifyPartners領(lǐng)投,NVIDIA(Nventures)等跟投,融資數(shù)額為2000萬美元3D生成類:基于神經(jīng)渲染技術(shù),可以拍攝
少量照片來生成、著色和渲染產(chǎn)品的逼真3D模型。按次收費(fèi),每個(gè)視頻1美元,容量限
制5GBAmplifyPartners、GeneralCatalyst投
資Runwaygen-2多模態(tài)RunwayAI2023-03Runway否B輪:21年12月融資3500萬美元;C輪:22年12月融資5000萬美元視頻生成類:允許用戶從零開始生成視頻
可以文生視頻、文本+參考圖像生視頻、
靜態(tài)圖片轉(zhuǎn)視頻gen-1免費(fèi),gen-2處于內(nèi)測(cè)階段,
尚未開放使用參與開發(fā)StableDiffusion模型海外LLM大模型布局:科技巨頭領(lǐng)銜行業(yè),版本持續(xù)迭代資料來源:各公司官網(wǎng),華安證券研究所整理15資料來源:各公司官網(wǎng),Wikipedia,華安證券研究所整理圖表9:主流大模型發(fā)展趨勢(shì)大模型發(fā)展趨勢(shì):參數(shù)規(guī)模擴(kuò)大+向多模態(tài)演進(jìn)模型名稱公司參數(shù)量(億)發(fā)布日期模態(tài)Gemini-UltraGoogle未知2023多模態(tài)GPT-4OpenAI180002023多模態(tài)PaLM-EGoogle56202023多模態(tài)GPT-3OpenAI17502020NLPT5Google112020NLPGPT-2OpenAI152019NLPBERTGoogle3.42018NLP資料來源:公司官網(wǎng),華安證券研究所整理敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明通過回溯主流模型迭代情況,我們可以將LLM大模型的發(fā)展趨勢(shì)總結(jié)為兩點(diǎn):①模型參數(shù)量呈現(xiàn)增長(zhǎng)趨勢(shì);②由單模態(tài)向多模態(tài)演變。其中,參數(shù)量規(guī)模的增長(zhǎng)在很大程度上推動(dòng)了大模型的學(xué)習(xí)能力(但不絕對(duì),也取決于模型的算法和參數(shù)質(zhì)量,過多的參數(shù)也會(huì)導(dǎo)致過擬合情況發(fā)生),而大模型由單模態(tài)向多模態(tài)的演變,也意味著模型能夠處理和理解來自不同數(shù)據(jù)模態(tài)的信息,這些模態(tài)可以包括但不限于圖像、文本、音頻、視頻等,實(shí)現(xiàn)復(fù)雜生成任務(wù)。圖表10:ChatGPT4可以實(shí)現(xiàn)圖像輸入識(shí)別16敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明目錄LLM發(fā)展歷程與變遷趨勢(shì)LLM爆發(fā)關(guān)鍵節(jié)點(diǎn):2017年Transformer架構(gòu)的出現(xiàn)海外LLM大模型布局:科技巨頭領(lǐng)銜行業(yè),版本持續(xù)迭代國(guó)內(nèi)主流玩家大模型布局:互聯(lián)網(wǎng)大廠大模型相繼落地,主要賦能自身旗下產(chǎn)品CV領(lǐng)域發(fā)展歷程與變遷趨勢(shì)CV領(lǐng)域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進(jìn)方向23年以來CV領(lǐng)域技術(shù)升級(jí):3D渲染能力增強(qiáng),生成內(nèi)容更為精準(zhǔn)可控CV領(lǐng)域主流應(yīng)用迭代歷程:生成內(nèi)容更為精細(xì),Prompt理解能力進(jìn)一步深入AI手機(jī)+AIPC主流廠家布局盤點(diǎn):AI驅(qū)動(dòng)新一輪換機(jī)潮,關(guān)注AI產(chǎn)品落地情況海內(nèi)外熱門AI應(yīng)用盤點(diǎn):聊天類機(jī)器人仍是主流,海內(nèi)外主流應(yīng)用用戶規(guī)模持續(xù)擴(kuò)大國(guó)內(nèi)熱門AI應(yīng)用:豆包、天工、文心一言海外熱門AI應(yīng)用:ChatGPT、Bard、Poe、Notion、Bing、Character.ai17敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明資料來源:國(guó)務(wù)院,發(fā)改委,科技部,工信部,華安證券研究所整理AI政策整理年份政策名稱頒布單位政策內(nèi)容2016.05《“互聯(lián)網(wǎng)+”人工智能三年行動(dòng)實(shí)施方案》國(guó)家發(fā)展改革委等對(duì)人工智能芯片發(fā)展方向提出多項(xiàng)要求,并促進(jìn)智能終端可穿戴設(shè)備的推廣落地。2017.07《新一代人工智能發(fā)展規(guī)劃》國(guó)務(wù)院提出前瞻布局新一代人工智能重大科技項(xiàng)目,在“核高基”(核心電子器件、高端通用芯片、基礎(chǔ)軟件)、集成電路裝備等國(guó)家科技重大專項(xiàng)中支持人工智能軟硬件發(fā)展。對(duì)人工智能領(lǐng)域進(jìn)行了總體戰(zhàn)略部署,規(guī)劃確定了人工智能產(chǎn)業(yè)三步走的發(fā)展目標(biāo)。2019.03《關(guān)于促進(jìn)人工智能和實(shí)體經(jīng)濟(jì)深度融合的指導(dǎo)意見》科技部等把握新一代人工智能的發(fā)展特點(diǎn),結(jié)合不同行業(yè),不同區(qū)域特點(diǎn)探索創(chuàng)新成果應(yīng)用轉(zhuǎn)化的路徑和方法,構(gòu)建數(shù)據(jù)驅(qū)動(dòng)、人機(jī)協(xié)同跨界融合的智能經(jīng)濟(jì)形態(tài)。2021.03《“十四五”規(guī)劃和2035遠(yuǎn)景目標(biāo)綱要》國(guó)務(wù)院打造數(shù)字經(jīng)濟(jì)新優(yōu)勢(shì),加強(qiáng)關(guān)鍵數(shù)字技術(shù)創(chuàng)新應(yīng)用。加快推進(jìn)高端芯片、操作系統(tǒng)、人工智能關(guān)鍵算法、傳感器、通用處理器等領(lǐng)域研發(fā)突破和迭代應(yīng)用。2022.08《關(guān)于支持建設(shè)新一代人工智能示范應(yīng)用場(chǎng)景的通知》科技部充分發(fā)揮人工智能賦能經(jīng)濟(jì)社會(huì)發(fā)展的作用,圍繞構(gòu)建全鏈條、全過程的人工智能行業(yè)應(yīng)用生態(tài),支持一批基礎(chǔ)較好的人工智能應(yīng)用場(chǎng)景,加強(qiáng)研發(fā)上下游配合與新技術(shù)集成,打造形成一批可復(fù)制、可推廣的標(biāo)桿型示范應(yīng)用場(chǎng)景。2023.02《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》國(guó)務(wù)院系統(tǒng)優(yōu)化算力基礎(chǔ)設(shè)施布局,促進(jìn)東西部算力高效互補(bǔ)和協(xié)同聯(lián)動(dòng),引導(dǎo)通用數(shù)據(jù)中心、超算中心、智能計(jì)算中心、邊緣數(shù)據(jù)中心等合理梯次布局。2023.04《生成式人工智能服務(wù)管理辦法(征求意見稿)》國(guó)家互聯(lián)網(wǎng)信息辦公室首次明確了生成式人工智能“提供者”內(nèi)容生產(chǎn)、數(shù)據(jù)保護(hù)、隱私安全等方面的法定責(zé)任及法律依據(jù),確立了人工智能產(chǎn)品的安全評(píng)估規(guī)定及管理辦法。2023.04《關(guān)于推進(jìn)IPv6技術(shù)演進(jìn)和應(yīng)用創(chuàng)新發(fā)展的實(shí)施意見》工信部等推動(dòng)IPv6和5G、人工智能、云計(jì)算等技術(shù)的融合創(chuàng)新,支持企業(yè)加快應(yīng)用感知網(wǎng)絡(luò)、新型IPv6測(cè)量等“IPv6+”創(chuàng)新技術(shù)在各類網(wǎng)絡(luò)環(huán)境和業(yè)務(wù)場(chǎng)景中的應(yīng)用。2023.07《生成式人工智能服務(wù)管理暫行辦法國(guó)家互聯(lián)網(wǎng)信息辦公室等國(guó)家堅(jiān)持發(fā)展和安全并重、促進(jìn)創(chuàng)新和依法治理相結(jié)合的原則,采取有效措施鼓勵(lì)生成式人工智能創(chuàng)新發(fā)展,對(duì)生成式人工智能服務(wù)實(shí)行包容審慎和分類分級(jí)監(jiān)管。2023.09《關(guān)于實(shí)施專精特新中小企業(yè)就業(yè)創(chuàng)業(yè)楊帆計(jì)劃的通知》工業(yè)和信息化部等按照國(guó)家有關(guān)規(guī)定,動(dòng)態(tài)調(diào)整職稱專業(yè)設(shè)置,根據(jù)當(dāng)?shù)禺a(chǎn)業(yè)發(fā)展和專精特新中小企業(yè)需要,增設(shè)人工智能、大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)等新專業(yè)。2023.12《關(guān)于加快推進(jìn)視聽電子產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》工業(yè)和信息化部等支持骨干企業(yè)做大做強(qiáng),支持人工智能企業(yè)研發(fā)視聽?wèi)?yīng)用大模型2023.12《“數(shù)據(jù)要素x”三年行動(dòng)計(jì)劃(2024—2026年)(征求意見稿)》國(guó)家數(shù)據(jù)局以科學(xué)數(shù)據(jù)支持大模型開發(fā),建設(shè)高質(zhì)量語料庫和基礎(chǔ)科學(xué)數(shù)據(jù)集,支持開展通用人工智能大模型和垂直領(lǐng)域人工智能大模型訓(xùn)練。,、。圖表11:近年AI政策整理18敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明國(guó)內(nèi)主流玩家大模型布局一覽圖表12:國(guó)內(nèi)主流玩家大模型布局一覽(含llm+cv)模型公司模型類型大模型分類技術(shù)能力應(yīng)用場(chǎng)景落地產(chǎn)品(軟件)百度文心大模型2023年5月,百度推出文心大模型3.5,基于飛槳深度學(xué)習(xí)平臺(tái)和文心知識(shí)增強(qiáng)大模型,持續(xù)從海量數(shù)據(jù)和大規(guī)模知識(shí)中融合學(xué)習(xí),具備知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)特色。2023年10月,百度推出文心大模型4.0,百度當(dāng)時(shí)最新且最強(qiáng)大的版本,實(shí)現(xiàn)了基礎(chǔ)模型的全面升級(jí),在理解、生成、邏輯推理及多模態(tài)處理等方面有顯著提升。應(yīng)用于用于企業(yè)服務(wù)、自動(dòng)駕駛、文化創(chuàng)意等多個(gè)產(chǎn)業(yè)領(lǐng)域。百度搜索、百度旗下各類APP等。NLP文心
·NLP大模型業(yè)界首個(gè)開放的千億參數(shù)中文生成API智能創(chuàng)作、
摘要生成、問答、語義檢索、情感分析、信息抽取、文本匹配、文本糾錯(cuò)等各類自然語言理解和生成任務(wù)。文心一格、文心百中(網(wǎng)頁&小程序)CV文心
·CV大模型文心VIMER-UFO2.0是文心旗下目前最先進(jìn)的統(tǒng)一任務(wù)大模型,主要應(yīng)用場(chǎng)景為智慧城市。整體具備包含170億參數(shù),多個(gè)任務(wù)的數(shù)據(jù)訓(xùn)練一個(gè)功能強(qiáng)大的通用模型??杀恢苯討?yīng)用于處理人臉、人體、車輛、商品、食物細(xì)粒度分類等20+CV基礎(chǔ)任務(wù)。多模態(tài)文心·跨模態(tài)大模型基于知識(shí)增強(qiáng)的跨模態(tài)語義理解關(guān)鍵技術(shù),實(shí)現(xiàn)跨模態(tài)檢索、圖文生成、圖片文檔的信息抽取等應(yīng)用圖像生成、藝術(shù)制作、虛擬現(xiàn)實(shí)、AI輔助設(shè)計(jì)等文心·生物計(jì)算大模型HelixGEM是業(yè)界首個(gè)基于幾何構(gòu)象增強(qiáng)的化合物表征模型,引入化合物的三維空間信息,在14個(gè)藥物屬性預(yù)測(cè)相關(guān)的benchmarks上效果達(dá)到業(yè)界最優(yōu);HelixFold-Single,秒級(jí)別的蛋白結(jié)構(gòu)預(yù)測(cè)模型,是業(yè)界首個(gè)開源的基于單序列語言模型的蛋白結(jié)構(gòu)預(yù)測(cè)大模型;HelixFold利用大規(guī)模無標(biāo)注數(shù)據(jù)強(qiáng)化蛋白質(zhì)表示能力,構(gòu)建的全國(guó)產(chǎn)化軟硬件適配的高效蛋白質(zhì)結(jié)構(gòu)分析大模型。小分子研發(fā)——文心·行業(yè)大模型與各行業(yè)頭部企合作,
在通用大模型的基礎(chǔ)上學(xué)習(xí)特色數(shù)據(jù)與知識(shí),建設(shè)行業(yè)AI基礎(chǔ)設(shè)施能源、
金融、航天、傳媒、城市、影視、制造、社科騰訊NLP混元大模型2023年9月推出,混元大模型是騰訊自主研發(fā)的一款超大規(guī)模預(yù)訓(xùn)練語言模型,擁有超過千億參數(shù)規(guī)模和強(qiáng)大的自然語言處理能力。該模型在預(yù)訓(xùn)練過程中學(xué)習(xí)了海量文本數(shù)據(jù),從而具備了跨領(lǐng)域的知識(shí)理解、邏輯推理以及創(chuàng)造性生成等多種能力。智能客服與問答系統(tǒng)、內(nèi)容創(chuàng)作與編輯、教育輔助、搜索引擎優(yōu)化、游戲交互、騰訊云服務(wù)、騰訊廣告、騰訊游戲、騰訊會(huì)議、騰訊文檔等多個(gè)內(nèi)部產(chǎn)品——騰訊醫(yī)療大模型2023年9月推出,該模型專注于醫(yī)療健康領(lǐng)域,通過深度學(xué)習(xí)技術(shù),提供智能問答、醫(yī)療文檔理解和輔助決策等功能。醫(yī)療咨詢、患者服務(wù)、醫(yī)生輔助工具、醫(yī)療知識(shí)圖譜構(gòu)建騰訊健康的智能醫(yī)療解決方案中,如智能家庭醫(yī)生助手、數(shù)智醫(yī)療影像平臺(tái)等。字節(jié)跳動(dòng)ChitChop2023年11月推出,是字節(jié)跳動(dòng)在海外推出的一款基于大模型的人工智能助理工具。它涵蓋了AI創(chuàng)作、AI繪畫、娛樂、AI學(xué)習(xí)、工作和生活六大場(chǎng)景,能夠?yàn)橛脩籼峁┒喾矫娴闹悄芑?wù)。內(nèi)容創(chuàng)作、圖像生成、在線學(xué)習(xí)、辦公協(xié)助以及日常生活中的多種任務(wù)處理。ChitChop作為獨(dú)立的App在Google
Play和AppStore上線。多模態(tài)PixelLMPixelLM是由字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)聯(lián)合北京交通大學(xué)、北京科技大學(xué)研究人員推出的高效像素級(jí)推理大模型。該模型可以實(shí)現(xiàn)無需依賴特定加速模塊(如SAM)的像素級(jí)語言模型推理。適用于各種需要結(jié)合文本與圖像理解及生成的任務(wù),例如圖像描述、基于文本指令生成圖像或編輯圖像等。LLM云雀大模型2023年8月推出,旨在提升AI在理解、生成和交互等方面的綜合性能,其特點(diǎn)是能夠廣泛應(yīng)用于各種自然語言處理任務(wù)中,如文本生成、問答系統(tǒng)、語義分析等,并具有較高的泛化能力和適應(yīng)性。內(nèi)容創(chuàng)作與編輯、智能客服與在線助手、教育輔導(dǎo)與知識(shí)問答、搜索優(yōu)化與信息檢索、社交媒體和社區(qū)互動(dòng)豆包、抖音、今日頭條等APPLLMBuboGPT2023年8月推出,能夠?qū)⑽谋?、圖像和音頻等多模態(tài)輸入進(jìn)行整合,并具有將回復(fù)與視覺對(duì)象進(jìn)行對(duì)接的獨(dú)特能力。對(duì)話系統(tǒng)、內(nèi)容生成、智能客服、圖像描述聲音定位19國(guó)內(nèi)主流玩家大模型布局一覽、模型公司模型類型大模型分類技術(shù)能力應(yīng)用場(chǎng)景落地產(chǎn)品(軟件)阿里巴巴多模態(tài)通義千問2023年4月推出,超大規(guī)模的語言模型,功能包括多輪對(duì)話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語言支持。智能客服、內(nèi)容生成、知識(shí)問答、多模態(tài)應(yīng)用、內(nèi)部工具升級(jí)淘寶問問、阿里云平臺(tái)服務(wù)通義千問APP、天貓、釘釘、高德地圖、優(yōu)酷、盒馬等——Qwen模型2023年8月推出Qwen-7B和Qwen-7B-Chat,Qwen-7B是一款通用型的70億參數(shù)規(guī)模的大語言模型,主要用于自然語言理解和生成任務(wù)。Qwen-7B-Chat是基于Qwen-7B開發(fā)的對(duì)話模型;2023年8月推出Qwen-VL,一款大規(guī)模視覺語言模型,基于通義千問70億參數(shù)模型Qwen-7B研發(fā)的,支持圖文輸入,具備多模態(tài)信息理解能力;2023年9月推出Qwen-14B與Qwen-14B-Chat,Qwen-14B是一個(gè)具有140億參數(shù)的大規(guī)模預(yù)訓(xùn)練模型,相應(yīng)的Qwen-14B-Chat則是一個(gè)更強(qiáng)大的對(duì)話系統(tǒng)模型;2023年11月推出Qwen-Audio,一款音頻語言模型,能夠處理和理解人類語音、自然聲音等多種音頻類型,并應(yīng)用于超過30種不同的任務(wù)場(chǎng)景;2023年12推出,具有720億參數(shù)規(guī)模的大規(guī)模語言模型,基于大量的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,旨在提供卓越的語言理解和生成能力;自然語言處理服務(wù)、對(duì)話式AI助手、多模態(tài)內(nèi)容生成、智能搜索優(yōu)化、企業(yè)級(jí)解決方案、AI創(chuàng)作輔助、機(jī)器人操控與導(dǎo)航、視覺搜索與推薦、圖像問答NLP通義-AliceMind達(dá)摩院開源的深度語言模型體系,涵蓋預(yù)訓(xùn)練模型、多語言預(yù)訓(xùn)練模型、超大中文預(yù)訓(xùn)練模型;2023年8月推出Alice-Mind模型2.0,該模型基于飛槳深度學(xué)習(xí)平臺(tái),在多項(xiàng)技術(shù)上進(jìn)行了革新,并且取得了顯著的提升。閱讀理解、機(jī)器翻譯、對(duì)話問答、文檔處理多模態(tài)通義-M62021年11月推出的多模態(tài)大模型,參數(shù)由萬億躍遷至10萬億,成為當(dāng)時(shí)全球最大的AI預(yù)訓(xùn)練模型。使用521張GPU在10天訓(xùn)練具有可用水平的10萬億模型,相比GPT-3,M6同等參數(shù)規(guī)模,能耗僅為其1。模型實(shí)現(xiàn)架構(gòu)、模態(tài)和任務(wù)統(tǒng)一,便于在M6基礎(chǔ)上精調(diào)得到豐富的小模型CV通義-視覺基于英偉達(dá)A10
GPU、阿里云CIPU芯片以及IaaS+軟件加速,實(shí)現(xiàn)新一代的GPU云服務(wù),在AI計(jì)算和視覺計(jì)算能力獲得大幅提升圖像搜索與匹配、視頻分析、AI輔助設(shè)計(jì)、醫(yī)療影像診斷、AI繪畫、——行業(yè)模型層平臺(tái)解決方案服務(wù)商以通義大模型為底座,開發(fā)SaaS應(yīng)用提供增值服務(wù);傳媒和游戲運(yùn)用AIGC實(shí)現(xiàn)體驗(yàn)升級(jí)電子商務(wù)、AI醫(yī)療、智能農(nóng)業(yè)、自動(dòng)駕駛、城市大腦、工業(yè)視覺、AIOTNLP夸克大模型阿里巴巴在2023年11月推出全棧自研、千億級(jí)參數(shù)的夸克大模型。主要應(yīng)用在通用搜索、醫(yī)療健康、教育學(xué)習(xí)、職場(chǎng)辦公等眾多場(chǎng)景,以提供更智能的搜索和推薦功能??淇薃pp華為NLP盤古NLP大模型2023年7月推出盤古大模型3.0,其中盤古NLP大模型專注于自然語言處理任務(wù),如文本理解、生成、問答、對(duì)話系統(tǒng)構(gòu)建等。智能輿論、智能營(yíng)銷CV盤古CV大模型2023年7月推出盤古大模型3.0,其中盤古CV大模型能夠處理圖像識(shí)別、目標(biāo)檢測(cè)、視頻分析等多種視覺相關(guān)的AI任務(wù)。智能巡檢、智慧物流多模態(tài)盤古多模態(tài)大模型2023年7月推出盤古大模型3.0,其中盤古多模態(tài)大模型可以同時(shí)處理文本、語音、圖像等多種輸入數(shù)據(jù),實(shí)現(xiàn)跨模態(tài)的信息交互與理解,例如結(jié)合文字描述生成圖像或者通過語音指令執(zhí)行任務(wù)。智能內(nèi)容生成與編輯、跨媒體檢索與推薦、醫(yī)療影像診斷輔助、智能制造與質(zhì)量檢測(cè)、VR/AR、智能家居、智慧城市管理、教育科技科學(xué)計(jì)算盤古科學(xué)計(jì)算大模型2023年7月推出盤古大模型3.0,其中盤古科學(xué)計(jì)算大模型用于物理模擬、化學(xué)反應(yīng)預(yù)測(cè)、生物數(shù)據(jù)分析等復(fù)雜問題的求解。氣象預(yù)報(bào)、臺(tái)風(fēng)路徑預(yù)測(cè)——行業(yè)定制化子模型盤古大模型3.0強(qiáng)調(diào)面向行業(yè)的應(yīng)用,因此會(huì)有一系列經(jīng)過針對(duì)性訓(xùn)練或微調(diào)的模型,適用于金融、醫(yī)療、教育、制造等行業(yè)特定場(chǎng)景下的智能決策支持、業(yè)務(wù)流程優(yōu)化、客戶服務(wù)自動(dòng)化等任務(wù)。金融風(fēng)控、醫(yī)療診斷、教育個(gè)性化輔導(dǎo)、智能制造、零售業(yè)客戶關(guān)系管理、法律文檔審查、新聞傳媒內(nèi)容生成敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明20國(guó)內(nèi)主流玩家大模型布局一覽模型公司模型類型大模型分類技術(shù)能力應(yīng)用場(chǎng)景落地產(chǎn)品(軟件)昆侖萬維多模態(tài)天工巧繪丨SkyPaint文本生成圖片模型,即提示詞文本編碼器模型和擴(kuò)散模型領(lǐng)大部分;2023年4月推出天工大模型3.5;2023年7月推出天工大模型4.0;產(chǎn)生高質(zhì)量圖片多模態(tài)天工樂府丨SkyMusic商用級(jí)作曲AI模型;2023年4月推出天工大模型3.5;2023年7月推出天工大模型4.0;音樂和娛樂NLP天工妙筆丨SkyText采用了生成效果領(lǐng)先的開源GPT中文預(yù)訓(xùn)練大模型,針對(duì)中文領(lǐng)域構(gòu)建了千億級(jí)別的高質(zhì)量數(shù)據(jù)集;2023年4月推出天工大模型3.5;2023年7月推出天工大模型4.0;文字創(chuàng)作NLP天工智碼丨SkyCode多語言開源編程大模型,支持多種主流代碼語言。它可以生成包括Python、Java、C等使用廣泛的編程語言,以及PHP、Go、Swift等共計(jì)十余種編程語言;2023年4月推出天工大模型3.5;2023年7月推出天工大模型4.0;編程N(yùn)LPSkyChat基于中文GPT3
API研發(fā)的項(xiàng)目,可以像ChatGPT一樣,實(shí)現(xiàn)人機(jī)聊天、問答、中英文互譯、對(duì)對(duì)聯(lián)和寫古詩任務(wù)聊天機(jī)器人科大訊飛——訊飛星火認(rèn)知大模型2023年5月推出,一款大規(guī)模預(yù)訓(xùn)練語言模型,它基于深度學(xué)習(xí)技術(shù),擁有強(qiáng)大的跨領(lǐng)域知識(shí)理解和生成能力;2023年6月發(fā)布了訊飛星火認(rèn)知大模型V1.5,在原有基礎(chǔ)上實(shí)現(xiàn)了顯著的能力升級(jí);2023年8月推出訊飛星火認(rèn)知大模型V2.0,在多個(gè)核心能力上取得了顯著提升,包括但不限于文本生成能力提高了72
,語言理解性能提升了78
,知識(shí)問答方面的能力也有了大幅提升。2023年10月推出訊飛星火認(rèn)知大模型V3.0,在前代基礎(chǔ)上進(jìn)一步擴(kuò)大了參數(shù)規(guī)模和優(yōu)化了算法架構(gòu),加強(qiáng)了啟發(fā)式對(duì)話和AI人設(shè)功能。學(xué)習(xí)教育、辦公商務(wù)、醫(yī)療健康、工業(yè)制造、智能助手AI學(xué)習(xí)機(jī)LUMIE
10系列、訊飛智能辦公本、智能錄音筆智能麥克風(fēng)、星火助手中心與星火APPNLP訊飛星火醫(yī)療大模型2023年10月推出,結(jié)合了自然語言處理、深度學(xué)習(xí)和大數(shù)據(jù)分析能力,致力于提高醫(yī)療服務(wù)效率、減輕醫(yī)生負(fù)擔(dān),并為患者提供便捷的健康管理服務(wù)。智能預(yù)問診與導(dǎo)診、輔助診斷與決策支持、醫(yī)療文檔理解和生成、AI智醫(yī)助理AI心理伙伴、科研助手、教育應(yīng)用、智譜——ChatGLM系列大模型ChatGLM:智譜AI推出的首款基座大模型,專為對(duì)話場(chǎng)景設(shè)計(jì)。ChatGLM2:繼ChatGLM之后的迭代版本,進(jìn)一步提升了性能和適用范圍。ChatGLM3:智譜AI于2023年10月在中國(guó)計(jì)算機(jī)大會(huì)上發(fā)布的第三代基座大模型,采用了多階段增強(qiáng)預(yù)訓(xùn)練方法,并且特別強(qiáng)調(diào)了其可部署在手機(jī)等移動(dòng)設(shè)備上的特性,以及對(duì)國(guó)產(chǎn)芯片的支持。智能客服系統(tǒng)、在線教育輔助工具、內(nèi)容創(chuàng)作平臺(tái)、社交聊天機(jī)器人、游戲及娛樂行業(yè)、企業(yè)決策支持、移動(dòng)應(yīng)用部署敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明、資料來源:各公司官網(wǎng),華安證券研究所整理21敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明目錄LLM發(fā)展歷程與變遷趨勢(shì)LLM爆發(fā)關(guān)鍵節(jié)點(diǎn):2017年Transformer架構(gòu)的出現(xiàn)海外LLM大模型布局:科技巨頭領(lǐng)銜行業(yè),版本持續(xù)迭代國(guó)內(nèi)主流玩家大模型布局:互聯(lián)網(wǎng)大廠大模型相繼落地,主要賦能自身旗下產(chǎn)品CV領(lǐng)域發(fā)展歷程與變遷趨勢(shì)CV領(lǐng)域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進(jìn)方向23年以來CV領(lǐng)域技術(shù)升級(jí):3D渲染能力增強(qiáng),生成內(nèi)容更為精準(zhǔn)可控CV領(lǐng)域主流應(yīng)用迭代歷程:生成內(nèi)容更為精細(xì),Prompt理解能力進(jìn)一步深入AI手機(jī)+AIPC主流廠家布局盤點(diǎn):AI驅(qū)動(dòng)新一輪換機(jī)潮,關(guān)注AI產(chǎn)品落地情況海內(nèi)外熱門AI應(yīng)用盤點(diǎn):聊天類機(jī)器人仍是主流,海內(nèi)外主流應(yīng)用用戶規(guī)模持續(xù)擴(kuò)大國(guó)內(nèi)熱門AI應(yīng)用:豆包、天工、文心一言海外熱門AI應(yīng)用:ChatGPT、Bard、Poe、Notion、Bing、Character.ai22資料來源:華安證券研究所繪制CV領(lǐng)域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進(jìn)方向GAN:早期的AI繪畫技術(shù),AI繪畫工具的起源。GAN模型一問世就風(fēng)靡AI學(xué)術(shù)界,
在多個(gè)領(lǐng)域得到了廣泛的應(yīng)用.
它也隨即成為了很多AI繪畫模型的基礎(chǔ)框架,
其中內(nèi)置的生成器用來生成圖片,
判別器用來判斷圖片質(zhì)量。GAN的出現(xiàn)大大推動(dòng)了AI繪畫的發(fā)展。GAN模型進(jìn)行AI繪畫有比較明顯的缺陷,
一方面是對(duì)輸出結(jié)果的控制力很弱,
容易產(chǎn)生隨機(jī)圖像,
另外一個(gè)問題是生成圖像的分辨率比較低。Disco
Diffusion:Disco
Diffusion
是第一個(gè)基于CLIP
+
Diffusion
模型的實(shí)用化AI繪畫產(chǎn)品。它利用生成對(duì)抗網(wǎng)絡(luò)(GAN)和擴(kuò)散模型技術(shù)來創(chuàng)建藝術(shù)作品,尤其是從文本描述生成圖像。2022年初在谷歌Colab云服務(wù)上正式對(duì)世界開放使用。Disco
Diffusion的痛點(diǎn)也有兩個(gè):1)
AI繪畫細(xì)節(jié)還不夠深入,達(dá)不到商業(yè)水準(zhǔn);2)
渲染時(shí)間過長(zhǎng),需要大量?jī)?nèi)存。DALL·E2:DALL-E是一個(gè)可以通過文本描述中生成圖像的人工智能程序,于2021年1月5日由OpenAI發(fā)表。2022年4月,OpenAI宣布了新版本的DALL-E
2,它可以從文本描述中生成照片般逼真的圖像,另外還有一個(gè)允許對(duì)輸出進(jìn)行簡(jiǎn)單修改的編輯器。Midjourney:2022年7月12日,MidJourney進(jìn)入公開測(cè)試階段,用戶可以通過Discord的機(jī)器人指令來使用MidJourney生成圖像。MidJourney是一個(gè)基于大規(guī)模預(yù)訓(xùn)練的自然語言處理模型,可以根據(jù)文本生成圖像。同月,MidJourney開始向所有用戶開放注冊(cè),引起了廣泛的關(guān)注和討論。MidJourney展示了其對(duì)各種復(fù)雜和超現(xiàn)實(shí)的圖像生成任務(wù)的能力,并被認(rèn)為是與DALL-E相媲美的人工智能模型。StableDiffusion:2022年7月StableDiffusion的問世,相比前輩們,Stable
Diffusion已經(jīng)成功的解決了細(xì)節(jié)及效率問題,通過算法迭代將AI繪圖的精細(xì)度提升到了藝術(shù)品級(jí)別,并將生產(chǎn)效率提升到了秒級(jí),創(chuàng)作所需的設(shè)備門檻也被拉到了民用水準(zhǔn)。由于擁有發(fā)展良好的開源社區(qū),它的用戶關(guān)注度和應(yīng)用廣度都超越Midjourney和DALL-E。多模態(tài):AI繪畫逐漸成為大模型核心模態(tài)之一,如GPT-4V/DALL-E3。圖表13:CV領(lǐng)域關(guān)鍵工具變遷GANDiscoDiffusionDALL·E2MidjourneyStableDiffusion多模態(tài)敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明23OpenAICLIP2021-01GlideMidjourneyImaginePartiMidjourneyV5AdobeFireflyDall-E3MetaImagineMidjourneyV6LatentDiffusionStableDiffusionDreamBoothLoRAControlNetSDXLLCMSDXLTurboOpenAIMidjourneyOpenAIGoogleAdobeMeta2021-122022-03Dall-E22022-042022-052022-06MidjourneyV42022-112023-032023-102023-12CompVisJupyternotebookStabilityAIStabilityAIStabilityAISemtechGoogle清華大學(xué)2021-122022-03DiscoDiffusion52022-082022-082023-012023-02敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明2023-072023-11閉源模型開源模型圖表14:CV領(lǐng)域模型重要發(fā)展節(jié)點(diǎn)資料來源:華安證券研究所繪制CV領(lǐng)域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進(jìn)方向24敬請(qǐng)參閱末頁重要聲明及評(píng)級(jí)說明資料來源:華安證券研究所繪制CV領(lǐng)域文生圖模型的起源于Clip開源。CLIP
是一個(gè)通過自然語言監(jiān)督有效地學(xué)習(xí)視覺概念的神經(jīng)網(wǎng)絡(luò),通過使用CLIP
可將文本和圖像連接在一起。2021年:21
年
1
月
CLIP
發(fā)布后(與
CLIP
一起發(fā)布的還有
DALL·E
第一代文生圖模型,生成能力有限),基于它的各種文生圖模型相繼出現(xiàn),Disco
Diffusion
也是在這個(gè)時(shí)候誕生,此時(shí)它們的生成效果都并不理想。21年
12
月,OpenAI
發(fā)布了
Glide,同月,Compvis
實(shí)驗(yàn)室發(fā)布了
Latent
Diffusion
的論文,成為生成能力實(shí)現(xiàn)重大突破基礎(chǔ)。基于
Glide
的論文和各種探索,T2I
開源社區(qū)開啟了
Disco
Diffusion
項(xiàng)目。2022年:22
年
3
月
Disco
Diffusion
v5
發(fā)布,這是圖像生成模型第一次出圈。同一個(gè)月,Midjourney
通過包裝使用DiscoDiffusion,進(jìn)行了商業(yè)應(yīng)用。22
年
4
月,OpenAI
發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版摩托車出口業(yè)務(wù)代理與物流服務(wù)合同4篇
- 2025年度智能農(nóng)業(yè)自動(dòng)化技術(shù)服務(wù)合作合同4篇
- 二零二五年度金融理財(cái)產(chǎn)品銷售代理合同范本4篇
- 部編版語文七年級(jí)上冊(cè)第11課《竊讀記》教學(xué)設(shè)計(jì)4
- 部編版八年級(jí)上冊(cè)語文《賣油翁》教學(xué)設(shè)計(jì)
- 融合班課程設(shè)計(jì)動(dòng)畫視頻
- 精裝施工方案全套圖紙
- 2024年新高考現(xiàn)代文閱讀創(chuàng)新題型
- 課程設(shè)計(jì)歐拉圖的判斷
- 年度光伏發(fā)電用測(cè)量設(shè)備市場(chǎng)分析及競(jìng)爭(zhēng)策略分析報(bào)告
- 人教版物理八年級(jí)下冊(cè) 專項(xiàng)訓(xùn)練卷 (一)力、運(yùn)動(dòng)和力(含答案)
- 山東省房屋市政工程安全監(jiān)督機(jī)構(gòu)人員業(yè)務(wù)能力考試題庫-中(多選題)
- 重慶市2023-2024學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題(含答案)
- 北師大版 2024-2025學(xué)年四年級(jí)數(shù)學(xué)上冊(cè)典型例題系列第三單元:行程問題“拓展型”專項(xiàng)練習(xí)(原卷版+解析)
- 2023年譯林版英語五年級(jí)下冊(cè)Units-1-2單元測(cè)試卷-含答案
- 施工管理中的文檔管理方法與要求
- DL∕T 547-2020 電力系統(tǒng)光纖通信運(yùn)行管理規(guī)程
- 種子輪投資協(xié)議
- 執(zhí)行依據(jù)主文范文(通用4篇)
- 浙教版七年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)課件
- 精神病醫(yī)院財(cái)務(wù)后勤總務(wù)管理制度
評(píng)論
0/150
提交評(píng)論