人工智能行業(yè)專題:AIGC投資框架_第1頁(yè)
人工智能行業(yè)專題:AIGC投資框架_第2頁(yè)
人工智能行業(yè)專題:AIGC投資框架_第3頁(yè)
人工智能行業(yè)專題:AIGC投資框架_第4頁(yè)
人工智能行業(yè)專題:AIGC投資框架_第5頁(yè)
已閱讀5頁(yè),還剩59頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能專題研究AIGC投資框架2023年5月核心觀點(diǎn)

自然語(yǔ)言模型是大語(yǔ)言模型的核心。自然語(yǔ)言模型是大模型的核心,支持許多類型的語(yǔ)言任務(wù)的執(zhí)行。ChatGPT和各大主流AIGC模型主要基于大語(yǔ)言模型,通過(guò)深度學(xué)習(xí)算法來(lái)處理和生成自然語(yǔ)言。自然語(yǔ)言模型發(fā)展經(jīng)歷了基于規(guī)則、基于統(tǒng)計(jì)和基于神經(jīng)網(wǎng)絡(luò)三個(gè)階段,Transformer的出現(xiàn)為以Bert和GPT-3為代表的大語(yǔ)言模型的誕生奠定了模型基礎(chǔ)。

AI到AGI

,ChatGPT開啟人工智能新紀(jì)元。ChatGPT結(jié)合自回歸語(yǔ)言模型+zeroshot

prompting

,帶來(lái)AI范式突破,實(shí)現(xiàn)AI到AGI的轉(zhuǎn)變。相比f(wàn)ine

tuning技術(shù),prompting技術(shù)能更好的完成生成類任務(wù)。

ChatGPT在RLHF的幫助下,找到了GPT-3.5和人類自然語(yǔ)言的合理接口,解鎖了模型的應(yīng)用場(chǎng)景,改變了人機(jī)交互方式。2僅支持執(zhí)行文本類任務(wù)的局限性,賦予ChatGPT更優(yōu)異的上下文理解能力、推理能力、演繹能力,甚至圖文理解能力。GPT也在不斷的更新迭代中持續(xù)突破,解鎖更多能力。

多行業(yè)結(jié)合,下游應(yīng)用遍地開花。ChatGPT以其高級(jí)的生成能力和復(fù)雜任務(wù)處理能力,以從重資產(chǎn)的模型層到輕資產(chǎn)的中間層和應(yīng)用層為架構(gòu),為游戲行業(yè)、視頻類行業(yè)、生物醫(yī)藥行業(yè)等其他行業(yè)錦上添花。在ChatGPT的幫助下,各行各業(yè)真正的做到了提高效率、減少成本并實(shí)現(xiàn)了功能上質(zhì)的改變,讓更多用戶受益。

風(fēng)險(xiǎn)提示:AI技術(shù)更新迭代緩慢、專業(yè)領(lǐng)域落地效果不及預(yù)期、版權(quán)糾紛、倫理問(wèn)題、算力建設(shè)緩慢等風(fēng)險(xiǎn)。

GPT跨越式發(fā)展,探索未來(lái)更多可能性。各代GPT青出于藍(lán)勝于藍(lán),更新迭代過(guò)程中涌現(xiàn)了諸多能力。GPT-4.0更是突破了GPT-3.511

大模型與GPT?1.1

大模型篇?1.2

ChatGPT篇?1.3

GPT-4篇3

ChatGPT應(yīng)用場(chǎng)景2

國(guó)內(nèi)篇目

錄521.1.1

大語(yǔ)言模型簡(jiǎn)介大語(yǔ)言模型簡(jiǎn)稱LLM

(

LargeLanguageModels)

,是基礎(chǔ)的機(jī)器學(xué)習(xí)模型

,使用深度學(xué)習(xí)算法來(lái)處理和生成自然語(yǔ)言。這些模型在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練,再自動(dòng)生成符合語(yǔ)言規(guī)律的文本。大語(yǔ)言模型可以執(zhí)行許多類型的語(yǔ)言任務(wù),如翻譯語(yǔ)言、分析情感、聊天機(jī)器人對(duì)話等。2018年2020年GPT-2模型發(fā)布。T5,同時(shí)含有編碼器和解碼器,善于翻

譯、知識(shí)問(wèn)答等給定話題的輸入輸出。BART

,預(yù)訓(xùn)練時(shí)首次使用噪聲破壞文本,

然后通過(guò)模型重建原始文本ELMo模型,解決了同一詞語(yǔ)在不

同語(yǔ)境中含義不同的問(wèn)題。GPT-1

,基于多層Transformer架構(gòu),采用預(yù)訓(xùn)練和微調(diào)兩個(gè)階段的模型訓(xùn)練形式。Bert模型,基于多層Transformer架構(gòu),對(duì)訓(xùn)練集進(jìn)行雙向訓(xùn)練。年2013年RNN循環(huán)神經(jīng)網(wǎng)絡(luò)模型,將上一個(gè)位置的詞語(yǔ)輸出作為下一個(gè)位置詞語(yǔ)預(yù)測(cè)的輸入,獲取全面文本信息Word2Vec采取嵌入

的詞語(yǔ)訓(xùn)練方法,根據(jù)上下文學(xué)習(xí)詞語(yǔ)的語(yǔ)義語(yǔ)法信息Transformer架構(gòu)提出,引入注意機(jī)制,關(guān)注重點(diǎn)而非全局階段三(2000年代到現(xiàn)在)

:基于神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言模型的發(fā)展歷史階段二(1790到2000年代):基于統(tǒng)計(jì)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型和詞向量的概念被提出階段一(直到

1790年代):基于規(guī)則GPT-3發(fā)布,參數(shù)達(dá)到1750億信息來(lái)源:羅蘭貝格,西南證券整理

3N-Gram模型無(wú)代表模型2019年2000年2010年2017年1970年2003在Bert和GPT模型問(wèn)世之前:深度學(xué)習(xí)模型是自然語(yǔ)言處理(NLP

)領(lǐng)域主流的技術(shù),而深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的應(yīng)用主要依賴于以下關(guān)鍵技術(shù):使用大量改進(jìn)的LSTM模型和少量改進(jìn)的CNN模型作

為典型的特征提取器;使用序列到序列(Sequence

to

Sequence

)(也稱為編碼器-解碼器

(Encoder-decoder))加上注意力作為各種具體任務(wù)的體技術(shù)框架。但這個(gè)技術(shù)擁有兩大主要問(wèn)題阻礙了深度學(xué)習(xí)領(lǐng)域的突破:第一,訓(xùn)練數(shù)據(jù)的數(shù)量有限。隨著容量和深度的增加,模型需要更多的訓(xùn)練

數(shù)據(jù)支持。第二,這項(xiàng)技術(shù)的表達(dá)能力不夠強(qiáng)。即使擁有足量數(shù)據(jù),也很難有效的吸收數(shù)據(jù)內(nèi)容。

在Bert和GPT模型問(wèn)世之后,出現(xiàn)了兩大主要范式轉(zhuǎn)換:第一個(gè)范式轉(zhuǎn)換體現(xiàn)在預(yù)訓(xùn)練模型出現(xiàn)并有兩

大主要影響,體現(xiàn)在:其一,中間任務(wù)消失。通過(guò)大量數(shù)據(jù)預(yù)訓(xùn)練,Bert和GPT把中間任務(wù)作為語(yǔ)言特

征,吸收到Transformer的參數(shù)里,做到直接解決最終任務(wù)。其二,統(tǒng)一了不同研究方向技術(shù)路線。最

終任務(wù)包括了自然語(yǔ)言理解類任務(wù)和語(yǔ)義生成類任務(wù)。對(duì)于理解類任務(wù),其技術(shù)體系統(tǒng)一到了以Bert為

代表的雙向語(yǔ)言模型加Fine

Tuning模式;對(duì)于生成類任務(wù),其技術(shù)體系統(tǒng)一到了以GPT2.0為代表的自

回歸語(yǔ)言模型加zero

shot

prompting

(GPT-3)或few

shot

prompting

(ChatGPT)模式。第二個(gè)范式轉(zhuǎn)換為從預(yù)訓(xùn)練模型逐漸偏向于通用人工智能,簡(jiǎn)稱AGI

(Artificial

General

Intelligence),我們目前正處于這個(gè)轉(zhuǎn)換的以GPT3.0

(自回歸語(yǔ)言模型+zero

shot

prompting

)

占據(jù)主導(dǎo)位置為代表的過(guò)渡過(guò)程中。

自回歸語(yǔ)言模型+zero

shot

prompting處于目前的主導(dǎo)地位的

原因有兩個(gè):其一,比如Google的T5模型,在自然語(yǔ)言生成任務(wù)中可以同時(shí)完成自然語(yǔ)言理解任務(wù)。如仍使用類似Bert的理解類任務(wù)語(yǔ)言模型,則無(wú)法得到優(yōu)質(zhì)的生成內(nèi)容。所以相比于理解類任務(wù)模型,目前來(lái)說(shuō)大眾更偏向于生成類任務(wù)模型。其二,GPT模式效果更優(yōu)。若想以zeroshotprompting或few

shot

prompting模式完成任務(wù),必須采取GPT模式,也就是生成類任務(wù)模型。Prompting技術(shù)也更加符合人性,相比之下,fine

tuning模式是被動(dòng)適應(yīng)模型。另外,zero

shot

prompting模式很難被大語(yǔ)言模型所理解,表現(xiàn)效果也差強(qiáng)人意,以目前的技術(shù)很難達(dá)到令人滿意的效果。所以目前科學(xué)家偏向于研究few

shot

prompting技術(shù),起到過(guò)渡作用。

第二階段(2020.06–至今)1.1.2

大語(yǔ)言模型的主要發(fā)展歷程

第一階段(2013-2020)信息來(lái)源:

《由ChatGPT反思大語(yǔ)言模型(LLM)的技術(shù)精要》,西南證券整理

4

大語(yǔ)言模型從海量的文本數(shù)據(jù)中學(xué)習(xí)了大量知識(shí)。對(duì)于其學(xué)習(xí)到的知識(shí)一

共有兩類:語(yǔ)言類和世界知識(shí)類。

淺層語(yǔ)言類知識(shí)儲(chǔ)存在Transformer的低層和中層,而相對(duì)抽象的語(yǔ)言類

知識(shí)儲(chǔ)存在Transformer的中層或高

層。大語(yǔ)言模型在學(xué)習(xí)過(guò)程中不需要過(guò)多的語(yǔ)言類知識(shí)數(shù)據(jù)。

世界知識(shí)類知識(shí)可以分為兩類:事實(shí)型和常識(shí)型。世界知識(shí)主要儲(chǔ)存在Transformer的中高層,同時(shí)大語(yǔ)言

模型學(xué)習(xí)需要大量事實(shí)型世界知識(shí)。世界知識(shí)抽象語(yǔ)言類知識(shí)世界知識(shí)

淺層語(yǔ)言類知識(shí)

大語(yǔ)言模型會(huì)將學(xué)習(xí)過(guò)的知識(shí)儲(chǔ)存在Transformer的模型參數(shù)

里。

Transformer的模型參數(shù)結(jié)構(gòu)分為兩個(gè)部分:其中,多頭注

意力(

MHA)的部分占參數(shù)總

體的三分之一;

FFN結(jié)構(gòu)占參

數(shù)總體的三分之二。

MHA主要用于計(jì)算單詞與知識(shí)間的關(guān)聯(lián)強(qiáng)度,不用來(lái)存儲(chǔ)知識(shí)。FFN存儲(chǔ)著大量知識(shí),是

大語(yǔ)言模型的key-value存儲(chǔ)器。[CATEG[CAO…

大語(yǔ)言模型有很大可能會(huì)生成錯(cuò)誤答案,所以修正數(shù)據(jù)非常必要。大模型有三種修正方法。

第一種是從訓(xùn)練數(shù)據(jù)源頭去修正。但在每次修正后需要重建模型,成本過(guò)高,無(wú)發(fā)展前景。

第二種是通過(guò)finetuning修正知識(shí)。但這種方法容易誤刪正

確數(shù)據(jù),會(huì)影響效率。

第三種是直接修改知識(shí)對(duì)應(yīng)的模型參數(shù)。直接定位到儲(chǔ)存舊

知識(shí)的FFN節(jié)點(diǎn)并替換新知識(shí)。1.1.3

大語(yǔ)言模型學(xué)習(xí)、存儲(chǔ)、修正數(shù)據(jù)的方式Transformer參數(shù)結(jié)構(gòu)分布大語(yǔ)言模型儲(chǔ)存數(shù)據(jù)的方式大語(yǔ)言模型學(xué)習(xí)數(shù)據(jù)的方式大語(yǔ)言模型修正數(shù)據(jù)的方式Transformer知識(shí)金字塔精準(zhǔn)定位FFN節(jié)點(diǎn)信息來(lái)源:

《由ChatGPT反思大語(yǔ)言模型(LLM)的技術(shù)精要》,西南證券整理

5O…

TEG3.以T5為代表的既有encoder

、又有decoder的模型

:在每個(gè)階段

,encoder的注意力層可以訪問(wèn)初始句子中的所有單詞,而decoder的注意層只能訪問(wèn)輸入中位于特定單詞之前的單詞。這類模型的預(yù)訓(xùn)練通常涉及到更復(fù)雜的任務(wù)。Encoder-decoder模型最適合于圍繞根據(jù)給定的輸入生成新的句子的任務(wù),如總結(jié)、翻譯或生成式問(wèn)題回答。1.以BERT系列為代表的encoder-only模型

:在每個(gè)階段,注意力層可以訪問(wèn)初始句子中的所有單詞并具有雙向注意力。這類模型的預(yù)訓(xùn)練通常圍繞著以某種方式破壞一個(gè)給定的句子,并讓模型承擔(dān)尋找或重建初始句子的任務(wù)。Encoder-only模型最適合于需要理解完整句子的任務(wù)。2.以GPT為代表的decoder-only模型

:在每個(gè)階段,對(duì)于一個(gè)給定的詞,注意力層只能訪問(wèn)句子中定位在它之前的詞。這類模型通常被稱為自回歸模型。解碼器模型的預(yù)訓(xùn)練通常圍繞著預(yù)測(cè)句子中的下一個(gè)詞進(jìn)行。Decoder-only模型最適合于涉及文本生成的任務(wù)。大語(yǔ)言模型按模型結(jié)構(gòu)一共分為以下三類:1.1.4

大語(yǔ)言模型的分類信息來(lái)源:

《一張圖總結(jié)大語(yǔ)言模型的技術(shù)分類、現(xiàn)狀和開源情況》,西南證券整理

6隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,大型模型在自然語(yǔ)言處理領(lǐng)域發(fā)揮著越來(lái)越重要的作用。大型模型通過(guò)使用更多的參數(shù)、更復(fù)雜的結(jié)構(gòu)和更多的訓(xùn)練數(shù)據(jù)來(lái)提高性能,從而在自然語(yǔ)言處理任務(wù)中取得了顯著的成果。語(yǔ)義理解是自然語(yǔ)言處理模型的基礎(chǔ)任務(wù)之一。

Bert和其變體模型被廣泛用于各種語(yǔ)義理解任務(wù),例如文本分類、命名實(shí)體識(shí)別和自然語(yǔ)言推理等。文本生成也是自然語(yǔ)言處理模型

中的另外一個(gè)重要任務(wù)。在自然語(yǔ)言生成任務(wù)中,GPT已成為最典型的框架之一,因?yàn)樗軌蛏筛哔|(zhì)量的文本,并且能夠處理更加復(fù)雜的任務(wù)。與語(yǔ)義理解相比,自然語(yǔ)言生成需要更多的計(jì)算資源和更大的模型來(lái)處理更多的數(shù)據(jù)和更復(fù)雜的任務(wù)。需要注意的是,大型模型具有多元化和多樣性,因此在選擇適當(dāng)?shù)哪P蜁r(shí)需要考慮任務(wù)的性質(zhì)和特點(diǎn)。對(duì)于簡(jiǎn)單的任務(wù),不需要使用像ChatGPT這樣復(fù)雜的大型模型,而對(duì)于更加復(fù)雜的任務(wù),則需要使用更大、更復(fù)雜的模型來(lái)提高性能。文本生成任務(wù)模型語(yǔ)義理解任務(wù)模型1.1.4

大語(yǔ)言模型的分類信息來(lái)源:

《通向AGI之路:大型語(yǔ)言模型(LLM)技術(shù)精要》,西南證券整理

71.1.5

未來(lái)大模型發(fā)展的前提要素?fù)碛幸粋€(gè)優(yōu)質(zhì)的網(wǎng)絡(luò)架構(gòu)是未來(lái)大模型發(fā)展的重要前提。缺少高質(zhì)量的網(wǎng)絡(luò)架構(gòu),大模型很難達(dá)到質(zhì)的飛躍。而一個(gè)高質(zhì)量的網(wǎng)絡(luò)架構(gòu),不僅可以推動(dòng)大模型的發(fā)展,還可以促進(jìn)AGI

達(dá)到一個(gè)質(zhì)的飛躍。網(wǎng)絡(luò)架構(gòu)有三大主要種類

,包括:

CNN

、

LSTM

、

Transformer。CNN(

ConvolutionalNeuralNetwork)CNN

(卷積神經(jīng)網(wǎng)絡(luò))

是一種廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域和自然語(yǔ)言處理領(lǐng)域的深度學(xué)習(xí)算法

,是早期最

常見(jiàn)的深度學(xué)習(xí)模型

,可以有效的提取圖像特征。CNN主要有三層結(jié)構(gòu):卷積層、池化層和全連接層。相比較而言,Transformer的表現(xiàn)能力遠(yuǎn)超CNN。早

期的CNN具有無(wú)法有效捕獲長(zhǎng)距離特征的問(wèn)題

,但隨著網(wǎng)絡(luò)深度的逐步增加

,這個(gè)問(wèn)題得到了很大的緩解

,

但仍無(wú)法達(dá)到Transformer一樣優(yōu)秀的的表現(xiàn)能力。LSTM(LongShort-TermMemory)LSTM

(長(zhǎng)短時(shí)記憶結(jié)構(gòu))是傳統(tǒng)RNN模型的變體

,能夠緩解傳統(tǒng)RNN模型對(duì)于過(guò)長(zhǎng)序列存在的梯度消失

以及遺忘或爆炸問(wèn)題。LSTM由三個(gè)門控構(gòu)成,分別是輸入門、遺忘門以及輸出門。LSTM主要應(yīng)用于自然語(yǔ)言處理領(lǐng)域和語(yǔ)音識(shí)別領(lǐng)域序列數(shù)據(jù)的處理,能夠處理和預(yù)測(cè)時(shí)間序列中間隔較長(zhǎng)的信息。通常情況下

,與傳統(tǒng)的RNN模型相

,它在處理需要長(zhǎng)期依賴信息記憶的任務(wù)時(shí)表現(xiàn)更優(yōu)。Transformer是一種新型的網(wǎng)絡(luò)架構(gòu)

,用于自然語(yǔ)言處理

(

NLP)

的深度學(xué)習(xí)模型

,表現(xiàn)能力優(yōu)異

,遠(yuǎn)超

CNN、

RNN。Transformer

Transformer結(jié)構(gòu)由兩部分構(gòu)成,分別是encoder

(編碼器)和decoder

(解碼器)。Transformer具有優(yōu)秀的語(yǔ)義特征提取能力、遠(yuǎn)距離特征捕獲能力、綜合特征提取能力、并行計(jì)算能力及運(yùn)行效率。網(wǎng)絡(luò)架構(gòu)的三大主要種類信息來(lái)源:《放棄幻想,全面擁抱Transformer:自然語(yǔ)言處理三大特征抽取器比較》,西南證券整理

8三大決定性因素模型的容量參數(shù)模型的容量參數(shù)是大模型是否能快速

發(fā)展的首要決定性因素

,它可以直接

影響模型的表現(xiàn)效果。當(dāng)一個(gè)模型擁有更大的參數(shù)容量時(shí)

,它的表現(xiàn)效果也會(huì)更好。參數(shù)數(shù)量的增多可以增加模型的上下文學(xué)習(xí)和小樣本學(xué)習(xí)能力,做到幫助模型更好的學(xué)習(xí)并能夠處理更為復(fù)雜的任務(wù)。訓(xùn)練時(shí)間當(dāng)模型的訓(xùn)練時(shí)間越長(zhǎng),其在訓(xùn)練過(guò)程中遇見(jiàn)的令牌數(shù)量就會(huì)越多。當(dāng)一個(gè)模型遇見(jiàn)的令牌數(shù)量越多

,其容量也會(huì)隨之增加。當(dāng)訓(xùn)練時(shí)長(zhǎng)

使模型遇見(jiàn)足夠數(shù)量的令牌的時(shí)候

,

即使它參數(shù)容量更少

,在執(zhí)行某些

特定任務(wù)上的表現(xiàn)效果甚至?xí)葏?/p>

數(shù)容量更大的模型的表現(xiàn)效果更好。令牌(Token)數(shù)據(jù)大模型在做一些任務(wù)的時(shí)候

,數(shù)據(jù)

的質(zhì)量是非常重要的

,會(huì)起到?jīng)Q定

性的作用

,也會(huì)傾向有優(yōu)先選擇高

質(zhì)量數(shù)據(jù)。高質(zhì)量的數(shù)據(jù)決定了模

型生成內(nèi)容的高準(zhǔn)確性。與模型本身相比,訓(xùn)練數(shù)據(jù)的質(zhì)量更加的重要。但在最初階段,量的重要性要大于質(zhì),需要訓(xùn)練數(shù)據(jù)擁有高豐富性。在后期并不需要過(guò)多的數(shù)據(jù),需要的還是高質(zhì)量的訓(xùn)練數(shù)據(jù)以及數(shù)據(jù)之間的平衡。1.1.6

未來(lái)大模型發(fā)展的決定性因素容量參數(shù)信息來(lái)源:

《ChatGPT與生成式AI的技術(shù)演進(jìn)與商業(yè)未來(lái)》,西南證券整理

9隨著大語(yǔ)言模型規(guī)模的擴(kuò)張,不同種類的任務(wù)會(huì)有三種不同的表現(xiàn):

第一類任務(wù)隨著大語(yǔ)言模型規(guī)模的逐漸擴(kuò)張

,其表現(xiàn)效果也會(huì)越來(lái)越好。這類任務(wù)主要為知識(shí)密集型任務(wù),大多數(shù)傳統(tǒng)自然語(yǔ)言理解類任務(wù)都屬于這類任務(wù)。當(dāng)大語(yǔ)言模型所包含的知識(shí)量越多,這類任務(wù)的表現(xiàn)效果就會(huì)越好。另外

,當(dāng)大語(yǔ)言模型規(guī)模得到擴(kuò)張

的時(shí)候

,訓(xùn)練數(shù)據(jù)量也會(huì)隨之增加

,大語(yǔ)言模型從中學(xué)習(xí)到知識(shí)就越多

,任務(wù)的表現(xiàn)效果就更好。

第二類任務(wù)隨著大語(yǔ)言模型的逐漸擴(kuò)張會(huì)展現(xiàn)出某種涌現(xiàn)能力。當(dāng)模型的參數(shù)規(guī)模未達(dá)到一定的閾值時(shí)

,這個(gè)模型便不具備解決此類任務(wù)的任何能力。但模型的參數(shù)規(guī)模超過(guò)所需閾值

,這個(gè)模型對(duì)解決此類任務(wù)的能力和最終的表現(xiàn)效果呈爆發(fā)式增長(zhǎng)。模型的規(guī)

模越大

,模型能夠解決的任務(wù)越多。大語(yǔ)言模型出現(xiàn)涌現(xiàn)能力的原因有兩個(gè):其一,有些任務(wù)的指標(biāo)不夠平滑,只有模型足夠大才能使輸出內(nèi)容和標(biāo)準(zhǔn)答案完全匹配。其二,有些任務(wù)會(huì)在中間步驟出錯(cuò),模型的規(guī)模越大,解決這些錯(cuò)誤的能力越強(qiáng)。

第三類任務(wù)(少部分)

隨著大語(yǔ)言模型的逐漸擴(kuò)張

,其表現(xiàn)效果會(huì)呈U形。初期模型規(guī)模的擴(kuò)張會(huì)使任務(wù)表現(xiàn)效果降低

,但隨著進(jìn)一步擴(kuò)張

,模型具備了忽略干擾任務(wù)并執(zhí)行真正任務(wù)的能力

,表現(xiàn)效果則會(huì)越來(lái)越好。判斷大語(yǔ)言模型的好壞有三個(gè)重要因素:訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)模、訓(xùn)練時(shí)間。這三個(gè)因素呈乘數(shù)關(guān)系,當(dāng)總成本一定

,在增加訓(xùn)

練數(shù)據(jù)量的同時(shí)減少模型的參數(shù)規(guī)模

,不僅可以保證不降低模型效果的模型效果

,也可以極大的縮小模型規(guī)模

,加速模型的推理速度。

這種方式也將是大語(yǔ)言模型最有前途的發(fā)展途徑。預(yù)訓(xùn)練模型的應(yīng)用共有兩個(gè)階段:預(yù)訓(xùn)練階段和具體場(chǎng)景應(yīng)用階段。大語(yǔ)言模型預(yù)訓(xùn)練階段的優(yōu)化指標(biāo)與下游的任務(wù)表現(xiàn)并非呈正相

關(guān)關(guān)系。下游具體場(chǎng)景應(yīng)用階段大語(yǔ)言模型規(guī)模的擴(kuò)張預(yù)訓(xùn)練階段大語(yǔ)言模型規(guī)模的擴(kuò)張1.1.7

大語(yǔ)言模型規(guī)模擴(kuò)張產(chǎn)生的影響信息來(lái)源:

《由ChatGPT反思大語(yǔ)言模型(LLM)的技術(shù)精要》,西南證券整理

10發(fā)展方向探索大語(yǔ)言模型的天花板增強(qiáng)大語(yǔ)言模型的復(fù)雜推理能力將大語(yǔ)言模型納入自然語(yǔ)言處理以外的更多其他領(lǐng)域開發(fā)更易用的人和大語(yǔ)言模型的交互接口建設(shè)高難度的綜合任務(wù)測(cè)評(píng)數(shù)據(jù)集加強(qiáng)數(shù)據(jù)的質(zhì)量超大大語(yǔ)言模型Transformer的稀疏化(Sparse

)使大語(yǔ)言模型能夠更好的發(fā)展

,不僅要擴(kuò)張模型的規(guī)模

,也要增強(qiáng)模型的推理能力。大語(yǔ)言模型共有兩種增強(qiáng)其推理能力的方法:第一種是一Google為代表的使用基于prompt的研究方法,運(yùn)用合適的提示語(yǔ)激發(fā)大語(yǔ)言模型本身的推理能力。第二種是以O(shè)penAI為代表的在預(yù)訓(xùn)練階段引入程序代碼并與文本共同參與預(yù)訓(xùn)練,更好的增強(qiáng)大語(yǔ)言模型的推理能力。大語(yǔ)言模型未來(lái)發(fā)展方向1.1.8

大語(yǔ)言模型未來(lái)發(fā)展方向

極大的減少訓(xùn)練和推理時(shí)間信息來(lái)源:

《由ChatGPT反思大語(yǔ)言模型(LLM)的技術(shù)精要》,西南證券整理

111

大模型與GPT?1.1

大模型篇?1.2

ChatGPT篇?1.3

GPT-4篇3

ChatGPT應(yīng)用場(chǎng)景2

國(guó)內(nèi)篇目

錄512ChatGPT的全稱為ChatGenerativePre-trainedTransformer

,是2022年底由美國(guó)人工智能實(shí)驗(yàn)室OpenAI發(fā)布的大型對(duì)話式自然

語(yǔ)言處理模型3.5版本。通過(guò)深度學(xué)習(xí)和訓(xùn)練互聯(lián)網(wǎng)數(shù)據(jù),它以文字的形式模擬人類的對(duì)話方式并與用戶進(jìn)行交互。ChatGPT目前月活用戶突破一億,是當(dāng)之無(wú)愧的近期炙手可熱的新一代人工智能產(chǎn)品。ChatGPT目前有七大主要功能

,包括:

文本生成、聊天機(jī)器人、

語(yǔ)言問(wèn)答、語(yǔ)言翻譯、

自動(dòng)文摘、繪畫功能、編程功能。不僅如此,ChatGPT還有能力承認(rèn)并訂正自己的錯(cuò)誤,質(zhì)疑用戶提問(wèn)時(shí)的預(yù)設(shè)條件以及拒絕用戶不適當(dāng)?shù)恼?qǐng)求。ChatGPT與AIGC

的不同點(diǎn)在于:

AIGC可以生成文本、音頻、圖像、視頻以及完成圖像、視頻、文本間的跨模態(tài)生成等。而

ChatGPT生成的內(nèi)容僅局限于文字

,是AIGC的一個(gè)重要分支。1.2.1

ChatGPT簡(jiǎn)介信息來(lái)源:

《整數(shù)智能AI研究院》,數(shù)治網(wǎng),西南證券整理

13ChatGPT以及生成式AI是一個(gè)不可逆

,不會(huì)減速的大趨勢(shì)

,也會(huì)促進(jìn)全產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的發(fā)展趨勢(shì)

,它

只會(huì)加速以更快的商業(yè)落地的形式呈現(xiàn)在大眾面前。ChatGPT最大的優(yōu)點(diǎn)是它進(jìn)行了一個(gè)全產(chǎn)業(yè)(醫(yī)療、生命科學(xué)、生物學(xué)、物流、供應(yīng)鏈制造行業(yè)、化工行業(yè)、保險(xiǎn)行業(yè)、金融行業(yè)等)、全范圍的普適的人工智能教育。對(duì)客戶在教育層面上不需要做太多的工作,而是可以更多的關(guān)注到應(yīng)用場(chǎng)景和具體的技術(shù)審核。因?yàn)镃hatGPT背后是一個(gè)大的語(yǔ)言數(shù)據(jù)模型,它對(duì)于算力的要求和數(shù)據(jù)量的要求非??鋸?,很難在學(xué)術(shù)圈籌備足夠的資金、足夠強(qiáng)的算力、足夠的數(shù)據(jù)去支持飛快的迭代速度。但OpenAI最初是一個(gè)非盈利

的經(jīng)營(yíng)模式

,因此吸引了很多硅谷科技的領(lǐng)袖的支持

,包括有微軟的投資和算力的支持。其次是因?yàn)樗?/p>

本身就具備極強(qiáng)的學(xué)習(xí)能力

,并可以同時(shí)生成非常優(yōu)質(zhì)的合成數(shù)據(jù)。?第一階段:

2018年6月提出了GPT-1模型,通過(guò)生成式預(yù)訓(xùn)練來(lái)提高語(yǔ)言理解能力。?第二階段:

2019年2月推出了GPT-2模型,做到可生成與人類語(yǔ)言相似文本,并完成多項(xiàng)任務(wù)。在

微調(diào)訓(xùn)練中

,使用零次訓(xùn)練

,準(zhǔn)確率差。?第三階段:

2020年5月推出了GPT-3模型,可生成更高質(zhì)量的自然語(yǔ)言文本,并支持其他自然語(yǔ)言任務(wù)。與GPT-2不同

,GPT-3使用FewPrompt過(guò)度

,大幅增加參數(shù)量

,擁有語(yǔ)境學(xué)習(xí)能力

,準(zhǔn)確

率大幅提升。?第四階段:

2022年11月推出了GPT-3.5模型,也就是目前的ChatGPT。GPT-3和3.5版本之間最大

的區(qū)別為3.5版本有更多真人反饋

(

RLFH

)

來(lái)幫助機(jī)器更好的學(xué)習(xí)和探索并合成類似數(shù)據(jù)。

同時(shí)

,

GPT-3.5引入Instruct的接口方式

,增加了ChatGPt的推理能力。?第五階段:

推出GPT-4模型

,加入了多模態(tài)

,可以理解圖像

,但目前無(wú)法做到zeroprompt。

ChatGPT

爆發(fā)式發(fā)展速

度的原因

ChatGPT的演進(jìn)1.2.1

ChatGPT簡(jiǎn)介信息來(lái)源:

GPT會(huì)取代醫(yī)生和研發(fā)人員?No,但掌握AI很重要》,西南證券整理

14

ChatBOT

:基于檢索,形成一個(gè)大的語(yǔ)料庫(kù),在庫(kù)里檢索相似的Query

,把對(duì)應(yīng)的內(nèi)容再返回給用戶。其特點(diǎn)可以總結(jié)為:基于檢索語(yǔ)料庫(kù)

,在相關(guān)性、

自然度等方面都做得比較差。

ChatGPT

:基于大規(guī)模語(yǔ)言模型,會(huì)在進(jìn)一步對(duì)話數(shù)據(jù)場(chǎng)景下做優(yōu)化。ChatGPT實(shí)際上是基于instructGPT進(jìn)一步在對(duì)話場(chǎng)景下,基于對(duì)上下文、

對(duì)復(fù)雜問(wèn)題的更好理解

,對(duì)對(duì)話場(chǎng)景的數(shù)據(jù)進(jìn)行優(yōu)化。

在相關(guān)性、

自然度等方

面做得較好。ChatBOTChatGPT1.2.2

ChatGPT與ChatBOT的比較信息來(lái)源:

《和大模型創(chuàng)業(yè)者聊一聊:ChatGPT火了,國(guó)內(nèi)創(chuàng)業(yè)者的機(jī)會(huì)在哪里?》,西南證券整理

15

因?yàn)閷?duì)情感和對(duì)社會(huì)聯(lián)結(jié)的處理會(huì)很不一樣,完成任務(wù)相對(duì)客觀,情感對(duì)話相對(duì)主觀。針對(duì)情感對(duì)話

,模型開發(fā)人員會(huì)借鑒心理學(xué)的理論、話術(shù)

,力求更好地做情感支持

,去傾聽(tīng)、

去安撫;情感對(duì)話還會(huì)面臨更多潛在問(wèn)題

,

比如倫理問(wèn)題等。

ChatGPT擁有強(qiáng)大的語(yǔ)言理解能力

,但不具備人類獨(dú)有的創(chuàng)造力、思維力、

洞察力等特征。理解能力是情感建立的基礎(chǔ),具有理解能力的ChatGPT

,在交流中表現(xiàn)出“同理心”,但不代表ChatGPT擁有自己的情緒和感情。ChatGPT對(duì)于有著人類思維的AI是否為生物的看法1.2.3

ChatGPT的倫理學(xué)討論信息來(lái)源:

《和大模型創(chuàng)業(yè)者聊一聊:ChatGPT火了,國(guó)內(nèi)創(chuàng)業(yè)者的機(jī)會(huì)在哪里?》西南證券整理

16數(shù)據(jù)標(biāo)注、算力支撐和先發(fā)優(yōu)勢(shì)是ChatGPT得以強(qiáng)勢(shì)發(fā)展的三大護(hù)城河。

數(shù)據(jù)標(biāo)注是ChatGPT發(fā)展的“肥料”。ChatGPT底層邏輯仍是基于自回歸的機(jī)器學(xué)習(xí),需要輸入大量數(shù)據(jù)進(jìn)行模型訓(xùn)練,數(shù)據(jù)標(biāo)注屬于資本密集和勞動(dòng)力密集型工作,需要大量人力和財(cái)力,但ChatGPT在成本低的同時(shí)做到了高效率(0.3美分/條,單條效率為人類的4倍)。此外,隨著ChatGPT更新迭代,需要的訓(xùn)練語(yǔ)料呈指數(shù)級(jí)增長(zhǎng),但許多專業(yè)語(yǔ)料并不公開,即使擁有人工標(biāo)注的能力,一些不掌握核心語(yǔ)料的非巨頭廠商也難以進(jìn)入。

算力支撐是ChatGPT發(fā)展的“土壤”。數(shù)據(jù)標(biāo)注和模型訓(xùn)練都需要強(qiáng)大的算力支撐。標(biāo)注數(shù)據(jù)、問(wèn)題分類和答案預(yù)編輯等工作可以借助模型去預(yù)測(cè)其效果,來(lái)回試錯(cuò),其中對(duì)算力侵占是巨大的。依靠微軟的強(qiáng)大算力,OpenAI可以在短時(shí)間內(nèi)完成試錯(cuò),將模型訓(xùn)練成熟。

先發(fā)優(yōu)勢(shì)是保障ChatGPT吸收“肥料”和鞏固“土壤”的“根系”。

OpenAI把GPT3放出來(lái)之后,用戶通過(guò)API使用ChatGPT

,不斷向模型輸入訓(xùn)練語(yǔ)料。通過(guò)對(duì)話,人們?cè)谑褂肅hatGPT時(shí)也完成了對(duì)其的訓(xùn)練,基于用戶反饋,ChatGPT能不斷獲得query分布,判斷各個(gè)query的訓(xùn)練成熟度,以此為導(dǎo)向有意識(shí)地、有針對(duì)性地做數(shù)據(jù)標(biāo)注,不斷反哺ChatGPT。GPT有飛輪效應(yīng)

,在不同階段分別體現(xiàn)為小飛輪效應(yīng)和大飛輪效應(yīng)。

過(guò)去:面向ToB客戶,OpenAI在廠商內(nèi)部積累滿意度、成熟度等數(shù)據(jù),在內(nèi)部形成小飛輪效應(yīng);

現(xiàn)在:如今面向ToC用戶,調(diào)動(dòng)了上億用戶,從外部形成大飛輪效應(yīng)。

未來(lái):跟隨者只有通過(guò)飛輪效應(yīng)才能在ChatGPT迭代的同時(shí)完成追趕。可以采用開發(fā)更多toB模型、面向中國(guó)市場(chǎng),訓(xùn)練中文語(yǔ)料等方式。Chatgpt.人類偏好.好壞數(shù)據(jù)標(biāo)注人工標(biāo)注

ChatGPT的三大護(hù)城河

ChatGPT的飛輪效應(yīng)ChatGPT可以進(jìn)行數(shù)據(jù)標(biāo)注1.2.4

ChatGPT的護(hù)城河信息來(lái)源:

《和大模型創(chuàng)業(yè)者聊一聊:ChatGPT火了,國(guó)內(nèi)創(chuàng)業(yè)者的機(jī)會(huì)在哪里?》西南證券整理

17完成

“專用AI-通用AI”的轉(zhuǎn)變

,期待

“通用AI-專業(yè)AI”的落地。

ChatGPT在RLHF的幫助下

,找到了GPT-3.5和人類自然語(yǔ)言的合理接口,解鎖了模型的應(yīng)用場(chǎng)景,改變了人機(jī)交互方式。

專用AI既要做理解也要做生成

,通用AI

(

ChatGPT)

以生成為核心。

ChatGPT將生成模型搭建好,基于激勵(lì)機(jī)制,反過(guò)來(lái)也能把理解訓(xùn)練得很好,于是構(gòu)建了一個(gè)目標(biāo)明確的“理解+生成”的大模型;同時(shí)Transformer提供了一個(gè)能支撐大模型訓(xùn)練的架構(gòu)

,所以就在方向上形成了與原來(lái)不一樣的技術(shù)訴求的突破。更新迭代過(guò)程中涌現(xiàn)了很多的新的能力。

in-contextcorrection

能力

、

in-contextlearning

能力

、instruct能力;

GPT

-

3涌現(xiàn)出的in

-contextlearning能力和fine-tuning有本質(zhì)不同,后者需要更改模型參數(shù),也就是說(shuō),換了個(gè)新模型。但是in-contextlearning

,模型并沒(méi)有變化,卻能在新數(shù)據(jù)上

表現(xiàn)更好;

GPT

-Codex版本解鎖了推理能力,以及InstructGPT提出了instruct這一方法,他們合體的ChatGPT在in-contextlearning的基礎(chǔ)之上,展示出了具備理解、推理、演繹能力。1.2.5

ChatGPT脫穎而出的原因人機(jī)交互方式ChatGPT迭代中涌現(xiàn)的能力信息來(lái)源:

《萬(wàn)字長(zhǎng)文,探討關(guān)于ChatGPT的五個(gè)最核心問(wèn)題》西南證券整理

18基于對(duì)應(yīng)關(guān)系

;基于內(nèi)在邏輯范式突破:從“鸚鵡”到“烏鴉”。

過(guò)往ML

:采用

“鸚鵡學(xué)舌”范式。依賴檢索和記憶能力,需要“喂”,之后“模仿”,“

ChatGPT

:采用

“烏鴉理解”范式。采用理解力,有舉一反三的能力,需要“教”,之后“懂”,“”。?ChatGPT擁有in-contextcorrection的能力,給出修改意見(jiàn),ChatGPT可以聽(tīng)懂錯(cuò)誤是什么,并向正確的方向修正。?描述越詳細(xì)清楚,ChatGPT回答得越好。.自主的智能:

感知、認(rèn)知、推理、學(xué)習(xí)和執(zhí)行.不依賴大數(shù)據(jù):沒(méi)有標(biāo)注的訓(xùn)練數(shù)據(jù),無(wú)監(jiān)督學(xué)習(xí).需要大量重復(fù)數(shù)據(jù)來(lái)訓(xùn)練.可以說(shuō)人話、但不理解意

思.不能對(duì)應(yīng)現(xiàn)實(shí)的因果邏輯烏鴉范式“小數(shù)據(jù),大任務(wù)”鸚鵡范式“大數(shù)據(jù),小任務(wù)”1.2.5

ChatGPT脫穎而出的原因兩種范式的對(duì)比信息來(lái)源:

《如何應(yīng)對(duì)ChatGPT?二級(jí)市場(chǎng)閉門研討會(huì)精選》西南證券整理

19模型輕量化

,解決效率問(wèn)題。從部署層面來(lái)看,ChatGPT背后的模型太大,單個(gè)Query訓(xùn)練

成本高,大約為3美分/Query

,這對(duì)于任何一家公司都是巨大的成本。因此,對(duì)于模型的輕量化處理,或使用更小的機(jī)器解決效率問(wèn)題,也是ChatGPT要考慮的問(wèn)題。構(gòu)建新算法、

新模型。從科學(xué)或算法角度來(lái)講,ChatGPT的強(qiáng)化學(xué)習(xí)能力會(huì)越來(lái)越強(qiáng),其未來(lái)的發(fā)展趨勢(shì)可以從新算法的構(gòu)建出發(fā);如對(duì)Transformer架構(gòu)進(jìn)一步改進(jìn)和優(yōu)化,或者構(gòu)建比GPT更小、但能力很強(qiáng)的模型。通用轉(zhuǎn)為專用

,實(shí)現(xiàn)落地應(yīng)用。目前ChatGPT更像一個(gè)通用人工智能,在專用場(chǎng)景下應(yīng)用不夠靈敏。所以在落地層面,ChatGPT還有很大的發(fā)展空間,也為國(guó)內(nèi)創(chuàng)業(yè)者提供了新的機(jī)會(huì)。訓(xùn)練log日志分析能力

,快速建立飛輪效應(yīng)。log分析是人工智能進(jìn)行自我學(xué)習(xí)的關(guān)鍵之一

,要求對(duì)海量數(shù)據(jù)(幾十億GB/天)自動(dòng)分類的同時(shí),還要進(jìn)行重點(diǎn)標(biāo)注,并將標(biāo)注的結(jié)果快速地輸入原來(lái)的模型以體現(xiàn)效果。Log日志分析過(guò)程的自動(dòng)化程度很高、很快,目前,即使是ChatGPT也有一定困難。1.2.6

ChatGPT未來(lái)發(fā)展邏輯信息來(lái)源:

《和大模型創(chuàng)業(yè)者聊一聊:ChatGPT火了,國(guó)內(nèi)創(chuàng)業(yè)者的機(jī)會(huì)在哪里?》西南證券整理

201

大模型與GPT?1.1

大模型篇?1.2

ChatGPT篇?1.3

GPT-4篇3

ChatGPT應(yīng)用場(chǎng)景2

國(guó)內(nèi)篇目

錄521模型發(fā)布時(shí)間OpenAI內(nèi)部稱號(hào)訓(xùn)練方式參數(shù)量GPT2018年6月預(yù)訓(xùn)練+Fine-tuning1.17億GPT-22019年2月預(yù)訓(xùn)練15億GPT-32020年3月Davinci預(yù)訓(xùn)練語(yǔ)言模型1750億Codex2021年8月code-davinci-001在代碼上繼續(xù)預(yù)訓(xùn)練語(yǔ)言模型120億InstructGPT2022年3月text-davinci-001在大量有指導(dǎo)任務(wù)上精調(diào)1750億GPT-3.52022年7月code-davinci-002在代碼上繼續(xù)預(yù)訓(xùn)練語(yǔ)言模型大于1750億2022年7月text-davinci-002在大量有指導(dǎo)任務(wù)上精調(diào)大于1750億2022年12月text-davinci-003在text-davinci-002上加入RLHF,側(cè)重incontext-

learning大于1750億CHatGPT2022年12月在text-davinci-002基礎(chǔ)上增加RLHF,側(cè)重重復(fù)訓(xùn)練大于1750億GPT-42023年3月在ChatGPT基礎(chǔ)上加入圖像理解能力,但下游應(yīng)用效果不如NLP,不能做到ZeroPrompt10萬(wàn)億(非官方估計(jì))GPT-4(GenerativePre-trainedTransformer4)是OpenAI發(fā)布的最新GPT系列模型。相比GPT-3,GPT-4用了

更多的數(shù)據(jù)量來(lái)訓(xùn)練,有著更高級(jí)的推理能力和支持了多模態(tài)

,可以接受圖像和文本輸入

,產(chǎn)生文本輸出。

大規(guī)模的多模態(tài)模型有監(jiān)督的訓(xùn)練模型,旨在優(yōu)化用戶所關(guān)心的功能,構(gòu)建“任務(wù)助手”歷代GPT的對(duì)比無(wú)監(jiān)督的預(yù)訓(xùn)練模型1.3.1

GPT-4簡(jiǎn)介信息來(lái)源:OpenAI,西南證券整理

22OpenAI花了6個(gè)月的時(shí)間反復(fù)調(diào)整GPT

-4以及ChatGPT使用的訓(xùn)練模型

,最終得到在真實(shí)性、

可操控性、

實(shí)用性

上有史以來(lái)最好的結(jié)果。

相較GPT

-3.5

,GPT-4有以下技術(shù)升級(jí):

增加了圖像理解能力。

GPT-4支持以圖像/文字為輸入,并輸出文字。

支持更長(zhǎng)的上下文理解。

GPT-4能夠支持的對(duì)話長(zhǎng)度為ChatGPT的2倍和8倍。

對(duì)于復(fù)雜任務(wù)的處理能力大幅提升

,在各大標(biāo)準(zhǔn)考試中表現(xiàn)都優(yōu)于人類,同時(shí)擁有突出的多語(yǔ)種能力。

改善了幻覺(jué)和安全局限性

,對(duì)于Hallucination的現(xiàn)象也極大改善,安全局限性顯著降低。文字文字+圖片GPT-4的技術(shù)升級(jí)1.3.2

GPT-4技術(shù)升級(jí)復(fù)雜任務(wù)處理能力大幅提升改善了幻覺(jué)和安全局限性信息來(lái)源:

《萬(wàn)字長(zhǎng)文全面解讀:GPT-4有什么不一樣》西南證券整理

23更長(zhǎng)的上下文理解能力圖像理解能力GPT-4開啟了多模態(tài)的篇章

,增加了圖像理解能力??梢越邮軋D像作為輸入數(shù)據(jù)并生成說(shuō)明、分類和分析文檔。

具體表現(xiàn)在以下方面:

看懂梗圖

看懂圖表并分析

看懂圖片之間的邏輯問(wèn)題:這幅圖有什么好笑的?一點(diǎn)一點(diǎn)描述它。

GPT-4回答:該圖像顯示了一個(gè)包含三

個(gè)圖片的“LightningCable”適配器。圖1:一個(gè)智能手機(jī)與VGA連接器(一個(gè)大

型,藍(lán)色,15針連接器通常用于計(jì)算機(jī)

顯示器)插入其充電端口。圖2:“LightningCable”適配器的封裝,

上面有一個(gè)VGA連接器的圖片。圖3:VGA連接器的特寫鏡頭,最后是一

個(gè)小型Lightning連接器(用于為iPhone和其他蘋果設(shè)備充電)。這張圖片中的幽默來(lái)自于將一個(gè)過(guò)時(shí)的大型VGA連接器插入一個(gè)小型的現(xiàn)代智

能手機(jī)充電端口的荒謬。GPT-4根據(jù)圖表計(jì)算日均肉消耗量GPT-4能看懂梗圖隱含笑點(diǎn)1.3.2

GPT-4技術(shù)升級(jí)信息來(lái)源:OpenAI,西南證券整理

24GPT-4比以

往任何

時(shí)候

都更

創(chuàng)造性和

協(xié)作性

。它可以與用戶一起生成、編輯和迭代創(chuàng)意和技術(shù)寫作任務(wù),例如創(chuàng)作歌

曲、編寫劇本或?qū)W習(xí)用戶的寫作風(fēng)格。擁有更好

的理解

能力和

總結(jié)

,支持

更長(zhǎng)的

上下文

分析。

之前外網(wǎng)泄露圖中,G

PT-4存在兩個(gè)版本。其支持的上下文分別是8K和32K

,是ChatGPT上下文長(zhǎng)度的2倍和8倍。對(duì)于32K版本的GPT-4,其處理

超過(guò)25000個(gè)單詞的文本,是上一代GPT的8倍,允許使用長(zhǎng)

格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話以及文檔搜索和分析等用例。GPT-3.5和GPT-4文字處理能力對(duì)比GPT-4Brief1.3.2

GPT-4技術(shù)升級(jí)信息來(lái)源:OpenAI,西南證券整理

25GPT-4復(fù)雜任務(wù)處理能力大幅提升。

GPT-4在更復(fù)雜、更細(xì)微的任務(wù)處理上,回答更可靠、更有創(chuàng)意。這在多類考試測(cè)驗(yàn)中以及與其他LLM的benchmark比較中得以體現(xiàn):

在不同年齡段不同類別考試中均名列前茅,比如律師職業(yè)資格考試,名列前10%,生物學(xué)奧賽,名列前1%等;

在MMLUbenchmark上,各項(xiàng)指標(biāo)均優(yōu)于其他大模型;

多語(yǔ)言能力強(qiáng)大,特別是小語(yǔ)種能力也很出色。

GPT-4的高級(jí)推理能力超越了ChatGPT

GPT-4與其他大模型的MMLUBenchmark對(duì)比

GPT-4在美國(guó)各高等考試中的表現(xiàn)出色

GPT-4的多語(yǔ)種能力

1.3.2

GPT-4技術(shù)升級(jí)信息來(lái)源:騰訊云開發(fā)者,西南證券整理

26GPT-4顯著改善了幻覺(jué)、

安全等局限性。在各類任務(wù)上幻覺(jué)問(wèn)題顯著減輕,GPT-4對(duì)于同樣的任務(wù)的準(zhǔn)確而率比最新的GPT-3.5模型高40%;在安全能力的升級(jí)上,GPT-4明顯超出ChatGPT和GPT3.5。在OpenAI的內(nèi)部評(píng)估中,相比于GPT-3.5,GPT-4回應(yīng)不允許的內(nèi)容的可能性降低了82%

,回應(yīng)更有可能產(chǎn)生事實(shí)性的回答的可能性提高了40%。

改善了幻覺(jué)和安全局限性各代GPT在不同任務(wù)中的準(zhǔn)確率

各代GPT回應(yīng)不允許的內(nèi)容的可能性

1.3.2

GPT-4技術(shù)升級(jí)信息來(lái)源:騰訊云開發(fā)者,西南證券整理

27從GPT-4看出未來(lái)LLM的研發(fā)方向和優(yōu)化策略大概有兩點(diǎn):

1、

閉源趨勢(shì)。

底層大模型成關(guān)鍵技術(shù)門檻。從GPT-1到GPT-4,模型各類細(xì)節(jié)越來(lái)越閉源和黑盒,大模型戰(zhàn)場(chǎng)的競(jìng)爭(zhēng)因素決定了以GPT-4為代表的第一梯度模型可能會(huì)越來(lái)越封閉,成為技術(shù)門檻。2、

SelfInstruct模式或采取多種方式使模型加速和降低成本。SelfInstruct模式的核心是中小模型+大模型生產(chǎn)

指令數(shù)據(jù)的「LLaMA7B+text-davinci

-003」

模式

。中小參數(shù)的模型在成本上,是更靠近實(shí)際落地的方式,未來(lái)從訓(xùn)練、推理等多層面考量,如何降低成本和模型加速是LLM優(yōu)化的一大方向。開源閉源用小模型來(lái)預(yù)測(cè)某些參數(shù)組合下對(duì)應(yīng)

大模型的某種能力LLM的發(fā)展趨勢(shì)1.3.3

從GPT-4看LLM的發(fā)展趨勢(shì)大模型預(yù)訓(xùn)練信息來(lái)源:騰訊云開發(fā)者,西南證券整理

28多鄰國(guó)一款語(yǔ)言學(xué)習(xí)類APP

。目前,多鄰國(guó)GPT-4接入產(chǎn)品,進(jìn)行角色扮演,讓人工智能跟用戶去對(duì)話,糾正語(yǔ)法錯(cuò)誤,并且把這一功能融入產(chǎn)品的游戲化,成

功轉(zhuǎn)型為一款以游戲化方式學(xué)習(xí)語(yǔ)言的軟件。多鄰國(guó)每個(gè)月有超過(guò)5000萬(wàn)學(xué)習(xí)者使用其學(xué)習(xí)第二語(yǔ)言。通過(guò)簡(jiǎn)潔的用戶界面和有趣且有競(jìng)爭(zhēng)力的排行榜,涵蓋100多種課程,支持40種語(yǔ)言。學(xué)習(xí)者可以通過(guò)在手機(jī)上輕拍和滑動(dòng),從簡(jiǎn)單的詞匯練習(xí)過(guò)渡到復(fù)雜的句子結(jié)構(gòu)。2023年3月15日

,可汗學(xué)院宣布將使用GPT

-4為Khanmigo提供支持

Khanmigo是一種人工智能助手

,既可以作為學(xué)生的虛擬導(dǎo)師

,也可以

作為教師的課堂助手??珊箤W(xué)院是一家非營(yíng)利組織,其使命是為任何地方的任何人提供免費(fèi)的

世界一流教育。GPT-4的主要功能之一是能夠理解自由形式的問(wèn)題和提

示。這種像人一樣來(lái)回走動(dòng)的能力,可能為可汗學(xué)院提供了最關(guān)鍵的能力:向每個(gè)學(xué)生提出個(gè)性化的問(wèn)題,以促進(jìn)更深層次的學(xué)習(xí)。

多鄰國(guó)

可汗學(xué)院1.3.4

GPT-4應(yīng)用場(chǎng)景--教育領(lǐng)域信息來(lái)源:

《新里程碑!OpenAI發(fā)布GPT-4:四大提升,落地六種場(chǎng)景》西南證券整理

29BeMyEyes是一家創(chuàng)立于2012年的丹麥公司,持續(xù)為超過(guò)2.5億視力障礙或弱視人群提供輔助技術(shù)。一直以來(lái),大部分的盲人類產(chǎn)品都只能識(shí)別文字。BeMyEyes借助GPT-4的多模態(tài)技術(shù)

,現(xiàn)在視力障礙或弱視人群也可以看清

這個(gè)世界。借助

G

P

T

-

4

態(tài)

術(shù)

B

e

M

y

E

y

e

s

應(yīng)

發(fā)

VirtualVolunteer功能

,其可以產(chǎn)生與人類志愿者相同水平的分析、理解和反饋能力,使視力障礙或弱視人群擁有第二雙眼睛。摩根士丹利是財(cái)富管理領(lǐng)域的領(lǐng)導(dǎo)者,其內(nèi)部的投資數(shù)據(jù)庫(kù)包含數(shù)十萬(wàn)頁(yè)的知識(shí),涵蓋投資策略、市場(chǎng)研究和評(píng)論以及分析師見(jiàn)解。進(jìn)行投資決策過(guò)程中,為了搜集大量分布在內(nèi)部網(wǎng)站上的信息,摩根

士丹利借助OpenAI的GPT

-4開發(fā)了一種全新的強(qiáng)搜索方式

,正在改

變其財(cái)富管理人員查找相關(guān)信息的方式。

投資領(lǐng)域--摩根士丹利

醫(yī)療健康領(lǐng)域--BeMyEyes1.3.4

GPT-4應(yīng)用場(chǎng)景--其他場(chǎng)景信息來(lái)源:

《新里程碑!OpenAI發(fā)布GPT-4:四大提升,落地六種場(chǎng)景》西南證券整理

301

大模型與GPT?2.1

國(guó)內(nèi)大模型發(fā)展現(xiàn)狀?2.2

國(guó)內(nèi)主流大模型3

ChatGPT應(yīng)用場(chǎng)景2

國(guó)內(nèi)篇目

錄531需要解決的問(wèn)題:錢+人才+時(shí)間

問(wèn)題所在具體表現(xiàn)算力問(wèn)題算力問(wèn)題具體表現(xiàn)在國(guó)內(nèi)企業(yè)仍需花費(fèi)大量人力財(cái)力投入到提升研發(fā)技術(shù)和芯片,提升自己的實(shí)力。同時(shí),中國(guó)公司也需積極跟進(jìn)國(guó)際上的技術(shù)發(fā)展趨勢(shì),提升迭代速度。數(shù)據(jù)問(wèn)題ChatGPT的成功關(guān)鍵在于其用大量的訓(xùn)練數(shù)據(jù)。足量的高質(zhì)量數(shù)據(jù)是國(guó)產(chǎn)大語(yǔ)言模型成功與否的決定性因素。從獲取渠道方面,中國(guó)公司不僅需要得到國(guó)家支持,還需積極整理搜集各類數(shù)據(jù)同時(shí)共享數(shù)據(jù),做到合作共贏。在人工標(biāo)注方面,需要注入人類偏好知識(shí)(人類的表達(dá)習(xí)慣和人類的對(duì)回答質(zhì)量好壞的偏好)算法問(wèn)題在全球范圍內(nèi),能夠有高效訓(xùn)練千億參數(shù)模型算法能力的人才不超過(guò)200人,其中中國(guó)本土的人才更少。自然語(yǔ)言處理模型是一個(gè)極為復(fù)雜的技術(shù),需要各種跨學(xué)科的人才。中國(guó)公司需要積極的引進(jìn)和培養(yǎng)相關(guān)人才。飛輪效應(yīng)積累垂類數(shù)據(jù)

C端:上億用戶使用提高用戶滿意度國(guó)內(nèi)公司在自然語(yǔ)言處理領(lǐng)域具有巨大的潛力和美好的發(fā)展前景。目前,國(guó)內(nèi)眾多大型或小型公司都已經(jīng)開始積極投入并研發(fā)屬于自己開源的強(qiáng)大的語(yǔ)言模型,如阿里通義M6大模型和騰訊混元都是參數(shù)容量破千億的語(yǔ)言大模型,而百度的文心一言也是國(guó)內(nèi)首個(gè)語(yǔ)義大模型的終端應(yīng)用。國(guó)內(nèi)目前沒(méi)有能夠直接對(duì)標(biāo)ChatGPT的應(yīng)用,但國(guó)產(chǎn)的語(yǔ)言模型可以做到更好的面向國(guó)內(nèi)用戶,在遣詞造句、引經(jīng)據(jù)典、中文語(yǔ)言生成等方面超越ChatGPT。大語(yǔ)言模型在國(guó)內(nèi)即將迎來(lái)高速發(fā)展

,各公司之間的競(jìng)爭(zhēng)于今年下半年開始也將會(huì)愈

發(fā)激烈。為了使國(guó)產(chǎn)大語(yǔ)言模型達(dá)到最理想的發(fā)展

,各公司之間做好份內(nèi)業(yè)務(wù)并發(fā)揮自己的優(yōu)勢(shì)

,積極尋求合作合作機(jī)會(huì)

,共同推進(jìn)大語(yǔ)言模

型技術(shù)。只有在競(jìng)爭(zhēng)與協(xié)同共存的條件下

,中國(guó)公司才能夠?qū)崿F(xiàn)自我提升和共同發(fā)展

,實(shí)現(xiàn)合作共贏的局面。國(guó)內(nèi)公司主要發(fā)展途徑主要發(fā)展途徑使用自回歸模型預(yù)訓(xùn)練引入程序代碼提高數(shù)據(jù)質(zhì)量和數(shù)量多模態(tài)Sparse化(可降低成本)使用易用接口2.1.1

大語(yǔ)言模型的國(guó)內(nèi)發(fā)展情況信息來(lái)源:《國(guó)內(nèi)AI大模型深度解讀及發(fā)展機(jī)遇展望》,西南證券整理

32用戶幫助反饋、標(biāo)注結(jié)果更精確資本密度人才

密度更多用戶使用模型迭代B端:2.1.1

大語(yǔ)言模型的國(guó)內(nèi)發(fā)展情況國(guó)內(nèi)公司在自然語(yǔ)言處理領(lǐng)域具有巨大的潛力和美好的發(fā)展前景。目前,國(guó)內(nèi)眾多大型或小型公司都已經(jīng)開始積極投入并研發(fā)屬于自己開源的強(qiáng)大的語(yǔ)言模型,如阿里通義M6大模型和騰訊混元都是參數(shù)容量破千億的語(yǔ)言大模型,而百度的文心一言也是國(guó)內(nèi)首個(gè)語(yǔ)義大模型的終端應(yīng)用。國(guó)內(nèi)目前沒(méi)有能夠直接對(duì)標(biāo)ChatGPT的應(yīng)用,但國(guó)產(chǎn)的語(yǔ)言模型可以做到更好的面向國(guó)內(nèi)用戶,在遣詞造句、引經(jīng)據(jù)典、中文語(yǔ)言生成等方面超越ChatGPT。大語(yǔ)言模型在國(guó)內(nèi)即將迎來(lái)高速發(fā)展

,各公司之間的競(jìng)爭(zhēng)于今年下半年開始也將會(huì)愈

發(fā)激烈。為了使國(guó)產(chǎn)大語(yǔ)言模型達(dá)到最理想的發(fā)展

,各公司之間做好份內(nèi)業(yè)務(wù)并發(fā)揮自己的優(yōu)勢(shì)

,積極尋求合作合作機(jī)會(huì)

,共同推進(jìn)大語(yǔ)言模

型技術(shù)。只有在競(jìng)爭(zhēng)與協(xié)同共存的條件下

,中國(guó)公司才能夠?qū)崿F(xiàn)自我提升和共同發(fā)展

,實(shí)現(xiàn)合作共贏的局面。阿里通義M6大模型文心一言發(fā)布會(huì)信息來(lái)源:《國(guó)內(nèi)AI大模型深度解讀及發(fā)展機(jī)遇展望》,西南證券整理

33國(guó)內(nèi)企業(yè)面臨的主要難點(diǎn)具體描述與國(guó)際企業(yè)相比的發(fā)展難點(diǎn)高效率的算法框架其中的難點(diǎn)在于,在擁有足夠參數(shù)量時(shí),需要把模型和數(shù)據(jù)分散到多個(gè)GPU

。國(guó)內(nèi)企業(yè)需要進(jìn)行多次試驗(yàn)及試錯(cuò)才能找到GPU之間的溝通、調(diào)度、高效反向傳播的方法。

技術(shù)突破:即使國(guó)內(nèi)公司目前正以飛快的速度研發(fā)屬于自己的自然語(yǔ)言處理大模型,但國(guó)際企業(yè)在技術(shù)研發(fā)方面更具優(yōu)勢(shì)。國(guó)內(nèi)企業(yè)需持續(xù)創(chuàng)新技術(shù)并實(shí)現(xiàn)突破。追趕GPT-3其中的難點(diǎn)在于,國(guó)內(nèi)企業(yè)需要提升自己的代碼生成能力,并需要擁有62B以上的模型才能有樣本效果。需要花費(fèi)大量財(cái)力購(gòu)買GPU

,預(yù)算預(yù)計(jì)上億。

數(shù)據(jù)質(zhì)量:相比國(guó)際企業(yè),國(guó)內(nèi)公司雖然擁有足夠數(shù)量的訓(xùn)練數(shù)據(jù),但這些數(shù)據(jù)的質(zhì)量參差不齊

,會(huì)在一定程度上

影響模型效果和準(zhǔn)確度。國(guó)內(nèi)企業(yè)仍需大力提高自己的數(shù)據(jù)質(zhì)量??s小飛輪效應(yīng)影響平替尋找大量用戶prompt來(lái)源的平替方案:用NLP數(shù)據(jù)集構(gòu)造prompt

。其中Generation占45.6%;OpenAI占12.4%;Brainstorming占11.2%;Chat占8.4%;Rewrite占6.6%。

模型場(chǎng)景化:ChatGPT已與國(guó)際多家各行業(yè)公司合作。國(guó)內(nèi)公司目前幾乎沒(méi)有語(yǔ)言模型與跨行業(yè)公司合作的落地應(yīng)用。自然語(yǔ)言模型的場(chǎng)景化也是最大的困難。越過(guò)精調(diào)的坑OpenAI將精調(diào)分為兩個(gè)步驟:監(jiān)督精調(diào)(SFT)+強(qiáng)化學(xué)習(xí)訓(xùn)練(RLHF)。其中RLHF是精調(diào)的重點(diǎn)。1.Pertain

:在訓(xùn)練之前先讓模型獨(dú)立觀察,自由學(xué)習(xí)。2.InstructionTuning

:示范模型+簡(jiǎn)單調(diào)整3.RLHF

:對(duì)不可預(yù)料的行為作出反饋使答案來(lái)擬合人的偏好。

國(guó)際化:中國(guó)公司也需要思考如何在突破自己的技術(shù)的同時(shí),將自己的技術(shù)拓展到國(guó)際市場(chǎng)

,在國(guó)際上產(chǎn)生影響力。2.1.2

大語(yǔ)言模型的國(guó)內(nèi)發(fā)展難點(diǎn)國(guó)內(nèi)目前沒(méi)有能夠直接對(duì)標(biāo)ChatGPT的應(yīng)用,中國(guó)公司仍需克服以下難點(diǎn):大語(yǔ)言模型的發(fā)展難點(diǎn)數(shù)據(jù)來(lái)源:

《復(fù)現(xiàn)ChatGPT的難點(diǎn)與平替》,西南證券整理

34應(yīng)用層處于大語(yǔ)言模型產(chǎn)品架構(gòu)的最上層。應(yīng)用層主要負(fù)責(zé)將用戶的輸入文本在模型層的處理和中間層的優(yōu)化后轉(zhuǎn)化為用戶可以理解的形式。應(yīng)用層模型擁有多種形式如聊天機(jī)器人、智能客服等。應(yīng)用層目前有三個(gè)主要方向:第一個(gè)方向是為了通過(guò)使用AI提升用戶生產(chǎn)力,ChatGPT便是這個(gè)方向最典型的生產(chǎn)力工具;第二個(gè)方向是為了通過(guò)使用AI提升上層用戶的交互體驗(yàn);第三個(gè)方向是AIforScience

,這個(gè)方向?qū)蒲邢嚓P(guān)的需求較多。應(yīng)用層可以幫助用戶更加便利的使用自然語(yǔ)言處理技術(shù)。第一層是最底層的模型層。模型層是自然語(yǔ)言處理模型的核心部分

,主要負(fù)責(zé)處理輸入語(yǔ)言并輸出生成內(nèi)容。處于模型層的產(chǎn)品可以用來(lái)做垂類的基礎(chǔ)大模型,比如一些用于生成虛擬角色或提高寫作等其他生產(chǎn)力的底層模型。對(duì)于這類模型,企業(yè)可以選擇自主研發(fā)基礎(chǔ)模型,因?yàn)榇祟惸P筒恍枰^(guò)大的參數(shù)數(shù)量,如垂類的基礎(chǔ)大模型僅需要百億參數(shù)。同時(shí),企業(yè)也可以選擇研發(fā)開源模型,做類似OpenAI公司的API產(chǎn)品。中間層大語(yǔ)言模型的第二層是中間層。中間層處于模型層和應(yīng)用層之間

,起到銜接模型層和應(yīng)用層的作用。它可以處理并優(yōu)化模型層輸出生成的內(nèi)容并使應(yīng)用層更好的使用模型。中間層在底層模型的基礎(chǔ)上去做配置和微調(diào),包括結(jié)合自有數(shù)據(jù)飛輪做人類數(shù)據(jù)反饋。然后再針對(duì)不同行業(yè)的應(yīng)用,結(jié)合該行業(yè)的數(shù)據(jù)做出應(yīng)用的模型。我國(guó)目前的自然語(yǔ)言處理模型共有三個(gè)主要的產(chǎn)品架構(gòu),包括:模型層、中間層以及應(yīng)用層。2.1.3

國(guó)內(nèi)大語(yǔ)言模型產(chǎn)品架構(gòu)信息來(lái)源:

《和大模型創(chuàng)業(yè)者聊一聊:ChatGPT火了,國(guó)內(nèi)創(chuàng)業(yè)者的機(jī)會(huì)在哪里?》西南證券整理

35模型層應(yīng)用層2.1.4

GPT給國(guó)內(nèi)同行業(yè)企業(yè)帶來(lái)的沖擊

ChatGPT的面世給處于第一層(底層模型層)

的中國(guó)企業(yè)帶來(lái)的沖擊最大

,尤其是一大批在2018年到2021年間成立的AI基建和AI模型公司。這些公司在AI方面非常注重資產(chǎn)化

,會(huì)花費(fèi)大量的人力和財(cái)力去訓(xùn)練垂向的服務(wù)

,并將這些服務(wù)包裝成API的形式。

ChatGPT的出現(xiàn)會(huì)使這些公司前功盡棄

,因?yàn)镃hatGPT的能力大大超越了垂類的服務(wù)

,包括圖像生成、

圖像識(shí)別等。ChatGPT的生成效果甚至不需要通過(guò)訓(xùn)練,便能超越這些公司經(jīng)過(guò)無(wú)數(shù)次訓(xùn)練得出的成果。它使這些AI基建和AI模型公司做出的API不再有意義。所以ChatGPT的出現(xiàn)嚴(yán)重沖擊了處于第一層的公司。

ChatGPT的面世反而有助于處于第二層

(中間層)

和第三層(應(yīng)用層)

的公司降低成本、增加效率。對(duì)于一個(gè)處于應(yīng)用層或中間層的公司,ChatGPT的出現(xiàn)對(duì)其的負(fù)面影響相對(duì)較小,因?yàn)檫@類公司只是單純的使用ChatGPT和其他的大規(guī)模語(yǔ)言模型并使用其他的API

,并沒(méi)有花費(fèi)大量的人力財(cái)力去積累相關(guān)的研發(fā)經(jīng)驗(yàn)和培養(yǎng)研發(fā)團(tuán)隊(duì)。這類公司甚至可以選擇表現(xiàn)效果更好的OpenAI的API模型去做相同的任務(wù)。正是因?yàn)檫@類公司在機(jī)器學(xué)習(xí)方面是輕資產(chǎn)化的

,所以沖擊相對(duì)較小。不僅如此

,這類公司直接面向客

,而不是面向開發(fā)者或B端。所以當(dāng)像ChatGPT一樣的大語(yǔ)言模型出現(xiàn)的時(shí)候

,這類公司反而如魚得水

,能在很大程度上提高用

戶體驗(yàn)。信息來(lái)源:

《萬(wàn)字長(zhǎng)文:AIGC技術(shù)與應(yīng)用全解析》西南證券整理

361

大模型與GPT?2.1

國(guó)內(nèi)大模型發(fā)展現(xiàn)狀?2.2

國(guó)內(nèi)主流大模型3

ChatGPT應(yīng)用場(chǎng)景2

國(guó)內(nèi)篇目

錄37模型名稱具體企業(yè)大模型參數(shù)數(shù)據(jù)量算力多模態(tài)預(yù)訓(xùn)練模型清華大學(xué)等(學(xué)術(shù)類)“八卦爐“(腦級(jí)AI模型)174萬(wàn)億中文多模態(tài)數(shù)據(jù)集M6-Corpus“海洋之光”超級(jí)計(jì)算機(jī)阿里(科技大廠)通義M6大模型10萬(wàn)億1.9TB圖像、292GB文本512塊GPU騰訊(科技大廠)混元萬(wàn)億級(jí)五大跨模態(tài)視頻檢索數(shù)據(jù)集騰訊太極機(jī)器學(xué)習(xí)平臺(tái)華為(科技大廠)盤古系列大模型千億級(jí)40TB訓(xùn)練數(shù)據(jù)鵬城云腦II、全場(chǎng)景AI計(jì)算框架MindSpore、2048塊GPU瀾舟(垂類公司)孟子10億數(shù)百G級(jí)別多領(lǐng)域高質(zhì)量語(yǔ)料16塊GPUNLP大模型百度和鵬城實(shí)驗(yàn)室(科技

大廠/學(xué)術(shù)類)ERNIE3.0Titan2600億純文本和知識(shí)圖譜的4TB語(yǔ)料庫(kù)鵬城云腦II

(2048塊GPU

)、百度飛槳深度學(xué)習(xí)平臺(tái)浪潮信息(垂類公司)源1.02457億5000GB高質(zhì)量中文數(shù)據(jù)集4095Pflops-day/2128張GPU計(jì)算機(jī)視覺(jué)模型商湯科技(垂類公司)書生(INTERN+)100億商湯AIDC、峰值算力3740

Petaflops某世界最大計(jì)算機(jī)視覺(jué)模型300億圖、文、音三模態(tài)模型中科院自動(dòng)化所(學(xué)術(shù)類)紫東太初千億基于萬(wàn)條小規(guī)模數(shù)據(jù)集昇騰AI基礎(chǔ)軟硬件平臺(tái)2.2.1

國(guó)內(nèi)主要大模型我國(guó)目前有四種主要大模型

,包括:計(jì)算器視覺(jué)模型、多模態(tài)預(yù)訓(xùn)練模型、

NLP大模型以及圖、文、音三模態(tài)模型

,其中最常見(jiàn)的大

模型為多模態(tài)預(yù)訓(xùn)練模型。學(xué)術(shù)院校、科技大廠以及相關(guān)的垂類公司都在致力于研究與開發(fā)自己的大語(yǔ)言模型,并已經(jīng)初具規(guī)模,其中不乏擁有千億級(jí)別以上參數(shù)容量的模型。目前

,學(xué)術(shù)類研究院在大模型參數(shù)容量上處于領(lǐng)先地位

,更有以清華大學(xué)為代表?yè)碛邪偃f(wàn)

億級(jí)別以上參數(shù)的大模型。國(guó)內(nèi)主要大模型梳理信息來(lái)源:

商湯科技官微,天翼智庫(kù),HTI,西南證券整理

38文心一言的優(yōu)勢(shì)在于:

快速生成自然、流暢的中文文本內(nèi)容:能夠生成與人類對(duì)話式的文本內(nèi)容。并且與ChatGPT相比,文心一言在中文語(yǔ)言生成上更具優(yōu)勢(shì)。

可定制化:可根據(jù)用戶需求,個(gè)性化定制主題并生成內(nèi)容。

可應(yīng)用于多種場(chǎng)景:文心一言可以應(yīng)用于各行各業(yè)的各種場(chǎng)景,為人類生活提高效率、提供便利。文心一言的劣勢(shì)在于:

缺乏創(chuàng)造性:文心一言是通過(guò)深度學(xué)習(xí)并訓(xùn)練數(shù)據(jù)生成文本,生成出的文本是基于數(shù)據(jù)的產(chǎn)出,所以相對(duì)缺乏創(chuàng)造性。

精準(zhǔn)度有待提高:文心一言生成的內(nèi)容并不能做到精準(zhǔn),偶爾會(huì)有誤差。

高度依賴數(shù)據(jù):因其高度依賴數(shù)據(jù),若數(shù)據(jù)質(zhì)量較差,做生成出的內(nèi)容的質(zhì)量也將受到影響。不僅如此,若數(shù)據(jù)內(nèi)容具有偏見(jiàn),則生成出的內(nèi)容的也會(huì)有可能帶有偏見(jiàn)。文心一言是由百度推出的一款基于自然語(yǔ)言處理技術(shù)的文本生成模型。它通過(guò)不斷的深度學(xué)習(xí)和訓(xùn)練數(shù)

據(jù)來(lái)持續(xù)優(yōu)化自己

,以幫助用戶獲取信息、知識(shí)和靈感。該模型具有與人對(duì)話互動(dòng)、回答問(wèn)題、協(xié)助創(chuàng)作等功能,旨在為用戶提供高效、精準(zhǔn)、優(yōu)質(zhì)的文本生成服務(wù)。文心一言的技術(shù)基于飛槳深度學(xué)習(xí)平臺(tái)和文心知識(shí)增強(qiáng)技術(shù),通過(guò)持續(xù)從海量數(shù)據(jù)和大規(guī)模知識(shí)中融合學(xué)習(xí),具備了知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)特色。在人工智能的四層架構(gòu)(芯片、框架、模型、應(yīng)用)中,文心一言處于模型層,定位于人工智能基座型

的賦能平臺(tái)

,旨在助力金融、能源、媒體、政務(wù)等各個(gè)行業(yè)的智能化變革。它具備文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成等五大能力,能夠?yàn)楦餍懈鳂I(yè)的用戶提供不同類型的文本生成服務(wù)??傊?/p>

,文心一言是一款功能強(qiáng)大、性能卓越的中文文本生成模型

,具有廣泛的應(yīng)用前景和市

場(chǎng)價(jià)值。2.2.2

國(guó)內(nèi)主流大模型--百度文心一言

文心一言的

優(yōu)勢(shì)及劣勢(shì)

文心一言簡(jiǎn)介信息來(lái)源:

文心一言官網(wǎng),

《文心一言和其他文本生成AI相比,有何優(yōu)勢(shì)和劣勢(shì)?》

,西南證券整理

39應(yīng)用場(chǎng)景具體描述文學(xué)創(chuàng)作文心一言根據(jù)輸入問(wèn)題,自動(dòng)總結(jié)分析了知名科幻小說(shuō)《三體》的核心內(nèi)容,并提供了五個(gè)創(chuàng)意續(xù)寫角度。這些生成內(nèi)容的準(zhǔn)確性也得到了原作者的證實(shí),并非胡編亂造。這個(gè)過(guò)程體現(xiàn)出文心一言在對(duì)話問(wèn)答、總結(jié)分析、

內(nèi)容創(chuàng)作生成的綜合能力。商業(yè)文案創(chuàng)作文心一言成功完成了為公司起名、寫標(biāo)語(yǔ)廣告語(yǔ)、寫新聞稿等創(chuàng)作內(nèi)容。數(shù)理邏輯推算文心一言具備一定的思維能力

,能夠?qū)W會(huì)數(shù)學(xué)推演及邏輯推理等相對(duì)復(fù)雜任務(wù)。如面對(duì)“雞兔同籠”這類經(jīng)典數(shù)學(xué)題,文心一言能夠準(zhǔn)確理解題意,擁有正確解題思路,按正確的步驟算出正確答案。中文理解文心一言具備中文領(lǐng)域最先進(jìn)的自然語(yǔ)言處理能力

,在中國(guó)語(yǔ)言和中國(guó)文化上表現(xiàn)優(yōu)異。多模態(tài)生成文心一言能夠生成文本、圖片、音頻、視頻。在音頻生成方面甚至具備生成帶有當(dāng)?shù)胤窖缘囊纛l。2.2.2

國(guó)內(nèi)主流大模型--百度文心一言文心一言共有五大主要應(yīng)用場(chǎng)景,包括:文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成。文心一言的五大應(yīng)用場(chǎng)景信息來(lái)源:

《李彥宏:文心一言對(duì)標(biāo)ChatGPT

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論