版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ChatGPT的工作原理—0
—前言ChatGPT
能夠自動(dòng)生成一些讀起來表面上甚至像人寫的文字的東西來這非常了不起來而且出乎意料。但它是如何做到的要為什么它能發(fā)揮作用要我在這里的目的是大致介紹一下ChatGPT內(nèi)部的情況來然后探討一下為什么它能很好地生成我們認(rèn)為是有意義的文本。還沒使用過ChatGPT的伙伴可以點(diǎn)擊下面鏈接直接使用(不需要科學(xué)上網(wǎng)工具來后臺(tái)對(duì)接的是OpenAI和微軟的官方接口)就/我首先要說明一下來我將把重點(diǎn)放在正在發(fā)生的事情的大的方向上來雖然我會(huì)提到一些工程細(xì)節(jié)來但我不會(huì)深入研究它們。(我所說的實(shí)質(zhì)內(nèi)容也同樣適用于目前其他的“大型語言模型”LLM和
ChatGPT)。首先要解釋的是來ChatGPT從根本上說總是試圖對(duì)它目前得到的任何文本進(jìn)行“合理的延續(xù)”來這里的“合理”是“在到人們?cè)诰W(wǎng)上所寫的東西之后來人們可能會(huì)期望某人寫出什么”。因此來假設(shè)我們已經(jīng)得到了“人工智能最好的是它能去做……”
的文本(“ThebestthingaboutAIisitsabilityto”)。想象一下來掃描的人類書寫的文本(例如在網(wǎng)絡(luò)上和字化書籍中)來并找到這文本的所有實(shí)例——然后
到什么詞在接下來的時(shí)間里出現(xiàn)了多少。ChatGPT有效地做了類似的事情來除了(正如我將解釋的)它不字面文本天它尋找在某種意義上“意義匹配”的東西。但最終的結(jié)果是來它產(chǎn)生了一可能出現(xiàn)在后面的詞的排序列表來以及
“概率”。值得注意的是來當(dāng) ChatGPT
做一些事情來比如寫一篇文章時(shí)來它所做的基本上只是反復(fù)詢問 “鑒于到目前為止的文本來下一
詞應(yīng)該是什么要”—— 而且每次都增加一
詞。(更準(zhǔn)確地說來正如我將解釋的那樣來它
在添加一 “標(biāo)記”來這可能只是一
詞的一部分來這就是為什么它有時(shí)可以
“編造新詞”)。在每一步來它得到一
帶有概率的單詞列表。但是來它究竟應(yīng)該選擇哪一
來添加到它正在寫的文章(或其他什么)中呢要人們可能認(rèn)為它應(yīng)該是“排名最高”的詞(即被分配到最高“概率”的那
)。但是來這時(shí)就會(huì)有一點(diǎn)巫術(shù)開始悄悄出現(xiàn)。因?yàn)槌鲇谀撤N原因——
也許有一天我們會(huì)有一科學(xué)式的理解——如果我們總是挑選排名最高的詞來我們通常會(huì)得到一篇非?!捌降钡奈恼聛硭坪鯊膩頉]有
“顯示出任何創(chuàng)造力”(甚至有時(shí)一字不差地重復(fù))。但是來如果有時(shí)(隨機(jī)的)我們挑選排名較低的詞來我們會(huì)得到一篇“更有趣”
的文章。這里有隨機(jī)性的事實(shí)意味著來假如我們多次使用同一提示來我們也很可能每次都得到不同的文章。而且來為了與巫術(shù)的想法保持一致來有一特定的所謂“溫度”參(temperatureparameter)來它決定了以什么樣的頻率使用排名較低的詞來而對(duì)于論文的生成來事實(shí)證明來0.8的“溫度”似乎是最好的。(值得強(qiáng)調(diào)的是來這里沒有使用任何“理論”天這只是一在實(shí)踐中被發(fā)現(xiàn)可行的問題)。例如來“溫度”的概念之所以存在來是因?yàn)榍『檬褂昧私y(tǒng)計(jì)物理學(xué)中熟悉的分布來但沒有“物理”聯(lián)系——至少到目前為止我們?nèi)绱苏J(rèn)為。)在我們繼續(xù)之前來我應(yīng)該解釋一下來為了論述的目的來我大多不會(huì)使用ChatGPT中的完整系統(tǒng)天相反來我通常會(huì)使用更簡(jiǎn)單的GPT-2系統(tǒng)來它有一
很好的特點(diǎn)來即它足夠小來可以在標(biāo)準(zhǔn)的臺(tái)式電腦上運(yùn)行。因此來對(duì)于我展示的所有內(nèi)容來包括明確的沃爾弗拉姆語言(WolframLanguage)代碼來你可以立即在你的計(jì)算機(jī)上運(yùn)行。例如來這里是如何獲得上述概率表的。首先來我們必須檢索底層的“語言模型”
神經(jīng)網(wǎng)就稍后來我們將這神經(jīng)網(wǎng)的內(nèi)部來并談?wù)勊侨绾喂ぷ鞯?。但現(xiàn)在我們可以把這“網(wǎng)絡(luò)模型”作為一
黑匣子應(yīng)用于我們迄今為止的文本來并要求按概率計(jì)算出該模型認(rèn)為應(yīng)該選擇的前五
詞就這就把這結(jié)果變成了一明確的格式化的
“據(jù)集”就如果重復(fù)“應(yīng)用模型”——
在每一步中加入概率最高的詞(在此代碼中被
定為模型的
“決定”)來會(huì)發(fā)生什么就如果再繼續(xù)下去會(huì)發(fā)生什么要在這種情況下(“零溫度”)來很快就會(huì)出現(xiàn)相當(dāng)混亂和重復(fù)的情況就但是來如果不總是挑選“頂級(jí)”詞來而是有時(shí)隨機(jī)挑選“非頂級(jí)”
詞(“隨機(jī)性”對(duì)應(yīng)“溫度”為
0.8)呢要人們又可以建立起文本就而每次這樣做來都會(huì)有不同的隨機(jī)選擇來文本也會(huì)不同——如這5
例子就值得出的是來即使在第一步來也有很多可能的
“下一詞” 可供選擇(溫度為 0.8)來盡管它們的概率下降得很快(是的來這
對(duì)
圖上的直
線對(duì)應(yīng)于n-1的“”來這是語言的一
統(tǒng)計(jì)的特點(diǎn))就那么來如果繼續(xù)下去會(huì)發(fā)生什么要這里有一
隨機(jī)的例子。它比頂層詞(零溫度)的情況要好來但頂多還是有點(diǎn)奇怪就這是用最簡(jiǎn)單的GPT-2模型(來自2019年)做的。用較新和較大的
GPT-3模型來結(jié)果更好。這里是用同樣的“提示”
產(chǎn)生的頂部文字(零溫度)來但用最大的GPT-3
模型就這是“溫度為0.8”時(shí)的一
隨機(jī)例子就—1
—概率從何而來?好吧來ChatGPT總是根據(jù)概率來選擇下一
詞。但是這些概率從何而來要讓我們從一更簡(jiǎn)單的問題開始。讓我們考慮一次生成一字母(而不是單詞)的英語文本。我們?cè)鯓硬拍芩愠雒?/p>
字母的概率呢要我們可以做的一非常簡(jiǎn)單的事情就是取一英語文本的樣本來然后計(jì)算不同字母在其中出現(xiàn)的頻率。因此來舉例來說來這是計(jì)算維基百科上關(guān)于“貓”(cat)
的文章中的字母就而這對(duì)“狗”(dog)
也有同樣的作用就結(jié)果相似來但不一樣(“o”在“dogs”
文章中無疑更常見來因?yàn)楫吘顾霈F(xiàn)在 “dog” 這
詞本身)。盡管如此來如果我們采取足夠大的英語文本樣
本來我們可以期待最終得到至少是相當(dāng)一致的結(jié)果。下面是我們得到的一樣本來如果我們用這些概率生成一
字母序列就我們可以通過添加空格將其分解為 “單詞”來就像它們是具有一定概率的字母一樣就我們可以通過強(qiáng)迫“字長”的分布與英語中的分布相一致來在制造
“單詞”方面做得稍微好一點(diǎn)就我們?cè)谶@里沒有碰巧得到任何 “實(shí)際的詞”來但結(jié)果
起來稍好一些。不過來要想更進(jìn)一步來我們需要做的不僅僅是隨機(jī)地分別挑選每字母。例如來我們知道來如果我們有一“q”來下一字母基本上必須是
“u”就這里有一
字母本身的概率圖就這是一
顯示典型英語文本中成對(duì)字母(“2-grams”)概率的圖??赡艿牡谝?/p>
字母顯示在
面上來第二
字母顯示在
面下就例如來我們?cè)谶@里到來除了“u”行來“q”
列是空白的(概率為零)。好了來現(xiàn)在我們不再是一次生成一字母的“單詞”來而是使用這些“2-gram”概率來一次兩字母來生成它們。下面是一結(jié)果的樣本
——其中恰好包括一些
“實(shí)際的詞”就有了足夠多的英語文本來我們不僅可以對(duì)單字母或成對(duì)字母(
2-
grams)的概率進(jìn)行很好的估計(jì)來而且還可以對(duì)較長的字母進(jìn)行估計(jì)。如果我們用逐漸變長的n-gram概率生成“隨機(jī)詞”來我們就會(huì)發(fā)現(xiàn)它們逐漸變得
“更現(xiàn)實(shí)”就但現(xiàn)在讓我們假設(shè)——或多或少像ChatGPT那樣——
我們處理的是整
單詞來而不是字母。英語中大約有40,000合理的常用詞。通過查大型英語文本語料庫(比如幾百萬本書來總共有幾千單詞)來我們可以得到每單詞的常見程度的估計(jì)。利用這一點(diǎn)來我們可以開始生成“子”來其中每詞都是獨(dú)立隨機(jī)抽取的來其出現(xiàn)的概率與語料庫中的相同。下面是我們得到的一
樣本就顯然來這是一派胡言。那么來我們?nèi)绾尾拍茏龅酶媚匾拖駥?duì)待字母一樣來我們可以開始考慮的不僅僅是單詞的概率來還有成對(duì)的或更長的詞的n-grams的概率。在成對(duì)的情況下來以下是我們得到的5例子來所有情況都是從“貓”這
詞開始的就它變得稍微“起來很合理”
了。我們可以想象來如果我們能夠使用足夠長的n-grams來我們基本上會(huì)“得到一ChatGPT”——在這意義上來我們會(huì)得到一些東西來以“正確的總體論文概率”生成論文長度的單詞序列。但問題是就沒有足夠的英文文本可以推導(dǎo)出這些概率。在網(wǎng)絡(luò)的抓取中來可能有幾千單詞天在已經(jīng)字化的書籍中來可能有另外幾千單詞。但是有了4萬常用詞來即使是可能的2-grams的量也已經(jīng)是
16
了來可能的
3-grams
的
量是
60
萬
。所以我們沒有辦法從現(xiàn)有的文本中估計(jì)出所有這些的概率。而當(dāng)我們達(dá)到20字的“文章片段”時(shí)來可能性的量比宇宙中的粒子
量還要多來所以從某種意義上說來它們永遠(yuǎn)不可能全部被寫下來。那么我們能做什么呢要最大的想法是建立一模型來讓我們估計(jì)序列出現(xiàn)的概率——即使我們?cè)谒奈谋菊Z料庫中從未明確見過這些序列。而ChatGPT的核心正是一所謂的“大型語言模型”(LLM)來它的建立可以很好地估計(jì)這些概率。—2
—什么是模型?假設(shè)你想知道(就像伽利略在15
世紀(jì)末所做的那樣)來從比薩塔的每一層落下的炮彈要多長時(shí)間才能落地。那么來你可以在每一種情況下測(cè)量它來并將結(jié)果制成表格?;蛘吣憧梢宰隼碚摽茖W(xué)的精髓就建立一模型來給出某種計(jì)算答案的程序來而不是僅僅測(cè)量和記住每
案例。讓我們想象一下來我們有(有點(diǎn)理想化的)據(jù)來說明炮彈從不同樓層落下需要多長時(shí)間。我們?nèi)绾斡?jì)算出它從一我們沒有明確
據(jù)的樓層落下需要多長時(shí)間要在這種特殊情況下來我們可以用已知的物理學(xué)定
來計(jì)算。但是來如果說我們所得到的只是據(jù)來而我們不知道有什么基本定在支配它。那么我們可以做一
學(xué)上的猜測(cè)來比如說來也許我們應(yīng)該用一條直線作為模型。我們可以選擇不同的直線。但這是平均來說最接近我們所給的
據(jù)的一條。而根據(jù)這條直線來我們可以估算出任何樓層的下降時(shí)間。我們?cè)趺粗酪谶@里嘗試使用一條直線呢要在某種程度上我們不知道。這只是學(xué)上簡(jiǎn)單的東西來而我們已經(jīng)習(xí)慣了這樣的事實(shí)就我們測(cè)量的很多據(jù)都被學(xué)上簡(jiǎn)單的東西很好地?cái)M合了。我們可以嘗試一些
學(xué)上更復(fù)雜的東西——比如說a+bx+cx2來然后在這種情況下來我們做得更好就不過來事情可能會(huì)出大問題。比如這里是我們用a+b/c+xsin(x)
最多也就做成就值得理解的是來從來沒有一 “無模型的模型”。你使用的任何模型都有一些特定的基礎(chǔ)結(jié)構(gòu)來然后有一組 “你可以轉(zhuǎn)動(dòng)的旋鈕”(即你可以設(shè)置的參)來適應(yīng)你的據(jù)。而在ChatGPT
的案例中來使用了很多這樣的“旋鈕”——實(shí)際上來有1750
。但令人矚目的是來ChatGPT的底層結(jié)構(gòu)——“僅僅”有這么多的參——足以使一計(jì)算下一單詞概率的模型“足夠好”來從而為我們提供合理的文章長度的文本。—3
—類人的任務(wù)模型我們上面舉的例子涉及到為字據(jù)建立模型來這些
據(jù)基本上來自于簡(jiǎn)單的物理學(xué)——幾世紀(jì)以來我們都知道“簡(jiǎn)單
學(xué)適用”。但是對(duì)于ChatGPT來說來我們必須為人類語言文本建立一模型來即由人腦產(chǎn)生的那種模型。而對(duì)于這樣的東西來我們(至少現(xiàn)在)還沒有類似“簡(jiǎn)單學(xué)”
的東西。那么來它的模型可能是什么樣的呢要在我們談?wù)撜Z言之前來讓我們先談?wù)劻硪豁?xiàng)類似人類的任務(wù)就識(shí)別圖像。而作為一簡(jiǎn)單的例子來讓我們考慮字的圖像(是的來這是一
經(jīng)典的機(jī)器學(xué)習(xí)例子)就我們可以做的一件事是為每
字獲取一堆樣本圖像就然后來為了找出我們輸入的圖像是否對(duì)應(yīng)于某特定的
字來我們只需與我們擁有的樣本進(jìn)行明確的逐像素比較。但作為人類來我們似乎可以做得更好——因?yàn)槲覀內(nèi)匀豢梢宰R(shí)別字來即使它們是于寫的來并且有各種各樣的修改和扭曲。當(dāng)我們?yōu)樯厦娴?/p>
字
據(jù)建立一
模型時(shí)來我們能夠取一
給定的
字值x來然后為特定的a和b計(jì)算
a+bx。因此來如果我們把這里的每像素的灰度值當(dāng)作某變量
xi來是否有一些所有這些變量的函來在評(píng)估時(shí)告訴我們這圖像是什么
字要事實(shí)證明來有可能構(gòu)建這樣一函。不足為奇的是來這并不特別簡(jiǎn)單。一
典型的例子可能涉及50萬次
學(xué)運(yùn)算。但最終的結(jié)果是來如果我們把一幅圖像的像素值集合輸入這函
來就會(huì)得出一字來定我們的圖像是哪
字。稍后來我們將討論如何構(gòu)建這樣一函來以及神經(jīng)網(wǎng)絡(luò)的概念。但現(xiàn)在讓我們把這函
當(dāng)作黑匣子來我們輸入例如于寫字的圖像(作為像素值的陣列)來然后我們得到這些字對(duì)應(yīng)的
字就但這里到底發(fā)生了什么要比方說來我們逐步模糊一字。有一段時(shí)間來我們的函仍然“識(shí)別”它來在這里是一“2”。但很快它就“失去”
了來并開始給出“錯(cuò)誤”
的結(jié)果就但為什么我們說這是一“錯(cuò)誤”
的結(jié)果呢要在這種情況下來我們知道我們通過模糊一“2”得到所有的圖像。但是來如果我們的目標(biāo)是制作一人類識(shí)別圖像的模型來那么真正要問的問題是來如果遇到這些模糊的圖像來在不知道其來源的情況下來人類會(huì)做什么。如果我們從我們的功能中得到的結(jié)果通常與人類會(huì)說的話一致來我們就有一“好的模型”。而非微不足道的科學(xué)事實(shí)是來對(duì)于像這樣的圖像識(shí)別任務(wù)來我們現(xiàn)在基本上知道如何構(gòu)建這樣的函
。我們能“從學(xué)上證明”
它們的作用嗎要嗯來不能。因?yàn)橐龅竭@一點(diǎn)來我們必須有一關(guān)于我們?nèi)祟愓谧鍪裁吹膶W(xué)理論。以“2”圖像為例來改變幾像素。我們可以想象來只有幾像素“不合適”來我們還是應(yīng)該認(rèn)為這圖像是“2”。但這應(yīng)該到什么程度呢要這是一關(guān)于人類視覺感知的問題。而且來是的來對(duì)于蜜蜂或章魚來說來答案無疑是不同的——對(duì)于假定的外星人來說來可能完全不同。—
4—神經(jīng)網(wǎng)路好吧來那么我們用于圖像識(shí)別等任務(wù)的典型模型究竟是如何工作的呢要目前最流行?最成功的方法是使用神經(jīng)網(wǎng)絡(luò)。在20世紀(jì)40
年代來神經(jīng)網(wǎng)絡(luò)的發(fā)明形式與今天的使用非常接近來它可以被認(rèn)為是大腦似乎工作方式的簡(jiǎn)單理想化。在人類的大腦中來有大約1000神經(jīng)元(神經(jīng)細(xì)胞)來每神經(jīng)元都能產(chǎn)生電脈沖來每秒可能有一千次。這些神經(jīng)元在一復(fù)雜的網(wǎng)絡(luò)中連接起來來每神經(jīng)元都有樹狀的分支來允許它將電信號(hào)傳遞給可能有成千上萬的其他神經(jīng)元。粗略估計(jì)來任何給定的神經(jīng)元是否在某一時(shí)刻產(chǎn)生電脈沖來取決于它從其他神經(jīng)元那里收到的脈沖——不同的連接有不同的“權(quán)重”
貢獻(xiàn)。當(dāng)我們“到一圖像”時(shí)來所發(fā)生的事情是來當(dāng)圖像的光子落在眼睛后面的(“光感受器”)細(xì)胞上時(shí)來它們?cè)谏窠?jīng)細(xì)胞中產(chǎn)生電信號(hào)。這些神經(jīng)細(xì)胞與其他神經(jīng)細(xì)胞相連來最終信號(hào)通過一整層的神經(jīng)元。而正是在這過程中來我們“識(shí)別”了圖像來最終“形成了一想法”來即我們“到了一
2”(也許最后會(huì)做一些事情來如大聲說“2”這詞)。上一節(jié)中的“黑盒子”函是這樣一神經(jīng)網(wǎng)絡(luò)的“學(xué)化”
版本。它剛好有11層(雖然只有4
“核心層”)。這神經(jīng)網(wǎng)并沒有什么特別的“理論推導(dǎo)”天它只是在1998
年作為一項(xiàng)工程而構(gòu)建的東西來并且被發(fā)現(xiàn)是有效的。(當(dāng)然來這與我們描述我們的大腦是通過生物進(jìn)化過程產(chǎn)生的沒有什么不同)。好吧來但是像這樣的神經(jīng)網(wǎng)絡(luò)是如何
“識(shí)別事物”的要關(guān)鍵在于吸引器的概念。想象一下來我們有1和2
的于寫圖像就我們希望所有的1都“被吸引到一地方”來而所有的2都
“被吸引到另一地方”?;蛘邅頁Q一種方式來如果一圖像在某種程度上
“更接近于1”來而不是2來我們希望它最終出現(xiàn)在“1的地方”來反之
然。作為一
直接的類比來我們假設(shè)在平面上有某些位置來用點(diǎn)表示(在現(xiàn)實(shí)生活中來它們可能是咖啡店的位置)。那么我們可以想象來從平面上的任何一點(diǎn)開始來我們總是想在最近的點(diǎn)結(jié)束(即我們總是去最近的咖啡店)。我們可以通過將平面劃分為由理想化的“分水嶺”
分隔的區(qū)域(“吸引盆地”)來表示這一點(diǎn)就我們可以認(rèn)為這是在執(zhí)行一種 “識(shí)別任務(wù)”來我們不是在做類似于識(shí)別給定圖像“起來最像”的字的事情——而是很直接地
到給定點(diǎn)最接近哪點(diǎn)。(我們?cè)谶@里展示的“Voronoi圖”
設(shè)置是在二維歐幾里得空間中分離點(diǎn)天字識(shí)別任務(wù)可以被認(rèn)為是在做非常類似的事情——
但卻是在一由每張圖像中所有像素的灰度等級(jí)形成的784
維空間中。)那么來我們?nèi)绾问挂?/p>
神經(jīng)網(wǎng)絡(luò) “完成一
識(shí)別任務(wù)”要讓我們考慮這
非常簡(jiǎn)單的案例就我們的目標(biāo)是獲取一對(duì)應(yīng)于{x,y}位置的“輸入”來然后將其“識(shí)別”
為它最接近的三點(diǎn)中的任何一?;蛘邅頁Q
話說來我們希望神經(jīng)網(wǎng)絡(luò)能夠計(jì)算出一
類似于
{x,y}
的函
就那么來我們?nèi)绾斡蒙窠?jīng)網(wǎng)絡(luò)做到這一點(diǎn)呢要?dú)w根結(jié)底來神經(jīng)網(wǎng)是一
理想化的“神經(jīng)元”的連接集合——通常按層排列——一
簡(jiǎn)單的例子是就每“神經(jīng)元”都被有效地設(shè)置為評(píng)估一簡(jiǎn)單的字函。為了
“使用”這網(wǎng)絡(luò)來我們只需在頂部輸入字(如我們的坐標(biāo)x和y)來然后讓每一層的神經(jīng)元“評(píng)估它們的功能”來并通過網(wǎng)絡(luò)向前輸入結(jié)果——最終在底部產(chǎn)生最終的結(jié)果。在傳統(tǒng)的(受生物啟發(fā)的)設(shè)置中來每
神經(jīng)元實(shí)際上都有一組來自上一層神經(jīng)元的“傳入連接”來每連接都被賦予一定的“權(quán)重”(可以是一正或負(fù))。一給定的神經(jīng)元的值是通過將“前一神經(jīng)元”的值乘以其相應(yīng)的權(quán)重來確定的來然后將這些值相加并乘以一常來最后應(yīng)用一“有值”(或“激活”)函
。在學(xué)術(shù)語中來如果一神經(jīng)元有輸入x={x1,x2……
}來那么我們計(jì)算f[w.x+b]來其中權(quán)重w和常b通常為網(wǎng)絡(luò)中的每神經(jīng)元選擇不同天函
f通常是相同的。計(jì)算w.x+b只是一矩陣乘法和加法的問題。激活函“f
引入了非線性(并最終導(dǎo)致了非線性行為)。通常使用各種激活函
天這里我們只使用Ramp(或
ReLU)就對(duì)于我們希望神經(jīng)網(wǎng)絡(luò)執(zhí)行的每一項(xiàng)任務(wù)(或者說來對(duì)于我們希望它評(píng)估的每一整體函)來我們將有不同的權(quán)重選擇。(正如我們稍后要討論的那樣來這些權(quán)重通常是通過使用機(jī)器學(xué)習(xí)從我們想要的輸出實(shí)例中“[練”
神經(jīng)網(wǎng)絡(luò)來確定的)。最終來每神經(jīng)網(wǎng)絡(luò)都對(duì)應(yīng)于一些整體的學(xué)函——盡管它可能寫得很亂。對(duì)于上面的例子來它就是就ChatGPT的神經(jīng)網(wǎng)絡(luò)也只是對(duì)應(yīng)于這樣的一學(xué)函——
但實(shí)際上有
術(shù)語。但讓我們回到單神經(jīng)元上。下面是一有兩輸入(代表坐標(biāo)x和y)的神經(jīng)元在選擇不同的權(quán)重和常(以及Ramp作為激活函)后可以計(jì)算的函
的一些例子就但是來上面那
更大的網(wǎng)絡(luò)是怎么回事要嗯來這是它的計(jì)算結(jié)果就這不是很“正確”來但它接近于我們上面展示的“最近點(diǎn)”函
。讓我們其他一些神經(jīng)網(wǎng)絡(luò)的情況。在每一種情況下來正如我們稍后所解釋的來我們都在使用機(jī)器學(xué)習(xí)來尋找最佳的權(quán)重選擇。然后來我們?cè)谶@里展示帶有這些權(quán)重的神經(jīng)網(wǎng)絡(luò)的計(jì)算結(jié)果就更大的網(wǎng)絡(luò)通常能更好地逼近我們的目標(biāo)函。而在“每
吸引子盆地的中間”來我們通常會(huì)得到我們想要的答案。但在邊界——神經(jīng)網(wǎng)絡(luò)“很難下定決心”的地方——
情況可能會(huì)更加混亂。在這簡(jiǎn)單的學(xué)風(fēng)格的“識(shí)別任務(wù)”中來“正確答案”是什么很清楚。但在識(shí)別于寫字的問題上來就不那么清楚了。如果有人把“2”
寫得很糟糕來起來像“7”來等等來怎么辦要不過來我們還是可以問來神經(jīng)網(wǎng)絡(luò)是如何區(qū)分字的——這就給出了一
示就我們能“從學(xué)上”
說說網(wǎng)絡(luò)是如何區(qū)分的嗎要并非如此。它只是在“做神經(jīng)網(wǎng)絡(luò)所做的事” 而已。但事實(shí)證明來這通常似乎與我們?nèi)祟愃鞯膮^(qū)分相當(dāng)吻合。讓我們舉一更復(fù)雜的例子。比方說來我們有貓和狗的圖像。我們有一神經(jīng)網(wǎng)絡(luò)來它被[練來區(qū)分它們。下面是它在一些例子中可能做的事情就現(xiàn)在來“正確答案”
是什么就更不清楚了。穿著貓衣的狗怎么辦要等等。無論給它什么輸入來神經(jīng)網(wǎng)絡(luò)都會(huì)產(chǎn)生一答案。而且來事實(shí)證明來這樣做的方式與人類可能做的事情是合理一致的。正如我在上面所說的來這不是一我們可以“從第一原理推導(dǎo)”的事實(shí)。它只是根據(jù)經(jīng)驗(yàn)被發(fā)現(xiàn)是真的來至少在某些領(lǐng)域是這樣。但這是神經(jīng)網(wǎng)絡(luò)有用的一關(guān)鍵原因就它們以某種方式捕捉了“類似人類”
的做事方式。給自己一張貓的照片來然后問
“為什么那是一只貓要”。也許你會(huì)開始說“嗯來我到它的尖耳朵來等等”。但要解釋你是如何認(rèn)出這張圖片是一只貓的來并不是很容易。只是你的大腦不知怎么想出來的。但是對(duì)于大腦來說來沒有辦法(至少現(xiàn)在還沒有)“進(jìn)入”它的內(nèi)部來它是如何想出來的。那么對(duì)于一(人工)神經(jīng)網(wǎng)來說呢要好吧來當(dāng)你展示一張貓的圖片時(shí)來可以直接到每“神經(jīng)元”的作用。但是來即使要獲得一基本的可視化來通常也是非常困難的。在我們用于解決上述“最近點(diǎn)”問題的最終網(wǎng)絡(luò)中來有17神經(jīng)元。在用于識(shí)別于寫字的網(wǎng)絡(luò)中來有2190
。而在我們用來識(shí)別貓和狗的網(wǎng)絡(luò)中來有60,650
。通常情況下來要將相當(dāng)于60,650維度的空間可視化是相當(dāng)困難的。但由于這是一為處理圖像而設(shè)置的網(wǎng)絡(luò)來它的許多神經(jīng)元層被組織成陣列來就像它所
的像素陣列一樣。如果我們采取一
典型的貓圖像就那么我們就可以用一組衍生圖像來表示第一層神經(jīng)元的狀態(tài)——
其中許多圖像我們可以很容易地解釋為“沒有背景的貓”或“貓的輪廓”
等就到了第
層來就更難解釋發(fā)生了什么就但總的來說來我們可以說神經(jīng)網(wǎng)絡(luò)正在
“挑選出某些特征”(也許尖尖的耳朵也在其中)來并利用這些特征來確定圖像是什么。但這些特征是我們有名字的來比如“尖耳朵”要大多
情況下不是。我們的大腦在使用類似的特征嗎要大多情況下我們不知道。但值得注意的是來像我們?cè)谶@里展示的神經(jīng)網(wǎng)絡(luò)的前幾層似乎可以挑出圖像的某些方面(如物體的邊緣)來這些方面似乎與我們知道的由大腦中第一層視覺處理挑出的特征相似。但是來假設(shè)我們想要一神經(jīng)網(wǎng)絡(luò)的“貓識(shí)別理論”。我們可以說“
來這
特定的網(wǎng)絡(luò)做到了”——這立即給了我們一些關(guān)于“問題有多難”的感覺(例如來可能需要多少
神經(jīng)元或?qū)樱5辽俚浆F(xiàn)在為止來我們還沒有辦法對(duì)網(wǎng)絡(luò)正在做的事情進(jìn)行“敘述性描述”。也許這是因?yàn)樗谟?jì)算上確實(shí)是不可簡(jiǎn)化的來而且除了明確地追蹤每一步驟之外來沒有一的方法可以找到它在做什么。也可能只是因?yàn)槲覀冞€沒有“弄清科學(xué)”來還沒有確定“自然法則”來使我們能夠總結(jié)出正在發(fā)生的事情。當(dāng)我們談?wù)撚肅hatGPT生成語言時(shí)來我們會(huì)遇到同樣的問題。而且同樣不清楚是否有辦法“總結(jié)它在做什么”。但是語言的豐富性和細(xì)節(jié)(以及我們?cè)谶@方面的經(jīng)驗(yàn))可能會(huì)讓我們比圖像走得更遠(yuǎn)。—5
—機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練到目前為止來我們一直在談?wù)撃切耙呀?jīng)知道”
如何完成特定任務(wù)的神經(jīng)網(wǎng)絡(luò)。但是來神經(jīng)網(wǎng)絡(luò)之所以如此有用(估計(jì)也是在大腦中)來是因?yàn)樗鼈儾粌H在原則上可以完成各種任務(wù)來而且可以逐步“根據(jù)實(shí)例[練”來完成這些任務(wù)。當(dāng)我們制作一區(qū)分貓和狗的神經(jīng)網(wǎng)絡(luò)時(shí)來我們實(shí)際上不需要寫一程序來(比如說)明確地找到胡須天相反來我們只需要展示大量關(guān)于什么是貓和什么是狗的例子來然后讓網(wǎng)絡(luò)從這些例子中“機(jī)器學(xué)習(xí)”如何去區(qū)分它們。重點(diǎn)是來[練有素的網(wǎng)絡(luò)從它所展示的特定例子中“概括”出來。正如我們?cè)谏厦娴降膩磉@并不是簡(jiǎn)單地讓網(wǎng)絡(luò)識(shí)別它所到的貓咪圖像的特定像素模式天而是讓神經(jīng)網(wǎng)絡(luò)以某種方式設(shè)法在我們認(rèn)為是某種“一貓性”
的基礎(chǔ)上區(qū)分圖像。那么來神經(jīng)網(wǎng)絡(luò)的[練究竟是如何進(jìn)行的呢要從本質(zhì)上講來我們一直在努力尋找能夠使神經(jīng)網(wǎng)絡(luò)成功重現(xiàn)我們所給的例子的權(quán)重。然后來我們依靠神經(jīng)網(wǎng)絡(luò)以“合理”的方式在這些例子之間進(jìn)行“插值”(或
“概括”)。讓我們一
比上面的最近點(diǎn)的問題更簡(jiǎn)單的問題。讓我們只嘗試讓一
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)函
就對(duì)于這任務(wù)來我們需要一只有一輸入和一
輸出的網(wǎng)絡(luò)來比如就但我們應(yīng)該使用什么權(quán)重等要在每一組可能的權(quán)重下來神經(jīng)網(wǎng)絡(luò)都會(huì)計(jì)算出一些函
。例如來這里是它用幾組隨機(jī)選擇的權(quán)重所做的事情就是的來我們可以清楚地
到來在這些情況下來它甚至都沒有接近再現(xiàn)我們想要的函
。那么來我們?nèi)绾握业侥軌蛑噩F(xiàn)該功能的權(quán)重呢要基本的想法是提供大量的“輸入→輸出”的例子來“學(xué)習(xí)”——
然后嘗試找到能重現(xiàn)這些例子的權(quán)重。下面是用逐漸增多的例子來做的結(jié)果就在這“[練”的每階段來網(wǎng)絡(luò)中的權(quán)重都被逐步調(diào)整——我們
到來最終我們得到了一能成功重現(xiàn)我們想要的功能的網(wǎng)絡(luò)。那么來我們是如何調(diào)整權(quán)重的呢要基本的想法是在每階段我們離得到我們想要的功能
“有多遠(yuǎn)”來然后以這樣的方式更新權(quán)重來使之更接近。為了找出“我們有多遠(yuǎn)”來我們計(jì)算通常被稱為“損失函”(或有時(shí)稱為“成本函”)的東西。這里我們使用的是一簡(jiǎn)單的(L2)損失函
來它只是我們得到的值與真實(shí)值之間的差異的平方之和。我們到的是來隨著我們[練過程的進(jìn)展來損失函逐漸
少(遵循一定的“學(xué)習(xí)曲線”來不同的任務(wù)是不同的)——直到我們達(dá)到一
點(diǎn)來網(wǎng)絡(luò)(至少是一很好的近似值)成功再現(xiàn)了我們想要的函
就好了來最后要解釋的重要部分是如何調(diào)整權(quán)重以少損失函。正如我們所說來損失函給我們提供了我們得到的值與真實(shí)值之間的
“距離”。但是“我們得到的值”在每階段都是由當(dāng)前版本的神經(jīng)網(wǎng)絡(luò)和其中的權(quán)重決定的。但現(xiàn)在想象一下來這些權(quán)重是變量——比如說wi。我們想找出如何調(diào)整這些變量的值來以使取決于這些變量的損失最小。例如來想象一下(對(duì)實(shí)踐中使用的典型神經(jīng)網(wǎng)絡(luò)進(jìn)行了不可思議的簡(jiǎn)化)來我們只有兩權(quán)重w1和w2。那么我們可能有一損失來作為w1和w2的函來
起來像這樣就
值分析提供了各種技術(shù)來尋找這樣的情況下的最小值。但一典型的方法是來從之前的w1?w2
開始來逐步遵循最的我的下降路徑就就像水從山上流下來一樣來所能保證的是這過程最終會(huì)在地表的某局部最小值(“一
山湖”)天它很可能達(dá)不到最終的全球最小值。在 “重量景觀” 上找到最的我的下降路徑并不明顯來這是不可行的。但是來微積分可以幫助我們。正如我們上面提到的來我們總是可以把神經(jīng)網(wǎng)
作是在計(jì)算一學(xué)函——
它取決于它的輸入和權(quán)重。但現(xiàn)在考慮對(duì)這些權(quán)重進(jìn)行微分。事實(shí)證明來微積分的連鎖法則實(shí)際上可以讓我們 “解開” 神經(jīng)網(wǎng)中連續(xù)幾層所做的運(yùn)算。其結(jié)果是來我們可以——至少在某些局部近似中——“反轉(zhuǎn)”神經(jīng)網(wǎng)的操作來并逐步找到使與輸出相關(guān)的損失最小的權(quán)重。上圖顯示了在只有2
權(quán)重的不現(xiàn)實(shí)的簡(jiǎn)單情況下來我們可能需要做的最小化工作。但事實(shí)證明來即使有更多的權(quán)重(ChatGPT使用了
1750
)來仍有可能做到最小化來至少在某種程度上是近似的。事實(shí)上來2011年左右發(fā)生的“深度學(xué)習(xí)”的重大突破與以下發(fā)現(xiàn)有關(guān)就從某種意義上說來當(dāng)有很多權(quán)重參與時(shí)來做(至少是近似)最小化比有相當(dāng)少的權(quán)重更容易。換話說
——有點(diǎn)反直覺——用神經(jīng)網(wǎng)絡(luò)解決更復(fù)雜的問題比簡(jiǎn)單的問題更容易。其大致原因似乎是來當(dāng)一人有很多“權(quán)重變量”
時(shí)來他有一
高維空間來有“很多不同的方向”來可以把他引向最小值——而如果變量較少來則更容易陷入一局部最小值(“山湖”)來沒有“方向可以出去”。值得出的是來在典型的情況下來有許多不同的權(quán)重集合來它們都能使神經(jīng)網(wǎng)絡(luò)具有幾乎相同的性能。而在實(shí)際的神經(jīng)網(wǎng)絡(luò)[練中來通常會(huì)有很多隨機(jī)的選擇來導(dǎo)致
“不同但等同的解決方案”來就像這些就但每一這樣的“不同的解決方案”
至少會(huì)有輕微的不同行為。如果我們要求來比如說來在我們提供[練實(shí)例的區(qū)域之外進(jìn)行
“外推”來我們可以得到極大的不同結(jié)果就但是哪一
是
“正確的”
呢要真的沒有辦法說。它們都
“與觀察到的
據(jù)一致”。但它們都對(duì)應(yīng)著不同的“先天”方式來“思考”如何在“盒子外”做什么。對(duì)我們?nèi)祟悂碚f來有些可能比其他的起來
“更合理”?!?
—神經(jīng)網(wǎng)絡(luò)訓(xùn)練的實(shí)踐與理論特別是在過去的
年里來在[練神經(jīng)網(wǎng)絡(luò)的藝術(shù)方面取得了許多進(jìn)展。而且來是的來這基本上是一門藝術(shù)。有時(shí)來特別是在回顧中來人們至少可以
到正在做的事情有一絲“科學(xué)解釋”的影子。但大多情況下來事情都是通過試驗(yàn)和錯(cuò)誤發(fā)現(xiàn)的來增加了一些想法和技巧來逐步建立了一關(guān)于如何使用神經(jīng)網(wǎng)絡(luò)的重要傳說。有幾關(guān)鍵部分。首先來對(duì)于一特定的任務(wù)來應(yīng)該使用什么架構(gòu)的神經(jīng)網(wǎng)絡(luò)。然后來還有一關(guān)鍵問題來即如何獲得[練神經(jīng)網(wǎng)絡(luò)的據(jù)。而且來人們?cè)絹碓蕉嗟夭皇窃谔幚韽念^開始[練一
網(wǎng)絡(luò)的問題就相反來一
新的網(wǎng)絡(luò)可以直接納入另一
已經(jīng)[練好的網(wǎng)絡(luò)來或者至少可以使用該網(wǎng)絡(luò)為自己產(chǎn)生更多的[練實(shí)例。人們可能認(rèn)為來對(duì)于每一種特定的任務(wù)來人們都需要一不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。但人們發(fā)現(xiàn)來即使是對(duì)于明顯不同的任務(wù)來相同的架構(gòu)似乎也能發(fā)揮作用。在某種程度上來這讓人想起了通用計(jì)算的想法(以及我的計(jì)算等價(jià)原則)來但是來正如我將在后面討論的那樣來我認(rèn)為這更多地反映了這樣一事實(shí)來即我們通常試圖讓神經(jīng)網(wǎng)絡(luò)做的任務(wù)是“類似人類”的來而神經(jīng)網(wǎng)絡(luò)可以捕獲相當(dāng)普遍的
“類似人類的過程”。在早期的神經(jīng)網(wǎng)絡(luò)中來人們傾向于認(rèn)為應(yīng)該
“讓神經(jīng)網(wǎng)絡(luò)盡可能地少做”。例如來在將語音轉(zhuǎn)換為文本時(shí)來人們認(rèn)為應(yīng)該首先分析語音的音頻來將其分解為音素來等等。但人們發(fā)現(xiàn)來至少對(duì)于“類似人類的任務(wù)”來說來通常更好的做法是嘗試在“端到端問題”上[練神經(jīng)網(wǎng)絡(luò)來讓它自己“發(fā)現(xiàn)”必要的中間特征?編碼等。還有一想法是來我們應(yīng)該在神經(jīng)網(wǎng)絡(luò)中引入復(fù)雜的單獨(dú)組件來讓它實(shí)際上“明確地實(shí)現(xiàn)特定的算法想法”。但是來這又一次被證明是不值得的天相反來最好只是處理非常簡(jiǎn)單的組件來讓它們“自我組織”(盡管通常是以我們無法理解的方式)來實(shí)現(xiàn)(大概)那些算法想法的等價(jià)物。這并不是說沒有與神經(jīng)網(wǎng)絡(luò)相關(guān)的“結(jié)構(gòu)化思想”。因此來例如來具有局部連接的二維神經(jīng)元陣列似乎至少在處理圖像的早期階段非常有用。而擁有專注于“回顧序列”
的連接模式似乎很有用——
我們將在后面
到——在處理人類語言等事物時(shí)來例如在ChatGPT
中。但神經(jīng)網(wǎng)絡(luò)的一重要特點(diǎn)是來像一的計(jì)算機(jī)一樣來它們最終只是在處理據(jù)。而目前的神經(jīng)網(wǎng)絡(luò)——目前的神經(jīng)網(wǎng)絡(luò)[練方法
——是專門處理字陣列的。但在處理過程中來這些組可以被完全重新排列和重塑。舉例子來我們上面用來識(shí)別字的網(wǎng)絡(luò)從一二維的“圖像”陣列開始來迅速“增厚”到許多通道來但隨后“濃縮”成一一維陣列來最終將包含代表不同可能輸出
字的元素就但是來好吧來如何判斷一
特定的任務(wù)需要多大的神經(jīng)網(wǎng)要這是一門藝術(shù)。在某種程度上來關(guān)鍵是要知道 “這
任務(wù)有多難”。但對(duì)于類似人類的任
務(wù)來說來這通常是很難估計(jì)的。是的來可能有一種系統(tǒng)的方法可以通過計(jì)算機(jī)非?!皺C(jī)械”
地完成任務(wù)。但很難知道是否存在人們認(rèn)為的技巧或捷徑來使人們至少在“類似人類的水平”上更容易地完成這項(xiàng)任務(wù)??赡苄枰信e一巨大的游戲樹來“機(jī)械地”玩某游戲天但可能有一更容易(“啟發(fā)式”)的方法來實(shí)現(xiàn)“人類水平的游戲”。當(dāng)人們?cè)谔幚砦⑿〉纳窠?jīng)網(wǎng)絡(luò)和簡(jiǎn)單的任務(wù)時(shí)來有時(shí)可以明確地到“從這里不能到達(dá)那里”。例如來這是人們?cè)谏弦还?jié)的任務(wù)中用幾小的神經(jīng)網(wǎng)絡(luò)似乎能做到的最好的結(jié)果就而我們的情況是來如果網(wǎng)太小來它就不能再現(xiàn)我們想要的功能。但如果超過一定的規(guī)模來它就沒有問題了——至少如果一
人用足夠長的時(shí)間和足夠多的例子[練它。順便說一下來這些圖片說明了一神經(jīng)網(wǎng)絡(luò)的傳說就如果中間有一“擠壓”來迫使所有東西都通過一較小的中間神經(jīng)元量來那么我們往往可以用一
較小的網(wǎng)絡(luò)。(值得一提的是來“無中間層”——或所謂的“感知器”——網(wǎng)絡(luò)只能學(xué)習(xí)本質(zhì)上的線性函——但只要有一中間層來原則上就可以任意很好地近似任何函來至少如果有足夠的神經(jīng)元來盡管為了使其可行地[練來通常需要某種正則化或規(guī)范化)。好吧來讓我們假設(shè)我們已經(jīng)確定了某種神經(jīng)網(wǎng)絡(luò)架構(gòu)?,F(xiàn)在有一問題來就是如何獲得據(jù)來[練網(wǎng)絡(luò)。圍繞神經(jīng)網(wǎng)絡(luò)和一機(jī)器學(xué)習(xí)的許多實(shí)際挑戰(zhàn)都集中在獲取或準(zhǔn)備必要的[練據(jù)上。在許多情況下(“監(jiān)督學(xué)習(xí)”)來人們希望獲得明確的輸入和期望的輸出的例子。因此來舉例來說來人們可能希望通過圖像中的內(nèi)容或一些其他屬性來標(biāo)記圖像。也許我們必須明確地去做——通常是費(fèi)盡心機(jī)地去做標(biāo)記。但是很多時(shí)候來我們可以借助已經(jīng)完成的工作來或者將其作為某種代理。因此來舉例來說來我們可以使用網(wǎng)絡(luò)上已經(jīng)提供的圖片的alt標(biāo)簽?;蛘邅碓诹硪活I(lǐng)域來我們可以使用為視頻創(chuàng)建的封閉式字幕。或者在語言翻譯[練中來可以使用不同語言的網(wǎng)
或其他文件的平行版本。你需要向神經(jīng)網(wǎng)絡(luò)展示多少據(jù)來[練它完成一項(xiàng)特定任務(wù)要同樣來這很難從第一原理上估計(jì)。當(dāng)然來通過使用“轉(zhuǎn)移學(xué)習(xí)”來“轉(zhuǎn)移”
諸如已經(jīng)在另一
網(wǎng)絡(luò)中學(xué)習(xí)過的重要特征列表的東西來可以大大降低要求。但一來說來神經(jīng)網(wǎng)絡(luò)需要“到大量的例子”才能[練好。而至少對(duì)于某些任務(wù)來說來神經(jīng)網(wǎng)絡(luò)的一重要傳說是來這些例子可能是非常重復(fù)的。事實(shí)上來向神經(jīng)網(wǎng)絡(luò)展示所有的例子是一標(biāo)準(zhǔn)的策略來一遍又一遍。在每“[練回合”(或
“epochs”)中來神經(jīng)網(wǎng)絡(luò)至少會(huì)處于一稍微不同的狀態(tài)來而以某種方式“提醒”它某特定的例子對(duì)于讓它“記住那例子”是很有用的。(是的來也許這類似于人類記憶中的重復(fù)的有用性)。但往往只是反復(fù)重復(fù)同一例子是不夠的。還需要向神經(jīng)網(wǎng)絡(luò)展示這例子的變化。而神經(jīng)網(wǎng)絡(luò)理論的一特點(diǎn)是來這些“據(jù)增強(qiáng)”的變化不一定要復(fù)雜才有用。只要用基本的圖像處理方法稍微修改一下圖像來就可以使它們?cè)谏窠?jīng)網(wǎng)絡(luò)[練中基本上“像新的一樣好”。同樣來當(dāng)人們沒有實(shí)際的視頻等來[練自動(dòng)駕駛汽車時(shí)來人們可以繼續(xù)從模擬的視頻游戲環(huán)境中獲得
據(jù)來而不需要實(shí)際的真實(shí)世界場(chǎng)景的所有細(xì)節(jié)。像ChatGPT這樣的東西如何呢要嗯來它有一很好的特點(diǎn)來那就是它可以進(jìn)行
“無監(jiān)督學(xué)習(xí)”來這使得它更容易得到用于[練的例子?;仡櫼幌聛鞢hatGPT的基本任務(wù)是找出如何繼續(xù)它所給的一段文字。因此來為了獲得“[練實(shí)例”來我們所要做的就是獲得一段文本來并將其結(jié)尾遮蓋起來來然后將其作為“[練的輸入”——“輸出”是完整的?未被遮蓋的文本。我們稍后會(huì)詳細(xì)討論這
問題來但主要的一點(diǎn)是來與學(xué)習(xí)圖片中的內(nèi)容不同來不需要“明確的標(biāo)簽”天ChatGPT
實(shí)際上可以直接從它所得到的任何文本例子中學(xué)習(xí)。好吧來那么神經(jīng)網(wǎng)絡(luò)的實(shí)際學(xué)習(xí)過程是怎樣的呢要?dú)w根結(jié)底來這都是為了確定什么權(quán)重能夠最好地捕捉所給的[練實(shí)例。有各種詳細(xì)的選擇和“超參設(shè)置”(之所以被稱為超參來是因?yàn)榭梢园褭?quán)重作是“參
”)來可以用來調(diào)整如何完成這一過程。有不同的損失函選擇(平方之和?絕對(duì)值之和來等等)。有不同的方法來進(jìn)行損失最小化(每一步要在權(quán)重空間中移動(dòng)多遠(yuǎn)來等等)。然后還有一些問題來比如要展示多大的“一批”例子來獲得每一試圖最小化的損失的連續(xù)估計(jì)。而且來是的來人們可以應(yīng)用機(jī)器學(xué)習(xí)(例如來我們?cè)赪olfram語言中所做的)來實(shí)現(xiàn)機(jī)器學(xué)習(xí)的自動(dòng)化——自動(dòng)設(shè)置超參等東西。但最終來整[練過程的特點(diǎn)是到損失是如何逐漸
少的(如這WolframLanguage
的小型[練的進(jìn)度監(jiān)視器)就而人們通常到的是來損失在一段時(shí)間內(nèi)少來但最終在某
恒定值上趨于平緩。如果這值足夠小來那么可以認(rèn)為[練是成功的天否則來這可能是一
應(yīng)該嘗試改變網(wǎng)絡(luò)結(jié)構(gòu)的信號(hào)。說可能是一
方便的設(shè)置來但并不清楚它是否是實(shí)現(xiàn)我們所需功能的最佳能否告訴我們“學(xué)習(xí)曲線”
要花多長時(shí)間才能變平要就像許多其他事情一樣來似乎有近似的縮放關(guān)系來這取決于神經(jīng)網(wǎng)絡(luò)的大小和使用的據(jù)量。但一的結(jié)論是來[練一神經(jīng)網(wǎng)絡(luò)是很難的來需要大量的計(jì)算努力。作為一實(shí)際問題來這些努力的絕大部分都花在了對(duì)字陣列的操作上來而這正是GPU所擅長的——這就是為什么神經(jīng)網(wǎng)絡(luò)[練通常受限于GPU
的可用性。在未來來是否會(huì)有從根本上更好的方法來[練神經(jīng)網(wǎng)絡(luò)來或者一地做神經(jīng)網(wǎng)絡(luò)的工作要我認(rèn)為來幾乎可以肯定。神經(jīng)網(wǎng)絡(luò)的基本理念是用大量簡(jiǎn)單(本質(zhì)上相同)的組件創(chuàng)建一靈活的“計(jì)算結(jié)構(gòu)”來并讓這“結(jié)構(gòu)”能夠被逐步修改來以便從實(shí)例中學(xué)習(xí)。在目前的神經(jīng)網(wǎng)絡(luò)中來人們基本上是使用微積分的思想——
應(yīng)用于實(shí)——
來做這種增量修改。但越來越清楚的是來擁有高精度的字并不重要天即使用目前的方法來8位或更少的
字可能也足夠了。像蜂窩自動(dòng)機(jī)這樣的計(jì)算系統(tǒng)來基本上是在許多單獨(dú)的比特上并行操作的來如何做這種增量修改從來都不清楚來但沒有理由認(rèn)為它不可能。事實(shí)上來就像“2012年深度學(xué)習(xí)的突破”一樣來這種增量修改在更復(fù)雜的情況下可能比簡(jiǎn)單的情況下更容易。神經(jīng)網(wǎng)絡(luò)——也許有點(diǎn)像大腦——被設(shè)定為擁有一
基本固定的神經(jīng)元網(wǎng)絡(luò)來被修改的是它們之間連接的強(qiáng)度(“重量”)。(也許至少在年輕的大腦中來大量的完全新的連接也可以增長。)
但是來雖然這對(duì)生物學(xué)來方式。而涉及漸進(jìn)式網(wǎng)絡(luò)重寫的東西(也許讓人想起我們的物理項(xiàng)目)最終可能會(huì)更好。但即使在現(xiàn)有的神經(jīng)網(wǎng)絡(luò)框架內(nèi)來目前也有一關(guān)鍵的限制就現(xiàn)在的神經(jīng)網(wǎng)絡(luò)[練從根本上說是連續(xù)的來每一批例子的效果都被傳播回來以更新權(quán)重。事實(shí)上來就目前的計(jì)算機(jī)硬件而言——即使考慮到GPU——在[練期間來神經(jīng)網(wǎng)絡(luò)的大部分時(shí)間都是“閑置”的來每次只有一部分被更新。從某種意義上說來這是因?yàn)槲覀兡壳暗挠?jì)算機(jī)往往有獨(dú)立于
CPU(或GPU)的內(nèi)存。但在大腦中來這大概是不同的——每一“記憶元素”(即神經(jīng)元)也是一潛在的活躍的計(jì)算元素。如果我們能夠以這種方式設(shè)置我們未來的計(jì)算機(jī)硬件來就有可能更有效地進(jìn)行[練。“當(dāng)然來一
足夠大的網(wǎng)絡(luò)可以做任何事情好”像ChatGPT這樣的能力似乎令人印象深刻來人們可能會(huì)想象來如果人們能夠“繼續(xù)下去”來[練越來越大的神經(jīng)網(wǎng)絡(luò)來那么它們最終將能夠“做任何事情”。如果人們關(guān)注的是那些容易被人類直接思考的事物來那么很有可能是這樣的。但是來過去幾百年科學(xué)的教[是來有些東西可以通過形式化的過程來計(jì)算出來來但并不容易被人類的直接思維所獲得。非瑣碎的學(xué)就是一大例子。但一
的情況其實(shí)是計(jì)算。而最終的問題是計(jì)算的不可還原性現(xiàn)象。有一些計(jì)算來人們可能認(rèn)為需要很多步驟才能完成來但事實(shí)上可以“簡(jiǎn)化”為相當(dāng)直接的東西。但計(jì)算的不可簡(jiǎn)化性的發(fā)現(xiàn)意味著這并不總是有效的。相反來有些過程——可能就像下面這過程——要弄清楚發(fā)生了什么來必然需要對(duì)每
計(jì)算步驟進(jìn)行追蹤就我們通常用大腦做的那些事情來大概是專門為避免計(jì)算的不可還原性而選擇的。在一人的大腦中做學(xué)需要特別的努力。而且來在實(shí)踐中來僅僅在一人的大腦中“思考”任何非微觀程序的操作步驟來在很大程度上是不可能的。當(dāng)然來為此我們有計(jì)算機(jī)。有了計(jì)算機(jī)來我們可以很容易地做很長的?計(jì)算上不可簡(jiǎn)化的事情。而關(guān)鍵的一點(diǎn)是來這些事情一
來說沒有捷徑。是的來我們可以記住很多關(guān)于在某特定計(jì)算系統(tǒng)中發(fā)生的具體例子。也許我們甚至可以到一些(“計(jì)算上可還原的”)模式來使我們可以做一點(diǎn)概括。但問題是來計(jì)算上的不可還原性意味著我們永遠(yuǎn)無法保證意外不會(huì)發(fā)生——只有通過明確地進(jìn)行計(jì)算來你才能知道在任何特定情況下實(shí)際發(fā)生了什么。最后來在可學(xué)習(xí)性和計(jì)算的不可重復(fù)性之間存在著一種基本的緊張關(guān)系。學(xué)習(xí)實(shí)際上是通過利用規(guī)則性來壓縮據(jù)。但計(jì)算上的不可復(fù)制性意味著最終對(duì)可能存在的規(guī)性有一
限制。作為一實(shí)際問題來我們可以想象將一些小的計(jì)算設(shè)備——如蜂窩自動(dòng)機(jī)或圖靈機(jī)——構(gòu)建成像神經(jīng)網(wǎng)絡(luò)這樣的可[練系統(tǒng)。而且來這種設(shè)備確實(shí)可以作為神經(jīng)網(wǎng)的好“工具”來就像Wolfram|Alpha可以作為ChatGPT的好工具。但計(jì)算的不可簡(jiǎn)化性意味著我們不能望“進(jìn)入”這些設(shè)備并讓它們學(xué)習(xí)?;蛘邠Q話說來在能力和可[練性之間有一最終的權(quán)衡就你越想讓一系統(tǒng)“真正利用”它的計(jì)算能力來它就越會(huì)顯示出計(jì)算的不可復(fù)制性來它的可[練性就越低。而它越是從根本上可[練來它就越不能做復(fù)雜的計(jì)算(對(duì)于目前的ChatGPT來說來情況實(shí)際上要極端得多來因?yàn)橛糜谏擅枯敵龇?hào)的神經(jīng)網(wǎng)絡(luò)是一純粹的
“前饋”網(wǎng)絡(luò)來沒有循環(huán)來因此沒有能力做任何具有非復(fù)雜“控制流”
的計(jì)算)。當(dāng)然來人們可能會(huì)問來能夠做不可還原的計(jì)算是否真的很重要。事實(shí)上來在人類歷史的大部分時(shí)間里來這并不特別重要。但我們的現(xiàn)代技術(shù)世界是建立在至少使用學(xué)計(jì)算的工程之上的來而且越來越多地使用更普遍的計(jì)算。如果我們一下自然界來它充滿了不可簡(jiǎn)化的計(jì)算——我們正在慢慢理解如何模仿并用于我們的技術(shù)目的。是的來一神經(jīng)網(wǎng)絡(luò)當(dāng)然可以注意到自然世界中的各種規(guī)性來而我們也可能很容易通過“無助的人類思維”注意到這些規(guī)
性。但是來如果我們想要解決屬于學(xué)或計(jì)算科學(xué)范你的事情來神經(jīng)網(wǎng)絡(luò)是無法做到的
——除非它有效地“作為工具”使用一“普通”
的計(jì)算系統(tǒng)。但是來這一切都有一些潛在的混了之處。在過去來有很多任務(wù)——包括寫文章——我們認(rèn)為對(duì)計(jì)算機(jī)來說“從根本上說太難了”。而現(xiàn)在我們到這些任務(wù)是由ChatGPT等完成的來我們傾向于突然認(rèn)為計(jì)算機(jī)一定是變得更加強(qiáng)大了來特別是超越了它們已經(jīng)基本能夠做到的事情(比如逐步計(jì)算蜂窩自動(dòng)機(jī)等計(jì)算系統(tǒng)的行為)。但這并不是正確的結(jié)論。計(jì)算上不可還原的過程仍然是計(jì)算上不可還原的來而且對(duì)計(jì)算機(jī)來說仍然是根本性的困難——即使計(jì)算機(jī)可以輕易地計(jì)算它們的單步驟。相反來我們應(yīng)該得出的結(jié)論是來我們?nèi)祟惪梢宰龅膩淼覀儾徽J(rèn)為計(jì)算機(jī)可以做的任務(wù)來比如寫文章來實(shí)際上在某種意義上比我們想象的更容易計(jì)算。換話說來神經(jīng)網(wǎng)絡(luò)之所以能夠成功地寫出一篇文章來是因?yàn)閷懸黄恼卤蛔C明是一比我們想象的“計(jì)算上更淺”的問題。從某種意義上說來這使我們更接近于“擁有一種理論”來即我們?nèi)祟愂侨绾巫龅较駥懳恼逻@樣的事情的來或在一
情況下處理語言。如果你有一足夠大的神經(jīng)網(wǎng)絡(luò)來那么來是的來你可能能夠做任何人類能夠輕易做到的事情。但是來你不會(huì)捕捉到自然界一能做的事情——或者我們從自然界塑造的工具能做的事情。而正是這些工具的使用——
無論是實(shí)用的還是概念性的——使得我們?cè)诮鼛资兰o(jì)里能夠超越
“純粹的無助的人類思維” 所能達(dá)到的界限來并為人類的目的捕捉到物理和計(jì)算宇宙中的更多東西。—6
—嵌入的概念神經(jīng)網(wǎng)絡(luò)——至少在它們目前的設(shè)置中——從根本上說是基于
字的。因此來如果我們要用它們來處理像文本這樣的東西來我們就需要一種方法來用
字表示我們的文本。當(dāng)然來我們可以開始(基本上就像ChatGPT那樣)為字典中的每詞分配一字。但是來有一重要的想法——例如來它是ChatGPT
的核心——超出了這范圍。這就是“嵌入”的概念。我們可以把嵌入作是一種嘗試用字陣列來表示事物“本質(zhì)”的方式——其特性是
“附近的事物”由附近的
字來表示。因此來舉例來說來我們可以把一詞的嵌入作是試圖在一種“意義空間”中排列詞語來在這空間中來以某種方式“在意義上接近”
的詞語在嵌入中出現(xiàn)。實(shí)際使用的嵌入——例如在ChatGPT中——
往往涉及大量的
字列表。但是如果我們把它投射到二維空間來我們就可以顯示出嵌入的單詞是如何排列的例子就而且來是的來我們
到的東西在捕捉典型的日常印象方面做得非常好。但是來我們?cè)鯓硬拍軜?gòu)建這樣一嵌入呢要大致的想法是查大量的文本(這里是來自網(wǎng)絡(luò)的50詞)來然后不同的詞出現(xiàn)的“環(huán)境”
有多相似。因此來例如來“alligator”和“crocodile”經(jīng)常會(huì)在其他類似的
子中互換出現(xiàn)來這意味著它們?cè)谇度胫袝?huì)被放在附近。但是“蘿卡”和“老鷹”
不會(huì)出現(xiàn)在其他類似的
子中來所以它們?cè)谇度胫袝?huì)被放在很遠(yuǎn)的地方。但是來如何使用神經(jīng)網(wǎng)絡(luò)實(shí)際實(shí)現(xiàn)這樣的東西呢要讓我們先來討論一下不是針對(duì)單詞的嵌入來而是針對(duì)圖像的嵌入。我們想找到某種方法來通過字列表來描述圖像來使“我們認(rèn)為相似的圖像”被分配到相似的字列表中。我們?nèi)绾闻袛辔覀兪欠駪?yīng)該
“認(rèn)為圖像相似”要好吧來如果我們的圖像是來例如來于寫的字來我們可能會(huì)“認(rèn)為兩圖像是相似的”來如果它們是相同的字。早些時(shí)候來我們討論了一被[練來識(shí)別于寫
字的神經(jīng)網(wǎng)絡(luò)。我們可以認(rèn)為這神經(jīng)網(wǎng)絡(luò)被設(shè)置成在其最終輸出中把圖像放入
10
不同的倉來每字一
倉。但是來如果我們?cè)谧龀觥斑@是一‘4’”的最終決定之前來“攔截”神經(jīng)網(wǎng)絡(luò)內(nèi)部發(fā)生的事情呢要我們可能會(huì)想到來在神經(jīng)網(wǎng)絡(luò)中來有一些字將圖像描述為“大部分是4來但有一點(diǎn)是2”或類似的情況。而我們的想法是挑選出這樣的
字作為嵌入的元素。所以這里有一概念。我們不是直接試圖描述“什么圖像在什么其他圖像附近”來而是考慮一定義明確的任務(wù)(在這種情況下是字識(shí)別)來我們可以獲得明確的[練據(jù)——然后利用這樣一事實(shí)來即在做這
任務(wù)時(shí)來神經(jīng)網(wǎng)絡(luò)隱含地要做出相當(dāng)于“接近度決定”的決定。因此來我們不需要明確地談?wù)摗皥D像的接近性”來而只是談?wù)撘粓D像代表什么
字的具體問題來然后我們“把它留給神經(jīng)網(wǎng)絡(luò)”
來隱含地決定這意味著什么“圖像的接近性”。那么來這對(duì)
字識(shí)別網(wǎng)絡(luò)來說是如何更詳細(xì)地工作的呢要我們可以認(rèn)為這
網(wǎng)絡(luò)是由11連續(xù)的層組成的來我們可以用圖標(biāo)來概括它(激活函顯示為獨(dú)立的層)就在開始時(shí)來我們向第一層輸入實(shí)際的圖像來用像素值的二維陣列表示。在最后一層來我們得到了一由10值組成的組來我們可以認(rèn)為這表示網(wǎng)絡(luò)對(duì)圖像對(duì)應(yīng)于0到9的每字的
“確定程度”。輸入圖像(于寫的
4)來最后一層的神經(jīng)元的值就是就換話說來神經(jīng)網(wǎng)絡(luò)此時(shí)已經(jīng)“非常確定”這圖像是
4來為了實(shí)際得到輸出“4”來我們只需挑選出
值最大的神經(jīng)元的位置。但是來如果我們?cè)偻耙徊侥匾W(wǎng)絡(luò)中的最后一操作是一
所謂的softmax來它試圖
“強(qiáng)制確定”。但在這之前來神經(jīng)元的值是就代表“4”
的神經(jīng)元仍然有最高的值。但在其他神經(jīng)元的
值中也有信息。我們可以期望這字列表在某種意義上可以用來描述圖像的“本質(zhì)”來從而提供我們可以用作嵌入的東西。因此來例如來這里的每一4都有一
稍微不同的
“簽名”(或
“特征嵌入”)
——
都與
8
的非常不同就在這里來我們基本上是用10
字來描述我們的圖像特征。但通常情況下來使用比這更多的字會(huì)更好。例如來在我們的字識(shí)別網(wǎng)絡(luò)中來我們可以通過挖掘前一層得到一500字的陣列。而這可能是一
合理的
組來作為
“圖像嵌入”使用。如果我們想對(duì)于寫字的
“圖像空間”進(jìn)行明確的可視化來我們需要“降低維度”來有效地將我們得到的500
維向量投射到來例如來三維空間就我們剛剛談到為圖像創(chuàng)建一
特征(從而嵌入)來有效地基于識(shí)別圖像的相似性來確定(根據(jù)我們的[練集)它們是否對(duì)應(yīng)于同一于寫字。如果我們有一[練集來比如說來確定每張圖片屬于5000種常見類型的物體(貓?狗?椅子……
)來我們就可以更普遍地對(duì)圖片做同樣的事情。通過這種方式來我們可以制作一圖像嵌入來它被我們對(duì)常見物體的識(shí)別所“在定”來但然后根據(jù)神經(jīng)網(wǎng)絡(luò)的行為
“圍繞它進(jìn)行概括”。關(guān)鍵是來只要這種行為與我們?nèi)祟惛兄徒忉寛D像的方式相一致來這將最終成為一“對(duì)我們來說是正確的”的嵌入來并在實(shí)踐中做“類似人類判斷”的任務(wù)時(shí)有用。好吧來那么我們?nèi)绾巫裱瑯拥姆椒▉韺ふ覇卧~的嵌入呢要關(guān)鍵是要從一
我們可以隨時(shí)進(jìn)行[練的關(guān)于單詞的任務(wù)開始。而標(biāo)準(zhǔn)的任務(wù)是“單詞預(yù)測(cè)”。假設(shè)我們得到了“thecat”?;谝淮笮偷奈谋菊Z料庫(比如說來網(wǎng)絡(luò)上的文本內(nèi)容)來可能“填空”的不同單詞的概率是多少要或者說來給定“黑_”來不同的“側(cè)翼詞”
的概率是多少要我們?nèi)绾螢樯窠?jīng)網(wǎng)絡(luò)設(shè)置這問題要?dú)w根結(jié)底來我們必須用字來表述一切。做到這一點(diǎn)的一方法就是為英語中5萬左右的常用詞中的每一分配一獨(dú)特的字。因此來例如來“the”可能是914來而“cat”(前面有一空格)可能是3542。(這些是GPT-2所使用的實(shí)際字。)所以對(duì)于“the_cat”問題來我們的輸入可能是{914,3542}。輸出應(yīng)該是什么樣子的呢要好吧來它應(yīng)該是一由50000左右的
字組成的列表來有效地給出了每可能的
“填充”單詞的概率。再一次來為了找到一嵌入來我們要在神經(jīng)網(wǎng)絡(luò)“達(dá)到結(jié)論”之前“攔截”它的“內(nèi)部”——然后撿起在那里出現(xiàn)的字列表來我們可以把它作是“每
詞的特征”。好吧來那么這些表征是什么樣子的呢要在過去的10
年里來已經(jīng)有一系列不同的系統(tǒng)被開發(fā)出來(word2vec,GloVe,BERT,GPT,……)來每一都是基于不同的神經(jīng)網(wǎng)絡(luò)方法。但最終來所有這些系統(tǒng)都是通過百到
千
字的列表來描述單詞的特征。在它們的原始形式中來這些“嵌入向量”
是相當(dāng)無信息的。例如來這里是GPT-2產(chǎn)生的三
特定詞的原始嵌入向量就如果我們做一些事情來比如測(cè)量這些向量之間的距離來那么我們就可以發(fā)現(xiàn)像單詞的“接近性”
這樣的東西。稍后我們將更詳細(xì)地討論我們可能認(rèn)為這種嵌入的“認(rèn)知”意義。但現(xiàn)在主要的一點(diǎn)是來我們有一種方法可以有效地將單詞變成“神經(jīng)網(wǎng)絡(luò)友好”的
字集合。但實(shí)際上來我們可以更進(jìn)一步來不僅僅是用字的集合來描述單詞天我們還可以對(duì)單詞的序列來或者整文本塊進(jìn)行描述。在ChatGPT中來它就是這樣處理事情的。它把目前得到的文本來生成一嵌入?量來表示它。然后來它的目標(biāo)是找到接下來可能出現(xiàn)的不同詞匯的概率。它將其答案表示為一字列表來該列表基本上給出了50,000
左右的可能詞匯的概率。(嚴(yán)格地說來ChatGPT不處理單詞來而是處理“符號(hào)”(token)——
方便的語言單位來可能是整單詞來也可能只是
“pre”或“ing”或“ized”這樣的片段。使用符號(hào)使ChatGPT更容易處理罕見的?復(fù)合的和非英語的詞匯來有時(shí)來無論好壞來都可以發(fā)明新的詞匯。)—8
—ChatGPT
內(nèi)部好了來我們終于準(zhǔn)備好討論ChatGPT
內(nèi)部的內(nèi)容了。是的來最終來它是一巨大的神經(jīng)網(wǎng)絡(luò)——目前是所謂的GPT-3網(wǎng)絡(luò)的一版本來有
1750
權(quán)重。在許多方面來這是一非常像我們討論過的其他神經(jīng)網(wǎng)絡(luò)。但它是一特別為處理語言問題而設(shè)置的神經(jīng)網(wǎng)絡(luò)。它最顯著的特征是一叫做“轉(zhuǎn)化器”
的神經(jīng)網(wǎng)絡(luò)架構(gòu)。在我們上面討論的第一神經(jīng)網(wǎng)絡(luò)中來任何給定層的每神經(jīng)元基本上都與前一層的每神經(jīng)元相連(至少有一些權(quán)重)。但是來如果一人在處理具有特殊的?已知的結(jié)構(gòu)的據(jù)時(shí)來這種全連接的網(wǎng)絡(luò)(大概)是過剩的。因此來例如來在處理圖像的早期階段來典型的做法是使用所謂的卷積神經(jīng)網(wǎng)絡(luò)(“convnets”)來其中的神經(jīng)元被有效地布置在一類似于圖像中的像素的網(wǎng)格上——
并且只與網(wǎng)格上附近的神經(jīng)元相連。變換器的想法是為構(gòu)成一段文本的標(biāo)記序列做一些至少有點(diǎn)類似的事情。但是來轉(zhuǎn)化器并不只是在序列中定義一可以有連接的固定區(qū)域來而是引入了“注意”的概念——以及對(duì)序列的某些部分比其他部分更“注意”
的概念。也許有一天來僅僅啟動(dòng)一通用的神經(jīng)網(wǎng)絡(luò)并通過[練進(jìn)行所有的定制是有意義的。但至少到現(xiàn)在為止來將事情“模塊化”
在實(shí)踐中似乎是至關(guān)重要的來就像變壓器那樣來可能也像我們的大腦那樣。好吧來那么ChatGPT(或者說來它所基于的GPT-3網(wǎng)絡(luò))實(shí)際上是做什么的要回想一下來它的總體目標(biāo)是以“合理”
的方式延續(xù)文本來基于它所
到的[練(包括從網(wǎng)絡(luò)上查的文本等)來所以在任何時(shí)候來它都有一定量的文本來它的目標(biāo)是為下一要添加的標(biāo)記提出適當(dāng)?shù)倪x擇。它的操作分為三
基本階段就首先來它獲取與迄今為止的文本相對(duì)應(yīng)的標(biāo)記序列來并找到代表這些標(biāo)記的嵌入(即一字陣列)。其次來它以“標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)方式”對(duì)這一嵌入進(jìn)行操作來值“通過”網(wǎng)絡(luò)中的連續(xù)層來產(chǎn)生一
新的嵌入(即一
新的字陣列)。然后來它從這組的最后一部分來生成一
大約50,000值的組來這些值變成了不同的可能的下一
標(biāo)記的概率。(而且來是的來恰好使用的標(biāo)記的量與英語中的常用詞的量相同來盡管只有大約3000標(biāo)記是整單詞來其余的是片段。)關(guān)鍵的一點(diǎn)是來這
管道的每一部分都是由一
神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的來其權(quán)重是由網(wǎng)絡(luò)的端到端[練決定的。換話說來實(shí)際上來除了整體架構(gòu)之外來沒有任何東西是
“明確設(shè)計(jì)的”天所有東西都是從[練據(jù)中
“學(xué)習(xí)”的。然而來在架構(gòu)的設(shè)置方式上有很多細(xì)節(jié)來反映了各種經(jīng)驗(yàn)和神經(jīng)網(wǎng)絡(luò)的傳說。而且來盡管這肯定是進(jìn)入了雜草叢中來但我認(rèn)為談?wù)撈渲械囊恍┘?xì)節(jié)是有用的來尤其是為了了解建立像ChatGPT
這樣的東西所需要的東西。首先是嵌入模塊。下面是GPT-2的Wolfram
語言示意圖就輸入是一由n標(biāo)記組成的向量(如上一節(jié)所述來由1到50,000
的整
表示)。這些標(biāo)記中的每一都被(通過單層神經(jīng)網(wǎng)絡(luò))轉(zhuǎn)換成一
嵌入向量(GPT-2的長度為768來ChatGPT的GPT-3為12,288)。同時(shí)來還有一“二級(jí)路徑”來它將標(biāo)記的(整)位置序列來并從這些整中創(chuàng)建另一
嵌入向量。最后來來自令牌值和令牌位置的嵌入向量被加在一起——
產(chǎn)生嵌入模塊的最終嵌入向量序列。為什么只是把令牌值和令牌位置的嵌入向量加在一起要我不認(rèn)為這有什么特別的科學(xué)依據(jù)。只是各種不同的東西都被嘗試過來而這是一
似乎有效的方法。這也是神經(jīng)網(wǎng)絡(luò)傳說的一部分來從某種意義上說來只要你的設(shè)置是“大致正確的”來通常就可以通過做充分的[練來確定細(xì)節(jié)來而不需要真正“在工程層面上理解”
神經(jīng)網(wǎng)絡(luò)最終是如何配置它的。下面是嵌入模塊所做的工作來對(duì)字符串“hellohellohellohellohellobye
byebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebyebye
2”就每標(biāo)記的嵌入向量的元素都顯示在面下方來在整
面上來我們首先
到的是“hello”的嵌入來然后是“bye”的嵌入。上面的第二組是位置嵌入——其起來有點(diǎn)隨機(jī)的結(jié)構(gòu)只是“碰巧學(xué)到的”(在這種情況下是
GPT-2)。好了來在嵌入模塊之后來是轉(zhuǎn)化器的“主要事件”就一連串所謂的“注意塊”(GPT-2為12來ChatGPT的GPT-3為96
)。這一切都很復(fù)雜—— 讓人想起典型的難以理解的大型工程系統(tǒng)來或者來生物系統(tǒng)。但無論如何來這里是一單一的
“注意塊”的示意圖(對(duì)于GPT-2)就在每這樣的注意力塊中來有一系列的“注意力頭”(GPT-2有12
來ChatGPT的GPT-3有96)——每一都是獨(dú)立操作嵌入向量中的不同值塊的。(是的來我們不知道為什么分割嵌入向量是好主意來或者它的不同部分有什么“意義”天這只是“被發(fā)現(xiàn)可行”
的事情之一)。好吧來那么注意頭是做什么的要基本上來它們是一種在標(biāo)記序列中“回顧”的方式(即在迄今為止產(chǎn)生的文本中)來并將過去的內(nèi)容“打包”
成有助于尋找下一
標(biāo)記的形式。在上面的第一節(jié)中來我們談到了使用2-gram概率來根據(jù)它們的直接前身來挑選單詞。變換器中的“注意”機(jī)制所做的是允許“注意”
甚至更早的詞——
因此有可能捕捉到來比如說來動(dòng)詞可以代在子中出現(xiàn)在它們之前的許多詞的名詞的方式。在更詳細(xì)的層面上來注意力頭所做的是以一定的權(quán)重重新組合與不同標(biāo)記相關(guān)的嵌入向量中的大塊。因此來例如來在第一注意力區(qū)塊中的
12
注意力頭(在
GPT-2
中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 狼獲獎(jiǎng)?wù)n件教學(xué)課件
- 統(tǒng)計(jì)分析軟件模擬試題三及答案
- 飛向太空的航程說課稿
- 隊(duì)列口令說課稿
- 適合小班課件教學(xué)課件
- 怎樣評(píng)價(jià)課件教學(xué)課件
- 南京工業(yè)大學(xué)浦江學(xué)院《公益營銷》2021-2022學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《籌資原理和技巧》2022-2023學(xué)年第一學(xué)期期末試卷
- 秸稈打捆協(xié)議書(2篇)
- 南京工業(yè)大學(xué)《應(yīng)用統(tǒng)計(jì)學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 車站調(diào)度員技能大賽理論考試題庫(單選、多選題)
- 2024-2030年樺樹汁行業(yè)市場(chǎng)現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評(píng)估規(guī)劃分析研究報(bào)告
- 創(chuàng)新創(chuàng)業(yè)心智模式探索智慧樹知到期末考試答案章節(jié)答案2024年天津農(nóng)學(xué)院
- 2024年九年級(jí)化學(xué)上冊(cè) 第6單元 碳和碳的氧化物教案 (新版)新人教版
- 2024詳解新版《公司法》課件
- 醫(yī)院法律、法規(guī)培訓(xùn)課件
- 2024年高考作文真題解讀(立意+提綱+范文+總評(píng))
- 美沙酮門診管理新規(guī)制度
- 2024年河南省信陽市新縣中考一模數(shù)學(xué)試題 【含答案解析】
- 正常與心梗心電圖
- 中考語文復(fù)習(xí)專題7-口語交際
評(píng)論
0/150
提交評(píng)論