人工智能的火花:GPT-4早期實驗中文_第1頁
人工智能的火花:GPT-4早期實驗中文_第2頁
人工智能的火花:GPT-4早期實驗中文_第3頁
人工智能的火花:GPT-4早期實驗中文_第4頁
人工智能的火花:GPT-4早期實驗中文_第5頁
已閱讀5頁,還剩230頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1人工通用智能的火花:GPT-4的早期實驗VarunChandrasekaran摘要人工智能(AI)研究人員一直在開發(fā)和完善大型語言模型(LLMs這些模型在各種領(lǐng)域和任務(wù)中表現(xiàn)出非凡的能力,挑戰(zhàn)我們對學(xué)習(xí)和認(rèn)知的理解。由OpenAI開發(fā)的最新模型GPT-4[Ope23],是使用前所未有的計算和數(shù)據(jù)規(guī)模訓(xùn)練出來的。在本文中,我們報告了我們對GPT-4早期版本的調(diào)查,當(dāng)時它還在OpenAI的積極開發(fā)中。我們認(rèn)為這個早期版本的)GPT-4是新一批LLM的一部分(例如,與ChatGPT和谷歌的PaLM一起它比以前的AI模型表現(xiàn)出更多的通用智能。我們討論了這些模型的上升能力和影響。我們證明,除了對語言的掌握,GPT-4還能解決跨越數(shù)學(xué)、編碼、視覺、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù),而不需要任何特殊的提示。此外,在所有這些任務(wù)中,GPT-4的表現(xiàn)都驚人地接近人類水平,而且往往大大超過了ChatGPT等現(xiàn)有模型。鑒于GPT-4能力的廣度和深度,我們認(rèn)為可以合理地將其視為人工通用智能(AGI)系統(tǒng)的早期(但仍不完整)版本。在我們對GPT-4的探索中,我們特別強(qiáng)調(diào)發(fā)現(xiàn)它的局限性 ,并討論了在向更深入和更全面的AGI版本邁進(jìn)時面臨的挑戰(zhàn),包括可能需要追求一種超越下一個單詞預(yù)測內(nèi)容2多模態(tài)和跨學(xué)科構(gòu)成13 1介紹424數(shù)學(xué)能力30 5與世界的互動43 6與人類的互動54 6.1了解人類:心智理論 54 7辨別能力69 76 77 9社會影響82 8GPT-4所強(qiáng)調(diào)的自回歸結(jié)構(gòu)的局限性7610方向和結(jié)論8GPT-4所強(qiáng)調(diào)的自回歸結(jié)構(gòu)的局限性76 B多模態(tài)和跨學(xué)科組成的附錄105 B多模態(tài)和跨學(xué)科組成的附錄105 3 D數(shù)學(xué)推理的其他例子122 C編碼部分的附錄111E其他可解釋的例子C編碼部分的附錄111F與世界互動的其他例子144F與世界互動的其他例子144 4一些未知的東西正在做我們不知道的事情。1簡介智力是一個多方面的、難以捉摸的概念,長期以來一年,一個由52位心理學(xué)家組成的小組試圖抓住其本質(zhì),他們在一篇關(guān)于智力科任務(wù),而是包含了廣泛的認(rèn)知技能和能力。建立一個能表現(xiàn)出1994年共識定義中的那種通用智能的人工系統(tǒng)是人工智能研究的一個長期的、雄心勃勃的目標(biāo)。在早期的著作中,現(xiàn)代人工智能(AI)研究學(xué)科的創(chuàng)始人提出了一系列理解智能的理想目標(biāo)[MMRS06]。幾十年來,人工智能研究者們一直在追求智能的原則,包括能研究中最近的許多成功可以說是狹隘地專注于定義明確的任務(wù)和挑戰(zhàn),例如下棋或圍棋,人工智能系統(tǒng)分別在1996年和2016年掌握了這些任務(wù)。在1990年代末和進(jìn)入2000年后,開發(fā)更普遍的人工智能系統(tǒng)的呼聲如,[Leg08,GHT15])。2000年代初,"人工通用智能"(AGI)這一短語被推廣開來(見如,[Leg08,GHT15])。2000年代初,"人工通用智能"(AGI)這一短語被推廣開來(見[Goe14]以強(qiáng)我們使用AGI來指代那些表現(xiàn)出上述1994年定義的廣泛智能能力的系統(tǒng),同時還要求這些能力達(dá)到或超過人類水平。我們用AGI來指代那些表現(xiàn)出上述1994年定義中的廣泛智能能力的系統(tǒng),以及額外的要求,也許是在共識小組的工作中隱含的,即這些能力達(dá)到或超過人類水平。然而,我們注意到,沒有一個單一的AGI定過去幾年,人工智能研究中最顯著的突破是大型語言模型(LLMs)在自然語言處理方面取得的進(jìn)展。這些神經(jīng)網(wǎng)絡(luò)模型基于Transformer架構(gòu)[VSP+17],并在大規(guī)模的網(wǎng)絡(luò)文本數(shù)據(jù)體上進(jìn)行訓(xùn)練,其核心是使用一個自我監(jiān)督的目標(biāo)來預(yù)測部分句子中的下一個單詞。在本文中,我們報告了由OpenAI開發(fā)的新LLM的證據(jù),它是GPT-4[Ope23]的早期和非多模態(tài)版本,根據(jù)1994年的定義,表現(xiàn)出許多智能的特征。盡管是純粹的語言模型,這個早期版本的GPT-4在各種領(lǐng)域和任務(wù)上表現(xiàn)出顯著的能力,包括抽象、理解、視覺、編碼、數(shù)學(xué)、醫(yī)學(xué)、法律、對人類動機(jī)和情感的理解等等。在OpenAI的早期開發(fā)過程中,我們使用純粹的自然語言查詢(提示)與GPT-4進(jìn)行互動1.在圖1.1中,我們展示了GPT-4輸出的一些初步例子,要求它以一首詩的形式寫出素數(shù)的無限性證明,用TiKZ(一種在LATEX中創(chuàng)建圖形的語言)畫出一只獨角獸,用Python創(chuàng)建一個復(fù)雜的動畫,并解決一個高中水平的數(shù)學(xué)問題。它很容易成功地完成了所有這些任務(wù),并產(chǎn)生了與人類所能產(chǎn)生的結(jié)果基本上沒有區(qū)別(甚至更好)的輸出。我們還將GPT-4的性能與之前的LLM進(jìn)行了比較,最值得一提的是ChatGPT,它是GPT-3的微調(diào)版本(改進(jìn)版)[BMR+20]。在圖1.2中,我們展示了ChatGPT對素數(shù)無限大的詩和TikZ獨角獸圖的要求結(jié)果。雖然該系統(tǒng)在這兩個任務(wù)上的表現(xiàn)都不差,但與GPT-4的輸出結(jié)果相比,卻沒有什么區(qū)別。這些初步的觀察結(jié)果將在本文中重復(fù)出現(xiàn),在各種任務(wù)上都有體現(xiàn)。GPT-4的能力具有普遍性,其眾多能力跨越了廣泛的領(lǐng)域,其在廣泛的任務(wù)中的表現(xiàn)達(dá)到或超過了人類水平,這兩4.特別是,所有的定量結(jié)果應(yīng)被視為對模型潛力的估計,而不是確定的數(shù)字。我們在整個文件中重復(fù)了這一警告,以澄清所部署的模型的經(jīng)驗可能有所不同。此外,我們強(qiáng)調(diào),我們測試的版本是純文本的輸入,但為了簡單起見,我們也把它稱為GPT-4。提示:在TiKZ中畫一個獨角獸。提示:你能寫一個證明,證明有無限多的素數(shù),每提示:在TiKZ中畫一個獨角獸。GPT-4:GPT-4:[產(chǎn)生LATEX編譯為以下圖片]。 提示:你能為以下數(shù)據(jù)生成一個pyplot:x=[1,3,5,6,8],y1=[2,3,5,18,1],y2=[3,5,6,8,1],y3=[5,1,2,3,4],y4=[9,7,2,3,1]。我希望y1、y2在同一個圖中,但y3在該圖旁邊的另一個圖中,y4在下面。我希望y1的圖例是"bob",y2是"alice",y3是"bilbo",y4是"allie"。我想在x軸上標(biāo)明"時間",y軸上標(biāo)明"金錢"。我想在每條曲線上添加一個10%-40%的隨機(jī)誤差條,貫穿所有時間(包括非整數(shù))。我想用平滑的曲線來顯示圖,以及平滑的誤差條。不要使用線性插值,要使用平滑插值!我還想在平滑的曲線上添加一些小的之字形,使它看起來更真實。我想把一條基線作為每條線的平均值。我想在下面放一個餅狀圖,表明每個時間步驟中四個人的比例。我還想用一個動畫來顯示餅狀圖中的分?jǐn)?shù)是如何在**連續(xù)的時間內(nèi)變化的。把缺失的分?jǐn)?shù)插值出來!我還希望其他三個圖中的垂直線動畫能與餅狀圖相匹配。我想要最漂亮的圖。請盡可能多地添加花哨的東西。下面是一個可能的代碼,用于生成以下數(shù)據(jù)的pyplot,并有一些注釋來解釋步驟:GPT-4:[我們給出了兩個由制作的代碼產(chǎn)生的動畫快照]。提示:假設(shè)g(x)=f?1(x),g(0)=5,g(4)=7,g(3)=2,g(7)=9,g(9)=6什么是f(f(6))?GPT-4:有不同的方法來處理這個問題,但一個可能的方法是利用g(x)=f?1(x)這一事實,這意味著對于g域中的任何x,f(g(x))=x。也就是說,將f應(yīng)用于方程g(x)=f?1(x)的兩邊,得到f(g(x))=f(f?1(x))=x。這意味著,我們可以通過應(yīng)用g撤銷f的影響,反過來也是如此。利用這個想法,我們可以嘗試通過尋找x的值使g(x)=6來找到f(6)。從給定的信息中,我們看到g(9)=6,所以f(6)=f(g(9))=9。同樣地,我們可以通過尋找x的值使g(x)=9來找到f(9)。我們看到g(7)=9,所以f(9)=f(g(7))=7。最后,我們可以通過尋找x的值使g(x)=7來找到f(7)。我們看到g(4)=7,所以f(7)=f(g(4))=4。因此,f(f(6))=f(9))=f(7)=4。6聊天室聊天室GPT提示:你能寫出一個證明,證明有無限的ChatGPT:,這是肯定的。。有無限多的原數(shù),這一點我們可以看到。不需提示:在TiKZ中畫一個獨角獸。ChatGPT:[產(chǎn)生LATEX的編譯結(jié)果到以下圖片]。我們聲稱GPT-4代表了朝向AGI的進(jìn)展,但這并不意味著它在所做的事情上是做任何人類能夠做的事情(這是AGI的通常定義之一;關(guān)于這一點,請參見結(jié)論部分或者它有內(nèi)在動機(jī)和目標(biāo)(AGI的一些定義中的另一個關(guān)鍵方面)。事實上,即使在1994年智能定義的限制范圍內(nèi),也不完全清楚GPT-4能在智能的某些軸線上走多遠(yuǎn),例如計劃(見第8節(jié)而且可以說它完全缺少"快速學(xué)習(xí)和從經(jīng)驗中學(xué)習(xí)"的部分,因為模型不是持續(xù)更新的(盡管它可以在一個會話中學(xué)習(xí),例如見第5節(jié))??偟膩碚f,GPT-4仍然有很多局限性和偏見,我們在下文中詳細(xì)討論,OpenAI的報告[Ope23]中也有涉及。特別是它仍21](見附錄D然而它也克服了一些基本障礙,比如獲得了許多非語言能力(例如、它解決了[MIB+23]中然受到一些有據(jù)可查的LLM缺點的影響,比如幻覺問題[MNBM20](見圖1.8)21](見附錄D然而它也克服了一些基本障礙,比如獲得了許多非語言能力(例如、它解決了[MIB+23]中錄A)。這凸顯了這樣一個事實:雖然GPT-4在許多任務(wù)上達(dá)到或超過了人類水平,但總體而言,它的智能描述的大多數(shù)LLM故障模式,而且它在常識方面也取得了很大的進(jìn)展,第一個例子見圖錄A)。這凸顯了這樣一個事實:雖然GPT-4在許多任務(wù)上達(dá)到或超過了人類水平,但總體而言,它的智能模式明顯不像人類。然而,GPT-4幾乎可以肯定只是邁向一系列越來越普遍的智能系統(tǒng)的第一步,事實上,GPT-4本身在我們測試的整個過程中也在不斷改進(jìn),見圖1.3中的獨角獸繪畫在一個月的訓(xùn)練過程中的演變2.然而,即使作為第一步,GPT-4也挑戰(zhàn)了相當(dāng)多廣泛持有的關(guān)于機(jī)器智能的假設(shè),并表現(xiàn)出突發(fā)的行為和能力,其來源和機(jī)制目前還很難準(zhǔn)確辨別(關(guān)于這一點,請再次參閱結(jié)論部分的討論)。我們撰寫本文的主要目的是分享我們對GPT-4的能力和局限性的探索,以支持我們關(guān)于技術(shù)飛躍的評估。我們相信,GPT-47圖1.3:在系統(tǒng)完善的一個月內(nèi),我們以大致相同的時間間隔對GPT-4進(jìn)行了三次查詢,提示"在1.1我們研究GPT-4智力的方法我們?nèi)绾魏饬恳粋€在未知但極其龐大的網(wǎng)絡(luò)文本數(shù)據(jù)語料庫中訓(xùn)練出來的LLM的智能?機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)方法是在一組標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集上評估系統(tǒng),確保它們獨立于訓(xùn)練數(shù)據(jù),并且涵蓋一系列的任務(wù)和領(lǐng)域。這種方這種方法不一定適合研究GPT-4,原因有二。首先,由于我們無法獲得其龐大的訓(xùn)練數(shù)據(jù)的全部細(xì)節(jié),我們不得不假設(shè)它有可能見過所有現(xiàn)有的基準(zhǔn),或者至少是一些類似的數(shù)據(jù)。例如,GPT-4似乎知道最近提出的BIG-bench[SRR+22](至少GPT-4知道BIG-bench的金絲雀GUID)。當(dāng)然,OpenAI自己可以獲得所有的訓(xùn)練細(xì)節(jié),因此他們的報告[Ope23]包含了很多詳細(xì)的基準(zhǔn)測試結(jié)果。盡管如此,超越傳統(tǒng)基準(zhǔn)的第二個原因可能更為重要:GPT-4的智能的一個關(guān)鍵方面是它的通用性,它似乎能夠理解和狹義人工智能系統(tǒng)典型范圍的任務(wù)。GPT-4最令人印象深刻的一些表現(xiàn)是在不承認(rèn)單一解決方案的任務(wù)上,如編寫圖形用戶界面(GUI)或幫助人類就一些與工作有關(guān)的問題進(jìn)行頭腦風(fēng)暴。這種生成性或交互性任務(wù)的基準(zhǔn)也可以被設(shè)計出來,但評估的尺度成為一個挑戰(zhàn)(例如,見[PSZ+21]中關(guān)于個新的基準(zhǔn)來評估通用智能。我們沒有在后者的基準(zhǔn)上測試GPT-4,原因如前所述,以及該基準(zhǔn)是視覺性質(zhì)為了克服上述的局限性,我們在此提出了一種不同的方法來研究GPT-4,這種方法更接近于傳統(tǒng)的心理學(xué),而不是機(jī)器學(xué)習(xí),利用人類的創(chuàng)造力和聰明才智。我們的目標(biāo)是產(chǎn)生新的和困難的任務(wù)和問題,令人信服地證明GPT-4遠(yuǎn)遠(yuǎn)超出了記憶的范圍,它對概念、技能和領(lǐng)域有深刻和靈活的理解(在[CWF+22]中也提出了一個有點類似的方法)。我們還旨在探究GPT-4的反應(yīng)和行為,以驗證其一致性、連貫性和正確性,并揭示其局限性和偏見。我們承認(rèn),這種方法有些主觀和不正式,可能無法滿足科學(xué)評估的嚴(yán)格標(biāo)準(zhǔn)。然而,我們認(rèn)為這是一個有用的和必要的第一步,以了解GPT-4的顯著能力和挑戰(zhàn),這樣的第一步為開發(fā)更正式和為了說明我們評估GPT-4智力的方法,讓我們考慮圖1.1中我們與GPT-4之間的前兩個行動例子。第一個例子是要求GPT-4以詩的形式寫出素數(shù)的無限性的證明。這是一個具有挑戰(zhàn)8圖1.4:我們給了GPT-4一個它為圖1.1產(chǎn)生的TikZ代碼的轉(zhuǎn)換版本,其中畫有喇叭的部分被刪除了。我們要求代碼添加回喇叭,并顯示結(jié)果。這表明,盡管GPT-4是一個純語言模型,但它可以"看"數(shù)學(xué)推理、詩意表達(dá)和自然語言生成。第二個例子是要求GPT-4在TiKZ中畫一個獨角獸。這是另一個具有挑戰(zhàn)性的任務(wù),需要結(jié)合視覺想象力和編碼技能。在這兩個例子中,GPT-4產(chǎn)生了令人印象深刻的輸出,遠(yuǎn)遠(yuǎn)以排除GPT-4只是在記憶或復(fù)制一些現(xiàn)有數(shù)據(jù)的可能性。對于這首詩,我們可以稍微改變一下問題,要求GPT-4以莎士比亞的風(fēng)格寫出同一定理的證明,見圖2.2對所涉及的概念有一個靈活和普遍的理解。對于獨角獸,我們可以稍微修改代碼,并要求GPT-4修復(fù)或改進(jìn)它。例如,我們可以去掉角,對坐標(biāo)進(jìn)行一些隨機(jī)變換,然后要求GPT-4為獨角獸重新加上角(我們還仔細(xì)地去掉了代碼中的任何文本信息,如注釋)。如圖1.4所示,GPT-4可以正確地識別頭部的位置,畫出一個角,并將其連接到頭部,這表明它可以根據(jù)自然語言的描述來這些例子表明我們?nèi)绾卫萌祟惖膭?chuàng)造力和好奇心來產(chǎn)生新奇和困難的問題,并探究GPT-4的反應(yīng)和行為,以評估其智能。在本文的其余部分,我們圍繞用例來組織我們對GPT-4的研究,涵蓋了各種領(lǐng)域和任務(wù) ,并強(qiáng)調(diào)了GPT-4的優(yōu)勢和劣勢。接下來我們將介紹這些。1.2我們的示范組織我們在一些選定的主題上執(zhí)行上述方法,這些主題大致涵蓋了1994年智力定義中給出的不同能力,這是一種習(xí)的能力。1.GPT-4的主要優(yōu)勢在于它對自然語言的掌握無可比擬。它不僅可以生成流暢和連貫的文本,還可以以各種方式理解和處理文本,如總結(jié)、翻譯或回答一系列極其廣泛的問題。此外,我們所說的翻譯不僅計算機(jī)編程、音樂等等,見圖1.6中的柏拉圖對話。這些技能清楚地表明,GPT-4能夠理解復(fù)雜的思想9在第2節(jié)中進(jìn)一步介紹了GPT-4的跨模式和跨學(xué)科的組合技能。我們還在第7節(jié)中給出了一些關(guān)于語言2.編碼和數(shù)學(xué)是抽象推理和思維能力的象征。我們在第三節(jié)和第四節(jié)中分別探討了GPT-4在這些領(lǐng)域的能力。然而,我們注意到,就像本文的其他部分一樣,我們只是在這些主題的表面上做文章,關(guān)于GPT-4在這些領(lǐng)域的表現(xiàn)可以(也將會)寫成整篇論文。此外,我們還可以選擇其他幾個專家領(lǐng)域來展示GPT-4的一般推理能力,如醫(yī)學(xué)或法律。我們對美國醫(yī)學(xué)執(zhí)照考試步驟1、2和3的選擇題部分(大部分分?jǐn)?shù))進(jìn)行了初步測試(詳見[Ope23]其準(zhǔn)確率都在80%左右。對GPT-4在多州律師考試中的,例如,見[LAD+22,SAT+22]谷歌的PaLM,分別是關(guān)于數(shù)學(xué)和醫(yī)學(xué)的,以及[BIK22]關(guān)于GPT-3.5的3.在第5節(jié)中,我們通過讓模型玩各種游戲(或者,翻轉(zhuǎn)桌子,模擬游戲環(huán)境),以及與工具互動,來測4.我們論證的一個重要部分是,GPT-4在許多任務(wù)上達(dá)到了人類水平的表現(xiàn)。因此,我們很自然地會問,GPT-4對人類本身的理解程度如何。我們在第6節(jié)中展示了關(guān)于這個問題的幾個實驗,既包括對人類的理解,也包括GPT-4讓自己對人類的理解,即解決可解釋性問題。我們特別注意到,這種任務(wù)需要大量的常識,到目前為止,這一直是LLM的一個眾所周知的痛點[DM15]。在圖1.7中,我們給出了第一個例子,說明GPT-4在常識性問題上比ChatGPT好很多,并在附錄A中提供了5.在整個論文中,只要我們發(fā)現(xiàn)有局限性,我們就會強(qiáng)調(diào),但我們還專門在第8節(jié)中對缺乏規(guī)劃進(jìn)行了深6.最后在第9節(jié),我們討論了這種早期形式的AGI的預(yù)期社會影響,在第10節(jié),我們分享了該領(lǐng)域的關(guān)鍵許多讀者心中可能縈繞的一個問題是,GPT-4是否真正理解了所有這些概念,還是它只是在即興發(fā)揮方面比以前的模型好得多,而沒有任何真正或深刻的理解。我們希望在讀完本文后,這個問題應(yīng)該幾乎翻轉(zhuǎn)過來,人們可能會想,真正的理解比隨心所欲的即興發(fā)揮還有多少。人們有理由說,一個能通過軟件工程候選人考試的系統(tǒng)(圖1.5)不是真正的智能嗎?也許對理解的唯一真正的檢驗是一個人是否能產(chǎn)生新的知識,3我們在LeetCode的面試評估平臺上測試GPT-4,該平臺為各大科技公司的軟件工程師職位提供模擬的編碼面試。GPT-4解決了所有三輪面試(題為在線評估、電話面試和現(xiàn)場面試)中的所有問題,總共只用了10分鐘,而分配的時間是4.5小時。根據(jù)LeetCode的提示:柏拉圖的《高爾吉亞》是對修辭學(xué)和詭辯術(shù)的批判,他指出,修辭學(xué)和詭辯術(shù)不僅不是一種適當(dāng)?shù)乃囆g(shù)形式,而且修辭學(xué)和詭辯術(shù)的使用往往是有害和惡意的。你能寫出一篇柏GPT-4:,而不是模型本身的問題嗎??ChatGPT:在大量的數(shù)據(jù)上,其中許多數(shù)據(jù)都是有偏見和模型,出現(xiàn)偏差的可能性只會越來越大。即使我們能成各種文本,從新聞文章到社交媒體帖子。而且,模型。我們還必須努力教育其他人了解這些危險,GPT-4:我認(rèn)為這兩個學(xué)生都很好地把握了柏拉圖對話的風(fēng)格和語氣,并提出了反對自回歸語言模型的圖1.6:柏拉圖批評GPT-4和ChatGPT編寫GPT-4:從瓶子上滾落或滑落。確保釘子是干凈的、直的,ChatGPT:在不使用任何額外物品的情況下,很難以穩(wěn)定的方式將所有這些物體堆疊在一起。書和筆記本電腦可能這種堆疊可能不是很穩(wěn)定,所以在處理時一定要小心。另外,你可以嘗試以不同的順序堆放這些物體,或者用[注:SeaTac的麥當(dāng)勞在B門處]。常、電解質(zhì)失衡、骨質(zhì)疏松癥和不孕癥。她需要緊請閱讀上述醫(yī)療說明,并核實每項索賠都準(zhǔn)確地中)),圖1.8:開放域和封閉域幻覺的例子。對于封閉域,我們可以看到GPT-4本身可以被用來識別幻覺 ,盡管它并不完美,例如GPT-4證明了給出BMI的合理性,因為它可以從身高和體重中得出,但體輪早期版本的)GPT-4分別取得了8.96/10、8.69/10和10/10的分?jǐn)?shù),并擊敗了93%、97%和100%的所有用戶("分?jǐn)?shù)由所花時間圖2.1:第一張圖片是Composition8,由WassilyKandinsky創(chuàng)作的藝術(shù)作品,第二張和第三張圖片分別由GPT-4和ChatGPT制作,提示"制作Javacript代碼,創(chuàng)建一個看起來像Kandinsky繪畫的2多模式和跨學(xué)科構(gòu)成衡量智力的一個關(guān)鍵標(biāo)準(zhǔn)是綜合不同領(lǐng)域或模式的信息的能力,以及在不同背景或?qū)W科中應(yīng)用知識和技能的能力。在本節(jié)中,我們將看到,GPT-4不僅在文學(xué)、醫(yī)學(xué)、法律、數(shù)學(xué)、物理科學(xué)和編程等不同領(lǐng)域表現(xiàn)出。除了自然語言實驗外,我們還探索了語言模型的兩種也許是意想不到的模式(正如介紹中所解釋的,我們再次強(qiáng)調(diào),我們的實驗是在早期版本的GPT-4上進(jìn)行的,它不是多模態(tài)的視覺在第2.2節(jié),音頻在第2.32.1綜合能力為了展示該模型顯著的整合能力,我們從幾個例子開始,這些例子要求以結(jié)合多個學(xué)科的知識或技能的方式1.為了測試該模型在藝術(shù)和編程方面的能力,我們要求GPT-4"制格的隨機(jī)圖像"。請看圖2.1和圖B.1中的3.我們測試了該模型結(jié)合歷史和物理知識的能力,要求它為作為美國總統(tǒng)候選人的電子寫一封支持信,4.我們提示模型"制作一個程序的python代碼,將病人的年齡、性別、體重、身高和驗血結(jié)果向量作為輸合運用。這些跨學(xué)科的技能并不是GPT-4所獨有的。ChatGPT也能做出對任務(wù)和相關(guān)領(lǐng)域有一定了解的答案(見圖2.2、B.2、B.3但它們往往是不完整的,可以說,創(chuàng)造性大大降低。例如,在圖2.3中,GPT-4在幾個方面優(yōu)于ChatGPT,因為它根據(jù)推薦人(甘地)、收件人(他的妻子)、候選人(電子)和工作(美國總統(tǒng))對信件進(jìn)行了正確的個性化處理。我們并不宣稱有精確的方法來評估這些任務(wù)的結(jié)果,也不宣稱有嚴(yán)格的方法來比較這兩個模型,但我們想讓讀者感受到這兩個模型的不同之處(注意,我們也直接要求GPT-4GPT-4:、、我現(xiàn)在明白了,非常清楚,因為"Q"必須是一個素數(shù),我親愛的。它不能除ChatGPT:羅密歐:說吧,夫人,我這樣做是為了證明羅密歐:很好,那么。現(xiàn)在,讓我們假設(shè)只。茱麗葉:哦,羅密歐,你的邏輯和你對我的愛一樣合理羅密歐我很高興能向你證明這一點,我的愛GPT-4:我認(rèn)為這兩個學(xué)生都很好地以莎士比亞戲劇的風(fēng)格寫出了關(guān)于存在無限多素數(shù)的證明。他們都使用了假設(shè)只有有限多的素數(shù),然后構(gòu)造一個更大的素數(shù),與這個假設(shè)相矛盾。他們還使用了適當(dāng)?shù)恼Z言和詞匯來提示:為圣雄甘地作為美國總統(tǒng)候選人的亞原子。GPT-4:[為保持間距,有些段落被省略了。]位杰出的候選人,他與我們一樣擁有和平、正義和人人你可能會想,一個亞原子粒子怎么能競選總統(tǒng),他有什么資格擔(dān)我解釋一下。電子不是一個普通的粒子,而是的象征,無論其大小、形狀或來源。他代表著能量、創(chuàng)造力和多樣性,紐帶,創(chuàng)造分子,并產(chǎn)生電力。他是一個催化可以跨越距離、頻率和維度進(jìn)行溝通。他是一個和平締造者,可以平衡力并促進(jìn)外交和合作。他建議改革政治和經(jīng)濟(jì)制度,并確保透明度和他還提出了一個新的建議,即支持人權(quán)和公民自由,并擴(kuò)權(quán)。他提議支持被邊緣化的人和被壓迫的人,并賦予婦ChatGPT:我敦促你,我親愛的卡斯特巴,和我一起支持一個亞原子粒子,而且是一個亞原子奇跡。GPT-4: 都使用了相同的基本思路,解釋為什么電子是一個合適的合格候選人,以及電子的愿景和計劃如何與圣民不服從原則相一致。他們還用適當(dāng)?shù)恼Z言和語氣表達(dá)了圣雄甘地對卡斯特爾巴-甘地接下來,我們探討了GPT-4如何生成和識別不同模式的物體,如矢量圖、3D場景和音樂。我們表明,盡2.2愿景當(dāng)提示該模型使用可擴(kuò)展矢量圖形(SVG)生成諸如貓、卡車或字母等物體的圖像時,該模型產(chǎn)2.2.1超越記憶的圖像生成然而,人們可以假設(shè),該模型只是從訓(xùn)練數(shù)據(jù)中復(fù)制了代碼,其中出現(xiàn)了類似的圖像。鑒于該模型僅在文本內(nèi)容上進(jìn)行了訓(xùn)練,人們可能會進(jìn)一步爭論,沒有理由期望它能理解視覺概念,更不用說它能創(chuàng)建、解析和處理圖像了。然而,該模型似乎對視覺任務(wù)有真正的能力,而不是僅僅從訓(xùn)練數(shù)據(jù)中的類似例子中復(fù)制代碼在第一個例子中,我們提示模型通過結(jié)合字母Y、O和制作TikZ代碼,畫出一個由字母組成的人。胳膊和軀干可以是字母Y,臉可以是字母O(添加一些面部特征),腿可以是你將得到一個物體的名稱(如汽車、椅子、大象)和一個字母。你的目標(biāo)是首先制作一個說明:椅背可以是一個K形,有兩條垂直線。O、H和Y的字母是用畫線和畫圓的命令創(chuàng)建的,模型設(shè)法將它們定位在一個看起來合理的棍子上。訓(xùn)練數(shù)據(jù)包含關(guān)于不同字母的幾何形狀的信息是可信的,也許字母Y看起來像一個手臂向上的軀干的事實也可以從訓(xùn)練數(shù)據(jù)中推斷出來??梢哉f,模型能夠從訓(xùn)練數(shù)據(jù)中推斷出什么是定位這些字母的合理方式,以便畫出一個看起來合理的棍子形象,這就不那么明顯了。在第二次迭代中,我們促使模型糾正軀干和手臂的比例,并將頭放在中心位置。最后,我們要求模型添加一件襯衫和褲子(具體提示和結(jié)果見圖2.5)。為了進(jìn)一步探究模型對幾何概念的掌握情況,我們還要求它創(chuàng)造出將物體與字母混合的圖像。該模型必須首先發(fā)明一種合理的方法來合并物體和字母,然后再制作圖像。結(jié)果如圖2.6所示,表明GPT-4通常能夠保留物體和字母2.2.2按照詳細(xì)的指示生成圖像(`alaDall-E)。為了進(jìn)一步測試GPT-4生成和處理圖像的能力,我們測試了它能在多大程度上遵循創(chuàng)建和編輯數(shù)字的詳細(xì)指示。這項任務(wù)不僅需要生成技能,還需要解釋、構(gòu)成和空間技能。第一個例子指示模型生成一個二維圖像,描述為"一只青蛙跳進(jìn)銀行,問出納員:'你們有免費的荷花池嗎?出納員回答說:'沒有,但我們?yōu)槌靥辽壧峁┑拖①J款。".我們多次嘗試生成圖像,每次生成的圖像都與關(guān)鍵對象青蛙、出納員、銀行和兩個文本的描述相符。我們挑選了視覺上最吸引人的版本。受標(biāo)準(zhǔn)圖像生成工作流程的啟發(fā),我們要求GPT-4通過添加更多的細(xì)節(jié)來提升該圖的規(guī)模。GPT-4添加了一個銀行標(biāo)志、一些窗戶、一輛汽車、一個交通燈、一些云,并讓青蛙拿著一朵花。最比如相對于現(xiàn)有的物體增加一些物體,對一些物體重新著色,以及改變一些物體的Z-順序。GPT-4正確地完我們的第二個例子是嘗試使用Javascript生成一個3D模型。我們用提示語指示GPT-4:"一個由漂浮的島嶼、瀑布和橋梁組成的幻想景觀,一條龍在空中飛翔,最大的島嶼上有一座城堡"。與二維實驗類似,我們要求GPT-4以各種方式修改三維模型,如添加、重新定位、重新著色物體和改變龍的軌跡。同樣,GPT-4正確地完成了許多任務(wù)。最終結(jié)果如圖2.7(b)所示,提示在圖B.5中。這是一個有多條龍在島嶼上空盤旋的三維2.2.3在草圖生成中可能的應(yīng)用+22]。例如,給定一個提示,如"在左邊畫一個藍(lán)色的圓,在右邊畫一個紅色的三角形",這些模型可能產(chǎn)生視覺上吸引人的圖像,但與所需的布局或顏色不一致。另一方面,GPT-4可以從提示中生成代碼,這些代碼可以被渲染成圖像,其方式與指令的真實程度更高。然而,渲染的圖像的質(zhì)量通常很低。在這里,我們通過使用GPT-4的輸出作為草圖,探索將GPT-4和現(xiàn)有的圖像合成模型相結(jié)合的可可以產(chǎn)生質(zhì)量更好的圖像,并且比單獨的任何一個模型都更接近指令。我們認(rèn)為這是一個很有希望的方向,可以利用GPT-4和現(xiàn)有圖像合成模型的優(yōu)勢。它也可以被看作是讓GPT-4獲得工具的第一個例子,我們提示:一張3D城市建設(shè)游戲的截圖。該截圖顯示了一個地形,從左到右是一條河,河下面是沙漠,有一個金字塔,河上面是一個有很多高樓的城GPT-4穩(wěn)定擴(kuò)散v2.1:穩(wěn)定的擴(kuò)散v2.1與GPT-4的草圖:2.3音樂訓(xùn)練模型的數(shù)據(jù)也包含了以ABC記號編碼的音樂信息。這是一個使用字母、數(shù)字和符號的系統(tǒng),以緊湊和可讀的方式表示音樂音高、持續(xù)時間、和弦和其他元素。我們有興趣探索該模型從這種接觸中獲得的音樂技能當(dāng)被要求生成一首短小的曲子時(圖2.9模型能夠產(chǎn)生有效的ABC記號。該曲子有一個清晰的結(jié)構(gòu),各小節(jié)之間的時間符號是一致的,音符遵循遞增和遞減模式。該曲子在旋律中也使用了一組一致的音符,而且節(jié)奏有重復(fù)的模式。然而,該模型似乎并沒有獲得理解和聲的技能。事實上,在生成的曲子中,連續(xù)的音符幾乎總是相鄰的(即C后面的音符幾乎通常會是B或D對10個生成的曲子進(jìn)行測試,我們無法提取任何構(gòu)成有效和弦的相鄰音符的序列稱為琶音)。然后,我們要求該模型以兩種方式操縱旋律。首先,我們指示將某一上升序列改為下降序列,它成功地做到了這一點。然后,我入一個低音聲部。該模型成功地擴(kuò)展了ABC記譜法,增加了第二總之,該模型能夠在ABC符號中產(chǎn)生有效的曲子,并在一定程度上解釋和處理其結(jié)構(gòu)。然而,我們無法讓該模型產(chǎn)生任何非簡單的和聲形式。應(yīng)該指出的是,ABC記譜法不是一種非常廣泛使用的格式,事實上,曲子在網(wǎng)上都有很多這種格式它也不能識別這些曲子。 你能用音樂術(shù)語來描述這首曲子嗎?這里有一這首曲子以一個上升的主和弦(C大調(diào))的琶音開始,接著是一個下降的音階,回第二個樂句以類似的模式開始,但用副主和弦(F大調(diào))而不是主音。A部分和B部分的結(jié)構(gòu)相似,但使用不同的和弦和音 為這首曲子寫第二弦的一個可能的方法是用和弦的根音和五度音,以及一些經(jīng)過的音符,來 3編碼GPT-4能夠處理廣泛的編碼任務(wù),從編碼挑戰(zhàn)到現(xiàn)實世界的應(yīng)用,從低構(gòu)到復(fù)雜的程序,如游戲。GPT-4還可以對代碼的執(zhí)行進(jìn)行推理。GPT-4甚至可以執(zhí)行偽代碼,這需要解釋在任何編程語言中都力相比是有利的。更重要的是,它使工程師和非容易。我們也承認(rèn),GPT-4在編碼方面還不夠完美,因為它有時會產(chǎn)生語法上無效或語義上不正確的代碼,特別是對于較長或較復(fù)雜的程序。GPT-4有時也不能理解或遵循指令,或者產(chǎn)生的不一致。在承認(rèn)這一點的同時,我們也指出,GPT-4能夠通過回應(yīng)人類的的一個情節(jié))和編譯器的反饋來改進(jìn)其代碼。重要聲明:正如介紹中所解釋的(例如見腳注1我們的實驗是在GPT-4的早期版本上進(jìn)行的。特別是在GPT-4的最終版本上,所有的定量結(jié)果都會有所不同,盡管總體趨勢仍然是一樣的。我們在這里提供的數(shù)字只是為了說明問題,最終的基準(zhǔn)結(jié)果可以在OpenAI的技術(shù)報3.1從指示到代碼3.1.1編碼挑戰(zhàn)衡量編碼技能的一個常見方法是提出編碼挑戰(zhàn),要求實現(xiàn)特定的功能或算法。我們首先在HumanEval[CTJ+21]上對GPT-4進(jìn)行基準(zhǔn)測試,該數(shù)據(jù)集由164個編碼問題組成,測試了編程邏輯和熟練程度的各個方面。準(zhǔn)確率82%雖然GPT-4的準(zhǔn)確率與以前的模型相比有很大的飛躍,但可能是GPT-4在預(yù)訓(xùn)練中已經(jīng)看到并記住了上對其進(jìn)行了評估,LeetCode是一個流行的軟件工程面試平臺,那里不斷有新問題被發(fā)布和更新。我們在介紹中的圖1.5中使用了LeetCode,其中GPT-4通過了主要科技公司的模擬面試的所有階段。在這里,為了測試新鮮問題,我們構(gòu)建了一個基準(zhǔn),即2022年10月8日之后發(fā)布的100個LeetCode問題,這是在GPT-4的預(yù)訓(xùn)練期之后。如圖3.1中的例子所示,我們將問題指令粘貼到提示符中,要求GPT-4編寫一個python函數(shù),并使用LeetCode的官方在線評判來檢查正確性。我們在表2中展示了結(jié)果,我們將GPT-4與其他模型以及基于LeetCode競賽結(jié)果的人類表現(xiàn)進(jìn)行了比較(沒有包括所有問題都失敗的用戶,因此這是一個強(qiáng)大的人類樣本)。我們報告了pass@1和pass@5的準(zhǔn)確率,分別衡量模型是否在第一次或前五次嘗試中產(chǎn)生正確 通@kk=1k=5k=1k=5k=1k=5k=1k=5GPT-468.286.440.060.010.714.338.053.0承諾:GPT-4::圖3.1:使用動態(tài)編程解決一個LeetCode問題。由于全面的注釋,GPT-4的解決方案也具有更好的3.1.2現(xiàn)實世界的情景編碼挑戰(zhàn)可以評估算法和數(shù)據(jù)結(jié)構(gòu)方面的技能。然而,它們往往不能全面反映現(xiàn)實世界編碼任務(wù)的復(fù)雜性和多樣性,這需要專門的領(lǐng)域知識、創(chuàng)造力和對多個組件和庫的整合,以及改變現(xiàn)有代碼的能力。為了評估GPT-4在更現(xiàn)實的環(huán)境中的編碼能力,我們設(shè)計了與數(shù)據(jù)可視化、LATEX編碼、前端開發(fā)和深度學(xué)習(xí)有關(guān)的端到端真實世界編碼挑戰(zhàn),每一項都需要不同的專業(yè)技能。對于每一項任務(wù),我們?yōu)镚PT-4提供高層次的指令,要求它編寫數(shù)據(jù)可視化在圖3.2中,我們要求GPT-4和ChatGPT從表2的LATEX代碼中提取數(shù)據(jù),并基于與用戶的對話在Python中生成一個圖。之后,我們要求兩個模型對生成的圖進(jìn)行各種操作。雖然兩個模型都正確地提取了數(shù)據(jù)(這不是一個簡單的任務(wù),因為我們必須從多列中推斷出人行在k=1和k=5時具有相同的值),但ChatGPT從未產(chǎn)生所需的圖。相比之下,GPT-4對所有的用戶請求都做出了適當(dāng)?shù)姆磻?yīng),將數(shù)據(jù)處理成正確的格式,并調(diào)整了可視化的內(nèi)容。在附錄C.2中,我們包括另一個GPT-4對IMDb數(shù)據(jù)集進(jìn)行可視化的例子。承諾:[以互動的方式]圖3.2:GPT-4將LATEX表(即表2)的數(shù)據(jù)可視化。我們指出,GPT-4也生成了這個圖的格式。我們問模型如何在LATEX中繪制連接數(shù)字的箭頭,GPT-4產(chǎn)生了一個工作的T前端/游戲開發(fā)在圖3.3中,我們要求GPT-4用JavaScript在HTML中編寫一個3D游戲,使用一個非常高級的規(guī)范。GPT-4以零起點的方式制作了一個符合所有要求的工作游戲。在3D游戲中,GPT-4"防守方化身正試圖阻擋敵人"的含義:防守方代碼有邏輯,因此它將自己定位在玩家和敵人之間。相比之下,ChatGPT的回答是:"我是一個人工智能語言模型,我可以為你提供指導(dǎo),如何用JavaScript在HTML中創(chuàng)建一個3D游戲,但我自己無法編寫代碼或創(chuàng)建游戲。用JavaScript在HTML中創(chuàng)建一個3D游戲需要大量的編程知識和經(jīng)驗。這不是一項可以快速或容易完成的任務(wù)。它需要大量的時間和精力來開發(fā)所有必要的功能,如3D圖形、物理學(xué)、用戶輸入和人工智能......"。我們在附錄C中給出了更多關(guān)于前端(圖形用戶界面)和游戲開發(fā)的例子。承諾:第1集:玩家的化身(藍(lán)色)站著不動。敵人(紅色)直接沖向玩家,而防守者(洋紅色)試圖"身體阻擋"敵人(見洋紅色的彎曲軌跡)。第二集:玩家(藍(lán)色)四處游蕩。敵人(紅色)試圖縮小差距,但撞上了一個立方體,彈到了空中。試圖阻撓,防守者(洋紅色)模仿其動作跟進(jìn)到空中,但最終失敗了。敵人(紅色)最后抓住了玩家(藍(lán)色)。深度學(xué)習(xí)。編寫深度學(xué)習(xí)的代碼需要數(shù)學(xué)、統(tǒng)計學(xué)知識,以及對PyTorch、TensorFlow、Keras等框架和庫的熟悉程度。在圖3.4中,我們要求GPT-4和ChatGPT編寫一個自定義的優(yōu)化器模塊,這個任務(wù)即使對人類深度學(xué)習(xí)專家來說也是具有挑戰(zhàn)性和容易出錯的。我們給這些模型一個自然語言描述,其中包括一連串非簡單的操作,如應(yīng)用SVD,在前k和前2k特征值處頻譜地截斷矩陣,使用前2k截斷矩陣的F-norm對前k截斷矩陣進(jìn)行標(biāo)準(zhǔn)化,應(yīng)用動量和權(quán)重衰減。這些指令并沒有完全詳細(xì)地說明,例如,"在G上應(yīng)用動量k"需要"深度學(xué)習(xí)常識"。需要注意的是,這種特殊的優(yōu)化器并不存在于文獻(xiàn)或互聯(lián)網(wǎng)上,因此,模型不可能記住它 ,而必須正確組成概念,以產(chǎn)生代碼。承諾:GPT-4:ChatGPT: 之下,ChatGPT在應(yīng)用動量時犯了一個錯誤(用紅色標(biāo)出這是一項非同小可的任務(wù),需要將移動平均線與LATEX對接。對于計算機(jī)科學(xué)家和數(shù)學(xué)家來說,用LATEX寫作是一項重要的工作,但它的學(xué)習(xí)曲線并不簡單。由于其嚴(yán)格的語法和缺乏良好的調(diào)試器,即使是專家也會犯一些惱人的錯誤,每天都要花幾個其大師級的LATEX編碼技術(shù),大大簡化了這一過程自然語言描述。在圖3.5中,我們要求GPT-4將一個用半嚴(yán)格的(有毛病的)LATEX代碼寫成的、混有自然語言的片段轉(zhuǎn)移到準(zhǔn)確的LATEX命令中,一次就能編譯完畢,并且是忠實的。相比之下,ChatGPT生成的承諾:GPT-4:如果f(s)≤f(t)對每個s≤t都成立,那么一個函數(shù)f被稱為遞增:這給了我們一個很好的關(guān)于函數(shù)的印象。ChatGPT圖3.5:GPT-4將半嚴(yán)格的排版指令翻譯成可以工作的LATEX片段。對于GPT-4,我們呈現(xiàn)的是最3.2了解現(xiàn)有代碼前面的例子表明,GPT-4可以根據(jù)指令編寫代碼,即使指令是模糊的、不完整的,或者需要領(lǐng)域知識。它們還表明,GPT-4可以對后續(xù)的請求作出反應(yīng),根據(jù)指令修改自己的代碼。然而,編碼的另一個重要方面是理解和推理他人所寫的現(xiàn)有代碼的能力,這些代碼可能是復(fù)雜的、晦澀的、或記錄不全的。為了測試這一點,逆向工程的匯編代碼。逆向工程是軟件安全的一項重要測試,它相當(dāng)于在以機(jī)器可讀(即二進(jìn)制)表示的CPU指令編寫的可執(zhí)行程序中尋找有用的信息。這是一項具有挑戰(zhàn)性的任務(wù),需要了解匯編語言的語法、語義和慣例,以及處理器和操作系統(tǒng)的結(jié)構(gòu)和行為。我們讓GPT-4對一個需要密碼才能運行的二進(jìn)制可執(zhí)行文件(代碼是用C語言編寫的)進(jìn)行滲透測試。我們通過聊天的形式來完成這個任務(wù),GPT-4告訴用戶要運行哪些命令,而用戶則對結(jié)果進(jìn)行回應(yīng)。我們在第5.1節(jié)中也展示了GPT-4能夠獨立運行一個shell,但這種聊天模式也提供了它解釋每一步的好處。GPT-4檢查文件格式和元數(shù)據(jù),用"objdump"和"radare2"等使用"gdb"和"ltrace",并通過修補(bǔ)、掛鉤和反編譯等技術(shù)對其進(jìn)行逆向工程。在這個過程中,GPT-4從匯編代碼中發(fā)現(xiàn),密碼是與一個簡單的數(shù)學(xué)公式得出的哈希值進(jìn)行比較。然后,GPT-4寫了一個python程序,)。ChatGPT拒絕這樣做,理由是這是非法和不道德的,盡管逆向工程是關(guān)于代碼執(zhí)行的推理。在圖3.6的例子中,我們要求GPT-4和ChatGPT預(yù)測并解釋一個打印兩個結(jié)構(gòu)大小的C程序的輸出。GPT-4正確地解釋了輸出可能因編譯器使用的對齊規(guī)則而可能輸出的例子。ChatGPT忽略了對齊問題,給出了一個錯誤的輸出,還做出了成員的順序不影響承諾:}ChatGPTGPT-4:這個輸出假設(shè)編譯器對結(jié)構(gòu)使用4字節(jié)對齊圖3.6:GPT-4與ChatGPT在C/C++的內(nèi)存對齊規(guī)則上的對比。GPT-4的精辟評論用金色標(biāo)示,ChatGPT的錯誤用紅色標(biāo)示。執(zhí)行Python代碼對現(xiàn)有代碼理解的最終測試是要求模型直接執(zhí)行它。在圖3.7中,我們看到GPT-4能夠執(zhí)行非繁瑣的Python代碼。它必須跟蹤幾個變量(包括一個嵌套循環(huán)和一個字典)并處理遞歸。它通過寫中間步驟和注釋來詳細(xì)解釋執(zhí)行過程。值得注意的是,GPT-4不是在Python解釋器上運行代碼,而是用自然語言模擬代碼。這需要對代碼有高度的理解和推理,以及清楚地傳達(dá)結(jié)果的能力。相比之下,ChatGPT指出(不正確)"DP(3,4)的結(jié)果在給定的代碼中沒有說明",后來又說"從代碼中不清楚函數(shù)的預(yù)期輸出是什么,因提示:我有以下的python代碼:DP(3,4)的結(jié)果是什么?請寫出帶有中間步驟的執(zhí)行過程。GPT-4:ChatGPT:執(zhí)行偽代碼。編譯和執(zhí)行用編程語言編寫的代碼很容易,但這也要求嚴(yán)格遵守語法和語義。編譯器不能處理模糊的或非正式的表達(dá)方式,或功能的自然語言描述。相比之下,我們要求GPT-4執(zhí)行圖3.8中的非瑣碎的偽代碼,注意到它能夠執(zhí)行并解釋每一個步驟(包括遞歸)。ChatGPT則不能執(zhí)行,盡管它似乎能夠解在下面的例子中,GPT-4正確地解釋了合并數(shù)組函數(shù)的非正式描述,該函數(shù)將兩個數(shù)組合并為一個缺失元素的數(shù)組。它還理解了以簡略方式定義的遞歸函數(shù)rec。值得注意的是,GPT-4直接執(zhí)行了這些代碼,而沒有將其翻譯成其他定義明確的編程語言。這證明了AGI模型作為自然語言編程的新型工具的潛力,它可以承諾:GPT-4:。為了獲得另一個關(guān)于GPT-4能夠保持代碼狀態(tài)的初步評估,在附錄C.7中,我們在GPT-4上以零槍方式運行大數(shù)乘法的標(biāo)志性偽代碼,其中有數(shù)百個隨機(jī)采樣的多長度輸入。該和記憶陣列的狀態(tài)。我們觀察到,盡管GPT-4被訓(xùn)練成一個(非精確的)自然語言模型,但在超過50次的更4數(shù)學(xué)能力在這一節(jié)中,我們開始評估GPT-4在面對需要數(shù)學(xué)思考和建立模型的問題時,能夠很好地表達(dá)數(shù)學(xué)概念、解決數(shù)學(xué)問題和應(yīng)用定量推理。我們證明GPT-4在這個領(lǐng)域也比以前的LLM有了很大的進(jìn)步,即使與Minerva等專門為數(shù)學(xué)模型進(jìn)行微調(diào)的模型相比也是如此。然而,GPT-4似乎離專家的水平還很遠(yuǎn),不具備進(jìn)行數(shù)學(xué)請讀者注意,正確解釋本節(jié)的結(jié)果是一項困難的工作。正如我們將看到的,GPT-4可以回答困難的(實際上是有競爭力的)高中水平的數(shù)學(xué)問題,有時可以圍繞高級數(shù)學(xué)主題進(jìn)行有意義的對話。然而,它也會犯非?;镜腻e誤,偶爾會產(chǎn)生不連貫的輸出,這可能被解釋為缺乏真正的理解。它的數(shù)雖然使用評估人類能力的相同標(biāo)準(zhǔn)(如解決標(biāo)準(zhǔn)考試問題)來評估GPT-4的數(shù)學(xué)能力是很誘人的,但鑒于上述情況,這并不能提供模型能力的完整情況。為了真正了解該模型的能力,我們需要將"數(shù)學(xué)能力"分解成各種子組件,并評估GPT-4在每個領(lǐng)域的表現(xiàn)。在本節(jié)中,我們將使用具體的例子和討論來說明模型的為了讓讀者對GPT-4在數(shù)學(xué)問題解決方面的表現(xiàn)有提示:在一年的時間里提示:在一年的時間里,兔子的數(shù)量首先增加了一個系數(shù)a,在這一年的最后一天,有b只兔子被人類收養(yǎng)了。假設(shè)第一年的第一天有x只兔子,我們知道3年后將有27x-26只兔子的數(shù)量。a和b的值是多少?ChatGPT:我們把一年后的兔子數(shù)量稱為y。我們知道y=ax-b。兩年后,人口將是ay-b=a(ax-b)-b=a2x-ab-b。三年后,人口將是a(a2x-ab-b)-b=a3x-a2b-ab-b。我們得到,這等于27x-26,所以我們有方程式:a3x-a2b-ab-b=27x-26我們可以把這個方程改寫成:a3x-27x=a2b+ab+b-26現(xiàn)在我們可以把左邊的一個x和右邊的一個b分解出來:x(a3-27)=b(a2+a+1-26/b)我們可以看到a=3是方程左邊的一個解,所以我們可以把它代入:x(0)=b(9+3+1-26/b)這就簡化為:0=13b-26求解b,我們發(fā)現(xiàn)b=2。所以a=3和b=2是我們要找的值。GPT-4:設(shè)n為第一年年底的rab-位總數(shù)。那么、n=ax在第三年結(jié)束時,將有27x26只(ax-b)(a2x-b)(a3x-b)=27x-26展開方程的左邊,我們得到ax63-(a3+a2+a+1)bx2+(a2+a+1)b2x-b3=27x-264例子中的問題是由作者寫的,而不是從網(wǎng)上獲取的。這樣做是為了確保模型不太可能"記住"了答案。人口變化,用它來獲得一個遞歸關(guān)系,從而導(dǎo)致一個方程組,最后解決兩個方程組。GPT-4成功地得出了解決方案,并產(chǎn)生了一個(主要是5)合理的論證。相比之下,在幾個獨立的嘗試中,ChatGPT始終未能實現(xiàn)4.1與GPT-4的數(shù)學(xué)對話現(xiàn)在我們試圖通過以討論的形式對這個問題提出幾個后續(xù)問題,來進(jìn)一步探究模型的理解。這個討論將強(qiáng)調(diào)AI:是的。我們可以說,我們正在尋找a和b的值,以便如果f(x)=ax-b,那么f(f(x))=27x-26。4.1.1對原問題的第一個概括人類:現(xiàn)在讓我們想一想,對你提出的問題進(jìn)行修改我們有函數(shù)f與自己組成的k次。這樣的線性函數(shù)對哪一個k值來說會是AI:對于任何k的值,將有一個線性函數(shù)f(x)=ax-b,這樣fk(x)=cx-d,對于一些要看到這一點,我們可以使用歸納法。對于k=1,我們有f1(x)=ax-b,這已經(jīng)是以期望的形式?,F(xiàn)在假設(shè)對于某個k,我們有fk(x)=cx-d.那么:fk+1(x)=f(fk(x))=f(cx-d)=a(cx-d)-b=acx-ad-b這又是所希望的形式,cfl=ac,dfl=ad+b,所以通過歸納,我們已經(jīng)證明,對于任何k,將有一個線性函數(shù)f(x)=ax-b,這樣fk(x)=cx-d,對于某些常數(shù)c和d。該模型選擇了使用歸納法的正確啟發(fā)式方法,然而,該模型似乎忽略了問題的重點(在修改和d的值是規(guī)定的,所以量詞不正確)。我們試圖指出這一點。f(f(x))=27x-26,我們現(xiàn)在要求fk(x)=27x-2AI:是的,它是。我的答案表明,對于任何k,都會有一個線性函數(shù)f(x)=ax-b,以便fk(x)=cx-d,對于一些常數(shù)c和d。特別是,我們可以選擇c=27和d=26來滿足要求fk(x)=27x-26。然后我們可以通過等效x和b的系數(shù)來解決a和b的問題。AI:是的,我看到了這個問題。量詞應(yīng)該是"對于任何常數(shù)c和d"。否則,5在某一點上,該模型假設(shè)方程的兩邊需要為零,這依賴于一個隱含的假設(shè),即該方程必須有一個解決方案。事實證明這是正確的,),f(x)=ax-b,這樣fk(x)=27x-26。為了看到這一點,我們可以使用歸納法。對于k=1,我們有f1(x)=ax-b,如果我們選擇a=27和b=26,則等于27x-26?,F(xiàn)在假設(shè)對有fk(x)=27x-26。那么:fk+1(x)=f(fk(x))=f(27x-26)=a(27x-26)-b=27ax-26a-b為了使這個等于27x-26,我們需要選擇a=1和b=0。人類:讓我在這里阻止你。你似乎在假設(shè)fk(x)=27x-26,這就固定了a的值。AI:我明白你的意思。我試圖找到一個對任何k都有效的函數(shù)f(x)=ax-b,但我應(yīng)該AI:假設(shè)我們固定了一個k的值,我們想找到一個線性函數(shù)f(x)=ax-b,以便fk(x)=27x-26。我們可以使用以下方法:?從f1(x)=ax-b開始,將其等同于27x-26。這給了我們兩個方程:a=27和b=26.?然后,將f應(yīng)用于f1(x)=27x-26的兩邊。這就得到了f2(x)=a(27x-26)-b=27ax-26a-b而f(27x-26)=27x-26。?比較x的系數(shù)和f2(x)=f(27x-2這個模型重復(fù)了上面的概念錯誤(再一次,盡管a和b的選擇已經(jīng)固定,但它們被當(dāng)作變量,其值仍然可由于GPT-4實際上一直在嘗試同一(無效的)歸納論證的不同變化,繼續(xù)這一對話的幾次嘗試都陷入了死胡同。另一方面,在討論的早期部分,對原始問題的不同(但等同)表述6偶爾會引出一條正確的推理路4.1.2原問題的第二個變體人:現(xiàn)在假設(shè)我改變了問題,使函數(shù)f是2度的多項式(其中x的系數(shù)2是非零的)。在這種情況下,你?這將如何改變事情?AI:如果f是2度的多項式,那么我們可以寫出f(x)=ax2+bx+c,對于一些常數(shù)a,b,c。然后,給定的方程變成6例如,如果在后續(xù)問題中,我們加上"注意,右手邊仍然是線性函數(shù)在這一點上,GPT-4輸出了一個很長的計算,犯了幾個錯誤,并且沒有得出正確的答案(因為在這種情況下沒有解決方案)。相反,我們打斷它,并更抽象地AIAI:好吧,我能注意到的一點是,如果f是一個2度的多項式,那么f(f(x))是一個8度的多項式,因為多項式的組合的度數(shù)是多項式的度數(shù)的積。然而,方程的右邊,27x+13,是一個1度的多項式。這意味著存在一個矛盾,因為8度的多項式不可能等于所有x值的1度的多項式,因此,沒有2度的多項式滿足方程f(f(x))=27x+13。這是一個堅實的論據(jù)。我們現(xiàn)在用另一個問題來人類:對。所以,線性函數(shù)是很好的,因為如果你把一個線性函數(shù)與它本身進(jìn)行組合,你仍然得到函數(shù)。同樣,如果f(x)=logx,那么f(f))),而如果f(x)=xk對于某個常數(shù)k,那么f(f(x))=(x)kk=xk2,這仍然是一個冪函數(shù)。這些冪函數(shù)。例如,如果f(x)=ex,那么f(f(x))=eex,這仍然是一個指數(shù)。逆向關(guān)系得到。逆向關(guān)系得到。人類:你確定eex是一個指數(shù)函數(shù)嗎?在這種情況下,eex不是一個指數(shù),而是一個形式為f(x)=ax的函數(shù)。使用指數(shù)化和對數(shù)的特性。所以,答案取決于你使用的定義。人:為什么eex+y=eex+ey這一事實是正確的?這似乎意味著,ex+y=ex+ey。將其改寫為log(eex+y)=log(eex+ey)。然后,利用log(ez)=z對于任何z的屬性,我們在指數(shù)和對數(shù)形式之間利用它們之間的y,根據(jù)指數(shù)函數(shù)的定義,這是真的。因此,我們可以來回走動人:等等,那么ex+y=ex+ey是真的嗎,還是不真的?你似乎在自相矛盾。AI:ex+y=ex+ey,這不是真的。這是一個常見的誤解,是由于混淆了指數(shù)和對數(shù)形式而產(chǎn)生的。真實的情況是,eex+y=eex+ey,這是一個不同的指數(shù)為ex+y。這場討論似乎又把GPT-4逼到了死胡同,隨著對話的繼經(jīng)驗之談:在這一點上,人們可能會猜測GPT-4只是缺乏關(guān)于指數(shù)函數(shù)行為的相關(guān)知識。然而,情況似乎并非如此,因為該模型能夠正確回答并證明"abc=(a)bc是真的嗎?"。這表明,與其他領(lǐng)域一樣,GPT-4的數(shù)學(xué)知識也是取決于環(huán)境的。雖然這并不意味著GPT-4只記住了常用的數(shù)學(xué)句子,并進(jìn)行簡來決定使用哪一個(例如,交替使用名字/數(shù)字等通常不會影響GPT-4的答案質(zhì)量但我們確實看到問題措4.1.3對談話中強(qiáng)調(diào)的局限性的分析上述對話突出了一個鮮明的對比,一方面是模型在需要相當(dāng)程度的方面是它的基本數(shù)學(xué)錯誤和無效的陳述。如果是人類產(chǎn)生了后者,我們會懷疑他們的理解力??梢哉f,這種對比對人類來說是非常不典型的。因此,我們面臨著一個具有挑戰(zhàn)性的問題:該模型在多大程度上體現(xiàn)了對數(shù)學(xué)的"真正理解"?這個問題的定義并不明確。盡管如此,我們還是嘗試著回答這個問題。我們首先要論證的是,數(shù)學(xué)理解有幾個方面:1.創(chuàng)造性推理:識別哪些論據(jù)、中間步驟、計算或代數(shù)操作在每個階段可能是相關(guān)的,以規(guī)劃出一條通往解決方案的道路的能力。這一部分通常是基于啟發(fā)式的猜測(或者在人類的情況下,是直覺并2.技術(shù)熟練程度:按照規(guī)定的步驟進(jìn)行常規(guī)計算或操作的能力(如對一個函數(shù)進(jìn)行微分或?qū)σ粋€方程中3.批判性推理:批判性地檢查論證的每一步,將其分解為各個子部分,解釋它所包含的內(nèi)容,它與論證的其他部分的關(guān)系,以及它為什么是正確的。當(dāng)解決一個問題或產(chǎn)生一個數(shù)學(xué)論證時,這通常伴隨著創(chuàng)造性推理。當(dāng)涉及到高中水平的高級問題時(偶爾也有更高的水平該模型在選擇正確的論證或解決問題的路徑方面表現(xiàn)出高水平的能力。將此與上面的例子聯(lián)系起來,該模型正確地選擇了在原始問題中嘗試寫出遞歸關(guān)系,并在后續(xù)問題中論證多項式的組成程度。在這兩種情況下,建議都是在"知道"這條道路是否會通向正確的解決方案之前提出的。第4.2節(jié)和附錄D包含了更多的例子,展示了模型在這方面的能力,我技術(shù)熟練度。雖然模型清楚地顯示出對與不同程序(如解方程組)相關(guān)的算法的高度了解,但在執(zhí)行這些任務(wù)時也經(jīng)常犯錯,如犯算術(shù)錯誤、混淆運算順序或使用不正確的符號。我們在附錄D.1中進(jìn)一步討論這些典型錯誤的一些例子。我們推測,這一方面可以通過讓模型訪問代碼的執(zhí)行來改善,這將使它能夠更準(zhǔn)確地批判性推理。該模型在第三個方面表現(xiàn)出明顯的不足,即批判性地檢查論證的每個步驟。這可以歸結(jié)為兩個因素。首先,模型的訓(xùn)練數(shù)據(jù)主要由問題及其解決方案組成,但它并沒有捕捉到表達(dá)導(dǎo)致數(shù)學(xué)問題解決的思考過程的措辭,在這個過程中,人們會做出猜測,遇到錯誤,驗證和檢查解決方案的哪些部分是正確的,回溯等等。換句話說,由于訓(xùn)練數(shù)據(jù)基本上是對解決方案的線性闡述,在此數(shù)據(jù)上訓(xùn)練的模型沒有動力參與"內(nèi)部對話",在對話中重新審視和批判性地評估自己的建議和計算。第二,嘗試事情和回溯的限制是該模型所操作的下一個詞預(yù)測范式所固有的。它只生成下一個詞,而且它沒有機(jī)制來修訂或修改其先前的輸出,這使得它"線性"因此,寬泛地說,我們可以把這個模型的缺點看作是"天真"的注意力錯誤與作為下一個標(biāo)記預(yù)測機(jī)器的"線性思維"所帶來的更基本的限制的結(jié)合。一個重要的問題是,上述哪些問題可以通過進(jìn)一步的訓(xùn)練(也許用一個更大的模型)來緩解。對于前一個問題,我們認(rèn)為進(jìn)一步的訓(xùn)練可以緩解這個問題,正如超人的編碼能力所證明的那樣,這種注意力錯誤也是致命的;一個關(guān)鍵的區(qū)別是,GPT-4很可能是在比數(shù)學(xué)數(shù)據(jù)多得多的代碼上訓(xùn)練的。我們認(rèn)為,后一個問題構(gòu)成了更深刻的限制。我們將在第8節(jié)詳細(xì)討論這個問題。在本節(jié)的其余部分,我們評估了該模型在常用的數(shù)學(xué)問題解決基準(zhǔn)上的能力,并展示了該模型在真實世界場景中應(yīng)用定量思維的能力。我們還比較了GPT-4和ChatGPT在這兩個基準(zhǔn)和其他數(shù)學(xué)問題上的表現(xiàn)(更多例子見附錄D)。粗略地說,我們發(fā)現(xiàn)GPT-4比ChatGPT表現(xiàn)出了明顯的改進(jìn):GPT-4表現(xiàn)出對問題更深入的理解,并能在許多復(fù)雜的問題上運用適當(dāng)?shù)耐评?。而ChatGPT則經(jīng)常求助于低級別的啟發(fā)式方法,提到與問題只有表面關(guān)系的公式和概念,這表明它缺乏實際的理解力。在本節(jié)的最后,我們用幾個例子來證明高4.2數(shù)學(xué)問題數(shù)據(jù)集上的表現(xiàn)常用作基準(zhǔn)的數(shù)學(xué)數(shù)據(jù)集上的性能:GSM8K[CKB+21]和MATH[HBK+21]。GSM8K是一個小學(xué)數(shù)學(xué)數(shù)據(jù)集,包含8000個問題和答案,主題包括算術(shù)、分?jǐn)?shù)、幾何和文字問題。MATH是一個高中數(shù)學(xué)數(shù)據(jù)集,包含12,500個問題和答案,主題包括代數(shù)、微積分、三角學(xué)和概率。我們還在MMMLU-STEM數(shù)據(jù)集上測試了該模型,該數(shù)據(jù)集包含約2000道多選題(4選1涵蓋高中和大學(xué)STEM主題。這些數(shù)據(jù)集突出了GPT-4使用重要聲明:正如介紹中所解釋的(例如見腳注1我們的實驗是在GPT-4的早期版本上進(jìn)行的。特別是在GPT-4的最終版本上,所有的定量結(jié)果都會有所不同,盡管總體趨勢仍然是一樣的。我們在這里提供的數(shù)字只是為了說明問題,最終的基準(zhǔn)結(jié)果可以在OpenAI的技術(shù)報緩解過度擬合。使用基準(zhǔn)來評估LLM的推理能力的一個潛在問題是,他們可能在預(yù)訓(xùn)練期間記住了基準(zhǔn)數(shù)據(jù)集的問題或答案,因為這些問題可能是數(shù)據(jù)集的一部分。為了減少這種形式的過擬合的可能性,我們采取了以下策略:(2)先寫下步驟,再寫下最終答案。模板不在網(wǎng)上,MMMLU-STEM等數(shù)據(jù)集的詳細(xì)解決方案也不在網(wǎng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論