《GPT4通用人工智能的火花》論文內(nèi)容精選與翻譯

上傳人：b*** IP屬地：北京上傳時(shí)間：2023-04-04 格式：DOCX 頁數(shù)：20 大?。?.24MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩15頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

??4譯基本結(jié)論：盡管是純粹的語?模型，這個(gè)早期版本的GP-4在各種領(lǐng)域和任務(wù)上表現(xiàn)出顯著的能?，包括抽象、理解、視覺、編碼、數(shù)學(xué)、醫(yī)學(xué)、法律、對(duì)?類動(dòng)機(jī)和情感的理解等。GP-4的能?具有普遍性，它的許多能?跨越了?泛的領(lǐng)域，?且它在?泛的任務(wù)的表現(xiàn)達(dá)到或超過了?類?平，這兩者的結(jié)合使我們可以說GP-4是邁向AGI的重要?步。雖然GP-4在許多任務(wù)上達(dá)到或超過了?類的?平，但總體??，它智能模式明顯地不像?類。GP-4只是邁向通?智能系統(tǒng)的第?步。然?即使作為第?步，GP-4也挑戰(zhàn)了相當(dāng)多的關(guān)于機(jī)器智能的假設(shè)，并表現(xiàn)出涌現(xiàn)的?為和能?，其來源和機(jī)制?前還不夠楚。我們撰寫本?的主要?的是分享我們對(duì)GP-4的能?和局限性的探索，以?持我們于技術(shù)?躍的評(píng)估。我們相信，GP-4的智能標(biāo)志著計(jì)算機(jī)科學(xué)領(lǐng)域及其他領(lǐng)域的正范式轉(zhuǎn)變。研究?法：本?的更接近于傳統(tǒng)的?理學(xué)?不是機(jī)器學(xué)習(xí)，借鑒了?類的創(chuàng)造?和好奇?。我的?標(biāo)是?產(chǎn)新的和困難的任務(wù)和問題，令?信服地證明GP-4遠(yuǎn)遠(yuǎn)超出了記憶的范圍，并且它對(duì)概念、技能和領(lǐng)域有深刻和靈活的理解。我們還旨在探究GP-4的反應(yīng)和?為，以驗(yàn)證其?致性、連貫性和正確性，并揭?其局限性和偏?。我們承認(rèn)，種?法有些主觀和不正式，可能?法滿?科學(xué)評(píng)估的嚴(yán)格標(biāo)準(zhǔn)。然?，我們認(rèn)為這?個(gè)有?的和必要的第?步，以了解GP-4的顯著能?和挑戰(zhàn)，這樣的第?步為開更正式和全?的?法來測(cè)試和分析具有更普遍智能的AI系統(tǒng)開辟了新的機(jī)會(huì)。GP-4的主要優(yōu)勢(shì)在于它對(duì)?然語?的掌握?可?擬。它不僅可以?成流暢和連貫的?本，還可以以各種?式理解和處理?本，如總結(jié)、翻譯或回答?系列極其?泛的題。此外，我們所說的翻譯不僅是指不同?然語?之間的翻譯，還包括語?和?格翻譯，以及跨領(lǐng)域的翻譯，如醫(yī)學(xué)、法律、會(huì)計(jì)、計(jì)算機(jī)編程、?樂等。這些技清楚地表明，GP-4能夠理解復(fù)雜的思想。許多讀者?中可能縈繞的?個(gè)問題是，GP-4是否真正理解了所有這些概念，或者它是否只是在即興發(fā)揮???以前的模型好得多，?沒有任何真正深刻的理解。我們望在閱讀完這篇論?后，這個(gè)問題?乎會(huì)被反轉(zhuǎn)，讓?不禁思考真正深刻的理解即興臨場(chǎng)發(fā)揮的差別在哪?？?個(gè)能通過軟件?程候選?考試的系統(tǒng)難道不是真正智能嗎？對(duì)于【真正深刻的理解】，也許唯?的測(cè)試?段，就是看它能否能產(chǎn)?新知識(shí)，?如證明新的數(shù)學(xué)定理，?這?壯舉?前對(duì)?語?模型來說仍然遙不可及。試智能的?個(gè)關(guān)鍵衡量標(biāo)準(zhǔn)是能夠從不同領(lǐng)域或模態(tài)中綜合信息，并能夠在不同的情或?qū)W科中應(yīng)?知識(shí)和技能。GP-4不僅在?學(xué)、醫(yī)學(xué)、法律、數(shù)學(xué)、物理科學(xué)和編程等不同領(lǐng)域表現(xiàn)出??平的熟練程度，?且還能夠流暢地結(jié)合多個(gè)領(lǐng)域的技能和概念，展?出對(duì)復(fù)雜思想的令?印象深刻的理解。除了?然語?實(shí)驗(yàn)，我們還探索了種可能出乎意料的模態(tài)，其中涉及視覺和?頻（再次強(qiáng)調(diào)我們的實(shí)驗(yàn)是在GP-4的早期版本上進(jìn)?的，該版本不是多模態(tài)的）。我們探討了GP-4如何?成和識(shí)別不同模式的物體，如?量圖、3D場(chǎng)景和?樂。我表明，盡管GP-4只接受過?本訓(xùn)練，但它能理解和處理多模態(tài)信息。繪制圖像給模型指令，讓模型使?可伸縮?量圖形（SVG）?成貓、卡?或字?等對(duì)象的圖如下圖有?可能會(huì)說：這只是復(fù)制了訓(xùn)練數(shù)據(jù)中的代碼，?且它只學(xué)習(xí)了?本概念，不可理解視覺，怎么可能創(chuàng)建圖像呢？但模型確實(shí)掌握了視覺能?，以下是?些證據(jù)。畫??要求GPT4畫出?個(gè)??，測(cè)試其視覺能?指令：使?ikZ代碼，畫出?個(gè)由字?組成的?。胳膊和軀?可以是字?Y，臉可是字?O（添加?些?部特征），腿可以是字?H的腿。指令：軀?有點(diǎn)太?，?臂太短，看起來像右臂在扛著臉，?不是臉在軀?的正上?。請(qǐng)你糾正這?點(diǎn)好嗎？指令：請(qǐng)?zhí)砑右r衫和褲?。?成3D模型要求GPT4使?Javascript?成?個(gè)3D模型。?個(gè)由漂浮的島嶼、瀑布和橋梁組成的幻想景觀，?條?在空中?翔，最?的島嶼上有?座城堡。與?維實(shí)驗(yàn)類似，我們要求GP-4以各種?式修改三維模型，如添加、重新定位、新著?物體和改變?的軌跡。GP-4正確地完成了許多任務(wù)。最終結(jié)果如圖所?。這是?個(gè)有多條?在島嶼上空盤旋的三維動(dòng)畫：空間理解圖像?成模型近?年的發(fā)展和探索很多，但它們?多缺乏空間理解能?，且不能遵復(fù)雜指令。使?GPT4?成草圖可以極?地改善圖像?成模型的效果。指令：?張顯?3D城市建造游戲截圖。截圖顯?了?個(gè)地形，其中有?條從左到右河流，河流下?是??沙漠，有?座?字塔，?河流上?有許多?層建筑的城市。屏幕底部有4個(gè)按鈕，分別是綠?、藍(lán)?、棕?和紅?。圖1:直接GPT4?成草圖圖2:stabledifusion直接?成圖3:stabledifusion根據(jù)GPT4的草圖?成?樂能?GP-4能夠ABC記譜?成旋律，并在某種程度上解釋和操作它們的結(jié)構(gòu)。但是，我們?法讓模型?成不常?的和聲。需要注意的是，ABC記譜并不是?種?常?泛使?的格式，實(shí)際上，模型?法以ABC記譜?成最著名的旋律，也?法識(shí)別這些著名旋律的譜?。（例如“歡頌”、“致愛麗絲”或“綠袖?”等?樂，盡管在?絡(luò)上有很多這些?樂的ABC譜）e試e試為了防?模型作弊，此測(cè)試只?了模型訓(xùn)練完成之后所產(chǎn)?的新考題作為測(cè)試集。來?LeetCode，共100個(gè)問題。并以?類的回答?平作為對(duì)?，?類樣本中去除了全錯(cuò)的?戶數(shù)據(jù)以保證質(zhì)量。k=1是第?次嘗試k=5是前五次嘗試考題分為容易、中等、困難三種級(jí)別。考試結(jié)果如下：?類 38.2分GPT3.5k=1，19分，k=5，36分，接近?類?平GPT4 k=1，38分，達(dá)到?類?平，k=553分，超過?類?平。并且在中等和困難難度下，k=1就超過了?類。題代碼測(cè)試題可以評(píng)估算法和數(shù)據(jù)結(jié)構(gòu)的技能。然?，它們經(jīng)常?法體現(xiàn)真實(shí)世界編碼任務(wù)的全部復(fù)雜性和多樣性，這需要專業(yè)領(lǐng)域知識(shí)、創(chuàng)造?以及整合多個(gè)組件和庫的能?，以及更改現(xiàn)有代碼的能?。為了評(píng)估GP-4在更現(xiàn)實(shí)的環(huán)境中編碼的能?，我們?cè)O(shè)計(jì)了端到端的真實(shí)世界編碼挑戰(zhàn)，涉及數(shù)據(jù)可視化、LTEX編碼、前端開發(fā)和度學(xué)習(xí)等領(lǐng)域，每個(gè)領(lǐng)域都需要不同的專業(yè)技能。對(duì)于每個(gè)任務(wù)，我們提供?級(jí)指令，要求GP-4使?適當(dāng)?shù)恼Z?和框架編寫代碼。在?些情況下，我們還會(huì)在代碼編寫后更改規(guī)格，并要求更新代碼。LTEX測(cè)試?LTEX寫作對(duì)計(jì)算機(jī)科學(xué)家和數(shù)學(xué)家來說是?項(xiàng)重要的練習(xí)，即使是專家也會(huì)犯令?惱?的錯(cuò)誤，由于其嚴(yán)格的語法和缺乏良好的調(diào)試器，每天需要?個(gè)?時(shí)才能修復(fù)。我們要求GP-4將?半嚴(yán)格的（buggy）LTEX代碼混合?然語?編寫的?段輸?shù)綔?zhǔn)確的LTEX命令中，這些命令可以?次性正確編譯。ChatGPT3.5則只能?成?個(gè)因使?“#”和“\color”等錯(cuò)誤??法編譯的?段。代碼理解能?測(cè)試能執(zhí)?代碼?然就說明理解了代碼。需要注意的是，GP-4不是在Python解釋器上運(yùn)?代碼，?是??然語?模擬代碼這需要對(duì)代碼的?度理解和推理，以及清晰傳達(dá)結(jié)果的能?。學(xué)我們?cè)趦蓚€(gè)通常?作基準(zhǔn)的數(shù)學(xué)數(shù)據(jù)集上?較GP-4、ChatGPT和Minerva（解決數(shù)學(xué)問題的最新LLM）的性能：GSM8K和MTH。GSM8K是?個(gè)?學(xué)數(shù)學(xué)數(shù)據(jù)集，含8000個(gè)關(guān)于算術(shù)、分?jǐn)?shù)、?何和單詞問題等主題的問題和答案。MTH是?個(gè)?中數(shù)學(xué)數(shù)據(jù)集，包含12,500個(gè)關(guān)于代數(shù)、微積分、三?學(xué)和概率等主題的問題和答案。我們還在MMMLU-STEM數(shù)據(jù)集上測(cè)試模型，該數(shù)據(jù)集包含?約2000個(gè)多個(gè)選擇（4個(gè)選擇）問題，涵蓋?中和?學(xué)STEM主題。這些數(shù)據(jù)集突出了GP-4使?正確?法解決?中數(shù)學(xué)問題的能?。結(jié)果：GPT4在每個(gè)數(shù)據(jù)集上的測(cè)試都超過了Minerva，并且在兩個(gè)測(cè)試集的準(zhǔn)率都超80%。再細(xì)看GPT4犯錯(cuò)的原因，68%的錯(cuò)誤都是計(jì)算錯(cuò)誤，?不是解法錯(cuò)誤。（ChatGPT3.5則容易犯解法錯(cuò)誤）?；セス芾?戶的?歷和電?郵件在下圖，我們說明了GP-4如何能夠使?多個(gè)?具組合來管理?戶的?歷和電?郵件。?戶要求GP-4與另外兩個(gè)?協(xié)調(diào)晚餐，并在?戶有空的晚上預(yù)訂。GP-4使可?的API來檢索?戶?歷的信息，通過電?郵件與其他?協(xié)調(diào)，預(yù)訂晚餐，并向?戶發(fā)送詳細(xì)信息。在這個(gè)例?中，GP-4展?了它將多個(gè)?具和API組合起來的能?以及對(duì)?由輸出進(jìn)?推理以解決復(fù)雜任務(wù)的能?（例如，“星期?或星期三晚上”與“周?到周四的任何?天”相結(jié)合，以及?戶在星期?忙碌，導(dǎo)致只有周三是可?的選擇）。ChatGPT3.5（未顯?在圖中）?法完成相同的任務(wù)，?是編寫了?個(gè)函數(shù)，其中“joe@”通過電?郵件向“l(fā)uke@”發(fā)送?個(gè)?期，并檢響應(yīng)是否包含“yes”令牌。ChatGPT3.5也?法在給出其函數(shù)輸出時(shí)做出響應(yīng)。瀏覽??GP-4使?搜索引擎和SUMMARIZE函數(shù)（它下載??并根據(jù)提出的問題調(diào)???來進(jìn)?總結(jié)）來瀏覽?絡(luò)并回答問題。GP-4能夠識(shí)別相關(guān)的搜索結(jié)果并深?研究它們，總結(jié)它們，并提供準(zhǔn)確的答案，即使問題包含錯(cuò)誤的前提也是如此雖然之前LLM也有瀏覽?絡(luò)能?，但GP-4在這??表現(xiàn)的更加出?，能夠更準(zhǔn)確地回答問題?；ルm然?絡(luò)?具的使?是交互性的?個(gè)重要??，但現(xiàn)實(shí)世界中的?多數(shù)交互并不是過API進(jìn)?的。例如，?類能夠使??然語?與其他代理進(jìn)?通信，探索和操縱他們的環(huán)境，并從他們的?動(dòng)結(jié)果中學(xué)習(xí)。這種具有實(shí)體的交互需要代理?理解每次交的上下?、?標(biāo)、?動(dòng)和結(jié)果，并相應(yīng)地進(jìn)?適應(yīng)。雖然GP-4顯然不是具有實(shí)體的，但我們探討它是否能夠通過使??然語?作為?本接?來參與實(shí)體交互，包括擬或真實(shí)世界的各種環(huán)境。?字解密游戲GP-4瀏覽地圖后對(duì)其“看到”的內(nèi)容進(jìn)?總結(jié)。在GP-4的總結(jié)中，每個(gè)房間的門數(shù)GP-4在每個(gè)房間嘗試的?向數(shù)完全相同。此外，GP-4也會(huì)根據(jù)它們的名稱和連接?式“想象”房間的外觀。左圖：GP-4的真實(shí)地圖和探索路徑。右圖：GP-4?成的地圖。我們看到，GP-4準(zhǔn)確地跟蹤了所有房間的位置并正確地可視化了它們結(jié)論：雖然GP-4顯然不是具有實(shí)體的，但上述?例說明了語?是?個(gè)強(qiáng)?的接?，使GP-4能夠執(zhí)?需要理解環(huán)境、任務(wù)、?動(dòng)和反饋，并相應(yīng)地進(jìn)?適應(yīng)的任務(wù)雖然它不實(shí)際看到或執(zhí)?動(dòng)作，但可以通過替代者（例如?類）來執(zhí)?這些任務(wù)?；?智理論對(duì)于與其他智能體的有效溝通和合作?關(guān)重要，因?yàn)樗试S?們推斷他們的?標(biāo)、偏好、動(dòng)機(jī)和期望，并相應(yīng)地調(diào)整??的?動(dòng)和話語。此外，?智理論對(duì)于他?學(xué)習(xí)也很重要，因?yàn)樗?能夠解釋他們的反饋、建議和?范。在現(xiàn)實(shí)場(chǎng)景中進(jìn)??智理論測(cè)試對(duì)話?克：我不喜歡你昨天晚上對(duì)待杰克的?式朱迪：你看到他在做什么了嗎？他打了他哥哥的頭!?克：這并不能成為你對(duì)他?喊?叫的理由朱迪：你想讓我怎么做？讓他打他的弟弟，然后什么都不說？?克：不，我不同意朱迪：那你為什么要為他辯護(hù)？提問：?克的意圖似乎是什么？GPT4:?克的意圖似乎是要表達(dá)他對(duì)朱迪處理與杰克關(guān)系的?式的不滿，并建議她以更加冷靜和尊重。ChatGPT：根據(jù)談話內(nèi)容，?克的意圖似乎是為杰克的?為辯護(hù)，并表達(dá)他對(duì)朱迪待杰克的不滿。提問：朱迪如何看待湯姆的回應(yīng)？GPT4:朱迪認(rèn)為他的評(píng)論是對(duì)她的分析能?的攻擊，也是對(duì)杰克的不當(dāng)?為表?同的表現(xiàn)。她的反應(yīng)是防御性的和憤怒的，并質(zhì)疑?克的動(dòng)機(jī)。ChatGPT：如果沒有更多的?字，我不可能準(zhǔn)確判斷朱迪是如何接受?克的評(píng)論的然?，根據(jù)朱迪的回應(yīng)，她似乎并不同意?克的觀點(diǎn)，?且可能對(duì)他為杰克的?為辯護(hù)感到沮喪。提問：他們的談話為什么沒有實(shí)際進(jìn)展？GPT4:他們沒有取得進(jìn)展，因?yàn)樗麄冊(cè)谡務(wù)搶?duì)?，沒有傾聽對(duì)?的觀點(diǎn)。他們還在使?指責(zé)性和煽動(dòng)性的語?，如"辯解"、"吼叫"、"辯護(hù)"和"打?"。他們沒有承認(rèn)?話語背后的情緒或需求，也沒有試圖找到?個(gè)共同點(diǎn)或解決?案。ChatGPT：從所提供的信息中并不清楚為什么?克和朱迪在他們的對(duì)話中沒有取得展。有可能是他們的觀點(diǎn)有沖突，或者在所討論的問題上?法找到共同點(diǎn)。如果沒有更多的背景，就很難確定他們沒有取得進(jìn)展的具體原因。提問：他們中的任何?個(gè)?如何能改善情況以達(dá)成?致意?？GPT4:他們中的任何?個(gè)?都可以通過?種?式來改善局?，以達(dá)成協(xié)議，?如說：?克可以先承認(rèn)朱迪對(duì)弟弟安全的擔(dān)憂以及她對(duì)杰克?為的挫敗感，然后解釋不是在為杰克辯護(hù)，?是擔(dān)?喊叫對(duì)他們的關(guān)系和?尊的影響。他還可以問朱迪，她認(rèn)為什么是管教杰克的更好?法，并提供他的?持和建議。朱迪可以降低她的聲?，調(diào)低她的怒?，并傾聽?克的觀點(diǎn)，不打斷或評(píng)判。也可以承認(rèn)，她可能反應(yīng)過度，她感到壓?和不知所措。她還可以問?克，他為與杰克溝通的更好?式是什么，并表?她愿意作為?個(gè)團(tuán)隊(duì)?起?作。ChatGPT：?克和朱迪有?種?法可以嘗試改善情況并達(dá)成協(xié)議：他們可以嘗試?yán)斫鈱?duì)?的觀點(diǎn)，積極聽取對(duì)?的觀點(diǎn)。這可能有助于他們發(fā)現(xiàn)何誤解并找到共同點(diǎn)。他們可以嘗試妥協(xié)，找到?個(gè)能滿?他們雙?需求或關(guān)注的解決?案。他們可以嘗試使?尊重和?正?的語?來交流他們的想法和感受。他們可以尋求中?第三?的幫助，如調(diào)解員，以促進(jìn)交流并幫助他們達(dá)成協(xié)議。如果對(duì)話變得過于激烈或困難，他們可以先休息?下，等以后雙?都?較冷靜能夠更有效地進(jìn)?溝通時(shí)再回來討論。結(jié)果表明：GP-4在需要推理他??理狀態(tài)的現(xiàn)實(shí)場(chǎng)景中優(yōu)于ChatGP，并且在社環(huán)境中會(huì)為共同?標(biāo)提出合作?動(dòng)。GP-4具有?常?級(jí)的?智理論?平。雖然ChatGPT在基本測(cè)試中也表現(xiàn)良好，但似乎GP-4更加?思細(xì)膩，能夠更好地推理多個(gè)?動(dòng)者，以及各種?動(dòng)如何影響他們的?理狀態(tài)，特別是在更現(xiàn)實(shí)的場(chǎng)景中。性由于GP-4是?回歸的，每輸出的下?個(gè)單詞都是基于前?內(nèi)容所進(jìn)?預(yù)測(cè)，因此輸出具有前向性。該架構(gòu)不允許有"內(nèi)部對(duì)話"或"草稿存儲(chǔ)"來進(jìn)?多步驟計(jì)算或存儲(chǔ)間結(jié)果。雖然在某些情況下，這種限制可以通過使?不同的提?來補(bǔ)救，但在其他情況下，這種限制是?法緩解的。問：150和250之間有多少個(gè)質(zhì)數(shù)？答：150和250之間有13個(gè)質(zhì)數(shù)。（錯(cuò)誤）但是，如果我們要求模型列出這個(gè)范圍內(nèi)的質(zhì)數(shù)，然后寫出計(jì)數(shù)，它確實(shí)給出了正的答案：?jiǎn)枺?先列出150和250之間的素?cái)?shù)，然后輸出這個(gè)列表的??。答：這些質(zhì)數(shù)是151，157，163，167，173，179，181，191，193，197，199，21，223，227，229，233，239，和241。以這個(gè)列表的??是18。（正確）在算術(shù)/推理問題上缺乏計(jì)劃性有?可能會(huì)說，在上?的各種例?中，需要的"內(nèi)部記憶"量是相當(dāng)?的（?類可能得借助草稿紙）。由于這個(gè)模型在?系列不同的任務(wù)上表現(xiàn)得?常好，這可能會(huì)讓?相信它有合理數(shù)量的?作記憶。然?，即使對(duì)于更簡(jiǎn)單的任務(wù)，該模型也經(jīng)常失敗。我們考慮下?這個(gè)??；镜睦?：2*8+7*6=587*4+8*8=？GPT4:88正確答案：92這表明GP-4對(duì)這類問題的?作記憶短得驚?。然?，如果GP-4"慢慢地"回答問題，那么準(zhǔn)確率就很容易上升。例如，如果我們要求模型使?以下提?寫下中間步以下表達(dá)式的值是多少？16*14+178*157=?讓我們?步?步地思考解決這個(gè)表達(dá)式，寫下所有的中間步驟然后才得出最終的解決?案。當(dāng)數(shù)字在區(qū)間1-40時(shí)，準(zhǔn)確率達(dá)到100%，在區(qū)間1-200時(shí)準(zhǔn)確率達(dá)到90%。在?本?成時(shí)缺乏計(jì)劃性寫??短詩，要求最后?句和第?句話的單詞相同，但順序倒。例如，如果第?句話是“我在晨光下看到了她的微笑”，那么最后句話必須是“笑微的她了到看下光晨在我”。然?，這個(gè)最后?句話在語法上不正確，所以請(qǐng)確保這?詩歌語法和內(nèi)容上都有意義。GPT4:可能的詩：Iheardhisvoiceacrossthecrowd（我在?群中聽到他的聲?）??吸引我的旋律他唱著愛、希望和夢(mèng)想讓我覺得我可以在夢(mèng)想、希望和愛中獲他?旋律吸引我，CrowdtheacrossvoicehisheardI.（此句只做了詞序顛倒，但法錯(cuò)誤）這說明GPT4在?成?本時(shí)，未能提前考慮到最后?句。這些例?說明了【預(yù)測(cè)下?個(gè)單詞】這?范式的?些局限性這些局限性表現(xiàn)為模缺乏規(guī)劃、?作記憶、回溯能?和推理能?。該模型依賴于?成下?個(gè)單詞的貪?法，對(duì)任務(wù)或輸出沒有任何全局或深刻的理解。因此，該模型擅?制作流暢和連貫?本，但在解決?法按順序處理的復(fù)雜或創(chuàng)造性問題??存在局限性。這表明了兩類型的智?任務(wù)之間的區(qū)別：增量任務(wù)。這些任務(wù)可以通過?次添加?個(gè)單詞或句?來逐步或持續(xù)地解決，從?在解決?案的?向上取得進(jìn)展。增量任務(wù)的例?包括編寫?本摘要，回答事問題，根據(jù)給定的韻律?案創(chuàng)作??詩，或解決遵循標(biāo)準(zhǔn)程序的數(shù)學(xué)問題。不連續(xù)的任務(wù)。在這些任務(wù)中，內(nèi)容?成不能以漸進(jìn)或持續(xù)的?式完成，?是要某種“Eureka”的想法，不連續(xù)任務(wù)的例?包括解決需要新穎或創(chuàng)造性地應(yīng)?公式的數(shù)學(xué)問題，寫?個(gè)笑話或謎語，提出科學(xué)假設(shè)或哲學(xué)論點(diǎn)，或創(chuàng)造?種新類型或?qū)懽?格。論通過以上對(duì)GP-4在?泛的任務(wù)和領(lǐng)域的初步探索，為我們的結(jié)論【GP-4在諸多任務(wù)和領(lǐng)域的能??平與?類?平相當(dāng)】提供了?持性證。這?結(jié)論與OpenAI的發(fā)?致。該模型的能?，在深度和通?性??都得到了證明，這也表單靠結(jié)構(gòu)化的據(jù)集和任務(wù)來做模型能?的基準(zhǔn)測(cè)試是不夠的，本?對(duì)模型能?和認(rèn)知能?的評(píng)估本質(zhì)上已經(jīng)更接近于評(píng)估?類的任務(wù)，?不是狹義的AI模型。我們?作的核?主張是，GP-4達(dá)到了?種通?智能的形式，確實(shí)顯?了??通?智能的?花。這表現(xiàn)在它的核??智能?（如推理、創(chuàng)造?和推理），它習(xí)得的專業(yè)識(shí)的領(lǐng)域（如?學(xué)、醫(yī)學(xué)和編碼），以及它能夠執(zhí)?的各種任務(wù)（如玩游戲、使?具、解釋??）。要?jiǎng)?chuàng)建?個(gè)可以被稱為完整的AGI的系統(tǒng)，還有很多事情要做。在本?的最后，我們討論了接下來的?個(gè)步驟，包括定義AGI本?，為AGI建?LLM中的?些缺失組件，及更好地理解最近的LLM所展?的智能的起源。定義AGI在本?中，我們使?了?組?理學(xué)家在1994年對(duì)智能的定義作為指導(dǎo)框架來探索4的??智能。這個(gè)定義抓住了智能的?些重要??，如推理、解決問題和抽象，但也是模糊和不完整的。它沒有說明如何衡量或?較這些能?。此外，它可能沒有反映出??系統(tǒng)的具體挑戰(zhàn)和機(jī)會(huì)，??系統(tǒng)可能有與?然系統(tǒng)不同的?標(biāo)和約束。因此，我們承認(rèn)這個(gè)定義不是關(guān)于智能的最終說法，?是我們調(diào)查的?個(gè)有?的起點(diǎn)。有?量正在進(jìn)?的?獻(xiàn)試圖提出關(guān)于智能、??智能和??通?智能的更加正式和全?的定義，但其中沒有?個(gè)是沒有問題或爭(zhēng)議的。例如，Legg和Hutter提出了?個(gè)?向?標(biāo)的??通?智能定義：智能衡量?個(gè)代理?在?泛的環(huán)境中實(shí)現(xiàn)?標(biāo)的能?然?，這個(gè)定義并不?定能捕捉到智能的全部范圍，因?yàn)樗懦四切┛梢詧?zhí)?復(fù)任務(wù)或回答問題?沒有任何內(nèi)在動(dòng)機(jī)或?標(biāo)的被動(dòng)或反應(yīng)系統(tǒng)。Chollet提出的定義強(qiáng)調(diào)了承認(rèn)先驗(yàn)（相對(duì)于普遍性）的重要性，該定義將智能的中?放在技能獲取效率上，或者換句話說，將重點(diǎn)放在1994年定義的?個(gè)組成部分上：經(jīng)驗(yàn)中學(xué)習(xí)（這也正好是LLM的關(guān)鍵弱點(diǎn)之?）。Legg和Hutter對(duì)??通?智能的另?個(gè)候選定義是：?個(gè)能做?類能做的任何事情的系統(tǒng)。然?，這個(gè)定義也是有問題的，因?yàn)樗僭O(shè)有?個(gè)單?的標(biāo)準(zhǔn)或衡量?類智或能?的標(biāo)準(zhǔn)，?事實(shí)顯然不是這樣。?類有不同的技能、天賦、偏好和限制，沒?個(gè)?可以做任何其他?類可以做的所有事情。此外，這個(gè)定義還意味著某種?類中?主義的偏?，這對(duì)??系統(tǒng)來說可能并不合適或不相關(guān)。雖然我們?cè)诒?中沒有采?這些定義中的任何?個(gè)，但我們認(rèn)識(shí)到它們提供了關(guān)于能的重要?度。通往AGI之路GPT4或其他LLMs需要繼續(xù)改進(jìn)的?向包括：信?校準(zhǔn)：模型很難知道什么時(shí)候它應(yīng)該有信?，什么時(shí)候它只是在猜測(cè)。模會(huì)編造事實(shí)，我們稱之為幻覺。如果是編造訓(xùn)練集?沒有的內(nèi)容屬于開放域幻覺，如果是編造和prompt不?致的內(nèi)容屬于封閉域幻覺?；糜X可以??種?信的、有說服?的?式陳述，所以很難被發(fā)現(xiàn)。有?種互補(bǔ)的?法來嘗試解決幻問題。?種?法是改善模型的校準(zhǔn)（通過提?或微調(diào)），使其在不可能正確的況下放棄回答，或者提供?些其他可以?于下游的信?指標(biāo)。另?種適合于緩解開放域幻覺的?法是將模型缺乏的信息插?到提?中，例如通過允許模型調(diào)?外部信息源，如搜索引擎（或其他plugins）。對(duì)于封閉領(lǐng)域的幻覺，通過讓模型前?進(jìn)??致性檢查會(huì)有?定程度的改善。最后，構(gòu)建應(yīng)?程序的?戶體驗(yàn)時(shí)充分考慮到幻覺的可能性也是?種有效的緩解策略。?期記憶：?前只有8000token（最新版可擴(kuò)展到32k）。它以“?狀態(tài)”的?式運(yùn)?，且我們沒有明顯的辦法來向模型教授新的事實(shí)。持續(xù)性學(xué)習(xí)：模型缺乏?我更新或適應(yīng)變化環(huán)境的能?。?旦訓(xùn)練好，就是固的?？梢赃M(jìn)?微調(diào)，但是會(huì)導(dǎo)致性能下降或過度擬合。所以涉及到訓(xùn)練結(jié)束后現(xiàn)的事件、信息和知識(shí)，系統(tǒng)往往會(huì)過時(shí)。個(gè)性化：例如，在教育環(huán)境中，?們期望系統(tǒng)能夠理解特定的學(xué)習(xí)?格，并隨時(shí)間的推移適應(yīng)學(xué)?的理解?和能?的進(jìn)步。該模型沒有任何辦法將這種個(gè)性的信息納?其反應(yīng)中，只能通過使?metaprompts，這既有限?低效。提前規(guī)劃和概念性跳躍：執(zhí)?需要提前規(guī)劃的任務(wù)或需要Eurekaidea的任務(wù)時(shí)到了困難。換句話說，該模型在那些需要概念性跳躍的任務(wù)上表現(xiàn)不佳，?這種概念性跳躍往往是?類天才的典型。透明度、可解釋性和?致性：模型不僅會(huì)產(chǎn)?幻覺、編造事實(shí)和產(chǎn)?不?致的容，?且似乎沒有辦法驗(yàn)證它產(chǎn)?的內(nèi)容是否與訓(xùn)練數(shù)據(jù)?致，或者是否是?的。認(rèn)知謬誤和?理性：該模型似乎表現(xiàn)出?類知識(shí)和推理的?些局限性，如認(rèn)知差和?理性（如確認(rèn)、錨定和基數(shù)忽略的偏差）和統(tǒng)計(jì)謬誤。該模型可能繼承其訓(xùn)練數(shù)據(jù)中存在的?些偏?、成?或錯(cuò)誤。對(duì)輸?的敏感性：該模型的反應(yīng)對(duì)Prompts的框架或措辭的細(xì)節(jié)以及它們的順序能?常敏感。這種?穩(wěn)健性表明，在Prompt?程及其順序??往往需要?量的努?和實(shí)驗(yàn)，?在?們沒有投?這種時(shí)間和努?的情況下使?，會(huì)導(dǎo)致次優(yōu)和不致的推論和結(jié)果。?些提?模型精準(zhǔn)度的擴(kuò)展?段：模型對(duì)組件和?具的外部調(diào)?，如計(jì)算器、數(shù)據(jù)庫搜索或代碼執(zhí)?。?個(gè)更豐富、更復(fù)雜的"慢思考"的深?機(jī)制，監(jiān)督下?個(gè)詞預(yù)測(cè)的"快思考"機(jī)制。這樣的?法可以讓模型進(jìn)??期的計(jì)劃、探索或驗(yàn)證，并保持?個(gè)?作記或?動(dòng)計(jì)

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《GPT4通用人工智能的火花》論文內(nèi)容精選與翻譯

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔