![2024全球人工智能現(xiàn)狀發(fā)展全景報(bào)告_第1頁(yè)](http://file4.renrendoc.com/view12/M02/11/3A/wKhkGWdF9fyAG2LnAACE3VxcC2o917.jpg)
![2024全球人工智能現(xiàn)狀發(fā)展全景報(bào)告_第2頁(yè)](http://file4.renrendoc.com/view12/M02/11/3A/wKhkGWdF9fyAG2LnAACE3VxcC2o9172.jpg)
![2024全球人工智能現(xiàn)狀發(fā)展全景報(bào)告_第3頁(yè)](http://file4.renrendoc.com/view12/M02/11/3A/wKhkGWdF9fyAG2LnAACE3VxcC2o9173.jpg)
![2024全球人工智能現(xiàn)狀發(fā)展全景報(bào)告_第4頁(yè)](http://file4.renrendoc.com/view12/M02/11/3A/wKhkGWdF9fyAG2LnAACE3VxcC2o9174.jpg)
![2024全球人工智能現(xiàn)狀發(fā)展全景報(bào)告_第5頁(yè)](http://file4.renrendoc.com/view12/M02/11/3A/wKhkGWdF9fyAG2LnAACE3VxcC2o9175.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
全球人工智能現(xiàn)狀報(bào)告2024年10月10日#stateofai
|
4stateof.aiIntroduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions人工智能(AI)是一個(gè)科學(xué)和工程的多學(xué)科領(lǐng)域,其目標(biāo)是創(chuàng)造智能機(jī)器。我們相信,在我們?nèi)找鏀?shù)字化、數(shù)據(jù)驅(qū)動(dòng)的世界中,人工智能將成為技術(shù)進(jìn)步的力量倍增器。這是因?yàn)榻裉煳覀冎車囊磺?,從文化到消費(fèi)品,都是智慧的產(chǎn)物。《人工智能狀況報(bào)告》現(xiàn)已進(jìn)入第七個(gè)年頭。把這份報(bào)告看作是我們所看到的最有趣的事情的匯編,目的是引發(fā)一場(chǎng)關(guān)于人工智能的狀態(tài)及其對(duì)未來的影響的知情對(duì)話。我們?cè)趫?bào)告中考慮了以下主要方面:研究:技術(shù)突破及其能力。行業(yè):人工智能的商業(yè)應(yīng)用領(lǐng)域及其商業(yè)影響。政治:人工智能的管理,其經(jīng)濟(jì)含義和人工智能的地緣政治的演變。安全:識(shí)別和減輕高能力的未來人工智能系統(tǒng)可能給我們帶來的災(zāi)難性風(fēng)險(xiǎn)。預(yù)測(cè):我們認(rèn)為未來12個(gè)月將發(fā)生的事情,以及2023年的績(jī)效評(píng)估,以保持我們的誠(chéng)實(shí)。由內(nèi)森·貝納奇和空氣街資本團(tuán)隊(duì)制作#stateofai
|
5stateof.aiIntroduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions定義人工智能(AI):一個(gè)廣泛的學(xué)科,目標(biāo)是創(chuàng)造智能機(jī)器,相對(duì)于人類和動(dòng)物表現(xiàn)出的自然智能。人工一般智能(AGI):一個(gè)用來描述未來機(jī)器的術(shù)語(yǔ),這些機(jī)器可以在所有有經(jīng)濟(jì)價(jià)值的任務(wù)中匹配并超越人類認(rèn)知能力的全部范圍。人工智能代理:一個(gè)人工智能驅(qū)動(dòng)的系統(tǒng),可以在環(huán)境中采取行動(dòng)。例如,一個(gè)LLM可以使用一套工具,并且必須決定使用哪一個(gè)來完成它被提示要做的任務(wù)。人工智能安全:研究并試圖減輕未來人工智能可能給人類帶來的風(fēng)險(xiǎn)(從輕微到災(zāi)難性)的領(lǐng)域。計(jì)算機(jī)視覺(CV):程序分析和理解圖像和視頻的能力。深度學(xué)習(xí)(DL):一種受大腦神經(jīng)元如何識(shí)別數(shù)據(jù)中的復(fù)雜模式啟發(fā)的人工智能方法?!吧疃取敝傅氖钱?dāng)今模型中的許多層神經(jīng)元,它們有助于學(xué)習(xí)數(shù)據(jù)的豐富表示,以實(shí)現(xiàn)更好的性能增益。擴(kuò)散(Diffusion):一種算法,用于迭代去除人為破壞信號(hào)的噪聲,以生成新的高質(zhì)量輸出。近年來,它一直處于圖像生成和蛋白質(zhì)設(shè)計(jì)的前沿。生成式人工智能:一系列人工智能系統(tǒng),能夠基于“提示”生成新內(nèi)容(例如,文本、圖像、音頻或3D資產(chǎn))。圖形處理單元(GPU):一種半導(dǎo)體處理單元,能夠?qū)崿F(xiàn)大量并行計(jì)算。歷史上,這是渲染計(jì)算機(jī)圖形所必需的。自2012年以來,GPU已經(jīng)適應(yīng)了訓(xùn)練DL模型,這也需要大量的并行計(jì)算。Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions
#stateofai
|
6stateof.ai定義(大型)語(yǔ)言模型(LM,LLM):一種在大量(通常)文本數(shù)據(jù)上訓(xùn)練的模型,以自我監(jiān)督的方式預(yù)測(cè)下一個(gè)單詞。術(shù)語(yǔ)“LLM”用于表示數(shù)十億參數(shù)LMs,但這是一個(gè)動(dòng)態(tài)定義。機(jī)器學(xué)習(xí)(ML):人工智能的一個(gè)子集,通常使用統(tǒng)計(jì)技術(shù)來賦予機(jī)器從數(shù)據(jù)中“學(xué)習(xí)”的能力,而無需明確給出如何學(xué)習(xí)的指令。這個(gè)過程被稱為使用學(xué)習(xí)“算法”來“訓(xùn)練”一個(gè)“模型”逐步提高特定任務(wù)的模型性能。模型:根據(jù)數(shù)據(jù)訓(xùn)練的ML算法,用于進(jìn)行預(yù)測(cè)。自然語(yǔ)言處理(NLP):程序理解人類口頭和書面語(yǔ)言的能力。Prompt:通常用自然語(yǔ)言編寫的用戶輸入,用于指示LLM生成某些東西或采取行動(dòng)。強(qiáng)化學(xué)習(xí)(RL):ML的一個(gè)領(lǐng)域,其中軟件代理在一個(gè)環(huán)境中通過試錯(cuò)來學(xué)習(xí)面向目標(biāo)的行為,該環(huán)境根據(jù)他們實(shí)現(xiàn)目標(biāo)的行為(稱為“策略”)提供獎(jiǎng)勵(lì)或懲罰。自我監(jiān)督學(xué)習(xí)(SSL):一種非監(jiān)督學(xué)習(xí)形式,不需要手動(dòng)標(biāo)記數(shù)據(jù)。相反,原始數(shù)據(jù)以自動(dòng)方式被修改,以創(chuàng)建可供學(xué)習(xí)的人工標(biāo)簽。SSL的一個(gè)例子是通過屏蔽句子中的隨機(jī)單詞并試圖預(yù)測(cè)丟失的單詞來學(xué)習(xí)完成文本。變壓器:一個(gè)模型架構(gòu)的核心,最先進(jìn)的(SOTA)
ML研究。它由多個(gè)“注意力”層組成,這些層了解輸入數(shù)據(jù)的哪些部分對(duì)給定的任務(wù)最重要。Transformers始于NLP(特別是機(jī)器翻譯),隨后擴(kuò)展到計(jì)算機(jī)視覺、音頻和其他形式。#stateofai
|
7Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions定義模型類型圖例在其余幻燈片中,右上角的圖標(biāo)表示該型號(hào)的輸入和輸出設(shè)備。輸入/輸出類型::文本:圖像</>:代碼:軟件工具使用(文本、代碼生成和執(zhí)行):視頻:音樂:3D:機(jī)器人狀態(tài):生物形態(tài)型號(hào)類型:→
:LLMs+
→
:多模式物流管理系統(tǒng)+
+
→
:用于機(jī)器人的多模態(tài)LLMstateof.ai→</>:文本到代碼→
:文本到軟件工具使用→
:文本到圖像→
:文本到視頻→
:文本到音樂→
:圖像到3D→
:文本到3D→
:生物模型#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|行動(dòng)綱要研究前沿實(shí)驗(yàn)室的性能趨同,但隨著o1的推出,OpenAI保持了它的優(yōu)勢(shì),因?yàn)橐?guī)劃和推理成為一個(gè)主要的前沿。隨著多模態(tài)研究進(jìn)入數(shù)學(xué)、生物學(xué)、基因組學(xué)、物理科學(xué)和神經(jīng)科學(xué),基礎(chǔ)模型展示了它們突破語(yǔ)言的能力。美國(guó)的制裁未能阻止中國(guó)(V)LLM在社區(qū)排行榜上崛起。工業(yè)英偉達(dá)仍然是世界上最強(qiáng)大的公司,在3T美元俱樂部中享受著一段時(shí)間,而監(jiān)管機(jī)構(gòu)正在調(diào)查GenAI內(nèi)部的權(quán)力集中。更多的老牌GenAI公司帶來了數(shù)十億美元的收入,而初創(chuàng)公司開始在視頻和音頻生成等領(lǐng)域獲得牽引力。盡管企業(yè)開始從模式轉(zhuǎn)向產(chǎn)品,但圍繞定價(jià)和可持續(xù)性的長(zhǎng)期問題仍未解決。在公開市場(chǎng)牛市的推動(dòng)下,人工智能公司的價(jià)值達(dá)到9T美元,而私營(yíng)公司的投資水平健康增長(zhǎng)。政治盡管全球治理努力陷入停滯,但國(guó)家和地區(qū)人工智能監(jiān)管仍在繼續(xù)推進(jìn),美國(guó)和歐盟通過了有爭(zhēng)議的立法。計(jì)算需求的現(xiàn)實(shí)迫使大型科技公司考慮現(xiàn)實(shí)世界中的物理限制和他們自己的排放目標(biāo)。與此同時(shí),政府自身建設(shè)能力的努力繼續(xù)滯后。人工智能對(duì)選舉、就業(yè)和一系列其他敏感領(lǐng)域的預(yù)期影響尚未在任何規(guī)模上實(shí)現(xiàn)。安全從安全到加速的轉(zhuǎn)變正在發(fā)生,因?yàn)橹熬嫖覀內(nèi)祟惣磳缃^的公司需要增加企業(yè)銷售和消費(fèi)應(yīng)用的使用。世界各國(guó)政府效仿英國(guó),圍繞人工智能安全建設(shè)國(guó)家能力,成立機(jī)構(gòu),研究關(guān)鍵國(guó)家基礎(chǔ)設(shè)施的潛在漏洞。每一個(gè)提議的越獄“補(bǔ)丁”都失敗了,但研究人員越來越擔(dān)心更復(fù)雜、更長(zhǎng)期的攻擊。ai
2024狀態(tài)#stateofai
|
9stateof.aiIntroduction
|
Research
|
Industry
|
Politics
|
Safety
|記分卡:回顧我們對(duì)2023年的預(yù)測(cè)#stateofai
|stateof.aiIntroduction
|
Research
|
Industry
|
Politics
|
Safety
|我們對(duì)2023年的預(yù)測(cè)證據(jù)好萊塢級(jí)別的制作利用了生成式人工智能的視覺效果。一家生成式人工智能媒體公司因在2024年美國(guó)大選期間濫用職權(quán)而受到調(diào)查。自我提升的AI智能體在復(fù)雜環(huán)境中碾壓SOTA(例如AAA游戲、工具使用、科學(xué))??萍脊镜腎PO市場(chǎng)正在解凍,我們看到至少有一家專注于人工智能的公司(如DBRX)上市。在熱乃縮放熱潮中,一個(gè)團(tuán)體花費(fèi)了100多萬1B來訓(xùn)練一個(gè)大比例的模型.美國(guó)FTC或英國(guó)CMA以競(jìng)爭(zhēng)為由調(diào)查微軟/OpenAI交易。除了高級(jí)別自愿承諾,我們認(rèn)為全球人工智能治理的進(jìn)展有限。金融機(jī)構(gòu)推出GPU債務(wù)基金,以取代計(jì)算資金的風(fēng)險(xiǎn)投資股權(quán)美元。一首人工智能生成的歌曲闖入了Billboard
Hot
100
Top
10或Spotify
Top
Hits
2024。隨著推理工作量和成本的顯著增長(zhǎng),大型人工智能公司(如OpenAI)收購(gòu)或建立了一家專注于推理的人工智能芯片公司。很大程度上很糟糕,但GenAI
AI視覺效果已經(jīng)在Net
fix和HBO制作中出現(xiàn)。還沒有,但是還有時(shí)間。還沒有,盡管在開放性方面的工作很有希望,包括強(qiáng)大的游戲性能。盡管七大巨頭收益頗豐,但私營(yíng)企業(yè)仍在堅(jiān)守,直到市場(chǎng)穩(wěn)定下來。然而,人工智能芯片公司Cerebras已經(jīng)導(dǎo)致IPO。還沒有,讓我們?cè)俚纫荒臧?。兩家監(jiān)管機(jī)構(gòu)都在調(diào)查這種合作關(guān)系。布萊奇利和首爾峰會(huì)的承諾仍然是自愿的和高層次的。有傳言稱,一些風(fēng)險(xiǎn)投資基金正在為股權(quán)提供GPU,但我們尚未看到任何人走上債務(wù)之路。事實(shí)證明,這種情況在去年的《我袖子上的心》中已經(jīng)發(fā)生過,但我們也看到一首人工智能生成的歌曲在德國(guó)排名第27位,并連續(xù)幾天進(jìn)入前50名。據(jù)報(bào)道,薩姆·奧特曼正在為此籌集巨額資金,而谷歌、亞馬遜、Meta和微軟都在繼續(xù)建設(shè)和改進(jìn)自己的人工智能芯片。#stateofai
|stateof.aiIntroduction
|
Research
|
Industry
|
Politics
|
Safety
|第一部分:研究#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→OpenAI的恐怖統(tǒng)治結(jié)束了,直到…在這一年的大部分時(shí)間里,基準(zhǔn)測(cè)試和社區(qū)排行榜都指出了GPT-4和“其他最好的”之間的鴻溝。然而,Claude
3.5
Sonnet、Gemini
1.5和Grok
2幾乎消除了這一差距,因?yàn)槟P托阅墁F(xiàn)在開始趨同。在正式的基準(zhǔn)測(cè)試和基于vibes的分析中,資金最充足的前沿實(shí)驗(yàn)室能夠在單個(gè)能力上獲得較低的分?jǐn)?shù)?,F(xiàn)在,模型一直是非常能干的編碼者,擅長(zhǎng)事實(shí)回憶和數(shù)學(xué),但不太擅長(zhǎng)開放式問題回答和多模態(tài)問題解決。許多變化非常小,現(xiàn)在很可能是實(shí)施差異的產(chǎn)物。例如,GPT-4o在MMLU上的表現(xiàn)優(yōu)于克勞德3.5
Sonnet,但在MMLU-Pro上的表現(xiàn)明顯不如它,MMLU-Pro是一個(gè)旨在更具挑戰(zhàn)性的基準(zhǔn)測(cè)試。考慮到體系結(jié)構(gòu)之間相對(duì)微妙的技術(shù)差異和預(yù)訓(xùn)練數(shù)據(jù)中可能的嚴(yán)重重疊,模型構(gòu)建者現(xiàn)在越來越多地不得不在新功能和產(chǎn)品特性上競(jìng)爭(zhēng)。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→…草莓著陸了,加倍擴(kuò)展推理計(jì)算OpenAI團(tuán)隊(duì)很早就清楚地看到了推理計(jì)算的潛力,OpenAI
o1在其他實(shí)驗(yàn)室探索該技術(shù)的論文發(fā)表后幾周內(nèi)就出現(xiàn)了。通過將計(jì)算從訓(xùn)練前和訓(xùn)練后轉(zhuǎn)移到推理,o1以思維鏈(COT)的方式一步一步地通過復(fù)雜的提示進(jìn)行推理,采用RL來強(qiáng)化COT及其使用的策略。這開啟了解決多層數(shù)學(xué)、科學(xué)和編碼問題的可能性,由于下一個(gè)令牌預(yù)測(cè)的內(nèi)在限制,LLM在歷史上一直在努力解決這些問題。OpenAI報(bào)告對(duì)推理密集型基準(zhǔn)測(cè)試的顯著改進(jìn)與4o的對(duì)比,AIME
2024(競(jìng)賽數(shù)學(xué))上最明顯,得分高達(dá)83.83比
13.4。然而,這種能力的代價(jià)很高:100萬個(gè)輸入令牌o1-preview的價(jià)格為15美元,而100萬個(gè)輸出令牌將花費(fèi)你60美元。這使得它比GPT-4o貴3-4倍。OpenAI在其API文檔中明確表示,它不是對(duì)等的4o替代品,也不是需要一貫的快速響應(yīng)、圖像輸入或功能調(diào)用。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→o1展示了難以置信的優(yōu)勢(shì)和持續(xù)的弱點(diǎn)社區(qū)很快對(duì)o1進(jìn)行了測(cè)試,發(fā)現(xiàn)它在某些邏輯問題和謎題上的表現(xiàn)明顯優(yōu)于其他LLM。然而,它的真正優(yōu)勢(shì)在于復(fù)雜的數(shù)學(xué)和科學(xué)任務(wù),一個(gè)病毒式的視頻顯示,一名博士生在大約一個(gè)小時(shí)內(nèi)復(fù)制了他一年的博士代碼,反應(yīng)非常驚訝。然而,該模型在某些類型的空間推理上仍然較弱。像它的前輩一樣,它還不能通過下棋來拯救自己的生命。#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→美洲駝3填補(bǔ)了開放和封閉模式之間的差距4月Meta掉了Llama
3家族,7月3.1,9月3.2。美洲駝3.1
405B,它們最大的迄今為止,能夠在推理、數(shù)學(xué)、多語(yǔ)言和長(zhǎng)上下文任務(wù)方面與GPT-4o和克勞德3.5十四行詩(shī)相抗衡。這標(biāo)志著開放模式第一次縮小了與專利前沿的差距。Meta堅(jiān)持使用自Llama
1以來一直使用的只有解碼器的變壓器架構(gòu),只做了一些小的改動(dòng),即更多的變壓器層和注意力頭。Meta用了不可思議的15T代幣訓(xùn)練家族。雖然這超出了“龍貓最佳”的訓(xùn)練計(jì)算量,但他們發(fā)現(xiàn)8B和70B模型的對(duì)數(shù)線性提高了15T。Llama
3.1
405B經(jīng)過了16,000個(gè)H100
GPUs的訓(xùn)練,這是首個(gè)以此規(guī)模訓(xùn)練的Llama模型。Meta隨后在9月發(fā)布了Llama
3.2,其中包含了11B和90Bvlm(Llama的多模式首次亮相)。前者與克勞德3俳句有競(jìng)爭(zhēng)力,后者與GPT4o迷你。該公司還發(fā)布了1B和3B的純文本模式,旨在設(shè)備上運(yùn)行?;诿乐揆劦哪P同F(xiàn)在已經(jīng)累積超過4.4億只擁抱臉下載。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→但是“開源”模型有多“開放”呢?隨著開源獲得了相當(dāng)多的社區(qū)支持,并成為一個(gè)熱門的監(jiān)管問題,一些研究人員認(rèn)為這個(gè)術(shù)語(yǔ)經(jīng)常被誤導(dǎo)。它可用于將權(quán)重、數(shù)據(jù)集、許可和訪問方法方面的巨大差異的開放實(shí)踐集合在一起。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→污染是否影響進(jìn)展?隨著新型號(hào)系列一開始就報(bào)告了令人難以置信的強(qiáng)勁基準(zhǔn)性能,研究人員越來越多地關(guān)注數(shù)據(jù)集污染:測(cè)試或驗(yàn)證數(shù)據(jù)何時(shí)泄露到訓(xùn)練集中。Scale的研究人員在新的小學(xué)數(shù)學(xué)1000
(GSM1k)上重新測(cè)試了一些模型,這些模型反映了既定的GSM8k基準(zhǔn)的風(fēng)格和復(fù)雜性,在某些情況下發(fā)現(xiàn)了顯著的性能下降。同樣,X.ai的研究人員使用基于匈牙利國(guó)家最終數(shù)學(xué)考試的數(shù)據(jù)集對(duì)模型進(jìn)行了重新評(píng)估,結(jié)果類似。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→研究人員試圖糾正廣泛使用的基準(zhǔn)中的問題但是基準(zhǔn)測(cè)試的挑戰(zhàn)是雙向的。在一些最受歡迎的基準(zhǔn)測(cè)試中,錯(cuò)誤率高得驚人,這可能會(huì)導(dǎo)致我們低估一些模型的能力,從而帶來安全隱患。與此同時(shí),過度消費(fèi)的誘惑非常強(qiáng)烈。愛丁堡大學(xué)的一個(gè)團(tuán)隊(duì)統(tǒng)計(jì)了MMLU中的錯(cuò)誤數(shù)量,包括錯(cuò)誤的基本事實(shí)、不清楚的問題和多個(gè)正確答案。雖然在大多數(shù)個(gè)別主題中較低,但在某些領(lǐng)域中有較大的峰值,如病毒學(xué),其中57%的分析實(shí)例包含錯(cuò)誤。在手動(dòng)校正的MMLU子集上,模型的性能普遍提高,盡管在專業(yè)法律和形式邏輯上有所惡化。這表示在預(yù)訓(xùn)練期間學(xué)習(xí)了不準(zhǔn)確的MMLU實(shí)例。在更為安全關(guān)鍵的領(lǐng)域,OpenAI警告稱,評(píng)估模型解決現(xiàn)實(shí)世界軟件問題能力的SWE-bench低估了模型的自主軟件工程能力,因?yàn)樗y以或不可能解決的任務(wù)。研究人員與基準(zhǔn)的創(chuàng)建者合作,創(chuàng)建了SWE-bench
verified。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→憑感覺活著,憑感覺死去…或者閉上眼睛一年,OpenAI仍然是第一名LMSYS聊天機(jī)器人競(jìng)技場(chǎng)排行榜已經(jīng)成為社區(qū)最喜歡的通過“vibes”進(jìn)行正式評(píng)估的方法。但是隨著模型性能的提高,它開始產(chǎn)生違反直覺的結(jié)果arena允許用戶與兩個(gè)隨機(jī)選擇的聊天機(jī)器人并排互動(dòng),提供了一個(gè)粗略的眾包評(píng)估。然而,有爭(zhēng)議的是,這導(dǎo)致GPT-4o和GPT-4o迷你獲得相同的分?jǐn)?shù),后者也超過了克勞德十四行詩(shī)3.5。這引發(fā)了人們的擔(dān)憂,即這一排名實(shí)際上正在成為評(píng)估用戶最喜歡哪種寫作風(fēng)格的一種方式。此外,由于較小的模型往往在涉及更多令牌的任務(wù)上表現(xiàn)不佳,8k上下文限制可以說給了它們不公平的優(yōu)勢(shì)。然而,早期版本的愿景排行榜現(xiàn)在開始獲得關(guān)注,并與其他評(píng)估更好地保持一致。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→神經(jīng)符號(hào)系統(tǒng)正在卷土重來嗎?推理能力和訓(xùn)練數(shù)據(jù)的不足意味著人工智能系統(tǒng)經(jīng)常在數(shù)學(xué)和幾何問題上表現(xiàn)不佳。有了AlphaGeometry,一個(gè)符號(hào)化的演繹引擎就來了。谷歌DeepMind/NYU團(tuán)隊(duì)使用符號(hào)引擎生成了數(shù)百萬條合成定理和證明,用它們從頭開始訓(xùn)練語(yǔ)言模型。AlphaGeometry在提出新結(jié)構(gòu)的語(yǔ)言模型和執(zhí)行推理的符號(hào)引擎之間交替,直到找到解決方案。令人印象深刻的是,它解決了30個(gè)奧林匹克級(jí)幾何問題中的25個(gè),接近人類國(guó)際數(shù)學(xué)奧林匹克金牌得主的表現(xiàn)。下一個(gè)最好的AI性能得分只有10。它還展示了概括能力——例如,發(fā)現(xiàn)2004年IMO問題中的特定細(xì)節(jié)對(duì)于證明是不必要的。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→可以在對(duì)性能影響最小的情況下縮小模型…研究表明,面對(duì)被智能修剪的更深層——旨在處理復(fù)雜、抽象或特定于任務(wù)的信息——模型是健壯的。也許有可能走得更遠(yuǎn)。一個(gè)Meta/MIT團(tuán)隊(duì)研究了開放權(quán)重預(yù)訓(xùn)練的LLM,得出結(jié)論認(rèn)為,可以取消多達(dá)一半的模型層,并且在問答基準(zhǔn)測(cè)試中只遭受微不足道的性能下降。他們根據(jù)相似性確定了要移除的最佳層,然后通過少量有效的微調(diào)“修復(fù)”了模型。NVIDIA研究人員采取了一種更激進(jìn)的方法,通過修剪層、神經(jīng)元、注意力頭和嵌入,然后使用知識(shí)提煉進(jìn)行有效的再培訓(xùn)。MINITRON模型源自Nemotron-4
15B,其性能相當(dāng)于或優(yōu)于Mistral
7B和Llama-3
8B等模型,而使用的訓(xùn)練令牌卻減少了40倍。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→…隨著精選模特變得越來越時(shí)尚正如Andrej
Karpathy和其他人所認(rèn)為的,當(dāng)前的大型模型可能是訓(xùn)練效率低下的反映。使用這些大模型來定義和合成訓(xùn)練數(shù)據(jù),可以幫助訓(xùn)練有能力的小模型。谷歌已經(jīng)接受了這種方法,從Gemini
1.5
Pro中提取了Gemini
1.5
Flash,而Gemma
2
9B是從Gemma
2
27B中提取的,Gemma
2B是從一個(gè)更大的未發(fā)布的模型中提取的。也有社區(qū)猜測(cè),克勞德3俳句,一個(gè)非常有能力的較小模型,是較大作品的精華版本,但Anthropic從未證實(shí)這一點(diǎn)。這些蒸餾努力也正在向多模式發(fā)展。黑森林實(shí)驗(yàn)室發(fā)布了FLUX.1dev,這是一個(gè)從他們的Pro模型中提取的開放權(quán)重文本到圖像。為了支持這些努力,社區(qū)已經(jīng)開始生產(chǎn)開源蒸餾工具,如arcee.ai的DistillKit,它支持基于Logit和基于隱藏狀態(tài)的蒸餾。Llama3.1405B也用于蒸餾,在Meta更新其條款后,輸出邏輯可用于改進(jìn)任何模特,不僅僅是駱馬。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→專為移動(dòng)設(shè)備打造的機(jī)型與規(guī)模更大的同行競(jìng)爭(zhēng)隨著大型科技公司考慮大規(guī)模終端用戶部署,我們開始看到高性能LLM和多模態(tài)模型,它們小到足以在智能手機(jī)上運(yùn)行。微軟的phi-3.5-mini是一款3.8B
LM,與7B和Llama
3.1
8B等更大的型號(hào)競(jìng)爭(zhēng)。它在推理和問答方面表現(xiàn)很好,但大小限制了它的事實(shí)知識(shí)。為了支持設(shè)備上的推斷,該模型被量化為4位,從而將其內(nèi)存占用減少到大約1.8GB。蘋果推出了MobileCLIP,這是一系列高效的圖像-文本模型,針對(duì)智能手機(jī)上的快速推理進(jìn)行了優(yōu)化。使用新的多模態(tài)強(qiáng)化訓(xùn)練,他們通過轉(zhuǎn)移來自圖像字幕模型和強(qiáng)剪輯編碼器集合的知識(shí)來提高緊湊模型的準(zhǔn)確性。擁抱臉也加入了SmolLM的行列,SmolLM是一個(gè)小型語(yǔ)言模型家族,有135M、360M和1.7B三種格式。通過使用由增強(qiáng)版Cosmopedia創(chuàng)建的高度精確的合成數(shù)據(jù)集(見幻燈片31),該團(tuán)隊(duì)實(shí)現(xiàn)了該尺寸的SOTA性能。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→量化領(lǐng)域的強(qiáng)勁成果預(yù)示著設(shè)備上的未來可以通過降低LLM參數(shù)的精度來減少其內(nèi)存需求。研究人員越來越多地設(shè)法最小化性能權(quán)衡。微軟的BitNet使用“位線性”層來取代標(biāo)準(zhǔn)的線性層,采用1位權(quán)重和量化激活。與全精度模型相比,它表現(xiàn)出了具有競(jìng)爭(zhēng)力的性能,并展示了與全精度變壓器相似的縮放定律,同時(shí)具有顯著的內(nèi)存和節(jié)能效果。微軟隨后推出了BitNet
b1.58,采用三進(jìn)制權(quán)重來匹配3B規(guī)模的全精度LLM性能,同時(shí)保持效率增益。與此同時(shí),字節(jié)跳動(dòng)的TiTok(基于變壓器的一維令牌化器)將圖像量化為離散令牌的緊湊1D序列,用于圖像重建和生成任務(wù)。這允許用少至32個(gè)標(biāo)記來表示圖像,而不是數(shù)百或數(shù)千個(gè)標(biāo)記。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→再現(xiàn)微調(diào)會(huì)解鎖設(shè)備上的個(gè)性化嗎?參數(shù)高效微調(diào)(例如通過LoRA)并不新鮮,但斯坦福大學(xué)的研究人員認(rèn)為,更有針對(duì)性的方法可以提供更高的效率和適應(yīng)性。受模型可解釋性研究的啟發(fā),ReFT(表示微調(diào))不會(huì)改變模型的權(quán)重。相反,它在推理時(shí)操縱模型的內(nèi)部表示來控制它的行為。與基于權(quán)重的微調(diào)方法相比,ReFT需要的參數(shù)少了15-65倍,但干擾代價(jià)很小。它還可以對(duì)特定層和標(biāo)記位置進(jìn)行更具選擇性的干預(yù),從而對(duì)適應(yīng)過程進(jìn)行精細(xì)控制。研究人員展示了它在少數(shù)鏡頭適應(yīng)中的潛力,其中聊天模型被賦予了一個(gè)只有五個(gè)例子的新角色。結(jié)合用于學(xué)習(xí)干預(yù)的小存儲(chǔ)空間,它可以用于具有足夠計(jì)算能力的設(shè)備上的實(shí)時(shí)個(gè)性化。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→混合動(dòng)力車型開始獲得關(guān)注結(jié)合注意力和其他機(jī)制的模型能夠保持甚至提高準(zhǔn)確性,同時(shí)減少計(jì)算成本和內(nèi)存占用。像Mamba這樣的選擇性狀態(tài)空間模型,去年設(shè)計(jì)用于更有效地處理長(zhǎng)序列,在某種程度上可以與變壓器競(jìng)爭(zhēng),但在需要復(fù)制或上下文學(xué)習(xí)的任務(wù)上落后。也就是說,F(xiàn)alcon的Mamba7B與類似大小的變壓器模型相比,表現(xiàn)出了令人印象深刻的基準(zhǔn)性能?;旌蟿?dòng)力車型似乎是一個(gè)更有前途的方向。結(jié)合自我關(guān)注和MLP層,AI21的Mamba-Transformer混合模型在知識(shí)和推理基準(zhǔn)方面優(yōu)于8BTransformer,同時(shí)在推理中生成令牌的速度提高了8倍。在懷舊之旅中,有回歸神經(jīng)網(wǎng)絡(luò)的早期跡象,由于訓(xùn)練和擴(kuò)展困難,回歸神經(jīng)網(wǎng)絡(luò)已經(jīng)過時(shí)。由GoogleDeepMind訓(xùn)練的Griffin混合了線性遞歸和局部注意力,在對(duì)6倍的令牌進(jìn)行訓(xùn)練的同時(shí),與Llama-2保持一致。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→我們能把變形金剛提煉成混合模型嗎?這……很復(fù)雜。通過從一個(gè)更大、更強(qiáng)大的模型中轉(zhuǎn)移知識(shí),人們可以改善亞二次模型的性能,使我們能夠利用它們?cè)谙掠稳蝿?wù)中的效率。MOHAWK是一種新的方法,用于將知識(shí)從一個(gè)大型的、預(yù)先訓(xùn)練好的轉(zhuǎn)換模型(教師)中提取到一個(gè)更小的次二次模型(學(xué)生),如狀態(tài)空間模型(SSM)。它對(duì)齊I)學(xué)生和教師模型的序列變換矩陣ii)和每層的隱藏狀態(tài),然后iii)將教師模型的剩余權(quán)重轉(zhuǎn)移到學(xué)生模型以調(diào)整它。作者創(chuàng)造了Phi-Mamba,這是一個(gè)新的學(xué)生模型,結(jié)合了
Mamba-2和MLP模塊以及一個(gè)名為Hybrid-Phi-Mamba保留了教師模型中的一些注意力層。Mohawk可以訓(xùn)練Phi-Mamba和Hybrid-Phi-Mamba達(dá)到接近老師模型的性能。Phi-Mamba僅使用3B令牌提取,不到1%的ai
2024
狀態(tài)數(shù)據(jù)用于訓(xùn)練之前表現(xiàn)最好的Mamba模型,2%的數(shù)據(jù)用于
Phi-1.5模型本身。Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions
#stateofai
|無論哪種方式,變形金剛都將繼續(xù)占據(jù)統(tǒng)治地位(目前)使用變壓器替代品和混合模型是有趣的,但在現(xiàn)階段仍然是利基。一種范式似乎仍然統(tǒng)治著它們。變形金剛與其他范例22%74%ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→合成數(shù)據(jù)開始獲得更廣泛的采用…去年的報(bào)告指出了圍繞合成數(shù)據(jù)的意見分歧:一些人認(rèn)為合成數(shù)據(jù)有用,另一些人則擔(dān)心合成數(shù)據(jù)可能會(huì)增加誤差,從而引發(fā)模型崩潰。輿論似乎正在升溫。除了作為Phi系列訓(xùn)練數(shù)據(jù)的主要來源,Anthropic在訓(xùn)練Claude3時(shí)還使用了合成數(shù)據(jù)來幫助表示訓(xùn)練數(shù)據(jù)中可能缺失的場(chǎng)景。擁抱臉使用Mixtral-8x7B指令生成超過3000萬個(gè)文件和25B個(gè)合成教科書、博客帖子和故事的令牌,以重新創(chuàng)建Phi-1.5訓(xùn)練數(shù)據(jù)集,他們將其命名為Cosmopedia。為了使這一過程更容易,NVIDIA發(fā)布了Nemotron-4-340B系列,這是一套專門為合成數(shù)據(jù)生成而設(shè)計(jì)的模型,可通過許可許可證獲得。Meta的Llama也可以用于合成數(shù)據(jù)生成。似乎也可以使用類似于Magpie的技術(shù),通過直接從對(duì)齊的LLM中提取數(shù)據(jù)來創(chuàng)建合成的高質(zhì)量指令數(shù)據(jù)。以這種方式微調(diào)的模型有時(shí)表現(xiàn)與Llama-3-8B-Instruct相當(dāng)。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→…但是團(tuán)隊(duì)模型崩潰不會(huì)在沒有戰(zhàn)斗的情況下發(fā)生隨著模型構(gòu)建者向前推進(jìn),研究人員一直在努力評(píng)估是否存在觸發(fā)這種結(jié)果的合成數(shù)據(jù)量的臨界點(diǎn),以及是否有任何緩解措施奏效來自牛津和劍橋研究人員的一篇自然論文發(fā)現(xiàn),模型崩潰發(fā)生在各種人工智能架構(gòu)中,包括微調(diào)的語(yǔ)言模型,挑戰(zhàn)了預(yù)訓(xùn)練或定期接觸少量原始數(shù)據(jù)可以防止退化(通過困惑分?jǐn)?shù)衡量)的想法。這創(chuàng)造了“先發(fā)優(yōu)勢(shì)”,因?yàn)槌掷m(xù)訪問各種各樣的人為數(shù)據(jù)對(duì)于保持模型質(zhì)量將變得越來越重要。然而,這些結(jié)果主要集中在真實(shí)數(shù)據(jù)被幾代人的合成數(shù)據(jù)取代的情況。實(shí)際上,真實(shí)的和合成的數(shù)據(jù)通常會(huì)累積起來。其他研究表明,如果合成數(shù)據(jù)的比例不太高,崩潰通常是可以避免的。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→網(wǎng)絡(luò)數(shù)據(jù)被大規(guī)模公開傾倒——證明質(zhì)量是關(guān)鍵Team
Hugging
Face使用96個(gè)CommonCrawl快照為L(zhǎng)LM預(yù)訓(xùn)練建立了一個(gè)15T的令牌數(shù)據(jù)集,它產(chǎn)生的LLM優(yōu)于其他開放的預(yù)訓(xùn)練數(shù)據(jù)集。他們還發(fā)布了使用手冊(cè)。FineWeb數(shù)據(jù)集是通過多步過程創(chuàng)建的,包括基礎(chǔ)過濾、獨(dú)立每次轉(zhuǎn)儲(chǔ)的最小哈希重復(fù)數(shù)據(jù)刪除、從C4數(shù)據(jù)集中選擇的過濾器以及團(tuán)隊(duì)的定制過濾器。使用traflatura庫(kù)的文本提取比默認(rèn)的CommonCrawl濕文件產(chǎn)生了更高質(zhì)量的數(shù)據(jù),即使產(chǎn)生的數(shù)據(jù)集明顯更小。●他們發(fā)現(xiàn),在達(dá)到收益遞減點(diǎn)之前,重復(fù)數(shù)據(jù)刪除在一定程度上推動(dòng)了性能的提高,然后使其惡化。該團(tuán)隊(duì)還使用llama-3-70b-instruct對(duì)FineWeb的50萬個(gè)樣本進(jìn)行了注釋,并對(duì)每個(gè)樣本的教育質(zhì)量進(jìn)行了評(píng)分,分值范圍為0到5。FineWeb-edu篩選出得分低于3的樣本,盡管規(guī)模明顯較小,但表現(xiàn)優(yōu)于FineWeb和所有其他開放數(shù)據(jù)集。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→檢索和嵌入占據(jù)了中心位置雖然檢索和嵌入并不新鮮,但對(duì)檢索增強(qiáng)生成(RAG)的興趣日益增長(zhǎng),這促進(jìn)了嵌入模型質(zhì)量的提高。遵循在常規(guī)LLM中被證明有效的劇本,規(guī)模帶來了巨大的性能改進(jìn)(GritLM有大約47B個(gè)參數(shù),而以前的嵌入模型中通常有110萬個(gè)參數(shù))。類似地,廣泛的網(wǎng)絡(luò)規(guī)模語(yǔ)料庫(kù)的使用和改進(jìn)的過濾方法導(dǎo)致了較小模型的巨大改進(jìn)。同時(shí),ColPali是一個(gè)視覺語(yǔ)言嵌入模型,它利用文檔的視覺結(jié)構(gòu),而不僅僅是它們的文本嵌入,來改進(jìn)檢索。檢索模型是少數(shù)幾個(gè)子領(lǐng)域之一,在這些子領(lǐng)域中,開放模型通常優(yōu)于來自最大實(shí)驗(yàn)室的專有模型。在MTEB檢索排行榜上,OpenAI的嵌入模型排在第29位,而NVIDIA的open
NV-Embed-v2排在前面。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→背景被證明是性能的關(guān)鍵驅(qū)動(dòng)因素傳統(tǒng)的RAG解決方案通常涉及用滑動(dòng)窗口一次創(chuàng)建256個(gè)標(biāo)記的文本片段(128個(gè)與先前的塊重疊)。這使得檢索更加有效,但準(zhǔn)確性明顯降低。Anthropic使用“上下文嵌入”解決了這個(gè)問題,其中一個(gè)提示指示模型生成解釋文檔中每個(gè)塊的上下文的文本。他們發(fā)現(xiàn),這種方法可以將前20名的檢索失敗率降低35%(5.7%→3.7%)。然后可以使用Anthropic的提示緩存對(duì)其進(jìn)行縮放。正如CMU的Fernando
Diaz在最近的帖子中所觀察到的,這是一個(gè)很好的例子,說明人工智能研究的一個(gè)領(lǐng)域(例如早期的語(yǔ)音檢索和文檔擴(kuò)展工作)所開創(chuàng)的技術(shù)正在應(yīng)用到另一個(gè)領(lǐng)域?!靶碌木褪桥f的”的另一個(gè)版本。Chroma的研究表明,組塊策略的選擇可以影響檢索性能,召回率高達(dá)9%。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→RAG的評(píng)估仍未解決許多常用的RAG基準(zhǔn)都是重新設(shè)計(jì)的檢索或問答數(shù)據(jù)集。他們沒有有效評(píng)估引用的準(zhǔn)確性、每段文字對(duì)整體答案的重要性,或信息要點(diǎn)的影響。研究人員現(xiàn)在正在開拓新的方法,如Ragnar?,它通過成對(duì)系統(tǒng)比較引入了一個(gè)新的基于網(wǎng)絡(luò)的人類評(píng)估平臺(tái)。這解決了超越傳統(tǒng)自動(dòng)化指標(biāo)評(píng)估RAG質(zhì)量的挑戰(zhàn)。同時(shí),Researchy
Questions提供了一個(gè)復(fù)雜的、多方面的問題的大規(guī)模集合,這些問題需要從真實(shí)的用戶查詢中進(jìn)行深入的研究和分析來回答。stateof.aiIntroduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions
#stateofai
|前沿實(shí)驗(yàn)室正視電網(wǎng)的現(xiàn)實(shí),并致力于緩解隨著計(jì)算集群變得越來越大,它們變得越來越難以構(gòu)建和維護(hù)。群集需要高帶寬、低延遲的連接,并且對(duì)設(shè)備異構(gòu)性很敏感。研究人員看到了替代品的潛力。谷歌DeepMind提出了分布式低通信(DiLoCo),這是一種優(yōu)化算法,允許在多個(gè)松散連接的設(shè)備“孤島”上進(jìn)行訓(xùn)練。每個(gè)島在與其他島通信之前執(zhí)行大量的本地更新步驟,減少了頻繁的數(shù)據(jù)交換需求。他們能夠展示跨其中8個(gè)孤島的完全同步優(yōu)化,同時(shí)將通信量減少500倍。GDM還提出了DiLoCo的重新定義版本,針對(duì)異步設(shè)置進(jìn)行了優(yōu)化。Prime
Intellect的研究人員發(fā)布了DiLoCo的開源實(shí)現(xiàn)和復(fù)制,同時(shí)將其放大3倍,以展示其在
1B參數(shù)模型上的有效性。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→更好的數(shù)據(jù)監(jiān)管方法能否降低培訓(xùn)計(jì)算需求?數(shù)據(jù)管理是有效預(yù)培訓(xùn)的重要組成部分,但通常是手動(dòng)完成的,效率低下。這既難以擴(kuò)展,又浪費(fèi)資源,尤其是對(duì)于多模態(tài)模型。通常,整個(gè)數(shù)據(jù)集都是預(yù)先處理的,這并沒有考慮到訓(xùn)練示例的相關(guān)性在學(xué)習(xí)過程中會(huì)如何變化。這些方法經(jīng)常在訓(xùn)練前應(yīng)用,因此不能適應(yīng)訓(xùn)練期間變化的需求。谷歌DeepMind的JEST聯(lián)合選擇整批數(shù)據(jù),而不是獨(dú)立的單個(gè)例子。選擇由“可學(xué)性分?jǐn)?shù)”(由預(yù)先訓(xùn)練的參考模型確定)指導(dǎo),該分?jǐn)?shù)評(píng)估它對(duì)訓(xùn)練的有用程度。它能夠?qū)?shù)據(jù)選擇直接集成到訓(xùn)練過程中,使其具有動(dòng)態(tài)性和適應(yīng)
性。JEST在數(shù)據(jù)選擇和部分訓(xùn)練中使用較低分辨率的圖像處理,顯著降低了計(jì)算成本,同時(shí)保持了性能優(yōu)勢(shì)。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→中國(guó)(V)LLM不顧制裁沖擊排行榜DeepSeek生產(chǎn)的型號(hào),01。人工智能、智普人工智能和阿里巴巴在LMSYS排行榜上取得了強(qiáng)勢(shì)地位,在數(shù)學(xué)和編碼方面表現(xiàn)尤為突出。來自中國(guó)實(shí)驗(yàn)室的最強(qiáng)模型與美國(guó)實(shí)驗(yàn)室生產(chǎn)的第二強(qiáng)前沿模型具有競(jìng)爭(zhēng)力,同時(shí)在某些子任務(wù)上挑戰(zhàn)SOTA。這些實(shí)驗(yàn)室優(yōu)先考慮計(jì)算效率,以彌補(bǔ)GPU訪問的限制,學(xué)會(huì)比美國(guó)同行更充分地利用資源。中國(guó)的實(shí)驗(yàn)室各有所長(zhǎng)。例如,DeepSeek開創(chuàng)了多頭潛在注意力等技術(shù),以減少推理過程中的內(nèi)存需求和增強(qiáng)的MoE架構(gòu)。同時(shí)01。人工智能不太關(guān)注架構(gòu)創(chuàng)新,而是更多地關(guān)注建立一個(gè)強(qiáng)大的中文數(shù)據(jù)集,以彌補(bǔ)其在流行知識(shí)庫(kù)中的相對(duì)匱乏,如普通爬行。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→中國(guó)的開源項(xiàng)目贏得了全世界的粉絲為了推動(dòng)國(guó)際采納和評(píng)估,中國(guó)實(shí)驗(yàn)室已經(jīng)成為熱情的開源貢獻(xiàn)者。一些模型已經(jīng)成為單個(gè)子領(lǐng)域的有力競(jìng)爭(zhēng)者。DeepSeek已經(jīng)成為編碼任務(wù)的社區(qū)最愛,deepseek-coder-v2結(jié)合了速度、輕便和準(zhǔn)確性。阿里巴巴最近發(fā)布了Qwen-2系列,該社區(qū)對(duì)其視覺功能印象尤為深刻,從挑戰(zhàn)性的OCR任務(wù)到分析復(fù)雜藝術(shù)作品的能力。在較小的一端,清華大學(xué)的
NLP
實(shí)驗(yàn)室資助了
OpenBMB,該項(xiàng)目
生了
MiniCPM
項(xiàng)目。這些是可以在設(shè)備上運(yùn)行的小于2.5B的小型參數(shù)模型。他們的2.8B
vision車型在某些指標(biāo)上僅略微落后于GPT-4V,而基于8.5BLlama
3的車型在某些指標(biāo)上超過了它。清華大學(xué)的知識(shí)工程小組也創(chuàng)造了cogvideox——最有能力的文本到視頻模型之一。stateof.aiIntroduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions#stateofai
|+
→vlm實(shí)現(xiàn)了開箱即用的SOTA性能2018年的第一份人工智能狀態(tài)報(bào)告詳細(xì)介紹了研究人員的艱苦努力,他們?cè)噲D通過創(chuàng)建數(shù)百萬帶標(biāo)簽視頻的數(shù)據(jù)集來教授模型常識(shí)場(chǎng)景理解?,F(xiàn)在,每個(gè)主要的前沿模型構(gòu)建者都提供了開箱即用的視覺功能。甚至更小的模型,從幾百M(fèi)到一位數(shù)的B參數(shù)大小,如微軟的Florence-2或NVIDIA的LongVILA,都可以實(shí)現(xiàn)顯著的效
果。艾倫人工智能研究所的開源Molmo可以在更大的專有GPT-4o面前保持自己的優(yōu)勢(shì)。2018
2024stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→用于圖像生成的擴(kuò)散模型變得越來越復(fù)雜從文本到圖像的擴(kuò)散模型開始,Stability
AI一直在尋找提高質(zhì)量同時(shí)帶來更高效率的要素。通過將創(chuàng)建高質(zhì)量圖像所需的采樣步驟從可能的數(shù)百個(gè)減少到1-4個(gè),同時(shí)保持高清晰度,對(duì)抗性擴(kuò)散蒸餾加快了圖像生成。它將對(duì)抗訓(xùn)練與分?jǐn)?shù)提取相結(jié)合:僅使用預(yù)先訓(xùn)練的擴(kuò)散模型作為指導(dǎo)來訓(xùn)練模型。除了解鎖單步生成,作者還專注于降低計(jì)算復(fù)雜度和提高采樣效率。整流流通過直接的直線而不是彎曲的路徑連接數(shù)據(jù)和噪聲,從而改進(jìn)了傳統(tǒng)的擴(kuò)散方法。他們將其與基于變壓器的新型架構(gòu)相結(jié)合,用于文本到圖像,允許文本和圖像組件之間的雙向信息流動(dòng)。這增強(qiáng)了模型基于文本描述生成更準(zhǔn)確和連貫的高分辨率圖像的能力。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→穩(wěn)定的視頻擴(kuò)散標(biāo)志著高質(zhì)量視頻生成向前邁進(jìn)了一步…Stability
AI發(fā)布了Stable
Video
Diffusion,這是首批能夠從文本提示生成高質(zhì)量、逼真視頻的模型之
一,同時(shí)在可定制性方面有了顯著提升。該團(tuán)隊(duì)采用三階段方法進(jìn)行訓(xùn)練:I)在大型文本到圖像數(shù)據(jù)集上進(jìn)行圖像預(yù)訓(xùn)練,ii)在大型精選低分辨率視頻數(shù)據(jù)集上進(jìn)行視頻預(yù)訓(xùn)練,iii)在較小的高分辨率視頻數(shù)據(jù)集上進(jìn)行微調(diào)。3月份,他們又推出了穩(wěn)定的3D視頻,在第三個(gè)對(duì)象數(shù)據(jù)集上進(jìn)行了調(diào)整,以預(yù)測(cè)3D軌道。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→…引領(lǐng)大型實(shí)驗(yàn)室發(fā)布他們自己的門控文本到視頻的成果谷歌DeepMind和OpenAI都給了我們非常強(qiáng)大的文本到視頻擴(kuò)散模型的預(yù)覽。但是訪問仍然受到嚴(yán)格限制,雙方都沒有提供太多的技術(shù)細(xì)節(jié)。OpenAI的黑臉田雞能夠生成長(zhǎng)達(dá)一分鐘的視頻,同時(shí)保持3D一致性,對(duì)象持久性和高分辨率。它使用時(shí)空補(bǔ)丁,類似于變壓器模型中使用的令牌,但對(duì)于視覺內(nèi)容,可以從龐大的視頻數(shù)據(jù)集中有效地學(xué)習(xí)。黑臉田雞還接受了視覺數(shù)據(jù)的原始大小和縱橫比的訓(xùn)練,去除了降低質(zhì)量的常見裁剪和大小調(diào)整。谷歌DeepMind的Veo將文本和可選的圖像提示與嘈雜的壓縮視頻輸入相結(jié)合,通過編碼器和潛在擴(kuò)散模型進(jìn)行處理,以創(chuàng)建獨(dú)特的壓縮視頻表示。然后,系統(tǒng)將這種表示解碼成最終的高分辨率視頻。此外,還有Runway的Gen-3
Alpha,Luma的夢(mèng)想機(jī)器,還有快手的克林。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→Meta走得更遠(yuǎn),將音頻融入其中保持其他實(shí)驗(yàn)室的門控方法,Meta通過Make-A-Scene和Llama家族將其在不同模式上的工作整合在一起,以構(gòu)建電影Gen。Movie
Gen的核心是30B視頻一代和13B音頻一代模型,能夠分別以每秒16幀和45秒的音頻剪輯制作16秒的視頻。這些模型利用文本到圖像和文本到視頻任務(wù)的聯(lián)合優(yōu)化技術(shù),以及為任意長(zhǎng)度的視頻生成連貫音頻的新穎音頻擴(kuò)展方法。Movie
Gen的視頻編輯功能將先進(jìn)的圖像編輯技術(shù)與視頻生成相結(jié)合,允許在保留原始內(nèi)容的同時(shí)進(jìn)行本地化編輯和全局更改。這些模型是在許可的和公開的數(shù)據(jù)集上訓(xùn)練的。Meta使用A/B人工評(píng)估比較來展示其四項(xiàng)主要能力相對(duì)于競(jìng)爭(zhēng)行業(yè)模型的積極凈勝率。研究人員說他們打算制作這個(gè)模型將來會(huì)推出,但不要承諾時(shí)間表或發(fā)布策略。ai
2024狀態(tài)Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions
#stateofai
|艾獲得諾貝爾獎(jiǎng)一個(gè)跡象表明,人工智能作為一門科學(xué)學(xué)科和一種加速科學(xué)的工具已經(jīng)真正成熟,皇家瑞典學(xué)院科學(xué)獎(jiǎng)將諾貝爾獎(jiǎng)授予深度學(xué)習(xí)領(lǐng)域的OG先驅(qū),以及其在科學(xué)領(lǐng)域最知名應(yīng)用(迄今為止)的設(shè)計(jì)師。整個(gè)球場(chǎng)都在慶祝這個(gè)消息。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→AlphaFold
3:超越蛋白質(zhì)及其與其他生物分子的相互作用DeepMind和同構(gòu)實(shí)驗(yàn)室發(fā)布了AlphaFold
3,它們是AF2的繼任者,現(xiàn)在可以模擬小分子藥物、DNA、RNA和抗體如何與蛋白質(zhì)靶相互作用。與AF2相比,算法上有了實(shí)質(zhì)性的令人驚訝的變化:為了簡(jiǎn)化和擴(kuò)大規(guī)模,所有的等方差約束都被移除了,而結(jié)構(gòu)模塊被替換為擴(kuò)散模型來構(gòu)建3D坐標(biāo)。不出所料,研究人員聲稱,與其他方法相比,AF3表現(xiàn)得非常好。對(duì)于小分子對(duì)接),盡管這沒有與更強(qiáng)的基線進(jìn)行比較。值得注意的是,目前還沒有開放源代碼。幾個(gè)獨(dú)立團(tuán)體正致力于公開復(fù)制該作品。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→…開始一場(chǎng)競(jìng)賽,成為第一個(gè)復(fù)制全功能AlphaFold3克隆體的人不為AF3出版物發(fā)布代碼的決定極具爭(zhēng)議,許多人指責(zé)大自然。撇開政治不談,初創(chuàng)企業(yè)和人工智能社區(qū)一直在競(jìng)相讓他們的模型成為首選。第一匹馬是百度的HelixFold3模型,在配體結(jié)合方面與AF3相當(dāng)。他們提供一個(gè)網(wǎng)絡(luò)服務(wù)器,并且他們的代碼是完全開源的,用于非商業(yè)用途。來自Chai
Discovery(由OpenAI支持)的Chai-1最近發(fā)布了一個(gè)分子結(jié)構(gòu)預(yù)測(cè)模型,該模型由于其性能和高質(zhì)量的實(shí)現(xiàn)而廣受歡迎。該網(wǎng)絡(luò)服務(wù)器也可用于商業(yè)藥物研發(fā)。我們?nèi)栽诘却粋€(gè)完全開源的模型,沒有任何限制(例如,使用其他模型的訓(xùn)練輸出)。如果DeepMind開始擔(dān)心替代模型正在成為社區(qū)的最愛,他們會(huì)更快完全發(fā)布AF3嗎?stateof.ai狀態(tài)ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→AlphaProteo:
DeepMind展示了新的實(shí)驗(yàn)生物學(xué)能力DeepMind的秘密蛋白質(zhì)設(shè)計(jì)團(tuán)隊(duì)最終“走出了秘密”,推出了他們的第一個(gè)模型AlphaProteo,這是一個(gè)生成模型,能夠設(shè)計(jì)出精度提高3至300倍的亞納摩爾蛋白質(zhì)結(jié)合劑。雖然沒有給出多少技術(shù)細(xì)節(jié),但它似乎是基于AlphaFold3構(gòu)建的,很可能是一個(gè)擴(kuò)散模型。目標(biāo)表位上的“熱點(diǎn)”也可以被指定。該模型能夠設(shè)計(jì)出比以前的工作(例如RFDiffusion)具有3到300倍更好的結(jié)合能力的蛋白質(zhì)結(jié)合物。蛋白質(zhì)設(shè)計(jì)領(lǐng)域的“骯臟秘密”是,計(jì)算機(jī)過濾與生成模型一樣重要(如果不是更重要的話),該論文認(rèn)為基于AF3的評(píng)分是關(guān)鍵。他們還使用他們的置信度指標(biāo)來篩選大量可能的新靶標(biāo),用于設(shè)計(jì)未來的蛋白質(zhì)結(jié)合物。2024#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→慘痛的教訓(xùn):等方差已死…等方差萬歲!等方差的概念是給予模型感應(yīng)偏差,以自然地處理旋轉(zhuǎn)、平移和(有時(shí))反射。自AlphaFold
2以來,它一直是幾何深度學(xué)習(xí)和生物分子建模研究的核心。然而,頂級(jí)實(shí)驗(yàn)室最近的作品對(duì)現(xiàn)有的咒語(yǔ)提出了質(zhì)疑。第一次拍攝是由蘋果公司拍攝的,一篇論文獲得了SOTA獎(jiǎng)使用帶有變換編碼器的非等變擴(kuò)散模型預(yù)測(cè)小分子三維結(jié)構(gòu)的結(jié)果。值得注意的是,作者表明,使用領(lǐng)域不可知模型不會(huì)對(duì)泛化產(chǎn)生不利影響,并且始終能夠優(yōu)于專業(yè)模型(假設(shè)使用了足夠的規(guī)模)。接下來是AlphaFold
3,它臭名昭著地拋棄了以前模型中的所有等方差和框架約束,轉(zhuǎn)而支持另一個(gè)擴(kuò)散過程,當(dāng)然還有擴(kuò)展和規(guī)模。無論如何,等變模型的訓(xùn)練效率大大提高意味著這種做法可能會(huì)持續(xù)一段時(shí)間(至少?gòu)氖碌鞍踪|(zhì)等大系統(tǒng)研究的學(xué)術(shù)團(tuán)體)。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→生物學(xué)前沿模型的標(biāo)度:進(jìn)化標(biāo)度的ESM3自2019年以來,Meta一直在發(fā)布基于transformer的語(yǔ)言模型(進(jìn)化規(guī)模模型),這些模型是在大規(guī)模氨基酸和蛋白質(zhì)數(shù)據(jù)庫(kù)上訓(xùn)練的。當(dāng)Meta在2023年終止這些努力時(shí),該團(tuán)隊(duì)創(chuàng)建了EvolutionaryScale。今年,他們發(fā)布了ESM3,這是一個(gè)前沿的多模態(tài)生成模型,經(jīng)過了蛋白質(zhì)序列、結(jié)構(gòu)和功能的訓(xùn)練,而不僅僅是序列。該模型是一個(gè)雙向轉(zhuǎn)換器,它將代表三種模態(tài)中每一種模態(tài)的標(biāo)記融合為一個(gè)單獨(dú)的潛在空間。與傳統(tǒng)的屏蔽語(yǔ)言建模不同,ESM3的訓(xùn)練過程使用可變的屏蔽時(shí)間表,將模型暴露于屏蔽序列、結(jié)構(gòu)和功能的不同組合。ESM3學(xué)習(xí)預(yù)測(cè)任何模態(tài)組合的完井。ESM3被提示生成新的綠色熒光蛋白(GFP),其與已知蛋白的序列相似性較低。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→學(xué)習(xí)設(shè)計(jì)人類基因組編輯器的語(yǔ)言模型我們之前介紹了如何使用在大量不同的天然蛋白質(zhì)序列數(shù)據(jù)集上預(yù)先訓(xùn)練的LLM(例如ProGen2)來設(shè)計(jì)與天然蛋白質(zhì)序列完全不同的功能蛋白質(zhì)?,F(xiàn)在,Pro
fuent在他們的CRISPR-Cas圖譜上優(yōu)化了ProGen2,以生成具有新序列的功能基因組編輯器,重要的是,該編輯器首次在體外編輯了人類細(xì)胞的DNA。CRISPR-Cas圖譜由超過100萬個(gè)不同的CRISPR-Cas操縱子組成,包括各種效應(yīng)子系統(tǒng),這些操縱子是從26.2萬億堿基的組裝微生物基因組和宏基因組中挖掘出來的,跨越了不同的門和生物群落。生成的序列比來自CRISPR-Cas圖譜的天然蛋白質(zhì)多4.8倍。與最接近的天然蛋白質(zhì)的同一性中值通常在40-60%之間。對(duì)Cas9蛋白進(jìn)行微調(diào)的模型可以生成新的編輯器,然后在人類細(xì)胞中進(jìn)行驗(yàn)證。一個(gè)這樣的編輯器提供了最好的編輯性能和71.7%的序列相似性SpCas9,并被開源為OpenCRISPR-1。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→然而,BioML中的評(píng)估和基準(zhǔn)仍然很差生物學(xué)和人工智能交叉研究的根本問題是,很少有人既有技能訓(xùn)練一個(gè)前沿模型,又能給它一個(gè)嚴(yán)格的生物學(xué)評(píng)價(jià)。PoseCheck和PoseBusters在2023年底的兩項(xiàng)工作表明,分子生成和蛋白質(zhì)-配體對(duì)接的ML模型給出了具有嚴(yán)重物理違規(guī)的結(jié)構(gòu)(poses)。當(dāng)Inductive
bio顯示使用稍微更先進(jìn)的傳統(tǒng)對(duì)接管道擊敗AF3時(shí),即使是AlphaFold3論文也沒有幸免于難。由Valence
Labs領(lǐng)導(dǎo)的新行業(yè)聯(lián)盟,包括主要制藥公司(如Recursion、Relay、Merck、Novartis(J&J)和PFIzer),正在開發(fā)Polaris,這是一個(gè)基準(zhǔn)測(cè)試平臺(tái),用于人工智能驅(qū)動(dòng)的藥物發(fā)現(xiàn)。北極星將提供高質(zhì)量的數(shù)據(jù)集,促進(jìn)評(píng)估,并認(rèn)證基準(zhǔn)。與此同時(shí),遞歸在擾動(dòng)地圖構(gòu)建方面的工作導(dǎo)致他們創(chuàng)建了一組新的基準(zhǔn)和度量標(biāo)準(zhǔn)。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→跨科學(xué)的基礎(chǔ)模型:無機(jī)材料為了確定物理材料的屬性以及它們?cè)诜磻?yīng)中的行為,有必要進(jìn)行原子級(jí)的模擬,目前這種模擬依賴于密度泛函理論。這種方法功能強(qiáng)大,但速度慢且計(jì)算量大。雖然計(jì)算力場(chǎng)(原子間勢(shì))的替代方法更快,但往往不夠準(zhǔn)確,特別是對(duì)于反應(yīng)事件和相變。2022年,NeurIPS引入了與高效多體消息(MACE)相結(jié)合的等變消息傳遞神經(jīng)網(wǎng)絡(luò)(MPNN)?,F(xiàn)在,作者提出了MACE-MP-0,它使用MACE架構(gòu),并在材料項(xiàng)目軌跡數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含數(shù)百萬個(gè)結(jié)構(gòu)、能量、磁矩、力和應(yīng)力。該模型通過考慮同時(shí)涉及四個(gè)原子的相互作用,將消息傳遞層的數(shù)量減少到兩層,并且它只在網(wǎng)絡(luò)的選擇性部分使用非線性激活。它能夠?qū)滔唷⒁合嗪蜌庀嗟母鞣N化學(xué)過程進(jìn)行分子動(dòng)力學(xué)模擬。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→拓展蛋白質(zhì)功能設(shè)計(jì)空間:挑戰(zhàn)折疊和可溶性類似物表征和產(chǎn)生不存在于可溶形式但存在于膜環(huán)境中的蛋白質(zhì)的結(jié)構(gòu)是具有挑戰(zhàn)性的,并且阻礙了旨在靶向膜受體的藥物的開發(fā)。大且包含非局部拓?fù)涞牡鞍踪|(zhì)折疊的設(shè)計(jì)也是如此。AF2和序列模型能否補(bǔ)救這一點(diǎn),并讓藥物設(shè)計(jì)者獲得更大的可溶性蛋白質(zhì)組,而這些蛋白質(zhì)組具有以前無法獲得的折疊?為此,作者首先使用一個(gè)倒置的AF2模型,在給定目標(biāo)折疊結(jié)構(gòu)的情況下生成一個(gè)初始序列。然后,在通過
AF2重新預(yù)測(cè)結(jié)構(gòu)之前,通過ProteinMPNN優(yōu)化這些序列,隨后基于與目標(biāo)結(jié)構(gòu)的結(jié)構(gòu)相似性進(jìn)行過濾。這條AF2-MPNN管道在三個(gè)具有挑戰(zhàn)性的褶皺上進(jìn)行了測(cè)試:IGF、BBF和TBF,這些褶皺具有治療效用。也有可能產(chǎn)生僅膜折疊的可溶性類似物,這可以大大加快針對(duì)膜結(jié)合受體蛋白的藥物發(fā)現(xiàn)。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→大腦的基礎(chǔ)模型:從功能磁共振成像中學(xué)習(xí)大腦活動(dòng)深度學(xué)習(xí)最初受到神經(jīng)科學(xué)的啟發(fā),現(xiàn)在正在對(duì)大腦本身進(jìn)行建模。BrainLM是一個(gè)基礎(chǔ)模型,建立在由功能性磁共振成像(fMRI)生成的6,700小時(shí)人腦活動(dòng)記錄的基礎(chǔ)上,該功能性磁共振成像檢測(cè)血氧的變化(左圖)。該模型學(xué)習(xí)重建屏蔽的時(shí)空大腦活動(dòng)序列,重要的是,它可以推廣到保留分布(右圖)。該模型可以進(jìn)行微調(diào),以比圖形卷積模型或LSTM更好地預(yù)測(cè)臨床變量,如年齡、神經(jīng)質(zhì)、PTSD和焦慮癥評(píng)分。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→跨科學(xué)的基礎(chǔ)模型:大氣傳統(tǒng)的大氣模擬方法,如數(shù)值天氣預(yù)報(bào),成本很高,并且不能利用各種各樣且通常很少的大氣數(shù)據(jù)形式。但是,基礎(chǔ)模型非常適合這里。微軟的研究人員創(chuàng)建了Aurora,這是一個(gè)基礎(chǔ)模型,可以對(duì)廣泛的大氣預(yù)測(cè)問題進(jìn)行預(yù)測(cè),如全球空氣污染和高分辨率中期天氣模式。它還可以通過利用大氣動(dòng)力學(xué)的通用學(xué)習(xí)表示來適應(yīng)新的任務(wù)。1.3B模型基于來自6個(gè)數(shù)據(jù)集的超過100萬小時(shí)的天氣和氣候數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,包括預(yù)測(cè)、分析數(shù)據(jù)、再分析數(shù)據(jù)和氣候模擬。該模型將異質(zhì)輸入編碼為跨空間和壓力水平的標(biāo)準(zhǔn)三維大氣表示,該表示通過視覺轉(zhuǎn)換器的推理隨時(shí)間演變,并解碼為特定預(yù)測(cè)。重要的是,它是預(yù)測(cè)大氣化學(xué)(6種主要空氣污染物,如臭氧、一氧化碳)的第一個(gè)模型,涉及數(shù)百個(gè)僵硬的方程,比數(shù)值模型更好。模型也是5000倍比使用數(shù)值預(yù)報(bào)的綜合預(yù)報(bào)系統(tǒng)更快。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→頭腦的基礎(chǔ)模型:重建你所看到的MindEye2是一個(gè)生成模型,它將fMRI活動(dòng)映射到豐富的剪輯空間,使用精細(xì)調(diào)節(jié)的穩(wěn)定擴(kuò)散XL從該空間重建個(gè)人所見的圖像。該模型在自然場(chǎng)景數(shù)據(jù)集(Natural
Scenes
Dataset)上進(jìn)行訓(xùn)練,這是一個(gè)由8名受試者構(gòu)建的fMRI數(shù)據(jù)集,當(dāng)他們觀看來自COCO數(shù)據(jù)集掃描會(huì)話的數(shù)百個(gè)豐富的自然刺激時(shí),他們的大腦反應(yīng)被捕捉了30-40個(gè)小時(shí),每個(gè)掃描會(huì)話持續(xù)3秒鐘。ai
2024狀態(tài)#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions+
→說出你的想法用可植入的微電極從大腦記錄中解碼語(yǔ)音,可以使有語(yǔ)言障礙的病人進(jìn)行交流。在最近的一個(gè)病例中,一名
45歲的肌萎縮性側(cè)索硬化癥(ALS)患者伴有四肢癱和嚴(yán)重的運(yùn)動(dòng)語(yǔ)言損傷,他接受了手術(shù),將微電極植入大
腦。該陣列記錄了患者在提示和非結(jié)構(gòu)化對(duì)話環(huán)境中說話時(shí)的神經(jīng)活動(dòng)。首先,通過預(yù)測(cè)最可能的英語(yǔ)音素,皮層神經(jīng)活動(dòng)被解碼為50個(gè)單詞的小詞匯量,準(zhǔn)確率為99.6%。使用RNN將音素序列組合成單詞,然后通過進(jìn)一步的訓(xùn)練移動(dòng)到更大的125,000單詞的詞匯表。ai
2024狀態(tài)Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions
#stateofai
|一項(xiàng)新的挑戰(zhàn)旨在將該行業(yè)重新聚焦在通往AGI的道路上Keras的創(chuàng)始人弗朗索瓦·喬萊(Fran?
ois
Chollet)與Zapier的聯(lián)合創(chuàng)始人邁克·努普(Mike
Knoop)合作推出了ARC獎(jiǎng),為在ARC-AGI基準(zhǔn)測(cè)試中取得顯著進(jìn)步的團(tuán)隊(duì)提供100萬美元的獎(jiǎng)金Chollet在2019年創(chuàng)建了這個(gè)基準(zhǔn),作為衡量模型歸納能力的一種手段,專注于對(duì)人類來說更容易而對(duì)人工智能來說很難的任務(wù)。這些任務(wù)需要最少的先驗(yàn)知識(shí),強(qiáng)調(diào)視覺問題解決和類似謎題的任務(wù),使其不易記憶。歷史上,LLM在基準(zhǔn)測(cè)試中表現(xiàn)不佳,性能峰值約為34%。Chollet對(duì)LLMs歸納其訓(xùn)練數(shù)據(jù)之外的新問題的能力表示懷疑,并希望該獎(jiǎng)將鼓勵(lì)新的研究方向,從而導(dǎo)致更像人類的智能形式。迄今為止的最高分是46分(未達(dá)到85分的目標(biāo))。這是由MindsAI團(tuán)隊(duì)實(shí)現(xiàn)的,他們使用了基于LLM的方法,采用主動(dòng)推理,在測(cè)試任務(wù)示例上微調(diào)LLM,并用合成示例擴(kuò)展它以提高性能。stateof.ai#stateofai
|Introduction
|
Research
|
Industry
|
Politics
|
Safety
|
Predictions→LLM仍然在計(jì)劃和模擬任務(wù)中掙扎在新的任務(wù)中,LLM不能依靠記憶和檢索,性能通常會(huì)下降。這表明,在沒有外部幫助的情況下,他們?nèi)匀怀3ky以超越熟悉的模式進(jìn)行歸納。即使像GPT-4這樣的高級(jí)LLM也很難可靠地模擬基于文本的游戲中的狀態(tài)轉(zhuǎn)換,尤其是環(huán)境驅(qū)動(dòng)的變化。他們無法始終如一地理解因果關(guān)系、物理學(xué)和物體永恒性,這使他們成為糟糕的世界建模者,即使是在相對(duì)簡(jiǎn)單的任務(wù)上。研究人員發(fā)現(xiàn),LLM可以在大約77%的時(shí)間內(nèi)準(zhǔn)確預(yù)測(cè)直接動(dòng)作的結(jié)果,如水槽打開,但卻難以應(yīng)對(duì)環(huán)境影響,如水槽中裝滿水的杯子,對(duì)這些間接變化的準(zhǔn)確率僅為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年壬二酸合作協(xié)議書
- 2025年汽車減震元件合作協(xié)議書
- 2025年種植施肥機(jī)械合作協(xié)議書
- 2025年非熱殺菌先進(jìn)設(shè)備合作協(xié)議書
- 人教版 八年級(jí)英語(yǔ)下冊(cè) Unit 1 單元綜合測(cè)試卷(2025年春)
- 2025年產(chǎn)品來料加工協(xié)議(三篇)
- 2025年個(gè)人投資理財(cái)委托協(xié)議簡(jiǎn)單版(2篇)
- 2025年二灰拌合場(chǎng)地租賃協(xié)議范文(2篇)
- 2025年九年級(jí)化學(xué)實(shí)驗(yàn)室工作總結(jié)模版(二篇)
- 2025年產(chǎn)品外觀專用協(xié)議標(biāo)準(zhǔn)版本(2篇)
- 醫(yī)院消防安全培訓(xùn)課件
- 質(zhì)保管理制度
- 《00541語(yǔ)言學(xué)概論》自考復(fù)習(xí)題庫(kù)(含答案)
- 2025年機(jī)關(guān)工會(huì)個(gè)人工作計(jì)劃
- 2024年全國(guó)卷新課標(biāo)1高考英語(yǔ)試題及答案
- 華為經(jīng)營(yíng)管理-華為激勵(lì)機(jī)制(6版)
- 江蘇省南京市、鹽城市2023-2024學(xué)年高三上學(xué)期期末調(diào)研測(cè)試+英語(yǔ)+ 含答案
- 2024護(hù)理不良事件分析
- 光伏項(xiàng)目的投資估算設(shè)計(jì)概算以及財(cái)務(wù)評(píng)價(jià)介紹
- 2024新版《藥品管理法》培訓(xùn)課件
- 干燥綜合征診斷及治療指南
評(píng)論
0/150
提交評(píng)論