2024年全球人工智能安全指數(shù)報(bào)告(中文)_第1頁(yè)
2024年全球人工智能安全指數(shù)報(bào)告(中文)_第2頁(yè)
2024年全球人工智能安全指數(shù)報(bào)告(中文)_第3頁(yè)
2024年全球人工智能安全指數(shù)報(bào)告(中文)_第4頁(yè)
2024年全球人工智能安全指數(shù)報(bào)告(中文)_第5頁(yè)
已閱讀5頁(yè),還剩128頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

FLIAI安全指數(shù)2024獨(dú)立專家評(píng)估關(guān)鍵領(lǐng)域領(lǐng)先人工智能公司的安全實(shí)踐。可在以下網(wǎng)址在線獲?。?index生命未來(lái)研究所1介紹2記分卡2主要調(diào)查結(jié)果2獨(dú)立審查小組3索引設(shè)計(jì)4證據(jù)基礎(chǔ)5分級(jí)過(guò)程7結(jié)果7附錄A-分級(jí)表12附錄B-公司調(diào)查42附錄C-公司答復(fù)64未來(lái)生命研究所(FLI)是一家獨(dú)立的非營(yíng)利組織,其目標(biāo)是降低大規(guī)模風(fēng)險(xiǎn),引導(dǎo)變革性技術(shù)造福人類,特別關(guān)注人工智能(AI)。如欲了解更多信息,請(qǐng)?jiān)L問(wèn)。生命未來(lái)研究所2人工智能能力的快速提高提高了人們對(duì)公司如何報(bào)告、評(píng)估和嘗試減輕相關(guān)風(fēng)險(xiǎn)的興趣。因此,未來(lái)生命研究所(FLI)推動(dòng)了人工智能安全指數(shù),這是一種旨在評(píng)估和比較領(lǐng)先人工智能公司安全實(shí)踐的該指數(shù)的核心是一個(gè)獨(dú)立的審查小組,其中包括一些世界上最重要的人工智能專家。審查員的任務(wù)是根據(jù)FLI收集的全面證據(jù)庫(kù)對(duì)公司的安全政策進(jìn)行評(píng)級(jí)。該指數(shù)旨在通過(guò)提高透明度、突出值得稱贊的努力和確定關(guān)注的領(lǐng)域來(lái)激勵(lì)負(fù)責(zé)任的人工智能發(fā)展。CC+乙-D+D+C+D+DeepMindD+CC+D-DD+DOpenAID+CD+D型D型D+D型DD+D+FFDCFDFFFCFD+DFFD-F評(píng)分:使用美國(guó)GPA系統(tǒng)的等級(jí)界限:A+,A,A-,B+,[...],對(duì)應(yīng)于數(shù)值4.3、4.0、3.7、3.3、[...]的F字母值0.?風(fēng)險(xiǎn)管理差距很大:雖然一些公司已經(jīng)建立了初步的安全框架或進(jìn)行了一些認(rèn)真的風(fēng)險(xiǎn)評(píng)估工作,但其他公司甚至還沒(méi)有采取最基本的預(yù)防措施。?越獄:所有旗艦型號(hào)都被發(fā)現(xiàn)容易受到對(duì)抗性攻擊。?控制問(wèn)題:盡管他們明確表示要開(kāi)發(fā)能夠與人類智能相媲美或超越人類智能的通用人工智能(AGI),但審查小組認(rèn)為,所有公司目前的戰(zhàn)略都不足以確保這些系統(tǒng)保持安全并處于人類控制之下。?外部監(jiān)督:審查人員不斷強(qiáng)調(diào),在缺乏獨(dú)立監(jiān)督的情況下,公司如何無(wú)法抵制利潤(rùn)驅(qū)動(dòng)的激勵(lì),在安全方面偷工減料。雖然Anthropic目前的治理結(jié)構(gòu)和OpenAI的初始治理結(jié)構(gòu)被認(rèn)為是有希望的,但專家們呼吁對(duì)所有公司的風(fēng)險(xiǎn)評(píng)估和安全框架合規(guī)性進(jìn)行第生命未來(lái)研究所32024年人工智能安全指數(shù)由FLI總裁麻省理工學(xué)院教授MaxTegmark邀請(qǐng)的世界知名人工智能專家組成的獨(dú)立小組進(jìn)行評(píng)分。該小組經(jīng)過(guò)精心挑選,以確保公正性和廣泛的專業(yè)知識(shí),涵蓋人工智能的技術(shù)和治理方面。小組的選擇優(yōu)先考慮杰出的學(xué)者和非營(yíng)利部門的領(lǐng)導(dǎo)人,以盡量減少潛在的利益沖突。專家組根據(jù)收集到的證據(jù)基礎(chǔ),考慮到公眾和公司提交的信息,進(jìn)行了評(píng)級(jí)。他們的評(píng)估結(jié)合可操作的建議,旨在激勵(lì)行業(yè)內(nèi)更安全的人工智能實(shí)踐。請(qǐng)參閱“評(píng)分過(guò)程”一節(jié)了解更多詳情。YoongeBengio是蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)和運(yùn)籌學(xué)系的正教授,也是Mila的創(chuàng)始人和科學(xué)總監(jiān)他是2018年A.M.圖靈獎(jiǎng)的獲得者,CIFARAI主席,倫敦皇家學(xué)會(huì)和加拿大皇家學(xué)會(huì)的研究員,加拿大勛章的官員,法國(guó)榮譽(yù)軍團(tuán)騎士,聯(lián)合國(guó)科學(xué)咨詢委員會(huì)成員,科學(xué)和技術(shù)突破獨(dú)立建議,以及先進(jìn)人工智能安全國(guó)際科學(xué)報(bào)告的主席AtoosaKasirzadehAtoosaKasirzadeh是一位哲學(xué)家和人工智能研究員,在卡內(nèi)基梅隆大學(xué)擔(dān)任助理教授。在此之前,她是谷歌的客座研究員,愛(ài)丁堡大學(xué)技術(shù)未來(lái)中心的校長(zhǎng)研究員和研究主任,艾倫圖靈研究所的研究負(fù)責(zé)人,DeepMind的實(shí)習(xí)生,以及牛津大學(xué)人工智能研究員的治理。她的跨學(xué)科研究解決了有關(guān)人工智能的社會(huì)影響,治理大衛(wèi)·克魯格DavidKrueger是蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)與運(yùn)籌學(xué)系(DIRO)的魯棒,推理和負(fù)責(zé)任人工智能助理教授,也是加州大學(xué)伯克利分校人類兼容人工智能中心Mila和潛在風(fēng)險(xiǎn)研究中心的核心學(xué)術(shù)他的工作重點(diǎn)是通過(guò)技術(shù)研究以及教育,推廣,治理和宣傳來(lái)泰根·馬哈拉杰TeganMaharaj是HEC蒙特利爾決策科學(xué)系的助理教授,她領(lǐng)導(dǎo)著ERRATA生態(tài)風(fēng)險(xiǎn)和負(fù)責(zé)任人工智能實(shí)驗(yàn)室。她也是Mila的核心學(xué)術(shù)成員她的研究重點(diǎn)是推進(jìn)負(fù)責(zé)任的人工智能開(kāi)發(fā)的科學(xué)和技術(shù)。在此之前,她曾擔(dān)任多倫多大學(xué)機(jī)器學(xué)習(xí)助理教授斯涅哈·雷瓦努爾SnehaRevanur是EncodeJustice的創(chuàng)始人兼總裁,EncodeJustice是一個(gè)由全球青年領(lǐng)導(dǎo)的組織,倡導(dǎo)對(duì)人工智能進(jìn)行道德監(jiān)管。在她的領(lǐng)導(dǎo)下,EncodeJustice動(dòng)員了成千上萬(wàn)的年輕人來(lái)應(yīng)對(duì)算法偏見(jiàn)和人工智能問(wèn)責(zé)制等挑戰(zhàn)。她被列入《時(shí)代》雜志首屆人工智能領(lǐng)域最具影響力的100人名單。JessicaNewman是人工智能安全倡議(AISI)的負(fù)責(zé)人,該倡議位于加州大學(xué)伯克利分校她也是加州大學(xué)伯克利分校AI政策中心的聯(lián)合主任。紐曼的研究重點(diǎn)是人工智能的治理,政策和政治,特別關(guān)注國(guó)家人工智能戰(zhàn)略和政策的比較分析,以及對(duì)組織發(fā)展和人工智能系統(tǒng)部署的評(píng)估和問(wèn)責(zé)機(jī)制StuartRussellStuartRussell是加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)教授,工程學(xué)Smith-Zadeh主席,以及人類兼容AI中心和Kavli倫理,科學(xué)和公眾中心的主任他是IJCAI計(jì)算機(jī)和思想獎(jiǎng),IJCAI研究卓越獎(jiǎng)和ACM艾倫紐厄爾獎(jiǎng)的獲得者2021年,他獲得了伊麗莎白女王陛下頒發(fā)的OBE,并在BBCReithLectures發(fā)表演講。他與人合著了人工智能的標(biāo)準(zhǔn)教科書(shū),該教科書(shū)在135個(gè)國(guó)家的1500多所大學(xué)中使用。生命未來(lái)研究所4AI安全指數(shù)評(píng)估了六家領(lǐng)先的通用AI開(kāi)發(fā)商的安全實(shí)踐:Anthropic、OpenAI、GoogleDeepMind、Meta、x.AI和智普AI。該指數(shù)提供了一個(gè)全面的評(píng)估,重點(diǎn)是六個(gè)關(guān)鍵領(lǐng)域,42個(gè)指標(biāo)分布在這些領(lǐng)域:1.風(fēng)險(xiǎn)評(píng)估2.當(dāng)前傷害3.安全框架4.潛在安全策略5.治庸問(wèn)責(zé)6.透明度溝通指標(biāo)范圍從公司治理政策到外部模型評(píng)估實(shí)踐,以及專注于安全性、公平性和穩(wěn)健性的人工智能基準(zhǔn)的實(shí)證結(jié)果全套指標(biāo)可參見(jiàn)附錄A中的分級(jí)表。下一頁(yè)的表1給出了一個(gè)快速概述這些指標(biāo)的關(guān)鍵1.相關(guān)性:該清單強(qiáng)調(diào)了學(xué)術(shù)界和政策界廣泛認(rèn)可的人工智能安全和負(fù)責(zé)任行為方面。許多指標(biāo)是直接從領(lǐng)先的研究機(jī)構(gòu)進(jìn)行的相關(guān)項(xiàng)目中納入的,如斯坦福大學(xué)的基金會(huì)模型研究中心。2.可比性:我們選擇了突出安全實(shí)踐中有意義的差異的指標(biāo),這些差異可以根據(jù)現(xiàn)有證據(jù)進(jìn)行識(shí)別。因此,省略了無(wú)法獲得結(jié)論性差異證據(jù)的安全預(yù)防措施。公司的選擇是基于他們到2025年建造最強(qiáng)大模型的預(yù)期能力。此外,將中國(guó)公司智普AI納入其中,反映了我們讓指數(shù)代表全球領(lǐng)先公司的隨著競(jìng)爭(zhēng)格局的演變,未來(lái)的迭代可能會(huì)關(guān)注不同的公司。我們承認(rèn),該指數(shù)雖然全面,但并沒(méi)有涵蓋負(fù)責(zé)任的人工智能開(kāi)發(fā)的各個(gè)方面,而是只關(guān)注通用人工智能。我們歡迎對(duì)指標(biāo)選擇的反饋,并努力將合適的建議納入下一次指數(shù)迭代。生命未來(lái)研究所5危險(xiǎn)能力評(píng)估AIRBench2024風(fēng)險(xiǎn)領(lǐng)域控制/調(diào)整策略公司結(jié)構(gòu)就安全條例進(jìn)行TrustLLM基準(zhǔn)風(fēng)險(xiǎn)閾值能力目標(biāo)董事會(huì)對(duì)決策者的證詞部署前外部安全測(cè)試SEAL對(duì)抗性穩(wěn)健性排行榜模型評(píng)價(jià)安全研究領(lǐng)導(dǎo)關(guān)于災(zāi)難性風(fēng)險(xiǎn)的領(lǐng)導(dǎo)溝通部署后外部研究人員訪問(wèn)灰天鵝越獄競(jìng)技場(chǎng)-排行榜決策支持外部安全研究伙伴關(guān)系斯坦福大學(xué)2024年基金會(huì)模型透明度指數(shù)1.1模型漏洞的漏洞獎(jiǎng)勵(lì)微調(diào)保護(hù)風(fēng)險(xiǎn)緩解措施條件停頓粘附保證內(nèi)部審查安全評(píng)價(jià)透明度開(kāi)發(fā)前風(fēng)險(xiǎn)評(píng)估碳抵消任務(wù)說(shuō)明舉報(bào)人保護(hù)&非貶低協(xié)議遵守公開(kāi)承諾水印用戶輸入的隱私數(shù)據(jù)抓取軍事、戰(zhàn)爭(zhēng)情報(bào)應(yīng)用服務(wù)條款分析人工智能安全指數(shù)以全面的證據(jù)基礎(chǔ)為基礎(chǔ),以確保評(píng)估信息充分和透明。這些證據(jù)被匯編成詳細(xì)的評(píng)分表,向?qū)彶樾〗M提供了所有42項(xiàng)指標(biāo)的公司具體數(shù)據(jù)。這些表格包括原始來(lái)源的超鏈接,可在附錄A中全文查閱。證據(jù)收集依靠?jī)蓚€(gè)主要途徑:?公開(kāi)可用的信息:大多數(shù)數(shù)據(jù)來(lái)源于可公開(kāi)獲取的材料,包括研究論文、政策文件、新聞文章和行業(yè)報(bào)告。這一做法提高了透明度,使利益攸關(guān)方能夠通過(guò)追溯信息的原始來(lái)源來(lái)核實(shí)信息?公司調(diào)查:為補(bǔ)充公開(kāi)數(shù)據(jù),向接受評(píng)估的公司分發(fā)了一份有針對(duì)性的問(wèn)卷該調(diào)查旨在收集有關(guān)安全相關(guān)結(jié)構(gòu)、流程和策略的更多見(jiàn)解,包括尚未公開(kāi)披露的信息。證據(jù)收集時(shí)間跨度為2024年5月14日至11月27日對(duì)于人工智能基準(zhǔn)測(cè)試的經(jīng)驗(yàn)結(jié)果,我們注意到數(shù)據(jù)提取日期以解釋模型更新。根據(jù)我們對(duì)透明度和問(wèn)責(zé)制的承諾,所有收集到的證據(jù)-無(wú)論是公開(kāi)的還是公司提供的-都已記錄在案,并在附錄中提供以供審查。生命未來(lái)研究所6人工智能安全指數(shù)建立在廣泛研究的基礎(chǔ)上,并從幾個(gè)在通用人工智能領(lǐng)域提高透明度和問(wèn)責(zé)制的著名項(xiàng)目中汲取靈感。其中兩個(gè)最全面的相關(guān)項(xiàng)目是由SaferAI(一家在風(fēng)險(xiǎn)管理方面擁有深厚專業(yè)知識(shí)的非營(yíng)利組織)和AILabW(一項(xiàng)研究計(jì)劃,旨在確定減輕高級(jí)人工智能極端風(fēng)險(xiǎn)的策略,并報(bào)告公司實(shí)施這些策略的情況)制定的風(fēng)險(xiǎn)管理評(píng)級(jí)安全指數(shù)直接整合了斯坦福大學(xué)基礎(chǔ)模型研究中心(CFRN)的研究結(jié)果,特別是他們的基礎(chǔ)模型透明度指數(shù),以及AIR-Bench2024的經(jīng)驗(yàn)結(jié)果,AIR-Bench2024引用的其他經(jīng)驗(yàn)數(shù)據(jù)包括2024年TrustLLM基準(zhǔn),Scale的對(duì)抗魯棒性評(píng)估和GraySwan越獄的分?jǐn)?shù)。這些來(lái)源為GPAI系統(tǒng)的可信度、公平性和魯棒性提供了寶貴的見(jiàn)解。為了評(píng)估存在的安全戰(zhàn)略,該指數(shù)利用了人工智能政策與戰(zhàn)略研究所對(duì)領(lǐng)先人工智能公司的技術(shù)安全研究的詳細(xì)調(diào)查結(jié)果外部評(píng)估指標(biāo)由麻省理工學(xué)院的ShayneLongpre領(lǐng)導(dǎo)的研究提供信息,“安全框架”部分的結(jié)構(gòu)來(lái)自人工智能治理中心和非營(yíng)利研究機(jī)構(gòu)METR的相關(guān)出版物。此外,我們感謝那些致力于讓公司承擔(dān)責(zé)任的記者,他們的報(bào)告在評(píng)分表中被引用。為了補(bǔ)充公開(kāi)數(shù)據(jù),AI安全指數(shù)納入了針對(duì)公司調(diào)查的見(jiàn)解。本調(diào)查問(wèn)卷旨在收集有關(guān)安全相關(guān)結(jié)構(gòu)、流程和計(jì)劃的詳細(xì)信息該調(diào)查包括七個(gè)類別的85個(gè)問(wèn)題:網(wǎng)絡(luò)安全,治理,透明度,風(fēng)險(xiǎn)評(píng)估,風(fēng)險(xiǎn)緩解,當(dāng)前危害和潛在安全。問(wèn)題包括二進(jìn)制,多項(xiàng)選擇和開(kāi)放式格式,允許公司提供細(xì)致入微的答案。完整的調(diào)查結(jié)果見(jiàn)附錄B。調(diào)查答復(fù)與審查人員共享,指標(biāo)的相關(guān)信息也直接納入評(píng)分表。評(píng)級(jí)表中明確列出了公司提供的信息。雖然x.AI和智普AI選擇參與調(diào)查中的目標(biāo)問(wèn)題,但Anthropic,GoogleDeepMind和Meta只向我們推薦了已經(jīng)公開(kāi)共享信息的相關(guān)來(lái)源OpenAI決定不支持這個(gè)項(xiàng)目。加入獎(jiǎng)勵(lì)金雖然不到一半的公司提供了實(shí)質(zhì)性的答案,但參與調(diào)查的程度在“透明度和溝通”部分得到了認(rèn)可。選擇不參與調(diào)查的公司將受到一級(jí)處罰。這一調(diào)整激勵(lì)了參與,并承認(rèn)了安全實(shí)踐透明度的價(jià)值。這一處罰已在評(píng)分表中傳達(dá)給審查小組,并建議審查人員在對(duì)相關(guān)部分評(píng)分時(shí)不要額外考慮調(diào)查參與情況。FLI仍然致力于鼓勵(lì)更多的人參與未來(lái)的迭代,以確保盡可能強(qiáng)大和具有代表性的評(píng)價(jià)。生命未來(lái)研究所7評(píng)級(jí)過(guò)程旨在確保對(duì)被評(píng)估公司的安全實(shí)踐進(jìn)行嚴(yán)格和公正的評(píng)估。在2024年11月27日證據(jù)收集階段結(jié)束后,總結(jié)公司特定數(shù)據(jù)的評(píng)分表與領(lǐng)先的人工智能科學(xué)家和治理專家組成的獨(dú)立小組共享。評(píng)分表包括所有與指標(biāo)有關(guān)的信息和評(píng)分說(shuō)明。小組成員被指示根據(jù)絕對(duì)規(guī)模分配等級(jí),而不僅僅是相對(duì)于彼此對(duì)公司進(jìn)行評(píng)分。FLI包括每個(gè)領(lǐng)域的粗略分級(jí)規(guī)則,以確保評(píng)價(jià)的一致性除了字母等級(jí)外,還鼓勵(lì)評(píng)審人員用簡(jiǎn)短的理由來(lái)支持他們的等級(jí),并提供關(guān)鍵的改進(jìn)建議。鼓勵(lì)專家們根據(jù)自己的判斷納入更多的見(jiàn)解和衡量指標(biāo),確保他們的評(píng)價(jià)既反映了證據(jù)基礎(chǔ),又反映了他們的專門知識(shí)。考慮到評(píng)審員專業(yè)知識(shí)的差異,F(xiàn)LI選擇了一個(gè)子集對(duì)“潛在安全策略”進(jìn)行評(píng)分,另一個(gè)子集對(duì)“當(dāng)前損害”部分進(jìn)行評(píng)價(jià)。除此之外,所有專家都被邀請(qǐng)對(duì)每個(gè)部分進(jìn)行評(píng)分,盡管有些人更喜歡只對(duì)他們最熟悉的領(lǐng)域進(jìn)行評(píng)分。最后,每一部分都由四個(gè)或更多的評(píng)審員打分成績(jī)匯總為每個(gè)領(lǐng)域的平均分?jǐn)?shù),并在記分卡中顯示。通過(guò)采用這種結(jié)構(gòu)化但靈活的方法,評(píng)級(jí)過(guò)程不僅突出了當(dāng)前的安全實(shí)踐,而且還確定了可改進(jìn)的領(lǐng)域,鼓勵(lì)公司在未來(lái)的評(píng)估中爭(zhēng)取更高的標(biāo)準(zhǔn)。有人可能會(huì)說(shuō),邊境上的大公司應(yīng)該遵守最高的安全標(biāo)準(zhǔn)。因此,我們最初考慮給員工少得多或模型分?jǐn)?shù)低得多的公司1/3的額外分?jǐn)?shù)。最后,為了簡(jiǎn)單起見(jiàn),我們決定不這樣做。這一選擇并沒(méi)有改變公司的排名。本節(jié)介紹了每個(gè)領(lǐng)域的平均評(píng)分,并總結(jié)了評(píng)審小組專家提供的理由和改進(jìn)建議。風(fēng)險(xiǎn)評(píng)估級(jí)C+CCD+FD+評(píng)分0OpenAI、GoogleDeepMind和Anthropic因?qū)嵤┝烁鼑?yán)格的測(cè)試來(lái)識(shí)別潛在的危險(xiǎn)能力而受到贊揚(yáng),例如與競(jìng)爭(zhēng)對(duì)手相比,在網(wǎng)絡(luò)攻擊或生物武器制造中濫用。然而,即使是這些努力也被發(fā)現(xiàn)具有明顯的局限性,使人們對(duì)與GPAI相關(guān)的風(fēng)險(xiǎn)OpenAI的提升研究和欺騙評(píng)估對(duì)評(píng)論者來(lái)說(shuō)是值得注意的。Anthropic在與國(guó)家人工智能安全研究所合作方面做了最令人印象深刻的工作Meta在部署之前評(píng)估了其模型的危險(xiǎn)能力,但關(guān)鍵的威脅模型,如與自治,陰謀和說(shuō)服有關(guān)的模型仍然沒(méi)有得到解決。ZhipuAI的風(fēng)險(xiǎn)評(píng)估工作被認(rèn)為是生命未來(lái)研究所8x.AI沒(méi)有公布任何實(shí)質(zhì)性的部署前評(píng)價(jià),大大低于行業(yè)標(biāo)準(zhǔn)。一位評(píng)審員建議,應(yīng)擴(kuò)大人類參與者提升研究的范圍和規(guī)模,并需要制定可接受風(fēng)險(xiǎn)閾值的標(biāo)準(zhǔn)。評(píng)論家指出,只有谷歌DeepMind和Anthropic針對(duì)模型漏洞保持有針對(duì)性的漏洞獎(jiǎng)勵(lì)計(jì)劃,Meta的計(jì)劃僅限于與隱私相關(guān)的攻擊。級(jí)乙--C+D+D+DD評(píng)分Anthropic的人工智能系統(tǒng)在領(lǐng)先的經(jīng)驗(yàn)安全性和可信度基準(zhǔn)測(cè)試中得分最高,GoogleDeepMind排名第二。審查人員指出,其他公司的系統(tǒng)得分明顯較低,這引起了人們對(duì)所實(shí)施的安全緩解措施是否充分的擔(dān)憂。評(píng)論者批評(píng)了Meta發(fā)布其前沿模型權(quán)重的政策,因?yàn)檫@使得惡意行為者能夠輕松刪除其模型的保護(hù)措施并以有害的方式使用它們GoogleDeepMind的SynthID水印系統(tǒng)被認(rèn)為是減輕人工智能生成內(nèi)容濫用風(fēng)險(xiǎn)的領(lǐng)先實(shí)踐。相比之下,大多數(shù)其他公司缺乏魯棒的水印措施。智普AI報(bào)告說(shuō),他們?cè)谡{(diào)查中使用了水印,但似乎沒(méi)有在他們的網(wǎng)站上記錄他們的做法。此外,環(huán)境可持續(xù)性仍然是一個(gè)存在分歧的領(lǐng)域。雖然Meta和Meta積極抵消其碳足跡,但其他公司只是部分實(shí)現(xiàn)了這一目標(biāo),甚至沒(méi)有公開(kāi)報(bào)告其做法。x.AI報(bào)告使用燃?xì)廨啓C(jī)為數(shù)據(jù)中心供電,從可持續(xù)性的角度來(lái)看尤其令人擔(dān)憂。此外,審查人員強(qiáng)烈建議公司確保他們的系統(tǒng)更好地抵御對(duì)抗性攻擊。實(shí)證結(jié)果表明,模型仍然容易受到越獄的影響,OpenAI的模型尤其容易受到攻擊(沒(méi)有x.AI或Zhipu的數(shù)據(jù))。DeepMind的模型防御在包含的基準(zhǔn)測(cè)試中是最強(qiáng)大的。該小組還批評(píng)公司使用用戶交互數(shù)據(jù)來(lái)訓(xùn)練其人工智能系統(tǒng)。只有Anthropic和ZhipuAI使用默認(rèn)設(shè)置,阻止模型在用戶交互上進(jìn)行訓(xùn)練(標(biāo)記為安全審查的用戶除外)。級(jí)D+D型D-FFF評(píng)分0.800.900.350.350.35所有六家公司都簽署了《首爾前沿人工智能安全承諾》,并承諾制定安全框架,其中包括不可接受風(fēng)險(xiǎn)的閾值、高風(fēng)險(xiǎn)水平的高級(jí)保障措施以及在風(fēng)險(xiǎn)無(wú)法管理的情況下暫停開(kāi)發(fā)的條件。截至該指數(shù)發(fā)布時(shí),只有OpenAI,Anthropic和GoogleDeepMind發(fā)布了他們的框架。因此,審查人員只能評(píng)估這三家公司的框架9雖然這些框架被認(rèn)為不足以保護(hù)公眾免受不可接受的風(fēng)險(xiǎn),但專家們?nèi)匀徽J(rèn)為這些框架在某種程度上是有效Anthropic的框架在審查者看來(lái)是最全面的,因?yàn)樗敿?xì)說(shuō)明了額外的實(shí)施指導(dǎo)。一位專家指出,需要更準(zhǔn)確地描述災(zāi)難性事件的特征,并確定更明確的閾值。其他評(píng)論指出,OpenAI和GoogleDeepMind的框架不夠詳細(xì),無(wú)法從外部確定其有效性。此外,沒(méi)有框架充分定義條件性暫停的細(xì)節(jié),一位評(píng)審員建議觸發(fā)條件應(yīng)考慮外部事件和專家意見(jiàn)。多位專家強(qiáng)調(diào),安全框架需要得到強(qiáng)有力的外部審查和監(jiān)督機(jī)制的支持,否則就不能相信它們能準(zhǔn)確地報(bào)告風(fēng)險(xiǎn)水平。Anthropic在外部監(jiān)督方面的努力被認(rèn)為是最好的,如果仍然不夠的話。級(jí)D+DD型FFF評(píng)分0.9300.35雖然所有接受評(píng)估的公司都宣布有意建立人工通用智能或超級(jí)智能,而且大多數(shù)公司都承認(rèn)此類系統(tǒng)可能帶來(lái)的生存風(fēng)險(xiǎn),但只有谷歌DeepMind、OpenAI和Anthropic正在認(rèn)真研究人類如何保持控制并避免災(zāi)難性后果。評(píng)估這一部分的技術(shù)審查人員強(qiáng)調(diào),沒(méi)有一家公司提出官方戰(zhàn)略,以確保先進(jìn)的人工智能系統(tǒng)保持可控并符合人類價(jià)值觀。先進(jìn)人工智能系統(tǒng)的控制、對(duì)準(zhǔn)和可解釋性方面的技術(shù)研究現(xiàn)狀被認(rèn)為是不成熟和不充分的。Anthropic獲得了最高分,但他們的方法被認(rèn)為不太可能防止超級(jí)智能AI的重大風(fēng)險(xiǎn)。Anthropic的“關(guān)于AI安全的核心觀點(diǎn)”博客文章闡述了他們?cè)谙到y(tǒng)變得越來(lái)越強(qiáng)大時(shí)確保安全的策略專家們指出,他們的戰(zhàn)略表明,對(duì)欺騙和態(tài)勢(shì)感知等相關(guān)技術(shù)問(wèn)題的認(rèn)識(shí)相當(dāng)深入。一位審評(píng)員強(qiáng)調(diào),需要朝著邏輯或量化的安全保證方向發(fā)展。OpenAI的博客文章“規(guī)劃AGI及其他”分享了高級(jí)原則,評(píng)論者認(rèn)為這些原則是合理的,但不能被視為計(jì)劃。專家們認(rèn)為,OpenAI在可擴(kuò)展監(jiān)督方面的工作可能會(huì)起作用,但還不發(fā)達(dá),不能依賴。谷歌DeepMind的對(duì)齊團(tuán)隊(duì)分享的研究更新被認(rèn)為是有用的,但不成熟,不足以確保安全。審查者還強(qiáng)調(diào),相關(guān)博客文章不能被視為整個(gè)組織的戰(zhàn)略、計(jì)劃或原則的有意義的代表。Meta、x.AI或智普AI都沒(méi)有提出解決人工通用智能帶來(lái)的風(fēng)險(xiǎn)的計(jì)劃或技術(shù)研究。評(píng)論者指出,Meta的開(kāi)源方法和x.AI民主化獲取尋求真相的AI的愿景生命未來(lái)研究所治庸問(wèn)責(zé)級(jí)C+D+D+DFD-評(píng)分0.80評(píng)論家指出,Anthropic的創(chuàng)始人在建立一個(gè)負(fù)責(zé)任的治理結(jié)構(gòu)方面投入了大量精力,這使得它更有可能優(yōu)先考慮安全問(wèn)題。Anthropic的其他積極努力,如負(fù)責(zé)任的縮放政策,也得到了積極的評(píng)價(jià)。OpenAI最初的非營(yíng)利結(jié)構(gòu)也受到了類似的贊揚(yáng),但最近的變化,包括解散安全團(tuán)隊(duì)和轉(zhuǎn)向營(yíng)利模式,引起了人們對(duì)安全性的關(guān)注。谷歌DeepMind因其在治理和問(wèn)責(zé)制方面采取的有意義的步驟而聞名,其對(duì)安全框架的承諾和公開(kāi)聲明的使命就是例證。盡管如此,它與Alphabet利潤(rùn)驅(qū)動(dòng)的公司結(jié)構(gòu)的整合被視為對(duì)其優(yōu)先考慮安全而不是其他目標(biāo)的自主權(quán)的限制。注意到Meta的舉措,如網(wǎng)絡(luò)安全評(píng)估和紅隊(duì),但其治理結(jié)構(gòu)與安全優(yōu)先事項(xiàng)不一致。先進(jìn)模型的開(kāi)源發(fā)布使濫用成為可能,進(jìn)一步削弱了問(wèn)責(zé)制。x.人工智能雖然正式注冊(cè)為公益公司,但與競(jìng)爭(zhēng)對(duì)手相比,人工智能在治理方面的活躍程度明顯降低。專家們指出,該公司缺乏一個(gè)內(nèi)部審查委員會(huì)來(lái)做出關(guān)鍵的部署決定,也沒(méi)有公開(kāi)報(bào)告任何實(shí)質(zhì)性的風(fēng)險(xiǎn)評(píng)估。智普AI作為一家營(yíng)利性實(shí)體,遵守中國(guó)的人工智能安全法規(guī),并與當(dāng)局共享風(fēng)險(xiǎn)數(shù)據(jù),但其治理機(jī)制在范圍和透明度方面仍然有限。透明度通信級(jí)D+DD型CCF評(píng)分0.880評(píng)論者對(duì)OpenAI、GoogleDeepMind和Meta針對(duì)SB1047和歐盟人工智能法案等關(guān)鍵安全法規(guī)的游說(shuō)活動(dòng)表示嚴(yán)重?fù)?dān)憂相比之下,x.AI因支持SB1047而受到贊揚(yáng),表現(xiàn)出積極支持旨在提高AI安全性的監(jiān)管措施的立場(chǎng)。除Meta外,所有公司都公開(kāi)應(yīng)對(duì)與先進(jìn)人工智能相關(guān)的極端風(fēng)險(xiǎn),并努力向政策制定者和公眾通報(bào)這些問(wèn)題。一位專家積極承認(rèn),除了Meta之外,所有美國(guó)公司的領(lǐng)導(dǎo)層都支持人工智能安全中心的一封相關(guān)公開(kāi)信。十、AI和Anthropic在風(fēng)險(xiǎn)溝通方面表現(xiàn)突出專家們還注意到,Anthropic公司一直在支持促進(jìn)該部門透明度和問(wèn)責(zé)制的治理舉措。Meta的評(píng)級(jí)受到其領(lǐng)導(dǎo)層一再解雇和貶低與極端人工智能風(fēng)險(xiǎn)相關(guān)的擔(dān)憂的顯著影響,審查人員認(rèn)為這是一個(gè)重大缺陷。生命未來(lái)研究所專家們強(qiáng)調(diào),迫切需要改進(jìn)整個(gè)行業(yè)的透明度做法。x.AI缺乏風(fēng)險(xiǎn)評(píng)估信息共享被特別稱為透明度差距。Anthropic因允許英國(guó)和美國(guó)人工智能安全研究所對(duì)其模型進(jìn)行第三方部署前評(píng)估而獲得額外認(rèn)可,為行業(yè)最佳實(shí)踐設(shè)定了基準(zhǔn)2024年FLI人工智能安全指數(shù)強(qiáng)調(diào)了快速發(fā)展的人工智能領(lǐng)域迫切需要更強(qiáng)有力的安全措施和雖然某些公司(其中最重要的是人類公司)在特定領(lǐng)域表現(xiàn)出值得稱贊的做法,但總體調(diào)查結(jié)果顯示,在問(wèn)責(zé)制,透明度和應(yīng)對(duì)當(dāng)前和存在風(fēng)險(xiǎn)的準(zhǔn)備方面存在前沿人工智能系統(tǒng)仍然容易受到越獄等對(duì)抗性攻擊,競(jìng)爭(zhēng)對(duì)手應(yīng)該效仿谷歌DeepMind的做法,將強(qiáng)大的水印集成到生成的內(nèi)容中。評(píng)論家們一致強(qiáng)調(diào),在缺乏獨(dú)立監(jiān)督的情況下,公司如何無(wú)法抵制利潤(rùn)驅(qū)動(dòng)的激勵(lì),在安全方面偷工減料。由于沒(méi)有公司提出控制先進(jìn)人工智能系統(tǒng)的強(qiáng)大戰(zhàn)略,以及被認(rèn)為不可靠的既定安全框架,因此關(guān)鍵風(fēng)險(xiǎn)仍未得到解決??紤]到這些公司開(kāi)發(fā)強(qiáng)大的人工通用智能的明確雄心,這一點(diǎn)尤其令人擔(dān)憂。總而言之,研究結(jié)果強(qiáng)調(diào)了公司,政策制定者和研究人員在追求人工智能創(chuàng)新時(shí)協(xié)調(diào)努力并優(yōu)先考慮公共安全的許多機(jī)會(huì)。生命未來(lái)研究所該指數(shù)涵蓋了六家領(lǐng)先的通用AI公司,評(píng)估了他們?cè)诹鶄€(gè)關(guān)鍵領(lǐng)域的開(kāi)發(fā)和部署實(shí)踐對(duì)于每個(gè)領(lǐng)域,索引包含多頁(yè)證據(jù),涉及多個(gè)指標(biāo)。評(píng)分:對(duì)于每個(gè)領(lǐng)域,請(qǐng)閱讀相應(yīng)的指標(biāo)列表,然后根據(jù)所提供的評(píng)分方案提供A-F等級(jí)的字母評(píng)分,以確保評(píng)審員之間的一致性也寫一個(gè)非常簡(jiǎn)短的理由,每個(gè)等級(jí)連同任何改進(jìn)的機(jī)會(huì)。參考信息:此評(píng)分表包含參考信息,可幫助您做出評(píng)分決定。該指數(shù)中的信息來(lái)源于公開(kāi)來(lái)源和專門的調(diào)查,公司可以使用這些調(diào)查來(lái)提供更多信息。相關(guān)資料來(lái)源在索引中作了標(biāo)記。選擇指標(biāo)是為了查明可從現(xiàn)有證據(jù)中查明的公司之間的差異。因此,省略了不確定差異證據(jù)的安全預(yù)防措施對(duì)于幾個(gè)指標(biāo),我們對(duì)相對(duì)性能差異進(jìn)行了顏色編碼,或?qū)蝹€(gè)單元格進(jìn)行了顏色編碼,以明確表示同類性能中的最佳/最差。你也可以將你所擁有的任何額外信息或?qū)<乙?jiàn)解納入你的成績(jī)。能力:我們?cè)u(píng)估的六家公司都提供最先進(jìn)的通用AI系統(tǒng)。下面是ChatbotArena中旗艦型號(hào)性能的概述。由于更強(qiáng)的能力可能帶來(lái)更大的風(fēng)險(xiǎn),行業(yè)領(lǐng)導(dǎo)者和大公司的安全預(yù)防措施應(yīng)該達(dá)到更高的標(biāo)準(zhǔn)。因此,F(xiàn)LI將在計(jì)算平均評(píng)審員評(píng)分后,向較小的亞軍公司x.AI和智普AI管理偽評(píng)分級(jí)獎(jiǎng)金。最后,我們(FLI)決定為了簡(jiǎn)單起見(jiàn)不授予上述獎(jiǎng)金,如報(bào)告的“評(píng)分過(guò)程”部分所述。克勞德3.5十四行詩(shī)o1-預(yù)覽美洲駝3.1405BGrok2GLM-4數(shù)(樣式控制,1.11.24)生命未來(lái)研究所研究指標(biāo)清單?危險(xiǎn)能力評(píng)價(jià):本指標(biāo)報(bào)告與災(zāi)難性風(fēng)險(xiǎn)有關(guān)的部署前能力此處不包括其他風(fēng)險(xiǎn)的模型評(píng)價(jià),因?yàn)椤爱?dāng)前損害”章節(jié)中涵蓋的經(jīng)驗(yàn)測(cè)試提供了更好的指標(biāo)。信息包括評(píng)估的風(fēng)險(xiǎn)域、關(guān)于模型版本特定任務(wù)微調(diào)的可用信息以及相關(guān)來(lái)源。我們注意到,評(píng)價(jià)的質(zhì)量可能不同。?Ubiquiti試驗(yàn):關(guān)于人類參與試驗(yàn)的信息,用于評(píng)估模型訪問(wèn)的邊際風(fēng)險(xiǎn)。?部署前外部安全測(cè)試:與外部模型審核相關(guān)的任何我們特別報(bào)告與模型訪問(wèn)深度、審計(jì)師姓名、模型版本、評(píng)估范圍、利益沖突、審計(jì)時(shí)間和薪酬相關(guān)的信息。?部署后外部研究人員訪問(wèn):任何支持外部利益相關(guān)者誠(chéng)信安全研究的計(jì)劃。我們報(bào)告可用資金、模型訪問(wèn)深度、模型版本、技術(shù)基礎(chǔ)設(shè)施以及任何旨在減輕使用政策執(zhí)行、交互日志記錄和嚴(yán)格服務(wù)條款對(duì)安全研究造成的障礙的技術(shù)或法律安全港。?針對(duì)模型漏洞的漏洞獎(jiǎng)勵(lì)任何為標(biāo)記模型漏洞或危險(xiǎn)用例提供經(jīng)濟(jì)獎(jiǎng)勵(lì)的程序?開(kāi)發(fā)前風(fēng)險(xiǎn)評(píng)估:在訓(xùn)練大型模型之前進(jìn)行的與風(fēng)險(xiǎn)評(píng)估和危險(xiǎn)能力預(yù)測(cè)相關(guān)的任何信息。一全面的評(píng)估可詳細(xì)了解與其系統(tǒng)相關(guān)的所有風(fēng)險(xiǎn),包括詳細(xì)的威脅向量、可能性和外部驗(yàn)證B在所有風(fēng)險(xiǎn)領(lǐng)域進(jìn)行非常嚴(yán)格的評(píng)估,采用最先進(jìn)的評(píng)價(jià)啟發(fā)做法,包括外部保證機(jī)制C嚴(yán)重的風(fēng)險(xiǎn)評(píng)估工作,但有明顯的局限性D風(fēng)險(xiǎn)評(píng)估不足以衡量風(fēng)險(xiǎn)水平F公司沒(méi)有認(rèn)真進(jìn)行風(fēng)險(xiǎn)評(píng)估生命未來(lái)研究所克勞德3.5十四行詩(shī)o1-預(yù)覽美洲駝3.1405BGrok2GLM-4是的是的是的是的沒(méi)有是的是的是的是的是的沒(méi)有沒(méi)有是的部分:主要是正常的編碼任務(wù)是的沒(méi)有沒(méi)有沒(méi)有沒(méi)有但值得注意的是關(guān)于潛伏特工的欺騙僅由ApolloResearch外部是的沒(méi)有沒(méi)有沒(méi)有部分部署后說(shuō)服研究是的,說(shuō)服是的,說(shuō)服,建立融洽關(guān)系,還有微妙的操縱沒(méi)有沒(méi)有是的是的重新訓(xùn)練的無(wú)害模型的“危害性”是的他們分享“緩解前的結(jié)果”部分測(cè)試“沒(méi)有安全過(guò)濾器”。但不清楚模型是否經(jīng)過(guò)無(wú)害訓(xùn)練沒(méi)有提及型號(hào)版本和安全過(guò)濾器。CyberSecEval3在僅提供沒(méi)有沒(méi)有來(lái)源負(fù)責(zé)任的擴(kuò)展策略(RSP)、RSP評(píng)估報(bào)告o1系統(tǒng)卡,準(zhǔn)備框架評(píng)估文件,安全框架,Gemini1.5報(bào)告Llama3paper,CYBERSECEVAL3無(wú)可用的風(fēng)險(xiǎn)評(píng)估GLM-4文件,索引調(diào)查生命未來(lái)研究所-排除有害生物問(wèn)題:三組:克勞德,克勞德沒(méi)有無(wú)害訓(xùn)練,谷歌只-30名來(lái)自外部領(lǐng)域?qū)<页邪痰膮⑴c者。-44位人類博士專家評(píng)估o1-preview(緩解前)對(duì)長(zhǎng)式生物風(fēng)險(xiǎn)問(wèn)題的答復(fù),與經(jīng)驗(yàn)證的領(lǐng)域?qū)<业拇饛?fù)進(jìn)行比較。-6名生物專家在一周內(nèi)通過(guò)o1-preview(緩解前)回答了長(zhǎng)形式的生物風(fēng)險(xiǎn)問(wèn)題,并給出了定性報(bào)-3000個(gè)人工智能與人類生成的參數(shù)的評(píng)估,以評(píng)估說(shuō)服力。無(wú)提升研究,但有4項(xiàng)說(shuō)服相關(guān)參與者試驗(yàn)(各N=100):-測(cè)量建立在談話中的融洽關(guān)系。-操縱人類采取行動(dòng)。-說(shuō)服人類捐錢給慈善機(jī)構(gòu)。-說(shuō)服一個(gè)人相信事實(shí)/謊言。-攻擊性網(wǎng)絡(luò)挑戰(zhàn),62名內(nèi)部志愿者(31名“專家”,31名“新手”)。兩階段設(shè)計(jì)(首先只有互聯(lián)網(wǎng),然后第二個(gè)挑戰(zhàn)也是AI訪-生化武器。兩人小組(低技能或中等技能的人類),6小時(shí)的方案規(guī)劃化學(xué)/生物攻擊的主要階段,隨機(jī)分配到人工智能或控制組,最終計(jì)劃由領(lǐng)域?qū)<以u(píng)估。(描述未提及移除安全緩解措施,這對(duì)于開(kāi)放權(quán)重模型至關(guān)重要)無(wú)可用信息無(wú)可用信息英國(guó)人工智能安全研究所(AISI)美國(guó)AISI對(duì)更新的ClaudeSonnet3.5(新)進(jìn)行了聯(lián)合評(píng)估,并采取了保障措施在公開(kāi)報(bào)告中分享了詳細(xì)結(jié)果。英國(guó)AISIMETR(&潛在的其他“第三方評(píng)估合作伙伴”)獲得了ClaudeSonnet的部署前訪問(wèn)權(quán)限3.5(舊)。同意與美國(guó)AISI分享未來(lái)的型號(hào),進(jìn)行部署前測(cè)試。邀請(qǐng)專家在不同的風(fēng)險(xiǎn)領(lǐng)域進(jìn)行開(kāi)放式發(fā)現(xiàn):自然科學(xué),欺騙性對(duì)齊,網(wǎng)絡(luò)安全,國(guó)際安全和攻擊規(guī)劃,越獄。邀請(qǐng)阿波羅研究公司測(cè)試欺騙性對(duì)準(zhǔn),邀請(qǐng)METR測(cè)試自主能力。訪問(wèn)被授予了幾個(gè)星期,結(jié)果被公布在o1-preview系統(tǒng)卡上。同意與美國(guó)AISI分享未來(lái)型號(hào)進(jìn)行部署前測(cè)試。訪問(wèn)多個(gè)外部測(cè)試組,包括領(lǐng)域?qū)<液驼畽C(jī)構(gòu)(可能是英國(guó)AISI):-能夠關(guān)閉安全過(guò)濾器-與Gemini團(tuán)隊(duì)定期簽到-各小組在社會(huì)、網(wǎng)絡(luò)和化生放核風(fēng)險(xiǎn)方面具有專門知識(shí)。包括學(xué)術(shù)界、民間社會(huì)和商業(yè)組織。-幾個(gè)星期內(nèi)獲得訪問(wèn)權(quán)的團(tuán)體&得到了補(bǔ)償。Llama3的論文指出:“我們還與關(guān)鍵風(fēng)險(xiǎn)領(lǐng)域的內(nèi)部和外部主題專家合作,幫助建立風(fēng)險(xiǎn)分類,并幫助進(jìn)行更有針對(duì)性的對(duì)抗性評(píng)估。與“Surge”和“Scale”合作進(jìn)行預(yù)部署DCE。(索引調(diào)查)-與杭州網(wǎng)易文學(xué)科技有限公司合作,用于DCE和訓(xùn)練數(shù)據(jù)審計(jì)(智普AI從訓(xùn)練集中刪除潛在有害-與獨(dú)立專家合作,通過(guò)德?tīng)柗品ㄔu(píng)估風(fēng)險(xiǎn)。(索引調(diào)查)安全研究人員可以通過(guò)Anthropic的“外部研究人員訪問(wèn)計(jì)劃”申請(qǐng)免費(fèi)的API學(xué)分。訪問(wèn)非標(biāo)準(zhǔn)或非公開(kāi)版本的Claude是留給bug賞金計(jì)劃和密切合作者不免除使用策略強(qiáng)制執(zhí)行。外部研究人員可以在研究以下領(lǐng)域時(shí)申請(qǐng)免費(fèi)API學(xué)分-對(duì)準(zhǔn)-公平-解釋性-誤用可能性-穩(wěn)健性不免除使用策略強(qiáng)制執(zhí)行。無(wú)可用信息模型權(quán)重可供研究人員使無(wú)可用信息智普AI為政府官員提供免費(fèi)模型訪問(wèn)。(索引調(diào)查)-8月24日賞金計(jì)劃集中在通用越獄搶先體驗(yàn)版本的下一代安全緩解賞金高達(dá)15k$.申請(qǐng)截止日期為2024年8月。-在上述計(jì)劃之前,Anthropic針對(duì)部署模型的安全問(wèn)題進(jìn)行了一項(xiàng)僅限邀請(qǐng)的獎(jiǎng)金計(jì)劃未提供細(xì)節(jié)。沒(méi)有一-谷歌的人工智能賞金計(jì)劃接受某些與濫用相-快速攻擊-訓(xùn)練數(shù)據(jù)提取-操縱模型-對(duì)抗性擾動(dòng)-模型盜竊(不包括越獄)漏洞賞金只包括與隱私相關(guān)的問(wèn)題,例如“能夠通過(guò)模型反演或提取攻擊等策略泄漏或提取訓(xùn)練數(shù)據(jù)。沒(méi)有一沒(méi)有一負(fù)責(zé)任的縮放政策(RSP)承諾在模型風(fēng)險(xiǎn)評(píng)估預(yù)測(cè)可能性后生成進(jìn)一步的培訓(xùn)和啟發(fā)將改善測(cè)試時(shí)間和下一輪預(yù)期全面測(cè)試之間的測(cè)試結(jié)果(和突破準(zhǔn)備框架(PF)承諾:創(chuàng)建內(nèi)部“準(zhǔn)備路線圖”,以幫助計(jì)劃提前新興風(fēng)險(xiǎn)。包括研究危險(xiǎn)能力的擴(kuò)展趨勢(shì)。與斯威夫特中心的專業(yè)預(yù)報(bào)員合作,預(yù)測(cè)危險(xiǎn)能力可能出現(xiàn)的時(shí)間。無(wú)可用信息無(wú)可用信息進(jìn)行培訓(xùn)前風(fēng)險(xiǎn)評(píng)估,包括危險(xiǎn)能力的預(yù)測(cè)。(索引調(diào)查)人擇OpenAI谷歌DeepMind智普AI生命未來(lái)研究所研究指標(biāo)清單?模型安全性/可信度:我們報(bào)告了兩個(gè)最先進(jìn)的AI安全基準(zhǔn)的旗艦?zāi)P偷梅帧?HELMAIRBench2024:全球首個(gè)符合新興政府法規(guī)和公司政策的AI安全基準(zhǔn)。包含5,694個(gè)測(cè)試,涵蓋314個(gè)細(xì)粒度風(fēng)險(xiǎn)類別,并通過(guò)手動(dòng)管理和人工審核來(lái)確保質(zhì)量。?TrustLLMBenchmark2024:全面的可信度基準(zhǔn),包括30多個(gè)數(shù)據(jù)集,涵蓋六個(gè)維度:真實(shí)性,安全性,公平性,隱私性,道德&穩(wěn)健性。?對(duì)抗魯棒性:為了表明越獄的魯棒性,我們進(jìn)一步報(bào)告了來(lái)自Scale的SEAL排行榜和GraySwan越獄競(jìng)技場(chǎng)的結(jié)果。確保安全緩解措施完整性的任何微調(diào)限制。?可持續(xù)性:有關(guān)碳排放分析和抵消的信息。?水印:關(guān)于集成水印系統(tǒng)的信息。?用戶輸入的隱私:我們報(bào)告公司是否使用用戶交互數(shù)據(jù)來(lái)改進(jìn)其服務(wù)。?數(shù)據(jù)抓?。号c抓取實(shí)踐相關(guān)的公共信息。一安全產(chǎn)品的道德開(kāi)發(fā)實(shí)踐不會(huì)給公眾帶來(lái)有意義的風(fēng)險(xiǎn)。在安全得到保證之前,不能部署可能有害的能力。B高度負(fù)責(zé)的產(chǎn)品開(kāi)發(fā)實(shí)踐有效保護(hù)公眾免受傷害C對(duì)負(fù)責(zé)任的產(chǎn)品開(kāi)發(fā)實(shí)踐的相當(dāng)大的努力提供了適度的保護(hù)D對(duì)負(fù)責(zé)任的產(chǎn)品開(kāi)發(fā)實(shí)踐的最小努力提供了不足的保護(hù)F產(chǎn)品是完全有害的。未采取有效的風(fēng)險(xiǎn)緩解措施生命未來(lái)研究所18模型安全性/可信度Helm-AIR基準(zhǔn)測(cè)試:參考率(13.11.24)克勞德3.5十四行詩(shī)谷丙轉(zhuǎn)氨酶-4oLlama3.1指令渦輪(405B)-=1)0.6300.822無(wú)結(jié)果。0.4920.9540.6540.9830.5490.564與法律0.9450.682克勞德3.5十四行詩(shī)美洲駝-3.1405BGrok-2GLM-4+=1)0.6960.6590.5630.8030.6460.5380.8900.5330.85819SEAL排行榜22.10.24)克勞德3.5十四行詩(shī)谷丙轉(zhuǎn)氨酶-4o美洲駝3.1405B無(wú)結(jié)果。67次違規(guī)8違反克勞德3.5十四行詩(shī)谷丙轉(zhuǎn)氨酶-4o美洲駝3.1405B無(wú)結(jié)果。微調(diào)保護(hù)對(duì)GPT-4o進(jìn)行監(jiān)督微調(diào)。Gemini1.5Pro的監(jiān)督微調(diào)。小個(gè)子的杰瑪是公開(kāi)Llama3.1405B重量公開(kāi)。更小的GLM-49B重量公開(kāi)。生命未來(lái)研究所20是的人因報(bào)告:“[..]與外部專家合作,對(duì)我們公司范圍內(nèi)的碳足跡進(jìn)行嚴(yán)格分析。一旦測(cè)量,我們投資于經(jīng)驗(yàn)證的碳信用額,以完全抵消我們的年度足跡。不清楚沒(méi)有關(guān)于碳足跡的信息。然而,OpenAI使用Azure基礎(chǔ)設(shè)施進(jìn)行訓(xùn)練和推理,自2012年以來(lái)一直是碳部分報(bào)告稱,數(shù)據(jù)中心和辦公室的全球平均無(wú)碳能源約為64%(2022年至2023年)。谷歌DeepMind研究緩解氣候變化的措施是的全球業(yè)務(wù)凈零排放。使我們的數(shù)據(jù)中心和辦公室100%的用電量與可再生能源相匹配。沒(méi)有據(jù)路透社報(bào)道,x.AI為其數(shù)據(jù)中心提供燃?xì)鉁u輪機(jī)。部分嚴(yán)格評(píng)估其碳足跡,但不完全抵消它。(索引調(diào)查)Claude不生成圖像,也不包含文本輸出的水印。OpenAI分享說(shuō),它使用C2PA標(biāo)準(zhǔn)來(lái)標(biāo)記的元數(shù)據(jù)。這樣的元數(shù)據(jù)是微不足道的刪除。生成的文本、圖像和視頻Google的genAI工具使用無(wú)法察覺(jué)的擾動(dòng)使用SynthID進(jìn)行水印。Llama3.1在其世代中不包含水印。xAI不使用水印。ZhipuAI報(bào)告說(shuō),它用水印標(biāo)記了所有的AI世代,并有五名研究人員專注于開(kāi)發(fā)更強(qiáng)大的方法。沒(méi)有關(guān)于這方面的公開(kāi)信息。(索引調(diào)查)Anthropic表示,默認(rèn)情況下,他們不會(huì)在用戶交互上訓(xùn)練AI模型,除非:對(duì)話被標(biāo)記為信任&安全審查,以及用戶明確報(bào)告對(duì)話或以其他方式明確同OpenAI表示,默認(rèn)情況下,他們?cè)凇懊赓M(fèi)”和“Plus”用戶的用戶交互上訓(xùn)練AI模型,但不會(huì)在“API”,“ChatGPTEnterprise”和“ChatGPTTeam”客戶的用戶交互上訓(xùn)練模型。用戶交互被記錄并用于改進(jìn)服務(wù)。用戶與MetaAI的交互會(huì)被記錄并用于改進(jìn)服務(wù)。Meta進(jìn)一步使用Instagram和Facebook上公開(kāi)分享的帖子(照片和文字)。然而,模型權(quán)重是免費(fèi)提供的,因此可以繞過(guò)這一點(diǎn)。用戶交互被記錄并用于改進(jìn)服務(wù)。在默認(rèn)設(shè)置中,不記錄用戶交互以改進(jìn)服務(wù)(索引調(diào)查)Anthropic表示,他們“遵循有關(guān)robots.txt指令的行業(yè)慣例然而,有人指責(zé)“令人震驚的”數(shù)據(jù)抓取和無(wú)視標(biāo)準(zhǔn)協(xié)議反對(duì)人類。OpenAI聲明它確實(shí)遵守robots.txtWeb標(biāo)準(zhǔn)。爬蟲(chóng)尊重機(jī)器人。txt文件。無(wú)可用信息爬蟲(chóng)尊重機(jī)器人。txt文件。(索引調(diào)查)爬蟲(chóng)尊重機(jī)器人。txt文件。(索引調(diào)查)人擇OpenAI谷歌DeepMind智普AI生命未來(lái)研究所21所有六家公司都在2024年首爾AI安全峰會(huì)上簽署了FrontierAI安全承諾簽署方承諾制定人工智能安全框架,其中包括不可接受風(fēng)險(xiǎn)的閾值,高風(fēng)險(xiǎn)水平的高級(jí)保障措施他們還致力于強(qiáng)有力的內(nèi)部治理,以執(zhí)行這些標(biāo)準(zhǔn),并保證安全實(shí)踐和風(fēng)險(xiǎn)相關(guān)信息的透明度。各公司承諾在2025年巴黎峰會(huì)之前制定此類框架。本節(jié)通過(guò)分析以下結(jié)構(gòu)的內(nèi)容來(lái)檢查已經(jīng)發(fā)布的三個(gè)框架(最新版本其他仍在開(kāi)發(fā)中1?摘要:目標(biāo)和框架結(jié)構(gòu)概述。?風(fēng)險(xiǎn)領(lǐng)域?風(fēng)險(xiǎn)閾值?模型評(píng)價(jià)?風(fēng)險(xiǎn)緩解措施?條件停頓?遵守情況:與確保有效執(zhí)行框架的內(nèi)部治理機(jī)制有關(guān)的任何承諾?保證:任何讓外部利益攸關(guān)方參與監(jiān)督框架實(shí)施的承諾一該框架嚴(yán)格保證風(fēng)險(xiǎn)水平保持在社會(huì)可接受的水平。強(qiáng)大的外部執(zhí)行機(jī)制可靠地確??蚣芎弦?guī)性。B該框架以高度的信心保護(hù)社會(huì)免受不可接受的風(fēng)險(xiǎn)。強(qiáng)有力的外部監(jiān)督確??蚣艿玫阶袷?。C框架可能會(huì)保護(hù)社會(huì)免受不可接受的風(fēng)險(xiǎn)。外部監(jiān)督機(jī)制鼓勵(lì)遵守框架。D框架可以保護(hù)社會(huì)免受不可接受的風(fēng)險(xiǎn),或者仍在開(kāi)發(fā)中,尚未發(fā)布F沒(méi)有制定框架的計(jì)劃,或框架無(wú)法防止不可接受的風(fēng)險(xiǎn)水平10.大赦國(guó)際在指數(shù)調(diào)查中報(bào)告說(shuō),他們目前正在建立一個(gè)框架。他們已經(jīng)為部署限制設(shè)定了能力門檻,限制了專家級(jí)病毒學(xué)知識(shí),攻擊性網(wǎng)絡(luò)能力危及關(guān)鍵基礎(chǔ)設(shè)施。生命未來(lái)研究所22負(fù)責(zé)任的擴(kuò)展策略(RSP)公開(kāi)承諾不訓(xùn)練或部署能夠造成災(zāi)難性損害的模型,除非他們已經(jīng)實(shí)施了將風(fēng)險(xiǎn)保持在可接受水平以下的安全和安保措施。目前,所有模型都符合其AI安全級(jí)別2部署和安全標(biāo)準(zhǔn)(ASL-2標(biāo)準(zhǔn))。他們定義了特定于風(fēng)險(xiǎn)領(lǐng)域的能力閾值,以確定能力何時(shí)增加到需要ASL-3標(biāo)準(zhǔn)來(lái)保持風(fēng)險(xiǎn)達(dá)到可接受的水平。使用初步評(píng)估定期評(píng)估模型,以確定是否需要進(jìn)行全面評(píng)價(jià)。如果達(dá)到ASL-3,他們將進(jìn)行保障評(píng)估,以測(cè)試緩解措施是否對(duì)持續(xù)的對(duì)手具有魯棒性,并進(jìn)行后續(xù)評(píng)估,以測(cè)試是否需要進(jìn)一步的保障措施。在這些評(píng)估之后,可以部署模型。如果ASL-3無(wú)法實(shí)施,他們將立即采取行動(dòng),將中期風(fēng)險(xiǎn)降低到可接受的水平。準(zhǔn)備框架(PF)描述了OpenAI跟蹤、評(píng)估、預(yù)測(cè)和防范災(zāi)難性風(fēng)險(xiǎn)的流程。OpenAI在記分卡中顯示當(dāng)前緩解前和緩解后的風(fēng)險(xiǎn)水平。他們還將預(yù)測(cè)風(fēng)險(xiǎn)的未來(lái)發(fā)展,并積極尋求識(shí)別未知-未知風(fēng)險(xiǎn)。僅限模特緩解后評(píng)分為“中等”或以下的患者可以部署。僅緩解后評(píng)分為“高”或“低”可以進(jìn)一步發(fā)展。確保安全性適合任何具有“高”或“關(guān)鍵”緩解前風(fēng)險(xiǎn)的模型。準(zhǔn)備小組實(shí)施和維護(hù)框架,包括進(jìn)行研究,評(píng)估,監(jiān)測(cè)和預(yù)測(cè)風(fēng)險(xiǎn),并向安全咨詢小組報(bào)告。準(zhǔn)備工作還將管理安全演習(xí),并與TrustworthyAl團(tuán)隊(duì)協(xié)調(diào)進(jìn)行第三方審計(jì)。創(chuàng)建安全咨詢小組(SAG),幫助OpenAl的領(lǐng)導(dǎo)層和董事會(huì)為安全決策和緊急情況做好準(zhǔn)備。PF正式成為“Beta”。目前尚不清楚是否所有方面都得到了充分落實(shí)。不過(guò),作為框架核心的記分卡現(xiàn)已公布。谷歌的前沿安全框架(FSF)是一個(gè)結(jié)構(gòu)化協(xié)議,旨在解決高級(jí)人工智能模型能力的潛在嚴(yán)重風(fēng)險(xiǎn),重點(diǎn)關(guān)注特定高風(fēng)險(xiǎn)領(lǐng)域的“關(guān)鍵能力水平”(CCL):自治,生物安全,網(wǎng)絡(luò)安全和機(jī)器學(xué)習(xí)研發(fā)。這些CCL是每個(gè)域中的閾值,指示模型在沒(méi)有適當(dāng)緩解措施的情況下何時(shí)可能構(gòu)成重大風(fēng)險(xiǎn)。分析涉及評(píng)估跨領(lǐng)域的技能,如機(jī)構(gòu)和工具的使用,以確定何時(shí)模型的能力可能會(huì)變得危險(xiǎn)?!霸缙陬A(yù)警評(píng)價(jià)”,旨在在達(dá)到閾值之前就對(duì)可能達(dá)到的閾值作出標(biāo)記。當(dāng)一個(gè)模特接近或達(dá)到CCL時(shí),根據(jù)CCL特性和具體評(píng)估結(jié)果制定應(yīng)對(duì)計(jì)劃。緩解措施有兩種類型:安全緩解措施和部署緩解措施。如果一個(gè)模型的能力超過(guò)了緩解準(zhǔn)備,開(kāi)發(fā)可能會(huì)暫停?!拔覀兊哪繕?biāo)是在2025年初之前實(shí)施這一初步框架,我們預(yù)計(jì)這應(yīng)該是在這些風(fēng)險(xiǎn)成為現(xiàn)實(shí)之前。RSP定義了2個(gè)域的閾值1)化學(xué)、生物、放射性和核武器;2)自主人工智能研究與開(kāi)發(fā)(AIR&D)他們還將調(diào)查風(fēng)險(xiǎn)并測(cè)試以下方面的能力3)網(wǎng)絡(luò)作戰(zhàn)沒(méi)有預(yù)先承諾具體的額外保障措施,但提到了正在進(jìn)行的說(shuō)服風(fēng)險(xiǎn)調(diào)查。跟蹤風(fēng)險(xiǎn)類別:2)CBRN威脅4)模型自治5)“專門的工作流程,用于在出現(xiàn)新的或新生的類別時(shí)識(shí)別和添加這些類別“未知的未知”風(fēng)險(xiǎn)領(lǐng)域:(第5的描述)2)生物安保3)網(wǎng)絡(luò)安全4)機(jī)器學(xué)習(xí)研發(fā)23RSP定義了需要ASL-3標(biāo)準(zhǔn)的兩個(gè)能力閾值有能力顯著協(xié)助具有基本STEM背景的個(gè)人或團(tuán)體獲得,生產(chǎn)或部署CBRN武器。我們通過(guò)比較潛在攻擊者使用完整模型訪問(wèn)與2023年級(jí)別的在線資源可以實(shí)現(xiàn)的目標(biāo)來(lái)評(píng)估這一點(diǎn),假設(shè)他們有資金和長(zhǎng)達(dá)一年的時(shí)間來(lái)投資,但沒(méi)有最初的專業(yè)知識(shí)。能夠:(1)完全自動(dòng)化Anthropic的入門級(jí)遠(yuǎn)程研究人員的工作,根據(jù)代表性任務(wù)的性能進(jìn)行評(píng)估,或(2)導(dǎo)致有效擴(kuò)展速度的顯著加速。具體來(lái)說(shuō),如果我們觀察到或預(yù)測(cè)世界上最有能力的模型的有效訓(xùn)練計(jì)算的增加2018年初至2024年初期間兩年的平均進(jìn)展率我們粗略估計(jì),2018-2024年的平均規(guī)模增長(zhǎng)約為每年35倍,因此這意味著實(shí)際或預(yù)測(cè)的一年規(guī)模增長(zhǎng)為35^2四個(gè)風(fēng)險(xiǎn)類別中的每一個(gè)都有一個(gè)從低風(fēng)險(xiǎn)到嚴(yán)重風(fēng)險(xiǎn)的等級(jí)表(第8)。為了簡(jiǎn)潔起見(jiàn),我們分享一個(gè)示例來(lái)說(shuō)明詳細(xì)程度和風(fēng)險(xiǎn):“針對(duì)網(wǎng)絡(luò)攻擊的模型幫助(如果有的話)僅對(duì)非編程用途有意義翻譯、機(jī)密信息的有針對(duì)性的提煉和/或數(shù)據(jù)分析和模型不能有意義地執(zhí)行網(wǎng)絡(luò)操作的元素,例如,將已知的漏洞利用發(fā)展為攻擊、黑盒利用、將防御推理轉(zhuǎn)化為行動(dòng),或?qū)?qiáng)化目標(biāo)進(jìn)行橫向目標(biāo)導(dǎo)向運(yùn)動(dòng)?!澳P屯ㄟ^(guò)關(guān)鍵網(wǎng)絡(luò)操作任務(wù)的效率閾值(例如節(jié)省>2倍的時(shí)間)提高了運(yùn)營(yíng)商的生產(chǎn)力,例如將已知的漏洞利用發(fā)展為攻擊,黑盒利用,目標(biāo)導(dǎo)向的橫向移動(dòng),識(shí)別有價(jià)值的信息,保持未被檢測(cè)到,或?qū)Ψ烙龀龇磻?yīng)?!肮ぞ咴鰪?qiáng)模型可以在沒(méi)有人為干預(yù)的情況下識(shí)別和開(kāi)發(fā)針對(duì)強(qiáng)化目標(biāo)的高價(jià)值漏洞的概念驗(yàn)證,可能涉及新的利用技術(shù),或者提供詳細(xì)的策略,該模型可以端到端執(zhí)行涉及上述任務(wù)的網(wǎng)絡(luò)操作,而無(wú)需人為干預(yù)?!肮ぞ咴鰪?qiáng)模型可以在所有軟件項(xiàng)目中識(shí)別和開(kāi)發(fā)所有嚴(yán)重級(jí)別的功能性零日漏洞,而無(wú)需人工干預(yù),或者模型可以設(shè)計(jì)和執(zhí)行端到端的新型網(wǎng)絡(luò)攻擊策略,針對(duì)僅給定高級(jí)別目標(biāo)的硬化目標(biāo)。關(guān)鍵能力水平(CCL)描述了模型可能在沒(méi)有額外緩解的情況下造成更高風(fēng)險(xiǎn)的閾值。我們將開(kāi)發(fā)早期預(yù)警評(píng)估,以檢測(cè)模型何時(shí)接近CCL,并對(duì)達(dá)到評(píng)估閾值的模型應(yīng)用適當(dāng)?shù)木徑獯胧?。該框架列出了以下CCL第5頁(yè)的閾值列表)自治級(jí)別1:能夠通過(guò)自主獲取資源并使用它們?cè)谧庥玫挠布线\(yùn)行和維護(hù)自身的額外副本來(lái)擴(kuò)展其在世界上的有效容量。威脅,與其他手段相比,這可能會(huì)增加他們?cè)斐?生物專家啟用級(jí)別1:能夠顯著地使專家(即博士或以上)開(kāi)發(fā)可能導(dǎo)致高度嚴(yán)重事件的新型生物威脅。-“網(wǎng)絡(luò)自治級(jí)別1:能夠完全自動(dòng)化對(duì)具有有限安全態(tài)勢(shì)的組織的機(jī)會(huì)主義網(wǎng)絡(luò)攻擊。-“網(wǎng)絡(luò)使能等級(jí)1:能夠使業(yè)余愛(ài)好者進(jìn)行復(fù)雜和嚴(yán)重的攻擊(例如,破壞國(guó)家重要基礎(chǔ)設(shè)施的行為)。-ML研發(fā)1級(jí)如果廣泛部署,可以顯著加速尖端實(shí)驗(yàn)室的人工智能將算法進(jìn)步的速度提高3倍,或者加速其他人工智能研究小組。-“ML研發(fā)水平2:可以完全自動(dòng)化人工智能研發(fā)管道,而人力成本只占一小部分,這可能會(huì)使人工智能能力實(shí)現(xiàn)雙曲線增長(zhǎng)。=~1000x。”但仍在評(píng)估是否需要ASL-3標(biāo)準(zhǔn)。能夠顯著增強(qiáng)或自動(dòng)化復(fù)雜的破壞性網(wǎng)絡(luò)攻擊,包括但不限于發(fā)現(xiàn)新的零日漏洞利用鏈,開(kāi)發(fā)復(fù)雜的惡意軟件,或策劃廣泛的難以檢測(cè)的網(wǎng)絡(luò)入侵。生命未來(lái)研究所24模型將接受全面評(píng)估,如果:1)有效計(jì)算能力提高>=4倍3)由責(zé)任縮放官(RSO)訂購(gòu)對(duì)于每個(gè)能力閾值,提出一個(gè)令人信服的案例,說(shuō)明我們已經(jīng)制定了最可能和最重要的威脅模型:參與者的組合(如果相關(guān)),攻擊路徑,模型能力瓶頸和危害類強(qiáng)有力的經(jīng)驗(yàn)證據(jù)表明,缺乏能力。分析測(cè)試結(jié)果。納入外部組織的任何調(diào)查結(jié)果。證明資源豐富的攻擊者無(wú)法在相關(guān)任務(wù)上獲得足夠有用的結(jié)果。在沒(méi)有安全機(jī)制/培訓(xùn)的情況下,使用腳手架,微調(diào)和專家提示對(duì)遵循預(yù)防措施的模型進(jìn)行測(cè)試。在下一次全面測(cè)試之前,對(duì)更強(qiáng)結(jié)果的可能性進(jìn)行非正式預(yù)測(cè)。評(píng)估將根據(jù)需要經(jīng)常進(jìn)行,以捕捉任何重要的能力變化,包括訓(xùn)練之前、期間和之后,包括有效計(jì)算增加>2倍或重大算法突破時(shí)。-緩解前風(fēng)險(xiǎn):通過(guò)專門微調(diào)風(fēng)險(xiǎn)域模型和無(wú)安全緩解措施的測(cè)試來(lái)測(cè)試“最差已知情況”。-緩解后風(fēng)險(xiǎn):測(cè)試模型具有針對(duì)“最差已知情況”的緩解措施,以確認(rèn)充分的保護(hù)。投資于內(nèi)部“準(zhǔn)備路線圖”,以計(jì)劃新出現(xiàn)的風(fēng)險(xiǎn)。包括持續(xù)研究危險(xiǎn)能力的擴(kuò)展“我們的目標(biāo)是每6次有效計(jì)算評(píng)估我們的模型,每3個(gè)月進(jìn)行一次微調(diào)。為了彌補(bǔ)兩輪評(píng)估之間的差距,我們將設(shè)計(jì)早期預(yù)警評(píng)估,以便在模型達(dá)到CCL之前為我們提供足夠的安全緩沖?!扒把啬P偷哪芰Χㄆ谶M(jìn)行測(cè)試,以檢查它們是否接近CCL。為此,我們將定義一組稱為“早期預(yù)警”的評(píng)估評(píng)估,”與一個(gè)特定的“通過(guò)”條件,標(biāo)志著當(dāng)一個(gè)CCL可能達(dá)到之前,評(píng)估再次運(yùn)行?!白⒁猓寒?dāng)我們提到模型的功能時(shí),我們包括任何合理可預(yù)見(jiàn)的微調(diào)和腳手架所產(chǎn)生的功能,以將模型轉(zhuǎn)變?yōu)楣δ芟的芰l(fā):我們正在努力為我們的評(píng)估人員配備最先進(jìn)的啟發(fā)技術(shù),以確保我們不會(huì)低估我們模型的能力。-編寫報(bào)告,其中包括為決策部署建議提供肯定理由的調(diào)查結(jié)果。-征求內(nèi)部和&外部專家對(duì)報(bào)告的反饋意見(jiàn)。-與首席執(zhí)行官&RSO共享報(bào)告以供最終決策。-在繼續(xù)之前與董事會(huì)和LTBT分享最終決定。-將模型更新為ASL-3保障措施。-ASL-4閾值的測(cè)試需求(當(dāng)前未定義)。-進(jìn)行ASL-3保障評(píng)估-創(chuàng)建報(bào)告,記錄如何令人滿意地實(shí)施所有保障措施,&并建議部署決策。-向CEORSO上報(bào)報(bào)告,CEORSO批準(zhǔn)(不批準(zhǔn))實(shí)施并做出部署決策,同時(shí)考慮內(nèi)部和外部反饋。-與董事會(huì)和LTBT共享報(bào)告、決策和反饋-需要每年重復(fù)評(píng)估。未批準(zhǔn)的安全措施->限制模型部署和進(jìn)一步擴(kuò)展?!皞錇?zāi)小組”負(fù)責(zé):i.維護(hù)記分卡,包括設(shè)計(jì)和運(yùn)行輸入評(píng)估,并收集有關(guān)監(jiān)測(cè)濫用、紅隊(duì)等的信息。ii.監(jiān)測(cè)未知的未知數(shù),并提出新的跟蹤類別。iii.如果需要,建議更新風(fēng)險(xiǎn)等級(jí)區(qū)分、記分卡等級(jí)或報(bào)告中PF的一般變更。iv.預(yù)測(cè)風(fēng)險(xiǎn)水平的變化。v.向SAG、CEO、董事會(huì)提交月度報(bào)告。在緊急情況下,團(tuán)隊(duì)可以請(qǐng)求SAG快速響應(yīng)?!鞍踩稍冃〗M”(SAG)提供觀點(diǎn),以評(píng)估災(zāi)難性風(fēng)險(xiǎn)的證據(jù),并建議采取行動(dòng)。SAG將努力推薦有針對(duì)性的和非破壞性干預(yù),同時(shí)不危及安全。SAG成員和主席由首席執(zhí)行官與董事會(huì)協(xié)商任命。成員每年輪換??梢灾匦氯蚊飨龀鲎罱K決定。1)SAG根據(jù)月度報(bào)告評(píng)估提交的案件。主席將案例、建議的行動(dòng)和理由轉(zhuǎn)發(fā)給首席執(zhí)行官(以及董事會(huì)&準(zhǔn)備)。2)CEO決定(也可以不考慮SAG決定)。3)董事會(huì)監(jiān)督并可能推翻CEO的決定和/或授權(quán)修改行動(dòng)?!皯?yīng)用緩解措施:當(dāng)模型達(dá)到評(píng)估閾值(即通過(guò)一系列預(yù)警評(píng)估)時(shí),我們將根據(jù)對(duì)CCL和評(píng)估結(jié)果的分析制定應(yīng)對(duì)計(jì)劃。我們還將考慮到考慮因素,如審查和部署環(huán)境標(biāo)記的其他風(fēng)險(xiǎn)25施ASL-3部署標(biāo)準(zhǔn)旨在使Anthropic能夠抵御持續(xù)的濫用相關(guān)能力的企圖。措施詳情見(jiàn)第7頁(yè)?!癧..]我們須符合下列準(zhǔn)則:ASL-3安全標(biāo)準(zhǔn)的目標(biāo)是“使我們高度保護(hù),防止大多數(shù)攻擊者試圖竊取模型權(quán)重?!俺龇秶骸眹?guó)家贊助的專門針對(duì)我們的計(jì)劃“。措施詳情見(jiàn)第8頁(yè)?!癧..]我們須符合下列準(zhǔn)則:a.周邊和訪問(wèn)控制:[…]b.安全性:[..]d.資源:[.]e.現(xiàn)有指導(dǎo)意見(jiàn):[.]4.第三方環(huán)境:[…]“[..].我們的緩解策略將涉及遏制措施,這有助于降低與擁有前沿模型相關(guān)的風(fēng)險(xiǎn),以及部署緩解措施,這有助于降低積極使用前沿模型的風(fēng)險(xiǎn)。該框架明確提到了三個(gè)新的“安全基線”。-資產(chǎn)保護(hù)-限制部署-制約發(fā)展(后兩個(gè)將在下一節(jié)中如果在任何域中達(dá)到(或預(yù)測(cè)將達(dá)到)“高”緩解前風(fēng)險(xiǎn),則將確保強(qiáng)化安全性以防止泄漏(在達(dá)到“高”緩解前風(fēng)險(xiǎn)時(shí)“這被定義為建立網(wǎng)絡(luò)和計(jì)算安全控制,旨在幫助防止捕獲的風(fēng)險(xiǎn)被利用或泄露,由安全團(tuán)隊(duì)評(píng)估和實(shí)施。這可能需要:-日益分化,[…]-僅部署到受限環(huán)境中[...]-提高信息安全控制的優(yōu)先級(jí)。"FSF提出了兩種緩解措施來(lái)解決具有關(guān)鍵功能的模型:安全緩解措施,以防止模型權(quán)重的泄漏;部署緩解措施,以管理對(duì)關(guān)鍵功能的訪問(wèn)/防止在部署中表達(dá)關(guān)鍵功然后,該框架列出了兩個(gè)“可能適用”的潛在緩解措施表。為了簡(jiǎn)潔起見(jiàn),我們僅在下面分享安全緩解措施第4頁(yè)的部署緩解措施?!?:現(xiàn)狀行業(yè)標(biāo)準(zhǔn)制定和企業(yè)控制。例如,在一個(gè)示例中,多因素身份驗(yàn)證、基本訪問(wèn)控制機(jī)制、安全軟件開(kāi)發(fā)標(biāo)準(zhǔn)、紅隊(duì)測(cè)試。對(duì)最有價(jià)值的模型的原始表示的訪問(wèn)受限,包括開(kāi)發(fā)模型與生產(chǎn)模型的隔離。具體措施包括模型和檢查點(diǎn)存儲(chǔ)鎖定,用于模型起源的SLSABuildL3,以及ML平臺(tái)和工具的強(qiáng)化。對(duì)機(jī)器學(xué)習(xí)平臺(tái)和工具進(jìn)行更改,以禁止核心研究團(tuán)隊(duì)以外的人員單方面訪問(wèn)原始模型表示,但根據(jù)業(yè)務(wù)需求授予例外。模型只能通過(guò)高信任開(kāi)發(fā)人員環(huán)境(HTDE)、強(qiáng)化的防篡改工作站以及增強(qiáng)的日志記錄來(lái)訪問(wèn)。最小可信計(jì)算基礎(chǔ)(TCB)。具有機(jī)密計(jì)算能力的TPU。專門的硬件吊艙,用于培訓(xùn)和服務(wù)高價(jià)值機(jī)型。”首席執(zhí)行官RSO可以批準(zhǔn)更簡(jiǎn)單的臨時(shí)措施,提供ASL-3級(jí)保護(hù),如(部署:)阻止模型響應(yīng),提高監(jiān)控靈敏度,或(安全性將模型權(quán)重存儲(chǔ)在具有ASL-3安全性的隔離網(wǎng)絡(luò)中。在臨時(shí)措施不足以解決問(wèn)題的極不可能的情況下,實(shí)施更強(qiáng)的限制,如臨時(shí)(部署:)解除部署或(安全:)刪除模型權(quán)重。如果ASL-3Security不可用,則限制更強(qiáng)大模型的訓(xùn)練。通過(guò)培訓(xùn)前評(píng)估進(jìn)行監(jiān)控?!爸挥芯徑夂笤u(píng)分為“中等”或以下的型號(hào)才能部署。[..]”.(They注意,一種緩解可以是將部署限制到可信方?!跋拗瓢l(fā)展只有緩解后得分為“高”或低于“高”的模型才能進(jìn)一步開(kāi)發(fā)。換句話說(shuō),如果我們?cè)谌魏物L(fēng)險(xiǎn)類別中達(dá)到(或預(yù)測(cè)達(dá)到)“關(guān)鍵”緩解前風(fēng)險(xiǎn),我們承諾確保該模型有足夠的緩解措施(當(dāng)我們?cè)谀芰﹂_(kāi)發(fā)中達(dá)到該風(fēng)險(xiǎn)水平時(shí),更不用說(shuō)部署了),以使整體緩解后風(fēng)險(xiǎn)最多回到“高”水平。請(qǐng)注意,這不應(yīng)排除安全增強(qiáng)開(kāi)發(fā)。[..].此外,為了防范“關(guān)鍵”的預(yù)緩解風(fēng)險(xiǎn),我們需要可靠的證據(jù)來(lái)證明模型是充分一致的,它不會(huì)啟動(dòng)“關(guān)鍵”風(fēng)險(xiǎn)級(jí)別的任務(wù),除非明確指示這樣做。“在適當(dāng)級(jí)別的緩解措施準(zhǔn)備就緒之前,模型可能會(huì)達(dá)到評(píng)估閾值。如果發(fā)生這種情況,我們將暫停進(jìn)一步的部署或開(kāi)發(fā),或?qū)嵤╊~外的協(xié)議(例如為給定的CCL實(shí)施更精確的早期預(yù)警評(píng)估),以確保模型在沒(méi)有適當(dāng)?shù)陌踩徑獯胧┑那闆r下不會(huì)到達(dá)CCL,并且在沒(méi)有適當(dāng)?shù)牟渴鹁徑獯胧┑那闆r下不會(huì)部署帶有CCL的模型。26粘附為確保有效執(zhí)行而作出的其他“內(nèi)部治理”(See第11)-責(zé)任縮放官:監(jiān)督RSP的實(shí)施,向董事會(huì)提出更新建議,批準(zhǔn)決定,接收向董事會(huì)提交的不合規(guī)報(bào)告-針對(duì)事件場(chǎng)景制定內(nèi)部安全演習(xí)程序,包括(1)暫停培訓(xùn)(2)應(yīng)對(duì)嚴(yán)重安全事件(3)應(yīng)對(duì)嚴(yán)重模型漏洞,包括限制訪問(wèn)。-與Anthropic員工分享編輯報(bào)告以征求反饋。-不合規(guī)行為:?jiǎn)T工向RSO(或董事會(huì)(如果涉及RSO報(bào)告潛在不合規(guī)行為的匿名報(bào)告流程。-禁止非貶低協(xié)議(NDA),這將阻止(前)工作人員公開(kāi)提出安全問(wèn)題或披露NDA的存在。-首席執(zhí)行官/RSO提議的政策變更經(jīng)董事會(huì)批準(zhǔn),并與LTBT協(xié)商。-設(shè)立“備災(zāi)小組”,負(fù)責(zé)框架的實(shí)施。-安全咨詢小組(SAG),包括SAG主席,提供了多種觀點(diǎn)來(lái)評(píng)估與災(zāi)難性風(fēng)險(xiǎn)相關(guān)的證據(jù)的力度,并建議采取適當(dāng)?shù)男袆?dòng)。-內(nèi)部可見(jiàn)性:與OpenAl員工和董事會(huì)共享(編輯)報(bào)告和決策,包括潛在的審計(jì)跟蹤。-安全演習(xí):SAG將要求進(jìn)行安全演習(xí),為快速移動(dòng)的緊急情況做好組織對(duì)可預(yù)見(jiàn)的情景的反應(yīng)。建議至少?zèng)]有相關(guān)信息保證額外的“透明度和外部輸入”承諾:(See(第12)-與評(píng)估部署相關(guān)的關(guān)鍵信息-能力保障報(bào)告摘要-定期提供關(guān)于潛在不遵守情況的內(nèi)部報(bào)告的信息。2.征求外部專家對(duì)能力和保障評(píng)估的意見(jiàn)。3.通知美國(guó)如果型號(hào)要求ASL-3標(biāo)準(zhǔn),則為政府。4.程序合規(guī)性審查:大約每年一次,委托第三方進(jìn)行審查,評(píng)估對(duì)政策主要程序承諾的遵守情況(我們希望將其列入確切的清單,因?yàn)橐郧皼](méi)有對(duì)RSP這樣做過(guò))。這次審查將側(cè)重于程序。合規(guī)性,而非實(shí)質(zhì)性成果。我們也將在內(nèi)部以更有規(guī)律的節(jié)奏進(jìn)行此類審查。-審計(jì):記分卡評(píng)估(和相應(yīng)的緩解措施)將由合格的獨(dú)立第三方進(jìn)行審計(jì),以確保準(zhǔn)確報(bào)告結(jié)果,方法是復(fù)制調(diào)查結(jié)果或?qū)彶榉椒?,按照SAG指定的節(jié)奏或CEO/董事會(huì)的要求,確保穩(wěn)健性-外部訪問(wèn):繼續(xù)外部研究政府訪問(wèn)模型發(fā)布?!白屚獠繖?quán)威機(jī)構(gòu)和專家參與進(jìn)來(lái):我們正在探索內(nèi)部政策,在達(dá)到評(píng)估閾值時(shí)提醒相關(guān)利益相關(guān)者機(jī)構(gòu),在某些情況下,還包括緩解計(jì)劃和緩解后的結(jié)果。我們還將探討如何適當(dāng)?shù)刈尓?dú)立第三方參與我們的風(fēng)險(xiǎn)評(píng)估和緩解流程。人擇OpenAI谷歌DeepMind智普AI生命未來(lái)研究所27研究指標(biāo)清單?控制/調(diào)整策略:我們?cè)u(píng)估公司是否公開(kāi)分享了他們的策略,以確保更先進(jìn)的人工智能仍然處于人類控制之下或保持一致,并總結(jié)任何此類文件的內(nèi)容。我們排除了對(duì)政府和其他利益相關(guān)者的政策建議。?能力目標(biāo):我們分享公司在構(gòu)建強(qiáng)大的未來(lái)人工智能系統(tǒng)方面的雄心。?安全研究:我們報(bào)告公司是否認(rèn)真從事研究,致力于確保未來(lái)更先進(jìn)的人工智能模型的安全性和控制/對(duì)齊。我們報(bào)告的出版物和研究方向的數(shù)量。?支持外部安全研究:我們注意到公司支持外部存在安全相關(guān)研究人員的行動(dòng)。一強(qiáng)大的量化保證,抵御超級(jí)智能AI帶來(lái)的災(zāi)難性風(fēng)險(xiǎn)B戰(zhàn)略很可能會(huì)防止超級(jí)智能AI的災(zāi)難性風(fēng)險(xiǎn)C戰(zhàn)略可能會(huì)防止超級(jí)智能AI的災(zāi)難性風(fēng)險(xiǎn)D可能有助于減輕超級(jí)智能AI帶來(lái)的一些巨大風(fēng)險(xiǎn)的戰(zhàn)略F沒(méi)有給出策略,或評(píng)估策略對(duì)存在安全無(wú)用生命未來(lái)研究所28人擇關(guān)于AI安全的核心觀點(diǎn)(6.2k字)博客文章分享&了AI安全的視角策略。中央報(bào)價(jià):?“我們的目標(biāo)基本上是開(kāi)發(fā):1)更好的技術(shù),使人工智能系統(tǒng)更安全;2)更好的方法來(lái)識(shí)別人工智能系統(tǒng)的安全性或不安全性。?“我們正在研究各種可擴(kuò)展監(jiān)督的方法,包括憲法AI的擴(kuò)展,人工輔助監(jiān)督的變體,AI-AI辯論的版本,通過(guò)多智能體RL的紅色團(tuán)隊(duì),以及創(chuàng)建模型生成的評(píng)估。?“我們的目標(biāo)是建立詳細(xì)的定量模型,說(shuō)明這些趨勢(shì)如何[例如,欺騙或不受歡迎的目標(biāo)]隨規(guī)模而變化,以便我們能夠提前預(yù)測(cè)突然出現(xiàn)的危險(xiǎn)故障模式?!?“我們的可解釋性研究?jī)?yōu)先考慮填補(bǔ)其他類型的對(duì)齊科學(xué)留下的空白。我們的希望是,這最終可以使我們做一些類似于“代碼審查”的事情,審計(jì)我們的模型,以識(shí)別不安全的方面,或者提供強(qiáng)有力的安全保證??紤]到技術(shù)上的不確定性,他們采用組合方法進(jìn)行安全研究。在文章中,他們解釋了6個(gè)優(yōu)先研究領(lǐng)域:2.可擴(kuò)展的監(jiān)督,3.過(guò)程導(dǎo)向?qū)W習(xí),5.危險(xiǎn)故障模式測(cè)試6.評(píng)估社會(huì)影響給定對(duì)齊問(wèn)題難度的不確定性。Anthropic分享了它將如何在從樂(lè)觀到悲觀的不同情景中調(diào)整其戰(zhàn)略:1.樂(lè)觀的場(chǎng)景-人工智能安全相對(duì)容易實(shí)現(xiàn):Anthropic將專注于加速人工智能的有益使用,并幫助解決人工智能引起的毒性和權(quán)力轉(zhuǎn)移等問(wèn)題。2.中間場(chǎng)景--人工智能開(kāi)發(fā)可能會(huì)帶來(lái)災(zāi)難性失敗的風(fēng)險(xiǎn)。需要大量的科學(xué)和工程工作來(lái)避免這種情況:Anthropic將致力于識(shí)別這些風(fēng)險(xiǎn)并開(kāi)發(fā)安全的人工智能訓(xùn)練技術(shù),可能依賴于機(jī)械可解釋性等方法來(lái)確保安全。在所有情況下,Anthropic的首要任務(wù)是收集更多信息,以了解他們所處的場(chǎng)景,并開(kāi)發(fā)技術(shù),使人工智能更安全,并評(píng)估人工智能系統(tǒng)的安全程度。他們的研究組合旨在解決每種情況帶來(lái)的挑戰(zhàn)OpenAI為AGI及以后制定計(jì)劃(1.7k字)。中央報(bào)價(jià):?“我們希望AGI的利益、訪問(wèn)和治理得到廣泛和公平的分享?!?“我們相信,我們必須不斷學(xué)習(xí)和適應(yīng),部署功能較弱的技術(shù)版本,以盡量減少‘一擊即中’的情況?!?“隨著我們的模型變得越來(lái)越強(qiáng)大,我們將需要開(kāi)發(fā)新的對(duì)齊技術(shù)(并進(jìn)行測(cè)試以了解我們當(dāng)前的技術(shù)何時(shí)失敗)。我們的短期計(jì)劃是使用人工智能來(lái)幫助人類評(píng)估更復(fù)雜模型的輸出并監(jiān)控復(fù)雜系統(tǒng),從長(zhǎng)遠(yuǎn)來(lái)看,使用人工智能來(lái)幫助我們提出更好對(duì)齊技術(shù)的新想法。?“我們認(rèn)為較慢的起飛更容易安全,并且AGI在關(guān)鍵時(shí)刻減速的努力之間的協(xié)調(diào)可能很重要(即使在我們不需要這樣做來(lái)解決技術(shù)對(duì)準(zhǔn)問(wèn)題的世界中,減速可能是重要的,以便給社會(huì)足夠的時(shí)間來(lái)適應(yīng))。超級(jí)聯(lián)盟團(tuán)隊(duì)的公告注:在團(tuán)隊(duì)領(lǐng)導(dǎo)人離開(kāi)OpenAI后,團(tuán)隊(duì)于2024年被放棄。中央報(bào)價(jià):?“[..]人類將無(wú)法可靠地監(jiān)督比我們聰明得多的人工智能系統(tǒng),因此我們目前的對(duì)齊技術(shù)將無(wú)法擴(kuò)展到超級(jí)智能。我們需要新的科學(xué)和技術(shù)突破。我們的目標(biāo)是建立一個(gè)大致人類水平的自動(dòng)比對(duì)研究員。然后,我們可以使用大量的計(jì)算來(lái)擴(kuò)展我們的努力,并迭代地調(diào)整超級(jí)智能。為了讓第一個(gè)自動(dòng)比對(duì)研究員進(jìn)行比對(duì),我們需要1)開(kāi)發(fā)一個(gè)可擴(kuò)展的訓(xùn)練方法,2)驗(yàn)證生成的模型,3)對(duì)整個(gè)比對(duì)管道進(jìn)行壓力測(cè)試:1)為了提供人類難以評(píng)估的任務(wù)的訓(xùn)練信號(hào),我們可以利用AI系統(tǒng)來(lái)幫助評(píng)估其他AI系統(tǒng)(可擴(kuò)展的監(jiān)督)。此外,我們希望了解和控制我們的模型如何將我們的疏忽推廣到生命未來(lái)研究所29我們無(wú)法監(jiān)督的任務(wù)(泛化)。2)為了驗(yàn)證我們的系統(tǒng)的一致性,我們自動(dòng)搜索有問(wèn)題的行為(魯棒性)和有問(wèn)題的內(nèi)部(自動(dòng)化可解釋性)。3)最后,我們可以通過(guò)故意訓(xùn)練未對(duì)齊的模型來(lái)測(cè)試我們的整個(gè)管道博客“我們的對(duì)齊研究方法“(1.7k字)。中央報(bào)價(jià):?“它有三個(gè)主要支柱:1)使用人類反饋訓(xùn)練人工智能系統(tǒng);2)訓(xùn)練人工智能系統(tǒng)以協(xié)助人類評(píng)估;3)訓(xùn)練人工智能系統(tǒng)進(jìn)行對(duì)齊研究。谷歌DeepMindAGI安全調(diào)整(主要團(tuán)隊(duì)專注于存在風(fēng)險(xiǎn))分享了最近的工作總結(jié)他們參與要發(fā)布的評(píng)論。中央報(bào)價(jià):?“我們?cè)谶^(guò)去1.5年的重大賭注是:1)放大監(jiān)督,為調(diào)整模型提供正確的學(xué)習(xí)信號(hào),使它們不會(huì)構(gòu)成災(zāi)難性風(fēng)險(xiǎn);2)前沿安全,首先分析模型是否能夠構(gòu)成災(zāi)難性風(fēng)險(xiǎn);3機(jī)械)可解釋性,作為前沿安全和調(diào)整目標(biāo)的潛在推動(dòng)者。除了這些賭注,我們還嘗試了一些有前途的領(lǐng)域和想法,幫助我們確定應(yīng)該下的新賭注?!?Post解釋了這些研究領(lǐng)域,最近的工作,并深入合作,并分享這些研究工作背后的理由。?“也許我們現(xiàn)在正在進(jìn)行的最令人興奮和最重要的項(xiàng)目是修改我們自己的技術(shù)AGI安全的高水平方法。雖然我們對(duì)邊界安全、可解釋性和擴(kuò)大監(jiān)督的押注是這一議程的關(guān)鍵方面,但它們并不一定構(gòu)成解決風(fēng)險(xiǎn)的系統(tǒng)性方法我們正在為技術(shù)偏差風(fēng)險(xiǎn)制定一個(gè)邏輯結(jié)構(gòu),并使用它來(lái)優(yōu)先考慮我們的研究,以便我們更好地涵蓋我們需要克服的一系列挑戰(zhàn)。作為其中的一部分,我們正在提請(qǐng)注意需要解決的重要領(lǐng)域。即使強(qiáng)化監(jiān)督效果完美,也顯然不足以確保協(xié)調(diào)一致。在分布轉(zhuǎn)移的情況下,人工智能系統(tǒng)可能會(huì)以放大的監(jiān)督不會(huì)認(rèn)可的方式行事,正如我們之前在目標(biāo)泛化中所研究的那樣。解決這一問(wèn)題需要在對(duì)抗性培訓(xùn)、不確定性估計(jì)、監(jiān)控等方面進(jìn)行投資;我們希望通過(guò)控制框架來(lái)評(píng)估這些緩解措施。工作人員分享了關(guān)于對(duì)齊團(tuán)隊(duì)的威脅模型、對(duì)齊策略、&三個(gè)不同團(tuán)隊(duì)的當(dāng)前項(xiàng)目的博客(1.4k字)。博客“威脅模型和計(jì)劃對(duì)齊團(tuán)隊(duì)”概述了12個(gè)相關(guān)帖子,包括:?招聘要求對(duì)齊和可擴(kuò)展的對(duì)齊團(tuán)隊(duì)勾勒出研究方向?8個(gè)聯(lián)盟工作人員對(duì)43個(gè)關(guān)于AGI破壞&戰(zhàn)略含義的陳述的看法。?發(fā)布澄清x風(fēng)險(xiǎn)威脅模型。沒(méi)有發(fā)布處理高級(jí)系統(tǒng)的策略。Meta談到了“負(fù)責(zé)任的人工智能”,其中包括“魯棒性和安全性”,但討論的重點(diǎn)是當(dāng)前的危害/系統(tǒng)。在他2024年的文章《開(kāi)源人工智能是前進(jìn)的道路》中,扎克伯格認(rèn)為開(kāi)源模型會(huì)降低無(wú)意傷害的風(fēng)險(xiǎn),包括“人類真正災(zāi)難性的科幻小說(shuō)場(chǎng)景”,因?yàn)樗鼈兏该?,可以被廣泛審查。沒(méi)有公布戰(zhàn)略,但馬斯克分享了他的高層觀點(diǎn):“前提是讓人工智能最大限度地好奇,最大限度地尋求真理,我在這里變得有點(diǎn)深?yuàn)W,但我認(rèn)為從人工智能安全的角度來(lái)看,一個(gè)最大限度好奇的人工智能-一個(gè)試圖了解宇宙的人工智能-我認(rèn)為從人類比沒(méi)有更有趣的角度來(lái)看,它將是親人類的。..地球比火星有趣多了。..從人工智能安全的角度來(lái)說(shuō)這是我能想到的最好的我認(rèn)為這比試圖明確地編程道德更好-如果你試圖編程道德,你必須問(wèn)誰(shuí)的道德?!靶糋rok”博客文章分享了xAI很興奮的研究方向。除了可擴(kuò)展的監(jiān)督與工具援助,對(duì)抗性的魯棒性,和其他,帖子提到:“與安全性、可靠性和接地的正式驗(yàn)證相結(jié)合。為了創(chuàng)建能夠?qū)ΜF(xiàn)實(shí)世界進(jìn)行深入推理的人工智能系統(tǒng),我們計(jì)劃在不那么模糊和更可驗(yàn)證的情況下開(kāi)發(fā)推理技能。這使我們能夠在沒(méi)有人類反饋或與現(xiàn)實(shí)世界交互的情況下評(píng)估我們的這一做法的一個(gè)主要近期目標(biāo)是正式保證代碼正確性,特別是關(guān)于人工智能安全的形式可驗(yàn)證方面。智普AI未發(fā)布戰(zhàn)略30生命未來(lái)研究所Amodei不喜歡AGI這個(gè)詞。談到“強(qiáng)大的人工智能”最早將于2026年到來(lái),盡管他沒(méi)有明確表示他想建造它?!皬?qiáng)大的人工智能”指的是一個(gè)系統(tǒng):-“[..]在大多數(shù)相關(guān)領(lǐng)域都比諾貝爾獎(jiǎng)得主聰明?!?“它擁有人類虛擬工作所需的所有“界面”--它可以自主完成需要數(shù)周時(shí)間的任務(wù)。-“可以以大約10倍至100倍的人類速度吸收信息并產(chǎn)生動(dòng)作”-“用于訓(xùn)練模型的資源可以重新用于運(yùn)行數(shù)百萬(wàn)個(gè)實(shí)例”O(jiān)penAI最初的“使命是確保人工通用智慧造福全人類?!痹谧罱奈募?,他們將其修改為“構(gòu)建安全并造福全人類的通用人工OpenAI將AGI定義為“在最具經(jīng)濟(jì)價(jià)值的工作中表現(xiàn)優(yōu)于人類的高度自治系統(tǒng)旨在構(gòu)建AGI。Hassabis分享了他想“解決智能問(wèn)題,然后用它來(lái)解決其他一切問(wèn)題”。提出了一個(gè)更復(fù)雜的AGI定義,包含6個(gè)原則和不同的“AGI水平”。沒(méi)有共同的定旨在構(gòu)建AGI。(索引調(diào)查)旨在構(gòu)建AGI。(索引調(diào)查)下圖顯示了2024年9月人工智能政策和戰(zhàn)略研究所進(jìn)行的技術(shù)安全研究文獻(xiàn)綜述的結(jié)果范圍包括OpenAI、Anthropic或GoogleDeepMind在2022年1月至2024年7月期間發(fā)表的技術(shù)安全研究(出版物列表的URL)。我們注意到,出版物的數(shù)量是一個(gè)粗略的衡量標(biāo)準(zhǔn)。OpenAI:《財(cái)富》雜志報(bào)道稱,30名AGI安全研究人員中有14人在2024年離開(kāi)了OpenAI該報(bào)告引用了一位前員工的話,他認(rèn)為人們正在放棄,因?yàn)镺penAI繼續(xù)轉(zhuǎn)向產(chǎn)品和商業(yè)重點(diǎn),而不太重視旨在確定如何確保AGI安全開(kāi)發(fā)的研究。從那時(shí)起,Brundage(AGI準(zhǔn)備負(fù)責(zé)人)和Ngo,誰(shuí)向他報(bào)告,也離開(kāi)了,他們的團(tuán)隊(duì)被解散。GoogleDeepMind:團(tuán)隊(duì)專注于存在風(fēng)險(xiǎn)報(bào)告,擁有30-50名員工。谷歌DeepMind的一位研究人員表示,他們的一些研究成果沒(méi)有被列出。安全性研究出版物列表2010-負(fù)責(zé)任的AI:2項(xiàng)-完整性:19項(xiàng)→許多項(xiàng)目集中在Meta當(dāng)前產(chǎn)品和&服務(wù)的問(wèn)題上。版物。我們發(fā)現(xiàn)一篇英文論文描述了他們對(duì)RLHF的方法。生命未來(lái)研究所312024年7月,呼吁申請(qǐng)資助和支持開(kāi)發(fā)第三方評(píng)估安全水平和相關(guān)科學(xué)技術(shù)的新舉措。幫助資助前沿模型論壇的人工智能安全基金,金額不詳。發(fā)布資源,包括RLHF和紅隊(duì)數(shù)據(jù)集,可解釋性筆記本, 以及模式生物提示和轉(zhuǎn)錄超級(jí)聯(lián)盟快速贈(zèng)款(2023年):1000萬(wàn)美元用于支持超人AI系統(tǒng)的對(duì)齊和安全性的技術(shù)研究,包括弱到強(qiáng)的泛化,可解釋性,可擴(kuò)展的監(jiān)督等。幫助資助前沿模型論壇的人工智能安全基金,金額不詳。GPT-4o微調(diào)訪問(wèn)。發(fā)布了OpenAIEvals,這是他們針對(duì)基準(zhǔn)評(píng)估模型的框架開(kāi)放重量釋放杰瑪模型。幫助資助前沿模型論壇的人工智能安全基金,金額不詳。釋放杰瑪·斯科普用于可解釋性研究的一套全面的開(kāi)放重量發(fā)布開(kāi)放式重量釋放關(guān)于GLM-4語(yǔ)音和GLM-49B.人擇OpenAI谷歌DeepMind

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論