2023前沿AI能力和風(fēng)險(xiǎn)報(bào)告(中文版)_第1頁
2023前沿AI能力和風(fēng)險(xiǎn)報(bào)告(中文版)_第2頁
2023前沿AI能力和風(fēng)險(xiǎn)報(bào)告(中文版)_第3頁
2023前沿AI能力和風(fēng)險(xiǎn)報(bào)告(中文版)_第4頁
2023前沿AI能力和風(fēng)險(xiǎn)報(bào)告(中文版)_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

關(guān)于進(jìn)一步研究人工智能風(fēng)險(xiǎn)本報(bào)告是一份支持人工智能安全峰會(huì)的討論文件,不代表英國政沿人工智能模型可以用工具來增強(qiáng),使它們更具自主性7前沿人工智能可能比評(píng)估顯示的更有能力8前近的進(jìn)展是由計(jì)算,數(shù)據(jù)和算法的系統(tǒng)趨勢(shì)驅(qū)動(dòng)的11縮評(píng)估前沿人工智能系統(tǒng)的安全性是一項(xiàng)公開挑戰(zhàn)16可能難以跟蹤前或使用情況17人工智能安全標(biāo)準(zhǔn)尚未建立18人工智能開發(fā)見、公平和代表性危害21濫用風(fēng)險(xiǎn)22雙重用途科學(xué)風(fēng)險(xiǎn)22網(wǎng)絡(luò)控制25人類可能會(huì)越來越多地將控制權(quán)移交給不一致的人工智能系統(tǒng)4我們正處于一場技術(shù)革命之中,這場革命將從根本上改變我們生活智能(AI)有望改變我們經(jīng)濟(jì)和社會(huì)的幾乎所有方面。這些機(jī)會(huì)是變前沿人工智能的發(fā)展正在改變生產(chǎn)力和軟件服務(wù),這將使許近年來,前沿人工智能領(lǐng)域的進(jìn)展非常迅速,最先進(jìn)的系統(tǒng)可以流暢地言指令編寫功能良好的代碼,制作新的應(yīng)用程序,在學(xué)??荚囍蝎@得高聞文章,在多種語言之間進(jìn)行翻譯,總結(jié)冗長的文檔,以及其他功能。企業(yè)和民間社會(huì)必須共同努力,應(yīng)對(duì)這些復(fù)雜且難以預(yù)測(cè)的風(fēng)英國政府認(rèn)為,需要對(duì)人工智能風(fēng)險(xiǎn)進(jìn)行更多研究。這份報(bào)告解釋并審查了一些關(guān)鍵風(fēng)險(xiǎn)。人工智能的能力和風(fēng)險(xiǎn)都存在本報(bào)告涵蓋了許多風(fēng)險(xiǎn),但我們希望強(qiáng)調(diào)的是,最主要的風(fēng)險(xiǎn)是對(duì)喪失,這將永久地剝奪我們和子孫后代的變革性積極利益。在討論其定義人工智能是一項(xiàng)挑戰(zhàn),因?yàn)樗匀皇且豁?xiàng)快速發(fā)展的5將為重點(diǎn)和深入討論前沿人工智能安全以及需要采取哪些進(jìn)一步行動(dòng)提供空前沿AI如何工作6當(dāng)它看到更多的數(shù)據(jù)時(shí),它從錯(cuò)誤中學(xué)習(xí)并提高其預(yù)測(cè)性能。一旦預(yù)訓(xùn)練結(jié)束,該模型在預(yù)測(cè)在微調(diào)過程中,12預(yù)先訓(xùn)練的人工智能在高度策劃的數(shù)據(jù)集上進(jìn)一步訓(xùn)練,這些數(shù)據(jù)集專注于更專業(yè)的任務(wù),或者被構(gòu)造為以與開發(fā)人員價(jià)值觀和用戶期望越來越多的前沿AI模型是多模態(tài)的。除了文本,它們還可以生成開發(fā)的關(guān)鍵輸入是用于訓(xùn)練和運(yùn)行模型的計(jì)算資源(絕大多數(shù)計(jì)算都花費(fèi)在預(yù)訓(xùn)練上,這是模如今,最強(qiáng)大的前沿人工智能模型的總開發(fā)成本達(dá)到數(shù)千萬至數(shù)十億英鎊。19.雖然表現(xiàn)最好的模型是由少數(shù)資源充足的組織7FrontierAI可以執(zhí)行許多經(jīng)濟(jì)上有用的任務(wù)簡單地從訓(xùn)練中預(yù)測(cè)不同數(shù)據(jù)集的下一個(gè)單詞,模型就可以開發(fā)):前沿AI模型可以通過工具進(jìn)行增強(qiáng),使其更加自主8由AI模型和腳手架構(gòu)建的最終系統(tǒng)是一個(gè)AI代理。AutoGPT是截至2今天的人工智能代理目前難以執(zhí)行大多數(shù)任務(wù)-它們經(jīng)常陷入循環(huán),無法自我糾正,或者在關(guān)鍵步驟失敗。然而,它們確實(shí)允許前沿AI執(zhí)行一些全新的任務(wù)。AI代理目前可以執(zhí)行的任務(wù)示FrontierAI可能比評(píng)估顯示的研究人員和用戶經(jīng)常發(fā)現(xiàn)前沿AI模型的驚人功能,而這些功能是部署這些工具和資源可以顯著提高相關(guān)任務(wù)的能力,或者賦予它不變。例如,更好的支架可以幫助AI智能體在犯錯(cuò)誤時(shí)進(jìn)9與預(yù)訓(xùn)練不同,這些改進(jìn)不需要大量的計(jì)算資源前沿AI關(guān)于前沿人工智能系統(tǒng)的局限性,人們一直在爭論,包括它們的性能是更多地由一般推理驅(qū)一般的推理能力可以通過前沿人工智能對(duì)新問題做出非常恰當(dāng)?shù)摹癞?dāng)一個(gè)問題被重寫以使其與訓(xùn)練[61]這可以通過使用知識(shí)儲(chǔ)存庫的系統(tǒng)、[62]改進(jìn)的微調(diào),或這些局限性可以通過算法創(chuàng)新來解決,為人工智能提供長期建更多數(shù)據(jù),幫助人工智能代理發(fā)現(xiàn)和糾正自己的錯(cuò)誤,或下文。目前的前沿系統(tǒng)一般都能勝任,但缺乏這種特定的背這可以通過使用更多的私人數(shù)據(jù)源、新的數(shù)據(jù)生成技術(shù)、更有效的數(shù)據(jù)微調(diào)技術(shù)、新的“基于模型”的學(xué)習(xí)方法來解決工智能開發(fā)。另一方面,人工智能的最新進(jìn)展在許多領(lǐng)域大大超過最近的人工智能進(jìn)展迅速最近人工智能的發(fā)展速度讓預(yù)測(cè)者和機(jī)器學(xué)習(xí)專家都感到驚訝。前沿人工智能領(lǐng)域的最新進(jìn)展是一個(gè)長期趨勢(shì)的延續(xù):自20語言建模等深度學(xué)習(xí)領(lǐng)域取得了快速進(jìn)展。2014年,人工智能只能而,到2022年,像DALL-E2和Imagen這樣的模型可以從文本提示中例如,在微積分問題上,GPT-3.5的得分低于大多數(shù)人,但GPT-4顯圖4a.由OurWorldinData中的圖像模型圖4b.完成從GPT-2到GPT-4。Bub等人完成的GPT-4,2023年最近的進(jìn)展是由計(jì)算,數(shù)據(jù)和算法對(duì)人工智能能力進(jìn)展的標(biāo)準(zhǔn)分析考慮了三個(gè)關(guān)鍵因素:計(jì)算能力計(jì)算能力(簡稱“計(jì)算”)是指通常在訓(xùn)練AI系統(tǒng)的背景下執(zhí)行的操作數(shù)練過程中使用的計(jì)算量增加了5500萬倍:從單個(gè)研究人員以幾英數(shù)百萬英鎊的成本在多個(gè)GPU集群上訓(xùn)練的系統(tǒng)。72.這種趨勢(shì)主在過去的十年中,訓(xùn)練算法也有了很大的改進(jìn),因此今天的機(jī)器學(xué)習(xí)模型大量的數(shù)據(jù)也在最近的人工智能進(jìn)步中發(fā)揮了重要作用。人工智能在初步培訓(xùn)后應(yīng)用的增強(qiáng)功能進(jìn)一步增強(qiáng)了系統(tǒng)的能力。這些訓(xùn)練后的提高特定領(lǐng)域的性能,而成本僅為原始訓(xùn)練成本的一小部分,因此擴(kuò)展定律:性能隨著計(jì)算和數(shù)據(jù)計(jì)算和數(shù)據(jù)增長的關(guān)鍵驅(qū)動(dòng)因素是,前沿AI模型的性能隨著模型規(guī)模來自Hoffmann等人,2022年。圖5b.從2018年到2023年,OpenAI82紀(jì)元。目前還不確定這種趨勢(shì)會(huì)持續(xù)多久,但它已經(jīng)保持了計(jì)算和數(shù)據(jù)集雖然下一個(gè)單詞預(yù)測(cè)任務(wù)本身并不是我們關(guān)心游任務(wù)的性能密切相關(guān)。例如,如果一個(gè)模型在代碼和數(shù)學(xué)數(shù)據(jù)上的下能在訓(xùn)練之前是模型開發(fā)人員無法預(yù)料的,并且通常只有在部署之后才被用戶發(fā)現(xiàn)我們目前都無法可靠地提前預(yù)測(cè)前沿AI模型在接受更多計(jì)算和數(shù)據(jù)訓(xùn)練時(shí)將獲得圖來自Wei等人,2022年。人工智能的快速發(fā)展可能會(huì)持續(xù)幾年最近人工智能能力的提高不是單一突破的結(jié)果,而是多個(gè)維度出、硬件性能的改進(jìn)和訓(xùn)練后的增強(qiáng)。所有這些因素都可以未來幾年,對(duì)AI的投資將繼續(xù)快速增長。Anthropic和OpenAI了大量資金,并建立了云合作伙伴關(guān)系,這在很大程度上是為了支持計(jì)算的然而,要在2030年之后保持計(jì)算和數(shù)據(jù)的快速增長速度,可能需些數(shù)據(jù)超出了互聯(lián)網(wǎng)上現(xiàn)成的數(shù)據(jù)。[90]盡管如此,算法效率的重要的是,人工智能系統(tǒng)本身也有可能加速人工智能的進(jìn)步。FrontierA創(chuàng)建用于訓(xùn)練的合成數(shù)據(jù),94編寫新代碼,95甚至改進(jìn)模型架構(gòu)。雖然自動(dòng)化的,但未來前沿人工智能系統(tǒng)的自動(dòng)化程度提高可能會(huì)大大加快可能意味著我們比預(yù)期更快地開發(fā)出非常強(qiáng)大的人工智能系統(tǒng),并且有未來可能會(huì)開發(fā)出先進(jìn)的通用AI代理幾家領(lǐng)先的人工智能公司明確致力于構(gòu)建這樣的系統(tǒng),并相信它們可能在本十年內(nèi)取得成一些對(duì)已發(fā)表的機(jī)器學(xué)習(xí)研究人員的調(diào)查發(fā)現(xiàn),受訪者的中位數(shù)預(yù)測(cè),到機(jī)器智能有超過10%的機(jī)會(huì),盡管這些調(diào)查受到了批評(píng)。根據(jù)計(jì)算成本研究投入的增長來預(yù)測(cè)人類水平的機(jī)器智能的發(fā)展,有時(shí)得出的結(jié)論是,然而,這些能力的時(shí)間軸存在很大的不確定性。許多(如果不是大不期望人工智能系統(tǒng)在20年內(nèi)與人類的表現(xiàn)大致匹配,并且不同意這是一個(gè)問交叉風(fēng)險(xiǎn)因素障礙。前沿人工智能系統(tǒng)在開放式領(lǐng)域中運(yùn)行,例如自由形式的對(duì)性使得設(shè)計(jì)安全的系統(tǒng)或詳盡地評(píng)估所有下游用例變得困難。為庫(例如,從有限的詞匯表中輸出文本但這限制了性能,能系統(tǒng)通常以意想不到的方式使用其行為庫,實(shí)現(xiàn)意想不到的一般來說,前沿人工智能系統(tǒng)并不健壯,也就是說,它們經(jīng)常敗。特別是,防止前沿人工智能模型遵守有害請(qǐng)求(例如設(shè)計(jì)網(wǎng)絡(luò)攻擊簡單的“越獄”方法,例如提示模型對(duì)請(qǐng)求做出肯定的響應(yīng),通常就足使情況惡化。雖然AI魯棒性是一個(gè)發(fā)展良好的研究領(lǐng)域,發(fā)表了數(shù)千魯棒性仍然是一個(gè)未解決的問題,影響著各種機(jī)器學(xué)習(xí)模型,包括語言模直接在代碼中完全表達(dá)復(fù)雜的行為、概念或目標(biāo),因此必須間接地教包括訓(xùn)練人工智能的行為方式,根據(jù)從人類偏好數(shù)據(jù)中得出的一些指高。[115]現(xiàn)有的方法受到已知的限制,可能無法擴(kuò)展到高度先進(jìn)的人工智找到了技術(shù)規(guī)格問題的解決辦法,由于人們的價(jià)值觀差異很大,還存前沿人工智能的安全測(cè)試和評(píng)估是臨時(shí)性的,沒有既定的標(biāo)在構(gòu)建軟件時(shí),開發(fā)人員可以精確地描述特定行為的指令。這使他們能解其局限性。相比之下,前沿AI開發(fā)人員只是指定了一個(gè)學(xué)習(xí)過程。對(duì)系統(tǒng)的開發(fā)人員來說都是不可解釋的:數(shù)千億的參數(shù)(數(shù)字它們不的行為,但對(duì)產(chǎn)生它們的內(nèi)部機(jī)制知之甚少。這種缺乏機(jī)械理解的情況智能系統(tǒng)的行為變得很有挑戰(zhàn)性,更不用說如何預(yù)測(cè)人工智能能力也差得多。120其他技術(shù),如顯著性圖,旨在識(shí)別輸入的哪些部 證明是不可靠或誤導(dǎo)的。121其他方法使開發(fā)人員對(duì)模這種行為評(píng)價(jià)無法徹底探索所有可能的脆弱性,從已探索的脆弱性形式化驗(yàn)證技術(shù)可以證明軟件的正確性(受假設(shè)的影響)。使用入的小修改具有一定程度的魯棒性。但總的來說,人類認(rèn)為不重要但對(duì)A跟蹤前沿人工智能模型的使用對(duì)于監(jiān)控濫用、注意故障或確定由前沿人工:(開放發(fā)布(通常稱為開源)使模型永久地可供其他參與者復(fù)制,[131]這可能會(huì)被濫用,[132]但對(duì)于創(chuàng)新和更廣泛地研究人工智 API訪問是可逆的,并允許部署人員保持對(duì)模型的控制并監(jiān)視其使用。但是,模型的某些功能仍然會(huì)被提取。133例如,來自GPT-3.5的響應(yīng)被用于訓(xùn)練開放釋放的FrontierAI模型體現(xiàn)了極其寶貴的知識(shí)產(chǎn)權(quán)。即信息安全實(shí)踐也會(huì)影響員工或外部參與者泄露完整模型的可能性。前沿在安全方面進(jìn)行更多的投資,以抵御來自資源最充足的參與者的攻擊。13意外行為或危險(xiǎn)能力也可能通過供應(yīng)鏈漏洞引入模型中,這會(huì)導(dǎo)致一些系統(tǒng)忽略它們的保護(hù)措施并服從用戶命令,即使這樣做AI安全標(biāo)準(zhǔn)尚未建立研究人員認(rèn)為,基礎(chǔ)模型潛在用例的廣度使其成為一種通用技術(shù),類似于能造成系統(tǒng)性風(fēng)險(xiǎn),有時(shí)受到專門監(jiān)管機(jī)構(gòu)的監(jiān)管,并有廣泛的標(biāo)準(zhǔn)些研究人員認(rèn)為,人工智能行業(yè)應(yīng)該借鑒在高度安全的行業(yè)中觀察到但人工智能安全標(biāo)準(zhǔn)仍處于早期階段。IEEE、ISO/IEC和CEN/CENEL的生態(tài)系統(tǒng)。142.一個(gè)挑戰(zhàn)是,系統(tǒng)往往在一個(gè)國家開發(fā),然后在另一在氣候變化等許多全球性挑戰(zhàn)中可以看到市場失靈。當(dāng)一家公司產(chǎn)生社會(huì)大局145.個(gè)別公司可能沒有足夠的動(dòng)力來解決其系統(tǒng)的所發(fā)人員之間為了快速開發(fā)產(chǎn)品而展開了激烈的競爭。人工智能“逐底競爭”情景的擔(dān)憂,即參與者競相快速開發(fā)人工智能系統(tǒng),而對(duì)安全措施的投資不足。在這種情況下,即使是人工智能開發(fā)人員單方面承諾嚴(yán)格的安全標(biāo)準(zhǔn)也可能承諾使他們處于競爭劣勢(shì)。[148]如果保持甚至加快人工智能最近的快研究人員和監(jiān)管機(jī)構(gòu)已經(jīng)開始探索前沿人工智能開發(fā)人員高度集中市成熟的領(lǐng)導(dǎo)者可以更好地獲得開發(fā)前沿AI模型所需的尖端計(jì)算資先者可能會(huì)隨著時(shí)間的推移而增長,例如,因?yàn)轭I(lǐng)導(dǎo)者從他們的在培訓(xùn)中使用,或者因?yàn)轭I(lǐng)導(dǎo)者使用他們的人工智能系統(tǒng)來加速他市場力量的高度集中可能會(huì)削弱競爭,減少創(chuàng)新和消費(fèi)用戶在使用其個(gè)人數(shù)據(jù)方面的發(fā)言權(quán)減少,潛在的行為操縱,監(jiān)視社會(huì)危害的重要性。FrontierAI可以廉價(jià)地生成逼真的內(nèi)容,這些內(nèi)容可以錯(cuò)誤前沿人工智能還可能導(dǎo)致進(jìn)一步惡化信息環(huán)境的間接后果。例來越多地被集成到搜索引擎中,這可能會(huì)降低新聞文章的流量,損害信息環(huán)境退化所帶來的許多危害對(duì)人工智能來說并不新鮮,但前沿人認(rèn)證解決方案(如169.水印與其他解決方案一樣,可能會(huì)帶來新的們所減輕的風(fēng)險(xiǎn)。例如,水印可能需要新的核查機(jī)構(gòu)或標(biāo)準(zhǔn)機(jī)構(gòu),并經(jīng)濟(jì)學(xué)家認(rèn)為,勞動(dòng)力市場的中斷和流離失所是人工智能快速福利的風(fēng)險(xiǎn)之一。170.技術(shù)變革還可以改善工作條件,從歷史上看從人工智能到勞動(dòng)力市場。人工智能已經(jīng)開始減輕某些角色的行174研究表明,受當(dāng)前人工智能能力影響最大的行業(yè)育、制造、農(nóng)業(yè)和采礦。[175]另一方面,我們可能會(huì)回到1980年前沿人工智能模型可以包含和放大它們所訓(xùn)練的數(shù)據(jù)中根深因?yàn)槟P涂梢詮钠渌畔ⅲㄈ缧彰?,位置和其他看似無關(guān)的因素)中推FrontierAI模型主要基于文本源進(jìn)行訓(xùn)練,包括數(shù)據(jù)來源背景中的不平等,180或者它反映了主導(dǎo)文化(考慮互聯(lián)網(wǎng)),度,要準(zhǔn)確地找出將偏見引入決策的確切機(jī)制就成了一項(xiàng)艱巨的任務(wù)。1明和糾正不公平情況成為一項(xiàng)挑戰(zhàn)。因此,人們可能會(huì)質(zhì)疑人工智能系人工智能技術(shù)越來越多地集成到負(fù)責(zé)后續(xù)決策的系統(tǒng)中,包括在公平沿人工智能技術(shù)在這些環(huán)境中部署時(shí)具有可預(yù)測(cè)的風(fēng)險(xiǎn)。人工智能系統(tǒng)中的貸款和醫(yī)療保健等高風(fēng)險(xiǎn)的現(xiàn)實(shí)世界領(lǐng)域尤其令人擔(dān)憂,在這些領(lǐng)域,有偏生深遠(yuǎn)的影響。189然而,在有些情況下,考慮這些因素是合理的,例如,中,藥物劑量可能隨年齡而變化;這使得識(shí)別有害偏見更加困難。盡管如以及在訓(xùn)練期間或之后,當(dāng)評(píng)估輸出有多大程度的偏差時(shí),可以值得注意的是,由于模型偏差造成的歧視可以被視為一種對(duì)齊問題:人誤用風(fēng)險(xiǎn)前沿人工智能系統(tǒng)有可能加速生命科學(xué)的進(jìn)步,從培訓(xùn)新科雖然這些能力將有巨大的有益應(yīng)用,但也有可能被用于惡意目的,例器。專家們對(duì)人工智能進(jìn)步將對(duì)生物安全構(gòu)成的風(fēng)前沿人工智能模型可以為實(shí)驗(yàn)室工作提供用戶定制的科學(xué)雖然我們的重點(diǎn)是前沿AI,但重要的是要注意結(jié)合使用,例如AlphaFold2201和RFDiffusion。窄AI工具已經(jīng)可以生成蛋白質(zhì),并支持具有所需特性組合的生物制劑的工程化。203生物設(shè)計(jì)一些人預(yù)計(jì),未來的能力將使實(shí)驗(yàn)指令更容易獲得,包括通過生成使科學(xué)系統(tǒng)更加自動(dòng)化。然而,目前尚不清楚前沿人工智能系統(tǒng)是雖然目前的系統(tǒng)對(duì)生物和化學(xué)安全風(fēng)險(xiǎn)的影兩用科學(xué)能力。當(dāng)前的人工智能系統(tǒng)尤其會(huì)在當(dāng)前的生物和化學(xué)供帶來風(fēng)險(xiǎn)。新的實(shí)驗(yàn)室工作仍然存在重大障礙。[208]這些障礙中的一得注意的是,人工智能系統(tǒng)可以被任何人使用,通過定制的網(wǎng)絡(luò)釣魚方建更快、更有效和更大規(guī)模的網(wǎng)絡(luò)入侵。前沿人工智能在未來,我們可FrontierAI可以通過提供攻擊技術(shù)建議,批評(píng)網(wǎng)前沿人工智能系統(tǒng)正在為熟練的威脅行為者節(jié)省時(shí)間。例如病毒,這些病毒會(huì)隨著時(shí)間的推移而變化,以避免被檢測(cè)到,而這在以間。地下黑客論壇上的212名用戶聲稱正在使用ChatGPT等工具,以幫助人工智能提高了現(xiàn)有技術(shù)的有效性。人工智能增強(qiáng)的社會(huì)工程已騙和竊取登錄憑據(jù),其系統(tǒng)可以收集目標(biāo)的情報(bào),214模仿可信聯(lián)系人力的魚叉式網(wǎng)絡(luò)釣魚消息。216鑒于大多數(shù)網(wǎng)絡(luò)攻擊者使用社會(huì)工程AI系統(tǒng)創(chuàng)造了新的攻擊技術(shù)。例如,它們可以為高度針對(duì)性的惡意軟件提供動(dòng)力,使測(cè)到目標(biāo)受害者之前進(jìn)行良性行為,然后才進(jìn)行惡意行為。218未來的前沿AI發(fā)展將增加攻擊的規(guī)模和速度。目前的策略通工智能系統(tǒng)所取代,從而導(dǎo)致強(qiáng)大的網(wǎng)絡(luò)攻擊具有更大的可擴(kuò)展前沿人工智能的發(fā)展將繼續(xù)增強(qiáng)現(xiàn)有的攻擊技術(shù)。例如,隨信息,信息收集和目標(biāo)定位很可能變得更加有效,219并且隨著模型推理前沿人工智能的發(fā)展可能會(huì)導(dǎo)致系統(tǒng)可以在互聯(lián)網(wǎng)上自主執(zhí)行復(fù)制和自我改進(jìn)的漏洞利用生成等行為特別令人關(guān)注,一些工作使用前沿人工智能的網(wǎng)絡(luò)防御可能會(huì)減輕部分風(fēng)險(xiǎn)。特別是,前沿檢測(cè)、安全掃描和減輕內(nèi)部威脅。然而,這種防御能力在短期內(nèi)可能能輔助的漏洞修復(fù)和檢測(cè)可能依賴于比目前更強(qiáng)大的前FrontierAI在集成到更廣泛的系統(tǒng)中時(shí)關(guān)鍵基礎(chǔ)設(shè)施,如能源、227交通、228醫(yī)療、229和金融,230如今已經(jīng)經(jīng)常成為網(wǎng)絡(luò)攻擊的目標(biāo)。231這可能導(dǎo)致知識(shí)產(chǎn)權(quán)盜竊、直接資金盜竊、數(shù)據(jù)破壞或勒索、隱私泄露以及私營、公共和第FrontierAI可能會(huì)增加上述類別的危害,也可能會(huì)產(chǎn)生新騙局引起的情緒困擾。隨著前沿人工智能繼續(xù)在網(wǎng)絡(luò)安全中部署),高質(zhì)量內(nèi)容的可訪問性將降低價(jià)格和進(jìn)入門檻,以創(chuàng)建虛假 此外,人工智能生成的deepfake變得非常逼真,這意味著它們通個(gè)人甚至機(jī)構(gòu)識(shí)別。即使人工智能生成的內(nèi)容沒有被普遍相信,其戰(zhàn)略部署也可能導(dǎo)致中斷,其中定制的消息針對(duì)個(gè)人而不是更大的群體,因此更具說服力。此工智能驅(qū)動(dòng)的個(gè)性化虛假信息活動(dòng)的展開,這些人工智能將能夠從得更善于影響和操縱人類,甚至可能在這方面比人類做得更好。在使用新的操縱策略,我們對(duì)此沒有準(zhǔn)備,因?yàn)榉烙呀?jīng)通過其他人的影響上面討論的諸如水印之類的虛假信息檢測(cè)方法已經(jīng)被提出和試驗(yàn)方面仍然面臨挑戰(zhàn)。雖然提高媒體素養(yǎng)至關(guān)重要,但很難考慮到前多情況下甚至對(duì)專家來說都難以區(qū)分。這一趨勢(shì)預(yù)計(jì)會(huì)隨著模型大小這些風(fēng)險(xiǎn)的可能性仍然存在爭議,許多專家認(rèn)為可能性非常低,一當(dāng)前危害的關(guān)注。然而,許多專家擔(dān)心,對(duì)先進(jìn)世界各地的組織已經(jīng)在部署失調(diào)的人工智能系統(tǒng),這些系統(tǒng)以意想不到的盡管如此,我們還是把更多的控制權(quán)交給了他們,通常是因?yàn)樗麄內(nèi)斯ぶ悄軕?yīng)用程序,包括自動(dòng)化偏見,256確認(rèn)偏見,257和擬人化。[258智能系統(tǒng)可能會(huì)以難以理解的方式改變復(fù)雜的系統(tǒng),使提取它們變得智能系統(tǒng)可能會(huì)越來越多地將社會(huì)引向與其長期利益不一致的方向,員都沒有任何意圖。[262]即使許多人認(rèn)識(shí)到它正在發(fā)生,也可能很難如果人工智能系統(tǒng)采取行動(dòng)增加自身的影響力并減少人類的威脅模型是有爭議的-人工智能專家對(duì)它的可能性有很大的分歧,而那人工智能系統(tǒng)主動(dòng)減少人類控制有兩個(gè)要求未來的人工智能系統(tǒng)可能會(huì)減少人類的控制人工智能系統(tǒng)可能傾向于采取增加自身影響力和減少人類控制的行一個(gè)壞的行為者可以給人工智能系統(tǒng)一個(gè)目標(biāo),使其減少人類的控因,有些人認(rèn)為,未來高度先進(jìn)的人工智能系統(tǒng)是人類的自然繼承者未來具有非預(yù)期目標(biāo)的先進(jìn)人工智能系統(tǒng)可能傾向于減少人求意想不到的目標(biāo),即,是一個(gè)尚未解決的技術(shù)研究問題,對(duì)于高度尤其具有挑戰(zhàn)性。267在實(shí)驗(yàn)室中觀察到許多非故意的目標(biāo)導(dǎo)向行為的例期目標(biāo)將通過減少人為控制而得到推進(jìn)。269未來的人工智能系統(tǒng)可能一些研究人員對(duì)我們?cè)u(píng)估這種假設(shè)未來情景的可行性的能力表FrontierAI顯示出可用于減少人類控制今天的系統(tǒng)有一些基本的能力,如果人工智能的快速發(fā)展繼續(xù)下去,影響力,減少人類的控制。目前,這些能力還不足以構(gòu)成重大風(fēng)險(xiǎn),○一個(gè)基于GPT-3的社交伴侶聊天機(jī)器人很快就與用戶建立了信任和○有證據(jù)表明,語言模型往往會(huì)做出回應(yīng),好像它們分享用戶的陳述○前沿人工智能模型可以在簡單的欺騙游戲中保持連貫的謊言,他們報(bào)告說,在隨后的調(diào)查中,他們更經(jīng)常地同意法學(xué)碩●網(wǎng)絡(luò)犯罪。人工智能系統(tǒng)可以通過利用計(jì)算機(jī)系統(tǒng)者除了--操縱人類。攻擊性網(wǎng)絡(luò)能力可以讓人工智能系統(tǒng)獲得礎(chǔ)設(shè)施。正如本報(bào)告前面所討論的,前沿人工智能已經(jīng)降低了威它們可能會(huì)變得更加困難。目前沒有人工智能系統(tǒng)具有這種能力,但正如報(bào)告早些時(shí)候所討論的,雖然一些專家認(rèn)為高能力的出來,但其他人則懷疑這是否可能。如果這真的成為現(xiàn)實(shí),這些代理與失去控制相關(guān)的領(lǐng)域的能力,例如政治戰(zhàn)略,武器設(shè)計(jì)或自我改進(jìn)風(fēng)險(xiǎn),人工智能系統(tǒng)需要對(duì)具有重大影響的系統(tǒng)(如軍事或金融系統(tǒng)我們已經(jīng)看到,前沿人工智能的最新進(jìn)展是快速和令人印象深刻的。Fronti這是由于更多的計(jì)算,更多的數(shù)據(jù)和更好的算法之間的相關(guān)性,以及前沿A進(jìn)展在某些方面可能是快速和令人驚訝的。我們無法預(yù)測(cè)隨著人工智能的改會(huì)出現(xiàn)。在不久的將來,可能會(huì)開發(fā)出先進(jìn)的通用AI代理。另一方面,一這些發(fā)展帶來了許多機(jī)會(huì),只有降低風(fēng)險(xiǎn),這些機(jī)會(huì)才能實(shí)現(xiàn)。有領(lǐng)域技術(shù)和社會(huì)風(fēng)險(xiǎn)因素加劇了這些風(fēng)險(xiǎn)。我們概述了社會(huì)危害的例或者說,如果通用人工智能代理確實(shí)存在,它們將很容易控制可能沒有足夠的經(jīng)濟(jì)激勵(lì)來開發(fā)具有足夠護(hù)欄的先進(jìn)人工智能風(fēng)險(xiǎn)建立足夠的安全標(biāo)準(zhǔn)。因此,重要的是,我們要對(duì)這些風(fēng)險(xiǎn)能夠有效地協(xié)調(diào),盡可能地預(yù)防和減輕這些風(fēng)險(xiǎn),并繼續(xù)在國際):●FrontierAI:可以執(zhí)行各不好。例如,如果一個(gè)人工智能主要在白色貓的圖片上1TowardsExpert-LevelMedicalQuestionQuestioningwithLargeLanguageModels.Singhal等人,2023.2介紹人工智能安全峰會(huì),科學(xué),創(chuàng)新和技術(shù)部,2023年。3大型語言模型(LLM):主要基于深度學(xué)習(xí)架構(gòu)(如transformer)的AI模型,旨在理解、生成和操縱人類語言。4介紹ChatGPT,OpenAI,2022。6Pichai,2023年,我們?nèi)斯ぶ悄苤玫闹匾乱徊?狹義AI:在單個(gè)任務(wù)或一組狹義任務(wù)上表現(xiàn)良好的AI系統(tǒng),如情感分析或下棋。8解釋者:什么是基礎(chǔ)模型?AdaLovelace研究所,2023年9數(shù)據(jù)點(diǎn)用于訓(xùn)練著名的人工智能系統(tǒng),我們的數(shù)據(jù)世界,2023年。10從技術(shù)上講,它不是文字,而是出于技術(shù)原因的11語言模型在下一個(gè)標(biāo)記預(yù)測(cè)方面比人類更好,Shlegeriset.al,2022.12微調(diào)是一個(gè)可選的額外訓(xùn)練過程,可以應(yīng)用于預(yù)先訓(xùn)練的模型,通過利用特定的數(shù)據(jù)集來添加特定的功能或改進(jìn)。13GPT-4系統(tǒng)卡介紹,OpenAI,2023。14例如,參見GPT-4(視覺)系統(tǒng)卡,OpenAI,2023。15計(jì)算:計(jì)算處理能力,包括CPU、GPU和其他硬件,用于運(yùn)行AI模型和算法。16AITriadandWhatItMeansforNationalSecurityStrategy,Buchanan,2020。17第3.35節(jié)人工智能基礎(chǔ)模型:完整報(bào)告,競爭和市場管理局,2023年。18OpenAI的首席執(zhí)行官聲稱,GPT-4的成本超過1億美元,在2023年麻省理工學(xué)院連線舉行的一次活動(dòng)中。19機(jī)器學(xué)習(xí)系統(tǒng)的美元培訓(xùn)成本趨勢(shì),Cottier,2023;Anthropic首席執(zhí)行官兼聯(lián)合創(chuàng)始人DarioAmodei預(yù)測(cè),在與LoganBartlett的這次訪談中,人工智能模型可能會(huì)花費(fèi)數(shù)十億美元。20第4.5節(jié)人工智能基礎(chǔ)模型:完整報(bào)告,競爭和市場管理局,2023年。21AI能力:AI系統(tǒng)可以執(zhí)行的任務(wù)或功能的范圍,以及它可以執(zhí)行這些任務(wù)或功能的熟練程度。這些功能可以從總結(jié)到復(fù)雜問題的解決,并隨著時(shí)間的推移而發(fā)展。22用于HPC并行編程模型的OpenAICodex的評(píng)估內(nèi)核生成,Godoy等人,2023;OpenAICodex,OpenAI,2021;使用Copilot在PowerAppsStudio中構(gòu)建和編輯應(yīng)用程序,Microsoft,2023。23GPT-4技術(shù)報(bào)告OpenAI,2023。24LanguageModelsareFew-ShotLearners,TomB,Brownetal.,2020年。25《通用人工智能的火花:GPT-4的早期實(shí)驗(yàn)》(SparksofArtificialGeneralIntelligence:EarlyExperimentswithGPT-4Bubecketal.2023;路徑語言模型(PaLM谷歌,2022。26路徑語言模型(PaLM谷歌,2022年。27使用大型語言模型的多語言機(jī)器翻譯:實(shí)證結(jié)果和分析28《走向有用的機(jī)器人:機(jī)器人啟示中的基礎(chǔ)語言》,谷歌,2022年;TidyBot:具有大型語言模型的個(gè)性化機(jī)器人輔助,Wu等人,2023年29LanguageModelsandCognitiveAutomationforEconomicResearch,Korinek,2023。30GPT-4,OpenAI,2023.31使用GPT-4代碼解釋器和基于代碼的自驗(yàn)證解決數(shù)學(xué)單詞問題,Zhou等人,二零二三年;用語言模型解決定量推理問題,Gur-Ari等人,2022年。32介紹100K上下文Windows,Anthropic,2023年5月;像ChatGPT這樣的工具威脅著透明科學(xué);這是我們使用它們的基本規(guī)則,自然,2023。33《人類如何通過生成性人工智能創(chuàng)造和摧毀價(jià)值》,BCG,2023年。導(dǎo)航參差不齊的技術(shù)前沿:人工智能對(duì)知識(shí)工作者生產(chǎn)力和質(zhì)量影響的現(xiàn)場實(shí)驗(yàn)證據(jù),戴爾Acqua等人,2023年34Schwarcz和Choi,2023年;AO宣布與Harvey,AllenOvery,2023年2月獨(dú)家推出合作伙伴關(guān)系。35見摩根士丹利財(cái)富管理宣布OpenAI創(chuàng)新之旅的關(guān)鍵里程碑,摩根士丹利,2023年3月。36工作中的生成性人工智能(工作論文),Brynjolfsson,Li,Raymond,2023。37經(jīng)濟(jì)研究的生成人工智能:用例和對(duì)經(jīng)濟(jì)學(xué)家的影響(即將出版Korinek,2023年。38無人工干預(yù)的能夠操作、執(zhí)行一系列行動(dòng)或作出決定39人工智能代理:AI系統(tǒng)自主執(zhí)行多個(gè)順序步驟-有時(shí)包括瀏覽互聯(lián)網(wǎng),發(fā)送電子郵件或向物理設(shè)備發(fā)送指令等動(dòng)作-以嘗試并完成高級(jí)別任務(wù)或目標(biāo)。40腳手架是一種軟件程序,它在AI模型的多個(gè)副本之間構(gòu)建信息流,而模型本身保持不變。例如,支架允許GPT-4為自主AI代理提供AutoGPT。腳手架提示GPT-4:將高級(jí)任務(wù)分解為子任務(wù),將子任務(wù)分配給自身的其他副本,將重要信息保存到內(nèi)存中,以及瀏覽互聯(lián)網(wǎng)。41AutoGPT42在現(xiàn)實(shí)自主任務(wù)中評(píng)估智能模型代理,ARCEvals,2023。43生成代理:人類行為的交互式模擬,JoonSungPark等人,2023年8月44Voyager:一個(gè)具有大型語言模型的開放式智能體,GuanzhiWang等人,2023年5月。45SPRING:GPT-4通過學(xué)習(xí)論文和推理勝過RL算法,YueWu等人,2023年5月46大型語言模型的新興自主科學(xué)研究能力,Gomes等人,2023年47OpenAICharter,OpenAI,2018;About,GoogleDeepMind.48例如,參見TheReynoldsCurse:LLMtrainedon“AisB”failtolearn“BisA”,Evansetal.,2023年49提示是人工智能系統(tǒng)的輸入,通常是基于文本的問題或查詢,系統(tǒng)在產(chǎn)生響應(yīng)之前進(jìn)行處理50在大型語言模型中的思維鏈排除啟發(fā)式推理,Wei等人,2023年51聊天插件,OpenAI,202352Toolformer:LanguageModelsCanTeachThemselvestoUseTools,Schick等人,2023;大型語言模型的新興Gomes等人,2023年53例如,它是一個(gè)支架,允許GPT-4為AutoGPT提供動(dòng)力。支架可能會(huì)促使前沿模型:將高級(jí)任務(wù)分解為子任務(wù),將子任務(wù)分配給自身的其他副本,將見解保存到內(nèi)存庫,以及瀏覽互聯(lián)網(wǎng)。54Reflexion:LanguageAgentswithVerbalReinforcementLearning,Shinnetal.,2023.幫助人類評(píng)估者的自我批評(píng)模型,Saunders等人,202255HuggingGPT:在HuggingFace中使用ChatGPT及其朋友解決AI任務(wù),Shen等人,二零二三年;通過多主體辯論改進(jìn)語言模型中的真實(shí)性和推理,Du等人,二零二三年;ChatGPT現(xiàn)在可以聽到和說話,OpenAI,2023。56啟發(fā)式:一種經(jīng)驗(yàn)法則、策略或簡化原則,當(dāng)經(jīng)典方法太慢或無法找到精確解時(shí),可以更有效地解決問題57路徑語言模型(PaLM谷歌,2022年。也可以參見SparksofExperimentalIntelligence:EarlyexperimentswithGPT-4,Bubecketal.,2023年58推理還是背誦?通過反事實(shí)任務(wù)探索語言模型的能力和局限性,吳等人,2023年59語言模型并不總是說他們所想的:思想鏈中的不忠實(shí)解釋;信仰與命運(yùn):變形金剛對(duì)組合性的限制,Dabri等人,大型語言模型中的涌現(xiàn)能力僅僅是語境學(xué)習(xí)嗎Madabushi等人,2023年60抑制詛咒:接受過“A是B”訓(xùn)練的LLM2023年[61]例如,Meta另請(qǐng)參閱第5.9節(jié)人工智能基礎(chǔ)模型:完整報(bào)告,競爭和市場管理局,2023;ChatGPT生成的書目引文中的捏造和錯(cuò)誤,Walters,Wilder,2023。62Lamda:對(duì)話應(yīng)用程序的語言模型,Thoppilan等人,二零二二年;WebGPT:帶有人工反饋的瀏覽器輔助問答。,Nakano等人,2021;檢索增強(qiáng)減少了談話中的幻覺,Shuster等人,2021年63例如,ARCEvals使用基于OpenAI的GPT-4和Anthropic的Claude的四個(gè)LLM代理進(jìn)行了一項(xiàng)開放式任務(wù)。參見EvaluatingRealisticAutonomousTasks,Kinnimentetal.,2023.這些人工智能系統(tǒng)在抓取和列出BBC十大新聞文章時(shí)不一致,并且在被要求抓取數(shù)據(jù)時(shí)無法識(shí)別公司最近增加的員工在嘗試這些任務(wù)時(shí),系統(tǒng)在訪問大量網(wǎng)站和軟件應(yīng)用程序時(shí)表現(xiàn)不佳。另請(qǐng)參閱-LargeLanguageModelsStillCan'tPlan(ABenchmarkforLLMonPlanningandReasoningaboutChangeValmeekametal.,2022-思想之樹:用大型語言模式解決問題,Yao等人,202364大型語言模型的挑戰(zhàn)和應(yīng)用,Kaddour等人,2023年65Reflexion:LanguageAgentswithVerbalReinforcementLearning,Shinnetal.,2023.幫助人類評(píng)估者的自我批評(píng)模型,Saunders等人,202266大型語言模型的挑戰(zhàn)和應(yīng)用,Kaddour等人,2023年67推理和基于模型的機(jī)器學(xué)習(xí)服務(wù)中的縮放,Bengio,2023;用于學(xué)習(xí)組合潛在變量模型的GFlowNet-EM,Hu等人,2023。68評(píng)分預(yù)測(cè)來自2016年69參見Languagemodelssurprisedus,Cotra,2023及其參考文獻(xiàn)。70例如,請(qǐng)參見可視化深度學(xué)習(xí)革命,Ngo,202371AI和計(jì)算,Amodei和Hernandez,2018;AITriad及其對(duì)國家安全戰(zhàn)略的意義,布坎南,2020;ML趨勢(shì),Epoch,2023。72為了維持訓(xùn)練運(yùn)行中使用的計(jì)算量的增長,人工智能開發(fā)人員現(xiàn)在必須采購越來越大的人工智能專用芯片集群。用于訓(xùn)練當(dāng)今最大模型的最先進(jìn)的集群需要數(shù)億或數(shù)十億英鎊的投資,每2-3年需要更新一次,以保持領(lǐng)先地位。機(jī)器學(xué)習(xí)三個(gè)時(shí)代的計(jì)算趨勢(shì),Sevilla等人,2022;機(jī)器學(xué)習(xí)系統(tǒng)的美元培訓(xùn)成本趨勢(shì),Cottier,2023。73用于開發(fā)前沿人工智能模型的計(jì)算支出每年增長約200%人工智能相關(guān)計(jì)算的成本每年下降約30%,每2到3年減半。人工智能算法的改進(jìn)使每年實(shí)現(xiàn)關(guān)鍵結(jié)果所需的訓(xùn)練計(jì)算量減少了大約正如Sevilla等人在《三個(gè)機(jī)器學(xué)習(xí)時(shí)代的計(jì)算趨勢(shì)》中所證明的那樣2022年。74測(cè)量神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率Hernandez,Brown,2020;計(jì)算機(jī)視覺的學(xué)習(xí)進(jìn)展,Besiroglu,Erdil,2022;Epoch即將進(jìn)行的一項(xiàng)分析表明,語言模型的結(jié)果與計(jì)算機(jī)視覺相似75我們會(huì)用完數(shù)據(jù)嗎?機(jī)器學(xué)習(xí)中縮放數(shù)據(jù)集的限制分析,Sevilla等人,2022年。76用語言模型解決定量推理問題,Gur-Ari等人,2022年。77Toolformer:LanguageModelsCanTeachThemselvestoUseTools,Schick等人,2022年。78WebGPT:通過Web瀏覽提高語言模型的事實(shí)準(zhǔn)確性,OpenAI,2023。79在大型語言模型中的思維鏈排除啟發(fā)式推理,Wei等人,2022年。80人工智能的能力可以在沒有昂貴的再培訓(xùn)的情況下得到顯著提高,TomDavidson,Jean-StanislasDenain和PabloVillalobos(即將出版)。81ScalingLawsforNeuralLanguageModels,Kaplan等人,二○二○年;訓(xùn)練計(jì)算最優(yōu)大型語言模型,霍夫曼等人,2022年。82FLOP/S是83超越模仿游戲:量化和推斷語言模型的能力,Srivastava等人,二零二二年;語言建?;鶞?zhǔn)中的外推性能,Owen,2023。84大型語言模型的涌現(xiàn)能力,Wei等人,2022年。85大型語言模型的涌現(xiàn)能力是一個(gè)幻象嗎Schaeffer等人,2023年86人工智能投資預(yù)測(cè)到2025年全球?qū)⒔咏?000億美元,高盛,2023年。預(yù)測(cè)機(jī)器學(xué)習(xí)中的計(jì)算趨勢(shì),Besiroglu等人,2022年。87與亞馬遜合作,擴(kuò)大對(duì)更安全的人工智能的訪問,Anthropic,2023;微軟和OpenAI擴(kuò)展合作伙伴關(guān)系,微軟,2023年。88在短期內(nèi),供應(yīng)瓶頸可能會(huì)推遲AI硬件的擴(kuò)張。供應(yīng)鏈短缺推遲了科技行業(yè)的人工智能財(cái)富,金融時(shí)報(bào),2023年89支出的增加是最近計(jì)算規(guī)模擴(kuò)大的最重要驅(qū)動(dòng)因素。據(jù)報(bào)道,用于訓(xùn)練GPT4的計(jì)算機(jī)花費(fèi)了5000萬美元。最近的計(jì)算支出估計(jì)每年增長3倍。如果這種趨勢(shì)再持續(xù)7年,用于培訓(xùn)運(yùn)行的計(jì)算機(jī)將花費(fèi)1500億美元。90我們會(huì)用完數(shù)據(jù)嗎?機(jī)器學(xué)習(xí)中縮放數(shù)據(jù)集的限制分析,Villalobos,2022年。91WhenLessisMore:InvestigatingDataPruningforPretrainingLLMatScale,Marionetal.二零二三年;Let'sVerifyStepbyStep,Lightmanetal.(讓我們一步一步地驗(yàn)證)二零二三年;用語言模型解決定量推理問題,Lewkowycz等人,二零二二年;LIMA:LessIsMoreforAlignment,Zhou等人,二零二三年;ConstitutionalAI:HarmlessnessfromAIFeedback,Baietal.,2022年。92AGeneralistAgent,Reedetal.,2022年。93ACT-1:TransformerforActions,AdeptAI博客,2022年9月;WebGPT:帶有人工反饋的瀏覽器輔助問答Hilton等人,2022年。94ConstitutionalAI:HarmlessnessfromAIFeedback,Anthropic,December2022.95用于HPC并行編程模型的OpenAICodex的評(píng)估內(nèi)核生成,Godoy等人,二零二三年;OpenAICodex,OpenAI,2021.96EvoExciting:LanguageModelsforCode-LevelNeuralArchitectureSearch,Chenetal.,2023年97持續(xù)98OpenAI的章程表示,它打算建立“高度自主的系統(tǒng),在最有經(jīng)濟(jì)價(jià)值的工作中超越人類”。OpenAICharter(2018).DeepMind將他們的使命更簡潔地描述為“解決智能”。關(guān)于DeepMind,2023年9月27日訪問。據(jù)報(bào)道,多個(gè)人工智能開發(fā)人員正試圖構(gòu)建自主的人工智能代理。99介紹Superalignment,OpenAI,2023;谷歌DeepMind首席執(zhí)行官DemisHassabis表示,幾年內(nèi)可能會(huì)出現(xiàn)某種形式的AGI,WSJ,2023100我們指的是三項(xiàng)調(diào)查:1.Graceetal,2018,人工智能何時(shí)會(huì)超越人類表現(xiàn)?人工智能專家的證據(jù),人工智能研究雜志,62,729-754。2.Zhang等人,2022年預(yù)測(cè)人工智能進(jìn)展:來自機(jī)器學(xué)習(xí)研究人員調(diào)查的證據(jù)3.2022年人工智能進(jìn)展專家調(diào)查,人工智能影響。三項(xiàng)調(diào)查的受訪者人數(shù)分別為406人、296人及734人。其中第三項(xiàng)調(diào)查最近受到批評(píng),部分原因是回應(yīng)率低至17%。前兩項(xiàng)調(diào)查的響應(yīng)率為20%;兩者都搜索了響應(yīng)偏差的證據(jù),沒有發(fā)現(xiàn)顯著偏差的證據(jù),但可能存在來自未測(cè)量變量的偏差。101AITimelines:WheretheArguments,andthe“Experts”Stand,Karnofsky,2021.102NLP研究人員相信什么?NLP社區(qū)元調(diào)查的結(jié)果,Michael等人,二零二二年;《通用人工智能并不像你想象的那么緊迫》,馬庫斯,2022年。103人工智能簡史:如何防止另一個(gè)冬天,Bottino等人,2021104例如,參見Hendrycks等人的UnsolvedProblemsinMLSafety2021年105在Chu等人2017年的研究中,一個(gè)模型意外地學(xué)會(huì)了將源圖像的信息“隱藏”在生成的圖像中,并將其隱藏在幾乎無法感知的高頻信號(hào)中。在Amodei等人(2017年)的研究中,一個(gè)接受人類反饋訓(xùn)練的人工智能抓住了一個(gè)球,而不是通過將爪子放在球和攝像頭之間來欺騙評(píng)估者,讓他們認(rèn)為它抓住了球。在Birdet.Al.(2002一種設(shè)計(jì)用于產(chǎn)生振蕩器的進(jìn)化算法產(chǎn)生了一種“天線106TowardsOut-Of-DistributionGeneralization:ASurvey,Liuetal.,2021年107從文本到MITRE技術(shù):探索惡意使用大型語言模型生成網(wǎng)絡(luò)攻擊有效載荷,Charan等人,二零二三年;大型語言模型可用于有效地?cái)U(kuò)展Spear網(wǎng)絡(luò)釣魚活動(dòng),Hazell,2023。108通過PromptEngineering越獄ChatGPT:一項(xiàng)實(shí)證研究,Liu等人,2023年越獄:LLM安全培訓(xùn)如何失敗Wei等人,2023年109對(duì)齊的神經(jīng)網(wǎng)絡(luò)是逆向?qū)R的嗎Carlini等人,2023年ImageHijacks:AdversarialImagescanControlGenerativeModels(圖像劫持:對(duì)抗性圖像可以控制生成模型)2023年110UniversalandTransferableAdversarialAttacksonAlignedLanguageModels,Zou等人,2023年111UniversalandTransferableAdversarialAttacksonAlignedLanguageModels,Zou等人,2023年112魯棒性是準(zhǔn)確性的代價(jià)嗎?--全面研究18種深度圖像分類模型的魯棒性,Su等人,2018/content_ECCV_2018/html/Dong_Su_Is_Robustness_the_ECCV_2018_paper.html113對(duì)抗性政策擊敗超人圍棋人工智能,王等人,2022年。對(duì)抗策略:攻擊深度強(qiáng)化學(xué)習(xí),Gleave等人,2019年。114注意差距:從工程、道德和法律角度確保自治系統(tǒng)的安全,伯頓等人,2020年。115通過獎(jiǎng)勵(lì)建模的可擴(kuò)展代理對(duì)齊:一個(gè)研究方向,Leike等人,二〇一八年;構(gòu)建安全的人工智能:規(guī)范,魯棒性和保證,DeepMind安全研究,2018年;ConstitutionalAI:HarmlessnessfromAIFeedback,Kaplanetal.,2022年。116OpenProblemsandFundamentalLimitationsofReinforcementLearningfromHumanFeedback,Casper等人,2023.117與誰結(jié)盟?人工智能系統(tǒng)的直接和社會(huì)目標(biāo),Korinek等人,2022;合作AI中的開放問題,Dafoe等人。二○二○年;人工智能,價(jià)值觀和對(duì)齊,加布里埃爾,2020年;導(dǎo)入社會(huì)價(jià)值觀的建議118放大:電路介紹,Olah等人,二○二○年;語言模型可以解釋語言模型中的神經(jīng)元,OpenAI,2023。119從人類反饋中強(qiáng)化學(xué)習(xí)的開放性問題和基本限制,Casper等人,二零二三年;大型語言模型的涌現(xiàn)能力,Wei等人,二零二二年;ChatGPT的行為如何隨時(shí)間變化Chen等人,2023年利馬:少即是多的對(duì)齊,周等人,2023年120野生環(huán)境中的可解釋性:GPT-2小電路中的間接對(duì)象識(shí)別,Variengien等人,2022;TowardsAutomatedCircuitDiscoveryforMechanisticInterpretability,Conmy等人,二零二三年;通過機(jī)械可解釋性進(jìn)行g(shù)rokking的進(jìn)展措施,Chan等人,二零二三年;通用性的玩具模型:逆向工程網(wǎng)絡(luò)如何學(xué)習(xí)集團(tuán)運(yùn)營,Chughtai等人,2023;將語言模型分解為可理解的組件,人類,2023。121顯著性圖的健全性檢查,Adebayo等人,二〇一八年;顯著性方法的可靠性,Kindermans等人,二〇一七年;ABenchmarkforInterpretabilityMethodsinDeepNeuralNetworks,Hooker等人,2018年122例如,請(qǐng)參見探測(cè)分類器:Promises,Shortcycle和Advances|計(jì)算機(jī)語言學(xué),麻省理工學(xué)院出版社。123一種用于檢測(cè)神經(jīng)網(wǎng)絡(luò)中錯(cuò)誤分類和分布外樣本的基線124在TerraIncognita125限制和危險(xiǎn),極端風(fēng)險(xiǎn)的模型評(píng)價(jià),Shevlane等人,2023年126針對(duì)對(duì)抗性示例的Reluplex:一種用于深度神經(jīng)網(wǎng)絡(luò)的基于凸外部對(duì)抗多面體的對(duì)抗示例可證防御可證魯棒神經(jīng)網(wǎng)絡(luò)的可微抽象解釋區(qū)間界傳播法訓(xùn)練可驗(yàn)證魯棒模型的有效性通過隨機(jī)平滑127對(duì)抗性示例不是bug,而是特性128API是一組規(guī)則和協(xié)議,可以實(shí)現(xiàn)AI系統(tǒng)和其他軟件應(yīng)用程序之間的集成和通信129結(jié)構(gòu)化訪問:安全AI部署130請(qǐng)參閱生成AI發(fā)布的梯度:方法和注意事項(xiàng),以了解替代方案和注意事項(xiàng)的更多討論。131包括馬斯克、扎克伯格在內(nèi)的科技領(lǐng)袖呼吁政府對(duì)人工智能采取行動(dòng),《華盛頓郵報(bào)》,2023年;最近的一篇論文提出了一種增加特定能力微調(diào)成本的方法,但現(xiàn)在就有信心地評(píng)估這種方法的前景還為時(shí)過早。自我毀滅模型:增加有害的雙重使用基礎(chǔ)模型的成本,亨德森等人,2022132許可證可以限制合法使用,但往往被忽視,不能單獨(dú)強(qiáng)制合法使用133例如,通過訓(xùn)練另一個(gè)(例如,更小的)從大型語言模型中提取訓(xùn)練數(shù)據(jù),Carlini等人,二零二一年;StealingMachineLearningModelsviaPredictionAPI,Tramèretal.,2016年。134羊駝:一種強(qiáng)大的、可復(fù)制的指令遵循模式1,Taori等人,2023年135NevoLahav,即將出版136對(duì)對(duì)齊的大型語言模型的通用和可轉(zhuǎn)移對(duì)抗攻擊。鄒,2023年。137《動(dòng)力引擎:電力、人工智能、通用、軍事轉(zhuǎn)型》,丁達(dá)福,2023年。GPTsareGPTs:Anearlylookatthelabormarketimpactpotentialoflargelanguagemodels,Eloundouetal.2023.基金會(huì)模型的市場集中影響,KorinekVipra,2023年。138例如,在聯(lián)合王國,《電信安全業(yè)務(wù)守則》和《電網(wǎng)守則》。139強(qiáng)大的人工智能和強(qiáng)大的人類組織,Dietterich,2019;規(guī)范140從噪聲中識(shí)別信號(hào),SchwarzReisman研究所,2023年;標(biāo)準(zhǔn)在人工智能治理中的作用是什么?AdaLovelace研究所,2023年。141人工智能風(fēng)險(xiǎn):人工智能系統(tǒng)的開發(fā)或部署所產(chǎn)生的潛在負(fù)面或有害后果。142有效的人工智能保證生態(tài)系統(tǒng)路線圖,數(shù)據(jù)倫理與創(chuàng)新中心,2021年。143盡管如此,許多國際論壇正在這一領(lǐng)域啟動(dòng)倡議,例如歐洲委員會(huì),經(jīng)濟(jì)合作與發(fā)展組織(OECD),七國集團(tuán)(G7),人工智能全球伙伴關(guān)系建設(shè)性的多邊和多方利益相關(guān)者跨境參與將需要繼續(xù)有效地解決前沿人工智能風(fēng)險(xiǎn),并利用這些機(jī)會(huì)。144外部性:價(jià)格并不包含所有成本,國際貨幣基金組織,2023。145人工智能是搭便車問題的例證,對(duì)話,2023;人工智能集體行動(dòng):初級(jí)讀本和評(píng)論,Neufville,2021年;合作在負(fù)責(zé)任的人工智能開發(fā)中的作用,Askell等人,2019年。146微軟首席執(zhí)行官薩蒂亞·納德拉(SatyaNadella)表示,他希望谷歌在人工智能領(lǐng)域做好競爭準(zhǔn)備。搜索:在人工智能競賽中,微軟和谷歌選擇速度而不是謹(jǐn)慎,紐約時(shí)報(bào),2023年;據(jù)報(bào)道,OpenAI警告微軟關(guān)于Bing147《模擬和影響人工智能競標(biāo)戰(zhàn):研究議程》,Han等人,二〇一九年;人工智能在異質(zhì)環(huán)境中的發(fā)展競賽,Cimpeanu等人,2022年。148達(dá)福艾倫‘AIGovernance:OverviewandTheoreticalLenses’在由JustinBullock,Yu-CheChen,JohannesHimmelreich,ValerieM.Hudson,AntonKorinek,MatthewYoung,andBaobaoZhang,0.牛津大學(xué)出版社,2022年。阿姆斯特朗、斯圖爾特、尼克·博斯特羅姆和卡爾·舒爾曼?!癆ISociety31,no.2(2016):201-206.,OpenAI Charter(2018):“我們擔(dān)心后期AGI開發(fā)成為一場競爭激烈的比賽,沒有時(shí)間采取足夠的安全預(yù)防措施。因此,如果一個(gè)價(jià)值取向、安全意識(shí)強(qiáng)的項(xiàng)目在我們之前接近構(gòu)建AGI,我們承諾停止與之競爭,并開始協(xié)助這個(gè)項(xiàng)目。我們將在逐案協(xié)議中制定具體細(xì)節(jié),但一個(gè)典型的觸發(fā)條件可能是“Askell,A.,Brundage,M.,Hadfield,G.(2019年)。合作在負(fù)責(zé)任的人工智能開發(fā)中的作用。149人工智能基金會(huì)模型初始報(bào)告,英國競爭和市場管理局,2023年;也有人擔(dān)心缺乏安全競爭和監(jiān)管捕獲?;饡?huì)模型的市場集中影響,KorinekVipra,2023年。150-“我們相信,訓(xùn)練出最好的2025/26車型的公司將遙遙領(lǐng)先,任何人都無法在隨后的周期中趕上?!保篈nthropic-持續(xù)151AI的危害,Acemoglu,2021年?!侗O(jiān)視資本主義時(shí)代:在新的權(quán)力前沿為人類的未來而戰(zhàn)》(TheAgeofSurveillanceCapitalism:TheFightforaHumanFutureattheNewFrontierof),Zuboff,2019。152在系統(tǒng)與社會(huì)中評(píng)估生成式人工智能系統(tǒng)的社會(huì)影響,Solaiman等人,2019.153對(duì)大約80個(gè)倫理框架的分析見Principledartificialintelligence:mappingconsensusinethicalandrights-basedapproachestoprinciplesforAI,F(xiàn)jeldetal.,2020年。154三分之一的互聯(lián)網(wǎng)用戶未能質(zhì)疑錯(cuò)誤信息。Ofcom,2022年。155處理對(duì)民主社會(huì)知情決策的威脅。Seger等人,2020年。156人工智能基礎(chǔ)模型初始報(bào)告,英國競爭和市場管理局,2023年。157錯(cuò)誤信息:定性研究。Ofcom,2021年。158人們?cè)噲D聲稱真正的視頻是deepfakes。法庭可不高興邦德2023ElonMusk159對(duì)于這種擔(dān)憂變得越來越普遍的一個(gè)例子,請(qǐng)參閱衛(wèi)報(bào)的這篇文章,質(zhì)疑你是否可以相信你所看到的。160人類在人工智能聊天機(jī)器人“鼓勵(lì)”他犧牲自己來阻止氣候變化后結(jié)束了自己的生命,Atillah,2023年。161Google'snewwA.I.seaíchcouldhuíttíafficowebsitess,publishíswoíy,Leswing,2023.162使用模型編寫的評(píng)估發(fā)現(xiàn)語言模型行為,Schiefer等人,2022年。163自動(dòng)化模糊:人工智能的挑戰(zhàn)和陷阱,Birhane,2022年。164Facebook在1月6日攻擊之前的幾個(gè)月內(nèi)主辦了大量錯(cuò)誤信息和叛亂威脅,記錄顯示,ProPublica,2023。1652019冠狀病毒病危機(jī)中錯(cuò)誤信息的危險(xiǎn),地中海,2020年。166如何為社交媒體上的生成式AI洪水做好準(zhǔn)備卡普爾和納拉亞南,2023年。167人工智能聊天助手可以改善關(guān)于分裂話題的對(duì)話。Argyle等人2023年168OntheReliabilityofWateímaíksfoíLaígeLanguageModels,Geipingeal.,2023年169ASystematicReviewonModelWatermarkingforNeuralNetworks,Boenisch,2021;RobustnessofAI-ImageDetectors:FundamentalLimitsandPracticalAttacks,Saberietal.,2023年170Korinek,Anton和JosephStiglitz(2019),人工智能及其對(duì)收入分配和失業(yè)的影響InAjayAgrawal,JoshuaGansandAviGoldfarb(eds.),人工智能的經(jīng)濟(jì)學(xué),pp。349-390,NBER和芝加哥大學(xué)出版社,2019年5月。171觀點(diǎn):農(nóng)業(yè)食品工作的未來,Christiaensen等人,2019年。172技術(shù)變革對(duì)勞動(dòng)力市場的影響:從肆無忌憚的熱情到合格的樂觀主義到巨大的不確定性,Autor,2022年。173為什么還有這么多工作?工作場所自動(dòng)化的歷史和未來,Autor,2015年。174.技術(shù)變革對(duì)勞動(dòng)力市場的影響:從無節(jié)制的熱情到有條件的樂觀主義,再到巨大的不確定性。大衛(wèi)·奧托爾,2022年175人工智能對(duì)經(jīng)濟(jì)增長的潛在巨大影響,高盛,2023年,圖表5。176自動(dòng)化和新任務(wù):技術(shù)如何取代和恢復(fù)勞動(dòng)力,AcemogluRestrepo,2019年。177語言模型的道德和社會(huì)危害風(fēng)險(xiǎn),DeepMind,2021年;TowardsaStandardforIdentifyingandManagingBiasinArtificialIntelligence,NIST,2022。178讓我們來談?wù)剻C(jī)器學(xué)習(xí)中的偏見Jernite,2022.179從醫(yī)學(xué)圖像預(yù)測(cè)種族變量的意義,Zou等人,二零二三年;公平、偏見和歧視呢?、ICO。180自動(dòng)化模糊:人工智能的挑戰(zhàn)和陷阱,Birhane,2022年;超越181權(quán)力屬于人民?人工智能的機(jī)遇和挑戰(zhàn),Birhane等人,2022年。182有害文本的特征:對(duì)語言模型進(jìn)行嚴(yán)格的基準(zhǔn)測(cè)試,Rauh等人,二零二二年;“人工智能”是否意味著在新冠肺炎(COVID-19,即2019冠狀病毒?。┽t(yī)療保健時(shí)代擴(kuò)大不平等?,BMJ,2021。1831.3長期部署和擴(kuò)散,加強(qiáng)對(duì)人工智能風(fēng)險(xiǎn)的彈性,Janjeva等人,2023年184TowardsMeasuringtheRepresentationofSubjectiveGlobalOpinionsinLanguageModels,EsinDurmus等人,2023年185解釋權(quán),Vredenburgh,2022年。186即將到來的信息披露:你迫切需要知道的,???,2020年。187什么時(shí)候自動(dòng)決策是合法的Barocas,Hardt,Narayanan,2022;1.2部署和使用,加強(qiáng)對(duì)AI風(fēng)險(xiǎn)的彈性,Janjeva等人,2023年188語言模型帶來的風(fēng)險(xiǎn)分類,Weidinger等人,2022年。189人工智能的公平性及其對(duì)社會(huì)的長期影響,Bohdal等人,2023年190數(shù)據(jù)培訓(xùn)師指南:測(cè)量數(shù)據(jù)年齡、領(lǐng)域覆蓋率、質(zhì)量和&毒性191大語言模型192附件B-《2023年英女王陛下政府GenAI的安全和安保風(fēng)險(xiǎn)》193人工智能和生命科學(xué)的融合:保護(hù)技術(shù),重新思考治理和預(yù)防災(zāi)難,核威脅倡議,即將出版。194人工智能和生命科學(xué)的融合:保護(hù)技術(shù),重新思考治理和預(yù)防災(zāi)難,核威脅倡議,即將出版。195大型語言模型能使兩用生物技術(shù)的獲取民主化嗎Soice等人,2023196人工智能和生命科學(xué)的融合:保護(hù)技術(shù),重新思考治理和預(yù)防災(zāi)難,核威脅倡議,即將出版。197ChemCrow:AugmentingLarge-LanguageModelswithChemistryTools,Branetal.2023年198云實(shí)驗(yàn)室:遠(yuǎn)程控制的自動(dòng)化生化實(shí)驗(yàn)室。199大型語言模型的新興自主科學(xué)研究能力,Boiko等人,2023年200生物設(shè)計(jì)工具:接受生物數(shù)據(jù)訓(xùn)練的人工智能系統(tǒng),可以幫助設(shè)計(jì)新的蛋白質(zhì)或其他生物制劑。人工智能和生物濫用:區(qū)分語言模型和生物設(shè)計(jì)工具的風(fēng)險(xiǎn),Sandbrink,2023。201用AlphaFold進(jìn)行高度精確的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)2021年202DeNovoDesignofProteinStructureandFunctionwithRFdiffusion,Watsonetal.,2023年203DeNovoDesignofProteinStructureandFunctionwithRFdiffusion,Watsonetal.,二零二三年;綜合性AAV衣殼適應(yīng)度景觀揭示病毒基因并實(shí)現(xiàn)機(jī)器引導(dǎo)設(shè)計(jì),Ogden等人,2019年。人工智能和生命科學(xué)的融合:保護(hù)技術(shù),重新思考治理和預(yù)防災(zāi)難,核威脅倡議,即將出版。204DeNovoDesignofProteinStructureandFunctionwithRFdiffusion,Watsonetal.,2023.Ankh:Optimizedproteinlanguagemodelunlocksgeneral-purposemodeling,Ahmed等人,2023年大型語言模型生成跨不同家族的功能蛋白質(zhì)序列,Madani等人,2023年205ChemCrow:AugmentingLarge-LanguageModelswithChemistryTools,Branetal.2023年206ChemCrow:AugmentingLarge-LanguageModelswithChemistryTools,Branetal.2023年207人工智能和生命科學(xué)的融合:保護(hù)技術(shù),重新思考治理和預(yù)防災(zāi)難,核威脅倡議,即將出版。208人工智能和生命科學(xué)的融合:保護(hù)技術(shù),重新思考治理和預(yù)防災(zāi)難,核威脅倡議,即將出版。209DARPA,白宮推出2000萬美元的人工智能,網(wǎng)絡(luò)安全挑戰(zhàn),突破防御,吉爾,2023年。210ChatGPT給網(wǎng)絡(luò)安全帶來的新風(fēng)險(xiǎn),Chilton,2023年;AHazardAnalysisFrameworkforCodeSynthesisLargeLanguageModels,Mishkin等人,2022年。211ChatGPT對(duì)網(wǎng)絡(luò)安全構(gòu)成的新風(fēng)險(xiǎn),Chilton,2023年。212聊天我們的方式創(chuàng)造一個(gè)多態(tài)惡意軟件ShimonyTsarfati,2023年;BlackMamba:UsingAItoGeneratePolymorphicMalware,Sims,2023.213OPWNAI:網(wǎng)絡(luò)犯罪分子開始使用ChatGPT,CheckPoint,2022年。214智能偵察:人工智能工具如何驅(qū)動(dòng)有效的滲透測(cè)試,CQR,2023。215你老板的聲音是不是有點(diǎn)滑稽?這可能是一個(gè)音頻deepfake,Alspach,2022年216人工智能的安全威脅使網(wǎng)絡(luò)攻擊,TRAFICOM,2022;大型語言模型可用于有效地?cái)U(kuò)展Spear網(wǎng)絡(luò)釣魚活動(dòng),Hazell,2023。217網(wǎng)絡(luò)安全漏洞調(diào)查2023,科學(xué),創(chuàng)新和技術(shù)部,2023年。218Deepworld-ConcealingTargetedAttackswithAILocksmithing,BlackHatUSAevents,2018.219介紹100k上下文窗口,Anthropic,2023;OpenAI正在測(cè)試一個(gè)可以“記住”長對(duì)話的GPT-4版本220ARC(挑戰(zhàn))基準(zhǔn)(常識(shí)推理論文與代碼。221我們?nèi)绾螌PT幻覺的發(fā)生率從20%以上降低到2%以下,JasonFan,2023。222自動(dòng)化網(wǎng)絡(luò)攻擊,布坎南等人,2020年。223在現(xiàn)實(shí)自主任務(wù)中評(píng)估智能模型代理,ARCEvals,2023。224安全分析師如何在網(wǎng)絡(luò)安全中使用人工智能,Moisset,2023年。ChatGPTVulnerabilityScannerIsPrettyGood,Merian,2021。人工智能如何顛覆和改變網(wǎng)絡(luò)安全格局,Ravichandran,2023年。225使用大型語言模型檢查零次漏洞修復(fù)。Pearce等人,2023年。226用于指令調(diào)整的大型語言模型的虛擬提示注入,Yan等人,2023年227InsidetheCunning,UnprecedentedHackofUkraine'sPowerGrid,Zetter,2016.228Northern'sticketmachineshitbyransomwarecyberattack,BBCNews,2023.229對(duì)NHS軟件供應(yīng)商的勒索軟件攻擊后患者數(shù)據(jù)的擔(dān)憂,MilmoCampbell,2022年。230涉及金融機(jī)構(gòu)的網(wǎng)絡(luò)事件的時(shí)間軸,卡內(nèi)基國際和平基金會(huì)2312023年網(wǎng)絡(luò)安全漏洞調(diào)查,科學(xué),創(chuàng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論