AI模型研究第二期:LLAMA2與GPT4對比分析深度探析兩大技術(shù)優(yōu)勢與應(yīng)用前景_第1頁
AI模型研究第二期:LLAMA2與GPT4對比分析深度探析兩大技術(shù)優(yōu)勢與應(yīng)用前景_第2頁
AI模型研究第二期:LLAMA2與GPT4對比分析深度探析兩大技術(shù)優(yōu)勢與應(yīng)用前景_第3頁
AI模型研究第二期:LLAMA2與GPT4對比分析深度探析兩大技術(shù)優(yōu)勢與應(yīng)用前景_第4頁
AI模型研究第二期:LLAMA2與GPT4對比分析深度探析兩大技術(shù)優(yōu)勢與應(yīng)用前景_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

目錄一、構(gòu)模規(guī)介紹 1LLAMA2架和規(guī)模 1GPT4架和型模 1二、訓(xùn)數(shù)集 1LLAMA2預(yù)練集 1預(yù)練數(shù)集 3三、務(wù)能 3LLAMA2任性能 3LLAMA2任性與任性對比 4LLAMA2監(jiān)微調(diào) 5LLAMA2模獎勵 5LLAMA2模獎果 6LLAMA2與獎勵比 6LLAMA2多一系統(tǒng)息 8代解釋器 10舊本在題決方式 10正使方式 12示一正使據(jù)分方的程 14示二顏提,從像提調(diào)板 14示三調(diào)代碼 15示四清數(shù)執(zhí)行據(jù)析生可化 15示五用Python制16務(wù)能結(jié) 16四、語支持 164.1語支對比 16五、解性抗見性 17的陷 17的全性合性 18LLAMA2的全合規(guī)性 19六、檔支持 24LLAMA2訓(xùn)過程 24視輸入 24訓(xùn)過程 25七、用和可 25LLAMA2的用性 25的OpenAIEvals 26使用構(gòu)建 26的用性 26八、考獻(xiàn) 26九、險示 27圖表目錄圖表1:LLAMA2和LLAMA1屬差異 2圖表2:LLAMA2型訓(xùn)練失 2圖表3:訓(xùn)期的CO23圖表4:、Falcon、LLAMA1和LLAMA2模對比 4圖表5:閉模的較 4圖表6:SFT5圖表7:于勵模人類好據(jù)計(jì) 6圖表8:型勵果 6圖表9:勵型擴(kuò)趨勢 7圖表10:獎模的趨勢 7圖表人評結(jié)果 8圖表12:LLAMA29圖表13:模的大力激活 9圖表14:對學(xué)代碼應(yīng)用 10圖表15:的明程 圖表16:創(chuàng)全的模因 12圖表17:輸框 12圖表18:正提方一 13圖表19:正提方二 13圖表20:正提方三 14圖表21:使數(shù)分法案例 14圖表22:使數(shù)提案例 15圖表23:調(diào)代案例 15圖表24:輸出CSV案例 16圖表25:LLAMA2言對話 17圖表26:多言話 17圖表27:校18圖表28:禁和感的不確為率 19圖表29:預(yù)練據(jù)性 20圖表30:代和份術(shù)語其比 20圖表31:獎模得布對RLHF安全性的響 21圖表32:安數(shù)擴(kuò)勢 21圖表33:上文餾析 22圖表34:各種的體違百比安評級 22圖表35:單和圈率 23圖表36:每風(fēng)類違規(guī)分比 23圖表37:在同全集上調(diào)LLMs的評估 23圖表38:LLAMA2錯誤讀例 24圖表39:LLAMA2訓(xùn)練制 24圖表40:視輸數(shù)據(jù) 25一、架構(gòu)和模型規(guī)模介紹LLAMA2架構(gòu)和模型規(guī)模LLAMA2-ChatLLAMA2LLAMA2Transformer架構(gòu),并提供了三種尺寸的開源模型:7B、13B70B。其優(yōu)化過程結(jié)合了監(jiān)督微調(diào)(supervisedfine-tuning)和強(qiáng)化學(xué)習(xí)人類反饋(reinforemntlernngwihhumneebak,LHF首先,模型經(jīng)過監(jiān)督微調(diào),然后通過拒絕采樣(rejectionsampling)PPO進(jìn)。在模型架構(gòu)方面,LLAMA2引入了一些優(yōu)化措施,包括預(yù)規(guī)范化(pre-nrmizaion、SwiLU激活函數(shù)以及旋轉(zhuǎn)位置嵌入(RoPE。而LLAM2-ht則提供了四個版本,分別包含70億、34億、13億和7億個參數(shù)。Meta3RLHF100個人類偏好比較數(shù)據(jù),并訓(xùn)練了專門用于安全性和有用性獎勵的模型。此外,還采用了一些新技術(shù),例如基于GhostAttentionTouvron等作者的研究中,他們開發(fā)和發(fā)布了LLAMA2,一個參數(shù)規(guī)模從70億到700億的大型語言模型(LLM),經(jīng)過預(yù)訓(xùn)練和微調(diào)。他們特別優(yōu)化了經(jīng)過微調(diào)的法學(xué)碩士模型(稱為LLAMA2-Chat)用于對話應(yīng)用,該模型在大多數(shù)基準(zhǔn)測試中表現(xiàn)優(yōu)于開源聊天模型,且基于人類評估顯示可能成為閉源模型的合適替代品。他們詳細(xì)描述了微調(diào)和安全方法,以促進(jìn)社區(qū)在其工作基礎(chǔ)上為負(fù)責(zé)任的LLM發(fā)展做出貢獻(xiàn)。GPT4架構(gòu)和模型規(guī)模GPT-4是一種由OpenAI開發(fā)的大規(guī)模多模態(tài)語言模型,能夠接受圖像和文本輸入,并生成文本輸出。在許多專業(yè)和學(xué)術(shù)基準(zhǔn)測試中,GPT-4GPT-4Transformer多模態(tài)技術(shù)使得系統(tǒng)能夠處理和集成多種類型的輸入和輸出,實(shí)現(xiàn)更自然、高效的人機(jī)交互。GPT-4的架構(gòu)由編碼器、解碼器和注意力機(jī)制組成,通過這些組件對輸入和輸出進(jìn)行處理。該項(xiàng)目的核心目標(biāo)是開發(fā)基礎(chǔ)設(shè)施和優(yōu)化方法,以使GPT-4在廣泛的尺度上表現(xiàn)出可預(yù)測的性能。二、預(yù)訓(xùn)練數(shù)據(jù)集LLAMA2預(yù)訓(xùn)練數(shù)據(jù)集LLAMA2TransformerGQA(GroupQueryAttention)來提高大型模型推理的可擴(kuò)展性。訓(xùn)練語料庫包括來自公開來源的各種新數(shù)據(jù)組合,但不包括Meta自家產(chǎn)品或服務(wù)中的數(shù)據(jù)。為了提高性能,研究人員進(jìn)行了更穩(wěn)健40%2token量化深度報告圖表1:LLAMA2和LLAMA1的屬性差異數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投在訓(xùn)練細(xì)節(jié)方面,Meta團(tuán)隊(duì)在LLAMA-2項(xiàng)目中保留了一部分先前的預(yù)訓(xùn)練設(shè)置和模型架構(gòu),并進(jìn)行了一些創(chuàng)新。研究人員繼續(xù)采用標(biāo)準(zhǔn)的Transformer架構(gòu),并使用RMSNorm進(jìn)行預(yù)規(guī)范化,同時引入了SwiGLU激活函數(shù)和旋轉(zhuǎn)位置嵌入。對于LLAMA-2系列不同規(guī)模的模型,研究人員進(jìn)行了訓(xùn)練損耗的比較。值得注意的是,他們在預(yù)訓(xùn)練過程中使用了2T數(shù)量的token,并觀察到在該訓(xùn)練規(guī)模下,模型并未出現(xiàn)任何飽和的跡象。這表明模型在此規(guī)模下仍有潛力進(jìn)一步提升性能,而不會因?yàn)閿?shù)據(jù)規(guī)模的增加而導(dǎo)致性能收斂。圖表2:LLAMA2模型的訓(xùn)練損失數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投在訓(xùn)練硬件方面,Meta(ResearchSuperCluster,RSC)和內(nèi)部生產(chǎn)集群上LLAMA2NVIDIAA100GPU,這是高性能計(jì)算設(shè)備,為模型訓(xùn)練提供了強(qiáng)大的計(jì)算能力。量化深度報告圖表3:預(yù)訓(xùn)練期間的CO2排放數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投針對預(yù)訓(xùn)練的碳足跡評估,Meta團(tuán)隊(duì)采用了常用的研究方法,通過估算GPU設(shè)備的功耗和碳效率進(jìn)行計(jì)算。借助這一方法,他們得出了LLAMA2模型預(yù)訓(xùn)練過程中所產(chǎn)生的碳排放量。這項(xiàng)工作對于深入了解模型訓(xùn)練對環(huán)境影響至關(guān)重要,并為未來綠色AI研究提供了有價值的參考。預(yù)訓(xùn)練數(shù)據(jù)集GPT-413tokentokentoken2epoch4epochScaleAIGPT-4三、任務(wù)性能LLAMA2任務(wù)性能研究人員對LLAMA2在一系列常用基準(zhǔn)上的綜合性能進(jìn)行了總結(jié)和評估:HumanEvalMBPPpass@1在常識推理方面,研究人員報告了模型在多個項(xiàng)目上的平均得分,包括PIQA、SIQA、HellaSwag、WinoGrande、ARCeasyandchallenge、OpenBookQACommonsenseQACommonSenseQA7-shot0-shotNaturalQuestionsTriviaQA5-shotSQuAD、QuACBoolQ0-shotGSM8K(8-shot)MATH(4-shot)基準(zhǔn)上的平均成績,并指出第一名的表現(xiàn)。此外,研究人員還評估了模型在其他熱門綜合基準(zhǔn)上的總體結(jié)果,包括MMLU(5-sot、BigBnchHad(BBH(3-sht)和AGIval(35sot。對于AGIEval,研究人員僅對英語相關(guān)的任務(wù)進(jìn)行了評估,并報告了平均得分,這有助于了解模型在廣泛的綜合性任務(wù)中的整體表現(xiàn)。圖表4:MPT、Falcon、LLAMA1和LLAMA2模型對比數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投根據(jù)上表中的數(shù)據(jù)可以觀察到,LLAMA2LLAMA1。特別是與LLAMA1-65BLLAMA2-70BMMLUBBH5830BMPTFalconLLAMA2-7BFalcon-7B40BLLAMA2-70B這些數(shù)據(jù)結(jié)果表明,LLAMA2LLAMA2成為當(dāng)前研究和應(yīng)用中備受關(guān)注和借鑒的重要選擇。LLAMA2任務(wù)性能與任務(wù)性能對比除了與開源模型進(jìn)行比較,Meta團(tuán)隊(duì)還對LLAMA2-70B的結(jié)果與閉源模型進(jìn)行了對比。從下表可以看出,LLAMA2-70BMMLUGSM8KGPT-3.5,但在編碼基準(zhǔn)上存在明顯差距。在幾乎所有的基準(zhǔn)測試中,LLAMA2-70B的結(jié)果都與PaLM540B相當(dāng),甚至更為優(yōu)越。然而,與GPT-4和PaLM-2-L相比,LLAMA2-70B仍然存在較大的性能差距。這些對比結(jié)果顯示出LLAMA2-70B在一些任務(wù)上的表現(xiàn)接近或超越了某些閉源模型,但在與其他閉源模型的比較中,LLAMA2-70B更先進(jìn)的語言模型中,LLAMA2圖表5:與閉源模型的比較數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投LLAMA2監(jiān)督微調(diào)監(jiān)督微調(diào)(SupervisedFine-Tuning,SFT)是一種通過第三方提供的監(jiān)督數(shù)據(jù)對模型進(jìn)行微調(diào)的方法。對于LLAMA2,Meta團(tuán)隊(duì)需要獲取高質(zhì)量的監(jiān)督微調(diào)數(shù)據(jù),以確保模型在與對話式指令相關(guān)的任務(wù)中保持一致性。然而,他們發(fā)現(xiàn)許多現(xiàn)有的數(shù)據(jù)來源在多樣性和質(zhì)量方面并不足夠。為此,他們著重收集了數(shù)千個高質(zhì)量SFT5SFTMetaLLAMA2圖表6:SFT注釋數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投在微調(diào)過程中,每個樣本都由一個提示和一個回答組成。為確保模型序列長度得到正確填充,Metatoken在微調(diào)過程中,利用自回歸目標(biāo),Metatokentoken最后,Meta計(jì)的微調(diào)策略,LLAMA2LLAMA2LLAMA2模型獎勵在模型獎勵方面,研究團(tuán)隊(duì)采用獎勵模型來對模型生成的回復(fù)進(jìn)行評價,生成一個標(biāo)量分值,用于評估生成質(zhì)量。然而,發(fā)現(xiàn)有用性和安全性這兩個方面在同一個獎勵模型中很難表現(xiàn)得都很好。因此,研究團(tuán)隊(duì)獨(dú)立訓(xùn)練了兩個獎勵模型,一個針對有用性(helpfulness)進(jìn)行優(yōu)化,另一個針對安全性(safety)進(jìn)行優(yōu)化。Token歸器。在訓(xùn)練過程中,采用帶有邊際約束的二元排序損失函數(shù),如下,????????????????=?log(??(????(??,????)?????(??,????)???(??)))以提高獎勵模型的準(zhǔn)確性,其中邊際約束是開源的。為了保證獎勵模型的泛化性能,防止出現(xiàn)獎勵黑客現(xiàn)象(例如LLAMA2-ht利用了獎勵模型的弱點(diǎn),在表現(xiàn)不佳的情況下夸大獎勵分?jǐn)?shù),在獎勵模型的訓(xùn)練過程中,還加入了部分開源的人類偏好數(shù)據(jù)。70B5e?61e?5。采用余10%,并進(jìn)行總步數(shù)的3%進(jìn)行預(yù)熱(最少5。同時,1024,以提高訓(xùn)練的效率和穩(wěn)定性。這些精心設(shè)置的訓(xùn)練參數(shù)有助于確保模型在訓(xùn)練過程中獲得更好的收斂效果,并為其在特定任務(wù)上取得優(yōu)異表現(xiàn)提供支持。圖表7:用于獎勵建模的人類偏好數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投LLAMA2模型獎勵結(jié)果在基于LLAMA2-ChatMetaHelpful)測試集上取得了最佳表現(xiàn),而安全性獎勵模型在元安全性(MegaSafety)測試集上也表現(xiàn)最佳。綜上所述,MetaGPT-4MetaLLAMA2-ChatLLAMA2在多領(lǐng)域任務(wù)中的應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ),并在進(jìn)一步提高模型性能上展現(xiàn)出巨大的潛力。圖表8:模型獎勵結(jié)果數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投LLAMA2與型獎勵對比作為參考,研究人員還對其他公開的替代方案進(jìn)行了評估,包括基于FLAN-T5-xl的SteamSHP-XL、基于DeBERTaV3Large的OpenAssistant的獎勵模型以及GPT4。量化深度報告然而,值得注意的是,更多的訓(xùn)練數(shù)據(jù)和更大的模型通常會提高模型的準(zhǔn)確性。目前來看,Meta的模型似乎還沒有達(dá)到從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的飽和點(diǎn),仍然有進(jìn)一步提升的潛力。下圖展示了相關(guān)結(jié)果:圖表9:獎勵模型的擴(kuò)展趨勢數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投MetaMeta優(yōu)勢和不足之處。這些評估結(jié)果為未來模型的改進(jìn)和優(yōu)化提供了重要的參考依據(jù)。隨著繼續(xù)的研究和發(fā)展,MetaRLHFRLHF-V1V5Meta隨后,在選出的主要模型版本中,通過人工評估對其進(jìn)行了驗(yàn)證。通過人工評估,研究人員可以對模型的性能進(jìn)行細(xì)致的分析和判斷,發(fā)現(xiàn)潛在的問題和優(yōu)化空間。這樣的驗(yàn)證過程對于保證模型的質(zhì)量和可靠性至關(guān)重要,同時也為后續(xù)的改進(jìn)和調(diào)整提供了重要的參考。RLHFMetaLLAMA2-ChatLLAMA2-Chat圖表10:獎勵模型的擴(kuò)展趨勢數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投量化深度報告上圖展示了LLAMA2-Chat經(jīng)過多次迭代微調(diào)后,在與ChatGPT進(jìn)行對比時,勝率百分比的演變情況。MetaLLAMA2-ChatChatGPTMetaLLAMA2-ChatGPT-4LLAMA2-ChatChatGPTGPT-4MetaLLAMA2-ChatGPT-4LLAMA2-ChatLLAMA2-ChatMeta作為一個多功能語言生成模型,能夠在實(shí)際應(yīng)用中展現(xiàn)出強(qiáng)大的性能和靈活性。為了評估主要模型版本的質(zhì)量,MetaLLAMA2-Chat(ChatGPT)4000prompt上進(jìn)行了比較。這些prompt涵蓋了不同領(lǐng)域和難度級別的任務(wù),旨在全面考察模型的性能。圖表11:人工評價結(jié)果數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投LLAMA2-ChatChatGPT70B36%,平局率為31.5%。這意味著在一定數(shù)量的測試樣本中,LLAMA2-Chat在某些任務(wù)上取得了勝利,并與ChatGPTLLAMA2-ChatLLAMA2-ChatLLAMA2多輪一致性系統(tǒng)消息在多輪對話中,為了確保系統(tǒng)消息的一致性,即使在不同的對話場景下,某些指令也應(yīng)該被模型一致地應(yīng)用,比如簡明扼要地做出回應(yīng)或者扮演某個公眾人物等。為了解決這一問題,Meta團(tuán)隊(duì)采用了一種稱為"幽靈注意力"(GhostAttention,GAtt)的簡單方法,利用微調(diào)數(shù)據(jù)幫助模型在多輪對話的不同階段保持注意力的集中。GAtt的目標(biāo)是通過微調(diào)數(shù)據(jù)來約束模型的注意力分布,以使得在特定情況下,模型能夠遵循特定的系統(tǒng)指量化深度報告令或規(guī)則,從而保持對話的一致性。這種方法的優(yōu)勢在于其簡單性和高效性,通過引入額外的微調(diào)數(shù)據(jù),可以有效地影響模型的行為,使得模型更好地遵循預(yù)設(shè)的指令和規(guī)范。在下圖中,我們可以看到應(yīng)用幽靈注意力后的結(jié)果。通過這種方法,Meta一致性,使得模型在回應(yīng)用戶時能夠更好地遵循特定的系統(tǒng)消息,從而提高了對話的質(zhì)量和連貫性。這一研究成果為多輪對話系統(tǒng)的優(yōu)化和應(yīng)用提供了重要的方法和指導(dǎo)。圖表12:LLAMA2對話數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投圖表13:模型的最大注意力激活數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投上圖展示了模型的最大注意力激活情況,每張圖的左側(cè)都對應(yīng)著系統(tǒng)信息。研究人員考慮了整個網(wǎng)絡(luò)的最大激活度,并將相鄰的標(biāo)記放在一起。為了說明GAtt是如何在微調(diào)過程中幫助重塑注意力的。在左圖中,顯示了未安裝GAtt(GhostAttention)的模型,在對話的不同階段,模型的注意力分布相對較為分散,沒有明顯地對系統(tǒng)信息保持較大的注意力激活。而在右圖中,顯示了安裝了GAtt的模型,可以觀察到在對話的大部分時間里,該模型能夠?qū)ο到y(tǒng)信息保持較大的注意力激活。GAtt量化深度報告好地遵循系統(tǒng)指令或規(guī)則,增強(qiáng)了對系統(tǒng)信息的關(guān)注和理解能力。從而提高了對話的連貫性和一致性。GAtt代碼解釋器舊版本存在問題的解決方式PythonLLMcodeinterpreterPython代碼,可以有效地解決大型語言模型在數(shù)學(xué)和語言方面的自然弱點(diǎn),并成功利用這一工具,如下圖所示。圖表14:GPT-4對數(shù)學(xué)和代碼的應(yīng)用數(shù)據(jù)來源:oneusefulthing,中信建投AIPython,PythonLLMChatGPT不能實(shí)現(xiàn)),但這些錯誤并不常見,也不太可能影響代碼或數(shù)據(jù)本身。GPT-4以使用代碼解釋器方面非常擅長,并且能夠以新穎有趣的方式應(yīng)用。舉例來說,我們可以要求它證明地球是圓的。量化深度報告圖表15:GPT-4的證明過程數(shù)據(jù)來源:oneusefulthing,中信建投解決方法四是通過完全無需自行編寫代碼來改進(jìn)體驗(yàn)。借助codeinterpreter,所有的工作都由它來完LLMPython的人來說,這可能會很繁瑣。而現(xiàn)在,人工智能可以自LLM加便捷和高效。解決方法五是解鎖更多“AIGPT-4LLMCodeInterpreterAIAICodeInerreer能夠給出令人驚奇的回應(yīng)。例如,用戶可能會向AI工具來繪制,并通過創(chuàng)建圖像展示一個全新的模因。讓它將AIInterpreterAIGPT-4量化深度報告圖表16:GPT-4創(chuàng)建全新的模因數(shù)據(jù)來源:oneusefulthing,中信建投正確使用方式在使用該功能時,首先點(diǎn)擊加號圖標(biāo)來上傳數(shù)據(jù)文件。如果有數(shù)據(jù)字典,可以將其復(fù)制粘貼到相應(yīng)的輸入框中。圖表17:輸入框數(shù)據(jù)來源:oneusefulthing,中信建投此后,GPT-4會閱讀文件并展示其發(fā)現(xiàn)。需要注意,使用代碼解釋器時,可與GPT-4進(jìn)行對話,無需設(shè)計(jì)精心的提示詞。不過,以下兩種情況除外:模型有時可能會忘記能夠執(zhí)行某些任務(wù),例如制作GIF或3D圖形,可鼓勵其嘗試(作GIF;若希望模型進(jìn)一步改進(jìn)結(jié)果時,可以給予相應(yīng)引導(dǎo)。GPT-4任務(wù)。該模型具備自動糾錯的功能,并專注于理解提問人的問題方式(再次強(qiáng)調(diào),將其視為一個人,并以相應(yīng)方式下達(dá)指令。量化深度報告圖表18:正確提問方式一數(shù)據(jù)來源:oneusefulthing,中信建投圖表19:正確提問方式二數(shù)據(jù)來源:oneusefulthing,中信建投隨著正式分析的開始,代碼解釋器展現(xiàn)出在各種復(fù)雜分析方法上的高超能力。在處理估算缺失數(shù)據(jù)時,若不滿意其提供的方法,請勿輕易放棄。只需簡單詢問:“能進(jìn)行另一個非常復(fù)雜且有趣的分析嗎?”即可探索更多可能的解決方案。量化深度報告圖表20:正確提問方式三數(shù)據(jù)來源:oneusefulthing,中信建投示例一:正確使用數(shù)據(jù)分析方法的過程正確使用蒙特卡羅、ARIMA、PCA、隨機(jī)森林等數(shù)據(jù)分析方法。圖表21:使用數(shù)據(jù)分析方法案例數(shù)據(jù)來源:oneusefulthing,中信建投示例二:顏色提取器,從圖像中提取調(diào)色板顏色提取器,上傳圖像并提取顏色創(chuàng)建調(diào)色板。例如,上傳一張PNG圖片,解析其中的顏色排列。量化深度報告圖表22:使用數(shù)據(jù)提取器案例數(shù)據(jù)來源:中信建投示例三:調(diào)試代碼輸入代碼幫助開發(fā)者快速調(diào)試難以理解的算法和模型等。圖表23:調(diào)試代碼案例數(shù)據(jù)來源:中信建投示例四:清理數(shù)據(jù)、執(zhí)行數(shù)據(jù)分析并生成可視化代碼解釋器實(shí)際上是一個內(nèi)置的小型Python解釋器,因此它可以調(diào)用多個Python生態(tài)庫。例如,量化深度報告MatplotlibqrcodePILGraphvizPython2D量級別的圖形,它支持各種平臺,并提供了許多圖形庫工具。在選擇圖形時,應(yīng)根據(jù)數(shù)據(jù)的特性和所要表達(dá)的信息進(jìn)行決策。在實(shí)際使用中,可能還需要根據(jù)具體需求調(diào)整圖形的參數(shù),以便更好地表達(dá)和解釋數(shù)據(jù)。Python代碼用一個表格展現(xiàn)結(jié)果并輸出成一個csv文件。圖表24:輸出CSV格式案例數(shù)據(jù)來源:oneusefulthing,中信建投任務(wù)性能總結(jié)總體而言,LLAMA2GPT-4PaLM-2-LLLAMA2LLAMA四、多語種支持4.1多語種支持對比從語言角度來看,LLAMA2模型在支持中文輸入方面具有一定的能力,即可以接受中文作為輸入,但其回答大多數(shù)情況下都采用英文。這表明LLAMA2在中文理解和生成方面的能力相對有限。量化深度報告圖表25:LLAMA2多語言對話數(shù)據(jù)來源:中信建投LLAMA2,GPT-4GPT-4GPT-4能夠更自如地處理中文輸入,并生成相應(yīng)的中文回答。圖表26:GPT-4多語言對話數(shù)據(jù)來源:中信建投五、可解釋性和抗偏見性的缺陷GPT-4GPT-4或減輕這些問題的影響,確保模型的公正性和可靠性。針對社會偏見問題,研究團(tuán)隊(duì)意識到模型在文本生成時可能受到現(xiàn)實(shí)世界的社會偏見影響,從而產(chǎn)生不公以確保模型生成的內(nèi)容盡可能中立和公正。此外,對于幻覺和對抗性提示的處理也是一個關(guān)鍵挑戰(zhàn)。GPT-4在某些情況下可能生成虛假、不準(zhǔn)確或具有誤導(dǎo)性的回答,尤其在面對具有欺騙性的輸入時容易受到影響。為了提高模型的可靠性,研究團(tuán)隊(duì)正在探索各種方法,包括強(qiáng)化模型的校驗(yàn)和驗(yàn)證機(jī)制,以降低幻覺和對抗性提示的發(fā)生率。另一方面,GPT-420219GPT-4難。為了克服這一問題,研究團(tuán)隊(duì)將繼續(xù)努力拓展訓(xùn)練數(shù)據(jù)集,并引入更靈活的學(xué)習(xí)和更新機(jī)制,以保持模型對現(xiàn)實(shí)世界的敏感性和準(zhǔn)確性。量化深度報告GPT-4作。有趣的是,基礎(chǔ)預(yù)訓(xùn)練模型本身在對答案的預(yù)測置信度方面通常是高度校準(zhǔn)的,即其對正確答案的預(yù)測概率與實(shí)際正確的概率相匹配。然而,通過OpenAI目前的培訓(xùn)后過程,模型的校準(zhǔn)性有所降低,可能導(dǎo)致更多的自信錯誤。圖表27:GPT-4校準(zhǔn)圖數(shù)據(jù)來源:GPT-4,中信建投GPT-4MMLU預(yù)測信心與實(shí)際正確的概率非常接近,呈現(xiàn)出較好的校準(zhǔn)性。虛線對角線代表完美的校準(zhǔn),即模型的預(yù)測置信度與實(shí)際正確的概率完全一致。PPO(ProximalPolicyOptimization)GPT-4MMLUPPO需要特別注意的是,校準(zhǔn)性是模型評估中的一個重要指標(biāo),它反映了模型預(yù)測結(jié)果的可信度和置信度。理想情況下,一個校準(zhǔn)良好的模型在其預(yù)測結(jié)果的置信度上應(yīng)該與實(shí)際結(jié)果的概率相一致,這有助于確保模型在實(shí)際應(yīng)用中能夠提供可靠的輸出。的安全性與合規(guī)性O(shè)penAI為了提高GPT-4的安全性和一致性進(jìn)行了長達(dá)6個月的努力。在其內(nèi)部評估中,GPT-4相較于GPT-3.582%。同時,在對真實(shí)回應(yīng)進(jìn)行生成的可能性方面,GPT-4相較于GP-3.540%。此外,針對政策響應(yīng)敏感請求(如醫(yī)療建議和自我傷害,GPT-4的回應(yīng)頻GPT-3.529%。這些結(jié)果表明,OpenAIGPT-4或不當(dāng)回應(yīng)的產(chǎn)生。同時,GPT-4在生成真實(shí)回應(yīng)方面表現(xiàn)更加準(zhǔn)確和可靠,有助于提供更有價值的信息和服務(wù)。量化深度報告圖表28:禁止和敏感內(nèi)容的不正確行為率數(shù)據(jù)來源:GPT-4,中信建投為了改善GPT-4的性能和行為,OpenAI采取了多種方法進(jìn)行訓(xùn)練和監(jiān)控。首先,OpenAIChatGPT50GPT-4其次,OpenAIGPT-4OpenAIGPT-4ChatGPTGPT-4,OpenAI同時,GPT-4OpenAIOpenAIGPT-45.3LLAMA2的安全性與合規(guī)性在對LLAMA2的安全性進(jìn)行評估時,研究團(tuán)隊(duì)使用了三個常用基準(zhǔn)來評估其在以下三個關(guān)鍵維度上的表現(xiàn):真實(shí)性:TruthfulQA準(zhǔn)。該基準(zhǔn)旨在檢測模型是否能夠正確回答問題,避免產(chǎn)生虛假或誤導(dǎo)性的答案。毒性:毒性指語言模型是否會產(chǎn)生有毒、粗魯、有害的內(nèi)容。為了評估這一維度,研究團(tuán)隊(duì)采用了ToxiGen輸出。偏見:BOLD基準(zhǔn)旨在檢測模型是否會產(chǎn)生具有種族、性別、地域等方面的偏見內(nèi)容,以便提高模型的公平性和無偏性。LLAMA2OpenAI量化深度報告預(yù)訓(xùn)練的安全性方面,預(yù)訓(xùn)練的安全性對于模型的健康發(fā)展至關(guān)重要。MetaToxiGenHateBERT英文數(shù)據(jù)進(jìn)行毒性評估。圖表29:預(yù)訓(xùn)練數(shù)據(jù)的毒性數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投圖表展示了預(yù)訓(xùn)練語料庫中英文數(shù)據(jù)的毒性情況。通過ToxiGen基準(zhǔn)和HateBERT分類器的評估,研究人員能夠了解預(yù)訓(xùn)練數(shù)據(jù)是否存在有害內(nèi)容,從而幫助確保模型在生成文本時能夠避免產(chǎn)生毒性、粗魯或有害的輸出。圖表30:代詞和身份相關(guān)術(shù)語及其占比數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投為深入分析偏見方面的問題,該研究對預(yù)訓(xùn)練語料庫中的代詞和身份相關(guān)術(shù)語進(jìn)行了統(tǒng)計(jì)分析,并計(jì)算了它們在語料庫中的占比。通過這項(xiàng)分析,研究團(tuán)隊(duì)能夠識別出在預(yù)訓(xùn)練語料庫中是否存在特定身份或群體的偏見表達(dá),以及這些表達(dá)在整個語料庫中所占比例。這樣的分析有助于更全面地評估模型在生成文本時可能存在的偏見,并為優(yōu)化模型的公平性和無偏性提供重要依據(jù)。同時,針對檢測出的偏見,研究人員可以采取相應(yīng)的改進(jìn)措施,以確保模型在與各類用戶進(jìn)行交互時表現(xiàn)更加公正和平衡。在安全微調(diào)方面,Meta采用了監(jiān)督安全微調(diào)、安全RLHF和安全上下文蒸餾技術(shù)。早期在LLAMA2-Chat的開發(fā)階段,研究團(tuán)隊(duì)觀察到模型在有監(jiān)督微調(diào)過程中能夠從安全示范中汲取經(jīng)驗(yàn)。模型迅速學(xué)會了撰寫詳細(xì)的安全回復(fù)、解決安全問題,并解釋可能涉及敏感話題的原因,并提供更多有用的信息。特別值得注意的是,當(dāng)模型輸出安全回復(fù)時,它們通常比普通注釋者寫得更加詳細(xì)。因此,僅收集了幾千個有監(jiān)督示范之后,Meta完全轉(zhuǎn)向了使用RLHF來指導(dǎo)模型生成更加細(xì)致入微的回復(fù)。使用RLHF進(jìn)行全面調(diào)整還有一個優(yōu)點(diǎn),即可以使模型對于越獄嘗試具有更強(qiáng)的魯棒性,從而增強(qiáng)了模型在處理潛在安全問題時的能力。通過這些安全微調(diào)技術(shù)的應(yīng)用,量化深度報告Meta致力于提高模型在生成文本時的安全性,降低不當(dāng)內(nèi)容的生成概率,確保模型在與用戶交互時能夠表現(xiàn)出更加負(fù)責(zé)任和可靠的行為。圖表31:獎勵模型得分分布對RLHF安全性的影響數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投Meta首先通過收集人類對安全性的偏好數(shù)據(jù)來進(jìn)行RLHF,其中注釋者編寫他們認(rèn)為會引發(fā)不安全行為的prompt,然后將多個模型響應(yīng)與prompt進(jìn)行比較,并根據(jù)一系列指南選擇最安全的響應(yīng)。接著使用人類偏好數(shù)據(jù)來訓(xùn)練安全獎勵模型,并在RLHF階段重用對抗性prompt以從模型中進(jìn)行采樣。圖表32:安全數(shù)據(jù)擴(kuò)展趨勢數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投Meta使用平均獎勵模型得分作為模型在安全性和有用性方面的表現(xiàn)結(jié)果。他們觀察到,通過增加安全數(shù)據(jù)的比例,模型在處理風(fēng)險和對抗性提示時的性能有了顯著提升。這表明提供更多安全數(shù)據(jù)示例可以幫助模型更好地處理潛在的風(fēng)險情況,并產(chǎn)生更加安全和有用的回復(fù)。量化深度報告圖表33:上下文蒸餾分析數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投最后,Meta在完善RLHF(強(qiáng)化學(xué)習(xí)和人類反饋)Meta采用了有針對性的方法,允許安全獎勵模型選擇是否對每個樣本使用上下文蒸餾。這樣的靈活性使得Meta能夠更加精確地控制上下文蒸餾的應(yīng)用,從而進(jìn)一步優(yōu)化模型的安全性。圖表34:各種LLM的總體違規(guī)百分比和安全評級數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投圖表34展示了單輪和多輪對話的違規(guī)百分比,跨模型的一個趨勢是,多輪對話更容易引發(fā)不安全的響應(yīng)。也就是說,與基線相比,Llama2仍然表現(xiàn)良好,尤其是在多輪對話中。量化深度報告圖表35:單圈和多圈違規(guī)率數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投圖表36:每個風(fēng)險類別的違規(guī)百分比數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投圖表37:在不同安全數(shù)據(jù)集上對微調(diào)LLMs的評估數(shù)據(jù)來源:LLAMA2:OpenFoundationandFine-TunedChatModels,中信建投在測試過程中,LLAMA2模型出現(xiàn)了一些問題,其中一個主要問題是受到的RLHF訓(xùn)練過于頻繁,導(dǎo)致其過量化深度報告于守規(guī)矩,對用戶的查詢做出過于保守的回應(yīng)。另外,LLAMA2的錯誤解讀,比如用戶要求寫一首詩,但模型回答說不能贊揚(yáng)暴力。這些問題反映了模型在處理多樣化的用戶請求時的局限性和不足之處。圖表38:LLAMA2模型錯誤解讀案例數(shù)據(jù)來源:/s/q4xVrfAsCzfdeRoquCV5cg,中信建投六、文檔和支持LLAMA2訓(xùn)練過程LLAMA2attention測試中,LLAMA2LLAMA1著提升。圖表39:LLAMA2模型訓(xùn)練機(jī)制數(shù)據(jù)來源:/s/DEDzjE664XSO7HxvdaQ68g,中信建投視覺輸入GPT-4支持文本和圖像輸入,這使得它與純文本輸入相比具備更強(qiáng)大的功能,用戶可以在任何視覺或語言任務(wù)中進(jìn)行指定。具體而言,GPT-4可以生成文本輸出,包括自然語言和代碼等,并接收由分散的文本和圖像組成的輸入。在多個領(lǐng)域中,例如包含文本和照片、圖表或屏幕截圖的文檔,GPT-4展現(xiàn)出與僅接收純文本輸入時相似的出色表現(xiàn)。此外,它還可以應(yīng)用測試時技術(shù),這些技術(shù)最初是針對純文本語言模型開發(fā)的,如少量提示和思維鏈提示,以進(jìn)一步擴(kuò)展其功能和應(yīng)用范圍。量化深度報告圖表40:GPT-4視覺輸入數(shù)據(jù)數(shù)據(jù)來源:GPT-4,中信建投訓(xùn)練過程GPT-4的基礎(chǔ)模型類似于以前的GPT模型,它通過訓(xùn)練來預(yù)測文檔中的下一個單詞,并利用公開可用的數(shù)據(jù)(例如互聯(lián)網(wǎng)數(shù)據(jù))和授權(quán)的數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)構(gòu)成了一個網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)語料庫,包含了各種類型的內(nèi)容,如數(shù)學(xué)問題的正確和不正確解決方案、弱和強(qiáng)的推理、自相矛盾和一致的陳述,同時涵蓋了多樣的意識形態(tài)和思想。由于基礎(chǔ)模型的多樣性,當(dāng)向其提示問題時,它可能以多種方式作出響應(yīng),其中可能存在與用戶意圖相距甚遠(yuǎn)的情況。為了確保模型的輸出與用戶意圖保持一致,OpenAI采用了帶有人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)方法對模型進(jìn)行微調(diào)。需要注意的是,模型的能力主要源自預(yù)訓(xùn)練過程,而RLHF不會提高模型在一般測試集上的表現(xiàn)(積極的努力,實(shí)際上可能會降低表現(xiàn)。然而,模型的控制能力是在訓(xùn)練后的過程中建立的,基礎(chǔ)模型需要通過快速的工程過程來學(xué)會如何適當(dāng)?shù)鼗卮饐栴}。通過這種微調(diào)過程,GPT-4可以更好地滿足用戶的需求,并呈現(xiàn)出更加合理和可理解的輸出。七、可用性和許可LLAMA2的可用性LLAMA2已經(jīng)以開源版本的形式發(fā)布,這意味著其源代碼對公眾開放,任何人都可以使用、修改和重新分發(fā)。而相比之下,LLAMA的源代碼則不對公眾開放,僅供請求訪問的研究人員和開發(fā)人員使用。雖然目前LLAMA2GPT-3.5于其權(quán)重是公開的,這些問題有望在未來得到改進(jìn)和優(yōu)化。LLAMA2的發(fā)布將極大地推動多模態(tài)人工智能和機(jī)器人技術(shù)的研究。這些領(lǐng)域需要的不僅僅是對API的黑盒訪問。目前,我們必須將復(fù)雜的感官信號(視頻、音頻、3D感知)轉(zhuǎn)換為文本描述,然后再輸入到LLM(語言與視覺融合模型)中,這種方法非常繁瑣且導(dǎo)致信息損失嚴(yán)重。而通過直接將感知模塊嫁接到強(qiáng)大的LLM骨干量化深度報告上,將能更加高效地處理多模態(tài)信息。對于研發(fā)閉源大模型的企業(yè)而言,LLAMA2的發(fā)布

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論