中文大模型基準(zhǔn)測評2024年2月報告

上傳人：1*** IP屬地：浙江上傳時間：2024-03-08 格式：DOCX 頁數(shù)：110 大小：2.13MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩105頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中文大模型綜合性測評基準(zhǔn)中文大模型基準(zhǔn)測評2024年2月報告一2024年度中文大模型階段性進(jìn)展評估目錄目錄01國內(nèi)大模型關(guān)鍵進(jìn)展?2024年大模型關(guān)鍵進(jìn)展與中文大模型全景圖?國內(nèi)外大模型發(fā)展趨勢02測評體系?中文大模型基準(zhǔn)SuperCLUE介紹?測評體系、層次、方法及示例說明03大模型綜合測評結(jié)果?SuperCLUE模型象限?國內(nèi)外大模型總體表現(xiàn)及競爭格局?大模型對戰(zhàn)勝率、成熟度指數(shù)及開源格局04SuperCLUE2.0專項(xiàng)與行業(yè)?各行業(yè)及專項(xiàng)測評基準(zhǔn)?未來兩個月基準(zhǔn)發(fā)布計(jì)劃05四大維度測評分析及示例介紹06優(yōu)秀模型案例介紹?優(yōu)秀模型案例介紹第1部分第1部分2024年2月大模型關(guān)鍵進(jìn)展1.2023-2024大模型關(guān)鍵進(jìn)展2.中文大模型全景圖3.國內(nèi)外大模型發(fā)展趨勢5?GPT-4Turbo發(fā)布?百度升級文心一言4.0?清華開源ChatGLM3?OPPO發(fā)布?GPT-4Turbo發(fā)布?百度升級文心一言4.0?清華開源ChatGLM3?OPPO發(fā)布AndesGPT?vivo發(fā)布BlueLM?零一萬物開源Yi-34B?科大訊飛升級星火3.0?百川智能發(fā)布Baichuan2—Turbo多模態(tài)大模型Gemini?OpenAI發(fā)布文生視頻Sora?百川智能發(fā)布Baichuan3?智譜AI發(fā)布GLM-4?科大訊飛發(fā)布星火3.5?Minimax發(fā)布ABAB6?Google發(fā)布Gemini1.5?Google開源Gemma?阿里云開源qwen1.5?OpenAI發(fā)布GPT4?百度發(fā)布文心一言1.0?清華開源ChatGLM?360發(fā)布360智腦?科大訊飛發(fā)布星火?阿里云發(fā)布通義千問?Meta開源Llama2?百川智能開源Baichuan?華為發(fā)布盤古3.0?商湯科技發(fā)布商量2.0?云從科技發(fā)布從容大模型?西湖心辰發(fā)布西湖大模型?......自2022年11月30日ChatGPT發(fā)布以來，AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。國內(nèi)學(xué)術(shù)和產(chǎn)業(yè)界在過去一年也有了實(shí)質(zhì)性的突破。大致可以分為三個階段，即準(zhǔn)備期（ChatGPT發(fā)布后國內(nèi)產(chǎn)學(xué)研迅速形成大模型共識）、成長期（國內(nèi)大模型數(shù)量和質(zhì)量開始逐漸增長）、爆發(fā)期（各行各業(yè)開源閉源大模型層出不窮，形成百模大戰(zhàn)的競爭態(tài)勢）。?OpenAI發(fā)布多模態(tài)GPT-4V?百川智能開源Baichuan2?騰訊發(fā)布混元助手?字節(jié)跳動公測大模型產(chǎn)品豆包?商湯科技升級商量3.0?阿里云開源Qwen-7B?小米發(fā)布大模型MiLM?上海人工智能實(shí)驗(yàn)室開源InternLM-20B?元象科技開源XVERSE-13B2024年1-2月時間通用通用大模型2024年值得關(guān)注的中文大模型全景圖閉閉源天工訊飛星火通義千問西湖心辰商湯日日新50智腦云A科接云從科技從容大模型瀾舟科技孟子開源醫(yī)聯(lián)/MedGPT汽Al大模型教育國內(nèi)外大模型發(fā)展趨勢國內(nèi)外大模型發(fā)展趨勢(23.07-24.02)n■GPT4■GPT3.5■國內(nèi)代表性模型平均-部分國內(nèi)代表性模型SuperCLUE基準(zhǔn)得分(23年7月24年2月)-8月9月10月11月12月24年2月文心一言通義千問過去1年，國內(nèi)領(lǐng)軍大模型企業(yè)實(shí)現(xiàn)了大模型代際追趕的奇跡，從7月份與GPT3.5的20分差距，每個月都有穩(wěn)定且巨大的提升，到24年2月份測評時已經(jīng)完成總分上對GPT3.5的超越。我們可以看到GPT3.5和GPT4在中文上的表現(xiàn)情況基本一致，在11月份測評結(jié)果中顯示，在中文能力都有一定的下滑，而國內(nèi)頭部模型則展現(xiàn)了繼續(xù)穩(wěn)健提升的能力。在24年2月份的測評結(jié)果中可以看到，國內(nèi)第一梯隊(duì)模型與GPT4的差距在持續(xù)縮小。趨勢展示，選取了23年7月-24年2月SuperCLUE-OPEN測評分?jǐn)?shù)。國內(nèi)代表性模型，選取了文心一言、通義千問、ChatGLM。原因是綜合考慮了過去半年SuperCLUE測評結(jié)果、長期穩(wěn)定迭代及對國內(nèi)大模型生態(tài)的貢獻(xiàn)；GPT4成績，由GPT4-API(7-9月)與GPT4-Turbo(10-2月)組成，用以表現(xiàn)國外最好模型發(fā)展。第2部分第2部分測評體系1.SuperCLUE介紹2.測評體系3.測評方法及示例中文語言理解測評基準(zhǔn)CLUE(TheChineseLanguageUnderstandingEvaluation)是致力于科學(xué)、客觀、中立的語言模型評測基準(zhǔn)，發(fā)起于2019年。陸續(xù)推出CLUE、FewCLUE、KgCLUE、SuperCLUE是大模型時代CLUE基準(zhǔn)的發(fā)展和延綜合性測評。傳統(tǒng)語言模型測評往往局限于學(xué)術(shù)范圍的單輪選擇題，SuperCLUE根據(jù)多年的測評經(jīng)驗(yàn)，基于通用大模型在學(xué)術(shù)、產(chǎn)業(yè)與用戶側(cè)的廣泛應(yīng)用，構(gòu)建了多層次、多維度的綜合性測評基準(zhǔn)。第三方測評，不與模型廠商競爭SuperCLUE始終秉持中立、客觀的第三方測評理念，不會預(yù)設(shè)立場或偏向特定的模型方。同時，SuperCLUE采用自動化方式的客觀評估，大大降低評測過程測評方式與真實(shí)用戶體驗(yàn)?zāi)繕?biāo)一致保持一致，所以納入了開放主觀問題的測評。通過多維度體專項(xiàng)測評的設(shè)計(jì)，到行業(yè)大模型測評基準(zhǔn)的推出，所有評測的目的都是為產(chǎn)業(yè)和應(yīng)用服務(wù)。真實(shí)反應(yīng)通用大模型與產(chǎn)業(yè)應(yīng)用之間的差距，引導(dǎo)大模型提升技術(shù)測評體系汽車汽車金融工業(yè)辦公娛樂醫(yī)療端到端多級難度工具使用等級自動知識百科生成與創(chuàng)作對話角色扮演計(jì)算邏輯推理代碼已發(fā)布已發(fā)布即將發(fā)布即將發(fā)布數(shù)據(jù)及平臺數(shù)據(jù)及平臺自動化評估系統(tǒng)即將發(fā)布即將發(fā)布測評方法為更真實(shí)反應(yīng)大模型能力，本次測評采用多維度、多視角的綜合性測評方案，由多輪開放問題SuperCLUE-OPEN和三大能力客觀題SuperCLUE-OPT兩部分測評結(jié)果組成。評測集共4572題，其中1504道多輪簡答題(OPEN),3068道客觀選擇題(OPT),以下為評測集與測評方法簡述。持續(xù)擴(kuò)充評測反饋10萬+題庫5000原始評測集人工校驗(yàn)4572道評測題4572道評測題·1054道多輪簡答題(OPEN)·3068道客觀選擇題(OPT)1分~5分1分~5分0.8*OPEN分+0.2*OPT分OPEN分=評價總分(歸一化)OPT分=準(zhǔn)確率題庫注：多輪簡答題OPEN更能反應(yīng)模型真實(shí)能力，故權(quán)重設(shè)置提高。測評方法-示例1（計(jì)算）9=3^2該模型的回答已經(jīng)給出了正確的解決方案，計(jì)算方法十分清楚，并正確找到了最小公倍循了用戶的意圖，滿足了用戶提出的問題需正確理解的信息進(jìn)行了有效推理，邏輯結(jié)構(gòu)的結(jié)論與現(xiàn)實(shí)世界常識和已知事實(shí)一致，確綜合以上，AI助手的回答的綜合得分（平均測評方法-示例2（角色扮演）模型的回答理解和貼近阿甘這個角色，模仿了電影中的阿甘的語言風(fēng)格，他的跑步是始料不及的，由內(nèi)心驅(qū)使的自然反應(yīng)，而不是基于<符合基本要求>標(biāo)準(zhǔn)；AI的回答遵循了用戶的意圖，而且很好地模仿了阿甘的回答基于<符合場景與角色>標(biāo)準(zhǔn)；AI的回答與阿甘這個角色的特點(diǎn)保持了一致，并且很好地基于<創(chuàng)造性>標(biāo)準(zhǔn)；雖然AI的回答沒有提供并且回答里的創(chuàng)造性貼近阿甘的行為模式；綜合以上，AI助手的回答的綜合得分（平均第3部分大模型通用能力測評及結(jié)果1.SuperCLUE模型象限2.國內(nèi)外大模型總體表現(xiàn)3.國內(nèi)大模型競爭格局4.國內(nèi)大模型歷月前三甲4.大模型對戰(zhàn)勝率分布圖6.主觀和客觀對比7.SuperCLUE成熟度指數(shù)8.開源競爭格局測評層級測評層級SuperCLUE通用多層次基準(zhǔn)(能力)專業(yè)與技能語言與知識安全性Al智能體二級(任務(wù))與推理與創(chuàng)作三級(子任務(wù))文學(xué)寫作非人類臟話侮辱不安全指令測評模型列表本次測評數(shù)據(jù)選取了SuperCLUE-2月測評結(jié)果，模型選取了國內(nèi)1.GPT4-TurboOpenAI2024年1月25日發(fā)布的GPT4-turbo的更新版本16.XVERSE-65B-Chat元象科技開源的65B的Chat版本2.GPT4(網(wǎng)頁版)OpenAIGPT4官方網(wǎng)頁版本，支持聯(lián)網(wǎng)功能17.qwen1.5-14b-chat阿里巴巴開源1.5代14B的Chat版本3.文心一言4.0百度官方付費(fèi)使用的文心一言V4.0的API版本18.GPT3.5-Turbo-0125OpenAI2024年1月25日發(fā)布的GPT3.5-turbo的更新版本4.GLM-4清華&智譜AI官方付費(fèi)使用的GLM-4的API版本19.Yi-34B-Chat零一萬物開源的34B的Chat版本5.通義千問2.1阿里巴巴官方公開發(fā)布的API版本：qwen-max-longcontext20.qwen1.5-7b-chat阿里巴巴開源1.5代7B的Chat版本6.Baichuan3百川智能小范圍內(nèi)測API版本21.qwen-14b-chat阿里巴巴開源第一代14B的Chat版本7.訊飛星火V3.5科大訊飛官方付費(fèi)使用的星火V3.5的API版本22.Baichuan2-13B-Chat百川智能開源的第二代13B的Chat版本V28.Moonshot(KimiChat)月之暗面官方網(wǎng)頁版產(chǎn)品【KimiChat】23.XVERSE-13B-L元象科技開源的XVERSE-13B-LONGCONTEXT9.MiniMax_Abab6稀宇科技官方付費(fèi)使用的Abab6的API版本24.MiniCPM-2B面壁智能開源的2B參數(shù)版本10.qwen1.5-72b-chat阿里巴巴開源1.5代72B的Chat版本25.ChatGLM3-6B清華&智譜AI開源的第三代6B版本11.從容大模型V1.5云從科技小范圍內(nèi)測API版本26.Chinese-Alpaca2-13Byimingcui（個人開發(fā)者）個人開源的基于Llama2的漢化版中文模型12.360GPT_Pro360360智腦的API升級版本Pro27.Llama_2_13B_ChatMeta官方開源的2代13B的Chat版本13.Claude2Anthropic官方發(fā)布的API2.0版本28.gemma-7b-itGoogle開源的7B版本14.Gemini-proGoogle官方發(fā)布的API版本Gemini-pro29.Llama_2_7B_ChatMeta官方開源的2代7B的Chat版本15.云雀大模型字節(jié)跳動官方發(fā)布的API版本：skylark2-pro-4kv1.2///SuperCLUE模型象限實(shí)用主義者卓越領(lǐng)導(dǎo)者M(jìn)oonShot(KimiChat)GLM-4通義千問2.1Baichuan3GPT4-Turbo-0125GPT-4(網(wǎng)頁版)文心一言4.0qwen1.5-72b-chat訊飛星火V3.5MiniMax_Abab6訊飛星火V3.5XVERSE-65B-Chat從容大模型V1.5360gpt-pro云雀大模型qwen1.5-14b-chatClaude2qwen1.5-7b-chatqwen-14b-chatBaichuan2-13B-ChatGPT3.5-Turbo-0125Gemini-proYi-34B-ChatXVERSE-13B-LChatGLM3-6BMiniCPM-2BChinese-Alpaca2-13Bgemma-7b-itLlama-2-13B-ChatLlama-2-7B-Chat潛力探索者技術(shù)領(lǐng)跑者來源：SuperCLUE,2024年2月27日注：1.兩個維度的組成?；A(chǔ)能力，包含：專業(yè)與技能、語【實(shí)用主義者】代表模型在場景應(yīng)用上處于領(lǐng)先定位；【卓越領(lǐng)導(dǎo)者】代表模型在基礎(chǔ)和場景應(yīng)用上處于領(lǐng)先位置，引領(lǐng)國內(nèi)大模型發(fā)展。國內(nèi)外大模型總體表現(xiàn)國外模型平均成績VS國內(nèi)模型平均成績國內(nèi)外依然有一定差距。GPT國外模型平均成績VS國內(nèi)模型平均成績92.71分領(lǐng)先，高于其他國內(nèi)大模型及國外大模型。其中國內(nèi)最好模型文心一言4.0總分87.75分，距離GPT4-Turbo-0125有4.96分，距離GPT4(網(wǎng)頁)有2.61分的差距。本次最新上榜的Google開源模型的Gemma-7b-it表現(xiàn)不佳，可能的原因之一是·在SuperCLUE·在SuperCLUE測評中，國外模型的平均成績?yōu)?7.83分，國內(nèi)模型平均成績?yōu)?8.75分?！た梢钥闯?，國內(nèi)大模型在中文領(lǐng)域的能力的平均水平已經(jīng)超過國外大模型。進(jìn)步，持續(xù)縮小與GPT4的差距。綜合能力超過GPT3.5的模型有13個，比如百度的文心一言4.0、阿里云的通義千問2.1和qwen1.5-72b-chat、清華&智譜Al的智譜清言、百川智能的Baichuan3、字節(jié)跳動的云雀大模型等都有比較好的表現(xiàn)。另外國內(nèi)開源模型在中文上表現(xiàn)要好于國外開源模型，如百川智能的Baichuan2-13B-Chat、阿里云的qwen1.5-14b-chat、MiniCPM-2B均優(yōu)于谷歌的gemma-7b-it和Me國內(nèi)大模型競爭格局國內(nèi)大模型綜合表現(xiàn)-SuperCLUE如文心一言4.0、通義千問2.1引領(lǐng)國內(nèi)大模型的研發(fā)進(jìn)度，部分高質(zhì)量大模型緊追不舍，分別在閉源應(yīng)用和開源生態(tài)中形成自己獨(dú)特的優(yōu)勢。國內(nèi)大模型SuperCLUE基準(zhǔn)得分創(chuàng)業(yè)公司大廠和創(chuàng)業(yè)公司平均成績對比大廠平均創(chuàng)業(yè)公司平均國內(nèi)大模型歷月前三甲過去八個月國內(nèi)模型在SuperCLUE基準(zhǔn)上的前三名GLM-4GLM-4MoonshotYi-34B-ChatMoonshotChatGLM2-ProBaichuan2-13B-ChatMinimax-abab5ChatGLM-130BChatGLM-130B取得過前三名。出現(xiàn)頻次最高的有文心一言曾經(jīng)取得過SuperCLUE月榜首位的大模型有5SenseChat3.0、Baichuan2-13B-Chat、SuperCLUE月榜的次數(shù)最多，分別在7月、11月、12月、24年2月取得了SuperCLUE最好成績。段，各家大模型公司都投入了巨大的人力、算力和數(shù)據(jù)資源，以至于每個月測評結(jié)果的前三發(fā)生類似的情況。也非常期待有高質(zhì)量模型能夠持續(xù)保持非常高的水準(zhǔn)。大模型對戰(zhàn)勝率分布圖916k9k732中文大模型綜合性測評基準(zhǔn)結(jié)果分析------------------------------------------◆我們統(tǒng)計(jì)了所有大模型在OPEN測評中與GPT4(網(wǎng)頁)的對戰(zhàn)勝率。從勝率來看，全球領(lǐng)跑者GPT4-Turbo-0125勝率為15.44%,和率為71.59%,說明GPT4-Turbo-0125在整體能力上明顯優(yōu)于GPT4。而國內(nèi)模型中，通義千問2.1的勝率為國內(nèi)最高，為14.11%。勝率超過10%的模型還有Baichuan3、GLM-4、文心一言4.0、Moonshot等大在200億參數(shù)量級的開源模型中qwen1.5-14b-chat的勝率排在首位，展現(xiàn)出不俗能力。排在2至4位的是qwen1.5-7b-chat、qwen-14b-chat、XVERSE-13B-L,同樣表現(xiàn)可圈可點(diǎn)。從勝率分布數(shù)據(jù)可以發(fā)現(xiàn)，大多數(shù)模型的和率都在50%以上。這說明國內(nèi)外大部分模型在基礎(chǔ)題目上與GPT4的水平相近，隨著任務(wù)難度的提升，不同模型的表現(xiàn)才會有區(qū)分度。后續(xù)的測評數(shù)據(jù)會在題目難度的區(qū)分性和評價顆粒度上加強(qiáng)提升。主觀和客觀對比主觀OPENvs客觀OPT■主客觀差值(OPEN分-OPT分)注：計(jì)算分值為模型的OPEN分與OPT分值的差值，用以觀察模型在主觀題和客觀題上的不同表現(xiàn)。通過對比模型在主觀簡答題OPEN和客觀選擇題OPT上的不同表現(xiàn)，可以發(fā)現(xiàn)相較于2023年12月份，國內(nèi)大模型做簡答題的能力在提升。其中，GLM-4、文心一言4.0、通義千問2.1在OPEN和OPT得分上的相對穩(wěn)定性上表現(xiàn)較好，分別為(3.60)、(2.41)、(2.01)。GPT-4Turbo-0125的表現(xiàn)最好，差值有11.21。SuperCLUE認(rèn)為，客觀題相對主觀題更容易通過題庫形式進(jìn)行訓(xùn)練和提升；同時也由于客觀題中包含中文特性問題，中文模型自然有一定的優(yōu)勢，所以應(yīng)該綜合來看模型的評測效果。值得關(guān)注的是，在本次測評中，國外的代表性大模型如GPT4的不同版本、Claude2都很好的穩(wěn)定性表現(xiàn)，值得國內(nèi)大模型進(jìn)一步分析研究。SuperCLUE成熟度指數(shù)SuperCLUE成熟度指數(shù)用以衡量國內(nèi)大模型在SuperCLUE-OPEN十通過對比數(shù)據(jù)可以發(fā)現(xiàn)，語義理解成熟度最高，有0.51的表現(xiàn)。另外高成熟度的能力還有生成與創(chuàng)作、上下文對話和傳統(tǒng)安全，都有超過0.4低成熟度的能力有角色扮演、工具使用、知識與百科、邏輯推理、代碼和計(jì)算。其中國內(nèi)大模型在計(jì)算能力上的表現(xiàn)成熟度最低，只有0.08。SuperCLUE認(rèn)為，邏輯推理、代碼、計(jì)算在通用能力中最具挑戰(zhàn)性，也最能體現(xiàn)通用大模型的能力層次，越好的大模型在低成熟度的能力上表現(xiàn)越好，這也是國內(nèi)大模型今年需進(jìn)一步迭代優(yōu)化，追趕國外頭部大開源競爭格局2.不同大小(參數(shù)量)效果差異總體上大版本(如34B)的模型優(yōu)于中小版本(13B、6B)的開源模型，更大的版本(如72B)的模型表現(xiàn)要更好。但也有小模型好于大模型的情況，如qwen1.5的70億參數(shù)版本好于一些130億參數(shù)的大模型，面壁智能的開源模型對比國外代表模型第4部分SuperCLUE2.0：行業(yè)及專項(xiàng)能力測評基準(zhǔn)1.Math6數(shù)學(xué)多步推理2.Code3代碼3.Agent智能體4.Safety安全5.Video文生視頻6.200K超長文本6.汽車行業(yè)測評7.未來兩個月基準(zhǔn)發(fā)布計(jì)劃專項(xiàng)基準(zhǔn)：SuperCLUE-Math6中文數(shù)學(xué)多步SuperCLUE-Math6是一個GSM8K的中文升級版，專門設(shè)計(jì)來評估和提升中文大模型在數(shù)學(xué)推理方面的核心能力。SuperCLUE-Math6具有三大特點(diǎn)：1.中文原生場景的數(shù)學(xué)推理：每個問題均以中文原生環(huán)境呈現(xiàn)，配備詳細(xì)的自然語言解題方案，強(qiáng)化了模型在中文語言環(huán)境下的適用性和實(shí)際應(yīng)用價值。2.多輪交互下的多步推理能力考察：適應(yīng)真實(shí)交互場景，通過問題及其追問，考察模型在連續(xù)對話環(huán)境中的多步邏輯推理與問題解決能力。3.推理能力等級自動評定：獨(dú)創(chuàng)的評估系統(tǒng)能自動給出大模型處理數(shù)學(xué)問題的推理能力等級，為模型智力水平提供量化指標(biāo)。我們選取了國內(nèi)外有代表性的13個閉源/開源的模型進(jìn)行測評。通過測評結(jié)果發(fā)現(xiàn)，頂級模型(如GPT4-Turbo、GPT4和文心一言4.0)在推理任務(wù)中展現(xiàn)了卓越的性能，特別是在處理高難度的多步推理任務(wù)時。它們在推理能力和準(zhǔn)確性方面均達(dá)到了較高的標(biāo)準(zhǔn)，證明了當(dāng)前大模型的先進(jìn)水平。另外，通過對不同模型的綜合評估，我們可以看到性能上的明顯分層。高等級模型在復(fù)雜任務(wù)上的表現(xiàn)遠(yuǎn)遠(yuǎn)超過低等級模型，這反映了在大模型領(lǐng)域內(nèi)技術(shù)和能力的多樣性和不同模型等級提供了根據(jù)具體應(yīng)用場景和需求選擇合適模型的依據(jù)。專項(xiàng)基準(zhǔn)：SuperCLUE-Code3中文原生等級化代碼能力測評基準(zhǔn)目前，中文編程環(huán)境缺乏一個專門的評測基準(zhǔn)，這限制了中文大模型在代碼生成方面能力的客觀評估和優(yōu)化。這一語言和文化差異導(dǎo)致中文大模型在編程任務(wù)上的潛力未能得到充分挖掘和利用。為了緩解這一問題，我們推出了SuperCLUE-Code3測評集和基準(zhǔn)。這是一個HumanEval的中文升級版，通過功能性單元測試，專門設(shè)計(jì)來評估和提升中文大模型在代碼生成方面的核心能力。SuperCLUE-Code3(簡稱SC-Code3)不僅延續(xù)了HumanEval高質(zhì)量，更在多樣性和應(yīng)用廣度上進(jìn)行了適當(dāng)擴(kuò)充。中文原生等級化代碼能力測評基準(zhǔn)Csqrt(fcomplex2我們選取了國內(nèi)外有代表性的11個閉源/開源的模型進(jìn)行測評。GPT-4-0125-preview我們選取了國內(nèi)外有代表性的11個閉源/開源的模型進(jìn)行測評。GPT-4-0125-preview作為國際大模型，在加權(quán)得分上達(dá)到68.00,非加權(quán)得分為78.97,明顯高于其他模型，尤其是在高級難度得分上達(dá)到52.63,表明其對復(fù)雜問題的處理能力強(qiáng)。所有模型在初級難度得分上的表現(xiàn)普遍不錯，例如GPT-4-0125-preview在初級難度得分為88.89,這表明大部分模型能夠較好地處理基礎(chǔ)編程任務(wù)。高級難度的得分在各模型間表現(xiàn)出較大差異，國際大模型如GPT-4的得分為44.74,而國內(nèi)部分小模型未超過30分，說明在處理更復(fù)雜的編碼問題時，大模型的優(yōu)勢更加明顯。使用123456789專項(xiàng)基準(zhǔn)：SuperCLUE-Agent中文智能體測評基準(zhǔn)-----測評結(jié)果-------------◆AlAgent智能體正在最大程度釋放了LLM潛能，逐漸成為了通向AGI的技術(shù)共識。AlAgent是一個能夠自主理解、規(guī)劃決策和執(zhí)行復(fù)雜任務(wù)的智能體?，F(xiàn)有關(guān)于Agent能力的測評，主要是在英文場景或任務(wù)的測評。目前還沒有一個在中文任務(wù)和場景上針對中文大模型的全面測評。SuperCLUE-Agent是一個聚焦于Agent能力的多維度基準(zhǔn)測試，包括3大核心能力、10大基礎(chǔ)任務(wù)，可以用于評估大語言模型在核心Agent能力上的表現(xiàn)，包括工具使用、任務(wù)規(guī)劃和長短期記憶能力。任務(wù)分解思維鏈(CoT)視郵>劃之使檢索API參均均規(guī)劃API少樣本示例學(xué)習(xí)通用工具使用多文檔問答國內(nèi)外代表性模型SuperCLUE國內(nèi)外代表性模型SuperCLUE-Agent十大能力上的表現(xiàn)閉源/開源的模型進(jìn)行測評。通過測評結(jié)果發(fā)現(xiàn)，在Agent核心基礎(chǔ)能力上，國內(nèi)模型已經(jīng)較為接近或部分超過GPT3.5水平。個任務(wù)中有5個任務(wù)表現(xiàn)最佳，這表明GPT4在智能體方面具有非常大的優(yōu)勢，但值得肯定的是，國內(nèi)有部分模型在某些任務(wù)上表現(xiàn)也可圈可點(diǎn)，如ChatGLM3-Turbo在任務(wù)分解、多文檔問答和檢索API能力上表現(xiàn)驚艷。另外，國內(nèi)開源模型已經(jīng)具備比較強(qiáng)的競爭力，某些方面超過了一些閉源模型。務(wù)，每個任務(wù)約有200余道題目。共有4912個題目，即2456對題目(含問題和多輪追問)。所有題目均為具有安全挑戰(zhàn)性的題目，皆有由模型和人類引入對抗性技術(shù)獲得的“安全風(fēng)險”臟話侮辱安親密關(guān)系安負(fù)統(tǒng)負(fù)違法犯罪傳責(zé)責(zé)任指任反面誘導(dǎo)社會問題令擊攻擊不安全角色扮演不安全指令主題詳情可訪問：正式發(fā)布www.CLUE/superclue專項(xiàng)基準(zhǔn)：SuperCLUE-Video中文文生視頻測評基準(zhǔn)隨著技術(shù)的進(jìn)步，文生視頻(Text-to-Video)的研究和應(yīng)用也在全球范圍內(nèi)蓬勃發(fā)展。例如，OpenAl推出的Sora模型便能根據(jù)文本創(chuàng)建逼真的視頻內(nèi)容，這類技術(shù)在短視頻制作、影視制作、廣告和娛樂行業(yè)等領(lǐng)域具有巨大的應(yīng)用潛力和商業(yè)價值。目前已經(jīng)存在一些英文的文生視頻基準(zhǔn)，如VBench、FETV和EvalCrafter,可以用于評測英文文生視頻模型的性能。然而，針對中文文生視頻大模型的基準(zhǔn)測試還比較缺乏，無法直接評估中文文生視頻大模型的質(zhì)量和效果。中文文生視頻技術(shù)正處在快速發(fā)展的階段，為了推動這方面的發(fā)展，需要建立一個專門針對中文大模型的基準(zhǔn)測試。為應(yīng)對現(xiàn)有挑戰(zhàn)，我們推出了中文專用的多層次文生視頻基準(zhǔn)測試--SuperCLUE-Video.旨在通過一系列詳盡的評估指標(biāo)和測試數(shù)據(jù)集，全面衡量中文視頻生成模型在生成質(zhì)量、多樣性及一致性等方面的性能。其設(shè)計(jì)融合了國際基準(zhǔn)的架構(gòu)及針對中文環(huán)境的特殊需求，旨在促進(jìn)中文視頻生成領(lǐng)域的研究、開發(fā)與技術(shù)創(chuàng)新。外觀一致性畫面穩(wěn)定性認(rèn)知一致性動態(tài)真實(shí)性流暢性流體動力表現(xiàn)光影效果交互仿真度文水分張性文水分米中文對象一致性要素完整性特征準(zhǔn)確性程度區(qū)分時空表現(xiàn)語言邏輯理解語言完整表現(xiàn)文化元素呈現(xiàn) 專項(xiàng)基準(zhǔn)：SuperCLUE-200K大模型中文超長文本測評基準(zhǔn)-------------------ChatGPT發(fā)布以來，大語言模型能力有了大幅提升，但由于輸入長度受限，導(dǎo)致大模型在業(yè)務(wù)落地方面出現(xiàn)瓶頸。特別是在處理超長文本方面，國內(nèi)外大模型能力均有不同程度的限制。超長文本，通常指的是那些篇幅龐大、結(jié)構(gòu)復(fù)雜、信息豐富的文本數(shù)據(jù)，如學(xué)術(shù)論文、長篇小說、法律文件等。傳統(tǒng)的自然語言處理方法在處理這類文本時往往力不從心，而大語言模型在上下文長度方向的拓展，為超長文本的處理提供了新的可能。SuperCLUE-200K(中文大海撈針)。這是一個聚焦于超長文本能力的基準(zhǔn)測評，主要是在中文超長文本語料(大海撈針的“?！?中，在不同位置中放入與文本語料無關(guān)的一句文本(大海撈針的“針”),用以考察大模型在超長文本中的處理SuperCLUE-200K不同于現(xiàn)有國外對長文本能力的測評，主要有以下特點(diǎn)：1)中文原生場景；2)貼近用戶使用場景；3)長度分級；4)200K綜合等級。SuperCLUE-200K構(gòu)建了4類(商業(yè)、教育、科技、娛樂)5級(8K、32K、64K、128K、256K)共20個“?！蔽谋竞?0個插入文本“針”,每根針在不同的“?！崩?0個不同分布的位置中插入，即每個大模型進(jìn)行4×5×10×10共2000次測評實(shí)驗(yàn)。伴，虎豹為群，獐鹿為友，獼猿為親；夜宿石崖之下，朝游峰洞之中。----<針語料>---真是在遙遠(yuǎn)的銀河系中，劉備駕駛著一艘先進(jìn)的宇宙飛船，穿越星際的浩瀚，他的飛船設(shè)計(jì)獨(dú)特，流線型的船身閃爍著金屬的光澤，他坐在駕駛艙內(nèi)，身著未來風(fēng)格的宇航服，他身邊的副駕駛在遙遠(yuǎn)的銀河系中，劉備駕駛著一艘先進(jìn)的宇宙飛船，穿越星際的浩瀚，他的飛船設(shè)計(jì)獨(dú)特，流線型的船身閃爍著金屬的光澤，他坐在駕駛艙內(nèi)，身著未來風(fēng)格的宇航服，他身邊的副駕駛問劉備和誰一起坐在宇宙飛船上?僅基于上述文檔，不要給出上述文檔以外的信息。問劉備和誰一起坐在宇宙飛船上?僅基于上述文檔，不要給出上述文檔以外的信息。進(jìn)行通過不同長度加權(quán)計(jì)算SuperCLUE-200K總分以及SuperCLUE-Auto首個汽車行業(yè)大模型測評基準(zhǔn)，它是一個多維度的多輪開放式問題的測評基準(zhǔn)。它不僅能評價汽車行業(yè)大模型的能力，也能針對具體維度和模型的回答給出細(xì)化的反饋。主要包括4大核心基礎(chǔ)能力的十余個任務(wù)。農(nóng)后次地售X評估流程：1)設(shè)定每個維度下的評估標(biāo)準(zhǔn)；2)針對每一個維度下的問題，基于該維度下的多個評價標(biāo)準(zhǔn)，結(jié)合打分規(guī)則并使用超級模型作為裁判逐個打分，并獲得該題目的得分(即每個維度下的平均分)3)獲得每一個維度下所有題目的分?jǐn)?shù)，并計(jì)算特定模型(如GPT3.5)在該維度的得分?！鷚ww.CLUE/superclueauto.html我們選取了國內(nèi)外有代表性的12個閉源/開源的模型進(jìn)行測評。通過測評結(jié)果發(fā)現(xiàn)，GPT4-Turbo依然領(lǐng)先幅度較大。但多個中文大模型在汽車行業(yè)上具有良好表現(xiàn)(75分或以上),有4個中文大模型在中文的汽車場景的表現(xiàn)超過了GPT-3.5,表明中文大模型在汽車場景上已經(jīng)具備了的良好的潛力。部分大模型在技術(shù)和應(yīng)用不同維度表現(xiàn)稍顯不一致。車輛使用指南這一維度上，多個模型達(dá)到了80分以上的優(yōu)異表現(xiàn)，說明在一些對用戶有用的任務(wù)上(如操作指南、車輛故障診斷、維修保養(yǎng))已經(jīng)具備較高的交互成熟度。在智能座艙與交互這一維度上，僅有一個中文模型達(dá)到了良好表現(xiàn)，說明中文大模型在智能座艙與交互還有不少的進(jìn)步空間。在汽車場景中，有一些13-14B中小模型也超過了云端的閉源模型，說明可滿足用戶需求具備良好能力的端側(cè)模型有非常大的潛力。未來兩個月基準(zhǔn)發(fā)布計(jì)劃未來2-3個月SuperCLUE會持續(xù)完善大模型專項(xiàng)能力及行業(yè)能力的測評基準(zhǔn)?，F(xiàn)針對于所有專項(xiàng)及行業(yè)測評基準(zhǔn)征集大模型，歡迎申請。有意愿參與測評的廠商序號序號專項(xiàng)基準(zhǔn)計(jì)劃序號行業(yè)基準(zhǔn)計(jì)劃1SuperCLUE-Math6中文數(shù)據(jù)多步推理測評基準(zhǔn)已發(fā)布，持續(xù)征集模型1SuperCLUE-Auto汽車行業(yè)測評基準(zhǔn)已發(fā)布，持續(xù)征集模型2SuperCLUE-Code3中文代碼能力測評基準(zhǔn)已發(fā)布，持續(xù)征集模型2SuperCLUE-Industry工業(yè)行業(yè)測評基準(zhǔn)3月中旬發(fā)布，現(xiàn)征集模型3SuperCLUE-Agent中文智能體測評基準(zhǔn)已發(fā)布，持續(xù)征集模型3醫(yī)療行業(yè)測評基準(zhǔn)（即將發(fā)布）4月上旬發(fā)布，現(xiàn)征集模型4SuperCLUE-Safety中文多輪安全基準(zhǔn)已發(fā)布，持續(xù)征集模型4金融行業(yè)測評基準(zhǔn)（即將發(fā)布）4月上旬發(fā)布，現(xiàn)征集模型5SuperCLUE-Video中文文生視頻測評基準(zhǔn)已發(fā)布，持續(xù)征集模型5娛樂行業(yè)測評基準(zhǔn)（籌備中）4月下旬發(fā)布，現(xiàn)征集模型6SuperCLUE-200K中文超長文本測評基準(zhǔn)已發(fā)布，持續(xù)征集模型6手機(jī)行業(yè)測評基準(zhǔn)（籌備中）4月下旬發(fā)布，現(xiàn)征集模型7SuperCLUE-Character中文角色扮演測評基準(zhǔn)3月下旬發(fā)布，現(xiàn)征集模型7政務(wù)行業(yè)測評基準(zhǔn)（籌備中）4月下旬發(fā)布，現(xiàn)征集模型8SuperCLUE-RAG中文檢索增強(qiáng)測評基準(zhǔn)3月下旬發(fā)布，現(xiàn)征集模型8零售行業(yè)測評基準(zhǔn)（籌備中）5月上旬發(fā)布，現(xiàn)征集模型9SuperCLUE-MM中文多模態(tài)理解測評基準(zhǔn)4月上旬發(fā)布，現(xiàn)征集模型9教育行業(yè)測評基準(zhǔn)（籌備中）5月上旬發(fā)布，現(xiàn)征集模型10SuperCLUE-Image中文文生圖測評基準(zhǔn)4月上旬發(fā)布，現(xiàn)征集模型10...更多行業(yè)...歡迎共建第5部分第5部分四大維度分析及示例介紹1.語言與知識2.專業(yè)與技能3.工具使用4.傳統(tǒng)安全SuperCLUE基準(zhǔn)-語言與知識中文大模型綜合性測評基準(zhǔn)通義千問2.1GLM-4MiniMax_Abab6語言與知識，考察模型的能力包括：1.生成與創(chuàng)作；2.語言理解與抽??；3.上下文對話；4.角色扮演；5.知識與百科。在語言與知識的測評中，GPT系列依然領(lǐng)先，GPT4-Turbo-0125和GPT4均超過了90分。國內(nèi)頭部大模型依然表現(xiàn)優(yōu)異，表現(xiàn)最好的通義千問2.1得分89.67分，僅落后1分。其中國內(nèi)超過80分的有8個模型，有15個模型得分高于GPT3.5和Gemini-Pro。在開源模型中，阿里云最新開源的qwen1.5-72b-chat表現(xiàn)最好，取得了81.96的高分。另外，百川智能的Baichuan2-13B-Chat取得了不錯的成績，有超過50分的表現(xiàn)?？傮w來看，在中文語言與知識能力上，國內(nèi)大模型已基本追趕上國外頭部大模型，在未來也最可能成為率先形成超越的維度之一。語言與知識-示例（語言理解）確性?！八麄兊哪Ｐ汀敝傅氖鞘裁矗空Z言與知識-示例（生成與創(chuàng)作）你正在為一款新型生物技術(shù)產(chǎn)品創(chuàng)作廣告文案，該產(chǎn)品是語言與知識-示例（角色扮演）假設(shè)你扮演的是動畫片《龍珠》中的孫悟空，你正在為語言與知識-示例（上下文對話）GLM-4答案：語言與知識-示例（知識與百科）梁啟超出生于哪一年？字什么？號什么？GPT4-Turbo-0125答案：GPT4-Turbo-0125GPT4-Turbo-0125答案：專業(yè)與技能，考察模型的能力包括：計(jì)算、邏輯與推理專業(yè)與技能，考察模型的能力包括：計(jì)算、邏輯與推理、代碼。在專業(yè)與技能的測評中，GPT-4Turbo領(lǐng)先幅度較大，總分93.34分是唯一過90分的大模型。國內(nèi)大模型中文心一言4.0表現(xiàn)不俗，取得84.60的高分。較GPT4網(wǎng)頁版僅低4.5分。僅隨其后的是GLM-4、Baichuan3等模型。其中有13個大模型有超過GPT3.5的表現(xiàn)。在開源模型中，阿里云的qwen1.5-72b-chat表現(xiàn)可圈可點(diǎn)，是國內(nèi)開源模型中唯一超過70分的模型。總體來看，在專業(yè)與知識能力上，國內(nèi)第一梯隊(duì)大模型與國外最好模型依然有一定距離，但可以看到的是差距正在不斷縮小。SuperCLUE基準(zhǔn)-專業(yè)與技能專業(yè)與技能-示例（邏輯與推理）專業(yè)與技能-示例（計(jì)算）Baichuan3答案：當(dāng)然可以。這個數(shù)學(xué)問題是一個簡單的求解三次方程的問題。根據(jù)方程：要找到x的值，我們需要解出使得任意一個括號中的表達(dá)式等于零的x值。這是因?yàn)樵跀?shù)學(xué)中，如果兩個數(shù)的乘積為零，那么至少有一個因子必須為零。所以我們可以分別設(shè)置每個因子等于零，然后解出x。第一個因子是(x-12)，所以我們設(shè)置它等于零并解出x：x-12=0x=12第二個因子是(x-7)，重復(fù)相同的過程：x-7=0x=7第三個因子是(x-1/4)，再重復(fù)一次：x-1/4=0x=1/4因此，我們得到了三個可能的x值：12，7和1/4。這意味著在虛擬現(xiàn)實(shí)游戲中，玩家應(yīng)該去的地點(diǎn)編號可能是12，7或者1/4。專業(yè)與技能-示例（代碼）GPT4-Turbo-0125答案：為了完成這個任務(wù)，我們需要假設(shè)你有一個叫做art_transactions的表，它包括各種字段，至少包括transaction_date（交易日期price（交易價格）和quantity（交易數(shù)量）。給出的SQL查詢語句的目的是從art_transactions表中選擇交易日期（格式化為月和年交易價格，以及交易數(shù)量，同時滿足交易數(shù)量大于100以及交易價格小于60元的條件。我們應(yīng)該使用SUM聚合函數(shù)來計(jì)算每月的總交易數(shù)量，AVG聚合函數(shù)來計(jì)算每月的平均交易價格，并使用GROUPBY語句根據(jù)年份和月份對結(jié)果進(jìn)行分組。請注意，SQL標(biāo)準(zhǔn)和函數(shù)（特別是日期處理函數(shù)）在不同的數(shù)據(jù)庫管理系統(tǒng)(DBMS)中可能有所不同。假設(shè)我們在一個使用SQL標(biāo)準(zhǔn)日期函數(shù)的系統(tǒng)中工作（比如PostgreSQL查詢可能是這樣的：TO_CHAR(transaction_date,'YYYY-MM')ASmonth,AVG(price)ASavg_price,SUM(quantity)AStotal_quantityFROMart_transactionsWHEREquantity>100ANDprice<60GROUPBYTO_CHAR(transaction_date,'YYYY-MM')monthASC;這段代碼首先使用TO_CHAR(transaction_date,'YYYY-MM')將日期格式化為年月格式，便于按月分組。然后，它使用AVG(price)計(jì)算在給定條件下的平均交易價格，并使用SUM(quantity)計(jì)算總交易數(shù)量。WHERE子句保證了只考慮交易數(shù)量大于100且交易價格小于60元的記錄。最后，通過GROUPBY對結(jié)果按照月份進(jìn)行分組，并通過ORDERBY確保結(jié)果是按月份升序排序的。請根據(jù)您實(shí)際數(shù)據(jù)庫的具體實(shí)現(xiàn)（如MySQL、SQLServer或SQLite等）調(diào)整日期處理函數(shù)和其它可能的語法差異SuperCLUE基準(zhǔn)-工具使用能力qwen1.5-72b-chatl在工具使用的測評中，GPT4-Turbo-0125取得了96.54的最高分。國內(nèi)大模型中文心一言4.0表現(xiàn)不俗，取得了88.26的高分，排名國內(nèi)模型第一。僅隨其后的是GLM-4、通義千問2.1、Moonshot、Baichuan3均有超過80分的表現(xiàn)。其他國內(nèi)模型同樣有不錯的表現(xiàn)，超過GPT3.5的模型有13個。在20B以下開源模型中，qwen1.5-14b-chat、Baichuan2-13B-Chat的表現(xiàn)可圈可點(diǎn)，均有超過50分的表現(xiàn)。總體來看，在工具使用能力上，國內(nèi)大模型的表現(xiàn)優(yōu)異，與國內(nèi)大模型廠商積極落地應(yīng)用密不可分。工具使用能力-示例你正在開發(fā)一個面向公司員工的內(nèi)部聊天應(yīng)用，并需要通過API調(diào)用來創(chuàng)建一個用戶，并將他添加到一個已存在的群組。以下是你可以使用的API描述列表：1.**CreateUserAPI(創(chuàng)建用戶API)**：該API用于創(chuàng)建一個新的用戶。參數(shù)包括`email`（電子郵件，字符串`password`（密碼，字符串）和`name`（名字，字符串）。2.**CreateGroupAPI(創(chuàng)建群組API)**：該API用于創(chuàng)建一個新的群組。參數(shù)包括`group_name`（群組名，字符串`user_ids`（用戶ID，字符串列表）。3.**AddUserToGroupAPI(添加用戶到群組API)**：該API用于將一個用戶添加到一個已存在的群組。參數(shù)包括`group_id`（群組ID，字符串）和`user_id`（用戶ID，字符串）。4.**RemoveUserFromGroupAPI(從群組移除用戶API)**：該API用于將一個用戶從一個已存在的群組中移除。參數(shù)包括`group_id`（群組ID，字符串）和`user_id`（用戶ID，字符串）。5.**SendMessageAPI(發(fā)送消息API)**：該API用于發(fā)送消息到一個群組。參數(shù)包括`group_id`（群組ID，字符串`user_id`（用戶ID，字符串）和`message`（消息，字符串）。請根據(jù)你的需求，選擇適合的API以及生成對應(yīng)的參數(shù)，詳細(xì)描述要達(dá)到你的目的所需要調(diào)用API的步驟以及需要傳入的參數(shù)值。{"password":"secure_password","name":"NewUser"}這個請求將返回新創(chuàng)建用戶的ID（例如"user_id":"abc1{"group_id":"xyz789",//已存在的群組ID"user_id":"abc123"http://新創(chuàng)建用戶的ID}

人人文庫> 全部分類> 應(yīng)用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中文大模型基準(zhǔn)測評2024年2月報告

文檔簡介

溫馨提示

最新文檔

評論

中文大模型基準(zhǔn)測評2024年2月報告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔