中文大模型基準(zhǔn)測(cè)評(píng)2024年度報(bào)告 -2024中文大模型階段性進(jìn)展年度評(píng)估_第1頁(yè)
中文大模型基準(zhǔn)測(cè)評(píng)2024年度報(bào)告 -2024中文大模型階段性進(jìn)展年度評(píng)估_第2頁(yè)
中文大模型基準(zhǔn)測(cè)評(píng)2024年度報(bào)告 -2024中文大模型階段性進(jìn)展年度評(píng)估_第3頁(yè)
中文大模型基準(zhǔn)測(cè)評(píng)2024年度報(bào)告 -2024中文大模型階段性進(jìn)展年度評(píng)估_第4頁(yè)
中文大模型基準(zhǔn)測(cè)評(píng)2024年度報(bào)告 -2024中文大模型階段性進(jìn)展年度評(píng)估_第5頁(yè)
已閱讀5頁(yè),還剩174頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中文大模型基準(zhǔn)測(cè)評(píng)2024年度報(bào)告—2024中文大模型階段性進(jìn)展年度評(píng)估SuperCLUE團(tuán)隊(duì)2025.01.08精準(zhǔn)量化通用人工智能(AGI)進(jìn)展,定義人類邁向AGI的路線圖AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowardsAGI.報(bào)告摘要(一)?OpenAI發(fā)布o(jì)1正式版,大幅領(lǐng)跑全球o1正式版的推出進(jìn)一步拉大了與其他模型的差距。經(jīng)12月測(cè)評(píng),o1以80.4分大幅領(lǐng)跑全球,較ChatGPT-4o-latest高10.2分,?國(guó)內(nèi)頂尖大模型進(jìn)展迅速,較為接近ChatGPT-4o-latest國(guó)內(nèi)頂尖大模型進(jìn)展迅速,其中DeepSeek-V3和SenseChat5.5-latest取得68.3分表現(xiàn)出色,超過(guò)Claude3.5Sonnet和Gemini-2.0-Flash-Exp,較為接近ChatGPT-4o-latest(僅?國(guó)內(nèi)模型在推理速度和性價(jià)比方面很有競(jìng)爭(zhēng)力國(guó)內(nèi)模型DeepSeek-V3和Qwen2.5-32B-Instruct在推理效能方面表現(xiàn)出色,在高水平能力的基礎(chǔ)上,保持極快的推理速度。在性價(jià)比方面,DeepSeek-V3、Qwen2.5-72B-Instruct(阿里云)在高水平能力的基礎(chǔ)上,保持低成本的API價(jià)格。?端側(cè)小模型表現(xiàn)驚艷國(guó)內(nèi)端側(cè)小模型進(jìn)展迅速,部分小尺寸模型表現(xiàn)要好于上一代的稍大尺寸模型,如Qwen2.5-3B-Instruct、MiniCPM3-4B,均展現(xiàn)出很高的性價(jià)比和落地可行性。來(lái)源:SuperCLUE,2025年1月8日3各維度國(guó)內(nèi)Top3排行一級(jí)維度專項(xiàng)任務(wù)國(guó)內(nèi)TOP1國(guó)內(nèi)TOP2國(guó)內(nèi)TOP3Step-2-16kDeepSeek-V3Qwen2.5-72B-Instruct/Qwen-max-latestTeleChat2-LargeDeepSeek-V3SenseChat5.5-latestBaichuan4360zhinao2-o1DeepSeek-V3理科Doubao-pro-32k-241215DeepSeek-R1-Lite-DeepSeek-V2.5SenseChat5.5-latestDeepSeek-V3360zhinao2-o1/360zhinao2-o1DeepSeek-V3241215文科DeepSeek-V3DeepSeek-R1-Lite-Qwen2.5-72B-InstructTeleChat2-LargeSenseChat5.5-latest來(lái)源:SuperCLUE,2025年1月8日注:專項(xiàng)任務(wù)排名中,當(dāng)出現(xiàn)并列排名的情況(如并列第二則后續(xù)排名依次順延(第三名自動(dòng)空缺)。大模型性價(jià)比分布數(shù)據(jù)來(lái)源數(shù)據(jù)來(lái)源:SuperCLUE,2025年1月8日;4報(bào)告目錄一、2024年度關(guān)鍵進(jìn)展及趨勢(shì)?2024年大模型關(guān)鍵進(jìn)展?2024年值得關(guān)注的中文大模型全景圖?2024年國(guó)內(nèi)外大模型差距?2024年國(guó)內(nèi)外大模型能力趨勢(shì)二、年度通用測(cè)評(píng)介紹?SuperCLUE介紹?SuperCLUE大模型綜合測(cè)評(píng)體系及數(shù)據(jù)集?SuperCLUE通用測(cè)評(píng)基準(zhǔn)數(shù)據(jù)集及評(píng)價(jià)方式?各維度測(cè)評(píng)說(shuō)明?各維度測(cè)評(píng)示例?測(cè)評(píng)模型列表三、總體測(cè)評(píng)結(jié)果與分析?SuperCLUE通用能力測(cè)評(píng)總分?SuperCLUE模型象限(2024)?歷月SuperCLUE大模型Top3?一、二級(jí)維度表現(xiàn)?九大任務(wù)年度Top5?綜合效能區(qū)間分布?性價(jià)比區(qū)間分布?國(guó)內(nèi)外推理模型能力對(duì)比?Hard、理科、文科成績(jī)及示例?國(guó)內(nèi)大模型成熟度-SC成熟度指數(shù)?評(píng)測(cè)與人類一致性驗(yàn)證四、開源模型進(jìn)展評(píng)估?開源模型榜單?10B級(jí)別小模型榜單?端側(cè)5B級(jí)別小模型榜單五、智能體Agent基準(zhǔn)六、推理基準(zhǔn)七、多模態(tài)基準(zhǔn)八、AI產(chǎn)品基準(zhǔn)九、行業(yè)測(cè)評(píng)基準(zhǔn)十、重點(diǎn)文本專項(xiàng)基準(zhǔn)十一、優(yōu)秀模型案例6第1部分2024年度關(guān)鍵進(jìn)展及趨勢(shì)1.2024年大模型關(guān)鍵進(jìn)展2.2024年值得關(guān)注的中文大模型全景圖3.2024年國(guó)內(nèi)外大模型差距4.2024年國(guó)內(nèi)外大模型能力趨勢(shì)72024年大模型關(guān)鍵進(jìn)展具體可分為:準(zhǔn)備期、躍進(jìn)期、繁榮期和深化期。關(guān)鍵進(jìn)展?ChatGPT發(fā)布,全球范圍內(nèi)迅速形成大模型共識(shí)。?GPT4發(fā)布,進(jìn)一步掀起大模型研發(fā)熱潮。?國(guó)內(nèi)快速跟進(jìn)大模型研發(fā)。文心一言腦、ChatGLM等首批模型相繼發(fā)布。開發(fā)者生態(tài)。?GPT-4Turbo、Gemini等海外大模型發(fā)布,繼續(xù)提升模型性能。BlueLM、星火3.0等陸續(xù)發(fā)布。Yi-34B等系列模型引領(lǐng)開源熱潮。視頻領(lǐng)域的想象力。入“一超多強(qiáng)”的競(jìng)爭(zhēng)格局。域領(lǐng)先海外。視頻生成模型可靈AI、續(xù)發(fā)布,并在海外取得較大應(yīng)用進(jìn)展。?國(guó)內(nèi)通用模型持續(xù)提升。Qwen2.5、型陸續(xù)更新。實(shí)現(xiàn)推理等復(fù)雜能力上的重大突破。和Agent能力上掀起效率革命。語(yǔ)音視覺(jué)實(shí)時(shí)多模態(tài)應(yīng)用場(chǎng)景。GLM-Zero等推理模型陸續(xù)發(fā)布。持續(xù)提升。2022.122024.06時(shí)間通用閉源AndesGPTZTE中興MINIMAXTeleChat2-35B推理QWQ-32B-PreviewDeepSeek-R1-LiteInternThinker360gpt2-o1Ll.avA-COT通義APP實(shí)時(shí)交互智譜清言通義APP實(shí)時(shí)交互智譜清言文生視頻視覺(jué)理解meitu文生圖meitu訊飛語(yǔ)音合成百度TTSCosyVoice部分領(lǐng)域醫(yī)療BA醫(yī)聯(lián)MedGPTJli百川AI全科醫(yī)生......教育汽車極氪Kr大模型易車大模型教育汽車極氪Kr大模型易車大模型金融妙想金融大模型軒轅大模型......工業(yè)奇智孔明AInno-15B華為盤古工業(yè)大模型......更多行業(yè)法律:AI4S:DP'深勢(shì)分子大模型......92024年國(guó)內(nèi)外大模型差距?總體趨勢(shì)上,國(guó)內(nèi)外第一梯隊(duì)大模型在中文領(lǐng)域的通用能力差距正在擴(kuò)大。2023年5月至今,國(guó)內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最30.12%的差距,縮小至2024年8月的1.29%。但隨著o1的發(fā)布,差距再次拉大到15.05%。SuperCLUE基準(zhǔn):過(guò)去18個(gè)月國(guó)內(nèi)外TOP大模型對(duì)比趨勢(shì)模型23年5月23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月GPT最新模型(GPT3.5、4、4-Turbo、4o、o1)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.4國(guó)內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.3國(guó)內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.3國(guó)內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.4來(lái)源:SuperCLUE,2023年5月~2024年12月,期間發(fā)布的14次大2024年國(guó)內(nèi)外大模型能力趨勢(shì)SupeSuperCLUE基準(zhǔn)分?jǐn)?shù)40代表性大模型基準(zhǔn)表現(xiàn)趨勢(shì)Qwen2.0Hunyuan-ProDoubao-pro-preview文心一言4.0Qwen1.5豆包(云雀)GLM2文心一言3.5Qwen1.0o1Qwen2.0Hunyuan-ProDoubao-pro-preview文心一言4.0Qwen1.5豆包(云雀)GLM2文心一言3.5Qwen1.0o1-Previewo1-PreviewDeepSeek-V3GPT-4oClaude3.5SonnetGLM-4-PlusGPT-4-TurboClaude3.0OpusDeepSeek-V3GPT-4oClaude3.5SonnetGLM-4-PlusGPT-4-TurboClaude3.0OpusDoubao-pro1215Qwen2.5GLM-4Qwen2.5Hunyuan-TurboGPTHunyuan-TurboGPT-4文心一言4.0TurboClaude2.0GLM3GPT-3.5-TurboGLM322.0922.12模型發(fā)布時(shí)間趨勢(shì)分析11.以DeepSeek-V3為代表的國(guó)產(chǎn)模型正極為接近GPT-4o-latestQwen2.5在中文任務(wù)上已經(jīng)接近GPT-4o。Claude3.5Sonnet的表現(xiàn)。22.o1基于強(qiáng)化學(xué)習(xí)新范式的推理模型,突破80分拉大國(guó)內(nèi)外頂尖模型差距在SuperCLUE基準(zhǔn)得分集中在60-70分。為突破70分瓶頸的重要技術(shù)代表,尤其o1正式版突破了80分大關(guān),展現(xiàn)出較大的領(lǐng)先優(yōu)勢(shì)。放生態(tài)、應(yīng)用場(chǎng)景等綜合因素。第2部分年度通用測(cè)評(píng)介紹1.SuperCLUE基準(zhǔn)介紹2.SuperCLUE大模型綜合測(cè)評(píng)體系3.SuperCLUE通用測(cè)評(píng)基準(zhǔn)數(shù)據(jù)集4.各維度測(cè)評(píng)說(shuō)明5.各維度測(cè)評(píng)示例6.測(cè)評(píng)模型列表SuperCLUE基準(zhǔn)介紹LanguageUnderstandingEvaluation)發(fā)起于2019年,陸續(xù)推出過(guò)CLUE、FewCLUE、ZeroCLUE等廣為引用的測(cè)評(píng)基準(zhǔn)。20192020202120222023.01-062023.07-122024.01-062024.07-09CLUE基準(zhǔn)發(fā)布發(fā)布多篇頂會(huì)論文,并承辦了NLPCC2020開放測(cè)評(píng)任務(wù)發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個(gè)知名測(cè)評(píng)基準(zhǔn)聯(lián)合西湖大學(xué)發(fā)布DataCentricAI;發(fā)布SimCLUE大規(guī)模中文語(yǔ)義理解數(shù)據(jù)集中文領(lǐng)域首個(gè)通用大模型測(cè)評(píng)基準(zhǔn)SuperCLUE正式發(fā)布發(fā)布首個(gè)中文多輪開放式測(cè)評(píng)基準(zhǔn)SuperCLUE-Open;發(fā)布行業(yè)測(cè)評(píng)基準(zhǔn)發(fā)布數(shù)學(xué)、代碼、長(zhǎng)文本、RAG等測(cè)評(píng)基準(zhǔn);發(fā)布文生視頻、文生圖、視覺(jué)理解等多模態(tài)測(cè)評(píng)基準(zhǔn)發(fā)布AI編程助手、實(shí)時(shí)交互等AI應(yīng)用測(cè)評(píng)基準(zhǔn);發(fā)布智能座艙測(cè)評(píng)基準(zhǔn)。發(fā)布鏈?zhǔn)酵评?、小學(xué)奧數(shù)等推理測(cè)評(píng)基準(zhǔn);發(fā)布多輪可執(zhí)行智能體測(cè)評(píng)基準(zhǔn)AgentCLUEVSSupe“Live”更新,“Live”更新,0數(shù)據(jù)污染測(cè)評(píng)題庫(kù)每2個(gè)月100%替換且全部原創(chuàng),杜絕過(guò)擬合風(fēng)險(xiǎn)。體系維度根據(jù)大模型進(jìn)展Live更新。真實(shí)落地場(chǎng)景,高度還原用戶視角。真實(shí)落地場(chǎng)景,高度還原用戶視角。測(cè)評(píng)方式與用戶交互一致測(cè)評(píng)方法與用戶交互方式保持一致測(cè)評(píng)任務(wù)貼近獨(dú)立第三方,無(wú)自家模型獨(dú)立第三方,無(wú)自家模型諾提供無(wú)偏倚的客觀、中立評(píng)測(cè)結(jié)果。SuperCLUE大模型綜合測(cè)評(píng)體系SuperCLUE大模型綜合測(cè)評(píng)基準(zhǔn)框架Agent基準(zhǔn)理科通用AI產(chǎn)品視頻圖像/視覺(jué)文科終端智能體行業(yè)語(yǔ)音Hard行業(yè)智能體Agent基準(zhǔn)理科通用AI產(chǎn)品視頻圖像/視覺(jué)文科終端智能體行業(yè)語(yǔ)音Hard行業(yè)智能體已發(fā)布即將發(fā)布SuperCLUE通用測(cè)評(píng)基準(zhǔn)數(shù)據(jù)集及評(píng)價(jià)方式本次12月報(bào)告聚焦通用能力測(cè)評(píng),由理科、文科和Hard三大維度構(gòu)成。題目均為原創(chuàng)新題,總量為1325道多輪簡(jiǎn)答題。【理科任務(wù)】分為計(jì)算、邏輯推理、代碼測(cè)評(píng)集;【文科任務(wù)】分為語(yǔ)言理解、生成創(chuàng)作、安全測(cè)評(píng)集;【Hard任務(wù)】分為指令遵循、深度推理、Agent測(cè)評(píng)集。SuperCLUE通用基準(zhǔn)數(shù)據(jù)集及評(píng)價(jià)方式介紹:包括線性代數(shù)、概率統(tǒng)計(jì)介紹:包括線性代數(shù)、概率統(tǒng)計(jì)、微積分及數(shù)學(xué)多步推理評(píng)價(jià)方式:人工校驗(yàn)參考答案的、多維度評(píng)價(jià)標(biāo)準(zhǔn)3.代碼評(píng)價(jià)方式:基于代碼單元測(cè)試的評(píng)估(0-1得分)理科理科5.生成與創(chuàng)作5.生成與創(chuàng)作評(píng)價(jià)方式:多維度評(píng)價(jià)標(biāo)準(zhǔn)的評(píng)估。6.傳統(tǒng)安全評(píng)價(jià)方式:多維度評(píng)價(jià)標(biāo)準(zhǔn)的評(píng)估。文科介紹:基礎(chǔ)語(yǔ)言理解數(shù)據(jù)集,包括但不限于信息抽取、意文科評(píng)價(jià)方式:多維度評(píng)價(jià)標(biāo)準(zhǔn)的評(píng)估。8.深度推理介紹:8.深度推理介紹:主要考察模型在復(fù)雜任務(wù)中的多步推理能力。復(fù)評(píng)價(jià)方式:人工校驗(yàn)參考答案的、多維度評(píng)價(jià)標(biāo)準(zhǔn)的評(píng)估。7.指令遵循介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來(lái)生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和評(píng)價(jià)方式:基于規(guī)則腳本的評(píng)估(0-1得分)介紹:主要考察在中文場(chǎng)景下基于可執(zhí)行的環(huán)境,LLM評(píng)價(jià)方式:結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對(duì)的評(píng)估(0-1得分)理科測(cè)評(píng)說(shuō)明1(計(jì)算、邏輯推理)SuperCLUE-理科評(píng)測(cè)數(shù)據(jù)集包括三段論包括三段論、關(guān)系推理、樸素推理等在內(nèi)的中文邏輯推理數(shù)據(jù)集。包括線性代數(shù)、概率統(tǒng)計(jì)、微積分及數(shù)學(xué)多步推理算術(shù)在內(nèi)的基礎(chǔ)數(shù)學(xué)數(shù)據(jù)集。測(cè)評(píng)方法評(píng)測(cè)流程:示例-計(jì)算<篇幅有限省略>1.基于標(biāo)準(zhǔn)1的<符合基本要求>:AI助手的回答完全符合用戶的要求,詳細(xì)地解釋了級(jí)數(shù)的收斂2.基于標(biāo)準(zhǔn)2的<推理準(zhǔn)確性>:AI助手的推理過(guò)程準(zhǔn)確,邏輯清晰,應(yīng)用了正確的數(shù)學(xué)方法來(lái)判3.基于標(biāo)準(zhǔn)3的<結(jié)論合理性>:AI助手得出的結(jié)論與已知的數(shù)學(xué)常識(shí)和事實(shí)一致,驗(yàn)證了級(jí)數(shù)的綜合以上,AI助手的回答的綜合得分(平均分)為[[5]]理科測(cè)評(píng)說(shuō)明2(代碼)SuperCLUE-理科評(píng)測(cè)數(shù)據(jù)集代碼HumanEval的中文升級(jí)版,分為初級(jí)、中級(jí)和高級(jí)的8種常見類型代碼數(shù)據(jù)集。測(cè)評(píng)方法評(píng)測(cè)流程:使用特定的prompt要求模型按照特定格式回答,以方便后續(xù)提取。對(duì)于一個(gè)代碼補(bǔ)全問(wèn)題,每對(duì)于一個(gè)代碼補(bǔ)全問(wèn)題,將提取得到的代碼和該問(wèn)題對(duì)應(yīng)的N個(gè)測(cè)試用例組裝成N個(gè)可獨(dú)立運(yùn)行對(duì)于一個(gè)代碼補(bǔ)全問(wèn)題和1個(gè)測(cè)試用例,構(gòu)成一個(gè)單元測(cè)試,通過(guò)測(cè)試得1分。最終計(jì)算模型在示例-代碼問(wèn)題:fromcollectionsimpodeftask_func(jugs:Tuple[int],target:int)->bool:給定三個(gè)水壺的容量,判斷是否可以通過(guò)無(wú)限的水源和以下操作精確地得到-將水從一個(gè)水壺倒入另一個(gè)水壺,直-jugs:Tuple[int,int,int]-三個(gè)水壺的容模型回答:defhas_enough_water(jugs:Tuple[int],target:int)->bool:ju=jugsifju[0]>target:ifju[1]>target:ifju[2]>target:ifju[0]<=0: ifju[1]<=0: ifju[2]<=0:ifju[i]==0:max_amount=math.floor(ju[i]/res=math.ceil(target/max_amount)ifres>0:defcheck(candidate):計(jì)算模型得分:測(cè)試未通過(guò),不得分文科測(cè)評(píng)說(shuō)明SuperCLUE-文科評(píng)測(cè)數(shù)據(jù)集基礎(chǔ)語(yǔ)義理解數(shù)據(jù)集,基礎(chǔ)語(yǔ)義理解數(shù)據(jù)集,包括但不限于信息抽取、意圖識(shí)包括但不限于違法犯罪、財(cái)產(chǎn)隱私、偏見歧視、臟話侮包括但不限于廣告文案、技術(shù)寫作、公文寫作、文學(xué)創(chuàng)作、角色扮演、長(zhǎng)文本的數(shù)測(cè)評(píng)方法評(píng)測(cè)流程:假設(shè)在一個(gè)具體的題目中,模型A的得分如下:符合基本要求3分、語(yǔ)言與邏輯連貫性4分、推理鏈條完整示例-生成與創(chuàng)作<篇幅有限省略><篇幅有限省略>4.基于標(biāo)準(zhǔn)4的<事實(shí)正確性>;提供的信息大部分是關(guān)于考試安排的細(xì)節(jié),并且看不到明顯錯(cuò)誤?;C合以上,AI助手的回答的綜合得分(平均分)為[[4.5]]Hard測(cè)評(píng)說(shuō)明1(精確指令遵循)SuperCLUE-Hard:精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力,要求AI嚴(yán)格按照給定的指令進(jìn)行回復(fù),包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來(lái)生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測(cè)評(píng)方法評(píng)測(cè)流程:我們完成了一個(gè)針對(duì)不同的語(yǔ)言模型的(文本輸出)精確指令遵循表現(xiàn)的測(cè)試,根據(jù)設(shè)定的評(píng)估標(biāo)準(zhǔn)進(jìn)行評(píng)估。評(píng)估的結(jié)果為布爾值(True或False)。設(shè)定的評(píng)價(jià)標(biāo)準(zhǔn)包括:遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指例如:率,命中率以百分比為單位。具體來(lái)說(shuō),命中率計(jì)算公式為:示例回答:未有的便捷。無(wú)論是控制燈光、調(diào)節(jié)溫度,還是管理家電,只需一個(gè)指令就能輕松完成。這種便捷不僅提高了生活質(zhì)量,還節(jié)省了大量時(shí)間。確保家人和財(cái)產(chǎn)的安全。當(dāng)檢測(cè)到異常情況時(shí),系統(tǒng)會(huì)立即發(fā)出警報(bào),并通知相關(guān)人員。這種安全措施大大降低了家庭被盜或發(fā)生意外的風(fēng)險(xiǎn)。一步減少能源消耗。這種節(jié)能措施不僅環(huán)保,還能降低電費(fèi)支出。活。隨著技術(shù)的不斷進(jìn)步,未來(lái)智能家居將變得更加智能和人性化,為人們帶來(lái)更多便利和舒適感。評(píng)價(jià)打分:Hard測(cè)評(píng)說(shuō)明2(深度推理)SuperCLUE-Hard:深度推理數(shù)據(jù)集深度推理主要考察模型在復(fù)雜任務(wù)中的多步推理能力。復(fù)雜任務(wù)推理涉及在多個(gè)變量和條件下進(jìn)行邏輯推理。測(cè)評(píng)方法評(píng)測(cè)流程:示例問(wèn)題:?jiǎn)栴}:模型回答:<篇幅有限省略>(由于篇幅有限,模型回答省略具體內(nèi)容,僅展示關(guān)鍵步驟)評(píng)價(jià)打分:1.基于標(biāo)準(zhǔn)1的<符合基本要求>:AI助手的回答完全符合用戶的意圖,詳細(xì)解釋了如何最大化利2.基于標(biāo)準(zhǔn)2的<推理過(guò)程準(zhǔn)確性>:AI助手的推理過(guò)程準(zhǔn)確,步驟清晰,邏輯合理,且與參考答3.基于標(biāo)準(zhǔn)3的<結(jié)論一致性>:AI助手的結(jié)論與參考答案完全一致,給出了具體的生產(chǎn)數(shù)量和最綜合以上,AI助手的回答的綜合得分(平均分)為[[5]]Hard測(cè)評(píng)說(shuō)明3(Agent)SuperCLUE-Hard:Agent數(shù)據(jù)集Agent主要考察在中文場(chǎng)景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對(duì)話中調(diào)用工具完成任務(wù)的能力。測(cè)評(píng)方法評(píng)測(cè)流程:示例【第四輪問(wèn)題】:看來(lái)需要加油了,幫我把測(cè)評(píng)模型列表本次測(cè)評(píng)數(shù)據(jù)選取了SuperCLUE-12月測(cè)評(píng)結(jié)果,模型選取了國(guó)內(nèi)外有代表性的42個(gè)大模型在12月份的版本。模型機(jī)構(gòu)簡(jiǎn)介模型機(jī)構(gòu)簡(jiǎn)介23.ERNIE-4.0-Turbo-8K-La與ChatGPT上的GPT-4o同版本,對(duì)應(yīng)OpenAI官方的API名稱:chatgp官方在2024年12月11日發(fā)布的Gemini2.0FlasMeta發(fā)布的Llama3.3版本70B開源模型,調(diào)用的together7.Claude3.5Sonnet(2官方開源的360Zhinao2-7B-ChX.AI昆侖萬(wàn)維發(fā)布的千億級(jí)別MOE(MixtureofEx微軟42.Mistral-7B-Instr官方開源的Mistral-7B-Inst22第3部分總體測(cè)評(píng)結(jié)果與分析1111.SuperCLUE-文科成績(jī)12.國(guó)內(nèi)大模型成熟度-SC成熟度指數(shù)13.評(píng)測(cè)與人類一致性驗(yàn)證1.SuperCLUE通用能力測(cè)評(píng)總分2.SuperCLUE模型象限(2024)3.歷月SuperCLUE大模型Top36.九大任務(wù)年度Top57.SuperCLUE大模型綜合效能區(qū)間分布8.SuperCLUE性價(jià)比區(qū)間分布4.一級(jí)維度表現(xiàn)5.二級(jí)細(xì)粒度分?jǐn)?shù)9.SuperCLUE-Hard成績(jī)10.SuperCLUE-理科成績(jī)SuperCLUE通用能力測(cè)評(píng)總分國(guó)內(nèi)外通用大模型SuperCLUE基準(zhǔn)榜單國(guó)內(nèi)模型海外及其他對(duì)比模型分代表性模型參與排名,其余模型僅做參考,不參與排名。SuperCLUE模型象限(2024)SuperCLUE模型象限(2024)實(shí)用主義者卓越領(lǐng)導(dǎo)者Gemini-2.0-Flash-Exp(●●Grok-2-1212(X.AI)●Step-2-16k(階躍星辰)ERNIE-4.0-Turbo-8K-LatGLM-4-Plus(智譜)Sky-Chat-3.0(昆侖萬(wàn)維)●TeleChat2-35B(TeleAI)GLM-4-9B-Chat(智譜)Llama-3.1-8B-Instruct(Meta)Yi-1.5-Yi-1.5-9B-ChatYi-1.5-9B-Chat-16K(零一萬(wàn)物)潛力探索者技術(shù)領(lǐng)跑者基礎(chǔ)能力2023-2024年SuperCLUE基準(zhǔn)國(guó)內(nèi)外大模型Top32024年12月DeepSeek-V3、SenseChat5.5-latest、360gpt2-o1Doubao-pro-32k-241215、NebulaCoder-V5、Qwen-max-latestStep-2-16k、GLM-4-Pluso1、o1-preview、ChatGPT-4o-latest2024年10月GLM-4-Plus、SenseChat5.5、AndesGPT-2.0、Qwen2.5-72B-Instruct(并列)Hunyuan-Turbo、360gpt2-pro、Step-2、DeepSeek-V2.5、Doubao-proBaichuan4、山海大模型4.0、TeleChat2-Largeo1-preview、Claude3.5Sonnet(20241022)、ChatGPT-4o-latest2024年8月Hunyuan-Turbo-PreviewAndesGPT-2.0、DeepSeek-V2-0628Qwen2-72B-Instruct、SenseChat5.5、Doubao_pro_previewChatGPT-4o-latest、GPT-4-Turbo-2024-04-09、Claude3.5Sonnet2024年6月Qwen2-72BGLM-4-0520、DeepSeek-V2、SenseChat5.0AndesGPTGPT-4o、Claude-3.5-Sonnet-200k、GPT-4-Turbo-04092024年4月Baichuan3GLM-4、通義千問(wèn)2.1騰訊Hunyuan-pro、文心一言4.0GPT-4-Turbo-0125、GPT-4-Turbo-0409、GPT-4(官網(wǎng))2024年2月文心一言4.0GLM-4通義千問(wèn)2.1GPT4-Turbo-0125、GPT4(網(wǎng)頁(yè))、Claude22023年12月文心一言4.0通義千問(wèn)2.0AndesGPTGPT4-Turbo、GPT4(網(wǎng)頁(yè))、Claude22023年11月文心一言4.0MoonshotYi-34B-ChatGPT4-Turbo、GPT-4、Claude22023年10月BlueLMMoonshot文心一言4.0GPT4、Claude2、GPT3.52023年9月SenseChat3.0文心一言(網(wǎng)頁(yè)v2.3.1)ChatGLM2-ProGPT4、gpt-3.5-turbo、Claude22023年8月Baichuan2-13B-ChatMinimax-abab5文心一言(網(wǎng)頁(yè)v2.2.3)GPT4、gpt-3.5-turbo、Claude22023年7月文心一言(網(wǎng)頁(yè)v2.2.0)ChatGLM-130B訊飛星火V1.5GPT4、Claude2、gpt-3.5-turbo2023年6月360智腦文心一言訊飛星火GPT4、gpt-3.5-turbo、Claude2023年5月360智腦訊飛星火ChatGLM-130BGPT4、gpt-3.5-turbo、ClaudeSuperCLUE通用能力測(cè)評(píng):一級(jí)維度表現(xiàn)SuperCLUE-一級(jí)維度表現(xiàn)來(lái)源:SuperCLUE,2025年1月8日。標(biāo)紅分?jǐn)?shù)為國(guó)內(nèi)前三名。 11.DeepSeek-V3等國(guó)內(nèi)頭部大模型,在中文場(chǎng)景下優(yōu)于Claude3.5Sonnet(20241022),接近ChatGPT-4o-latest,較o1尚有較大差距。pro-32k-241215、NebulaCoder-V5、Qwen-max-latest、Step-2-16k、GLM-4-Plus緊隨其后,有超過(guò)65分的表現(xiàn)。位列國(guó)內(nèi)Top10的模型還有MiniMax-abab7-preview、Hunyuan-Turbo、TeleChat2-Large、Sky-Chat-3.0、ERNIE-4.0-Turbo-8K-Latest,均有不俗表現(xiàn)。22.國(guó)內(nèi)頭部大模型在文科任務(wù)上有一定領(lǐng)先性,在理科、Hard高難度任務(wù)上與海外頭部模型差距較大。國(guó)內(nèi)頭部模型如SenseChat5.5-latest、NebulaCoder-V5、MiniMax-abab7-preview在文科任務(wù)上有超出80分的表現(xiàn),較海外頂尖模型有一定優(yōu)勢(shì)。距。SuperCLUE通用能力測(cè)評(píng):二級(jí)細(xì)粒度分?jǐn)?shù)來(lái)源:SuperCLUE,2025年1月8日;標(biāo)紅分?jǐn)?shù)為國(guó)內(nèi)前三名。九大任務(wù)年度Top5專項(xiàng)任務(wù)海外TOP1國(guó)內(nèi)TOP1國(guó)內(nèi)TOP2國(guó)內(nèi)TOP3國(guó)內(nèi)TOP4國(guó)內(nèi)TOP5ChatGPT-4o-latestStep-2-16kDeepSeek-V3Qwen2.5-72B-Instruct/360zhinao2-o1ERNIE-4.0-Turbo-8K-Latest指令遵循o1Qwen-max-latestTeleChat2-LargeDeepSeek-V3SenseChat5.5-latest/Sky-Chat-3.0深度推理o1Baichuan4360zhinao2-o1DeepSeek-V3QwQ-32B-PreviewSenseChat5.5-latest代碼o1Doubao-pro-32k-241215DeepSeek-R1-Lite-PreviewDeepSeek-V2.5DeepSeek-V3SenseChat5.5-latest360zhinao2-o1計(jì)算o1SenseChat5.5-latestDeepSeek-V3360zhinao2-o1/NebulaCoder-V5Doubao-pro-32k-241215邏輯推理o1360zhinao2-o1DeepSeek-V3Doubao-pro-32k-241215SenseChat5.5-latestGLM-4-Plus語(yǔ)言理解ChatGPT-4o-latestDeepSeek-V3DeepSeek-R1-Lite-PreviewTeleChat2-LargeQwen2.5-72B-Instruct/GLM-4-PlusMiniMax-abab7-preview生成創(chuàng)作ChatGPT-4o-latestHunyuan-TurboNebulaCoder-V5MiniMax-abab7-previewQwen2.5-72B-InstructDeepSeek-V3傳統(tǒng)安全ChatGPT-4o-latestSenseChat5.5-latestNebulaCoder-V5Hunyuan-TurboStep-2-16kSky-Chat-3.0/來(lái)源:SuperCLUE,2025年1月8日;注:專項(xiàng)任務(wù)排名中,當(dāng)出現(xiàn)并列排名的情況(如并列第二),則后續(xù)排名依次順延(第三名自動(dòng)空缺)。SuperCLUE大模型綜合效能區(qū)間分布趨勢(shì)分析11.部分國(guó)產(chǎn)模型在綜合效能上很有競(jìng)爭(zhēng)力上,符合「高效能區(qū)」,展現(xiàn)了極強(qiáng)的應(yīng)用效能。22.Gemini-2.0-Flash-Exp引領(lǐng)全球大模型應(yīng)用效能海外模型Gemini-2.0-Flash-Exp、Claude3.5Sonnet(20241022)、GPT-4o-mini在推理速度上表現(xiàn)最優(yōu)。33.推理模型在效能上表現(xiàn)有較大優(yōu)化空間每題平均推理時(shí)間約40s,綜合效能符合「低效能區(qū)」。推理模型若要有廣泛的應(yīng)用場(chǎng)景,需要在推理速度上著重提升。SuperCLUE性價(jià)比區(qū)間分布大模型性價(jià)比分布1.國(guó)產(chǎn)大模型在性價(jià)比(價(jià)格+效果)上有較大優(yōu)勢(shì)性價(jià)比上展現(xiàn)出極強(qiáng)的競(jìng)爭(zhēng)力。在較為高水平的能力基礎(chǔ)上能夠保持極低的應(yīng)用成本,在應(yīng)用落地方面展現(xiàn)出友好的可用性。2.大部分模型處于中度性價(jià)比區(qū)間Qwen-Max-latest、Claude3.5Sonnet、Grok-2-1212價(jià)格方面均處于30元/百萬(wàn)Tokens以上。3.o1等推理模型性價(jià)比尚有較大優(yōu)化空間雖然o1和o1-preview展現(xiàn)出很高的能力水平,但在價(jià)格方面較其他模型高出數(shù)倍。如何降低成本或許成為推理模型廣泛應(yīng)用的首要問(wèn)題。國(guó)內(nèi)外推理模型能力對(duì)比11.國(guó)內(nèi)外推理模型差距較大推理相關(guān)的五個(gè)任務(wù)中,均有不同程度的領(lǐng)先。22.隨著推理難度的增加,o1的領(lǐng)先幅度會(huì)增大理任務(wù)中,o1的領(lǐng)先幅度提升到20分以上。說(shuō)明隨著推理難度的增加,越好的推理模型的領(lǐng)先幅度會(huì)越大。33.推理模型在Agent智能體的表現(xiàn)區(qū)分性較大現(xiàn),而QwQ-32B-Preview則相對(duì)落后,僅有15%的任務(wù)完成率。SuperCLUE-Hard成績(jī)SuperCLUE-Hard榜單排名模型分?jǐn)?shù)----1-23--45-67--89----來(lái)源:SuperCLUE,2025年1月8日;注:由于部分模型分?jǐn)?shù)較為接近,為了減少問(wèn)題波動(dòng)對(duì)排名的影響,本次測(cè)評(píng)將相距1分區(qū)間的模型定義為并列,報(bào)告中分?jǐn)?shù)展示為并列中高分。 1.o1在中文Hard高挑戰(zhàn)性任務(wù)上具有大幅領(lǐng)先性,領(lǐng)跑全球頂尖大模型。一超過(guò)70分的大模型,大幅領(lǐng)跑全球頂尖模型。o1-pr有模型均未超過(guò)60分。2.國(guó)內(nèi)大模型DeepSeek-V3在中文Hard高挑戰(zhàn)性任務(wù)上超過(guò)Claude3.5Sonnet,接近ChatGPT-4o-latestDeepSeek-V3在12月SuperCLUE-Hard上取得54.8分,領(lǐng)跑國(guó)內(nèi)大模型。接近ChatGPT-4o-latest、Gemini-2.0-Flash-Exp,略有超過(guò)Claude3.5Sonnet(20241022)。國(guó)內(nèi)大模型SenseChat5.5-latest、360zhinao2-o1、Qwen-max-latest、Doubao-pro-32k- 國(guó)內(nèi)頭部平均水平在Hard上還有優(yōu)化空間內(nèi)前三名平均高出13.5分。化方向之一。SuperCLUE-Hard(Agent智能體) 海外模型國(guó)內(nèi)前五名其他來(lái)源:SuperCLUE,2025年1月8日。 1.ChatGPT-4o-latest在Agent任務(wù)上具有一定領(lǐng)先性在12月Agent測(cè)評(píng)中,國(guó)內(nèi)外模型仍有一定差距。ChatGPT-4o-latest取得80.8分,是全球Gemini-2.0-Flash-ExpFlash-Exp。國(guó)內(nèi)大模型DeepSeek-V3、SenseChat5.5-latest,并列第2名。3.在Agent任務(wù)上,推理模型并未展現(xiàn)出絕對(duì)的優(yōu)勢(shì)推理模型o1的得分略低于ChatGPT-4o-latest,Deepseek_R1-Lite-Preview處于中下游位置,Qwen-32B-Preview處于下游位置。推理模型在Agent任務(wù)上仍然有待加強(qiáng)。 化空間對(duì)比國(guó)內(nèi)外頭部模型Agent能力數(shù)據(jù)可以看內(nèi)前三名平均高出5.3分。Agent能力是較為復(fù)雜的任務(wù),具有較高區(qū)分性,是應(yīng)用落地的關(guān)鍵能力。SuperCLUE-Hard(深度推理+指令遵循) 海外模型國(guó)內(nèi)前五名其他來(lái)源:SuperCLUE,2025年1月8日。 海外模型國(guó)內(nèi)前五名其他來(lái)源:SuperCLUE,2025年1月8日。示例:Agent你是一個(gè)組合函數(shù)完成任務(wù)的專家你是一個(gè)組合函數(shù)完成任務(wù)的專家。你將會(huì)收到一個(gè)問(wèn)題和一些可以調(diào)用的函數(shù)及其描述?;趩?wèn)題,你需要調(diào)用一個(gè)或者多個(gè)函數(shù)來(lái)實(shí)現(xiàn)問(wèn)題要求。如果使用你收到的函數(shù)無(wú)法完成問(wèn)題要求,請(qǐng)指出。如果你收到的問(wèn)題缺乏調(diào)用函數(shù)所必要的參數(shù),也請(qǐng)指出。在你的回答中只應(yīng)該包括函數(shù)調(diào)用(functioncalls)內(nèi)容,而不應(yīng)該包括其他內(nèi)容。<篇幅有限省略>DeepSeek-V3Step216k較差模型 程?!边@是一個(gè)漫長(zhǎng)但有趣的過(guò)程。",file_name="Cfile_name='Chinese.txt'),執(zhí)行 mode='r'),執(zhí)行返回結(jié)果為:Errorduringexecution:open()missing<篇幅有限省略>行返回結(jié)果為:<_io.TextIOWrappername='Chinese.第2個(gè)函數(shù)調(diào)用:read(file='Chinese.txt'),execution:name'read'isn第3個(gè)函數(shù)調(diào)用:len(),執(zhí)行返回結(jié)果為:Errorduring 程?!边@是一個(gè)漫長(zhǎng)但有趣的過(guò)程。",file_name="Cfile_name='Chinese.txt'),執(zhí)行 <對(duì)話結(jié)束> <對(duì)話結(jié)束>示例:深度推理-總預(yù)算為3億元;-每個(gè)物流中心的建設(shè)成本為2000萬(wàn)元;-每個(gè)分揀中心的建設(shè)成本為1200萬(wàn)元;-每個(gè)物流中心每年可以處理5000噸訂單;-每個(gè)分揀中心每年可以處理4000噸訂單;-每個(gè)分揀中心最多可以服務(wù)4個(gè)物流中心;-物流中心和分揀中心的數(shù)量之比必須在2:3到3:4之間;-物流中心和分揀中心的總數(shù)不能超過(guò)30個(gè)。問(wèn)題:如何分配預(yù)算和資源,以最大化每年處理的訂單總量?最大化每年處理的訂單總量是多少?Baichuan4QwQ-32B-Preview<篇幅有限省略>較差模型<篇幅有限省略>示例:精確指令遵循請(qǐng)撰寫一篇關(guān)于古代航海技術(shù)發(fā)展的文章,內(nèi)容需包含請(qǐng)撰寫一篇關(guān)于古代航海技術(shù)發(fā)展的文章,內(nèi)容需包含“星象”和“航海圖”兩個(gè)詞。請(qǐng)?jiān)谖恼轮性敿?xì)解釋并列出航海技術(shù)發(fā)展的三個(gè)主要里程碑,使用“&里程碑1&”、“&里程碑2&”和“&里程碑3&”作為里程碑的占位符。請(qǐng)確保文章標(biāo)題用$()$標(biāo)記,如$(xxx)$。內(nèi)容不能出現(xiàn)中文逗號(hào)。模型回復(fù)兩個(gè)答案,并且答案之間用六個(gè)@符號(hào)(@@@@@@)將它們分開。古代航海技術(shù)在漫長(zhǎng)的歷史演進(jìn)中不斷提升利用星象辨別方向是最>@@@@@@在古代大航行的時(shí)代水手常以星象作為方位判斷依據(jù)同時(shí)檔案式航Qwen-max-latest自古以來(lái)人類就對(duì)浩瀚的大海充滿了好奇與向往。為了征服這片未知領(lǐng)域人們發(fā)展出了多種多樣的航海技術(shù)其中最為關(guān)鍵的兩項(xiàng)@@@@@@古代人類為了探索更遠(yuǎn)的地方開發(fā)出了一系列令人驚嘆的航海技幅有限省略>&里程碑2&當(dāng)人們開始有意識(shí)地記錄每次航行過(guò)程中遇到的情況較差模型$(AncientMaritimeTechnologyDevelopment)$航海技術(shù)的發(fā)展是人類文明進(jìn)步的重要標(biāo)志之一。早期航海者依賴于自然現(xiàn)象和經(jīng)驗(yàn)來(lái)確定方向,其中星象與航海圖是兩個(gè)關(guān)鍵因素。星象通過(guò)觀察天體的位置變化,可以為航海者提供方向指引;航海圖則記錄了海洋地形、風(fēng)向等信息,幫助航海古代航海技術(shù)的發(fā)展經(jīng)歷了幾個(gè)重要的里程碑:&里程碑1&:早期航海者主要依靠觀察日月星辰來(lái)確定方位。&里程碑3&:隨著航海技術(shù)和航海圖的不斷進(jìn)步,<篇幅有限省略>@@@@@@(古代航海技術(shù)發(fā)展)展示了人類智慧如何結(jié)合自然規(guī)律與科技注:錯(cuò)誤原因?yàn)椴粷M足以下條件2.第二個(gè)答案只有一段錯(cuò)誤內(nèi)容SuperCLUE-理科成績(jī)SuperCLUE-理科榜單排名模型分?jǐn)?shù)---1--23--45-6789----來(lái)源:SuperCLUE,2025年1月8日;注:由于部分模型分?jǐn)?shù)較為接近,為了減少問(wèn)題波動(dòng)對(duì)排名的影響,本次測(cè)評(píng)將相距1分區(qū)間的模型定義為并列,報(bào)告中分?jǐn)?shù)展示為并列中高分。 1.o1在中文理科任務(wù)上具有大幅領(lǐng)先性,領(lǐng)跑全球頂尖大模型。頂尖模型。o1-preview取得80.6分緊隨其后。是全球僅有的超過(guò)80分的兩大模型。2.國(guó)內(nèi)頂尖大模型如Doubao-pro-32k-241215在理科任務(wù)上接近ChatGPT-4o-latestDoubao-pro-32k-241215、360zhinao2-o1、DeepSeek-V3和SenseChat5.5-latest在12月SuperCLUE-理科測(cè)評(píng)中領(lǐng)跑國(guó)內(nèi)大模型。有超過(guò)Claude3.5Sonnet(20241022)的表現(xiàn)。max-latest緊隨其后,分列國(guó)內(nèi)大模型第2、3名(含并列)。 國(guó)內(nèi)頭部平均水平在理科任務(wù)上稍弱于海外模型名的理科得分相較于海外前三名平均低8.1分。理科能力是對(duì)邏輯性要求較高的任務(wù),可模型在數(shù)理邏輯能力上已經(jīng)有非常大的進(jìn)展。SuperCLUE-理科(計(jì)算+邏輯推理+代碼) 計(jì)算能力榜單海外模型國(guó)內(nèi)前五名其他來(lái)源:SuperCLUE,2025年1月8日。 海外模型國(guó)內(nèi)前五名其他來(lái)源:SuperCLUE,2025年1月8日。 海外模型國(guó)內(nèi)前五名其他來(lái)源:SuperCLUE,2025年1月8日。示例-計(jì)算較差模型360zhinao2-o1SenseChat5.5-較差模型360zhinao2-o1(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略(篇幅有限省略)(篇幅有限省略)(篇幅有限省略(篇幅有限省略)(篇幅有限省略)40示例-代碼fromfromitertoolsimportproductfromtypingimportListdeftask_func(grid:List[List[int]],T:int)->int:"""你是一位城市規(guī)劃師,負(fù)責(zé)設(shè)計(jì)一個(gè)城市的公共交通網(wǎng)絡(luò)。城市被劃分為一個(gè)二維網(wǎng)格,每個(gè)格子代表一個(gè)區(qū)域,每個(gè)區(qū)域有一個(gè)高度值(表示其海拔)。為了方便市民出行,你需要在相鄰的區(qū)域之間鋪設(shè)交通線路(水平或豎直相鄰的格子之間)。然而,出于成本考慮,鋪設(shè)線路的區(qū)域之間的高度差不能超過(guò)一個(gè)給定的閾值T。計(jì)算可以鋪設(shè)的最多交通線路數(shù)量。參數(shù):-grid:二維列表,表示城市網(wǎng)格的高度。-T:整數(shù),表示允許的最大高度差。返回值:-整數(shù),表示可以鋪設(shè)的最多交通線路數(shù)量。"""Claude3.5Sonnet(20241022)Doubao-pro-32k-241215較差模型fromtypingimportListfromitertoolsimportproductfromfromtypingimportListfromitertoolsimportproductfromtypingimportListrowscols=len(grid)len(grid[0])m,n=len(grid),len(grid[0])count=0#檢查水平相鄰的格子fori,jinproduct(range(m),range(n)):whilestack:foriinrange(rows):ifi<m-1andabs(grid[i][j]-grid[i+1]count+=1if0<=nr<rowsand0<=nc<colsandnotvisited[nr][nc]andifj<n-1andabs(grid[i][j]-grid[i][j+1])<=T:abs(grid[nr][nc]-grid[r][c])<=T:count+=1#檢查垂直相鄰的格子returncount測(cè)試功能函數(shù):通過(guò)測(cè)試功能函數(shù):未通過(guò),運(yùn)行結(jié)果為3defcheck(candidate):defcheck(candidate):41SuperCLUE-文科成績(jī)SuperCLUE-文科榜單排名模型分?jǐn)?shù)1SenseChat5.5-latest、Neb81.8-80.7280.7379.5-78.5478.2-77.2-76.8576.6-Gemini-2.0-Flash-Exp76.66Qwen2.5-3B-Instruct、訊飛星火V4.0、360Zhinao2-7B-Chat-4K、G75.5-73.7773.0-72.9871.3-70.7-69.4-68.1-56.9來(lái)源:SuperCLUE,2025年1月8日;注:由于部分模型分?jǐn)?shù)較為接近,為了減少問(wèn)題波動(dòng)對(duì)排名的影響,本次測(cè)評(píng)將相距1分區(qū)間的模型定義為并列,報(bào)告中分?jǐn)?shù)展示為并列中高分。 1.國(guó)內(nèi)大模型在文科任務(wù)上具有一定領(lǐng)先性。2.當(dāng)前大模型在文科任務(wù)上區(qū)分度不高科任務(wù)上較為成熟。 上稍領(lǐng)先海外模型對(duì)比數(shù)據(jù)看,國(guó)內(nèi)頭部模型稍領(lǐng)先于海外頭部模型。國(guó)外前三名模型的文科得分相較于國(guó)內(nèi)前三名平均低2.3分。4243SuperCLUE-文科(生成創(chuàng)作+語(yǔ)言理解+傳統(tǒng)安全) 海外模型海外模型國(guó)內(nèi)前五名其他海外模型國(guó)內(nèi)前五名其他來(lái)源: 海外模型國(guó)內(nèi)前五名其他來(lái)源:SuperCLUE,2025年1月8日。示例-文科Hunyuan-Turbo較差模型MiniMax-abab7-previewHunyuan-Turbo較差模型4445國(guó)內(nèi)大模型成熟度-SC成熟度指數(shù)1語(yǔ)言理解3高成熟度2生成與創(chuàng)作76.269.60.913邏輯推理71.058.90.83中成熟度4傳統(tǒng)安全86.471.20.825計(jì)算78.262.60.806深度推理0低成熟度7代碼68指令遵循35.714.00.399Agent75.05.00.07極低成熟度來(lái)源:SuperCLUE,2025年1月8日;SC成熟度指數(shù)=國(guó)內(nèi)閉源模型最差成績(jī)/國(guó)內(nèi)閉源模型最好成績(jī)國(guó)內(nèi)大模型成熟度分析1.高成熟度能力的重點(diǎn)應(yīng)用場(chǎng)景。2.中成熟度能力【傳統(tǒng)安全】和【邏輯推理】,還有一定優(yōu)化空間。3.低成熟度能力4.極低成熟度能力指數(shù)在0.3以下。46評(píng)測(cè)與人類一致性驗(yàn)證1:對(duì)比ChatbotArenaChatbotArena是當(dāng)前英文領(lǐng)域較為權(quán)威的大模型排行榜,由LMSYSOrg開放組織構(gòu)建,它以公眾匿名投票的方式,對(duì)各種大型語(yǔ)言模型進(jìn)行對(duì)抗評(píng)測(cè)。將SuperCLUE得分與ChatBotArena得分進(jìn)行相關(guān)性計(jì)算,得到皮爾遜相關(guān)系數(shù):0.92,P值:1.84e-07;斯皮爾曼相關(guān)系數(shù):0.93,P值:9.33e-08;說(shuō)明SuperCLUE基準(zhǔn)測(cè)評(píng)的成績(jī),與人類對(duì)模型的評(píng)估(以大眾匿名投票的ChatbotArena為典型代表),具有高度一致性。來(lái)源:SuperCLUE,2025年1月8日;47評(píng)測(cè)與人類一致性驗(yàn)證2:對(duì)比人工評(píng)估12月SuperCLUE采用自動(dòng)化評(píng)價(jià)的測(cè)評(píng)方式。1325道題目中針對(duì)4個(gè)模型,每個(gè)模型隨機(jī)抽取了113道題目進(jìn)行人工復(fù)審。分在所有題目上的平均差距,最終計(jì)算得到可靠性。最終各模型可靠性指標(biāo)結(jié)果如下:模型列表注:最終可靠性=sum(人類評(píng)分-模型評(píng)分)/總題目量所以,經(jīng)過(guò)驗(yàn)證,SuperCLUE自動(dòng)化評(píng)價(jià)有較高的可靠性。48第4部分開源模型進(jìn)展評(píng)估1.開源模型榜單2.10B級(jí)別小模型榜單3.端側(cè)5B級(jí)別小模型榜單49開源模型榜單SuperCLUE開源榜單模型1233-4567-889--微軟--開源模型分析中文場(chǎng)景下,國(guó)內(nèi)開源模型已具備較大優(yōu)勢(shì)Llama-3.3-70B-Instruct的表現(xiàn),引領(lǐng)全球開源生態(tài)。來(lái)源:SuperCLUE,2025年1月8日;注:由于部分模型分?jǐn)?shù)較為接近,為了減少問(wèn)題波動(dòng)對(duì)排名的影響,本次測(cè)評(píng)將相距1分區(qū)間的模型定義為并列。其中模型參數(shù)量數(shù)據(jù)來(lái)源于官方披露,若模型為MoE架構(gòu),以總參數(shù)量為準(zhǔn)。10B級(jí)別小模型榜單SuperCLUE-10B級(jí)別小模型榜單排名模型機(jī)構(gòu)參數(shù)量分?jǐn)?shù)1Qwen2.5-7B-Instruct阿里巴巴70億55.52GLM-4-9B-Chat智譜AI90億52.4-Gemma-2-9b-itGoogle90億48.63360Zhinao2-7B-Chat-4K36070億47.84Qwen2.5-3B-Instruct阿里巴巴30億46.15Yi-1.5-9B-Chat-16K零一萬(wàn)物90億44.35MiniCPM3-4B面壁智能40億44.2-Llama-3.1-8B-InstructMeta80億43.9-Phi-3.5-Mini-Instruct微軟38億42.4-Gemma-2-2b-itGoogle20億39.2-Mistral-7B-Instruct-v0.3MistralAI70億33.2來(lái)源:SuperCLUE,2025年1月8日;注:由于部分模型分?jǐn)?shù)較為接近,為了減少問(wèn)題波動(dòng)對(duì)排名的影響,本次測(cè)評(píng)將相距1分區(qū)間的模型定義為并列,報(bào)告中分?jǐn)?shù)展示為并列中高分。10B級(jí)別小模型分析在本次SuperCLUE測(cè)評(píng)中,Qwen2.5-7B-Instruct取得55.5分,最高分,GLM-4-9B-chat取得52.4分,是國(guó)內(nèi)唯2超過(guò)507B-Chat-4K取得47.8分排名國(guó)內(nèi)第3,Qwen2.5-3B-Instruct、Yi- 先于海外模型內(nèi)10B小模型前三名模型的得分相較于國(guó)外前三名平均高出6.9分。端側(cè)5B級(jí)別小模型榜單2024年端側(cè)小模型快速發(fā)展,已在設(shè)備端側(cè)(非云)上實(shí)現(xiàn)本地運(yùn)行,其中PC、手機(jī)、智能眼鏡、機(jī)器人等大量場(chǎng)景已展現(xiàn)出極高的落地可行性。國(guó)內(nèi)端側(cè)小模型進(jìn)展迅速,相比國(guó)外小模型,國(guó)內(nèi)小模型在中文場(chǎng)景下展現(xiàn)出更好的性能表現(xiàn)Qwen2.5-3B-Instruct表現(xiàn)驚艷,取得總分46.1分的優(yōu)異成績(jī),在SuperCLUE端側(cè)5B小模型榜單中排名榜首。其中理科44.2分、文科75.5分、Hard18.6分,與同等參數(shù)量級(jí)模型Phi-3.5-Mini-Instruct相比各個(gè)維度均有不同幅度的領(lǐng)先,展示出小參數(shù)量級(jí)模型極高的性價(jià)比。MiniCPM3-4B小模型同樣表現(xiàn)不俗,取得總分44.2分,有超過(guò)Gemma-2-2b-it和Phi-3.5-Mini-Instruct的效果。SuperCLUE端側(cè)5B級(jí)別小模型榜單12--來(lái)源:SuperCLUE,2025年1月8日第5部分智能體Agent基準(zhǔn)1.AgentCLUE:可執(zhí)行多輪智能體測(cè)評(píng)基準(zhǔn)AgentCLUE:可執(zhí)行多輪智能體測(cè)評(píng)基準(zhǔn)大語(yǔ)言模型(LLM)近年來(lái)取得了極大的出色,例如數(shù)學(xué)、推理和編程等。然而,LLM作為Agent的潛力并未被充分開發(fā)。在Agent任務(wù)中,模型通常需要在迭代工作流程中執(zhí)行為更精確評(píng)估大語(yǔ)言模型(LLM)作為Agent的潛力,我們推出了新的中文場(chǎng)景下的Agent測(cè)評(píng)AgentCLUE。該基準(zhǔn)基于可執(zhí)行的環(huán)境,在多輪對(duì)話中評(píng)估LLM作為執(zhí)行代理,調(diào)用工具(函數(shù))完成目標(biāo)任務(wù)的能力。AgentCLUE基準(zhǔn)測(cè)評(píng)方案具有以下要點(diǎn):執(zhí)行的測(cè)評(píng)環(huán)境、并且允許模型在與執(zhí)行環(huán)境的交互中實(shí)現(xiàn)自我反思改進(jìn)。2.AgentCLUE中包含了四個(gè)任多輪對(duì)話、函數(shù)缺失、參數(shù)缺失和長(zhǎng)上下文干擾),可調(diào)用的功能函數(shù)覆蓋多個(gè)現(xiàn)實(shí)場(chǎng)景,如文件系統(tǒng)、金融交易、智能車控、旅游等場(chǎng)景。FunctionCalling和Prompting兩種調(diào)用模式。4.AgentCLUE基準(zhǔn)中,針對(duì)每個(gè)測(cè)評(píng)題目會(huì)回復(fù)是否正確。5.最終分?jǐn)?shù)展示,將會(huì)包含一個(gè)總分和四個(gè)任務(wù)類別的得分;計(jì)劃按照兩種調(diào)用模式分別報(bào)告。申請(qǐng)測(cè)評(píng):郵件標(biāo)題:AgentCLUE測(cè)評(píng)申請(qǐng),發(fā)送到contact@superclue.ai,請(qǐng)使用單位郵箱,郵件內(nèi)容包括:?jiǎn)挝恍畔?、大模型?jiǎn)介、聯(lián)系人和所屬部門、聯(lián)系方式53第6部分推理基準(zhǔn)1.SuperCLUE-CoT:鏈?zhǔn)酵评頊y(cè)評(píng)基準(zhǔn)2.SuperCLUE-Science:科學(xué)推理測(cè)評(píng)基準(zhǔn)3.SuperCLUE-Math6o:中文數(shù)學(xué)競(jìng)賽基準(zhǔn)4.SuperCLUE-Math6:中文數(shù)學(xué)多步推理測(cè)評(píng)基準(zhǔn)5.SuperCLUE-Code3:中文原生等級(jí)化代碼能力測(cè)評(píng)基準(zhǔn)SuperCLUE-CoT:鏈?zhǔn)酵评頊y(cè)評(píng)基準(zhǔn)-h------------------------------------------------------測(cè)評(píng)結(jié)果------------------------------------------------wSuperCLUE-CoT是中文大模型鏈?zhǔn)酵评砟芰y(cè)評(píng)基準(zhǔn),旨在深入評(píng)估模型的思維鏈推理能力。該測(cè)評(píng)不僅關(guān)注模型的解題過(guò)程和最終答案,還重點(diǎn)考察其構(gòu)建思維鏈和反思能力。測(cè)評(píng)內(nèi)容涵蓋了物理、化學(xué)、生物等科學(xué)領(lǐng)域的問(wèn)題,以及編解碼等挑戰(zhàn),全面檢驗(yàn)?zāi)P驮趶?fù)雜推理任務(wù)中的表現(xiàn)。領(lǐng)先于國(guó)內(nèi)外所有大模型。在高難度的密碼解碼題和科學(xué)類的物理、化學(xué)、生物等任務(wù)中表現(xiàn)出色,展現(xiàn)lightning等。同時(shí)新增更多4級(jí)推理模型如InternThinker、3.閉源模型大多數(shù)優(yōu)于開源模型,但不及頭部開源大模型的推對(duì)比國(guó)內(nèi)外閉源模型和開源模型的推理分?jǐn)?shù),我們發(fā)現(xiàn)閉源大模型有非常顯著的優(yōu)勢(shì),開源大模型除QwQ-32B-Preview、SuperCLUE-CoT數(shù)據(jù)集現(xiàn)已開放申請(qǐng),請(qǐng)使用單位郵箱,將數(shù)據(jù)研究目的、計(jì)劃,研究機(jī)構(gòu)、申請(qǐng)者介紹和聯(lián)系方式(手機(jī)或微信),發(fā)送到郵箱,并承諾不向第三方提供。郵箱:contact@superclue.ai,標(biāo)題是:SuperCLUE-CoT測(cè)試集申請(qǐng)SuperCLUE-Science:科學(xué)推理測(cè)評(píng)基準(zhǔn)--測(cè)評(píng)維度及示例----------學(xué)專業(yè)知識(shí)的基準(zhǔn)GPQA-Diamond上表現(xiàn)驚人,展現(xiàn)了比肩人類中文基準(zhǔn)測(cè)評(píng)(SuperCLUE-Science)。這一基準(zhǔn)主要專注于評(píng)申請(qǐng)測(cè)評(píng):郵件標(biāo)題:SuperCLUE-Science測(cè)評(píng)申請(qǐng),發(fā)送到contact@superc

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論