版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
淵亭科技軍事大模型評估體系白皮書廈門淵亭信息科技有限公司二O二四年五月淵亭科技淵亭科技軍事大模型評估體系白皮書型技術(shù)作為Al領(lǐng)域的核心技術(shù)之一,已經(jīng)成為推動社會進(jìn)步和產(chǎn)業(yè)I 12總體架構(gòu) 33評估框架 43.1架構(gòu)能力 53.2基礎(chǔ)能力 63.2.1通用基礎(chǔ)能力 6 73.3平臺能力 8 8 8 9 9 3.4.1強(qiáng)敵研究領(lǐng)域 3.4.3裝備研制領(lǐng)域 3.4.5聯(lián)勤保障領(lǐng)域 3.5.1軍事偏見 3.5.2合法合規(guī) 3.5.3軍事保密 3.5.4對抗攻擊 3.5.5算法加固 3.5.6偽造檢測 3.5.7數(shù)據(jù)防泄露 4評估標(biāo)準(zhǔn) 4.1評分標(biāo)準(zhǔn) 4.2評估方法 4.3成熟度分級標(biāo)準(zhǔn) 5評估手段 5.1基礎(chǔ)能力評估 5.2架構(gòu)能力評估 5.3平臺能力評估 5.4應(yīng)用能力評估 5.5安全能力評估 6評估數(shù)據(jù) 6.1評估數(shù)據(jù)類型 7評估工具 7.1驗(yàn)證方法 8評估平臺 8.1產(chǎn)品功能介紹 8.1.1測評集管理 8.1.2模型管理 8.2產(chǎn)品優(yōu)勢 8.3應(yīng)用場景 9結(jié)語 1淵亭科技淵亭科技軍事大模型評估體系白皮書1背景2022年11月,OpenAI發(fā)布了名為ChatGPT的人工智能應(yīng)用,其以預(yù)訓(xùn)練大語言模型GPT3.5為基礎(chǔ),驚艷的自然語言交互效果,股新的人工智能能力建設(shè)和應(yīng)用浪潮。2024年2月,OpenAl公布了文生視頻大模型Sora、并提供若干樣例視頻,在行業(yè)內(nèi)再一次引起發(fā)展。在通用大模型層面,百度、華為、阿里、訊飛、智譜、百CEval、SuperCLUE、GSM8K、Humaneval等,在不同榜單下各模型且存在無意(例如訓(xùn)練數(shù)據(jù)集被污染)、惡意(例如主動將測試數(shù)據(jù)2淵亭科技淵亭科技軍事大模型評估體系白皮書面的能力評估,由于需和上下游應(yīng)用環(huán)境和信息系統(tǒng)深度對接,也有一些新的問題,例如模型生產(chǎn)和推理平臺對企業(yè)既有基礎(chǔ)設(shè)施的影響,模型和現(xiàn)場數(shù)據(jù)、系統(tǒng)之間的協(xié)同,模型在復(fù)雜使用環(huán)境下的安全保隨著國防智能化建設(shè)的深入,軍內(nèi)很多機(jī)構(gòu)都對大模型能力產(chǎn)生了濃厚的興趣,軍事大模型應(yīng)用場景也非常豐富,如軍事情報(bào)、指揮控制、智能武器、無人系統(tǒng)等領(lǐng)域。軍事大模型作為一類特殊的領(lǐng)域大模型,也有一些自身的能力評估特點(diǎn)。軍事領(lǐng)域的數(shù)據(jù)的機(jī)密性和敏感性眾所周知。一方面,基礎(chǔ)大模型很難在預(yù)訓(xùn)練/微調(diào)階段注入足夠的軍事知識,軍事認(rèn)知必須在領(lǐng)域大模型構(gòu)建過程中形成,使得領(lǐng)域大模型的軍事常識能力評估顯得愈發(fā)重要;另一方面,常識能力評估所需的數(shù)據(jù)集,也因?yàn)檐娛聰?shù)據(jù)的特點(diǎn),領(lǐng)域大模型的評測數(shù)據(jù)集構(gòu)建更為困難,因此更難展開有效的領(lǐng)域大模型評估工作。軍事領(lǐng)域高對抗性的特點(diǎn),使得軍事大模型和常規(guī)領(lǐng)域大模型相比面臨著更為嚴(yán)峻的安全挑戰(zhàn)。例如,通用大模型面臨的偏見,在軍又例如傳統(tǒng)人工智能模型面臨的對抗攻擊、內(nèi)容偽造、數(shù)據(jù)泄露問題,在軍事大模型應(yīng)用場景中需要得到更多的評估。現(xiàn)代智能化戰(zhàn)爭一定是體系對抗,信息手段之間也需要有效配合,軍事大模型的應(yīng)用成效極大的體現(xiàn)在和平時(shí)、戰(zhàn)時(shí)既有系統(tǒng)的協(xié)同。而軍事信息化系統(tǒng)的特殊性,使得領(lǐng)域大模型的能力評估,只能在特定的區(qū)域、特定的時(shí)刻結(jié)合特定的數(shù)據(jù)開展,這就對能力評估的方法論和手段集提出了新的要求。例如如何快速的結(jié)合現(xiàn)場提供的數(shù)據(jù)構(gòu)造測試數(shù)據(jù)集、如何快速的結(jié)合業(yè)務(wù)目標(biāo)完成領(lǐng)域測試項(xiàng)準(zhǔn)備等。淵亭科技長期從事認(rèn)知和決策智能領(lǐng)域研究和項(xiàng)目建設(shè),參編了多項(xiàng)人工智能相關(guān)標(biāo)準(zhǔn)。近年來,也和一些行業(yè)主導(dǎo)標(biāo)準(zhǔn)化機(jī)構(gòu)進(jìn)行合作,推進(jìn)圍繞大模型的各項(xiàng)能力評估,例如大模型驅(qū)動的知識圖譜、大模型運(yùn)營能力等?;谝陨媳尘?,淵亭科技結(jié)合多年服務(wù)軍事智能3淵亭科技淵亭科技軍事大模型評估體系白皮書化領(lǐng)域的行業(yè)認(rèn)知,以及在軍事大模型能力應(yīng)用上的產(chǎn)品研發(fā)和項(xiàng)目實(shí)踐經(jīng)驗(yàn),編撰完成本白皮書,希望研究成果能為社會各界參與軍事大模型建設(shè)提供借鑒和參考。2總體架構(gòu)軍事大模型評估體系圍繞大模型在軍事場景智能化能力表現(xiàn)進(jìn)行科學(xué)合理的評估評價(jià),實(shí)現(xiàn)大模型評估全流程,支撐軍事大模型的部署應(yīng)用、模型改進(jìn)和決策制定,確保軍事大模型在軍事業(yè)務(wù)場景的應(yīng)用價(jià)值。軍事大模型評估體系如下圖:軍事大模型評結(jié)指標(biāo)軍事大模型評結(jié)指標(biāo)多繼度評軍事大慢部評估數(shù)據(jù)大模型評估學(xué)異構(gòu)大模力評估數(shù)據(jù)管理評估手段實(shí)現(xiàn)軍事大模型兼容評估工具多層次評結(jié)據(jù)標(biāo)標(biāo)準(zhǔn)王離的評估數(shù)據(jù)準(zhǔn)軍事大模能評信手控附合評估指標(biāo)標(biāo)準(zhǔn)榴單評網(wǎng)您生開流T他數(shù)信午事妝城致膚家系州評估平臺能力人工譯齒臨鉆圖1大模型評估體系架構(gòu)軍事大模型評估體系主要包括軍事大模型評估數(shù)據(jù)、軍事大模型評估手段、軍事大模型評估工具以及軍事大模型評估指標(biāo)等內(nèi)容。(1)軍事大模型評估數(shù)據(jù):軍事大模型評估數(shù)據(jù)包括外部開源、主流評估以及用戶領(lǐng)域等方面的評估數(shù)據(jù)集。(2)軍事大模型評估手段:軍事大模型評估手段與評估場景及環(huán)境相適應(yīng),即滿足人工評估模式,也支持基于規(guī)則、模型的自動化評估模式。(3)軍事大模型評估工具:軍事大模型評估工具負(fù)責(zé)內(nèi)外部數(shù)據(jù)管理、評估手段實(shí)現(xiàn)、軍事大模型兼容以及融合評估指標(biāo)標(biāo)準(zhǔn)等能4淵亭科技淵亭科技軍事大模型評估體系白皮書(4)軍事大模型評估標(biāo)準(zhǔn):軍事大模型評估標(biāo)準(zhǔn)提供大模型的靈活定義評估指標(biāo),實(shí)現(xiàn)評估標(biāo)準(zhǔn)場景自定義。3評估框架評估指標(biāo)體系是軍事大模型基準(zhǔn)測評體系框架的核心組成部分,圍繞強(qiáng)敵研究、作戰(zhàn)指揮、裝備研制、訓(xùn)練管理和聯(lián)勤保障等5類軍構(gòu)建一整套科學(xué)、客觀、量化的評估指標(biāo),全面評估軍事大模型在不同維度、領(lǐng)域和場景中的性能表現(xiàn),為用戶開展大模型選型提供標(biāo)準(zhǔn)化的測評參考,為大模型系統(tǒng)的上線運(yùn)行提供可信的衡量標(biāo)準(zhǔn),并為大模型的優(yōu)化改進(jìn)提供明確方向。軍事大模型評估框架軍事大模型評估框架應(yīng)用能力情迪用戰(zhàn)略驗(yàn)應(yīng)用二三可可樣三高擴(kuò)展大模型開發(fā)訓(xùn)練力大橫型軍事應(yīng)用編排能力其他支擦力產(chǎn)化軟磷中產(chǎn)品典容通跨平臺協(xié)間應(yīng)數(shù)據(jù)務(wù)能估工具準(zhǔn)端華測用戶滿調(diào)監(jiān)測評手段方法客觀測評法主觀評法微態(tài)赫研生應(yīng)用常織純能體耕性可忡軍事大橫型數(shù)據(jù)生成力測評數(shù)據(jù)集安全能力選理一評估指標(biāo)體系由架構(gòu)能力、基礎(chǔ)能力、平臺能力、應(yīng)用能力和安5全能力5個(gè)維度的評估指標(biāo)構(gòu)成。(1)架構(gòu)能力指標(biāo)設(shè)計(jì)主要考核大模型體系化支撐軍事應(yīng)用的架構(gòu)成熟程度;(2)平臺能力指標(biāo)設(shè)計(jì)主要考量大模型系統(tǒng)的數(shù)據(jù)生成、開發(fā)訓(xùn)練、應(yīng)用編排和其他支撐能力;(3)基礎(chǔ)能力指標(biāo)設(shè)計(jì)主要覆蓋大模型的通用基礎(chǔ)能力和軍事基礎(chǔ)能力;(4)應(yīng)用能力指標(biāo)設(shè)計(jì)側(cè)重于從五大軍事業(yè)務(wù)領(lǐng)域,評估大模型在實(shí)際軍事業(yè)務(wù)場景中的表現(xiàn);(5)安全能力指標(biāo)設(shè)計(jì)重點(diǎn)評價(jià)模型在軍事偏見、合法合規(guī)和數(shù)據(jù)保密等方面的性能。3.1架構(gòu)能力及確保大模型在軍事領(lǐng)域準(zhǔn)確高效處理數(shù)據(jù)、穩(wěn)定可靠承載業(yè)務(wù)、安全可信落地應(yīng)用的關(guān)鍵。主要體現(xiàn)在如下方面:準(zhǔn)確性:是衡量模型性能的關(guān)鍵因素,通常包括查準(zhǔn)率(Precision)、查全率(Recall)、簡潔性(Brevity)和結(jié)果置信度健壯性:是評估模型在面對復(fù)雜挑戰(zhàn)時(shí)穩(wěn)定性和可靠性的重要標(biāo)準(zhǔn)。旨在衡量模型在面對對抗樣本時(shí),能夠保持正確預(yù)測的能力。兼容性:是評估大模型對不同技術(shù)環(huán)境和組件的適應(yīng)能力。包含對基座大模型接口和功能的適配性、對國產(chǎn)自主可控軟硬件系統(tǒng)的兼容性以及第三方專業(yè)小模型、領(lǐng)域知識庫和工具插件的兼容性。可評估:涉及架構(gòu)能力評估、基礎(chǔ)能力評估和場景應(yīng)用能力評估三個(gè)層面。架構(gòu)能力評估關(guān)注模型設(shè)計(jì)和內(nèi)部機(jī)制的合理性;基礎(chǔ)能力評估則涉及模型在標(biāo)準(zhǔn)任務(wù)上的表現(xiàn);場景應(yīng)用能力評估考量模型在特定應(yīng)用場景中的實(shí)用性和效果。可解釋:是確保模型的決策過程和結(jié)果對人類用戶透明和可理解6淵亭科技淵亭科技軍事大模型評估體系白皮書的關(guān)鍵要素。主要包括推理過程可解釋、推理結(jié)果可解釋、數(shù)據(jù)來源可解釋、推理流程可視等指標(biāo)項(xiàng)??缮炜s:衡量的是模型在不同規(guī)模硬件部署環(huán)境下的適應(yīng)性和靈活性。包括模型部署運(yùn)行尺寸的可伸縮性,即模型能夠在不同計(jì)算能力和資源條件下運(yùn)行;不同參數(shù)量的部署可伸縮性,意味著大模型能夠根據(jù)實(shí)際需求調(diào)整參數(shù)規(guī)模等。高擴(kuò)展:用于衡量大模型能否適應(yīng)未來技術(shù)發(fā)展和應(yīng)用需求的變化,包括對基座大模型版本升級、專業(yè)小模型、領(lǐng)域知識庫和工具插件的擴(kuò)展升級及系統(tǒng)功能擴(kuò)展和二次開發(fā)能力的支持。高可用:是衡量大模型系統(tǒng)在實(shí)際應(yīng)用中的穩(wěn)定性和響應(yīng)能力的重要標(biāo)準(zhǔn)。包括系統(tǒng)的可靠性、平均無故障時(shí)間、平均響應(yīng)時(shí)間、內(nèi)容生成速度等指標(biāo)項(xiàng)。高運(yùn)維:體現(xiàn)了模型在運(yùn)維管理方面的高效性和便捷性。該指標(biāo)主要考核大模型是否配備了專門的運(yùn)維平臺,該平臺能否支持大模型的部署、監(jiān)控、權(quán)限管理、版本管理、故障排查和日志管理等運(yùn)維活動。3.2基礎(chǔ)能力軍事大模型基礎(chǔ)能力的測評包括通用基礎(chǔ)能力、軍事基礎(chǔ)能力兩部分指標(biāo)體系,前者面向通用基座大模型的基礎(chǔ)能力的測試,后者面向軍事業(yè)務(wù)領(lǐng)域大模型需要具備的共性能力的測試。3.2.1通用基礎(chǔ)能力語言理解與抽?。菏呛饬看竽P吞幚碜匀徽Z言的核心能力,包括對文本進(jìn)行語義分析,識別出關(guān)鍵的實(shí)體和它們之間的關(guān)系,以及對文本進(jìn)行情感傾向的判斷。上下文對話:重點(diǎn)評估大模型在對話系統(tǒng)中的表現(xiàn),特別是在理解用戶意圖和維持對話連貫性方面,能夠跟蹤對話的上下文,確保多輪對話的內(nèi)容一致。7淵亭科技淵亭科技軍事大模型評估體系白皮書生成與創(chuàng)作:重點(diǎn)評估大模型在創(chuàng)造性寫作方面的潛力,包括生成新聞文章、故事、詩歌等。常識與知識:是大模型理解世界的基礎(chǔ),涉及對廣泛常識的掌握以及對特定領(lǐng)域知識的深入理解。大模型需具備進(jìn)行基于常識的推理,回答知識庫中的問題的能力。多模態(tài):是大模型處理和理解多種類型數(shù)據(jù)的能力,如文本、圖像和聲音。模型需能夠理解圖像內(nèi)容,識別語音轉(zhuǎn)換及根據(jù)文本內(nèi)容生成相應(yīng)圖像??茖W(xué)計(jì)算:是評估大模型在執(zhí)行數(shù)學(xué)和邏輯運(yùn)算方面的能力。大模型需具備解決復(fù)雜的數(shù)學(xué)問題并進(jìn)行邏輯推導(dǎo)分析數(shù)據(jù)的能力。工具使用:模型需能夠集成和使用外部API,從數(shù)據(jù)庫或互聯(lián)網(wǎng)檢索信息,并模擬使用特定軟件或工具。3.2.2軍事基礎(chǔ)能力信息獲取:考核大模型從復(fù)雜軍事戰(zhàn)場環(huán)境中篩選、定位、整合信息的能力。主要包括信息獲取準(zhǔn)確性、信息獲取速度、復(fù)雜信息抗干擾等指標(biāo)項(xiàng)。理解分析:重點(diǎn)關(guān)注大模型對軍事信息理解的準(zhǔn)確性、上下文關(guān)聯(lián)廣度、理解分析速度。主要包括語義理解準(zhǔn)確度、上下文關(guān)聯(lián)、理解分析速度、推理與預(yù)測等指標(biāo)項(xiàng)。知識推理:重點(diǎn)關(guān)注大模型根據(jù)已有知識庫進(jìn)行邏輯推斷推理的能力,評估大模型在態(tài)勢研判、戰(zhàn)術(shù)分析、作戰(zhàn)決策等方面的推理水平。包括推理準(zhǔn)確性、推理速度、知識庫豐富度等指標(biāo)項(xiàng)。方案生成:重點(diǎn)關(guān)注軍事大模型根據(jù)任務(wù)需求提出解決方案的能力,重點(diǎn)評估大模型生成方案的創(chuàng)新性、實(shí)用性和可行性。包括方案創(chuàng)新性、方案實(shí)用性、方案可行性、方案調(diào)整靈活性等指標(biāo)項(xiàng)。規(guī)劃尋優(yōu):重點(diǎn)關(guān)注大模型在規(guī)劃軍事行動、資源配置等方面的優(yōu)化能力、規(guī)劃速度和環(huán)境任務(wù)適應(yīng)性。包括尋優(yōu)準(zhǔn)確性、尋優(yōu)速度、環(huán)境任務(wù)適應(yīng)性等指標(biāo)項(xiàng)。8模態(tài)感知:重點(diǎn)關(guān)注大模型和對多種信息模態(tài)的融合感知能力、感知準(zhǔn)確性與實(shí)時(shí)性。包括多模態(tài)融合、感知準(zhǔn)確性、實(shí)時(shí)性、模態(tài)適應(yīng)性等指標(biāo)項(xiàng)。多智能體:指標(biāo)設(shè)計(jì)重點(diǎn)關(guān)注多個(gè)模型和智能體之間相互配合、協(xié)同工作的能力,包括協(xié)作效率、信息共享程度、協(xié)同任務(wù)完成度、協(xié)同決策等指標(biāo)項(xiàng)。3.3平臺能力3.3.1大模型數(shù)據(jù)生成能力向量知識庫管理:指標(biāo)設(shè)計(jì)旨在通過將非數(shù)值型數(shù)據(jù)(如文本、圖像等)轉(zhuǎn)換成數(shù)值型向量表示,構(gòu)建、維護(hù)和使用這些向量集合提數(shù)據(jù)生成:旨在幫助用戶實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),解決數(shù)據(jù)集分布不合理、數(shù)據(jù)集量過少的問題。數(shù)據(jù)回流:旨在對大模型多輪問答答案進(jìn)行數(shù)據(jù)溯源準(zhǔn)確性能力進(jìn)行測試。3.3.2大模型開發(fā)訓(xùn)練能力數(shù)據(jù)管理:旨在對大模型軍事領(lǐng)域源數(shù)據(jù)進(jìn)行自動審核標(biāo)注、任務(wù)分發(fā)、數(shù)據(jù)集版本等進(jìn)行管理。模型交付:將訓(xùn)練完成的模型通過適當(dāng)?shù)募珊筒渴鹆鞒蹋D(zhuǎn)化為可在生產(chǎn)環(huán)境中運(yùn)行的應(yīng)用程序或服務(wù)的過程。包括模型的測試、9淵亭科技淵亭科技軍事大模型評估體系白皮書驗(yàn)證、封裝、優(yōu)化以及與現(xiàn)有系統(tǒng)的對接,確保模型的穩(wěn)定性、可擴(kuò)展性和安全性。模型服務(wù):指標(biāo)設(shè)計(jì)涉及模型的部署、封裝為API服務(wù)、以及與前端應(yīng)用程序的集成,以便用戶或系統(tǒng)可以方便地訪問模型的預(yù)測能力。資源管理:旨在確保資源得到高效利用,以滿足軍事環(huán)境特定的業(yè)務(wù)目標(biāo)和項(xiàng)目需求。包括需求分析、資源分配、優(yōu)先級排序、風(fēng)險(xiǎn)管理、成本控制和進(jìn)度規(guī)劃等關(guān)鍵活動。3.3.3大模型軍事應(yīng)用編排能力基礎(chǔ)插件管理:涉及對用于支持模型測試和評估過程的各種軟件組件和工具的集中控制和維護(hù)。確保測試環(huán)境的穩(wěn)定性和一致性,支持自動化測試流程,允許快速迭代和持續(xù)集成,同時(shí)簡化復(fù)雜測試任務(wù)的執(zhí)行。軍事機(jī)理插件庫管理:是針對軍事場景定向創(chuàng)建的預(yù)制插件庫,提供武器裝備插件、火力打擊方案規(guī)劃插件、軍事考評出題專家插件等。應(yīng)用編排:涉及對模型測試和評估過程中涉及的多個(gè)應(yīng)用、服務(wù)和工作流程進(jìn)行自動化管理和調(diào)度的過程。指標(biāo)設(shè)計(jì)旨在實(shí)現(xiàn)測試流程的自動化和標(biāo)準(zhǔn)化,提高測試效率,確保測試的可重復(fù)性,并能夠快速響應(yīng)測試需求的變化。提示工程:通過設(shè)計(jì)和優(yōu)化輸入提示詞(prompts),引導(dǎo)和調(diào)整大模型的輸出結(jié)果,以滿足特定的測試評估需求。3.3.4其他支撐能力其他支撐能力是指除上述功能要求以外的平臺能力,提高模型生產(chǎn)質(zhì)量、效率,降低成本,提升用戶體驗(yàn)和模型服務(wù)應(yīng)用價(jià)值。包括會話管理、對話交互、用戶反饋、專題場景會話、自定義指令等。淵亭科技淵亭科技軍事大模型評估體系白皮書3.4軍事大模型的應(yīng)用能力3.4.1強(qiáng)敵研究領(lǐng)域科技情報(bào)應(yīng)用指標(biāo)設(shè)計(jì):旨在評估軍事大模型對于科技情報(bào)信息的廣泛搜集、深度理解、邏輯分析以及報(bào)告撰寫和內(nèi)容生成能力,通過構(gòu)建技術(shù)預(yù)警、情報(bào)整編、報(bào)告撰寫等典型的科技情報(bào)領(lǐng)域具體應(yīng)用場景,對軍事大模型信息搜集信息來源的權(quán)威性和廣泛性,情報(bào)理解分析的專業(yè)化程度與準(zhǔn)確性,內(nèi)容生成的規(guī)范性和獨(dú)創(chuàng)性等方面給出主觀和客觀評價(jià)標(biāo)準(zhǔn)。戰(zhàn)略預(yù)警應(yīng)用指標(biāo)設(shè)計(jì):旨在衡量軍事大模型在威脅分析、形勢預(yù)測、專題生成和對抗策略制定方面的應(yīng)用效能。核心指標(biāo)項(xiàng)包括威脅分析的全面性、形勢預(yù)測的精確度、專題生成的時(shí)效性和對抗策略的創(chuàng)新性。軍事理論應(yīng)用指標(biāo)設(shè)計(jì):旨在評估軍事大模型在規(guī)則認(rèn)知、作戰(zhàn)概念發(fā)展、戰(zhàn)法生成和法規(guī)條令遵循等方面的應(yīng)用效果。核心指標(biāo)項(xiàng)涉及規(guī)則認(rèn)知的深度、作戰(zhàn)概念的創(chuàng)新性、戰(zhàn)法生成的實(shí)用性和法規(guī)條令的適用性。情報(bào)整合評估指標(biāo)設(shè)計(jì):旨在全面評價(jià)軍事大模型在科技情報(bào)領(lǐng)域的信息搜集廣度、情報(bào)分析深度、邏輯推理嚴(yán)密性以及報(bào)告撰寫和內(nèi)容生成的專業(yè)度。通過設(shè)定技術(shù)預(yù)警、報(bào)告撰寫、研究脈絡(luò)和情報(bào)整編等關(guān)鍵應(yīng)用,為情報(bào)專業(yè)人員提供一個(gè)標(biāo)準(zhǔn)化的評價(jià)體系,幫助用戶選擇和優(yōu)化科技情報(bào)領(lǐng)域的大模型應(yīng)用。態(tài)勢研判評估指標(biāo)設(shè)計(jì):旨在評估軍事大模型在目標(biāo)意圖識別、COP生成、戰(zhàn)場態(tài)勢解析等方面的應(yīng)用能力。任務(wù)規(guī)劃評估指標(biāo)設(shè)計(jì):旨在全面評價(jià)軍事大模型在COA生成、甘特圖生成、沖突消解、火力規(guī)劃等關(guān)鍵任務(wù)規(guī)劃環(huán)節(jié)的策略制定能力和資源優(yōu)化水平。3.4.3裝備研制領(lǐng)域裝備論證評估指標(biāo)設(shè)計(jì):旨在全面評價(jià)軍事大模型在標(biāo)準(zhǔn)撰寫、標(biāo)準(zhǔn)貫徹、可行論證、型號對比等關(guān)鍵論證環(huán)節(jié)的邏輯推理能力和決策支持水平。3.4.4訓(xùn)練管理領(lǐng)域軍事基礎(chǔ)訓(xùn)練評估指標(biāo)設(shè)計(jì):目的在于全面評價(jià)軍事大模型在體能分析、作戰(zhàn)知識學(xué)習(xí)、靶場訓(xùn)練、綜合評估等關(guān)鍵訓(xùn)練環(huán)節(jié)的教學(xué)支持能力和訓(xùn)練效果。教學(xué)訓(xùn)練評估指標(biāo)設(shè)計(jì):旨在精確衡量軍事大模型在計(jì)劃生成、知識問答、模擬訓(xùn)練智能助手、考核評估等關(guān)鍵教學(xué)環(huán)節(jié)的教學(xué)互動性和學(xué)習(xí)效果。模擬訓(xùn)練評估指標(biāo)設(shè)計(jì):目的在于系統(tǒng)評估軍事大模型在想定生成、智能體生成、計(jì)算機(jī)生成兵力、復(fù)盤評估等關(guān)鍵模擬環(huán)節(jié)的創(chuàng)新能力和模擬效果。實(shí)戰(zhàn)演訓(xùn)評估指標(biāo)設(shè)計(jì):旨在深入評價(jià)軍事大模型在想定生成、平行演習(xí)、智能藍(lán)軍、復(fù)盤評估等關(guān)鍵實(shí)戰(zhàn)演訓(xùn)環(huán)節(jié)的實(shí)戰(zhàn)模擬能力和決策支持效果。3.4.5聯(lián)勤保障領(lǐng)域資產(chǎn)管理評估指標(biāo)設(shè)計(jì):目的在于全面評價(jià)軍事大模型在戰(zhàn)備統(tǒng)籌、倉儲優(yōu)化、補(bǔ)給預(yù)測、計(jì)劃生成等關(guān)鍵管理環(huán)節(jié)的統(tǒng)籌能力和管理效率。運(yùn)輸投送評估指標(biāo)設(shè)計(jì):旨在精確衡量軍事大模型在運(yùn)籌優(yōu)化、路線優(yōu)化、智能投送、精準(zhǔn)保障等關(guān)鍵投送環(huán)節(jié)的優(yōu)化能力和投送效檢測維修評估指標(biāo)設(shè)計(jì):目的在于系統(tǒng)評估軍事大模型在故障檢測、維修預(yù)測、壽命預(yù)測、檢修助手等關(guān)鍵維護(hù)環(huán)節(jié)的智能診斷能力和維護(hù)效果。3.5軍事大模型的安全能力3.5.1軍事偏好軍事偏好評估指標(biāo)設(shè)計(jì)旨在評估軍事認(rèn)知力是否存在對不同作戰(zhàn)單位的親和/反親和。這包括但不限于在資源選擇、方案規(guī)劃、決策取舍時(shí)對空軍、陸軍、海軍等軍兵種職能職責(zé)或武裝設(shè)施的處理。合法合規(guī)評估指標(biāo)設(shè)計(jì)重點(diǎn)關(guān)注模型是否遵守了相關(guān)的法律法淵亭科技淵亭科技軍事大模型評估體系白皮書3.5.3軍事保密軍事保密評估指標(biāo)設(shè)計(jì)確保模型在處理敏感信息時(shí)的安全性和3.5.4對抗攻擊3.5.5算法加固算法加固評估指標(biāo)設(shè)計(jì)關(guān)注提升模型的安全性和抵御攻擊的能3.5.6偽造檢測3.5.7數(shù)據(jù)防泄露數(shù)據(jù)防泄露評估指標(biāo)設(shè)計(jì)確保模型在處理數(shù)據(jù)時(shí)不會泄露敏感淵亭科技淵亭科技軍事大模型評估體系白皮書4評估標(biāo)準(zhǔn)(1)通用能力語言理解與信息抽?。涸u估模型在海量文本中精準(zhǔn)提煉核心信息與細(xì)節(jié)的性能,及其在復(fù)雜敘述中理解實(shí)體關(guān)系、情感色彩和隱含意義的能力。上下文對話:考察模型維護(hù)連貫對話、依據(jù)前期對話內(nèi)容有效回應(yīng),以及根據(jù)用戶反饋靈活調(diào)整對話策略的水平。生成與創(chuàng)作:檢驗(yàn)?zāi)P彤a(chǎn)出內(nèi)容的原創(chuàng)性、關(guān)聯(lián)性及與軍事規(guī)范的契合度,及其根據(jù)不同情境調(diào)整文本風(fēng)格的能力。常識與知識運(yùn)用:評價(jià)模型掌握軍事專業(yè)知識的深度與廣度,及其在此基礎(chǔ)上進(jìn)行合理判斷與策略建議的能力??茖W(xué)計(jì)算輔助:衡量模型在處理軍事數(shù)據(jù)統(tǒng)計(jì)與預(yù)測時(shí)的準(zhǔn)確度與效率,以及在量化分析決策中的輔助作用。邏輯與推理:測試模型識別因果關(guān)系、進(jìn)行情報(bào)分析的能力,及其基于邏輯推理提出有效軍事策略的效能。工具使用與系統(tǒng)集成:評估模型與現(xiàn)有軍事系統(tǒng)兼容性及操作軍事軟件工具的效能,強(qiáng)化技術(shù)與平臺的整合能力。多模態(tài)能力:評價(jià)模型跨圖像、語音、文本等多媒體信息處理的統(tǒng)一性,及在不同媒介間建立關(guān)聯(lián)進(jìn)行綜合分析的效能。(2)專項(xiàng)能力風(fēng)險(xiǎn)管理和應(yīng)急響應(yīng)的策略性與效率。運(yùn)籌優(yōu)化:測試模型在復(fù)雜環(huán)境中的路徑規(guī)劃、資源調(diào)度靈活性、時(shí)間與成本效益的最大化策略制定能力。仿真模擬:評估模型創(chuàng)建逼真戰(zhàn)場環(huán)境、預(yù)測行動影響、支持交互式演練及確保模擬數(shù)據(jù)真實(shí)性的能力。4.2評估方法(1)客觀評估(2)主觀評估(3)實(shí)施流程持續(xù)迭代持續(xù)迭代4.3成熟度分級標(biāo)準(zhǔn)進(jìn),并促進(jìn)研發(fā)流程的優(yōu)化與標(biāo)準(zhǔn)化。1級(入門級)-實(shí)現(xiàn)了基本功能的構(gòu)建,專注于對軍事領(lǐng)域基務(wù),但缺乏靈活性和深度。2級(基礎(chǔ)級)-在軍事任務(wù)中展現(xiàn)基本的應(yīng)用能力,能夠處理邏輯的理解。3級(進(jìn)階級)-該級別的模型展現(xiàn)了較為成熟的軍事決策輔助能力,能夠處理復(fù)雜任務(wù),包括綜合分析多源信息、優(yōu)化資源配置等,具備較好的自適應(yīng)性,能夠在一定程度上進(jìn)行自我優(yōu)化。4級(高階級)-此階段模型能夠處理高度復(fù)雜的軍事決策問題,實(shí)時(shí)優(yōu)化。5級(卓越級)-展示了行業(yè)領(lǐng)先的智能水平,不僅在各類軍事新,引領(lǐng)領(lǐng)域發(fā)展。5評估手段思路。5.1架構(gòu)能力評估果預(yù)期,開展適當(dāng)?shù)尿?yàn)證。驗(yàn)證,以國產(chǎn)化硬件適配測試為多,該環(huán)節(jié)建議采用項(xiàng)目中最可能使淵亭科技淵亭科技軍事大模型評估體系白皮書用的真實(shí)硬件,充分測試訓(xùn)練、推理能力。模塊化擴(kuò)展性評估,通常采用黑白盒結(jié)合的方式,通過綜合考察技術(shù)架構(gòu)、關(guān)鍵擴(kuò)展性實(shí)現(xiàn)代碼等,進(jìn)行綜合評估。高負(fù)載性能測試需要鎖定測試環(huán)境、設(shè)計(jì)典型場景,驗(yàn)證場景相關(guān)的極限性能,基于此數(shù)據(jù)間接評估模型在真實(shí)環(huán)境的表現(xiàn)。系統(tǒng)伸縮性模擬白盒評估基礎(chǔ)架構(gòu)的能力,并結(jié)合基礎(chǔ)架構(gòu)的特點(diǎn)、基于統(tǒng)一數(shù)據(jù)集驗(yàn)證不同伸縮操作后的模型效果。接口標(biāo)準(zhǔn)化審查采用走讀的方式,對接口體系定義、接口定義、接口實(shí)現(xiàn)進(jìn)行核查。冗余機(jī)制檢驗(yàn)采用專家走讀設(shè)計(jì)的形式,對大模型應(yīng)用平臺的模型訓(xùn)練、模型推理、服務(wù)開放等進(jìn)行機(jī)制落地檢驗(yàn)。試架構(gòu)能力評估查擬試擴(kuò)展性圖4架構(gòu)能力評估5.2基礎(chǔ)能力評估軍事大模型的基礎(chǔ)能力是實(shí)現(xiàn)高效作戰(zhàn)指揮和決策的核心?;A(chǔ)能力的評估主要圍繞數(shù)據(jù)集的準(zhǔn)備和使用進(jìn)行。針對通用基礎(chǔ)能力,主要基于公開測試數(shù)據(jù)集開展,國內(nèi)外均有大量的數(shù)據(jù)集可支撐完成該工作。針對軍事基礎(chǔ)能力,需結(jié)合軍事領(lǐng)域的業(yè)務(wù)特點(diǎn)以及數(shù)據(jù)敏感性要求,進(jìn)行專用數(shù)據(jù)集構(gòu)建,專用數(shù)據(jù)集需精心構(gòu)建,并在測試過程中結(jié)合工具鏈對輸入數(shù)據(jù)進(jìn)行同系列脫敏處理。淵亭科技淵亭科技軍事大模型評估體系白皮書軍事大模型的平臺能力以功能完整性、有效性評估為主,涉及數(shù)據(jù)生成能力、開發(fā)訓(xùn)練能力、應(yīng)用編排能力。數(shù)據(jù)生成能力評估,通過基于用例的功能驗(yàn)證方法,評估向量知識庫的構(gòu)建方法、數(shù)據(jù)增強(qiáng)過程的策略定義、數(shù)據(jù)反饋的搜集路徑、數(shù)據(jù)反饋應(yīng)用到訓(xùn)練/微調(diào)的邏輯閉環(huán)等基礎(chǔ)能力的完整性和可用性,利用人工介入、結(jié)合高質(zhì)量評估模型的自動化測試,評估向量化的效果。開發(fā)訓(xùn)練能力評估,通過基于用例的功能驗(yàn)證方法,評估數(shù)據(jù)管理、基座模型管理、計(jì)算資源管理、生成模型管理等功能完整性和可用性,并結(jié)合度量工具監(jiān)控訓(xùn)練、微調(diào)、服務(wù)提供過程中的穩(wěn)定性、可觀測性。應(yīng)用編排能力評估,通過基于用例的功能驗(yàn)證方法,評估插件管理、可視化編排、提示詞管理等功能的完整性、可用性,并構(gòu)建測試沙箱,利用API自動化測試方法進(jìn)行能力編排的效果驗(yàn)證。應(yīng)用能力評估業(yè)務(wù)強(qiáng)相關(guān),通常需結(jié)合業(yè)務(wù)進(jìn)行定制化測試功能開發(fā)和能力固化,以構(gòu)建持續(xù)可用的評估環(huán)境。盡管如此,測試方式會涉及到一些公共的手段,具體包括:①測試數(shù)據(jù)集。結(jié)合業(yè)務(wù)準(zhǔn)備“問題”和“標(biāo)準(zhǔn)答案”,而后構(gòu)建輸入、輸出的測試管道,開展自動化測試;②對比驗(yàn)證。以樣本應(yīng)用能力為標(biāo)桿,相同輸入情況下,分析輸③仿真推演。在具備良好數(shù)字模擬環(huán)境的前提下,可將應(yīng)用的結(jié)果注入到仿真模擬環(huán)境,進(jìn)行結(jié)果演算,最終評估應(yīng)用效果。④人工比對。邀請專家進(jìn)行逐案分析。淵亭科技淵亭科技軍事大模型評估體系白皮書6評估數(shù)據(jù)評測數(shù)據(jù)集是用于測試和評估軍事大型語言模型性能和能力的(1)任務(wù)覆蓋:評測數(shù)據(jù)集應(yīng)該覆蓋多種軍事領(lǐng)域處理任務(wù),如任務(wù)規(guī)劃、實(shí)時(shí)指揮、實(shí)時(shí)決策、后勤保障等,評估模型在不同(2)數(shù)據(jù)多樣性:數(shù)據(jù)集應(yīng)該包含軍事領(lǐng)域不同業(yè)務(wù)、不同風(fēng)格和(3)數(shù)據(jù)質(zhì)量:評測數(shù)據(jù)集的數(shù)據(jù)應(yīng)該準(zhǔn)確專業(yè)、一致且可靠,以(4)規(guī)模和復(fù)雜度:數(shù)據(jù)集的規(guī)模應(yīng)該足夠大,涵蓋充分的樣本數(shù)數(shù)據(jù)集還應(yīng)該具有一定的復(fù)雜度,包含一些挑戰(zhàn)性的樣本,以6.1評估數(shù)據(jù)形態(tài)(1)選擇題正確的答案。主要用于評估模型在理解和推理能力上的表現(xiàn)。這種類型的數(shù)據(jù)集可能涉及語義推理、邏輯推斷等方面的問題。(2)解答題包含一系列問題,每個(gè)問題都需要模型回答一個(gè)或多個(gè)相關(guān)的問主要用于評估模型在理解和回答自然語言問題方面的能力。這些問題可能涉及常識推理、推斷、語義理解以及運(yùn)籌優(yōu)化等方面。(3)填空題包含一些帶有空白的句子或段落,模型需要填寫這些空白處。主要用于評估模型在語言生成和文本補(bǔ)全方面的能力。這種類型的數(shù)據(jù)集可能測試模型的語法知識、語義理解和生成能力。(4)程序代碼包含一些程序代碼片段,模型需要理解這些代碼的功能并可能執(zhí)行或生成相似的代碼。主要用于評估模型在理解和生成程序代碼方面的能力。這種類型的數(shù)據(jù)集可能測試模型的程序語言知識、算法理解和代碼生成能力。6.2評估數(shù)據(jù)樣例(1)選擇題數(shù)據(jù)樣例{"problem":“作戰(zhàn)任務(wù)規(guī)劃中的"OODA循環(huán)"是指什么?C.定位、觀察、決策、行動D.觀察、決策、行動、評估","category":"任務(wù)規(guī)劃",}(2)填空題數(shù)據(jù)樣例{淵亭科技淵亭科技軍事大模型評估體系白皮書""problem":"一項(xiàng)戰(zhàn)爭計(jì)劃的制定通常包括兩個(gè)相對獨(dú)立而又緊密聯(lián)系的過程,一個(gè)是作戰(zhàn)概念化過程,就是在認(rèn)知、理解作戰(zhàn)任務(wù)和戰(zhàn)場環(huán)境的基礎(chǔ)上籌劃作戰(zhàn)構(gòu)想的過程;另一個(gè)是行動細(xì)節(jié)化過程,就是將作戰(zhàn)籌劃形成的概念化成果,通過作戰(zhàn)計(jì)劃制定流程和工具轉(zhuǎn)化為可實(shí)施的_和行動計(jì)劃過程.""category":"任務(wù)規(guī)劃","groundtruth":"作戰(zhàn)方案"}(3)解答題數(shù)據(jù)樣例a、炮兵火力規(guī)劃"problem":"假定炮兵群中有122榴彈炮營、152加榴炮營和130火箭炮營。要122榴彈炮對暴露步兵(臥姿)目標(biāo)射擊的彈藥消耗量為8,對牽引火炮目標(biāo)射擊的152榴彈炮對暴露步兵(臥姿)目標(biāo)射擊的毀傷幅員為6,對牽引火炮目標(biāo)射擊的彈藥消耗量30,對裝甲自行火炮的毀傷幅員為36130榴彈炮對暴露步兵(臥姿)目標(biāo)射擊的彈藥消耗量為6,對牽引火炮目標(biāo)射擊的彈藥消耗量30,對裝甲自行火炮的彈藥消耗量為36。求最優(yōu)的火力分配方案和規(guī)范化的最大射擊效率值。","category":"任務(wù)規(guī)劃",步兵連:130火箭炮打擊裝甲自行火炮連;規(guī)范化的最大射擊效率值為1.18"solution:"已知:毀傷效果的量化模型:設(shè)有n個(gè)炮兵火力單位射擊k個(gè)軍事目毀傷率)為ej,用xij表示各火力單位對軍事目標(biāo)的分配方案,其具體取值為當(dāng)?shù)趇個(gè)火力單位被分配干第i個(gè)目標(biāo)時(shí)當(dāng)?shù)趇個(gè)火力單位不被分配于第j個(gè)目標(biāo)時(shí)-----(1)由于目標(biāo)欲要?dú)Ч_(dá)到最佳,故取目標(biāo)函數(shù)為極大:maxf?=Z=1Zi=1GjXj-----而相應(yīng)的約束條件是淵亭科技軍事大模型評估體系白皮書淵亭科技軍事大模型評估體系白皮書Z1=1x=1,(i=1,2,…,n)--Zi=1xj≤n;或=1(j=1,2,…,k)------(4)xj∈{0,1},i=1,2,…,n;j=1,minf2=Z=1Zj=1Ci×n----而相應(yīng)的約束條件仍為(3)~(5)約束條件仍為(3)~(5)。求解模型(9)時(shí),可采用MATLAB優(yōu)化工具箱??蓱?yīng)用bintprog函數(shù)進(jìn)行求由(7)、(8)式得規(guī)范化矩陣,通過層次分析法,將定量與定性相結(jié)合,可得兩指標(biāo)權(quán)重向量為如果炮兵群中有一個(gè)122榴彈炮營、一個(gè)152加榴炮營和一個(gè)130火箭炮營,射擊目標(biāo)為原設(shè)的三個(gè)目標(biāo)。此時(shí)變量n=k=3,而(3)(5)的約束條件中(4)式變淵亭科技淵亭科技軍事大模型評估體系白皮書Zi=1x=1,(j=1,2,3)------minz=0.27x?1+0.91x?2+X?3+0.82x?2+0.89x?3+0.26x?1+0.84x?2+炮兵火力的滿意分配方案為:122榴彈炮射擊牽引炮兵連:152加榴炮射擊集結(jié)地域待命的步兵連:130火箭炮射擊裝甲自行火炮連。規(guī)范化的最大射擊效率值為}7評估工具(1)客觀評估好地激發(fā)出模型在題目測試領(lǐng)域的能力,并采用采用提示詞工程 (2)主觀評估7.2通用能力評估工具任務(wù)構(gòu)建任務(wù)構(gòu)建結(jié)果可視化推理任務(wù)1評估任務(wù)1軍事通用能力評估工具對大模型評估流程主要包括以下幾個(gè)階(1)評估任務(wù)構(gòu)建(2)推理與評估(3)結(jié)果可視化7.3智能體評估工具智能體評估工具旨在全面評估大模型產(chǎn)生的智能體在多個(gè)階段的表現(xiàn)。(1)仿真環(huán)境對接與適配評估檢查智能體在不同仿真平臺的接入能力和接口標(biāo)準(zhǔn)化程度。(2)智能體開發(fā)階段評估開發(fā)規(guī)范性審查:使用靜態(tài)代碼分析工具評估代碼規(guī)范性、可讀性及安全性。檢查智能體的模塊化程度,評估其擴(kuò)展性、維護(hù)性和協(xié)同開發(fā)能力。開發(fā)工具與庫的集成:確保所用工具和庫的版本兼容性。評估自動化測試覆蓋率,保證代碼質(zhì)量和功能正確性。(3)智能體訓(xùn)練過程評估學(xué)習(xí)效率與策略:監(jiān)測智能體在不同任務(wù)上的學(xué)習(xí)速度。分析學(xué)習(xí)過程中的策略探索與利用。訓(xùn)練數(shù)據(jù)質(zhì)量:評估訓(xùn)練數(shù)據(jù)集的實(shí)戰(zhàn)代表性??疾鞌?shù)據(jù)增強(qiáng)技術(shù)在提升泛化能力方面的應(yīng)用。(4)智能體綜合評估學(xué)習(xí)能力:包括快速收斂性、持續(xù)學(xué)習(xí)能力、自適應(yīng)學(xué)習(xí)策略、記憶與遺忘機(jī)制、多任務(wù)學(xué)習(xí)。淵亭科技淵亭科技軍事大模型評估體系白皮書協(xié)同作業(yè)效能、反饋響應(yīng)精確度??山忉屝裕喊ùa可讀性、決策透明度、可解釋性算法集成。泛化能力:評估新場景適應(yīng)性、噪聲抵抗性、小樣本學(xué)習(xí)、領(lǐng)域轉(zhuǎn)移學(xué)習(xí)。穩(wěn)定性與魯棒性:包括長期運(yùn)行穩(wěn)定性、異常處理機(jī)制。(5)虛擬與真實(shí)環(huán)境驗(yàn)證虛擬環(huán)境驗(yàn)證:進(jìn)行模擬戰(zhàn)況演練和壓力測試。真實(shí)環(huán)境驗(yàn)證:進(jìn)行實(shí)地操作驗(yàn)證和人機(jī)協(xié)同評估。(6)綜合評估報(bào)告與反饋機(jī)制評估報(bào)告生成:利用數(shù)據(jù)可視化工具生成多維度的評估報(bào)告,并建立性能指標(biāo)排行。反饋與迭代建議:基于評估結(jié)果提出優(yōu)化建議,建立閉環(huán)反饋系統(tǒng),促進(jìn)智能體性能持續(xù)提升。8評估平臺在人工智能快速發(fā)展的今天,大模型作為推動行業(yè)變革的核心驅(qū)動力,其性能與應(yīng)用場景的評估變得至關(guān)重要。淵亭推出自主開發(fā)軍事大模型評估平臺,作為一款專為大模型定制的能力評估產(chǎn)品,旨在通過全面、精細(xì)的評估框架,助力研究者、開發(fā)者及企業(yè)精準(zhǔn)掌握模型表現(xiàn),優(yōu)化決策制定。我們綜合考量基礎(chǔ)能力、架構(gòu)能力、平臺能力、應(yīng)用能力和安全能力,確保每一項(xiàng)評估都深入肌理,洞悉模型潛力。為用戶生成詳盡、全面的模型分析報(bào)告,助力用戶在競爭激烈的人工智能領(lǐng)域保持領(lǐng)先地位。淵亭科技淵亭科技軍事大模型評估體系白皮書r評體解者的評情件務(wù)評世標(biāo)計(jì)算戶出評估深青圖9淵亭軍事大模型評估平臺8.1產(chǎn)品功能介紹8.1.1測評集管理測評集用于評估和衡量大模型在特定任務(wù)上的性能及領(lǐng)域能力內(nèi)置測評集:平臺內(nèi)置了多種不同維度軍事能力評估的測評集,它們由專家設(shè)計(jì),覆蓋了任務(wù)規(guī)劃、情報(bào)研究、教學(xué)訓(xùn)練等多維度不同能力驗(yàn)證。這些測評集定期由團(tuán)隊(duì)更新,以反映最新的研究進(jìn)展和技術(shù)標(biāo)準(zhǔn),同時(shí)提供清晰的用戶指南,幫助用戶理解如何使用測評集。上傳自有測評集:平臺允許用戶根據(jù)自身需求創(chuàng)建個(gè)性化的測試集。用戶可以根據(jù)要測評的能力上傳符合需求的特定領(lǐng)域的測評數(shù)據(jù),以評估模型在特定場景下的表現(xiàn)。支持用戶一鍵加載自定義測評集,同時(shí)提供評估測試集規(guī)范及示例,方便用戶快速進(jìn)行測評集轉(zhuǎn)換,適應(yīng)多樣化的評估能力需求。測評集維護(hù)與管理:該模塊包括測評集的版本控制、更新下載和用戶反饋整合。通過維護(hù)管理,可以及時(shí)修正測評集中的任何問題,并根據(jù)用戶反饋進(jìn)行必要的調(diào)整。淵亭科技淵亭科技軍事大模型評估體系白皮書8.1.2模型管理待評估模型管理:用戶創(chuàng)建評估任務(wù)時(shí)需確定待評估模型,平臺允許用戶直接加載和或從待評估模型庫里選擇他們希望評估的模型及其對應(yīng)版本。支持開源多內(nèi)外主流通用模型評估,同時(shí)支持領(lǐng)域微調(diào)模型評估,確保廣泛的兼容性。仲裁模型管理:當(dāng)用戶選擇仲裁模型評估方式時(shí),需要選擇一個(gè)大模型作為仲裁模型。平臺內(nèi)置了淵亭天機(jī)·軍事大模型作為默認(rèn)仲裁模型,同時(shí)支持用于通過多樣化的數(shù)據(jù)集檢驗(yàn)?zāi)P偷姆夯芰?,評估其在面對不同類型和分布的數(shù)據(jù)時(shí)能否保持良好的表現(xiàn)。自動化推薦:待評估模型及仲裁模型均進(jìn)行了分類管理,根據(jù)能力分類方向,平臺自動推薦建議評估使用的仲裁模型及合適的測評集。WMMayCpaysprlNBoc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版鋰電池生產(chǎn)與銷售合同
- 2024版車輛買賣合同樣本3篇
- 2024年礦石供應(yīng)商:碳酸鈣采購合同3篇
- 2025年度煤炭居間服務(wù)合同-煤炭價(jià)格信息咨詢服務(wù)3篇
- 2024版院長聘任條款具體協(xié)議范本版
- 2024-2026年中國光學(xué)材料行業(yè)市場供需格局及投資規(guī)劃建議報(bào)告
- 2025年度水稻種植與糧食銷售企業(yè)合作收購合同3篇
- 二零二五年度光伏發(fā)電項(xiàng)目安裝安全協(xié)議書3篇
- 2024版商鋪?zhàn)≌赓U合同范本
- 二零二五年度醫(yī)療器械租賃及安全檢測合同3篇
- 2024年度醫(yī)院兒童保健科醫(yī)務(wù)人員述職報(bào)告課件
- 品牌部工作總結(jié)匯報(bào)
- 全麻病人蘇醒期躁動的原因及處理課件
- 2024全新誠信考試課件
- 2024年大學(xué)生心理健康教育考試題庫及答案(含各題型)
- 《全腦速讀記憶講座》課件
- 上海市產(chǎn)業(yè)園區(qū)規(guī)劃及招商引資策略研究報(bào)告目錄
- 小兒預(yù)防接種過敏性休克
- 未足月胎膜早破查房
- 人工智能在體育訓(xùn)練與競技分析中的應(yīng)用
- 年產(chǎn)30萬噸高鈦渣生產(chǎn)線技改擴(kuò)建項(xiàng)目環(huán)評報(bào)告公示
評論
0/150
提交評論