版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
『弈衡』多模態(tài)大模型評測體系白皮書(2024) ...................................................................................................................................................1 ..............................................................................................................3多模態(tài)大模型發(fā)展現(xiàn)狀 3評測需求 4評測問題與挑戰(zhàn) 5主要評測方式 7典型評測維度 7常見評測指標(biāo) 81013整體框架 13評測場景 14評測要素 16評測維度 222017年初,GPT-4[1術(shù)首次進(jìn)入公眾視野[2]。GPT-4Vision、Gemini,國內(nèi)的文心一言、訊飛星火、智譜清言等[3AI中國移動技術(shù)能力評測中心作為中國移動的第三方專業(yè)評測機(jī)構(gòu),聯(lián)合業(yè)界權(quán)威機(jī)構(gòu)、 多模態(tài)大模型發(fā)展現(xiàn)狀行業(yè) 領(lǐng)域 應(yīng)用行業(yè) 領(lǐng)域 應(yīng)用企業(yè)應(yīng)用內(nèi)容創(chuàng)作與審核領(lǐng)域用于圖片創(chuàng)作、圖片內(nèi)容理解、圖形合成修改等任務(wù)。教育科技領(lǐng)域利用圖文數(shù)據(jù)為教育領(lǐng)域提供智能化支持。金融風(fēng)控領(lǐng)域根據(jù)簽字等圖像數(shù)據(jù)輔助金融機(jī)構(gòu)提高決策效率。醫(yī)療健康領(lǐng)域利用內(nèi)置攝像頭進(jìn)行輔助診斷,協(xié)助醫(yī)生提高醫(yī)療效率。智能制造領(lǐng)域進(jìn)行缺陷圖片檢測,助力工廠實現(xiàn)智能化生產(chǎn)、降本增效。軟件開發(fā)領(lǐng)域根據(jù)現(xiàn)有圖形界面,輔助提升開發(fā)人員的軟件開發(fā)效率。市場分析領(lǐng)域幫助企業(yè)洞察市場動態(tài),優(yōu)化產(chǎn)品、提供更加安全的服務(wù)。法律領(lǐng)域用于文書識別等法律相關(guān)任務(wù),降低法律服務(wù)成本。媒體與娛樂領(lǐng)域為畫師、視頻創(chuàng)作者等相關(guān)從業(yè)者提供創(chuàng)意靈感,提高創(chuàng)作效率。人力資源領(lǐng)域?qū)崿F(xiàn)人臉識別等人力資源智能管理功能。客服領(lǐng)域應(yīng)用于智能客服助手等任務(wù),實現(xiàn)圖形理解,提高客服效率。公共服務(wù)領(lǐng)域利用攝像頭等終端識別提高政府服務(wù)效率,優(yōu)化公共資源配置。個人應(yīng)用旅游領(lǐng)域提供景點照片匹配等個性化的旅行建議和服務(wù)。個人金融業(yè)務(wù)領(lǐng)域用戶人臉識別、收支明細(xì)預(yù)測等個人金融業(yè)務(wù)。教育輔導(dǎo)領(lǐng)域針對題目進(jìn)行智能搜索、解答等教育輔導(dǎo)工作。數(shù)據(jù)搜索領(lǐng)域?qū)崿F(xiàn)拍圖識別、搜索等智能搜索功能。圖像修復(fù)領(lǐng)域針對老照片、不完整照片等圖像進(jìn)行智能修復(fù)與補(bǔ)全。評測需求創(chuàng)作類任務(wù)主要是指通過給定的文字或圖像提示信息進(jìn)行圖片創(chuàng)作或圖像需著重關(guān)注模型的生成質(zhì)量、內(nèi)容匹配度、多樣性和創(chuàng)新性等各項指標(biāo)。評測問題與挑戰(zhàn)首先,圖文大模型的高泛化性對評測任務(wù)選取提出挑戰(zhàn)。其次,圖文大模型的高復(fù)雜度對評測數(shù)據(jù)構(gòu)建提出更高要求。再者,圖文大模型評價結(jié)果的客觀性也需要重點考慮。5AI主要評測方式圖文大模型的評測方式主要包括客觀評測和主觀評測兩種。典型評測維度AI模型性能評測是圖文大模型的核心維度,主要評測圖文大模型對圖像和文字的識別能力、模型泛化能力評測模型魯棒性評測模型一致性評測常見評測指標(biāo)F1BLEUISCLIPPSNRSOACIDErmAPIoUFIDSSIM、RP、碳足跡等[9]。指標(biāo) 描述準(zhǔn)確率Accuracy,計算圖文問答題目中預(yù)測結(jié)果正確的比例,是最常用的客觀指標(biāo)F1值F1corPreisioRecll,兼顧圖文大模型預(yù)測結(jié)果的正確樣本比例和查全比例BLEU評價圖生文的文本質(zhì)量,比較生成文本與真實答案間的重疊程度IS指標(biāo)InceptionScore,利用分類模型評測生成圖片的類別確定性和類別多樣性CLIP相似度利用CLIP大模型的文本和圖像編碼器針對圖片中關(guān)鍵物體進(jìn)行質(zhì)量判定PSNR峰值信噪比,評價圖文大模型生成圖片的像素質(zhì)量和清晰度SOA衡量生成的圖像中是否符合文本描述中的各對象類別,考察文本類別還原度CIDEr針對圖像描述任務(wù),評價描述結(jié)果與人類真實描述間的相似度mAPmeanAveragePrecision,反映圖文問答題目中,預(yù)測結(jié)果在所有召回率水平下的平均準(zhǔn)確率IoUIntersectionoverUnion,衡量圖像中指定物體的預(yù)測框與實際邊界框的重合程度FIDFréchetInceptionDistance,用于評估文生圖任務(wù)中生成圖像和真實圖像之間的相似性的指標(biāo)SSIM結(jié)構(gòu)相似度,評價文生圖任務(wù)中生成圖片與標(biāo)準(zhǔn)正確圖片之間的相似度RP全稱R-precision,衡量文生圖任務(wù)中文本描述和生成圖像之間的視覺語義相似度碳足跡計算模型訓(xùn)練、推理階段消耗電力的二氧化碳排放量除以上提到的各類常用指標(biāo)外,部分評測還針對圖文大模型在業(yè)務(wù)中的實際應(yīng)用場景,選取更有針對性更能反映業(yè)務(wù)性能的其他指標(biāo),如召回率、多輪對話輪次等。AI實驗室的MMBenchOCRBenchLLaVA-BenchVisIT-BenchSEED-BenchMMBench[10]MMBench20238逐漸rurEBench從三評測方式上,針對當(dāng)前大模型指令跟隨性不完善的問題,利用ChatGPT進(jìn)行輔助評測,并將問題選項進(jìn)行環(huán)狀重排,從而更好地反映大模型的真實性能。OCRBench[11]OCRBench是華中科技大學(xué)聯(lián)合其它機(jī)構(gòu)于20242該體系針對OCR領(lǐng)域的常見任務(wù)和典型數(shù)據(jù)集,對Gemini、GPT-4V等十四個多模態(tài)大模型進(jìn)行了評測。具體來說,OCRBench聚焦于多模態(tài)大模型的OCR能力,針對文字識別、、STVQA等二十七個主流開源數(shù)據(jù)集進(jìn)行測試驗證。智源評測體系[12]20245的理解和生成能力。在評測數(shù)據(jù)選取上,該體系選取了COCO、Flickr30k等主流開源數(shù)據(jù)FID、CLIPScore等常見指標(biāo),主觀指標(biāo)則采取人工打分的形式進(jìn)行模型評價。LLaVA-Bench[13]LLaVA-Bench20234GPT-4輔助進(jìn)行評定,綜合評測圖文大模型在室內(nèi)場景和室外場景下的性能。VisIT-Bench[14]VisIT-Bench是希伯來大學(xué)、谷歌等研究團(tuán)體于2023年8月提出的圖文大模型評測基59270VIT-Bench利用GPT-4SEED-Bench[15]SEED-Bench是騰訊人工智能實驗室于2023年7月提出的多模態(tài)大模型評測基準(zhǔn),包19000SEED-Bench采用自通過計算模型對各個人工標(biāo)注選項的困惑度來獲取模型最佳預(yù)測結(jié)生成圖像與各人工標(biāo)注選項之間的CLIP相似度來獲取模型最佳預(yù)測結(jié)果,再通過最佳預(yù)測結(jié)果和正確選項計算模型準(zhǔn)確率。ConBench[16]ConBench20245從四個高質(zhì)量的多模態(tài)基準(zhǔn)數(shù)據(jù)集中手動1KSeedBenchMMBench和題(判斷題、選擇題與限制性問答題),以及圍繞相同知識點的生成式prompt,評測知 整體框架2-4-6”層級246評測場景務(wù)和應(yīng)用任務(wù)兩類?;A(chǔ)任務(wù)任務(wù) 描述識別實例識別識別圖像中的特定實例,包括特定對象的存在或類別,評估模型的對象識別能力。實例計數(shù)計算圖像中特定對象的數(shù)量,理解所有對象并成功計數(shù)所引用對象的實例。情緒識別側(cè)重于識別和解釋圖像中人臉?biāo)磉_(dá)的情緒,評估模型理解面部表情并將其與相應(yīng)情緒狀態(tài)相關(guān)聯(lián)的能力。手勢識別根據(jù)輸入圖像識別手勢含義,評估模型對人手特征的理解。文字識別回答關(guān)于圖像中文本元素的相關(guān)問題,考察多模態(tài)模型對各種類型文本的識別及上下文理解。理解場景理解強(qiáng)調(diào)圖像中的全局信息,需要整體理解來回答有關(guān)整個場景的問題。字幕匹配針對圖片,選擇最符合圖片內(nèi)容的文字描述,考察文字及圖片內(nèi)容理解。圖像質(zhì)量分析根據(jù)圖片是否模糊、光照是否正常、是否存在遮擋等因素分析圖像質(zhì)量創(chuàng)作圖像生成根據(jù)給定提示生成逼真且視覺連貫的圖像的能力,要求模型理解創(chuàng)建可信圖像所需的視覺元素、關(guān)系和組合規(guī)則。圖像風(fēng)格轉(zhuǎn)換針對文字要求,對指定圖片進(jìn)行風(fēng)格變換,要求模型把握圖片內(nèi)容及風(fēng)格特點。圖像合成根據(jù)文字要求,對多張圖像進(jìn)行融合后生成新圖像推理代碼編寫理解圖片中代碼內(nèi)容并回答相關(guān)問題,考察模型對代碼的理解和編寫能力。下一張圖像預(yù)測根據(jù)給定的圖像序列,判斷缺失圖片內(nèi)容。應(yīng)用任務(wù)任務(wù) 描述識別人流量統(tǒng)計對特定區(qū)域或場景內(nèi)的人員數(shù)量進(jìn)行實時統(tǒng)計品牌LOGO識別根據(jù)品牌的LOGO圖片進(jìn)行識別,判斷所屬企業(yè)并給出企業(yè)的相關(guān)信息。垃圾滿溢判斷圖片中的垃圾桶是否存在垃圾桶,以及垃圾桶是否存在滿溢。智慧養(yǎng)殖針對豬、雞等各類家畜進(jìn)行識別與計數(shù),輔助進(jìn)行養(yǎng)殖管理。廚師帽檢測對后廚是否有人未正確佩戴廚師帽進(jìn)行識別,以規(guī)范商家衛(wèi)生安全。外賣員檢測針對各類場景下是否存在外賣員進(jìn)行檢測,服務(wù)于小區(qū)安防、外來人員管控等。通信設(shè)備識別針對圖片中的各類通信設(shè)備進(jìn)行識別,服務(wù)于硬件廠商及運營商等管理人員。道路安全識別對車輛違停、路面塌陷等相關(guān)情況進(jìn)行識別,從而保障交通安全。理解活體檢測根據(jù)輸入的真實人臉圖片,以及翻拍、面具、高清屏、3D頭模等偽造活體進(jìn)行判斷,以檢驗多模態(tài)大模型在人臉安全方面的識別能力。人像屬性口罩檢測判斷圖片中是否有人未正確佩戴口罩,檢驗?zāi)P蛯θ四樇翱谡峙宕鞯淖R別能力。推理數(shù)學(xué)推理針對圖片中描述的圖形、邏輯等數(shù)學(xué)問題進(jìn)行回答,檢驗?zāi)P蛯?shù)學(xué)圖形和邏輯的理解推導(dǎo)能力。創(chuàng)作藝術(shù)創(chuàng)作根據(jù)圖文提示進(jìn)行藝術(shù)創(chuàng)作,探索新的藝術(shù)風(fēng)格和表現(xiàn)形式,拓展藝術(shù)創(chuàng)作的邊界。游戲角色設(shè)計根據(jù)圖文輸入提示,輔助或自動化完成游戲角色的設(shè)計過程,包括角色的外觀、動作、服飾、武器等等。與基礎(chǔ)任務(wù)相比,應(yīng)用任務(wù)場景更加固定,但其難度更大,涉及更高層次的技術(shù)能力,可以反映圖文大模型面向具體領(lǐng)域和特定行業(yè)場景的泛化能力。評測要素本(zero-shot)、單樣本(one-shot)、少樣本(few-shot)以及提示工程(promptengineering)測試樣本構(gòu)造方式17],這就要求圖文大模型在零樣本學(xué)習(xí)的條件下依零樣本任務(wù)是指模型在訓(xùn)練階段完全沒有接觸過測試場景及測試任務(wù)相關(guān)的圖文數(shù)據(jù),模型需要針對全新場景完成預(yù)測任務(wù)。這類任務(wù)設(shè)置不需要模型進(jìn)行針對性調(diào)優(yōu),直接考察了圖文大模型對新知識的理解和泛化能力,具有極高的應(yīng)用價值。少樣本:少樣本任務(wù)是指圖文大模型在訓(xùn)練階段可以接觸到少量目標(biāo)任務(wù)的圖文樣本,測試結(jié)果判斷方式標(biāo)進(jìn)行評測,如準(zhǔn)確率、F1mAP、BLEU等,這些指標(biāo)能夠比對模型預(yù)測結(jié)果與真實評價各大模型性能??陀^類LOGO(Accuracy)(Precision)(Recall)、CIDEr除準(zhǔn)確性外,實時性、連續(xù)性等功能指標(biāo)也是評價圖文大模型的重要維度。其中,實時主觀類數(shù)據(jù)集構(gòu)造原則準(zhǔn)確性:在構(gòu)建評測數(shù)據(jù)時必須確保準(zhǔn)確性。題目設(shè)計應(yīng)避免歧義,確保其邏輯嚴(yán)密,數(shù)據(jù)集構(gòu)造方法為了更加客觀全面地構(gòu)建評測數(shù)據(jù),以真實反映圖文大模型的實際應(yīng)用能力,“弈衡”數(shù)據(jù)與模型管理評測流程管理評測任
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東省煙臺市2025屆高三上學(xué)期期末學(xué)業(yè)水平診斷政治試卷(含答案)
- 砥礪青春志揚(yáng)帆新征程
- 2020年B級注冊驗船師資格考試復(fù)習(xí)題庫598題OQ(含參考答案)
- 2024年湖南省煤炭壩煤礦職工醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 2024年07月河北中信銀行保定分行社會招考(728)筆試歷年參考題庫附帶答案詳解
- 2024年永登縣人民醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 2024年海南省工人療養(yǎng)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 奔馳基礎(chǔ)知識
- 醫(yī)院網(wǎng)絡(luò)系統(tǒng)安全知識培訓(xùn)
- 2024智能安防監(jiān)控系統(tǒng)設(shè)備供應(yīng)與安裝合同
- 2024年廣東省高中學(xué)業(yè)水平合格性考試語文試卷真題(含答案解析)
- 混凝土股東合同范本
- 人教版九年級英語知識點復(fù)習(xí)課件全冊
- 2024年7月國家開放大學(xué)??啤掇k公室管理》期末紙質(zhì)考試試題及答案
- 2024年自然資源部直屬企事業(yè)單位公開招聘考試筆試(高頻重點提升專題訓(xùn)練)共500題附帶答案詳解
- DBJ∕T 15-120-2017 城市軌道交通既有結(jié)構(gòu)保護(hù)技術(shù)規(guī)范
- 五金材料采購?fù)稑?biāo)方案(技術(shù)方案)
- 客運站春運安全行車教育
- 乳腺腔鏡手術(shù)介紹
- 服裝的生產(chǎn)方案
- JTGT F20-2015 公路路面基層施工技術(shù)細(xì)則
評論
0/150
提交評論