2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第1頁
2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第2頁
2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第3頁
2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第4頁
2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐專業(yè)需求訓(xùn)練技術(shù)

數(shù)據(jù)構(gòu)建集成演進(jìn)三.NL2SQL助力大模型與傳統(tǒng)IT智源IndustryCorpus1.0智源IndustryCorpus1.0

開源數(shù)據(jù)一期18二期擴(kuò)展到30行業(yè)指令數(shù)據(jù)(醫(yī)療、教育)、行業(yè)偏好數(shù)據(jù)(醫(yī)療預(yù)訓(xùn)練數(shù)據(jù):基于規(guī)則+模型指令數(shù)據(jù):基于指令復(fù)雜性+回復(fù)質(zhì)量+多輪相關(guān)性

IndustryCorpusIndustryCorpus

6借助LLM借助LLM訓(xùn)練方式:bge-m3(指標(biāo)高,收斂快qwen1.5-0.5b-bge-bert-snowflake(fineweb-edu圖1圖1圖3{:,:}{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom*ChineseJournalofBiochemistryandMolecularBiology*,2007,23(2):154--159\\[譯自:中國生物化學(xué)與分子生物學(xué)報(bào)\\]\n","quality_score":{"text":"![](brjcancer00428-0139.tif\"scanned-page\"){.737}\n","quality_score":-0.3435468375682831,}{"text":"#ifndef_IMGBMP_H_\n\n#ifdef {\n#endif\n\nconstuint8_tbmp[]={\n\\/\\/--調(diào)入了一幅圖像:D:\\我的文檔\\MyPictures\\12864-555.bmp*\\/\n\\/\\/--寬度x高度=128x64-- _SSD1306_16BIT_H_\n”,圖3圖3.fineweb-edu質(zhì)量分類模型在中文上的打分表現(xiàn),普遍較低對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,結(jié)合使用兩種策略:對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,結(jié)合使用兩種策略:Rule-based,odel- 三.NL2SQL助力大模型與傳統(tǒng)IT

☆☆☆☆☆

☆☆☆☆SFTSFTsource:source:Wedemonstratethatlargelanguagemdstruggletoacquirenewfactualknowledgethroughfine-tuning,asfine-tuningexampesthatintroducenewknowledgearelearnedsignificantlyslowerthanthoseconsistentwiththemd’knowledge.However,wealsofindthatastheexampeswithnewknowledgelargelanguagemdmosyacquirefactualknowledgethroughpre-training,whereasfinetuningteachesthemtouseitmoreefficiently.為什么要采用CPT+SFT+RLHF的“CSR為什么要采用CPT+SFT+RLHF的“CSRBase(基座模型):CPT(繼續(xù)預(yù)訓(xùn)練):RAG:使用醫(yī)療領(lǐng)域數(shù)據(jù),在通用模型上進(jìn)行使用醫(yī)療領(lǐng)域數(shù)據(jù),在通用模型上進(jìn)行CPT+SFT+RLHF(CSR)全流程訓(xùn)練,驗(yàn)證行業(yè)預(yù)訓(xùn)練數(shù)據(jù)有效性指令微調(diào)數(shù)據(jù),人類偏好數(shù)據(jù)的篩選方案;確立了行業(yè)模型的訓(xùn)練范式。

偏好訓(xùn)練:借助GPT醫(yī)療領(lǐng)域示范模型訓(xùn)練:CPT醫(yī)療領(lǐng)域示范模型訓(xùn)練:CPT

CPT二階段:基于模型過濾的高質(zhì)量領(lǐng)域數(shù)據(jù)+SFTCPT醫(yī)療領(lǐng)域示范模型訓(xùn)練:CPTStage Stage目的:防止由于預(yù)訓(xùn)練和繼續(xù)預(yù)訓(xùn)練數(shù)據(jù)

基于LLM過濾數(shù) SFT數(shù) token特殊token60B

一L領(lǐng)域數(shù)據(jù)中有語法錯(cuò)誤,語義不連貫,多個(gè)不相關(guān)內(nèi)容的拼從基于規(guī)則過濾后的數(shù)據(jù)中提取20k種子數(shù)據(jù)訓(xùn)練一個(gè)20B醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFTSFTGPTJudge

單輪QA數(shù) 多輪QA數(shù)

CR醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT si=ci?

不同話輪之間的相關(guān)性很低,導(dǎo)致前

L

|H)=?

lOgP(wj|H,w1,w2,…,wj?1;

L

)=?

lOgP(wj|w1,w2,…,wj?1;

(H,T)=CR> CR?1:醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT中文:英文醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF圖1.RL階段數(shù)據(jù)篩選和訓(xùn) 全流程訓(xùn)練后,領(lǐng)域客觀指標(biāo)總體提升20%--基于harness評(píng)RL數(shù)據(jù)來源:SFT主觀數(shù)據(jù):使用SFT模型和GPT認(rèn)知/安全數(shù)據(jù):不進(jìn)入RL

SFT+RL訓(xùn)練后,主觀評(píng)估對(duì)比標(biāo)注數(shù)據(jù)勝率為醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF階段-DPO醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF階段-DPO主觀 示例Aquila-Med-

醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF階段-DPO醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF階段-DPO我們構(gòu)建了一個(gè)包含12,727DPO偏好對(duì)的數(shù)據(jù)集,其中包括9,019個(gè)主觀數(shù)據(jù)樣本和3,708醫(yī)療領(lǐng)域示范模型訓(xùn)練:CSR醫(yī)療領(lǐng)域示范模型訓(xùn)練:CSR全流程訓(xùn)練后,客觀指標(biāo)總體提升20%--基于harnessSFT+RLHF訓(xùn)練后,主觀評(píng)估對(duì)比標(biāo)注數(shù)據(jù)勝率為82%,DPO提升三.NL2SQL助力大模型與傳統(tǒng)IT三.NL2SQL助力大模型與傳統(tǒng)ITAquilaSQLAquilaSQLContinuePreTrainSQLDataFormattedExactMatchLLM可以很好的適配SQL兩步訓(xùn)練:CPTand可以在開源Cspider數(shù)據(jù)集達(dá)到SOTA表現(xiàn).改變訓(xùn)練數(shù)據(jù)格式,適配本地?cái)?shù)據(jù)庫查詢。設(shè)計(jì)基于LLM的NL2SQL格式化SFT生成數(shù)據(jù)中解析出SQL參考傳統(tǒng)Text2SQL任務(wù),計(jì)算生成的SQL和LabelAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLSELECTA.az26FROMAORDERBYDESCLIMITAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLd基于向量化召回,找到12.7k個(gè)對(duì)照關(guān)系中最相關(guān)的N

SELECTM.az26FROMMORDE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論