![2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第1頁](http://file4.renrendoc.com/view15/M02/1D/33/wKhkGWeNNimAdpLCAABnIrdHIxI436.jpg)
![2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第2頁](http://file4.renrendoc.com/view15/M02/1D/33/wKhkGWeNNimAdpLCAABnIrdHIxI4362.jpg)
![2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第3頁](http://file4.renrendoc.com/view15/M02/1D/33/wKhkGWeNNimAdpLCAABnIrdHIxI4363.jpg)
![2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第4頁](http://file4.renrendoc.com/view15/M02/1D/33/wKhkGWeNNimAdpLCAABnIrdHIxI4364.jpg)
![2025人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐_第5頁](http://file4.renrendoc.com/view15/M02/1D/33/wKhkGWeNNimAdpLCAABnIrdHIxI4365.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓(xùn)練方法實(shí)踐專業(yè)需求訓(xùn)練技術(shù)
數(shù)據(jù)構(gòu)建集成演進(jìn)三.NL2SQL助力大模型與傳統(tǒng)IT智源IndustryCorpus1.0智源IndustryCorpus1.0
開源數(shù)據(jù)一期18二期擴(kuò)展到30行業(yè)指令數(shù)據(jù)(醫(yī)療、教育)、行業(yè)偏好數(shù)據(jù)(醫(yī)療預(yù)訓(xùn)練數(shù)據(jù):基于規(guī)則+模型指令數(shù)據(jù):基于指令復(fù)雜性+回復(fù)質(zhì)量+多輪相關(guān)性
IndustryCorpusIndustryCorpus
6借助LLM借助LLM訓(xùn)練方式:bge-m3(指標(biāo)高,收斂快qwen1.5-0.5b-bge-bert-snowflake(fineweb-edu圖1圖1圖3{:,:}{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom*ChineseJournalofBiochemistryandMolecularBiology*,2007,23(2):154--159\\[譯自:中國生物化學(xué)與分子生物學(xué)報(bào)\\]\n","quality_score":{"text":"![](brjcancer00428-0139.tif\"scanned-page\"){.737}\n","quality_score":-0.3435468375682831,}{"text":"#ifndef_IMGBMP_H_\n\n#ifdef {\n#endif\n\nconstuint8_tbmp[]={\n\\/\\/--調(diào)入了一幅圖像:D:\\我的文檔\\MyPictures\\12864-555.bmp*\\/\n\\/\\/--寬度x高度=128x64-- _SSD1306_16BIT_H_\n”,圖3圖3.fineweb-edu質(zhì)量分類模型在中文上的打分表現(xiàn),普遍較低對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,結(jié)合使用兩種策略:對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,結(jié)合使用兩種策略:Rule-based,odel- 三.NL2SQL助力大模型與傳統(tǒng)IT
☆☆☆☆☆
☆☆☆☆SFTSFTsource:source:Wedemonstratethatlargelanguagemdstruggletoacquirenewfactualknowledgethroughfine-tuning,asfine-tuningexampesthatintroducenewknowledgearelearnedsignificantlyslowerthanthoseconsistentwiththemd’knowledge.However,wealsofindthatastheexampeswithnewknowledgelargelanguagemdmosyacquirefactualknowledgethroughpre-training,whereasfinetuningteachesthemtouseitmoreefficiently.為什么要采用CPT+SFT+RLHF的“CSR為什么要采用CPT+SFT+RLHF的“CSRBase(基座模型):CPT(繼續(xù)預(yù)訓(xùn)練):RAG:使用醫(yī)療領(lǐng)域數(shù)據(jù),在通用模型上進(jìn)行使用醫(yī)療領(lǐng)域數(shù)據(jù),在通用模型上進(jìn)行CPT+SFT+RLHF(CSR)全流程訓(xùn)練,驗(yàn)證行業(yè)預(yù)訓(xùn)練數(shù)據(jù)有效性指令微調(diào)數(shù)據(jù),人類偏好數(shù)據(jù)的篩選方案;確立了行業(yè)模型的訓(xùn)練范式。
偏好訓(xùn)練:借助GPT醫(yī)療領(lǐng)域示范模型訓(xùn)練:CPT醫(yī)療領(lǐng)域示范模型訓(xùn)練:CPT
CPT二階段:基于模型過濾的高質(zhì)量領(lǐng)域數(shù)據(jù)+SFTCPT醫(yī)療領(lǐng)域示范模型訓(xùn)練:CPTStage Stage目的:防止由于預(yù)訓(xùn)練和繼續(xù)預(yù)訓(xùn)練數(shù)據(jù)
基于LLM過濾數(shù) SFT數(shù) token特殊token60B
一L領(lǐng)域數(shù)據(jù)中有語法錯(cuò)誤,語義不連貫,多個(gè)不相關(guān)內(nèi)容的拼從基于規(guī)則過濾后的數(shù)據(jù)中提取20k種子數(shù)據(jù)訓(xùn)練一個(gè)20B醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFTSFTGPTJudge
單輪QA數(shù) 多輪QA數(shù)
CR醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT si=ci?
不同話輪之間的相關(guān)性很低,導(dǎo)致前
L
|H)=?
lOgP(wj|H,w1,w2,…,wj?1;
L
)=?
lOgP(wj|w1,w2,…,wj?1;
(H,T)=CR> CR?1:醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT醫(yī)療領(lǐng)域示范模型訓(xùn)練:SFT中文:英文醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF圖1.RL階段數(shù)據(jù)篩選和訓(xùn) 全流程訓(xùn)練后,領(lǐng)域客觀指標(biāo)總體提升20%--基于harness評(píng)RL數(shù)據(jù)來源:SFT主觀數(shù)據(jù):使用SFT模型和GPT認(rèn)知/安全數(shù)據(jù):不進(jìn)入RL
SFT+RL訓(xùn)練后,主觀評(píng)估對(duì)比標(biāo)注數(shù)據(jù)勝率為醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF階段-DPO醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF階段-DPO主觀 示例Aquila-Med-
醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF階段-DPO醫(yī)療領(lǐng)域示范模型訓(xùn)練:RLHF階段-DPO我們構(gòu)建了一個(gè)包含12,727DPO偏好對(duì)的數(shù)據(jù)集,其中包括9,019個(gè)主觀數(shù)據(jù)樣本和3,708醫(yī)療領(lǐng)域示范模型訓(xùn)練:CSR醫(yī)療領(lǐng)域示范模型訓(xùn)練:CSR全流程訓(xùn)練后,客觀指標(biāo)總體提升20%--基于harnessSFT+RLHF訓(xùn)練后,主觀評(píng)估對(duì)比標(biāo)注數(shù)據(jù)勝率為82%,DPO提升三.NL2SQL助力大模型與傳統(tǒng)IT三.NL2SQL助力大模型與傳統(tǒng)ITAquilaSQLAquilaSQLContinuePreTrainSQLDataFormattedExactMatchLLM可以很好的適配SQL兩步訓(xùn)練:CPTand可以在開源Cspider數(shù)據(jù)集達(dá)到SOTA表現(xiàn).改變訓(xùn)練數(shù)據(jù)格式,適配本地?cái)?shù)據(jù)庫查詢。設(shè)計(jì)基于LLM的NL2SQL格式化SFT生成數(shù)據(jù)中解析出SQL參考傳統(tǒng)Text2SQL任務(wù),計(jì)算生成的SQL和LabelAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLSELECTA.az26FROMAORDERBYDESCLIMITAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLd基于向量化召回,找到12.7k個(gè)對(duì)照關(guān)系中最相關(guān)的N
SELECTM.az26FROMMORDE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商務(wù)星球版地理八年級(jí)下冊(cè):8.2 《新疆維吾爾自治區(qū)》 聽課評(píng)課記錄
- 八年級(jí)政治下冊(cè)第六單元我們的人身權(quán)利6.2《維護(hù)人格尊嚴(yán)》情境探究型聽課評(píng)課記錄(粵教版)
- 個(gè)人中介房屋租賃協(xié)議書范本
- 房屋轉(zhuǎn)租三方合同范本
- 樓層架管出租協(xié)議書范本
- 私立中學(xué)轉(zhuǎn)讓合同書
- 2025年度互聯(lián)網(wǎng)廣告合同終止的多重市場監(jiān)管情形
- 區(qū)中心房屋租賃合同范本
- 2025年度商品車運(yùn)輸與新能源汽車充電設(shè)施安裝合同
- 二零二五年度新能源研發(fā)私人廠房租賃合同
- 繪本創(chuàng)作方案
- 小學(xué)教育中的跨學(xué)科項(xiàng)目學(xué)習(xí)
- 精神科理論知識(shí)考核試題題庫及答案
- 產(chǎn)品設(shè)計(jì)-產(chǎn)品設(shè)計(jì)程序與方法-榨汁機(jī)資料
- 《童年的水墨畫》的說課課件
- 第二十三屆華羅庚金杯少年數(shù)學(xué)邀請(qǐng)賽初賽試卷(小中組)
- 九年級(jí)數(shù)學(xué)下學(xué)期教學(xué)計(jì)劃(青島版)
- 地鐵保潔服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 食堂成本核算表
- 2023年河南省新鄉(xiāng)市鳳泉區(qū)事業(yè)單位招聘53人高頻考點(diǎn)題庫(共500題含答案解析)模擬練習(xí)試卷
- 2023年小升初簡歷下載
評(píng)論
0/150
提交評(píng)論