金融大模型技術(shù)創(chuàng)新與應(yīng)用落地實(shí)踐_第1頁(yè)
金融大模型技術(shù)創(chuàng)新與應(yīng)用落地實(shí)踐_第2頁(yè)
金融大模型技術(shù)創(chuàng)新與應(yīng)用落地實(shí)踐_第3頁(yè)
金融大模型技術(shù)創(chuàng)新與應(yīng)用落地實(shí)踐_第4頁(yè)
金融大模型技術(shù)創(chuàng)新與應(yīng)用落地實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

必11111111

度小滿

msup·金融大模型訓(xùn)練與對(duì)齊技術(shù)探索度小滿霍亮宇`?人工智能技術(shù)在金融領(lǐng)域的應(yīng)用值111111

度小滿 ms

upo智能金融

(

AlFinance

)

:依托于互聯(lián)網(wǎng)技術(shù),

運(yùn)用大數(shù)據(jù)、人工智能等金融科技手段,使

金融行業(yè)在業(yè)務(wù)流程、業(yè)務(wù)開(kāi)拓和客戶服務(wù)等方面得到全面的智慧提升,實(shí)現(xiàn)金融產(chǎn)品、風(fēng)控、獲客、服務(wù)的智慧化。風(fēng)險(xiǎn)管理Al分析市場(chǎng)數(shù)據(jù),預(yù)

測(cè)股票價(jià)格波動(dòng)等個(gè)性化金融服務(wù)Al根據(jù)用戶的消費(fèi)習(xí)慣推薦理財(cái)、信貸產(chǎn)品智能信用評(píng)分Al綜合用戶財(cái)務(wù)信息,

生成精確的信用評(píng)分必面向金融領(lǐng)域人工智能技術(shù)的發(fā)展?深度學(xué)習(xí)時(shí)代;值111111

度小滿 ms

upo(0大模型時(shí)代)賴于簡(jiǎn)單規(guī)則和算法,自動(dòng)化基本交易和數(shù)據(jù)處理只能處理預(yù)定義的任務(wù),缺乏自我學(xué)習(xí)和適應(yīng)能力引入機(jī)器學(xué)習(xí),

利用歷史數(shù)據(jù)進(jìn)行預(yù)測(cè)和決策支持股票預(yù)測(cè)、風(fēng)險(xiǎn)管理、欺詐檢測(cè)深度神經(jīng)網(wǎng)絡(luò),提高數(shù)據(jù)規(guī)模自然語(yǔ)言處理、圖像識(shí)別等領(lǐng)域的突破信用風(fēng)險(xiǎn)評(píng)估,降

低違約率生成式大模型技術(shù)引入,利用大量預(yù)訓(xùn)練預(yù)料,提高自然語(yǔ)言理解能力客戶服務(wù)、投資建議、市場(chǎng)分析必通用大模型應(yīng)用于金融領(lǐng)域的難點(diǎn)值111111

度小滿 ms

upo,金融知識(shí)不全面工金融能力待提高6,1

'.--.·-·?.伽.

":'-.--?'..?一..f文",.1.--.1If.!.!'.-.,.hl.l.1

?l.llII,l1II·-

--?

·,.你 ....,

、,;;':.i·

`

`

、,

h

l

l勹;il,l

什I|i`|

l

譬盧..

山i

iu ,;

叫l(wèi)心

·-·一, 1 ...4

j斤II!1,I

.工金融安全有風(fēng)險(xiǎn)行業(yè)數(shù)據(jù)高噪聲金融知識(shí)多樣化信息更新時(shí)效長(zhǎng)領(lǐng)域知識(shí)出現(xiàn)幻覺(jué)金融計(jì)算難以準(zhǔn)確金融研判專業(yè)性不足私域數(shù)據(jù)難共享銘感信息易泄露金融決策不靠性必°通用大模型的金融場(chǎng)景應(yīng)用能力不足值111111

度小滿 ms

upo案例:

RPA

電銷話術(shù)推薦實(shí)時(shí)對(duì)話

銷售:

你好,是

張xx先生嗎用戶:喂,你好銷售:哎張先生,這邊是給你做回訪的,我是xx員工,工號(hào) 1

Oxx,

來(lái)電話呢,

是免費(fèi)給你提升額度下調(diào)利息xxxxx用戶:嗯,今天到這好吧,我不用@)

Claude30 :哦不用今天到賬是吧 ,嗯 張先生,

們現(xiàn)在有在用的其他平臺(tái)的貸款嗎?就是像xx、xx這些的。您要是有需要的話,

我這邊昵可以先幫您重新免費(fèi)申請(qǐng)一下額度,

把利息也給您下調(diào)。這樣您以后有需要了隨時(shí)都可以直接來(lái)我們平臺(tái),用著也方便,您看昨樣?@

GPT4O

:唉張先生,

您之前沒(méi)有繼續(xù)用咱們的額度是因?yàn)槔⒏邌幔炕貜?fù)過(guò)長(zhǎng)/短、語(yǔ)氣狀態(tài)、營(yíng)銷技巧必值111111

度小滿 ms

upo`?方法:

對(duì)通用大模型進(jìn)行“金融對(duì)齊訓(xùn)練"升級(jí),--------------------------------------------------------------------------,--』金融對(duì)齊訓(xùn)練I---------------------------------------------------------------------------------------------------------------------'一一一一一一一一一一一一一一一一一一一一一一一一一

一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一;一通過(guò)調(diào)優(yōu)模型參數(shù)和訓(xùn)練數(shù)據(jù),使模型在金融領(lǐng)域具備更高的專業(yè)能力和安全性,以符合特定價(jià)值和目標(biāo)[金融知識(shí)]引入金融數(shù)據(jù)和案例,f

增強(qiáng)模型對(duì)金融知識(shí)的理解和掌握

]金融能力[構(gòu)造特定任務(wù)數(shù)據(jù)(金融預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估等),提升金融場(chǎng)景能力金融安全(

]通過(guò)人類偏好學(xué)習(xí)強(qiáng)化數(shù)據(jù)安全和隱私能力,確保在處理金融數(shù)據(jù)時(shí)的安全性和合規(guī)性

必°度小滿開(kāi)源了軒轅系列金融大模型值111111

度小滿 ms

upo愿景:打造最好的金融行業(yè)大模型2023.52023.92023.112024.12024.3國(guó)內(nèi)首個(gè)千億級(jí)金融大模型「軒轅-千億」「軒

轅-70

8

大模型,金融能力超越通用模型「軒轅-708」-chat及8-bi

t和4-

bit量化模型「軒轅-138」base、chat全自

砑「軒

轅-68」及[軒轅2.0-

708]base

、chat軒轅3.0即將發(fā)布(金融能力)(中文能力)( 場(chǎng)景應(yīng)用能力

)( 安全性能力 )\/XuanYuan-6B基座模型Chat模型8-

bit

量化Chat模型4-bit

量化Chat模型^^`

竺 |繪

竺艇竺

位置!紛窐 勺竺艇 . 監(jiān)

-I -XuanYuan-13BXuanYuan2-70BXuanYuan-

70BXuanYuan-176B志董.窒盜7呈

竺呈竺竺g-.7盜竺

簟.鳥(niǎo)

總主頁(yè)鏈接:

htt p

s:///Duxiaoman-D1/XuanYuan已開(kāi)源17款金融模型,

滿足不同金融領(lǐng)域開(kāi)發(fā)者需求必°金融能力領(lǐng)先,

通用能力強(qiáng)大值111111

度小滿 ms

upo( 通用能力(

金融能力(

場(chǎng)景能力)

在C-

Eval和CMMLU兩大權(quán)威榜單上,

止到發(fā)布 ,軒轅70B

均名列所有開(kāi)源模型第—)

軒轅70B已經(jīng)通過(guò)注冊(cè)會(huì)計(jì)師、銀行/證券/保險(xiǎn)/基金/從期業(yè)貨資格、理財(cái)規(guī)劃師、經(jīng)濟(jì)師等金融領(lǐng)域權(quán)威考試,且考試得分領(lǐng)先千其他通用模型)

軒轅70B在度小滿自有金融業(yè)務(wù)場(chǎng)景測(cè)試中表現(xiàn)領(lǐng)先,特

別金融 知識(shí)問(wèn) 答

NL2

SQL等場(chǎng)景表現(xiàn)優(yōu)異[各大主流評(píng)測(cè)集成績(jī)]MODELMMLUCEVALCMMLUGSM8KMBPPBBHFinancelQXuanYuan-70B70.971.971.1074.44371.467.56GPT483.9368.4070.9591.461.886.760.05ChatGPT69.152.553.978.260.270.144.2Llama268.952.1053.1163.539.664.936.02Baichun2-13B-base59.1758.1061.9752.630.84951.2Qwen-14867.971.770.261.639.853.753.29*榜

單排名截必止到

Xuanyuan-

70B

開(kāi)源發(fā)布日期

2023年9月21日軒轅模型應(yīng)用探索值111111

度小滿 ms

upo幻覺(jué)問(wèn)題解決率

96% I

電銷一

-轉(zhuǎn)化率

12%

i

I助手金融場(chǎng)景應(yīng)用探索碼手代

助采納率

42%體感研發(fā)效率

20%

i服務(wù)效率

25%

t服

手客

助辦公

I 意圖識(shí) 別準(zhǔn)確率

97%助手

l

用戶滿足率

20%

86%增信助手[

增信補(bǔ)件效率

37%

i

)必目錄值111111

度小滿 ms

upoPart

2:度小滿"軒轅“大模型對(duì)齊訓(xùn)練之路必對(duì)齊技術(shù)的發(fā)展值111111

度小滿 ms

upo早期階段(1920-1

960)中期階段(1

960-2008)現(xiàn)代階段(2008-2021)當(dāng)前階段(

20

21-至今)Asimov在小說(shuō)中提出機(jī)器人三大機(jī)器人定律Wiener討論機(jī)器目的,機(jī)器倫理概念出現(xiàn)Al與人類利益/價(jià)值對(duì)齊的話題引入,Asilomar

Al原則強(qiáng)調(diào)價(jià)值對(duì)齊-SFf

-------,,-LLM IIn-Context-------

-...,-

R壺一一一一一一一一一一一一一一一-, r2

RLTuning I

I..1.l=lReward

"(!由

圈矗II

I Respon

se

? ----

一,Ili

Refine

:,戶--x.,、I

·

_

_:

:

1

-I

II

I:

:LLMISelf-evaluation/jIIExternalToolsI

ILLM

1

”一!!

勹,

--.-.r.fI

I礦" lI|Instruction志圈In

s

h t

ion|II

IAlignmentPrompts------r--:IlII.i

1

l

£RM(中)=-

IEv

log(

(此伈)-,R,,

(

yi

1動(dòng)))1:

y~

p

(y|x,

v

)

=亢。(y

x|

,叫如 (6).

_Value

instruction=

一log?

N 平(西

I

IIi I

I

2max IE [,R,,如 )

入KL[亢

e(y|x!Iy~p(y|x,x1,y1,...,xk,yk

)亢·x~

'D,y勺?')II亢SFT(y|x)lI1=

西(y|X,X1,Y1,...'Xk,Yk)|

I飛 w-shotexample:

s------------------------------------------

.....適用于大語(yǔ)言模型的對(duì)齊訓(xùn)練方法[

1]se@n倉(cāng)opseR^n。@it志lgsnI志lns,truction

礦Response屯?`霆富,1RewardModel

LearningReward

w;----fO :!l

一一一一一'1u·,

`心Yt

>Q)YJLLM興起,DeepMind首次將LLM視為智能體并討論對(duì)齊問(wèn)題[1

]W

a

n

g

X,DuanS,YiX,etal.OntheEssenceandProspect:AnInvestigationofAlignmentApproachesforBigModels[J].arXiv

preprintarXiv:2403.04204,2024.必RLH

F

相比與SFT-

Only的優(yōu)勢(shì)IRLHF|值111111

度小滿 ms

upo對(duì)有限樣本示例的模仿不斷交互,通過(guò)反饋優(yōu)化,符合人類直覺(jué)廣泛探索,泛化性更強(qiáng)/方法層樣本層易過(guò)擬合,處理相似樣本學(xué)習(xí)層僅提供正樣本既能學(xué)習(xí)正樣本,又能原理負(fù)樣本\L損失層相當(dāng)于hard

label 相當(dāng)于soft

label更少的數(shù)據(jù)標(biāo)注需求更健壯偏好捕捉能力更能考慮整體的影響更容易減少幻覺(jué)更好地解決多輪對(duì)話獎(jiǎng)勵(lì)累計(jì)行為克隆Behavioural Cloning[1lmin

D

KL(嚇(

.I

s),刓.I

s))7「v7rE

-v 7rBC

三2邁Rmax(1—,)2

`[1]BainM,SammutC.AFrameworkforBehaviouralCloning[C]//MachineIntelligence15.1995:103-

129.必基于RLH

F的對(duì)齊訓(xùn)練流程值111111

度小滿 ms

upo(語(yǔ)言J部分表達(dá)方式非中式思維部分常識(shí)性問(wèn)題不合國(guó)情—些回答易夾雜外文單詞部分觀點(diǎn)不符合我國(guó)核心價(jià)值觀部分敏感類問(wèn)題缺乏口徑對(duì)齊部分違法犯罪問(wèn)題和我國(guó)實(shí)際不符語(yǔ)言表達(dá)不符合行業(yè)風(fēng)格金融計(jì)算能力不足易出錯(cuò)觀點(diǎn)提取及數(shù)據(jù)分析是短板金融數(shù)據(jù)增強(qiáng)的預(yù)訓(xùn)練金融指令增強(qiáng)的有監(jiān)督微調(diào)金融偏好增強(qiáng)的獎(jiǎng)勵(lì)訓(xùn)練金融能力增強(qiáng)的強(qiáng)化訓(xùn)練必金融數(shù)據(jù)增強(qiáng)的預(yù)訓(xùn)練

(

XuanYuan

-

70B)值111111

度小滿 ms

upo進(jìn)— 步

強(qiáng)

力基 座 :

Llam a

2- 7

0b ,數(shù)據(jù)質(zhì)量數(shù)據(jù)清洗去重流水線-綜合通用數(shù)據(jù)(網(wǎng)頁(yè)、百科、論壇、社交媒體、間答)-高質(zhì)量金融數(shù)據(jù)(金融資訊、公司公告、金融百科、書(shū)籍、考試題)-文本抽取、數(shù)據(jù)清洗、去重校驗(yàn)數(shù)據(jù)比例-中文與英文數(shù)據(jù)比

例為

3:1-通用數(shù)據(jù)與金融數(shù)據(jù)比例:

初期為

9:1

->

4:1模型訓(xùn)練4k 擴(kuò)

展到

8k

16k數(shù)據(jù)分桶的動(dòng)態(tài)預(yù)訓(xùn)練:兼顧訓(xùn)練效率和長(zhǎng)文本建模上下文長(zhǎng)度:從數(shù)據(jù)預(yù)處理中文金融特性·定制詞表,提高文本編碼和解碼效率·兩階段訓(xùn)練更新詞表和模型參數(shù)i-g

。瓜英文:

MMLU中文:CEVAL/二必金融指令增強(qiáng)的SFT (XuanYuan-708)值111111

度小滿 ms

upo兩階段模型訓(xùn)練第—階段:第二階段:質(zhì)量使用開(kāi)源多語(yǔ)種指令數(shù)據(jù)進(jìn)行訓(xùn)練,提升模型對(duì)多樣指令的遵循能力使用自研高質(zhì)量通用+金融指令數(shù)據(jù)進(jìn)行精細(xì)訓(xùn)練,保證數(shù)據(jù)的多樣性和數(shù)據(jù)構(gòu)成通

用指令

·

金融

指令砌吻砌砌常識(shí)百科吻創(chuàng)意生成代碼

編程吻安全無(wú)害邏輯推理砌摘要抽取數(shù)學(xué)計(jì)

算吻開(kāi)放間答包金融

百科包研

報(bào)解讀巨金融計(jì)算包客

服話

術(shù)(通用領(lǐng)域:8大類

50小類][

金融領(lǐng)域:4大類20小類:必對(duì)齊訓(xùn)練的基座模型金融能力評(píng)估值111111

度小滿 ms

upo開(kāi) 源了 Financ eIQ:中 文

領(lǐng)

識(shí)

評(píng)

數(shù)

據(jù)

集,

包含10大類、36小類,總?cè)斯ぴu(píng)測(cè)體系構(gòu)建:覆蓋保險(xiǎn)/信貸/理財(cái)/風(fēng)控等多領(lǐng)域計(jì)

71

73個(gè)金融單項(xiàng)選擇題初級(jí)《經(jīng)濟(jì)基礎(chǔ)知識(shí)》初級(jí)《專業(yè)知識(shí)與服務(wù)》中級(jí)《經(jīng)濟(jì)基礎(chǔ)知識(shí)》中級(jí)《專業(yè)知識(shí)與服務(wù)》《稅法(一)》《稅法(二)》《涉稅服務(wù)相關(guān)法律》《財(cái)務(wù)與會(huì)計(jì)》《涉稅服務(wù)實(shí)務(wù)》\\\\\\\\

\/《個(gè)人理財(cái)》《公司信貸》《個(gè)人貸款》《風(fēng)險(xiǎn)管理》《銀行考試》《銀行業(yè)法律法規(guī)與綜合能力》《基金法律法規(guī)、職業(yè)道德與業(yè)務(wù)規(guī)范》《證券投資基金基礎(chǔ)知識(shí)》《私募股權(quán)投資基金基礎(chǔ)知識(shí)》《審計(jì)》《財(cái)務(wù)成本管理》《經(jīng)濟(jì)法》《會(huì)計(jì)》《公司戰(zhàn)略與風(fēng)險(xiǎn)管理》《稅法》《證券市場(chǎng)基本法律法規(guī)》《金融市場(chǎng)基礎(chǔ)知識(shí)》《基礎(chǔ)知識(shí)》《專業(yè)能力》《期貨基礎(chǔ)知識(shí)》《期貨法律法規(guī)》《期貨投資分析》《金融數(shù)學(xué)》\

《保險(xiǎn)基礎(chǔ)知識(shí)》《保險(xiǎn)實(shí)務(wù)》《保險(xiǎn)法規(guī)》《保險(xiǎn)市場(chǎng)

與營(yíng)

銷》必目錄值111111

度小滿 ms

upo. Part

3:

度小滿“軒轅“大模型強(qiáng)化訓(xùn)練探索必大模型強(qiáng)化學(xué)習(xí)

(

RL

)

過(guò)程建模值111111

度小滿 ms

upo環(huán)境獎(jiǎng)勵(lì)值狀態(tài)對(duì)話過(guò)程狀態(tài)動(dòng)作累計(jì)獎(jiǎng)勵(lì)4,Q 推理累計(jì)獎(jiǎng)4,勵(lì)?·智能體SFT模型獎(jiǎng)勵(lì)值?狀態(tài)標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)

(

RL)

過(guò)程LLM

RL

過(guò)程必獎(jiǎng)勵(lì)模型訓(xùn)練流程值111111

度小滿 ms

upoDemoI圈I孟。血°I圈

IRew

ar

d:·oughthe

obD

em

oI

d

on

'

tmostobe

infm

p

ar

eth

ese。品,0(J孟.o。I圈

IRew

ar

d:idthe

obst學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的兩種方式[

1][1

]TheEffectofModelingHumanRationalityLevelonLearningRewardsfromMultipleFeedback

Types必…心

偏好數(shù)據(jù)對(duì)生成值111111

度小滿 ms

upo案例:

RPA

電銷話術(shù)推薦場(chǎng)景@)您好周先生,我是...。 我沒(méi)有這個(gè)需求令我們現(xiàn)在是為了幫您調(diào)整..。額度能提升多少\歷史對(duì)話記錄

l 這次是我們五周年人工邀約xx信用

卡不能提現(xiàn)到銀行卡的xx(3)

趁著這個(gè)活動(dòng),給您做

免費(fèi)的I你名叫xx,你的角色是金融公司的電話銷售,你

需要XXX,

你需要圍繞以下給出的要點(diǎn)對(duì)客戶進(jìn)行主動(dòng)營(yíng)銷\n

\

n

要點(diǎn)1:xx\

n要點(diǎn)2:xx\

n\n根據(jù)對(duì)話內(nèi)容生成推銷話術(shù),對(duì)話內(nèi)容為:

\n

\

n

售:xx\

n

用戶:

xx對(duì)齊prompt構(gòu)造》

Y又漢

》金融大模型生成回復(fù)1:您好

周先生,我理解您現(xiàn)在可能暫時(shí)還沒(méi)有資金需求XXX回復(fù)

2

:

周先生本次

調(diào)整時(shí)完全免費(fèi)為您上調(diào)額度并下調(diào)利息XXX回復(fù)

N

:

這次的活動(dòng)主

要是為了讓您提前準(zhǔn)備

方便將來(lái)xxxx要點(diǎn)庫(kù)檢索多條回復(fù)采樣對(duì)比回復(fù)1

>

回復(fù)3回復(fù)2

>

回復(fù)N人工標(biāo)注必偏好數(shù)據(jù)集構(gòu)建值111111

度小滿 ms

upo·構(gòu)建二級(jí)數(shù)據(jù)標(biāo)簽根據(jù)底座SFT模型能力調(diào)整數(shù)據(jù)配比.開(kāi)放式問(wèn)答創(chuàng)作類生成.風(fēng)格改寫(xiě)數(shù)學(xué)計(jì)箕.文本翻譯摘要,總結(jié).伯從提取其他金融問(wèn)答.金融百科·股票投研金燉摘要.金融分析其他l人工構(gòu)造政策.新聞.敏感詞構(gòu)造不良角色誘導(dǎo)不公平

歧視違法犯罪行為f行哼

\J犯t,'J神.身體佼害.似私財(cái)產(chǎn)提示詞泄高倫理追徑其他安全性 有用性.計(jì)算response之間相關(guān)性,

構(gòu)建標(biāo)注pair金融能力sentence1

sentence2sentence3

sentence4

sentences

sentence6

sentence7亡三

°

30128205 04813278023738872057635468019548872

O.08374384I9990.326923080.26112760.298076920.17105263

0.05769231sentence1sentence2sentence3sentence4sentencessentence6sentence79990.231454010.16729323

0.05341246999,0.195488720.仍鄧

128999

0.031如必標(biāo)注數(shù)據(jù)對(duì)篩選值111111

度小滿ms

upo.ooo對(duì)標(biāo)注數(shù)據(jù)進(jìn)行兩階段精標(biāo):

利用打分RM

識(shí)

別低置信樣本對(duì),

人工精標(biāo),

提供標(biāo)注效率0 >0 >

0引

入ActiveLearning的思想,

提高標(biāo)注量及質(zhì)量:將人工標(biāo)注專注解決模型confused的樣本,

模型已經(jīng)非常置信的樣本標(biāo)注員只確定模型認(rèn)知是否正確R(A)-

R(B)R(A)-

R(B)me

an二二:.0需

要依

靠人工標(biāo)注Step

1

:大

模型采樣Step

2

:

多RM打分Step

3

判斷樣本價(jià)值Step4

:人工確認(rèn)&標(biāo)注必獎(jiǎng)勵(lì)模型訓(xùn)練值111111

度小滿ms

upo對(duì)標(biāo)注數(shù)據(jù)進(jìn)行兩階段精標(biāo):

利用打分RM

識(shí)

別低置信樣本對(duì),

人工精標(biāo),

提供標(biāo)注效率pair-wise

response數(shù)據(jù)同分布獎(jiǎng)勵(lì)模型-1I

I同分布獎(jiǎng)勵(lì)模型-NI

Iscorediffaverage

distribution600050004000300020001000。-0.0002 -

0.00010.00000.00010.00020.000350004000300020001000。scorestdaverage

distribution0.000.250.500.751.001.251.501.752000017500150001250010000750050002500。scoreklaveragedistr

ibution0.000.050.100.150.200.25必偏好數(shù)據(jù)人工標(biāo)注值111111

度小滿 ms

upoPairwise[比較標(biāo)注)任務(wù)描述:給定一個(gè)真實(shí)用戶的指令問(wèn)題,以

及Al生成的與該指令相關(guān)的兩個(gè)回答A和B,擇出A、B中更好的一個(gè)按照標(biāo)

注準(zhǔn)則,

選評(píng)估檔位:

A/

B

I

0-30/

1/

2/

3

: 選擇傾向程度數(shù)字越大說(shuō)明對(duì)A/

8的傾向性越大專家質(zhì)檢:維持一致率rlhf-pair

標(biāo)注測(cè)試問(wèn)題描述:文本:“公司新

近發(fā)布的Q4財(cái)報(bào)顯示,營(yíng)收比去年同期增長(zhǎng)了15%,而凈利潤(rùn)同比增長(zhǎng)了10%.據(jù)公司CFO介紹,公司

今年的業(yè)填主要受益于新產(chǎn)品線的推出和海外市場(chǎng)的擴(kuò).張"問(wèn)題.對(duì)千這家公司的Q4財(cái)報(bào),有哪兩個(gè)因素主要貢獻(xiàn)了它的業(yè)損增長(zhǎng)?o這家公司的Q4財(cái)報(bào)的業(yè)績(jī)?cè)鲩L(zhǎng)主要由兩個(gè)因素貢獻(xiàn),一是新產(chǎn)品線的推出,二是海外市場(chǎng)的擴(kuò)張.。對(duì)千這家公司的

Q4

財(cái)報(bào),有哪兩個(gè)因素主要貢獻(xiàn)了它的

業(yè)績(jī)?cè)鲩L(zhǎng)?根據(jù)文本提供的信息,可以得出以下結(jié)論1.營(yíng)收比去年同期增長(zhǎng)了15%,而凈利潤(rùn)同比增長(zhǎng)了10%.2

公司今年業(yè)績(jī)主要受益千新產(chǎn)品線的推出和海外市場(chǎng)的擴(kuò)張.

因此,這兩個(gè)因素是公司Q4

財(cái)報(bào)業(yè)績(jī)?cè)鲩L(zhǎng)的主要原因.?A A AA更好A二 9BBB BB更好必`?偏好數(shù)據(jù)人工標(biāo)注值111111

度小滿 ms

upo問(wèn)題描述與標(biāo)注要求(創(chuàng)作類生成)·根據(jù)指令要求進(jìn)行創(chuàng)造性的文本生成應(yīng)用內(nèi)容包括不限于新聞稿、廣告策劃、旅行計(jì)劃、大綱、論文、述職報(bào)告、標(biāo)題創(chuàng)作、小說(shuō)創(chuàng)作、劇本、小說(shuō)、脫口秀、散文日記、說(shuō)唱歌詞、現(xiàn)代詩(shī)歌、古代詩(shī)詞、靈感分析、段落生成(好的開(kāi)頭、結(jié)尾)等·內(nèi)容創(chuàng)作任務(wù)中,非顯示現(xiàn)實(shí)類問(wèn)題,[如旅行計(jì)劃等】

,

不需要考慮內(nèi)容客觀真實(shí)性............................................................................................................................................................................................................................................................................................................................·優(yōu)先考慮:滿足生成指令要求情況[如字?jǐn)?shù)要求、文體格式要求等]其次考慮:

生成內(nèi)容合理性、生成效果·最后考慮:語(yǔ)言風(fēng)格偏好生成內(nèi)容合理性:

答內(nèi) 容是 否

符合邏輯、常識(shí)和事實(shí),是否有明

確的

論點(diǎn)

據(jù)

,是

晰的結(jié)構(gòu)和連接詞。生成效果:

回答內(nèi)容是否能夠達(dá)到預(yù)期的目的,是

否能夠 解決問(wèn) 題

滿足需求,是

否能夠 引起興 趣

或啟發(fā)思

考。必示例標(biāo)注結(jié)果選擇依據(jù)評(píng)價(jià)細(xì)則Q:

寫(xiě)一段商業(yè)口號(hào),

用千一家健康食品店的宣傳。1

、簡(jiǎn)潔性:簡(jiǎn) 潔明了,

傳達(dá)核心信息,并引 起注意力。R1

(A) :“綠色生活,健康選擇!品質(zhì)卓越,營(yíng)養(yǎng)豐富,為您的健康保駕護(hù)航! ”R2 (B

)

:綠意盎 然,健

康無(wú)界!讓我們—起追求綠色生活,品

味健康人生!歡迎來(lái)到(綠意健康坊l

,

這里是您尋找最純凈

、最美A3B的回答太冗長(zhǎng)

,不適合當(dāng)商業(yè)口號(hào)、差異性:突出品 牌或產(chǎn)品的獨(dú)特之處,例如:農(nóng)夫山泉的標(biāo)語(yǔ)是“做大自然的搬運(yùn)工”。、品牌定位:考慮目標(biāo)受眾以及你的品牌或產(chǎn)品如何滿足他們的需求。味的天然食品的天堂!在這里,我們?yōu)槟峁┳钚迈r、最優(yōu)質(zhì)的健4

、可記憶和易傳播??凳巢?,讓您的餐桌充滿活力與營(yíng)養(yǎng),助您擁抱更美好的生活!Q:

請(qǐng)為一家新開(kāi)業(yè)的茶葉店設(shè)計(jì)一句標(biāo)語(yǔ),

吸引顧客。R1

(

A

)

:品 味人生,盡在這杯茶 香中一 歡迎光臨我們的茶葉天堂!R2

(

B

)

:品昧人生,靜心茗悟一 與您共享悠然茶時(shí) 光!B2B的回答更能凸顯出喝茶時(shí)的狀態(tài)與情緒,并且把喝茶能傳遞的韻味表達(dá)出來(lái),但是并沒(méi)有那么讓人驚艷1

、吸引力和記憶性:標(biāo) 語(yǔ)是否能夠留下深刻的印象。2

、目標(biāo)受眾定位:標(biāo) 語(yǔ)是否能夠準(zhǔn)確地傳達(dá)出產(chǎn)品、服務(wù)或活動(dòng)的特點(diǎn)和利益,吸引目標(biāo)受眾的關(guān)注和認(rèn)同。3

、簡(jiǎn)潔性與準(zhǔn)確性:標(biāo) 語(yǔ)是否簡(jiǎn)潔明了、是否文字表達(dá)意思正確。4

、情感共鳴:標(biāo) 語(yǔ)是否能夠激發(fā)目標(biāo)受眾的興趣、欲望或情感需求。偏好標(biāo)注值111111

度小滿 ms

upo示例---標(biāo)語(yǔ)口號(hào)類(創(chuàng)作類生成)必`?獎(jiǎng)勵(lì)模型訓(xùn)練值111111

度小滿 ms

upo建模方式:Bradley-

Terry

Model£(r)==—JE(

XY,c

Y,r)~璣l

o

g

位(r

(x,

Ye)

r

(x,

Yr)))]loss計(jì)算方式r1p咕+丿token-levelsentence-level、\ITP2

II T3P

)

rMp, ;rNpr

Np+lpos I

prompt

I 曰尸尸}

{

門(mén)曰曰II曰口一

一一一

-

--

---neg Iprompt

Ir1

n

li

T2n

)

r3n

,

丿rMnrMn+1rNn 1l _rN+n1必獎(jiǎng)勵(lì)模型訓(xùn)練值111111

度小滿 ms

upo難題1:正負(fù)樣本分布重疊一引入對(duì)比學(xué)習(xí),增加正負(fù)樣本的打分差距縮小與正樣本距離擴(kuò)大與負(fù)樣本距離正樣本/i難題2

: 標(biāo)注數(shù)據(jù)存在噪聲- 利用margin

loss對(duì)樣本加權(quán)噪聲等級(jí) 標(biāo)注員信心強(qiáng)度L1oss(<p;D)=-E(x,cyY,r)~D[loga-(Rcp(Yc'X)—Rcp(Yr,X))—M

noise(x,Ye,Yr)—M

belief(X,

Ye,Yr))]必…心

基于強(qiáng)化學(xué)習(xí)的模型微調(diào)流程\`、、、、l______三臥][-_/_-_夕,,,,,'Xuanyuan-708-Chat+ActorModel

(Policy)Reward

Modelr回復(fù)生成獎(jiǎng)勵(lì)計(jì)算prompt構(gòu)建難點(diǎn)1:泛化能力值111111

度小滿 ms

upo難點(diǎn)2: Reward

Hacking`,

`、、、PPOtraining0

=

0

+叨(

0)丿

,',}..___(dá)__________________________基千強(qiáng)化學(xué)習(xí)的微調(diào)訓(xùn)練pr

ompChem,cally,

why

was

the

Fat

Man

more

powerfulHow

do

you

decide

on

your

next

bake?

I

en1oyb

How

as

a

postdoc

do

I

real1st1cally

assess

my

GenuinequestiondevelopedonRobinWhydo

p1DidIputmycatdowntooearly?My

childhoodmodel_responlThe

eternal

debate"fat

Ma,

was

better

thanTheeternalconundrumofthe1mateurbaker?Theeternalconundrumofthe,ostdoc'How

doTheeternalconundrumofth?amateur

linguistTheeternalconundrumoft,ecatlover霄印

d強(qiáng)化微調(diào)效果評(píng)估428442884285 CMV:

All

fines

should

be

a

percent

of

personal4286Whenmeasuringhowhighterrain1son

the

moon

4287 Ifnoncognit1v1smisthere1ect1onof

truth

v

Update]

First

time

on

tenure-track

market.

proHowcanblackholesgrow1fnothing

passestheTheeternalconundrumofth,

beginnerphys1c1Theeternalconundrumofthe;11ateureconom1s

lThe

ete「nal

conundrum

of

pla1

atary

cartograp

h

Theeternalconundrumofthe>hilosophy

stude

Theeternalconundrumofth1unioracadem

ic難點(diǎn)3: 它是RL

!必針對(duì)難點(diǎn)1

泛化能力值111111

度小滿 ms

upoprom pt :訓(xùn) 練

reward model

{

RM)

的偏好promp

知的prompt混合而成,提

pr

ompt的泛化性RM

選擇由多種數(shù)據(jù)源(多個(gè)SFT模型生成,

不只PPO的底座)訓(xùn)練,提 高

RM

在未知

prom

pt

上的

泛化性能為了提高prom

pt質(zhì)量,進(jìn)一 步

聘請(qǐng)人員進(jìn)行prompt改寫(xiě)I修改前1I修改后I

1問(wèn)題I如何用最少的硬幣組?合湊出47分錢(qián)請(qǐng)為下面的文章內(nèi)容寫(xiě)一個(gè)精簡(jiǎn)的概述

去年雙十一期間,

婆、

母親帶著年幼的外孫女和外孫在上海法院調(diào)解

雙方均有責(zé)任I

視頻一請(qǐng)根據(jù)以下提供的信息,

為一家咖啡店設(shè)計(jì)一張宣傳海報(bào)。如何用最少的人民幣硬幣組合湊出1

.

7元錢(qián)?請(qǐng)為下面的文章內(nèi)容寫(xiě)一個(gè)精簡(jiǎn)的概述 去年雙十一期間,外 婆、

母親帶著年幼的外孫女和外孫在上海法院調(diào)解 雙方均有責(zé)任I—本土化開(kāi)源數(shù)據(jù)質(zhì)量關(guān)鍵信息缺失必針對(duì)難點(diǎn)2

: Reward

Hacking值111111

度小滿 ms

upo獎(jiǎng)勵(lì)正則化+動(dòng)態(tài)baseline

,

減小方差1KR(y

I

x)

徹(y

I

X)

下¥ 徹(礦伽)—

fJD

KL

忨(y IX)II'/ref(yI

X)]norm

reward SFT

baseline KL

penalty偏好獎(jiǎng)勵(lì)+

rule- b

ased

獎(jiǎng)勵(lì),削

弱對(duì)reward

model的強(qiáng)依賴強(qiáng)化學(xué)習(xí)算法:

P

PO

+

GAE必針對(duì)難點(diǎn)3

:它是RL

!值111111

度小滿 ms

upoRL

: 難訓(xùn)練Actor

、Critic對(duì)抗形式:難訓(xùn)練LLM

: 難訓(xùn)練·多個(gè)模型:難訓(xùn)練reward-free的方法·參考文獻(xiàn)+小模型上大量實(shí)驗(yàn)必模型評(píng)估值111111

度小滿 ms

upo·聘請(qǐng)多位專業(yè)人員進(jìn)行封閉題目評(píng)估一通用能力(包含安全性)XuanYuan2-70B-Chatvs

XuanYuan2-70B-SFT日常對(duì)話語(yǔ)言理解知識(shí)覆蓋數(shù)學(xué)計(jì)算邏輯推理內(nèi)容創(chuàng)作信息摘要代碼翻譯安全性agent能力皿皿歹玉

6萬(wàn)0%10%20%30%40% 50%good■same

■bad妞70%80%90%100%必模型評(píng)估值111111

度小滿 ms

upoc

as

e舉例:高情商回復(fù)問(wèn)題:RLHF

:“今天老板在運(yùn)動(dòng)會(huì)上得了倒數(shù)第二,我該怎么高情商吹彩虹屁"雖

然老板在運(yùn)動(dòng)會(huì)上得了倒數(shù)第二名,

但是我們?nèi)匀豢梢詮姆e極的角度來(lái)夸贊他的表現(xiàn),

例如:

1.“

老板,

你在運(yùn)動(dòng)會(huì)上的表現(xiàn)真的很棒,

我看到了你的努力和拼搏精神。“ 2. “

雖然成績(jī)不是最好的,

但是老板你的精神風(fēng)貌和積極態(tài)度真的讓人印象深刻?!翱傊?,我們可以從老板的努力、拼搏精神、積極的態(tài)度等方面來(lái)夸贊他,讓他感到我們的支持和鼓勵(lì)。 (給出方向、給了

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論