計(jì)算機(jī)行業(yè)DeepSeek-R1強(qiáng)化學(xué)習(xí)與知識(shí)蒸餾比肩O1_第1頁
計(jì)算機(jī)行業(yè)DeepSeek-R1強(qiáng)化學(xué)習(xí)與知識(shí)蒸餾比肩O1_第2頁
計(jì)算機(jī)行業(yè)DeepSeek-R1強(qiáng)化學(xué)習(xí)與知識(shí)蒸餾比肩O1_第3頁
計(jì)算機(jī)行業(yè)DeepSeek-R1強(qiáng)化學(xué)習(xí)與知識(shí)蒸餾比肩O1_第4頁
計(jì)算機(jī)行業(yè)DeepSeek-R1強(qiáng)化學(xué)習(xí)與知識(shí)蒸餾比肩O1_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

內(nèi)容目錄1DeepSeek-R1發(fā)布,對(duì)標(biāo)OpenAIo1正式版 32大規(guī)模強(qiáng)化學(xué)習(xí):激發(fā)大模型推理潛能 42.1DeepSeek-R1-Zero:以強(qiáng)化學(xué)習(xí)完全取代監(jiān)管微調(diào) 42.2DeepSeek-R1:引入冷啟動(dòng)與多階段訓(xùn)練 53知識(shí)蒸餾技術(shù):讓小模型也能“聰明”推理 74DeepSeek-R1高性價(jià)比API定價(jià),極具商業(yè)化落地潛力 95總結(jié)和啟示:強(qiáng)化學(xué)習(xí)與知識(shí)蒸餾,DeepSeek引領(lǐng)L 圖表目錄圖表目錄圖1.DeepSeek發(fā)布DeepSeek-R1模型 3 3 4 5圖5.DeepSeek-R1-Zero中間版本的“頓悟現(xiàn)象” 5圖6.DeepSeek-R1的基準(zhǔn)測(cè)試成績?cè)诙鄠€(gè)維度超越V3以及OpenAI、Anthropic的主流模型 7圖7.DeepSeek-R1蒸餾模型 8圖8.QwQ-32B-Preview與經(jīng)過強(qiáng)化學(xué)習(xí)和R1蒸餾Qwen-32B模型的基準(zhǔn)測(cè)試成績對(duì)比 8 9 圖11DeepSeek-R1深度思考能力示例 我可以幫你寫代碼、讀文件,寫作各種創(chuàng)意內(nèi)容,請(qǐng)把你的任務(wù)交給我吧0數(shù)據(jù)來源:DeepSeek官網(wǎng),2024上獲得了79.8%的成績,略高于OpenAI-o1-1217。在MATH-500上,它獲得了97.3%的驚人成績,表現(xiàn)與OpenAI-o1-1217相當(dāng),并明顯優(yōu)于其他模型。在編上獲得了2029Elo評(píng)級(jí),在競(jìng)賽中表現(xiàn)優(yōu)于96.3%的人類參與者。對(duì)于工程相關(guān)aDeepSeek-R1-32BOpenAl-1-minlD3數(shù)據(jù)來源:DeepSeek官方, 過程中最大化群體得分,同時(shí)設(shè)計(jì)了包含準(zhǔn)確性獎(jiǎng)40000數(shù)據(jù)來源:DeepSeek論文《DeepSeek-R1:IncenReinforcementLe分從初始的15.6%持續(xù)提升至71.0%,最終達(dá)到與OpenAIol-0912相當(dāng)?shù)男阅芩甉uestion:Ifa>1,thenthesumoftherealsolutionsof√a-Va+x=xisequaltoTosolvetheequationva-Va+x=Rearrangetoisolatetheinnersqua(a-x2)2=a+x=a2-2ax2+(x2)2=a+x=x?-ReinforcementLearn2.2DeepSeek-R1:引入冷啟動(dòng)與多階段訓(xùn)練學(xué)習(xí)(Reasoning-orientedReinforcementLearning)、拒絕采樣和監(jiān)督微調(diào)(如編碼、數(shù)學(xué)、科學(xué)和邏輯推理)上的性能。為了解決語言混合問題,引生成潛在的CoT,并最終收集了大約20萬個(gè)與非推理訓(xùn)練樣本相關(guān)的數(shù)據(jù)。調(diào),進(jìn)行第二輪強(qiáng)化學(xué)習(xí),以進(jìn)一步優(yōu)化模型的推圖6.DeepSeek-R1的基準(zhǔn)測(cè)試成績?cè)诙鄠€(gè)維度超越V3以及OpenAI、Anthropic的主Claude-3.5-GPT-4oDe37B~37B51.159.171750.875916.096.648.961.7ReinforcementLe弱。在處理非中英語言查詢時(shí),DeepSeek-R1容易出現(xiàn)語言混合的問題,對(duì)提示后再進(jìn)行強(qiáng)化學(xué)習(xí)。這種方法結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),既可以利用人DeepSeek團(tuán)隊(duì)深入探索了將R1的推理能力蒸餾到更小模型中的潛力,利用DeepSeek-R1生成的800K數(shù)據(jù)對(duì)Qwen和Llama系列的多個(gè)小模型進(jìn)行了微DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distill-QwDeepSeek-R1-Distill-LlaDeepSeek-R1-Distill-QweDeepSeek-R1-Distill-QweDeepSeek-R1-Distill-Llam數(shù)據(jù)來源:DeepSeek官方,Base上進(jìn)行的強(qiáng)化學(xué)習(xí)的DeepSeek-R1-Zero-Qwen-32B僅達(dá)到QwQ-32B-Preview數(shù)據(jù)來源:DeepSeek論文《DeepSeek-R1:IncenAIME2024上取得了72.6%的驚人成績,在MATH-500上得分94.3%,在LiveCodeBench上得分57.2%,這些結(jié)果顯著優(yōu)于之前的開源模型,并與ol-mini數(shù)據(jù)來源:DeepSeek官方,4DeepSeek-R1高性價(jià)比API定價(jià),極具商業(yè)化落地潛力RIAPI服務(wù)定價(jià)為每百萬輸入tokens1元(緩存命中)/4元(緩存未命中),每百(緩存命中)/110元(緩存未命中),每百萬輸出tokens是438元。DeepSeek-R1用戶需要更精確地設(shè)計(jì)提示詞才能獲得較好的結(jié)果。在面向?qū)I(yè)開發(fā)者時(shí),DeepSeek-R1系列模型在軟件工程任務(wù)上未能展示出顯著的改進(jìn),可能導(dǎo)致其在軟件開發(fā)輔助工具、代碼生成等領(lǐng)域的應(yīng)用效果不如預(yù)期,進(jìn)而限制其在軟件工圖10.DeepSeek-R1與OpenAI同類產(chǎn)品的API價(jià)格比較01類推理模型輸入輸出價(jià)格(元/1MTokens)1410輸入API價(jià)格(緩存命中)輸入輸入API價(jià)格(緩存命中)輸入API價(jià)格(緩存未命中)數(shù)據(jù)來源:DeepSeek官方,領(lǐng)LLM創(chuàng)新之路DeepSeek-R1-Zero展示的無SFT的強(qiáng)化學(xué)習(xí)技術(shù)為產(chǎn)業(yè)提供了一種新的訓(xùn)練范式,即通過強(qiáng)化學(xué)習(xí)來激發(fā)模型的內(nèi)在潛力,從而在多個(gè)領(lǐng)域?qū)崿F(xiàn)更高效、更精準(zhǔn)的推理能力,為模型擴(kuò)展(scaling)提供新的工程化方向。正如DeepSeek-R1的技術(shù)論文中所說,強(qiáng)化學(xué)習(xí)的力量和美麗在于,與其明確地教模型如何解決問R1-Zero創(chuàng)新了語言模型的訓(xùn)練范式,不再依賴大量的標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),而是通過純強(qiáng)化學(xué)習(xí)讓模型自主探索和發(fā)現(xiàn)解決問題的方法,從而實(shí)現(xiàn)了自主學(xué)習(xí)和演化,減少了對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的依賴,對(duì)于難以獲取大量標(biāo)注數(shù)據(jù)的領(lǐng)域尤為重要,生成的CoT作為訓(xùn)練數(shù)據(jù),也為后續(xù)使用算法和技術(shù)手段生成或增強(qiáng)高質(zhì)量數(shù)據(jù)以訓(xùn)練模型提供了新思路。2^3和3^2誰更大2^3和3^2誰更大先,2×2是4,然后再乘以2就是8.所以2等于8.接下來算3的平方,也就是3×3,結(jié)果是9.所以3等于9.那這樣的先計(jì)算3n2的值,In2約等于0.6931,所以3×0.6931=2.0794.而n3約等于1.0986,所以2×1.0986=2.1972.比較這兩個(gè)結(jié)果的話,21972比2.0794大,所以n(37大于In(2°),因此3大于2',這和我之前直接計(jì)算的括果是一致的。不過,可能還有一種方法,比如比較它們的比值成者差值,比如,計(jì)算32-2°,也就是9-8=1,這樣顯然3比2大1.成者,計(jì)算它們的比值,32/23=9/8=1.125,這說明32是2的1.125倍,所以更大步程解析:1.直接計(jì)算數(shù)值:比較結(jié)果:9>8-3>212.對(duì)數(shù)比較法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論