計(jì)算機(jī) 行業(yè)專題報(bào)告 DeepSeek-R1:強(qiáng)化學(xué)習(xí)+知識蒸餾比肩o1 20250122 -財(cái)通證券_第1頁
計(jì)算機(jī) 行業(yè)專題報(bào)告 DeepSeek-R1:強(qiáng)化學(xué)習(xí)+知識蒸餾比肩o1 20250122 -財(cái)通證券_第2頁
計(jì)算機(jī) 行業(yè)專題報(bào)告 DeepSeek-R1:強(qiáng)化學(xué)習(xí)+知識蒸餾比肩o1 20250122 -財(cái)通證券_第3頁
計(jì)算機(jī) 行業(yè)專題報(bào)告 DeepSeek-R1:強(qiáng)化學(xué)習(xí)+知識蒸餾比肩o1 20250122 -財(cái)通證券_第4頁
計(jì)算機(jī) 行業(yè)專題報(bào)告 DeepSeek-R1:強(qiáng)化學(xué)習(xí)+知識蒸餾比肩o1 20250122 -財(cái)通證券_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

計(jì)算機(jī)/行業(yè)專題報(bào)告/2025.01.22投資評級投資評級:看好(維持)分析師楊燁yangye01@1.《一文讀懂美國BIS最新禁令》2025-01-192.《大模型系列報(bào)告(一Transformer架構(gòu)的過去、現(xiàn)在和未來》2025-01-3.《電力信息化研究框架一)總章》2025-01-14DeepSeek-R1發(fā)布,對標(biāo)OpenAIo1正式版。發(fā)布一系列DeepSeek-R1模型,包括DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill系列。DeepSeek-R1模型推理能力優(yōu)異,基準(zhǔn)測試表現(xiàn)與OpenAI-o1-1217相當(dāng),且API服務(wù)定價(jià)遠(yuǎn)低于OpenAI同類產(chǎn)品。大規(guī)模強(qiáng)化學(xué)習(xí),激發(fā)大模型推理潛能:DeepSeek-R1-Zero在技術(shù)路線上實(shí)現(xiàn)了突破性創(chuàng)新,成為首個完全摒棄監(jiān)督微調(diào)環(huán)節(jié)、完全依賴強(qiáng)化學(xué)習(xí)訓(xùn)練的大語言模型,證明了無監(jiān)督或弱監(jiān)督學(xué)習(xí)方法在提升模型推理能力方面的巨大潛力。在此基礎(chǔ)上,DeepSeek-R1對R1-Zero進(jìn)行了改進(jìn)。通過引入冷啟動數(shù)據(jù),并歷經(jīng)推理導(dǎo)向強(qiáng)化學(xué)習(xí)、拒絕采樣、監(jiān)督微調(diào)以及全場景強(qiáng)化學(xué)習(xí)的多階段訓(xùn)練,充分發(fā)揮了強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)和自進(jìn)化能力。知識蒸餾技術(shù),讓小模型也能“聰明”推理:DeepSeek團(tuán)隊(duì)深入探索了將R1的推理能力蒸餾到更小模型中的潛力,發(fā)現(xiàn)經(jīng)過R1蒸餾的小模型在推理能力上實(shí)現(xiàn)了顯著提升,甚至超過了在這些小模型上直接進(jìn)行強(qiáng)化學(xué)習(xí)的效果,證明了R1學(xué)到的推理模式具有很強(qiáng)的通用性和可遷移性,能夠通過蒸餾有效傳遞給其他模型。這些結(jié)論為業(yè)界提供了新的啟示:對小模型而言,蒸餾優(yōu)于直接強(qiáng)化學(xué)習(xí),大模型學(xué)到的推理模式在蒸餾中得到了有效傳遞。API服務(wù)定價(jià)為每百萬輸入tokens1元(緩存命中)/4元(緩存未命中每百萬輸出tokens16元,遠(yuǎn)低于可比大模型API服務(wù)。DeepSeek-R1的高性價(jià)比API定價(jià)有助于開發(fā)者在使用后加速模型的功能迭代,從而解決目前模型存在的不足。DeepSeek-R1-Zero展示的無SFT的強(qiáng)化學(xué)習(xí)技術(shù)為大模型開發(fā)者提供了一種新的訓(xùn)練范式,即通過強(qiáng)化學(xué)習(xí)來激發(fā)模型的內(nèi)在潛力,從而在多個領(lǐng)域?qū)崿F(xiàn)更高效、更精準(zhǔn)的推理能力。對于小模型,DeepSeek-R1-Distill系列通過知識蒸餾技術(shù),成功將大模型的推理能力傳遞給小模型,實(shí)現(xiàn)了小模型在推理任務(wù)上的顯著提升,引領(lǐng)了小模型的發(fā)展方向。投資建議:建議重點(diǎn)關(guān)注基礎(chǔ)設(shè)施領(lǐng)域的公司,如英偉達(dá)、海光信息、寒武紀(jì)、協(xié)創(chuàng)數(shù)據(jù)、英維克、中科曙光、浪潮信息、潤澤科技、歐陸通、曙光數(shù)創(chuàng)、申菱環(huán)境、東陽光等,同時(shí)持續(xù)關(guān)注全球各大模型廠商、學(xué)界的創(chuàng)新進(jìn)展。風(fēng)險(xiǎn)提示:技術(shù)迭代不及預(yù)期的風(fēng)險(xiǎn);商業(yè)化落地不及預(yù)期的風(fēng)險(xiǎn);政策支持不及預(yù)期風(fēng)險(xiǎn);全球宏觀經(jīng)濟(jì)風(fēng)險(xiǎn)。謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)2 3 42.1DeepSeek-R1-Zero:以強(qiáng)化學(xué)習(xí)完全取代監(jiān)管微調(diào) 4 5 7 9 3 3 4 5 5 7 8 8 9 謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)31DeepSeek-R1發(fā)布,對標(biāo)OpenAIo1正式版了97.3%的驚人成績,表現(xiàn)與OpenAI-o1-1217相當(dāng),并明顯優(yōu)于其他模型。在編謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)42大規(guī)模強(qiáng)化學(xué)習(xí):激發(fā)大模型推理潛能節(jié),需要先通過人工標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,再結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化,這一范用純強(qiáng)化學(xué)習(xí)訓(xùn)練框架,以DeepSeek-V3-Base為基礎(chǔ),通過群組相對策略優(yōu)化能的雙重提升。該算法通過構(gòu)建智能體群體間的相對優(yōu)勢評估機(jī)制,在策略優(yōu)化過程中最大化群體得分,同時(shí)設(shè)計(jì)了包含準(zhǔn)確性獎勵和格式規(guī)范獎勵的多維度獎勵模型,確保生成內(nèi)容在保持正確性的基礎(chǔ)上具備清晰的推理邏輯。圖3.隨著RL訓(xùn)練推進(jìn),DeepSeek-R1-Zero的AIME2024基準(zhǔn)測試成績穩(wěn)定且持續(xù)提升數(shù)據(jù)來源:DeepSeek論文《DeepSeek-R1:Inc算法的有效性。實(shí)證數(shù)據(jù)顯示,在AIME2024基準(zhǔn)測試中,模型平均pass@1得分從初始的15.6%持續(xù)提升至71.0%,最終達(dá)到與OpenAIo1-0912相當(dāng)?shù)男阅芩?jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)5數(shù)據(jù)來源:DeepSeek論文《DeepSeek-R1:Inc發(fā)地重新評估之前的步驟,并進(jìn)行反思,即重新審視并評估之前的步驟,還會探圖5.DeepSeek-R1-Zero中間版本的“頓悟現(xiàn)象”數(shù)據(jù)來源:DeepSeek論文《DeepSeek-R1:Inc上的成功,證明無監(jiān)督或弱監(jiān)督學(xué)習(xí)方法在提升模型推理能力方面的巨大潛力,DeepSeek-R1在R1-Zero的基學(xué)習(xí)(Reasoning-orientedReinforcementLearning)、拒絕采樣和監(jiān)督微調(diào)謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)6R1-Zero相同的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練過程,重點(diǎn)提升模型在推理密集型任務(wù)準(zhǔn)確性和語言一致性獎勵相結(jié)合,形成獎勵信號,用于指導(dǎo)V3的SFT數(shù)據(jù)集。在通過提示回答問題之前,DeepSeek微調(diào),進(jìn)行第二輪強(qiáng)化學(xué)習(xí),以進(jìn)一步優(yōu)化模型的推理能力和通用性。在推理數(shù)據(jù)上,使用基于規(guī)則的獎勵模型;在非推理數(shù)據(jù)上,使用獎勵模型來捕捉人類在復(fù)雜場景中的偏好。此外,還分別對模型的幫助性和無害性進(jìn)行訓(xùn)謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)7數(shù)據(jù)來源:DeepSeek論文《DeepSeek-R1:Inc相較于DeepSeek-V3模型,DeepSeek-R1在功能調(diào)用、多輪對話等方面的能力較弱。在處理非中英語言查詢時(shí),DeepSeek-R1容易出現(xiàn)語言混合的問題,對提示R1相較于DeepSeek-V3的提升也不夠明DeepSeek-V3-Base模型的基礎(chǔ)上,先利用少量高質(zhì)量的冷啟3知識蒸餾技術(shù):讓小模型也能“聰明”推理DeepSeek團(tuán)隊(duì)深入探索了將R1的推理能力蒸餾到更小模型中的潛力,利用謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)8Base上進(jìn)行的強(qiáng)化學(xué)習(xí)的DeepSeek-R1-Zero-Qwen-數(shù)據(jù)來源:DeepSeek論文《DeepSeek-R1:Inc大模型學(xué)到的推理模式在蒸餾中得到了有效傳遞。AIME2024上取得了72.6%的驚人成績,在MATH-500上得分94.3%,在LiveCodeBench上得分57.謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)94DeepSeek-R1高性價(jià)比API定價(jià),極具商業(yè)化落地潛力高,用戶需要更精確地設(shè)計(jì)提示詞才能獲得較好的結(jié)果。在面向?qū)I(yè)開發(fā)者時(shí),軟件開發(fā)輔助工具、代碼生成等領(lǐng)域的應(yīng)用效果不如預(yù)期,進(jìn)而限制其在軟件工謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)105總結(jié)和啟示:強(qiáng)化學(xué)習(xí)與知識蒸餾,DeepSeek引領(lǐng)LLM創(chuàng)新之路是通過純強(qiáng)化學(xué)習(xí)讓模型自主探索和發(fā)現(xiàn)解決問題的方法,從而實(shí)現(xiàn)了自主學(xué)習(xí)和演化,減少了對高質(zhì)量標(biāo)注數(shù)據(jù)的依賴,對于難以獲取大量標(biāo)注數(shù)據(jù)的領(lǐng)域尤謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)11的發(fā)展方向。這些研究表明可以通過將大型模型的知識有效蒸餾到小型模型中,這種技術(shù)不僅解決了小模型在資源受限情況下的性能瓶頸問題,還為其在實(shí)時(shí)應(yīng)6投資建議光等,同時(shí)持續(xù)關(guān)注全球各大模型廠商、學(xué)界的7風(fēng)險(xiǎn)提示謹(jǐn)請參閱尾頁重要聲明及財(cái)通證券股票和行業(yè)評級標(biāo)準(zhǔn)12政策支持不及預(yù)期風(fēng)險(xiǎn):新行業(yè)新技術(shù)的推廣需要政策支持,謹(jǐn)請參

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論