大模型原理、技術與應用:從GPT到DeepSeek_第1頁
大模型原理、技術與應用:從GPT到DeepSeek_第2頁
大模型原理、技術與應用:從GPT到DeepSeek_第3頁
大模型原理、技術與應用:從GPT到DeepSeek_第4頁
大模型原理、技術與應用:從GPT到DeepSeek_第5頁
已閱讀5頁,還剩111頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

______________. enseek______________. enseek為什么是語言?語言是人類交流思想、表達情感最自然、最深刻、最方便的工具"語言是繼真核細胞之后最偉大"語言是繼真核細胞之后最偉大的進化成就"——社會生物學之父愛德華·威爾遜"語言本身就是人類有史以來最大的技術發(fā)明""語言本身就是人類有史以來最大的技術發(fā)明"——詹姆斯·格雷克《信息簡史》什么是自然語言處理?n自然語言處理(NaturalLanguagen自然語言處理(NaturalLanguageProcessing,NLn屬于認知智能是人類和動物的主要區(qū)別之一需要更強的抽象和推理能力運算智能能存儲會計算認知智能能理解會思考能聽會說能看會認"深度學習的下一個大的進展應該是讓神經(jīng)網(wǎng)絡真正理解文檔的內容"深度學習的下一個大的進展應該是讓神經(jīng)網(wǎng)絡真正理解文檔的內容研究項目"億美金,我會建造一個研究項目"億美金,我會建造一個級別的NASA級別的NASA深度學習的下一個前沿課題是深度學習的下一個前沿課題是自然語言理解得天下"——美國工程院士、微軟前全球執(zhí)行副總裁得天下"——美國工程院士、微軟前全球執(zhí)行副總裁沈向洋"下一個十年,懂語言者自然語言處理的發(fā)展歷史淺層機器學習算法小規(guī)模專家知識1950~19901990~2010淺層機器學習算法小規(guī)模專家知識1950~1990預訓練語言模型2018~20232010~2017大模型2023~2024GPT輸出層吃土豆燉茄子。Transformer輸出層吃土豆燉茄子。Transformer詞嵌入層MMMMM輸入層喜歡詞嵌入層MMMMM輸入層喜歡吃土豆燉茄子預訓練階段GPT輸出層褒義輸出層褒義任務層任務層TransformEr開啟了自然語言處理TransformEr開啟了自然語言處理預訓練模型時代詞嵌入層MMMMM輸入層我愛吃馬鈴薯詞嵌入層MMMMM輸入層我愛吃馬鈴薯[PAD]精調階段數(shù)據(jù)標注未標注文本語料庫GPT3:大模型早已有之n為不同的任務設計相應的“提示語”我喜歡這部電影的情感是褒義我喜歡這部電影的情感是褒義任務描述示例(In-context)GPT-3代碼生成示例GPT3的不足缺乏知識推理缺乏知識推理與可解釋性GPT-3原文指出,在故事結尾選擇任務上比哈工大丁效等所提出的具有知識推理能力的模型低4.1%!的預訓練語言模型并不能真正克服深度學習模型魯棒性差、可解釋性弱、推理能力的預訓練語言模型并不能真正克服深度學習模型魯棒性差、可解釋性弱、推理能力缺失瓶頸,故在深層次語義理解上瓶頸,故在深層次語義理解上chatGPT的關鍵核心技術():無監(jiān)督學習大規(guī)模預訓練語言模型,涌現(xiàn)出推理能力模型參數(shù)量模型參數(shù)量(1T)Gshard(600B)zeRO-2GPTV3(170B)(175B)T-NLGMegatronT5(8B)(11B)GPTV2T-ELMo(465M)GPTV1(110M)(94M)201820192020year(30B)ROBERTA(500M)(355M)Ai2ELMoMT-DNN(330M)BERT-L(340M)Ai2GroverDeepspeed(17B)XLMRchatGPTchatGPT的關鍵核心技術(2/3):有監(jiān)督學習 L/pdf/2210.11416.pdfchatGPTchatGPT的關鍵核心技術(3/3):強化學習 將大模型進一步向人類期望對齊:人類反饋強化學習(RLHF)Lhttps://huggingface.co/blog/rlhfGemini-2GGemini-ThinkingGLM-ZeroDeepSeek-R1DeepSeek-v2.5DeepSeek-v3Step-Reason-mini2025Skywork-o1OLMo2 Qwen2.5 CriticGPT Qwen2DeepSeek-v2Gemini-2GGemini-ThinkingGLM-ZeroDeepSeek-R1DeepSeek-v2.5DeepSeek-v3Step-Reason-mini2025Skywork-o1OLMo2 Qwen2.5 CriticGPT Qwen2DeepSeek-v2引爆"百模大戰(zhàn)"ModelSourceEncoder-onlyEncoder-DecoderDecoder-only text-embedding-3Qwen1.5GGeminiSkywork2024DeepSeek-LLMQwen JliBaichuanChatGLMVicunaMossGPT4Jurassic-2 mT0\2023Ada-002GFlanT5WeLMSparrowChatGPTGUL2TkGPTNeoXInstructGPT XGLM GopherGLM2022 SimCSESwitch2021GT0GmT5GPT32020SpanBERTGXLNet DistillBERT ALBERT 20192018Jurassic-1 text-embedding-3Qwen1.5GGeminiSkywork2024DeepSeek-LLMQwen JliBaichuanChatGLMVicunaMossGPT4Jurassic-2 mT0\2023Ada-002GFlanT5WeLMSparrowChatGPTGUL2TkGPTNeoXInstructGPT XGLM GopherGLM2022 SimCSESwitch2021GT0GmT5GPT32020SpanBERTGXLNet DistillBERT ALBERT 20192018Jurassic-1 TransformerVicuna-v1.5GFlanPaLMChinchilla/Alpaca OLMoGemini-1.5 語言模型震撼了科學界!”由中國研發(fā)的DeepSeek-R1大模型是一種既具其性能可與OpenAI的o1模型媲美。通過模仿解決科學問題時表現(xiàn)得比早期大模型更為出色,R1R1zeroR1zero核心技術:SFT學習推理格式核心技術:SFT學習推理格式V3核心技術:只使用RL學會推理V3核心技術:只使用RL學會推理發(fā)布時間:2024.12發(fā)布時間:2024.12V2V2V1V1訓練數(shù)據(jù)量:2T最大參數(shù)量:最大參數(shù)量:67B只使用強化學習(只使用強化學習(RL模型自主學習到推理能力,性能接近o1模型學習到推理能力,性能接近o1模型只用RL只用RL堅持開源精神,開放了訓練、推理速度更快,遠超o1類堅持開源精神,開放了訓練、推理速度更快,遠超o1類模型及其蒸餾出的子模型模型,極大節(jié)約硬件成本模型及其蒸餾出的子模型模型,極大節(jié)約硬件成本自然語言處理的發(fā)展歷史淺層機器學習算法小規(guī)模專家知識深度學習大模型推理預訓練語言模型淺層機器學習算法小規(guī)模專家知識深度學習大模型推理預訓練語言模型判斷或知識的認知活動。它是人類思維和智能的核心組成部分,也是人工智能、科學研究和日常決策中的關鍵能力。推理采用的核心技術 (b)少樣例思維鏈推理(b)少樣例思維鏈推理(Weietal.,2022)(a)少樣例推理問:小明有5個乒乓球,他又買了2筒乒乓球,每桶有3(c)零樣例推理(c)零樣例推理(d)零樣例思維鏈推理(Kojimaetal.,2022)答:讓我們一步一步地思考。zero核心技術https:///2079-9292/10/13/1533準確率獎勵(accuracyrewar格式獎勵(formatrewards確保模型輸出正確的答案格式和推理過程zero核心技術zero核心技術 L/abs/2402.03300利用當前策略模型進行多次采樣,并使用平均獎勵值近似價值函數(shù),從而避免了對價值函數(shù)的顯式訓練,這樣做既減少了計算開銷,又避免了價值函數(shù)訓練的困難,提高了模型學習的穩(wěn)定性zero實驗結果 RL需要大量的數(shù)據(jù):R1-Zero訓了8000個 RL需要大量的數(shù)據(jù):R1-Zero訓了8000個/abs/2501.12948zero實驗結果/abs/2501.12948zero實驗結果/自我評估機制/abs/2501.12948zero實驗結果zero實驗結果nn隨著強化學習的步驟數(shù)增加,可以實現(xiàn)思維鏈長度自然增長/abs/2501.12948總路線https://huggingface.co/blog/open-r1n第三階段通過拒絕采樣(rejectionsamSFT推理及通用數(shù)據(jù)多場景SFT推理數(shù)據(jù)RLSFT推理及通用數(shù)據(jù)多場景SFT推理數(shù)據(jù)RL推理數(shù)據(jù)Deepseek-Deepseek-Deepseek-Deepseek-R1-Middle總路線能夠讓思維空間更加像人類的思維增加穩(wěn)定性https/abs/2501.12948主要模型架構優(yōu)化技術n多頭隱含注意力(Multi-headLatentAttention,MLA)n多詞元預測(Multi-TokenPrediction,MTP)nFP8混合精度訓練nDualPipen跨節(jié)點All-All通信/pdf/2412.19437/pdf/2412.19437算法優(yōu)化多頭隱含注意力(MLA)/pdf/2412.19437/pdf/2412.19437Infra優(yōu)化FP8混合精度訓練Query/KeyCompressionAttentionComputationAttentionComputationRoPEApplicationRoPEApplicationDecoupled,Decoupled,FP8https://aman.ai/primers/ai/deepseek-R1//pdf/2412.19437/pdf/2412.19437方法跨節(jié)點GPU通過IB通信,節(jié)點內通過NVLink通信,每個詞元最多調度到4個節(jié)點,從而減少IB通信量。同時使用warp技術做調度和組合的優(yōu)化),WarpWarp? Warp?? Warp?WarpNVLink相連的GPU節(jié)點NVLink相連的GPU節(jié)點all-all調度NVLink相連的GPU節(jié)點NVLink相連的GPU節(jié)點NVLink相連的GPU節(jié)點NVLink相連的GPU節(jié)點all-all調度all-all組合/~sjt/pubs/ppopp14.pdf模型名稱參數(shù)量/個訓練設備訓練卡時/×模型名稱參數(shù)量/個訓練設備訓練卡時/×106小時訓練成本/×106美元Llama65BA100-80GB,2048塊≈1.0≈1.4LlamaA100-80GB,約2000塊LlamaH100-80GB,數(shù)量未知Llama405BH100-80GB,約16000塊LlamaH100-80GB,數(shù)量未知DeepSeek-V3671BH800-80GB,2048塊≈2.8≈5.6prompt工程1.Writeclearinstructions撰寫清晰的指令2.Providereferencetext提供參考文本3.Splitcomplextasksintosimplersubtasks將復雜的任務拆分為更簡單的子任務4.Givethemodeltimeto"think”給模型時間“思考”5.Useexternaltools使用外部工具6.Testchangessystematically系統(tǒng)地測試變更/docs/guides/prompt-engineeringTips:上下文缺失,未說明身份/對象,無法適配溝通場景上下文缺失,未說明身份/對象,無法適配溝通場景具體任務目標無輸出格式與風格要求無輸出格式與風格要求,禮貌程度有限必要背景信息格式/語氣要求參數(shù)模糊,參數(shù)模糊,模型無法給出明確具體的方案關鍵數(shù)據(jù)指標缺少明確的分隔符標識不同字段Tips:加入明確的分隔符區(qū)分輸入中的不同部分,如“原文”、“待插入段”等可以使用標簽作為分隔符包裹字段,如<insert>公司承諾…</inserTips:二、提供參考資料對于知識類問答模型可能存在幻覺對于知識類問答模型可能存在幻覺Tips可提供的資料包括:?技術類任務:提供核心概念、原理說明?行業(yè)分析類任務:提供市場數(shù)據(jù)、公司案例?學術類任務:提供研究論文、實驗數(shù)據(jù)?趨勢預測類任務:提供歷史數(shù)據(jù)、專家觀點三、分解復雜問題Tips結構松散,缺乏邏輯和層次化關系結構松散,缺乏邏輯和層次化關系重要板塊缺失,缺少未來工作與總結重要板塊缺失,缺少未來工作與總結結構松散,缺乏邏輯和層次化關系結構松散,缺乏邏輯和層次化關系Tips?可以借助代碼輔助完成數(shù)值計算等推理類問題相同程序,模型輸出的錯誤結果精度不夠導致最終相同程序,模型輸出的錯誤結果精度不夠導致最終計算結果錯誤Tips型的改變而改變?模型可能對于自身結果存在較大的傾向知知識不足風格不對RAGRAG檢索增強生成https://www.ml6.eu/blogpost/leveraging-llms-on-your-domain-specific-knowledge-base工具學習社會模擬工具學習社會模擬群體智能單體智能群體智能AutonomousAgents具身智能人工智能驅動的科學研究協(xié)作與對抗推廣大模型應用智能體具身智能決策機情感個性化輕量化價值觀對齊推理可解釋性多模態(tài)數(shù)據(jù)歸因數(shù)據(jù)合成模型架構設計增量預訓練"活字"對話大模型活字1.0:基于BLOOM-7B進行指令微調活字1.0:基于BLOOM-7B進行指令微調n更好的指令遵循能力,支持生成和理解代碼以及表格n安全性指標達到84.4%,甚至超越了ChatGPT(81.9%)活字2.0:基于活字1.0,通過人類反饋的強化學習(RLHF)訓練活字2.0:基于活字1.0,通過人類反饋的強化學習(RLHF)訓練n回答更豐富,更符合人類偏好n開源了首個中文RLHF數(shù)據(jù)集活字3.0:基于Mixtral-8x7B進行中文擴詞表和指令微調n高達32K上下文長度,支持讀取更長的文本n具有豐富的中英文知識和強大的數(shù)學推理、代碼生成能力2023年3月6日發(fā)布哈工大《ChatGPT調研報告》(84頁)珠算代碼大模型生成速度提升至2倍以上化,通過知識蒸發(fā)表于機器學習領域頂會NeuraIPS(CCFA)PythonR提出PythonR提出多語言程序思維鏈策略,數(shù)值計算等推理能力相比MultiPoTC++Java優(yōu)化預訓練微調數(shù)據(jù)到同級最優(yōu)珠算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論