




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人類經(jīng)驗與AI算法的鏡像之旅報告提綱語言的奧秘:人類如何解碼世界DeepSeek-R1:推理模型的誕生與突破從符號到智能:AI的語言理解之路智能體時代:AI如何重塑教育未來DeepSeek-V3:大語言模型的構建與進化語言對我們有多重要語言造就了人類,人和動物的根本區(qū)別就是人具有創(chuàng)造性地運用語言的能力語言賦予人類秩序語言是思維的工具語言是合作的紐帶如果想要實現(xiàn)通用的人工智能,理解人類使用的不太精確、可能有歧義、混亂的語言是一個有效途徑。語言對我們有多重要,《光明日報》,劉松青,2019-06-01維克多-D.O.-桑托斯的《是什么讓我們成為人類》人類是如何理解語言的?下雨了我要趕緊回家...“下雨”/“家”
/“收衣服”這些詞語,基于我們的經(jīng)驗,在我們大腦中已經(jīng)建立了固定的神經(jīng)連接。人類是如何理解語言的?下雨了我要趕緊回家收衣服。人類大腦通過理解每個詞語的意思、進行詞語組裝,從而得到句子的意思,甚至推斷出句子背后的含義。因此,理解語言的基礎是理解詞語及詞語間的關聯(lián)關系。人類是如何理解語言的?人類語言的精準解譯與語義歧義的消解具有顯著的語境依賴性,需通過系統(tǒng)性整合上下文信息構建語義解析模型。這個蘋果品質真高,已通過歐盟有機認證,每顆果實都帶有NFC溯源標簽。報告提綱語言的奧秘:人類如何解碼世界DeepSeek-R1:推理模型的誕生與突破從符號到智能:AI的語言理解之路智能體時代:AI如何重塑教育未來DeepSeek-V3:大語言模型的構建與進化計算機的數(shù)字化世界TowardsSeamlessCommunicationforSignLanguageSupport:Architecture,Algorithms,andOptimization計算機理解一切信息的基礎是將信息進行數(shù)字化。在處理圖像時,計算機會將圖像的每一個像素轉換為數(shù)字信號,通常使用顏色的RGB值來表示每個像素。語言的數(shù)字化計算機無法直接理解離散的人類語言詞向量(word
embedding)和詞與詞之間的位置關系詞向量及單詞之間的相似度歐式距離:兩個點(或向量)在空間中的“直線距離”。它反映了兩個向量的絕對差異。歐氏距離值越小,說明兩個向量越接近;值越大,說明差異越大。余弦相似度:兩個向量之間夾角的余弦值來衡量它們的相似度。它反映了兩個向量的方向是否相似,而不關心向量的大小。更適用于比較兩者相似性(如文本相似度)。dogcatman本報告來源于三個皮匠報告站(),由用戶Id:339283下載,文檔Id:616421,下載日期:2025-03-07詞向量模型的缺陷在序列數(shù)據(jù)中,同一個元素處在不同的上下文中意思是不同的。如:(1) Theanimaldidn’tcrossthestreetbecauseitwastoo
tred.i(那只動物沒有過馬路,因為它太累了。)(2)Theanimaldidn’tcrossthestreetbecauseitwastoo
wde.i(那只動物沒有過馬路,因為馬路太寬了。)然而,傳統(tǒng)的詞向量模型中同一個詞只有一個向量,這對于一些詞語會造成歧義問題,如何解決這個問題呢?https://jalammar.github.io/illustrated-transformer/注意力機制與上下文建模大語言模型通過使用Transformer架構,可以為每個詞生成一個上下文相關的詞向量,這解決了傳統(tǒng)詞向量無法處理多義詞和上下文依賴的問題。一個單詞的真實含義,不僅僅取決于它自身,還取決于句子中的其它上下文信息(來自其它單詞的信息)。一個單詞的向量值,需要融合從句子上下文中的其他單詞中的信息,在數(shù)學上可以表達為所有單詞的向量值的加權平均。這些權重值,我們可以稱之為注意力權重
(attentionweights)。it與其他單詞之間的注意力權重。藍色的深淺表達了權重的相對大小。https://jalammar.github.io/illustrated-transformer/報告提綱語言的奧秘:人類如何解碼世界DeepSeek-R1:推理模型的誕生與突破從符號到智能:AI的語言理解之路智能體時代:AI如何重塑教育未來DeepSeek-V3:大語言模型的構建與進化文字接龍游戲大語言模型(LLM)最令人印象深刻的能力是它能夠通過對話的方式回答用戶的問題。那么LLM回答問題的原理是什么呢?不同于傳統(tǒng)問答系統(tǒng)中答案來源于現(xiàn)成的網(wǎng)絡或者數(shù)據(jù)庫,大語言模型的回答是隨著提問的進行自動生成的。這一點很像文字接龍游戲,大語言模型會基于前面的話不斷地生成下一個合成的詞匯,直到覺得不必繼續(xù)生成為止。蘋果是一種水果嗎?大語言模型下一個可能的詞概率確是蘋實的果0.89沒不香錯是蕉0.0956對好西的吃瓜0.0432......是的,是蘋的果是,確的蘋實果被歸類為一種水果。......···王一博,ChatGPT發(fā)展史:從基礎神經(jīng)元到多模態(tài)智能體,科學雜志大模型是如何工作的數(shù)學家陶哲軒:大模型不是魔法,是基于概率的猜測機。那么大模型是如何不斷生成下一個詞的概率的呢?實際上,這一過程依賴于模型內部的參數(shù),這些參數(shù)通過大量數(shù)據(jù)的訓練來不斷調整,蘊含了數(shù)據(jù)的分布規(guī)律,從而使模型能夠在特定上下文下預測出最合適的下一個詞。并且,當這些參數(shù)單元的數(shù)量級提升時,系統(tǒng)的認知能力通常會呈現(xiàn)出顯著的進化趨勢。-
0
.
0
12
.
3
41
.
0
9.
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
.?DeepSeek-V3
滿血版是67模型B:Billion
10億?(蘋果是一種水果嗎?)是的大模型的參數(shù)實際是什么東西?通俗解釋大模型是如何工作的Spreadsheets-are-all-you-need:在Excel
中完全實現(xiàn)了
GPT2
的前向推理過程。大模型的參數(shù)實際是什么東西?通俗解釋大模型參數(shù)是如何通過學習得到的?y=0.516x+0.8567(高爾頓)父親身高兒子身高(米)(米)1.651.691.721.751.781.801.831.791.901.83希望能夠得到一個模型:基于父親的身高預測兒子的未來身高。?=??+
?類似地,大語言模型的參數(shù)也是通過大量數(shù)據(jù)的學習,逐漸調整和優(yōu)化的,將數(shù)據(jù)的規(guī)律壓縮到參數(shù)中,以便對新的數(shù)據(jù)進行更準確地預測和生成合適的輸出。大模型訓練流程數(shù)據(jù)集訓練耗時模型算法預訓練原始數(shù)據(jù)萬億級別詞匯海量數(shù)據(jù)語言模型預訓練預測下一個詞基座模型千級別GPU,數(shù)月示例:GPT、LLaMA、PaLM指令微調指令數(shù)據(jù)數(shù)萬提示回復對<用戶指令,對應回復>語言模型監(jiān)督微調預測下一個詞指令微調模型1-100個GPU,數(shù)天示例:Vicuna-13B獎勵函數(shù)對比數(shù)據(jù)百萬次比較二元分類模型預測偏好一致的獎勵獎勵模型1-100個GPU,數(shù)天強化學習指令數(shù)據(jù)十萬次指令強化學習生成最大化獎勵的詞強化學習模型1-100個GPU,數(shù)天示例:ChatGPT,ClaudeStateofGPT,MicrosoftBuild2023,Andrej
Karpathy預訓練階段在模型預訓練(Pretraining)環(huán)節(jié),系統(tǒng)通過整合多種來源的數(shù)據(jù)資源構建訓練集,這些數(shù)據(jù)涵蓋互聯(lián)網(wǎng)網(wǎng)頁、維基百科、書籍、GitHub代碼庫、學術文獻及社區(qū)問答平臺等各類數(shù)據(jù)源,形成總量達萬億單詞級的多樣化語料庫?;诔売嬎慵海蓴?shù)千塊高性能GPU)和分布式訓練算法,逐步優(yōu)化深度神經(jīng)網(wǎng)絡的數(shù)千億參數(shù),最終形成具備通用語義理解能力的基座模型(BaseModel)。DeepSeek-V3模型的訓練語料庫包含14.8萬億詞元(Token)。若讓一個人每秒讀1個詞:需要
47萬年才能讀完,相當于從智人走出非洲開始晝夜不停讀到今天。假設每個token是一顆沙粒,14.8萬億顆沙可填滿4.5個北京水立方。預訓練階段原話:
一輛
列車
緩慢 行駛
在
崎嶇
的
山路上移除單詞:
一輛
列車
行駛
在
崎嶇
的
山路上預測填空:
一輛
列車
緩慢
行駛
在
崎嶇
的
山路上預訓練階段的訓練方法:完形填空下的自監(jiān)督學習(Self-supervised
Leaning)在預訓練階段,人工智能模型會不斷地在句子中‘挖去’一個單詞,根據(jù)剩下單詞的上下文來填空,即預測最合適的‘填空詞’出現(xiàn)的概率,這一過程為‘自監(jiān)督學習’。指令微調階段指令微調階段的訓練方法:指令微調(Instruction
Tuning),亦稱有監(jiān)督微調(SupervisedFinetuning),是一種通過向模型提供明確任務指令來實現(xiàn)參數(shù)優(yōu)化的方法。在此過程中,模型不僅學習輸入與輸出的映射關系,更重要的是掌握如何理解并執(zhí)行各類任務指令。該階段的訓練數(shù)據(jù)通常由少量高質量樣本構成,這些樣本包含用戶輸入的提示詞(prompt)及其對應的理想輸出(response)結果,從而確保模型能夠準確理解和響應特定任務需求。指令微調數(shù)據(jù)示例提示詞(Prompt):浙江大學的發(fā)展歷史?理想輸出(Response):浙江大學前身是創(chuàng)立于1897年的求是書院,1914年停辦。1928年于求是書院舊址新建國立浙江大學。1937年舉校西遷,在遵義、湄潭等地辦學,1946年秋回遷杭州。1952年部分系科轉入中國科學院和其他高校,主體部分在杭州重組為若干所院校,后分別發(fā)展為原浙江大學、杭州大學、浙江農(nóng)業(yè)大學和浙江醫(yī)科大學。1998年,同根同源的四校實現(xiàn)合并,組建了新的浙江大學。獎勵建模和強化學習獎勵建模(Reward
Modeling):構建一個能夠評估模型生成內容質量的獎勵模型(Reward
Model)。在強化學習階段,模型通過與獎勵模型的交互,優(yōu)化其生成策略以最大化獎勵。主要采用基于人類反饋的強化學習(RLHF,
Reinforcement
Learning
from
Human
Feedback)方法。模型根據(jù)獎勵模型的反饋調整參數(shù),從而生成更符合人類偏好的文本。報告提綱語言的奧秘:人類如何解碼世界DeepSeek-R1:推理模型的誕生與突破從符號到智能:AI的語言理解之路智能體時代:AI如何重塑教育未來DeepSeek-V3:大語言模型的構建與進化什么是推理模型Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒問題:Joy能在20分鐘內讀8頁書。她需要多少小時才能讀完120頁書?Joy讀5個小時才能讀完120頁。簡單回答一個小時有60分鐘,20分鐘可以分成幾組呢?60÷20=3組。所以,Joy每小時可以讀8頁
×
3組=24頁。接著,Joy需要讀120頁,計算她需要的時間:120÷24=5小時。因此,Joy需要5小時才能讀完120頁書。帶有中間推理步驟的回答推理模型:推理模型是指能夠進行復雜推理任務的大型語言模型(LLMs)。這些模型能夠處理需要多步推導、計算或分析的問題,通常涉及多個中間步驟。推理模型不僅能夠解決基本的推理問題,還能應對更復雜的任務,如解謎、數(shù)學證明等。推理模型中的中間步驟可以通過兩種方式呈現(xiàn)。首先,它們可能會顯式地出現(xiàn)在回答中,如示例所示。其次,一些推理型LLM(如OpenAI的o1)會進行多次迭代,而這些中間步驟則不會展示給用戶。推理模型是怎樣煉成的Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒推理模型R1-Zero是怎樣煉成的——純強化學習DeepSeek-R1-Zero的模板。在訓練過程中,prompt將被替換為具體的推理問題。激勵類型準確度激勵:1+1=?
答對2得1分,否則0分格式激勵:是否遵循<think></think><answer></answer>的格式,遵循得1分,否則0分沒有推理過程的激勵!訓練模版Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒推理模型是怎樣煉成的DeepSeek-R1-Zero在RL過程中訓練集上的平均響應長度。DeepSeek-R1-Zero自然地學會了通過更多的思考時間來解決推理任務。沒有用到中間的過程推理數(shù)據(jù)來監(jiān)督訓練模型!Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒推理模型R1是怎樣煉成的——有監(jiān)督微調和強化學習DeepSeek-R1-Zero缺陷:可讀性差(poorreadability)和語言混淆(languagemixing)左腳踩右腳~Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒模型蒸餾——有監(jiān)督微調利用DeepSeek-R1和DeepSeek-V3產(chǎn)生的數(shù)據(jù)進一步微調小規(guī)模LLM。超大規(guī)模的推理模型產(chǎn)生的數(shù)據(jù),可以大幅提升小規(guī)模模型的效果。Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒報告提綱語言的奧秘:人類如何解碼世界DeepSeek-R1:推理模型的誕生與突破從符號到智能:AI的語言理解之路智能體時代:AI如何重塑教育未來DeepSeek-V3:大語言模型的構建與進化DeepSeek+Kimi:自動生成PPT打開Kimi,點擊左側狀態(tài)欄,找到PPT向PPT助手中粘貼剛剛生成的內容 助手DeepSeek輔助編程······DeepSeek+即夢AI:生成圖片復制生成的提示詞到即夢AI中蘇格拉底式教學智能體智海-三樂教育大模型InfiAgent推理大模型知識問答邏輯推理大模型更多是以知識問答的形式向學生傳授知識蘇格拉底教學法(Socratic
Method)的核心在于,教師并不直接向學生傳授知識,而是根據(jù)學生已有的知識和經(jīng)驗,通過一系列的問題引導、討論、問答和辯論,揭示學生思維中的矛盾和不足,促使他們自主地推理和反思,最終得出正確的結論。構建蘇格拉底式教學智能體,賦能教與學,實現(xiàn)從知識本位教育向能力本位教育轉變蘇格拉底式教學智能體習題解題步驟列表學生智海-三樂
引導提問
人類教師(智能助教)邏輯推理代碼生成1.解題步驟拆解InfiAgent解題框架3.引導解題2.蘇格拉底式提問修改反饋作答檢查反饋圍繞蘇格拉底式教學智能體,構建教與學賦能平臺,鼓勵學生思考與探索,培養(yǎng)學生批判性思維和自主學習能力,推動教育從知識本位向能力本位轉變'-@@kJ@"2U
IIIdata=np.azzay([1,2,31
,[4,5,6J,*
?FG
?v
-’
l04%If?mean_aris0:np.mean(data,
axis=0)point(“hleana1ongax1s0:’,mean
axts0I//t9iJJ:[4.5.6.
]*Alt?i?'i“I?Ip
I"*JTémean_axts1=np.meanIdata,axts=1
!pzint("Cleana1ongax1s1:°,mean_ax1st)/7'fAfT\:E2.5.8.]IiIfiR
“ti110J'
t?J(i'iriean_a11=op.eeao
(data)printI"tieano1aIIcteeents:“,meanall
1PIll!i1:S.
0:norm_img=trainset-
avg_im
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 校園環(huán)保課堂合作合同(2篇)
- 《機器學習技術應用》課件-任務1-1 項目需求分析
- 品種品質差異深度解析與評估研究
- 浙江省臺州市十校聯(lián)盟2024-2025學年高二下學期期中聯(lián)考地理試題(含答案)
- 新質生產(chǎn)力數(shù)控
- 環(huán)形胰腺的臨床護理
- 克-雅病性癡呆的臨床護理
- 老年攣縮的臨床護理
- 2025標準城市公寓購房合同范本
- 2025全新合同公證服務指南
- 2025-2030中國寵物行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資前景預測報告
- AGC-AVC培訓課件教學課件
- 山洪災害防御知識課件
- 決勝新高考·四川名優(yōu)校聯(lián)盟2025屆高三4月聯(lián)考英語+答案
- 賓館衛(wèi)生考試題及答案
- 殯葬法律法規(guī)試題及答案
- 帶貨主播職業(yè)發(fā)展路徑與技能提升指南
- DB52/T 1212-2017 煤礦地面在用瓦斯泵及瓦斯泵站安全檢查規(guī)范
- 境外道路貨物運輸應急預案
- 軟件測試技術課程教學大綱
- 液壓與氣壓傳動完整版課件
評論
0/150
提交評論