大語(yǔ)言模型通識(shí)微課課件:強(qiáng)化學(xué)習(xí)分類_第1頁(yè)
大語(yǔ)言模型通識(shí)微課課件:強(qiáng)化學(xué)習(xí)分類_第2頁(yè)
大語(yǔ)言模型通識(shí)微課課件:強(qiáng)化學(xué)習(xí)分類_第3頁(yè)
大語(yǔ)言模型通識(shí)微課課件:強(qiáng)化學(xué)習(xí)分類_第4頁(yè)
大語(yǔ)言模型通識(shí)微課課件:強(qiáng)化學(xué)習(xí)分類_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大語(yǔ)言模型通識(shí)微課

強(qiáng)化學(xué)習(xí)分類在強(qiáng)化學(xué)習(xí)中,智能體是在沒(méi)有“老師”的情況下,通過(guò)考慮自己的最終成功或失敗,根據(jù)獎(jiǎng)勵(lì)與懲罰,主動(dòng)從經(jīng)驗(yàn)中學(xué)習(xí),以使未來(lái)的獎(jiǎng)勵(lì)最大化。按給定條件,強(qiáng)化學(xué)習(xí)可分為基于模式強(qiáng)化學(xué)習(xí)和無(wú)模式強(qiáng)化學(xué)習(xí),以及主動(dòng)強(qiáng)化學(xué)習(xí)和被動(dòng)強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的變體包括逆向強(qiáng)化學(xué)習(xí)、階層強(qiáng)化學(xué)習(xí)和部分可觀測(cè)系統(tǒng)的強(qiáng)化學(xué)習(xí)。求解強(qiáng)化學(xué)習(xí)問(wèn)題所使用的算法可分為策略搜索算法和值函數(shù)算法兩類。在強(qiáng)化學(xué)習(xí)中使用深度學(xué)習(xí)模型,形成了深度強(qiáng)化學(xué)習(xí)。微課9.2強(qiáng)化學(xué)習(xí)分類參考下國(guó)際象棋,將其視為監(jiān)督學(xué)習(xí)問(wèn)題。下棋智能體把棋盤(pán)局面作為輸入并返回對(duì)應(yīng)招式,通過(guò)為它提供關(guān)于棋盤(pán)局面的樣本來(lái)訓(xùn)練此函數(shù),其中每個(gè)樣本都標(biāo)有正確的走法。假設(shè)我們恰好有一個(gè)可用的數(shù)據(jù)庫(kù),其中包括數(shù)百萬(wàn)局象棋大師的對(duì)局,每場(chǎng)對(duì)局都包含一系列局面和走法??梢哉J(rèn)為獲勝者的招式即便不總是完美但也是較好的。由此得到一個(gè)很有前途的訓(xùn)練集。問(wèn)題在于,與象棋局面可能構(gòu)成的空間(約1040個(gè))相比,樣本相當(dāng)少(約108個(gè))。在新的對(duì)局中,人們很快就會(huì)遇到與數(shù)據(jù)庫(kù)中的局面明顯不同的局面。那么,此時(shí)經(jīng)過(guò)訓(xùn)練的智能體很可能會(huì)失效。9.2.1從獎(jiǎng)勵(lì)中學(xué)習(xí)取而代之的另一種選擇是使用強(qiáng)化學(xué)習(xí),在這種學(xué)習(xí)中,智能體將與世界進(jìn)行互動(dòng),并不時(shí)收到反映其表現(xiàn)的獎(jiǎng)勵(lì)(強(qiáng)化)。例如,在國(guó)際象棋中,獲勝的獎(jiǎng)勵(lì)為1,失敗的獎(jiǎng)勵(lì)為0,平局的獎(jiǎng)勵(lì)為1/2。強(qiáng)化學(xué)習(xí)的目標(biāo)也是相同的:最大化期望獎(jiǎng)勵(lì)總和。想象一下玩一個(gè)你不了解規(guī)則的新游戲,那么在采取若干個(gè)行動(dòng)后,裁判會(huì)告訴你“你輸了”。這個(gè)簡(jiǎn)單的例子就是強(qiáng)化學(xué)習(xí)的一個(gè)縮影。從設(shè)計(jì)角度看,向智能體提供獎(jiǎng)勵(lì)信號(hào)通常比提供有標(biāo)簽的行動(dòng)樣本要容易得多,人們也不必是相關(guān)領(lǐng)域的專家。9.2.1從獎(jiǎng)勵(lì)中學(xué)習(xí)然而,事實(shí)證明,一點(diǎn)點(diǎn)的專業(yè)知識(shí)對(duì)強(qiáng)化學(xué)習(xí)會(huì)有很大的幫助。考慮國(guó)際象棋和賽車比賽的輸贏獎(jiǎng)勵(lì),這些活動(dòng)在絕大多數(shù)狀態(tài)下智能體根本沒(méi)有得到任何有信息量的獎(jiǎng)勵(lì)信號(hào)。在網(wǎng)球和板球等游戲中,我們可以輕松地為每次擊球得分與跑壘得分提供額外的獎(jiǎng)勵(lì)。在賽車比賽中,我們可以獎(jiǎng)勵(lì)在賽道上朝著正確方向前進(jìn)的智能體。在學(xué)習(xí)爬行時(shí),任何向前的運(yùn)動(dòng)都是一種進(jìn)步。這些中間獎(jiǎng)勵(lì)將使學(xué)習(xí)變得更加容易。9.2.1從獎(jiǎng)勵(lì)中學(xué)習(xí)考慮一個(gè)簡(jiǎn)單情形:有少量動(dòng)作和狀態(tài),且環(huán)境完全可觀測(cè),其中智能體已經(jīng)有了能決定其動(dòng)作的固定策略。智能體將嘗試學(xué)習(xí)效用函數(shù)——從狀態(tài)出發(fā),采用策略得到的期望總折扣獎(jiǎng)勵(lì),這稱之為被動(dòng)學(xué)習(xí)智能體。被動(dòng)學(xué)習(xí)任務(wù)類似于策略評(píng)估任務(wù),可以將其表述為直接效用估計(jì)、自適應(yīng)動(dòng)態(tài)規(guī)劃和時(shí)序差分學(xué)習(xí)。9.2.2被動(dòng)強(qiáng)化學(xué)習(xí)主動(dòng)學(xué)習(xí)智能體可以自主決定采取什么動(dòng)作??梢詮淖赃m應(yīng)動(dòng)態(tài)規(guī)劃智能體開(kāi)始入手,并考慮如何對(duì)它進(jìn)行修改以利用這種新的自由度。智能體首先需要學(xué)習(xí)一個(gè)完整的轉(zhuǎn)移模型,其中包含所有動(dòng)作可能導(dǎo)致的結(jié)果及概率,而不僅僅是固定策略下的模型。9.2.3主動(dòng)強(qiáng)化學(xué)習(xí)一些領(lǐng)域過(guò)于復(fù)雜,以至于很難在其中定義強(qiáng)化學(xué)習(xí)所需的獎(jiǎng)勵(lì)函數(shù)。例如,我們到底想讓自動(dòng)駕駛汽車做什么?當(dāng)然,我們希望它到達(dá)目的地花費(fèi)的時(shí)間不要大長(zhǎng),但它也不應(yīng)開(kāi)得大快,以免帶來(lái)不必要的危險(xiǎn)或超速罰單;它應(yīng)該節(jié)省能源:它應(yīng)該避免碰撞或由于突然變速給乘客帶來(lái)的劇烈晃動(dòng),但它仍可以在緊急情況下猛踩利車,等等,為這些因素分配權(quán)重比較困難。更糟糕的是,我們幾乎必然會(huì)忘記一些重要的因素。通常,忽略一個(gè)因素通常會(huì)導(dǎo)致學(xué)習(xí)系統(tǒng)為這個(gè)被忽略的因素分配一個(gè)極值,這種情況下,汽車可能會(huì)為了使剩余的因素最大化而進(jìn)行極不負(fù)責(zé)任的駕駛。9.2.4學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)一種解決方法是在模擬中進(jìn)行大量的測(cè)試并關(guān)注有問(wèn)題的行為,再嘗試通過(guò)修改獎(jiǎng)勵(lì)函數(shù)以消除這些行為。另一種解決方法是尋找有關(guān)適合的獎(jiǎng)勵(lì)函數(shù)的其他信息來(lái)源。這種信息來(lái)源之一是獎(jiǎng)勵(lì)函數(shù)已經(jīng)完成優(yōu)化(或幾乎完成優(yōu)化)的智能體的行為,在這個(gè)例子中來(lái)源可以是專業(yè)的人類駕駛員。學(xué)徒學(xué)習(xí)研究這樣的問(wèn)題:在提供了一些對(duì)專家行為觀測(cè)的基礎(chǔ)上,如何讓學(xué)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論