




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第2版周蘇教授QQ:81505050人工智能導論第8章周蘇教授QQ:81505050創(chuàng)建智能系統(tǒng)的強化學習導讀案例:機器學習幫助拯救瀕危物種地球上還有許許多多的物種我們并不了解。但我們現(xiàn)在可以知道,它們中很多已經(jīng)在滅絕的邊緣徘徊:一項新的研究中使用機器學習來計算這些鮮為人知的物種受到了多大的威脅,其結果是嚴峻的。01強化學習的定義02與監(jiān)督學習的區(qū)別03強化學習基礎理論04強化學習分類目錄/CONTENTS05強化學習的應用1997年,當“深藍”擊敗國際象棋世界冠軍加里·卡斯帕羅夫時,人類權威的捍衛(wèi)者把抵御的希望寄托在了圍棋上。當時,天體物理學家,也是圍棋愛好者的皮特·赫特曾預測稱:“計算機在圍棋上擊敗人類需要一百年的時間(甚至可能更久)。”但實際上僅僅20年后,阿爾法狗(AlphaGo)就超越了人類棋手。世界冠軍柯潔說:“一年前的阿爾法狗還比較接近于人,現(xiàn)在它越來越像圍棋之神?!卑柗ü返靡嬗趯θ祟惼迨诌^去數(shù)十萬場棋局的研究以及對團隊中圍棋專家的知識提煉。第8章創(chuàng)建智能系統(tǒng)的強化學習后繼項目AlphaZero不再借助于人類輸入,它通過游戲規(guī)則自我學習,在圍棋、國際象棋和日本將棋領域中擊敗了包括人類和機器在內的所有對手。與此同時,人類選手也在各種游戲中被人工智能系統(tǒng)擊敗,包括《危險邊緣》、撲克以及電子游戲《刀塔2》《星際爭霸11》《雷神之錘3》。這些進展顯示了強化學習的巨大作用。強化學習的中心思想是讓智能體在環(huán)境里學習,每個行動對應于各自的獎勵。智能體通過分析數(shù)據(jù)來學習,關注不同情況下應該做怎樣的事情——這樣的學習過程和人類的自然經(jīng)歷十分相似。第8章創(chuàng)建智能系統(tǒng)的強化學習想象一個小孩子第一次看到火,他小心地走到火邊?!じ惺艿搅藴嘏;鹗莻€好東西(+1)?!と缓?,試著去摸。哇,這么燙(-1)。這個嘗試所得到的結論是,在稍遠的地方火是好的,靠得太近就不好——這就是人類的學習方式,與環(huán)境交互。強化學習也是這樣的道理。第8章創(chuàng)建智能系統(tǒng)的強化學習比如,智能體要學著玩一個新的游戲。強化學習過程可以用一個循環(huán)來表示:·智能體在游戲環(huán)境里獲得初始狀態(tài)S0(游戲的第一幀);·在S0的基礎上,智能體做出第一個行動A0(如向右走);·環(huán)境變化,獲得新的狀態(tài)S1(A0發(fā)生后的某一幀);·環(huán)境給出第一個獎勵R1(沒死或成功:+1)。于是,這個回合輸出的就是一個由狀態(tài)、獎勵和行動組成的序列,而智能體的目標就是讓預期累積獎勵最大化。第8章創(chuàng)建智能系統(tǒng)的強化學習PART01強化學習的定義強化學習,又稱增強學習或評價學習,是機器學習的一個分支,是一種廣泛應用于創(chuàng)建智能系統(tǒng)的模式,它側重在線學習并試圖在探索和利用之間保持平衡。強化學習描述和解決智能體在與環(huán)境的交互過程中,以“試錯”方式,通過學習策略達成回報最大化或實現(xiàn)特定目標問題。8.1強化學習的定義強化學習研究的主要問題是:一個智能體如何在環(huán)境未知,只提供對環(huán)境的感知和偶爾的獎勵情況下,對某項任務變得精通。在強化學習中,智能體在沒有“老師”的情況下,通過考慮執(zhí)行的最終成功或失敗,根據(jù)獎勵與懲罰,主動從自己的經(jīng)驗中學習,以使未來的獎勵最大化。8.1強化學習的定義由于強化學習涉及的知識面廣,尤其是涵蓋了諸多數(shù)學知識,如貝爾曼方程、最優(yōu)控制等,更需要對強化學習有系統(tǒng)性的梳理與認識。需要對強化學習在機器學習領域中的定位以及與其他機器學習之間的異同進行辨析。8.1強化學習的定義與監(jiān)督學習和非監(jiān)督學習不同,強化學習不要求預先給定任何數(shù)據(jù),主要表現(xiàn)在強化信號上,通過接收環(huán)境對動作的獎勵(反饋)獲得學習信息并更新模型參數(shù)。由環(huán)境提供的強化信號是對產(chǎn)生動作的好壞作一種評價(通常為標量信號),而不是告訴強化學習系統(tǒng)如何去產(chǎn)生正確的動作。由于外部環(huán)境提供的信息很少,強化學習系統(tǒng)必須靠自身的經(jīng)歷進行學習,進而在行動—評價的環(huán)境中獲得知識,改進行動方案以適應環(huán)境。8.1強化學習的定義強化學習問題主要在信息論、博弈論、自動控制等領域討論,用于解釋有限理性條件下的平衡態(tài)、設計推薦系統(tǒng)和機器人交互系統(tǒng)。一些復雜的強化學習算法在一定程度上具備解決復雜問題的通用智能,可以在圍棋和電子游戲中達到人類水平。8.1強化學習的定義強化學習建立在獎勵假說的基礎之上,其目標是預期累積獎勵最大化。所謂表現(xiàn)好,就是多拿獎勵。每一個時間步的累積獎勵都可以表示為:Gt=Rt+1+Rt+2+…不過,我們并不能把獎勵直接相加。因為游戲里,越接近游戲開始處的獎勵越容易得到;而隨著游戲的進行,后面的獎勵就沒有那么容易拿到了。8.1.1以獎勵假說為基礎把智能體想成一只小老鼠,對手是只貓。小老鼠的目標就是在被貓吃掉之前,能吃到最多的奶酪。通常,離老鼠最近的奶酪很容易吃到,而從貓眼皮底下順走奶酪就難了。離貓越近,就越危險。結果就是,從貓身旁獲取的獎勵會打折扣:吃到的可能性小,就算奶酪放得很密集也沒用。那么,這個折扣要怎么算呢?8.1.1以獎勵假說為基礎我們用γ表示折扣率,在0和1之間?!う迷酱?,折扣越小。表示智能體在意長期的獎勵(貓邊上的奶酪)?!う迷叫。劭墼酱?。表示智能體在意短期的獎勵(小老鼠邊上的奶酪)。這樣,累積獎勵表示出來就是:簡單來說,離貓近一步,就乘上一個γ,表示獎勵越難獲得。8.1.1以獎勵假說為基礎強化學習里的任務分兩種。(1)片段性任務。這類任務有個起點,有個終點。兩者之間有一堆狀態(tài),一堆行動,一堆獎勵和一堆新的狀態(tài),它們共同構成了一“集”。當一集結束,也就是到達終止狀態(tài)時,智能體會看一下獎勵累積了多少,以此評估自己的表現(xiàn)。然后,它就帶著之前的經(jīng)驗開始一局新游戲。這一次,智能體做決定的依據(jù)會充分一些。8.1.2片段還是連續(xù)性任務以貓鼠迷宮為例的一集:·永遠從同一個起點開始;·如果被貓吃掉或者走了超過20步,則游戲結束;·結束時,得到一系列狀態(tài)、行動、獎勵和新狀態(tài);·算出獎勵的總和(看看表現(xiàn)如何);·更有經(jīng)驗地開始新游戲。集數(shù)越多,智能體的表現(xiàn)會越好。8.1.2片段還是連續(xù)性任務(2)連續(xù)性任務。游戲永遠不會結束。智能體要學習如何選擇最佳的行動,和環(huán)境進行實時交互,就像自動駕駛汽車。這樣的任務是通過時間差分學習來訓練的。每一個時間步都會有總結學習,并不是等到一集結束再分析結果。8.1.2片段還是連續(xù)性任務強化學習的歷史主要沿兩條主線發(fā)展而來,第一條主線是心理學上模仿動物學習方式的試錯法,第二條主線是求解最優(yōu)控制問題,兩條主線最初是獨立發(fā)展的。心理學上的試錯法從20世紀50年代末、60年代初貫穿在人工智能的發(fā)展中,并且一定程度上促進了強化學習的發(fā)展。20世紀80年代初期,試錯法隨著人工智能的熱潮而被學者們廣泛研究。而求解最優(yōu)控制法則是利用動態(tài)規(guī)劃法求解最優(yōu)值函數(shù)。到20世紀80年代末,基于時間差分法求解的第三條主線開始出現(xiàn),它吸收前面兩條主線的思想,奠定了現(xiàn)代強化學習在機器學習領域中的地位(表8-1)。8.1.3強化學習發(fā)展歷史表8-1強化學習中有影響力的算法8.1.3強化學習發(fā)展歷史有理由相信,深度學習和強化學習的結合體——深度強化學習是人工智能的未來之路。智能的系統(tǒng)必須能夠在沒有持續(xù)監(jiān)督信號的情況下自主學習,而深度強化學習正是自主學習的最佳代表,能夠給人工智能帶來更多發(fā)展空間與想象力。人工智能系統(tǒng)必須能夠自己去判斷對與錯,而不是告訴系統(tǒng)或者通過一種監(jiān)督模擬的方法實現(xiàn)。8.1.3強化學習發(fā)展歷史強化學習是從動物學習、參數(shù)擾動自適應控制等理論發(fā)展而來的,其基本原理是:如果智能體的某個行為策略導致環(huán)境正的獎賞(強化信號),那么該智能體以后產(chǎn)生這個行為策略的趨勢便會加強。智能體的目標是在每個離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略,以使期望的折扣獎賞最大化。8.1.4基本模型和原理強化學習把學習看作試探評價過程。智能體選擇一個動作用于環(huán)境,環(huán)境接受該動作后狀態(tài)發(fā)生變化,同時產(chǎn)生一個強化信號(獎或懲)反饋給智能體,智能體根據(jù)強化信號和環(huán)境當前狀態(tài)再選擇下一個動作,選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響立即強化值,而且影響環(huán)境下一時刻的狀態(tài)及最終的強化值。8.1.4基本模型和原理強化學習系統(tǒng)需要使用某種隨機單元,動態(tài)地調整參數(shù),以達到強化信號最大,智能體在可能動作空間中進行搜索并發(fā)現(xiàn)正確的動作。強化學習的常見模型是標準的馬爾可夫決策過程(MarkovDecisionProcess,MDP)。按給定條件,強化學習可分為基于模式強化學習和無模式強化學習,以及主動強化學習和被動強化學習。強化學習的變體包括逆向強化學習、階層強化學習和部分可觀測系統(tǒng)的強化學習。求解強化學習問題所使用的算法可分為策略搜索算法和值函數(shù)算法兩類??梢栽趶娀瘜W習中使用深度學習模型,形成深度強化學習。8.1.4基本模型和原理強化學習主要由智能體和環(huán)境組成,兩者間通過獎勵、狀態(tài)、動作3個信號進行交互。由于智能體和環(huán)境的交互方式與人類和環(huán)境的交互方式類似,可以認為強化學習是一套通用的學習框架,用來解決通用人工智能問題,因此它也被稱為通用人工智能的機器學習方法。8.1.5網(wǎng)絡模型設計強化學習實際上是智能體在與環(huán)境進行交互的過程中,學會最佳決策序列。強化學習的基本組成元素定義如下。(1)智能體:強化學習的本體,作為學習者或者決策者。(2)環(huán)境:強化學習智能體以外的一切,主要由狀態(tài)集組成。(3)狀態(tài):表示環(huán)境的數(shù)據(jù)。狀態(tài)集是環(huán)境中所有可能的狀態(tài)。(4)動作:智能體可以做出的動作??梢宰龀龅乃袆幼鞣Q為動作集。8.1.5網(wǎng)絡模型設計(5)獎勵:智能體在執(zhí)行一個動作后,獲得的正/負獎勵信號。獎勵集是智能體可以獲得的所有反饋信息,正/負獎勵信號亦可稱作正/負反饋信號。(6)策略:從環(huán)境狀態(tài)到動作的映射學習,該映射關系稱為策略。通俗地說,智能體選擇動作的思考過程即為策略。(7)目標:智能體自動尋找在連續(xù)時間序列里的最優(yōu)策略,這通常指最大化長期累積獎勵。8.1.5網(wǎng)絡模型設計在強化學習中,每一個自主體由兩個神經(jīng)網(wǎng)絡模塊組成,即行動網(wǎng)絡和評估網(wǎng)絡。行動網(wǎng)絡是根據(jù)當前的狀態(tài)而決定下一個時刻施加到環(huán)境上去的最好動作。圖8-3強化學習的網(wǎng)絡模型設計8.1.5網(wǎng)絡模型設計對于行動網(wǎng)絡,強化學習算法允許它的輸出結點進行隨機搜索,有了來自評估網(wǎng)絡的內部強化信號后,行動網(wǎng)絡的輸出結點即可有效地完成隨機搜索,并且大大提高選擇好的動作的可能性,同時可以在線訓練整個行動網(wǎng)絡。用一個輔助網(wǎng)絡來為環(huán)境建模,評估網(wǎng)絡可單步和多步預報當前由行動網(wǎng)絡施加到環(huán)境上的動作強化信號,根據(jù)當前狀態(tài)和模擬環(huán)境預測其標量值。可以提前向行動網(wǎng)絡提供有關將候選動作的強化信號,以及更多的獎懲信息(內部強化信號),以減少不確定性并提高學習速度。8.1.5網(wǎng)絡模型設計進化強化學習對評估網(wǎng)絡使用時序差分預測方法TD和反向傳播BP算法進行學習,而對行動網(wǎng)絡進行遺傳操作,使用內部強化信號作為行動網(wǎng)絡的適應度函數(shù)。網(wǎng)絡運算分成兩個部分,即前向信號計算和遺傳強化計算。在前向信號計算時,對評估網(wǎng)絡采用時序差分預測方法,由評估網(wǎng)絡對環(huán)境建模,可以進行外部強化信號的多步預測,為行動網(wǎng)絡提供更有效的內部強化信號,使它產(chǎn)生更恰當?shù)男袆?。內部強化信號使行動網(wǎng)絡、評估網(wǎng)絡在每一步都可以進行學習,而不必等待外部強化信號,從而大大加速了兩個網(wǎng)絡的學習。8.1.5網(wǎng)絡模型設計以采用強化學習方法研究未知環(huán)境下機器人導航問題為例,由于環(huán)境的復雜性和不確定性,這些問題變得更為復雜,因此,在強化學習的設計中要考慮:(1)如何表示狀態(tài)空間和動作空間。(2)如何選擇建立信號以及如何通過學習來修正不同狀態(tài)-動作對的值。(3)如何根據(jù)這些值來選擇合適的動作。8.1.6設計考慮在標準的強化學習中,智能體作為學習系統(tǒng),獲取外部環(huán)境的當前狀態(tài)信息,對環(huán)境采取試探行為并獲取環(huán)境反饋的對此動作的評價和新的環(huán)境狀態(tài)。如果智能體的某個動作導致環(huán)境正的獎賞(立即報酬),那么智能體以后產(chǎn)生這個動作的趨勢便會加強;反之,智能體產(chǎn)生這個動作的趨勢將減弱。在學習系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評價的反復交互作用中,以學習方式不斷修改從狀態(tài)到動作的映射策略,以達到優(yōu)化系統(tǒng)性能目的。學習從環(huán)境狀態(tài)到行為的映射,使得智能體選擇的行為能夠獲得環(huán)境最大的獎賞,使外部環(huán)境對學習系統(tǒng)在某種意義下的評價(或整個系統(tǒng)的運行性能)為最佳。8.1.6設計考慮強化學習使人們從手動構造行為和標記監(jiān)督學習所需的大量數(shù)據(jù)集(或人工編寫控制策略)中解脫出來。它在機器人技術中的應用中特別有價值,該領域需要能夠處理連續(xù)的、高維的、部分可觀測環(huán)境的方法,在這樣的環(huán)境中,成功的行為可能包含成千上萬甚至數(shù)百萬的基元動作。8.1.7數(shù)據(jù)依賴性強化學習的方法有很多且錯綜復雜,這是因為并不存在一種公認的最佳方法。(1)智能體整體的設計限制了學習所需的信息類型。·基于模型的強化學習智能體需要(或者配備有)環(huán)境的轉移模型,并學習效用函數(shù)?!o模型強化學習智能體可以學習一個動作效用函數(shù)或學習一個策略。基于模型和無模型方法相比,核心問題是智能體函數(shù)的最佳表示方式。隨著環(huán)境變得更加復雜,基于模型方法的優(yōu)勢將變得越發(fā)明顯。8.1.7數(shù)據(jù)依賴性(2)效用函數(shù)可以通過如下幾種方法進行學習?!ぶ苯有в霉烙媽⒂^測到的總獎勵用于給定狀態(tài),作為學習其效用的樣本直接來源。·自適應動態(tài)規(guī)劃(ADP)從觀測中學習模型和獎勵函數(shù),然后使用價值或策略迭代來獲得效用或最優(yōu)策略。ADP較好地利用了環(huán)境的鄰接結構作為狀態(tài)效用的局部約束?!r序差分(TD)方法調整效用估計,使其與后繼狀態(tài)的效用估計相一致。它是ADP方法的一個簡單近似,且學習時不需要預先知道轉移模型。此外,使用一個學習模型來產(chǎn)生偽經(jīng)驗可以學習得更快。8.1.7數(shù)據(jù)依賴性(3)可以通過ADP方法或TD方法學習動作效用函數(shù)或Q函數(shù)。在使用TD方法時,在學習或動作選擇階段都不需要模型,簡化了學習問題,但同時潛在地限制了它在復雜環(huán)境中的學習能力,因為智能體無法模擬可能的動作過程的結果。進行動作選擇時,它必須在這些動作的價值估計的有用新信息之間進行權衡。探索問題的精確解是無法獲得的,但一些簡單的啟發(fā)式可以給出一個合理的結果。同時探索性智能體也必須注意避免過早陷入終止態(tài)。8.1.7數(shù)據(jù)依賴性(4)在大的狀態(tài)空間中,強化學習算法必須進行函數(shù)近似表示,以便在狀態(tài)空間進行泛化。深度強化學習采用深度神經(jīng)網(wǎng)絡作為近似函數(shù),已經(jīng)在一些困難問題上取得了相當大的成功。獎勵設計和分層強化學習有助于學習復雜的行為,特別是在獎勵稀少且需要長動作序列才能獲得獎勵的情況下。8.1.7數(shù)據(jù)依賴性(5)策略搜索方法直接對策略的表示進行操作,并試圖根據(jù)觀測到的表現(xiàn)對其進行改進,在隨機領域中,性能的劇烈變化是一個嚴重的問題,而在模擬領域中可以通過預先固定隨機程度來克服這個難點。(6)難以獲得正確的獎勵函數(shù)時,通過觀測專家行為進行學徒學習是一種有效的解決方案,模仿學習將問題轉換為從專家的狀態(tài)—動作對中進行學習的監(jiān)督學習問題,逆強化學習從專家的行為中推斷有關獎勵函數(shù)的信息。8.1.7數(shù)據(jù)依賴性PART02與監(jiān)督學習的區(qū)別從嚴格意義上說,AlphaGo程序在人機圍棋對弈中打敗韓國圍棋大師李世石。其中對人工智能、機器學習和深度強化學習這3種技術都有所使用,但使用得更多的還是深度強化學習。8.2與監(jiān)督學習的區(qū)別機器學習方法主要分為監(jiān)督學習、無監(jiān)督學習和強化學習。強化學習和監(jiān)督學習的共同點是兩者都需要大量的數(shù)據(jù)進行學習訓練,但兩者的學習方式不盡相同,兩者所需的數(shù)據(jù)類型也有差異,監(jiān)督學習需要多樣化的標簽數(shù)據(jù),強化學習則需要帶有回報的交互數(shù)據(jù)。8.2與監(jiān)督學習的區(qū)別強化學習與監(jiān)督學習、無監(jiān)督學習不同之處具體有以下5個方面。(1)沒有監(jiān)督者,只有獎勵信號。監(jiān)督學習要基于大量作為訓練與學習目標的標注數(shù)據(jù)進行,而強化學習中沒有監(jiān)督者,它不是由已經(jīng)標注好的樣本數(shù)據(jù)來告訴系統(tǒng)什么是最佳動作。換言之,智能體不能夠馬上獲得監(jiān)督信號,只是從環(huán)境的反饋中獲得獎勵信號。(2)反饋延遲。實際上是延遲獎勵,環(huán)境可能不會在每一步動作上都給與獎勵,有時候需要完成一連串的動作,甚至是完成整個任務后才能獲得獎勵。8.2與監(jiān)督學習的區(qū)別(3)試錯學習。因為沒有監(jiān)督,所以沒有直接的指導信息,智能體要與環(huán)境不斷進行交互,通過試錯的方式來獲得最優(yōu)策略。(4)智能體的動作會影響其后續(xù)數(shù)據(jù)。智能體選擇不同動作會進入不同的狀態(tài)。由于強化學習基于馬爾可夫決策過程(當前狀態(tài)只與上一個狀態(tài)有關,與其他狀態(tài)無關),因此下一個時間步所獲得的狀態(tài)變化,環(huán)境的反饋也會隨之發(fā)生變化。(5)時間序列很重要。強化學習更加注重輸入數(shù)據(jù)的序列性,下一個時間步t的輸入依賴于前一個時間步t-1的狀態(tài)(即馬爾可夫屬性)。8.2與監(jiān)督學習的區(qū)別一般而言,監(jiān)督學習是通過對數(shù)據(jù)進行分析,找到數(shù)據(jù)的表達模型,隨后利用該模型,在新輸入的數(shù)據(jù)上進行決策。下圖為監(jiān)督學習的一般方法,主要分為訓練階段和預測階段。8.2.1學習方式在訓練階段,首先根據(jù)原始數(shù)據(jù)進行特征提取(“特征工程”)。得到數(shù)據(jù)特征后,可以使用決策樹、隨機森林等機器學習算法去分析數(shù)據(jù)之間的關系,最終得到關于輸入數(shù)據(jù)的模型。在預測階段,同樣按照特征工程的方法抽取數(shù)據(jù)的特征,使用訓練階段得到的模型對特征向量進行預測,最終得到數(shù)據(jù)所屬的分類標簽。值得注意的是,驗證模型使用驗證集數(shù)據(jù)對模型進行反向驗證,確保模型的正確性和精度。8.2.1學習方式深度學習的一般方法與傳統(tǒng)機器學習中監(jiān)督學習的一般方法相比少了特征工程,從而大大降低了業(yè)務領域門檻與人力成本。8.2.1學習方式監(jiān)督學習分為預測和訓練兩個階段,學習只能發(fā)生在訓練階段,該階段會出現(xiàn)一個監(jiān)督信號(即具有學習的能力,數(shù)學上稱為“差分信號”)。例如在語音識別任務中,需要收集大量的語音語料數(shù)據(jù)和該語料對應標注好的文本內容。有了原始的語音數(shù)據(jù)和對應的語音標注數(shù)據(jù)后,可通過監(jiān)督學習方法收集數(shù)據(jù)中的模式,例如對語音分類、判別該語音音素所對應的單詞等。8.2.1學習方式上述標注語音文本內容相當于一個監(jiān)督信號,等語音識別模型訓練完成后,在預測階段就不再需要該監(jiān)督信號,生成的語言識別模型僅用作新數(shù)據(jù)的預測。如果想要重新修改監(jiān)督信號,則需要對語言識別模型進行重新訓練。由于監(jiān)督學習的訓練階段非常耗時,現(xiàn)在有許多學者對遷移學習進行深入研究,以期望縮短監(jiān)督學習的訓練時間。強化學習與監(jiān)督學習截然不同,其學習過程與生物的自然學習過程非常類似。具體而言,智能體在與環(huán)境的互動過程中,通過不斷探索與試錯的方式,利用基于正/負獎勵的方式進行學習。8.2.1學習方式強化學習不需要像監(jiān)督學習那樣依賴先驗知識數(shù)據(jù)。例如線上游戲,越來越多的用戶使用移動終端進行游戲,使數(shù)據(jù)的獲取來源更為廣泛。比如圍棋游戲,圍棋的棋譜可以很容易得到,這些棋譜是人類玩家的動作行為記錄,如果只用監(jiān)督學習進行建模,模型學習出的對弈技能很有可能只局限在所收集的有限棋譜內。當出現(xiàn)新的下棋方式時,模型可能會因為找不到全局最優(yōu)解而使得棋力大減。8.2.2先驗知識與標識數(shù)據(jù)強化學習通過自我博弈方式產(chǎn)生更多的標準數(shù)據(jù)。在強化學習中,如果有基本棋譜,便可以利用系統(tǒng)自我學習和獎勵的方式,系統(tǒng)自動學習更多的棋譜或者使用兩個智能體進行互相博弈,進而為系統(tǒng)自身補充更多的棋譜信息,不受標注數(shù)據(jù)和先驗知識的限制??傊瑥娀瘜W習可以利用較少的訓練信息,讓系統(tǒng)不斷地自主學習,自我補充更多的信息,進而免受監(jiān)督者的限制。8.2.2先驗知識與標識數(shù)據(jù)另外,可以使用遷移學習來減少標注數(shù)據(jù)的數(shù)量,因為它在一定程度上突破了監(jiān)督學習中存在的限制,提前在大量標注數(shù)據(jù)信息中提取其高維特征,從而減少后續(xù)復用模型的輸入數(shù)據(jù)。遷移學習是把已經(jīng)訓練好的模型參數(shù)遷移到新的模型以幫助訓練新模型。考慮到大部分數(shù)據(jù)或任務存在相關性,通過遷移學習可以將已經(jīng)學到的模型參數(shù)(也可理解為模型學到的知識)通過某種方式分享給新模型,進而不需要從零開始學習,加快并優(yōu)化新模型的學習效率。8.2.2先驗知識與標識數(shù)據(jù)PART03強化學習基礎理論強化學習的基本元素包括智能體、環(huán)境、狀態(tài)、動作和獎勵,智能體通過狀態(tài)、動作、獎勵與環(huán)境進行交互,不斷地根據(jù)環(huán)境的反饋信息進行試錯學習。8.3強化學習基礎理論在強化學習中,可以將數(shù)百種不同的算法按智能體所處的環(huán)境分成兩種類型:一種是環(huán)境已知,叫作基于模型,就是智能體已經(jīng)對環(huán)境進行建模;另一種是環(huán)境未知,叫作免模型。8.3.1基于模型與免模型環(huán)境(1)基于模型的強化學習。例如,工廠載貨機器人通過傳感器感應地面上的航線來控制其行走。由于地面上的航線是事先規(guī)劃好的,工廠的環(huán)境也是可控已知的,因此可以將其視為基于模型的任務。圖8-7基于模型的任務:工廠AGV自動載重車8.3.1基于模型與免模型環(huán)境在這些方法中,智能體使用環(huán)境的轉移模型來幫助解釋獎勵信號并決定如何行動。模型最初可能是未知的,在這種情況下,智能體通過觀測其行為的影響來學習模型;或者它也可能是已知的,例如,國際象棋程序可能知道國際象棋的規(guī)則,即便它不知道如何選擇好的走法。在部分可觀測的環(huán)境中,轉移模型對于狀態(tài)估計也是很有用的?;谀P偷膹娀瘜W習系統(tǒng)通常會學習一個效用函數(shù)U(s)。在強化學習的相關文獻中,更多地涉及運籌學而不是經(jīng)濟學,效用函數(shù)通常稱為價值函數(shù)并表示為V(s)。8.3.1基于模型與免模型環(huán)境不過在現(xiàn)實情況下,環(huán)境的狀態(tài)轉移概率、獎勵函數(shù)往往很難提前獲取,甚至很難知道環(huán)境中一共有多少個狀態(tài)。8.3.1基于模型與免模型環(huán)境(2)無模型強化學習。例如汽車的自動駕駛系統(tǒng),在現(xiàn)實交通環(huán)境下,很多事情是無法預先估計的,例如路人的行為、往來車輛的行走軌跡等情況,因此可以將其視為免模型的任務。在這種方式中,智能體不知道環(huán)境的轉移模型,也不會學習它。相反,它直接學習如何采取行為方式,可以使用動態(tài)規(guī)劃法求解。其中主要有以下兩種形式,動作效用函數(shù)學習和策略搜索。可以使用蒙特卡洛法和時間差分法來求解,還可以使用值函數(shù)近似、梯度策略等方法。8.3.1基于模型與免模型環(huán)境在強化學習中,“探索”的目的是找到更多有關環(huán)境的信息,而“利用”的目的是利用已知的環(huán)境信息來最大限度地提高獎勵。簡而言之,“探索”是嘗試新的動作行為,而“利用”則是從已知動作中選擇下一步的行動。例如在一些策略游戲中,探索階段玩家并不知道地圖上被遮蓋的地方到底有什么,敵人是否在那里,所以需要一個探路者游走于未知地圖區(qū)域進行探索,以便能夠獲得更多地圖相關的環(huán)境知識,便于玩家制定作戰(zhàn)策略。當開拓完地圖之后,就能全面了解地圖上的環(huán)境狀態(tài)信息。接下來玩家便可以利用探索到的信息,去找到一個最優(yōu)的作戰(zhàn)策略。8.3.2探索與利用實際上,“探索”和“利用”哪個重要,以及如何權衡兩者之間的關系,是需要深入思考的。在基于模型的環(huán)境下,已經(jīng)知道環(huán)境的所有信息(環(huán)境完備信息),智能體不需要在環(huán)境中進行探索,而只要簡單利用環(huán)境中已知信息即可;可是在免模型環(huán)境下,探索和利用兩者同等重要,既需要知道更多有關環(huán)境的信息,又需要針對這些已知信息來提高獎勵。8.3.2探索與利用不過,“探索”和“利用”兩者本身是矛盾的,因為在實際運行中,算法能夠嘗試的次數(shù)是有限的,增加了探索的次數(shù)則利用次數(shù)會降低,反之亦然。這就是強化學習中的探索—利用困境。如果想要最大化累積獎勵,就必須在探索和利用之間進行權衡。8.3.2探索與利用在求解強化學習問題時,具體還有免模型預測和免模型控制,以及基于模型預測和基于模型控制?!邦A測”的目的是驗證未來——對于一個給定的策略,智能體需要去驗證該策略能夠到達的理想狀態(tài)值,以確定該策略的好壞。而“控制”則是優(yōu)化未來——給出一個初始化策略,智能體希望基于該給定的初始化策略,找到一個最優(yōu)的策略。8.3.3預測與控制相比較而言,“預測”和“控制”是探索和利用的抽象詞語。預測對應于探索,希望在未知的環(huán)境中探索更多可能的策略,然后驗證該策略的狀態(tài)值函數(shù)??刂茖诶?,在未知的環(huán)境中找到一些策略,希望在這些策略中找到一個最好的策略。8.3.3預測與控制PART04強化學習分類在強化學習中,智能體是在沒有“老師”的情況下,通過考慮自己的最終成功或失敗,根據(jù)獎勵與懲罰,主動地從自己的經(jīng)驗中學習,以使未來的獎勵最大化。例如,策略搜索是用于強化學習問題的方法。從某些層面來說,策略搜索是各種方法中最簡單的一種,其核心思想是,只要策略的表現(xiàn)有所改進,就繼續(xù)調整策略,直到停止。8.4強化學習分類考慮學習下國際象棋的問題。我們首先將其視為監(jiān)督學習問題。下棋智能體函數(shù)把棋盤局面作為輸入并返回對應的棋子招式,因此,我們通過為它提供關于國際象棋棋盤局面的樣本來訓練此函數(shù),其中每個樣本都標有正確的走法。假設我們恰好有一個可用數(shù)據(jù)庫,其中包括數(shù)百萬局象棋大師的對局,每場對局都包含一系列的局面和走法。除少數(shù)例外,我們認為獲勝者的招式即便不總是完美的,但也是較好的。因此,我們得到了一個很有前途的訓練集?,F(xiàn)在的問題在于,與所有可能的國際象棋局面構成的空間(約1040個)相比,樣本相當少(約108個)。8.4.1從獎勵中學習在新的對局中,人們很快就會遇到與數(shù)據(jù)庫中的局面明顯不同的局面。那么,此時經(jīng)過訓練的智能體很可能會失效——不僅是因為它不知道自己下棋的目標是什么(把對手將死),它甚至不知道這些招式對棋子的局面有什么影響。當然,國際象棋只是真實世界的一小部分。對于更加實際的問題,我們需要更大的專業(yè)數(shù)據(jù)庫,而它們實際上并不存在。8.4.1從獎勵中學習取而代之的另一種選擇是使用強化學習,在這種學習中,智能體將與世界進行互動,并不時收到反映其表現(xiàn)的獎勵(強化)。例如,在國際象棋中,獲勝的獎勵為1,失敗的獎勵為0,平局的獎勵為1/2。強化學習的目標也是相同的:最大化期望獎勵總和。強化學習不同于“僅僅解決MDP(馬爾可夫決策過程)”,因為智能體沒有將MDP作為待解決的問題,智能體本身處于MDP中。它可能不知道轉移模型或獎勵函數(shù),它必須采取行動以了解更多信息。想象一下,你正在玩一個你不了解規(guī)則的新游戲,那么在采取若干個行動后,裁判會告訴你“你輸了”。這個簡單的例子就是強化學習的一個縮影。8.4.1從獎勵中學習從人工智能系統(tǒng)設計者的角度看來,向智能體提供獎勵信號通常比提供有標簽的行動樣本要容易得多。首先,獎勵函數(shù)通常非常簡潔且易于指定;它只需幾行代碼就可以告訴國際象棋智能體這局比賽是贏了還是輸了,或者告訴賽車智能體它贏得或輸?shù)袅吮荣?,或者它崩潰了。其次,我們不必是相關領域的專家,即不需要能在任何情況下提供正確動作,但如果我們試圖應用監(jiān)督學習的方法,那么這些將是必要的。8.4.1從獎勵中學習然而,事實證明,一點點的專業(yè)知識對強化學習會有很大的幫助??紤]國際象棋和賽車比賽的輸贏獎勵(被稱為稀疏獎勵),因為在絕大多數(shù)狀態(tài)下,智能體根本沒有得到任何有信息量的獎勵信號。在網(wǎng)球和板球等游戲中,我們可以輕松地為每次擊球得分與跑壘得分提供額外的獎勵。在賽車比賽中,我們可以獎勵在賽道上朝著正確方向前進的智能體。在學習爬行時,任何向前的運動都是一種進步。這些中間獎勵將使學習變得更加容易。8.4.1從獎勵中學習只要我們可以為智能體提供正確的獎勵信號,強化學習就提供了一種非常通用的構建人工智能系統(tǒng)的方法。對模擬環(huán)境來說尤其如此,因為在這種情況下,我們不乏獲得經(jīng)驗的機會。在強化學習系統(tǒng)中引入深度學習作為工具,也使新的應用成為可能,其中包括從原始視覺輸入學習玩電子游戲、控制機器人以及玩紙牌游戲。8.4.1從獎勵中學習考慮一個簡單情形:有少量動作和狀態(tài),且環(huán)境完全可觀測,其中智能體已經(jīng)有了能決定其動作的固定策略。智能體將嘗試學習效用函數(shù)——從狀態(tài)出發(fā),采用策略得到的期望總折扣獎勵,稱之為被動學習智能體。被動學習任務類似于策略評估任務,可以將其表述為直接效用估計、自適應動態(tài)規(guī)劃和時序差分學習。8.4.2被動強化學習被動學習智能體有一個固定的策略來決定其行為,而主動學習智能體可以自主決定采取什么動作??梢詮淖赃m應動態(tài)規(guī)劃(ADP)智能體開始入手,并考慮如何對它進行修改以利用這種新的自由度。智能體首先需要學習一個完整的轉移模型,其中包含所有動作可能導致的結果及概率,而不僅僅是固定策略下的模型。8.4.3主動強化學習我們假設效用函數(shù)可以用表格的形式表示,其中每個狀態(tài)有一個輸出值。這種方法適用于狀態(tài)多達106的狀態(tài)空間,這對我們處在二維網(wǎng)格環(huán)境中的玩具模型來說已經(jīng)足夠了。但在有更多狀態(tài)的現(xiàn)實環(huán)境中,其收斂速度會很慢。西洋雙陸棋比大多數(shù)真實世界的應用簡單,但它的狀態(tài)已經(jīng)多達約1020個。我們不可能為了學習如何玩游戲而簡單地訪問每一個狀態(tài)。8.4.4強化學習中的泛化一些領域過于復雜,以至于很難在其中定義強化學習所需的獎勵函數(shù)。例如,我們到底想讓自動駕駛汽車做什么?當然,我們希望它到達目的地花費的時間不要大長,但它也不應開得大快,以免帶來不必要的危險或超速罰單;它應該節(jié)省能源:它應該避免碰撞或由于突然變速給乘客帶來的劇烈晃動,但它仍可以在緊急情況下猛踩利車,等等,為這些因素分配權重比較困難。8.4.5學徒學習與逆強化學習更糟糕的是,我們幾乎必然會忘記一些重要的因素,例如它有義務為其他司機著想。忽略一個因素通常會導致學習系統(tǒng)為被忽略的因素分配一個極端值,在這種情況下,汽車可能會為了使剩余的因素最大化而進行極不負責任的駕駛。8.4.5學徒學習與逆強化學習問題的一種解決方法是在模擬中進行大量的測試并關注有問題的行為,再嘗試通過修改獎勵函數(shù)以消除這些行為。另一種解決方法是尋找有關適合的獎勵函數(shù)的其他信息來源。這種信息來源之一是獎勵函數(shù)已經(jīng)完成優(yōu)化(或幾乎完成優(yōu)化)的智能體的行為,在這個例子中來源可以是專業(yè)的人類駕駛員。學徒學習研究這樣的問題:在提供了一些對專家行為觀測的基礎上,如何讓學習表現(xiàn)得較好。以專業(yè)駕駛算法為例,告訴學習者“像這樣去做”,至少有兩種方法來解決學徒學習問題。8.4.5學徒學習與逆強化學習第一種方法:假設環(huán)境是可觀測的,對觀測到的狀態(tài)-動作對應用監(jiān)督學習方法以學習其中的策略,這被稱作模仿學習。它在機器人技術方面取得了成果,但也面臨學習較為脆弱這類問題:訓練集中的微小誤差將隨著時間累積增長,并最終導致學習失敗。并且,模仿學習最多只能復現(xiàn)教師的表現(xiàn),而不能超越教師的表現(xiàn)。當人類通過模仿進行學習時,有時會用貶義詞:模仿得像笨拙的猿一樣,來形容他們的做法。這意味著,模仿學習者不明白為什么它應該執(zhí)行指定的動作。8.4.5學徒學習與逆強化學習第二種方法旨在理解原因:觀察專家的行為(和結果狀態(tài)),并試圖找出專家最大化的獎勵函數(shù),然后就可以得到一個關于這個獎勵函數(shù)的最優(yōu)策略。人們期望這種方法能從相對較少的專家行為樣本中得到較為健壯的策略,畢竟強化學習領域本身是基于獎勵函數(shù)(而不是策略或價值函數(shù))是對任務最簡潔、最健壯和可遷移的定義這樣一種想法的。此外,如果學習者恰當?shù)乜紤]了專家可能存在的次優(yōu)問題,那么通過優(yōu)化真實獎勵函數(shù)的某個較為精確的近似函數(shù),學習者可能會比專家表現(xiàn)得更好。我們稱該方法為逆強化學習:通過觀察策略來學習獎勵,而不是通過觀察獎勵來學習策略。8.4.5學徒學習與逆強化學習PART05強化學習的應用深度學習已經(jīng)被許多傳統(tǒng)制造業(yè)、互聯(lián)網(wǎng)公司應用到各種領域,與之相比,強化學習的應用還相對有限。強化學習的應用包括游戲方面的應用(其中轉移模型是已知的,目標是學習效用函數(shù))和機器人方面的應用(其中模型最初是未知的)等等。圖8-8強化學習的現(xiàn)實應用場景8.5強化學習的應用強化學習模仿人類和動物的學習方法。在現(xiàn)實生活中可以找到很多符合強化學習模型的例子,例如父母的表揚、學校的好成績、工作的高薪資等,這些都是積極獎勵的例子。無論是工廠的機器人進行生產(chǎn),還是商業(yè)交易中的信貸分配,人們或者機器人不斷與環(huán)境進行交流以獲得反饋信息的過程,都與強化學習的過程相仿。更加真實的案例是阿爾法狗圍棋程序的出現(xiàn),其通過每步走棋的反饋來調整下圍棋的策略,最終贏了人類最頂尖的圍棋職業(yè)選手。阿爾法狗中所使用到的深度強化學習也緊隨深度學習之后,成為人工智能領域最熱門的話題之一。事實上,強化學習也確實可以通過對現(xiàn)實問題的表示和人類學習方式的模擬解決很多的現(xiàn)實問題。8.5強化學習的應用一方面,強化學習需要收集大量數(shù)據(jù),并且是現(xiàn)實環(huán)境中建立起來的數(shù)據(jù),而不是簡單的仿真模擬數(shù)據(jù)。強化學習可以通過自我博弈的方式自動生成大量高質量的可用于訓練模型的數(shù)據(jù)。另一方面,與部分算法的研究成果易復現(xiàn)不同的是,復現(xiàn)基于強化學習的研究成果較為困難,即便是對于強化學習的研究者來說,需要重復實現(xiàn)已有的研究成果也十分困難。究其原因是強化學習對初始化和訓練過程的動態(tài)變化都十分敏感,其樣本數(shù)據(jù)基于在線采集的方式。如果沒有在恰當?shù)臅r機遇到良好的訓練樣本,可能會給策略帶來崩潰式的災難,從而無法學習到最優(yōu)策略。隨著機器學習被應用到實際任務中,可重復性、穩(wěn)健性以及預估錯誤的能力變得不可缺失。8.5強化學習的應用因此,就目前情況而言,對于需要持續(xù)控制的關鍵任務,強化學習可能并不是最理想的選擇。即便如此,依然有不少有趣的實際應用和產(chǎn)品是基于強化學習的,而由強化學習實現(xiàn)的自適應序列決策能夠給包括個性化、自動化在內的許多應用帶來廣泛的益處和更多的可能性。8.5強化學習的應用強化學習應用于游戲博弈這一領域已有20多年歷史,其中最轟動的莫過于谷歌DeepMind研發(fā)的阿爾法狗圍棋程序使用基于強化學習與深度學習的蒙特卡洛樹搜索模型,并做有機融合,在圍棋比賽中擊敗了最高水平的人類選手。強化學習的應用案例還有很多,例如愛奇藝使用強化學習處理自適應碼流播放,使得基于智能推薦的視頻觀看率提升了15%;又如阿里巴巴使用深度強化學習方法求解新的三維裝箱問題,提
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)廢水處理與環(huán)境保護
- 工業(yè)廢水處理技術與策略
- 工業(yè)控制系統(tǒng)信息安全防護策略與實踐
- 工業(yè)建筑節(jié)能與環(huán)保技術
- 工業(yè)污染控制與治理技術進展
- 工業(yè)機器人技術發(fā)展現(xiàn)狀及趨勢分析匯報材料
- 工業(yè)自動化中的變電站設計與配置策略
- 工業(yè)污染防治措施分析
- 工業(yè)設計中的新材料技術及其優(yōu)勢分析
- 工業(yè)生產(chǎn)環(huán)境監(jiān)控技術及優(yōu)化策略
- 帕瓦娜的守候
- 《大氣污染控制》課件
- 醫(yī)藥招商電話技巧
- 一例梅毒患者的護理查房課件
- 非財務人員看報表課件
- 學校食堂食材配送服務方案(肉類、糧油米面、蔬菜水果類)
- 信用修復申請書
- 糖尿病周圍血管病變課件
- 2023年江蘇省蘇州大學醫(yī)學部藥學院統(tǒng)招博士后招收(共500題含答案解析)高頻考點題庫參考模擬練習試卷
- 2023年全國高考語文乙卷作文“一花獨放不是春百花齊放春滿園”寫作
評論
0/150
提交評論