第10章計(jì)劃、動作和學(xué)習(xí)_第1頁
第10章計(jì)劃、動作和學(xué)習(xí)_第2頁
第10章計(jì)劃、動作和學(xué)習(xí)_第3頁
第10章計(jì)劃、動作和學(xué)習(xí)_第4頁
第10章計(jì)劃、動作和學(xué)習(xí)_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第第1010章章 計(jì)劃、動作和學(xué)習(xí)計(jì)劃、動作和學(xué)習(xí) 第二部分第二部分 狀態(tài)空間搜索狀態(tài)空間搜索 我們已經(jīng)探討了在圖中查找路徑的幾種我們已經(jīng)探討了在圖中查找路徑的幾種技術(shù),現(xiàn)在來研究這些方法如何被技術(shù),現(xiàn)在來研究這些方法如何被agentagent用于用于現(xiàn)實(shí)問題中。現(xiàn)實(shí)問題中。 感知計(jì)劃動作循環(huán)感知計(jì)劃動作循環(huán) 基于搜索的規(guī)劃方法的功效依賴于幾個(gè)很強(qiáng)的假設(shè)?;谒阉鞯囊?guī)劃方法的功效依賴于幾個(gè)很強(qiáng)的假設(shè)。由于以下原因,這些假設(shè)常常得不到滿足:由于以下原因,這些假設(shè)常常得不到滿足: 1) 1)知覺過程不可能總是提供環(huán)境狀態(tài)的必需信息知覺過程不可能總是提供環(huán)境狀態(tài)的必需信息( (由于由于噪聲或者對重要

2、的特性不敏感噪聲或者對重要的特性不敏感) )。當(dāng)兩種不同的環(huán)境狀態(tài)引。當(dāng)兩種不同的環(huán)境狀態(tài)引起相同的傳感器輸入時(shí),我們稱這種情況為起相同的傳感器輸入時(shí),我們稱這種情況為感知混淆感知混淆( (perceptual aliasing)perceptual aliasing)。 2) 2)動作并不總有其模型效果動作并不總有其模型效果( (由于模型不夠精確,或者由于模型不夠精確,或者受動器系統(tǒng)在執(zhí)行動作時(shí)偶爾會產(chǎn)生錯(cuò)誤受動器系統(tǒng)在執(zhí)行動作時(shí)偶爾會產(chǎn)生錯(cuò)誤) )。 3) 3)可能在環(huán)境中有其他的物理過程或其他的可能在環(huán)境中有其他的物理過程或其他的agent(agent(例例如,在游戲中有對手如,在游戲中

3、有對手) )。這些過程可能會改變環(huán)境以致于干。這些過程可能會改變環(huán)境以致于干擾擾agentagent的動作。的動作。 4) 4)外部作用的存在會引起其他的問題:在構(gòu)造一個(gè)計(jì)外部作用的存在會引起其他的問題:在構(gòu)造一個(gè)計(jì)劃期間,環(huán)境可能變得與原來的計(jì)劃不相干。這種困難使劃期間,環(huán)境可能變得與原來的計(jì)劃不相干。這種困難使得花費(fèi)太多的時(shí)間為一個(gè)得花費(fèi)太多的時(shí)間為一個(gè)agentagent進(jìn)行計(jì)劃而變得毫無意義。進(jìn)行計(jì)劃而變得毫無意義。 5) 5)agentagent可能在完成一個(gè)到達(dá)目標(biāo)狀態(tài)的搜索之前被可能在完成一個(gè)到達(dá)目標(biāo)狀態(tài)的搜索之前被要求動作。要求動作。 6) 6)即使即使agentagent有充

4、分的計(jì)算時(shí)間,但是計(jì)算要求的空有充分的計(jì)算時(shí)間,但是計(jì)算要求的空間資源不允許搜索進(jìn)行到目標(biāo)狀態(tài)。間資源不允許搜索進(jìn)行到目標(biāo)狀態(tài)。 感知計(jì)劃動作循環(huán)感知計(jì)劃動作循環(huán) 有兩種主要方法可以用來解決這些困難,同時(shí)又能保有兩種主要方法可以用來解決這些困難,同時(shí)又能保留基于搜索的計(jì)劃的主要特征。留基于搜索的計(jì)劃的主要特征。一種一種是用概率方法來形式是用概率方法來形式化知覺、環(huán)境和受動器的不確定性;化知覺、環(huán)境和受動器的不確定性;另一種另一種辦法是用各種辦法是用各種附加的假設(shè)和近似來消除這些困難的影響。附加的假設(shè)和近似來消除這些困難的影響。 處理動作的不確定效果的一種正式方法是假定對一定狀處理動作的不確定效

5、果的一種正式方法是假定對一定狀態(tài)下的每一個(gè)可執(zhí)行動作,結(jié)果狀態(tài)由一個(gè)已知的概率分布態(tài)下的每一個(gè)可執(zhí)行動作,結(jié)果狀態(tài)由一個(gè)已知的概率分布給出。在這種情況下找到合適的動作被稱為給出。在這種情況下找到合適的動作被稱為MarkovMarkov決策問題決策問題( (Markov decision problem , Markov decision problem , MDPMDP) ) 。 通過假定通過假定agentagent的傳感設(shè)備在它的狀態(tài)集上提供一個(gè)概的傳感設(shè)備在它的狀態(tài)集上提供一個(gè)概率分布,可以解決有缺陷知覺的其他問題。發(fā)現(xiàn)動作則被稱率分布,可以解決有缺陷知覺的其他問題。發(fā)現(xiàn)動作則被稱為為局部

6、可見的局部可見的MarkovMarkov決策問題決策問題( (Partially observable Partially observable Markov decision problemMarkov decision problem, POMDP POMDP) ) 。感知計(jì)劃動作循環(huán)感知計(jì)劃動作循環(huán) 在這里不討論正式的、基于概率的方法,而是提出一在這里不討論正式的、基于概率的方法,而是提出一個(gè)叫個(gè)叫感知計(jì)劃動作感知計(jì)劃動作( (sense/plan/actsense/plan/act) )的結(jié)構(gòu),在很多的結(jié)構(gòu),在很多應(yīng)用中它避開了上述的一些復(fù)雜性。應(yīng)用中它避開了上述的一些復(fù)雜性。 該結(jié)構(gòu)

7、的基本原理是:即使動作偶爾產(chǎn)生了沒有預(yù)料該結(jié)構(gòu)的基本原理是:即使動作偶爾產(chǎn)生了沒有預(yù)料的結(jié)果,或者的結(jié)果,或者agentagent有時(shí)不能決定它處于哪一種環(huán)境狀態(tài)有時(shí)不能決定它處于哪一種環(huán)境狀態(tài)下,但是通過保證下,但是通過保證agentagent從它的執(zhí)行環(huán)境中得到連續(xù)的反從它的執(zhí)行環(huán)境中得到連續(xù)的反饋,這些困難可以被充分地解決。饋,這些困難可以被充分地解決。 感知計(jì)劃動作循環(huán)感知計(jì)劃動作循環(huán) 確保連續(xù)反饋的一個(gè)方法是確保連續(xù)反饋的一個(gè)方法是計(jì)劃一個(gè)動作序列計(jì)劃一個(gè)動作序列,只執(zhí)只執(zhí)行這個(gè)序列中的第一個(gè)動作行這個(gè)序列中的第一個(gè)動作,感知結(jié)果環(huán)境狀態(tài),重新計(jì)感知結(jié)果環(huán)境狀態(tài),重新計(jì)算開始節(jié)點(diǎn),然

8、后算開始節(jié)點(diǎn),然后重復(fù)上述過程重復(fù)上述過程。這種方式,選擇動作的。這種方式,選擇動作的agentagent被叫做被叫做感知計(jì)劃動作感知計(jì)劃動作agentagent。然而為了使這個(gè)方然而為了使這個(gè)方法有效,計(jì)算一個(gè)計(jì)劃的時(shí)間必須比每個(gè)動作執(zhí)行時(shí)間要法有效,計(jì)算一個(gè)計(jì)劃的時(shí)間必須比每個(gè)動作執(zhí)行時(shí)間要少。少。 在良性環(huán)境中在良性環(huán)境中( (容忍幾個(gè)錯(cuò)誤步驟容忍幾個(gè)錯(cuò)誤步驟) ),感知和動作中的,感知和動作中的錯(cuò)誤在感知計(jì)劃動作循環(huán)序列中應(yīng)錯(cuò)誤在感知計(jì)劃動作循環(huán)序列中應(yīng)“達(dá)到平均數(shù)達(dá)到平均數(shù)”。 感知計(jì)劃動作循環(huán)感知計(jì)劃動作循環(huán) 感知計(jì)劃動作循環(huán)感知計(jì)劃動作循環(huán) 逼近搜索逼近搜索 定性地講,定性地講,

9、只要第一個(gè)動作有縮短到達(dá)目標(biāo)距離只要第一個(gè)動作有縮短到達(dá)目標(biāo)距離的趨勢的趨勢( (平均情況平均情況) ),經(jīng)感知計(jì)劃動作循環(huán)的多次,經(jīng)感知計(jì)劃動作循環(huán)的多次迭代將最終到達(dá)目標(biāo)。迭代將最終到達(dá)目標(biāo)。 放寬產(chǎn)生最優(yōu)計(jì)劃的要求常會減少找到一個(gè)計(jì)劃放寬產(chǎn)生最優(yōu)計(jì)劃的要求常會減少找到一個(gè)計(jì)劃的計(jì)算代價(jià)。的計(jì)算代價(jià)。 可以對以產(chǎn)生計(jì)劃的質(zhì)量為代價(jià)的有限計(jì)算時(shí)可以對以產(chǎn)生計(jì)劃的質(zhì)量為代價(jià)的有限計(jì)算時(shí)間資源的搜索算法進(jìn)行修改,這些計(jì)劃可能不是最佳間資源的搜索算法進(jìn)行修改,這些計(jì)劃可能不是最佳的,或者可能不是總能可靠地到達(dá)目標(biāo)狀態(tài)。即使這的,或者可能不是總能可靠地到達(dá)目標(biāo)狀態(tài)。即使這個(gè)計(jì)劃不是最優(yōu)的個(gè)計(jì)劃不是最

10、優(yōu)的( (甚至也不正確甚至也不正確) ),這些技術(shù)的應(yīng)用,這些技術(shù)的應(yīng)用也能被合并到感知計(jì)劃動作循環(huán)中。也能被合并到感知計(jì)劃動作循環(huán)中。 一個(gè)一個(gè)A A* *類型的搜索可用于這兩種方法:類型的搜索可用于這兩種方法: 對對前者前者,我們用一個(gè)不可接納的啟發(fā)式函數(shù);,我們用一個(gè)不可接納的啟發(fā)式函數(shù); 對對后者后者,在到達(dá)目標(biāo)前,在到達(dá)目標(biāo)前( (用可接納的或不可接納的用可接納的或不可接納的啟發(fā)式函數(shù)啟發(fā)式函數(shù)) )退出搜索。在到達(dá)目標(biāo)前退出搜索是退出搜索。在到達(dá)目標(biāo)前退出搜索是任意任意時(shí)間算法時(shí)間算法( (anytime algorithm)anytime algorithm) 的一個(gè)例子。任意時(shí)

11、的一個(gè)例子。任意時(shí)間算法能在任何時(shí)刻停止,結(jié)果的質(zhì)量會隨著運(yùn)行時(shí)間算法能在任何時(shí)刻停止,結(jié)果的質(zhì)量會隨著運(yùn)行時(shí)間的增加而改善。間的增加而改善。 可以從兩個(gè)方面來減少代價(jià)。可以從兩個(gè)方面來減少代價(jià)。一是一是能找到到達(dá)目能找到到達(dá)目標(biāo)的一條完整路徑但不必要求它是最優(yōu)的;標(biāo)的一條完整路徑但不必要求它是最優(yōu)的;或者是或者是能能找到一條局部的路徑,它不要求已達(dá)到目標(biāo)節(jié)點(diǎn)。找到一條局部的路徑,它不要求已達(dá)到目標(biāo)節(jié)點(diǎn)。逼近搜索逼近搜索 逼近搜索逼近搜索 孤島驅(qū)動搜索孤島驅(qū)動搜索 在在孤島驅(qū)動孤島驅(qū)動( (island-driven)island-driven)搜索中,來自問題搜索中,來自問題領(lǐng)域的啟發(fā)性知識

12、被用于在搜索空間中建立一個(gè)領(lǐng)域的啟發(fā)性知識被用于在搜索空間中建立一個(gè)“島節(jié)點(diǎn)島節(jié)點(diǎn)”序列,假定有好的路徑通過這個(gè)搜索空序列,假定有好的路徑通過這個(gè)搜索空間。間。 例如,在計(jì)劃通過有障礙的地形時(shí),這些島就例如,在計(jì)劃通過有障礙的地形時(shí),這些島就是相應(yīng)的山。假如是相應(yīng)的山。假如n n0 0是開始節(jié)點(diǎn),是開始節(jié)點(diǎn), n ng g是目標(biāo)節(jié)點(diǎn),是目標(biāo)節(jié)點(diǎn),( (n n1 1,n n2 2,n nk k) )是這些島的一個(gè)序列。我們用是這些島的一個(gè)序列。我們用n n0 0作為開始節(jié)點(diǎn),作為開始節(jié)點(diǎn),n n1 1作為目標(biāo)節(jié)點(diǎn),開始一個(gè)啟發(fā)式作為目標(biāo)節(jié)點(diǎn),開始一個(gè)啟發(fā)式搜索搜索( (用一個(gè)同那個(gè)目標(biāo)相適應(yīng)的啟

13、發(fā)式函數(shù)用一個(gè)同那個(gè)目標(biāo)相適應(yīng)的啟發(fā)式函數(shù)) )。 當(dāng)搜索找到了一條到當(dāng)搜索找到了一條到n n1 1的路徑時(shí),就用的路徑時(shí),就用n n1 1作起始作起始點(diǎn),點(diǎn),n n2 2作目標(biāo)點(diǎn)開始另一個(gè)搜索,等等,直到我們作目標(biāo)點(diǎn)開始另一個(gè)搜索,等等,直到我們發(fā)現(xiàn)了一條到達(dá)發(fā)現(xiàn)了一條到達(dá)n ng g的路。的路。 逼近搜索逼近搜索 層次搜索層次搜索 逼近搜索逼近搜索 除了沒有顯式的島集合外,除了沒有顯式的島集合外,層次搜索層次搜索( (hierarchical hierarchical search)search)非常像孤島搜索。非常像孤島搜索。 假定有一些假定有一些“宏算子宏算子”,它們能在一個(gè)隱式的島搜

14、索空,它們能在一個(gè)隱式的島搜索空間中采取大步驟。一個(gè)起始島間中采取大步驟。一個(gè)起始島( (在開始節(jié)點(diǎn)附近在開始節(jié)點(diǎn)附近) )和這些宏算和這些宏算子構(gòu)成了島的一個(gè)隱式的子構(gòu)成了島的一個(gè)隱式的“元級元級”超大圖。超大圖。 首先用一個(gè)首先用一個(gè)元元( (metalevel)metalevel)搜索來搜索這個(gè)超大圖,直搜索來搜索這個(gè)超大圖,直到找到一條到找到一條宏算子路徑宏算子路徑,它可以讓我們從基級開始節(jié)點(diǎn)附近,它可以讓我們從基級開始節(jié)點(diǎn)附近的一個(gè)節(jié)點(diǎn)到達(dá)基級目標(biāo)節(jié)點(diǎn)附近的一個(gè)節(jié)點(diǎn)。如果已經(jīng)按的一個(gè)節(jié)點(diǎn)到達(dá)基級目標(biāo)節(jié)點(diǎn)附近的一個(gè)節(jié)點(diǎn)。如果已經(jīng)按照一個(gè)基級算子序列定義過宏算子,宏算子可擴(kuò)展為一條基照一

15、個(gè)基級算子序列定義過宏算子,宏算子可擴(kuò)展為一條基級算子路徑,然后根據(jù)基級搜索,這條路徑與開始和目標(biāo)節(jié)級算子路徑,然后根據(jù)基級搜索,這條路徑與開始和目標(biāo)節(jié)點(diǎn)相連接。點(diǎn)相連接。如果沒有以基級算子定義的宏算子,我們必須順如果沒有以基級算子定義的宏算子,我們必須順著元級搜索中的島節(jié)點(diǎn)路徑進(jìn)行基級搜索著元級搜索中的島節(jié)點(diǎn)路徑進(jìn)行基級搜索。 逼近搜索逼近搜索 逼近搜索逼近搜索 例子例子:考慮在一個(gè)網(wǎng)格空間中機(jī)器人要將一個(gè)方塊推到:考慮在一個(gè)網(wǎng)格空間中機(jī)器人要將一個(gè)方塊推到一個(gè)給定的目標(biāo)位置。一個(gè)給定的目標(biāo)位置。 元級計(jì)劃元級計(jì)劃 :如何推方:如何推方塊移動到塊移動到G G單元。單元。 基級計(jì)劃基級計(jì)劃 :

16、方塊移動:方塊移動的每一步就能展開成的每一步就能展開成一個(gè)基級計(jì)劃一個(gè)基級計(jì)劃 。逼近搜索逼近搜索 有限范圍搜索有限范圍搜索 在某些問題中,用任何方法搜索方法發(fā)現(xiàn)一條到在某些問題中,用任何方法搜索方法發(fā)現(xiàn)一條到達(dá)目標(biāo)的路徑從計(jì)算上講都是不可能的;而在另外一達(dá)目標(biāo)的路徑從計(jì)算上講都是不可能的;而在另外一些問題中,一個(gè)動作必須在一個(gè)限定的時(shí)間內(nèi)做出選些問題中,一個(gè)動作必須在一個(gè)限定的時(shí)間內(nèi)做出選擇,而不能在這個(gè)時(shí)間內(nèi)搜索到所有到達(dá)目標(biāo)的路徑。擇,而不能在這個(gè)時(shí)間內(nèi)搜索到所有到達(dá)目標(biāo)的路徑。 在這些問題中,用有限的時(shí)間和計(jì)算量找到一條在這些問題中,用有限的時(shí)間和計(jì)算量找到一條被認(rèn)為是在到達(dá)目標(biāo)的好路

17、徑上的節(jié)點(diǎn)可能是有用的,被認(rèn)為是在到達(dá)目標(biāo)的好路徑上的節(jié)點(diǎn)可能是有用的,盡管該節(jié)點(diǎn)并不是目標(biāo)節(jié)點(diǎn)本身。盡管該節(jié)點(diǎn)并不是目標(biāo)節(jié)點(diǎn)本身。 當(dāng)必須終止搜索時(shí),這個(gè)替身節(jié)點(diǎn)當(dāng)必須終止搜索時(shí),這個(gè)替身節(jié)點(diǎn)n n* *在搜索前沿的所有節(jié)點(diǎn)中,有最小的在搜索前沿的所有節(jié)點(diǎn)中,有最小的 值值。 f f 假定在一個(gè)動作被選擇前的可用搜索時(shí)間允許搜索假定在一個(gè)動作被選擇前的可用搜索時(shí)間允許搜索到深度到深度d d,即所有深度為即所有深度為d d或小于或小于d d的路徑都能被搜索到;的路徑都能被搜索到;在該深度的節(jié)點(diǎn)在該深度的節(jié)點(diǎn)將被稱為將被稱為范圍節(jié)點(diǎn)范圍節(jié)點(diǎn)。那么我們的搜索。那么我們的搜索過程將搜索到深度過程將搜

18、索到深度d d,然后選擇然后選擇 )(minarg*nfnHn作為目標(biāo)節(jié)點(diǎn)的替代。這個(gè)方法叫做作為目標(biāo)節(jié)點(diǎn)的替代。這個(gè)方法叫做有限范圍搜索有限范圍搜索( (limited-horizon search)limited-horizon search)。Korf 1990Korf 1990研究了這研究了這個(gè)算法并稱它為個(gè)算法并稱它為最小搜索最小搜索( (minimin search)minimin search)。 逼近搜索逼近搜索 一個(gè)感知計(jì)劃動作系統(tǒng)將在到達(dá)一個(gè)感知計(jì)劃動作系統(tǒng)將在到達(dá)n n* *的路徑上采的路徑上采取第一個(gè)動作,感知結(jié)果狀態(tài),再迭代搜索,一遍一遍取第一個(gè)動作,感知結(jié)果狀態(tài),再

19、迭代搜索,一遍一遍地進(jìn)行下去。地進(jìn)行下去。 我們希望朝著一個(gè)擁有最優(yōu)啟發(fā)式指標(biāo)的節(jié)點(diǎn)的第我們希望朝著一個(gè)擁有最優(yōu)啟發(fā)式指標(biāo)的節(jié)點(diǎn)的第一步動作,正好是在朝著目標(biāo)的路徑上。一步動作,正好是在朝著目標(biāo)的路徑上。 通常,一個(gè)通常,一個(gè)agentagent沒有必要去搜索所有到達(dá)目標(biāo)的沒有必要去搜索所有到達(dá)目標(biāo)的路徑;因?yàn)椴淮_定性,遠(yuǎn)距離搜索可能是不相關(guān)的,不路徑;因?yàn)椴淮_定性,遠(yuǎn)距離搜索可能是不相關(guān)的,不能提供比應(yīng)用在搜索水平上的啟發(fā)式函數(shù)更好的信息。能提供比應(yīng)用在搜索水平上的啟發(fā)式函數(shù)更好的信息。 逼近搜索逼近搜索 逼近搜索逼近搜索 循環(huán)循環(huán) 在存在不確定性和在存在不確定性和agentagent依賴逼

20、近計(jì)劃的所有情依賴逼近計(jì)劃的所有情況中,用感知計(jì)劃動作循環(huán)可以產(chǎn)生重復(fù)的循環(huán)。況中,用感知計(jì)劃動作循環(huán)可以產(chǎn)生重復(fù)的循環(huán)。即即agentagent可能會回到前面遇到過的環(huán)境狀態(tài),重復(fù)在可能會回到前面遇到過的環(huán)境狀態(tài),重復(fù)在那里采用過的動作。那里采用過的動作。 當(dāng)然,這種反復(fù)并不意味著當(dāng)然,這種反復(fù)并不意味著agentagent永遠(yuǎn)不能達(dá)到永遠(yuǎn)不能達(dá)到目標(biāo)狀態(tài)。目標(biāo)狀態(tài)。 Korf Korf提出了一個(gè)計(jì)劃執(zhí)行算法叫提出了一個(gè)計(jì)劃執(zhí)行算法叫實(shí)時(shí)實(shí)時(shí)( (real-real-time)Atime)A* *(RTA(RTA* *) ),它建立了所有已經(jīng)遍歷過的狀態(tài)的它建立了所有已經(jīng)遍歷過的狀態(tài)的一個(gè)顯

21、式圖,同時(shí)調(diào)整這個(gè)圖中節(jié)點(diǎn)的一個(gè)顯式圖,同時(shí)調(diào)整這個(gè)圖中節(jié)點(diǎn)的 值,使它值,使它們在到達(dá)前面已經(jīng)遍歷過的節(jié)點(diǎn)時(shí)不會采取動作們在到達(dá)前面已經(jīng)遍歷過的節(jié)點(diǎn)時(shí)不會采取動作。 h h逼近搜索逼近搜索 建立反應(yīng)過程建立反應(yīng)過程 在一個(gè)反應(yīng)型機(jī)器中,設(shè)計(jì)者已為每一個(gè)可能的在一個(gè)反應(yīng)型機(jī)器中,設(shè)計(jì)者已為每一個(gè)可能的狀態(tài)提前計(jì)算了合適的到達(dá)目標(biāo)的動作。存儲這些和狀態(tài)提前計(jì)算了合適的到達(dá)目標(biāo)的動作。存儲這些和環(huán)境狀態(tài)相對應(yīng)的動作可能需要大量的內(nèi)存。環(huán)境狀態(tài)相對應(yīng)的動作可能需要大量的內(nèi)存。 另一方面,反應(yīng)型另一方面,反應(yīng)型agentagent常常比計(jì)劃型常常比計(jì)劃型agentagent反應(yīng)反應(yīng)更快。在某些情況下,

22、提前計(jì)算更快。在某些情況下,提前計(jì)算( (匯編匯編) )一些頻繁使用一些頻繁使用的的離線離線( ( offline)offline)計(jì)劃計(jì)劃,把它們存儲為反應(yīng)例程以便,把它們存儲為反應(yīng)例程以便可以可以在線在線( (online)online)快速產(chǎn)生適當(dāng)?shù)膭幼鳎@樣做是有快速產(chǎn)生適當(dāng)?shù)膭幼?,這樣做是有益的。益的。 例如例如,離線搜索能計(jì)劃一個(gè)以狀態(tài)空間圖中的目,離線搜索能計(jì)劃一個(gè)以狀態(tài)空間圖中的目標(biāo)節(jié)點(diǎn)為根的標(biāo)節(jié)點(diǎn)為根的生成樹生成樹( (spanning tree)spanning tree),它包含從狀它包含從狀態(tài)空間中所有態(tài)空間中所有( (至少很多至少很多) )節(jié)點(diǎn)到達(dá)目標(biāo)的路徑。能從節(jié)點(diǎn)

23、到達(dá)目標(biāo)的路徑。能從目標(biāo)節(jié)點(diǎn)向后搜索產(chǎn)生一個(gè)生成樹。目標(biāo)節(jié)點(diǎn)向后搜索產(chǎn)生一個(gè)生成樹。逼近搜索逼近搜索 例如,一個(gè)獲得目標(biāo)例如,一個(gè)獲得目標(biāo)( (塊塊A A在塊在塊B B上,塊上,塊B B在塊在塊C C上上) )的積木問的積木問題的生成樹如圖所示,它表示了從所有其他節(jié)點(diǎn)到達(dá)目標(biāo)題的生成樹如圖所示,它表示了從所有其他節(jié)點(diǎn)到達(dá)目標(biāo)的路徑。的路徑。 生成樹和局生成樹和局部生成樹能容易部生成樹能容易地轉(zhuǎn)換成完全反地轉(zhuǎn)換成完全反應(yīng)型的應(yīng)型的T-RT-R程序。程序。 如果:一個(gè)如果:一個(gè)反應(yīng)程序?yàn)槊恳环磻?yīng)程序?yàn)槊恳粋€(gè)可能的狀態(tài)指個(gè)可能的狀態(tài)指定了一個(gè)動作,定了一個(gè)動作,就被稱為就被稱為通用計(jì)通用計(jì)劃劃( (

24、universal universal plan) plan) 或動作策或動作策略略( (action action policy)policy)。 學(xué)習(xí)啟發(fā)式函數(shù)學(xué)習(xí)啟發(fā)式函數(shù) 如果如果agentagent沒有一個(gè)好的啟發(fā)式函數(shù)來評估到達(dá)目沒有一個(gè)好的啟發(fā)式函數(shù)來評估到達(dá)目標(biāo)的代價(jià),有時(shí)就需要學(xué)習(xí)這樣一個(gè)函數(shù)。首先解釋標(biāo)的代價(jià),有時(shí)就需要學(xué)習(xí)這樣一個(gè)函數(shù)。首先解釋一個(gè)非常簡單的適合特定情況的學(xué)習(xí)過程,在這種情一個(gè)非常簡單的適合特定情況的學(xué)習(xí)過程,在這種情況下可能會存儲所有可能節(jié)點(diǎn)的一個(gè)顯式列表。況下可能會存儲所有可能節(jié)點(diǎn)的一個(gè)顯式列表。 這個(gè)特殊的學(xué)習(xí)過程從一個(gè)隨機(jī)步開始,執(zhí)行一這個(gè)特殊的學(xué)

25、習(xí)過程從一個(gè)隨機(jī)步開始,執(zhí)行一個(gè)由評估函數(shù)導(dǎo)向的搜索過程,最終慢慢到達(dá)目標(biāo),個(gè)由評估函數(shù)導(dǎo)向的搜索過程,最終慢慢到達(dá)目標(biāo),在隨后的試驗(yàn)中向后傳播來自更好路徑的更好的值。在隨后的試驗(yàn)中向后傳播來自更好路徑的更好的值。連續(xù)的環(huán)境反饋減少了不確定性和彌補(bǔ)一個(gè)連續(xù)的環(huán)境反饋減少了不確定性和彌補(bǔ)一個(gè) agentagent缺缺乏對自己動作結(jié)果的知識了解。乏對自己動作結(jié)果的知識了解。獎(jiǎng)賞代替目標(biāo)獎(jiǎng)賞代替目標(biāo) 在討論狀態(tài)空間的搜索策略中,假定在討論狀態(tài)空間的搜索策略中,假定agentagent有一有一個(gè)簡單的短期任務(wù),它由一個(gè)目標(biāo)條件描述。目標(biāo)改個(gè)簡單的短期任務(wù),它由一個(gè)目標(biāo)條件描述。目標(biāo)改變著世界,直到它的

26、圖標(biāo)模型變著世界,直到它的圖標(biāo)模型( (以數(shù)據(jù)結(jié)構(gòu)的方式以數(shù)據(jù)結(jié)構(gòu)的方式) )滿滿足給定的條件。足給定的條件。 在很多實(shí)際問題中,任務(wù)并不像剛才描述的那樣在很多實(shí)際問題中,任務(wù)并不像剛才描述的那樣簡單。相反,任務(wù)可能是正在進(jìn)行的。用戶按照給簡單。相反,任務(wù)可能是正在進(jìn)行的。用戶按照給agentagent一些偶然的正負(fù)一些偶然的正負(fù)獎(jiǎng)賞獎(jiǎng)賞( (reward)reward)來表達(dá)他對任務(wù)來表達(dá)他對任務(wù)執(zhí)行的滿意程度。執(zhí)行的滿意程度。 agentagent的任務(wù)的任務(wù)是把它收到的獎(jiǎng)賞數(shù)量最大化是把它收到的獎(jiǎng)賞數(shù)量最大化( (一個(gè)一個(gè)簡單到達(dá)目標(biāo)的特例也可用這種框架來描述,在這個(gè)簡單到達(dá)目標(biāo)的特例也

27、可用這種框架來描述,在這個(gè)框架中,當(dāng)框架中,當(dāng)agentagent到達(dá)目標(biāo)時(shí),給到達(dá)目標(biāo)時(shí),給agentagent一個(gè)正的獎(jiǎng)賞一個(gè)正的獎(jiǎng)賞( (只有一次只有一次) ),而每次當(dāng),而每次當(dāng)agentagent采取動作時(shí)給它一個(gè)負(fù)采取動作時(shí)給它一個(gè)負(fù)的獎(jiǎng)賞的獎(jiǎng)賞( (根據(jù)動作的代價(jià)根據(jù)動作的代價(jià))。 獎(jiǎng)賞代替目標(biāo)獎(jiǎng)賞代替目標(biāo) 在這種任務(wù)環(huán)境下,我們要尋找使獎(jiǎng)賞最大化的在這種任務(wù)環(huán)境下,我們要尋找使獎(jiǎng)賞最大化的動作策略。動作策略。 對于正在進(jìn)行還沒有終止的任務(wù),存在的一個(gè)問對于正在進(jìn)行還沒有終止的任務(wù),存在的一個(gè)問題是未來的獎(jiǎng)賞可能是無限的,因此難以決定如何使題是未來的獎(jiǎng)賞可能是無限的,因此難以決定如何使它最大化。它最大化。 一種處理辦法是通過一些因子對未來的獎(jiǎng)賞打折一種處理辦法是通過一些因子對未來的獎(jiǎng)賞打折扣,即扣,即agen

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論