人工智能中強化學習的研究_第1頁
人工智能中強化學習的研究_第2頁
人工智能中強化學習的研究_第3頁
人工智能中強化學習的研究_第4頁
人工智能中強化學習的研究_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、人工智能中強化學習的研究1.概述     自20世紀90年代以來,隨著全球化的形式與國際競爭的日益激烈,對人工智能技術的研究與應用變的越來越被人們關注,且人工智能在制造中的運用以成為實現(xiàn)制造的知識化、自動化、柔性化以實現(xiàn)對市場的快速響應的關鍵。    但是,目前的人工智能的運用與人們的期待總是有一定的距離。其中,知識的恰當表達與獲取、創(chuàng)新能力的實現(xiàn)、軟件適應性的缺乏、計算實時性的要求是人工智能運用中的瓶頸問題。而以學習、進化、自組織為主要特征的新一代人工智能可能可以解決這個問題。    知識的恰當表示與獲

2、取是以規(guī)則為主要代表的符號知識表示具有粒度極限、知識獲取困難等弱點,而以神經(jīng)網(wǎng)絡為代表的亞符號知識則難以處理現(xiàn)實世界中復雜的結構化知識,使用進化方法可以很好的解決這個問題。    創(chuàng)新能力的實現(xiàn)。在制造過程中,人們對智能系統(tǒng)的需求包括輔助用戶進行創(chuàng)新的能力、代替人類進行決策的能力,以及超越人的知識范圍進行創(chuàng)新的能力。使用學習能力可以實現(xiàn)創(chuàng)新能力。    軟件適應性的缺乏使專家系統(tǒng)在實際運用中困難重重。其重要原因是無法適應各個環(huán)境的不同。具有學習和進化能力的智能系統(tǒng)可以很好的解決這個問題。    計算實時性

3、的要求是智能系統(tǒng)應用中的基本要求,但目前的智能算法都存在搜索收斂速度慢的缺點。較有希望的解決方法是使得系統(tǒng)在求解過程能有效地利用已積累的知識,這種基于知識的搜索能力將隨著系統(tǒng)的行動不斷增強,從而不必每求解一個問題都從零開始。    在下面的章節(jié)中,先簡單的介紹一下關于學習、進化與自組織機制的基本概念和共同特征,并對其中一些學習的方法進行詳細的敘述。    2.學習、進化與自組織    新一代的智能技術是指80年代以來迅速發(fā)展起來的以神經(jīng)網(wǎng)絡(ANN)、進化計算、模糊邏輯、Agent為主要代表的計算只能技術

4、,其中主要具有學習進化與自組織的能力。    學習是指系統(tǒng)適應環(huán)境而產生的適應性變化,它使得系統(tǒng)在完成類似任務時更加有效。80年代以來,ANN的學習機制再次得到人們的重視,基于連接機制的亞符號學習又一次成為的當今學習機制研究的熱點,提出了競爭學習,進化學習、加強學習等各種新的學習機制。    進化計算是模仿自然界物競天擇、適者生存的進化機制來進行信息處理的技術。進化計算最主要的方法有4種:遺傳算法、進化策略、進化規(guī)劃和遺傳編程。這些方法的差異在于基因表達方式的不同以及變異作用的側重點不同。進化計算的應用十分廣泛,主要分為規(guī)劃、設計、仿

5、真與辯識、控制、分類等。    自組織為具有耗散結構、具有自催化和定向漲落機制的開放式系統(tǒng)在演變過程中呈現(xiàn)出來的全局有序現(xiàn)象,如生命現(xiàn)象、熱對流現(xiàn)象等。自組織計算具有以下幾個主要特征:    1、問題結構組成的不明確性,結構的形成是系統(tǒng)在對環(huán)境信息的不斷處理中自發(fā)生成的;    2、結構變化沒有明確的方向,其知識的積累完全取決于所處理的環(huán)境信息中存在的規(guī)律性;    3、它強調大量個體的協(xié)調作用,是一個高度自主協(xié)同的過程,它通過大量的局部相互作用可以產生全局的整體效應。

6、60;   自組織理論的研究愛目前的復雜性科學的研究中具有突出的地位。    在這三種主要的智能機制中,它們具有多方面的性,主要為以下幾點:    1、把結構引入計算過程,這是三者與傳統(tǒng)算法的最重要區(qū)別。結構作為系統(tǒng)經(jīng)驗與知識的載體,是系統(tǒng)具有學習功能的基礎。此外,三者都具有結構與知識的分布性。    2、把系統(tǒng)概念引入計算過程,無論是學習、進化還是自組織,都將算法看作一個系統(tǒng),從而可以具有反饋能力、記憶能力、動態(tài)自適應能力等多種功能,并將計算過程看作系統(tǒng)不斷改變的自身過程的過程。&#

7、160;   3、把交互性引入計算過程。這種交互包括兩種:一是計算內部與環(huán)境之間的信息交換,學習系統(tǒng)要從環(huán)境獲取反饋信息或隱含著規(guī)律的信息流,進化系統(tǒng)要把所產生的結構作用于環(huán)境,再從環(huán)境取得反饋評價信息,自組織系統(tǒng)要求系統(tǒng)與環(huán)境之間有不斷的信息與能量交流;二是算法內部各組成部分之間的信息交換,學習系統(tǒng)如神經(jīng)元之間的信息交流,進化系統(tǒng)如種群中個體之間的競爭,自組織系統(tǒng)如系統(tǒng)個體間的競爭與協(xié)作。3.學習3.學習    學習機制的研究是人工智能研究的一項核心課題。它是智能系統(tǒng)具有適應性與性能自完善功能的基礎。學習過程具有以下特點:學習行為一般具有明顯

8、的目的性,其結果是獲取知識;學習系統(tǒng)中結構的變化是定向的,要么由學習算法決定,要么由環(huán)境決定;學習系統(tǒng)是構造智能系統(tǒng)的中心骨架,它是全面組織與保存系統(tǒng)知識的場所;學習機制與知識表達方式密切相關,神經(jīng)網(wǎng)絡表示形式的知識可以用ANN算法或GA算法來獲取,也可以用加強算法來獲取。    3.1 統(tǒng)計學的方法    盡管,大部分的學習算法都集中在競爭學習,進化學習和加強學習三個方面。王天樹等2使用了統(tǒng)計的方法來對學習方法進行設計。他指出,一般從樣本進行學習的模型包括三個部分:樣本產生器、訓練器和學習機器。學習問題就是從給定的函數(shù)集中選擇出能夠

9、最好地逼近訓練器響應的函數(shù)。在他的文章中,先指出了一些基本的統(tǒng)計方法,并將統(tǒng)計學與圖形學相結合,然后對基于統(tǒng)計學基礎的圖形推理方法的模型建立進行了討論。    其中該方法的主要步驟如下:    1.對問題的定義,大多數(shù)統(tǒng)計模型和方法是針對特定領域的應用問題提出的。為了給出有意義的問題定義,首先要考慮特定領域的知識和經(jīng)驗。    2.收集實驗數(shù)據(jù),在收集數(shù)據(jù)時,明確數(shù)據(jù)產生的機制也是很重要的,因為通過不同方式所產生的數(shù)據(jù)可能會導致不同的學習結果。    3.數(shù)據(jù)預處理,數(shù)據(jù)預處

10、理是一個非常重要的步驟,它影響著整個學習的成敗。預處理包括兩個方面即檢測和消除非正常的離群樣本和對樣本做適當?shù)霓D換。    4.選擇或設計模型,對同一個問題或許有許多不同的模型可以描述,不同的模型會導致學習結果的不同,因此需要利用該領域的專家的經(jīng)驗和知識來選擇或設計適當?shù)哪P汀?#160;   5.學習模型的參數(shù),在確定了所使用的統(tǒng)計模型后,就可以利用統(tǒng)計學習方法來估計模型的參數(shù),需要注意的時,應該使得模型對未知數(shù)據(jù)有良好的適應性。    6.解釋模型、驗證模型。通過學習得到的模型的一般用途是對未知數(shù)據(jù)做預測,并對

11、模型的結構及參數(shù)作出解釋。需要使用一定的以知數(shù)據(jù)作為未知數(shù)據(jù)對模型進行一定的驗證。    3.2 增強式學習    增強式學習(Reinforcement Learning)是一種基于行為方法的半監(jiān)督學習。一般的學習方法分兩類,一類是上文提到的基于模型的,在這種方法,智能體需要環(huán)境確切的模型,具有較高的智能,但不適合于不確定的動態(tài)環(huán)境;另一種是基于行為的方法,在這種方法中,不需要環(huán)境的確切模型,采用分層結構,高層行為可以調整和抑制低層的行為能力,但每層中都具有其自主的確定權,如3中的Holonic智能制造系統(tǒng)。增強式具有這些優(yōu)點,故常

12、用于機器人足球賽4、狩獵問題、甚至戰(zhàn)爭指揮中5,但是這些都只是理論上的研究,因為機器人足球賽的本身目的也是為了測試人工智能的可用性,且更不可能去讓戰(zhàn)爭去由電腦而不是人去指揮了。    增強式學習是基于逐漸逼近的機理,模仿人類的學習策略,其結構圖如圖1:    圖1:增強型學習結構    在增強型學習的結構中,用A來作為一個動作集合(在圖中a表示為A一個動作),用S來表示環(huán)境狀態(tài)的有限值,(在圖中s表示為S的一個狀態(tài))。T為狀態(tài)改變的過程,既圖中的長箭頭線,R為報償函數(shù),每一步智能體觀察某狀態(tài)s,執(zhí)行某個動

13、作a,這時,它會從這個過程中得到一個補償值來判定某個行為的好壞。環(huán)境的模型由狀態(tài)轉換函數(shù)T:S×AS來表示,它是可感知的環(huán)境狀態(tài)到在這些狀態(tài)下執(zhí)行動作的一個映射。這個策略可以使用函數(shù)值來表達。但是,函數(shù)T和報償r僅依賴于當前的狀態(tài)和動作,和以前的狀態(tài)和動作都無關。智能體通過報償r來決定某些動作的好壞而更傾向于做好的動作以適應環(huán)境。    在5的工作中,他使用了一個機器人過機器人系統(tǒng)來對其方法進行測試,仿真環(huán)境為10×10 的網(wǎng)格空間, 如圖2 所示。 兩個圓形智能體為協(xié)作智能體, 橢圓型的智能體為看守智能體, 兩個長方型的物體為障礙物。 協(xié)作智

14、能體有4種基本行為: 上、下、左、右運動, 看守智能體只可以上下運動來防止協(xié)作智能體過門。 兩個協(xié)作智能體只有相互配合, 協(xié)作站位才可以通過有看守智能體把守的門。只要有一個協(xié)作智能體通過把守門就算成功, 圖2 所示為一種目標狀態(tài)。 智能體位置由重心在網(wǎng)格環(huán)境中的坐標決定。    圖2:6中的機器人過人仿真    在使用了文中所改進的方法后,機器人能夠在較快的時間內實現(xiàn)過人的過程。并且在實驗次數(shù)與學習次數(shù)方面也有較好的表現(xiàn)。    另一個就是4中的足球賽運用,他仍舊是以上文提到的方法為基礎,不過對其進行了改

15、進,并敘述了算法運用的詳細過程。在分層強化學習中,學習的過程公式是機遇Q學習方法的,不過將Q學習的定義規(guī)則定義重新定義為:    故在實際的運用中會有更好的表現(xiàn)。    在4的工作中,將學習過程分為三部分進行。第一步先訓練智能體學會基本的動作技巧,包括:射門,帶球,穿球,開任意球等。然后訓練智能體學會在一定的外部環(huán)境下,訓練智能體在不斷改變的外部環(huán)境下選取適合的動作。    在實驗中將學習狀太空間分為了4個部分:    球對學習者的距離和角度   

16、; 對手對學習者的距離和角度    球門對學習者的距離和角度    球門是否可見。    通過對這幾個狀態(tài)的不斷遞歸(具體方法如圖1),在一定次的學習后,機器人可以掌握一定的踢球能力。文中就其研究結果與一些通常的方法進行了比較,結果顯示,在一定次數(shù)的學習后,他的方法可以得到較優(yōu)的表現(xiàn)。3.3使用強化學習的Agent3.3使用強化學習的Agent    Agent最早是出現(xiàn)與遺傳算法中,使用“Ethogenetics(行為遺傳)”的思想,突破了人們長期以來關于一個編碼串對應于組

17、合優(yōu)化問題所有策略變量的一個組合方式的傳統(tǒng)、靜態(tài)的認識,而將一個編碼串看成某個智能主體(Agent)主動進行的一系列決策行為的結果。    關于Agent的運用有很多種,主要集中在智能Agent,多Agent系統(tǒng)和面向Agent的程序設計這3個相互關聯(lián)的方面。智能Agent是多Agent系統(tǒng)的研究基礎,可以將有關智能Agent看做是多Agent系統(tǒng)的微觀層次。    在5中,使用了一種強化學習的Agent來對指揮控制進行仿真研究,試圖找到一種可以在一定程度上代替人來進行指揮的系統(tǒng)。    他的方法仍舊是在

18、上文提到的強化學習方法中進行改進,其結構圖如下:    圖3:Agent強化學習過程框圖    其過程描述如下:    Agent通過感知器感知環(huán)境得到環(huán)境的一個狀態(tài)St.    Agent以某一個決策規(guī)則選擇一個動作或行動方案Ai,并作用于環(huán)境。    下一時刻Agent從環(huán)境中獲取一個獎賞值R(St,Ai),Agent以該獎賞值來修正其內部的決策規(guī)則。    在他的工作中,對戰(zhàn)場進行了一個仿真,設置為紅方與藍方。紅方為進攻方,設置了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論