版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制第1頁/共20頁神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制NeuralNetworkbasedLearningControl第2頁/共20頁7.1ReinforcementLearning(再勵學(xué)習(xí),自強式學(xué)習(xí))神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法有三類:監(jiān)督學(xué)習(xí)SupervisedLearning—例如BP
—有明確的“教師”信號無監(jiān)督學(xué)習(xí)UnsupervisedLearning
—沒有任何“教師”信號
—只是通過輸入數(shù)據(jù)的內(nèi)部信息
相當(dāng)自組織?類方法。
—例如
再勵學(xué)習(xí)ReinforcementLearning源于心理學(xué)
簡單的說,一個人有筆錢,有幾個投資選擇A.B.C.他投B,賺錢了,再投B。untilB不賺錢了,或有
突發(fā)事件使他覺得A更好,于是將錢投到A。第3頁/共20頁由Barto等人提出的ReinforcementLearning可稱為ASE/ACE模型,即由
ASE:AssociativeSearchElement:關(guān)聯(lián)搜索單元
ACE:AdaptiveCriticElement:自適應(yīng)評判單元
構(gòu)成。
ASE的作用是確定控制信號y
ACE則對再勵信號r進行改善,得到
ASE和ACE各有n路輸入通道,由系統(tǒng)狀態(tài)S解碼而成(這與cmac相同),且每一時刻只選一個,即
控制信號的確定和各通道權(quán)值的修正如下:第4頁/共20頁其中,和分別為ASE和ACE各通道的權(quán)值;
是經(jīng)改善的再勵信號,α、β、γ和δ有關(guān)系數(shù),noise為隨機噪聲。第5頁/共20頁DECODERCart—PolesystemV1,..v2vnW1,w2wn第6頁/共20頁Cart-Pole的數(shù)學(xué)模型Failure的條件顯然,各單元的輸出幾乎完全取決于被選通道的權(quán)值,
ASE略受噪聲的影響。
各權(quán)值的學(xué)習(xí)幾乎獨立,只有那些曾經(jīng)被選中的通道才會得到修正,其他則不變。
這樣,一旦碰到完全新的情況,則可能輸出一個完全錯誤的控制信號,導(dǎo)致FAIL第7頁/共20頁TwoapproachestoNeuralNetworkbasedLearningControl7.2DirectInverseModelling7.3LearningControlwithaDistalTeacher(DistalLearning)第8頁/共20頁ThecontrolproblemLearnerEnvironmentintentionactionoutcomeInverseModelEnvironmenty*x[n-1]u[n-1]y[n-1]第9頁/共20頁1.TheDirectInverseModelingapproachtolearninganinversemodelEnvironmentInverseModelx[n-1]y[n]u[n-1]+-第10頁/共20頁2.ThedistallearningapproachtolearninganinversemodelEnvironmentForwardModelx[n-1]y[n]u[n-1]+-2.1Learningtheforwardmodelusingthepredictionerrory[n]-y’[n]y’[n]第11頁/共20頁2.2Learningtheinversemodelviaforwardmodelusingtheperformanceerrory*[n]-y[n]InverseModely*[n-1]x[n-1]u[n-1]y[n]forwardModely*[n]-y[n]第12頁/共20頁Thecontrolsystems1.Thedirestinversemodelingapproach
EnvironmentInverseModely[n]u[n-1]+-y*[n]第13頁/共20頁1.2Eg.LearningcontrolofCSTRusingCMACCMACmemoryCMACtrainingCMACresponseCSTRPcontrollerextremecontrollercontrolSwitchreferenceCoordinatorSdepedudupueucSo第14頁/共20頁TheCSTRsystem(continuous-stirredtankreactor)Andthismaybetransformedtothedimensionlessformas:第15頁/共20頁Where,x1istheconversionraterelatingtothereactionconcentration;x2isthereactiontemperatureinthedimensionlessform;UfandUcarecontrolvariablescorrespondingtotheinputflowrateFandcoolanttemperatureTc,respectively.aresystemparameters.
第16頁/共20頁Temperaturecontrolfeedproductjacket第17頁/共20頁CMACbasedlearningcontrolapproachCurrentoutcomestateSo(x1,x2,dx1),currentsettingx1e(k),nextsettingx1e[k+1],where,dx1[k]=x1[k]–x1[k-1]Leted=x1e[k+1]–x1[k-1],ep=x1e[k]-x1[k],where,ed=differencebetweennextsettingandcurrentoutput,ep=currentdeviationbetweendesiredandactualoutputIF|ed|>threshold,THENtaketheextremecontrol,i.e.,IFed>threshold,THENUc=UmaxIFed<-threshold,THENUc=UminOTHERWISEtakethelearningcontrolUc=Up+UdUp=ep*Kp,Ud=CMACresponse第18頁/共20頁CMACtraining
So(x1[k+1],x2[k+1],dx1[k+1])astheinputtotheCMACUc[k]asthe“teachersignal”forthetraining
ConsiderthatSoistheresultcausedbyUc[k],therefore,ifthein
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人珠寶首飾分期購買合同6篇
- 二零二五年度棉被產(chǎn)品售后服務(wù)協(xié)議4篇
- 2025年度個人住宅地下室防水防潮合同范本4篇
- 二零二五年度美團商家入駐信息安全管理合同4篇
- 2025年個人購房貸款利率變動通知合同2篇
- 建筑設(shè)計協(xié)調(diào)合同(2篇)
- 支模超高施工方案
- 施工方案五必須
- 2025年銷售部勞動合同加班補貼范本
- 2025年銷售經(jīng)理崗位競聘協(xié)議范本2篇
- 天津市武清區(qū)2024-2025學(xué)年八年級(上)期末物理試卷(含解析)
- 《徐霞客傳正版》課件
- 江西硅博化工有限公司年產(chǎn)5000噸硅樹脂項目環(huán)境影響評價
- 高端民用航空復(fù)材智能制造交付中心項目環(huán)評資料環(huán)境影響
- 量子醫(yī)學(xué)成像學(xué)行業(yè)研究報告
- DB22T 3268-2021 糧食收儲企業(yè)安全生產(chǎn)標(biāo)準(zhǔn)化評定規(guī)范
- 辦事居間協(xié)議合同范例
- 正念減壓療法詳解課件
- GB 30254-2024高壓三相籠型異步電動機能效限定值及能效等級
- 阿米巴落地實操方案
- 藥物制劑工(三級)理論試題題庫及答案
評論
0/150
提交評論