教案動(dòng)態(tài)規(guī)劃

上傳人：0*** IP屬地：湖北上傳時(shí)間：2023-02-03 格式：PPT 頁(yè)數(shù)：26 大小：253.50KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩21頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

動(dòng)態(tài)規(guī)劃（DynamicProgramming）

R.Bellman1957年發(fā)表“DynamicProgramming”一書(shū)，標(biāo)識(shí)動(dòng)態(tài)規(guī)劃的正式誕生。

動(dòng)態(tài)規(guī)劃的研究對(duì)象和引例動(dòng)態(tài)規(guī)劃的理論基礎(chǔ)和具體迭代方法動(dòng)態(tài)規(guī)劃的基本思想和基本方程動(dòng)態(tài)規(guī)劃的基本概念和定義

動(dòng)態(tài)規(guī)劃是解決多階段決策過(guò)程的基本方法之一。12345第一節(jié)動(dòng)態(tài)規(guī)劃的研究對(duì)象和引例最短路問(wèn)題A12345678E64587789338956562134動(dòng)態(tài)決策問(wèn)題的特點(diǎn)：在多階段決策過(guò)程中,系統(tǒng)的動(dòng)態(tài)過(guò)程可以按照時(shí)間或空間進(jìn)程分為狀態(tài)相互聯(lián)系而又相互區(qū)別的各個(gè)階段每個(gè)階段都要進(jìn)行決策,目的是使整個(gè)過(guò)程的決策達(dá)到最優(yōu)效果。12n狀態(tài)決策狀態(tài)決策狀態(tài)狀態(tài)決策但要便于把問(wèn)題的過(guò)程能轉(zhuǎn)化為多階段決策的過(guò)程。狀態(tài)變量的取值有一定的允許集合或范圍，此集合稱為狀態(tài)允許集合。第二節(jié)動(dòng)態(tài)規(guī)劃的基本概念和定義

階段（stage）把所給問(wèn)題的過(guò)程，適當(dāng)?shù)胤譃槿舾蓚€(gè)相互聯(lián)系的階段;描述階段的變量稱為階段變量，常用k表示；階段的劃分，一般是按時(shí)間和空間的自然特征來(lái)劃分；2.狀態(tài)（state）每個(gè)階段開(kāi)始所處的自然狀態(tài)或客觀條件。通常一個(gè)階段有若干個(gè)狀態(tài)。描述過(guò)程狀態(tài)的變量稱為狀態(tài)變量，常用sk表示第k階段的狀態(tài)。在實(shí)際問(wèn)題中決策變量的取值往往在某一范圍之內(nèi)，此范圍稱為允許決策集合。常用Dk(sk)表示第k階段從狀態(tài)sk出發(fā)的允許決策集合，顯然有一個(gè)數(shù)一組數(shù)一個(gè)向量決定下一階段的狀態(tài)，這種決定稱為決策。在最優(yōu)控制中也稱為控制。描述決策的變量，稱為決策變量。決策變量是狀態(tài)變量的函數(shù)。常用uk(sk)表示第k階段當(dāng)狀態(tài)為sk時(shí)的決策變量。3.決策和策略（DecisionandPolicy)過(guò)程的某一階段、某個(gè)狀態(tài),可以做出不同的決定(選擇),uk(sk)

Dk(sk)

由每段的決策按順序排列組成的決策函數(shù)序列稱為k子過(guò)程策略，

當(dāng)k=1時(shí)，此決策函數(shù)序列成為全過(guò)程的一個(gè)策略，簡(jiǎn)稱策略，記為p1,n

(s1).即

可供選擇的策略有一定范圍，此范圍稱為允許策略集合，用p表示。從允許策略集合中找出達(dá)到最優(yōu)效果的策略稱為最優(yōu)策略。

策略:按順序排列的決策組成的集合；

由第k

n(終止?fàn)顟B(tài))為止的過(guò)程，稱為問(wèn)題的后部子過(guò)程（k子過(guò)程）。簡(jiǎn)稱子策略，記為pk,n(sk)，即系統(tǒng)在某一階段的狀態(tài)轉(zhuǎn)移不但與系統(tǒng)的當(dāng)前的狀態(tài)和決策有關(guān)，而且還與系統(tǒng)過(guò)去的歷史狀態(tài)和決策有關(guān)。其狀態(tài)轉(zhuǎn)移方程如下（一般形式）狀態(tài)轉(zhuǎn)移方程是確定過(guò)程由一個(gè)狀態(tài)到另一個(gè)狀態(tài)的演變過(guò)程。如果第k階段狀態(tài)變量sk的值、該階段的決策變量一經(jīng)確定，第k+1階段狀態(tài)變量sk+1的值也就確定。4.狀態(tài)轉(zhuǎn)移方程可以在各個(gè)階段進(jìn)行決策，去控制過(guò)程發(fā)展的多段過(guò)程；其發(fā)展是通過(guò)一系列的狀態(tài)轉(zhuǎn)移來(lái)實(shí)現(xiàn)的；12ks1u1s2u2s3skukSk+1能用動(dòng)態(tài)規(guī)劃方法求解的多階段決策過(guò)程是一類特殊的多階段決策過(guò)程，即具有無(wú)后效性的多階段決策過(guò)程。圖示如下：它是定義在全過(guò)程或所有后部子過(guò)程上確定的數(shù)量函數(shù)。動(dòng)態(tài)規(guī)劃模型的指標(biāo)函數(shù)，應(yīng)具有可分離性，并滿足遞推關(guān)系。費(fèi)用、成本、利潤(rùn)、路長(zhǎng)等。用Vk,n

表示之。5.指標(biāo)函數(shù)和最優(yōu)值函數(shù)用來(lái)衡量所實(shí)現(xiàn)過(guò)程優(yōu)劣的一種數(shù)量指標(biāo)，稱為指標(biāo)函數(shù)；

第k階段第n階段狀態(tài)sk

終止?fàn)顟B(tài)采取最優(yōu)策略所得到的指標(biāo)函數(shù)值。最優(yōu)值函數(shù)：即12345A12345678E64587789338956562134第三節(jié)：動(dòng)態(tài)規(guī)劃的基本思想和基本方程

最短路的特性（最優(yōu)化原理）：如果已有從起點(diǎn)到終點(diǎn)的一條最短路，那么從最短路線上中間任何一點(diǎn)出發(fā)到終點(diǎn)的路線仍然是最短路。（證明用反證法）第一步：從k=4開(kāi)始，狀態(tài)變量可取兩種狀態(tài)⑦、⑧，它們到E點(diǎn)的路長(zhǎng)分別為4，3。即：

第二步：k=3，狀態(tài)變量可取三個(gè)值④、⑤、⑥，這是經(jīng)過(guò)一個(gè)中途點(diǎn)到達(dá)終點(diǎn)E的兩級(jí)決策問(wèn)題，從城市④到E有兩條路線，需加以比較，取其中最短的，即：

這說(shuō)明由城市④到終點(diǎn)E最短距離為7，其路徑為④→⑦→E。相應(yīng)決策為：

即城市⑤到終點(diǎn)最短距離為5，其路徑為⑤→⑧→E。相應(yīng)決策為

即城市⑥到終點(diǎn)最短距離為5，其路徑⑥→⑦→E。相應(yīng)決策為第三步：k=2,這是具有三個(gè)初始狀態(tài)①、②、③，要經(jīng)過(guò)兩個(gè)中途站才能到達(dá)終點(diǎn)的三級(jí)決策問(wèn)題。由于第3段各點(diǎn)④，⑤，⑥到終點(diǎn)E的最短距離已知，所以我們?nèi)羟蟪鞘孝俚紼的最短距離，只需以它們?yōu)榛A(chǔ)，分別加上城市①與④、⑤、⑥的一段距離，加以比較取其短者即可。

即城市①到終點(diǎn)最短距離為9，其路徑為①→⑤→⑧→E。本段相應(yīng)決策為同理有：第四步k=1,只要一個(gè)狀態(tài)A，則：即從城市A到城市E的距離為17。本段決策為:

再按計(jì)算順序反推可得最優(yōu)決策序列{}即：

所以最優(yōu)路線為：

A→城市①→城市⑤→城市⑧→E

用動(dòng)態(tài)規(guī)劃（逆序法求解的）基本特性：求解時(shí)從邊界條件開(kāi)始，逆（或順）過(guò)程行進(jìn)方向，逐段遞推尋優(yōu)。在每個(gè)問(wèn)題求解時(shí)，都要使用它前面已求出的子問(wèn)題的最優(yōu)結(jié)果，最后問(wèn)題的最優(yōu)解，就是整個(gè)問(wèn)題的最優(yōu)解。

將多階段決策過(guò)程劃分階段，恰當(dāng)?shù)剡x取狀態(tài)變量、決策變量、及定義最優(yōu)指標(biāo)函數(shù)，正確寫(xiě)出基本的遞推關(guān)系式和恰當(dāng)?shù)倪吔鐥l件（簡(jiǎn)言之為基本方程）。從而把問(wèn)題化成一族同類的子問(wèn)題；求解的各個(gè)階段,我們利用了k階段與k+1階段之間的遞推關(guān)系:在求整個(gè)問(wèn)題的最優(yōu)策略時(shí)，由于初始狀態(tài)是已知的，每段的決策是該段狀態(tài)的函數(shù)，故沿最優(yōu)化策略所經(jīng)過(guò)的各段狀態(tài)便可確定了最優(yōu)路線。fk(sk)=opt｛vk(sk,uk(sk))+fk+1(uk(sk))｝ukDk(sk)fn+1(sn+1)=0k=n,..,2,1將問(wèn)題按時(shí)空特性恰當(dāng)?shù)貏澐譃槿舾蓚€(gè)階段

選擇狀態(tài)變量sk,既能描述過(guò)程的變化又滿足無(wú)后效性；確定決策變量uk及每一階段的允許決策集合Dk(sk)；正確寫(xiě)出狀態(tài)轉(zhuǎn)移方程；正確地定義各階段的直接指標(biāo)函數(shù)和后部子過(guò)程的最優(yōu)指標(biāo)函數(shù)，并寫(xiě)出其基本方程：動(dòng)態(tài)規(guī)劃模型及其求解五要素：?jiǎn)柸绾畏峙渫顿Y數(shù)額才能使總效益最大?解：可列出靜態(tài)規(guī)劃問(wèn)題的模型如下分階段：分三個(gè)階段，即k=1，2，3。

確定決策變量：通?？梢匀§o態(tài)規(guī)劃中的變量為決策變量。確定狀態(tài)變量：狀態(tài)變量與決策變量有密切關(guān)系，狀態(tài)變量一般為累計(jì)量或隨遞推過(guò)程變化的量。例

某公司有資金10萬(wàn)元，若投資于項(xiàng)目(i=1,2,3)的投資額為xi時(shí)，其效益分別為狀態(tài)轉(zhuǎn)移方程

指標(biāo)函數(shù)

最優(yōu)指標(biāo)函數(shù)fk(sk)

基本方程最優(yōu)目標(biāo)函數(shù)f3(s3)=2s32

此問(wèn)題中可設(shè)（因此可得狀態(tài)轉(zhuǎn)移方程）：當(dāng)階段k=3時(shí)，有f3(s3)=max｛2x32｝

0≤

x3≤s3最優(yōu)決策為x3*=s3當(dāng)階段k=2時(shí)，有是凹函數(shù)，最大值點(diǎn)只能在[0，s2]端點(diǎn)上取得，即當(dāng)當(dāng)當(dāng)時(shí)，時(shí)，時(shí)，此時(shí)此時(shí)當(dāng)階段k=1時(shí)，有是凹函數(shù)，故比較[0,10]的端點(diǎn)因?yàn)椤嘧顑?yōu)投資方案是全部資金投于第3個(gè)項(xiàng)目，可得最大收益200萬(wàn)元。S2>9/2當(dāng)當(dāng)時(shí)時(shí)矛盾，舍去。（最優(yōu)決策）S2<9/22階導(dǎo)數(shù)>0動(dòng)態(tài)規(guī)劃的優(yōu)

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

教案動(dòng)態(tài)規(guī)劃

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

教案動(dòng)態(tài)規(guī)劃

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔