常態(tài)型策略型博弈

上傳人：x*** IP屬地：山西上傳時(shí)間：2024-05-19 格式：PPT 頁數(shù)：33 大小：412.50KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩28頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

非合作性博弈理論（NoncooperativeGameTheory）前面所論記的，還是非策略性的決策只涉及到一個(gè)人/一個(gè)國家的決策；還沒有必要把別人的決策考慮進(jìn)來?！安┺摹笔顷P(guān)于理性的策略互動(dòng)的模型展開型博弈12策略型(常態(tài)型)博弈12同時(shí)選擇順序選擇但互不知道對(duì)方選什么1策略型(常態(tài)型)博弈基本因素決策者(Player)策略（strategies）功效（utilitiesforoutcomes）例子:囚犯悖論（Prisoner’sDilemma）12決策者１號(hào)決策者的策略２號(hào)決策者的策略２號(hào)決策者從ＣＤ之所得１號(hào)決策者從ＤＤ之所得2策略（Strategies）策略（Strategy)關(guān)于一個(gè)博弈格局的完整計(jì)劃;

關(guān)于策略的選擇要在博弈開始之前就決定了;這一策略計(jì)劃,即使交給別人,也必須能夠執(zhí)行.例如:存在兩個(gè)國家國家1可以選擇無威脅,T,或不去威脅國家2;如果不去威脅的話,結(jié)局是維持現(xiàn)狀,SQ國家2可以選擇抵抗,R,或不抵抗;如果不抵抗,結(jié)局就是默許,Acq2國家1可以選擇動(dòng)武,F,或不動(dòng)武;如果不動(dòng)武,結(jié)局就是投降,Cap1,動(dòng)武則導(dǎo)致戰(zhàn)爭,War戰(zhàn)爭默許2投降1默許2現(xiàn)狀現(xiàn)狀現(xiàn)狀現(xiàn)狀3策略純策略(PureStrategy)每個(gè)博弈者所具有的具體的確切的選擇(non-probabilistic)例子:美-蘇軍備競賽1的純策略:{擴(kuò)軍,裁軍}2的純策略:{擴(kuò)軍,裁軍}

Gameiswrittendownintermsofpurestrategies.However,strategiescanbeprobabilistic美國蘇聯(lián)4策略美方可以用一個(gè)混合策略: {?裁軍,?擴(kuò)軍}美方可以用一個(gè)混合策略: {?裁軍,?擴(kuò)軍}混合策略(MixedStrategy)USSoviets就純策略所進(jìn)行的博彩lotteryoverthepurestrategies

(給每一個(gè)純策略所賦予的幾率probabilitiesassignedtoeachpurestrategy)Example:US-Soviet軍備競賽Gameiswrittendownintermsofpurestrategies.However,strategiescanbeprobabilistic5最佳回應(yīng)(bestreply)給定上述利益動(dòng)機(jī),如果蘇方選擇裁軍,美國的最佳行動(dòng)是什么?美國的“最佳回應(yīng)”是擴(kuò)軍.例子:美-蘇軍備競賽USSoviets6最佳回應(yīng)就蘇方而言,對(duì)美方選擇擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍,因?yàn)?/p>

U2(擴(kuò)軍|擴(kuò)軍)=1>U2(裁軍|擴(kuò)軍)=0策略S是對(duì)t的最佳回應(yīng),如果這一策略可以帶來的利益功效要大于比任何別的策略所帶來的利益功效.美方蘇方7最佳回應(yīng)假設(shè)博弈者1有一個(gè)純策略集，

{S1,S2,…,Sm}博弈者1有一個(gè)純策略集，{t1,t2,…,tn}策略Si是博弈者1對(duì)博弈者2的策略

tj的最佳回應(yīng)，當(dāng)且僅當(dāng)博弈者1所有的其它策略滿足以下條件,

U1(Si|tj)

U1(Sk|tj)，就所有的k

I而言Si是對(duì)tj的嚴(yán)格最佳回應(yīng)(strictlybestreply)，當(dāng)且僅當(dāng)

U1(Si|tj)>U1(Sk|tj)

就所有的k

I而言我們假設(shè)博弈者所做的選擇是為了使自己的利益功效最大化.8BestReplytoaBestReplytoa…Considerwhathappensiftwoplayersiteratebestreplies:1choosesastrategy2choosesbestreplystrategy1choosesitsbestreplytothatstrategy2choosesitsbestreplytothatstrategy…Eventually,thismaystabilize: 1willhavestrategySithatisabestreplyto2’stjand 2’stjwillbeabestreplytoSi均衡（Equilibrium）:一種誰都沒有動(dòng)機(jī)去另作它選的策略互動(dòng)狀態(tài)（noonehasanincentivetodeviate）9BestReplytoaBestReplytoa…1對(duì)擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍2開始選擇裁軍1對(duì)裁軍的最佳回應(yīng)是擴(kuò)軍2對(duì)擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍1對(duì)擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍2對(duì)擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍如此等等…均衡Equilibrium:(擴(kuò)軍,擴(kuò)軍)Nowassumethatplayers,seeingthegame,dothisallintheirheadsandidentifytheequilibriumstrategiesofthegame.Example:USSoviets10納什均衡（NashEquilibrium）一對(duì)策略形成一個(gè)納什均衡，當(dāng)且僅當(dāng)那對(duì)策略相互之間都是最佳回應(yīng)（ApairofstrategiesformsaNashEquilibrium(NEQ)iffthestrategiesarebestrepliestoeachother).Note沒有博弈者可以因?yàn)閱为?dú)背離納什均衡而得到任何利益好處（NoplayerhasanincentivetodeviateunilaterallyfromtheNEQ）.給定每個(gè)博弈者都選擇納什均衡策略，納什均衡策略使利益功效最大化對(duì)博弈者而言，納什均衡并不一定都是她最希望的到的結(jié)果或“最好的”結(jié)果.11納什均衡就一個(gè)簡單的2x2博弈而言,只需要查看是否有人會(huì)從背離一個(gè)特定的結(jié)果而獲利:CC

是一個(gè)NEQ?不是.給定1方選擇C,2方就會(huì)選擇D;對(duì)1同理.DD

是一個(gè)

NEQ?12Prisoner’sDilemma是.對(duì)博弈雙方而言,1>0.12納什均衡就一個(gè)簡單的2x2博弈而言,只需要查看是否有人會(huì)從背離一個(gè)特定的結(jié)果而獲利:LR

是一個(gè)

NEQ?不是．給定1選L,2就回選L;對(duì)1同理.LL

是一個(gè)NEQ?12協(xié)調(diào)博弈Coordinationgame是.對(duì)雙方而言,1>0;注意，RR也是一個(gè)NEQ.13納什均衡有兩個(gè)博弈者1和2，各自的策略集為{S1,S2,…,Sm}和{t1,t2,…,tn},相應(yīng)地，一對(duì)策略Si*和tj*就形成了一個(gè)均衡，當(dāng)且僅當(dāng)這兩個(gè)策略正好是對(duì)各自對(duì)對(duì)方的最佳回應(yīng):U1(Si*|tj*)

U1(Sk|tj*),所有k

i以及U2(tj*|Si*)

U2(tk|Si*),所有k

j正式定義14被支配策略(DominatedStrategies)尋找被支配策略,是尋找納什均衡(NEQ)的一種方法

形式化定義:S1嚴(yán)格支配(strictlydominates)

iff

U1(S1|tj)>U1(S2|tj)forallj既然選擇一個(gè)嚴(yán)格被比支配策略總是帶來一個(gè)更小的利益功效,博弈者就沒有選擇嚴(yán)格被支配策略的動(dòng)機(jī),因此,我們可以把嚴(yán)格被支配策略從選項(xiàng)中刪除掉。如果S1

嚴(yán)格支配

S2,那么,無論對(duì)方(博弈者2)選擇什么策略(tj),S1總能比S2給己方(博弈者1)

帶來更大的利益功效.15被支配策略例1:對(duì)博弈者1而言，D

嚴(yán)格支配C

，因?yàn)?/p>

U1(D|C)=5>3andU1(D|D)=1>0對(duì)博弈者2而言也如此，

由于對(duì)博弈雙方而言，D都是嚴(yán)格支配策略，因此，DD

是一個(gè)NEQ.1212例2:博弈雙方誰都沒有一個(gè)嚴(yán)格被支配策略.但是，嚴(yán)格被支配策略不是NEQ的必要條件.仍然存在兩個(gè)純策略NEQ.16重復(fù)支配（IteratedDominance）Example:注意，D

嚴(yán)格支配U–刪除U此后，L嚴(yán)格支配C–刪除C此后，D

嚴(yán)格支配M–刪除M此后，L嚴(yán)格支配R–刪除R最后就剩下(D,L)，它是一個(gè)唯一的NEQ如果我們能夠不斷地把嚴(yán)格被支配策略刪除掉，直到每個(gè)博弈者在博弈格局中只剩下一個(gè)策略，那刪除剩下的那一對(duì)策略，就是一個(gè)NEQ。（IterativelyEliminateStrictlyDominatedStrategies，IESDS）.17協(xié)調(diào)博弈（CoordinationGames）Generalclassofgames:Heads/Tails:Twopeopleflipcoin.Ifmatch,bothwin.MeetsomeoneinNYC.Twopeoplepickanumberbetween0and100.Ifsame,bothget$.例子:“兩性之爭”（BattleoftheSexes）不能通過IESDS求解。但HH與BB都是純策略NEQH=滑冰B=巴赫音樂會(huì)男方女方18協(xié)調(diào)博弈CoordinationGame可以存在多個(gè)NEQ.一般而言,NEQ的數(shù)量為奇數(shù).2.博弈雙方會(huì)選擇哪一個(gè)NEQ?

3. 第三個(gè)均衡在哪里?男方女方提出至少三個(gè)問題:19多均衡與聚焦點(diǎn)MultipleEquilibriaandFocalPoints謝林的聚焦點(diǎn)ThomasSchelling’sfocalpoints突出或顯著想象和邏輯沒有形式化假設(shè)雙方有溝通:假設(shè)雙方?jīng)]有溝通:可以直接達(dá)到NEQ.不在是一種博弈?仍然還會(huì)有關(guān)于分配的較量.第三個(gè)均衡何在?混合策略NEQ…男女20混合策略MixedStrategies有的博弈沒有純策略的NEQ.有的博弈有數(shù)個(gè)NEQ.所有的博弈至少有一個(gè)混合策略的NEQ注:純策略是混合策略的特例

例子:囚犯悖論博弈有一個(gè)唯一的純策略NEW(DD)21沒有純策略均衡NoPure-StrategyEquilibrium硬幣游戲(“手心-手背”游戲)---只要雙方出同樣的,1方贏,否則,2方贏.博弈雙方應(yīng)該如何選擇呢?如果他們承諾去選擇某個(gè)純策略,那就不會(huì)成為最佳回應(yīng)。博弈雙方可以用混合策略,計(jì)算他們的期待利益功效，然后決定最佳回應(yīng)。-->這實(shí)際上就是混合策略的NEQ。21沒有純策略的NEQ:H=正面,T=反面;h是正面,t是反面.1方對(duì)h的最佳回應(yīng)是

H2方對(duì)H的最佳回應(yīng)是t1方對(duì)

的最佳回應(yīng)是T2方對(duì)T

的最佳回應(yīng)是h22硬幣游戲MatchingPennies給定博弈者1方選擇混合策略(?H,?T),博弈者2方的最佳回應(yīng)是什么?

把混合策略做為一種博彩lottery.如果博弈者2選擇h,她的利益功效為U2(h)=pU2(h|H)+(1-p)U2(h|T) =(?)(-1)+(?)

(1) =?如果博弈者2選擇t,她的利益功效為U2(t)=pU2(t|H)+(1-p)U2(t|T) =(?)

(1)+(?)

(-1) =-?21因?yàn)?/p>

U2(h)>U2(t),博弈者2對(duì)

(?H,?T)的最佳回應(yīng)是

hp(1-p)23BestReplyFunctionMatchingPenniesWecandothisforallpossiblemixedstrategiesofplayer1andconstructabestreplyfunctionforplayer2:whatif1plays(?H,?T)U2(h)=?(-1)+?(1)=0U2(t)=?(1)+?(-1)=0p=Pr(H)q=Pr(h)2’sBRto(?H,?T)2’sBRto(?H,?T)2isindifferentbetweentandh:eitherway,theexpectedutilityis0.

Moreover,2isindifferentoverany

lotteryoftandh.11.5.5024BestReplyFunctionsandNEQMatchingPenniesWecandothesamethingforplayer1:p=Pr(H)q=Pr(h)11.5.501’sBR2’sBRNEQinmixedstrategies{(?H,?T),(?h,?t)}WhatisaNEQhere?Pairofstrategiesthatare

bestrepliestoeachother.21q(1-q)25MixedStrategyNEQMatchingPenniesLet’ssaywestartatp=Pr(H)q=Pr(h)11.5.501:p=.75

2’sBRisq=02:q=0

1’sBRisp=01:p=0

2’sBRisq=12:q=1

1’sBRisp=11:p=1

2’sBRisq=0Now,let’scheck:1:(?H,?T)

(?h,?t)isaBRby22:(?h,?t)

(?H,?T)isaBRby1

NEQ26混合策略MixedStrategiesNote:

這一均衡其實(shí)是很直觀的.

你不想你的對(duì)手能夠預(yù)測(cè)到你的選擇,所以你必須把選擇隨機(jī)化。

隨機(jī)化到讓你的對(duì)手對(duì)他自己選什么策略無所謂。

但是，對(duì)手也必須有所選擇，否則會(huì)被你占便宜。

所以你的對(duì)手也要把他的選擇隨機(jī)化。硬幣游戲MatchingPennies27BestReplyFunction&NEQBestReplyFunctionsinPrisoner’sDilemma011pqp(1-p)q(1-q)122’sBR1’sBRNEQBut…wedon’tneedtographtheBRfunctiontofindmixedstrategyequilibria!28混合策略納什均衡MixedStrategyNEQ選定一個(gè)混合幾率，使對(duì)方對(duì)他自己選什么策略無所謂（除了支配策略和被支配策略之外）p(1-p)12為了找出1方的這種混合策略:

讓p代表1方選擇U的幾率

1方執(zhí)行一個(gè)混合策略{pU,(1-p)D}要找到一個(gè)

p，以至于2方對(duì)選擇L

或

R無所謂:U2(L)=U2(R)pU2(L|U)+(1-p)U2(L|D)=pU2(R|U)+(1-p)U2(R|D)p(-3)+(1-p)(-2)=p(-1)+(1-p)(-4)-p-2=3p-4p=?2方選擇{?L,?R}的利益功效為?(-3)+?(-2)=-2?和?(-1)+?(-4)=-2?29混合策略納什均衡選定一個(gè)混合幾率，使對(duì)方對(duì)他自己選什么策略無所謂（除了支配策略和被支配策略之外）我們可以用同樣的方法找到2方的混合策略，以至于使1方無所謂。讓q代表2方選擇L的幾率

2方執(zhí)行一個(gè)混

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

常態(tài)型策略型博弈

文檔簡介

溫馨提示

最新文檔

評(píng)論

常態(tài)型策略型博弈

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔