納什均衡的擴展與精煉四川大學(xué).ppt

上傳人：x*** IP屬地：四川上傳時間：2020-09-16 格式：PPT 頁數(shù)：97 大小：1.79MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩92頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、2010-3-3,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用,第3章納什均衡的擴展與精煉,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,2,第3章納什均衡的擴展與精煉,主要內(nèi)容： 3.1 不完全信息的靜態(tài)博弈 3.2 完全且完美信息動態(tài)博弈 3.3 重復(fù)博弈 3.4 不完全信息的動態(tài)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,3,3.3 重復(fù)博弈,3.3.1 基本概念 3.3.2 觸發(fā)策略 3.3.3 重復(fù)博弈的應(yīng)用,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,4,3.3.1 基本概念, 3.3.1 重復(fù)博弈定理3.3.1 一種子博

2、弈完美納什均衡的求解方法開環(huán)策略集和閉環(huán)策略集例3.3.1 價格重復(fù)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,5,定義3.3.1 重復(fù)博弈,設(shè)G是一個基本博弈（G可以是靜態(tài)博弈，也可以是動態(tài)博弈），重復(fù)進行T次，T可以是有限的，也可以是無限的，這樣的博弈稱為重復(fù)博弈，并記為G（T） G稱為G（T）的一個原博弈，每次原博弈稱為一個階段博弈。當T是有限時稱有限重復(fù)博弈，當T是無限時，稱為無限重復(fù)博弈。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,6,定理3.3.1 一種子博弈完美納什均衡的求解方法,定理3.3.1：如果階段博弈G有納什均衡，對任意有限

3、或無限階段的T，重復(fù)博弈G（T）有子博弈完美納什均衡：即在每一階段重復(fù)采用階段博弈G的納什均衡。該定理的證明比較簡單，只需驗證它符合定義3.2.3規(guī)定的子博弈完美納什均衡的條件就可以了。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,7,開環(huán)策略集和閉環(huán)策略集,開環(huán)策略集若局中人在 t 階段進行行動決策時，不知道該階段前其它局中人的行為選擇，而又要在自己的原博弈行動集中選擇一個行動，這時他的策略稱為開環(huán)策略，全部開環(huán)策略稱為開環(huán)策略集。顯然，對T次重復(fù)博弈，局中人的開環(huán)策略集為,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,8,開環(huán)策略集和閉環(huán)策略集

4、,閉環(huán)策略集若局中人在 t 階段進行行動決策時，他知道該階段前其它局中人的行動選擇，再在自己的原博弈行動集中選擇一個行動，這時他的策略稱為閉環(huán)策略，全部閉環(huán)策略稱為閉環(huán)策略集。閉環(huán)策略集記為這里閉環(huán)是指有 t-1個前期的信息反饋。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,9,開環(huán)策略集和閉環(huán)策略集,關(guān)于開、閉環(huán)策略集的例子設(shè)原博弈中，若T=2，則局中人1的開環(huán)策略集為，一共有4個純策略。類似地局中人2也只有4個純策略圖右是局中人1在G（T）中的閉環(huán)策略集有8個策略。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,10,例3.3.1 價格戰(zhàn)

5、重復(fù)博弈,某城區(qū)有兩個商店出售同一商品，他們之間進行價格戰(zhàn)，原博弈的情況見下表若博弈只進行一次，有唯一的納什均衡（降價，降價），其均衡結(jié)果為（2，2）。若博弈進行無窮多次，則情況發(fā)生變化。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,11,在閉環(huán)策略情況下，局中人1可選擇的策略：先選擇“不降價”行為，但當他發(fā)現(xiàn)對方采取的是“降價”行為后，他立即在下一期也選擇“降價”行為，并永不改變。而局中人2也可以選擇與局中人1同樣的策略。在這種情況下，我們分析局中人是否愿意單獨地違背自己的策略。,例3.3.1 價格戰(zhàn)重復(fù)博弈（續(xù)）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕

6、）,12,若局中人1不改變策略行為，他的總收益為：當局中人1在第t期改變策略，其總收益為：（3.3.2）,例3.3.1 價格戰(zhàn)重復(fù)博弈（續(xù)）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,13,結(jié)論：當貼現(xiàn)率時，局中人1不愿單獨改變自己的策略；當貼現(xiàn)率時，局中人2也不愿單獨改變自己的策略；因此，當時，上述策略組成的策略組合是一個均衡點。由于時期t是任意的，因此這個策略組合也是一個子博弈完美納什均衡。從該例中可以看出，在閉環(huán)策略下進行策略選擇，每個階段的收益都會達到（4，4），但（4，4）并不是原博弈的納什均衡結(jié)果。,例3.3.1 價格戰(zhàn)重復(fù)博弈（續(xù)）,博弈論及

7、其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,14,3.3.2 觸發(fā)策略, 無限重復(fù)博弈有限重復(fù)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,15,無限重復(fù)博弈,例3.3.1 的啟示從例3.3.1我們可以看到，若原博弈有某種行為組合，使得其納什均衡點對每一個局中人都有，將會產(chǎn)生一種將行為組合和納什均衡相結(jié)合的行為組合序列。這種行為組合序列有兩個特征：（1）這是一個“胡蘿卜加大棒”的策略組合，遵守了有胡蘿卜吃，違背了將受到“大棒”的懲罰；（2）這是可信的威脅（由貼現(xiàn)因子的大小決定），以至于沒有局中人愿意單獨地違背，這就遵循了納什均衡的原則。,博弈論及其

8、應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,16,無限重復(fù)博弈,定義3.3.2 觸發(fā)策略在重復(fù)博弈G（T）中，原博弈為，是原博弈的納什均衡點，為G的一個行動組合，且對任意有：。局中人的策略為：（1）第一階段選擇，以后也一直選擇行動；（2）若第 t 階段博弈前有任意其它局中人選擇不是，則它將選擇，并一直進行到最后。這樣的策略，稱為局中人的觸發(fā)策略。若每個局中人都采用觸發(fā)策略，稱為一個觸發(fā)策略組合，記為( , ),博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,17,無限重復(fù)博弈,定義3.3.3 最好反應(yīng)支付在原博弈中，對給定的策略組合，記

9、(3.3.3) 稱為局中人對策略組合的最好反應(yīng)支付。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,18,無限重復(fù)博弈,定理3.3.2 無限重復(fù)博弈G的子博弈完美納什均衡設(shè) 是一個閉環(huán)策略下的無限次重復(fù)博弈，是原博弈的一個均衡點，是G的一個行動組合，且對任意有，( , )是定義3.3.2下的觸發(fā)策略組合。若對于貼現(xiàn)率有：對任意有 (3.3.4) 則觸發(fā)策略組合是無限重復(fù)博弈G的子博弈完美納什均衡。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,19,無限重復(fù)博弈,例3.3.2 游船定價的博弈有一用于旅游的湖，周圍有5條供游客用的相同的游船，并分屬

10、5位船主。船主對自己游船定價為每小時元，。在每位船主定價后，每位船主的需求函數(shù)為：其收入為：現(xiàn)5位船主對其自身的游船的定價進行博弈，這是一個靜態(tài)的5人非合作博弈。,(3.3.6),博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,20,無限重復(fù)博弈,令，并由博弈方收益對稱性，不難得出，有唯一的純策略納什均衡和均衡結(jié)果: 若5條游船達成合作，統(tǒng)一定價為，此時行動組合為則共同的收益為,（3.3.7）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,21,由（3.3.7）式，最優(yōu)統(tǒng)一定價為，代回到（3.3.6）式，則每位船主收益為。若船主在大家共同約定統(tǒng)

11、一定價的情況下，單獨降價，則他的最好反應(yīng)支付為：當時，有最好反應(yīng)支付。現(xiàn)在將（3.3.6）式表示的支付函數(shù)為5人非合作博弈記為G，并將G作為原博弈進行無限次重復(fù)博弈，將( , )作為觸發(fā)策略組合，由（3.3.4）式有,無限重復(fù)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,22,因此，當時，觸發(fā)策略組合( , )是子博弈完美納什均衡。而當時，觸發(fā)策略組合( , )不是子博弈完美納什均衡。越小，對合作的限制就越小，即合作的可能性就越大。從定理3.3.2可以看到，“合作”下的協(xié)調(diào)政策的選取，會影響的確立。在例3.3.2中，若5位船主的協(xié)調(diào)策略選擇，可以計算

12、出這樣降低了對合作的限制，增加了合作的可能性。,無限重復(fù)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,23,有限重復(fù)博弈,例3.3.3 雙寡頭壟斷定價博弈現(xiàn)有兩個廠商壟斷生產(chǎn)某一產(chǎn)品，每一個廠商在定價上都有策略集，高價，中價，低價, 其收益函數(shù)如右表。假設(shè)博弈只進行一次，則有兩個純策略納什均衡（中價，中價）和（低價，低價），對應(yīng)的均衡結(jié)果分別是（3，3）和（1，1）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,24,假設(shè)博弈進行兩次，貼現(xiàn)率為，則出現(xiàn)這樣的策略組合：廠商1：第一階段選取高價；若第一階段博弈結(jié)果是（5，5），第二階段采取中價，否則

13、采取低價。廠商2：第一階段選取高價；若第一階段博弈結(jié)果是（5，5），第二階段采取中價，否則采取低價。若兩廠商均采取以上策略，則他們的收益為：兩廠商是否會違背以上的策略組合呢？,有限重復(fù)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,25,有限重復(fù)博弈,假設(shè)廠商違背策略，只能在第一階段違背，因為第二階段采用的是納什均衡策略。若在第一階段采取了中價，第二階段只能采取低價，他的總收益為比較廠商是否愿意違背。的等價式為：即當貼現(xiàn)率時，兩產(chǎn)商均不愿違背該策略組合。該策略組合是子博弈完美納什均衡。并且，他們的收益明顯比每個階段采用納什均衡所得的結(jié)果要好。,博弈論及其應(yīng)用

14、（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,26,這種不是由全部納什均衡組合構(gòu)成的子博弈完美納什均衡同樣具有兩個特征：（1）這是一個“胡蘿卜加大棒”的策略組合；（2）這是可信的威脅，以至于沒有局中人愿意單獨地違背這種策略組合，這就遵循了納什均衡的原則。,有限重復(fù)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,27,有限重復(fù)博弈,定義3.3.4 有區(qū)別的觸發(fā)策略在有限次重復(fù)博弈G（T）中，原博弈有多個納什均衡點，納什均衡點集合為，且有某個策略組合使得：,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,28,有限重復(fù)博弈定義3.3.4 有區(qū)別的觸發(fā)策略（

15、續(xù)）,定義3.3.4 有區(qū)別的觸發(fā)策略（接上）給定一個階段參數(shù)，局中人的策略為（a）第一階段選擇；（b）在t階段，t=1，2，，若t-1階段沒有其它局中人違背策略組合行動，則選；若有某個局中人違背了則選，并一直進行到第T階段；（c）在t階段，，若t-1階段沒有其它局中人違背策略組合，則選，若有第個局中人違背了則選，并一直進行到第T階段。局中人的這種策略稱為有區(qū)別的觸發(fā)策略，其組合稱為有區(qū)別的觸發(fā)策略組合，并記為。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,29,有限重復(fù)博弈,定義3.3.4與定義3.3.2的不同懲罰要有針對性。由于多

16、重納什均衡的結(jié)果對每個局中人的結(jié)局不一樣，因此在策略組合違背后的懲罰選擇也不一樣。即當局中人j違背了上述觸發(fā)策略，則所有人將針對局中人j進行懲罰。懲罰的時段效應(yīng)。由于重復(fù)博弈階段T是有限的，不可能無限期地進行懲罰。因而設(shè)置了一個階段，對之前對該觸發(fā)策略的違背，至少Tt*個階段進行懲罰，從而保證有足夠的懲罰威脅。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,30,有限重復(fù)博弈有限重復(fù)博弈,定理3.3.3 設(shè) 是采用閉環(huán)策略下的有限次重復(fù)博弈。原博弈有多重納什均衡，其納什均衡集為，在G中有策略組合，且滿足為貼現(xiàn)率。則若則存在一個正整數(shù) ，使得在的時候，上述觸發(fā)策

17、是一個子博弈完美納什均衡。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,31,有限重復(fù)博弈,對例題3.3.3再討論該例中，對一次靜態(tài)博弈有兩個納什均衡點（中價，中價）和（低價，低價）。但策略組合（高價，高價）的結(jié)果對雙方都是好的。令（高價，高價），（中價，中價），（低價，低價），，經(jīng)計算有：則是觸發(fā)策略。當貼現(xiàn)率時，觸發(fā)策略可以構(gòu)成子博弈完美納什均衡。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,32,當。即當進行T階段有限重復(fù)博弈時，取，則觸發(fā)策略組合是子博弈完美納什均衡。在例3.3.3中，T=2，。當，即當T階段的有限重復(fù)博弈

18、時，，。這時觸發(fā)策略組合是子博弈完美納什均衡。,有限重復(fù)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,33,有限重復(fù)博弈,例如T=3。若局中人在第1階段違背觸發(fā)策略組合，總損失為：因而局中人不愿意違背觸發(fā)策略組合。但若只給一個階段進行懲罰，則懲罰力度為：這不能保證局中人不違背觸發(fā)策略組合。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,34,有限重復(fù)博弈,當時，則觸發(fā)策略永遠不可能是子博弈完美納什均衡。由該例可見，在有限次重復(fù)博弈中，觸發(fā)策略組合構(gòu)成子博弈完美均衡，不僅對懲罰階段的數(shù)量有要求，并且對貼現(xiàn)率有要求。而懲罰階段的大小，又與

19、貼現(xiàn)率有關(guān)。這與無限次重復(fù)博弈是不一樣的。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,35,3.3.3 重復(fù)博弈的應(yīng)用, 例3.3.4 無限次重復(fù)博弈的古諾模型例3.3.5 有效工資率,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,36,例3.3.4 無限次重復(fù)博弈的古諾模型,考慮以由前文的靜態(tài)古諾博弈為階段博弈組成的無限重復(fù)博弈，且繼承其符號。兩企業(yè)的貼現(xiàn)因子均為。下面我們計算兩個企業(yè)的下述觸發(fā)戰(zhàn)略成為無限重復(fù)博弈的子博弈完美納什均衡的條件。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,37,其觸發(fā)策略為：在第一階段生產(chǎn)壟斷產(chǎn)量的一半，

20、第階段時，如果前面個階段兩個企業(yè)的產(chǎn)量都為，則生產(chǎn) ；否則，生產(chǎn)古諾產(chǎn)量。,例3.3.4 無限次重復(fù)博弈的古諾模型,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,38,雙方都生產(chǎn) 時，每個企業(yè)單階段的利潤為當雙方都生產(chǎn)古諾產(chǎn)量時，每個企業(yè)單階段的利潤為如果在某期企業(yè) 生產(chǎn) ，則企業(yè)在該期利潤最大化的產(chǎn)量(最好反應(yīng)支付)是下式的解相應(yīng)的利潤水平為。那么，要使兩企業(yè)采取上述觸發(fā)戰(zhàn)略成為納什均衡，必須滿足此時這一觸發(fā)策略是子博弈完美納什均衡,例3.3.4 無限次重復(fù)博弈的古諾模型,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,39,如果，企業(yè)的行為將

21、如何？在重復(fù)無限次的古諾模型中，單階段的納什均衡產(chǎn)量為，對應(yīng)的均衡結(jié)果。假設(shè)有一產(chǎn)量(不是最好反應(yīng)支付)，由對稱性。不是單階段的納什均衡，也不是壟斷產(chǎn)量的1/2。但具有: 即是比均衡產(chǎn)量更好的產(chǎn)量組合。這里,例3.3.4 無限次重復(fù)博弈的古諾模型,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,40,例3.3.4 無限次重復(fù)博弈的古諾模型,產(chǎn)量和納什均衡產(chǎn)量組成定義3.3.2下的觸發(fā)策略組合，記為假定在t階段企業(yè) 在對方生產(chǎn) 的情況下，違背約定，其最好反應(yīng)支付為：即企業(yè) 在t階段，的產(chǎn)量為，相對應(yīng)的利潤所得。由于企業(yè) 在前面t-1階段利潤為，第t階段的

22、利潤為，在第t+1階段及以后各階段利潤為。因此企業(yè) 要不違背生產(chǎn) 的約定，其充分必要條件為：,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,41,上式等價于將和代入有：（3.3.12）（3.3.13）當時，右邊= ，即壟斷產(chǎn)量的一半；當時，右邊= 。并且我們也看到在貼現(xiàn)率給定后，要使觸發(fā)策略為子博弈完美納什均衡，需要,例3.3.4 無限次重復(fù)博弈的古諾模型,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,42,例3.3.5 有效工資率,在效率工資的模型中，一個企業(yè)勞動力的產(chǎn)出取決于企業(yè)支付的工資水平。夏皮羅和施蒂格里茨（1984）就此建立了一個

23、動態(tài)模型，其中企業(yè)為激勵工人努力工作，一方面支付很高的薪水；同時又威脅一旦被發(fā)現(xiàn)偷懶，立即開除。作為這種高薪的一個后果，企業(yè)提高了勞動生產(chǎn)率，也就減少了對勞動力的需求，這造成部分工人的高薪就業(yè)，但同時有其他工人（非自愿）失業(yè)并存。失業(yè)工人的人數(shù)越多，一個被解雇的工人尋找新的工作崗位所需時間越長，于是解雇的威脅就更加有效。在競爭均衡條件下，工資水平和失業(yè)率恰好可以使工人不去偷懶，并且企業(yè)在工資水平時的勞動需求恰好使失業(yè)率等于。我們分析一個企業(yè)和一個工人的情況，從重復(fù)博弈的角度研究這一模型（而不考慮其競爭均衡的特點）。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,43,例3

24、.3.5 有效工資率,考慮如下的單階段博弈（這是一個動態(tài)博弈）：第一步，企業(yè)對工人開出一個工資水平；第二步，工人接受或拒絕企業(yè)的開價。如果工人拒絕了，則工人成為個體戶，保留收益為，其中，如果工人接受了，則工人選擇是努力工作（會帶來的負效用）還是偷懶（不會帶來任何負效用）。工人的努力程度企業(yè)無法觀測，但企業(yè)和工人都可觀測到工人的產(chǎn)出水平。產(chǎn)出可能高也可能低，為簡單起見，我們認為低水平的產(chǎn)出為0，高水平的產(chǎn)出為。假設(shè)如果工人努力工作則肯定可以得到高產(chǎn)出，但如果工人偷懶則以的概率得到高產(chǎn)出，的概率得到低產(chǎn)出。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,44,

25、例3.3.5 有效工資率,假設(shè)企業(yè)以的工資雇傭了工人，那么如果工人努力工作，帶來高產(chǎn)出時企業(yè)和工人的收益分別為：企業(yè)為，工人為。如果工人偷懶，則變?yōu)?；企業(yè)和工人的收益分別為：企業(yè)為，工人為。為討論方便，我們假定。若上述博弈只進行一次，采用逆向歸納法可以得出：工人在第二步會接受企業(yè)開價，接受后會選擇偷懶；而企業(yè)在第一步會選擇不雇傭工人。因而單階段的貝葉斯納什均衡為（不雇傭，偷懶）。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,45,例3.3.5 有效工資率,但這個階段博弈重復(fù)無限多次，則情況會發(fā)生變化。首先建立由該階段博弈組成的無限重復(fù)博弈的觸發(fā)策略如下：

26、（1）企業(yè)在第一階段給出工資，在以后各階段若觀察到產(chǎn)量為，在其后的下一階段給出工資；若觀察到產(chǎn)量為，則下一階段不雇傭工人（即單階段的貝葉斯納什均衡中企業(yè)的行為），并一直到結(jié)束。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,46,例3.3.5 有效工資率,（2）工人在第一階段對給出工資時，付出努力。在以后各階段，若企業(yè)付出的工資，則一直努力工作；若企業(yè)付出的工資時，在下一階段偷懶，并一直到以后各階段。該觸發(fā)策略是雙方都有一個威脅。企業(yè)的威脅是，若一旦發(fā)現(xiàn)產(chǎn)出，則下一階段就不雇傭工人。工人的威脅是，若所給的工資帶來的效用，則偷懶。假設(shè)工人被解雇，企業(yè)收入為

27、0，而工人不解雇，企業(yè)的收入（見前面假設(shè)）。企業(yè)應(yīng)給工人工資為多少，才能既對企業(yè)有利，也符合工人的要求？,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,47,例3.3.5 有效工資率,采用前面觸發(fā)策略能構(gòu)成子博弈完美納什均衡的方法討論該問題。（1）對工人進行分析。設(shè)工人在不違背觸發(fā)策略一直努力工作，其總收益為：若工人違背了觸發(fā)策略約定，假設(shè)在第期選擇違背，則總收益為：工人不違約的充分必要條件為:,(3.3.16),(3.3.17),(3.3.18),博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,48,例3.3.5 有效工資率,不失一般性，上式中取

28、時，工人就違約，則,(3.3.19),博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,49,例3.3.5 有效工資率,于是工人遵循不違約的充分條件為：由于，則貼現(xiàn)率越低，給出的工資就越高。（2）對企業(yè)進行分析。企業(yè)不違約，可得收入為，企業(yè)違約，可得收入為0。則企業(yè)遵循觸發(fā)策略的充分條件為：結(jié)合上面（3.3.20）和（3.3.21）式，企業(yè)所給出工資應(yīng)滿足：,(3.3.20),(3.3.21),(3.3.22),博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,50,例3.3.5 有效工資率,由（3.3.22）式給出的工資，使得上述觸發(fā)策略為一個子博弈完美納

29、什均衡。當然，上面的模型是一個理論模型，在實際生活中的情況更加復(fù)雜。但該模型說明企業(yè)給工人的工資除了支付機會成本加努力成本之外，還應(yīng)有一個對工作努力的貼水，它與貼現(xiàn)率有極大的關(guān)系,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,51,3.4 不完全信息的動態(tài)博弈,3.4.1 基本概念 3.4.2 信號博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,52,3.4.1 基本概念, 不完全信息動態(tài)博弈精煉貝葉斯納什均衡的四個要求精煉貝葉斯納什均衡的定義精煉貝葉斯均衡和一般貝葉斯均衡的比較,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,53,不

30、完全信息動態(tài)博弈,在完全且完美信息動態(tài)博弈中，我們要確定局中人的策略組合是一個子博弈完美納什均衡，則它們必須是整個博弈的納什均衡，同時還必須是任何一個子博弈的納什均衡。在不完全信息靜態(tài)博弈中，我們通過海薩尼轉(zhuǎn)換，將不完全信息靜態(tài)博弈轉(zhuǎn)換成了完全但不完美信息的靜態(tài)博弈。我們要確定局中人的策略組合是一個貝葉斯納什均衡. 不完全信息動態(tài)博弈實際上是上述兩種類型博弈的一種合成。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,54,不完全信息動態(tài)博弈求解：首先，我們可以采用海薩尼轉(zhuǎn)換，將不完全信息動態(tài)博弈轉(zhuǎn)換成完全但不完美信息的情況，即有博弈之外的局中人“自然”。“自然”對每個局中人確

31、立了不同類型，并且給予了在所有局中人類型上的一個概率分布。其次，我們可以對這種完全但不完美信息情況下的博弈尋求類似的子博弈均衡。我們要確定局中人的策略組合是一個精煉貝葉斯納什均衡,不完全信息動態(tài)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,55,思路實現(xiàn)與上述兩種類型博弈的差異： 1、與完全且完美信息的動態(tài)博弈不同的是，在完全且不完美信息的情況下，信息集不再只有單點集，逆向歸納法無法進行。 2、與不完全信息靜態(tài)博弈不同的是在動態(tài)博弈中，局中人對自己特定一種類型可以有多種行動選擇，或不同類型有同一種選擇，這影響其后博弈中其它人的博弈行為和最終的博弈結(jié)果。 3、在完全不完美信

32、息動態(tài)博弈下，上面兩種特征又是交織在一起的。先期行動的局中人要從后續(xù)博弈中的分析中考慮自己的后期最后行動選擇;而后續(xù)博弈的局中人又要依賴所觀察到的前期博弈結(jié)果決定自己的特定類型下的行為。,不完全信息動態(tài)博弈,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,56,精煉貝葉斯納什均衡的四個要求（1）,要求1 在每個信息集中，局中人必須有一個定義在該信息集中每個決策結(jié)點上的一個概率分布，即對每一個結(jié)點給出一個信度推斷。并且這種信度對每一個局中人都是相同的。見例3.4.1,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,57,精煉貝葉斯納什均衡的四個要求（1）,例3.4.1

33、有一個廠商生產(chǎn)某產(chǎn)品，其生產(chǎn)成本是私人信息。該廠商面對一個新廠商想進入這個產(chǎn)品的生產(chǎn)，因而它可以不顧壟斷定價的要求，而表現(xiàn)其它的產(chǎn)品定價。新廠商對該廠生產(chǎn)成本的高低具有一個共同知識的概率分布，但當他看到產(chǎn)品的定價以后，將對生產(chǎn)廠商的類型分布給出一個新的修訂評價，以決定它是進入該種產(chǎn)品生產(chǎn)還是不進入該種產(chǎn)品生產(chǎn)。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,58,局中人1為生產(chǎn)廠商，它有兩種類型和，分別代表其生產(chǎn)成本是低成本還是高成本的類型。局中人2為進入廠商，他不知道局中人1的具體類型，只有一個共同知識，即類型方面的概率分布：和。假設(shè)局中人1在類型1的情況下，有不變

34、邊際成本c1 ，在類型2的情況下有不變邊際成本， ,且都不計不變成本。,精煉貝葉斯納什均衡的四個要求（1）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,59,精煉貝葉斯納什均衡的四個要求（1）,博弈進行的第一階段是生產(chǎn)廠商對產(chǎn)品定價。它在兩種類型上都有兩個行動策略：低價策略，定價為；高價策略，定價為。博弈的第二階段是局中人2在知道局中人1的定價后，決定是否進入。它也有兩個行動策略：進入，要付的進入費，并且只能在對方是在高成本下生產(chǎn)，若對方是低成本則進入后的最終結(jié)果對他不利；不進入，則不需有支付。局中人1在第一階段有收入，第二階段也有收入，而局中人2只在第二

35、階段有收入。若進入還要在收入中扣去進入成本。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,60,博弈過程和兩階段兩人的總收入圖,精煉貝葉斯納什均衡的四個要求（1）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,61,由上圖可知局中人2必須要有一個對所在結(jié)點的置信度。用概率的表達，要明確: 一般應(yīng)有（理性的局中人1也能推斷出來）: （3.4.1）（3.4.2）,精煉貝葉斯納什均衡的四個要求（1）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,62,精煉貝葉斯納什均衡的四個要求（2）,要求2 在給定對每個信息集中決策結(jié)點上的概率分布后，局中人的策略必須

36、滿足貫序理性的要求。即每一個局中人對于給定的信息集上的信息推斷以及后續(xù)博弈的策略都必須是最優(yōu)反應(yīng)。這里的后續(xù)博弈是指，從信息集中任一決策結(jié)點隨后進行的博弈。后續(xù)博弈策略是指，后續(xù)博弈的每一種情況的完全的行動計劃。見例3.4.2,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,63,精煉貝葉斯納什均衡的四個要求（2）,例3.4.2 設(shè)有一個二人兩階段博弈，每一局中人都只有一個類型。其博弈的過程和結(jié)果用擴展式表示為用規(guī)范式表示為,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,64,從博弈規(guī)范式可以得到，該博弈有兩個純策略納什均衡（L,A）和（R,B）。該博弈無

37、子博弈。因此（L,A）和（R,B）都是子博弈完美納什均衡。但是，（L,A）明顯地依賴于一個不可置信的威脅，因為局中人2行動時，他一定不會選A，而要選擇B。按照1的要求，若博弈進行到局中人2行動時，它的兩個決策結(jié)點是在同一個信息集中。局中人2對其所在結(jié)點有一個信息推斷，分別為，。,精煉貝葉斯納什均衡的四個要求（2）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,65,精煉貝葉斯納什均衡的四個要求（2）,按照2的要求，給定局中人2的推斷，局中人2選擇A的數(shù)學(xué)期望為：局中人2選擇B的數(shù)學(xué)期望為：由于對任意都有，因此局中人2必定選B，因而排除了A。所以（L,A）這一均衡

38、不滿足貫序理性要求，被排除。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,66,精煉貝葉斯納什均衡的四個要求（3）,要求3 在處于均衡路徑上的信息集，其推斷由貝葉斯法則及局中人的均衡戰(zhàn)略給出。對于一個給定的擴展式博弈中給定的均衡，如果博弈根據(jù)均衡進行時將以正的概率達到某信息集，我們稱此信息集處于均衡路徑之上。反之，我們稱之為處于均衡路徑之外的信息集。見例3.4.2,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,67,繼續(xù)考慮例3.4.2，局中人2對到達左邊決策點的推斷是，到達右邊決策結(jié)點的推斷是。右邊決策結(jié)點是在（R,B）均衡路徑上；因此，局中人2對右邊決

39、策結(jié)點的置信推斷必然是，即。,精煉貝葉斯納什均衡的四個要求（3）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,68,精煉貝葉斯納什均衡的四個要求（3）,對要求3的另一種說明：假想圖3.4.2中，存在一個混合策略均衡，其中局中人1選擇R的概率為，選擇M的概率為，選擇L的概率為，則要求3強制局中人2按照貝葉斯法則進行推斷。這時。（這里局中人1只有一種類型）,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,69,精煉貝葉斯納什均衡的四個要求（4）,要求4 對處于均衡路徑之外的信息集，信念由貝葉斯法則及可能情況下局中人的均衡策略組合決定。見例3.4.3,

40、博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,70,精煉貝葉斯納什均衡的四個要求（4）,例3.4.3 考慮下面的三人博弈，其擴展式表示及規(guī)范式表示如下：,1,2,2,3,A,D,R,L,R,L,圖3.4.3 三人博弈擴展式,表3.4.3 三人博弈規(guī)范式,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,71,精煉貝葉斯納什均衡的四個要求（4）,該博弈有一個子博弈：它始于局中人2 的單點信集。這一子博弈的唯一納什均衡為（L,R）。這一組策略組合和局中人3的推斷滿足了，要求1到3，也滿足了要求4。從表3.4.3可以看到，該博弈有4個納什均衡（D,L,R），（A,L,L

41、），（A,R,R）和（A,R,L）?？疾榧{什均衡（A,L,L）和局中人3的推斷，這個納什均衡也滿足要求1和要求2，但它不是子博弈納什均衡。還有兩個納什均衡也不滿足要求1到要求4，留給讀者分析。該博弈滿足要求1到要求4的精練貝葉斯納什均衡為(D,L,R),博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,72,精煉貝葉斯納什均衡的四個要求（4）,綜合上面要求1到4，在完全但不完美信息動態(tài)博弈中，精練貝葉斯均衡要求不只是一個簡單的均衡策略組合，而且還要求相對應(yīng)的每個信息集中決策結(jié)點的信度推斷。這種推斷由貝葉斯法則及局中人的均衡策略組合有關(guān)。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及

42、其應(yīng)用（汪賢裕）,73,精煉貝葉斯納什均衡正式定義,符號規(guī)定1,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,74,精煉貝葉斯納什均衡正式定義,符號規(guī)定2,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,75,定義3.4.1 在不完全信息動態(tài)博弈中，精煉貝葉斯均衡是一個策略組合和一個后驗概率組合它們滿足：（1）對每一個局中人和每個信息集有（3.4.3）（2）是使用貝葉斯法則從先驗信念，觀測到的和最優(yōu)戰(zhàn)略得到的（在可能的情況下）。,精煉貝葉斯納什均衡正式定義,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,76,第一個條件稱為精煉條

43、件，它是前面敘述的要求2的數(shù)學(xué)表示。它表明在其它局中人策略和局中人的后驗信念給定以后，局中人的戰(zhàn)略從信息集開始以后的后續(xù)博弈上都是最優(yōu)的，因此，在信息集開始的后續(xù)博弈中構(gòu)成了貝葉斯均衡。第二個條件稱為信念條件，它是前面敘述的要求1，3，4的綜合表示，它表明局中人在其應(yīng)行動的信息集中的信念是上的一個后驗概率分布，它依賴于先驗概率，觀察到的其它局中人的以及博弈的均衡策略組合。如果不是均衡策略下的行動，則是前面敘述中要求4所提及的“不在均衡路徑上”，那么對任意都是允許的，但它必須與均衡策略組合相容。,精煉貝葉斯納什均衡正式定義,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用

44、（汪賢裕）,77,在上述定義中，我們知道精煉貝葉斯納什均衡是均衡戰(zhàn)略和均衡信念的結(jié)合：給定信念，策略組合是最優(yōu)的；給定策略組合，信念是使用貝葉斯法則從均衡戰(zhàn)略和所觀測到的行動得到的。因此，精煉貝葉斯均衡是一個對應(yīng)的不動點：（3.4.4）,精煉貝葉斯納什均衡正式定義,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,78,精煉貝葉斯均衡和一般貝葉斯均衡的比較,與不完全信息靜態(tài)博弈不同的是，在完全但不完美的動態(tài)博弈中，局中人不能單靠類型集空間上的概率分布來推算出其它局中人的類型的概率分布，而要從它所觀察到的其它局中人的行動來修正對其它人類型的信念（也是一種概率

45、分布），即對其它局中人的后驗概率。在不完全信息動態(tài)博弈中，若局中人在某一中類型有多個行動，并在同一信息集中，則先驗判斷概率直接用于對信息集中所處結(jié)點的后續(xù)結(jié)果和可能的均衡，進行各節(jié)點出現(xiàn)信息的概率判斷，如例3.4.2和3.4.3。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,79,3.4.2 信號博弈, 信號博弈的時間順序信號博弈的發(fā)送者純策略信號博弈的接收者純策略信號博弈的精煉貝葉斯均衡要求精煉貝葉斯均衡定義例題,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,80,信號博弈的時間順序,1自然賦予發(fā)送者某種類型是發(fā)送者的類型空間。是發(fā)送者的私人信

46、息。對發(fā)送者類型的先驗信念是共同知識，且，。 2發(fā)送者s知道自己的類型，然后從可行的信號集中選擇一個發(fā)送信號。 3接收者r觀測到，然后從可行的行動集中選擇一個行動。 4雙方支付函數(shù)分別為和，且是共同知識。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,81,信號博弈的發(fā)送者純策略,1 ：如果自然賦予類型，選擇信號；如果自然賦予類型，選擇信號； 2 ：如果自然賦予類型，選擇信號；如果自然賦予類型，選擇信號； 3 ：如果自然賦予類型，選擇信號；如果自然賦予類型，選擇信號； 4 ：如果自然賦予類型，選擇信號；如果自然賦予類型，

47、選擇信號。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,82,信號博弈的發(fā)送者純策略,其中，和稱為混同策略，即不同類型的發(fā)送者選擇了相同的信號；和稱為分離策略，即不同類型的發(fā)送者選擇了不同的信號。當發(fā)送者在同一類型下，隨機地選擇，也有相對應(yīng)的混合策略，對此，我們稱為雜合策略。在本節(jié)中，我們只考慮純策略的情況。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,83,信號博弈的接收者純策略,1 ：如果收到發(fā)送者信號，選擇；如果收到發(fā)送者信號，選擇； 2 ：如果收到發(fā)送者信號，選擇；如果收到發(fā)送者信號，選擇； 3 ：如果收到發(fā)送者信號，

48、選擇；如果收到發(fā)送者信號，選擇； 4 ：如果收到發(fā)送者信號，選擇；如果收到發(fā)送者信號，選擇。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,84,信號博弈的接收者純策略,其中，和稱為混同策略，即不論觀察到何種信息，都選擇同一行動；和稱為分離策略，即觀察到不同的信息，采取相對應(yīng)的不同行動。當接收者在觀察到某一信息后，隨機地選擇，也有相對應(yīng)的混合策略，同樣，我們也將此稱為接收者的雜合策略。本節(jié)中，我們只考慮純策略的情況。,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,85,信號博弈的精煉貝葉斯均衡要求,要求1 當接收者在觀測到M中的任何信號之后，依據(jù)對哪些類型可能發(fā)送信號有一個信念概率表示且，要求2R 對接收者，他對每一個信號，依據(jù)對哪些類型可能發(fā)送信號的信念概率的條件下，選擇行動，并使自己效用最大化。亦即為下式的解: 上式中,博弈論及其應(yīng)用（汪賢裕）,#,博弈論及其應(yīng)用（汪賢裕）,86,信號博弈的精煉貝葉斯

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

納什均衡的擴展與精煉四川大學(xué).ppt

文檔簡介

溫馨提示

最新文檔

評論

納什均衡的擴展與精煉四川大學(xué).ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔