版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第七章第七章 不完全信息動態(tài)博弈不完全信息動態(tài)博弈v 至少部分博弈方?jīng)]有關(guān)于得益至少部分博弈方?jīng)]有關(guān)于得益全部信息的動態(tài)博弈,稱全部信息的動態(tài)博弈,稱“不完不完全信息動態(tài)博弈全信息動態(tài)博弈”或或“動態(tài)貝葉動態(tài)貝葉斯博弈斯博弈。v在不完全信息動態(tài)博弈中,在不完全信息動態(tài)博弈中,按照海薩尼轉(zhuǎn)換,按照海薩尼轉(zhuǎn)換,博弈進行的先后順序可以描述為:博弈進行的先后順序可以描述為:v首先,首先,“自然自然” ” 選擇參與人的類型選擇參與人的類型,參與人,參與人自己知道,其他參與人不知道;自己知道,其他參與人不知道;v其次,其次,參與人開始行動,參與人的行動有先參與人開始行動,參與人的行動有先有后,后行動者能觀
2、測到先行動者的行動,有后,后行動者能觀測到先行動者的行動,但不能觀測到先行動者的類型。但不能觀測到先行動者的類型。v參與人的行動是參與人的行動是類型依存類型依存的,每個參與人的的,每個參與人的行動都傳遞著有關(guān)行動都傳遞著有關(guān)自己類型自己類型的某種信息,的某種信息,v后行動者可以通過觀察先行動者所選擇的行后行動者可以通過觀察先行動者所選擇的行動來推斷其類型或修正對其類型的先驗信念動來推斷其類型或修正對其類型的先驗信念( (概率分布概率分布) ),然后選擇自己的最優(yōu)行動。,然后選擇自己的最優(yōu)行動。v先行動者先行動者預(yù)測到自己的行動將被后行動預(yù)測到自己的行動將被后行動者所利用,者所利用,就會設(shè)法選擇
3、傳遞對自己最就會設(shè)法選擇傳遞對自己最有利的信息,避免傳遞對自己不利的信有利的信息,避免傳遞對自己不利的信息。息。v因此,博弈過程不僅是參與人選擇行動因此,博弈過程不僅是參與人選擇行動的過程,而且是參與人不斷修正的過程,而且是參與人不斷修正“信念信念”的過程。的過程。 v例題例題1 1:v參與人參與人i=1,2;i=1,2;v參與人參與人1 1的行動空間的行動空間A A1 1= =L,RL,Rv參與人參與人1 1的類型空間的類型空間T T1 1= =t t1111,t ,t1212v參與人參與人2 2的行動空間的行動空間A A2 2= =A,BA,Bv參與人參與人2 2的類型空間的類型空間T T
4、2 2= =t t2 2, ,單點集,因此單點集,因此參與人參與人1 1對參與人對參與人2 2的信念的信念p p1 1=1;=1;v參與人參與人2 2對參與人對參與人1 1的信念的信念p p2 2=(p,1-p);=(p,1-p);v參與人參與人1 1先行動,參與人先行動,參與人2 2后行動。后行動。按照海薩尼轉(zhuǎn)換,該博弈表示為:按照海薩尼轉(zhuǎn)換,該博弈表示為:LLAAN11tR12tR(2,2)(0,0)(2,2)(0,1)(1,0)(3,1)BB1122 P1P7-1圖v例題例題2 2:考察一個市場進入博弈:考察一個市場進入博弈v參與人參與人i=1,2;i=1,2;v參與人參與人1 1(在位
5、者)的行動空間(在位者)的行動空間 A A1 1= =mm1 1 ( (低價格低價格),m),m2 2( (高價格高價格) )v參與人參與人1 1的類型空間的類型空間 T T1 1= =t t11 11 ( (高成本高成本),t),t12 12 ( (低成本低成本) )v參與人參與人2 2(進入者)的行動空間(進入者)的行動空間 A A2 2= a= a1 1 ( (進入進入),a),a2 2( (不進入不進入) )v參與人參與人2 2的類型空間的類型空間T T2 2= =t t2 2, ,單點集,因此參與人單點集,因此參與人1 1對參與人對參與人2 2的信念的信念p p1 1=1;=1;v參
6、與人參與人2 2對參與人對參與人1 1的信念的信念p p2 2=(p,1-p);=(p,1-p);按照海薩尼轉(zhuǎn)換,該博弈表示為:按照海薩尼轉(zhuǎn)換,該博弈表示為:1m2m2aN11t2m12t1m1a1122 P1P1a1a1a2a2a2a7-2圖v注釋:注釋:v參與人參與人i i對其他參與人的類型(私人信息)對其他參與人的類型(私人信息)t t-i -i的的信念信念 稱為先驗概率。稱為先驗概率。v當參與人當參與人 i i在他的某個信息集在他的某個信息集h h上觀察到其他上觀察到其他n-1n-1個參與人行動組合個參與人行動組合 ,條件概率,條件概率 , , 是參與者是參與者i i在觀察到在觀察到
7、的情況下,的情況下,對參與者的類型對參與者的類型t t-i -i的修改,這個修正產(chǎn)生的修改,這個修正產(chǎn)生 的推斷稱為后驗概率的推斷稱為后驗概率hia(| )iiip tt(|)hiiip ta(|)hiiip tahiav在例在例1 1圖圖7-17-1中,設(shè)中,設(shè)R(tR(t1111),R(t),R(t1212) )是參與人是參與人1 1的的兩個戰(zhàn)略。從而該博弈表示為完全但不完美兩個戰(zhàn)略。從而該博弈表示為完全但不完美的動態(tài)博弈圖的動態(tài)博弈圖7-3 7-3 。LAA11()R tR12()R t(2,2)(0,0)(0,1)(1,0)(3,1)BB122 P1P7-3圖2,22,20,00,11
8、,03,12參與人1參與人AB11() R tpL12()1R tp22( ,1-),2pppABL A對于參與人 的任何信念行動 都要弱劣與 ,因此均衡()是參與人 的不可信威脅:v但(但(L,AL,A)又排除不掉,因為沒有子博弈。)又排除不掉,因為沒有子博弈。v假設(shè)在參與人假設(shè)在參與人2 2的信息集的信息集h h2 2上上, ,觀察到觀察到R R產(chǎn)生產(chǎn)生的后驗概率為的后驗概率為v v這時,參與者這時,參與者2 2選擇選擇A A的期望收益為:的期望收益為: 0 0* *q+0q+0* *(1-q)=0(1-q)=0 選擇選擇B B的期望收益為:的期望收益為: 1 1* *q+1q+1* *(
9、1-q)=10(1-q)=10 所以參與人所以參與人2 2一定會選擇一定會選擇B.B.1112(|), (|)1,p tRq p tRq v參與人參與人1 1知道理性的參與人知道理性的參與人2 2輪到他決策輪到他決策的信息集的信息集h h2 2上會選擇上會選擇B B,因此參與人的最,因此參與人的最優(yōu)戰(zhàn)略就是優(yōu)戰(zhàn)略就是R(tR(t1212). ).v既然參與人既然參與人1 1決定選擇決定選擇R(tR(t1212) ),因此參與,因此參與人人2 2修正的信念推斷是修正的信念推斷是v,所以就刪掉了(,所以就刪掉了( L L,A A )1112(|)0, (|)1,p tRp tR7.1 7.1 精煉
10、貝葉斯納什均衡精煉貝葉斯納什均衡v7.1.17.1.1后續(xù)博弈后續(xù)博弈v引入精煉貝葉斯均衡的目的是:引入精煉貝葉斯均衡的目的是:v為了進一步強化為了進一步強化( (即加強對條件的要求即加強對條件的要求) )貝葉斯納什均衡,這和子博弈精煉納貝葉斯納什均衡,這和子博弈精煉納什均衡強化了納什均衡是相同的。什均衡強化了納什均衡是相同的。v用更為廣義的用更為廣義的后續(xù)博弈后續(xù)博弈的概念來代替的概念來代替子博弈子博弈,后續(xù),后續(xù)博弈可開始于任何信息集(而不論是否單結(jié))。博弈可開始于任何信息集(而不論是否單結(jié))。v其后,進行相似的分析:如果參與者的戰(zhàn)略要構(gòu)成其后,進行相似的分析:如果參與者的戰(zhàn)略要構(gòu)成為博弈
11、的一個精練貝葉斯均衡,它不僅必須是整個為博弈的一個精練貝葉斯均衡,它不僅必須是整個博弈的貝葉斯納什均衡,而且必須構(gòu)成每一個后續(xù)博弈的貝葉斯納什均衡,而且必須構(gòu)成每一個后續(xù)博弈的貝葉斯均衡。博弈的貝葉斯均衡。v 例子例子 :市場進入博弈(該博弈的擴展式表述模型:市場進入博弈(該博弈的擴展式表述模型見圖見圖7.27.2)v如果我們將從每一個信息集開始的博弈如果我們將從每一個信息集開始的博弈的剩余部分稱為一個的剩余部分稱為一個“后續(xù)博弈后續(xù)博弈”(注(注意與子博弈的不同:子博弈必須開始于意與子博弈的不同:子博弈必須開始于單結(jié)信息集),一個單結(jié)信息集),一個“合理合理”的均衡應(yīng)的均衡應(yīng)該滿足:該滿足:
12、v給定每一個參與人有關(guān)其它參與人類型給定每一個參與人有關(guān)其它參與人類型的后驗信息,參與人的戰(zhàn)略組合在每一的后驗信息,參與人的戰(zhàn)略組合在每一個后續(xù)博弈上構(gòu)成貝葉斯均衡。個后續(xù)博弈上構(gòu)成貝葉斯均衡。 v精煉貝葉斯均衡是貝葉斯均衡、子博弈精練精煉貝葉斯均衡是貝葉斯均衡、子博弈精練均衡和貝葉斯推斷的結(jié)合。它要求:均衡和貝葉斯推斷的結(jié)合。它要求:v (1)(1)在每一個信息集上,決策者必須有一在每一個信息集上,決策者必須有一個定義在屬于該信息集的所有決策結(jié)上的一個定義在屬于該信息集的所有決策結(jié)上的一個概率分布個概率分布( (信念信念) );v (2)(2)給定該信息集上的概率分布和其他參給定該信息集上的
13、概率分布和其他參與人的后續(xù)戰(zhàn)略,參與人的行動必須是最優(yōu)與人的后續(xù)戰(zhàn)略,參與人的行動必須是最優(yōu)的;的;v (3)(3)每一個參與人根據(jù)貝葉斯法則和均衡每一個參與人根據(jù)貝葉斯法則和均衡戰(zhàn)略修正后驗概率。戰(zhàn)略修正后驗概率。7.1.2 7.1.2 貝葉斯法則貝葉斯法則v 統(tǒng)計學上,修正之前的判斷稱為統(tǒng)計學上,修正之前的判斷稱為“先驗概率先驗概率”,修正之后的判斷稱為,修正之后的判斷稱為“后驗概率后驗概率”。貝葉斯法則是人們根據(jù)。貝葉斯法則是人們根據(jù)新的信息從新的信息從“先驗概率先驗概率”得到得到“后驗概后驗概率率”的基本方法。的基本方法。v一個不完全信息博弈中,假定參與人的一個不完全信息博弈中,假定參
14、與人的類型是獨立分布的,參與人類型是獨立分布的,參與人i i有有K K個可能個可能類型,有類型,有HH個可能行動。個可能行動。v用用t tk k和和a ah h分別代表一個特定的類型和一分別代表一個特定的類型和一個特定的行動。個特定的行動。v假定假定i i屬于類型屬于類型t tk k的先驗概率為的先驗概率為v給定給定i i屬于屬于t tk k,i i選擇選擇a ah h的條件概率為的條件概率為 v則則i i選擇選擇a ah h的全概率是:的全概率是:1( )0,( )1Kkkkp tp t(),()1hkhkhp a tp a t1Pr() ( )Khhkkkob ap a tp tv 根據(jù)概
15、率公式,觀測到根據(jù)概率公式,觀測到i i選擇了行選擇了行動動a ah h,i i屬于類型屬于類型t tk k的后驗概率為:的后驗概率為:v 1() ( )() ( )PrPr() ( )hkkhkkkhKhhkkkp a tp tp a tp tob t aob ap a tp tv注意:注意:精煉貝葉斯均衡假定參與人是精煉貝葉斯均衡假定參與人是根據(jù)貝葉斯法則修正先驗概率的。根據(jù)貝葉斯法則修正先驗概率的。v不過,貝葉斯法則要求不過,貝葉斯法則要求ProbaProbah h00,即參與人即參與人i i必須以正的概率選擇必須以正的概率選擇a ah h,否則,后驗概率沒有定義。否則,后驗概率沒有定義
16、。v如果如果ProbaProbah h 0 0,允許,允許ProbtProbtk k|a|ah h 在在0,10,1區(qū)間取任何值,只要所取的值與區(qū)間取任何值,只要所取的值與均衡戰(zhàn)略相容。均衡戰(zhàn)略相容。v在動態(tài)博弈中,在動態(tài)博弈中,ProbaProbah h=0=0對應(yīng)的是對應(yīng)的是非均衡路徑上的信息集。非均衡路徑上的信息集。7.1.37.1.3精煉貝葉斯均衡精煉貝葉斯均衡v 假定有假定有n n個參與人,參與人個參與人,參與人i i的類型是是私的類型是是私人信息,人信息,vp(tp(t-i -i|t|ti i) )是屬于類型是屬于類型t ti i的參與人認為其他的參與人認為其他n-1n-1參與人屬
17、于類型參與人屬于類型t t-i -i =(t =(t1 1, t, ti-1i-1, t , t i +1i +1, , t, , tn n) )的先驗概率。的先驗概率。v令令S Si i是是i i的戰(zhàn)略空間,的戰(zhàn)略空間,s si iSSi i是一個特定戰(zhàn)略是一個特定戰(zhàn)略(它依賴類型它依賴類型t ti i),),va ah h-i -i =( a =( ah h1 1, a, ah hi-1i-1, a, ah hi+1i+1, , a, , ah hn n) )是在第是在第h h信信息集上參與人息集上參與人i i觀測到的其他觀測到的其他n-1n-1個參與人的個參與人的行動組合,它是戰(zhàn)略組合行
18、動組合,它是戰(zhàn)略組合s s-i -i =(s =(s1 1, s , s i -1i -1, s , s i i +1+1, , s, , sn n) )的一部分(即的一部分(即s s-i -i規(guī)定的行動),規(guī)定的行動),v定義定義:精煉貝葉斯均衡精煉貝葉斯均衡s s* *(t)=( s(t)=( s* *1 1 (t (t1 1), , s), , s* *n n (t (tn n) )是一個戰(zhàn)略組合,和一個后驗概率組合是一個戰(zhàn)略組合,和一個后驗概率組合 ,滿足:,滿足: ( (1) 1) 對于所有的參與人對于所有的參與人i i,在每一個信息集,在每一個信息集h h, (2) (2) 是使用
19、貝葉斯法則從先驗概率是使用貝葉斯法則從先驗概率p(tp(t- -i i|t|ti i) ),觀測到的,觀測到的a ah h-i -i和最優(yōu)戰(zhàn)略和最優(yōu)戰(zhàn)略s s* *-i -i 得到(在可能得到(在可能情況下)。情況下)。 ()hiiip ta*(, )() ( , )argmaxiihiiiiiiiiiitss stp ta u s st12(,)npp ppv上述定義中,上述定義中,v(1 1)是精煉條件,即精煉貝葉斯均衡)是精煉條件,即精煉貝葉斯均衡要求均衡戰(zhàn)略在每一個要求均衡戰(zhàn)略在每一個“后續(xù)博弈后續(xù)博弈”上上構(gòu)成貝葉斯均衡;構(gòu)成貝葉斯均衡;v條件(條件(2 2)對應(yīng)的是貝葉斯法則的運用
20、。)對應(yīng)的是貝葉斯法則的運用。7.1.4 7.1.4 精煉貝葉斯均衡的等價定義精煉貝葉斯均衡的等價定義v 不完全信息靜態(tài)博弈的海薩尼轉(zhuǎn)換也適用不完全信息靜態(tài)博弈的海薩尼轉(zhuǎn)換也適用于不完全信息動態(tài)博弈,經(jīng)過海薩尼轉(zhuǎn)換的于不完全信息動態(tài)博弈,經(jīng)過海薩尼轉(zhuǎn)換的不完全信息動態(tài)博弈與完全但不完美信息動不完全信息動態(tài)博弈與完全但不完美信息動態(tài)博弈沒有多少差別。態(tài)博弈沒有多少差別。v等價定義等價定義:精煉貝葉斯均衡是一個戰(zhàn)略組合:精煉貝葉斯均衡是一個戰(zhàn)略組合v和一個后驗概率組合和一個后驗概率組合,滿足下列要求,滿足下列要求R1-R4R1-R4: 12(,)npp pp*1122( )( ),( ),( )n
21、ns tstststv要求要求1 1:在每一信息集中,應(yīng)該行動在每一信息集中,應(yīng)該行動的參與者必須對博弈進行到該信息的參與者必須對博弈進行到該信息集中的哪個節(jié)有一個推斷。集中的哪個節(jié)有一個推斷。v對于非單節(jié)信息集,推斷是在信息對于非單節(jié)信息集,推斷是在信息集中不同節(jié)點的一個概率分布;對集中不同節(jié)點的一個概率分布;對于單節(jié)的信息集,參與者的推斷就于單節(jié)的信息集,參與者的推斷就是到達單一決策節(jié)的概率為是到達單一決策節(jié)的概率為1 1。v要求要求2 2:給定參與者的推斷,參與者的戰(zhàn)略必須給定參與者的推斷,參與者的戰(zhàn)略必須滿滿足序貫理性的要求足序貫理性的要求。v即在每一個信息集中應(yīng)該行動的參與者即在每一
22、個信息集中應(yīng)該行動的參與者( (以及參與者以及參與者隨后的戰(zhàn)略隨后的戰(zhàn)略) ),對于,對于給定給定的該參與者在此信息集中的的該參與者在此信息集中的推斷推斷,以及其他參與者,以及其他參與者隨后的戰(zhàn)略隨后的戰(zhàn)略必須是最優(yōu)反應(yīng)。必須是最優(yōu)反應(yīng)。v要求要求1 1意味著如果博弈的進行達到參與者意味著如果博弈的進行達到參與者2 2的非單節(jié)的非單節(jié)信息集,則參與者信息集,則參與者2 2必須對具體到達哪一個節(jié)必須對具體到達哪一個節(jié)( (也就也就是參與者是參與者1 1選擇了選擇了L L還是還是R)R)有一個推斷。這樣的推斷有一個推斷。這樣的推斷就表示為到達這兩個節(jié)的概率就表示為到達這兩個節(jié)的概率p p和和1 1
23、p p。v 給定參與者給定參與者2 2的推斷,的推斷,v選擇選擇R R 的期望收益就等于的期望收益就等于p p0+(10+(1p)p)1=11=1p p。v選擇選擇LL的期望收益等于的期望收益等于p p1+(11+(1p) p) 2=22=2p p。v由于對任意的由于對任意的p p,都有,都有2 2p lp lp p,要求,要求2 2排除了排除了2 2選選擇擇RR的可能性。的可能性。v v v v v v 圖7.4LMLRLR2(1,3)(2,1)(0,0)(0,2)(0,1)p1-pRv定義:定義:對于一個給定的擴展式博弈中給對于一個給定的擴展式博弈中給定的均衡,如果博弈根據(jù)均衡戰(zhàn)略進行定的
24、均衡,如果博弈根據(jù)均衡戰(zhàn)略進行時將時將以正的概率達到某信息集以正的概率達到某信息集,我們稱,我們稱此信息集處于均衡路徑之上。此信息集處于均衡路徑之上。v反之,如果博弈根據(jù)均衡戰(zhàn)略進行時,反之,如果博弈根據(jù)均衡戰(zhàn)略進行時,肯定不會達到某信息集,我們稱之為處肯定不會達到某信息集,我們稱之為處于均衡戰(zhàn)略路徑之外的信息集。于均衡戰(zhàn)略路徑之外的信息集。v要求要求3 3:在處于均衡路徑之上的信息集中,推在處于均衡路徑之上的信息集中,推斷由貝葉斯法則及參與者的均衡戰(zhàn)略給出。斷由貝葉斯法則及參與者的均衡戰(zhàn)略給出。v要求要求4 4:對處于均衡路徑之外的信息集,推斷對處于均衡路徑之外的信息集,推斷由貝葉斯法則以及
25、可能情況下的參與者的均由貝葉斯法則以及可能情況下的參與者的均衡戰(zhàn)略決定。衡戰(zhàn)略決定。v 在圖在圖7.37.3的子博弈精煉納什均衡的子博弈精煉納什均衡(L, L)(L, L)中,參與者中,參與者2 2的推斷一定是的推斷一定是p=1p=1:給定參與者:給定參與者1 1的均衡戰(zhàn)略,參與者的均衡戰(zhàn)略,參與者2 2知道已經(jīng)到了信息集中的哪一個節(jié)。知道已經(jīng)到了信息集中的哪一個節(jié)。作為要求作為要求3 3的另一種的另一種說明,設(shè)想在圖說明,設(shè)想在圖7.37.3中存在一個混合戰(zhàn)略均衡,其中參與中存在一個混合戰(zhàn)略均衡,其中參與者者1 1選擇選擇L L的概率為的概率為q q1 1,MM的概率為的概率為q q2 2,
26、選擇,選擇R R的概率為的概率為1-q1-q1 1-q-q2 2。要求。要求3 3則強制性規(guī)定參與者則強制性規(guī)定參與者2 2的推斷必須是的推斷必須是p= p= q q1 1/( q/( q1 1+ q+ q2 2) )。LMLRLR2(1,3)(2,1)(0,0)(0,2)(0,1)p1-pq1q27.2 7.2 例題分析例題分析v例例1 1、完全信息但不完美動態(tài)博弈如下:、完全信息但不完美動態(tài)博弈如下:(1,2)(1,2)(2,1)(2,1)(3,1)(3,1) (0,1)(0,1) (1,0)(1,0)(3,1)(3,1)1 1v求求:(1)NE; (2)SPNE;(3)PBNE:(1)N
27、E; (2)SPNE;(3)PBNEB BA Ay y1 1x xL Ly y2 2R RMML LMMR Rv解解: : (1 1)NE (A,L), (B,R). NE (A,L), (B,R). 具體具體 略略v (2 2)無子博弈,因此為)無子博弈,因此為SPNE.SPNE.v (3 3)下面求)下面求PBNE.PBNE. 按照按照PBNEPBNE的定義,需要滿足條件:的定義,需要滿足條件: R1-R4.R1-R4.R1:R1: 參與人參與人1 1的信息集的信息集h1=x,h1=x,顯然信念顯然信念 p p1 1=1;=1;參與人參與人2 2的信息集的信息集h2=yh2=y1 1,y,
28、y2 2, , 信念信念 p p2 2=(p,1-p),=(p,1-p),其中其中0 0p p1;1;vR2:R2:給定參與人給定參與人2 2的信念的信念p p2 2=(p,1-p),=(p,1-p),其中其中0 0p p1;1;參與人參與人2 2選擇選擇L,M,RL,M,R的期望收益的期望收益為:為:E E2L2L=2=2* *p+1p+1* *(1-p)=1+p(1-p)=1+pE E2M2M=1=1* *p+0p+0* *(1-p)=p(1-p)=pE E2R2R=1=1* *p+1p+1* *(1-p)=1(1-p)=1任意的任意的0 0p p1 1,都有,都有E E2M 2M E E
29、2R 2R E E2L2L,所以所以 參與人參與人2 2的最優(yōu)戰(zhàn)略:的最優(yōu)戰(zhàn)略:s s* *2 2=L.=L.v給定參與人給定參與人2 2的最優(yōu)戰(zhàn)略:的最優(yōu)戰(zhàn)略:s s* *2 2=L.=L. 參與人參與人1 1的最優(yōu)戰(zhàn)略:的最優(yōu)戰(zhàn)略:s s* *1 1=A.=A. 所以(所以(L,AL,A)是一組均衡。)是一組均衡。vR3: R3: (L,AL,A)穿過了參與人)穿過了參與人2 2的多信息集的多信息集 由均衡(由均衡(L,AL,A)和)和BayesBayes法則有:法則有:修正的后驗推斷修正的后驗推斷1111122 ( ) ( ) ( ) ( ) ( ) ( ) ( )*1 1*1 (1)*
30、0p A tp A A tpp A tAp A tp A A tp B tp A B tpppvR4:R4:沒有多信息集在均衡路徑之外,自動滿沒有多信息集在均衡路徑之外,自動滿足。足。v綜上,該博弈的綜上,該博弈的PBNEPBNE為:為:12( , ), 1, (1,0)A Lpp再討論例1v用不完全信息動態(tài)博弈如下:用不完全信息動態(tài)博弈如下:(1,2)(1,2)(2,1)(2,1)(3,1)(3,1)(0,1)(0,1)(1,0)(1,0)(3,1)(3,1)N Nt t1111L L2 2R RMML LMM R RB BA A1 11 1t t1212p p1-p1-pv例例2 2、不完
31、全信息動態(tài)博弈如下:、不完全信息動態(tài)博弈如下:(4,1)(4,1)(0,0)(0,0)(3,0)(3,0)(0,1)(0,1)1 1v求求:(1)NE; (3)PBNE:(1)NE; (3)PBNEB BA AppL L1-p1-pR RL LR RC C(2,2)(2,2)v解解: : (1 1)NE (A,L), (C,R). NE (A,L), (C,R). 具體具體 略略v (2 2)下面求)下面求PBNE.PBNE. 按照按照PBNEPBNE的定義,需要滿足條件:的定義,需要滿足條件: R1-R4.R1-R4.R1:R1: 參與人參與人1 1的信息集是單點,的信息集是單點, p p1
32、 1=1;=1;參參與人與人2 2在信息集在信息集h2h2的信念的信念 p p2 2=(p,1-p),=(p,1-p),其其中中0 0p p1;1;vR2:R2:給定參與人給定參與人2 2的信念的信念p p2 2=(p,1-p),=(p,1-p),其中其中0 0p p1;1;參與人參與人2 2選擇選擇L,RL,R的期望收益為:的期望收益為:E E2L2L=1=1* *p+0p+0* *(1-p)=p(1-p)=pE E2R2R=0=0* *p+1p+1* *(1-p)=1-p(1-p)=1-p當當1/21/2 p p1 ,都有,都有E E2R 2R E E2L2L, s s* *2 2=L.=
33、L.當當 0 0p1/2 p1/2 ,都有,都有E E2L 2L E E2R2R, s s* *2 2=R.=R.v先分析(先分析(A,LA,L)v給定參與人給定參與人2 2的最優(yōu)戰(zhàn)略:的最優(yōu)戰(zhàn)略: s s* *2 2=L ,1/2=L ,1/2 p p1. . 參與人參與人1 1的最優(yōu)戰(zhàn)略:的最優(yōu)戰(zhàn)略:s s* *1 1=A.=A. 所以(所以(L,AL,A)是一組均衡。)是一組均衡。vR3: R3: (L,AL,A)穿過了參與人)穿過了參與人2 2的多信息集的多信息集 由均衡(由均衡(L,AL,A)和)和BayesBayes法則有:法則有:修正的后驗推斷修正的后驗推斷1p vR4:R4:沒
34、有多信息集在均衡路徑之外,自動滿沒有多信息集在均衡路徑之外,自動滿足。足。v綜上,該博弈的綜上,該博弈的PBNEPBNE為:為:12( , ), 1, (1,0)A Lppv再分析(再分析(C,RC,R)v給定參與人給定參與人2 2的最優(yōu)戰(zhàn)略:的最優(yōu)戰(zhàn)略: s s* *2 2=R , 0=R , 0p1/2 .p1/2 . 參與人參與人1 1的最優(yōu)戰(zhàn)略:的最優(yōu)戰(zhàn)略:s s* *1 1=C.=C. 所以(所以(C,RC,R)是一組均衡。)是一組均衡。vR3: R3: ( C,R C,R )沒有穿過參與人)沒有穿過參與人2 2的多信息集的多信息集 自動滿足自動滿足vR4:R4:多信息集在均衡路徑(
35、多信息集在均衡路徑( C,R C,R )之外,)之外, 由可能的均衡路徑和由可能的均衡路徑和BayesBayes法則有:法則有:因為因為v如果博弈方如果博弈方1 1不選不選C C,但也不能選,但也不能選B B,因為,因為B B相對于相對于A A來說是弱劣策略,因此會選來說是弱劣策略,因此會選A A,給,給定定A A,博弈方,博弈方2 2的最優(yōu)選擇是的最優(yōu)選擇是L L。v綜上,綜上, ( C,R C,R )不是)不是PBNEPBNE例例2 2的另一種方法:的另一種方法:v設(shè)參與人設(shè)參與人1 1的一個混合策略為:的一個混合策略為:v注意,純策略是混合策略的特例注意,純策略是混合策略的特例11212
36、12( ,1),01,01. 121212 +Bayes由公式得到,參與人2的兩個結(jié)點的概率為:,(4,1)(4,1)(0,0)(0,0)(3,0)(3,0)(0,1)(0,1)1 1B BA AL LR RL LR RC C(2,2)(2,2)11221212121121212,1+pp令那就回到前面的分析方法,兩種思想是一致的。v例例3 3、不完全信息動態(tài)博弈如下:、不完全信息動態(tài)博弈如下:(1,2,1)(1,2,1)(2,0,0)(2,0,0)(3,3,3)(3,3,3)(0,1,2)(0,1,2)(0,1,1)(0,1,1)2 2v求求:(1)NE; (2)PBNE:(1)NE; (2
37、)PBNEB BA AL LU UV VR R1 1U UV VPP1-P1-P3 3v解解: : (1 1)NE: (A,L,U), (A,R,U).NE: (A,L,U), (A,R,U). (A,R,V), (B,L,V). (A,R,V), (B,L,V).(2 2)下面求)下面求PBNE.PBNE. 該博弈有唯一的子博弈該博弈有唯一的子博弈該博弈有唯一的子博弈該博弈有唯一的子博弈(2,1)(2,1)(3,3)(3,3)(1,2)(1,2)(1,1)(1,1)2 2L LU UV VR RU UV VPP1-P1-P有唯一有唯一NE (L,V)NE (L,V)3 3所以所以 (B,L,
38、V)(B,L,V)是唯一的是唯一的SPNESPNEv只需要檢驗只需要檢驗(B,L,V)(B,L,V)是否是是否是PBNE?PBNE?按照按照PBNEPBNE的定義,需要滿足條件:的定義,需要滿足條件: R1-R1-R4.-R4.R1:R1: 參與人參與人1 1的信念的信念 p p1 1=1;=1;參與人參與人2 2的信的信念念 p p2 2=1;=1;參與人參與人3 3的信念的信念 p p3 3=(p,1-p),=(p,1-p),其其中中0 0p p1;1;vR2:R2:給定參與人給定參與人3 3的信念的信念p p3 3=(p,1-p),=(p,1-p),其中其中0 0p p1;1;參與人參與人3 3選擇選擇U,VU,V的期望收益為:的期望收益為:E E3U3U=1=1* *p+2p+2* *(1-p)=2-p(1-p)=2-pE E3V3V=3=3* *p+1p+1* *(1-p)=1+2p(1-p)=1+2p當當1/31/31/3,p=11/3,所以參與人所以參與人3 3的最優(yōu)選擇的最優(yōu)選擇是是V.(V.(相容相容). ).vR4R4:自動滿足。:自動滿足。 3,p (10)v綜上,該博弈
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- XX美容院股權(quán)讓渡協(xié)議(2024年版)版B版
- 2024賠償協(xié)議書模板:建筑工程賠償3篇
- 專利用途質(zhì)押擔保合同2024版B版
- 二零二五年度鋼結(jié)構(gòu)工程勞務(wù)分包合同2篇
- 二零二五年度金融安全電子支付SET標準服務(wù)合同2篇
- 觸摸屏課程設(shè)計
- 鄭明物流課程設(shè)計
- 軋鋼課程設(shè)計總結(jié)
- 文明出行幼兒園課程設(shè)計
- 裝飾浮雕課程設(shè)計
- 陜西省漢中市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細
- 工藝豎井開挖支護施工技術(shù)方案(清楚明了)
- FIDIC銀皮書(中英文對照)
- 初中《合唱》校本課程
- 一元一次含參不等式教學設(shè)計83
- 100道湊十法練習習題(含答案)
- 牛仔面料成本核算
- 簡單娛樂yy頻道設(shè)計模板
- 健康體檢的八大意義
- 銷售顧問初級認證筆試題
- 市場化人才選聘管理辦法
評論
0/150
提交評論