子博弈精煉納什均衡+貝葉斯法則+信號博弈

上傳人：w*** IP屬地：江蘇上傳時間：2024-08-19 格式：DOC 頁數(shù)：9 大?。?.95MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

一：子博弈精煉納什均衡在給出子博弈精煉Nash均衡的正式定義之前，我們需要先介紹“子博弈”這個概念。

子博弈（sub

game）：由一個單結(jié)信息集X開始的與所有該決策結(jié)的后續(xù)結(jié)（包括終點結(jié)）組成的，能夠自成一個博弈的原博弈的一部分。即給定“歷史”，每一個行動選擇開始至博弈結(jié)束構(gòu)成了的一個博弈，稱為原動態(tài)博弈的一個“子博弈”。子博弈可以作為一個獨立的博弈進行分析，并且與原博弈具有相同的信息結(jié)構(gòu)。為了敘述方便，一般用表示博弈樹中開始于決策結(jié)的子博弈。

譬如圖3.5，該博弈存在3個子博弈：除了原博弈自己以外，還存在兩個子博弈圖3.6a子博弈和圖3.6b子博弈。

在靜態(tài)博弈分析時，我們所說的戰(zhàn)略是指參與人聲明他將做出何種選擇，而他們往往也是按照聲明做出實際選擇的；在動態(tài)博弈中，戰(zhàn)略盡管仍然具有這種含義，但博弈在行動選擇上參與人具有選擇行動的先后順序情況下，參與人有了一種額外的選擇——事后機會主義，后動的局中人完全可以根據(jù)博弈進行到此時對局中人最為有利的方式選擇行動，而放棄事前所聲明的戰(zhàn)略所規(guī)定的行動選擇選擇其行動。這意味著，在動態(tài)博弈中，即使參與人人按事前所聲明的戰(zhàn)略組合構(gòu)成一個納什均衡，而這些均衡戰(zhàn)略又規(guī)定了各個參與人在其所有信息集上的行動選擇，這些行動選擇也可能并非參與人在對應信息集上的最優(yōu)行動選擇。而當博弈實際進行到那些由納什均衡戰(zhàn)略規(guī)定的行動并非最優(yōu)行動選擇的信息集時，按照理性人假設，可以想象參與人屆時并不會按納什均衡戰(zhàn)略所規(guī)定的方式去選擇行動，而是機會主義地選擇最優(yōu)的行動。這樣，具有這種特點的納什均衡就是不可信的，即不能作為模型的預測結(jié)果，按照“精煉”納什均衡的思想，應當將其消掉。

定義3.1：子博弈精煉納什均衡（SPNE）：擴展式博弈的策略組合

S*=(S1*,…,

Si*,…,

Sn*

)是一個子博弈精煉納什均衡當且僅當：如果它是原博弈的納什均衡；它在每一個子博弈上也都構(gòu)成納什均衡。

如果一個完美信息的動態(tài)博弈中，各博弈方的策略構(gòu)成的一個策略組合滿足：在整個動態(tài)博弈及它的所有子博弈中都構(gòu)成納什均衡，那么這個策略組合稱為該動態(tài)博弈的一個“子博弈完美納什均衡”。這也意味著原博弈的Nash均衡并不一定是子博弈精煉Nash均衡，除非它還對所有子博弈構(gòu)成Nash均衡。例如前文的煤電博弈，（提價，接受）和（不提價，接受）均為納什均衡，但后者并未滿足在整個動態(tài)博弈及它的所有子博弈中都構(gòu)成納什均衡這一要件，因而理性的煤炭企業(yè)一定會選擇提價。博弈:一個擴展式表示博弈的子博弈G是由一個單結(jié)信息集x開始的與所有該決策結(jié)的后續(xù)結(jié)(包括終點結(jié))組成的能自成一個博弈的原博弈的一部分。對于擴展式博弈的策略組合S*=(S1*,…,Si*,…,Sn*),如果它是原博弈的納什均衡;它在每一個子博弈上也都構(gòu)成納什均衡,則它是一個子博弈精煉納什均衡。博弈論專家常常使用“序貫理性”(Sequentialrationality)：指不論過去發(fā)生了什么，參與人應該在博弈的每個時點上最優(yōu)化自己的策略。子博弈精煉納什均衡所要求的正是參與人應該是序慣理性的。對于有限完美信息博弈，逆向歸納法是求解子博弈精煉納什均衡的最簡便的方法。因為有限完美信息博弈的每一個決策結(jié)都開始一個子博弈。求解方法：最后一個結(jié)點上的子博弈（納什均衡）→倒數(shù)第二個（納什均衡）→······→初始結(jié)點上的子博弈（納什均衡）。上圖摘自張維迎的《博弈論與信息經(jīng)濟學》（P7）在此圖中，我們可以看出博弈論大概分為四類，每種類別都有固定的納什均衡。這道題中所問的“如何分辨子博弈”，是求解子博弈精煉納什均衡的基礎。而“貝葉斯法則”是求解精煉貝葉斯均衡的基礎。所以，如果擴展一下是屬于如何求解完全信息動態(tài)博弈的子博弈精煉納什均衡，以及如何求解不完全信息動態(tài)博弈的精煉貝葉斯納什均衡。在下面分開討論。一、完全信息動態(tài)的子博弈精煉納什均衡完全信息動態(tài)一般用擴展式表述。子博弈精煉納什均衡要求（1）它在原博弈上是納什均衡（2）它在每一個子博弈上都是納什均衡。所以，如何分辨一個擴展式有幾個子博弈，關鍵在于看一個擴展式表述的博弈中有幾個單節(jié)信息集。同時，子博弈不能切割原博弈的信息集。通過下面幾個圖來解釋：摘自張維迎《博弈論與信息經(jīng)濟學》P182~P183三：信號博弈及貝葉斯法則的運用信號博弈（Signalinggame），是一種由一個發(fā)送者（S）和另一個接收者（R）所組成的\o"動態(tài)博弈"動態(tài)博弈。一開始這個發(fā)送者有一個給定的類型（t），接著發(fā)送者會觀察這個沒有其他人（好比說接收者）知道的類型，去從訊息堆M={m1,m2,m3,...,mj}中選擇送出一個訊息（m），接著接收者會觀察這個訊息后從他可行的動作中A={a1,a2,a3,....,ak}選一個作為反應動作（a），這里要注意的是接收者除了訊息之外其他都無法得知（如發(fā)送者的類型t），接著根據(jù)（t,m,a）的組合來決定雙方會獲得的報酬或回報。用貝葉斯法則求解精煉貝葉斯納什均衡最典型的例子應該是用在信號博弈上?？梢詤⒖剂_云峰主編的《博弈論教程》，第十三章1、2小節(jié)。我覺得這本書相對講的清楚些。這是之前上課用到的一個例子，把它放在下面。首先，在這個博弈中，有三個參與者，分別是N、S、R。Sender有兩種類型，他是哪種類型是其私有信息。也就是說，receiver不知道sender是哪種類型，知道的是1/2的可能性是t1,另外1/2的可能性是t2，同時Receiver可以根據(jù)Sender的行動來修正自己的判斷。

Sender有兩個行動的可能性，L或者R；Receiver有兩個行動的可能性，u或者d。1.假設無論是Sendert1，還是Sendert2，都會選擇L。

這一假設條件可以表示為p（L︱t1）=p（L︱t2）=1。又知Sender1/2的可能性是t1,另外1/2的可能性是t2，即p（t1）=p（t2）=0.5那么這個時候，根據(jù)貝葉斯法則。他選擇U，受益是1/2*3+1/2*4=3.5。如果他選擇d，收益是1/2*0+1/2*1=0.5。所以，在Sender選L的情況下，Receiver會選u。

在Receiver選U的情況下，Sendert1選L的收益是1，Sendert2選L的收益是2.

以上結(jié)論，建立在“無論是Sendert1，還是Sendert2，都會選擇L，這一假設上，那么要使上述結(jié)論成立，首先這個假設要成立。如何讓這個假設成立呢？就需要保證，如果Receiver選擇u，那么無論對哪種類型的Sender來說，選L一定比選R好。

因此，當Sender選擇R時，Receiver做出的反應使得任何類型Sender得到的收益，都小于其選擇L得到的收益。當Sender選擇R時，只有Receiver選擇d才能保證任何類型的Sender收益都小于其選擇L的收益。

所以，必須保證當Sender選擇R時，Receiver一定選擇d。要想保證Receiver一定選擇d呢，則一定要使Sender選R時，Receiver選u的預期收益小于其選d的預期收益。即q+（1-q）*0<0*q+2(1-q),即q<2/3.

所以，這種情況下的精煉貝葉斯均衡是無論是Sendert1，還是Sendert2，都會選擇L；當Sender選擇L時，Receiver選u，當Sender選R時，Receiver選d；p=0.5；q≤2/32.假設無論是Sendert1，還是Sendert2，都會選擇R這一假設條件可以表示為p（R︱t1）=p（R︱t2）=1。又知Sender1/2的可能性是t1,另外1/2的可能性是t2，即p（t1）=p（t2）=0.5那么這個時候，根據(jù)貝葉斯法則。他選擇u，受益是1/2*1+1/2*0=0.5。如果他選擇d，收益是1/2*0+1/2*2=1。所以，在sender選L的情況下，Receiver會選d。在Receiver選d的情況下，sendert1選R的收益是0，sendert2選R的收益是1。如果Sender選擇L，那么Receiver選擇u總是優(yōu)于其選擇d，所以Receiver一定會選擇u。而當Receiver選擇u是，sendert1收益是1，sendert2的收益是2。所以這種情況，Sender選L總是優(yōu)于其選R。與假設相悖，不存在均衡。3.如果是Sendert1，會選擇L：如果是Sendert2，會選擇R。在這種情況下，根據(jù)貝葉斯法則，p=1q=0（如果Receiver發(fā)現(xiàn)Sender的選擇是L，就會知道是Sendert1，如果發(fā)現(xiàn)選擇的是R就能判斷出是R）在Sendert1選擇L時，Receiver會選擇u，Sender獲得收益1；當Sendert2選擇R時，Receiver會選擇d，Sender獲得收益1。需要檢驗，當確定Receiver選擇u、d時，Sender做出與假設不一樣的選擇是否會得到更高的收益。當Receiver會選擇u，Sendert1選擇R收益少于選L（可以）；當Receiver會選擇d，Sendert2選擇L收益大于R。因此，Sendert2會選擇L，與假設相悖。所以，這種均衡不存在4.如果是Sendert1，會選擇R：如果是Sendert2，會選擇L。在這種情況下，根據(jù)貝葉斯法則，p=0q=1在Sendert1選擇R時，Receiver會選擇u，Sender獲得收益2；當Sendert2選擇L時，Receiver會選擇u，Sender獲得收益2。再次檢驗，當確定Receiver選擇（u︱L，u︱R）時，兩類型Sender做出與假設不一樣的選擇是否會得到更高的收益。當Receiver會選擇u，Sendert1選擇L收益少于選R（可以）；當Receiver會選擇u，Sendert2選擇R收益小于L（可以）。所以，這種均衡存在：｛（R︱t1,L︱t2），（u︱L,u︱R），p=0，q=1｝三：貼現(xiàn)因子及其在重復博弈中的運用一般來說，當利率為r時，承諾T年之后支付R美元的現(xiàn)值是R美元/(1+r)^T。因此，即使沒有通貨膨脹，將來1美元的價值也小于現(xiàn)在1美元的價值，必須按某一數(shù)額貼現(xiàn)，該數(shù)額取決于利率的高低和收到貨幣的時間長短。其中1/(1+r)^T被稱為未來T時期的貨幣的貼現(xiàn)因子(discountfactor)。貼現(xiàn)因子(discountfactor)，也稱折現(xiàn)系數(shù)、折現(xiàn)參數(shù)。所謂貼現(xiàn)因子，就是將來的現(xiàn)金流量折算成現(xiàn)值的介于0－1之間的一個數(shù)。貼現(xiàn)因子在數(shù)值上可以理解為貼現(xiàn)率，就是1個份額經(jīng)過一段時間后所等同的現(xiàn)在份額。這個貼現(xiàn)因子不同于金融學或者財務學的貼現(xiàn)率之處在于，它是由參與人的“耐心”程度所決定的。“耐心”實質(zhì)上是講參與人的心理和經(jīng)濟承受能力，不同的參與人在談判中的心理承受能力可能各不相同，心理承受能力強的可能最終會獲得更多的便宜；同樣，如果有比其他參與人更強的經(jīng)濟承受能力，也會占得更多的便宜。貼現(xiàn)因子δ=1/(1+r)^T0<δ<1,r是利率。貼現(xiàn)值為1/(1+δ)^T（注：^T表示T次方）學者在博弈論對貼現(xiàn)因子的定義：貼現(xiàn)因子是討價還價博弈中的一個很重要的概念，Gibbons將貼現(xiàn)因子定義為“貨幣的時間價值”，實際上就是貼現(xiàn)率=1/1+r；張維迎的博弈論中將貼現(xiàn)因子解釋為參與人的耐心程度，貼現(xiàn)因子表示一個參與人的耐心程度，取值在『0，1』

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

子博弈精煉納什均衡+貝葉斯法則+信號博弈

文檔簡介

溫馨提示

最新文檔

評論

子博弈精煉納什均衡+貝葉斯法則+信號博弈

文檔簡介

溫馨提示

最新文檔

評論

相關文檔