




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院1
第二節(jié)
有限次重復(fù)博弈
重復(fù)次數(shù)較少的有限次重復(fù)博弈可以不考慮不同階段得益的貼現(xiàn)問(wèn)題。
一、兩人零和的有限次重復(fù)博弈重復(fù)零和博弈不會(huì)創(chuàng)造出新的利益。如重復(fù)進(jìn)行猜硬幣博弈,不管兩個(gè)博弈方如何選擇,每次重復(fù)的結(jié)果都是一方贏一方輸,得益相加為0。因此在零和博弈或者它們的重復(fù)博弈中,雙方合作的可能性根本不存在。
2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院2二、唯一純策略納什均衡的有限次重復(fù)博弈
首先容易理解的是,如果原博弈的惟一的純策略納什均衡本身就是的累托效率意義上的最佳策略組合,那么因?yàn)榉纤胁┺姆降睦妫虼擞邢薮沃貜?fù)顯然不會(huì)改變博弈方的行為方式。
我們最關(guān)心的當(dāng)然不是這種博弈,而是原博弈惟一的納什均衡沒(méi)有達(dá)到帕累托效率,因此存在通過(guò)合作進(jìn)一步提高效率的潛在可能性的囚徒困境式博弈,在有限次重復(fù)博弈中能不能實(shí)現(xiàn)合作和提高效率的問(wèn)題。如果原博弈惟一的納什均衡沒(méi)有達(dá)到帕累托效率,在有限次重復(fù)博弈中能不能實(shí)現(xiàn)合作和提高效率呢?2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院3有限次重復(fù)囚徒的困境博弈
現(xiàn)考慮兩次重復(fù)的囚徒困境博弈,在這個(gè)兩次重復(fù)博弈中,兩博弈方先進(jìn)行第一次博弈,雙方看到第一次博弈的結(jié)果以后再進(jìn)行第二次博弈。囚徒2坦白不坦白-1,-1-8,00,-8-5,-52024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院4
我們用逆向歸納法來(lái)分析該重復(fù)博弈,先分析第二階段,也就是第一次重復(fù)時(shí)兩博弈方的選擇。這個(gè)第二階段仍然是一個(gè)囚徒困境博弈,此時(shí)前一階段的結(jié)果已成為既成事實(shí),此后又不再有任何的后續(xù)階段,因此實(shí)現(xiàn)自身當(dāng)前的最大利益是兩博弈方在該階段決策中的唯一原則。因此我們不難得出結(jié)論,不管前一次博弈的結(jié)果如何,第二階段的唯一結(jié)果就是原博弈惟一的納什均衡(坦白,坦白),雙方得益(-5,-5)。
現(xiàn)在再回到第一階段,即第一次博弈。理性的博弈方在第一階段就對(duì)后一階段的結(jié)局非常清楚,知道第二個(gè)階段的結(jié)果必然是(坦白,坦白),雙方得到(-5,-5)。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院5
因此不管第一階段的博弈結(jié)果是什么,雙方在整個(gè)重復(fù)博弈中的最終得益,都將是在第一階段得益的基礎(chǔ)上各加-5。因此從第一階段的選擇來(lái)看,這個(gè)重復(fù)博弈與下圖中得益矩陣表示的一次性博弈實(shí)際上是完全等價(jià)的。
該等價(jià)博弈仍然有惟一的純策略納什均衡(坦白,坦白),雙方的得益則為(-10
,-10)。囚徒2坦白不坦白-6,-6-13,-5-5,-13-10,-102024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院6
這意味著兩次重復(fù)囚徒的困境博弈的第一階段結(jié)果與一次性博弈也一樣,最終兩次重復(fù)囚徒困境博弈仍然相當(dāng)于一次性囚徒困境博弈的簡(jiǎn)單重復(fù)。
根據(jù)上述分析方法,我們同樣可以證明3次、4次,或者n次重復(fù)囚徒困境博弈的結(jié)果都是一樣的,那就是每次重復(fù)都采用原博弈惟一的純策略納什均衡,這就是這種重復(fù)博弈惟一的子博弈完美納什均衡路徑。
事實(shí)上,上述結(jié)果是具有一般意義的。原博弈有惟一的純策略納什均衡的博弈,則有限次重復(fù)博弈的惟一均衡即各博弈方在每階段(即每次重復(fù))中都采用原博弈的納什均衡策略。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院7
(一)有限次重復(fù)囚徒的困境博弈
-1,-10,-8-8,0-5,-5
囚徒2坦白抵賴囚徒1坦白抵賴
囚徒困境博弈
-6,-6-5,-13-13,-5-10,-10
囚徒2坦白抵賴囚徒1坦白抵賴逆推歸納法和等價(jià)博弈
上圖所示囚徒的困境博弈,考慮兩次重復(fù)該博弈。用逆推歸納法來(lái)分析該重復(fù)博弈,先分析第二階段,由于該階段仍然是一個(gè)囚徒困境博弈,結(jié)果還是原博弈惟一的納什均衡(坦白,坦白),雙方得益(-5,-5)?;氐降谝浑A段,理性的博弈方會(huì)知道第二階段的結(jié)果必然是(坦白,坦白),因此可以把第二階段的得益直接加到第一階段對(duì)應(yīng)得益上,結(jié)果與一次性博弈一樣,最終兩次重復(fù)囚徒的困境仍然相當(dāng)于一次性囚徒的困境博弈的簡(jiǎn)單重復(fù)。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院8
(二)一般結(jié)論
原博弈有惟一的純策略納什均衡的博弈,則有限次重復(fù)博弈的惟一均衡即各博弈方在每階段(即每次重復(fù))中都采用原博弈的納什均衡策略。定理設(shè)原博弈G有惟一的純策略納什均衡,則對(duì)任意正整數(shù)T,重復(fù)博弈G(T)有惟一的子博弈完美納什均衡,即各博弈方每個(gè)階段都采用G的納什均衡策略。各博弈方在G(T)中的總得益為在G中得益的T倍,平均得益等于原博弈G中的得益。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院9(三)有限次重復(fù)削價(jià)競(jìng)爭(zhēng)博弈70,7020,150150,20100,100
寡頭2高價(jià)低價(jià)寡頭1高價(jià)低價(jià)
削價(jià)競(jìng)爭(zhēng)博弈
根據(jù)右圖得益矩陣不難看出,一次性博弈的結(jié)果必然是雙方都采用“低價(jià)”策略,各得到70個(gè)單位的利益。假設(shè)兩寡頭都意識(shí)到相互競(jìng)爭(zhēng)的市場(chǎng)格局大約可以持續(xù)5年,也就是面臨一個(gè)5次重復(fù)博弈,它們是不是還會(huì)采用低價(jià)不斷打價(jià)格戰(zhàn)呢?
根據(jù)前面得到的一般結(jié)論,以它為原博弈的有限次重復(fù)博弈的惟一的子博弈完美納什均衡,就是兩博弈方重復(fù)5次原博弈的納什均衡策略,也就是削價(jià),兩寡頭還是會(huì)不斷打價(jià)格戰(zhàn)。
2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院10
(四)重復(fù)囚徒困境悖論和連鎖店悖論
在重復(fù)囚徒的困境博弈的大量實(shí)驗(yàn)研究中,重復(fù)次數(shù)較大時(shí)的實(shí)驗(yàn)結(jié)果通常也與上述理論結(jié)論不同,包含合作的情況非常普遍。其實(shí),有限次重復(fù)囚徒的困境博弈的問(wèn)題,與蜈蚣博弈都是相似的,問(wèn)題的癥結(jié)都在于在較多階段的動(dòng)態(tài)博弈中逆推歸納法的適用性受到了懷疑。
2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院11例一: 誠(chéng)信博弈G如圖:乙甲誠(chéng)信欺騙誠(chéng)信(4,4)(0,5)欺騙(5,0)(1,1)這個(gè)博弈與囚徒困境實(shí)質(zhì)上完全一樣,存在唯一Nash均衡為(欺騙,欺騙)。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院12問(wèn)題一:求此兩階重復(fù)博弈:根據(jù)逆向歸納法知道:在第二個(gè)階段,信用困境的納什均衡為(欺騙,欺騙);乙甲誠(chéng)信欺騙誠(chéng)信(5,5)(1,6)欺騙(6,1)(2,2)2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院13逆推到第一階段,唯一的Nash均衡還是(欺騙,欺騙)。從而,兩個(gè)階段信用困境唯一的完美均衡的第一階段的(欺騙,欺騙)和隨后第二階段的(欺騙,欺騙)。問(wèn)題二(進(jìn)一步考察階段博弈G存在多個(gè)Nash均衡情形)2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院14乙甲誠(chéng)信欺騙中誠(chéng)信4,40,50,0欺騙5,01,10,0中0,00,03,3仍對(duì)存在多重均衡的階段博弈重復(fù)進(jìn)行兩次。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院15乙甲誠(chéng)信欺騙中誠(chéng)信7,71,61,1欺騙6,12,21,1中1,11,14,4解:先考察第二階段2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院16其中存在三個(gè)Nash均衡:(誠(chéng)信,誠(chéng)信)(欺騙,欺騙)(中,中)其中Nash均衡與完美均衡關(guān)系為:
(誠(chéng)信,誠(chéng)信)——((誠(chéng)信,誠(chéng)信)(中,中)) (欺騙,欺騙)——((欺騙,欺騙)(欺騙,欺騙)) (中,中)——((中,中)(欺騙,欺騙))完美均衡的結(jié)構(gòu):((欺騙,欺騙)(欺騙,欺騙)),((欺騙,欺騙)(欺騙,欺騙))這兩個(gè)完美博弈均衡都簡(jiǎn)單地由兩個(gè)階段博弈的Nash均衡組成;2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院17((誠(chéng)信,誠(chéng)信)(中,中))這個(gè)完美均衡與前兩個(gè)完美均衡由一個(gè)非Nash均衡(第一階段)和一個(gè)Nash均衡(中,中)(第二階段)組成。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院18
設(shè)一市場(chǎng)有兩個(gè)生產(chǎn)同質(zhì)產(chǎn)品的廠商,他們對(duì)產(chǎn)品的定價(jià)同有高、中、低三種可能。設(shè)高價(jià)時(shí)市場(chǎng)總利潤(rùn)為10個(gè)單位,中價(jià)時(shí)市場(chǎng)總利潤(rùn)為6個(gè)單位,低價(jià)時(shí)市場(chǎng)總利潤(rùn)為2個(gè)單位。再假設(shè)兩廠商同時(shí)決定價(jià)格,價(jià)格不等時(shí)價(jià)格低者獨(dú)享利潤(rùn),價(jià)格相等時(shí)雙方平分利潤(rùn)。這時(shí)候兩廠商對(duì)價(jià)格的選擇就構(gòu)成了一個(gè)靜態(tài)博弈問(wèn)題,我們稱為“三價(jià)博弈”,得益矩陣如下圖所示。三、多個(gè)純策略納什均衡的有限次重復(fù)博弈1、三價(jià)博弈的重復(fù)博弈2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院19
很容易看出,這個(gè)三價(jià)博弈有兩個(gè)純策略納什均衡(M,M)和(L,L),對(duì)應(yīng)的雙方得益分別是(3,3)和(1,1)。但這個(gè)博弈中兩博弈方的總利益最大,而且也符合他們個(gè)體利益(僅次于在對(duì)方高價(jià)自己中價(jià)時(shí)的6單位得益)的策略組合(H,H)并不是納什均衡,因此一次性博弈的結(jié)果不可能是效率最高的。那么,兩次重復(fù)這個(gè)博弈情況會(huì)如何呢?0,20,65,52,06,01,12,00,23,3
廠商ⅡHML2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院20
首先可以肯定的是,重復(fù)這個(gè)博弈使得博弈的可能結(jié)果出現(xiàn)了很多可能性,兩次重復(fù)博弈的純策略路徑有9×9=81種之多,加上帶混合策略的路徑可能結(jié)果的數(shù)量就更大。這些路徑中的子博弈完美納什均衡路徑,有兩階段都采用原博弈同一個(gè)純策略納什均衡的,也有輪流采用不同純策略糾什均衡的,也有兩次都采用混合策略納什均衡的,或者是混合策略均衡和純策略均衡輪流采用。但最重要的是,在兩次重復(fù)中確實(shí)存在第一階段采用(H,H)的子博弈完美納什均衡,其雙方的策略是這樣的:
博弈方1:第一次選H;如第一次結(jié)果為(H,H),則第二次選M,如第一次結(jié)果為任何其他策略組合,則第二次選L。
博弈方2:同博弈方1。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院21
在上述雙方策略組合下,兩次重復(fù)博弈的路徑一定為第一階段(H,H),第二階段(M,M),這是一個(gè)子博弈完美納什均衡路徑。這個(gè)結(jié)論很容易理解,首先,第二階段是一個(gè)原博弈的納什均衡,因此不可能有哪一方會(huì)愿意單獨(dú)偏離;其次,第一階段的(H,H)雖然不是原博弈的納什均衡,一方單獨(dú)偏離,采用M能增加1單位得益,但這樣做的后果是第二階段至少要損失2單位的得益,因?yàn)閷?duì)方所采用的是有“報(bào)復(fù)機(jī)制”的策略,因此偏離(H,H)是得不償失的,合理的選擇是堅(jiān)持H,這就證明了上述策略組合確實(shí)是這個(gè)兩次重復(fù)博弈的子博弈完美納什均衡。
上述重復(fù)博弈中兩個(gè)博弈方所采用的,首先試探合作,一旦發(fā)覺(jué)對(duì)方不合作則也用不合作相報(bào)復(fù)的策略,稱為“觸發(fā)策略”
(triggerstrategies)。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院22
觸發(fā)策略是重復(fù)博弈中實(shí)現(xiàn)合作和提高均衡效率的關(guān)鍵機(jī)制,是重復(fù)博弈分析的重要“構(gòu)件”之一。
實(shí)際上,在上述兩次重復(fù)博弈中,當(dāng)兩博弈方都采用上述觸發(fā)策略時(shí),第二階段都是一種條件選擇,當(dāng)?shù)谝浑A段結(jié)果為(H,H)時(shí),第二階段必為(M,M),得益為(3,3);而當(dāng)?shù)谝浑A段結(jié)果為其他8種結(jié)果時(shí),第二階段必為(L,L),得益為(1,1)。如果我們把(3,3)加到第一階段(H,H)的得益上,把(1,1)加到第一階段共他策略組合的得益上,就把原兩次重復(fù)博弈化成了一個(gè)等價(jià)的一次性,并且得益矩陣如下圖。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院23
這時(shí)候,我們當(dāng)然很容易看出,(H,H)是個(gè)納什均衡,并且得益是兩個(gè)博弈方的最佳得益,因此兩博弈方必然會(huì)采用它。1,31,78,83,17,12,23,11,34,4廠商ⅡHML2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院24
觸發(fā)策略在理論上有很重要的意義,而且在現(xiàn)實(shí)問(wèn)題中也不難找到這種策略的現(xiàn)實(shí)證據(jù),因此它在重復(fù)博弈分析中有非常重要的作用。但如果仔細(xì)分析,不難發(fā)現(xiàn)上述觸發(fā)策略中可能存在可信性問(wèn)題。問(wèn)題在那兒?:在上述兩次重復(fù)三價(jià)博弈中,如果第一階段的結(jié)果確實(shí)是(H,H),也就是在子博弈完美納什均衡路徑上,第二階段的(M,M)符合雙方的利益,當(dāng)然不會(huì)存在問(wèn)題。2、觸發(fā)策略的進(jìn)一步討論
但如果第一階段有一方偏離了均衡路徑就會(huì)產(chǎn)生疑問(wèn)。因?yàn)楦鶕?jù)上述子博弈完美納什均衡的策略,另一方將在第二階段采用報(bào)復(fù)性的L策略,這樣偏離的一方也只能采用L,雙方都只能得到比較差的得益。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院25
問(wèn)題的關(guān)鍵是:上述觸發(fā)策略在報(bào)復(fù)偏離了均衡路徑的博弈方的同時(shí),報(bào)復(fù)者自己也會(huì)受到損失。如果不偏離的一方能夠不計(jì)前嫌,還是與對(duì)方共同采用M,對(duì)他自己也是有利的。
因而這必然引起上述觸發(fā)策略是否真正可信的問(wèn)題。
如果認(rèn)為觸發(fā)策略不可信,當(dāng)認(rèn)為博弈方不可能真正采用觸發(fā)策略,就相當(dāng)于不管第一階段結(jié)果如何,第二階段都是(M,M),雙方得益(3,3)。我們?cè)诘谝浑A段則所有得益上加(3,3),就得到這種情況下的兩次重復(fù)博弈的等價(jià)一次性博弈如下圖。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院26
從得益矩陣中不難發(fā)現(xiàn),這時(shí)第一階段的最佳選擇不是(H,H),而是(M,M)。這意味著兩次重復(fù)博弈的均衡路徑是兩次重復(fù)(M,M),即原博弈效率較高的一個(gè)納什均衡。3,53,98,85,39,34,45,33,56,6廠商ⅡHML2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院27
并不是每個(gè)重復(fù)博弈的觸發(fā)策略都有可信性問(wèn)題。觸發(fā)策略在不少情況下是非??尚诺?。我們來(lái)看下面得益矩陣表示的這個(gè)靜態(tài)博弈的兩次重復(fù)博弈:廠商2HMLPQ0.5,40,00,00,00,00,04,0.50,00,00,00,00,01,12,02,00,00,00,23,36,00,00,00,20,65,52024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院28
不難看出,這個(gè)博弈兩博弈方都增加廠兩個(gè)可選策略,現(xiàn)在它有四個(gè)純策略的納什均衡(M,M)、(L,L)、(P,P)和(Q,Q),得益分別是(3.3)、(1,1)、(4,0.5)和(0.5,4),效率最高的(H,H)也不是納什均衡,正是由于比前一個(gè)博弈多了兩個(gè)純策略納什均衡,因此在重復(fù)博弈中采用觸發(fā)策略的余地就增加了,更重要的是構(gòu)成的觸發(fā)策略的報(bào)復(fù)機(jī)制更加可信。例如在兩次重復(fù)中。兩博弈方分別采用這樣的觸發(fā)策略:
博弈方1:在第一階段采用H,如果第一階段的結(jié)果是(H,H),那么第二階段采用M,否則采用P。博弈方2:在第一階段采用H,如果第一階段的結(jié)果是(H,H),那么第二階段采用M,否則采用Q。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院29
不難證明,雙方的上述觸發(fā)策略組合構(gòu)成該重復(fù)博弈的一個(gè)子博弈完美納什均衡,而且雙方的觸發(fā)策略中的報(bào)復(fù)都是可信的。因?yàn)殡p方觸發(fā)策略中的報(bào)復(fù)機(jī)制不僅本身可以構(gòu)成納什均衡,而且對(duì)報(bào)復(fù)者自己也是有利的。3、兩市場(chǎng)博弈的重復(fù)博弈廠商2AB4,13,30,01,42024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院30
廠商1:第一階段選A,如果第一階段結(jié)果是(A,A),則第二階段選A,如果第一階段結(jié)果是(A,B),則第二階段選B,第三階段無(wú)條件選B;
廠商2:第一階段選A,第二階段無(wú)條件選B,如果第一階段結(jié)果是(A,A),則第三階段選A,如果第一階段結(jié)果是(B,A),則第三階段選B。
兩市場(chǎng)博弈重復(fù)3次,廠商1利和廠商2可以分別采用如下觸發(fā)策略:
根據(jù)雙方的上述策略,3次重復(fù)博弈的均衡路徑是(A,A)到(A,B)再到(B,A)。其中第二、第三階段本身就是原博弈的納什均衡,因此不會(huì)有哪一方愿意單獨(dú)偏離。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院31
第二節(jié)
無(wú)限次重復(fù)博弈
雖然無(wú)限次重復(fù)博弈與有限次重復(fù)博弈一樣,也是基本博弈的重復(fù)進(jìn)行,但兩者還是有重要區(qū)別的。因?yàn)闊o(wú)限次重復(fù)博弈沒(méi)有結(jié)束重復(fù)的確定時(shí)間,也就是最后一次重復(fù)。根據(jù)我們對(duì)有限次重復(fù)博弈的分析可知,存在最后一次重復(fù)正是破壞重復(fù)博弈中博弈方利益和行為的相互制約關(guān)系。使重復(fù)博弈無(wú)法實(shí)現(xiàn)更高效率均衡的關(guān)鍵問(wèn)題。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院32
因?yàn)橹貜?fù)次數(shù)的無(wú)限增加也不能改變?cè)┺闹胁┺姆街g在利益上的對(duì)立關(guān)系,也不會(huì)創(chuàng)造出潛在的合作利益,因此仍然是每次重復(fù)原博弈的混合策略納什均衡。
一、兩人零和的無(wú)限次重復(fù)博弈2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院331、無(wú)限次重復(fù)囚徒困境式博弈
兩寡頭價(jià)格競(jìng)爭(zhēng)博弈的無(wú)限次重復(fù)模型其中H和L分別表示高價(jià)(不削價(jià))和低價(jià)(削價(jià))策略。
二、惟一純策略納什均衡的無(wú)限次重復(fù)博弈廠商2HL5,04,41,10,52024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院34
該博弈的一次性博弈有惟一的純策略納什均衡(L,L),雙方得益為1。這個(gè)納什均衡并不是帕累托效率意義上的最佳策略組合,因?yàn)椴呗越M合(H,H)的得益(4,4)比(1,1)要高得多。但因?yàn)?H,H)并不是該博弈的納什均衡,因此在一次性博弈中不會(huì)被采用,這是一個(gè)典型的囚徒的困境類型的博弈。根據(jù)上一節(jié)的分析,該博弈的有限次重復(fù)博弈并不能實(shí)現(xiàn)潛在的合作利益,兩博弈方在每次重復(fù)中都不會(huì)采用效率較高的(H,H)。
在這個(gè)博弈的無(wú)限次重復(fù)博弈中,我們假設(shè)兩博弈方都采用如下觸發(fā)策略:2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院35觸發(fā)策略:第一階段采用H,在第t階段,如果前t-1階段的結(jié)果都是(H,H),則繼續(xù)采用H,否則采用L。
具體含義也就是,雙方在無(wú)限次重復(fù)博弈中都是先試圖合作,第一次無(wú)條件選H,如果對(duì)方采取的也是合作態(tài)度,則堅(jiān)持選H,一旦發(fā)現(xiàn)對(duì)方不合作(選L),則用以后永遠(yuǎn)選L報(bào)復(fù);我們不難證明,在不同時(shí)期得益的貼現(xiàn)值δ較大時(shí),雙方采用上述策略構(gòu)成無(wú)限次重復(fù)博弈的一個(gè)子博弈完美納什均衡。
先說(shuō)明雙方采用上述觸發(fā)策略是一個(gè)納什均衡。方法是先假設(shè)博弈方1已采用了這種策略,然后證明在δ達(dá)到一定水平時(shí),采用同樣的觸發(fā)策略是博弈方2的最佳反應(yīng)策略。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院36
因?yàn)椴┺姆?與博弈方2是對(duì)稱的,因此只要這個(gè)結(jié)論成立,就可以確定上述觸發(fā)策略是兩博弈方相互對(duì)對(duì)方策略的最佳反應(yīng),因此構(gòu)成納什均衡。由于在某個(gè)階段出現(xiàn)與(H,H)不同的結(jié)果以后博弈方1將永遠(yuǎn)采用L,此時(shí)博弈方2也只有一直選擇L。
因此博弈方2對(duì)博弈方1觸發(fā)策略的最佳反應(yīng)策略的后半部分與觸發(fā)策略的后半部分是一樣的。
現(xiàn)在關(guān)鍵是要確定博弈方2在第一階段的最優(yōu)選擇。
如果博弈方2采用L,那么在第一階段能得到5,但以后引起博弈方1一直采用L進(jìn)行報(bào)復(fù),自己也只能一直采用L,得益將永遠(yuǎn)為1,則總得益現(xiàn)在值為:2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院37
如果博弈方2在第一階段采用H,則他將得4,下一階段又面臨同樣的選擇。若記V為博弈方2在該重復(fù)博弈中每階段都采用最佳選擇的總得益的貼現(xiàn)值。那么從第二階段開(kāi)始的無(wú)限次重復(fù)博弈因?yàn)榕c從第一階段開(kāi)始的只差一階段,因而在無(wú)限次重復(fù)時(shí)可看作相同的,其總得益的貼現(xiàn)值折算成第一階段的得益為δV,
因此,當(dāng)博弈方2第一階段的最佳選擇是H時(shí),整個(gè)無(wú)限次重復(fù)博弈總得益的貼現(xiàn)值為:V=4+δV或2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院38因此當(dāng)
即當(dāng)δ>1/4時(shí),博弈方2第一階段會(huì)采用H,否則會(huì)采用L。即當(dāng)δ>1/4時(shí),由于從第二階段開(kāi)始的無(wú)限次重復(fù)博弈,與從第一階段開(kāi)始的無(wú)限次重復(fù)博弈是完全相同的,因此博弈方第二階段的選擇必然也是H,第三階段也同樣。
依次類推,只要博弈方1采用前述觸發(fā)策略、則博弈方2的最優(yōu)選擇就始終是H;如果博弈方1偏離H,博弈方2也必須用L來(lái)報(bào)復(fù)。因此博弈方2對(duì)博弈方1觸發(fā)策略的完整反應(yīng)策略是同樣的觸發(fā)策略。這就證明了雙方都采取上述觸發(fā)策略是一個(gè)子博弈完美納什均衡。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院39重復(fù)無(wú)窮次,結(jié)果如何?證明得出,如果博弈方有足夠的耐心,(抵賴,抵賴)是一個(gè)子博弈精練納什均衡結(jié)果。-8,-80,-10-10,0-1,-1囚徒A囚徒B坦白抵賴坦白抵賴
冷酷戰(zhàn)略(1)開(kāi)始選擇抵賴;(2)選擇抵賴一直到有一方選擇了坦白,然后永遠(yuǎn)選擇坦白。2、無(wú)限次重復(fù)囚徒困境博弈問(wèn)題:無(wú)限次重復(fù)博弈使其走出了囚徒困境,背后的原因是什么?2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院40
如果博弈重復(fù)無(wú)窮次而且每個(gè)人有足夠的耐心,任何短期機(jī)會(huì)主義行為的所得都是微不足道的,博弈方都有積極性為自己建立一個(gè)樂(lè)于合作的聲譽(yù),同時(shí)也有積極性懲罰對(duì)方的機(jī)會(huì)主義的行為。無(wú)限次重復(fù)博弈使其走出了囚徒困境,背后的原因是:2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院413、無(wú)限次重復(fù)古諾模型
基本假設(shè)同前古諾模型,其中a=8,c=2。一次性博弈存在惟一的納什均衡(2,2),即兩廠商都生產(chǎn)2單位產(chǎn)量,該產(chǎn)量也稱力“古諾產(chǎn)量”,用qc表示。如果該市場(chǎng)是一家廠商壟斷,那么最佳壟斷產(chǎn)量為qm=3,納什均衡的總產(chǎn)量4大于壟斷產(chǎn)量3,如果兩廠商各生產(chǎn)壟斷產(chǎn)量的一半1.5,則兩廠商商的得益都會(huì)增加,但這在一次性靜態(tài)博弈中不可能實(shí)現(xiàn),在有限次重復(fù)博弈中也不可能實(shí)現(xiàn)。
可以證明在無(wú)限次重復(fù)古諾模型中,當(dāng)貼現(xiàn)率δ滿足一定條件時(shí),兩廠商都采用下列觸發(fā)策略構(gòu)成一個(gè)子博弈完美納什均衡。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院42
在第一階段生產(chǎn)壟斷產(chǎn)量的一半1.5,在第t
階段,如果前t-1階段的結(jié)果都是(1.5,1.5)則繼續(xù)生產(chǎn)1.5
,否則生產(chǎn)古諾產(chǎn)量qc
=2。
這種觸發(fā)策略的實(shí)質(zhì)同樣是采用它的博弈方先試圖合作,選擇符合雙方利益的產(chǎn)量,而一旦發(fā)現(xiàn)對(duì)方不合作,偏離對(duì)雙方有利的產(chǎn)量,則以選擇納什均衡產(chǎn)量來(lái)進(jìn)行報(bào)復(fù)。雙方都采用上述觸發(fā)策略的博弈路徑為每階段生產(chǎn)產(chǎn)量(1.5,1.5)雙方每階段的得益都是π*=4.5
。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院43
設(shè)廠商1已采用該觸發(fā)策略,如果廠商2也采用該觸發(fā)策略,則每期得益4.5,無(wú)限次重復(fù)博弈總得益的貼現(xiàn)值為:
如果廠商2偏離上述觸發(fā)策略,則他在第一階段所選產(chǎn)量應(yīng)該是給定廠商1產(chǎn)量為1.5的情況下,自己的最大利潤(rùn)產(chǎn)量,即滿足:解之得q2
=2.25
。此時(shí)他的利潤(rùn)為2.252=5.0625,高于不偏離觸發(fā)策略時(shí)第一階段的得益4.5。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院44
但是,從第二階段開(kāi)始,廠商1將報(bào)復(fù)性地永遠(yuǎn)采用古諾產(chǎn)量2,這樣廠商2也被迫永遠(yuǎn)采用古諾產(chǎn)量2。從此得利潤(rùn)4,因此,無(wú)限次重復(fù)博弈第一階段偏離的情況下總得益的貼現(xiàn)值是:當(dāng)即當(dāng)δ>0.5625/1.0625=9/17時(shí),上述觸發(fā)策略是廠商2對(duì)廠商1的同樣觸發(fā)策略的最佳反應(yīng),否則偏離是他的最佳反應(yīng)。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院45
當(dāng)δ<9/17上述觸發(fā)策略不是無(wú)限次重復(fù)博弈的納什均衡,更不是子博弈完美納什均衡。但這并不是說(shuō)當(dāng)δ<9/17時(shí),兩廠商就一定只能每階段都采用古諾產(chǎn)量,實(shí)現(xiàn)每階段結(jié)果為原博弈的低效率納什均衡的得益。
雖然δ較小(<9/17)時(shí),因?yàn)檫h(yuǎn)期利益的重要性不足,無(wú)限次重復(fù)博弈也不能促使兩廠商把產(chǎn)量都控制在qm/2=1.5的低水平,但還是有可能使各廠商把產(chǎn)量都控制在比古諾產(chǎn)量qc低的水平,即壟斷產(chǎn)量的一半qm/2和古諾產(chǎn)量qc之間的某個(gè)中間產(chǎn)量水平q*
。2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院464、信用困境無(wú)限重復(fù)博弈分析設(shè)每一博弈方的貼現(xiàn)因子都為δ, 每一博弈方在重復(fù)博弈中得到的收益等于各自在所有階段博弈中得到的收益的現(xiàn)值。每一階段都是相互合作——(誠(chéng)信,誠(chéng)信)?乙甲誠(chéng)信欺騙誠(chéng)信(4,4)(0,5)欺騙(5,0)(1,1)2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院47如果當(dāng)前博弈方選擇合作,那么將來(lái)(下一階段)將得到好報(bào)(選擇高收益的均衡結(jié)果);如果當(dāng)前博弈方選擇欺騙,那么將得到報(bào)應(yīng)(選擇低收益的均衡結(jié)果)。策略:觸發(fā)策略(triggerstrategies)--冷酷策略 開(kāi)始選合作,選擇合作直到有一方選擇了坦白一報(bào)還一報(bào)策略(tit-for-tat)2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院48博弈方甲、乙的這一策略的表述為:在第一階段選擇誠(chéng)信,且在第t階段,如果所有前面t-1階段的結(jié)果都是(誠(chéng)信,誠(chéng)信),則選擇誠(chéng)信,否則就永遠(yuǎn)選擇欺騙。如果博弈方甲、乙都采取這種觸發(fā)策略,則此無(wú)限重復(fù)博弈的結(jié)果就是每一階段選擇(誠(chéng)信,誠(chéng)信)。問(wèn)題:每一階段選擇(誠(chéng)信,誠(chéng)信)是無(wú)限重復(fù)的Nash均衡嗎?這一Nash均衡是子博弈完美均衡嗎?對(duì)于觸發(fā)策略組合分析:2024/8/26中南財(cái)經(jīng)政法大學(xué)信息學(xué)院49第一、策略分析 如果某階段的結(jié)果偏離(誠(chéng)信,誠(chéng)信),博弈方甲將在其后永遠(yuǎn)選擇欺騙;如果某階段的結(jié)果偏離了(誠(chéng)信,誠(chéng)信),博弈方乙的最優(yōu)反應(yīng)同樣是在其后永遠(yuǎn)選擇欺騙。這表明(欺騙,欺騙)是無(wú)限重復(fù)信
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 苗木移植方案
- 超前小導(dǎo)管施工工藝流程圖
- Brand KPIs for neobanking C24 Bank in Germany-英文培訓(xùn)課件2025.4
- 敦煌吐魯番文獻(xiàn)所見(jiàn)回鶻古代歷法
- 培訓(xùn)學(xué)校樓梯管理制度
- 介紹家人活動(dòng)方案
- 物理中考一輪復(fù)習(xí)教案 第十八講《液體壓強(qiáng)、大氣壓強(qiáng)》
- 倉(cāng)儲(chǔ)公司年會(huì)策劃方案
- 倉(cāng)庫(kù)安全宣傳月活動(dòng)方案
- 倉(cāng)鼠活動(dòng)策劃方案
- 23秋國(guó)家開(kāi)放大學(xué)《液壓氣動(dòng)技術(shù)》形考任務(wù)1-3參考答案
- 初中學(xué)業(yè)水平生物實(shí)驗(yàn)操作考試評(píng)分標(biāo)準(zhǔn)觀察小魚(yú)尾鰭內(nèi)血液的流動(dòng)
- 醫(yī)院崗位廉政風(fēng)險(xiǎn)點(diǎn)查找和防控措施表(樣本)
- 客房部前廳獎(jiǎng)罰制度
- 土地勘測(cè)定界技術(shù)方案
- 初中信息技術(shù)科學(xué)版七年級(jí)上冊(cè)第二單元我的信息生活二進(jìn)制及二進(jìn)制與十進(jìn)制的轉(zhuǎn)換PPT
- 風(fēng)險(xiǎn)辨識(shí)及控制措施記錄
- DB37-T 5026-2022《居住建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn)》
- 火災(zāi)自動(dòng)報(bào)警的應(yīng)急處置課件
- 中考?xì)v史中國(guó)古代史知識(shí)復(fù)習(xí)1-精講版課件
- 鐵路線路工務(wù)入路培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論