博弈論基礎(chǔ)知識和幾個(gè)重要的瞬間_第1頁
博弈論基礎(chǔ)知識和幾個(gè)重要的瞬間_第2頁
博弈論基礎(chǔ)知識和幾個(gè)重要的瞬間_第3頁
博弈論基礎(chǔ)知識和幾個(gè)重要的瞬間_第4頁
博弈論基礎(chǔ)知識和幾個(gè)重要的瞬間_第5頁
已閱讀5頁,還剩158頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1博弈論基礎(chǔ)知識和幾個(gè)重要的瞬間2 幾點(diǎn)提示: 1、鼓勵(lì)思考、提倡討論,推崇執(zhí)著與鉆研 2、理論是蒼白的,而生命之樹常青 3、不提供講義的拷貝3秋天的童話:博弈論的十七個(gè)瞬間4第一個(gè)瞬間:與天斗,與地斗,與人斗,其樂無窮 -博弈論概述51.1 博弈論的淵源與地位 -從經(jīng)濟(jì)學(xué)帝國主義到博弈論強(qiáng)權(quán)經(jīng)濟(jì)學(xué)研究什么? 理性人、合作與非合作經(jīng)濟(jì)學(xué)為什么強(qiáng)大? 數(shù)理分析與機(jī)制設(shè)計(jì) Eg1: 美女不該開名車嗎?6博弈論的非技術(shù)定義 賭博+對弈 理性決策+科學(xué)決策 參與人在決策時(shí)既要最大化自身利益也要考慮到:這個(gè)結(jié)果對其他參與人的影響和反饋,進(jìn)而在此基礎(chǔ)上“重新”做出最優(yōu)決策。 Eg1:一場風(fēng)花雪月的故事-面

2、對認(rèn)真的誓言, 你能找到最愛你的人了嗎?7博弈論的起源與發(fā)展 1、在中國:孔子己所不欲,勿施于人 孫子以奇勝、以正合 莊子莊周夢蝶與魚之樂 老子俗人昭昭,我獨(dú)昏昏;俗人 察察,我獨(dú)悶悶 2、在外國:1883,Bertrand Paradox 1944,Von Neumann & Morgenstern 1950,Tucker,囚徒困境 Nash 討價(jià)還價(jià)模型,奠定博弈論 1965,Selten,動(dòng)態(tài)博弈 1967-8,Harsanyi,引入不完全信息8 1982,Kreps & Wilson,不完全信息動(dòng)態(tài) 1994,Nash, Selten and Harsanyi 獲獎(jiǎng) 3、實(shí)用價(jià)值: 理

3、性人實(shí)現(xiàn)最大化時(shí)即需要合作也存在沖 突,如何解決,需要一個(gè)制度或規(guī)則(約束條 件或戰(zhàn)略)。如:價(jià)格機(jī)制、排隊(duì)機(jī)制 但價(jià)格機(jī)制常不能實(shí)現(xiàn)“帕累拖最優(yōu)”,通 過其他制度或博弈可以解決存在外部經(jīng)濟(jì)時(shí)的 合作問題。 Eg1:是報(bào)復(fù)還是雙贏? 國際貿(mào)易的以鄰為壑與回彈效應(yīng)91.2 博弈論的分類按形式分 cooperative game:參與人之間能達(dá)成具有約束力 的協(xié)議(binding agreement),并決定如何 分享合作帶來的剩余。 特性:強(qiáng)調(diào)集體理性,做集體最優(yōu)化決策。Eg:歐配克組織;串供;團(tuán)隊(duì)進(jìn)步與個(gè)人工作量安排Non-cooperative game:參與人之間不能達(dá)成 binding

4、agreement。 特性:強(qiáng)調(diào)個(gè)體理性,各自做最優(yōu)化決策, 常和集體理性相矛盾。10 Eg2:一個(gè)模擬:中、美、俄的核戰(zhàn)爭真的打響了會(huì) 怎么樣? 2108年,中、美、俄三國爭霸世界,爆發(fā)全面戰(zhàn)爭,即將升級為核戰(zhàn)爭。當(dāng)時(shí)局勢是,美國核力量最強(qiáng)、俄國次之,中國最弱。由于核戰(zhàn)爭沒有第2輪,只有第一輪,中央軍委緊急研究,一旦核戰(zhàn)爭打響,三國將進(jìn)行亂戰(zhàn),結(jié)果如何決定了我方是否選擇開啟“核按鈕”? 如果你是總參的軍事數(shù)學(xué)家,你認(rèn)為如果開戰(zhàn),哪國幸存下來的機(jī)會(huì)最大?哪國的危險(xiǎn)最大?Eg1:交通燈故障與擁擠11按信息與時(shí)序分 完全信息靜態(tài)博弈-Nash equilibrum 完全信息動(dòng)態(tài)博弈Subgame

5、perfect Nash equi 不完全信息靜態(tài)博弈-Bayesian Nash equi 不完全信息動(dòng)態(tài)博弈-Perfect Bayesian Nash equi 按時(shí)間還可以分為序貫博弈和靜態(tài)博弈;重復(fù)博弈和一次性博弈12完全信息靜態(tài)博弈 納什均衡: 所有參與人選擇這樣一組戰(zhàn)略組合,在這個(gè)組合 下,給定別人的戰(zhàn)略,任何參與人沒有動(dòng)機(jī)選擇 其他的戰(zhàn)略。 或說,所有當(dāng)事人形成了一個(gè)顯性或隱性的契約, 該契約是“self-enforcing”的,即:給定別人遵 循該契約,則其他人沒有動(dòng)機(jī)違背該契約,我們 說,此時(shí)的契約構(gòu)成納什均衡。 Eg1:不得不舉的例子囚徒困境13囚徒B坦白抵賴囚徒A坦白(

6、-8,-8)(0,-10)抵賴(-10,0)(-1,-1)納什均衡是帕累拖最優(yōu)點(diǎn)嗎? 一個(gè)問題:需要防范串供嗎? 如果兩個(gè)囚徒在被抓之前串供了,這對警察來說重要嗎?在什么情況下警察需要防范串供?14 囚徒的話:1、集體理性和個(gè)人理性常常是沖突的:民主常常 不能代表“民意”;公司好不見得你就好;如果 我們都強(qiáng)大了,國家不見得就強(qiáng)大了2、承認(rèn)人是自私的,一切都好辦了。 答案簡評:可置信的承諾或信用會(huì)改變支付矩陣,如,囚徒A是江湖老大,他對B說“如果你坦白了,我在外面的兄弟會(huì)殺了你全家”,同時(shí),這個(gè)承諾/威脅如果是可置信的,或是,B相信A是講義氣的,他一定不會(huì)坦白,則均衡位置在帕累拖最優(yōu)的位置上。1

7、5Eg2:納什均衡是唯一的嗎?美國打了越南,打了阿富汗,打了伊拉克,也已經(jīng)打過朝鮮,它還會(huì)再打朝鮮嗎?如果美國智庫計(jì)算出如下簡化的支付矩陣,那么結(jié)果會(huì)怎樣呢?美國會(huì)打朝鮮嗎朝鮮抵抗妥協(xié)美國打(-10,-100)(300,50)不打(0,300)(0,200)同時(shí)有兩個(gè)納什均衡16第二個(gè)瞬間:不是我不明白 這世界變化快 -簡單世界到真實(shí)世界的博弈發(fā)展17一、博弈的基本術(shù)語參與人player:博弈中的決策主體,其目的是最大 化自己的支付。環(huán)境參數(shù):博弈中不做決策的主體,如囚徒困境中 的警察。虛擬參與人pseudo-player:對外生狀態(tài)的概率分布進(jìn)行 決定的主體,博弈論中通常叫“自然”(natu

8、re)行動(dòng)action:參與人的決策變量或決策手段。18信息information:參與人掌握的有關(guān)其他參與人 的特征與行動(dòng)結(jié)果、“自然”的選擇結(jié)果、博 弈過程與結(jié)果的相關(guān)知識信息集information set:所有信息的集合。共同知識common knowledge:參與人之間無限循環(huán)知道 的信息。一致信念concordant belief:在參與人間有限循環(huán)知道 的信息。如,我知道你是女的,你也知道我是 男的,但我并不知道你知道我是男的。19戰(zhàn)略strategy:規(guī)定參與人在給定的信息集下采取 的行動(dòng)規(guī)則(可能是一個(gè)行動(dòng)組合)。 靜態(tài)博弈中戰(zhàn)略=行動(dòng); 動(dòng)態(tài)博弈中戰(zhàn)略=一定條件下的行動(dòng)或

9、行動(dòng)組 合。如:如果美國進(jìn)攻朝鮮,則朝鮮進(jìn)行 抵抗。支付payoff:即效用或期望效用。參與人的支付不僅取 決于自身的戰(zhàn)略,而且取決于其他參與人的戰(zhàn)略, 即20結(jié)果outcome:參與人感興趣的所有東西,但一般指 在一定博弈階段或博弈局部的支付結(jié)果。均衡equilibrium:即所有參與人的最優(yōu)戰(zhàn)略組合! NOTE:是所有參與人! 何謂“最優(yōu)戰(zhàn)略”?21 假設(shè)只有3個(gè)參與人,則 為最優(yōu)戰(zhàn)略,當(dāng)且僅當(dāng):22二、簡介:完全信息動(dòng)態(tài)博弈 子博弈精練納什均衡: 參與人的行動(dòng)有前有后,后行動(dòng)者可以看見先行 動(dòng)者的所有信息和結(jié)果,并且雙方是完全信息的, 在所有子博弈中都是最優(yōu)的納什均衡。 精練是意思是:在

10、納什均衡中將不可置信的均衡 剔除掉。 子博弈:整個(gè)博弈中的一個(gè)階段性博弈或決策,如愛情與婚姻是個(gè)博弈,則戀愛結(jié)婚生孩子離婚都是子博弈,甚至婚外情也是子博弈。 精練納什均衡:當(dāng)且僅當(dāng)參與人的戰(zhàn)略在每一個(gè)子博弈中都構(gòu)成納什均衡時(shí),該均衡才使精練納什均衡。靜態(tài)時(shí)的其他納什均衡被剔除掉。 23美國到底會(huì)打朝鮮嗎?動(dòng)態(tài)的情況預(yù)測結(jié)果和伊拉克戰(zhàn)爭很相似!打美國不打抵抗妥協(xié)朝鮮(-10,-100)(300,50)朝鮮抵抗妥協(xié)(0,300)(0,200)24三、簡介:不完全信息靜態(tài)博弈 一個(gè)參與人可能并不了解其他參與人的偏好、戰(zhàn)略空間和支付函數(shù)。此時(shí)參與人不知道對手的情況,他怎么敢于作出決策呢? 1967年以

11、前,這個(gè)問題無法解決。 補(bǔ)充知識:完全信息與完美信息 1967年,Harsanyi提出“Harsanyi轉(zhuǎn)換”: 引入虛擬的參與人“自然”,自然最先行動(dòng),選擇參與人的“類型”,被選擇的參與人知道自己的類型,其他參與人只知道其概率分布,且該概率分布是“共同知識”。25 完全(但不完美)信息:自然做出了選擇,其他參與人不知道它具體的選擇是什么,但知道其概率分布。 完美信息:自然做出了選擇,其他參與人都看到了它的具體選擇是什么。 一個(gè)例子:招聘博弈 “Harsanyi”轉(zhuǎn)換將不完全信息轉(zhuǎn)化為完全但不完美信息!26自然1-xx優(yōu)秀求職者平庸求職者招聘單位遞簡歷不遞簡歷10,100,0招聘-5,00,0

12、不招聘遞簡歷不遞簡歷招聘-10,100,0不招聘0, -50,0靜態(tài)博弈,同時(shí)行動(dòng),則當(dāng)遇上一個(gè)遞簡歷者,招聘單位招聘的期望收益是:10 x+(-10)(1-x)=20 x-10當(dāng)遇上一個(gè)遞簡歷者,招聘單位不招聘的期望收益是:0 x+0(1-x)=0所以,只有當(dāng)20 x-100即x1/2時(shí),招聘才是有利的,此時(shí),(x1/2 招聘)叫貝葉斯納什均衡.27四、簡介:不完全信息動(dòng)態(tài)博弈 靠什么來修正先驗(yàn)概率? 在動(dòng)態(tài)博弈中,后行動(dòng)者可以看見先行動(dòng)者的信息,以修正自己之前對之類型的判斷(概率分布).先行動(dòng)者知道這個(gè)結(jié)果,在行動(dòng)時(shí)就會(huì)故意扭曲或隱瞞其信息,即以后行動(dòng)者知道自己的行為為條件來選擇自己的最優(yōu)

13、行動(dòng)策略. 靠貝葉斯條件概率:28 中國需要說“不”嗎?如果中國先行動(dòng),美國后決定對華政策,則美國將根據(jù)中國的對日政策來修正自己的政策.中國也知道這個(gè)情況,則中國會(huì)選擇,如果中國是強(qiáng)大的,中國可能會(huì)用更強(qiáng)硬的對日政策.精練貝葉斯均衡是: (中國國力差時(shí)選擇柔軟的對日政策,美國不對中國強(qiáng)硬; 中國國力強(qiáng)大時(shí)選擇強(qiáng)硬對日政策,美國對中國懷柔) 信號傳遞模型:就業(yè)市場、要專業(yè)還是要學(xué)校?看學(xué)歷,更看名牌的學(xué)歷!29第三個(gè)瞬間:平衡在理性的鋼絲上 -關(guān)于純戰(zhàn)略納什均衡(之一)30一、奠基者與啟示錄1、 一個(gè)問題:用食指當(dāng)牙刷怎么刷牙 ? 答:天才和傻子只一步之遙。NASH就是這樣的天才。 游蕩普林30

14、年的幽靈! 2005年6月12日北京1 臺(tái)曾濤采訪NASH 在北京演講理想貨幣與漸進(jìn)理想貨幣,試圖創(chuàng)造一種沒有通貨膨脹的貨幣22歲的文章為獲獎(jiǎng)成果 在中國,與陳省身交情最好。 對北京的高樓最驚訝312、第2個(gè)問題:Nash創(chuàng)造了什么?國外的每本經(jīng)濟(jì)學(xué)教材中都需要講授博弈論。博弈論帶動(dòng)了最尖端的數(shù)學(xué)知識和數(shù)理工具在經(jīng)濟(jì)學(xué)中的運(yùn)用,幫助一大批經(jīng)濟(jì)學(xué)家在主流的舞臺(tái)上揚(yáng)名立萬、光耀史冊!博弈論成為了整個(gè)微觀經(jīng)濟(jì)學(xué)的最基礎(chǔ)分析方法,幾乎 “吞沒了整個(gè)經(jīng)濟(jì)學(xué)”。32一聲嘆息: 不懂得博弈論的經(jīng)濟(jì)學(xué)和管理學(xué)學(xué)生和學(xué)者,就象是一位在晚禮會(huì)上身穿著燕尾服卻下身只穿了一條沙灘短褲的舞者,舞技再高,仍感到無盡的悲涼

15、和恐慌!33二、技術(shù)定義戰(zhàn)略表達(dá)式: 若支付函數(shù)是離散的,則也可以用矩陣來表達(dá)1 eg:兩寡頭產(chǎn)量博弈的戰(zhàn)略表達(dá)式34三、純戰(zhàn)略NASH EQUI的解法1、Dominant strategy equi(占優(yōu)戰(zhàn)略遴選法) 每個(gè)參與人如果都有占優(yōu)戰(zhàn)略,則其如下組合就是“占優(yōu)NASH均衡” 35eg:占優(yōu)均衡的例子愛在心里口難開女說不說男說10,10-5,20不說20,-50,0占優(yōu)納什均衡帕累拖均衡特點(diǎn):1、均衡是唯一的!2、參與人不需要對方的“理性”是共同知識,只需要自己是理性的就可以了!362、重復(fù)剔除劣戰(zhàn)略法方法:通過重復(fù)提出劣戰(zhàn)略(如果有的話),則剩 下的唯一組合就是“占優(yōu)均衡”。此時(shí)我們

16、說 這樣的博弈是 dominance soluable(重剔可解的) 注意:如果每次剔除的是嚴(yán)格劣戰(zhàn)略,則均衡結(jié) 果與剔除次序無關(guān);如果剔除過程中有弱 劣戰(zhàn)略,則均衡結(jié)果可能與剔除次序有關(guān), 并可能剔除掉“弱納什均衡”!37國際爭端博弈 中國升值不動(dòng)貶值美國不制裁1,01,20,1制裁0,30,12,0國際爭端博弈 中國升值不動(dòng)美國不制裁1,01,2制裁0,30,1國際爭端博弈 中國升值不動(dòng)美國不制裁1,01,2課堂參與練習(xí):重剔可解的均衡38經(jīng)典例 3、納什均衡法:定義 392、前提:參與人不選價(jià)格而選產(chǎn)量,因?yàn)樗_信,如果 自己降價(jià),則對方會(huì)加倍降價(jià),于是寡頭面臨 的價(jià)格相同即 該市場是“

17、同質(zhì)產(chǎn)品的完全競爭產(chǎn)品市場”。 第一個(gè)例子:Cournot 雙頭壟斷模型1、說明:模型中寡頭是選產(chǎn)量,而不是選價(jià)格- 選價(jià)格的模型是“Bertrand Model”;動(dòng)態(tài)選 產(chǎn)量是“Stackberg Model”;多階段重復(fù)的 Cournot博弈是“Friedman Model”. 40分析: 題設(shè)企業(yè)不存在固定成本,只有變動(dòng)成本,單位成為均為c。面對同一市場,市場的反需求函數(shù)為 3、內(nèi)容 參與人:寡頭1和寡頭2 戰(zhàn)略:選各自的產(chǎn)量 支付:各自的利潤 由于市場結(jié)構(gòu)的原因,各寡頭的價(jià)格不能出現(xiàn)差別, 必須都定在等于P的位置。于是,可得到寡頭1的 支付函數(shù)如下: 41 同理可得: 由于支付函數(shù)對

18、控制變量是線性的,則必然是凹的,則FOC條件是必要條件,于是,同時(shí)選產(chǎn)量的納什均衡就是FOC條件的解: 42 2、寡頭的總產(chǎn)量高,但總利潤卻小于 壟斷利潤,即 經(jīng)濟(jì)意義:1、寡頭的產(chǎn)量要小于壟斷產(chǎn)量 但寡頭的總產(chǎn)量要高于壟斷時(shí)的總產(chǎn)量, 即 請問:壟斷產(chǎn)量如何得到的?請問:利潤如何得到的? 3、結(jié)論:寡頭格局帶來了一定的競爭 性福利高產(chǎn)量、低利潤431、前提:同質(zhì)產(chǎn)品的完全競爭產(chǎn)品市場 第2個(gè)例子:Bertrand 雙頭壟斷模型 2、特點(diǎn):寡頭1和2面對離散的需求函數(shù)3、寡頭1和2的面對的需求函數(shù)為寡頭1的總體需求函數(shù)市場的需求函數(shù)(在寡頭1的價(jià)格較低時(shí))請注意寡頭市場的特性,其市場需求曲線是

19、主觀需求曲線,即每個(gè)寡頭都能影響“市場需求曲線”444、經(jīng)濟(jì)意義: 悖論-市場上只有兩家企業(yè),結(jié)果也和有無數(shù)家企業(yè)一樣-形成和完全競爭一樣的結(jié)果?,F(xiàn)階段的文獻(xiàn):是用narrative approach 假設(shè)寡頭的單位成本相同,都為c,那么NASH EQUI是什么呢? NASH EQUI: 原因:產(chǎn)品同質(zhì)、成本相同、需求間斷45第四個(gè)瞬間:平衡在理性的鋼絲上 -關(guān)于純戰(zhàn)略納什均衡(之二)46第3個(gè)例子:如何破解Bertrand ?Way 1:引入產(chǎn)品差異需求函數(shù)同時(shí)被連續(xù)化(如: 用一個(gè)系數(shù)表示產(chǎn)品的替代性或互補(bǔ)性)Way 2:Hotelling模型:線性城市模型。產(chǎn)品差異 的特殊形式空間差異導(dǎo)

20、致出真實(shí)成本差異47題設(shè):產(chǎn)品同質(zhì),寡頭1和2對稱,即它們都有一個(gè)產(chǎn)量限制 :在產(chǎn)量限制內(nèi),有相同的邊際成本c,在產(chǎn)量限制外,邊際成本無限大。Way3:Edgeworth模型適合于飯店的模型 引入“產(chǎn)能限制”Eg:北門外只有5家餐館,客人再多,超過了接待規(guī) 模,各個(gè)餐館沒有必要一味降價(jià)來爭奪市場。注意:當(dāng) 時(shí),退化為Bertrand悖論;只有 時(shí),即寡頭即便按成本定價(jià)、開足 生產(chǎn)能力也無法滿足市場總需求時(shí),才能逃離 Bertrand悖論 48開始求解:為了計(jì)算簡便,取c= 0。 設(shè)市場需求函數(shù)為如果寡頭都按最高產(chǎn)量生產(chǎn),則市場出清價(jià)格為: 如果寡頭1的價(jià)格低,則它可以獲得其生產(chǎn)能力的需求量,寡

21、頭2獲得剩余的部分。如果 ,那么他們的利潤為 49如果 則寡頭1的利潤為所以理性的寡頭1不會(huì)低于 定價(jià)。同理寡頭2也一樣。如果 則寡頭1的利潤為 利潤最大化50所以,寡頭1有定價(jià)超過寡頭2的動(dòng)機(jī),但由于信息完全,所以寡頭2也這樣做,直到二者的價(jià)格定得高到無法攀比(此時(shí)價(jià)格為1,需求為0)也就是說,只要偏離 就會(huì)引發(fā)價(jià)格戰(zhàn)(奇怪的漲價(jià)價(jià)格戰(zhàn))導(dǎo)致利潤為0,因此,寡頭不能偏離定性上看, 是NASH EQUI代數(shù)運(yùn)算得到51證明修正:如果某一寡頭定價(jià)高于 ,另一廠商必然以比其低的價(jià)格定價(jià)。證明:若 ,則如果寡頭2和寡頭1定價(jià)相同,那么寡 頭2得到的需求量為 于是,只要寡頭2稍微降一點(diǎn)價(jià)格,就能得到其

22、最高產(chǎn)量 的需求量,只要降價(jià)幅度足夠小,那么它的利潤一定是比將價(jià)格定在 上時(shí)增加了。 此時(shí)寡頭1的需求為52同理,寡頭1有將價(jià)格下降得比寡頭2低一點(diǎn)點(diǎn)以得到需求量 的動(dòng)機(jī),由于寡頭2的定價(jià)比寡頭1的定價(jià)低的幅度很小,所以這種“競爭降價(jià)”可以保證寡頭1利潤增進(jìn)。綜合以上,寡頭的價(jià)格將穩(wěn)定在 上。53第4個(gè)例子:公地的悲?。╰ragedy of the commons) (Hardin,1968)起源與結(jié)論:從休莫(1739)開始,經(jīng)濟(jì)學(xué)家和哲學(xué)家已 經(jīng)認(rèn)識到-如果公民只關(guān)心個(gè)人福利,公 共物品就會(huì)出現(xiàn)短缺,公共資源會(huì)被過度使 用。Eg1:地球的環(huán)境 eg2:高速公路Eg3:學(xué)校的課桌 eg4:娛

23、樂明星“英國經(jīng)驗(yàn)論的邏輯終局”羅素代表作人性論洛克的終結(jié)者;因果論;必然知識與或然知識;54原題: 一個(gè)村莊有n個(gè)村民,每年夏天,所有村民在村委會(huì)的公共牧地上放牧。 村民i放養(yǎng)的羊的頭數(shù)為 ,放養(yǎng)的總羊數(shù)為 照看和購買一只羊的成本均為c,c不隨羊的數(shù)目的多少而改變。 當(dāng)牧地上的羊的總數(shù)為G時(shí),一個(gè)村民從自家的一頭羊身上得到的收益為 牧地的放牧上限為 ,當(dāng) 時(shí), 。當(dāng) 時(shí), 。55 注意:隨著公地上的羊的數(shù)目上升,每個(gè)村民從羊身上得到的收益將減少。并且,隨著放養(yǎng)數(shù)目接近上限值,每增加一頭羊,都會(huì)對其他放養(yǎng)者的收益帶來極大損害。用數(shù)學(xué)表示為 村民 的戰(zhàn)略是選擇他放養(yǎng)的羊的頭數(shù) ,最大化其總利潤 :

24、 假設(shè)羊的頭數(shù)可分割,則村民 的戰(zhàn)略空間為 村民 的總利潤為 56 所有的村民同時(shí)選擇放養(yǎng)頭數(shù)進(jìn)行最優(yōu)化選擇,就是?將各自的利潤函數(shù)求一階條件!于是得到:將上式相加并除以n得到(1)(1)57 但是,作為村民全體的村委會(huì)而言,最優(yōu)的放牧量應(yīng)該滿足 以上最優(yōu)化的問題就是其一階條件(對G求導(dǎo)數(shù)),即 對比(1)和(2)式:(2)發(fā)現(xiàn):G*G* (3)說明:和社會(huì)總體的最優(yōu)放牧量相比,個(gè)體只為自身福 利追求而得到的納什均衡放牧量太大了。 村民只考慮自身福利,結(jié)果造成對公共資源的過度使用! 58對(3)式的證明:反證法假設(shè) ,則: 因?yàn)?是個(gè)減函數(shù) 于是 。 類似地,由于 ,于是 同時(shí)有結(jié)合(4)(5

25、)(6)式并對照(1)(2)式:發(fā)現(xiàn): (1)式的左邊嚴(yán)格大于(2)式的左邊,但這是不 可能的,因?yàn)樗麄兌嫉扔?。所以,原假設(shè)不成立。(4)(5)(6)(1)(2)59第五個(gè)瞬間:平衡在顫抖理性的鋼絲上 -混合戰(zhàn)略納什均衡60前導(dǎo)性例題:課堂共同練習(xí)求解與改造 新版導(dǎo)游證政策動(dòng)態(tài)一致性的博弈分析 問題起源:為貫徹導(dǎo)游人員管理?xiàng)l例和2001年頒布 的導(dǎo)游人員管理實(shí)施辦法(國家旅游局 第15號令)精神,國家旅游局決定啟用新版 導(dǎo)游證。 61問題提出:制度本身是一種契約。新導(dǎo)游證制度是可 “自動(dòng)實(shí)施” (self-enforcing)的穩(wěn)契約嗎? 是納什均衡嗎? 如果不是,那它一定會(huì)被歪曲和在執(zhí)行中

26、 走樣。62導(dǎo)游證有必要存在嗎? 作為一種外在制度,導(dǎo)游管理有其存在的必要性。旅游業(yè)是個(gè)跨行業(yè)的超復(fù)雜系統(tǒng),在一個(gè)很復(fù)雜的系統(tǒng)或社會(huì)里,內(nèi)在的制度不能排除所有的機(jī)會(huì)主義行為(opportunistic behavior) ,因?yàn)槿藗兓蚱髽I(yè)常常要和“轉(zhuǎn)眼就各奔東西”的對象做交易,許多非正式懲罰如“一報(bào)還一報(bào)”是無效的。在這種情況下,更容易出現(xiàn)“囚徒的困境”,因此,為逃出困境(追求合作行為),正式的外在制度是必要的。導(dǎo)游管理正是這樣的一種制度。 63我們的目的是什么?分析換發(fā)新版導(dǎo)游證后對無證(包括假證)導(dǎo)游的檢查是否具有自我實(shí)施性,即這項(xiàng)制度在執(zhí)行當(dāng)中會(huì)不會(huì)走樣。64擴(kuò)展性說明: 省去對有證導(dǎo)游

27、進(jìn)行計(jì)分檢查和管理的分析,因?yàn)閺拈L期看(只要這項(xiàng)制度能堅(jiān)持下去且導(dǎo)游也愿意干得足夠久),計(jì)分檢查是一個(gè)無限重復(fù)博弈,能達(dá)成一個(gè)令各方滿意的帕累托最優(yōu)的合作解;從短期看,計(jì)分檢查是一個(gè)有限重復(fù)博弈,而且其博弈結(jié)構(gòu)和檢查無證導(dǎo)游博弈的結(jié)構(gòu)是類似的(有唯一的強(qiáng)納什均衡),因此,根據(jù)有限重復(fù)博弈的不變性定理(Selton,1978),計(jì)分檢查博弈從短期看和檢查無證導(dǎo)游博弈具有完全類似的均衡結(jié)果?;谏鲜?,我們對無證導(dǎo)游檢查的分析也完全適用于對有證導(dǎo)游的計(jì)分檢查。 65前期論證: 為增強(qiáng)效果、提高效率,檢查機(jī)構(gòu)采取“不期而至”的暗查,檢查機(jī)構(gòu)和導(dǎo)游對對方的成本和收益有一個(gè)至少是大致的了解,既支付矩陣是雙

28、方的“共同知識”( common knowledge),因此這個(gè)博弈可看作是個(gè)完全信息靜態(tài)博弈。 變量說明:C:檢查機(jī)構(gòu)的檢查成本;R:導(dǎo)游無證上崗相對于有證上崗的超額收益量(大體 相當(dāng)于考導(dǎo)游證的成本);L:無證導(dǎo)游被查到后的變相損失量(如名譽(yù)損失、以 后不能帶團(tuán)的損失等);66博弈過程:練習(xí)1:請用嚴(yán)格剔除劣戰(zhàn)略方法求取納什均衡,并說 明過程。 導(dǎo)游證博弈 導(dǎo) 游持證上崗無證上崗旅游局檢查-C,0-C,-L不檢查0,00,R練習(xí)2:你如何解釋自己的結(jié)論?這項(xiàng)制度在執(zhí)行一段時(shí)間后,出于對自身得失的權(quán)衡,檢查人員會(huì)由于費(fèi)心費(fèi)力而疏于檢查同時(shí)無證的導(dǎo)游追求額外的利益也會(huì)心無顧忌地照上崗不誤。而且

29、,這樣的狀態(tài)一旦形成,誰也沒有積極性去打破它。67練習(xí)3:如何改造這個(gè)制度?改造方法:1、改造信息條件 2、改造決策順序 3、改造博弈的期數(shù) 4、改造博弈不同期的結(jié)構(gòu) 5、改造支付結(jié)果(本案例的方法)68分析:旅游局的支付函數(shù)(目標(biāo)函數(shù))中沒有體現(xiàn)檢查 機(jī)構(gòu)在查到無證導(dǎo)游后的收益,因此我們可以把 這種收益引入到檢查機(jī)構(gòu)的目標(biāo)函數(shù)中(當(dāng)然, 這也相應(yīng)改變導(dǎo)游的目標(biāo)函數(shù))。 69難點(diǎn)說明: 旅游局的收益應(yīng)該是實(shí)質(zhì)性收益,比如,對查獲的無證導(dǎo)游或相關(guān)旅行社按事前規(guī)定進(jìn)行罰款(設(shè)罰款量為F)所得款項(xiàng)歸檢查機(jī)構(gòu)合法支配。并且這個(gè)罰款量當(dāng)然要能包住檢查的成本即F-C0。盡管旅游局查到無證導(dǎo)游時(shí)具有社會(huì)收益

30、,但這種收益具有公共品屬性,旅游局從中所得到的實(shí)質(zhì)性收益有限并且旅游局很難從這個(gè)收益中量化出自己的實(shí)際收益,因此具有理性的導(dǎo)游將不會(huì)認(rèn)為這種收益會(huì)改變檢查機(jī)構(gòu)的支付,從而也不會(huì)改變自己的支付結(jié)果。如果F-C0,它和原支付矩陣中-C的實(shí)質(zhì)效果一樣,只是程度的不同,但并不改變原博弈的實(shí)際支付內(nèi)容及其均衡結(jié)果。 70新的導(dǎo)游證博弈矩陣:練習(xí)4:這個(gè)博弈的均衡在哪里? 導(dǎo)游證博弈 導(dǎo) 游持證上崗無證上崗旅游局檢查-C,0F-C,-L-F不檢查0,00,R71混合戰(zhàn)略(mixed strategies)NASH EQUI定義 :假定參與人i有K個(gè)純戰(zhàn)略 他分別以概率 來選擇上述純戰(zhàn)略,則稱 為i的一個(gè)混

31、合戰(zhàn)略?;旌蠎?zhàn)略納什均衡:若 則 稱為一個(gè)混合戰(zhàn)略納什均衡72完全信息情況下,戰(zhàn)略選擇的不確定性會(huì)帶來均衡位置的移動(dòng)或消失。Eg:現(xiàn)實(shí)小問題在 上做個(gè)誠實(shí)的人嗎? 如果大家都知道我在 上從不說謊,那么當(dāng)我說一個(gè)真實(shí)的感人故事或致富信息時(shí)大家就會(huì)“為我所用”,但這又使得我有偶爾騙人獲取“額外”收益的動(dòng)機(jī);另一方面,說謊太多,終究會(huì)被網(wǎng)友識破,結(jié)局“很慘”。于是,網(wǎng)友需要猜測到我確實(shí)的戰(zhàn)略選擇才最有利,同理,我也需要事先猜測到每個(gè)網(wǎng)友的戰(zhàn)略選擇,以決定我的最優(yōu)反應(yīng)-說多少次慌最有利。結(jié)論:一旦每個(gè)參與人都竭力猜測其他參與人的戰(zhàn)略選 擇,就不會(huì)存在(純戰(zhàn)略)納什均衡。零和博弈有0、2個(gè)純戰(zhàn)略均衡修正

32、73經(jīng)典例:福利模型 政府和流浪漢之間的博弈支付如下:這是一個(gè)zero-sum博弈,存在純戰(zhàn)略均衡嗎? 求解混合戰(zhàn)略納什均衡的路徑: 1、支付結(jié)果演變?yōu)椤捌谕в谩保?2、求解的核心:混合戰(zhàn)略形成參與人均衡時(shí)必然是 使各參與人在該概率下,選擇各戰(zhàn)略的期望效用 之間不存在差別,這時(shí),這樣的概率才是“均衡” 的,否則,參與人就會(huì)確定地選擇某個(gè)戰(zhàn)略,均 衡退化為“純戰(zhàn)略均衡”。 3、具體方法:最大支付法;支付等值法74設(shè):政府以概率 選擇救濟(jì),流浪漢以概率 選擇找工作 (G:政府; L:流浪漢) 福利模型 流浪漢找工作游蕩政府救濟(jì)3,2-1,3不救濟(jì)-1,10,075 政府選擇自己的概率選擇 以最大

33、化自己的期望效用: 即:只有在流浪漢選擇以0.2的概率找工作時(shí),政府才會(huì)選擇混合戰(zhàn)略( )而不是確定性地選擇純戰(zhàn)略。 同理,請求解流浪漢的最優(yōu)期望效用: 方法一:最大支付法 政府的期望效用 76所以,混合戰(zhàn)略納什均衡為 77 方法2:支付等值法 政府選“救濟(jì)”時(shí)的期望效用為 政府選“不救濟(jì)”時(shí)的期望效用為 流浪漢的概率選擇如果構(gòu)成混合均衡,它必然使政 府在兩個(gè)純戰(zhàn)略選擇間無效用差別,即 同理,求得 所以,混合均衡為78 混合戰(zhàn)略的現(xiàn)實(shí)解釋: 問題:既然混合均衡使參與人在各種純戰(zhàn)略選擇間 無差異,那么為什么他不選擇一個(gè)特定的純 戰(zhàn)略而是“隨機(jī)”地選擇各個(gè)純戰(zhàn)略呢? 類似:拳擊、劃拳、選擇情侶 回

34、答:因?yàn)?,參與人想通過混合戰(zhàn)略給對方造成不 確定性因?yàn)榛旌暇庀?,“我”在各個(gè)純戰(zhàn) 略選擇上無差別,所以對手無法確定性地把 握我到底會(huì)選擇哪個(gè)純戰(zhàn)略。 這樣,就能形成一個(gè)對大家都無損害的 “均衡”,或在沒有純戰(zhàn)略最優(yōu)均衡時(shí),保證一 個(gè)均衡出現(xiàn)-因?yàn)椴淮_定性本身能帶來各參 與人收益的變化,從而形成均衡。 79 測試性練習(xí): 求解“導(dǎo)游證博弈”的混合均衡,并說明其政策意義。 解釋均衡概率的影響因素80 這個(gè)博弈不存在納什均衡。但是,根據(jù)奇數(shù)定理(oddness theorem,Wilson,1971)我們能找到這個(gè)博弈的一個(gè)混合戰(zhàn)略納什均衡。亦即: 假設(shè)檢查機(jī)構(gòu)以的概率或頻率進(jìn)行檢查,以(1-)的

35、概率或頻率不去檢查;導(dǎo)游以的概率無證上崗,以(1-)的概率考得真證后持真證上崗。則: “導(dǎo)游證博弈”的解答 81檢查機(jī)構(gòu)的期望效用函數(shù) Uc(, )= -C(1-)+(F-C) +(1-)(0+0)檢查機(jī)構(gòu)最優(yōu)化的條件是: Uc/=0 即:-C(1-)+(F-C) =0 =C/F同理導(dǎo)游的期望效用函數(shù) Ug(, )=(1-)(0+0)+ (-L-F)+(1-)R導(dǎo)游最優(yōu)化的條件是: Ug/=0 即:(-L-F)+(1-)R=0 = R/(L+F+R)82 混合戰(zhàn)略納什均衡是: (,) 即雙方趨于穩(wěn)定(可以自我實(shí)施)的最優(yōu)選擇是 檢查機(jī)構(gòu)以的概率進(jìn)行檢查, 導(dǎo)游以的概率無證上崗。 83關(guān)于靜態(tài)博

36、弈的重要定理定理1:混合戰(zhàn)略靜態(tài)均衡相當(dāng)于不完全 信息下的純戰(zhàn)略均衡定理2:Wilson(1971) ,Nash,1951 Oddness Therem 每一個(gè)有限博弈至少存在一個(gè)納 什均衡(純的或混合的),且?guī)?乎所有有限博弈都有有限奇數(shù)個(gè)納 什均衡。84例子:二外還會(huì)存在嗎?-一個(gè)理論假設(shè) 并校博弈 二外合為北廣合為二外北廣合為北廣10,50,0合為二外0,01,15請問:這個(gè)博弈有幾個(gè)均衡?更實(shí)際的結(jié) 論是什么?85定理3:混合戰(zhàn)略納什均衡的存在性定理 Glicksberg,1952 如果每個(gè)參與人的戰(zhàn)略空間是一個(gè) 非空的、閉的、有界的凸集,支付 函數(shù)u(s)是連續(xù)的,那么至 少存在一

37、個(gè)純戰(zhàn)略納什均衡。定理3:純戰(zhàn)略納什均衡的存在性定理 Debreu,1952 如果每個(gè)參與人的戰(zhàn)略空間是一個(gè) 非空的、閉的、有界的凸集,支付 函數(shù)u(s)是連續(xù)的、擬凹的,那么至 少存在一個(gè)純戰(zhàn)略納什均衡。關(guān)于靜態(tài)博弈的重要定理偏好平均的戰(zhàn)略邊際效用遞減86關(guān)于靜態(tài)博弈的重要定理關(guān)于多重均衡問題:聚點(diǎn)均衡(Focus Equi):由于習(xí)俗、經(jīng)驗(yàn)等 使參與人會(huì)共同預(yù)測到某個(gè)均衡,于是 多重均衡積聚為一個(gè)唯一的均衡。廉價(jià)磋商(Cheap Talk):前期進(jìn)行一個(gè)不花成本的磋商,共同約定收斂于一個(gè)特定的均衡,比是一種特殊的聚點(diǎn)均衡。經(jīng)驗(yàn)效應(yīng)(Experience Effect):參與人通過不 斷試錯(cuò)

38、,形成某種特定的協(xié)作方式,促 使某個(gè)均衡會(huì)多次出現(xiàn),以至成為一個(gè) 恒久均衡。87第六個(gè)瞬間: 運(yùn)籌帷幄、決勝千里 -完全且完美信息動(dòng)態(tài)博弈88一、操練前的熱身艱難術(shù)語的簡明含義 完全且完美信息在博弈進(jìn)行的每一步中,要選擇行動(dòng)的參與者都知道這一步之前博弈進(jìn)行的整個(gè)過程和結(jié)果。 完全但不完美信息-在博弈的某些階段,要選擇行動(dòng)的參與者并不知道這一步之前博弈進(jìn)行的整個(gè)過程和結(jié)果。89動(dòng)態(tài)博弈的中心問題: 可 信 任 性Eg1:不可置信的威脅在動(dòng)態(tài)中很無聊! 黑社會(huì)有多黑-斗狠博弈 第一步: A匪徒選擇,給B匪徒分贓5000元還是 分文不給; 第二步:B觀察到A的選擇,然后決定是否引爆 一顆手雷把雙方都

39、炸死。 90結(jié)論:A匪徒不會(huì)給B匪徒一分錢,因?yàn)锽的威脅 不可置信。引申的問題:結(jié)論的前提是-匪徒B不是一個(gè) 這種懷疑在完全信息博弈中不存在,但卻是不 完全信息博弈的考慮重點(diǎn)!瘋子91信息結(jié):每次行動(dòng)的起點(diǎn)及其包含的參與人 類型的信息信息集:每次行動(dòng)時(shí),參與人所掌握的所有 知識92威脅:參與人在博弈開始前通過采取某種行動(dòng)改變 了支付結(jié)果,影響均衡位置。完全威脅:增加某個(gè)行動(dòng)的成本,使之不可能被采取, 從而改變均衡。 實(shí)質(zhì)通過減少自己的選擇機(jī)會(huì)來影響對方的支付, 并改變整個(gè)結(jié)果。 選擇少不一定是壞事 孫子兵法置于死地而后生93二、準(zhǔn)備性定理與原則定理1:一個(gè)有限的完全且完美信息有唯一一個(gè)純戰(zhàn)略

40、“子博弈精練納什均衡”。定理2:博弈的初始結(jié)是唯一的,否則轉(zhuǎn)變?yōu)椴煌耆?息博弈需引入“自然”。定理3:子博弈精練納什均衡 若戰(zhàn)略組合 是整體博弈的納什均衡,也是各 個(gè)子博弈的納什均衡,則 是該博弈唯一的子 博弈精練納什均衡94原則1:完美信息要求參與人的信息集中只含有一個(gè)結(jié) (類型)。原則2: SPNE求解的首要原則-參與人是序貫理性的 (Sequential Nationality) 即不論博弈的過去發(fā)生了什么,參與人在自己 的每個(gè)結(jié)點(diǎn)處都趨于最大化自己的支付。 95eg1:黑社會(huì)博弈三、“完全且完美動(dòng)態(tài)博弈” 求解方法逆向歸納法第一階段:A決定分給B5000元還是0元,即行動(dòng)集 第二階段

41、:B觀察到 后,選擇行動(dòng)集96求解:第一步:從后往前,從第二階段求起 在第二階段,B在給定A的最優(yōu)選擇分0元的 前提下,或給定A做任何選擇的前提下,B的最 優(yōu)選擇都是不拉手雷。第二步:給定第二階段B的最優(yōu)選擇后,在此前提下求A 的最優(yōu)選擇 此時(shí),B 不拉手雷,A的最優(yōu)選擇當(dāng)然為 分給B 匪徒0元97所以,Sub-game Perfect Nash Equilibrium是 (A不分給B贓款, B不拉手雷)特點(diǎn):完全且完美信息使A預(yù)測到B將對A 的任何行動(dòng)做出最符合B自身利益的選擇。這一預(yù)測排除了B進(jìn)行不可置信威脅或行動(dòng)的可能性,即A完全有信息以支持他認(rèn)為,B不可能在第二階段做出不符合自身利益的

42、選擇。98Eg2:Stackelberg雙頭壟斷模型 汽車市場上的領(lǐng)導(dǎo)者“通用汽車”和跟隨者“福特汽車”進(jìn)行如下博弈: 第一步:通用選擇產(chǎn)量 ; 第二步:福特觀測到以上情況,然后選產(chǎn)量 ; 公司i的利潤函數(shù)為 99求解:1、先逆向求第2步中,福特在給定通用已作出最優(yōu)產(chǎn)量選擇的基礎(chǔ)上自己的最優(yōu)反應(yīng):2、由于通用也能象福特一樣解出福特的最優(yōu)產(chǎn)量,所以通用可以預(yù)測到如果自己選擇某個(gè)產(chǎn)量伏特會(huì)如何反應(yīng),于是通用的最優(yōu)選擇是: (2)(1)100 將(2)式代入(1)式,得SPNE 得到均衡價(jià)格為: 101 重要對比:在靜態(tài)的Cournot博弈中, 可得到如下結(jié)論:1、如果通用選擇Cournot產(chǎn)量,福

43、特的最優(yōu)產(chǎn)量將也是 Cournot產(chǎn)量。2、通用實(shí)際中選了比Cournot產(chǎn)量高的產(chǎn)量,可計(jì)算得知, 此時(shí)它的利潤大于Cournot利潤;代價(jià)是,福特的產(chǎn)量 降低、利潤減少了! 102 3、動(dòng)態(tài)的威力之一: first-mover advantadge 先下手為強(qiáng) 單人決策(無博弈的古典世界)時(shí),占有更多信息不會(huì) 帶來不利。 多人動(dòng)態(tài)博弈時(shí),了解更多的信息卻可能讓一個(gè)人受損! (如:福特) 即:讓其他參與人掌握更多自己的信息理性的無知例1和2都是先動(dòng)優(yōu)勢!103Eg3:offer-counteroffer(討價(jià)還價(jià))模型 Rubinstein,1982情形:A買B的某件拍賣品(價(jià)值標(biāo)準(zhǔn)化為1)

44、,A 先出 價(jià),B看到價(jià)格后選擇接受或拒絕。 若B接受,則博弈結(jié)束。 若B拒絕,則輪到B出價(jià);A如上做出反應(yīng)。依次A 在1、3、5.期出價(jià); A在2、4、6期出價(jià);104變量說明 :參與人A獲得的價(jià)值份額。 :參與人B獲得的價(jià)值份額。105求解參與人對收益進(jìn)行貼現(xiàn)比較,貼現(xiàn)率為 和 。注意:由于無限期博弈沒有最后階段,所以原則上 無法使用逆向歸納法。 (有限期的該博弈可用逆向歸納法:此時(shí)在 最后階段B總是出價(jià)1)106變通:因?yàn)樵摬┺氖菬o限序貫的,則 任何一個(gè)A出價(jià)開始的子博弈相當(dāng)于整個(gè)博弈。 假設(shè)在 時(shí),A出價(jià),在該子博弈中他得到 的最優(yōu)分額是M。A在 期得到的M,相當(dāng)于 期的 。于是B知道

45、,在 期,如果 自己的出價(jià)使A的收益不小于 ,則A一定會(huì) 接受。于是B在 期出價(jià) ,使自己得到 。而對于B而言, 期的 相當(dāng)于 期的 。于是A也清楚, 他在 期出價(jià) , B就會(huì)接受。107此時(shí)A得 。否則B拒絕,誰的收益都會(huì)為0。也就是說,在 期A在整體博弈中能得到的最大收益為 。 手筋:因?yàn)閺?開始的整體博弈和從 開始的子博弈類似于同一個(gè)博弈,因此必然有如果我們從 期開始,結(jié)果是類似的,只是收斂速度不一樣。108結(jié)論:因?yàn)?是任意的,所以SPNE是 A在第一階段出價(jià) B在第二階段接受。啟示:耐心的比拼- 越大表示越有耐心未來消費(fèi)或?qū)Y產(chǎn)價(jià)值的享受的時(shí)間忍耐性很高。1、若 ,則A得到1(全部資

46、產(chǎn)),說明足夠 的耐心能獲得最大收益。2、若 ,則A得到 ,B得到 ,當(dāng) 時(shí),即B的耐心高于平均水平時(shí),出現(xiàn) 后動(dòng)優(yōu)勢。3、當(dāng) 時(shí),是先動(dòng)優(yōu)勢!為什么?109概念澄清:NE與SPNE;均衡路徑與非均衡路徑Eg4:愛情掌握在主動(dòng)者手里嗎?不追追 A:追求者 B:女方 B:女方接受不接受不接受接受(10,-10)(-50,-40)(0,0)(0,0) 第一個(gè)NE:女方威脅說“無論A追還是不追,我都不會(huì)接受的”,則對方相信后,NE為 (不追,(不接受,不接受)AB110不追追 A:追求者 B:女方 B:女方接受不接受不接受接受(10,-10)(-50,-40)(0,0)(0,0)第一個(gè)NE的均衡結(jié)果

47、: (不追,(不接受,不接受)AB均衡路徑111不追追 A:追求者 B:女方 B:女方接受不接受不接受接受(10,-10)(-50,-40)(0,0)(0,0) 第二個(gè)NE:從B開始逆向歸納,B在A選“追”與“不追”時(shí),最優(yōu)選擇都是“接受” A預(yù)測到這個(gè)結(jié)果,在A選擇時(shí),于是A的最優(yōu)選擇是“追”。于是NE是:(追,(接受,接受)均衡路徑112SPNE排除了“不可置信威脅”,留下唯一均衡路徑!不追追 A:追求者 B:女方 B:女方接受不接受不接受接受(10,-10)(-50,-40)(0,0)(0,0) SPNE在整體與子博弈中都最優(yōu),而NE在整體博弈上最優(yōu),但在子博弈1上并不最優(yōu)。子博弈1子博

48、弈2113現(xiàn)實(shí)啟示:在環(huán)境參數(shù)比較穩(wěn)定和女方尚未失去理智的情況下,愛情確實(shí)掌握在主動(dòng)者手中。哲學(xué)含義:愛被愛很弱的前提條件114一個(gè)擴(kuò)展:決勝千里,離不開運(yùn)籌帷幄 -均衡路徑與博弈結(jié)果的區(qū)別(2,0)(1,2)(3,0)(1,3)121ULUDRD問題1:逆向歸納解出的SPNE是什么?(U,U)L) 1 1 2 問題2:均衡路徑是什么?115(2,0)(1,2)(3,0)(1,3)121ULUDRD1、如果博弈進(jìn)行到此,參與人的精練最優(yōu)選擇是這樣的;2、如果沒有這個(gè)過程或結(jié)構(gòu),參與人就沒有預(yù)測的根據(jù), 也就得不到均衡路徑。沒有運(yùn)籌帷幄,就沒有決勝千里!辨析:均衡路徑中不包括博弈結(jié)果中的“2選L

49、,1選 U ”。其含義是:116第七個(gè)瞬間: 世事無常 但有概率 -完全但非完美信息動(dòng)態(tài)博弈117一、對“信息”的總結(jié)與眺望不完全信息的通俗解釋: 至少一方參與人的類型(主要指支付 函數(shù))不 成為“公共知識”。完全但不完美信息的通俗解釋: 對參與人的類型雖不了解,但具備對其類型的 先驗(yàn)概率,且該概率是“共同知識”。118通過“Harsanyi Transfer”將不完全信息轉(zhuǎn)化為 “完全但不完美信息”。因此,有了Harsanyi后, 我們將不完全信息和完全但不完美信息可以等 同起來。通過先驗(yàn)概率規(guī)定完全但不完美信息,通過后 驗(yàn)信息(即貝葉斯條件概率)來修正多個(gè)序貫 完全但不完美信息子博弈的先驗(yàn)

50、概率,就可以 求解不完全(或不完美)信息動(dòng)態(tài)博弈。119二、經(jīng)典事例Eg1:銀行擠體博弈情形: 存款人1和2在銀行各存入D元。到期后銀行可回收2R元分給存款人,不到期(有任一個(gè)提前取款)則只能回收2r給存款人。( , )。 存款人未到期而取款,只能得到r元,到期后可收回D元。 這里設(shè)銀行把全部收益分給存款人,正常利潤包含在成本或費(fèi)用中,且不考慮貼現(xiàn)。 120 博弈過程如下:(r,r)(2r-D,D)( D, 2r-D)(R,R)(D,2R-D)( 2R-D ,D)( R ,R)不提提提不提不提提提不提不提提提不提122122階段1: 到期前提款階段2:到期后提款121上面的戰(zhàn)略表達(dá)式可轉(zhuǎn)化為下

51、面的矩陣表達(dá)式:第一階段1提款不提款2提款r.rD,2r-D不提款2r-D下階段第二階段1提款不提款2提款R,R2R-D,D不提款D,2R-DR,R由于 ,所以 。由于 ,所以, 。由逆向歸納法求解: 122結(jié)論: 該博弈存在2個(gè)SPNE: (提款,提款)和(不提款,提款)(不提款,提款) 1 2 1 2啟示:第一個(gè)SPNE可看作是一次擠提-如果1相信2會(huì)提 前取款,則他最優(yōu)選擇會(huì)取款,即便后來的選擇 福利更高。這說明擠提是信心與信息問題。 與囚徒困境一樣,存在低效率均衡,但本博弈還 存在高效率均衡。 本博弈的多重性使我們無法判斷什么時(shí)候會(huì)擠提, 但是它說明擠提確實(shí)會(huì)作為一個(gè)均衡而出現(xiàn)。123

52、Eg2:關(guān)稅與自由貿(mào)易沖動(dòng)國家i(i=1,2)市場上的總產(chǎn)量為 ,則其市場出清價(jià)格(按照線性需求函數(shù))為 ,國內(nèi)企業(yè)i生產(chǎn)的產(chǎn)量一部分供應(yīng)國內(nèi),一部分出口,即 。企業(yè)的總成本為 ,其中c為邊際成本,設(shè)兩個(gè)國家中的企業(yè)可看成只有一個(gè),且邊際成本相同。同時(shí),企業(yè)i出口時(shí)還要還要支付 的關(guān)稅給國家j ,其中 為國家征收的關(guān)稅稅率。企業(yè)的支付為其利潤;政府的支付為其總福利-消費(fèi)者剩余、國內(nèi)企業(yè)利潤和關(guān)稅收入之和。124動(dòng)態(tài)博弈順序:第一步:國家同時(shí)選擇關(guān)稅率 和 ,最大化其總福利。第二步:企業(yè)選擇國內(nèi)生產(chǎn)量 和出口量 以最大化利潤。國家1和2同時(shí)選企業(yè)1和2同時(shí)選125擬向歸納求解:首先,求企業(yè) i

53、的利潤最大化 可分解為國內(nèi)利潤最大化和出口利潤最大化 即選擇 ,使 同時(shí)選擇 ,使 聯(lián)立求解,得126然后,選 求國家 j 的福利最大化其中, ,代入上式,得到: ,將此代入上式,得到:127SPNE為:國家1和2選擇關(guān)稅率 ;企業(yè)1和2選擇生產(chǎn)量但是,如果在第二步中,不是國家單獨(dú)追求福利最大化,而是追求國家集體的福利最大化,即:128并將 代入上式后,對 求偏導(dǎo)數(shù)令其為零,可求得 即:從共同利益考慮,國家間有動(dòng)機(jī)建立 一個(gè)“零關(guān)稅的自由貿(mào)易區(qū)”。129第八個(gè)瞬間: 人生何處不相逢 -關(guān)于重復(fù)博弈130一、動(dòng)態(tài)博弈分兩種1、序貫博弈(Sequential game): 子博弈交替出現(xiàn),但同樣結(jié)

54、構(gòu)的子博弈只出現(xiàn)一次。且前一階段的博弈可以改變后一階段博弈的結(jié)構(gòu)。1312、重復(fù)博弈(Repeated game): 子博弈交替出現(xiàn),并且每個(gè)子博弈結(jié)構(gòu)相同。前一階段的博弈不改變后一階段博弈的結(jié)構(gòu)。 參與人的總支付是所有階段博弈支付的貼現(xiàn)值或平均值。132再次提醒:戰(zhàn)略和行動(dòng)的區(qū)別是什么? 戰(zhàn)略是什么? 重復(fù)博弈的戰(zhàn)略數(shù)有多大?重復(fù)博弈的戰(zhàn)略是 “歷史的天空”133重復(fù)博弈的威力是什么-Aumman的貢獻(xiàn): 重復(fù)博弈的均衡結(jié)果受到兩因素影響重復(fù)次數(shù)信息結(jié)構(gòu)博弈重復(fù)次數(shù)越多,參與人越需要關(guān)注長期利益當(dāng)參與人的信息或類型越不為對方所知時(shí),他越有動(dòng)機(jī)為了長期利益建立一個(gè)能“取悅”對方從而有利于自己的

55、“聲譽(yù)”Eg:導(dǎo)游證博弈中,對無證導(dǎo)游進(jìn)行的一次性檢查是序貫博弈,對有證導(dǎo)游進(jìn)行的抽查是重復(fù)博弈,所以有證導(dǎo)游更重視長遠(yuǎn)利益和良好聲譽(yù)。134舉例:兩次(兩階段)囚徒困境 博弈情形:兩個(gè)囚徒在第一次被逮捕時(shí),做一次博弈, 矩陣如下。刑滿釋放后,又作案,被逮捕 后面臨同一套審訊方法,于是重新做一次 同樣的博弈。(且設(shè)總支付為簡單加總) B囚徒/A囚徒坦白抵賴坦白1,15,0抵賴0,54,4二、有限次重復(fù)博弈135博弈求解:逆向歸納法 第1步:在博弈的第二階段,囚徒A和B的博弈結(jié)果 是 B囚徒/A囚徒坦白抵賴坦白1,15,0抵賴0,54,4 第2步:在博弈的第一階段,囚徒A和B在完全信息 下必然知

56、道博弈在第二階段的結(jié)果,這時(shí) 支付矩陣的結(jié)果是“按照簡單加總貼現(xiàn)率 為0”的原則形成如下,并形成第一階段之 階段博弈的均衡 B囚徒/A囚徒坦白抵賴坦白2,26,1抵賴1,65,5136得到SPNE是: (第一階段囚徒A坦白,囚徒B坦白; 第二階段囚徒A坦白,囚徒B坦白)上述結(jié)論在更一般的意義(重復(fù)n次)上,同樣成立!137定義:對給定的階段博弈G,G(n)表示G重復(fù)n次的有 限重復(fù)博弈,并且在下一次博弈開始前,所有以前 的博弈的進(jìn)行都可以被觀測到。并令G(n)的支付 為n次階段博弈支付的簡單加總。定理1:如果階段博弈G有唯一的NE,則對 任意有限的n,重復(fù)博弈G(n)有唯一的SPNE: G的均

57、衡結(jié)果在每一個(gè)階段重復(fù)進(jìn)行!此時(shí)不考慮貼現(xiàn),但在無限重復(fù)博弈中不能忽略。138舉例:無限次囚徒困境 博弈情形:兩個(gè)囚徒在第一次被逮捕時(shí),做一次博弈, 矩陣如下。之后成為慣犯,無數(shù)次地作案 被逮捕,無限次地面臨如下的博弈。(但 此時(shí)時(shí)期太長,貼現(xiàn)無法忽略,總支付為 各階段支付的貼現(xiàn)加總) B囚徒/A囚徒坦白抵賴坦白1,15,0抵賴0,54,4三、無限次重復(fù)博弈139準(zhǔn)備性思索:通過貼現(xiàn)率考慮不確定性-更向現(xiàn)實(shí)邁一步!1、現(xiàn)實(shí)中,無限次不代表博弈肯定永遠(yuǎn)不結(jié)束,而是說重復(fù)進(jìn)行時(shí)可能隨時(shí)結(jié)束,但無法知道是否會(huì)結(jié)束,只有一個(gè)可估計(jì)的概率。2、假設(shè)每次階段博弈后,博弈立即結(jié)束的概率為 ,則博弈將至少再進(jìn)

58、行一個(gè)階段的概率為 ,此“下一階段”參與人可以得到的支付假設(shè)為 ,那么當(dāng)前階段參與人的貼現(xiàn)期望支付是 ,其中 是每階段的利率。同理,在此前一個(gè)階段的貼現(xiàn)期望支付是3、依次類推, 總的支付= 令 為貼現(xiàn)因子,則總支付 即包含了貨幣的時(shí)間價(jià)值也體現(xiàn)了博弈的不確定性。 140博弈求解: 因?yàn)槭菬o限重復(fù)的,所以無法用“逆向歸納”,只能用證明法對“所設(shè)想”的某個(gè)合理戰(zhàn)略證明其是否是SPNE。第一個(gè)嘗試性證明:trigger strategy 考慮囚徒做如下戰(zhàn)略:1)開始時(shí)選擇“抵賴”(合作解);2)選擇“抵賴”直到對方選擇“坦白”(非合作解),然后永遠(yuǎn)選擇“坦白”(不合作);證明:1、證明上述trigg

59、er strategy是NE。 141按照上述戰(zhàn)略,A、B在開始都是抵賴,如果某個(gè)階段中A選擇坦白,則他的收益由4變?yōu)?,但此后這個(gè)“背叛行為”將導(dǎo)致B的報(bào)復(fù)永遠(yuǎn)選擇坦白,于是此后A只能得到1。 B囚徒/A囚徒坦白抵賴坦白1,15,0抵賴0,54,4A在沒有“背叛”之前,A、B的支付相同,A在“背叛”之后,他的貼現(xiàn)支付為 如果A不選擇“背叛”,他的貼現(xiàn)支付為142所以,如果strigger strategy要成為N,必然有:A在背叛前的支付應(yīng)該 A背叛后的支付,即同理可證明該條件也是B采取strigger strategy的條件。所以,A和B在 時(shí)采取strigger strategy是NE,

60、即此時(shí)參與人在整個(gè)重復(fù)博弈中最優(yōu)。143證明2:證明上述trigger strategy是SPNE。1、由于博弈結(jié)構(gòu)相同、重復(fù)無限次,則從任何一個(gè)階段開始的子博弈等同于原博弈。2、子博弈分為兩類:甲類型在該子博弈之前,沒有人背叛過;乙類型在該子博弈之前,至少一人曾經(jīng)背叛過;3、在甲情形,trigger strategy是該子博弈的納什均衡如上所證。 在乙情形,參與人一旦碰上對方坦白后,自己的最優(yōu)反應(yīng)應(yīng)該是坦白,這也符合trigger strategy。4、綜合上, trigger strategy也是子博弈均衡的。144擴(kuò)展:由于無法遍尋無限博弈的所有均衡戰(zhàn)略, 所以可嘗試的均衡戰(zhàn)略常是多重的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論