版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)、模型與決策
第九講博弈論
主講:鄧旭東教授教學內容博弈論的產生和發(fā)展1博弈論的基本概念與博弈的分類2博弈論的經典模型3Nash均衡解的求解方法4合作博弈5學習目標了解博弈論的產生和發(fā)展情況掌握博弈及博弈論的概念、博弈論的分類了解和掌握博弈論的經典模型掌握純策略和混合策略Nash均衡解的求解方法掌握聯(lián)盟博弈及夏普利值的概念,會求解兩人聯(lián)盟和三人聯(lián)盟情況下的夏普利值培養(yǎng)應用博弈論于經濟與管理實踐的意識博弈論、納什均衡及核的概念
博弈論(GameTheory)是一門關于決策者在對決策結果沒有完全信息和互動條件下做出理性決策的理論。
所謂“互動”是指這樣一種情況,任何決策者決策的結果不僅取決于其自身采取的策略,還取決于其他人采取的策略。
納什均衡指兩人或多人互動的結果:當其他人所選策略不變時,沒有任何人可以通過單方面改變其策略而取得更好的結果。
核指兩個或多個聯(lián)盟互動的結果:當其他聯(lián)盟的策略不變時,沒有任何聯(lián)盟可以通過單方面改變其策略而取得對該聯(lián)盟所有成員更好的結果。一、博弈論的產生和發(fā)展20世紀50年代,合作博弈發(fā)展到全盛期,非合作博弈論也開始創(chuàng)立;20世紀60年代后,非合作博弈得到進一步發(fā)展;幾十年來,眾多的博弈論學者花費了無窮的精力,研究博弈論里博弈的結構,發(fā)展納什均衡點的定義,并探討其實際應用的可能性。現(xiàn)代博弈理論誕生的標志:馮·諾依曼和摩根斯坦1944年出版的巨著《博弈論與經濟行為》(TheTheoryofGamesandEconomicBehavior)1994年諾貝爾經濟學獎:納什、哈薩尼、澤爾騰1996年諾貝爾經濟學獎:莫里斯、維克瑞2001年諾貝爾經濟學獎:阿克爾洛夫、斯彭斯、斯蒂格利茨2005年諾貝爾經濟學獎:奧曼、謝林博弈論的產生博弈論的產生和發(fā)展博弈論的發(fā)展1994年諾貝爾經濟學獎
1994年的諾貝爾經濟學獎,授予了三位對博弈論做出奠基性貢獻的學者,他們是美國普林斯頓大學數(shù)學系的納什(JohnNash)教授、美國伯克利加州大學商學院的哈薩尼(JohnHarsanyi)教授和德國波恩大學經濟學系的澤爾騰(ReinhardSelten)教授。納什對博弈論的貢獻有兩個方面:①合作博弈理論中的討價還價模型,稱為納什討價還價解;②非合作博弈論方面,這也是他的主要貢獻所在。納什對非合作博弈論的主要貢獻是他在1950年和1951年的兩篇論文中在非常一般的意義上定義了非合作博弈及其均衡解,并證明了均衡解的存在,由此奠定了非合作博弈論的基礎。1996年諾貝爾經濟學獎1996年的諾貝爾經濟學獎授予了英國劍橋大學的詹姆斯·莫里斯(JamesA.Mirrlees)教授和美國哥倫比亞大學的威廉姆·維克瑞(WilliamVickrey)教授,表彰他們對信息經濟學的貢獻。這兩位經濟學家分別在20世紀60年代和70年代揭示了不對稱信息對交易所帶來的影響,并提出了相應的對策。
信息經濟學是研究信息不對稱條件下交易關系和契約安排的理論。從本質上講,信息經濟學是不對稱博弈論在經濟學上的應用。不對稱信息指的是某些參與人擁有另一些參與人不擁有的信息。
博弈論是方法論導向的,它研究的是給定信息結構后,尋找最可能的均衡結果;信息經濟學是以問題導向的,它研究的是給定信息結構后,進行最優(yōu)的契約安排。
由于信息經濟學研究什么是不對稱信息情況下的最優(yōu)交易契約,故又稱為契約理論,或機制設計理論。正因為信息不對稱,不同的制度安排對應不同的經濟效率,現(xiàn)在經常討論的國有企業(yè)委托人—代理人問題、激勵機制問題、產權問題等,都是信息經濟學的問題。2001年諾貝爾經濟學獎
2001年的諾貝爾經濟學獎授予了三位美國經濟學家,他們是伯克利加州大學經濟系的喬治·阿克爾洛夫(GeorgeAkerlof)教授、斯坦福大學商學院的邁克爾·斯彭斯(MichaelSpence)教授和哥倫比亞大學經濟系、商學院及國際關系學院的約瑟夫·斯蒂格利茨(JosephStiglitz)教授。早在20世紀70年代,他們就揭示了當代信息經濟的核心,認為信息是有價值的。其應用價值對中國目前的改革也有著一定的指導意義。
1970年,阿克爾洛夫對傳統(tǒng)經濟學理論提出了挑戰(zhàn),他從分析舊車市場入手,發(fā)現(xiàn)在舊車交易中,賣者顯然比買者對車輛擁有更多的信息,而因為這種信息不對稱,買車的人難以完全信任賣車人提供的信息,因而試圖通過低價來彌補其信息上的損失。由于買者出價過低,賣者又不愿提供好的產品,從而導致次貨的泛濫,其最終的結果是舊車市場的萎縮。阿克爾洛夫就此得出結論:市場放開并不能解決所有問題,信息是有價值的。斯彭斯則在1973年通過剖析人才市場盛行的造假行為,指出人才市場同樣存在用人單位與應聘者之間信息不對稱的問題,并由此造成了人才市場上“劣幣”驅逐“良幣”的現(xiàn)象。斯蒂格利茨則將信息不對稱這一理論應用到保險和金融市場。2001年諾貝爾經濟學獎這三個人從不同領域探討了信息不對稱問題,指出市場體制需要完善、設計,設計里有最優(yōu)。這是對傳統(tǒng)經濟學的重大突破。
Akerlof,G.(1970)”TheMarketforLemons:QualityUncertaintyandMarketMechanism”,QuarterlyJournalofEconomics,84:488-599.
Spence,M.(1973),”JobMarketSignaling”,QuarterlyJournalofEconomics,87.
Rothschild,M.andStiglitz,J.(1976),”EquilibriuminCompetitiveInsuranceMarket”,QuarterlyJournalofEconomics90:629-49.
2005年諾貝爾經濟學獎奧曼(RobertJ.Aumann)提出了無限次的重復博弈的理論,謝林(ThomasC.Schelling)提出了對抗狀態(tài)下的“可置信威脅”等概念,深刻地分析了行為選擇的條件對博弈均衡結果的影響。
奧曼率先提出的“重復博弈”分析,目前成為所有社會科學的主流分支,并已應用于政治沖突、灌溉系統(tǒng)、國際條約乃至公司相互勾結等各種各樣的問題。
奧曼對沖突與合作策略思想的貢獻在于,他運用了邏輯學和數(shù)學來理解,當人們每天都面對相同對手或競爭者時,他們所能作出的選擇。當策略情形大量重復出現(xiàn)時,即便個體間有直接的利益沖突,達成合作的機率也會上升,因為每個個體在未來時間內,都會與另一方反復打交道。
謝林于20世紀60年代出版《沖突的策略》,著力闡述了在雙方處于僵持時,采取一些策略性手段的重要性。這些手段包括:事先承諾、邊緣政策和有威懾力的威脅。例如,通過限定你自己的選擇范圍,你就可以使對手清楚地知道,你將對他們的行動作出何種反應——不管他們采取什么行動,這也就加大了他們作出讓步的可能性。
在地緣政治領域之外,謝林還發(fā)現(xiàn),人通常都是愿意合作的,但當他們在一個團隊中完全依理性行事時,則不那么容易合作。二、、博博弈弈論論的的基基本本概概念念與與博博弈弈的的分分類類博弈弈論論的的基基本本概概念念包包括括參參與與人人、、行行動動、、信信息息、、策策略略、、支支付付、、結結果果和和均均衡衡。。其其中中,,參參與與人人、、策策略略和和支支付付是是描描述述一一個個博博弈弈所所需需要要的的最最少少的的要要素素,,而而行行動動和和信信息息是是其其““積積木木””。。參參與與人人、、行行動動和和結結果果統(tǒng)統(tǒng)稱稱為為““博博弈弈規(guī)規(guī)則則””。。博博弈弈分分析析的的目目的的是是使使用用博博弈弈規(guī)規(guī)則則預預測測均均衡衡。。參與人——是指在一一個博弈弈中能夠夠選擇自自己的行行動方案案從而使使自身的的利益最最大化的的決策主主體,即即有決策策權的參參加者。。個人或或組織團團體,參參與人是是理性的的。行動——是參與人人在博弈弈的某個個時點的的決策變變量。當當參與人人的行動動存在先先后次序序時,后后行動者者就可以以通過觀觀察先行行動者的的行動選選擇來獲獲取信息息,再決決定行動動方案。。信息——是參與人人有關博博弈的知知識,特特別是有有關自然然狀況、、其他參參與人的的特征、、偏好和和行動等等方面的的知識。。“理性性”是共共同知識識,各參參與人的的偏好也也可能是是共同知知識。博弈論的的基本概概念策略——是參與人人在給定定信息集集的情況況下的行行動規(guī)則則,它規(guī)規(guī)定了參參與人在在何時何何種情況況下選擇擇何種行行動,是是完整的的行動方方案。各各參與人人在各自自的策略略集中選選擇一個個特定的的策略所所構成的的策略組組合稱為為一個局局勢。支付——是指在博博弈論中中,對應應一個確確定的自自然狀況況,參與與人各選選擇一個個特定的的策略所所形成的的局勢下下參與人人得到的的效用。。當自然然狀況不不確定或或參與人人隨機選選擇其策策略時,,參與人人關心的的是期望望效用。。結果——是一個博博弈各種種可能的的最終后后果,如如各參與與人的最最優(yōu)策略略、最優(yōu)優(yōu)策略下下的效用用等。均衡——是各參與與人最優(yōu)優(yōu)策略所所形成的的局勢,,在該局局勢下,,沒有參參與人愿愿意選擇擇其他的的策略。。博弈的分分類通過事前前交流協(xié)協(xié)商達成成有約束束力的協(xié)協(xié)議稱為為合作。。根據(jù)參與與人之間間是否存存在合作作,博弈弈可劃分分為合作作博弈和和非合作作博弈。。合作博弈弈與非合合作博弈弈之間的的區(qū)別主主要在于于人們的的行為相相互作用用時,當當事人能能否達成成一個具具有約束束力的協(xié)協(xié)議。如如果有,,就是合合作博弈弈;反之之,則是是非合作作博弈。。合作博博弈強強調的的是團團體理理性,,強調調的是是效率率、公公正、、公平平;非非合作作博弈弈強調調的是是個人人理性性、個個人最最優(yōu)決決策,,其結結果可可能是是有效效率的的,也也可能能是無無效率率的。。根據(jù)參參與人人行動動的先先后順順序,,博弈弈可以以劃分分為靜靜態(tài)博博弈和和動態(tài)態(tài)博弈弈。靜靜態(tài)博博弈指指的是是博弈弈中,,參與與人同同時選選擇行行動或或雖非非同時時但后后行動動者并并不知知道先先行動動者采采取了了什么么具體體行動動;動動態(tài)博博弈指指的是是參與與人的的行動動有先先后順順序,,且后后行動動者能能夠觀觀察到到先行行動者者所選選擇的的行動動。博弈的分類類根據(jù)參與人人對博弈的的整體環(huán)境境(即自然然狀況及其其他參與人人的特征、、偏好和策策略)是否否有全面而而準確的知知識,博弈弈可劃分為為完全信息息博弈和不不完全信息息博弈。完完全信息指指的是每一一個參與人人對所有其其他參與人人(對手))的特征、、策略空間間及支付函函數(shù)有全面面而準確的的知識;否否則,就是是不完全信信息。行動順序信息靜態(tài)動態(tài)完全信息完全信息靜態(tài)博弈;納什均衡;納什(1950,1951)完全信息動態(tài)博弈;子博弈精煉納什均衡;澤爾騰(1965)不完全信息不完全信息靜態(tài)博弈;貝葉斯納什均衡;哈薩尼(1967-1968)不完全信息動態(tài)博弈;精煉貝葉斯納什均衡;澤爾騰(1975),Kreps和Wilson(1982),F(xiàn)udenberg和Tirole(1991)博弈的分類類博弈論的討討論基于兩兩條:①參與人都都是理性的的,他的目目標非常明明確,就是是使自己的的效用達到到最大;②②博弈論中中的例子是是簡單而很很不實際的的,但是它它比一些具具體實際的的復雜的例例子更能揭揭示實質,,使得很多多人即使不不去學習博博弈論的理理論,也能能理解這些些例子中提提出的問題題和分析的的方法,這這是有指導導意義的。所以我們們在學習博博弈論的知知識時,要要注意這些些簡單而典典型的例子子,學習分分析問題,,提出概念念,解決問問題的過程程。三、博弈論論的經典模模型博弈的分類類乙坦白抵抵賴賴坦白甲抵賴有兩個人因因為涉嫌犯犯罪而被捕捕,被警方方分別關在在兩個房間間內審訊。。他們面臨臨的情況是是:如果兩兩個人都坦坦白罪行,,那么將各各被判處六六年有期徒徒刑;如果果一方坦白白另一方抵抵賴,那么么坦白者從從寬,判處處一年徒刑刑,抗拒者者從嚴,判判處八年徒徒刑;如果果兩個人均均抵賴,則則各被判處處兩年徒刑刑。這樣,兩個個囚徒面臨臨的博弈格格局如上圖圖所示,每每個格子中中左邊的數(shù)數(shù)字是甲的的支付(盈盈利或得益益),右邊邊是乙的支支付(盈利利或得益))。1.囚徒困境境(theprisoner’sdilemma)-6,-6-1,-8-8,-1-2,-2博弈的分分類①劃線法解囚徒困困境乙坦白抵賴坦白甲抵賴(坦白,,坦白)):嚴嚴格格優(yōu)勢策策略(抵賴,,抵賴)):嚴嚴格格劣勢策策略實例思考考:價價格大戰(zhàn)戰(zhàn)、廣告告大戰(zhàn)、、優(yōu)惠大大戰(zhàn)合作:““雙贏贏對局””1.囚徒困境境(theprisoner’sdilemma)-6,-6-1,-8-8,-1-2,-2博弈的分分類②可口可樂與百事可樂的價格大戰(zhàn)(單位:億美美元)百事可樂低價高價低價可口可樂高價(低價,低價價):嚴嚴格優(yōu)勢策策略(高價,高價價):嚴嚴格劣勢策策略多數(shù)情形是非非合作博弈卡特爾——幾個大企業(yè)聯(lián)聯(lián)手或勾結形形成對行業(yè)的的壟斷,謀求求最大利潤而而結成的聯(lián)盟盟。卡特爾不穩(wěn)定定。OPEC———石油輸出國組組織1.囚徒困境(theprisoner’sdilemma)-3,-30,-5-5,0-1,-1博弈的分類③箭頭法解囚徒困境乙坦白抵賴坦白甲抵賴1.囚徒困境(theprisoner’sdilemma)-6,-6-1,-8-8,-1-2,-2博弈的分類納什均衡狀態(tài)態(tài)是市場力量量相互作用的的穩(wěn)定的結局局。AA’B’B0??????1雜貨鋪定位:設想有一個個小居民點,,居民住宅沿沿著一條公路路均勻地排開開?,F(xiàn)在有兩兩家雜貨鋪要要在這個小居居民點開張,,他們賣一樣樣的東西,價價格也完全一一樣。那么,,兩家雜貨店店開在什么地地方好呢?商品一樣,價價格也一樣,,居民到哪個個雜貨鋪買東東西,就看哪哪個雜貨鋪離離自己比較近近。在雜貨鋪鋪定位的博弈弈中,地盤就就是市場份額額,地盤就是是經濟利益。。兩個雜貨鋪鋪在市場競爭爭的位置博弈弈中,位于左左邊的要向右右靠,位于右右邊的要向左左擠,最后的的結局,是兩兩家雜貨鋪緊緊挨著位于中中點1/2的位置。這就就是納什均衡衡的位置。因因為誰要是單單獨移開“一一點”,他就就會喪失“半半點”市場份份額。所以誰誰都不想偏離離中點的位置置。2.雜貨鋪定位博博弈博弈的分類海灘占位:據(jù)說西方發(fā)發(fā)達國家的不不少男男女女女有日光浴的的愛好,因為為它有利于身身體健康?,F(xiàn)現(xiàn)在設想較長長的海灘上比比較均勻地散散步著許多日日光浴者。太太陽的照射使使人們需要補補充水分。假假如有A與B兩個小販來到到海灘,以同同樣的價格、、相同的質量量向日光浴者者提供同一品品牌的礦泉水水(或啤酒))。在直線狀狀的海灘上他他們應當如何何合理地安置置自己的攤位位呢?思考:在社會經濟濟領域內,有有不少現(xiàn)象與與上述雜貨鋪鋪定位、海灘灘占位有著相相似之處,從從某種意義上上也可以用同同樣的邏輯進進行分析和闡闡述。①超市在商業(yè)街街的布局問題題。如果地段的的繁華等其他他原因可以認認為相同的話話,那么,只只要條件許可可,超市的幾幾乎相依為鄰鄰現(xiàn)象完全可可以看作公正正的市場競爭爭的合理結果果。②同城航空公司司航班起飛時時刻確定問題題。同一城市的的兩家航空公公司開辟飛往往同一目的地地的航班,常常出現(xiàn)他們各各自的起飛時時刻被安排在在幾乎同一時時間的現(xiàn)象。。③電視臺對節(jié)目目的編排問題題。人們對電視視節(jié)目的喜愛愛存在著一定定的檔次差異異,因此電視視臺對節(jié)目的的編排將直接接影響到收視視率。設想如如果將高雅藝藝術節(jié)目與較較低檔趣味的的節(jié)目比作海海灘的兩端,,那么觀賞電電視節(jié)目的觀觀眾就相當于于散步在海灘灘上的日光浴浴者。因此不不少電視臺常常將黃金播放放時段的文藝藝節(jié)目定位于于中等趣味以以提高自己的的收視率。此此外,各電視視臺中一些內內容雖然不同同但情調卻差差不多的娛樂樂節(jié)目,常在在播放時間上上撞車。④海灘占位問題題在政治學中中也可以找到到類似的案例例。2.雜貨鋪定位博博弈博弈的分類女方足球芭蕾足球男方芭蕾情侶博弈與經經濟決策的關關系兩個相鄰的企企業(yè)都要解決決各自的供水水問題。如果果他們各干各各的,成本就就會比較高,,效益就沒有有那么好。如如果兩個企業(yè)業(yè)聯(lián)合起來一一起投資建設設共用的供水水系統(tǒng),效益益就會比較好好。但是在選選定合作方案案的時候,由由于各種因素素,在攜手合合作的大前提提下,還是可可能有小算盤盤的考慮。你你想這樣,他他想那樣,這這也是人之常常情。這種合合作比不合作作好,但是在在合作的大局局下面又不免免有小算盤、、不免打小九九九的對局,,這就是情侶侶博弈。3.情侶博弈(Battleofsexes)2,10,0-1,-11,2博弈的分類乙獵鹿打打兔獵鹿甲打兔4只兔子管4天,1只鹿各管10天。經濟體制改革革:蘇歐“振蕩療療法”或“休休克療法”,,一步到位,,社會損失大大;中國“漸漸進式改革””、“摸著石石頭過河”,,社會損失小小,體制制外體體制內4.獵人博弈和帕帕累托優(yōu)勢10,100,44,04,4博弈的分類B雞進退進A雞退兩只雞A和B過獨木橋,雙雙方都可以選選擇進退,如如果雙方都選選擇進,則雙雙方就都成了了落湯雞。如如果一進一退退,則有一方方可以過橋,,另一方收益益為0。各自的收益益如上圖所示示。在這個博弈問問題中,一進進一退是博弈弈的格局。5.斗雞博博弈-3,-32,00,20,0博弈的的分類類小豬按等按大豬等豬圈里里有一一大一一小兩兩頭豬豬,豬豬圈的的一端端有一一個豬豬食槽槽,另另一端端安裝裝了一一個控控制豬豬食供供應的的按鈕鈕。按按一下下按鈕鈕會有有10個單位位的豬豬食進進槽,,但誰誰按按按鈕誰誰就需需付出出相當當于2個單位位豬食食的成成本。。大豬先先到::大大豬豬吃9個,小小豬吃吃1個同時到到:大大豬吃吃7個,小小豬吃吃3個小豬先先到::大大豬豬吃6個,小小豬吃吃4個6.智豬博博弈和和搭便便車行行為5,14,49,-10,0博弈的的分類類乙受賄不受賄賄受賄甲不受賄賄實際上上許多多博弈弈問題題就存存在多多個Nash均衡解解,這這為預預測帶帶來困困難,,引起起Nash均衡解解的精精煉問問題。。并且不不是任任何問問題都都有純純策略略Nash均衡解解。7.串謀博博弈和和高薪薪養(yǎng)廉廉9,90,88,07,7博弈的的分類類守衛(wèi)睡不睡偷小偷不偷一小偷欲偷竊竊有一守衛(wèi)看看守的倉庫,,如果小偷去去偷竊時守衛(wèi)衛(wèi)在睡覺,則則小偷就能得得手,假設小小偷得手可得得價值為V的贓物;但如如果小偷去偷偷竊時守衛(wèi)沒沒有睡覺,則則小偷就要被被抓住,如被被抓住則要坐坐牢,坐牢的的負效用為-P(設其單位與贓贓物的價值相相同),再設守衛(wèi)睡睡覺而未被偷偷則有S的正效用;睡睡覺遭偷則要要被解雇,解解雇的負效用用為-D,其單位與S的單位相同。。如果小偷不不偷,則他既既無得也無失失;守衛(wèi)不睡睡則出一份力力掙一份工資資同樣也是既既無得也無失失。8.小偷與守衛(wèi)的的博弈V,-D-P,00,S0,0①圖解方法求解守衛(wèi)期小小偷期望望得益益望望得得益(睡)S(偷)VPt*小偷偷Pg*守衛(wèi)睡0Pt′′1的概率0Pg′1的概率-D-P-D’-P’’(a)((b)圖小偷與守衛(wèi)的的混合策略8.小偷與守衛(wèi)的的博弈②代數(shù)方法求解設小偷選擇偷偷的概率為pt,則選擇不偷偷的概率為1-Pt,那么守衛(wèi)選選擇睡覺的期期望支付為E睡=(-D)××Pt﹢S×(1-Pt)=S-(D+S)×Pt守衛(wèi)選擇不睡睡覺的期望支支付為E不睡=0×Pt﹢0×(1-Pt)=0要達到一種均均衡狀態(tài),小小偷選擇偷與與不偷不能讓讓守衛(wèi)在選擇擇睡覺與不睡睡覺之間有明明顯的傾向性性。因此,必必然有E睡=E不睡于是可求得當D不變,而S增加時,Pt會增加;而當當S不變,增加D時,Pt會降低。由此此可見,加重重對失職守衛(wèi)衛(wèi)的懲罰,在在長期中會起起到抑制盜竊竊的作用;當當對守衛(wèi)實施施的懲罰不變變,而提高其其待遇,意味味著S的增加,反而而會使盜竊現(xiàn)現(xiàn)象更為嚴重重(Pt增加)。8.小偷與守衛(wèi)的的博弈設守衛(wèi)選擇睡睡的概率為pg,則選擇不睡睡的概率為1-pg,那么小偷選選擇偷的期望望支付為小偷選擇不偷偷的期望支付付為要達到一種均均衡狀態(tài),守守衛(wèi)選擇睡與與不睡不能讓讓小偷在選擇擇偷與不偷之之間有明顯的的傾向性。因因此,必然有有于是可求得當V不變,而P增加時,pg會增加,由此此可見,加重重對小偷的懲懲罰雖然在短短期中能抑制制盜竊,但在在長期中卻只只能使守衛(wèi)多多睡覺(pg增加),盜竊竊的情況卻不不會有什么改改善,反而,,由于守衛(wèi)選選擇睡覺的概概率增加了,,小偷選擇偷偷的概率會增增加,長期來來看盜竊現(xiàn)象象甚至會更為為嚴重。8.小偷與守衛(wèi)的的博弈蜈蚣博弈模型型是Rosenthsal在1981年提出的,它它是動態(tài)博弈弈的例子,其其模型稱為擴擴展型博弈模模型,是用樹樹來對博弈過過程做結構化化處理。ⅠⅡⅡⅠⅠⅡⅡⅠⅠⅡⅡAA┄AAAA(100,100)DDDDDD(1,1)(0,3)(98,98)(97,100)(99,99)(98,101)這個博弈的結結果是(1,1)。求解過程要用用到逆向歸納納法,即從動動態(tài)博弈的最最后一個階段段博弈方的行行為開始分析析,逐步倒推推回前一個階階段相應博弈弈方的行為選選擇,一直到到第一個階段段的分析方法法。9.蜈蚣博弈1.重復剔除嚴格格劣勢策略法法下面用一個例例子說明重復復剔除嚴格劣劣勢策略的求求解方法。博弈方Ⅱ左中中右右上博弈方Ⅰ下首先由上表可可知,博弈方方Ⅰ與Ⅱ都沒有優(yōu)勢策策略,所以不不存在優(yōu)勢策策略均衡解。。從博弈方Ⅰ來看,其上下下策略中沒有有哪一個是嚴嚴格劣勢策略略,但從博弈弈方Ⅱ來看,右策略略嚴格劣于中中策略,故可可將右策略剔剔除。這時就就簡化為下表表表示的博弈弈。四、Nash均衡解的求解解方法1,01,30,10,40,22,0博弈方Ⅱ左中中上博弈方Ⅰ下觀察上表的的博弈又可可發(fā)現(xiàn),““下”是博博弈方Ⅰ的嚴格劣勢勢策略,因因此下策略略可剔除,,這樣又可可得表如下下。博弈方2左中中博弈方1上觀察上表又又發(fā)現(xiàn),左左是博弈方方Ⅱ的嚴格劣勢勢策略,剔剔除左策略略就得博弈弈的均衡解解(上,中中)。純策策略略Nash均衡衡解解的的求求解解方方法法1,01,30,40,21.01,3數(shù)學學上上已已經經證證明明,,在在n人博博弈弈G={S1,………,Sn;u1,……un}中,,重重復復剔剔除除嚴嚴格格劣劣勢勢策策略略最最后后若若只只剩剩下下唯唯一一的的策策略略對對,,則則此此策策略略對對一一定定是是純純Nash均衡衡解解;;而而且且重重復復剔剔除除嚴嚴格格劣劣勢勢策策略略不不會會消消去去Nash均衡衡解解。。由由此此可可見見,,在在求求Nash均衡解前,先先用重復剔除除嚴格劣勢策策略法,即使使常常不能求求出Nash均衡解,也可可能簡化博弈弈問題。重復剔除嚴格格劣勢策略與與純策略Nash均衡解的關系系2.劃線法下面用同一個個例子來介紹紹求解純策略略Nash均衡解的劃線線法。博弈方Ⅱ左中中右右上博弈方Ⅰ下博弈方Ⅰ考慮,若Ⅱ方取左策略,,自己的最大大收益為1,故在1下面劃一條短短線;若Ⅱ方取中策略,,自己的最大大收益也為1,故在第二列列數(shù)字1下面劃一條短短線;若Ⅱ方取右右策略略,自自己的的最大大收益益為2,故在在2下面劃劃一條條短線線。博博弈方方Ⅱ也作同同樣考考慮,,給數(shù)數(shù)字3、數(shù)字字4下面都都劃了了短線線。最最后數(shù)數(shù)對1,3下面都都有短短劃線線,對對應的的策略略對為為(上上,中中),,這樣樣劃線線法就就求得得此博博弈的的解。。劃線法法的思思路是是,每每個博博弈方方找出出在其其他博博弈方方每一一個策策略或或策略略組合合下的的自己己的最最佳收收益并并劃一一條線線,那那么若若某組組數(shù)都都被劃劃線,,就意意味著著這組組數(shù)中中的每每一個個都是是在別別人策策略固固定時時自己己的最最佳收收益,,因此此誰也也不愿愿意單單方面面改變變自己己的與與此最最佳收收益對對應的的策略略,根根據(jù)Nash均衡解解的定定義,,這時時的策策略組組合就就是Nash均衡解解。劃線法法1,01,30,10,40,22,03.反應函函數(shù)法法實際上上Nash均衡解解的概概念也也可推推廣到到連續(xù)續(xù)策略略、無無限策策略的的博弈弈中。。這時時常常常用反反應函函數(shù)法法來求求Nash均衡解解。反應函函數(shù)即即一博博弈方方對另另一博博弈方方每一一可能能策略略的最最佳反反應策策略所所構成成的函函數(shù)。。[例]設博弈弈雙方方的策策略變變量分分別為為q1及q2,q1及q2都在區(qū)區(qū)間(0,20)取值,,雙方方同時時選擇擇策略略。博弈方方1與2的收益益函數(shù)數(shù)分別別為u1,u2且u1=6q1-q1q2-q12u2=6q2-q1q2-q22博弈方方1針對博博弈方方2的任一一策略略q2的策略略選擇擇是求求最大大化問問題Maxu1=max(6q1-q1q2-q12)q1令u1對q1的導數(shù)等等于零,,可得q1=R1(q2)=1/2(6-q2)這就是博博弈方1對博弈方方2任一策略略q2的最佳反反應,即即是其反反應函數(shù)數(shù)。同樣,博博弈方2針對博弈弈方1的任一策策略q1的策略選選擇是求求解最大大化問題題Maxu2=max(6q2-q1q2-q22)q2博弈方2對博弈方方1任一策略略q1的最佳反反應,即即反應函函數(shù)為q2=R2(q1)=1/2(6-q1)顯然可用用坐標平平面的兩兩條直線線表示這這兩條反反應函數(shù)數(shù),如圖圖所示。。反應函數(shù)數(shù)法q2(0,6)R1(q2)(0,3)(2,2)2R2(q1)02(6,0)如圖可得得這兩條條反應函函數(shù)直線線的交點點為(2,2),(2,2)即為Nash均衡解,,因為這這是博弈弈雙方共共同的最最佳反應應點,因因而誰也也不愿意意單方面面離開這這一點。。當然用用求解方方程組的的方法也也可求出出此問題題的Nash均衡解。。反應函數(shù)數(shù)法在沒有純純策略Nash均衡解時時,可以以尋找混混合策略略Nash均衡解。。定義:對策略略式博弈弈G={S1,…,Sn;u1,…,un},假設博博弈方i的策略集集合為Si={si1,…,sik},pik表示博弈弈方i選擇純策策略k的概率,,則概率率分布Pi=(pi1,…,pik)稱為博弈弈方i的一個混混合策略略,其中中,0≤pik≤1對所有k(k=1,…,K)都成立,,且pi1+…+pik=1。將博弈方方的策略略定義為為混合策策略(純純策略))是混合合策略的的特例)),策略略集合定定義為混混合策略略集合,,就可以以得出混混合策略略的Nash均衡解的的概念::混合策策略的Nash均衡就是是各博弈弈方針對對其他博博弈方的的最優(yōu)反反應的混混合策略略組合。。Nash在1950年提出了了討論Nash均衡解存存在性的的定理,,后被稱稱為Nash定理。Nash定理:在n人策略式式博弈G={S1,…,Sn;u1,…,un}中,如果果n是有限的的,且對對每個i,Si是有限的的,則博博弈至少少存在一一個Nash均衡解,,但可能能包括混混合策略略解。這就是說說,每一一個有限限博弈都都至少存存在一個個混合策策略Nash均衡解。。但是常常常有多個個Nash均衡存在在,這也也為博弈弈分析帶帶來困難難。人們們通過Pareto均衡、風風險均衡衡、聚點點均衡等等來選擇擇Nash均衡解。?;旌喜呗訬ash均衡解求Nash均衡解的反反應函數(shù)法法可以應用用于求混合合策略Nash均衡解。在在純策略中中,反應函函數(shù)是純策策略之間的的最佳應對對,而在混混合策略中中,反應函函數(shù)就成了了一方對另另一方混合合策略概率率分布的最最佳應對。。[例]有博弈問題題如下,求求其Nash均衡解。乙Ⅱ1Ⅱ2Ⅰ1甲Ⅰ2設x,y分別表示甲甲選策略Ⅰ1、乙選策略略Ⅱ1的概率,則則1-x,1-y就為甲選策策略Ⅰ2、乙選策略略Ⅱ2的概率,(x,1-x)為甲的混合合策略,(y,1-y)為乙的混合合策略。假定x*,y*分別為甲、、乙的Nash均衡衡策策略略,,e1(x,y)、e2(x,y)分別別代代表表甲甲、、乙乙在在采采取取策策略略對對(x,y)時各各自自收收益益的的期期望望值值,,那那么么,,根根據(jù)據(jù)Nash均衡衡解解的的定定義義,,對對于于甲甲而而言言,,有有e1(x*,y*)≥e1(x,y*)混合合策策略略Nash均衡衡解解的的求求解解方方法法3,22,10,34,4即,,當當固固定定乙乙的的策策略略為為y*時,,甲甲不不愿愿意意單單方方面面離離開開x*這個個策策略略。。同同理理,,對對于于乙乙而而言言,,也也有有e2(x*,y*)≥e2(x*,y)即,,當當固固定定甲甲的的策策略略為為x*時,,乙乙不不愿愿意意單單方方面面離離開開y*這個個策策略略。。甲的的期期望望收收益益應應為為e1(x,y)=3xy+2x(1-y)+0(1-x)y+4(1-x)(1-y)=x(5y-2)+4-4y現(xiàn)在在求求甲甲的的反反應應函函數(shù)數(shù),,即即y值固固定定的的情情況況下下,,使使得得e1最大大的的x的取取值值::若y<2/5,則則當當x=0時,,e1達到到最最大大,,且且e1=4-4y;若y=2/5,則則對對任任意意0≤≤x≤≤1,e1都達達到到最最大大,,且且e1=12/5;若y>2/5,則當當x=1時,e1達到最最大,,且e1=y+2。將博弈弈方甲甲反應應函數(shù)數(shù)表示示在坐坐標圖圖上。。y12/50x1混合策策略Nash均衡解解的求求解方方法同理乙乙的期期望收收益應應為e2(x,y)=2xy+x(1-y)+3(1-x)y+4(1-x)(1-y)=y(2x-1)+4-3x乙的反反應函函數(shù),,即x值固定定的情情況下下,使使得e2最大的的y的取值值:若x<1/2時,則則當y=0時,e2達到最最大,,且e2=4-3x;若x=1/2時,對對任意意0≤y≤1,e2都達到到最大大,且且e2=5/2;若x>1/2時,當當y=1時,e2達到最最大,,且e2=3-x。將博弈弈方乙乙的反反應函函數(shù)表表示在在坐標標圖上上,將將上述述兩個個反應應函數(shù)數(shù)畫在在一起起,得得到包包括混混合策策略的的Nash均衡解解,如如下圖圖所示示。yy112/5xx01/2101/21混合策策略Nash均衡解解的求求解方方法由圖可可知,,得到到雙方方反應應函數(shù)數(shù)的三三個交交點::(1)x=0,y=0,即甲甲、乙乙選擇擇策略略對(Ⅰ2,Ⅱ2),收益益值為為(4,4);(2)x=1,y=1,即甲甲、乙乙選擇擇策略略對(Ⅰ1,Ⅱ1),收收益益值值為為(3,2);(3)x=1/2,y=2/5,對對應應的的混混合合策策略略對對為為((1/2,1/2),(2/5,3/5)),收益值值為(2.4,2.5)。前兩個為為純策略略Nash均衡解,,第三個個為混合合策略的的Nash均衡解。?;旌喜呗月訬ash均衡解的的求解方方法在實際的的博弈問問題中,,如果參參與人能能夠進行行協(xié)商、、談判,,聯(lián)合選選擇行動動,共同同分享利利益,這這就是合合作博弈弈問題。。成功的的合作往往往能通通過協(xié)同同效應,,發(fā)揮各各方的所所長與優(yōu)優(yōu)勢,共共同創(chuàng)造造共贏的的局面,,甚至實實現(xiàn)帕累累托最優(yōu)優(yōu)。但是是,由于于參與博博弈的各各方利益益間存在在著沖突突,搭便便車的問問題可能能導致合合作受到到破壞。。合作首先先是一個個態(tài)度問問題,然然而,光光有態(tài)度度是不夠夠的,合合作能否否實施,,重要的的是方法法。在不不同的博博弈結構構下,有有不同類類型的合合作,因因而“共共贏”有有不同的的含義。。在某些些博弈情情況下,,“共贏贏”意味味著參與與人“共共同避免免更糟””;有些些情況共共贏意味味著參與與人“共共同尋求求更好””。在很多情情況下,,將一個個復雜的的現(xiàn)實場場景轉化化成一個個嚴格的的非合作作博弈模模型可能能比較困困難,而而轉化為為合作博博弈框架架則可簡簡化對場場景細節(jié)節(jié)的描述述,突出出結果的的形成。。一個非合合作博弈弈包括四四個構成成要素::參與人人、博弈弈規(guī)則、、博弈結結局和博博弈效用用。合作作博弈將將后三個個要素抽抽象為一一個部分分,這樣樣合作博博弈就由由兩部分分構成::一是所所有參與與人的集集合,二二是將不不同參與與人的組組合對應應其可得得集體效效用的函函數(shù)。五、合作作博弈聯(lián)盟博弈弈是合作博博弈的基基本表述述方式,,既是合合作博弈弈,就意意味著所所有參與與人接受受與競爭爭對手共共同爭取取更多收收益的指指導思想想。在聯(lián)聯(lián)盟博弈弈中,合合作通過過特征函函數(shù)值的的分配來來表述。。企業(yè)建立立聯(lián)盟是是有條件件的,這這個條件件便是::訂立協(xié)協(xié)議、建建立聯(lián)盟盟的聯(lián)盟盟值大于于單獨行行動。如如某個市市場上兩兩家企業(yè)業(yè)A、B共同開發(fā)發(fā)市場比比單個企企業(yè)開發(fā)發(fā)市場有有利,其其條件是是:V(A,B)≥≥V(A)+V(B)。其中,,V(A,B)為A、B企業(yè)共同同開發(fā)市市場時雙雙方的收收益之和和,V(A)、V(B)分別為A、B單獨開發(fā)發(fā)市場所所得到的的收益。。提供同種種產品的的企業(yè)相相互合作作的形式式能夠有有多種。。比如,,混亂的的企業(yè)在在行業(yè)協(xié)協(xié)會或某某個大企企業(yè)的引引導下,,統(tǒng)一某某些技術術標準,,大家共共同使用用這些標標準。這這樣,或或者大家家的成本本降低,,或者市市場擴大大了。再再如,提提供同種種產品的的不同企企業(yè),它它們的優(yōu)優(yōu)勢可能能不同,,若這些些不同優(yōu)優(yōu)勢的企企業(yè)聯(lián)合合起來,,共同開開發(fā)某些些產品,,其競爭爭力往往往更大。。不同類型型的企業(yè)業(yè)相互合合作往往往更能成成功,因因為同類類型的企企業(yè)沖突突度往往往大,不不同類型型的企業(yè)業(yè)之間往往往沒有有沖突。。五、合作作博弈夏普利值值利用公理理化方法法得到合合作博弈弈的唯一一解,這這一概念念,首先先由夏普普利(L.S.Shapley)在1953年提出,,它為如如何決定定一個n人討價還還價博弈弈中每個個參與人人的所得得的分配配比例提提供了一一種很好好的方法法。夏普普利值是是合作博博弈(聯(lián)盟博弈弈)中的最重重要的概概念。某個參與與人之所所以能夠夠與其他他成員結結成聯(lián)盟盟,是因因為他的的參與能能夠給聯(lián)聯(lián)盟帶來來附加值值,也就就是為聯(lián)聯(lián)盟做出出貢獻。。因此,,參與人人從聯(lián)盟盟中獲得得利益的的多少,,取決于于或正比比于他對對聯(lián)盟的的貢獻或或可能貢貢獻(期望貢獻獻)。夏普利值值便是這這樣的期期望貢獻獻的反映映。它是是指在一一個聯(lián)盟盟博弈中中,某個個參與人人在各種種可能的的參與人人組成的的排列中中與前面面的參與與人構成成的聯(lián)盟盟的期望望貢獻的的平均值值。1.兩人聯(lián)盟盟的情況況假定兩個個參與人人A、B單獨行動動的收益益為0,而聯(lián)合合行動的的收益為為c,即V(A)=V(B)=0,V(A,B)=c這樣,A、B對聯(lián)盟都都有貢獻獻。在AB順序下,,A的邊際貢貢獻為0,B的邊際貢貢獻為c;在BA順序下,,B的邊際貢貢獻為0,A的邊際貢貢獻為c。在這兩兩種可能能的情況況下,A和B的平均貢貢獻或者者期望貢貢獻為:(0+c)/2=c/2。若按照照這樣的的方案分分配,它它是可理理解的,,兩人的的期望貢貢獻均為為c/2,分配也也應該一一樣,為為c/2。對于A、B,值Φ(A)=Φ(B)=c/2便是他們們的夏普普利值。。夏普利值值2.三人聯(lián)盟盟的情況況三個參與與人A、B、C,各個聯(lián)聯(lián)盟的特特征值為為V(A)=V(B)=V(C)=0,V(A,B)=200,V(A,C)=150,V(B,C)=100,V(A,B,C)=250聯(lián)盟ABC可能的排排列與邊邊際貢獻獻計算如如下表所所示。由表可知知,A的邊際貢貢獻之和和為650;B的邊際貢貢獻之和和為500,C的邊際貢貢獻之和和為350。這樣,A、B、C的夏普利利值分別別為Φ(A)=650/6,Φ(B)=500/6,Φ(C)=350/6。在聯(lián)盟博博弈的分分配問題題上需要要確定““公平的的分配標標準”。。成員的的夏普利利值反映映了該成成員對聯(lián)聯(lián)盟的期期望貢獻獻,分配配應當?shù)鹊扔谄谕暙I。。認可這這樣的標標準的條條件下,,按照該該值進行行分配,,便是公公平的;;若不按按照這樣樣的值來來進行分分配,便便是不公公平的。。夏普利值值排列ABCACBBACBCACABCBA
A00200150150150B200100001
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 攝影器材銷售租賃合同
- 5G網絡場地平整施工合同范本
- 電力站平整施工合同
- 機械設備零星工程協(xié)議
- 涂料粉刷工程合同
- 爆破器材管理服務合同范例
- 國家正規(guī)購房合同范例范例
- 城市風景名勝區(qū)開發(fā)工程合同三篇
- 舞臺制作委托合同三篇
- 裝修油漆工合同(2篇)
- 陶藝課程講義
- 幼兒園一日活動保教工作標準細則
- 銀行統(tǒng)計報送工作實施細則
- 中國頸椎病診治與康復指南
- 禽病防治考試復習題庫(含答案)
- 鑄造工藝-特種鑄造
- 四年級奧數(shù)之等量代換(含答案)
- 兒科門診運用PDCA循環(huán)降低靜脈續(xù)加液體漏輸率持續(xù)改進案例
- 升壓變壓器項目可行性研究報告項目建議書
- 手術室護理實踐指南側臥位的擺放
- 蘇少版八年級美術上冊《盛世汴梁》教案及教學反思
評論
0/150
提交評論