![陸天然:博弈的最佳策略是“一報(bào)還一報(bào)”_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/44966962-c788-4a50-9d9e-adb8ad30cfb3/44966962-c788-4a50-9d9e-adb8ad30cfb31.gif)
![陸天然:博弈的最佳策略是“一報(bào)還一報(bào)”_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/44966962-c788-4a50-9d9e-adb8ad30cfb3/44966962-c788-4a50-9d9e-adb8ad30cfb32.gif)
![陸天然:博弈的最佳策略是“一報(bào)還一報(bào)”_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/44966962-c788-4a50-9d9e-adb8ad30cfb3/44966962-c788-4a50-9d9e-adb8ad30cfb33.gif)
![陸天然:博弈的最佳策略是“一報(bào)還一報(bào)”_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/44966962-c788-4a50-9d9e-adb8ad30cfb3/44966962-c788-4a50-9d9e-adb8ad30cfb34.gif)
![陸天然:博弈的最佳策略是“一報(bào)還一報(bào)”_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/44966962-c788-4a50-9d9e-adb8ad30cfb3/44966962-c788-4a50-9d9e-adb8ad30cfb35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、陸天然:博弈的最佳策略是“一報(bào)還一報(bào)”互聯(lián)網(wǎng)時(shí)代的世界觀關(guān)系宇宙導(dǎo)讀之七十九由陸天然、葉舟、胡均亮合著、國務(wù)院研究室中國言實(shí)出版社出版發(fā)行的互 聯(lián)網(wǎng)時(shí)代方法論叢書第一卷互聯(lián)網(wǎng)時(shí)代的世界觀關(guān)系宇宙一書科學(xué)地論 證了博弈的最佳策略是“一報(bào)還一報(bào)”。生活中的“一報(bào)還一報(bào)”合作策略什么是“一報(bào)還一報(bào)”策略?即“人不犯我,我不犯人,人若犯我,我必犯人”。為了進(jìn)一步理解“一報(bào)還一報(bào)”策略,在此不妨首先看看三個(gè)小故事:故事一:一次,張作霖逛街正自得其樂,突然聽到一聲吆喝,嚇得他打了個(gè)哆嗦,回頭一看,原來是個(gè)賣豆腐腦的,挑著擔(dān)子正從小巷里走出來。張大帥大怒:“給 我抓起來! ”賣豆腐腦的莫名其妙地被一直拉進(jìn)大
2、帥府。“我要槍斃他! ”張作霖說著,把小販一直拖到操場上。只聽“砰”的一聲槍響,小販即癱軟在地。不 一會兒,只見小販蠕動著身子,爬了起來。奇怪,身體絲毫無傷。這時(shí),張作霖 得意地說:“剛才你嚇我一跳,現(xiàn)在我嚇你一死?!惫适露荷鲜兰o(jì)初,張作霖所屬的東北軍有兩名士兵無故被日本查道兵打死了,事后日方賠給士兵家屬每戶120元。張作霖對此十分憤怒,下令東北軍:“碰到日本 查道兵就打,我也有錢?!睎|北軍得令后,很快打死了12個(gè)日兵,惹得日本駐沈陽領(lǐng)事跑去找張作霖,提出抗議,要求:一、懲兇;二、道歉;三、賠償;四、 保證不再有類似事件發(fā)生。結(jié)果,張作霖這樣回復(fù):一、“胡子”殺了人跑了,既捉不到,自難嚴(yán)懲;
3、二、不是東北軍干的事,為什么要我道歉;三、東北“胡子”很多,無法保證以后不再發(fā)生,四、賠償可辦到,依日本兵打死東北軍一人賠120元賠償。日本領(lǐng)事聞言無可奈何,此事只好不了了之。故事三:一個(gè)面包師每天從他一位農(nóng)民鄰居那兒購買黃油。有一天,他覺得本應(yīng)該是3磅重一包的黃油似乎太輕了點(diǎn)。于是他開始定期地稱一稱黃油,發(fā)現(xiàn)每回都是分量不足,這等于他每次都多付了錢。他特別生氣,便開始提起訴訟。這一來事情就鬧到了法官面前?!澳鷽]有天平嗎?”法官問農(nóng)民。“有哇,法官先生,我有一架天平?!鞭r(nóng)民回答道?!坝泻軠?zhǔn)的砝碼嗎?”“沒有,法官先生,我不需要砝碼?!薄皼]有砝碼,那你怎么稱黃油呢?”“這好辦,”農(nóng)民回答說,“你
4、瞧,就在面包師從我這兒買黃油的那段時(shí)間,我也一直買他的面包。我總是要同樣重的面包。每次這些面包就作為稱黃油的砝 碼。如果砝碼不準(zhǔn),那就不是我的過錯(cuò),而是他的過錯(cuò)了。于是,法官判定農(nóng)民無罪,而面包師不得不承擔(dān)訴訟的費(fèi)用。很顯然,誰都不是傻瓜。我們怎樣對待世界,世界就會同樣對待我們;我們 怎樣對待周圍的人,周圍的人也會同樣對待我們。把自己最好的東西給別人,就 會從別人那里獲得最好的東西。幫助別人越多,得到也會越多;愈吝嗇就愈會一 無所有再接著講上文圖書訂貨商的故事分析:劉收到了訂貨商的錢而未發(fā)貨,是劉首先選擇了背叛,那么,別人很快便不 敢再交錢給劉了,不敢再跟劉往下合作下去了。劉因?yàn)榈谝惠喯炔扇”?/p>
5、叛,很快 被首先淘汰出局了。這就是最典型的一一一報(bào)還一報(bào)合作策略。劉如果選擇合作對方也會選擇繼續(xù)合作。劉如果選擇背叛對方也會選擇直接背叛。其實(shí),“一報(bào)還一報(bào)策略”在社會生活中最為常見:我贊美你,你立即報(bào)以笑臉;我過年送了一筐蘋果給你,你“五一”送一箱“王老吉”給我;我給你撓背,你也給我洗頭,等等,諸如此類的事都是最常見 的一報(bào)還一報(bào)。那么,“一報(bào)還一報(bào)”合作策略究竟是聰明的策略還是愚蠢的策略?究竟會 給自己帶來什么呢?“一報(bào)還一報(bào)”為什么會勝利?合作是人類最有利的生存方式,多數(shù)人都相信這一結(jié)論。但多數(shù)人是否選擇 合作,卻不一定,因?yàn)槿藗儗λ耸欠窈献餍拇嬉蓱]。有一個(gè)著名的假設(shè):囚徒困境?!扒敉?/p>
6、困境”是1950年美國蘭德公司提出的博弈論模型。兩個(gè)共謀犯罪的 人被關(guān)入監(jiān)獄,不能互相溝通情況。如果兩個(gè)人都不揭發(fā)對方,則由于證據(jù)不確 定,每個(gè)人都坐牢一年;若一人揭發(fā),而另一人沉默,則揭發(fā)者因?yàn)榱⒐Χ⒓?獲釋,沉默者因不合作而入獄 5年;若互相揭發(fā),則因證據(jù)確實(shí),二者都判刑 3 年。由于囚徒無法信任對方,因此傾向于互相揭發(fā),而不是同守沉默囚徒困境講述的就是在信息不對稱的前提下, 人與人合作與背叛選擇中利益 最大化的思維模擬。C (合作)D (背叛)C (合作)甲=3,乙=3甲=0,乙=5D (背叛)甲=5,乙=0甲=1,乙=1從上圖可知,甲乙雙方都選擇合作,收益為 6,任何一方背叛,總收益
7、為5, 雙方都選擇背叛,總收益為2。以此來看,合作會比背叛有利多了。問題在于,兩個(gè)囚徒真的會作出對雙方 有利的選擇而不是只顧自己嗎?現(xiàn)實(shí)中的囚徒,常常彼此揭發(fā),愿意選擇合作、 共守秘密的反倒是極少數(shù)。因此,有人認(rèn)為,雖然合作與信任是人類社會得以存在和發(fā)展的基礎(chǔ),但它 們總會被自私所侵蝕?;舨妓股踔恋贸鲆粋€(gè)極悲觀的結(jié)論: 無論人與人還是國與 國的關(guān)系,隨著資源稀缺的加劇,都會變得更接近狼與狼的關(guān)系。但我們看到,現(xiàn)代社會雖說資源危機(jī)深重,終究沒有淪為原始叢林,有合作 善意的人群還沒有滅絕,人與人之間的溫情和信任也沒有消失一一自私和克制自 私,似乎同樣屬于人類本能。人類之所以不會墮落為狼群,可能是因
8、為,人類掌握了一個(gè)簡單的“法寶”: 一 報(bào)還一報(bào)。為了驗(yàn)證這一推測,同時(shí)也是為了探索合作中不同策略的規(guī)律,美國密歇根 大學(xué)政治學(xué)家羅伯特阿克塞爾羅德想出了一個(gè)聰明的辦法。他向當(dāng)時(shí)博弈論專 家們發(fā)出了廣告邀請,讓有興趣參賽的博弈論專家和一些社會學(xué)家, 各自設(shè)計(jì)一 種自認(rèn)為最好的博弈策略,來參加他的“博弈策略”比賽第一次實(shí)驗(yàn)中,他收到14個(gè)“策略參賽者”比賽。加上自己的第 15個(gè)策略 程度“隨機(jī)策略”,也就是沒有策略的策略,隨機(jī)地出“合作”或“背叛”牌。 如果前面14個(gè)策略在比賽中比隨機(jī)策略得分還低,那就證明那個(gè)策略設(shè)計(jì)十分 可悲和難堪。15個(gè)策略,共進(jìn)行了 225輪相互“比賽”,每場“比賽”都玩
9、到了 200個(gè)回 合。由于參賽者都是當(dāng)世博弈論專家,故有些參賽程序看起來設(shè)計(jì)得非常聰明, 但比 賽結(jié)果卻令人出乎預(yù)料。冠軍策略居然是一一一報(bào)還一報(bào)。此策略是加拿大多倫多大學(xué)著名博弈論心理學(xué)家拉波波特教授提供。一報(bào)還一報(bào)策略非常簡單:第一回合采取合作,然后再一回合都重復(fù)對手上一回合的策 略。令人跌破眼鏡的是,在15個(gè)參賽策略中,最失敗的居然是那個(gè)設(shè)計(jì)最復(fù)雜 的策略?!耙粓?bào)還一報(bào)”為什么會贏?因?yàn)楫?dāng)遇到合作者時(shí),他永遠(yuǎn)采取合作,故針對合作者來說,其得分也最高。 當(dāng)遇到狡詐者背叛者時(shí),你怎么來,我也怎么對付你,因此,也差不到哪里去。 由此“一此還一報(bào)”得出:一是一一一開始采取合作姿態(tài)一一善良;二是不
10、首先背叛講原則;三是一一對背叛者予以背叛懲罰一一正義;四是一一當(dāng)背叛者改正后我也不再背叛一一寬恕;五是一一對合作者的高分不嫉妒一一平衡由“一報(bào)還一報(bào)”的勝利,同樣也可推導(dǎo)出是人性的光輝的勝利,如善良、光明正大、講原則、講誠信,能理解別人的成功,能分享別人的成功,能包容寬恕別人等,這都是人性中最美好的部分。阿克塞爾多德組織了第一屆博弈策略競賽之后不久,又召開了第二屆比賽。這次,阿克塞爾羅德共收到62套策略程度,加上他“沒有策略的策略”即“隨機(jī)策略”,共63套策略參賽。而且,主辦者還將第一屆的勝利者及原因分析都告知了參與第二次比賽策略設(shè)計(jì)的所有人。比賽結(jié)果很快又出來了,依然還是拉波波特的“一報(bào)還一
11、報(bào)”策略再度獲勝。 而且,善良策略普遍表現(xiàn)得比狡詐的策略好。在前 15名中,只有一個(gè)不是善良策 略,在后15名中只有一個(gè)不是“狡詐”策略。不過,著名生物學(xué)家演化博弈論的奠基人之一史密斯設(shè)計(jì)“兩怨還一報(bào)”的“超級寬恕一一好好先生”策略居然被狡詐的策略“群狼”所“擊敗”。正因?yàn)槿绱?,阿克塞爾羅德又進(jìn)行了一輪比賽。他沒有征集新的策略,而是 在改變電腦程序后,讓第二屆所有參賽策略再進(jìn)行比寒。他想找出史密斯的“演 化穩(wěn)定策略”。第三屆比賽結(jié)果表明:幾乎所有”詭詐型“策略都在200代左右完全消失了?!耙粓?bào)還一報(bào)”仍表現(xiàn)得很出色。其他五種“善良而勇敢”、“善良而精明”、“善良聰明堅(jiān)定”等策略也獲得了同樣的成
12、功。對于這一演化博弈結(jié)果,生物學(xué)家道金斯(名著自私基因的作者)不無 感慨地歸納道:即使有自私的基因掌權(quán)控制,好人仍能得到好報(bào)!三次比賽總結(jié)出“一報(bào)還一報(bào)”勝利原因如下:勝利原因之一本性善良(第一步合作);勝利原因之二一一正義(對丑惡立即反擊);勝利原因之三一一寬?。愀恼笪胰院献鳎?;勝利原因之四一一誠信(我自己不首先背叛);勝利原因之五一一平衡(不嫉妒強(qiáng)者);勝利總原因是一一大愛是唯一的指引。從以上三次比賽中,我們還可以得出:關(guān)系穩(wěn)定進(jìn)化,是每個(gè)人都希望追求的結(jié)果。因?yàn)槊總€(gè)人的財(cái)富名譽(yù)地位, 都得建立在穩(wěn)定的關(guān)系進(jìn)化上;因?yàn)槊總€(gè)人的快樂幸福自由,都得依靠穩(wěn)定的關(guān) 系進(jìn)化。人與人之間有了許多相
13、處策略,唯有采取合作,采取大愛才是最佳的選擇, 才會使彼此共生共享共贏。否則,就會存在潛在的風(fēng)險(xiǎn),相互在背叛中折磨?!耙粓?bào)還一報(bào)”的六種優(yōu)良特征如何運(yùn)用“一報(bào)還一報(bào)”策略?其特征是什么?下文引用一位專家的文章:“一報(bào)還一報(bào)”策略,在國內(nèi)大部分人都理解為“以其人之道,還治其人之 身”、“以牙還牙”等,但這些詞語都是貶義詞,就有誤解“一報(bào)還一報(bào)”策略 的意義。因此,有必要說明“一報(bào)還一報(bào)”策略的真正含義。 “一報(bào)還一報(bào)”的 策略很簡單,就是首先第一步選擇合作,其后的每一步都選擇跟對方上一步相同 的策略。但是“一報(bào)還一報(bào)”策略卻具有一般策略所不具有的優(yōu)點(diǎn)。阿克塞爾羅德給出了 “一報(bào)還一報(bào)”策略 6種
14、優(yōu)良特征:是具有善良性,它不首先背叛。在計(jì)算機(jī)競賽中,凡是善良的規(guī)則之間相處得很好,也就是能得到較高收益。只要對方不背叛,每個(gè)善良的規(guī)則一定是持 續(xù)合作直到最后一步。二是具有寬容性。就是別人只背叛一次,“一報(bào)還一報(bào)”只報(bào)復(fù)別人的一次。 而那些不太寬容的規(guī)則有可能會在報(bào)復(fù)別人的同時(shí), 也是在自我報(bào)復(fù),故而在計(jì) 算機(jī)競賽中這些不太寬容的規(guī)則收益也較低。 因?yàn)?,“一旦一方的背叛誘發(fā)一長 串的報(bào)復(fù)和反報(bào)復(fù),雙方都要吃虧?!边@是人們考慮“反射效應(yīng)”不深入的緣故。 一般的人都會想第一層次,“即選擇的直接效果,那就是背叛比合作來得收益高。 第二層次是選擇的間接效果,即考慮對方是否會出發(fā)自己的背叛。 但是第三
15、層次 就很少有人考慮了,即為了反應(yīng)對方的背叛行為,有人就會重復(fù)甚至擴(kuò)大自己以 前的挑釁性選擇。一個(gè)孤立的背叛變成了一連串無休止的報(bào)復(fù)。”三是具有韌性。就是“一報(bào)還一報(bào)”策略不僅能夠跟那些不太善良的策略相處而得到較高的收益,而且也能夠跟那些善良的策略相處而得到較高的收益,這就表明它在很大的環(huán)境中表現(xiàn)極佳。四是策略具有明晰性,在使用“一報(bào)還一報(bào)”策略時(shí),別人能夠很快識別出 你的策略。五是不占他人便宜。從兩次競賽的結(jié)果,“一報(bào)還一報(bào)”策略并不比其他的 策略的收益高多少。因?yàn)椋噲D占便宜可以引起如下的風(fēng)險(xiǎn):一種是如果一個(gè)策 略用背叛試探是否可以占便宜,它就得冒被那些可激怒的規(guī)則報(bào)復(fù)的風(fēng)險(xiǎn); 另一 種是雙方反擊一旦開始,就難以擺脫僵局;第三種是放棄了其他的一些合作機(jī)會。六是報(bào)復(fù)性,而且
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 讓課堂充滿生機(jī)與活力
- 2025年槍托項(xiàng)目可行性研究報(bào)告
- 2025年度航空航天裝備研發(fā)合作合同
- 信用社終止貸款合同范本
- 儲值合同范本
- 保時(shí)捷買賣合同范本
- 公司對個(gè)人轉(zhuǎn)讓合同范例
- 優(yōu)信網(wǎng)出租車合同范例
- 交通管制合同范本
- 企業(yè)公司聘用合同范本
- 高職應(yīng)用語文教程(第二版)教案 3管晏列傳
- 高中物理《光電效應(yīng)》
- 烹飪實(shí)訓(xùn)室安全隱患分析報(bào)告
- 《金屬加工的基礎(chǔ)》課件
- 運(yùn)輸行業(yè)春節(jié)安全生產(chǎn)培訓(xùn) 文明駕駛保平安
- 體驗(yàn)式沙盤-收獲季節(jié)
- 找人辦事協(xié)議
- 老年護(hù)理陪護(hù)培訓(xùn)課件
- 醬香型白酒工廠設(shè)計(jì)
- 第3章 環(huán)境感知技術(shù)
- 牽引管道孔壁與管道外壁之間注漿技術(shù)方案
評論
0/150
提交評論