博弈论5:KMRW定理

2024-04-01 12:47:0411:51 4566

所属专辑：博弈论 | 精简版（粤语）

声音简介

今次系博弈论专题嘅第五集，题目叫：KMRW定理

博弈论假设参与者都是理性的人，学习博弈论我们学习嘅亦都系理性的决策，而理性人一切行动都是为左自己嘅利益。但系另一方面，父母同我地讲：要做个好人。那你说理性的人，仲有无可能系好人呢？

有人认为，我们生活嘅呢个世界系由弱肉强食的丛林法则所主导，好人都比较愚蠢。但我地总会发现，有D人在任何情况下都选择做好人。那博弈论是怎么看待好人的呢？

以前有个电视节目是这样的 [1]。两个人组队答题，题目都很简单，答对一些题之后两人会获得一笔奖金，有几千美元。节目的最大亮点系怎么平分哩笔钱。

规则系每人在一张纸条上写低“朋友”或者“敌人”其中一个词。如果两人写的都是“朋友”，就平分这笔钱。如果一个人写“朋友”一个人写“敌人”，那么写“敌人”的人就拿走所有的钱；如果两个人写的都是敌人，咁就双方都得不到任何野。

这是一个典型的囚徒困境，而且博弈只发生一次。写“敌人”，要么你就拿到所有的钱，要么你就一分钱都拿不到。写“朋友”，要么你就一分钱都拿不到，要么你只能够得到一半嘅钱。根据我地之前讲过嘅内容，显然两个人的压倒性策略都是写“敌人”。

然而节目中的真实情况是53.7%的女性和47.5%的男性都选择了合作，他们选择写“朋友”。

哩D人系金钱面前选择相信一个素昧平生的人。他们宁愿被人背叛亦都唔愿意背叛其他人。他们选择了做好人。

类似这样的研究好多书都有写，甚至有经济学家还专门去监狱，令真正的囚徒玩囚徒困境的游戏 [2]。这些研究的结果高度一致：有一半、甚至一半以上嘅人选择做好人。

难道这些人都是非理性的吗？

其中一个解释系这些人的确有点非理性了，因为他们玩这种游戏仲不够熟练。我们之前亦都讲过，人系度做熟悉事情嘅时候通常是相当理性的。比如有实验证明 [1,3]，如果一群人连续跟不同的对手玩过几次囚徒困境游戏，他们的行为就会趋于理性，会更多地选择背叛。哩个道理，就好似在社会中见识过人性险恶，人自然就变得成熟一样。

但有意思的是，如果两个固定嘅玩家玩100次囚徒困境嘅游戏，距地会选择大量咁合作，一直到最后几轮先开始互相背叛。

这种现象似乎容易理解，我们在熟人面前通常中意做好人。但是，简单的博弈论分析并不支持这个做法！这个现象，曾经是一个著名的悖论。

上一集我们讲过，重复博弈会促进合作，因为你可以惩罚那些不合作的人。但是请注意，上一集说嘅重复博弈，其实有个隐含的假设，就是重复嘅次数系无限次。其实在有限次数嘅重复博弈中，按道理讲，正常情况下系唔应该合作。

这个结论有点怪，但是逻辑很清楚。比如两个人总共要进行100次囚徒困境博弈。我地先考虑最后一次博弈。这时候因为后面没有惩罚的机会了，重复博弈呢个时候已经变成单次博弈，双方的压倒性策略显然都是背叛。

好，那既然如此，第99次博弈的时候你会点做？双方都已经计算出下次对方肯定背叛，咁按道理讲，今次亦都唔可以合作。所以第99次博弈必定亦都系互相背叛。

咁同样道理，第98次博弈亦都应该互相背叛，如此重复咁落去就得出一个结论：有限次重复博弈当中嘅每一次博弈都应该互相背叛先正确。

但系实验入面，点解唔系咁呢？两个人直到最后阶段才背叛，前面系连续嘅合作。唔系唔因为他们不会计算吗？对此，至少有两个解释。

一个解释 [3] 认为，真实生活中的博弈次数的确是有限的，但亦都系随机的。亦姐系话，如果我们不知道互相还会有几次博弈，甚至不知道下次还会不会有博弈嘅机会，那么为了避免将来*可能的*惩罚，我们应该继续选择合作。正所谓“做人留一线，日后好相见。”所以系度告诫各位女士，你地同男友分手个阵，就唔好咁狠心拉。

还有一种解释 [4] 认为，就算我们明确知道未来还会有多少次博弈，理性选择亦都应该是先合作。这个理论系1982年才被四个经济学家提出来的，叫“模型” [5]，呢个模型非常有意思，分析左我地到底要不要做好人这个重大问题。

“模型”这个解释的关键在于，对方到底是不是个理性的人，这个信息是*不完全*的，就叫做“不完全信息博弈”。如果双方都明确知道对方是理性的人，咁有限次重复博弈就不会有合作。可是社会上有些人就愿意当好人，佢地愿意合作。那么当你面对一个好人的时候，你是合作还是背叛呢？“模型”的理性选择是合作。

我们假设博弈双方是A和B两个人。 A系个喜欢合作的好人，B系个自私自利整天坑蒙拐骗的坏人。两人第一次博弈，B发现A没有背叛他，A居然和他合作了。

B就会想，A这个人是不是有点傻呢？那B应该怎么办呢？

如果囚徒困境要进行很多轮的话，合作对双方都有好处。这次B占了便宜，但是B知道A但凡有点脑子，无可能永远占到距便宜。与其把A教育成坏人，还不如陪着他当好人，这样长期下来两个人都有好处。

所以B在下一轮选择了合作。当然我们知道，B之所以这么选，是因为他觉得A有点傻，A肯定会跟他合作。如果对别人，B可不敢这么干。

这样几轮合作下来，A一看B每次都和他合作，他会认为B也是个好人！就这样，一个可能是真好人，一个是假装的好人，两人就这么一路合作下去了。直到最后的几轮，他们才会露出本来嘅真面目。

这个理论叫做“KMRW定理”，是用四个经济学家姓名的首字母命名。

KMRW定理说，在不完全信息博弈中，参与者不知道对方是好人还是理性人。只要博弈重复的次数足够多，合作能够带来足够多嘅好处的话，双方都会愿意维护自己系好人咁样嘅一个声誉，前期尽可能保持合作，到最后才选择背叛。

这个A和B的故事唔知道你会唔会觉得有点熟悉？《射雕英雄传》里，黄蓉和郭靖刚刚相遇的时候，黄蓉是个理性人，知道江湖险恶，所以中意坑蒙拐骗。但黄蓉发现郭靖的行为有点傻，居然是个好人。于是黄蓉亦都选择做好人，呢个行为在博弈论专家看来是完全理性。结果两个好人就快乐地生活系一齐。

那我们现在回头想想，黄蓉到底是装好人，还是她本来就是个好人呢？更进一步讲，当初的郭靖到底是真好人，还是装好人呢？

从博弈论嘅角度来说，这些问题已经不重要了。我地系大多数情况下无办法区分一个好人和一个理性人。

张维迎在《博弈与社会》这本书里讲到，KMRW定理可以解释到底乜系“大智若愚”。

“智”，就是人要自私，一切嘅行动都是为左自己嘅利益。“愚”，就是宁可吃亏也不背叛别人。每一轮都选择背叛，睇上去似自私，其实只是“小智”。而如果宁可吃点亏也要选择合作，你就会建立一个良好的声誉，就会有更加多嘅人跟你合作，从长期哩睇，咁先系“大智”。

哩个观点就令我霖起一个笑话。据说小镇上有个傻青年，别人都中意同佢玩个游戏。在地上摆一张十元和一张二十元，他每次都捡那张十元的。后来有个外地人来到小镇，慕名找到这个青年玩这个游戏，他果然选择左十元的钞票。外地人就忍不住问这个青年，说你为啥不捡二十元的钞票呢？

青年说，我要是捡二十元的钞票，就无人会再同我玩呢个游戏了。

所以理性人有充分的理由不暴露自己是个理性人，你应该假装自己是个好人。

那装好人要装到哪一步为止呢？有限次重复博弈的实验中，双方通常是到了倒数第二次博弈才暴露自己的理性人面目，选择背叛。生活中有些人的确是这么干的。比如我地会听讲过“59岁现象”，意思姐系老老实实工作一辈子，临退休个阵捞一把大的。

但是59岁暴露可能还是太早了。人生的博弈并唔系系退休那一刻终止，你除了工作还有很多别的博弈，好人的声望可能都一直有用！

所以，前面讲甘多，结论就黎了。你应该需要扮好人，装到生命嘅最后一刻。

就好像一个著名嘅沟女段子，恋爱中的男女，女仔问男仔，你对我那么好是不是在骗我呢？而男孩的回答非常符合博弈论精神，说如果我是在骗你，那就让我骗你一辈子吧。

那既然装好人有这么大的好处，我们为什么不做一个真的好人呢？跟人合作并不是因为合作有好处，而是我单纯认为这么做是对的！这样行不行呢？

博弈论专家绝对不会建议你去做真正的好人。

好人经常对世界有一厢情愿的期待。有D好人认为他能感化别人，他觉得如果我这次跟其他人合作，哪怕吃了亏，下一次别人也会因为不好意思、或者为了报答我而选择跟我合作。博弈论专家会说这种想法非常危险。事实上，如果你身处一个比较险恶的社会环境，那么，你不但不应该做个好人，而且应该要装坏人 [6]。

不过话时话，做真正的好人的确有个重大好处，那就是你会自我感觉很好。为了维持这个良好感觉，你宁可牺牲金钱的利益。这大约就是为什么在开头的那些实验里，有一半的人一上来就选择了合作嘅原因。

现代社会就是这样，通俗小说、电影和电视剧里一般都是好人取得最后胜利。你生活嘅环境，一直被这样的文化所熏陶，就不自觉地想要跟好人一齐。好人跟好人之间形成左一个想象的共同体。可能，佢只系一个幻觉，但是没办法，想象的共同体是最强大的社会力量。

这种感觉有时候会如此强烈，以至于我们认为物质利益都是不值得的。这其实也是理性的选择！只要你知道自己心中什么最重要就行。

好了，以上就系今次嘅全部内容，欢迎你地嘅收听。

参考文献

[1]Avinash K. Dixit and Barry J. Nalebuff, The Art of Strategy: A Game Theorist'sGuide to Success in Business and Life （2008）.

[2] MAXNISEN, Scientists tested the 'Prisoner's Dilemma' on actual prisoners — and theresults were not what you would expect, www.businessinsider.com.au, July2013.

[3] DavidLevine, Is Behavioral Economics Doomed? The Ordinary versus the Extraordinary（2012）.

[4]张维迎，《博弈与社会》（2013）。

[5]Kreps D., R. Milgrom, J. Roberts and R. Wilson, Rational cooperation inthe finitely repeated prisoners' dilemma, Journal of Economic theory,1982.

[6]我们精英日课专栏有一篇文章叫《做坏人的好处》。