今次系博弈论专题嘅第五集,题目叫:KMRW定理
博弈论假设参与者都是理性的人,学习博弈论我们学习嘅亦都系理性的决策,而理性人一切行动都是为左自己嘅利益。但系另一方面,父母同我地讲:要做个好人。那你说理性的人,仲有无可能系好人呢?
有人认为,我们生活嘅呢个世界系由弱肉强食的丛林法则所主导,好人都比较愚蠢。但我地总会发现,有D人在任何情况下都选择做好人。那博弈论是怎么看待好人的呢?
以前有个电视节目是这样的 [1]。两个人组队答题,题目都很简单,答对一些题之后两人会获得一笔奖金,有几千美元。节目的最大亮点系怎么平分哩笔钱。
规则系每人在一张纸条上写低“朋友”或者“敌人”其中一个词。如果两人写的都是“朋友”,就平分这笔钱。如果一个人写“朋友”一个人写“敌人”,那么写“敌人”的人就拿走所有的钱;如果两个人写的都是敌人,咁就双方都得不到任何野。
这是一个典型的囚徒困境,而且博弈只发生一次。写“敌人”,要么你就拿到所有的钱,要么你就一分钱都拿不到。写“朋友”,要么你就一分钱都拿不到,要么你只能够得到一半嘅钱。根据我地之前讲过嘅内容,显然两个人的压倒性策略都是写“敌人”。
然而节目中的真实情况是53.7%的女性和47.5%的男性都选择了合作,他们选择写“朋友”。
哩D人系金钱面前选择相信一个素昧平生的人。他们宁愿被人背叛亦都唔愿意背叛其他人。他们选择了做好人。
类似这样的研究好多书都有写,甚至有经济学家还专门去监狱,令真正的囚徒玩囚徒困境的游戏 [2]。这些研究的结果高度一致:有一半、甚至一半以上嘅人选择做好人。
难道这些人都是非理性的吗?
其中一个解释系这些人的确有点非理性了,因为他们玩这种游戏仲不够熟练。我们之前亦都讲过,人系度做熟悉事情嘅时候通常是相当理性的。比如有实验证明 [1,3],如果一群人连续跟不同的对手玩过几次囚徒困境游戏,他们的行为就会趋于理性,会更多地选择背叛。哩个道理,就好似在社会中见识过人性险恶,人自然就变得成熟一样。
但有意思的是,如果两个固定嘅玩家玩100次囚徒困境嘅游戏,距地会选择大量咁合作,一直到最后几轮先开始互相背叛。
这种现象似乎容易理解,我们在熟人面前通常中意做好人。但是,简单的博弈论分析并不支持这个做法!这个现象,曾经是一个著名的悖论。
上一集我们讲过,重复博弈会促进合作,因为你可以惩罚那些不合作的人。但是请注意,上一集说嘅重复博弈,其实有个隐含的假设,就是重复嘅次数系无限次。其实在有限次数嘅重复博弈中,按道理讲,正常情况下系唔应该合作。
这个结论有点怪,但是逻辑很清楚。比如两个人总共要进行100次囚徒困境博弈。我地先考虑最后一次博弈。这时候因为后面没有惩罚的机会了,重复博弈呢个时候已经变成单次博弈,双方的压倒性策略显然都是背叛。
好,那既然如此,第99次博弈的时候你会点做?双方都已经计算出下次对方肯定背叛,咁按道理讲,今次亦都唔可以合作。所以第99次博弈必定亦都系互相背叛。
咁同样道理,第98次博弈亦都应该互相背叛,如此重复咁落去就得出一个结论:有限次重复博弈当中嘅每一次博弈都应该互相背叛先正确。
但系实验入面,点解唔系咁呢?两个人直到最后阶段才背叛,前面系连续嘅合作。唔系唔因为他们不会计算吗?对此,至少有两个解释。
一个解释 [3] 认为,真实生活中的博弈次数的确是有限的,但亦都系随机的。亦姐系话,如果我们不知道互相还会有几次博弈,甚至不知道下次还会不会有博弈嘅机会,那么为了避免将来*可能的*惩罚,我们应该继续选择合作。正所谓“做人留一线,日后好相见。”所以系度告诫各位女士,你地同男友分手个阵,就唔好咁狠心拉。
还有一种解释 [4] 认为,就算我们明确知道未来还会有多少次博弈,理性选择亦都应该是先合作。这个理论 系1982年才被四个经济学家提出来的,叫“模型” [5],呢个模型非常有意思,分析左我地到底要不要做好人这个重大问题。
“模型”这个解释的关键在于,对方到底是不是个理性的人,这个信息是*不完全*的,就叫做“不完全信息博弈”。如果双方都明确知道对方是理性的人,咁有限次重复博弈就不会有合作。可是社会上有些人就愿意当好人,佢地愿意合作。那么当你面对一个好人的时候,你是合作还是背叛呢?“模型”的理性选择是合作。
我们假设博弈双方是A和B两个人。 A系个喜欢合作的好人,B系个自私自利整天坑蒙拐骗的坏人。两人第一次博弈,B发现A没有背叛他,A居然和他合作了。
B就会想,A这个人是不是有点傻呢?那B应该怎么办呢?
如果囚徒困境要进行很多轮的话,合作对双方都有好处。这次B占了便宜,但是B知道A但凡有点脑子,无可能永远占到距便宜。与其把A教育成坏人,还不如陪着他当好人,这样长期下来两个人都有好处。
所以B在下一轮选择了合作。当然我们知道,B之所以这么选,是因为他觉得A有点傻,A肯定会跟他合作。如果对别人,B可不敢这么干。
这样几轮合作下来,A一看B每次都和他合作,他会认为B也是个好人!就这样,一个可能是真好人,一个是假装的好人,两人就这么一路合作下去了。直到最后的几轮,他们才会露出本来嘅真面目。
这个理论叫做“KMRW定理”,是用四个经济学家姓名的首字母命名。
KMRW定理说,在不完全信息博弈中,参与者不知道对方是好人还是理性人。只要博弈重复的次数足够多,合作能够带来足够多嘅好处的话,双方都会愿意维护自己系好人咁样嘅一个声誉,前期尽可能保持合作,到最后才选择背叛。
这个A和B的故事唔知道你会唔会觉得有点熟悉?《射雕英雄传》里,黄蓉和郭靖刚刚相遇的时候,黄蓉是个理性人,知道江湖险恶,所以中意坑蒙拐骗。但黄蓉发现郭靖的行为有点傻,居然是个好人。于是黄蓉亦都选择做好人,呢个行为在博弈论专家看来是完全理性。结果两个好人就快乐地生活系一齐。
那我们现在回头想想,黄蓉到底是装好人,还是她本来就是个好人呢?更进一步讲,当初的郭靖到底是真好人,还是装好人呢?
从博弈论嘅角度来说,这些问题已经不重要了。我地系大多数情况下无办法区分一个好人和一个理性人。
张维迎在《博弈与社会》这本书里讲到,KMRW定理可以解释到底乜系“大智若愚”。
“智”,就是人要自私,一切嘅行动都是为左自己嘅利益。“愚”,就是宁可吃亏也不背叛别人。每一轮都选择背叛,睇上去似自私,其实只是“小智”。而如果宁可吃点亏也要选择合作,你就会建立一个良好的声誉,就会有更加多嘅人跟你合作,从长期哩睇,咁先系“大智”。
哩个观点就令我霖起一个笑话。据说小镇上有个傻青年,别人都中意同佢玩个游戏。在地上摆一张十元和一张二十元,他每次都捡那张十元的。后来有个外地人来到小镇,慕名找到这个青年玩这个游戏,他果然选择左十元的钞票。外地人就忍不住问这个青年,说你为啥不捡二十元的钞票呢?
青年说,我要是捡二十元的钞票,就无人会再同我玩呢个游戏了。
所以理性人有充分的理由不暴露自己是个理性人,你应该假装自己是个好人。
那装好人要装到哪一步为止呢?有限次重复博弈的实验中,双方通常是到了倒数第二次博弈才暴露自己的理性人面目,选择背叛。生活中有些人的确是这么干的。比如我地会听讲过“59岁现象”,意思姐系老老实实工作一辈子,临退休个阵捞一把大的。
但是59岁暴露可能还是太早了。人生的博弈并唔系系退休那一刻终止,你除了工作还有很多别的博弈,好人的声望可能都一直有用!
所以,前面讲甘多,结论就黎了。你应该需要扮好人,装到生命嘅最后一刻。
就好像一个著名嘅沟女段子,恋爱中的男女,女仔问男仔,你对我那么好是不是在骗我呢?而男孩的回答非常符合博弈论精神,说如果我是在骗你,那就让我骗你一辈子吧。
那既然装好人有这么大的好处,我们为什么不做一个真的好人呢?跟人合作并不是因为合作有好处,而是我单纯认为这么做是对的!这样行不行呢?
博弈论专家绝对不会建议你去做真正的好人。
好人经常对世界有一厢情愿的期待。有D好人认为他能感化别人,他觉得如果我这次跟其他人合作,哪怕吃了亏,下一次别人也会因为不好意思、或者为了报答我而选择跟我合作。博弈论专家会说这种想法非常危险。事实上,如果你身处一个比较险恶的社会环境,那么,你不但不应该做个好人,而且应该要装坏人 [6]。
不过话时话,做真正的好人的确有个重大好处,那就是你会自我感觉很好。为了维持这个良好感觉,你宁可牺牲金钱的利益。这大约就是为什么在开头的那些实验里,有一半的人一上来就选择了合作嘅原因。
现代社会就是这样,通俗小说、电影和电视剧里一般都是好人取得最后胜利。你生活嘅环境,一直被这样的文化所熏陶,就不自觉地想要跟好人一齐。好人跟好人之间形成左一个想象的共同体。可能,佢只系一个幻觉,但是没办法,想象的共同体是最强大的社会力量。
这种感觉有时候会如此强烈,以至于我们认为物质利益都是不值得的。这其实也是理性的选择!只要你知道自己心中什么最重要就行。
好了,以上就系今次嘅全部内容,欢迎你地嘅收听。
参考文献
[1]Avinash K. Dixit and Barry J. Nalebuff, The Art of Strategy: A Game Theorist'sGuide to Success in Business and Life (2008).
[2] MAXNISEN, Scientists tested the 'Prisoner's Dilemma' on actual prisoners — and theresults were not what you would expect, www.businessinsider.com.au, July2013.
[3] DavidLevine, Is Behavioral Economics Doomed? The Ordinary versus the Extraordinary(2012).
[4]张维迎,《博弈与社会》(2013)。
[5]Kreps D., R. Milgrom, J. Roberts and R. Wilson, Rational cooperation inthe finitely repeated prisoners' dilemma, Journal of Economic theory,1982.
[6]我们精英日课专栏有一篇文章叫《做坏人的好处》。
BensonWang8899
这个栏目超级好,既可以学知识,又可以粤语
何明谦17666 回复 @BensonWang8899:
被和谐删了
BensonWang8899
期待把博弈论继续开讲
BensonWang8899
难得的用粤语说经济学,很好
BensonWang8899
请问怎样可以听集?
BensonWang8899 回复 @BensonWang8899:
请问怎样可以听全集?
拥抱ok
全部听完啦。期待更新