39 逆向推理:海盗分钻石的博弈
 1.20万
试听180

39 逆向推理:海盗分钻石的博弈

00:00
15:35

本期课程原文 


今天我们要给大家来介绍博弈决策当中的第三种重要的推理方式,我们把它称为是叫逆向推理。


逆向推理,顾名思义就是指你在做推理的时候,需要从后向前想。为什么我们需要从后向前想?


之所以我们在做决策的时候,需要从后向前想,原因就在于当一个博弈行动有先后顺序的时候,你比如说下棋,下棋的时候一个人先走,一个人后走,然后一步一步不断地进行下去。这个是我们把它称为是叫行动,有先后顺序的博弈。


当一个博弈行动有先后顺序的时候,我们往往会关心一个问题,到底是先走有优势,还是后走有优势。对于这个问题,生活当中是有两个矛盾的说法,一个说法是叫先下手为强,后下手遭殃。是说先走的一个优势。另外一种说法是叫后发制人,是指后行动的具有优势。那么到底是先走有优势,还是后走有优势。


其实和博弈的场景有很大的关系。你比如说我们来想一想下棋,下棋的时候,如果你下的是中国象棋,或者是国际象棋,或者是围棋,下这些棋的时候,你会发现往往是先走的具有先行优势。


那么这一类棋有一个非常明显的特点,那就是明棋。也就说你走什么子,对方能看见,对方知道,其实你走什么子,你知道,对方他也知道;对方走什么子,对方知道,你也知道。


信息是对称的,而且是一个零和博弈,不是你赢对方赢,所以在这种情形下的话,你会发现先行的一方往往会有一定的先行优势。


问题是如果让你先行的话,你怎样才能把握住你先行的优势,实际上要求你要学会逆向推理,也就是从后向前想。


最早提出这种逆向推理思想,并进行完整论述的学者是一位德国的数学家,叫莱因哈德泽尔腾。泽尔腾教授和我们前面所讲的约翰纳什教授,以及美国的海萨尼教授三位一起获得了1994年的诺贝尔经济学奖。


泽尔腾教授是一位数学家,他对数学当中的很多问题都比较感兴趣。那么他在1965年发表了一篇论文,这篇论文和我们博弈论有关系。


在这篇论文当中,他讨论了当一个博弈是行动有先后顺序的博弈,我们专业术语称为是叫动态博弈。他讨论了在这种动态博弈当中,参加博弈的局中人应该如何来做决策?他提出了一个非常重要的概念,叫子博弈的概念,用来刻画在动态博弈当中,对一个局中人做决策的要求,这个要求我们有一个专门术语是叫序贯理性。所谓序贯理性就是指这个人不仅一开始面对博弈的局面,要做最优的决策,而且还要求在博弈的过程当中,他每采取一步行动,都要做到最优。 这个就叫序贯理性。


当然他在论文当中,因为这是一篇数学程度比较高的一篇论文,我们很多人可能看不明白,他到底想讨论一个什么样的问题。


在这篇论文当中,他指出来,如果一个人是序贯理性的,那么他在做决策的时候,就需要学会从后向前想,就是要进行逆向推理。


我们可以给大家举一个例子,这个例子是叫海盗分钻石的博弈。


海盗分钻石博弈在2015年成为了牛津大学的入学试题,它的内容是说有五个海盗得到了一百颗钻石。现在决定首先是通过抓阄的办法,把五个海盗先分成一个顺序,大家五个人过来抓阄,你抓到1号就是1号海盗,抓到2号的话就是2号海盗。


大家按照12345形成一个顺序以后,就按照顺序行动,1号海盗先行动,他要提出一个分配方案,在这个方案当中要规定他自己要几颗钻石,给2号几颗,给3号几颗,给4号几颗,给5号几颗。他把这个方案要公布与众,剩下的四个海盗要对1号的方案进行投票表决。


如果一号的方案要想通过的话,至少要得两张赞成票,得到两张赞成票,他的方案通过了,按照这个方案来分博弈就结束了。但如果说他得不到两张赞成票的话,1号海盗就被扔到大海里去喂鱼。那接下来船上还剩下4个海盗,接着分钻石。


这个时候就轮到2号提方案。2号提完方案以后,也是要把方案公布于众,然后3号4号5号三个人过来投票,三个人过来投票的话,2号的方案要想过关,同样也是需要获得两张赞成票。如果说他得不到这两张赞成票也被扔下去了,得到的话当然要按照他的方案来分了,博弈结束了。


如果说没有得到这两张赞成票,2号被扔下去以后,就由3号来提方案。3号提完方案之后,有4号5号两人过来投票,那么3号至少要得一张赞成票。得不到异常赞成票的话,3号又被扔下去了。


然后是剩下4号和5号两人来分钻石。这时候是4号提方案,5号投票同意还是不同意。在这里只要5号不同意,4号就被扔下去了。如果说只剩下5号一个人,他就可以独吞100颗钻石。


大家先想一想,如果要让你来参加博弈的话,让你来扮演海盗来抓阄,你更希望成为几号?我们很多人都可能会想,肯定是成为5号最好,又没有生命危险,又有可能得到100颗钻石。


但是你会发现,如果说是5号是最好的话,5号是最后行动的人,就是说在博弈当中,后行的一方反倒有优势。


在我们前面给大家提到过,在一个博弈行动有先后顺序的情况下,如果博弈信息是完全的类似于我们所讲的下象棋、下军棋、下围棋,下这些棋的时候,先行一方其实往往会有优势。


也就说在信息透明的情况下,信息完全的情况下,先行一方会有优势。这个博弈你会发现信息其实完全的,因为1号提什么方案要公布于众,他要采取什么行动会让大家看见,2号提什么方案也要公布于众,大家也都能看得见。


这样来看的话,其实应该是1号应该有优势,因为在信息完全的情况下,他又是先行一方。问题是一号怎样才能把握住自己这种,如果他有优势的话,它的优势在什么地方?怎样才能把握住这样一个自己的先行优势?


这个你顺着想,也是看不清1号的先行优势的。你只有倒着想,也就是说你只有逆向推理才能看见1号的优势。倒着想怎么想呢?


我们就可以从5号,剩下5号一个人开始想。这个很简单,剩下他一个人就可以独吞一百颗了。我们再从剩下两人开始想,只剩下4号、5号两个人。这时候4号能提什么方案?他唯一能提的方案就是把100颗钻石都给5号。


注意我们这里假定海盗都是经济人,都关心自身利益的最大化。那么如果4号给5号100颗钻石,5号因为如果他不同意的话,4号扔下去他还是100颗,所以在这时候我们假定5号会选择同意。


换句话说,只剩下4号5号两个人的时候,4号要想活命,唯一的办法是把100颗钻石都归5号,自己是0颗。这是剩下两个人。


对于这种局面的话,对4号来讲显然是不利的,万一要是5号说不同意,自己也未必能保住性命。所以在这种情形下,对于4号来讲,最好的办法是3号提方案的时候,他能够选择同意,避免自己会有生命危险。


我们就想一想,如果说你是3号的话,你会怎么提方案?因为你知道,你被扔下去以后,5号可以得100颗钻石,4号是0颗。


你现在要做的事情实际上是要从4号5号当中,两人拉拢一个人过来支持你。是4号好拉拢还是5号好拉拢?很显然。是4号好拉拢,因为你不在的话,他就是0颗了。所以你要想拉拢他的话,只需给他1颗就可以。


因为对于4号来讲,1颗总比没有好。所以说3号想到这一点,他就可以提一个方案是什么?自己要99颗,给4号1颗,5号不给。对于4号来讲,有1颗总没有好,活着也总比死了好,因此他会毫不犹豫的选择同意。


3号只要获得4号这一票就够了,所以说当博弈只剩下三个人的时候,3号会提99,1,0这个方案,这个方案就通过了,5号是没有机会得到那100颗钻石的。


如果说3号提这个方案能通过的话,我们来想一想,如果说你是2号,你怎么提方案? 现在摆在2号面前的一个利益格局就是:如果他不在了,3号能拿99颗,4号是1颗,5号是0颗。


他现在需要从345三人当中拉拢两人过来支持他,他需要两票。他应该拉拢哪两个人?拉拢3号,至少给他99ke3,说3号其实最不好拉拢。他应该拉拢是4号和5号,因为5号是0颗,所以现在2号给5号1颗就可以,1颗总比没有好。


4号是1颗,在3号的方案当中4号能得1颗,所以你要拉拢4号的话给他两颗就够了。所以这样一来的话,2号用3颗钻石就搞定了4号、5号,那就不需要拉拢3号了,自己就可以得97颗钻石。


所以说2号就可以提这样一个方案:自己要97颗。3号不给,4号是2颗,5号是1颗。4号会同意,5号会同意,他可以拿到两票,他的方案也能通过了。


如果说2号提97,0,2,1方案能通过的话,我们再想一想,假如你是1号,你怎么提方案?


你1号要做的事情无非就是从2345四个人当中,拉拢两人过来支持你,应该拉拢哪两个人呢?拉拢2号的话,2号的方案当中,他至少要得97颗,你才能拉拢过来,所以说2号不好拉拢。3号在2号的方案当中,3号是0颗,所有3号很好拉拢,你给3号1颗就可以了。在2号的方案当中,4号是得两颗钻石,5号是1颗钻石。所以说相对来讲5号比4号更好,拉拢你给5号两颗就可以了。


因为对于一号来讲,他总共需要两张赞成票,那么有3号一张,有5号以上就够了,给3号1颗,给5号两颗,自己还能落97颗。


所以说1号可以提的一个方案就是:自己要97颗,给2号是0颗,给3号是1颗,给4号是0颗,给5号是两颗,这样一个97,0,1,0,2的方案,就能够让自己既能保住生命,又能获得尽可能多的钻石。


由此我们可以看出,1号作为先行者,在博弈当中具有很强的先行优势,但是这个先行优势,如果你不通过逆向推理,你是看不出来的。


所以说只有你会逆向推理,体现出在动态博弈当中所要求的序贯理性的话,你才能在一个博弈当中更好地把握住你的行为,特别是能够更好的把握住你先行的优势。


当然海盗分钻石还有另外一些含义,这些含义在我们现实中也有一些应用,这一部分内容我们下一次再来给大家介绍,今天先给大家介绍到这里,好,谢谢大家。 

精选用户评论
  • 1379596nmol

    对的,海盗湾都是凭武力值的,不会按这个逻辑的

其他用户评论
  • 肖之鸡

    1逆向推理 之海盗问题关键是前提1操作信息透明 2具有筛选机制(不可逆性)3可执行的具体可能 4分票 决策机制

  • 读书跑步_ah

    王教授,您好!学习了您的课程,很受益!可是如何运用到实际工作中,我还是不擅长。比如,我目前遇到了一个实际问题,负责带队参加一个全国性比赛,有二十多个参赛队、十个比赛项目,我需要采取哪些策略,如何根据有关的条件排兵布阵?特别期望邀请您亲临我们单位指导!期待回复!谢谢!

  • 小米xue

    精彩!如果没有看到王老师的分析,假设我是第一个人的话,我会选择平分,没想到通过逆向推理,我竟然可以得97颗砖石。

    改变0502 回复 @小米xue: 平分也不一定能活

  • donny_ry

    纯理论的玩意,真正的海盗,这么会博弈论分析,还做啥海盗啊,早到大学教书去了

    1379596nmol 回复 @donny_ry: 对的,海盗湾都是凭武力值的,不会按这个逻辑的

  • 1302977mtjo

    如果后面几个海盗不懂博奕论,他们会把前几个都扔海里去吧?