52. F3共同进化:非合作博弈中的理性策略
 3353

试听9052. F3共同进化:非合作博弈中的理性策略

倍速播放下载收听

00:00
08:14


购买所属专辑,收听更多内容

一个鼓励合作、鼓励双赢的社会,需要在法律、宗教、文化等各方面,都能体现出对合作者的回报和对不合作者的惩罚。

 【关键词】

囚徒困境,非合作博弈,纳什均衡


 【KK 的话】

「囚徒困境」游戏如果只玩一次,背叛对手是最合理的选择。但当两个「囚徒」一次又一次地玩,从中相互学习——也即「重复的囚徒困境」,游戏的推演就发生了变化。你不能无视对手玩家的存在;不论是作为强制的敌手还是同伙,他都必须受到重视。这种紧密相连的共同命运与政敌之间、生意对手之间或者生态共生体之间的共同进化关系非常类似。


 【正文】

你好,欢迎来到《KK 对话未来》!

 

在开始今天的正式内容之前,我们先对上期节目当中谈到的一个例子做一些补充说明。这个例子就是 google 的流感预测。我们当时用这个例子来说明,对用户行为的观察和预测与用户行为构成了一对互为因果的循环。但另一方面,我们没有强调的是,这个例子本身也说明,仅仅依靠相关性分析是不够的。我们当时笼统地提了一句,在网络时代,是否要让因果性分析让位于相关性分析,是个有争议的话题。恰好昨天下午参加了罗家德老师一本新书的读书会,这本新书的主标题叫《复杂》,副标题是《信息时代的连接、机会与布局》。在这个读书会上,几位老师都谈到了因果性分析和相关性分析的关系,比较一致的看法是,在网络时代,特别是在大数据时代,需要善于利用相关性分析,但同时,我们也需要因果性分析,来给出问题的边界条件。二者缺一不可。这是对上期内容的一个补充说明。

 

今天我们的话题是非合作博弈下的理性策略。咱们用博弈论中的一个经典问题——囚徒困境问题——来切入。

 

囚徒困境说的是,两个犯罪嫌疑人同伴,被分别审讯,如果两人都不坦白,由于证据有限,两人会被判刑一年;但如果一人坦白,一人抗拒,坦白的会被释放,抗拒的会被判刑五年;如果两人都坦白,两人都会被判刑两年。

 

你可能会说,这道题简单,两个人都不坦白对两人来说是最好的结果。但问题就在于,两个人是分开审讯的,每个人都不知道另一个人会坦白还是抗拒。如果一个人选择抗拒,但另一个人坦白了的话,抗拒的人就会被判刑五年,而坦白的人反而会被立即释放。所以,两个人最终都会选择坦白。这就是非合作博弈中的理性策略,在博弈论中有个术语,叫「纳什均衡」。纳什是博弈论的奠基人,如果你看过电影《美丽心灵》的话,那部电影讲的就是纳什的故事。

 

囚徒困境问题告诉我们,在非合作博弈中,每个参与者所做出的理性选择,不一定是系统的全局最优点。所谓「纳什均衡」,实际上是指在这种选择下,任何参与者,都不可能通过单独改变自己的策略而从中获益。或者用另一个较通俗的说法,每个参与者都会选择让自己跟别人相比不吃亏的策略。

 

在我们日常生活当中,其实有很多类似囚徒困境的问题。比如说,给孩子上补习班。

 

假设我们说,孩子上补习班会提高一定的分数,但很有限,补习班的费用却比较高。如果从全局的角度考虑,也许所有的孩子都不上补习班是最优解。但一旦有孩子上了补习班,那么其他孩子的家长就会担心自己的孩子因为不上补习班而在考试分数上被上了补习班的孩子超过,所以,每个家长都会争先恐后地给孩子报补习班。这就是补习班为什么屡禁不止的原因。

 

再比如说,司机开车选择路径,很多时候也不会选全局最优的方案,而是选不比其他司机吃亏的方案。

 

说到这儿,你可能会说,如果我们在任何事情上都采取这种不合作的策略,那社会岂不是一直处在一个效率低、浪费大的状态?

 

别急,我们刚才说的是单回合下的理性策略。所谓单回合,就是这个游戏只玩一次。如果这个游戏一直玩下去,有许许多多的回合,会是什么情况呢?

 

有很多研究者都做过各种各样的实验,包括用真人做,用仿真程序做。最终得出的结论是比较一致的,那就是在多回合游戏中,尽管参与的各方仍然是非合作的,但仍然会发展出合作策略。因为如果大家始终不合作,那么所有人都会一直付出比较高的代价,累积起来,这些代价最终会让各方都承受不起,大家会被迫开始合作起来。

 

KK 在《失控》当中提到了一个简单、有效的合作策略,叫「一报还一报」。简单说,就是如果在上一回合中,你采取了合作策略,那么我在这一回合中也会采取合作策略;相反,如果你在上一回合中「坑」了我,那么我在这一回合中也会「报复」你。

 

你可能又有困惑了,这会不会陷入到「冤冤相报何时了」的死结当中呢?

 

说实话,有这个可能,而且这种情况在我们的现实世界中也不少见。而且参与各方越是势均力敌,越有可能出现这种情况。

 

但在一定条件下,博弈的各方也有可能进入到多赢的循环中。比如,采取合作策略,或者说释放善意的一方,不会因为自己的善意而受到很大损失,又或者,采取对抗策略的一方会因此而遭受很大损失。在这种情况下,各方就会更加主动地释放善意,倾向于采取合作策略。

 

我们在商业中也会看到,在一个新的领域,早期阶段的竞争往往都很无序,竞争者们往往都会用一些「黑招」。但等到市场中出现一个优势较大的竞争者时,这个竞争者又会主动释放一些善意,并且对规范市场行为这样的事情往往很热心。不是因为它的心变软了,而是因为这么做符合它的长期利益,是它的理性选择。

 

但如果采取合作策略得不到回报,采取不合作策略又没有什么太大损失时,从理性的角度出发,那么大家就倾向于选择不合作的策略。

 

最近几年我们一直在热烈地讨论要不要去扶摔倒的老人这个问题。很简单,如果你去扶了,不但没有回报,还很可能被讹上,遭受损失,而讹人的人,即使被揭穿,也没有什么惩罚的话,那么从理性选择的角度出发,摔倒了被扶起来的人就会选择讹人,而看到有人摔倒的路人,就很可能选择置身事外。

 

那道德在这里面起不起作用呢?有。一个道德感很强的人,他扶了人,会觉得心安,不去扶,会觉得心里不安。这对他来说,就是相应的回报和惩罚。但如果在一个善意得不到回报、恶意得不到惩罚的社会里,他的道德感又能持续多久呢?我相信,在这样的多回合博弈中,最终大家都会选择不合作的策略。

 

所以,一个良好的社会需要在法律、宗教、文化等各方面,都能体现出对合作者的回报和对不合作者的惩罚。

 

好,这就是今天的全部内容。谢谢收听!


评论

    还没有评论,快来发表第一个评论!

打开喜马拉雅,发表评论