第七讲
从最优解到均衡解:博弈论拥抱人工智能
阿尔法家族博弈战:从完全信息到非完全信息
从20世纪90年代开始,算法博弈论成为计算机科学家主要的研究课题。算法博弈论可应用于完全信息下的博弈对抗,也可应用于非完全信息博弈,下面我们分别介绍。
阿尔法狗(AlphaGo)是完全信息下进行围棋博弈的一种算法。一切棋类理论上可以构建一个包含了所有可能走法和后果的集合,依靠强大、精确的计算能力算出胜率,选择胜率较大的走法来完成对抗。相对于其它棋类竞智游戏而言,围棋需要克服的挑战在于对弈走法可选择空间非常庞大,所包含的可能走法比宇宙所有原子总和还多。谷歌公司为了训练阿尔法狗,收集了5段至9段人类选手所对弈完成的16万盘棋局(约3000多万局面),然后进一步利用算法自我博弈产生的海量“机器棋局“,训练得到于2016年3月战胜李世石的人工智能围棋程序,这一人工智能围棋程序可分别完成“决策下一步落子”、“评估当前棋面胜负概率”和“仿真棋局未来走子”等任务。
相对于完全信息的博弈,非完全信息下的博弈更加符合现实场景要求。在非完全信息博弈中,参与博弈各方无法完全知晓对手全部信息,仅能根据部分已知的信息进行决策,如扑克就是一种非完全信息博弈。2018年,卡耐基梅隆大学研制的人工智能算法Libratus首次在双人德州扑克中击败人类选手,随后在多人德州扑克中也获得胜利。该算法使用一种被称为“虚拟遗憾值最小化”的机制来提升博弈能力。在训练中,通过“虚拟仿真”方法来模拟打牌,计算每一步出牌所对应的得失,依据“遗憾值最小原则”来决定后续出牌,充分体现了“落子无悔”的真谛。
与德州扑克相比,星际争霸这一即时战略游戏对博弈算法提出了更高要求。2019年1月,人工智能模型“阿尔法星际”(AlphaStar)在星际争霸中首次战胜人类玩家,实现了智能体游戏博弈领域重大突破。在“阿尔法星际”训练中,研究人员将不同游戏策略组合起来,最终训练得到了一个达到纳什均衡状态的最强组合。
2020年8月,美国国防高级研究计划局(DARPA)举行了“阿尔法狗斗”(AlphaDogfight)比赛,人工智能算法在近一年时间内经过40亿次左右的训练后,拥有了相当于30年的F-16战机驾驶与格斗经验,以5比0战胜了人类精英飞行员。
小结
“阿尔法(Alpha)”是希腊语中的第一个字母,有起源、开端的意思。博弈论拥抱人工智能,推动人工智能从感知智能向决策智能转变,这一转变使人工智能从追求最优解向探索均衡解迈进。东汉马融在《围棋赋》中说:“三尺之局兮,为战斗场”,从战争中学习战争是博弈水平不断提高的关键要素。在这一过程中,智能算法不断与外部环境交互,根据所得到的奖励或惩罚等反馈信息持续改进博弈策略。人工智能和博弈论的结合依旧是未来解决复杂现实问题的一个重要研究方向。以上是这一讲的全部内容,下一讲将介绍“从个体智能到群体智能:整体大于部分总和”。
还没有评论,快来发表第一个评论!