AlphaGo背后的深度强化学习

AlphaGo背后的深度强化学习

00:00
02:17
• 2011年,IBM公司的智能问答系统“沃森”参加综艺节⽬《危险边缘》⾸次打败了⼈类冠军。
• 2016年,DeepMind公司研发的AlphaGo围棋程序⾸次打败了⼈类顶尖围棋⾼⼿李世⽯。

AlphaGo背后的核心技术之一是“深度强化学习”,是深度学习拟合强化学习。

强化学习,Reinforcement Learning,简称RL,强调如何基于环境而行动,以取得最大化的预期利益。是强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。其灵感来源于心理学中的“行为主义”理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成刺刺激的预期,产生能获得最大利益的习惯性行为。

行为主义(Behaviorism)又称为行为论,是20世纪初起源于美国的心理学流派,主张心理学应该研究可以被观察和直接测量的行为,反对研究没有科学根据的意识。许多行为主义者认为自由意志只是一种幻觉,并路线与精神分析学大相径庭。

强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找对未知领域的探索和对已有知识的利益的平衡。智能体通过与环境互动变得越来越“聪明”。
以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!