【本集金句】山姆奥特曼:“十年前,人们普遍认为,人工智能首先会影响到体力劳动,然后是认知劳动,或许在未来某一天,它才能够从事创意工作。现在看来,它的发展顺序将会相反。”
第59集 Gym强化学习平台公测
2015年底OpenAI宣布成立后,在短时间内成为科技媒体的焦点话题,但当时间进入2016年初,关于OpenAI的消息突然变少了,人们不禁开始好奇,山姆奥特曼和埃隆马斯克等人大张旗鼓成立的这家人工智能机构,到底是个昙花一现的外壳公司,还是已经默默组建团队开始推进自己的研发项目?
实际上,OpenAI突然偃旗息鼓,消失在大众视野,与当时几位主要创始人的情况有关。在成立之初,山姆奥特曼和埃隆马斯克为OpenAI搞到了一大笔启动资金,以及10亿美金的投资承诺,但在2016年时,两人主要的时间与精力都在别处,奥特曼的主业仍然是YC孵化器,埃隆马斯克更是一个大忙人,一人操盘多家公司,甚至就连吃饭睡觉都在特斯拉工厂的厂房里,根本抽不出时间参与OpenAI的建设。因此,让OpenAI启动并且正常运转的任务,落在了另外的两个人身上,一位是重要的联合创始人伊利亚苏茨克维尔,他是个典型的科学家,对具体项目研发外的任何事都不感兴趣;另一位则是刚刚离开独角兽公司Stripe的格雷格布洛克曼,他承担起OpenAI大部分的事项。好消息是,布洛克曼无论能力还是手段都足够做当时这家新兴人工智能机构的老板,他在OpenAI成立前的筹备阶段,就为实验室挖来了第一批研究员,帮他们熟悉团队,了解公司运作,加上布洛克曼自身的领袖气质,让他顺理成章地抗起了OpenAI的大旗。
2016年1月初,布洛克曼和9名完成入职的研究员,在旧金山教会区布洛克曼的公寓里见面了。由于此前有一半的研究员都在收尾上一家公司的工作事项,因此布洛克曼花了不少时间才召集所有人见面。由于时间匆忙,OpenAI的第一次开会甚至都没有准备好写字的白板,就开始了工作。布洛克曼和所有研究员确认,OpenAI将首先探索强化学习,这是一种让机器通过一遍又一遍地重复任务,通过跟踪得知哪种方法将产生最佳结果,以此不断进化的过程。在那之前的深度学习技术是由人工标记的数据驱动的,也就是如果想要教会神经网络识别猫的照片,就必须提供一定数量的例子,并且这些例子必须被标记为猫的照片。
2016年4月,OpenAI首次发布了强化学习研究平台“OpenAI Gym”的公测版。这是一个人工智能研究的新平台,作为OpenAI成立后的第一个成果,Gym与其说是一个平台,不如说是一个工具包,它能够帮助研究人员开发和比较强化学习算法,兼容用各种框架编写的算法,以及世界上的大部分语言。什么是强化学习?强化学习是机器学习的子领域,关注机器的决策制定和运动控制,它可以用来研究机器如何在复杂、不确定的环境中实现目标。
OpenAI Gym平台专注于强化学习,这是一种以完成任务为中心的人工智能。如果算法做得好,它就会得到奖励;如果它失败了,则没有奖励,然后它会尝试不同的方法。强化学习已经被证明在机器人和视频游戏中特别有效。这与 Google Deepmind 用来击败雅达利游戏中人类玩家的人工智能技术相同。
事实上,雅达利的游戏环境,模拟机器人和其他棋盘游戏,都只是OpenAI Gym上的其中一个研究方向,甚至连围棋这种古老的中国棋盘游戏,也将成为研究的重点。研究员们将构建这些游戏的算法,然后将某个算法放在各种测试环境中,也就是测试算法的虚拟空间,接着,研究员就可以看到他们的算法在各种客观测试中的表现如何,基于反馈进行调整,甚至发布他们的算法基准,在社区里供其他人查看和讨论。OpenAI Gym本身支持与各种开源人工智能框架配合使用,例如谷歌的TensorFlow和蒙特利尔大学的Theano。OpenAI以全力支持开源这种允许任何人修改和共享技术的生产模式,表明自己一直坚持推动在人工智能领域造福全人类的使命。
为什么OpenAI的第一次产品亮相选择了强化学习?布洛克曼解释说:“在任何科学领域,好的研究都可以被复制。如果其他人可以模仿你的实验并获得相同的结果,那么这预示着你的发现是有效性的。如果其他人可以调整你的研究并且获得更好的结果,那将对整个广泛的社区产生更大的好处。”
这些想法是OpenAI Gym背后的驱动力,同时也算是OpenAI团队初步兑现了山姆奥特曼等创始人在创立之初许下的承诺:发布和开源他们所做的大部分研究成果,OpenAI Gym希望成为对某些类型的人工智能算法进行基准测试的标准,并且成为研究员们分享他们测试结果的地方。
同时,有趣的一点是,OpenAI Gym不会根据谁能做出最高分算法来设置排行榜。相反,它将专注于推广具有良好通用能力的算法——因为这样的算法在完成其他类似任务方面具有多种用途。许多人工智能研究人员将通用性视为人类智能的最大障碍。比如还拿前面人工标记猫咪照片来举例,目前,能够识别猫图像的算法无法理解语音,因为它们以不同的方式处理数据,通用性意味着算法知道如何处理这两种情况,就像人类自然就会做的那样。
格雷格布罗克曼在发布OpenAI Gym的文章里说:“这不仅仅是关于最大化分数,而是要找到能够使算法通用性的解决方案,那些涉及特定任务的硬编码或不显示学习算法特征的解决方案不太可能通过审核。”也就是说,OpenAI Gym并不一定适用于算法本身改进的迭代工作,奥特曼、布洛克曼和OpenAI真正想要改变的是,研究员们对算法的思考方式。
OpenAI Gym虽然在人工智能研究方面对整个领域具有一定意义,但OpenAI在沉默几个月之后仅仅推出了这一个平台,让所有人都感到失望。就连在OpenAI内部,也出现了一些不和谐的声音,有研究员私下抱怨他们甚至不知道自己在做什么。多年后,有记者采访到了一位曾经在OpenAI的早期实习生,对方回忆说:“当时办公室座位,前后左右都是业界最牛的大佬,每个人想法都不一样,大家擅长的方向和领域也可能不一样,似乎当时还没找到一个着力点,想好如何让这批世界上最牛的AI科学家们拧成一股绳一起发力。这是最难的,谁也不服谁。”
对于奥特曼和布洛克曼而言,如何应对OpenAI出现的新困境?在迷茫探索期,OpenAI做了哪些工作?
还没有评论,快来发表第一个评论!