第六讲
从华丽转身到炼金术之困:深度学习
深度学习崛起:算法、数据、算力
在前面曾经提及人脑视觉皮层在进行人脸图像识别分类时,待识别人脸图像分别被V1区至V4区逐次加工处理,将人脸图像从像素点空间映射到人脸语义空间。显然,大脑视觉皮层构建了一个复杂非线性映射函数,将像素点数据映射为人脸语义。
早期深度学习模型如MCP模型和感知机模型由于只是一个简单映射函数,因此无法完成复杂识别任务。为了将早期深度学习模型拓展为复杂映射函数,一个直接思路是在感知机模型的输入层和输出层之间增加一些神经元,搭建隐藏层,将深度学习模型由两层浅层结构扩展为多个隐藏层构成的深层结构。由于每一个隐藏层都包含了众多神经元、每个神经元具备非线性映射功能,这样神经网络中所有神经元组合在一起,就能够让深度学习模型完成复杂非线性映射任务,如将一串语音信号映射为文字信息而完成语音识别任务、将互联网用户点击行为映射为用户画像而完成商品推荐任务等等。
由大量神经元构成的神经网络需要合适的算法、大量数据和雄厚算力来训练模型参数,因此“算法、数据和算力”就构成了深度学习崛起过程中不可或缺的核心三要素。
先介绍核心三要素中对神经网络模型参数进行训练的“误差后向传播”(Error Back Propagation)算法,该算法由保罗(Paul Werbos)1974年在其哈佛大学博士毕业论文中首先提出、并由杰弗里·辛顿(Geoffrey Hinton)等人于1986年完善。这一算法解决了多层神经网络中大量参数难以优化这一难题。2006年,辛顿在美国《科学》(Science)杂志发表论文,首次验证了多层神经网络模型在分类识别任务上超过了传统浅层学习模型,辛顿同时给多层神经网络相关学习方法赋予了一个新名词“深度学习”。
深度学习中参数训练需要海量数据。在互联网和物联网迅猛发展的时代,随着感知能力和交互手段的提升,不断涌现的海量数据为深度学习模型参数优化提供了宝贵燃料。如美国斯坦福大学华裔女科学家李飞飞教授从2006 年开始,借助大量网友力量,构造了一个大规模图像数据库,为训练深度学习模型提供燃料。
显而易见,大规模数据训练离不开算力。目前支撑人工智能算力的芯片类型包括通用性芯片、半定制化芯片、全定制化芯片和类脑芯片等。人工智能算法模型对于算力的巨大需求,推动了今天芯片产业发展。
2011年,谷歌公司从互联网上收集了1万张用户标注为猫的图像和1.8万张不是猫的图像,利用1.6万台计算机训练了一张出现在各大网站头条位置、打下鲜明的“机器烙印”的“猫”脸,实现了猫科动物的图像识别。这一工作充分体现了算法、数据和算力三者统一的效果。
2018年图灵奖授予被誉为“深度学习三巨头”之称的约书亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton)和杨乐昆(Yann LeCun)三位学者,以表彰他们给人工智能带来的重大突破,这些突破使深度学习推动人工智能迅速崛起。
后向传播算法
雄厚的算力
大量参数难以优化