各位听众朋友大家好,我是主播欧锋,现在为大家介绍,美国科学家特仑斯谢诺夫斯基所著《深度学习——智能时代的核心驱动力量》
理解真正的深度学习
在凸优化问题中,不存在局部最小值,可以保证收敛发生在全局最小值处。但在非凸优化问题中,情况就不同了。优化专家告诉我们,由于在隐藏单元网络中学习是一个非凸优化问题,所以我们只是在浪费时间一一我们的网络会陷人局部最小值。但经验证据表明,他们错了。为什么呢?我们现在知道在维度很高的空间中,代价函数的局部最小值是很罕见的,直到学习的最后阶段才会出现。在早期阶段,几乎所有的方向都是下坡,而在下坡的过程中存在鞍点,一些方向会错误的开始上升,而在其他维度在继续下降,产生网络会现陷入局部最小值的直觉,是因为解决低位空间中的问题时,逃生方向的数量要少得多。
……
人们已经了解了导致这些突触强度发生变化的条件。这些突触的强度变化取决于输入尖峰的历史和树突响应的电活动,对于来自同一个树突上相同轴突的一对突触来说也是如此。根据这些观察,我们推断信息存儲在突触强度中的精度很高,足以存储至少5位信息。”深度循环网络的学习算法只需要5位就能实现高水平的性能,这很可能不是巧合."
大脑网络的猴度非常高,我们对其甚至没有很好的估计。大脑皮层中的突触总数约为100万亿,几乎是个天文数字。人类的寿命不过几十亿秒。以这样的速度,你可以为你生活中的每一秒贡献出10万个突触。在实际情况中,神经元往往具有聚集的局部连接,例如在由10亿个突触连接的由10万个神经元组成的皮层柱内。虽然这仍然是个很大的数字,但还远算不上天文数字。长距离连接比本地连接要少得多,因为神经连接会占用宝贵的空间,并且会消耗大量能量。代表皮层中一个对象或概念的神经元的数量,是一个重要的数字。粗略估计一下,需要的突触数量约为10亿,需要的神经元数量约为10万,分布在10个皮层区域中。也就是说,约10万个独立的、互不干扰的对象类别和概念存储在100万亿个突触中。在实际情况中,代表相似对象的神经元群是重叠的,这可以大大增加皮层表达相关对象和对象之间关系的能力。这种能力在人类中比在其他哺乳动物中要强大得多,因为人类大脑中的联合皮层( associative cortex,在感官和运动层级的上方)在进化过程中发生了显著的扩张高维空间中概率分布的研究在20世纪80年代还是一个相对而言未被开发的统计领域。有几位统计学家研究了在探究高维空间和高维数据集时出现的统计问题,例如斯坦福大学的里奥・布菜曼(LeoBreiman),他是NPS社区中的一员。来自该社区的一些人,例如加州大学伯克利分校的迈克尔・乔丹( Michael Jordan)也在统计系任职。然而大多数情況下,大数据时代的机器学习已经发展到了令统计学家望而生畏的程度。但仅仅通过训练大型网络来做出今人惊吸的事情是不够的,我们也需要分析和理解它们是如何做到的。物理学家在这方面占据了领先地位,由于神经元和突触的数量越来越大,他们利用了统计物理学的方法来分析学习的特性。
2017年在长滩举办的NIPS会议上,“时间考验奖”( the Test of Time award)被授予了加州大学伯克利分校的本杰明・雷希特( Benjamin Recht)和谷歌的阿里·拉希米( Ali Rahimi)在2007年联名发表的NPS论文。该论文表明,随机特征可以有效地提高具有层学重网络的性能的有效方法,这是弗兰克·罗森布拉特在1960年通过感知器的试验了解到的。拉希米在获奖后的演讲中发出了对机器学习严谨性的强烈呼吁,他感叹深度学习缺乏严谨性,并嘲讽它为“炼金术”。我当时正坐在早已火冒三丈的杨立昆( Yann Lecun)旁边。听完演讲,杨立昆在一篇博客中写道:“批评整个团体(还是那个领域中非常成功的团体)是在钻研‘炼金术',仅仅因为我们目前的理论工具还没有赶上我们的实践,这是十分危险的做法。为什么危险呢?正是这种态度,导致机器学习社区将神经网络的研究搁置了超过10年,尽管有充分的经验证据表明,它们在许多情况下运行良好。”这是一次经典的邋遢和整洁的科学方法之间的混战。想要取得进展,这两个都是不可或缺的。
20191015