数据和算法

数据和算法

00:00
02:32

数据
人工智能有时被称为新工业革命。如果说深度学习是这场革命的蒸汽机,那么数据就是煤。
也就是驱动智能机器的原材料,没有煤什么都不可能。就数据而言,除了过去20年的存储硬件
指数增长(遵循摩尔定律),最大的变化来自互联网的兴起,它使收集和分发能够用于机器科学
XI的超大规模数据集变得可行。如今,大公司使用的图像数据集、视频数据集和自然语言数据集,
如果没有互联网,根本收不到。例如,Flickr网站上用户生成的图像标签一直是计算机视觉
数据宝库。YouTube视频也是一个宝库。维基百科是自然语言处理的关键数据集。
如果说有一个数据集是深度学习兴起的催化剂,那一定是ImageNet数据集。它包含
140万张图像,这些图像已经被人工划分为1000个图像类别(每个图像对应一个类别)。但是
ImageNet的特殊之处不仅在于数量众多,还有与之相关的年度大赛A。
正如Kaggle自2010年以来所表明的那样,公开竞争激励着研究人员和工程师挑战极限
很好的方法。研究人员通过竞争挑战共同的标杆,极大地推动了深度学习最近的兴起。
1.3.3算法
除了硬件和数据,直到20世纪前十年结束,我们仍然没有一个可靠的方法来进行非常深入的训练
神经网络。所以神经网络还很浅,只用了一两个表示层,无法超越更精确的浅层方法。
如支持向量机和随机森林。其关键问题在于通过多层叠加的梯度传播。随着层数的增加,用来训练神灵
通过网络的反馈信号会逐渐消失。
这在2009-2010年左右发生了变化,当时出现了几个简单但重要的算法改进。
可以实现更好的梯度传播。
更好的神经层激活功能。
一个更好的权重初始化方案,它从一层一层的预训练方法开始,
然而,这种方法很快就被抛弃了。
更好的优化方案,如RMSProp和adam。
只有当这些改进能够训练出10层以上的模型时,深度学习才会开始大放异彩。
终于,在2014年、2015年和2016年,人们发现了更先进的方法来帮助梯度传播,比如
批量归一化,残差连接和深度可分卷积。今天,我们可以从零开始训练成千上万层的模型。



以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!