第1章-学习的7个定义-2

第1章-学习的7个定义-2

00:00
07:40

学习是在利用组合爆炸

语言的学习真的可以被简单地归结为一些参数吗?如果这很难让人信服,那是因为我们无法想象当我们增加可调参数的数量时,会产生如此多的可能性。这就是所谓的“组合爆炸”(combinatorial explosion)——当你将极少数的可能性参数组合在一起时,参数的数量就会呈现指数级的增长。假设世界上所有语言的语法可以用大约50个二元参数来表示,就会产生250种组合,也就是超过1000万亿种可能的语言,或者说1后面跟着15个0!目前世界上的3000种语言的句法规则都能很轻松地被放入这个巨大的空间。然而,在我们的脑中,可调节的参数不只有50个,其数量大得惊人:80多亿个神经元,每个神经元大约有1万个突触相互联结,联结的强度各不相同,所创造的心智表征空间可以说是无限大的。

人类语言的各个层级都在大量利用这些组合。例如,脑词库是我们掌握的单词以及它们的内在模式。英语母语者一般会掌握大约5万个单词。这些单词构成了一本巨大的词典,但我们只花了大约10年时间就学会了它们,这是因为我们可以分解学习问题。假设这5万个单词中的每个单词平均只有2个音节,每个音节由3个音素组成,这些音素来自英语的44个音素的组合,那么这些单词的二进制编码需要不到200万个基本的二元选择(即“位”,其值是0或1)。换句话说,我们脑词库中的所有知识都可以放在计算机中一个250千字节(每个字节包含8个位)的小文件夹中。

如果我们排除掉单词的多义的问题,脑词库可以被压缩到更小的容积。随机抽取6个字母,如xfdrga,它们无法组成英语单词,真正的单词是由多个音节按一定规则组成的,像构建金字塔一样。语言的各个层级都是如此,句子是词的规则集合,词是音节的规则集合,音节是音素的规则集合。组合既是巨大的(可以在几十个甚至数百个元素中选择),同时又是有限制的(只有某些特定组合才会成立)。学习一门语言就必须要知道在各个层级上界定这些组合的参数。

总而言之,人脑通过创建一个多层分级的模型来分解学习问题。这在语言学习中尤其明显——从基本的音素到整个句子,甚至是一整段话。但所有的感觉系统中都能重现同样的层级分解原理。一些脑区只负责低层级的形态,它们在非常短的时间内通过一个非常小的空间窗口来观察世界,从而分析最细微的形态。例如,初级视觉区域是大脑皮层中第一个接受视觉输入的地方,该区域每个神经元只分析视网膜的一小部分。它通过“针孔”窥视外面的世界,因此只能发现非常低层级的规律,如是否存在会移动的斜线等。数以百万计的神经元在视网膜的各个地方做着同样的工作,它们的输出成为下一个层级的输入,从而检测“规则的规则”,以此类推。在每下一个层级上,规模都在扩大。人脑由此逐渐在越来越大的时间和空间范围内寻找规律,从这种层级结构中衍生出检测日益复杂的对象或概念的能力,从一条线、一根手指,到一双手、一个手臂,到一个人的身体……两个,两个人面对面,两个人面对面在握手……原来这是特朗普和马克龙的第一次会面!

学习就是将错误降到最低

被我们称为“人工神经网络”的计算机算法,其灵感源自大脑皮层级性组织。它有着和大脑皮层一样的金字塔般的连续层级结构,每一层都具有比前一层更深层次的规律。这些连续的层级以越来越深的方式处理输入的数据,因此它们也被称为“深度网络”。每一层级本身只能侦察外部世界的极其微小的一部分,比如在数学家们经常谈论的一个线性分类的问题中,每1个神经元只能将数据分成A和B两类,通过画一条直线串起它们。然而,当你将各个层级组合在一起时,你就会得到一个非常强大的学习工具,它能够侦察复杂的结构并通过调节自己以处理各种不同的问题。从这个意义上说,计算机芯片的进步使得今天的人工神经网络变成了深度网络,它们包含了几十个连续的层级。而距离感官输入越远的层级,其洞察力就越强,识别抽象本质的能力也就越强。

以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!