第1章-学习的7个定义-2

00:00

07:40

学习是在利用组合爆炸

语言的学习真的可以被简单地归结为一些参数吗？如果这很难让人信服，那是因为我们无法想象当我们增加可调参数的数量时，会产生如此多的可能性。这就是所谓的“组合爆炸”(combinatorial explosion)——当你将极少数的可能性参数组合在一起时，参数的数量就会呈现指数级的增长。假设世界上所有语言的语法可以用大约50个二元参数来表示，就会产生250种组合，也就是超过1000万亿种可能的语言，或者说1后面跟着15个0！目前世界上的3000种语言的句法规则都能很轻松地被放入这个巨大的空间。然而，在我们的脑中，可调节的参数不只有50个，其数量大得惊人：80多亿个神经元，每个神经元大约有1万个突触相互联结，联结的强度各不相同，所创造的心智表征空间可以说是无限大的。

人类语言的各个层级都在大量利用这些组合。例如，脑词库是我们掌握的单词以及它们的内在模式。英语母语者一般会掌握大约5万个单词。这些单词构成了一本巨大的词典，但我们只花了大约10年时间就学会了它们，这是因为我们可以分解学习问题。假设这5万个单词中的每个单词平均只有2个音节，每个音节由3个音素组成，这些音素来自英语的44个音素的组合，那么这些单词的二进制编码需要不到200万个基本的二元选择（即“位”，其值是0或1）。换句话说，我们脑词库中的所有知识都可以放在计算机中一个250千字节（每个字节包含8个位）的小文件夹中。

如果我们排除掉单词的多义的问题，脑词库可以被压缩到更小的容积。随机抽取6个字母，如xfdrga，它们无法组成英语单词，真正的单词是由多个音节按一定规则组成的，像构建金字塔一样。语言的各个层级都是如此，句子是词的规则集合，词是音节的规则集合，音节是音素的规则集合。组合既是巨大的（可以在几十个甚至数百个元素中选择），同时又是有限制的（只有某些特定组合才会成立）。学习一门语言就必须要知道在各个层级上界定这些组合的参数。

总而言之，人脑通过创建一个多层分级的模型来分解学习问题。这在语言学习中尤其明显——从基本的音素到整个句子，甚至是一整段话。但所有的感觉系统中都能重现同样的层级分解原理。一些脑区只负责低层级的形态，它们在非常短的时间内通过一个非常小的空间窗口来观察世界，从而分析最细微的形态。例如，初级视觉区域是大脑皮层中第一个接受视觉输入的地方，该区域每个神经元只分析视网膜的一小部分。它通过“针孔”窥视外面的世界，因此只能发现非常低层级的规律，如是否存在会移动的斜线等。数以百万计的神经元在视网膜的各个地方做着同样的工作，它们的输出成为下一个层级的输入，从而检测“规则的规则”，以此类推。在每下一个层级上，规模都在扩大。人脑由此逐渐在越来越大的时间和空间范围内寻找规律，从这种层级结构中衍生出检测日益复杂的对象或概念的能力，从一条线、一根手指，到一双手、一个手臂，到一个人的身体……两个，两个人面对面，两个人面对面在握手……原来这是特朗普和马克龙的第一次会面！

学习就是将错误降到最低

被我们称为“人工神经网络”的计算机算法，其灵感源自大脑皮层级性组织。它有着和大脑皮层一样的金字塔般的连续层级结构，每一层都具有比前一层更深层次的规律。这些连续的层级以越来越深的方式处理输入的数据，因此它们也被称为“深度网络”。每一层级本身只能侦察外部世界的极其微小的一部分，比如在数学家们经常谈论的一个线性分类的问题中，每1个神经元只能将数据分成A和B两类，通过画一条直线串起它们。然而，当你将各个层级组合在一起时，你就会得到一个非常强大的学习工具，它能够侦察复杂的结构并通过调节自己以处理各种不同的问题。从这个意义上说，计算机芯片的进步使得今天的人工神经网络变成了深度网络，它们包含了几十个连续的层级。而距离感官输入越远的层级，其洞察力就越强，识别抽象本质的能力也就越强。

以上内容来自专辑

主播信息

COCO爱淘气

假冒文青三十载，资深中二二十年

3122

加关注

还没有评论，快来发表第一个评论！

第1章-学习的7个定义-2

不一YOUNG | 精准学习（迪昂的认知科学系列）

COCO爱淘气

《复盘》40 重新定义学习

4231请先定义一下【定义】

家的定义

色懒定义

35——不要去定义经验，经验无法定义