002女士品茶|统计学能告诉我们真相吗？

00:00

34:00

观蒙书话，比萃精华！

时至今日，几乎每个人都相信自己掌握了一定的统计学知识。在我的家乡，一帮20世纪50年代出生的没上过几天学的农民伯伯，也可以准确地解释“平均数”的含义。现在的各种新闻上，经常出现“据调查”“据统计”“占比”“指数”等词语，受众们想当然地以为，这些“统计数据”能够告诉他们真实的故事。在学术界，自然科学依靠数据说话的传统根深蒂固，而且来自实验的数据成了提出新理论、验证新理论的可靠证据。社会科学虽然学科庞杂，但很多学科都不断引入统计学思想和方法，甚至可以说，哪门社会科学与统计学结合得越紧密，就越“科学”。种种迹象足以说明，在20世纪，统计学不仅发展起来，而且传播开来，在很大程度上改变了人们的思想和习惯。

站在21世纪的第二个十年，迎面飞来的满是“大数据”“人工智能”“机器学习”等令人眼花缭乱的概念。“大数据分析”成了一个随处可见的时髦词汇。虽然很少有人真正清楚大数据分析的内涵，但是“大数据”三个字早已成了吸引眼球、赢得融资，甚至是拿到项目资助的有力工具。2011年的诺贝尔经济学奖获得者托马斯·萨金特（Thomas J. Sargent）指出，人工智能实际上就是利用统计学对数据进行分析，大数据分析靠的也是统计学。这一观点随即引起了广泛关注，有人赞同，有人反对。在我看来，赞同者与反对者的分歧在于对统计学范围的定义。如果把统计学的范围仅仅局限在当前的统计理论和方法、统计技术和手段、统计人员和设施的发展水平上，那么反对者是有道理的，随着对大数据认识的深入，肯定会有新的统计理论和方法出现，也会应用到新的统计技术和手段，统计人员和设施也会发生变化。如果把统计学的范围定义为不仅包括现在的统计理论和方法、统计技术和手段、统计人员和设施，还包括未来发展出来的这些内容上，那么赞同者是正确的。从我的解释可以看出，不管赞同还是反对托马斯·萨金特的观点，弄懂基本的统计学原理，对于大数据分析总是有所裨益的。

可是，弄懂基本的统计学原理并非易事。我本科时学习过《概率论与数理统计》《应用数理统计》两门课，硕士时学过《数理统计》，由于考博时的一门专业课是统计学，我又自己学习了一遍统计学。时至今日，虽然在科学研究中，一刻也离不开统计学，我又学习了不少前沿的统计学知识，但是，我也不敢说自己弄懂了基本的统计学原理。在硕士导师的推荐下，我读了戴维·萨尔斯伯格的《女士品茶》一书，这本旨在向没有学过数学的人介绍统计学的书，让我在统计学的发展历史层面对统计学有了更深刻的理解，也促使我进一步整理统计学知识、思考统计学中的问题。在我看来，这本书不适合作为一本入门书，被不掌握基本统计学知识的人来读，而适合于对统计学面貌有了一个大致了解的人来读。从这个意义上讲，这本书的定位是失败的，可这本书本身是成功的。

这本书的开头很有意思：

那是20世纪20年代后期，在英国剑桥一个夏日的午后，一群大学的绅士和他们的夫人们，还有来访者，正围坐在户外的桌旁，享用着下午茶。在品茶过程中，一位女士坚称：把茶加进奶里，或把奶加进茶里，不同的做法，会使茶的味道品起来不同。在场的一帮科学精英们，对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢？他们不能想象，仅仅因为加茶加奶的先后顺序不同，茶就会发生不同的化学反应。然而，在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生，却不这么看，他对这个问题很感兴趣。

他兴奋地说道：“让我们来检验这个命题吧！”并开始策划一个实验。在实验中，坚持茶有不同味道的那位女士被奉上一连串的已经调制好的茶，其中，有的是先加茶后加奶制成的，有的则是先加奶后加茶制成的。

其实，策划这个实验的那位先生正式统计学界大名鼎鼎的罗纳德·艾尔默·费希尔，后来他写了一本叫做《实验设计》的书，这本书成为了统计学界不可超越的经典之作，在这本书的第二章中，费希尔就详细描述了“女士品茶”这个实验。

在茶和奶的比例不变的前提下，加茶加奶的顺序是否影响奶茶的味道？这并非个别女士的回答可以给出答案的问题，而是一个严格意义上的统计学问题。只有进行巧妙地设计，严格地进行实验，再对实验数据进行分析，才可以得到这个问题的客观答案。费希尔的研究表明，把茶加进奶里得到的奶茶与把奶加到茶里得到的奶茶，味道确实不同。在费希尔的研究过程中，用到了不少统计学知识。

一、统计学中的基本定理

在统计学中，有三个基本定理，之所以说这三个定理是“基本定理”，是因为很多统计学理论和方法都是以这三个定理为基础的。换句话说，如果这三个基本定理不成立，那么依据这三个定理推导出来的统计学理论和方法就都是错误的了。可以说，这三个定理是现代统计学的根基，动摇不得。

第一个定理是中心极限定理。统计学认为，大量数据的平均值服从某种统计分布。中心极限定理是说，不管初始数据来自何处，大量数据平均值的分布都可以用正态分布来近似。正态分布又称为“高斯分布”，如果把服从这种分布的数据在平面图上绘制出来，就会得到一条钟形曲线。身高、体重、学习成绩等这些常见变量受到多种因素的影响，它们都服从正态分布。正态分布具有良好的性质，比如，如果两个变量都服从正态分布，那么它们的和与它们的差也都服从正态分布。实际上，由正态分布变量导出的许多统计量都服从正态分布。可见，正态分布的数学便利性意味着统计学家可以使用复杂的关系模型。

可是，问题在于，中心极限定理在什么样的条件下才能成立呢？芬兰人亚尔·瓦尔德马·林德伯格和法国人保罗·列维分别发现了中心极限定理成立的条件。实际上，中心极限定理不是一个定理，而是一系列定理，每个定理拥有一组不同的限制条件。综合归纳这些研究成果可知，只要能证明林德伯格-列维条件成立，中心极限定理就是成立的，科学家就可以使用正态分布的便利性进行研究。林德伯格-列维条件的提出，固然令人兴奋，但是要想证明林德伯格-列维条件，非常困难。幸运的是，北卡罗来纳大学的瓦里西·霍夫丁证明，有一种属于“U型统计量”的统计量满足林德伯格-列维条件。也就是说，我们只要可以证明我们所使用的统计量属于“U型统计量”，我们的统计量就满足林德伯格-列维条件，中心极限定理对我们的统计量就是成立的，我们就可以使用正态分布的便利性了。

简单总结一下，U型统计量满足了林德伯格-列维条件，这一条件保证了中心极限定理成立，进而可以使用正态分布的便利性。

第二个定理是大数定律。大数定律是频数学派所定义的概率的基础。大数定律是说，如果某一事件拥有固定的概率，如果我们不断进行相同的试验，该事件发生的比例将越来越接近于该概率。比方说，向上抛出一枚分布均匀的硬币，落地后正面朝上的概率为0.5。我们连续抛掷三次硬币，可能会出现三次都是正面朝上的情况，这是因为我们抛掷的次数太少。如果我们连续抛掷十万次硬币，那么正面朝上的次数将非常接近五万次，当然，反面朝上的次数也非常接近五万次。我们抛掷的次数越多，正面朝上的次数在总次数中的占比就越接近0.5。这就是大数定律的形象化描述。基于此，英国哲学家约翰·韦恩认为，某一事件的概率是从长期来看该事件发生的次数占比。

从目前的情况来看，假设检验已经在多个学科被中广泛应用了，比如，医学、经济学、政治学、管理学、心理学、社会学，等等等等。假设检验是由波兰统计学界耶日·内曼和英国统计学界埃贡·皮尔逊提出的。埃贡·皮尔逊是卡尔·皮尔逊的儿子，这一对父子都是大名鼎鼎的统计学家，我们常用的皮尔逊相关系数是父亲卡尔·皮尔逊提出来的。在假设检验的正式数学结构中，内曼用到了韦恩的概率定义。内曼用韦恩所定义的概率来解释假设检验中的p值。在内曼-皮尔逊假设检验中，科学家需要设定一个固定的数字作为判断标准，比如，0.05，在显著性检验的p值小于0.05时拒绝原假设。这里的0.05的意义在于，长期来看，科学家在100次检验中刚好有5次拒绝真实的原假设。“p值小于0.05”的意义在于，长期来看，科学家在100次检验中拒绝真实的原假设的次数低于5次。由此可见，大数定律是假设检验的基本保证。如果大数定律是错误的，那么所有基于假设检验所得到的结论都是站不住脚跟的。大数定律已经被表述成不同的形式，比如，切比雪夫大数定律、辛钦大数定律、贝努力大数定律、泊松大数定律、马尔科夫大数定律等，具体形式的大数定律得到了证明。遗憾的是，迄今为止，仍然没有人从理论上证明一般意义上的大数定律在什么样的条件下成立。在统计学界，关于韦恩的概率定义和假设检验的争论从未停止。比如，因提出国家干预理论而广为人知的经济学家约翰·梅纳德·凯恩斯也是一位统计学家，他就认为，韦恩的概率定义是无用的，甚至是无意义的解释。无独有偶，作为质量管理先驱之一的爱德华兹·戴明认为，假设检验的整体思想是毫无意义的。

近年来，一些政治学期刊和医学期刊宣布停用p值，美国统计学会也发出官方声明，倡导大家谨慎使用p值，不可只根据p值得出结论。我认为，这些都是负责任的做法。政治学研究关系到大众的权利和福利，医学研究关系到人们的生老病死，若使用尚未得到理论证明的p值作为判断结论是否成立的标准，未免草率。这一消息在国内刚出现时得到了不少关注，随即销声匿迹，我可以理解这种现象。近20年来，国内学者刚刚把国外的研究规范引入国内，刚刚学会步履蹒跚地进行假设检验，却被告知p值不能使用了，那该使用什么呢？对不利于自己的消息选择忽视或无视，也许是人的本性之一。从负责任的角度而言，我们绝不应该忽视这一消息，而是探讨更多的研究方法，或者从本源上对大数定律与假设检验进行研究，一旦确定常用的假设检验与各种形式的大数定律之间的对应关系，就可以对已经使用假设检验取得的结论进行取舍。

简单总结一下，大数定律的可靠性影响了频数学派的概率定义，进而影响到假设检验中的p值的意义。

第三个定理是数理统计基本定理。1916年意大利数学家弗朗西斯科·保罗·坎泰利发现了“数理统计基本定理”，1933年，著名俄国数学家柯尔莫哥洛夫的学生约瑟夫·格里文科采用新的数学符号对这一定理进行了概括，因此，这一定理也被称为格里文科-坎泰利定理。这一定理是说，如果我们对生成一组数据的概率分布一无所知，那么可以使用这些数据本身构造一个非参数分布函数，随着观测数量的增长，这个经验性分布函数越来越接近真实的分布函数。以此为基础，统计学家证明了许多重要定理，这个定理是那种几乎总是可以在证明过程中得到使用的研究工具。在手工计算时代，使用这个定理需要使用巧妙而熟练的计数技巧，构造一个经验分布函数的过程包含了一系列涉及简单算术的机械步骤。在计算机时代，这一定理所涉及的计算可以由计算机来完成，这一定理得到越来越多的应用。

随着大数据时代的到来，我们收集数据的成本越来越低，收集到的数据越来越多，越来越复杂。在我们事先无法判断数据分布的情况下，我们可以根据格里文科-坎泰利定理，使用计算机来计算出数据所服从的概率分布。人工智能的基础之一就是大数据，我认为，在大数据分析中，格里文科-坎泰利定理可以帮助我们识别数据背后的概率分布，从而为机器学习提供帮助，为人工智能提供加工之后的现实基础。在未来，这一定理将发挥越来越大的作用。

简单总结一下，对复杂数据进行分析过程中，格里文科-坎泰利定理大有用武之地，计算机性能的提升为使用这一定理提供了便利，我们可以使用这一定理找到复杂数据所服从的近似概率分布。

二、对统计学的七个认识

在读《女士品茶》之前，我对统计学知识框架的认识已经完整，而且对其中的一些理论和方法非常熟悉，应用自如。可是，我对统计学的发展历程和趋势、统计学背后的哲学思想思考不多，一般的统计学教材都以介绍统计学知识为主，很少涉及这些方面的探讨。也许是省去了复杂的数学模型的原因，《女士品茶》这本书对统计学的发展历程、统计学背后的哲学思想进行了或明或暗的展现，并给出了若干个值得进一步思考的关节点。通过思考，我形成了以下七个观点：

第一，统计学的发展是与现实应用分不开的。很难追溯统计方法的历史起源，现存的古巴比伦资料中，就有关于天文现象的观测记录，我国的“二十四史”中的“志”中包括了大量的统计数据。直到19世纪后期，现代统计学才逐渐发展起来，到20世纪，现代统计学蓬勃发展，取得了长足进步。从历史上看，统计数据是为了满足解决相关问题的需要，比如，对天文观测数据的统计是为了制定更为精确的历法，对农户、作物产量、牲畜数量等进行统计，是为了满足统治者的政治需要和经济需要。从现代统计学的发展来看，19世纪后期以来，尤其是到了20世纪，各门科学蓬勃发展，在各自发展的过程中，不断遇到各种问题，要想使用科学方法解决这些问题，统计分析是很难绕开的方法。这是因为，科学有两个非常重要的特征：一是定量化，二是可重复性。一门学科的研究方法必须满足这两个条件才能被称为科学，很明显，统计学方法满足这两个条件，因而符合科学方法的规范，从而在各个学科中得到广泛应用。可见，统计学是在解决现实问题的过程中逐渐发展起来的。

当然了，这种说法会遭到一部分人的反对，这些人认为，统计学是一门抽象的数学分析，追求的是模型的美观，能够给统计学家带来欢乐的是追求统计之美的过程，并非对实际问题的解决。尽管如此，我还是坚持我的观点。这是因为，统计学的发展历史表明，解决现实问题的需要不断将统计学引领到新领域，对这些现实问题的思考，促进了新的统计模型的建立，也成为了统计之美的来源。很多在统计学中做出杰出贡献的统计学家本来并非统计学家，比如，非参数检验领域的开创者威尔科克森是一名化学家。如果不关注现实问题，那么，统计学不仅成了“无源之水，无本之木”，而且研究结果也失去了用武之地。

第二，统计学中的定理和方法可以被独立发现。在学习统计学教材时，看到的是罗列清晰、纲举目张的统计学知识，并不会看到这些知识是被谁发现的。在了解统计学的发展历史时，会看到一些定理和方法是被不同的人独立发现的，进一步的分析表明，这些人都不知道其他人也在做同样的工作或者已经解决了这个问题。因此，这些定理和方法可以看作是被“独立发现”的。比如，泊松二项分布，也被称为“复合泊松分布”，还被称为“第五大道公车分布”，就是因为三个研究群体独立发现了这一分布，各自进行了命名。有人认为，一些定理和方法被独立发现，这表明统计学家群体并不是一个联系紧密的科学共同体，统计学的发展还不成熟。这种说法不无道理，但不能用来质疑统计学的质量。微积分不也是由牛顿和莱布尼茨独立提出的么？在我看来，统计学中的一些定理和方法能够被不同的人独立发现，恰恰表明这些定理和方法是可靠的。在不同问题的研究过程中所发现的相同的理论和方法，不是更具有普遍性么？

第三，实验设计是与数据分析方法紧密相连的。在国内的相当一部分学者看来，“实验”是一个高端大气上档次的词语，“实验”还是一种高深莫测的研究方法，只要用了“实验”的研究，就是科学的，不使用“实验”的研究，就是不科学的。其实，这种看法误解了实验。从本质上讲，实验是一种数据收集方法，仅此而已。众所周知，实验在自然科学当中得到广泛应用，做实验用的仪器设备和原材料，价值不菲。自然科学的确依靠实验取得了长足进步，请注意，这句话只说对了一半！这是因为，自然科学的进步来自于对从实验中所获得的数据的分析。好的实验设计可以帮助科学家得到想要的数据，然后对数据进行分析，并根据数据分析结果对所提出的研究假设进行验证，才能最终得到结论。倘若是只有精心设计的实验，而没有严谨高效的数据分析方法，自然科学也无法取得进步。

但是，在社会科学中要想设计出一个好实验，并非易事。这是因为，社会科学的研究对象受到更多因素的影响。天才统计学家费希尔认为，通过合适的实验设计，可以抵消掉一些影响因素，可以控制住一些影响因素，从而测量到我们所关注的影响因素。费希尔在《实验设计》一书中，详细论述了实验设计的规则。费希尔在该书中设计的实验过于艰深，后人只能模仿其中一些相对简单的实验。但是，费希尔的观点提示我们，实验设计是与数据分析方法紧密相连的。具体而言，实验设计的目的在于抵消和控制某项研究中不被关注的因素，从而方便研究人员对所关注的因素进行测量，方便研究人员对测量数据进行分析。一般而言，在实验资源较为充分的情况下，我们在实验设计之前确定数据分析方法，然后根据已经确定的数据分析方法来设计实验；在实验资源不太充分的情况下，我们可以先利用现有资源设计出尽可能好的实验，然后根据实验设计情况选择合适的数据分析方法。总之，实验设计是与数据分析紧密相连的。

第四，统计思想与逻辑思想存在不相容之处。自从古希腊哲学家亚里士多德开始，逻辑思想就受到重视，后来经过德国哲学家黑格尔等人的发展，逻辑体系趋于完善，逻辑思想根深蒂固。可是，20世纪才逐渐发展起来的统计思想与逻辑思想存在不相容之处。我从不严谨的意义上举个例子进行说明： 50个大小相同的球中只有一个红球，其余全是白球。我们把假设检验中p值的判断标准设定为0.05。根据假设检验的结构规范可知，原假设为：这个球是红球；备择假设为：这个球是白球。我们从这50个球中任意取出一个球，这个球是红球的概率为0.02，小于我们设定的标准0.05，所以拒绝原假设，我们接受这个球是白球的备择假设。如此一来，对于这50个球中的任何一个球，都会被判断为白球。这是统计思想的表现。根据逻辑思想，50个球中有一个红球，我们把50个球都判断为白球，这种做法是错误的。这就是统计思想与逻辑思想的不相容之处。也许有人会说，把p值的判断标准影响了最终的判断结果，那么我们把p值的判断标准设定为0.01。原假设和备择假设不变。这时会出现什么结果呢？我们从这50个球中任意取出一个球，这个球是红球的概率为0.02，大于我们设定的标准0.01，所以不能拒绝原假设，我们接受这个球是红球的原假设。如此一来，对于这50个球中的任何一个球，都会被判断为红球。可是根据逻辑思想，50个球中只有一个红球，我们把50个球都判断为红球，这种做法也是错误的。这还是显示出了统计思想与逻辑思想的不相容之处。

统计思想与逻辑思想为什么会存在不相容之处呢？逻辑思想是非对即错的明确推理思想，不允许存在推理过程中的模糊性。融合了概率思想的统计思想并不是非对即错的明确推理思想，允许存在推理过程中的模糊性。比如，根据逻辑思想，明天要么下雨，要么不下雨，只能在这两种可能性中选择一种；根据统计思想，明天下雨的概率为0.85，那么，明天到底下雨不下雨呢？我们无法确知。这就是统计思想中推理模糊性的表现。既然统计思想与逻辑思想存在不相容之处，那么，这两种思想中至少有一种是错误的吗？实际上，这是一种依据逻辑思想的问法。我认为，不是！诸多事实表明，这两种思想在各自的领域都大有用武之地，都促进了生产力的发展。我们不能因为这两种思想存在不相容之处就对其中之一进行否定，这正如我们不能因为统计思想和逻辑思想内部都存在相悖之处就对其进行否定一样。

第五，统计思想背后的哲学观与确定论哲学相悖。20世纪蓬勃发展起来的统计学不仅在一定程度上改变了人们的思想，还影响了人们的哲学观。从历史上看，确定论哲学观一直居于主流地位。阿基米德曾说：“给我一个支点，我就能撬动地球”。牛顿的万有引力定律和三大运动定理表明，只要我们得到了某一时刻宇宙中的相关数据，我们就能计算出宇宙以前的模样和未来的模样。就连爱因斯坦也曾说：“上帝不会掷骰子”。之前，人们认为误差之所以存在，是因为测量工具不够精确导致的。随着科学技术的发展，测量工具的精确度不断提高，可是，科学研究中的误差并没有随之减少。20世纪之初，卡尔·皮尔逊振臂一呼：科学研究的真实对象是数据的分布。这句话引发了统计学革命，也引发了人们思想观念的革命。在20世纪，统计物理学和量子力学发展起来了，统计学在这两门学科中得到了广泛应用。这两门科学的研究成果表明，这个世界并不是完全确定的，至少在某些方面是不确定的，对微观层面统计数据的分析结果可以解释宏观层面观察到的现象。海森堡提出的“不确定性原理”，之前被翻译为“测不准原理”，这一原理告诉我们，不管测量仪器多么精确，我们也做不到完全精确的测量。

至于不确定论哲学观与确定论哲学观孰优孰劣，我没有能力做出判断。诸多事实已经表明，统计思想背后的不确定论比一直居于主流地位的确定论哲学观似乎更有活力，这也并不意味着确定论哲学观要被扔入历史的垃圾箱，人们生活在构建出来的意义之中，要构建出来意义，离不开确定论哲学观这一基础。

第六，计算机的发展为统计学提供了有力工具。随着计算机的发展，格里文科-坎泰利定理的应用越来越多。不仅如此，随着计算机的发展，诸多统计方法的实施越来越方便了。计算机大大提高了计算效率，使得以前一个人一辈子都不能完成的计算量在很短的时间内得以完成，这不仅为统计学方法的应用提供了更广阔的天地，而且为统计学家探索更多统计学方法提供了动力和机会。与此同时，现代计算机软件的发展为普及统计学提供了方便。比如，现在不少没有深入学习过统计学的人，很快就可以学会使用统计软件进行数据分析。但是，这也带来了一些风险，这些不明白统计学原理的人，有可能根据自己的需要随意解释统计结果。这种风气一旦形成，不但扭曲了统计学，而且对其他学科的发展带来危害。

第七，统计革命会被取代，但这一天远未到来。正如作者戴维·萨尔斯伯格在《女士品茶》中指出的那样，统计革命会被取代，会有另外一种新发展起来的学科取代统计学，更好地为人类发展服务。我完全赞同这一观点。随着人们认知水平的提升和知识积累的增加，肯定会发展起来更优秀的学科，取代统计学。但是，我认为，这一天远未到来。原因主要包括：第一，直到今天，现代统计学的发展历史不过一百多年，这是一个非常年轻的学科，统计学中的很多问题尚未得到解决，现有的统计学理论框架远称不上“成熟”，统计学家们仍然是一个充满活力的群体。第二，随着计算机的发展，统计学的应用范围大大扩展，统计学家的效率大大提高，统计学正在进入另一个高速发展时期。第三，随着大数据时代的到来，对统计学的需求大幅增加，一则为把现有的统计学理论和方法加以应用提供了机会，二则为统计学家探索新理论、开发新方法提出了要求。

三、两点思考

戴维·萨尔斯伯格在《女士品茶》中指出，数理统计与概率论是独立的，就目前情况而言，关于概率论的争议远大于数理统计。可是，很多统计理论和方法是与概率论结合在一起的，比如，假设检验这一重要方法要使用了哲学家韦恩的概率定义。目前，回归分析中的参数检验、t检验、z检验、时间序列数据分析中的各种模型、面板数据分析中的各种模型等，都用到了假设检验。倘若韦恩的概率定义是错误的，据此发展出来的各种模型和方法就都是不可靠的。因此，我认为，数理统计的短板在于概率论，在未来，有必要把数理统计和概率论融合起来加以研究，毕竟，离开了概率论，有些数理统计结果的现实意义很难解释。

在目前的统计学中，大部分内容都是关于参数检验的，关于非参数检验的内容占比不大。在大数据分析中，我觉得，非参数检验似乎比参数检验更为适用。大数据有五个显著特点：①容量大；②类型复杂；③低价值密度；④真实；⑤分析速度快。我们很难在短时间内对大数据的分布类型进行判断，所以格里文科-坎泰利定理大有用武之地，我们更难在短时间内对大数据的模型进行判断，不能确定模型，何来参数检验，所以非参数检验很可能更为适用。

最后，我以苏轼的《水龙吟·次韵章质夫杨花词》结束。