028【反驳】黄雁捷:拆解统计陷阱——对数据敏感起来

028【反驳】黄雁捷:拆解统计陷阱——对数据敏感起来

00:00
10:09

音频全文:

 

Hello,朋友,你好呀。


在日常生活中,我们都会看到很多广告,在宣传产品的效果。那现在的消费者,也都很聪明,你红口白牙无凭无据地讲,大家都不会相信。所以这个时候呢,广告商就会想用数据,来证明自己真的物有所值。美其名曰,用数据说话。


可是,数据当然会说话,问题在于,数据说的话,就不会骗人吗?


比如说有的健身房,在给学生卖课的时候,他们会说。这个健身啊,不仅可以强身健体,还能够提升你的精气神。根据调查数据,有长期健身习惯的高中生,平均成绩会比没有健身习惯的学生高20个百分点。哇,那有些家长这么一听,简直太神奇了。还不给孩子赶紧报班。


这种对于数据的盲目崇拜,不仅在生活中会出现,辩论场上,其实也是一个很常见的问题。 


有不少新生辩手啊,会误以为数据,就等同于真理。在场上一听到对方有数据,就感觉自己整个人都没了底气,完全没有数据是可以反驳的意识。


再好一点的呢,可能知道对方有数据,是可以挑战的。但怎么挑战数据呢?来来回回就只会质疑来源这一招。万一对方真的有一个不错的来源,那就也没招了,只能一味地回避闪躲。



归根结底,这两种误区,都是因为在心里夸大了数据的作用。其实,数据的力量,远没有很多人想象地那么强硬。就比如刚刚举的例子,有长期健身习惯的高中生,平均成绩会比没有健身习惯的高中生高20%。这么简单的一个数据里,其实,就至少隐藏着三个陷阱,在引诱你作出错误判断。


第一点,健身的学生成绩好,就代表健身是原因,成绩是结果吗?不一定吧,对高中生而言,健身房的开销可不是一笔小数目,一般都还是要家长出钱的。就我家的父母来说,我要是成绩不好,他们才不会让我天天泡健身房呢?所以,未必是因为健身了才学习好而是学习好的孩子更容易能去健身。这是所谓的,因果倒置


第二点,能长期健身的学生,往往是什么人。至少,应该是父母有一定经济实力,并且愿意在子女身上投入的人吧。父母愿意花钱让孩子健身,应该也不会吝啬给孩子补课、报补习班。让成绩变好的因素,到底是健身,还是这些方面的投入呢?这是所谓的,样本偏差


而第三点,试想一下,为了提高成绩而送孩子去健身的父母,在一个月以后发现孩子成绩没有提高。他们会做什么?会停止去健身嘛。所以,能保持长期健身习惯的这个条件,一开始就已经筛选出去了,那一些成绩有下滑/父母退了课的孩子。剩下的当然是成绩比较好的,这是所谓,幸存者偏差



你看,一个普通的数据里,稍稍分析,就可以找到很多破绽。而在辩论场上,想对一个数据做出快速反应,首先,就要先在场下熟悉数据的常见问题。接下来,我将针对辩论场上容易出现的3类数据陷阱,分别做一下具体的分析。


第一种最常见的,就是「百分比陷阱」。简单来说,就是利用了具体数值在转换成百分比时,会给人带来的错觉。


比如说有个辩题,学校应不应该禁止大一新生开通互联网。正方有数据啊,某门专业课,在禁网后的一年,挂科率比前一年下降了66.7%。哎,你这么一听,好像真的效果立竿见影。但其实呢?他没有告诉你这是一门很简单的专业课,去年整个年级就挂了3个缺考的,今年呢,挂了1个。说是66.7%,其实就是少了两个人而已。


像这样,把绝对值上很小的变化,换成百分比,就有可能显得很大。这就典型的「百分比陷阱」。归根结底,是因为百分比适合描述较大的数据,对于小样本的变化会过于敏感。所以在听到对方辩手在一件小事上用百分比来说事时,就要留个心眼,去问他这个66.7%,到底是多少人。反过来,如果对方是在一件大事上,却偏偏用数值来说事的话,也是一样的要小心。


某专业每年挂科47人次,乍一听很多,好像挂了一整个班。但考虑到一个专业200个学生,期末每个学生考5门课的话,其实47人次连5%的挂科率都不到,平均每个班才挂两个人。你要是被“47人次”唬住了,就完全读错了数据的真实含义。这是第一种,百分比陷阱。它的问题往往出在用相对的比例,掩盖了绝对的数值。


在此之上,还有第二种更难识别的现象,那就是「平均值陷阱」。还是用刚刚那个辩题举例子吧,比如说,某专业在允许大一新生开网后,平均成绩跟前一年基本持平,因此证明开网对于成绩也没什么影响。这种用“平均”说事的数据,同样也是我们需要警惕的。因为平均值,是把全班人的数据汇总成一个值,必然地,它会抹消内在的数据结构。乍一看似乎有道理,但细想地话,一个班级在开网了之后,可能好学生成绩更好、差学生的成绩更差了。虽然平均分最后算起来差不多,但是班级内部两极分化,显然也不符合大一基础教育的初衷。


所以你看,这种只在乎平均分,而忽略了每一个学生个体的自身发展的教育观,不正是我们可以反驳的对象吗。你看,平均值陷阱的狡猾之处,正是用整体的结果,掩盖住个体的信息。


但需要注意的是,反驳平均值陷阱往往更难一些,像刚刚的例子里,你虽然提出了假设,但是这毕竟是对方的数据,往往你也没有实锤可以证明,这个班真的出现了两极分化。所以往往,对平均值陷阱的反驳,重点不应该是去说「对方你这个数据不对」,而应该放在「对方你用这个数据来说事,就证明你根本没有认识到真正的问题在哪里」。这样子,就可以不在这个数据的具体细节上,做过多的纠缠,从而能够更好地打击到实质问题


而最后,第三种常见的数据坑,就当属「民意调查陷阱」了。比如说,据调查,挂科班里72%的家长,认为影响孩子成绩的主要原因是网络游戏以此证明大学禁止开网的合理性。乍一听似乎也有些道理。但是,越是这种民意调查类的数据,往往越容易受到样本特征的影响。你看,这个数据的样本是什么,是家长们的判断。可为人父母,谁家的家长不是觉得自己孩子最棒。当爸妈的,不愿意承认孩子笨或者懒,更倾向于找外部原因,这是人之常情。可作为数据,用父母的意见来当样本,就有些偏差了吧。


民意调查类陷阱,往往都是用一项表层的数据,掩盖了深层解读中可能出现的问题。所以同样一个数据,对方解读出来了网络的可怕,我方解读出来了家长的偏袒。究其根本,是因为数据只是一个结果,而产生这个结果的原因,我们作为反驳方,是可以给出合理质疑的。


我不是说你的数据不对,而是说它反映的事实不够全面。这里的关键,就在于你提出的质疑有多合理。因此要做的,就是提炼这个样本的特征,并且用这个特征来解释数据。家长的特征是什么,是会偏爱孩子。因为家长偏爱孩子,才会有你72%那么高的数据。


当然,在实际比赛当中,对一个关键数据,可能一次挑战并不足够。我们可以提炼的特征,当然也不止有一个比如说家长,家长除了容易偏爱孩子,还有什么特征呢?比如说,家长往往都还是中年人,对于互联网本身不够了解。越是不了解的东西,我们越容易视为洪水猛兽,把它想得特别可怕,因此夸大了网络游戏的负面影响。等等,同样都是可以挑战的角度。



好了,今天的内容到这里也差不多该结束了。最后让我们整个复习一下吧。数据能说话,但数据也会骗人。对数据抱有怀疑之心,才能正确地对待数据。常见的数据陷阱有三种,一是「百分比陷阱」,要靠听的时候警惕,别让绝对的数值被相对的比例所掩盖;二是「平均数陷阱」,要揭示被整体结果淹没的更多个体信息,挖掘问题的本质;三是「民意调查陷阱」,反驳时需审视样本特征,提出合理质疑,不要光看到表层的数据,更要注重对数据的深层次解读



受限于篇幅,这次我只讲了「3种最常见的数据陷阱类型」。所以,今天的作业就是:

你还能想出别的数据陷阱的类型吗?

破解他们的方法,和我今天提到的,有无异同呢?


稍晚一些,我会放出我个人的参考答案,如果有任何意见或者建议,也请你务必告诉我~

非常希望能够与你交换想法~~


在这个信息时代,数据越来越多地进入我们的日常生活之中,无论如何,给自己警惕、挖掘、合理质疑的意识,我想不仅在辩论场上,在生活中,也会有所帮助吧


我是黄雁捷,感谢你今天的收听,EL PSY COOGRUU,我们下期再见~

以上内容来自专辑
用户评论
  • 超级辩手

    【数据陷阱1】据调查,某国修改婚姻法后,离婚率3年暴涨5%,证明该修改严重影响夫妻幸福。

    超级辩手 回复 @超级辩手: 【数据陷阱3】实行了某项政策的三年后,失业率涨幅的上升趋势比三年前降低了70%,证明这项政策对就业问题有显著效果。

  • 来为什么不是

    补一个【忽视基本分布】,统计学上讲的,说是一则跟风奥运会的美国的牛奶广告:“我们调查了美国的奥运冠军,十个冠军中七个都喝牛奶”。但实际上美国大多数人都喝牛奶,如果美国实际上有80%的人喝牛奶,那么其实奥运冠军相对于常人,喝牛奶的比率是减少了的。

  • 来为什么不是

    我觉得今天的内容是,要对对方的数据进行统计学上的质疑。【百分比陷阱】讲了不要被数据的表达所迷惑,往往其实分数表达比单纯百分比更强,66.7%=“每三个里就有两个”。【平均值陷阱】讲不要单看一项数据,还要看标准差,中位数,样本容量甚至P和F值等。【民意调查陷阱】是说要注意混淆变量(confound)

  • 君平_帕特里克

    Gre分析性写作里面就有数据陷阱,以前看的how to ask questions the smart way 也阅读学习到过关于数据的陷阱。还有presentation 中,财报中,很多故意设计图表形式,也是利用数据进行“欺骗”受众

  • 放弃减肥的胖子_br

    良心课程

  • 孟洁_hf

    问候各位,我有一个问题就是如果对数据进行了挑战,但是又没有办法完全把数据打爆,而且挑战数据可能会需要一定的时间,这种情况下我们挑战数据值不值得呢?在评委的心里,这种挑战的效力是怎么样的呢?

    孟洁_hf 回复 @放弃减肥的胖子_br: 有道理 谢谢您的回答

  • 君平_帕特里克

    嗯,数据陷阱很多啊。运用一下,我们在阅读广告的时候,可以用这个方法去分析一下。当然,也可以“利用”一下