识破数据背后的真相,是现代社会的基本生存技能。
听书笔记
《简单统计学》的作者是耶鲁大学博士加里•史密斯。
统计学是对数据进行处理的科学,我们按照数据处理过程的先后顺序,把这本书介绍的统计学原则,分为收集、分析和呈现三个阶段,来一一说明数据会在哪些地方出问题,帮助我们保持警惕,避免上当受骗。
第一,数据收集中的常见问题:
1,自选择偏差
如果因为被研究对象的个人决策,让数据样本的随机性大打折扣,就会导致最终的统计结果产生偏差。这种偏差,我们称为自选择偏差。
当我们试图通过简单的观察收集数据,得出结论时,这个结论很容易失真,因为我们观察到的特点,反应的未必是我们正在研究的特质,而是这些人身上原先就拥有的特质。
2,幸存者偏差
幸存者偏差说的是,我们在收集过往数据时往往遗漏了筛选的过程,因而忽视了关键信息。
在收集数据的过程中,我们很容易直接从看到的数据中下结论,但是,幸存者偏差提醒我们,没有看到的数据可能比我们看到的数据更加重要。
3,安慰剂效应
安慰剂效应就是说,无论病人服用的药物是否包含有效成分,人们都倾向于认为它能够缓解症状,似乎得到了某种心理上的安慰。要想避免安慰剂效应的干扰,在实验数据收集中不能轻信个案,而应该采取控制变量法进行比较,设计一项对照试验。
第二,数据分析中的常见问题:
1,曲解大数定律
大数定律的意思是,当统计样本足够大时,事物出现的频率就会无限接近它理论上的概率。
如果你把大样本中的结论,错误地移植到小样本中,这就曲解了大数定律。
这种曲解具体会表现为两种截然相反的形式:
a. 赌徒谬误:既然这件事情已经发生了很多次,为了平衡概率,下一次很可能不会再发生。
b. 热手谬误:这件事情既然已经发生了这么多次,那下回很可能再次发生。
我们不能把一系列独立事件,看成是相互影响的,我们既不能认为厄运会提高好运的可能性,也不能认为厄运会永远持续下去。
2,混淆条件概率
分不清“A条件下B的概率”和“B条件下A的概率”,并且认为这两个概率大致相等。
例如:男性当中,在NBA打球的人,只占很小一个比例,而在NBA打球的人当中,男性占的比例是百分之百。这两者当然不能等同。
3,误判相关因果
如果两个变量在数据上表现出相关关系,并不意味着它们必然存在因果关系。
4,忽略均值回归
均值回归是说,事物发生的概率都围绕着一个均值来回波动,在均值两头的极端现象,都有向平均值回归的趋势。出现均值回归现象的原因是,我们在做单次测量的时候,这种测量往往不完美。
第三,数据呈现中的常见问题:
1,在数据上动手脚
选择性报告:尽管研究者报告的数据是真实的,但他只报告了有利于论证他结论的那部分,对于不利于结论的数据,则有意无意地隐瞒不报。
谎报:研究者通过捏造虚假实验数据的方式,来证明自己的论点,达到不可告人的目的。
2,用图像扭曲真相
别有用心的人,会利用制作图像的过程,有意无意地扭曲真相。
例如:通过颠倒坐标系来逆转图像;通过忽略零点来放大波动。
四,如何防止别人用数据欺骗我们,我们又如何避免用数据欺骗自己。
1,我们要在数据统计的每个阶段认清它们;
2,我们要保持开放的心态,坚持实事求是;
3,我们要学会运用常识来分析问题,不要轻信缺乏数据的理论。
4,数据很容易取得也很容易造假,缺乏理论的数据同样不可信。最好的办法是使用新数据来检验理论,通常你都能发现致命的问题。
解读 | 照瞳,上海创投媒体采编
播音 | 邱博
策划编辑 | 李雪清
音频编辑 | 陈子夫
染辞_xq 回复 @Oliver611: 厉害呀
为什么不提供完整的文字
中医说了,数据就是我的经验
读书果然是一件有趣的事情
第二十九本书(简单统计学)作者:加里•史密斯。 本书介绍了统计学原则,分为收集、分析与呈现。 ⒈数据收集中常见的问题: ①自选择偏差 ②幸存者偏差(收集过程中,我们很容易从看到的数据下结论,但该偏差告诉我们,没有看到的数据更加重要,故事:英国飞机加厚钢板) ③安慰剂效应(数据收集中不能相信个案) ⒉数据分析中常见的问题 ①曲解大数定律(大数定律) ②混淆条件概率 ③误判相关因果(相关关系不意味存在因果关系) ④忽略均值回归 ⒊数据呈现中的常见问题 ①在数据上动手脚(只报告有利结论) ②用图像扭曲真相
和678号书《数据的真相》异曲同工
用图像扭曲真相——CNN
均值回归是说,事物发生的概率都围绕着一个均值来回波动,在均值两头的极端现象,都有向平均值回归的趋势。出现均值回归现象的原因是,我们在做单次测量的时候,这种测量往往不完美。
很好的一本书,赞
老師在第六分钟的时候使用的例子,猫咪从高楼坠落死亡率有一些問題。从高楼层的摔死的概率的确比低楼层的要低。因为高楼层摔落猫会有足够的时间进行增加自己的空气阻力最终让自己免于死亡。 详细可以自己上网查一查。~
孙悟猿 回复 @智能體_瑤炙葉: 猫的质量远大与空气阻力,可以忽略不计,下落高度越高重力势能转化成的动能就越大,猫死亡的概率也就越高