如何在海量的数据中,识别数据谎言、挖掘有用信息。
听书笔记
《数据的真相》的作者是约翰·约翰逊和迈克·格鲁克。约翰是美国麻省理工学院的计量经济学博士,作为一名数据专家,他开着一家经济咨询公司,要求决策者把经验数据作为决策依据,这家数据驱动型公司被美国国家电台等媒体争相报道。另一位作者迈克,毕业于约翰·霍普金斯大学,是一家广告公司的总裁,作为一名营销专家,迈克特别擅长于用平实易懂的方式解读复杂的话题。
一,样本陷阱。说说抽样如何影响结果?
样本是从总体数据中抽取出来的部分数据,用来代表总体数据的数量特征。之所以抽取样本而不是直接研究总体数据是因为有些研究对象的范围比较广,难以全面覆盖,比如海水的含盐量;有些研究对象的数量庞大,比如中国男性的平均身高;有些研究测试带有破坏性,比如检测一批灯泡的使用寿命。因此,我们不可能也没有必要对总体中的每个单位一一测定。总体数据进行统计分析,而是借助样本来反映总体情况呢?
不过在具体选择样本的时候,有三点需要注意,分别是样本的代表性、真实性和随机性。如果样本不能符合这三点,那结论就会走向谬误。
先说样本的代表性。是指,对样本的研究发现要能推广到总体数据。一般影响样本代表性的,有两个原因,分别是样本大小不合适和抽取数据太片面。
之后注意的是样本的真实性。样本不仅要能代表整体数据,样本还必须是真实的。如果样本数据是虚假的,从虚假中得出的任何结论都是没有意义的。这里要特别注意自陈式数据的真实性。自陈式数据,指的是从人们自我陈述中获取的数据。这类数据的真实性特别值得怀疑。因为人们在回答关于自身的问题时总会不诚实,他们很难客观理解和评价自己的行为。
最后说样本的随机性。如果样本并不是随机抽取的,那么样本也有可能得不出有意义的结论。为什么这么说,我给你举个例子。美国征兵部门开始实行抽签制度,通过随机抽取生日来决定哪些人上战场。但因为疏忽,样本抽取并不随机,造成出生月份越靠后,越可能被征到。
二,平均数陷阱。这一部分将教会我们识别数据呈现的是哪一种平均。
大多数人听到平均数,都认为讲的是算术平均值,也就是把所有样本数据相加,再除以样本个数得出的,但其实能反应样本一般水平的平均数,除了算术平均值外,还有加权平均值,众数和中位数。如果不能分清这些平均数的区别,我们就容易对样本形成错误认识。
先说算术平均值,它的优势在于抽象出了群体某一方面的代表值。但算术平均值有三个缺点:不能反映各数据的重要程度、忽视了数据之间的差距,以及容易受到异类数据的影响。
对于第一个缺点,不能反映各数据的重要程度,加权平均数就更为准确地体现了样本的一般水平。
第二个缺点,不能反映数据的具体差距。此时,采用众数就可以避免这个缺陷。众数是指总体中出现次数最多的那个数据,更能反应样本数据的集中趋势。
第三个缺点,容易受到异类数据的影响。异类数据是指那些和其他数据格格不入的数据。比如在一群身高2米上下的篮球运动员中,有一个1米7的普通人加入。这个1米7的数据就是异类数据。这些异类数据会对平均值产生巨大的影响。此时,采用中位数就能避免这个缺陷
三、因果陷阱。这部分将教会我们分清关联性和因果性。
在现实世界中,许多现象之间都存在一定的依存关系,这种依存关系,我们可以称为事物之间的关联性。关联性可以分为因果关系和非因果关系。因果关系是指某一变量是受另一变量影响的。但具有相关关系并不代表二者是因果关系,例如中国国内生产总值与印度的人口具有较强的相关性,因为二者都以较快的速度增长,但显然二者之间不具有因果关系。
一个典型的将因果性和关联性混淆的例子,是出生月份和能否成为足球运动员有关。这个例子就忽视了选拔机制这变量,所以,出生时间和是否成为足球运动员只是相关关系,并不是因果关系。
什么导致关联性和因果性的不同呢?是遗漏变量。很多时候,变量不止两个。你掌握了两个变量之间的关系,但实际上有第三个至关重要的变量被遗漏了。这个变量就是遗漏变量。
如何识别遗漏变量,确定两个变量有因果性,还是只具有关联性呢?作者提供了两个建议:
第一,问一个简单的问题——还有什么因素可以解释这件事情?
第二,看符不符合你的常识。比如冰淇淋消费量越大,犯罪率就上升。这个关系明显不符合我们的常识。
四、结论陷阱。这部分将教会我们看清结论是否可靠。
生活中,我们会接受一系列结论。这些结论因为有专家背书,权威机构证明,所以显得言之凿凿,不容置疑。
但你依然要问两个问题。
第一,这个结论有多大程度是可信的,存在巧合吗?
第二个问题,这个结论对我们是否有意义?这两个问题能帮助我们理性看待结论,正确决策。
对第一个问题:这个结论有多大程度是可信的。我们可以用统计学里的显著性差异来判断。
对第二个问题:这个结论对我们是否有意义。就算一组数据呈现出显著性差异,你还是要问一个问题,这个研究将对我们的生活有什么作用。为此你要综合这个结论的效应和经济成本。
解读 | 陈不易
前医药广告策划人、历史小说作家、现互联网编辑。
播音 | 李锐
策划编辑 | 陈艳
音频编辑 | 陈子夫
那个讲解三体的播音员叫什么?他的声音是这个节目最好的!
时光荏苒岁月静好_sj 回复 @或然666: 张煜,我也喜欢他的演播
统计学入门
魔法信号 回复 @远看花有色近听鸟无音: 应该是统计学的延伸和现代应用
样本,算术平均值(数据不同的重要性,不同的权重,数据的具体差异,掩盖具体,异类数据,中位数,)因果关系,依存关系,关键性,常识,结论证明,存在巧合,显著性差异,概率
约翰是美国麻省理工学院的计量经济学博士,作为一名数据专家,他开着一家经济咨询公司,要求决策者把经验数据作为决策依据,这家数据驱动型公司被美国国家电台等媒体争相报道。另一位作者迈克,毕业于约翰·霍普金斯大学,是一家广告公司的总裁,作为一名营销专家,迈克特别擅长于用平实易懂的方式解读复杂的话题。
打卡
打卡!
识别数据陷进:问问题!
小数据
上了一课统计学
张家有财一千万,九个邻居穷光蛋。平均起来算一算,个个都是张百万