《数据的真相》:美国麻省理工数据专家,教你在ChatGPT时代做出明智决策

《数据的真相》:美国麻省理工数据专家,教你在ChatGPT时代做出明智决策

00:00
23:19

如何在海量的数据中,识别数据谎言、挖掘有用信息。


听书笔记  


《数据的真相》的作者是约翰·约翰逊迈克·格鲁克。约翰是美国麻省理工学院的计量经济学博士,作为一名数据专家,他开着一家经济咨询公司,要求决策者把经验数据作为决策依据,这家数据驱动型公司被美国国家电台等媒体争相报道。另一位作者迈克,毕业于约翰·霍普金斯大学,是一家广告公司的总裁,作为一名营销专家,迈克特别擅长于用平实易懂的方式解读复杂的话题。


一,样本陷阱。说说抽样如何影响结果?


样本是从总体数据中抽取出来的部分数据,用来代表总体数据的数量特征。之所以抽取样本而不是直接研究总体数据是因为有些研究对象的范围比较广,难以全面覆盖,比如海水的含盐量;有些研究对象的数量庞大,比如中国男性的平均身高;有些研究测试带有破坏性,比如检测一批灯泡的使用寿命。因此,我们不可能也没有必要对总体中的每个单位一一测定。总体数据进行统计分析,而是借助样本来反映总体情况呢?


不过在具体选择样本的时候,有三点需要注意,分别是样本的代表性、真实性和随机性。如果样本不能符合这三点,那结论就会走向谬误。


先说样本的代表性。是指,对样本的研究发现要能推广到总体数据。一般影响样本代表性的,有两个原因,分别是样本大小不合适和抽取数据太片面。


之后注意的是样本的真实性。样本不仅要能代表整体数据,样本还必须是真实的。如果样本数据是虚假的,从虚假中得出的任何结论都是没有意义的。这里要特别注意自陈式数据的真实性。自陈式数据,指的是从人们自我陈述中获取的数据。这类数据的真实性特别值得怀疑。因为人们在回答关于自身的问题时总会不诚实,他们很难客观理解和评价自己的行为。


最后说样本的随机性。如果样本并不是随机抽取的,那么样本也有可能得不出有意义的结论。为什么这么说,我给你举个例子。美国征兵部门开始实行抽签制度,通过随机抽取生日来决定哪些人上战场。但因为疏忽,样本抽取并不随机,造成出生月份越靠后,越可能被征到。


二,平均数陷阱。这一部分将教会我们识别数据呈现的是哪一种平均。


大多数人听到平均数,都认为讲的是算术平均值,也就是把所有样本数据相加,再除以样本个数得出的,但其实能反应样本一般水平的平均数,除了算术平均值外,还有加权平均值,众数和中位数。如果不能分清这些平均数的区别,我们就容易对样本形成错误认识。


先说算术平均值,它的优势在于抽象出了群体某一方面的代表值。但算术平均值有三个缺点:不能反映各数据的重要程度、忽视了数据之间的差距,以及容易受到异类数据的影响。


对于第一个缺点,不能反映各数据的重要程度,加权平均数就更为准确地体现了样本的一般水平。


第二个缺点,不能反映数据的具体差距。此时,采用众数就可以避免这个缺陷。众数是指总体中出现次数最多的那个数据,更能反应样本数据的集中趋势。


第三个缺点,容易受到异类数据的影响。异类数据是指那些和其他数据格格不入的数据。比如在一群身高2米上下的篮球运动员中,有一个1米7的普通人加入。这个1米7的数据就是异类数据。这些异类数据会对平均值产生巨大的影响。此时,采用中位数就能避免这个缺陷


三、因果陷阱。这部分将教会我们分清关联性和因果性。


在现实世界中,许多现象之间都存在一定的依存关系,这种依存关系,我们可以称为事物之间的关联性。关联性可以分为因果关系和非因果关系。因果关系是指某一变量是受另一变量影响的。但具有相关关系并不代表二者是因果关系,例如中国国内生产总值与印度的人口具有较强的相关性,因为二者都以较快的速度增长,但显然二者之间不具有因果关系。


一个典型的将因果性和关联性混淆的例子,是出生月份和能否成为足球运动员有关。这个例子就忽视了选拔机制这变量,所以,出生时间和是否成为足球运动员只是相关关系,并不是因果关系。


什么导致关联性和因果性的不同呢?是遗漏变量。很多时候,变量不止两个。你掌握了两个变量之间的关系,但实际上有第三个至关重要的变量被遗漏了。这个变量就是遗漏变量。


如何识别遗漏变量,确定两个变量有因果性,还是只具有关联性呢?作者提供了两个建议:


第一,问一个简单的问题——还有什么因素可以解释这件事情?

第二,看符不符合你的常识。比如冰淇淋消费量越大,犯罪率就上升。这个关系明显不符合我们的常识。 


四、结论陷阱。这部分将教会我们看清结论是否可靠。


生活中,我们会接受一系列结论。这些结论因为有专家背书,权威机构证明,所以显得言之凿凿,不容置疑。


但你依然要问两个问题。

第一,这个结论有多大程度是可信的,存在巧合吗?

第二个问题,这个结论对我们是否有意义?这两个问题能帮助我们理性看待结论,正确决策。


对第一个问题:这个结论有多大程度是可信的。我们可以用统计学里的显著性差异来判断。

对第二个问题:这个结论对我们是否有意义。就算一组数据呈现出显著性差异,你还是要问一个问题,这个研究将对我们的生活有什么作用。为此你要综合这个结论的效应和经济成本。


解读 | 陈不易

前医药广告策划人、历史小说作家、现互联网编辑。

播音 | 李锐

策划编辑 | 陈艳

音频编辑 | 陈子夫



以上内容来自专辑
用户评论
  • jinjiantie

    数据分析揭实真相的书籍、大数据将为社会科学带来一场革命,就像显微镜和望远镜彻底变革了自然的科学那样;社会科学也正在成为一门真正的科学了解更真实的世界,是我们做出正确决策的第一步!本书讲的如何识别数据陷阱、看透真相呢?有时候揭示真相的最佳方法是:问问题,在这个利益纠杂的世界,每个人都试图用数据来说服你,在面对身边的数据的时候,我们可以通过一系列问题来挖掘数据背后的真相!数据样本有代表性吗?真实吗?是随机抽样的吗?数据呈现的平均是哪一种?变量之间真的有因果关系吗?最后这个结论是真实的吗?对我们有意义吗?这些问题都能成为我们一个成熟的数据接收者,在生活中做出明智的决策__JIN JIANTIE

  • Marshall小课堂

    数字的真相

  • 鱼儿超新星

    相关性不代表因果性哈

  • 东方如水

    数据的价值与其时效性密切相关。随着时间的推移,数据可能会变得过时,失去其原有的业务价值,所以数据到底截止到什么时间点,到底它的计算周期是什么,至关重要

  • 每周文听武说

    好听

  • 随缘之秋叶

  • 随缘之秋叶

  • 剑心带您一起读书