科普丨《为什么》:攀爬“因果关系之梯”,瞭望强人工智能的演进方向

科普丨《为什么》:攀爬“因果关系之梯”,瞭望强人工智能的演进方向

00:00
25:17

攀爬因果关系之梯,瞭望强人工智能的演进方向


点击进入喜马讲书频道页>>>


“喜马讲书”重金招募撰稿人,详情点击进入>>>


精华笔记 


本书作者朱迪亚·珀尔致力于建立并推广一门名为因果推断的新学科。他认为,这门新学科会影响到人类生活的方方面面。


这一学科的核心概念叫做因果关系之梯,其中包含了关联干预反事实三个层次。


“因果关系之梯第一层:关联


“关联”指找出不同变量之间的关系,也可以叫相关性。在相关性的研究中,最重要的学者是高尔顿和皮尔逊。


高尔顿设计了高尔顿板,这块板子上按照三角形阵列,插满了钉子。从板子上口倒入很多小球,它们会在底部堆积成中间多、两边少的正态分布。人群的身高数据也符合正态分布:多数人是中等身材,特别高或矮的人很少。高尔顿认为这个钉板可以用来模拟遗传规律。


但是,如果增加板上钉子的层数,最后的分布会变扁、两边小球会增加。如果这与遗传规律相同,那么随着子孙代数增加,会出现更多特别高和特别矮的人。然而,人类身高实际分布状况是相对稳定的。此外,高尔顿还发现,那些高个父亲的儿子,会比普通人高一点,但是却没有父亲高;矮个男人的儿子类似,身高会更普通一些。高尔顿管这种现象叫做向均值回归。他一直想找到其中的因果关系。


然而,回归均值由概率规则就足以解释了。人的身高很高,一方面是遗传因素,另一方面是因为运气比较好。而他的下一代,遗传因素确实不错,但是环境变化了,或者运气变差了,于是身高就回落了。


在否定了因果性的绝对地位后,高尔顿还注意到,高个的人通常也有长度大于均值的前臂。显然,不能说身高导致了臂长,只能说二者存在一定的相关关系。


高尔顿开启了相关性的研究,他的学生皮尔逊更加极端,他想将因果关系从统计学中彻抹去,然而他却无法解释伪相关问题。


一个国家的人均巧克力消费量,和该国诺贝尔奖得主人数之间存在强相关。按照皮尔逊的说法,这是一种伪相关,没有科学意义。但是,巧克力的消耗越多的国家,往往越富裕,科研水平更高,因此诺奖学者也就越多。对于这种因果解释,皮尔逊坚决抵制。



为了更好地理解伪相关问题,需要到达因果关系之梯第二层。


“因果关系之梯第二层:干预


“干预”,分析的是如果采取行动,会产生怎样的影响


做出干预之前,要排除混杂因子,它是指那些同时对产生影响的因素。在巧克力与诺贝尔奖的故事中,国家经济就是一个混杂因子,它同时影响了巧克力消耗和诺奖人数。


学者们在设计实验时,要尽可能控制混杂因子,否则可能会出现悖论


辛普森医生悖论中,辛普森医生想测试一种防治心脏病的新药。实验中,患者分成吃药组与没吃药组(即对照组)。吃药组中,40名女性和20名男性。对照组中,40名男性和20名女性。


在对照组中,40名男性中,12人发病,发病率30%20名女性中,1人发病,发病率是5%。在吃药组中,20名男性,8人发病,发病率40%40名女性,3人发病,发病率是7.5%。评测结果显示,这种药对男性有害,对女性也有害。但是,把全部数据加和,会发现在没吃药的60人中,发病13人;吃药的60人中,发病11人。从全体人类的角度看,这个药是有效果的。


这一悖论的关键是:性别是一种混杂因子,同时影响了分组和疗效,应该排除掉。


为了避开混杂因子,可以采用随机控制变量法。


在对比AB两种肥料的效果时,土壤、水源、种子、气候等因素都是混杂因子,会影响庄稼的产量。为此,英国学者费舍尔设计了随机控制变量实验,将一块土地分成很多小区域,然后在所有的小区域中随机分配A肥料和B肥料,记录它们的效果,这个过程作为一次实验。然后,反复重复实验很多次,每一次都重新随机分配肥料的对应区域。于是,所有混杂因子都在多次的随机过程中相互抵消掉了。


虽然,随机化可以消除混杂因子带来的偏差,但很多时候,我们却无法做出随机实验。比如,在研究肥胖对心脏病的影响时,不可能随机安排患者吃胖或者减肥。于是,要动用来自因果关系之梯第三层的能力。



“因果关系之梯第三层:反事实


“反事实”是指:如果某事没发生,那会有产生怎样的结果反事实分析的本质就是问出为什么?


“反事实思考的关键是找到中介因素。如果A导致BB导致C,那么B就是中介因素。


“坏血病的案例体现了中介因素的重要性。在大航海时代,水手们被坏血病所困扰。直到1747年,林德医生发现食用柑橘类水果可以治疗坏血病,情况才有所改善。


然而,一个世纪后,英国极地探险队中又出现了坏血病。这是因为医生们没有弄清防止坏血病的中介因素,他们误以为柑橘类水果能预防坏血病的是因为酸。起初,水手吃的是西班牙柠檬;之后,人们开始用便宜的西印度酸橙作为替代品。虽然二者都很酸,但酸橙的维生素C含量却只有柠檬的四分之一。


直到科学家们分离出了维生素C,人们才找到了预防坏血病的关键,从而理清了因果关系:柑橘类水果提供维生素C,维生素C防治坏血病。


中介因素还有更复杂的内涵。当A导致BAB共同作用导致C时,此时中介因素B的存在,会让我们对问题的分析出现偏差。


在公司中,员工的学历和工作经历共同决定了薪水。如果小张是本科学历,5年工作经验,年薪是10万。那么,如果小张是硕士学历,他工资该有多少?


用传统的回归分析法,可以建立公式:员工薪水=A乘以学历+B乘以工作经验。通过查找小张同事们的信息,可以计算出AB的值。然后,把公式中小张的学历换为研究生,得出这种假设情况下他的薪水。


但是,工作经验是一个中介因素。工作经验与学历影响薪水,但工作经验同样取决于学历。因为,拥有更高学历的员工,往往花了更长的时间去接受教育。假如小张是研究生学历,那他的工作经验将减少2~3年,需要把这项修正考虑进去。


回归分析法停留在了因果关系之梯的第一层,只是观察了数据的特点。而考虑到中介因素,并理清了其中的关系后,才算做到了真正的因果推断,也就是到达了因果关系之梯的第三层。


经过攀爬三层因果关系之梯,我们才能建立起正确的因果模型。作者指出,当今的很多科学研究被束缚在了相关性这一层。他坚信因果推断这一新学科将带来整个科学界的转变,从而让科学更加繁荣。



书           名:为什么:关于因果关系的新科学

作           者:朱迪亚·珀尔

主    讲   人:圆的方块

主讲人简介:理工科博士,科普作家,科学松鼠会会员

主           播:张仲阳

策 划  编 辑:陈艳

总    编    辑:徐苑


以上内容来自专辑
用户评论
  • Dryolo

    非常感谢主讲人,能甄选出如此优秀的硬核书籍,casual inference 在哈佛epi系一直以来就是一门很重要的课,DAG也在病因推论建模中应用广泛,在HSPH学完这门课后重读此书,居然有了高屋建瓴的感觉,收获颇多,再次由衷感谢编辑部与主讲人,好书应多多重温

  • 拟像

    身高是由基因决定的,如果一个孩子父母身高都不高,那这个孩子的身高也不会高

    rainingvol 回复 @拟像: 至少比他父母高。

  • 婷婷美的

    回归均值,相关性和因果性,天赋加运气,更多的天赋和运气,随机试验混杂因子,问为什么,特点。

  • 保护童年

    希望多讲解社会心理学和名人传记

    庄庄子o 回复 @保护童年: 名人传记?讲那些没用的干什么?

  • 涓溪润林

    为了得到准确的答案,反而没有完美的答案。

  • zmb119

    就喜欢这种工具性的书,拿来就能用!

  • 幻虫_jx

    听到这想起道德经里说的,天之道损有余而补不足

  • 维娜微辣

    希望AI更强大,人人拥有

  • Wjz绿色山川

    回归均值。摡率。运气。环境。兴运。身高臂长,统计关系

  • p某人

    最近刚刚学完因果关系的分析方法,太及时了,大赞