第4章 论预测心理学
卡尼曼和特沃斯基(Daniel Kahneman and Amos Tversky)
在这篇论文中,我们将探讨决定直觉预测和信心判断的规则,并将其与标准的统计预测原则进行比较。我们讨论两类预测:类别预测(category predict-tion)和数值预测(numericalprediction)。在类别预测中,预测以定类(nominal)形式出现,比如,竞选中的胜出者、对病人的诊断或一个人将来的职业。在数值预测中,预测以数值形式出现,比如,某一股票的将来市值,或某一学生的平均绩点(grade point aver-age,CPA)。
在不确定状况下进行预测与判断时,人们并不根椐概率的计算或者预测的统计理论。相反,他们依赖于数目有限的几种启发式,他们有时能获得合理判断,有时却导致严重的系统性错误( Kahneman&Tversky, 1972b, 3; Tversky Kahneman, 1971.21973,11)。本章关注其中一种启发式即代表性启发式在直觉预测中的作用。
在给定证据下(如人格描述),所考虑的结果(如职业或成就水平),可以按它们在多大程度上代表了证据来排序。本章的论点就是,人们用代表性启发式来预测,也就是说,他们按照结果体现证据的本质特征的程度来选择或者排列结果。在很多情景中,具代表性的结果,确实比其他结果更可能发生。然而,事实并不总是如此,因为有些因素(如结果的先验概率以及证据的可信度),而不是其代表性,会影响结果发生的可能性。由于忽视了这些因素,直觉预测,系统地和根本地违背了统计预测的规则。为证实这一假说,我们将说明按可觉知可能性对结果的排序,与按代表性的排序是一致的,并且直觉预测基本上不受先验概率和预期的预测准确性的影响。
在第一节,我们将考察类别预测,并说明它符合一种独立的代表性的评估,且它基本上也独立于结果的先验概率。在第二节,我们将考察数值预测,并说明它并不是合理的回归性的,且基本上不受证据可信度的影响。接下来的三节依次讨论有关预测研究中的方法论问题、预测中过分信心的来源,以及有关回归效应(regression effects)的错误直觉。
一、类别预测
1.基率、相似度和发生可能性
下面这个实验的例子展现了用代表性启发式做出的预测,以及与这种直觉预测模式相关的谬见。一个由69位被试组成的小组[基率组(the base-rate group)]被要求回答下面这个问题:“请考虑今天在美国的所有的一年级研究生。请写下你对以下9个专业领域的注册学生所占比例的最佳估计。”这9个领域见表4-1。表格中的第一列是各个领域基率估计的均值。
第二个小组的65位被试(相似度组)被给出下面这个人格描述:
汤姆有很高的智商,尽管他缺乏真正的创造力。他有着对秩序、清楚、整洁和所有部分各司其职的整齐系统的渴望。他的文章相当枯燥和机械,只是偶尔的陈腐的双关语和科幻小说式的想象迸出的火花才令其生色。他有强大的动力去胜任工作。他看起来对他人毫不在意,缺乏同情心,也不愿与人交流。尽管以自我为中心,但他有很强的道德感。
被试被要求按照“汤姆与上述9个领域中的典型的研究生有多像”来对这9个领域排序。表4-1中的第二列就是给不同领域的相似度排名的均值。
最后,预测组由114名美国三所主要大学的心理学研究生组成,他们被给出了汤姆的人格描述,但附加了下面的额外信息:
前面的人格描述是一位心理学家在汤姆读高中高年级时,根据投射测验写下的。汤姆现在是一位硏究生。请根据汤姆现在分别是这9个领域中的研究生的可能性,对这9个领域排序。
表4-1中的第三列是预测组的被试赋予结果的排名的均值。
我们计算了表4-1中各列之间的积矩相关系数(product-momentcorre-lation)判断的可能性与相似度之间的相关系数是0.97,而可能性与估计的基率之间的相关系数是-0.65。显然,对可能性的判断与相似度的判断基本一致,而与基率的估计截然不同。这一结果,对人们按照代表性或者相似度来预测的假说,是一个直接的证明。
由心理学研究生给出的对可能性的判断,严重违反了标准的预测规则。多于95%的回答者认为汤姆更可能学计算机科学而不是人文学或者教育学,但同时他们也确知在后一领域有更多的研究生的事实。根据表4-1列出的基率估计,人文学或教育学与计算机科学的先验几率之比( prior odds)大约为3:1(实际比率要高很多)。
根据贝叶斯规则,仅当对汤姆的人格描述既准确又切中要害时,才有可能逆转汤姆更可能是人文学或教育学的研究生而非计算机科学研究生的倾向。然而,我们研究中的研究生并不认为这一条件得到了满足。在预测任务之后,被试被要求估计通过数种不同信息实现一选就中(在9个领域中第一选择就正确)的比例。当预测是基于投射测验时,估计的一选就中的比例的中位数是23%,而基于高中生对自己的兴趣与计划的报告的预测,这一数值是53%。显然,投射测验并不被看重,不过,研究生们确实是依赖于由此种测验获得的描述,而忽视了基率。
总体上,有三类信息与统计预测相关:(1)先验信息或者是背景信息(如研究生专业的基率);(2)关于个例的特定证据(如对汤姆的描述);(3)预测的预期准确度(如估计的一选就中的概率)。统计预测中的一个基本规则是,预测的预期准确度,控制着赋予特定证据及先验信息的相对权重。当预测的预期准确度降低时,预测应该更为回归,也就是更接近按先验信息做出的预测。在汤姆这个例子中,预期准确度较低,先验概率理应被赋予更高的权重。但相反,我们的被试按照与特定证据的相似度来对答案排序,而无视先验概率。
在他们完全依赖于人格描述时,预测组中的被试,显然忽视了以下几点。其一,基于人格投射测验无效性这一臭名昭著的事实,汤姆极有可能并不像人格描述暗示的那样冲动和孤僻。其二,即使对汤姆读高中时的描述是真实的,在汤姆读研究生时可能就不再有效了。最后,即使描述依然是真实有效的,与读计算机科学的学生比较,极有可能在读人文学或教育学的学生中,有更多人符合这一描述,道理很简单,因为有更多的学生就读于前一领域。
2.对预期准确度的操纵
另外—个研究被用来检验这一假说,它认为与统计模型不同,对预测的预期准确度的操纵,并不影响预测模式。实验材料是5份对9年级男孩的简略的人格描述,据称这是由一位咨询员在纵向研究(longitudinalstud-y)的访谈基础上写成的。实验设计与汤姆研究中的设计是一样的。同一组中的被试(N=69),按照被描述的男孩与“那一研究领域中典型的一年级研究生的形象”的相似度,对这9个研究生专业排序。在相似度判断之后,他们估计这9个研究领域基准频率( base-rate frequency)。这些估计均见表4-1。剩下的被试被告知,这5个案例是从现在是研究生一年级学生的早先研究的参加者中随机抽取的。其中一组是高准确度组(N=55),他们得知“在此类描述基础上,与你相似的同学所做出的准确预测约占所有案例的55%”。低准确度组(N=50)则得知在一个任务中能做出的准确预测约占所有案例的27%。被试对每一描述,按“被描述的人现在是该研究领域的硏究生的可能性”对这9个领域排序。他们同样要对每一描述估计他们的第一选择就正确的概率。
预期准确度的操纵,对概率判断有重大影响。高准确度与低准确度组 的平均估计分别为0.70和0.56(t=3.72,p<0.001)。然而,在低准确度的条件下,对9个领域排序的结果与高准确度条件下的排序结果相比,并不显著地更接近基率分布。对每一判断,研究者计算出被试赋予(五项描述)9个研究领域的平均排名与基率间的积矩相关系数。这一相关系数,是对被试的预测多大程度上符合基率分布的总体衡量。高准确度组和低准确度组的单个相关系数的均值分别是0.13和0.16。差异并不显著(t=0.42,df=103)。这一判断模式违背了预测的标准理论,后者认为任何预期准确度的下降,都将伴随着预测对基率的移动。
由于预期准确度的操纵对预测没有影响,这两个预测组被汇总在一起。随后的分析与汤姆研究是一样的。对每一描述,两个相关系数被算出: (1)可能性的平均排名与相似度的平均排名之间的相关系数;(2)可能性的平均排名与平均基率之间的相关系数。对每一描述判断出的最可能的结果和这些相关系数都列示于表4-2。预测与相似度之间的相关系数始终很高。与之相反,预测与基率之间没有系统的关系:相关系数波动很大,它取决于每一描述中最具代表性的结果是否经常或极少发生。
这里对基率的考虑再一次被忽略。在统计理论中,只有当个体认为自己的预测万无一失时,他才可以忽略基率信息。在所有其他情况下,在按照描述所做出的排序与按基率的排序之间必须取得合理的折中。难以相信,基于一次访谈中的对14岁少年的粗略描述,就可以成为由被试的预测所暗示的其预测绝对可靠的理由。
在5份人格描述之后,让被试回答另一问题:
对于丹,除了他参加了原来的研究而现在是一年级研究生之外,你没被告知任何其他信息,请记下你的排序,并回答你对这一案例的信心。
丹的可能性平均排名与估计的基率之间的相关系数是0.74。因此,在具体描述给定的情况下没被利用的基率信息,在没有具体证据可资利用时,会被利用。
3.先验证据对个体证据
下面的一项研究,为直觉预测受制于代表性启发式且对先验概率相对不敏感的假设,提供了更严格的检验。在这项研究中,先验概率将十分显著,且与回答模式谐调一致。被试看到下面的封面故事:
一组心理学家访问30位工程师和70位律师,并进行人格测验,他们在各自的领域都很成功。在这些信息的基础上,他们写出30位工程师与70位律师的简略描述。你将在表格上发现5份描述,它们是从100份可利用的描述中随机抽取的。对每一份描述,请在0~100的量表上记下你认为被描述者是工程师的概率。
同样的任务由一组专家完成,他们所给出的对不同描述的概率是高度准确的。如果你的估计接近专家组的估计,你将得到奖金。
这些说明,提供给85名被试组成的小组(低比例工程师组,或L组)。而另一被试组(高比例工程师组,H组;N=86),也给出同样的说明,只是先验概率不同:他们被告知,抽取这些描述的集合由70位工程师和30位律师组成。所有被试都得到5份同样的描述,其中一份描述如下:
杰克今年45岁,他已婚并有4个小孩。总体上,他保守、小心雄心勃勃。他对政治和社会话题没有丝毫兴趣,大部分业余时间都花在他众多的嗜好上,比如家庭木工、航船、数学难题。
在100人中有30位工程师的样本中,杰克是工程师的概率是 %。
在五份描述之后,被试碰到一份无内容的描述:
假设现在你没有获得有关从样本中随机抽取的人的任何信息。
此人是由100人组成的样本中的30位工程师之一的概率是 %。
对每份描述,在高比例工程师组和低比例工程师组,一半被试要求给出被描述者是工程师(如上面的例子)的概率,而另一半被试给出被描述者是律师的概率。这一操纵没有任何影响。对每份描述,在两份不同表格中对“工程师”和“律师”给出的概率相加约为100%。因此,两种表格的数据被汇总,结果以工程师的形式列示。
这项实验设计,使研究者能够算出标准的合理判断模式,这项推导是依据贝叶斯公式,以几率(odds)的形式出现。用O来表示某一描述属于工程师而不是律师的几率,按照贝叶斯规则,O=Q·R,其中Q表示随机抽取的表述是工程师而不是律师的先验几率;R是对某一描述的可能性比率,也就是,从工程师总体中随机抽取的个体与从律师总体中随机抽取的个体被如此描述的概率之比率。
对得知样本由70名工程师和30名律师组成的高比例工程师组,先验几率QH等于70/30。而对低比例工程师组,先验几率QL等于30/70。因此,对每份描述,两组的后验几率的比值是
由于可能性比率在公式中被消除,对所有描述都能得到同样的OH/OL。因此,在现有实验设计下,对操纵先验几率的准确影响,可以在不了解可能性比率的情况下算出。
图4-1给出了在两种先验几率条件下,对每份描述的概率估计的中位数。对每份描述,先验几率高时(QH=70/30)的估计概率的中位数对应先验几率低时(QL=30/70)的估计概率的中位数的点,被绘制出来。按照上一段得出的标准方程,所有的点都应落在曲线(贝叶斯曲线)上,而事实上,只有对应无内容的描述的空白方框落在这条线上:当没有给出描述时,被试在QH下判断概率为70%,QL下概率为30%。在其他5个案例中,所有点都落在直线附近。
先验概率的影响虽然细小,但在统计上是显著的。除了无内容描述外,对每位被试,都计算出概率估计的均值。在低比例工程师组中,所有这些值的平均是50%,而高比例工程师组是55%(t=3.23,df=169,p<0.01)。然而,由图4-1可以看出,相比贝叶斯曲线,所有点更靠近直线,得出对先验分布的明确操纵对主观概率有极小的影响的结论是合理的。与前一实验一样,被试仅在没有给出明确证据时才使用先验信息。正如代表性假设所必然推出的,当个体证据可资利用时,先验概率大体上都被忽略。
这一效应的强度,在对下面的描述的回答中得以体现:
迪克30岁,已婚无孩子。他能力强,有干劲,要在自已的领域中成就一番事业。他也受同事喜爱。
图4-1 在高先验概率和低先验概率下,对五份描述和无内容描述(方框符号表示)的判断概率的中位数(工程师)。(曲线表示的是根据贝叶斯规则得出的正确关系。)
这一描述的组织不包含任何有关迪克职业的信息。我们的被试取得一致:在低比例工程师组和高比例工程师组,估计值的中位数都是50%(见图4-1)。对这一描述与对无内容描述的反应之间的反差是明显的。显然,人们在没给出明确证据和给出无价值的证据时的反应是不同的。在没给出明确证据时,先验概率被合理利用;在给出无价值证据时,先验概率被忽略。
在有些情况下,先验概率扮演更具实质意义的角色。在迄今讨论的所有例子中,替代结果总是与独特的刻板观念联系在一起,而判断——我们已说明,是由描述代表那些刻板观念的程度所控制。在其他问题中,结果更自然地被视为一个区域内割离的不同部分。比如说,某人被要求判断数位学生中每一位获得奖学金的概率。在这个问题中,没有泾渭分明的奖学金获得者与非获得者的刻板观念。相反,视结果(即获得奖学金)为由学术成就与能力区域中的分割点决定的,是更自然的事情。先验概率,也就是相关群体获奖学金的比例,可以定位这些分割点,从而可被用来定义结果。因此,它们不太可能被忽略。而且,我们可预期,即使存在有关结果的清晰的刻板观念,极端的先验概率也将产生一些影响。对在什么条件下先验信息会被使用或被丢弃的明确阐释,还有待进一步的研究。
统计预测的一个基本原则是,先验概率总结了在获得独立的明确信息之前我们对问题的了解,即使在获得此类信息之后,它也依然相关。贝叶斯规则,将这一定性原则转化为先验几率与可能性比率之间的相乘关系。然而,我们的被试,没能将先验概率与明确信息加以综合。在面对一项描述时,无论它多么空洞或者可疑,无论是有关汤姆的还是迪克的(工程师/律师),他们都明显感到描述对象所在组中的职业分布不再相关,不能意识到在有明确证据下先验概率依然相关,这也许是直觉与标准预测理论最重大的差别。
学习过,虽有学术味但不失实用。