二、抽样分布
我们已提出,被试总是给更具代表性的事件分配更高的概率,而给同等代表性的事件分配同等的概率。在这一节,我们将考察这一假设对主观抽样分布研究的意义( subjective sampling distribution)。而主观抽样分布,也就是被试分配给从一特定总体中抽出的既定容量的样本的概率。
当用诸如比例或均值等单一统计量来描述样本时,该样本能在多大程度上代表总体,取决于该统计量的数值与相应的总体参数的相似性。因为样本容量并不能反映出总体的任何特征,它不影响代表性。因此,比如说,在1000个婴儿的样本中发现600个男孩的事件与在100个婴儿的样本中发现60个男孩的事件,具有同等的代表性。这两个事件也就被认为有同等的可能性,尽管后者事实上更有可能。同理,按照现在的分析,一个平均身高在6英尺与6英尺2英寸之间的男性样本的主观概率,与样本容量无关。
为了检验这一预测,9组被试被要求给出以下3种总体中3种样本容量(N为10或100或1000)下的主观抽样分布:
(1)性别分布(二项分布,P=0.50)被试被告知某一地区每天大约有N个要儿出生。当N=1000时,问题如下:
在1000个婴儿中有下列数目男孩的天数与总天数的比例各是多少:
0~50个男孩
50~100个男孩
150~250个男孩
…………
850~950个男孩
多于950个男孩
请注意这些类别包括所有的概率,您回答的总和应为100%。
当N= 100时,有11个类另别: 0〜5, 5〜15等。当N= 10时,每一结果就是一类别,如6个男孩。
(2) 心跳类型的分布(二项分布,p =0.80)被试被告知某地区每天大约有N个婴儿降生,且80%的新生儿心跳类型是a,剩下的20%的心跳必类型是b。被试要对3种容量的样本按照如图3—1和图3—2中11种类别给出每天新生儿心跳类型为a的抽样分布。
(3) 身高分布被试被告知某地区的就业中心记录每天来访男性的平 均身高。被试了解到男性总体的平均身高在170〜175厘米之间(在以色列 身高是按厘米来测量),且身高离均值越远频率越小。对每一类样本容量,被试要给出如图3—3所示的7类平均身高的抽样分布:低于160, 160〜165,……高于185。
在图3—1、图3—2、图3—3中,我们给出了 3种总体在不同取值N下估计的中位数值(被试的数量在45与84之间,均值为62)。显然,样本容量对主观抽样分布几乎无任何影响。各自独立的小组,面对仅仅是样本容量不同的相同问题,给出相同的分布。这一结果对于抽象的总体,如二项式以及日常生活中所熟知的总体,如男性身高,同样成立。
因为主观抽样分布与N无关,在每个图中连接估计中位数的均值的实 线可被认为对各自总体是“通用”的抽样分布。为说明被试完全忽略的样本容量真实影响的大小,我们分别在图3-4和图3 —5中给出了P=0.50和 P=0.80时的正确抽样分布以及相应的“通用”抽样分布。
可以看出,那条“通用”的曲线比N=10时的正确曲线还要平坦。p=0.50时,“通用”抽样分布的方差(0.048)差不多等于N= 5时正确样本分布的方差(0.05)。p=0.80时,“通用”曲线的方差(0.068)在N=2及N=3时的正确抽样分布的方差之间。
在二项分布中,均值通常与众数相等。因此,当p≠0.50时,较短的尾端应比较长的尾端高;比如,请看图3—5,当N=10时的正确分布。图3—5说明p=0.80时的“通用”曲线违背这一特点,它的均值只有0.63。因此,尽管主观抽样分布的众数合理地出现在最具代表性的值上,均值则出现在较长尾端的方向上。同样的结果在其他研究,如科恩等的研究中,也得到同样的结果。因此,P=0.80时比例的“通用”样本分布根本不是二项分布。
这一实验在两方面区分于以往的主观二项分布的研究(Peterson,DuC harne & Edwards,1968;Wheeler & Beach,1968)。第一,早期研究关注的样本的容量远小于这一研究。第二,更重要的,对不同的样本容量被试要给出概率分布的事件数目不同:样本容量为N的样本,被试需评估N + 1个结果。与之不同,在这项研究中,被试对所有样本容量的样本都评估相同数量的类别。当类别的数量变化或者是样本足够小以致可以心算出概率 时,图3—1、图3—2、图3—3中所展示的主观抽样分布对样本容量N不变的特点将不存在。对大样本,心算是不可能的,自然的解决方法是直接运用代表性启发式,而这主要由样本均值或样本比例掌握着。
为进一步探讨样本容量在代表性启发式的预测中的影响,我们另外做了一项实验,被试是97名斯坦福大学的没有概率或统计背景的本科生,他们被分成由5至12名成员组成的小组。按照固定顺序,被试看到三个问题,每一问题都定义了一个抽样过程并给出特定的均值和一个待评估的高于均值的数字,然后要求判断一个特殊的抽样结果更可能在小样本还是大样本中发生。每位被试都获得1美元的实验报酬;如果他答对其中一个问题(完成任务后从中随机抽取一个),将获得额外1美元的奖励。
为控制反应偏差(response bias),每个问题都以两种方式出现。一半被试判断,在3个问题中,与给定数值相比,更极端的值更可能在小样本还是大样本中出现。正确答案当然是极端值更可能在小样本中出现。剩下的被试判断,与给定数值相比,不极端的值更可能在小样本还是大样本中出现。这里正确答案是这种数值更可能在大样本中出现。这3个问题如下。其中,表格中的数据是两种问题形式中选择每一回答类别的人数。正确的答案用星号表示。
(1)某镇有两个医院,大医院每天约45名婴儿出生,小医院每天约15名婴儿出生。众所周知,约50%的婴儿是男孩。但每天男孩出生的实际比例都不一样,有时高于50%,有时低于50%。在一年的期间内,每家医院都记录(多于/少于)60%的新生儿是男孩的天数。请问你认为哪家医院会记录更多这样的天数?
多于60% 少于60%
大医院 12 9*
小医院 10* 9
大致一样(即在5%的差异之内) 28 25
(2)一位研究语言特性的研究者选出一本平装书,并计算该书每页单词的平均长度(即用该页字母数除以单词数)。另一位研究者挑每页的第一行,并计算该行单词的平均长度。整本书单词的平均长度是4,但并不是每一页或每一行都如此。有些平均长度高些,有些则低些。第一位研究者记录每页单词平均长度为6或多于/少于6的数 量。第二位研究者记录每行单词平均长度为6或多于/少于6的行数。 你认为哪位研究者将获得更大的数值(其中前者单位是页,后者是行)?
多于6 少于6
页数研究者 8 10*
行数研究者 21* 15
大致一样(即在5%的差异之内) 20 23
(3)一项医学调查旨在研究冠状动脉疾病的相关因素。两个小组正收集数据。其中一组每天检查三个人,另一组每天检查一人。被检查者是从总体中随机抽取的。在检查中每个人身高都要予以测量,成年男性的平均身高是5英尺10英寸,高于平均值与低于平均值的人一样多。每天检查3人的小组对他们的身高排序,并记录下中等身高的人身高高于/低于5英尺11英寸的天数。另一组仅记录被检查者高于/低于5英尺11英寸的天数。你认为哪一小组记录的天数更多?
高于5英尺11英寸 低于5英尺11英寸
检查3人的小组 7 14*
检查1人的小组 18* 17
大致一样(即在5%的差异之内) 23 17
如果被试了解样本容量所扮演的角色,他们会轻而易举地挑出这几个简单序数问题的答案。相反,如果他们认为同等代表性的结果发生的可能性等同,他们将不会表现出对正确答案系统一致的偏好。事实正是如此。在几乎所有的比较中,最多的回答都是“一样”;而且,没有哪个问题表现出对正确答案的明显偏好。
尽管有一些程序上的差异,但这项实验确认了我们前面研究的结论。这里,每位被试,都在追求准确性的实验设计中,对两个不同样本容量下结果发生可能性做一个直接的排序判断。这一程序可以突显样本容量的显著性。并且,最后一个问题,将单个观测与三个观测组成的样本的均值进行比较。显然,被试没有注意到一个最明显的事实,即中位数值比单个观测值更稳定。
抽样变异(sampling variance)与样本容量成比例降低的观念,显然不是人们直觉中的常备曲目。事实上,有关样本容量的错误观念,在我们日常生活中经常发生。一方面,人们愿意对用百分比表示的结果认真看待,却忽略了观测的数值可能过分的小。另一方面,人们面对从大样本处获得的确凿证据依然持怀疑态度,正如一位著名的政治家措辞激烈地抱怨道,生活成本指数(cost of living index)不是建立在整个人口总体的基础上,而只是个大样本,他还补充道:“更糟糕的——还是个随机样本。”
我们当然不是说人们无法意识到样本容量对抽样变异存在影响。人们可以学会正确的规则,甚至没有多大难度。问题在于,当让他们独自判断时,他们并不遵守正确的规则。另外,对研究心理学家行为的研究(J.Cohen,1962; Tversky&Kahneman,1971,2)表明,他们有一种很强的低估样本容量影响的倾向,尽管他们拥有有关正确规则的知识和广泛的统计训练。对任何一位认为人们是合理的直觉统计学家的人来说,这些结果都是令人沮丧的……
三、规范模型和描述性启发式
有些学者(w.Edwards,1968,25)认为人们大体上遵守正确的贝叶斯规则,只是不能看清证据的全部影响,因此是保守主义的。有人(Peterson & Beach,1967)总结说,规范模型提供了一个很好的对被试行为的近似描述,认为“被试在合适的方向上受到合适变量的影响”(第43页)。这一观点并不为所有人所认可。较近的一篇文献评论(Slovic& Lichtenstein,1971)认为,以上对人们的表现作为一个直觉统计学家的评价“过于慷慨大方”;而皮茨等(Pitzetal.,1967)根据他们的数据总结说,人们在贝叶斯任务中的表现,“比保守主义说法所暗示的更差”(第392页)。
用规范的贝叶斯路径来对主观概率进行分析和建模的有效性,很大程度上并不取决于主观估计的准确性,而是这一模型是否抓住了判断过程的主要决定因素。这篇论文中的研究表明它并没有做到。特别地,我们注意到样本容量对样本分布没有任何影响,(至少在总体上)后验二项估计(posterior binomial estimates)是由样本的比例而不是样本的差异来决定的,还有,样本分布并不取决于总体比例。在他的证据评估过程中,人们显然不是一个保守的贝叶斯主义者:他根本就不是贝叶斯主义者。
有人也许会说,规范模型对人们行为描述的失败,仅局限于面对不熟悉的随机过程的普通被试,它对人们对日常生活中碰到的熟悉的随机过程的评估,仍然能提供充分的解释。然而,几乎没有证据支持这一观点。第一,研究已表明(Tversky & Kahneman,1971,2),在严谨科学家的直觉判断中,同样能发现援用代表性启发式所引起的相同类型的系统性错误。显然,对概率理论的了解,并不能消除所有的有关机会定律的错误直觉。第二,在日常生活中,我们会碰到许多以很高的近似度符合二项式定理(bi-nomial law) 的随机过程 ( 如生男孩还是生女孩,在一个既定交叉路口撞上红灯,抓了一手没有红心的牌),但人们并没从这些经验中获取对二项式过程(binomial process)的充分理解。显然,广泛的对众多实例的接触,并不足以产生理想的行为。
在日常生活中,人们会问自己或他人这类问题:这个12岁的男孩长大后成为一名科学家的可能性有多大?这位候选人当选的可能性有多大?这个公司关门倒闭的可能性有多大?这些问题与我们论文中早先讨论的问题的不同,在于它们的特质,即人们既不能用过去发生的频率也无法用定义完备的抽样过程来给出现成答案。
在本章中,我们详细地考察了一种启发式,人们依此通过评估一事件多大程度上代表产生该事件的过程或总体的主要特征来判断事件发生的概率。尽管我们的实验局限于定义完备的抽样过程(客观概率可以计算),我们推测,这一启发式,在那些没有“正确”答案的独特情况下对不确定性的评估中,也扮演重要的角色。比如说,那位12岁的男孩成为科学家的可能性,可以通过判断这位男孩的形象在多大程度上代表了科学家的角色来评估。同理,当思考某公司关门或某位政治家当选的可能性时,我们在大脑中也需存有公司或政治局势的模型,那些最能代表相应模型的核心特征的结果将被评估为最有可能发生的……
本章是《认知心理学》(CognitivePsychology,1972,3,430-454)上的 一篇论文的缩写。允许重印。
注释
[1] 我们用“主观概率”来指被试给出的或者由他的行为推断出的对一件事情发生概率的估计。这些估计并不需要满足任何公理或者一致性要求。我们用“客观概率”来指基于既定假设,并根据概率运算的法则算出的数值。显然,这一术语与任何概率哲学观无关。
[2] 本章只讨论完整硬币(fair coin,均质硬币)的情况。
[3] 感谢R.P.Abelson提请我们注意这项研究。
还没有评论,快来发表第一个评论!