第2章小数率的信念_社会学/不确定状况下的判断_免费在线阅读收听下载

第2章小数律的信念

特沃斯基和卡尼曼（ Amos Tversky and Daniel Kahneman）

“假设你用20位被试做实验，并已获得显著结果来证实你的理论（z=2.23，P<0.05，双侧检验）。现在你有理由要对另外的10人组被试再做实验，你认为通过单侧检验其结果显著的概率是多少？”

如果你认为概率在0.85左右，你将高兴地得知自己属于多数人群体。事实上，这是在数学心理学组（ the Mathematical Psychology Group）和美国心理学会（ the american Psychological Association）的会议上，两个小组对我们所发问卷做出慷慨回答的中位值。

如果你认为概率在0.48左右，你则属于少数人群体:84位被试中仅有9人给出的答案在0.40与0.60之间。然而，0.48恰恰是一个比0.85更为合理的估计。

显然，大多数心理学家对于成功复制已获发现的可能性，怀有夸大的信念。而这种信念的来源及其对科研行为的影响，正是本章想探讨的。我们的论点是，人们对随机抽样有着强烈的直觉；这些直觉本质上是错误的；而普通被试及训练有素的科学家，也都有这种直觉；当它们被应用于科学探寻的过程中时，会产生不适当后果。

我们认为，人们相信一个从总体中随机抽取的样本具有高度代表性，或者说，这个样本在所有本质特征上都与总体相似。相应的结果是，他们预期从特定总体中抽出的任意两个样本之间以及它们与总体之间，都有着比抽样理论所预测的更多的相似性，至少对小样本而言是这样的。

这种把样本作为整体代表的倾向，明显表现在种种情景中。比如，当要求被试给出投掷一完整的硬币（ fair coin）的随机序列时，他们给出的序列，在任意部分，头像或正面的比例都远远比所预测的几率，都要接近0.50（Tume，1964）。因此，反应序列中的每一部分，都高度代表着硬币的“公正性”。类似的效应，在诸如概率学习实验（ probability learning experiments））（ Estes，1964）或者其他机会的序列博弈（ sequential games of chance）中，当被试在随机产生的序列中连续预测事件的情况时，均能发现。被试的行为，似乎依照随机序列中的每一部分都应反映真实比例的观念。如果序列偏离了总体比例，一种在反方向上的校正性偏差（ correctivebias）就会预期出现。这被称为赌徒谬误（ gambler' sfallacy）。

赌徒谬误的实质，是对机会规律之公正性的误解。赌徒认为，硬币的公正性有理由让他预期任意方向上的偏差，将被另一方向上对应的偏差所抵消。然而，即使是最公正的硬币，考虑到它的记忆和道德感的限度，也并不总是如赌徒所预期的那样公正。这一谬误并不为赌徒所独有。请思考下面这个例子:

已知某一城市八年级学生总体的平均智商是100。你已经选出50人的随机样本来做教育成就的研究。第一个被试儿童的智商是150，你认为整个样本的平均智商将是多少？

正确答案是101。但有相当多的人相信这一样本的平均智商仍是100。这一预期，只有在认为随机过程是自我校正（self- correcting）的情况下，才有合理性。通常所说的“错误会相互抵消”，正反映了这种积极的自我校正过程的意象。在大自然中，我们熟悉的一些过程，就符合此定律:与均衡的偏离，会产生重新回复到均衡的动力。但与之相反，机会规律并不按此行事:偏差并不会随抽样过程而消失，它们仅仅会被稀释。

至此，我们已尝试描述有关机会的两种相互关联的直觉。我们已经提出一种代表性假设（ representation hypothesis）。人们据此认为，从同一总体中抽出的样本相互间十分相似，且与总体相似。我们也主张，人们相信抽样是一个自我校正的过程。这两种信念导致同样的结果。它们都引发对样本特征的预期，且这种预期的变异性要小于真实的变异性，至少对小样本而言是这样的。

大数定律（ law of large numbers），保证非常大的样本确实能高度代表它从中抽出的总体。另外，如果自我校正的过程在起作用，那么，小样本也具有高度的代表性并且彼此相似。人们对随机过程的直觉，似乎正满足小数律。小数律声称，大数定律同样适用于小样本。

试考虑一位假想的科学家，他信守小数律，他的信念将怎样影响他的科学工作？假设我们的科学家在研究这种现象，它与非控变异性有关的量度很小，也就是说，他从自然中所接收的信息的信噪比很小。我们的科学家，可能是一位气象学家、一位药理学家或者是一位心理学家。

如果他信守小数律，他就会对在小样本基础上得出结论的有效性抱有夸大的自信。为表明这一点，我们试想他正研究婴儿对于两个玩具的偏好选择。在所研究的前五个婴儿中，四个显示出对同一玩具的偏爱。许多心理学家此时已经有一定把握认为没有偏好的虚无假设或零假设是错误的。幸运的是，这样的裁决，并不足以用来作论文发表，尽管或许能用于书中通过快速运算，我们的心理学家将发现虚无假设成立的极值将高达3/8。

显然，将统计假设检验运用于科学推论中，面临重重困难。但是，显著性水平「或如贝叶斯统计所偏好的似然比率（ likelihood ratio）]的计算，迫使科学家依据有效的抽样方差估计而不是他主观的偏差估计，来评价所得结果。因此，统计检验，通过规诫那些宁愿信守小数律的科学共同体的许多成员，而使科学界免遭过于仓促地拒绝虚无假设（即第一类错误）的厄运。但另一方面，我们也没有对应的保障，来消除无法证实有效研究假设的风险（即第二类错误）。

设想一位心理学家要研究成就需求（ need for achievements）与成绩的相关性。在确定样本规模时，他可能这样推理:“我期望的相关是多少？r=0.35。我需要多大的样本规模来使我的结果显著？（查一下表格）N=33不错，这就是我的样本。”这一推理过程中的唯一缺陷，在于我们的心理学家忘记了抽样方差，也许他认为任何样本都应该高度代表整体。然而，如果他对于总体中的相关的猜测是正确的话，样本中的相关系数，就有可能低于或高于0.35。因此，当N=33时，获得显著结果的可能性（即检验力）大约为0.50。

在一个对统计检验力的详细研究中，科恩（ J. Cohen，1962；1969）为我们提供了大效应、中效应和小效应（ects）的合理定义，以及一套广泛的用来估计各种统计检验力的计算辅助方法。比如，在对两个均值差异进行正态分布检验时，按照给出的定义，0.25Q的差异是小效应，0.50Q是中等效应，而1Q是大效应；普通员工与半技术化员工的智商差异，是中等效应。在一个精妙的研究中，科恩（1962）研究了刊登在一卷《变态和社会心理学杂志》（ Journal of abnormal and Social Psychology）上的所有统计分析，并计算出发现上述三种效应的可能性。他发现小效应的平均检验力是0.18，中等效应是0.48，大效应是0.83。如果心理学家普遍地预期中等效应并依此来选定样本规模，他们所做研究的检验力，实际仅为0.50左右。

科恩的分析表明，许多心理学研究的统计检验力出奇的低。这是一个自拆墙脚的举动:它正是冲着那些沮丧的科学家和无效的研究来的。一位正检验一个有效的假设却不能获得显著结果的研究者，不禁怨叹大自然是如此地不值得信赖，甚至充满敌意。进一步，正如欧沃劳（ Overall，1969）所揭示的，欠缺统计检验力的研究如此普遍，它不仅虚耗人力，而且十分有害:在出版的结果中，它常常导致对虚无假设的无效拒绝。

考虑到在重复研究（ replication studies）设计中，统计检验力有特别重要的意义，我们在问卷中考察了心理学家对重复研究的态度:

假设你的一位博士生刚完成40个动物的实验研究，困难且耗时。他计量和分析了大量变量。他的结果是非结论性的，但是实验的前后比较（ before-after comparison）是高度显著性的，t=2.70。这个结果令人惊异，并且在理论上可能有重大意义。

综合考虑到这项结果的重要性、它的惊人价值以及你的学生所做分析的动物数量，你会建议他在发表前重做这项实验吗？如果是，你认为他的重复实验还需要多少动物？

在被调查的心理学家中，压倒性的情感是偏好重做实验:在75位被试中，66位建议重做，也许因为他们怀疑单一的显著结果是出于偶然。他们推荐重复实验所需动物数目的中位数是20。思考这项建议的可能性结果，对我们很有裨益。如果在第二个样本中，均值与方差与第一个样本中的恰恰一样，那么，t值则为1.88。根据注释[1]中的推理，这位学生在重复实验中取得显著结果的概率仅略高于0.50（P=0.05，单侧检验）。因为预料到20个动物作为重复实验的样本对我们的被试来说是合理的，我们加上了下面这个问题:

假定你那位不高兴的研究生事实上已用20个动物重复了原初的实验，并且在同一方向上获得了不显著的结果，t=1.24。现在你会有什么建议？请选择一个:（括号中的数字，是选择该答案约被试人数。）

（a）他应该汇集他的实验结果并客观地出版其结论。（0）

（b）他应该将结果作为有待验证的发现予以报告。（26）

（c）他应该对另一组动物再做实验（中位数值为20）。（21）

（d）他应该对两组结果的差异尽力做出解释。（30）

请注意，不管对原初发现的信心如何，研究的可信度，通过重复实验显然得以加强。在两个样本的实验中，不仅实验结果是同方向的，而且重复实验的结果的量度，也完全是原结果的2/3。就被试所建议的样本规模（20）而言，重复实验正如所预期的，基本上是成功的。但是，回答的分布，却反映出在重复实验之后对其结果的持续怀疑。这一令人不快的情形正是不充分的统计检验力的典型结果。

反应b和c，在某些方面有其合理性。与之对照，最为普遍的反应d，则是站不住脚的。我们怀疑，即使被试知道两项结果的差异甚至没有接近显著性（如果两样本方差相等，E=0.53），他们的答案也会是一样的。在缺乏统计检验的情况下，我们的被试迫随代表性假设:当两样本差异超出他们的预期时，他们认为这值得解释。然而，这种“对两样本差异寻找解释”的尝试，是无谓的徒劳。

总体而言，我们的被试对重复实验的评估是相当苛刻的。这符合代表性假设:如果我们认为所有样本相互间都非常相似，那么几乎所有针对有效假设的重复实验在统计上都应该是显著的。这一判断重复实验成功的标准之苛刻，在对下面这个问题的回答中显现无遗:

一位研兖者报道了一个你认为不合理的结果。他对15位被试进行研究，且有显著结果，t=2.46。另一位研究者重做了他的实验，然而对同样数目的被试进行研究得出的结果是不显著的。但两个数据的方向一样。

你正在检阅该文献，当第二组数据中的t的最高值为多少时，你会认为重复实验失败？

大部分被试认为t=1.70时，重复实验是失败的。如果将这两次研究中的数据（t=2.46和t=1.70）汇集，则合并后的数据的t值大约为3.00（假定方差相等）。因此，我们面临一个自相矛盾的情况，即同样的数据，如果作为原来研究的一部分，会增加我们对结果的信心，但作为独立研究，则会动摇我们的信心。这一双重标准十分令人不安，因为重复实验，出于多种原因的考虑，通常被认为是独立研究，而假设的有效性，则是通过列举证实和否证的报告来衡量的。

与普遍的信念相反，做重复实验时，样本所需数目通常应大于原来样本。实施重复研究的决定，常表现出对于这一发现的极大喜爱和希望看到它被怀疑者共同体所接受的渴望。因为怀疑者共同体无端地要求重复实验应是独立显著的，或至少接近显著性，实验者因此必须用更大的样本进行研究。为说明这一点，我们重提前面所提的那位不幸的研究生。假定他认定他原初的结果（t=2.70，N=40）是有效的，而且仅愿意接受0.10的获得低于1.70的t值的风险，则他必须在重复实验中对差不多50个动物进行研究。如果原初结果更弱一点的话（t=2.20，N=40），要获得同样的检验力，重复实验的样本规模将增加到75。

迄今为止所讨论的这种效应，并不局限于与均值有关的假设。而与方差有关的假设的类似效应，在对下面的问题的回答中得以体现:

你在做一项相关性的研究，对100位被试进行20个变量的评分。190个相关系数中，有27个在0.05的显著性水平上有显著性；9个在超过0.01的显著性水平上有显著性。显著相关系数的绝对平均值是0.31，而且结果模式（ pattern）在理论上也是非常合理的。你认为在对40个被试严格进行的重复实验中，这27个显著相关系数将有多少个还是显著的？

当N=40时，在0.05的显著水平上，显著性所需相关系数的大小大约为0.31，这是原来研究中显著相关系数的平均值。因此，当N=40时，原来显著的相关系数中，仅有一半（也就是13或者14个）仍然显著。当然，重复实验中的相关系数，必然不同于原初研究中的相关系数。而由于回归效应（ regression effects），原初有显著性的相关系数，极有可能减少。因此，原初27个显著相关系数中，大约8个至10个将仍然显著，这理应是个比较乐观的估计。但我们被试的平均估计值是18。这比从原来的100位被试中随机抽取40位的情况下重新计算出来的相关系数要大。显然，在重复实验样本中，人们预期的不仅仅是复制原来的统计推论；他们预期的是复制原来的结果显著性，而丝毫不考虑样本规模的变化。这样的预期，要求对代表性假设进行可笑的拓展；因为即使是小数律，也无法产生这样一个结果。

结果模式几乎能被完全复制的期望，为那些普遍的却十分可悲的研究实践提供了准则。一位计算三种焦虑指数（indexesof anxiety）及三种依赖性指数之间的所有相关的研究者，常常会以极大的信心来报告和解释所获得的单个显著相关。而他对其虚弱发现的信心，则来源于他的信念，即所获得的相关矩阵具有高度代表性并且能够被复制。

综上所述，我们已发现小数律的信徒是这样从事科学研究的：

（1）在检验研究假设时，他把赌注放在小样本上，而未意识到他的失败机会非常之高。他高估了检验力。

（2）他对于初期的趋势（如最早的几个被试的数据）以及观察到的模式的稳定性（如显著结果的数量和属性），有过分的自信。他高估了结果的显著性。

（3）在评价自身或别人的重复实验的时候，他对显著结果的可重复性，抱有非分的高预期。他低估了置信区间的范围。

（4）他很少将实际结果与预期间的偏离归结为样本的变异性，因为对于任意的偏差，他都能发现因果“解释”。因此，在实践中，他鲜有机会认识到抽样的变异性。他对于小数律的信念，因而始终坚不可摧。

我们的问卷调查，引发相当的证据，证实小数律的信念的广泛存在。我们多数的被试，都是小数律的信徒，无论他隶属于哪个群体。实际上，数学心理学会议上的听众和美国心理学会分会上的与会者，给出答案的中位数并无区别，尽管我们并不宣称这两个样本具有代表性。显而易见，对形式逻辑以及概率理论的了解，并不能消除错误的直觉。那我们能做些什么？对小数律的信念能被消除或者至少被控制吗？

从事研究的经验，似乎帮助不大，因为抽样差异太容易被解释。能对之校正的经验仅在于:既没有动机也没有机会进行虚假解释。因此，统计课程上的学生，应从总体中重复抽取固定规模的样本，并通过个人观察来学习到样本规模对抽样差异性的影响。但我们还远不能确定，人们的预期可以通过这种方式来纠正。因为相关的偏差，如赌徒谬误，在面对足够多的矛盾证据时，依然存在。

即使这种偏差不能被消除，学生仍然能学会意识到它的存在，并采取必要的防备。因为统计的教学，从来都不乏于规诫，有关统计直觉偏差的警告，也不会显得不合时宜。最明显的预防就是计算。小数律的信徒对显著性水平、检验力和置信区间，都有不正确的直觉。人们通常会计算和报告显著性水平，却没有计算和报告检验力和置信限度（confidence limits）。也许应该计算和报告它们。

与有些合理假设相关的检验力的详细计算，如科恩（1962，1969）的小、大、中等效应，无疑是必须在任何研究之前进行的。此类计算，常常能让人意识到没有理由去进行那项研究，除非，比如说，样本规模再乘以4。我们拒绝相信一位严谨的研究者，会有意接受存在0.50风险可能被否证的有效假设。另外，检验力的计算，对于否定性结果——也就是不能拒绝虚无假设的结果—的解释，也是基本的。因为，读者对检验力的直觉性估计，极有可能是错误的，所以出版计算出来的结果，既不是浪费读者的时间，也不是浪费杂志的版面。

在早期的心理学文献的报告中，有一种普遍的做法，比如说，将样本均值表达为M±PE，这里PE是可能的误差（即以均值为中心的置信度为50%的置信区间）。这一做法，后来由于人们对假设检验程式的青眯而被抛弃。然而，置信区间，能为抽样差异性提供有用的指标，并且正是由于这种变异性，我们倾向于低估。而对显著性水平的强调，倾向于遮蔽效应值（ size of an effect）和它的统计显著性之间的基本区别。如果不考虑样本规模，在一项研究中，效应值也是重复实验中的效应值的合理估值。相反，重复实验中所估计的显著性水平，则严格依赖于样本规模。如果效应值与其显著性水平之间的区别，能被辨明，并且效应值的计算得以常规性地披露，那么，有关显著性水平的可重复性的不真切预期，就有可能得以校正。至少，就此来说，接受假设-检验模型，对心理学而言并不是一个纯粹的福音。

小数律的虔诚信徒，真诚地犯下了违背统计推论逻辑的重重罪过。代表性假设，描述了一种不受制于动机因素的认知或感知偏差。因此，如果说匆忙拒绝虚无假设是痛快淋漓的，那么，拒绝珍爱的假设则是令人扼腕的，但小数律的虔诚信徒，则屈从于这两种境况。他的直觉预期，受制于对这个世界的一贯的误解，而并非一时的异想天开。如果给他一些警告和刺激，他或许会愿意恰当地怀疑其统计直觉，并且在任何可能的情况下，以计算来取代那些印象形成（ impression formation）。

本章原载《心理学通报》（ Psychological Bulletin，1971，2：105-110）。允许重印。

注释

[1]所要求的估计，可以用多种方式来解释。一种可能的路径，就是遵循常规的研究实践，即用从一个研究中获得的值来定义虚无假设之外的替换假设（al-tenative hypothesi。问题中所要求的概率，因此可理解为针对由第一个样本所获结果所定义的替换假设的检验力（即在第二个样本中获得显著结果的概率）。在用已知方差进行均值检验的特定情形下，可以计算出总体均值等于第一个样本均值这一假设的检验力。因为第二个样本的规模是第一个样本的一半，计算出的使z大于或等于1.645的概率，只有0.473。而理论上更合理的路径，是在贝叶斯框架中来解释所要求的概率，并计算出与合理选择的先验分布（ prior distribution）有关的概率。假设同一的先验概率，所需的后验概率是0478。显然，如按通常情况，先验分布支持虚无假设，则后验概率会更小。

[2] W.Edwards（1968，25）主张人们不能从概率数据中提取充分的信息或者是确定性，他称此失败为保守主义。而我们的被试，却根本无法用保守主义来描述。相反，根据代表性假设，他们倾向于去获取比数据实际包含的更多的确定性。

第2章 小数率的信念

第2章 小数率的信念

用户评论

第2章小数率的信念

第2章小数率的信念