使用社交账号登陆

当前位置: 主页 > 观点 > 博客 > Stephen Woodcock

概率悖论和其他统计异常

作者: admin 来源: 未知

图片1.png

概率统计学有时候会得出令人费解的结果。Shutterstock

 

想要理解我们身处的世界,统计学是非常有用的工具。但是在解释那些特性曲线时我们的直觉常常使我们出错。在本辑中我们将讨论一些我们常犯的错误以及如何在使用统计、概率和风险时避免这些错误。

当下,研究人员可以获取丰富的软件包。这些软件包可以帮助人们轻松地分析数据并且得出复杂的统计结果。虽然这些资源非常强大,但如果使用者没有完全掌握统计学,那么就有可能曲解数据集的一些细微之处,并且由此得出相当扭曲的结论。

 

接下来是一些常见的统计谬误和悖论,以及它们如何导出反直觉的结果。当然很多情况下,这些结果就是错的。

辛普森悖论是什么?

它是指当数据组合并时出现在不同分组中的趋势就会消失。这种现象发生时总体数据的趋势甚至有可能和每个分组的趋势都对立。

举个例子,一种治疗方法对于所有分组中的患者都是有害的,但是一旦将分组合并就有可能表现出总体上有益。

如何发生?

当分组的规模不均衡时辛普森悖论就会发生。疏于调控(或者刻意伪造)患者分组人数可能使有害的疗法看起来有疗效。

案例

想象下述待上市药物疗法的双盲实验。一组中120个患者(被划成10人、20人、30人和60人的分组)接受治疗,另一组中同样120人(被划成相应的60人、30人、20人和10人分组)不接受治疗。

总体得出的结果是接受治疗的患者比未接受治疗的痊愈率更高,也就是说该疗法似乎对患者有效。

图片2.png 

图源:The Conversation, CC BY-ND

 

不过,再往下深入发掘该研究中组成队列的不同分组,勘查患者所有分组时,你就会发现没有接受治疗的患者痊愈率更高而且高出50%。

图片3.png 

图源:The Conversation, CC BY-ND

但是请注意每个组中接受治疗和未接受治疗的患者的人数和年龄分布是不同的。这也是是数据歪曲的原因。在这个案例中,受治疗组儿童数量不按比例地堆叠,而儿童无论接不接受治疗其痊愈率一般都比较高。

基本比例谬误是什么?

当我们判断某些事情的可能性而忽视关键信息时,这种谬误就会发生。

举个例子,如果我们听说有人喜欢音乐,那么我们可能认为他们比会计师更有可能是专业音乐家。但是,这世上会计师要比专业音乐家多得多。这里我们就忽视会计师数量的基本比率远高于音乐家的,所以我们过度受到那个人喜欢音乐这个信息的影响。

如何发生?

基本比例谬误会出现在一个选项的基本比例远高于另一个的情况中。

案例

考虑这样一个情况:测试一个罕见病情,比如人群中发病率只有4%(每25人中有1个)的疾病。

假设该病情有一个测试方法,但是并不完善。如果某人出现这个病情,那么该测试在92%的时间里正确地将其识别为患病。如果某人没有此病情,那么该测试在75%的时间里正确地将其识别为健康。

所以如果测试一群人并且发现他们中超过四分之一的人都被诊断为患病,我们可能猜想这些人中大多数真的确实有该病情。但是我们错了。

图片4.png 

在一个有300名患者的典型样本中,因为已测试的11人都被正确的识别为患病,接下来的72人就被错误地也识别为患病。The Conversation, CC BY-ND

根据上述数据,在仅有的4%的患者中几乎92%的人都被正确诊断出疾病了(也就是大概总体被测人群的3.67%)。但是另外96%的病人并没有得病,其中有25%的人被误诊为患病(也就是总体被测人群的25%)。

这意味着人群中大约27.67%的人被诊断为患病,但是实际上只有3.67%左右的人患病。所以在被诊断为患病的人中,实际上只有大概13%(即3.67%/27.67%)有该疾病。

令人担忧地是,当一项著名的研究要求全科医师进行类似的计算以告知患者乳腺x线图像结果表达的正确患病风险时,只有15%的医师这样正确的操作了。

Will Rogers悖论是什么?

这种悖论是指将某些事物从一个组移到另一个组,两组的平均值增大,虽然其中没有值变大。

该名源于美国喜剧演员Will Rogers。他曾经开玩笑说,“当俄克流民离开俄克拉荷马州并且搬到加尼福尼亚州,他们同时提升了两个州的平均智力水平。”。

前新西兰首相Rob Muldoon在上世纪八十年代将这个笑话本土化改编为新西兰人移民到澳大利亚的版本。

如何发生?

当数据点从一个组重新归类到另一组的时候,如果这个点在原来组的平均线一下,但是在新组的平均线之上,那么这两个组的平均线都会提升。

案例

假设有6位病人,他们的预期寿命(以年计算)被评估为40、50、60、70、80和90。

被估计寿命为40和50岁的病人已经被诊断患有疾病;其他的四位并没有。也就是说被诊得病的患者平均寿命为45岁,而诊断未得病的患者平均寿命为75岁。

如果开发出一种诊断手法能够检测出预计寿命为60岁患者的疾病情况,那么两组的平均值都上升5年。

图片5.png 

图源;The Conversation, CC BY-ND

伯克森悖论是什么?

伯克森悖论会使两个没有关联的独立变量看起来有关联。

如何发生?

这种悖论往往发生在一个集合含有两个独立变量,也就是这两个变量应该是完全不相关的时候。但是如果我们只观察整个群体的一个子集,那么这两个变量之间可能存在反向趋势。

当子集不是整个群体的无偏样本时,这种情况就会发生。而这种情况已经在在医疗统计中频繁地被引证。比如,如果在诊断中发现病人只患有A疾病、B疾病或者两个都患有,那么即使这两种疾病是相互独立的,那么也有可能观察到它们负相关。

举例

想象这样一个情景:一个学校基于学生的学术和体育能力招生。假设这两个能力是彼此完全互相独立的。也就是说,在整个群体中一个运动能力很强的人和一个运动能力很弱的人在学术上可能表现相似。

如果学校只招收在学术上表现优秀、在运动上表现优秀或者两者都表现优秀的学生,那么在这个组内学生的运动能力就会表现出和学术能力负相关。

为了说明,假设每一个潜在入选学生的学术和运动能力都用1到10划分等级。每个技能每个等级上的人数所占份额相等。而且知道一个人在一个技能中的分级并不能推测出他们在另一个技能中的分级。

假设现在学校只招收至少一项技能的分级为9或者10的学生。

如果观察整个群体,那么最差运动员和最好运动员的平均学术分级是相等的(5.5)。

但是,在被录取的学生的集合中精英运动员的平均学术分级还是整体人群的值(5.5),而最差运动员的平均学术水平就高达9.5了,不恰当地暗示了这两个能力负相关。

}

图片6.png 

图源:The Conversation, CC BY-ND

在整个群体中,两个组的分级没有相关性。

最好的运动员(等级10)和最差的(等级1)的平均学术分级都是5.5。

但是当我们将人群样本缩小到只有被招收的学生时,这两个组的分级看起来存在负相关。

多重比较谬误是什么?

这是指拥有大量变量的数据集合单单通过随机产生非期望趋势。

如何发生?

当观察很多变量和挖掘趋势时,很容易忽略当前正在检测多少条可能趋势。比如,有1000个变量,那么近乎五十万对(1000*999/2)的潜在变量可能单纯地随机表现出相关性.

虽然每一对看起来都不太可能有相关性,但是当从50万对中抽取数据时相当多的一部分看起来存在相关性。

案例

生日悖论是多重比较谬误的一个经典案例。

有一个小组含有23个人(假设他们每个人的生日都是独立选择的,全年每一天被选中的机会相等),那么这组人中至少两个人同一天生日的可能性高于没有人同一天生日。

人们通常不相信这一点,毕竟他们遇见别人和他们同一天生日的情况很少见。如果你只选取两个人,那么他们同一天生日的机会当然非常低(粗略地算一下365之1,这个概率低于0.3%)。

但是,有23个人时就有253对(23*22/2)人可能在同一天生日。253对每一对都独立地有0.3%的机会巧合同一天生日,所以通过纵观你要检测的整个组看看253对里面是否有确实满足要求的。

如果一个组里有40个人,那么有人同一天生日的可能性几乎是没有人同一天生日的9倍。

图片7.png 

随着组内人数增加没有人同一天生日的可能性逐渐下降。The Conversation, CC BY-ND

“23个人”是一个群体内有人同一天生日的可能性高于没有人同一天生日的分界点。


本文观点仅代表作者,不代表《科学美国人》。

 

(翻译:赵小娜;审校:杨玉洁)

原文链接:https://theconversation.com/paradoxes-of-probability-and-other-statistical-strangeness-74440


关于我

Stephen Woodcock

Stephen Woodcock,悉尼科技大学数学高级讲师