题目
两个数据集的任何一个都支持某种结果,但是一旦结合,却可能导致相反的结论。这种情况是否会出现?A. 是B. 否
两个数据集的任何一个都支持某种结果,但是一旦结合,却可能导致相反的结论。这种情况是否会出现?
A. 是
B. 否
题目解答
答案
A. 是
解析
考查要点:本题主要考查对辛普森悖论的理解,即两个数据集单独分析时支持某一结论,但合并后可能得出相反结论的现象。
解题核心思路:关键在于理解分组与合并后的趋势可能相反,这通常由数据中隐藏的混杂变量(如样本量差异、分组结构不同)导致。需通过具体例子说明悖论的形成机制。
辛普森悖论的核心是:当数据按不同子群体分组时,各组内部的某种趋势可能在总体数据中被逆转。例如:
例1:医院治疗成功率
- 数据集1:医院A治疗男性患者100人,治愈90人(90%);医院B治疗男性患者10人,治愈9人(90%)。单独看,两医院治愈率相同。
- 数据集2:医院A治疗女性患者10人,治愈9人(90%);医院B治疗女性患者100人,治愈90人(90%)。单独看,两医院治愈率仍相同。
- 合并后:医院A总治愈人数189/200(94.5%),医院B总治愈人数99/110(90%)。此时医院A表现更好,但若调整男女比例,可能出现医院B整体治愈率更高的情况。
例2:性别歧视争议
- 数据集1:某大学A系录取男性62%、女性41%;B系录取男性63%、女性35%。单独看,男女录取率均低于男性。
- 数据集2:A系录取人数中男性250/400,女性10/100;B系录取人数中男性12/100,女性8/100。合并后,男性总录取率53%,女性总录取率48%,看似性别歧视。但实际A系竞争激烈,女性申请人数少,需结合专业选择差异分析。
结论:当数据分组结构差异显著时,单独分析可能掩盖整体趋势,导致悖论出现。