题目

在进行数据分析时，研究人员面临缺失数据的问题。假设在一项调查中，某个变量的缺失数据占总数据的30%。研究人员考虑采用不同的方法来处理这些缺失数据。在以下方法中，哪一种方法最可能导致分析结果的偏差？A. 使用统计估计方法B. 使用平均值填补缺失数据C. 去除缺失数据D. 通过建模预测缺失数据

在进行数据分析时，研究人员面临缺失数据的问题。假设在一项调查中，某个变量的缺失数据占总数据的$30\%$。研究人员考虑采用不同的方法来处理这些缺失数据。在以下方法中，哪一种方法最可能导致分析结果的偏差？

A. 使用统计估计方法

B. 使用平均值填补缺失数据

C. 去除缺失数据

D. 通过建模预测缺失数据

题目解答

C. 去除缺失数据

考查要点：本题主要考查对缺失数据处理方法的理解，特别是不同方法可能导致分析结果偏差的原因。

解题核心思路：

选项分析

A. 使用统计估计方法

B. 使用平均值填补缺失数据

原理：用变量的平均值替换缺失值。
偏差风险：
1. 降低方差：导致标准误估计过小，统计检验不可靠。
2. 假设限制：若缺失与变量相关（非随机缺失），平均值填补会引入偏差。

C. 去除缺失数据

原理：直接排除含缺失值的样本。
偏差风险：
1. 样本代表性丧失：若缺失与变量相关（MNAR），剩余样本不再代表总体。
2. 高缺失比例影响：题目中缺失达30%，显著降低统计效力并放大偏差。

D. 通过建模预测缺失数据

关键对比