题目

在研究数据中，有一个变量“饮料类型”有4个水平“果汁”、“碳酸饮料”、“能量饮料”和“其他”，由于该变量的少量数据缺失，那么缺失值用哪种填充方式会比较好？（）A. 均值B. 中位数C. 众数D. 调和平均数

在研究数据中，有一个变量“饮料类型”有4个水平“果汁”、“碳酸饮料”、“能量饮料”和“其他”，由于该变量的少量数据缺失，那么缺失值用哪种填充方式会比较好？（）

A. 均值

B. 中位数

C. 众数

D. 调和平均数

题目解答

答案

C. 众数

解析

步骤 1：理解变量类型
“饮料类型”是一个分类变量，它有四个水平：“果汁”、“碳酸饮料”、“能量饮料”和“其他”。分类变量的缺失值填充方法需要考虑变量的性质。

步骤 2：分析缺失值填充方法
- 均值：适用于数值型变量，不适用于分类变量。
- 中位数：适用于数值型变量，不适用于分类变量。
- 众数：适用于分类变量，可以用来填充缺失值。
- 调和平均数：适用于数值型变量，不适用于分类变量。

步骤 3：选择合适的填充方法
由于“饮料类型”是分类变量，因此应该使用众数来填充缺失值。众数是出现次数最多的水平，因此用众数填充缺失值可以保持数据的分布特征。