题目
在研究数据中,有一个变量“饮料类型”有4个水平“果汁”、“碳酸饮料”、“能量饮料”和“其他”,由于该变量的少量数据缺失,那么缺失值用哪种填充方式会比较好?()A. 均值B. 中位数C. 众数D. 调和平均数
在研究数据中,有一个变量“饮料类型”有4个水平“果汁”、“碳酸饮料”、“能量饮料”和“其他”,由于该变量的少量数据缺失,那么缺失值用哪种填充方式会比较好?()
A. 均值
B. 中位数
C. 众数
D. 调和平均数
题目解答
答案
C. 众数
解析
步骤 1:理解变量类型
“饮料类型”是一个分类变量,它有四个水平:“果汁”、“碳酸饮料”、“能量饮料”和“其他”。分类变量的缺失值填充方法需要考虑变量的性质。
步骤 2:分析缺失值填充方法
- 均值:适用于数值型变量,不适用于分类变量。
- 中位数:适用于数值型变量,不适用于分类变量。
- 众数:适用于分类变量,可以用来填充缺失值。
- 调和平均数:适用于数值型变量,不适用于分类变量。
步骤 3:选择合适的填充方法
由于“饮料类型”是分类变量,因此应该使用众数来填充缺失值。众数是出现次数最多的水平,因此用众数填充缺失值可以保持数据的分布特征。
“饮料类型”是一个分类变量,它有四个水平:“果汁”、“碳酸饮料”、“能量饮料”和“其他”。分类变量的缺失值填充方法需要考虑变量的性质。
步骤 2:分析缺失值填充方法
- 均值:适用于数值型变量,不适用于分类变量。
- 中位数:适用于数值型变量,不适用于分类变量。
- 众数:适用于分类变量,可以用来填充缺失值。
- 调和平均数:适用于数值型变量,不适用于分类变量。
步骤 3:选择合适的填充方法
由于“饮料类型”是分类变量,因此应该使用众数来填充缺失值。众数是出现次数最多的水平,因此用众数填充缺失值可以保持数据的分布特征。