题目
处理数据集中的缺失值一般采取以下方法 _ 。A. 删除相关记录B. 替换为 Nan 即可C. 替换为 0D. 用估计的数据填充
处理数据集中的缺失值一般采取以下方法 _ 。
A. 删除相关记录
B. 替换为 Nan 即可
C. 替换为 0
D. 用估计的数据填充
题目解答
答案
AD
A. 删除相关记录
D. 用估计的数据填充
A. 删除相关记录
D. 用估计的数据填充
解析
本题考查数据预处理中缺失值的处理方法。处理缺失值的核心思路是根据数据特征和业务需求选择合适策略,需注意不同方法的适用场景及潜在问题。关键点在于区分合理方法(如删除或合理填充)与错误操作(如随意赋值导致数据偏差)。
选项分析
A. 删除相关记录
适用场景:当缺失值占比高(如超过5%)且数据量足够大时,删除记录不会显著影响分析结果。
优点:避免偏差,但可能损失数据量。
B. 替换为 Nan
错误原因:Nan 通常用于标记缺失值,若数据已用 Nan 表示缺失,此操作无意义,且未解决问题。
C. 替换为 0
风险:若数据中 0 本身有意义(如年龄不能为 0),则会引入偏差;若数据中 0 无意义,则可能掩盖缺失信息。
D. 用估计的数据填充
合理方法:通过统计方法(如均值、中位数)或模型(如 KNN、回归)预测缺失值,能保留数据量并减少偏差。