题目
【判断题】在现实世界的数据中,元组在某些属性上缺少值是常有的。可以使用从数据中挑选一个数据填写的方法处理该问题
【判断题】在现实世界的数据中,元组在某些属性上缺少值是常有的。可以使用从数据中挑选一个数据填写的方法处理该问题
题目解答
答案
错误
解析
考查要点:本题主要考查对数据预处理中缺失值处理方法的理解,以及判断常见处理方式的合理性。
关键思路:
- 缺失值的普遍性:题目第一部分正确,现实数据中确实存在大量缺失值。
- 填补方法的科学性:题目第二部分错误,直接“挑选一个数据填写”可能破坏数据分布或逻辑关系,需结合具体场景选择合理方法(如删除、均值填补、模型预测等)。
破题关键:
- 明确填补方法的局限性:随意挑选数据填补可能引入偏差,影响分析结果。
- 强调方法选择的重要性:需根据数据特征和分析目标选择科学的处理方式。
题目判断依据:
-
缺失值处理的基本原则:
- 完整性:填补需保持数据整体分布的合理性。
- 逻辑性:填补值应与数据特征或业务背景相符。
-
“挑选一个数据填写”的缺陷:
- 随机性:若随意选择其他样本的值填充,可能导致局部数据异常(如离群值)。
- 偏差风险:若挑选的值集中于某一群体(如高收入样本),会歪曲整体统计结果。
- 忽略缺失机制:未考虑缺失值产生的原因(如是否与目标变量相关),可能降低分析准确性。
-
正确方法示例:
- 删除法:剔除含缺失值的记录(适用于缺失比例低且随机)。
- 均值/中位数填补:用属性的集中趋势值填充(适用于数值型数据)。
- 模型预测:利用其他变量通过算法(如KNN、回归)预测缺失值。