题目
下列各项中,最恰当的降维方法是____A. 删除数据差异较大的列B. 删除不同数据趋势的列C. 删除缺少值太多的列D. 删除存在异常值的列
下列各项中,最恰当的降维方法是____
A. 删除数据差异较大的列
B. 删除不同数据趋势的列
C. 删除缺少值太多的列
D. 删除存在异常值的列
题目解答
答案
C. 删除缺少值太多的列
解析
降维的核心目标是减少数据维度,同时尽可能保留重要信息。本题四个选项均通过删除某些列实现降维,但需判断哪种情况最合理。
- 关键点在于:删除的列是否对数据质量或模型效果影响较小。
- 删除缺失值过多的列(选项C)是常见做法,因缺失值过多会导致数据不完整,处理成本高,且可能降低模型性能。
- 其余选项(如删除差异大、趋势不同或异常值的列)可能损失重要信息,需谨慎操作。
选项分析
A. 删除数据差异较大的列
数据差异大可能反映特征的独特性(如区分度高的特征),直接删除可能丢失重要信息。
B. 删除不同数据趋势的列
趋势不同可能说明特征间独立性强,但独立性不等于无用,需结合业务理解判断。
C. 删除缺少值太多的列
缺失值过多会导致:
- 数据清洗复杂(如插值或删除样本);
- 模型训练困难(缺失值需特殊处理);
- 信息损失严重。
因此,删除此类列是合理选择。
D. 删除存在异常值的列
异常值可通过数据清洗或鲁棒算法处理,直接删除整列可能损失其他有效数据。