题目
7当某一列的数值差距比较大时,一般需要进行()操作来减少预测误差A. 特征选择B. 特征离散C. 主成分分析D. 特征组合A()BC
7当某一列的数值差距比较大时,一般需要进行()操作来减少预测误差
A. 特征选择
B. 特征离散
C. 主成分分析
D. 特征组合A()BC
题目解答
答案
B. 特征离散
解析
考查要点:本题主要考查对特征工程中不同方法应用场景的理解,特别是如何处理数值差距较大的特征以减少预测误差。
解题核心思路:
当某一列的数值范围差异显著时,直接使用这些特征可能会影响模型性能(如梯度下降优化困难、模型对特征敏感度不均等)。此时需要通过特征离散化将连续值转换为离散区间,从而降低数值差距对模型的影响。
破题关键点:
- 特征离散化的核心作用是减少数值范围差异,使模型更关注数据分布规律而非绝对值差异。
- 其他选项(如主成分分析、特征组合)主要解决维度或特征相关性问题,与数值范围差距关联较弱。
特征离散化是将连续型特征划分为有限个离散区间或类别。例如,将“年龄”分为“0-18岁、19-60岁、60岁以上”。这种处理方式的优势在于:
- 消除数值范围差异:将不同量级的特征统一为离散形式,避免某些特征因数值过大主导模型。
- 提升模型鲁棒性:离散化后模型更关注数据分布的相对关系,而非绝对值差异,从而降低预测误差。
选项分析:
- A. 特征选择:用于筛选重要特征,与数值范围无关。
- C. 主成分分析:用于降维,解决特征冗余和共线性问题。
- D. 特征组合:通过组合特征创造新特征,不直接处理数值差距。