题目
当数据集中含有类别特征时,需要进行特征____
当数据集中含有类别特征时,需要进行特征____
题目解答
答案
编码
解析
考查要点:本题主要考查数据预处理中对类别特征的处理方法。
解题核心:类别特征(如性别、职业等非数值型数据)无法直接被机器学习算法使用,需转换为数值形式。
关键点:特征编码是将类别变量转化为数值表示的必要步骤,常见方法包括独热编码、标签编码等。
类别特征通常以文本形式存在(如“男”、“女”),而机器学习模型要求输入为数值。因此,必须通过编码将类别值转换为数值。例如:
- 独热编码:将每个类别映射为一个二进制向量(如“男”→ [1,0], “女”→ [0,1])。
- 标签编码:用唯一整数表示每个类别(如“男”→ 1, “女”→ 2)。
编码后,模型才能正确计算和训练。