题目
C4.5算法在构造决策树时使用的分裂属性是( )。A. 信息增益B. 信息增益率C. 基尼指数D. 不纯度降低值
C4.5算法在构造决策树时使用的分裂属性是( )。
A. 信息增益
B. 信息增益率
C. 基尼指数
D. 不纯度降低值
题目解答
答案
B. 信息增益率
解析
本题考查决策树算法中不同算法所使用的分裂属性相关知识点。解题思路是需要对常见的决策树算法(如ID3、C4.5、CART)所采用的分裂属性有清晰的了解,然后根据各选项与不同算法的对应关系来确定正确答案。
- 选项A:信息增益是ID3算法在构造决策树时使用的分裂属性。信息增益的计算公式为:
$Gain(D, a) = Ent(D) - \sum_{v = 1}^{V} \frac{|D^v|}{|D|} Ent(D^v)$
其中,$D$ 是数据集,$a$ 是待选择的属性,$V$ 是属性 $a$ 可能的取值个数,$D^v$ 是属性 $a$ 取值为 $v$ 的样本子集,$Ent(D)$ 是数据集 $D$ 的信息熵,计算公式为 $Ent(D)=-\sum_{k = 1}^{K} p_k \log_2 p_k$,$K$ 是类别数,$p_k$ 是第 $k$ 类样本在 $D$ 中所占的比例。所以选项A不符合C4.5算法,排除。 - 选项B:C4.5算法为了克服ID3算法中信息增益偏向于选择取值数目较多的属性的缺点,使用信息增益率作为分裂属性。信息增益率的计算公式为:
$Gain_ratio(D, a) = \frac{Gain(D, a)}{IV(a)}$
其中,$IV(a)=-\sum_{v = 1}^{V} \frac{|D^v|}{|D|} \log_2 \frac{|D^v|}{|D|}$ 称为属性 $a$ 的固有值。所以选项B正确。 - 选项C:基尼指数是CART(Classification and Regression Trees)算法在构造决策树时使用的分裂属性。基尼指数反映了从数据集 $D$ 中随机抽取两个样本,其类别标记不一致的概率,计算公式为 $Gini(D)=1 - \sum_{k = 1}^{K} p_k^2$。所以选项C不符合C4.5算法,排除。
- 选项D:不纯度降低值并不是C4.5算法所使用的分裂属性,它是一个比较宽泛的概念,信息增益等都可以看作是不纯度降低的一种度量方式,但不是C4.5算法特有的分裂属性。所以选项D排除。