题目

C4.5算法在构造决策树时使用的分裂属性是（）。A. 信息增益B. 信息增益率C. 基尼指数D. 不纯度降低值

C4.5算法在构造决策树时使用的分裂属性是（）。

A. 信息增益

B. 信息增益率

C. 基尼指数

D. 不纯度降低值

题目解答

答案

B. 信息增益率

解析

本题考查决策树算法中不同算法所使用的分裂属性相关知识点。解题思路是需要对常见的决策树算法（如ID3、C4.5、CART）所采用的分裂属性有清晰的了解，然后根据各选项与不同算法的对应关系来确定正确答案。

选项A：信息增益是ID3算法在构造决策树时使用的分裂属性。信息增益的计算公式为：
$Gain(D, a) = Ent(D) - \sum_{v = 1}^{V} \frac{|D^v|}{|D|} Ent(D^v)$
其中，$D$ 是数据集，$a$ 是待选择的属性，$V$ 是属性 $a$ 可能的取值个数，$D^v$ 是属性 $a$ 取值为 $v$ 的样本子集，$Ent(D)$ 是数据集 $D$ 的信息熵，计算公式为 $Ent(D)=-\sum_{k = 1}^{K} p_k \log_2 p_k$，$K$ 是类别数，$p_k$ 是第 $k$ 类样本在 $D$ 中所占的比例。所以选项A不符合C4.5算法，排除。
选项B：C4.5算法为了克服ID3算法中信息增益偏向于选择取值数目较多的属性的缺点，使用信息增益率作为分裂属性。信息增益率的计算公式为：
$Gain_ratio(D, a) = \frac{Gain(D, a)}{IV(a)}$
其中，$IV(a)=-\sum_{v = 1}^{V} \frac{|D^v|}{|D|} \log_2 \frac{|D^v|}{|D|}$ 称为属性 $a$ 的固有值。所以选项B正确。
选项C：基尼指数是CART（Classification and Regression Trees）算法在构造决策树时使用的分裂属性。基尼指数反映了从数据集 $D$ 中随机抽取两个样本，其类别标记不一致的概率，计算公式为 $Gini(D)=1 - \sum_{k = 1}^{K} p_k^2$。所以选项C不符合C4.5算法，排除。
选项D：不纯度降低值并不是C4.5算法所使用的分裂属性，它是一个比较宽泛的概念，信息增益等都可以看作是不纯度降低的一种度量方式，但不是C4.5算法特有的分裂属性。所以选项D排除。

C4.5算法在构造决策树时使用的分裂属性是（ ）。A. 信息增益B. 信息增益率C. 基尼指数D. 不纯度降低值

题目解答

答案

解析

C4.5算法在构造决策树时使用的分裂属性是（）。A. 信息增益B. 信息增益率C. 基尼指数D. 不纯度降低值