题目
C4.5算法相较于ID3算法的主要改进在于引入了以下哪一个指标A. 信息增益B. 卡方检验C. 误分类率D. 基尼系数E. 信息增益比
C4.5算法相较于ID3算法的主要改进在于引入了以下哪一个指标
A. 信息增益
B. 卡方检验
C. 误分类率
D. 基尼系数
E. 信息增益比
题目解答
答案
E. 信息增益比
解析
本题考查的是机器学习中C4.5算法和ID3算法的相关知识,解题的关键在于了解这两个算法的核心指标以及C4.5算法对ID3算法的改进之处。
各选项分析
- A. 信息增益:信息增益是ID3算法用于选择最优划分属性的指标。ID3算法在选择划分属性时,倾向于选择取值较多的属性,因为取值越多,信息增益往往越大,这可能导致过拟合问题。所以信息增益不是C4.5算法相较于ID3算法的改进指标。
- B. 卡方检验:卡方检验主要用于独立性检验,在决策树算法中,它通常用于剪枝操作,而不是C4.5算法选择划分属性的核心指标,所以该选项不符合要求。
- C. 误分类率:误分类率是一种评估模型性能的指标,它衡量的是模型预测错误的样本比例,并非C4.5算法用于选择划分属性的指标,因此该选项不正确。
- D. 基尼系数:基尼系数是CART(Classification and Regression Trees)算法用于选择最优划分属性的指标,与C4.5算法无关,所以该选项也不正确。
- E. 信息增益比:C4.5算法为了克服ID3算法倾向于选择取值较多属性的问题,引入了信息增益比。信息增益比在信息增益的基础上,考虑了属性取值的分布情况,通过对信息增益进行修正,使得选择划分属性更加合理,避免了过拟合。其计算公式为:
$\text{Gain_ratio}(D, a)=\frac{\text{Gain}(D, a)}{\text{IV}(a)}$
其中,$\text{Gain}(D, a)$ 是属性 $a$ 对数据集 $D$ 的信息增益,$\text{IV}(a)$ 是属性 $a$ 的固有值,计算公式为:
$\text{IV}(a)=-\sum_{v = 1}^{V}\frac{|D^v|}{|D|}\log_2\frac{|D^v|}{|D|}$
这里 $V$ 是属性 $a$ 的取值个数,$D^v$ 是属性 $a$ 取值为 $v$ 的样本子集。