题目
3当信息熵的值为(),样本的纯度最高。A. 0B. 1C. 0.5D. -1
3当信息熵的值为(),样本的纯度最高。
A. 0
B. 1
C. 0.5
D. -1
题目解答
答案
A. 0
解析
信息熵是衡量数据集混乱程度的指标,其值越小,说明样本的纯度越高。当数据集中所有样本属于同一类别时,熵为0,此时纯度达到最大。因此,本题的关键在于理解熵与纯度的反比关系,并明确熵的最小值对应纯度最高。
信息熵的计算公式为:
$H = -\sum_{i=1}^n p_i \log p_i$
其中,$p_i$为第$i$类样本所占的比例。
-
当所有样本属于同一类别时,某一$p_i=1$,其余$p_j=0$,此时:
$H = -1 \cdot \log 1 = 0$
纯度最高。 -
当样本类别分布越均匀,熵值越大。例如,二分类中两类各占50%时,熵为:
$H = -\left(0.5 \log 0.5 + 0.5 \log 0.5\right) = 1$
此时纯度最低。
因此,熵值为0时,样本纯度最高。