题目

考虑表5-10 中的数据集。记录 A B C 类 1 0 0 0 + 2 0 0 1 - 3 0 1 1 - 4 0 1 1 - 5 0 0 1 + 6 1 0 1 + 7 1 0 1 - 8 1 0 1 - 9 1 1 1 + 10 1 0 1 +(a)估计条件概率P(A|+)，P(B|+)，P(C|+)，P(A|-)，P(B|-)和P(C|-)。(b)根据(a)中的条件概率，使用朴素贝叶斯方法预测测试样本(A=0,B =1,C=0)的类标号。(c)使用m估计方法(p=1/2且m= 4)估计条件概率。(d)同(b)，使用(c)中的条件概率。(e)比较估计概率的两种方法。哪一种更好?为什么?

考虑表5-10 中的数据集。

记录 A B C 类

1 0 0 0 +

2 0 0 1 -

3 0 1 1 -

4 0 1 1 -

5 0 0 1 +

6 1 0 1 +

7 1 0 1 -

8 1 0 1 -

9 1 1 1 +

10 1 0 1 +

(a)估计条件概率P(A|+)，P(B|+)，P(C|+)，P(A|-)，P(B|-)和P(C|-)。

(b)根据(a)中的条件概率，使用朴素贝叶斯方法预测测试样本(A=0,B =1,C=0)的类标号。

(c)使用m估计方法(p=1/2且m= 4)估计条件概率。

(d)同(b)，使用(c)中的条件概率。

(e)比较估计概率的两种方法。哪一种更好?为什么?

题目解答

答案

(a) 首先，我们根据给定的数据集计算条件概率。通过计算表5-10中的数据，我们可以得到以下结果：

P(A=0|+) = 2/4 = 1/2

P(B=0|+) = 1/4

P(C=0|+) = 1/2

P(A=0|-) = 1/4

P(B=0|-) = 3/4

P(C=0|-) = 3/4

(b) 根据朴素贝叶斯算法，我们可以使用条件概率和先验概率来计算后验概率。对于测试样本(A=0,B=1,C=0)，我们需要计算P(+|A=0,B=1,C=0)和P(-|A=0,B=1,C=0)，然后选择后验概率较大的类别作为预测结果。

根据朴素贝叶斯算法的公式，我们有：

P(+|A=0,B=1,C=0) = P(A=0|+) * P(B=1|+) * P(C=0|+) * P(+)

P(-|A=0,B=1,C=0) = P(A=0|-) * P(B=1|-) * P(C=0|-) * P(-)

根据(a)中计算得到的条件概率和类别的先验概率，我们可以代入计算得到后验概率。

P(+|A=0,B=1,C=0) = (1/2) * (1/4) * (1/2) * (4/10) = 1/40

P(-|A=0,B=1,C=0) = (1/4) * (3/4) * (3/4) * (6/10) = 27/160

由于P(-|A=0,B=1,C=0) > P(+|A=0,B=1,C=0)，所以预测结果为类别"-".

P(A=0|+) = (2 + p) / (4 + mp) = (2 + 1/2) / (4 + 4 * 1/2) = 3/8

P(B=0|+) = (1 + p) / (4 + mp) = (1 + 1/2) / (4 + 4 * 1/2) = 1/4

P(C=0|+) = (1 + p) / (4 + mp) = (1 + 1/2) / (4 + 4 * 1/2) = 1/4

P(A=0|-) = (1 + p) / (4 + mp) = (1 + 1/2) / (4 + 4 * 1/2) = 1/4

P(B=0|-) = (3 + p) / (4 + mp) = (3 + 1/2) / (4 + 4 * 1/2) = 3/8

P(C=0|-) = (3 + p) / (4 + mp) = (3 + 1/2) / (4 + 4 * 1/2) = 3/8

(d) 同(b) ，使用(c)中估计得到的条件概率。

P(+|A=0,B=1,C=0) = P(A=0|+) * P(B=1|+) * P(C=0|+) * P(+)

P(-|A=0,B=1,C=0) = P(A=0|-) * P(B=1|-) * P(C=0|-) * P(-)

代入(c)中计算得到的条件概率和类别的先验概率，我们可以计算得到后验概率。

P(+|A=0,B=1,C=0) = (3/8) * (1/4) * (1/4) * (4/10) = 3/256

P(-|A=0,B=1,C=0) = (1/4) * (3/8) * (3/8) * (6/10) = 81/2048

由于P(-|A=0,B=1,C=0) > P(+|A=0,B=1,C=0)，所以预测结果为类别"-".

(e) 通过比较两种估计方法的结果，我们可以发现朴素贝叶斯方法基于频率计数的方法在给定数据集下获得了与m估计方法相似的结果。然而，m估计方法引入了一个平滑参数p，可以在数据较少时提供更合理的估计结果，以避免出现零概率问题。因此，相对于直接的频率计数方法，m估计方法更好，可以提供更稳定和准确的概率估计结果。