题目
下列关于文本特征提取评价标准的描述不正确的是( )。A. 信息增益的值越大,说明这个属性越好B. IDF的值越大,说明这个词越能够代表整篇文章的意思C. 互信息统计两个词同时出现的概率,两个变量单独出现的概率一样的话,联合概率越大说明关联度越小D. 卡方用来检验两个事件的对立性,卡方值越大,说明特征词和类别的相关性越大
下列关于文本特征提取评价标准的描述不正确的是( )。
A. 信息增益的值越大,说明这个属性越好
B. IDF的值越大,说明这个词越能够代表整篇文章的意思
C. 互信息统计两个词同时出现的概率,两个变量单独出现的概率一样的话,联合概率越大说明关联度越小
D. 卡方用来检验两个事件的对立性,卡方值越大,说明特征词和类别的相关性越大
题目解答
答案
C. 互信息统计两个词同时出现的概率,两个变量单独出现的概率一样的话,联合概率越大说明关联度越小
解析
步骤 1:理解信息增益
信息增益是衡量一个属性在分类任务中的重要性。信息增益的值越大,说明这个属性对分类的贡献越大,因此属性越好。
步骤 2:理解IDF
IDF(逆文档频率)是衡量一个词在文档集合中的重要性。IDF的值越大,说明这个词在文档集合中出现的频率越低,因此越能够代表整篇文章的意思。
步骤 3:理解互信息
互信息是衡量两个变量之间的关联度。两个变量单独出现的概率一样的话,联合概率越大说明关联度越大,而不是越小。
步骤 4:理解卡方检验
卡方检验是衡量两个事件的对立性。卡方值越大,说明特征词和类别的相关性越大。
信息增益是衡量一个属性在分类任务中的重要性。信息增益的值越大,说明这个属性对分类的贡献越大,因此属性越好。
步骤 2:理解IDF
IDF(逆文档频率)是衡量一个词在文档集合中的重要性。IDF的值越大,说明这个词在文档集合中出现的频率越低,因此越能够代表整篇文章的意思。
步骤 3:理解互信息
互信息是衡量两个变量之间的关联度。两个变量单独出现的概率一样的话,联合概率越大说明关联度越大,而不是越小。
步骤 4:理解卡方检验
卡方检验是衡量两个事件的对立性。卡方值越大,说明特征词和类别的相关性越大。