题目
下面关于N元模型(N-gram)核心思想的论述不正确的是()()A. 一个句子的合理性为该句子在语料中出现的概率B. N元模型的应用需要基于标注的语料库C. 句子出现的概率为句子中词按顺序出现的概率D. 引入马尔可夫假设:N-gram模型中任意一个词出现的概率,和前N-1个词有关
下面关于N元模型(N-gram)核心思想的论述不正确的是()()
A. 一个句子的合理性为该句子在语料中出现的概率
B. N元模型的应用需要基于标注的语料库
C. 句子出现的概率为句子中词按顺序出现的概率
D. 引入马尔可夫假设:N-gram模型中任意一个词出现的概率,和前N-1个词有关
题目解答
答案
B. N元模型的应用需要基于标注的语料库
解析
考查要点:本题主要考查对N元模型(N-gram)核心思想的理解,重点区分模型的基本假设与实际应用条件。
解题关键:
- N元模型的基本假设:基于马尔可夫假设,认为当前词仅与前N-1个词相关。
- 模型应用基础:N元模型的核心是统计词序列的频率,不需要标注的语料库(如词性标注),仅需词语序列即可。
- 概率计算方式:将句子概率分解为词的条件概率乘积。
易错点:混淆“标注语料库”与“分词处理”。标注通常指添加额外信息(如词性),而N元模型只需未标注但已分词的文本。
选项分析
A. 一个句子的合理性为该句子在语料中出现的概率
正确。N元模型通过计算句子的概率来判断合理性,概率越高合理性越强。
B. N元模型的应用需要基于标注的语料库
错误。N元模型的核心是统计词序列的频率,仅需未标注但已分词的语料库。标注(如词性标注)可能用于其他任务,但非N元模型的必要条件。
C. 句子出现的概率为句子中词按顺序出现的概率
正确。N元模型通过链式法则将句子概率分解为词的条件概率乘积:
$P(w_1,w_2,...,w_n) = \prod_{i=1}^n P(w_i|w_1,w_2,...,w_{i-1})$
D. 引入马尔可夫假设:N-gram模型中任意一个词出现的概率,和前N-1个词有关
正确。马尔可夫假设是N元模型的核心,简化了概率计算。