题目
大模型预训练中,以下哪个不是常见的预训练任务?A. 掩码语言模型(Masked Language Model)B. 下一句预测(Next Sentence Prediction)C. 文本分类D. 机器翻译
大模型预训练中,以下哪个不是常见的预训练任务?
A. 掩码语言模型(Masked Language Model)
B. 下一句预测(Next Sentence Prediction)
C. 文本分类
D. 机器翻译
题目解答
答案
C
解析
考查要点:本题主要考查对大语言模型预训练任务的理解,需要区分预训练任务与下游任务的差异。
解题核心思路:
- 预训练任务的特点是自监督学习,利用未标注数据通过语言建模、序列预测等任务训练模型。
- 下游任务则是模型在特定应用场景中的实际目标(如分类、翻译等),通常需要标注数据。
- 关键点:判断选项中哪些任务属于无监督学习(预训练任务),哪些属于有监督学习(下游任务)。
选项分析
A. 掩码语言模型(MLM)
- 核心思想:随机遮蔽部分单词,让模型预测被遮蔽的词。
- 特点:无需额外标注数据,通过自监督学习提升语言理解能力。
- 结论:常见预训练任务(如BERT)。
B. 下一句预测(NSP)
- 核心思想:判断当前段落的下一句是否是原文本的延续。
- 特点:通过预测句子间关系提升语境理解能力。
- 结论:常见预训练任务(如BERT)。
C. 文本分类
- 核心思想:将文本映射到预定义类别(如情感分析、主题分类)。
- 特点:需要大量标注数据,属于下游任务,而非预训练任务。
- 结论:不是预训练任务。
D. 机器翻译
- 核心思想:将一种语言翻译为另一种语言。
- 特点:通过大规模双语数据进行自监督学习。
- 结论:常见预训练任务(如早期的Transformer模型)。