题目
大语言模型的核心架构是:A. RNNB. TransformerC. CNND. LSTM
大语言模型的核心架构是:
A. RNN
B. Transformer
C. CNN
D. LSTM
题目解答
答案
B. Transformer
解析
考查要点:本题主要考查学生对当前主流大语言模型核心架构的了解,需要区分不同神经网络模型的特点。
解题核心思路:明确各选项模型(RNN、LSTM、CNN、Transformer)的核心功能与应用场景,抓住自注意力机制和并行计算能力这两个关键点,即可快速锁定答案。
破题关键点:
- Transformer模型通过自注意力机制能高效捕捉长距离依赖关系。
- 大语言模型(如GPT、BERT)均基于Transformer架构。
选项分析
A. RNN(循环神经网络)
- 特点:处理序列数据,按顺序逐个处理输入。
- 局限性:存在梯度消失/爆炸问题,难以处理长序列。
B. Transformer
- 特点:基于自注意力机制,可并行处理所有输入位置,高效捕捉长距离依赖。
- 优势:计算效率高,成为大语言模型的核心架构(如GPT-3、BERT)。
C. CNN(卷积神经网络)
- 特点:通过卷积层提取局部特征,常用于图像处理。
- 局限性:在NLP中对长距离依赖捕捉能力较弱。
D. LSTM(长短期记忆网络)
- 特点:通过门控机制缓解RNN的长序列问题。
- 局限性:仍为顺序处理,效率低于Transformer。
结论:大语言模型需要高效处理长文本且捕捉复杂依赖关系,Transformer的自注意力机制和并行计算能力使其成为最优选择。