题目
在大型语言模型(LLM)的安全对齐过程中,基于人类反馈的强化学习(RLHF)通过()关键步骤实现模型行为的优化。A. 完全依靠预训练数据来对齐模型B. 人类标注者对模型的多个输出进行排序或评分,以训练奖励模型,进而优化LLMC. 仅通过增加模型参数来提高安全性D. 仅进行代码层面的安全审计
在大型语言模型(LLM)的安全对齐过程中,基于人类反馈的强化学习(RLHF)通过()关键步骤实现模型行为的优化。
A. 完全依靠预训练数据来对齐模型
B. 人类标注者对模型的多个输出进行排序或评分,以训练奖励模型,进而优化LLM
C. 仅通过增加模型参数来提高安全性
D. 仅进行代码层面的安全审计
题目解答
答案
B. 人类标注者对模型的多个输出进行排序或评分,以训练奖励模型,进而优化LLM
解析
考查要点:本题主要考查对基于人类反馈的强化学习(RLHF)核心流程的理解,需要明确其关键步骤与实现机制。
解题核心思路:
RLHF 的核心在于通过人类标注者的反馈对模型行为进行优化。具体包括两个关键环节:
- 人类标注者对模型输出进行排序或评分,生成训练奖励模型的数据;
- 利用奖励模型指导强化学习,调整模型行为。
破题关键点:
- 明确排除干扰项:
- 预训练数据是模型基础,但非RLHF直接作用环节(排除A);
- 模型参数量与代码审计与行为对齐无直接关系(排除C、D)。
选项分析
选项B:
- 人类标注者参与:通过人工对模型输出进行排序或评分,确保反馈的准确性;
- 训练奖励模型:将标注结果转化为可量化的奖励信号,指导后续学习;
- 优化LLM:强化学习过程利用奖励信号调整模型参数,使其行为更符合人类预期。
其他选项错误原因:
- A:预训练数据仅用于模型初始化,无法直接对齐行为;
- C:参数量与模型能力相关,与行为对齐无关;
- D:安全审计属于被动防御,无法主动优化行为。