题目

在基于模型的强化学习中，智能体使用环境的()来帮助解释奖励信号，并决定如何行动。A. 动态规划B. 奖励模型C. 策略模型D. 转移模型

在基于模型的强化学习中，智能体使用环境的()来帮助解释奖励信号，并决定如何行动。

A. 动态规划

B. 奖励模型

C. 策略模型

D. 转移模型

题目解答

D. 转移模型

本题考查基于模型的强化学习核心组件的理解。基于模型的强化学习（Model-Based RL）的关键在于智能体维护一个环境模型，用于模拟环境的运行规律，从而辅助决策。题目要求选择智能体用来“解释奖励信号并决定行动”的环境模型类型，需辨析各选项功能：

选项分析

A. 动态规划：是一种求解马尔可夫决策过程（MDP）的算法方法（如值迭代、策略迭代），并非环境模型本身，排除。
B. 奖励模型：用于预测状态/动作的奖励值（如预测奖励函数 $r(s,a)$），但题目强调“解释奖励信号并决定行动”的核心是理解环境状态转移，而非直接预测奖励，排除。
C. 策略模型：是智能体的行动策略（如 $\pi(a|s)$），属于智能体自身的决策模型，非环境模型，排除。
D. 转移模型：用于描述环境中状态转移的规律（如 $P(s'|s,a)$），是智能体理解“当前状态-动作-下一状态”关系的核心环境模型。通过转移模型，智能体可以模拟未来状态轨迹，结合奖励信号规划最优行动，符合题意。