题目
在基于模型的强化学习中,智能体使用环境的()来帮助解释奖励信号,并决定如何行动。A. 动态规划B. 奖励模型C. 策略模型D. 转移模型
在基于模型的强化学习中,智能体使用环境的()来帮助解释奖励信号,并决定如何行动。
A. 动态规划
B. 奖励模型
C. 策略模型
D. 转移模型
题目解答
答案
D. 转移模型
解析
本题考查基于模型的强化学习核心组件的理解。基于模型的强化学习(Model-Based RL)的关键在于智能体维护一个环境模型,用于模拟环境的运行规律,从而辅助决策。题目要求选择智能体用来“解释奖励信号并决定行动”的环境模型类型,需辨析各选项功能:
选项分析
- A. 动态规划:是一种求解马尔可夫决策过程(MDP)的算法方法(如值迭代、策略迭代),并非环境模型本身,排除。
- B. 奖励模型:用于预测状态/动作的奖励值(如预测奖励函数 $r(s,a)$),但题目强调“解释奖励信号并决定行动”的核心是理解环境状态转移,而非直接预测奖励,排除。
- C. 策略模型:是智能体的行动策略(如 $\pi(a|s)$),属于智能体自身的决策模型,非环境模型,排除。
- D. 转移模型:用于描述环境中状态转移的规律(如 $P(s'|s,a)$),是智能体理解“当前状态-动作-下一状态”关系的核心环境模型。通过转移模型,智能体可以模拟未来状态轨迹,结合奖励信号规划最优行动,符合题意。