题目
以下说法正确的是()。A. 基于状态,智能体采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值B. 强化学习中智能体不能获得即时反馈C. 用于强化学习的数据必须符合独立同分布的假设D. 主体和环境之间交互的要素有状态、动作、奖赏
以下说法正确的是()。
A. 基于状态,智能体采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
B. 强化学习中智能体不能获得即时反馈
C. 用于强化学习的数据必须符合独立同分布的假设
D. 主体和环境之间交互的要素有状态、动作、奖赏
题目解答
答案
D. 主体和环境之间交互的要素有状态、动作、奖赏