题目
强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略。A. 探索B. 开发C. 输入D. 输出
强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略。
A. 探索
B. 开发
C. 输入
D. 输出
题目解答
答案
A. 探索
解析
强化学习的核心在于平衡探索(Exploration)和开发(Exploitation)两个关键概念。
- 探索:指智能体主动尝试未知的动作,以获取新信息并更新Q值,避免过早陷入局部最优。
- 开发:指智能体利用已掌握的知识,选择当前最优动作以最大化奖励,关注短期收益。
本题的关键在于理解“探索未知动作效果”与“更新Q值”的直接关联,明确两者的区别即可解题。
题目解析:
题目要求选择强化学习中负责探索未知动作、更新Q值的机制。
- 选项分析:
- A. 探索:通过尝试新动作发现高奖励路径,更新Q值,符合题意。
- B. 开发:侧重利用现有知识选择最优动作,与“探索未知”无关。
- C. 输入/ D. 输出:描述智能体与环境的交互,但与动作探索无直接关系。
- 结论:探索是更新Q值、优化策略的核心步骤,答案为A。