题目
1假设马尔可夫决策问题(MDP)的状态是有限的,则对于MDP(S,A,T,y,R),如果我们只改变奖励函数R,最优策略会保持不变。()A. 正确B. 错误
1假设马尔可夫决策问题(MDP)的状态是有限的,则对于MDP(S,A,T,y,R),如果我们只改变奖励函数R,最优策略会保持不变。()
A. 正确
B. 错误
题目解答
答案
B. 错误
解析
马尔可夫决策过程(MDP)是一种用于决策制定的数学框架,其中状态、动作、转移概率和奖励函数是关键组成部分。最优策略是根据奖励函数来确定的,因此,如果奖励函数改变,最优策略也可能随之改变。