题目

1假设马尔可夫决策问题(MDP)的状态是有限的,则对于MDP(S,A,T,y,R),如果我们只改变奖励函数R,最优策略会保持不变。()A. 正确B. 错误

1假设马尔可夫决策问题(MDP)的状态是有限的,则对于MDP(S,A,T,y,R),如果我们只改变奖励函数R,最优策略会保持不变。()

A. 正确

B. 错误

题目解答

B. 错误

马尔可夫决策过程（MDP）是一种用于决策制定的数学框架，其中状态、动作、转移概率和奖励函数是关键组成部分。最优策略是根据奖励函数来确定的，因此，如果奖励函数改变，最优策略也可能随之改变。