题目
3. 动态规划有两种优化策略,一个是 输入答案,而另一种是 输入答案____。
3. 动态规划有两种优化策略,一个是 输入答案,而另一种是 输入答案____。
题目解答
答案
动态规划有两种优化策略,一个是值迭代[1],而另一种是策略迭代。
解析
动态规划是解决多阶段决策问题的重要方法,其核心在于通过分解问题为子问题,利用最优子结构和重叠子问题性质来优化计算。本题考查动态规划的两种经典优化策略:
- 值迭代(Value Iteration):通过不断更新状态值,最终收敛到最优值函数,再导出最优策略。
- 策略迭代(Policy Iteration):通过交替进行策略评估(计算当前策略价值)和策略改进(优化动作选择),直接逼近最优策略。
关键区别:值迭代直接优化价值函数,而策略迭代直接优化策略本身。
动态规划的两种优化策略分别为:
- 值迭代:从初始状态开始,反复更新每个状态的最优价值,直到价值函数收敛。此时根据最优价值函数即可确定最优策略。
- 策略迭代:包含两个步骤:
- 策略评估:计算当前策略对应的价值函数。
- 策略改进:通过贪心选择改进策略,若策略不再变化则达到最优。