题目策略梯度方法通过直接优化策略参数来最大化累积奖励,适用于连续动作空间。()A. 错B. 对策略梯度方法通过直接优化策略参数来最大化累积奖励,适用于连续动作空间。()A. 错B. 对题目解答答案B. 对