题目强化学习中,“策略梯度法”直接优化的是(A. 价值函数B. Q函数C. 策略函数D. 奖励函数强化学习中,“策略梯度法”直接优化的是(A. 价值函数B. Q函数C. 策略函数D. 奖励函数题目解答答案C. 策略函数