题目强化学习中,智能体的目标是()A. 最大化即时奖励B. 最大化长期回报C. 最小化长期回报D. 最小化即时奖励强化学习中,智能体的目标是()A. 最大化即时奖励B. 最大化长期回报C. 最小化长期回报D. 最小化即时奖励题目解答答案B. 最大化长期回报