题目
生成对抗模仿学习(GAIL)通过对抗训练优化策略。以下关于GAIL表述中,哪一项最准确描述了其核心优化机制?( )。A. GAIL完全依赖环境奖励信号,不需要任何专家示范数据B. GAIL直接最小化智能体策略与专家策略之间的动作均方误差C. GAIL通过判别器区分专家数据与智能体生成数据,策略优化的目标最大化判别器的分类误差D. GAIL使用行为克隆预训练策略网络,再通过强化学习微调
生成对抗模仿学习(GAIL)通过对抗训练优化策略。以下关于GAIL表述中,哪一项最准确描述了其核心优化机制?( )。
A. GAIL完全依赖环境奖励信号,不需要任何专家示范数据
B. GAIL直接最小化智能体策略与专家策略之间的动作均方误差
C. GAIL通过判别器区分专家数据与智能体生成数据,策略优化的目标最大化判别器的分类误差
D. GAIL使用行为克隆预训练策略网络,再通过强化学习微调
题目解答
答案
C. GAIL通过判别器区分专家数据与智能体生成数据,策略优化的目标最大化判别器的分类误差