题目
时序差分学习(TD)与蒙特卡洛方法的主要区别是()A. TD使用自举法更新B. 蒙特卡洛方差更低C. TD需要环境模型D. TD仅适用于离散状态
时序差分学习(TD)与蒙特卡洛方法的主要区别是()
A. TD使用自举法更新
B. 蒙特卡洛方差更低
C. TD需要环境模型
D. TD仅适用于离散状态
题目解答
答案
知识总结
-
TD方法:使用自举法(用当前状态的估计值代替未来状态的期望值)更新状态值,无需等待最终结果,可在线学习,方差较小。
-
蒙特卡洛方法:依赖完整轨迹的最终回报,无偏估计,但方差较大,需等待 episode 结束。
-
关键区别:TD 通过自举(选项A)和即时更新实现高效学习,而蒙特卡洛依赖完整轨迹的采样。
答案: A