题目
F-learning可以看作Q-learning的一种健忘选择,F(s,a)=r+gammamax_(a')F(s',a'),也即Q-learning中的学习率alpha=1。则F-learning在以下那种情况下收敛于固定的值:()A. 具有确定性的状态转移时B. 具有随机性的状态转移时C. 相应的Q-learning收敛时F-learning也会收敛D. 从不
F-learning可以看作Q-learning的一种健忘选择,$F(s,a)=r+\gamma\max_{a'}F(s',a')$,也即Q-learning中的学习率$\alpha=1$。则F-learning在以下那种情况下收敛于固定的值:()
A. 具有确定性的状态转移时
B. 具有随机性的状态转移时
C. 相应的Q-learning收敛时F-learning也会收敛
D. 从不
题目解答
答案
A. 具有确定性的状态转移时