题目
以下关于常用优化器的说法中,正确的是哪几项?A. 采用动量优化器时,每一个参数都用相同的学习率进行更新,但动量系数会随着迭代的进行而得到调整。B. Adagrad的思想是为不同的参数设置不同的学习率。C. Adagrad优化器的缺点之一是容易过早结束参数更新操作。D. RMSprop优化器通过引入一个衰减系数,让梯度每回合都衰减一定的比例。
以下关于常用优化器的说法中,正确的是哪几项?
A. 采用动量优化器时,每一个参数都用相同的学习率进行更新,但动量系数会随着迭代的进行而得到调整。
B. Adagrad的思想是为不同的参数设置不同的学习率。
C. Adagrad优化器的缺点之一是容易过早结束参数更新操作。
D. RMSprop优化器通过引入一个衰减系数,让梯度每回合都衰减一定的比例。
题目解答
答案
BCD
B. Adagrad的思想是为不同的参数设置不同的学习率。
C. Adagrad优化器的缺点之一是容易过早结束参数更新操作。
D. RMSprop优化器通过引入一个衰减系数,让梯度每回合都衰减一定的比例。
B. Adagrad的思想是为不同的参数设置不同的学习率。
C. Adagrad优化器的缺点之一是容易过早结束参数更新操作。
D. RMSprop优化器通过引入一个衰减系数,让梯度每回合都衰减一定的比例。
解析
本题考查对常用优化器(动量优化器、Adagrad、RMSprop)核心思想和特点的理解。关键点在于:
- 动量优化器的学习率和动量系数的作用;
- Adagrad自适应学习率机制及其局限性;
- RMSprop对梯度的指数衰减处理。
需注意区分不同优化器的参数调整逻辑和实际效果。
选项A
错误。动量优化器中,所有参数使用相同的学习率,而动量系数(如0.9)是预先设定的超参数,不会随迭代自动调整,仅用于加速收敛。
选项B
正确。Adagrad的核心思想是为每个参数单独维护学习率,通过累积历史梯度平方的平方根动态调整更新幅度,确保不同参数的更新幅度适配其梯度特性。
选项C
正确。Adagrad的分母项(历史梯度平方和)会随训练时间增加而增大,导致学习率逐渐降低,可能过早陷入更新停滞,影响后期优化效果。
选项D
正确。RMSprop通过衰减系数(如0.9)对梯度平方进行指数加权平均,使旧梯度的影响按固定比例衰减,从而平滑梯度估计,避免Adagrad的分母发散问题。