题目

以下关于常用优化器的说法中，正确的是哪几项?A. 采用动量优化器时，每一个参数都用相同的学习率进行更新，但动量系数会随着迭代的进行而得到调整。B. Adagrad的思想是为不同的参数设置不同的学习率。C. Adagrad优化器的缺点之一是容易过早结束参数更新操作。D. RMSprop优化器通过引入一个衰减系数，让梯度每回合都衰减一定的比例。

以下关于常用优化器的说法中，正确的是哪几项?

A. 采用动量优化器时，每一个参数都用相同的学习率进行更新，但动量系数会随着迭代的进行而得到调整。

B. Adagrad的思想是为不同的参数设置不同的学习率。

C. Adagrad优化器的缺点之一是容易过早结束参数更新操作。

D. RMSprop优化器通过引入一个衰减系数，让梯度每回合都衰减一定的比例。

题目解答

BCD
B. Adagrad的思想是为不同的参数设置不同的学习率。
C. Adagrad优化器的缺点之一是容易过早结束参数更新操作。
D. RMSprop优化器通过引入一个衰减系数，让梯度每回合都衰减一定的比例。

本题考查对常用优化器（动量优化器、Adagrad、RMSprop）核心思想和特点的理解。关键点在于：

需注意区分不同优化器的参数调整逻辑和实际效果。

选项A

错误。动量优化器中，所有参数使用相同的学习率，而动量系数（如0.9）是预先设定的超参数，不会随迭代自动调整，仅用于加速收敛。

选项B

正确。Adagrad的核心思想是为每个参数单独维护学习率，通过累积历史梯度平方的平方根动态调整更新幅度，确保不同参数的更新幅度适配其梯度特性。

选项C

正确。Adagrad的分母项（历史梯度平方和）会随训练时间增加而增大，导致学习率逐渐降低，可能过早陷入更新停滞，影响后期优化效果。

选项D

正确。RMSprop通过衰减系数（如0.9）对梯度平方进行指数加权平均，使旧梯度的影响按固定比例衰减，从而平滑梯度估计，避免Adagrad的分母发散问题。