题目
以下哪种方法用于对齐智能体行为与人类价值观?()A. 对抗生成网络(GAN)B. 主成分分析(PCA)C. 随机梯度下降(SGD)D. 强化学习人类反馈(RLHF)
以下哪种方法用于对齐智能体行为与人类价值观?()
A. 对抗生成网络(GAN)
B. 主成分分析(PCA)
C. 随机梯度下降(SGD)
D. 强化学习人类反馈(RLHF)
题目解答
答案
D. 强化学习人类反馈(RLHF)
A. 对抗生成网络(GAN)
B. 主成分分析(PCA)
C. 随机梯度下降(SGD)
D. 强化学习人类反馈(RLHF)