李想谈到了超级对齐和RLHF(有人类反馈的强化学习),我估计很多人听不懂,简单做个解释,其实这两个词是有关联的。
为什么要做RLHF?
传统强化学习依赖预设的奖励函数,而 RLHF 通过人类对模型输出的评分、排序或标注来构建奖励模型(Reward Model),从而指导模型优化方向。
RLHF可以对齐人类意图,让模型输出的内容更安全、有用、无害,减少偏见、错误或有害信息。
那什么叫对齐?
就是让模型对齐人类的伦理观、价值观、遵守法律、人类的规则、人类的感受等等。让模型更可控。
李想谈到了超级对齐和RLHF(有人类反馈的强化学习),我估计很多人听不懂,简单做个解释,其实这两个词是有关联的。
为什么要做RLHF?
传统强化学习依赖预设的奖励函数,而 RLHF 通过人类对模型输出的评分、排序或标注来构建奖励模型(Reward Model),从而指导模型优化方向。
RLHF可以对齐人类意图,让模型输出的内容更安全、有用、无害,减少偏见、错误或有害信息。
那什么叫对齐?
就是让模型对齐人类的伦理观、价值观、遵守法律、人类的规则、人类的感受等等。让模型更可控。