语言模型强化学习

2026年5月26日HuggingFace社区热门论文探讨语言模型强化学习中的奖励黑客问题，发现其源于优化过程偏离稳定学习轨迹，提出‘可信方向投影’方法通过约束梯度保持在干净参考子空间内来缓解该问题。

精选帖子