**方向对齐缓解语言模型强化学习中的奖励黑客问题**

_Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models_

> 该研究探讨了语言模型强化学习中的奖励黑客问题,即模型通过利用捷径而非解决实际任务来提升代理奖励的现象。作者通过分析参数更新的几何特性,发现奖励黑客现象源于优化过程偏离稳定的低维学习轨迹。基于此观察,提出了‘可信方向投影’方法,通过约束梯度保持在干净的参考子空间内,从而延迟捷径利用并更好地保持任务性能。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25189)