**RELEX:仅需极少强化学习验证训练,通过秩-1轨迹外推大语言模型**

_You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories_

> 研究发现,用于提升大语言模型推理能力的强化学习验证训练(RLVR)过程中,参数轨迹呈现出极低秩且高度可预测的特性。绝大多数下游性能提升可由参数变化的秩-1近似捕获,且该投影的幅度与训练步数近似线性关系。基于此,作者提出了一种简单高效的方法RELEX(强化学习外推法),该方法通过短时间的观察窗口估计秩-1子空间,并利用线性回归外推未来检查点,无需学习额外模型。实验表明,RELEX仅需全量RLVR训练15%的步数,就能生成性能匹配甚至超越的检查点,并能远超观察窗口(如观察50步后外推至1000步)进行零成本预测。消融分析证实了RELEX的极简充分性:增加子空间秩或使用非线性建模均无法进一步提升外推效果。其成功源于'去噪'效应,即通过投影到秩-1子空间,模型丢弃了可能降低性能的随机优化噪声。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21468)