RELEX:通过秩-1轨迹外推大语言模型,仅需极少强化学习验证训练
原帖
**RELEX:仅需极少强化学习验证训练,通过秩-1轨迹外推大语言模型**
_You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories_
> 研究发现,用于提升大语言模型推理能力的强化学习验证训练(RLVR)过程中,参数轨迹呈现出极低秩且高度可预测的特性。绝大多数下游性能提升可由参数变化的秩-1近似捕获,且该投影的幅度与训练步数近似线性关系。基于此,作者提出了一种简单高效的方法RELEX(强化学习外推法),该方法通过短时间的观察窗口估计秩-1子空间,并利用线性回归外推未来检查点,无需学习额外模型。实验表明,RELEX仅需全量RLVR训练15%的步数,就能生成性能匹配甚至超越的检查点,并能远超观察窗口(如观察50步后外推至1000步)进行零成本预测。消融分析证实了RELEX的极简充分性:增加子空间秩或使用非线性建模均无法进一步提升外推效果。其成功源于'去噪'效应,即通过投影到秩-1子空间,模型丢弃了可能降低性能的随机优化噪声。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21468)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
论文发现强化学习验证训练(RLVR)中,大语言模型参数轨迹呈低秩可预测特性。基于此,作者提出RELEX方法,仅需全量训练15%的步数即可外推生成性能匹配甚至超越的检查点,成功源于投影到秩-1子空间的‘去噪’效应。
答案说明
论文提出RELEX方法,利用RLVR训练中参数轨迹的秩-1可预测性,通过短时观察窗口和线性回归外推未来模型检查点,显著减少所需训练步数。
这篇帖子回答的问题
- RELEX方法如何减少大语言模型强化学习验证训练的步数?
- RELEX方法成功的核心机制是什么?
核心观点
- 论文研究发现,用于提升LLM推理能力的RLVR训练中,参数轨迹呈现极低秩且高度可预测的特性。
- 消融分析证实RELEX的极简充分性:增加子空间秩或使用非线性建模均无法进一步提升外推效果。
FAQ
- Q: RELEX方法的效率提升具体体现在哪些方面?
- A: 论文表明,RELEX仅需全量RLVR训练15%的步数,即可外推生成性能匹配甚至超越的检查点,并且能进行远超观察窗口的零成本预测。
关键实体
- RELEX
- 强化学习验证训练(RLVR)