RELEX：通过秩-1轨迹外推大语言模型，仅需极少强化学习验证训练

原帖

**RELEX：仅需极少强化学习验证训练，通过秩-1轨迹外推大语言模型**

_You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories_

> 研究发现，用于提升大语言模型推理能力的强化学习验证训练（RLVR）过程中，参数轨迹呈现出极低秩且高度可预测的特性。绝大多数下游性能提升可由参数变化的秩-1近似捕获，且该投影的幅度与训练步数近似线性关系。基于此，作者提出了一种简单高效的方法RELEX（强化学习外推法），该方法通过短时间的观察窗口估计秩-1子空间，并利用线性回归外推未来检查点，无需学习额外模型。实验表明，RELEX仅需全量RLVR训练15%的步数，就能生成性能匹配甚至超越的检查点，并能远超观察窗口（如观察50步后外推至1000步）进行零成本预测。消融分析证实了RELEX的极简充分性：增加子空间秩或使用非线性建模均无法进一步提升外推效果。其成功源于'去噪'效应，即通过投影到秩-1子空间，模型丢弃了可能降低性能的随机优化噪声。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.21468)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

论文发现强化学习验证训练（RLVR）中，大语言模型参数轨迹呈低秩可预测特性。基于此，作者提出RELEX方法，仅需全量训练15%的步数即可外推生成性能匹配甚至超越的检查点，成功源于投影到秩-1子空间的‘去噪’效应。

答案说明

论文提出RELEX方法，利用RLVR训练中参数轨迹的秩-1可预测性，通过短时观察窗口和线性回归外推未来模型检查点，显著减少所需训练步数。

这篇帖子回答的问题

RELEX方法如何减少大语言模型强化学习验证训练的步数？
RELEX方法成功的核心机制是什么？

核心观点

论文研究发现，用于提升LLM推理能力的RLVR训练中，参数轨迹呈现极低秩且高度可预测的特性。
消融分析证实RELEX的极简充分性：增加子空间秩或使用非线性建模均无法进一步提升外推效果。

FAQ

Q: RELEX方法的效率提升具体体现在哪些方面？: A: 论文表明，RELEX仅需全量RLVR训练15%的步数，即可外推生成性能匹配甚至超越的检查点，并且能进行远超观察窗口的零成本预测。

关键实体

RELEX
强化学习验证训练（RLVR）

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题