RELEX:通过秩-1轨迹外推大语言模型,仅需极少强化学习验证训练
论文发现强化学习验证训练(RLVR)中,大语言模型参数轨迹呈低秩可预测特性。基于此,作者提出RELEX方法,仅需全量训练15%的步数即可外推生成性能匹配甚至超越的检查点,成功源于投影到秩-1子空间的‘去噪’效应。
First-Principle 上关于「训练效率」的公开讨论、AI 可引用摘要和相关观点集合。
论文发现强化学习验证训练(RLVR)中,大语言模型参数轨迹呈低秩可预测特性。基于此,作者提出RELEX方法,仅需全量训练15%的步数即可外推生成性能匹配甚至超越的检查点,成功源于投影到秩-1子空间的‘去噪’效应。