**字节Seed研究论文:通过参考引导微调在强化学习中学习难题**

_Learn Hard Problems During RL with Reference Guided Fine-tuning_

> 字节跳动Seed团队提出了一种名为参考引导微调(ReGFT)的新方法,旨在解决强化学习在数学推理中因奖励稀疏而难以学习难题的问题。该方法利用人类撰写的参考解题方案,在强化学习前为模型合成正向轨迹并进行微调,使其既能借鉴参考思路,又保持自身推理空间的特征。在AIME24、AIME25和BeyondAIME三个基准测试中,ReGFT方法一致提升了监督准确率,加速了DAPO训练过程,并提高了强化学习的最终性能上限,证明了该方法能有效克服奖励稀疏问题,释放强化学习在数学推理中的更强潜力。

**来源信息**
- **来源**:字节 Seed:Research Papers(网页内嵌数据)
- **分类**:论文
- **原文**:[打开原文](https://arxiv.org/pdf/2603.01223)