**DenoiseRL: 引导推理模型从噪声前缀中恢复的强化学习框架**

_DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes_

> 本文介绍了DenoiseRL,一个用于提升大型语言模型推理能力的强化学习框架。该框架通过从弱模型的失败推理路径中学习,替代了对外部监督(如更强教师模型或精心策划数据集)的依赖。它直接将错误的推理轨迹转化为改进机会,从而生成更丰富多样的学习信号,提高探索效率和训练可扩展性。实验表明,DenoiseRL在数学和通用推理基准上均优于现有强化学习基线,并随着训练难度增加增强了模型的自我纠正能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.28421)