**从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配**

_From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning_

> 本文介绍了SCRL(子问题课程强化学习),这是一种新的课程强化学习框架,旨在解决大型语言模型在解决复杂问题时强化学习效率低下的问题。传统基于结果的强化学习在困难问题上效率不高,因为正确的最终答案推演很少,且样本级别的信用分配无法利用失败尝试中的部分进展。SCRL从参考推理链中推导出可验证的子问题,并将最终子问题固定为原始问题,从而将困难问题中的部分进展转化为可验证的学习信号。该算法使用子问题级别的归一化,独立地在每个子问题位置归一化奖励,并将产生的优势分配给相应的答案跨度,实现了更细粒度的信用分配,无需外部评分标准或奖励模型。分析表明,子问题课程可以提升困难问题脱离梯度死区的能力,并且随着原始问题难度的增加,相对收益更大。在七个数学推理基准测试中,SCRL优于强大的课程学习基线,在Qwen3-4B-Base和Qwen3-14B-Base上平均准确率分别比GRPO提高了4.1和1.9个百分点。在AIME24、AIME25和IMO-Bench上,SCRL进一步将Qwen3-4B-Base的pass@1和pass@64分别提高了3.7和4.6个百分点,表明在困难推理问题上具有更好的探索能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22074)