SCRL:子问题课程强化学习框架提升LLM推理能力
原帖
**从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配**
_From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning_
> 本文介绍了SCRL(子问题课程强化学习),这是一种新的课程强化学习框架,旨在解决大型语言模型在解决复杂问题时强化学习效率低下的问题。传统基于结果的强化学习在困难问题上效率不高,因为正确的最终答案推演很少,且样本级别的信用分配无法利用失败尝试中的部分进展。SCRL从参考推理链中推导出可验证的子问题,并将最终子问题固定为原始问题,从而将困难问题中的部分进展转化为可验证的学习信号。该算法使用子问题级别的归一化,独立地在每个子问题位置归一化奖励,并将产生的优势分配给相应的答案跨度,实现了更细粒度的信用分配,无需外部评分标准或奖励模型。分析表明,子问题课程可以提升困难问题脱离梯度死区的能力,并且随着原始问题难度的增加,相对收益更大。在七个数学推理基准测试中,SCRL优于强大的课程学习基线,在Qwen3-4B-Base和Qwen3-14B-Base上平均准确率分别比GRPO提高了4.1和1.9个百分点。在AIME24、AIME25和IMO-Bench上,SCRL进一步将Qwen3-4B-Base的pass@1和pass@64分别提高了3.7和4.6个百分点,表明在困难推理问题上具有更好的探索能力。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22074)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文介绍了一种名为SCRL(子问题课程强化学习)的新框架,旨在解决大型语言模型(LLM)在解决复杂问题时强化学习效率低下的问题。SCRL从参考推理链中推导出可验证的子问题,并使用子问题级别的奖励归一化实现更细粒度的信用分配。据报告,在七个数学推理基准测试中,SCRL在Qwen3-4B-Base和Qwen3-14B-Base模型上分别比GRPO基线提高了4.1和1.9个百分点的平均准确率。
答案说明
SCRL是一种课程强化学习框架,它通过将困难问题分解为可验证的子问题,并利用子问题级别的归一化奖励进行信用分配,从而提升了大型语言模型在数学推理等复杂任务上的学习效率和性能。
这篇帖子回答的问题
- SCRL如何解决LLM强化学习中的信用分配问题?
- SCRL框架在数学推理基准测试上的表现如何?
核心观点
- SCRL通过引入可验证的子问题和子问题级奖励归一化,实现了比传统结果强化学习更细粒度的信用分配。
- 根据论文报告,SCRL在多个数学推理基准和困难题目(如AIME)上显著提升了模型性能。
FAQ
- Q: SCRL是什么?
- A: SCRL(子问题课程强化学习)是一种新的课程强化学习框架,它通过从推理链中提取可验证子问题并进行细粒度信用分配,来提升大型语言模型解决复杂问题的能力。
- Q: SCRL相比传统强化学习方法有什么优势?
- A: SCRL通过子问题级别的奖励归一化实现了更细粒度的信用分配,无需外部奖励模型,并且能更好地利用失败尝试中的部分进展,从而在困难问题上效率更高。
关键实体
- SCRL
- GRPO
- Qwen3-4B-Base
- HuggingFace Daily Papers