GoLongRL:面向能力的长上下文强化学习与多任务对齐
原帖
**GoLongRL:面向能力的长上下文强化学习与多任务对齐**
_GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment_
> GoLongRL提出了一种完全开源的、面向能力的长上下文强化学习后训练方法。它通过构建一个包含23K样本的多样化数据集,覆盖9种任务类型,并引入TMN-Reweight技术来优化异构奖励下的多任务训练。实验表明,仅使用该开源数据集就能超越闭源的QwenLong-L1.5,并且基于此训练的Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1和Qwen3-235B-A22B-Thinking等更大规模模型,展示了广泛覆盖和奖励多样性对提升长上下文能力的重要性。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19577)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月20日,HuggingFace Daily Papers社区热门论文介绍GoLongRL,这是一种完全开源的长上下文强化学习后训练方法,通过构建23K样本数据集和TMN-Reweight技术优化多任务训练,使Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1等更大规模模型。
答案说明
GoLongRL是一种开源的长上下文强化学习后训练方法,它通过构建覆盖9种任务类型的23K样本多样化数据集,并引入TMN-Reweight技术优化异构奖励下的多任务训练。据论文实验,使用该方法训练的Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1和Qwen3-235B-A22B-Thinking等更大规模模型。
这篇帖子回答的问题
- GoLongRL是什么?
- GoLongRL如何提升模型的长上下文能力?
核心观点
- GoLongRL是一种完全开源的长上下文强化学习后训练方法,通过构建覆盖9种任务类型的23K样本多样化数据集,并引入TMN-Reweight技术优化异构奖励下的多任务训练。
- 据论文实验,使用GoLongRL方法训练的Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1和Qwen3-235B-A22B-Thinking等更大规模模型。
FAQ
- Q: GoLongRL方法使用了多大规模的数据集?
- A: 据论文描述,GoLongRL构建了一个包含23K样本的多样化数据集,覆盖9种任务类型。
- Q: GoLongRL方法训练的模型在哪些方面展示了性能?
- A: 据论文实验,使用GoLongRL方法训练的Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1和Qwen3-235B-A22B-Thinking等更大规模模型。
关键实体
- GoLongRL
- TMN-Reweight
- Qwen3-30B-A3B
- DeepSeek-R1