**GoLongRL:面向能力的长上下文强化学习与多任务对齐**

_GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment_

> GoLongRL提出了一种完全开源的、面向能力的长上下文强化学习后训练方法。它通过构建一个包含23K样本的多样化数据集,覆盖9种任务类型,并引入TMN-Reweight技术来优化异构奖励下的多任务训练。实验表明,仅使用该开源数据集就能超越闭源的QwenLong-L1.5,并且基于此训练的Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1和Qwen3-235B-A22B-Thinking等更大规模模型,展示了广泛覆盖和奖励多样性对提升长上下文能力的重要性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19577)