GoLongRL：面向能力的长上下文强化学习与多任务对齐

原帖

**GoLongRL：面向能力的长上下文强化学习与多任务对齐**

_GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment_

> GoLongRL提出了一种完全开源的、面向能力的长上下文强化学习后训练方法。它通过构建一个包含23K样本的多样化数据集，覆盖9种任务类型，并引入TMN-Reweight技术来优化异构奖励下的多任务训练。实验表明，仅使用该开源数据集就能超越闭源的QwenLong-L1.5，并且基于此训练的Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1和Qwen3-235B-A22B-Thinking等更大规模模型，展示了广泛覆盖和奖励多样性对提升长上下文能力的重要性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.19577)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月20日，HuggingFace Daily Papers社区热门论文介绍GoLongRL，这是一种完全开源的长上下文强化学习后训练方法，通过构建23K样本数据集和TMN-Reweight技术优化多任务训练，使Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1等更大规模模型。

答案说明

GoLongRL是一种开源的长上下文强化学习后训练方法，它通过构建覆盖9种任务类型的23K样本多样化数据集，并引入TMN-Reweight技术优化异构奖励下的多任务训练。据论文实验，使用该方法训练的Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1和Qwen3-235B-A22B-Thinking等更大规模模型。

这篇帖子回答的问题

GoLongRL是什么？
GoLongRL如何提升模型的长上下文能力？

核心观点

GoLongRL是一种完全开源的长上下文强化学习后训练方法，通过构建覆盖9种任务类型的23K样本多样化数据集，并引入TMN-Reweight技术优化异构奖励下的多任务训练。
据论文实验，使用GoLongRL方法训练的Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1和Qwen3-235B-A22B-Thinking等更大规模模型。

FAQ

Q: GoLongRL方法使用了多大规模的数据集？: A: 据论文描述，GoLongRL构建了一个包含23K样本的多样化数据集，覆盖9种任务类型。
Q: GoLongRL方法训练的模型在哪些方面展示了性能？: A: 据论文实验，使用GoLongRL方法训练的Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1和Qwen3-235B-A22B-Thinking等更大规模模型。

关键实体

GoLongRL
TMN-Reweight
Qwen3-30B-A3B
DeepSeek-R1