多任务对齐

GoLongRL：面向能力的长上下文强化学习与多任务对齐

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:17.067Z

2026年5月20日，HuggingFace Daily Papers社区热门论文介绍GoLongRL，这是一种完全开源的长上下文强化学习后训练方法，通过构建23K样本数据集和TMN-Reweight技术优化多任务训练，使Qwen3-30B-A3B模型在长上下文性能上可媲美DeepSeek-R1等更大规模模型。

精选帖子

GoLongRL：面向能力的长上下文强化学习与多任务对齐

相关作者