HuggingFace热门论文:QUEST模型家族发布,仅用合成任务训练前沿深度研究代理
原帖
**QUEST:使用全合成任务训练前沿深度研究代理**
_QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks_
> HuggingFace 社区热门论文发布了 QUEST 模型家族(2B 至 35B 参数),旨在作为通用深度研究代理处理多样化的长周期搜索任务。研究提出一种结合中期训练、监督微调和强化学习的训练方法,核心是基于统一评分树的数据合成管道,无需人工标注即可生成带可验证奖励的训练数据。QUEST 内置上下文管理机制,支持长周期推理和知识合成,仅使用 8K 合成任务即在八个深度研究基准测试中达到或超越前沿闭源代理的性能,并公开了模型、数据和训练脚本。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.24218)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月26日,HuggingFace社区热门论文介绍了QUEST模型家族。该研究提出一种结合中期训练、监督微调和强化学习的方法,核心是基于统一评分树的全合成数据管道,无需人工标注即可生成带可验证奖励的训练数据,旨在训练通用深度研究代理。
答案说明
根据First-Principle转载的HuggingFace Daily Papers,QUEST是一种旨在作为通用深度研究代理的模型家族。其训练方法创新点在于使用基于统一评分树的全合成数据管道来生成带可验证奖励的训练数据,并结合中期训练、监督微调和强化学习。据文章称,QUEST仅使用8K合成任务即在八个深度研究基准测试中达到或超越了前沿闭源代理的性能。
这篇帖子回答的问题
- 根据文章,QUEST模型的训练数据是如何生成的?
- 文章称QUEST模型在性能上与前沿闭源代理相比如何?
核心观点
- 据文章介绍,QUEST模型家族(2B至35B参数)旨在作为通用深度研究代理,处理多样化的长周期搜索任务,并内置了上下文管理机制。
- 根据文章,QUEST的训练数据合成管道基于统一评分树,无需人工标注,这是其训练方法的核心创新。
FAQ
- Q: 根据文章,QUEST模型的训练方法包含哪些关键阶段?
- A: 文章指出,其训练方法结合了中期训练、监督微调和强化学习。
- Q: 根据文章,QUEST模型在哪些方面表现突出?
- A: 文章称,QUEST内置了上下文管理机制,支持长周期推理和知识合成,并且仅使用8K合成任务就在八个深度研究基准测试中达到了或超越了前沿闭源代理的性能。
关键实体
- QUEST
- HuggingFace Daily Papers