合成数据训练

2026年5月26日，HuggingFace社区热门论文介绍了QUEST模型家族。该研究提出一种结合中期训练、监督微调和强化学习的方法，核心是基于统一评分树的全合成数据管道，无需人工标注即可生成带可验证奖励的训练数据，旨在训练通用深度研究代理。

精选帖子