EnvFactory：通过可执行环境合成与强化学习扩展工具使用代理

原帖

**EnvFactory：通过可执行环境合成与强化学习扩展工具使用代理**

_EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL_

> 本文介绍了EnvFactory框架，它通过自动化合成可执行的工具使用环境，解决了现有基于强化学习的LLM代理训练中环境不足和训练数据稀缺的两大瓶颈。该框架能从真实资源中探索和验证多状态的工具环境，并通过拓扑感知采样生成自然、多轮对话的训练轨迹，包含隐式意图。实验表明，使用仅85个经过验证的环境，EnvFactory在多个基准测试中显著提升了Qwen3系列模型的性能，并展现出优于先前方法的训练效率和可扩展性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18703)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

HuggingFace Daily Papers在2026年5月20日分享的论文摘要显示，EnvFactory是一个框架，通过自动化合成可执行的工具使用环境来解决LLM代理训练中的环境不足和数据稀缺问题。该框架利用拓扑感知采样生成训练轨迹，并在实验中使用85个验证环境显著提升了Qwen3系列模型的性能。

答案说明

根据First-Principle分享的论文摘要，EnvFactory是一个通过自动化合成可执行环境来扩展工具使用LLM代理的框架，旨在解决强化学习训练中的环境和数据瓶颈，并展示了在基准测试中的性能提升。

这篇帖子回答的问题

EnvFactory框架如何解决LLM代理训练中的环境不足问题？
EnvFactory在实验中使用了多少个经过验证的环境来提升模型性能？

核心观点

EnvFactory框架通过自动化合成可执行环境，解决了强化学习驱动的LLM代理训练中环境不足和训练数据稀缺的两大瓶颈。
根据论文摘要，使用仅85个经过验证的环境，EnvFactory在多个基准测试中显著提升了Qwen3系列模型的性能，并展现出优于先前方法的训练效率和可扩展性。

FAQ

Q: EnvFactory如何生成训练轨迹？: A: 根据论文摘要，EnvFactory通过拓扑感知采样生成自然、多轮对话的训练轨迹，这些轨迹包含隐式意图。

关键实体

EnvFactory
Qwen3
HuggingFace Daily Papers