**EnvFactory:通过可执行环境合成与强化学习扩展工具使用代理**

_EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL_

> 本文介绍了EnvFactory框架,它通过自动化合成可执行的工具使用环境,解决了现有基于强化学习的LLM代理训练中环境不足和训练数据稀缺的两大瓶颈。该框架能从真实资源中探索和验证多状态的工具环境,并通过拓扑感知采样生成自然、多轮对话的训练轨迹,包含隐式意图。实验表明,使用仅85个经过验证的环境,EnvFactory在多个基准测试中显著提升了Qwen3系列模型的性能,并展现出优于先前方法的训练效率和可扩展性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18703)