**LiteCoder-Terminal:通过合成可执行终端环境扩展语言智能体学习**

_LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents_

> 本研究针对语言智能体在终端环境中的训练难题,提出了一种名为LiteCoder-Terminal-Gen的零依赖合成管道,能够自主从领域规范生成可执行且可验证的终端训练环境。基于此构建了两个大规模资源:包含10个领域、11,255条专家轨迹的SFT数据集,以及602个用于轨迹级偏好优化的可验证RL环境。在Qwen系列模型上进行监督微调后,智能体性能显著提升,其中32B模型在Terminal Bench 1.0、2.0和Pro测试中分别取得29.06%、18.54%和34.00%的pass@1成绩。进一步应用直接多轮偏好优化(DMPO)可获得额外性能增益。结果证明,全合成的可执行环境为掌握复杂的真实命令行工作流提供了可扩展且可验证的监督信号。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29559)