LiteCoder-Terminal:为语言智能体生成合成终端环境的新研究
原帖
**LiteCoder-Terminal:通过合成可执行终端环境扩展语言智能体学习**
_LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents_
> 本研究针对语言智能体在终端环境中的训练难题,提出了一种名为LiteCoder-Terminal-Gen的零依赖合成管道,能够自主从领域规范生成可执行且可验证的终端训练环境。基于此构建了两个大规模资源:包含10个领域、11,255条专家轨迹的SFT数据集,以及602个用于轨迹级偏好优化的可验证RL环境。在Qwen系列模型上进行监督微调后,智能体性能显著提升,其中32B模型在Terminal Bench 1.0、2.0和Pro测试中分别取得29.06%、18.54%和34.00%的pass@1成绩。进一步应用直接多轮偏好优化(DMPO)可获得额外性能增益。结果证明,全合成的可执行环境为掌握复杂的真实命令行工作流提供了可扩展且可验证的监督信号。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29559)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文介绍了一种名为LiteCoder-Terminal-Gen的零依赖合成管道,用于从领域规范自主生成可执行、可验证的终端训练环境。研究构建了包含11,255条专家轨迹的SFT数据集和602个可验证RL环境,并在Qwen系列模型上进行微调和优化,显著提升了智能体在Terminal Bench上的性能。
答案说明
LiteCoder-Terminal提出了一种零依赖的合成管道,能够生成用于训练语言智能体的可执行终端环境,并基于此构建了大规模数据集和可验证环境,在模型微调后取得了性能提升。
这篇帖子回答的问题
- LiteCoder-Terminal-Gen管道有什么作用?
- 在Qwen模型上微调后,智能体在Terminal Bench上的性能如何?
核心观点
- 研究提出了一种零依赖的合成管道,可以自主从领域规范生成可执行的终端训练环境。
- 基于合成环境的监督微调和偏好优化,使得模型在多个基准测试中的性能得到显著提升。
FAQ
- Q: LiteCoder-Terminal-Gen是什么?
- A: 它是一种零依赖的合成管道,能够自主从领域规范生成可执行且可验证的终端训练环境。
- Q: 该研究取得了哪些主要成果?
- A: 该研究构建了大规模SFT数据集和可验证RL环境,并在模型上微调后,在Terminal Bench基准测试中取得了显著的性能提升。
关键实体
- LiteCoder-Terminal-Gen
- Qwen系列模型
- Terminal Bench测试