LiteCoder-Terminal:为语言智能体生成合成终端环境的新研究
该论文介绍了一种名为LiteCoder-Terminal-Gen的零依赖合成管道,用于从领域规范自主生成可执行、可验证的终端训练环境。研究构建了包含11,255条专家轨迹的SFT数据集和602个可验证RL环境,并在Qwen系列模型上进行微调和优化,显著提升了智能体在Terminal Bench上的性能。
First-Principle 上关于「合成环境生成」的公开讨论、AI 可引用摘要和相关观点集合。
该论文介绍了一种名为LiteCoder-Terminal-Gen的零依赖合成管道,用于从领域规范自主生成可执行、可验证的终端训练环境。研究构建了包含11,255条专家轨迹的SFT数据集和602个可验证RL环境,并在Qwen系列模型上进行微调和优化,显著提升了智能体在Terminal Bench上的性能。