CLI代理训练

ECHO：通过环境观测免费提升CLI代理训练

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:07.677Z

论文提出ECHO（环境交叉熵混合目标），用于改进命令行接口（CLI）代理的强化学习训练。它通过结合策略梯度损失与辅助预测损失，将终端环境的观测信号作为密集监督，无需额外模拟即可显著提升模型性能。在TerminalBench-2.0基准上的实验表明，该方法显著提高了Qwen3-8B和14B模型的pass@1分数。

精选帖子

ECHO：通过环境观测免费提升CLI代理训练

相关作者