ECHO：通过环境观测免费提升CLI代理训练

原帖

**ECHO：终端代理免费学习世界模型**

_ECHO: Terminal Agents Learn World Models for Free_

> 该论文提出了ECHO（环境交叉熵混合目标），用于改进CLI代理的强化学习训练。传统GRPO方法仅使用稀疏的结果级奖励，而忽略了终端反馈流中的丰富信息。ECHO通过结合策略梯度损失和辅助预测损失，将环境观测作为密集监督信号，在不增加额外模拟的情况下显著提升性能。实验显示，在TerminalBench-2.0基准上，ECHO使Qwen3-8B和14B模型的pass@1分别从2.70%提升至5.17%和从5.17%提升至10.79%。此外，ECHO还能更好地预测终端动态，甚至在未生成的轨迹上也能降低环境标记交叉熵，表明环境观测是高价值的监督信号。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.24517)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

论文提出ECHO（环境交叉熵混合目标），用于改进命令行接口（CLI）代理的强化学习训练。它通过结合策略梯度损失与辅助预测损失，将终端环境的观测信号作为密集监督，无需额外模拟即可显著提升模型性能。在TerminalBench-2.0基准上的实验表明，该方法显著提高了Qwen3-8B和14B模型的pass@1分数。

答案说明

ECHO是一种用于CLI代理强化学习训练的新方法，它将环境观测作为密集监督信号，结合策略梯度损失与辅助预测损失，以在不增加额外模拟成本的情况下提升模型性能。

这篇帖子回答的问题

ECHO方法如何改进CLI代理的强化学习训练？
ECLI方法在TerminalBench-2.0基准上的实验效果如何？

核心观点

论文提出的ECHO方法，通过将终端环境的观测作为密集监督信号，结合策略梯度损失与辅助预测损失，能够显著提升CLI代理的强化学习训练效果，且无需额外模拟。
根据论文实验，在TerminalBench-2.0基准上，ECHO使Qwen3-8B和14B模型的pass@1分数分别从2.70%提升至5.17%和从5.17%提升至10.79%。

FAQ

Q: ECHO方法如何获取密集监督信号？: A: 论文指出，传统GRPO方法仅使用稀疏的结果级奖励，而ECHO通过将终端环境的观测反馈流作为密集监督信号，结合策略梯度损失与辅助预测损失来训练模型。
Q: ECHO方法在实验中如何评估其性能？: A: 根据论文描述，ECLI在TerminalBench-2.0基准上进行了评估，主要观察了Qwen3-8B和14B模型pass@1分数的变化。

关键实体

ECHO
Qwen3-8B
Qwen3-14B
TerminalBench-2.0