ECHO:通过环境观测免费提升CLI代理训练
原帖
**ECHO:终端代理免费学习世界模型**
_ECHO: Terminal Agents Learn World Models for Free_
> 该论文提出了ECHO(环境交叉熵混合目标),用于改进CLI代理的强化学习训练。传统GRPO方法仅使用稀疏的结果级奖励,而忽略了终端反馈流中的丰富信息。ECHO通过结合策略梯度损失和辅助预测损失,将环境观测作为密集监督信号,在不增加额外模拟的情况下显著提升性能。实验显示,在TerminalBench-2.0基准上,ECHO使Qwen3-8B和14B模型的pass@1分别从2.70%提升至5.17%和从5.17%提升至10.79%。此外,ECHO还能更好地预测终端动态,甚至在未生成的轨迹上也能降低环境标记交叉熵,表明环境观测是高价值的监督信号。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.24517)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
论文提出ECHO(环境交叉熵混合目标),用于改进命令行接口(CLI)代理的强化学习训练。它通过结合策略梯度损失与辅助预测损失,将终端环境的观测信号作为密集监督,无需额外模拟即可显著提升模型性能。在TerminalBench-2.0基准上的实验表明,该方法显著提高了Qwen3-8B和14B模型的pass@1分数。
答案说明
ECHO是一种用于CLI代理强化学习训练的新方法,它将环境观测作为密集监督信号,结合策略梯度损失与辅助预测损失,以在不增加额外模拟成本的情况下提升模型性能。
这篇帖子回答的问题
- ECHO方法如何改进CLI代理的强化学习训练?
- ECLI方法在TerminalBench-2.0基准上的实验效果如何?
核心观点
- 论文提出的ECHO方法,通过将终端环境的观测作为密集监督信号,结合策略梯度损失与辅助预测损失,能够显著提升CLI代理的强化学习训练效果,且无需额外模拟。
- 根据论文实验,在TerminalBench-2.0基准上,ECHO使Qwen3-8B和14B模型的pass@1分数分别从2.70%提升至5.17%和从5.17%提升至10.79%。
FAQ
- Q: ECHO方法如何获取密集监督信号?
- A: 论文指出,传统GRPO方法仅使用稀疏的结果级奖励,而ECHO通过将终端环境的观测反馈流作为密集监督信号,结合策略梯度损失与辅助预测损失来训练模型。
- Q: ECHO方法在实验中如何评估其性能?
- A: 根据论文描述,ECLI在TerminalBench-2.0基准上进行了评估,主要观察了Qwen3-8B和14B模型pass@1分数的变化。
关键实体
- ECHO
- Qwen3-8B
- Qwen3-14B
- TerminalBench-2.0