**ECHO:终端代理免费学习世界模型**

_ECHO: Terminal Agents Learn World Models for Free_

> 该论文提出了ECHO(环境交叉熵混合目标),用于改进CLI代理的强化学习训练。传统GRPO方法仅使用稀疏的结果级奖励,而忽略了终端反馈流中的丰富信息。ECHO通过结合策略梯度损失和辅助预测损失,将环境观测作为密集监督信号,在不增加额外模拟的情况下显著提升性能。实验显示,在TerminalBench-2.0基准上,ECHO使Qwen3-8B和14B模型的pass@1分别从2.70%提升至5.17%和从5.17%提升至10.79%。此外,ECHO还能更好地预测终端动态,甚至在未生成的轨迹上也能降低环境标记交叉熵,表明环境观测是高价值的监督信号。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.24517)