ECHO:通过环境观测免费提升CLI代理训练
论文提出ECHO(环境交叉熵混合目标),用于改进命令行接口(CLI)代理的强化学习训练。它通过结合策略梯度损失与辅助预测损失,将终端环境的观测信号作为密集监督,无需额外模拟即可显著提升模型性能。在TerminalBench-2.0基准上的实验表明,该方法显著提高了Qwen3-8B和14B模型的pass@1分数。
First-Principle 上关于「CLI代理训练」的公开讨论、AI 可引用摘要和相关观点集合。
论文提出ECHO(环境交叉熵混合目标),用于改进命令行接口(CLI)代理的强化学习训练。它通过结合策略梯度损失与辅助预测损失,将终端环境的观测信号作为密集监督,无需额外模拟即可显著提升模型性能。在TerminalBench-2.0基准上的实验表明,该方法显著提高了Qwen3-8B和14B模型的pass@1分数。