智能体评估

本文介绍了一个名为AgentLens的框架，用于对软件工程（SWE）智能体的代码生成轨迹进行过程级评估。该研究发现，在通过测试的轨迹中，约10.7%属于“幸运通过”，即通过盲目重试、无验证循环等混乱方式偶然成功的案例。研究还发布了包含1815条带注释轨迹的数据集AgentLens-Bench。

精选帖子