AgentLens:揭示SWE-Agent评估中的“幸运通过”问题
本文介绍了一个名为AgentLens的框架,用于对软件工程(SWE)智能体的代码生成轨迹进行过程级评估。该研究发现,在通过测试的轨迹中,约10.7%属于“幸运通过”,即通过盲目重试、无验证循环等混乱方式偶然成功的案例。研究还发布了包含1815条带注释轨迹的数据集AgentLens-Bench。
First-Principle 上关于「智能体评估」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了一个名为AgentLens的框架,用于对软件工程(SWE)智能体的代码生成轨迹进行过程级评估。该研究发现,在通过测试的轨迹中,约10.7%属于“幸运通过”,即通过盲目重试、无验证循环等混乱方式偶然成功的案例。研究还发布了包含1815条带注释轨迹的数据集AgentLens-Bench。