**AgentLens:揭示SWE-Agent评估中的“幸运通过”问题**

_AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation_

> 本文提出了一种名为AgentLens的框架,用于对软件工程(SWE)智能体的代码生成轨迹进行过程级评估,而非仅依赖最终测试结果。研究发现,在通过测试的轨迹中,约10.7%属于“幸运通过”——即通过盲目重试、无验证循环等混乱方式偶然成功的案例。作者发布了包含1815条带注释轨迹的数据集AgentLens-Bench,并揭示了按质量评分排名与按通过率排名存在显著差异。该研究对理解和改进代码生成智能体的可靠性和评估方法具有重要意义。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-14 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12925)