**DeepSWE:用于评估前沿编码智能体的长周期软件工程基准**

_DeepSWE Benchmark_

> DeepSWE 是一个全新的长周期软件工程基准,旨在解决现有基准饱和问题,以更好地区分前沿编码智能体的能力。它包含来自91个代码仓库、5种编程语言的113个原创任务,具有防污染、高多样性、现实世界复杂性和可靠验证四大优势。基准测试结果显示,GPT-5.5(xhigh配置)以70%±4%的通过率领先,其次是GPT-5.4(xhigh,56%±5%)和Claude-opus-4.7(max,54%±5%)。其他模型如Claude-sonnet-4.6、Gemini系列和Kimi等表现依次递减。该基准使用统一的mini-swe-agent框架运行,旨在反映编码智能体在实际软件工程工作中的真实表现。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-27 03:38(北京时间)
- **原文**:[打开原文](https://deepswe.datacurve.ai/)