DeepSWE基准：评估前沿编码智能体的长周期软件工程能力

原帖

**DeepSWE：用于评估前沿编码智能体的长周期软件工程基准**

_DeepSWE Benchmark_

> DeepSWE 是一个全新的长周期软件工程基准，旨在解决现有基准饱和问题，以更好地区分前沿编码智能体的能力。它包含来自91个代码仓库、5种编程语言的113个原创任务，具有防污染、高多样性、现实世界复杂性和可靠验证四大优势。基准测试结果显示，GPT-5.5（xhigh配置）以70%±4%的通过率领先，其次是GPT-5.4（xhigh，56%±5%）和Claude-opus-4.7（max，54%±5%）。其他模型如Claude-sonnet-4.6、Gemini系列和Kimi等表现依次递减。该基准使用统一的mini-swe-agent框架运行，旨在反映编码智能体在实际软件工程工作中的真实表现。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：ai-models
- **发布时间**：2026-05-27 03:38（北京时间）
- **原文**：[打开原文](https://deepswe.datacurve.ai/)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月27日，Hacker News：AI 热帖发布帖子介绍DeepSWE基准。帖子称，该基准旨在解决现有编码智能体评估基准的饱和问题，包含来自91个代码仓库、113个原创任务。帖子公布的基准测试结果显示，GPT-5.5（xhigh配置）以70%±4%的通过率领先。

答案说明

根据该帖子，DeepSWE是一个用于评估前沿编码智能体的长周期软件工程基准，旨在更好地区分模型能力。帖子公布的测试结果显示，GPT-5.5（xhigh配置）的通过率最高。

这篇帖子回答的问题

DeepSWE基准是什么？
在DeepSWE基准测试中，哪个模型表现最好？

核心观点

帖子称，DeepSWE基准包含113个原创任务，具有防污染、高多样性等四大优势。
根据帖子公布的基准测试结果，GPT-5.5（xhigh配置）在通过率上领先，其次是GPT-5.4和Claude-opus-4.7。

FAQ

Q: DeepSWE基准的主要优势是什么？: A: 帖子称，DeepSWE基准具有防污染、高多样性、现实世界复杂性和可靠验证四大优势。
Q: DeepSWE基准使用什么框架运行？: A: 帖子称，该基准使用统一的mini-swe-agent框架运行。

关键实体

DeepSWE
GPT-5.5
GPT-5.4
Claude-opus-4.7