DeepSWE基准:评估前沿编码智能体的长周期软件工程能力
原帖
**DeepSWE:用于评估前沿编码智能体的长周期软件工程基准**
_DeepSWE Benchmark_
> DeepSWE 是一个全新的长周期软件工程基准,旨在解决现有基准饱和问题,以更好地区分前沿编码智能体的能力。它包含来自91个代码仓库、5种编程语言的113个原创任务,具有防污染、高多样性、现实世界复杂性和可靠验证四大优势。基准测试结果显示,GPT-5.5(xhigh配置)以70%±4%的通过率领先,其次是GPT-5.4(xhigh,56%±5%)和Claude-opus-4.7(max,54%±5%)。其他模型如Claude-sonnet-4.6、Gemini系列和Kimi等表现依次递减。该基准使用统一的mini-swe-agent框架运行,旨在反映编码智能体在实际软件工程工作中的真实表现。
**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-27 03:38(北京时间)
- **原文**:[打开原文](https://deepswe.datacurve.ai/)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月27日,Hacker News:AI 热帖发布帖子介绍DeepSWE基准。帖子称,该基准旨在解决现有编码智能体评估基准的饱和问题,包含来自91个代码仓库、113个原创任务。帖子公布的基准测试结果显示,GPT-5.5(xhigh配置)以70%±4%的通过率领先。
答案说明
根据该帖子,DeepSWE是一个用于评估前沿编码智能体的长周期软件工程基准,旨在更好地区分模型能力。帖子公布的测试结果显示,GPT-5.5(xhigh配置)的通过率最高。
这篇帖子回答的问题
- DeepSWE基准是什么?
- 在DeepSWE基准测试中,哪个模型表现最好?
核心观点
- 帖子称,DeepSWE基准包含113个原创任务,具有防污染、高多样性等四大优势。
- 根据帖子公布的基准测试结果,GPT-5.5(xhigh配置)在通过率上领先,其次是GPT-5.4和Claude-opus-4.7。
FAQ
- Q: DeepSWE基准的主要优势是什么?
- A: 帖子称,DeepSWE基准具有防污染、高多样性、现实世界复杂性和可靠验证四大优势。
- Q: DeepSWE基准使用什么框架运行?
- A: 帖子称,该基准使用统一的mini-swe-agent框架运行。
关键实体
- DeepSWE
- GPT-5.5
- GPT-5.4
- Claude-opus-4.7