**SaaSBench: 探索编码代理在长期企业SaaS工程中的边界**

_SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering_

> 本文介绍了SaaSBench,这是首个针对企业SaaS工程中AI代理能力边界设计的基准测试。该基准包含30个跨6个SaaS领域的复杂任务,涵盖8种编程语言、6个数据库和13个框架,以模拟真实世界的软件异构性。实验表明,当前先进代理的主要瓶颈并非生成孤立的代码逻辑,而是成功配置和集成多组件系统。超过95%的任务失败发生在代理触及深层业务逻辑之前,模型常因过度自信或在基础系统设置阶段过早停止,或陷入无效的调试循环。该研究旨在推动可靠、系统级编码代理的发展。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17526)