**从可运行到可交付:基于多智能体测试驱动开发的需求驱动全栈Web应用生成**

_From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements_

> 该研究针对当前编码智能体生成Web应用时功能需求满足率低(超70%失败)的问题,提出了TDDev框架。该框架通过三个阶段实现闭环自动化:1)在编码前将需求转化为结构化验收测试;2)部署应用并通过浏览器交互模拟进行验证;3)将浏览器发现的故障转化为结构化修复报告供编码智能体使用。基于TDDev进行的首次对照实证研究表明,测试驱动开发策略能持续将生成质量提高34-48个百分点。核心发现是最佳协议取决于模型的生成风格:整体构建型模型最受益于智能体强制执行,而保守扩展型模型则受益于增量式强制执行。错误匹配协议会完全消除TDD收益并增加高达25倍的token成本。用户研究证实TDDev可将开发者手动干预降至零。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17242)