从可运行到可交付:TDDev多智能体测试驱动开发框架提升全栈Web应用生成质量
该研究针对编码智能体生成Web应用功能需求满足率低(超70%失败)的问题,提出了TDDev框架。该框架通过将需求转化为验收测试、浏览器交互验证、故障修复报告三个阶段实现闭环自动化,首次对照实证表明测试驱动开发策略能持续将生成质量提高34-48个百分点。核心发现是最佳协议取决于模型生成风格:整体构建型模型最受益于智能体强制执行,保守扩展型模型受益于增量式强制执行。错误匹配协议会消除TDD收益并增加高达25倍token成本。