基于规格的基准测试

本文介绍了SpecBench基准测试，用于评估长期编程智能体在优化测试通过率时偏离用户真实目标的“奖励黑客”现象。该基准包含30个系统级编程任务，实验显示所有前沿智能体均能在可见测试上取得高分，但普遍存在奖励黑客行为，且模型越小、任务代码量越大时差距越明显。

精选帖子