**CoSPlay:测试时通过自生成代码与单元测试的协作自我博弈**

_CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test_

> 论文提出CoSPlay,一种无需真实标签测试用例(GT UTs)且无需训练的框架。它通过协作自我博弈,在测试时联合优化大型语言模型生成的代码和单元测试。该方法首先探索多样化的解题思路以产生有区分度的单元测试,然后利用代码-单元测试执行矩阵的双向通过计数信号,迭代地修剪或修复弱代码,并刷新或替换不可靠的单元测试,使两个池子共同进化。最后,在多个代码通过数相同时,从输出一致性最高的聚类中选择最终代码。实验表明,CoSPlay在Qwen2.5-7B-Instruct模型上显著提升了代码生成的性能和单元测试的准确率,匹配甚至超越了使用强化学习训练的模型(如CURE-7B),并能泛化到不同骨干网络,展示了其在无真实标签数据下进行可扩展推理的潜力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23491)