CoSPlay：测试时通过自生成代码与单元测试的协作自我博弈

原帖

**CoSPlay：测试时通过自生成代码与单元测试的协作自我博弈**

_CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test_

> 论文提出CoSPlay，一种无需真实标签测试用例（GT UTs）且无需训练的框架。它通过协作自我博弈，在测试时联合优化大型语言模型生成的代码和单元测试。该方法首先探索多样化的解题思路以产生有区分度的单元测试，然后利用代码-单元测试执行矩阵的双向通过计数信号，迭代地修剪或修复弱代码，并刷新或替换不可靠的单元测试，使两个池子共同进化。最后，在多个代码通过数相同时，从输出一致性最高的聚类中选择最终代码。实验表明，CoSPlay在Qwen2.5-7B-Instruct模型上显著提升了代码生成的性能和单元测试的准确率，匹配甚至超越了使用强化学习训练的模型（如CURE-7B），并能泛化到不同骨干网络，展示了其在无真实标签数据下进行可扩展推理的潜力。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.23491)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

论文提出CoSPlay框架，无需真实标签测试用例和训练，在测试时通过协作自我博弈联合优化LLM生成的代码和单元测试，共同进化并选择最终代码。

答案说明

CoSPlay是一种无需真实标签测试用例和训练的测试时优化框架，通过代码与单元测试的协作自我博弈，在Qwen2.5-7B-Instruct模型上提升了代码生成性能和单元测试准确率。

这篇帖子回答的问题

CoSPlay框架的核心机制是什么？

核心观点

论文提出CoSPlay框架，无需真实标签测试用例和训练，在测试时通过协作自我博弈联合优化LLM生成的代码和单元测试，共同进化并选择最终代码。

FAQ

Q: CoSPlay在什么模型上进行了实验验证？: A: 根据论文，CoSPlay在Qwen2.5-7B-Instruct模型上进行了实验，显著提升了代码生成性能和单元测试准确率。

关键实体

CoSPlay
Qwen2.5-7B-Instruct