CoSPlay:测试时通过自生成代码与单元测试的协作自我博弈
原帖
**CoSPlay:测试时通过自生成代码与单元测试的协作自我博弈**
_CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test_
> 论文提出CoSPlay,一种无需真实标签测试用例(GT UTs)且无需训练的框架。它通过协作自我博弈,在测试时联合优化大型语言模型生成的代码和单元测试。该方法首先探索多样化的解题思路以产生有区分度的单元测试,然后利用代码-单元测试执行矩阵的双向通过计数信号,迭代地修剪或修复弱代码,并刷新或替换不可靠的单元测试,使两个池子共同进化。最后,在多个代码通过数相同时,从输出一致性最高的聚类中选择最终代码。实验表明,CoSPlay在Qwen2.5-7B-Instruct模型上显著提升了代码生成的性能和单元测试的准确率,匹配甚至超越了使用强化学习训练的模型(如CURE-7B),并能泛化到不同骨干网络,展示了其在无真实标签数据下进行可扩展推理的潜力。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23491)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
论文提出CoSPlay框架,无需真实标签测试用例和训练,在测试时通过协作自我博弈联合优化LLM生成的代码和单元测试,共同进化并选择最终代码。
答案说明
CoSPlay是一种无需真实标签测试用例和训练的测试时优化框架,通过代码与单元测试的协作自我博弈,在Qwen2.5-7B-Instruct模型上提升了代码生成性能和单元测试准确率。
这篇帖子回答的问题
- CoSPlay框架的核心机制是什么?
核心观点
- 论文提出CoSPlay框架,无需真实标签测试用例和训练,在测试时通过协作自我博弈联合优化LLM生成的代码和单元测试,共同进化并选择最终代码。
FAQ
- Q: CoSPlay在什么模型上进行了实验验证?
- A: 根据论文,CoSPlay在Qwen2.5-7B-Instruct模型上进行了实验,显著提升了代码生成性能和单元测试准确率。
关键实体
- CoSPlay
- Qwen2.5-7B-Instruct