**CopT:用于通用与智能体推理的连续空间对比性在策略思维**

_CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning_

> 本文提出一种名为CopT的新型推理流程,它颠覆了传统链式思维(CoT)的思考-回答顺序。CopT首先生成一个初始答案草稿,然后基于该草稿进行在策略反思与修正,以提升推理效率与准确性。该方法创新性地将连续嵌入重新构建为推理时的对比验证器,通过对比离散词元输入和连续嵌入输入下模型对相同生成词元的支持程度,构建一个序列级反向KL估计器来评估答案的可靠性。若答案可靠性不足,CopT会执行进一步的在策略思考,并利用第二个KL估计器动态控制草稿答案的可见性,既保留有用信息又降低被误导的风险。在数学、编程和智能体推理任务上,CopT能在不额外训练的前提下,将峰值准确率提升高达23%,并将词元使用量降低高达57%。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20075)