CopT:颠覆传统链式思维的对比性在策略推理流程
原帖
**CopT:用于通用与智能体推理的连续空间对比性在策略思维**
_CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning_
> 本文提出一种名为CopT的新型推理流程,它颠覆了传统链式思维(CoT)的思考-回答顺序。CopT首先生成一个初始答案草稿,然后基于该草稿进行在策略反思与修正,以提升推理效率与准确性。该方法创新性地将连续嵌入重新构建为推理时的对比验证器,通过对比离散词元输入和连续嵌入输入下模型对相同生成词元的支持程度,构建一个序列级反向KL估计器来评估答案的可靠性。若答案可靠性不足,CopT会执行进一步的在策略思考,并利用第二个KL估计器动态控制草稿答案的可见性,既保留有用信息又降低被误导的风险。在数学、编程和智能体推理任务上,CopT能在不额外训练的前提下,将峰值准确率提升高达23%,并将词元使用量降低高达57%。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20075)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了CopT推理流程,它通过先生成答案草稿再进行对比性反思修正,颠覆了传统CoT顺序。该方法利用连续嵌入构建对比验证器,在数学、编程等任务上提升了准确率并降低了词元使用量。
答案说明
CopT是一种新型推理流程,通过先生成答案草稿再进行在策略反思,利用连续嵌入构建对比验证器来评估答案可靠性,从而在数学、编程和智能体推理任务上提升效率与准确性。
这篇帖子回答的问题
- CopT推理流程与传统链式思维(CoT)的主要区别是什么?
- CopT在数学、编程等任务上的效果如何?
核心观点
- CopT颠覆了传统CoT的思考-回答顺序,采用先生成草稿答案再进行在策略反思与修正的流程。
- 据论文报告,CopT在不额外训练的情况下,可将数学、编程等任务的峰值准确率提升高达23%,同时降低词元使用量高达57%。
FAQ
- Q: CopT推理流程的核心创新点是什么?
- A: CopT的核心创新在于颠覆传统链式思维顺序,采用先生成答案草稿再进行对比性在策略反思的流程,并利用连续嵌入构建对比验证器来评估答案可靠性。
- Q: CopT在哪些任务上展示了效果?
- A: 据论文报告,CopT在数学、编程和智能体推理任务上展示了效果,能在不额外训练的前提下提升准确率并降低词元使用量。
关键实体
- CopT
- 链式思维(CoT)
- HuggingFace Daily Papers