RePoT:通过检查点修复实现可恢复的思维程序方法
原帖
**REPOT: 通过检查点修复实现可恢复的思维程序**
_REPOT: Recoverable Program-of-Thought via Checkpoint Repair_
> 本文提出一种名为RePoT(可恢复思维程序)的新方法,旨在解决传统单次思维程序(PoT)在生成行动计划时因单个无效动作导致整个轨迹失效的问题。RePoT采用确定性验证重放机制,逐步检查计划直至首个无效转换,然后利用大语言模型(LLM)从已验证前缀处恢复执行。实验显示,在约14%的PoT失败问题中,RePoT仅需额外一次LLM调用。在PuzzleZoo-775等基准测试中,RePoT相比PoT提升3-11个百分点,在GPT-5.4-mini-medium上达到96.9%的峰值准确率(对比PoT的86.3%)。与同等预算的PoT重试基线相比,RePoT在Gemini模型上表现最佳(提升3.8个百分点)。研究还发现,检查点信息是恢复过程中的关键信号,并提出了自适应RePoT作为初步优化方案。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30052)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出RePoT方法,旨在解决传统思维程序(PoT)因单个无效动作导致整个轨迹失效的问题。该方法采用确定性验证重放机制,在PuzzleZoo-775等基准测试中相比PoT提升3-11个百分点,并在GPT-5.4-mini-medium上达到96.9%的峰值准确率。
答案说明
RePoT是一种通过检查点修复来恢复思维程序的方法。它通过逐步检查计划直至首个无效转换,然后利用大语言模型从已验证前缀处恢复执行,从而在部分PoT失败问题中仅需额外一次LLM调用即可修复轨迹。
这篇帖子回答的问题
- RePoT方法如何解决传统思维程序(PoT)的问题?
- RePoT方法在基准测试中的表现如何?
核心观点
- RePoT通过确定性验证重放和LLM恢复机制,能够修复因单个无效动作导致的思维程序轨迹失效问题。
- 实验表明,在约14%的PoT失败问题中,RePoT仅需额外一次LLM调用,并在多个基准测试上取得了显著的准确率提升。
FAQ
- Q: RePoT方法的核心机制是什么?
- A: RePoT采用确定性验证重放机制,逐步检查计划直至首个无效转换,然后利用大语言模型(LLM)从已验证前缀处恢复执行,从而修复轨迹。
- Q: RePoT与同等预算的PoT重试基线相比表现如何?
- A: 与同等预算的PoT重试基线相比,RePoT在Gemini模型上表现最佳,提升3.8个百分点。
关键实体
- RePoT
- 思维程序(PoT)
- PuzzleZoo-775
- GPT-5.4-mini-medium