RePoT：通过检查点修复实现可恢复的思维程序方法

原帖

**REPOT: 通过检查点修复实现可恢复的思维程序**

_REPOT: Recoverable Program-of-Thought via Checkpoint Repair_

> 本文提出一种名为RePoT（可恢复思维程序）的新方法，旨在解决传统单次思维程序（PoT）在生成行动计划时因单个无效动作导致整个轨迹失效的问题。RePoT采用确定性验证重放机制，逐步检查计划直至首个无效转换，然后利用大语言模型（LLM）从已验证前缀处恢复执行。实验显示，在约14%的PoT失败问题中，RePoT仅需额外一次LLM调用。在PuzzleZoo-775等基准测试中，RePoT相比PoT提升3-11个百分点，在GPT-5.4-mini-medium上达到96.9%的峰值准确率（对比PoT的86.3%）。与同等预算的PoT重试基线相比，RePoT在Gemini模型上表现最佳（提升3.8个百分点）。研究还发现，检查点信息是恢复过程中的关键信号，并提出了自适应RePoT作为初步优化方案。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.30052)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出RePoT方法，旨在解决传统思维程序（PoT）因单个无效动作导致整个轨迹失效的问题。该方法采用确定性验证重放机制，在PuzzleZoo-775等基准测试中相比PoT提升3-11个百分点，并在GPT-5.4-mini-medium上达到96.9%的峰值准确率。

答案说明

RePoT是一种通过检查点修复来恢复思维程序的方法。它通过逐步检查计划直至首个无效转换，然后利用大语言模型从已验证前缀处恢复执行，从而在部分PoT失败问题中仅需额外一次LLM调用即可修复轨迹。

这篇帖子回答的问题

RePoT方法如何解决传统思维程序（PoT）的问题？
RePoT方法在基准测试中的表现如何？

核心观点

RePoT通过确定性验证重放和LLM恢复机制，能够修复因单个无效动作导致的思维程序轨迹失效问题。
实验表明，在约14%的PoT失败问题中，RePoT仅需额外一次LLM调用，并在多个基准测试上取得了显著的准确率提升。

FAQ

Q: RePoT方法的核心机制是什么？: A: RePoT采用确定性验证重放机制，逐步检查计划直至首个无效转换，然后利用大语言模型（LLM）从已验证前缀处恢复执行，从而修复轨迹。
Q: RePoT与同等预算的PoT重试基线相比表现如何？: A: 与同等预算的PoT重试基线相比，RePoT在Gemini模型上表现最佳，提升3.8个百分点。

关键实体

RePoT
思维程序（PoT）
PuzzleZoo-775
GPT-5.4-mini-medium