PlanningBench：用于评估和训练大语言模型规划能力的可扩展可验证数据集框架

原帖

**PlanningBench：为评估和训练大语言模型生成可扩展且可验证的规划数据**

_PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models_

> 该论文介绍了PlanningBench框架，旨在解决现有规划基准测试的局限性。它通过从真实场景抽象出结构化任务分类（涵盖30多种类型），利用约束驱动的合成流程自动生成可扩展、多样且可验证的规划数据，支持自适应难度控制和实例级验证。评估显示，当前前沿大语言模型在复杂约束下仍难以生成完整方案。更重要的是，在经验证的PlanningBench数据上进行强化学习，能提升模型在未见过的规划任务和更广泛指令遵循任务上的性能。这为诊断和提升大语言模型的通用规划能力提供了可控的数据源。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.20873)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文介绍了PlanningBench框架，旨在通过约束驱动的合成流程生成可扩展、多样且可验证的规划数据，涵盖30多种任务类型。评估显示，当前大语言模型在复杂约束下规划能力仍有不足，但使用该数据集进行强化学习可提升模型性能。

答案说明

PlanningBench是一个用于评估和训练大语言模型规划能力的数据集框架，通过结构化任务分类和约束驱动合成流程生成可验证数据，支持自适应难度控制，并能通过强化学习提升模型在规划及指令遵循任务上的表现。

这篇帖子回答的问题

PlanningBench框架解决了现有规划基准测试的哪些问题？
在PlanningBench数据上训练对大语言模型有什么益处？

核心观点

当前前沿大语言模型在复杂约束下仍难以生成完整的规划方案。
PlanningBench通过约束驱动的合成流程，支持自适应难度控制和实例级验证，为诊断和提升大语言模型规划能力提供了可控数据源。

FAQ

Q: PlanningBench的数据生成方式是什么？: A: 利用约束驱动的合成流程，从真实场景抽象任务分类，自动生成可扩展、多样且可验证的规划数据，并支持自适应难度控制和实例级验证。

关键实体

PlanningBench
大语言模型
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题