PlanningBench:用于评估和训练大语言模型规划能力的可扩展可验证数据集框架
原帖
**PlanningBench:为评估和训练大语言模型生成可扩展且可验证的规划数据**
_PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models_
> 该论文介绍了PlanningBench框架,旨在解决现有规划基准测试的局限性。它通过从真实场景抽象出结构化任务分类(涵盖30多种类型),利用约束驱动的合成流程自动生成可扩展、多样且可验证的规划数据,支持自适应难度控制和实例级验证。评估显示,当前前沿大语言模型在复杂约束下仍难以生成完整方案。更重要的是,在经验证的PlanningBench数据上进行强化学习,能提升模型在未见过的规划任务和更广泛指令遵循任务上的性能。这为诊断和提升大语言模型的通用规划能力提供了可控的数据源。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20873)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文介绍了PlanningBench框架,旨在通过约束驱动的合成流程生成可扩展、多样且可验证的规划数据,涵盖30多种任务类型。评估显示,当前大语言模型在复杂约束下规划能力仍有不足,但使用该数据集进行强化学习可提升模型性能。
答案说明
PlanningBench是一个用于评估和训练大语言模型规划能力的数据集框架,通过结构化任务分类和约束驱动合成流程生成可验证数据,支持自适应难度控制,并能通过强化学习提升模型在规划及指令遵循任务上的表现。
这篇帖子回答的问题
- PlanningBench框架解决了现有规划基准测试的哪些问题?
- 在PlanningBench数据上训练对大语言模型有什么益处?
核心观点
- 当前前沿大语言模型在复杂约束下仍难以生成完整的规划方案。
- PlanningBench通过约束驱动的合成流程,支持自适应难度控制和实例级验证,为诊断和提升大语言模型规划能力提供了可控数据源。
FAQ
- Q: PlanningBench的数据生成方式是什么?
- A: 利用约束驱动的合成流程,从真实场景抽象任务分类,自动生成可扩展、多样且可验证的规划数据,并支持自适应难度控制和实例级验证。
关键实体
- PlanningBench
- 大语言模型
- HuggingFace Daily Papers