**PlanningBench:为评估和训练大语言模型生成可扩展且可验证的规划数据**

_PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models_

> 该论文介绍了PlanningBench框架,旨在解决现有规划基准测试的局限性。它通过从真实场景抽象出结构化任务分类(涵盖30多种类型),利用约束驱动的合成流程自动生成可扩展、多样且可验证的规划数据,支持自适应难度控制和实例级验证。评估显示,当前前沿大语言模型在复杂约束下仍难以生成完整方案。更重要的是,在经验证的PlanningBench数据上进行强化学习,能提升模型在未见过的规划任务和更广泛指令遵循任务上的性能。这为诊断和提升大语言模型的通用规划能力提供了可控的数据源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20873)