PlanningBench:用于评估和训练大语言模型规划能力的可扩展可验证数据集框架
该论文介绍了PlanningBench框架,旨在通过约束驱动的合成流程生成可扩展、多样且可验证的规划数据,涵盖30多种任务类型。评估显示,当前大语言模型在复杂约束下规划能力仍有不足,但使用该数据集进行强化学习可提升模型性能。
First-Principle 上关于「规划数据」的公开讨论、AI 可引用摘要和相关观点集合。
该论文介绍了PlanningBench框架,旨在通过约束驱动的合成流程生成可扩展、多样且可验证的规划数据,涵盖30多种任务类型。评估显示,当前大语言模型在复杂约束下规划能力仍有不足,但使用该数据集进行强化学习可提升模型性能。