SPIN:基于迭代导航的工业任务结构化大语言模型规划方法
原帖
**SPIN:基于迭代导航的工业任务结构化大语言模型规划方法**
_SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks_
> 本文提出SPIN,一个用于改进工业任务规划的包装器。它将经过验证的有向无环图(DAG)规划与基于前缀的执行控制相结合。SPIN通过结构验证和修复提示,强制执行严格的DAG规范,在执行前生成可执行计划,并增量评估DAG前缀以在满足条件时停止。在AssetOpsBench基准测试中,SPIN显著减少了执行的任务数、工具调用次数,并提升了任务完成率。在MCP Bench上,该方法同样改善了GPT OSS1和Llama 4 Maverick模型的规划、基础和依赖相关分数。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14051)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文提出SPIN,一种结合DAG规划与前缀执行控制的工业任务规划包装器。通过结构验证和修复提示强制DAG规范,生成可执行计划并增量评估前缀。在AssetOpsBench和MCP Bench基准测试中,SPIN显著减少了执行的任务数、工具调用次数,并提升了任务完成率及相关分数。
答案说明
SPIN是一个用于改进工业任务规划的LLM包装器。它将经过验证的有向无环图(DAG)规划与基于前缀的执行控制相结合,通过结构验证和修复提示强制执行严格的DAG规范,在执行前生成可执行计划。在基准测试中,该方法减少了执行任务数和工具调用次数,并提升了任务完成率。
这篇帖子回答的问题
- SPIN方法如何改进工业任务的LLM规划?
- SPIN在基准测试中表现如何?
核心观点
- 该论文提出SPIN,一种结合DAG规划与前缀执行控制的工业任务规划包装器。通过结构验证和修复提示强制DAG规范,生成可执行计划并增量评估前缀。在AssetOpsBench和MCP Bench基准测试中,SPIN显著减少了执行的任务数、工具调用次数,并提升了任务完成率及相关分数。
FAQ
- Q: SPIN的核心机制是什么?
- A: SPIN将经过验证的有向无环图(DAG)规划与基于前缀的执行控制相结合,通过结构验证和修复提示强制执行严格的DAG规范,并增量评估DAG前缀以在满足条件时停止。
- Q: SPIN在哪些基准测试上进行了评估?
- A: 根据论文,SPIN在AssetOpsBench和MCP Bench基准测试上进行了评估。
关键实体
- SPIN
- AssetOpsBench
- MCP Bench
- HuggingFace Daily Papers