从计划到像素：学习规划与协调开放式图像编辑

原帖

**从计划到像素：学习规划与协调开放式图像编辑**

_From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing_

> 该论文提出一个经验式框架，用于解决当前图像编辑模型难以处理抽象、多步骤指令（例如，'让这个广告对素食者更友好'）的问题。框架包含一个生成原子分解步骤的规划器和一个选择工具与区域来执行每一步的协调器。通过视觉语言评估器提供基于结果的奖励信号，并训练协调器最大化这些奖励，成功轨迹反过来优化规划器。该方法通过将规划与奖励驱动的执行紧密耦合，实现了比单步或基于规则的多步骤基线更连贯可靠的编辑结果。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15181)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文提出一个经验式框架，通过规划器生成原子分解步骤与协调器执行每一步，并利用视觉语言评估器提供奖励信号，从而处理抽象、多步骤的开放式图像编辑指令。

答案说明

该论文提出一个包含规划器和协调器的框架，用于解决当前图像编辑模型难以处理抽象、多步骤指令的问题。规划器生成原子分解步骤，协调器选择工具与区域执行每一步，通过视觉语言评估器提供基于结果的奖励信号来训练协调器并优化规划器，从而实现更连贯可靠的编辑结果。

这篇帖子回答的问题

该论文如何解决图像编辑模型难以处理抽象、多步骤指令的问题？
该框架中的规划器和协调器分别扮演什么角色？

核心观点

该论文提出的框架通过将规划与奖励驱动的执行紧密耦合，实现了比单步或基于规则的多步骤基线更连贯可靠的编辑结果。
该框架利用视觉语言评估器提供基于结果的奖励信号来训练协调器，并优化规划器。

FAQ

Q: 该框架如何评估编辑结果？: A: 通过视觉语言评估器提供基于结果的奖励信号来评估。
Q: 与现有方法相比，该方法的优势是什么？: A: 该方法通过将规划与奖励驱动的执行紧密耦合，实现了比单步或基于规则的多步骤基线更连贯可靠的编辑结果。

关键实体

规划器
协调器
视觉语言评估器
HuggingFace Daily Papers