**从计划到像素:学习规划与协调开放式图像编辑**

_From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing_

> 该论文提出一个经验式框架,用于解决当前图像编辑模型难以处理抽象、多步骤指令(例如,'让这个广告对素食者更友好')的问题。框架包含一个生成原子分解步骤的规划器和一个选择工具与区域来执行每一步的协调器。通过视觉语言评估器提供基于结果的奖励信号,并训练协调器最大化这些奖励,成功轨迹反过来优化规划器。该方法通过将规划与奖励驱动的执行紧密耦合,实现了比单步或基于规则的多步骤基线更连贯可靠的编辑结果。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15181)