**通过闭环验证推理解锁复杂视觉生成**

_Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning_

> 该研究提出了一个名为CLVR的闭环视觉推理框架,旨在解决当前文本到图像模型在处理复杂语义时存在的单步生成局限性、多步推理中的规划幻觉及推理延迟高等问题。CLVR将视觉-语言逻辑规划与像素级扩散生成深度耦合,引入了带有步骤级视觉验证的自动化数据引擎,并提出了代理提示强化学习来稳定长上下文优化。此外,通过Δ空间权重合并方法降低了迭代去噪带来的延迟。实验表明,该框架在多项基准测试中优于现有开源模型,并接近商业模型性能,为复杂视觉生成解锁了通用的测试时扩展能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14876)