LocateAnything：基于并行框解码的快速高质量视觉-语言定位框架

原帖

**LocateAnything：基于并行框解码的快速高质量视觉-语言定位**

_LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding_

> 该论文提出了一种名为 LocateAnything 的统一生成式视觉定位和检测框架，其核心创新在于并行框解码技术。该方法将边界框等几何元素作为原子单位在单一步骤中解码，从而保持了框内几何一致性，并实现了显著的并行化。这解决了传统逐token序列解码方法带来的推理瓶颈和几何结构不匹配问题。研究团队还开发了一个可扩展的数据引擎并构建了包含超过1.38亿训练样本的大规模数据集 LocateAnything-Data，以大幅提升高精度定位的数据多样性。在多项基准测试中，LocateAnything 在解码吞吐量和定位精度（特别是高IoU质量）方面均取得了显著提升，展示了并行解码与大规模训练数据的互补优势。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-27 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.27365)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该帖子介绍了一篇论文，提出了名为LocateAnything的统一生成式视觉定位和检测框架，其核心是并行框解码技术。该方法将边界框等几何元素作为原子单位在单一步骤中解码，保持了框内几何一致性并实现了显著的并行化，解决了传统逐token序列解码的推理瓶颈和几何结构不匹配问题。研究团队还构建了包含超过1.38亿训练样本的大规模数据集LocateAnything-Data，以提升数据多样性。帖子指出，在多项基准测试中，LocateAnything在解码吞吐量和定位精度（特别是高IoU质量）方面均取得了显著提升。

答案说明

LocateAnything是一个用于视觉-语言定位的生成式框架，其创新点在于并行框解码技术，能单步解码边界框等几何元素，解决了传统方法的推理瓶颈和几何不匹配问题。该研究还配套开发了包含1.38亿样本的大规模数据集，据帖子称在多项基准测试中实现了更高的解码吞吐量和定位精度。

这篇帖子回答的问题

LocateAnything框架的核心技术创新是什么？
LocateAnything的研究团队为提升数据多样性做了什么工作？

核心观点

该帖子介绍了一篇论文，提出了名为LocateAnything的统一生成式视觉定位和检测框架，其核心是并行框解码技术。该方法将边界框等几何元素作为原子单位在单一步骤中解码，保持了框内几何一致性并实现了显著的并行化，解决了传统逐token序列解码的推理瓶颈和几何结构不匹配问题。研究团队还构建了包含超过1.38亿训练样本的大规模数据集LocateAnything-Data，以提升数据多样性。帖子指出，在多项基准测试中，LocateAnything在解码吞吐量和定位精度（特别是高IoU质量）方面均取得了显著提升。

FAQ

Q: LocateAnything与传统视觉定位方法的主要区别是什么？: A: 据帖子介绍，传统方法采用逐token序列解码，存在推理瓶颈和几何结构不匹配问题；而LocateAnything采用并行框解码技术，将边界框等几何元素作为原子单位在单一步骤中解码，保持了几何一致性并实现了并行化。
Q: LocateAnything在性能上取得了哪些提升？: A: 据帖子称，在多项基准测试中，LocateAnything在解码吞吐量和定位精度（特别是高IoU质量）方面均取得了显著提升，展示了并行解码与大规模训练数据的互补优势。

关键实体

LocateAnything
并行框解码
LocateAnything-Data

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题