**LocateAnything:基于并行框解码的快速高质量视觉-语言定位**

_LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding_

> 该论文提出了一种名为 LocateAnything 的统一生成式视觉定位和检测框架,其核心创新在于并行框解码技术。该方法将边界框等几何元素作为原子单位在单一步骤中解码,从而保持了框内几何一致性,并实现了显著的并行化。这解决了传统逐token序列解码方法带来的推理瓶颈和几何结构不匹配问题。研究团队还开发了一个可扩展的数据引擎并构建了包含超过1.38亿训练样本的大规模数据集 LocateAnything-Data,以大幅提升高精度定位的数据多样性。在多项基准测试中,LocateAnything 在解码吞吐量和定位精度(特别是高IoU质量)方面均取得了显著提升,展示了并行解码与大规模训练数据的互补优势。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27365)