目标检测

英伟达推出LocateAnything模型，实现高速高精度对象检测

IT之家（RSS） · 2026-05-31T09:37:09.589Z

英伟达联合香港理工大学、南京大学推出LocateAnything AI模型，专注于从图像中高速、高精度检测并定位指定对象。该模型采用并行框解码技术，提供快速、慢速和混合三种模式，适用于机器人感知、AI代理等实时交互场景。

LocateAnything：基于并行框解码的快速高质量视觉-语言定位框架

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:18.579Z

该帖子介绍了一篇论文，提出了名为LocateAnything的统一生成式视觉定位和检测框架，其核心是并行框解码技术。该方法将边界框等几何元素作为原子单位在单一步骤中解码，保持了框内几何一致性并实现了显著的并行化，解决了传统逐token序列解码的推理瓶颈和几何结构不匹配问题。研究团队还构建了包含超过1.38亿训练样本的大规模数据集LocateAnything-Data，以提升数据多样性。帖子指出，在多项基准测试中，LocateAnything在解码吞吐量和定位精度（特别是高IoU质量）方面均取得了显著提升。

精选帖子

英伟达推出LocateAnything模型，实现高速高精度对象检测

LocateAnything：基于并行框解码的快速高质量视觉-语言定位框架

相关作者