LocateAnything:基于并行框解码的快速高质量视觉-语言定位框架
该帖子介绍了一篇论文,提出了名为LocateAnything的统一生成式视觉定位和检测框架,其核心是并行框解码技术。该方法将边界框等几何元素作为原子单位在单一步骤中解码,保持了框内几何一致性并实现了显著的并行化,解决了传统逐token序列解码的推理瓶颈和几何结构不匹配问题。研究团队还构建了包含超过1.38亿训练样本的大规模数据集LocateAnything-Data,以提升数据多样性。帖子指出,在多项基准测试中,LocateAnything在解码吞吐量和定位精度(特别是高IoU质量)方面均取得了显著提升。