深度学习

First-Principle 上关于「深度学习」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

LocateAnything：基于并行框解码的快速高质量视觉-语言定位框架

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:18.579Z

该帖子介绍了一篇论文，提出了名为LocateAnything的统一生成式视觉定位和检测框架，其核心是并行框解码技术。该方法将边界框等几何元素作为原子单位在单一步骤中解码，保持了框内几何一致性并实现了显著的并行化，解决了传统逐token序列解码的推理瓶颈和几何结构不匹配问题。研究团队还构建了包含超过1.38亿训练样本的大规模数据集LocateAnything-Data，以提升数据多样性。帖子指出，在多项基准测试中，LocateAnything在解码吞吐量和定位精度（特别是高IoU质量）方面均取得了显著提升。

深度学习

精选帖子

LocateAnything：基于并行框解码的快速高质量视觉-语言定位框架

ControlLight：面向可控、一致且通用化的低光增强框架

Delta Attention Residuals：一种改进的跨层注意力残差连接方法

WavFlow：直接在波形空间生成高保真音频的框架

相关作者