DecQ:用于增强表示自动编码器中重建和生成的细节凝聚查询
原帖
**DecQ:用于增强表示自动编码器中重建和生成的细节凝聚查询**
_DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders_
> 该论文提出了一种名为DecQ的轻量级框架,旨在解决表示自动编码器(RAE)中重建与生成任务之间的权衡问题。DecQ通过引入细节凝聚查询和凝聚器模块,从冻结的视觉基础模型(VFM)的中间特征中提取细粒度信息。这些查询被集成到解码器中以支持重建,并在生成建模过程中与补丁标记一起生成。实验表明,仅增加8个额外查询和3.9%的额外计算量,DecQ显著提升了重建质量(PSNR从19.13 dB提高到22.76 dB),并实现了更快的生成收敛速度(比RAE快3.3倍),在无引导和有引导情况下分别达到1.41和1.05的FID分数。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22777)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该帖子介绍了DecQ框架,旨在解决表示自动编码器(RAE)中重建与生成任务的权衡问题。通过引入细节凝聚查询和凝聚器模块,从视觉基础模型提取细粒度信息。实验表明,DecQ在增加少量计算量(3.9%)的情况下,显著提升了重建质量(PSNR从19.13 dB提高到22.76 dB)和生成收敛速度(比RAE快3.3倍)。
答案说明
DecQ是一个轻量级框架,通过细节凝聚查询和凝聚器模块增强表示自动编码器的重建和生成能力,以较低的计算开销实现了显著的性能提升。
这篇帖子回答的问题
- DecQ框架的主要目标是什么?
- DecQ在实验中取得了哪些关键性能指标?
核心观点
- DecQ框架通过细节凝聚查询,以仅3.9%的额外计算量为代价,解决了表示自动编码器中重建与生成之间的权衡问题。
- 该方法从冻结的视觉基础模型(VFM)中间特征中提取细粒度信息,以支持重建和生成任务。
FAQ
- Q: DecQ如何解决重建与生成的权衡?
- A: 通过引入细节凝聚查询和凝聚器模块,从冻结的视觉基础模型中间特征中提取细粒度信息,集成到解码器中以支持重建,并在生成建模过程中与补丁标记一起生成。
- Q: DecQ在计算开销方面的表现如何?
- A: DecQ是一个轻量级框架,仅增加8个额外查询和3.9%的额外计算量。
关键实体
- DecQ
- 表示自动编码器(RAE)
- 视觉基础模型(VFM)
- HuggingFace Daily Papers