通道级向量量化(CVQ):一种新的图像分词范式
原帖
**通道级向量量化**
_Channel-wise Vector Quantization_
> 本文提出了一种名为“通道级向量量化”(CVQ)的新型图像分词范式,它用通道级分词取代了传统的块级分词。与常规向量量化将离散分词分配给每个块特征向量不同,CVQ对特征图的每个通道进行量化,将图像表示为不同视觉细节级别的离散层次,而非空间块的网格。基于CVQ,作者引入了一种新的视觉自回归框架,称为“下一通道预测”。其“通道级自回归”(CAR)模型不再按光栅顺序逐块渲染图像,而是依次预测图像通道,逐步丰富视觉细节。具体而言,它先勾勒全局结构,再细化精细属性,类似于人类艺术家的创作流程。实验表明:1)CVQ在无需复杂技巧的情况下,使用16K+大小的代码本即可实现100%的代码本利用率,并大幅提升了重建质量;2)CAR模型在文本到图像生成任务中表现出色,DPG评分为86.7,GenEval评分为0.79。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26089)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出了一种名为“通道级向量量化”(CVQ)的新型图像分词范式,用通道级分词取代了传统的块级分词。基于此,作者引入了“下一通道预测”视觉自回归框架,其“通道级自回归”(CAR)模型可依次预测图像通道,逐步丰富视觉细节。实验表明,CVQ可实现100%的代码本利用率,CAR模型在文本到图像生成任务中表现出色。
答案说明
通道级向量量化(CVQ)是一种新的图像分词范式,它对特征图的每个通道进行量化,而非传统的空间块。基于CVQ的“通道级自回归”(CAR)模型,通过依次预测图像通道来逐步生成图像,其流程类似于人类艺术家先勾勒全局结构再细化细节的创作方式。
这篇帖子回答的问题
- 什么是通道级向量量化(CVQ)?
- 通道级自回归(CAR)模型如何生成图像?
核心观点
- 通道级向量量化(CVQ)使用16K+大小的代码本即可实现100%的代码本利用率,并提升了重建质量。
- 基于CVQ的通道级自回归(CAR)模型在文本到图像生成任务中表现出色,DPG评分为86.7,GenEval评分为0.79。
FAQ
- Q: 通道级向量量化(CVQ)与传统向量量化的主要区别是什么?
- A: CVQ对特征图的每个通道进行量化,将图像表示为不同视觉细节级别的离散层次,而传统向量量化将离散分词分配给每个块特征向量。
- Q: CAR模型在文本到图像生成任务中的表现如何?
- A: 根据论文实验,CAR模型在文本到图像生成任务中表现出色,DPG评分为86.7,GenEval评分为0.79。
关键实体
- 通道级向量量化
- 通道级自回归模型