通道级向量量化（CVQ）：一种新的图像分词范式

原帖

**通道级向量量化**

_Channel-wise Vector Quantization_

> 本文提出了一种名为“通道级向量量化”（CVQ）的新型图像分词范式，它用通道级分词取代了传统的块级分词。与常规向量量化将离散分词分配给每个块特征向量不同，CVQ对特征图的每个通道进行量化，将图像表示为不同视觉细节级别的离散层次，而非空间块的网格。基于CVQ，作者引入了一种新的视觉自回归框架，称为“下一通道预测”。其“通道级自回归”（CAR）模型不再按光栅顺序逐块渲染图像，而是依次预测图像通道，逐步丰富视觉细节。具体而言，它先勾勒全局结构，再细化精细属性，类似于人类艺术家的创作流程。实验表明：1）CVQ在无需复杂技巧的情况下，使用16K+大小的代码本即可实现100%的代码本利用率，并大幅提升了重建质量；2）CAR模型在文本到图像生成任务中表现出色，DPG评分为86.7，GenEval评分为0.79。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26089)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出了一种名为“通道级向量量化”（CVQ）的新型图像分词范式，用通道级分词取代了传统的块级分词。基于此，作者引入了“下一通道预测”视觉自回归框架，其“通道级自回归”（CAR）模型可依次预测图像通道，逐步丰富视觉细节。实验表明，CVQ可实现100%的代码本利用率，CAR模型在文本到图像生成任务中表现出色。

答案说明

通道级向量量化（CVQ）是一种新的图像分词范式，它对特征图的每个通道进行量化，而非传统的空间块。基于CVQ的“通道级自回归”（CAR）模型，通过依次预测图像通道来逐步生成图像，其流程类似于人类艺术家先勾勒全局结构再细化细节的创作方式。

这篇帖子回答的问题

什么是通道级向量量化（CVQ）？
通道级自回归（CAR）模型如何生成图像？

核心观点

通道级向量量化（CVQ）使用16K+大小的代码本即可实现100%的代码本利用率，并提升了重建质量。
基于CVQ的通道级自回归（CAR）模型在文本到图像生成任务中表现出色，DPG评分为86.7，GenEval评分为0.79。

FAQ

Q: 通道级向量量化（CVQ）与传统向量量化的主要区别是什么？: A: CVQ对特征图的每个通道进行量化，将图像表示为不同视觉细节级别的离散层次，而传统向量量化将离散分词分配给每个块特征向量。
Q: CAR模型在文本到图像生成任务中的表现如何？: A: 根据论文实验，CAR模型在文本到图像生成任务中表现出色，DPG评分为86.7，GenEval评分为0.79。

关键实体

通道级向量量化
通道级自回归模型