**通道级向量量化**

_Channel-wise Vector Quantization_

> 本文提出了一种名为“通道级向量量化”(CVQ)的新型图像分词范式,它用通道级分词取代了传统的块级分词。与常规向量量化将离散分词分配给每个块特征向量不同,CVQ对特征图的每个通道进行量化,将图像表示为不同视觉细节级别的离散层次,而非空间块的网格。基于CVQ,作者引入了一种新的视觉自回归框架,称为“下一通道预测”。其“通道级自回归”(CAR)模型不再按光栅顺序逐块渲染图像,而是依次预测图像通道,逐步丰富视觉细节。具体而言,它先勾勒全局结构,再细化精细属性,类似于人类艺术家的创作流程。实验表明:1)CVQ在无需复杂技巧的情况下,使用16K+大小的代码本即可实现100%的代码本利用率,并大幅提升了重建质量;2)CAR模型在文本到图像生成任务中表现出色,DPG评分为86.7,GenEval评分为0.79。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26089)