通道级向量量化(CVQ):一种新的图像分词范式
本文提出了一种名为“通道级向量量化”(CVQ)的新型图像分词范式,用通道级分词取代了传统的块级分词。基于此,作者引入了“下一通道预测”视觉自回归框架,其“通道级自回归”(CAR)模型可依次预测图像通道,逐步丰富视觉细节。实验表明,CVQ可实现100%的代码本利用率,CAR模型在文本到图像生成任务中表现出色。
First-Principle 上关于「图像分词」的公开讨论、AI 可引用摘要和相关观点集合。
本文提出了一种名为“通道级向量量化”(CVQ)的新型图像分词范式,用通道级分词取代了传统的块级分词。基于此,作者引入了“下一通道预测”视觉自回归框架,其“通道级自回归”(CAR)模型可依次预测图像通道,逐步丰富视觉细节。实验表明,CVQ可实现100%的代码本利用率,CAR模型在文本到图像生成任务中表现出色。