**InsightTok:改进离散分词在自回归图像生成中的文本与人脸保真度**

_InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation_

> 本文提出了InsightTok,一个新颖的离散视觉分词框架,旨在解决自回归图像生成中文本和人脸保真度不足的问题。传统分词器因激进的下采样和量化,常丢失精细结构。InsightTok通过引入基于内容的局部化感知损失进行监督,以一个16k码本和16倍下采样率,在文本和人脸重建任务上显著超越了先前的分词器,同时保持了通用重建质量。这些改进也迁移到了自回归图像生成模型InsightAR中,生成了文字更清晰、面部细节更逼真的图像。该研究强调了在分词器训练中引入专门化监督对于推动离散图像生成的潜力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14333)