InsightTok：改进离散分词在自回归图像生成中的文本与人脸保真度

原帖

**InsightTok：改进离散分词在自回归图像生成中的文本与人脸保真度**

_InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation_

> 本文提出了InsightTok，一个新颖的离散视觉分词框架，旨在解决自回归图像生成中文本和人脸保真度不足的问题。传统分词器因激进的下采样和量化，常丢失精细结构。InsightTok通过引入基于内容的局部化感知损失进行监督，以一个16k码本和16倍下采样率，在文本和人脸重建任务上显著超越了先前的分词器，同时保持了通用重建质量。这些改进也迁移到了自回归图像生成模型InsightAR中，生成了文字更清晰、面部细节更逼真的图像。该研究强调了在分词器训练中引入专门化监督对于推动离散图像生成的潜力。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.14333)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了InsightTok，一个新颖的离散视觉分词框架，旨在解决自回归图像生成中文本和人脸保真度不足的问题。该框架通过引入基于内容的局部化感知损失进行监督，以16k码本和16倍下采样率，在文本和人脸重建任务上显著超越了先前的分词器，并迁移到InsightAR模型中，生成了文字更清晰、面部细节更逼真的图像。

答案说明

InsightTok是一个改进离散视觉分词的框架，通过引入基于内容的局部化感知损失，解决了自回归图像生成中文本和人脸保真度不足的问题，并在相关任务上取得了显著性能提升。

这篇帖子回答的问题

InsightTok框架旨在解决自回归图像生成中的什么问题？
InsightTok采用了什么技术方法来改进文本和人脸保真度？

核心观点

本文介绍了InsightTok，一个新颖的离散视觉分词框架，旨在解决自回归图像生成中文本和人脸保真度不足的问题。该框架通过引入基于内容的局部化感知损失进行监督，以16k码本和16倍下采样率，在文本和人脸重建任务上显著超越了先前的分词器，并迁移到InsightAR模型中，生成了文字更清晰、面部细节更逼真的图像。

FAQ

Q: InsightTok框架的核心创新是什么？: A: 其核心创新是引入了基于内容的局部化感知损失进行监督，以改进离散视觉分词器在文本和人脸保真度方面的表现。

关键实体

InsightTok
InsightAR
HuggingFace Daily Papers