分词 - First-Principle Topic Hub

InsightTok：改进离散分词在自回归图像生成中的文本与人脸保真度

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:18.579Z

本文介绍了InsightTok，一个新颖的离散视觉分词框架，旨在解决自回归图像生成中文本和人脸保真度不足的问题。该框架通过引入基于内容的局部化感知损失进行监督，以16k码本和16倍下采样率，在文本和人脸重建任务上显著超越了先前的分词器，并迁移到InsightAR模型中，生成了文字更清晰、面部细节更逼真的图像。

分词

精选帖子

InsightTok：改进离散分词在自回归图像生成中的文本与人脸保真度

相关作者