**Lens:重新思考基础文本到图像模型的训练效率**

_Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models_

> Lens是一个3.8B参数的文本到图像(T2I)模型,其性能在多个基准测试中与超过6B参数的最先进模型相当甚至超越,同时所需训练计算量显著减少(仅为Z-Image的19.3%)。其高效训练源于两个关键策略:首先,通过使用800M高密度字幕数据集(Lens-800M)和混合分辨率批次构建来最大化每个训练批次的信息密度;其次,通过架构选择(如语义VAE和强语言编码器)加速收敛。预训练后,模型应用强化学习、推理模块和蒸馏加速进行系统优化,支持任意宽高比(1:2至2:1)和高达1440^2分辨率,并支持多语言提示。在NVIDIA H100 GPU上,Lens可在3.15秒内生成1024^2图像,蒸馏涡轮版本0.84秒内完成4步生成。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21573)