Lens文本到图像模型：3.8B参数实现高效训练与高性能

原帖

**Lens：重新思考基础文本到图像模型的训练效率**

_Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models_

> Lens是一个3.8B参数的文本到图像（T2I）模型，其性能在多个基准测试中与超过6B参数的最先进模型相当甚至超越，同时所需训练计算量显著减少（仅为Z-Image的19.3%）。其高效训练源于两个关键策略：首先，通过使用800M高密度字幕数据集（Lens-800M）和混合分辨率批次构建来最大化每个训练批次的信息密度；其次，通过架构选择（如语义VAE和强语言编码器）加速收敛。预训练后，模型应用强化学习、推理模块和蒸馏加速进行系统优化，支持任意宽高比（1:2至2:1）和高达1440^2分辨率，并支持多语言提示。在NVIDIA H100 GPU上，Lens可在3.15秒内生成1024^2图像，蒸馏涡轮版本0.84秒内完成4步生成。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-25 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.21573)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

Lens是一个3.8B参数的文本到图像模型，通过高密度数据和架构优化，其训练计算量仅为Z-Image的19.3%，性能却与超过6B参数的模型相当。它支持任意宽高比和高达1440^2分辨率。

答案说明

Lens模型通过使用800M高密度字幕数据集和混合分辨率批次构建来最大化信息密度，并采用语义VAE和强语言编码器等架构选择来加速收敛，从而实现了高效训练。

这篇帖子回答的问题

Lens文本到图像模型如何实现高效训练？
Lens模型的主要性能参数和特点是什麼？

核心观点

Lens模型通过使用高密度数据集和混合分辨率批次构建，显著提升了训练效率。
Lens模型在保持高性能的同时，支持任意宽高比和高分辨率图像生成。

FAQ

Q: Lens模型的参数量是多少？: A: Lens模型拥有3.8B参数。
Q: Lens模型支持哪些图像生成特性？: A: 根据帖子，Lens模型支持任意宽高比（1:2至2:1）、高达1440^2的分辨率以及多语言提示。

关键实体

Lens
Z-Image
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题