2026-06-08站内改写2 分钟阅读更新: 2026-06-08

微软研究表明：详细描述比模型规模更重要，Lens以38亿参数高效生成图像

微软研究院推出仅38亿参数的文本到图像模型Lens，利用GPT-4.1生成的8亿条详细描述进行训练，在多个基准测试中媲美数倍于其规模的模型，训练计算量仅为同类模型的五分之一。Lens-Turbo可在不到一秒内生成图像，代码和权重以MIT许可证开源。

来源The Decoder作者: Jonathan Kemper

微软研究院近日发布了名为Lens的文本到图像生成模型，该模型参数仅为38亿，却在多个基准测试中与规模远大于它的模型表现相当，而训练计算量仅为同类模型的五分之一。这一成果得益于其独特的训练数据和架构选择。

Lens的核心优势在于其训练数据集Lens-800M，该数据集包含8亿个图像-文本对，其中文本描述由GPT-4.1生成，平均长度约100词。相比之下，网络上常见的替代文本往往简短模糊甚至完全错误，稀释了学习信号。消融研究明确表明，使用这些长描述训练的效果显著优于短描述或混合描述。

在训练过程中，研究团队在每个批次中混合了不同分辨率和宽高比的图像——从竖屏到横屏。尽管模型仅在固定图像尺寸上训练，却能泛化到未见的格式和高达约两百万像素的分辨率，从而节省了高分辨率数据的昂贵训练开销。

架构方面，Lens采用了多种变分自编码器的变体，最终选择FLUX.2的语义VAE，它在文本到图像训练中表现最佳，同时加速了收敛。文本编码器采用OpenAI的GPT-OSS，这是一个开源语言模型。更强的语言编码器带来了两大好处：模型学习更快，且能处理从未训练过的语言提示——Lens仅使用英文图像-文本对训练，却能接受中文、法语、日语和西班牙语的输入。

预训练完成后，Lens通过强化学习阶段进行微调。研究人员设计了自定义的Lens-RL-8K提示集，涵盖人物、动物、场景、食物、虚构世界和UI设计等十大类别。GPT-4.1为每个提示生成匹配的评估标准，而较小的GPT-4.1-mini充当奖励模型。消融显示，缩小RL集或移除某个类别（如文本重提示）会损害受影响区域的性能，证明了RL提示多样性的重要性。

为了改善用户交互，Lens在图像生成模型前放置了一个推理器（reasoner），默认使用GPT-5.5，也可选用GPT-OSS而无需额外内存。推理器负责将用户的模糊输入重写为详细提示。微软还描述了一种无需额外训练即可迭代改进推理器系统提示的方法，该方法在更大规模的Qwen-Image模型上也取得了积极效果。

在推理速度上，微软构建了蒸馏变体Lens-Turbo，仅需四步推理即可生成图像。标准模型在H100 GPU上生成1百万像素图像约需三秒，而Lens-Turbo不到一秒。在提示忠实度、文本渲染和复杂场景的基准测试中，Lens优于FLUX.2-Klein和Z-Image，部分测试中甚至超越了五倍参数规模的Qwen-Image。

不过，Lens在日文和法文等语言的文本渲染上存在不足，研究人员归因于数据覆盖的缺口。微软已按照MIT许可证开源Lens的代码和模型权重，可在Hugging Face和GitHub获取。微软强调Lens仅用于研究目的，不适合生产环境，且因其训练数据部分来源于网络，模型可能生成有偏见或不当的内容，使用者需自行添加安全措施。