2026-05-19 08:06 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

使用 Flux.2 和 Qwen-Image 实现亚秒级图像生成

Baseten 通过量化、优化注意力内核和运行时改进，在 NVIDIA Blackwell GPU 上实现了 Flux.2 [dev] 2.3 倍和 Qwen-Image 1.6 倍的加速，在 Hopper GPU 上也获得了显著提升。

图像生成已成为创意工具、设计工作流和 AI 原生产品的核心推理负载。与视频生成类似，它依赖于潜在空间中的迭代去噪过程，在多个采样步骤中逐步精炼图像。这类负载对延迟高度敏感，通常以极小的批量运行，因此降低单次请求延迟可以直接改善用户体验、提升吞吐量和成本效率。

在本文中，我们展示了 Baseten 推理栈如何通过一系列运行时和服务优化，在 NVIDIA B200 和 H100 GPU 上加速 Flux.2 [dev] 和 Qwen-Image 的图像生成。Flux.2 [dev] 是 Black Forest Labs 开发的开源权重模型，用于高质量的文本到图像生成和图像编辑，具有强大的提示遵循能力和生产部署特性。Qwen-Image 是 Qwen 团队开发的基础图像生成模型，以其复杂的文本渲染、精确的图像编辑和多语言文本生成能力而闻名。

经过优化的图像生成服务在 B200 GPU 上实现了 Flux.2 [dev] 最高 2.3 倍、Qwen-Image 最高 1.6 倍的加速。具体而言，Baseten 在 B200 GPU 上采用 FP4 量化，使 Flux.2 [dev] 延迟降至 0.98 秒，相比 H100 基线加速 5.4 倍，相比 B200 基线加速 2.3 倍。对于 Qwen-Image，FP4 在 B200 上达到最快结果 0.87 秒，比 H100 基线快 4 倍，比 B200 基线快 1.6 倍。

这些优化包括硬件感知量化（B200 上使用 FP4，H100 上使用 FP8）、优化的注意力内核和逐元素内核、以及运行时级别的服务改进。对于 Flux.2 [dev]，FP4 在 B200 上将延迟缩短至一秒以下，而在 H100 上，FP8 和内存优化消除了 CPU 卸载的需要，使延迟几乎减半。对于 Qwen-Image，FP8 在 B200 和 H100 上均带来显著增益，而 FP4 在 B200 上实现了 1.57 倍的加速。

该优化服务支持常见的图像生成参数，包括提示词、生成数量、输出尺寸、推理步骤数、种子、引导比例、负面提示和输出格式。基准测试使用设置：n=1、尺寸 1024x1024、推理步骤 8、种子 42。

这种优化方法不仅限于 Flux.2 和 Qwen-Image，还可应用于 Qwen-Image-Layered、Flux.2 [klein] 等其他模型。未来的工作包括针对特定工作负载和用例的运行时调优，以及 Blackwell 和 Hopper GPU 上进一步的延迟优化。Baseten 推理栈专为需要低延迟、高可靠性和高效 GPU 利用的生产负载而设计，使团队能够以更低的每请求成本跨 Hopper 和 Blackwell GPU 部署图像生成模型。