AI News HubLIVE
站内改写2 分钟阅读

使用 Flux.2 和 Qwen-Image 实现亚秒级图像生成

Baseten 通过量化、优化注意力内核和运行时改进,在 NVIDIA Blackwell GPU 上实现了 Flux.2 [dev] 2.3 倍和 Qwen-Image 1.6 倍的加速,在 Hopper GPU 上也获得了显著提升。

图像生成已成为创意工具、设计工作流和 AI 原生产品的核心推理负载。与视频生成类似,它依赖于潜在空间中的迭代去噪过程,在多个采样步骤中逐步精炼图像。这类负载对延迟高度敏感,通常以极小的批量运行,因此降低单次请求延迟可以直接改善用户体验、提升吞吐量和成本效率。

在本文中,我们展示了 Baseten 推理栈如何通过一系列运行时和服务优化,在 NVIDIA B200 和 H100 GPU 上加速 Flux.2 [dev] 和 Qwen-Image 的图像生成。Flux.2 [dev] 是 Black Forest Labs 开发的开源权重模型,用于高质量的文本到图像生成和图像编辑,具有强大的提示遵循能力和生产部署特性。Qwen-Image 是 Qwen 团队开发的基础图像生成模型,以其复杂的文本渲染、精确的图像编辑和多语言文本生成能力而闻名。

经过优化的图像生成服务在 B200 GPU 上实现了 Flux.2 [dev] 最高 2.3 倍、Qwen-Image 最高 1.6 倍的加速。具体而言,Baseten 在 B200 GPU 上采用 FP4 量化,使 Flux.2 [dev] 延迟降至 0.98 秒,相比 H100 基线加速 5.4 倍,相比 B200 基线加速 2.3 倍。对于 Qwen-Image,FP4 在 B200 上达到最快结果 0.87 秒,比 H100 基线快 4 倍,比 B200 基线快 1.6 倍。

这些优化包括硬件感知量化(B200 上使用 FP4,H100 上使用 FP8)、优化的注意力内核和逐元素内核、以及运行时级别的服务改进。对于 Flux.2 [dev],FP4 在 B200 上将延迟缩短至一秒以下,而在 H100 上,FP8 和内存优化消除了 CPU 卸载的需要,使延迟几乎减半。对于 Qwen-Image,FP8 在 B200 和 H100 上均带来显著增益,而 FP4 在 B200 上实现了 1.57 倍的加速。

该优化服务支持常见的图像生成参数,包括提示词、生成数量、输出尺寸、推理步骤数、种子、引导比例、负面提示和输出格式。基准测试使用设置:n=1、尺寸 1024x1024、推理步骤 8、种子 42。

这种优化方法不仅限于 Flux.2 和 Qwen-Image,还可应用于 Qwen-Image-Layered、Flux.2 [klein] 等其他模型。未来的工作包括针对特定工作负载和用例的运行时调优,以及 Blackwell 和 Hopper GPU 上进一步的延迟优化。Baseten 推理栈专为需要低延迟、高可靠性和高效 GPU 利用的生产负载而设计,使团队能够以更低的每请求成本跨 Hopper 和 Blackwell GPU 部署图像生成模型。