2026-05-19 08:06 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

使用 Flux.2 和 Qwen-Image 實現亞秒級圖像生成

Baseten 通過量化、優化注意力內核和運行時改進，在 NVIDIA Blackwell GPU 上實現了 Flux.2 [dev] 2.3 倍和 Qwen-Image 1.6 倍的加速，在 Hopper GPU 上也獲得了顯著提升。

圖像生成已成為創意工具、設計工作流和 AI 原生產品的核心推理負載。與視頻生成類似，它依賴於潛在空間中的迭代去噪過程，在多個採樣步驟中逐步精煉圖像。這類負載對延遲高度敏感，通常以極小的批量運行，因此降低單次請求延遲可以直接改善用户體驗、提升吞吐量和成本效率。

在本文中，我們展示了 Baseten 推理棧如何通過一系列運行時和服務優化，在 NVIDIA B200 和 H100 GPU 上加速 Flux.2 [dev] 和 Qwen-Image 的圖像生成。Flux.2 [dev] 是 Black Forest Labs 開發的開源權重模型，用於高質量的文本到圖像生成和圖像編輯，具有強大的提示遵循能力和生產部署特性。Qwen-Image 是 Qwen 團隊開發的基礎圖像生成模型，以其複雜的文本渲染、精確的圖像編輯和多語言文本生成能力而聞名。

經過優化的圖像生成服務在 B200 GPU 上實現了 Flux.2 [dev] 最高 2.3 倍、Qwen-Image 最高 1.6 倍的加速。具體而言，Baseten 在 B200 GPU 上採用 FP4 量化，使 Flux.2 [dev] 延遲降至 0.98 秒，相比 H100 基線加速 5.4 倍，相比 B200 基線加速 2.3 倍。對於 Qwen-Image，FP4 在 B200 上達到最快結果 0.87 秒，比 H100 基線快 4 倍，比 B200 基線快 1.6 倍。

這些優化包括硬件感知量化（B200 上使用 FP4，H100 上使用 FP8）、優化的注意力內核和逐元素內核、以及運行時級別的服務改進。對於 Flux.2 [dev]，FP4 在 B200 上將延遲縮短至一秒以下，而在 H100 上，FP8 和內存優化消除了 CPU 卸載的需要，使延遲幾乎減半。對於 Qwen-Image，FP8 在 B200 和 H100 上均帶來顯著增益，而 FP4 在 B200 上實現了 1.57 倍的加速。

該優化服務支持常見的圖像生成參數，包括提示詞、生成數量、輸出尺寸、推理步驟數、種子、引導比例、負面提示和輸出格式。基準測試使用設置：n=1、尺寸 1024x1024、推理步驟 8、種子 42。

這種優化方法不僅限於 Flux.2 和 Qwen-Image，還可應用於 Qwen-Image-Layered、Flux.2 [klein] 等其他模型。未來的工作包括針對特定工作負載和用例的運行時調優，以及 Blackwell 和 Hopper GPU 上進一步的延遲優化。Baseten 推理棧專為需要低延遲、高可靠性和高效 GPU 利用的生產負載而設計，使團隊能夠以更低的每請求成本跨 Hopper 和 Blackwell GPU 部署圖像生成模型。