AI News HubLIVE
站內改寫2 分鐘閱讀

使用 Flux.2 和 Qwen-Image 實現亞秒級圖像生成

Baseten 通過量化、優化注意力內核和運行時改進,在 NVIDIA Blackwell GPU 上實現了 Flux.2 [dev] 2.3 倍和 Qwen-Image 1.6 倍的加速,在 Hopper GPU 上也獲得了顯著提升。

圖像生成已成為創意工具、設計工作流和 AI 原生產品的核心推理負載。與視頻生成類似,它依賴於潛在空間中的迭代去噪過程,在多個採樣步驟中逐步精煉圖像。這類負載對延遲高度敏感,通常以極小的批量運行,因此降低單次請求延遲可以直接改善用户體驗、提升吞吐量和成本效率。

在本文中,我們展示了 Baseten 推理棧如何通過一系列運行時和服務優化,在 NVIDIA B200 和 H100 GPU 上加速 Flux.2 [dev] 和 Qwen-Image 的圖像生成。Flux.2 [dev] 是 Black Forest Labs 開發的開源權重模型,用於高質量的文本到圖像生成和圖像編輯,具有強大的提示遵循能力和生產部署特性。Qwen-Image 是 Qwen 團隊開發的基礎圖像生成模型,以其複雜的文本渲染、精確的圖像編輯和多語言文本生成能力而聞名。

經過優化的圖像生成服務在 B200 GPU 上實現了 Flux.2 [dev] 最高 2.3 倍、Qwen-Image 最高 1.6 倍的加速。具體而言,Baseten 在 B200 GPU 上採用 FP4 量化,使 Flux.2 [dev] 延遲降至 0.98 秒,相比 H100 基線加速 5.4 倍,相比 B200 基線加速 2.3 倍。對於 Qwen-Image,FP4 在 B200 上達到最快結果 0.87 秒,比 H100 基線快 4 倍,比 B200 基線快 1.6 倍。

這些優化包括硬件感知量化(B200 上使用 FP4,H100 上使用 FP8)、優化的注意力內核和逐元素內核、以及運行時級別的服務改進。對於 Flux.2 [dev],FP4 在 B200 上將延遲縮短至一秒以下,而在 H100 上,FP8 和內存優化消除了 CPU 卸載的需要,使延遲幾乎減半。對於 Qwen-Image,FP8 在 B200 和 H100 上均帶來顯著增益,而 FP4 在 B200 上實現了 1.57 倍的加速。

該優化服務支持常見的圖像生成參數,包括提示詞、生成數量、輸出尺寸、推理步驟數、種子、引導比例、負面提示和輸出格式。基準測試使用設置:n=1、尺寸 1024x1024、推理步驟 8、種子 42。

這種優化方法不僅限於 Flux.2 和 Qwen-Image,還可應用於 Qwen-Image-Layered、Flux.2 [klein] 等其他模型。未來的工作包括針對特定工作負載和用例的運行時調優,以及 Blackwell 和 Hopper GPU 上進一步的延遲優化。Baseten 推理棧專為需要低延遲、高可靠性和高效 GPU 利用的生產負載而設計,使團隊能夠以更低的每請求成本跨 Hopper 和 Blackwell GPU 部署圖像生成模型。