2026-05-19 09:06 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

Flux.2 と Qwen-Image によるサブ秒画像生成

Baseten は、量子化、最適化されたアテンションカーネル、ランタイム改善により、NVIDIA Blackwell GPU 上で Flux.2 [dev] を 2.3 倍、Qwen-Image を 1.6 倍高速化し、Hopper GPU でも大幅な高速化を達成しました。

ソースBaseten Blog

記事インテリジェンス

エンジニア上級

要点

Baseten は B200 GPU 上で Flux.2 [dev] を FP4 量子化により 0.98 秒のサブ秒レイテンシを実現。
最適化には FP4/FP8 量子化、効率的なアテンションカーネル、メモリ最適化が含まれ、CPU オフロードを不要に。
ベンチマークは 1024x1024 画像、8 ステップ、単一画像生成で実施。
同様の手法は Qwen-Image-Layered や Flux.2 [klein] などの他モデルにも適用可能。

重要な理由

このニュースが重要なのは、Baseten は B200 GPU 上で Flux.2 [dev] を FP4 量子化により 0.98 秒のサブ秒レイテンシを実現ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

画像生成は、クリエイティブツール、デザインワークフロー、AIネイティブ製品における中核的な推論ワークロードとなっています。動画生成と同様に、潜在空間での反復的ノイズ除去プロセスに依存し、複数のサンプリングステップで画像を徐々に洗練します。これらのワークロードはレイテンシに非常に敏感で、通常は非常に小さいバッチサイズで実行されるため、単一リクエストのレイテンシを改善することで、ユーザー体験、スループット、コスト効率が直接向上します。

本記事では、Baseten Inference Stack が NVIDIA B200 および H100 GPU 上で Flux.2 [dev] と Qwen-Image の画像生成を、ランタイムおよびサービング最適化を通じてどのように高速化するかを示します。Flux.2 [dev] は Black Forest Labs によるオープンウェイトモデルで、高品質なテキストから画像生成と画像編集を実現し、強力なプロンプト追従性とプロダクション展開向けに設計されています。Qwen-Image は Qwen による基礎画像生成モデルで、複雑なテキストレンダリング、正確な画像編集、多言語テキスト生成で知られています。

最適化された画像生成サービングは、B200 GPU 上で Flux.2 [dev] を最大 2.3 倍、Qwen-Image を最大 1.6 倍高速化します。具体的には、Baseten は B200 GPU 上で FP4 量子化を採用し、Flux.2 [dev] のレイテンシを 0.98 秒に抑え、H100 ベースライン比 5.4 倍、B200 ベースライン比 2.3 倍の高速化を達成しました。Qwen-Image については、FP4 が B200 上で最速の 0.87 秒を実現し、H100 ベースライン比 4 倍、B200 ベースライン比 1.6 倍となりました。

これらの最適化には、ハードウェア認識量子化（B200 で FP4、H100 で FP8）、最適化されたアテンションカーネルおよび要素単位カーネル、ランタイムレベルのサービング改善が含まれます。Flux.2 [dev] の場合、B200 での FP4 によりレイテンシが 1 秒未満になり、H100 では FP8 とメモリ最適化により CPU オフロードが不要となり、レイテンシがほぼ半減しました。Qwen-Image では、FP8 が B200 と H100 の両方で大きな利得をもたらし、FP4 は B200 上で 1.57 倍の高速化を達成しました。

最適化されたサービングは、プロンプト、生成数、出力サイズ、推論ステップ数、シード、ガイダンススケール、ネガティブプロンプト、出力フォーマットなど、一般的な画像生成パラメータをサポートします。ベンチマークでは、n=1、サイズ 1024x1024、推論ステップ 8、シード 42 を使用しました。

この最適化アプローチは Flux.2 や Qwen-Image に限らず、Qwen-Image-Layered、Flux.2 [klein] などの他のモデルにも適用可能です。今後の取り組みとして、特定のワークロードとユースケースに特化したランタイムチューニング、および Blackwell および Hopper GPU 上でのさらなるレイテンシ改善が含まれます。Baseten Inference Stack は、低レイテンシ、高信頼性、効率的な GPU 利用を必要とするプロダクションワークロード向けに構築されており、チームは Hopper と Blackwell GPU の両方で画像生成モデルを展開し、リクエストあたりのコストを削減できます。