AIゲートウェイのベンチマーク:GoModel vs LiteLLM vs Portkey vs Bifrost
本記事では、4つのAIゲートウェイのホットパスにおけるランタイムオーバーヘッドを比較し、レイテンシ、スループット、メモリ、CPU、コールドスタート時間、イメージサイズを計測しています。GoModelがほぼ全ての指標で優れており、LiteLLMはリソース消費が大きいことが判明しました。また、ローカルモデルやサーバーレスデプロイにおける軽量ゲートウェイの重要性についても議論しています。
2026年6月26日、Jakub A. Wasek氏はAIゲートウェイのベンチマークに関する詳細な記事を公開しました。記事は、ほとんどのAIゲートウェイの比較がランタイムオーバーヘッドという重要な要素を見逃していると指摘します。同氏は当初、LiteLLMを基にスタートアップを構築しようとしましたが、ホットパスに配置したところ、そのリソース消費が大きすぎると感じました。そこで、Go言語で記述された軽量なオープンソースAIゲートウェイ「GoModel」を開発し、再現可能なベンチマークを約束しました。
ベンチマークはAWS c7i.largeインスタンス上でDockerを使用して実施されました。各ゲートウェイは同一のモックバックエンドに接続し、ネットワークジッターの影響を排除しました。テストでは、チャット補完やレスポンスAPIのストリーミング・非ストリーミングを含む6つのワークロードを実行し、各ゲートウェイに対して8000リクエスト(同時実行数10)を送信しました。計測指標は、中央値レイテンシ、P99レイテンシ、スループット、ピークメモリ、リクエスト効率、コールドスタート時間、Dockerイメージサイズです。
結果は以下の通りです:GoModelは中央値レイテンシ1.8ミリ秒、P99レイテンシ6.9ミリ秒、スループット4900 req/s、ピークメモリ37MB、コールドスタート0.56秒、イメージサイズ(圧縮後)16MBと最も優れていました。Bifrostは中央値レイテンシ2.5ミリ秒、P99レイテンシ18.3ミリ秒、スループット3100 req/s、メモリ143MB、コールドスタート7.1秒と続きました。Portkeyは中央値レイテンシ9.7ミリ秒、P99レイテンシ30.5ミリ秒、スループット950 req/s、メモリ112MB、コールドスタート1.1秒でした。LiteLLMは中央値レイテンシ30.6ミリ秒、P99レイテンシ39.3ミリ秒、スループット324 req/s、メモリ2.3GB、コールドスタート25.5秒、イメージサイズ372MBと最も劣っていました。
著者は、これらの数値がゲートウェイをどこにデプロイできるかを決定すると強調します。特に、ローカルモデル(vLLM、Ollamaなど)は応答時間が短いため、ゲートウェイのオーバーヘッドが大きな影響を与えます。軽量なゲートウェイは、サイドカーとして、または小規模なVM、サーバーレス、エッジデバイス上で実行できるため、運用の選択肢が広がります。
また、記事ではオープンソースとベンダーニュートラル性についても言及しています。BifrostはMaxim AIによって開発され、同社の評価プラットフォームと密接に統合されています。Portkeyのストレージやダッシュボードはクローズドなマネージド層にあり、LiteLLMのエンタープライズ版は商用ライセンスが必要です。GoModelは現在完全にオープンソースであり、コアゲートウェイは独立して使用できるように設計されています。
ベンチマークの完全なコードと実行スクリプトは公開されており、読者は「./run.sh」を実行してAWS上で再現できます(費用は自己負担)。著者は最後に、GoModelを作成したのは単に別のAIゲートウェイを増やすためではなく、既存のゲートウェイがホットパス上で問題となっていたからだと述べています。