AI News HubLIVE
站内改写4 分で読了

NVIDIA Blackwell、初のエージェンティックAIインフラストラクチャベンチマークでリード

Artificial Analysis が業界初のエージェンティックAIベンチマーク「AgentPerf」を公開。初回結果ではNVIDIA Blackwell Ultra NVL72プラットフォームがエージェンティックAIワークロードでトップの性能を示し、NVIDIA Hopperと比較して1メガワットあたり20倍のエージェントを実行。ベンチマークは実際のコーディングエージェントの軌跡に基づき、応答性と出力トークンレートの閾値を満たした状態で同時にサポート可能なエージェントタスク数を測定する。

ソースNVIDIA Blog著者: Shruti Koparkar

Artificial Analysis は、エージェンティックAI向けインフラストラクチャの業界初のベンチマーク「AgentPerf」を公開しました。このベンチマークは、開発者、企業、インフラプロバイダーがエージェンティックAI向けのシステムを比較するための明確な方法を提供します。公開された最初の結果では、NVIDIA Blackwell Ultra NVL72プラットフォームがテストされたすべてのエージェンティックAIワークロードでリーディングパフォーマンスを示し、NVIDIA Hopperと比較して1メガワットあたり20倍のエージェントを実行しました。

エージェンティックAIは、会話型AIとは根本的に異なるワークロードです。単一のチャット完了はスプリントのようなもので、1回の大規模言語モデル(LLM)呼び出しと1つの応答です。一方、エージェントはリレーのように機能し、目標を複数のステップに分割し、タスクが完了するまで継続します。エージェントは複数のLLM呼び出しとツール呼び出しを連鎖させ、コンテキストを収集し、観察し、推論し、行動します。これにより、数十から数百のLLM呼び出しが連鎖し、それぞれが増大するコンテキストを次に渡し、コードコンパイルと実行、データベース検索、ウェブブラウジングなどのツール呼び出しが各ハンドオフで発生します。複雑性は加算的ではなく、乗算的です。

この違いはパフォーマンス測定において非常に重要です。既存のAI推論ベンチマークは単一のLLM呼び出しを測定します。つまり、システムが単一のリクエストにどれだけ速く応答し、同時にいくつのリクエストを処理できるかを測定します。これらはエージェンティックワークロード向けに設計されておらず、連鎖的なLLM呼び出し、ツール呼び出しの遅延、増大するコンテキストは、単一のLLM呼び出しでは決して不可能な方法でアクセラレーテッドコンピューティングシステムに負荷をかけます。大規模にエージェントを構築・展開する企業にとって、エージェントの応答性、同時に展開できる数、投資したドルとワットあたりにどれだけの有用な作業を提供できるかを理解することが重要です。

最初のラウンドでは、AgentPerfはDeepSeek V4 Pro(大規模混合専門家モデル)を使用してエージェンティックパフォーマンスを測定します。このモデルは、今日の最も能力の高いエージェントを駆動するフロンティアモデルを代表するものです。このワークロードにおいて、NVIDIA GB300 NVL72はベンチマークで最高のパフォーマンスを達成し、NVIDIA HGX H200システムと比較して1メガワットあたり最大20倍のエージェントを実行します。エージェントあたり20および60トークン/秒のサービスレベル目標において、GB300 NVL72はH200よりも1メガワットあたりはるかに多くの同時エージェントをサポートします。

このパフォーマンスの優位性は、フルスタックにわたる極限のコデザインに由来します。GB300 NVL72は72基のGPUを単一のラックスケールシステムに接続し、DeepSeek V4 Proのような大規模MoEモデルがスケールで効率的にモデル実行を分散できるようにします。CUDAカーネルは通信と計算をオーバーラップさせることでこれをさらに加速し、専門家間の調整コストがレイテンシに追加されるのではなく吸収されます。NVIDIA TensorRT LLMは、同時エージェントセッションのスケーリングに伴い効率を維持します。例えば、入力の処理と出力の生成を分離し、それぞれを独立して最適化できるようにします。

これらの結果は、エージェンティックAIが実際に生産環境でどのように機能するかを反映するためにゼロから構築されたベンチマーク手法に基づいています。AgentPerfは実際のコーディングエージェントの軌跡に基づいて構築されています。エージェントはタスクを受け取り、ファイルを読み取り、コードを作成・編集し、コマンドを実行し、結果に基づいて反復します。これらはすべて、12以上のプログラミング言語にわたる実際の公開コードリポジトリから取得されています。長いシーケンス長、ツール呼び出しのパターンと遅延は、すべて現実のコーディングワークフローを代表しています。AgentPerfは、応答性と出力トークンレートに関する定義されたパフォーマンス閾値を満たしながら、プラットフォームが同時にいくつのエージェンティックタスクをサポートできるかを測定します。ツール呼び出しは実行されず、代表的なCPU処理時間を使用してシミュレーションされるため、結果の違いはアクセラレーテッドコンピューティングのパフォーマンスのみを反映します。

結果は直接インフラストラクチャの決定に変換されます。アクセラレーターあたりおよび電力1メガワットあたりにいくつの同時エージェンティックタスクを実行できるかです。大規模にAIエージェントを展開する企業にとって、これらの数値は、与えられたインフラ投資が実際にどれだけの生産的な作業を提供できるかを決定します。

Baseten、DeepInfra、Together AIなどの主要な推論プロバイダーは、すでにNVIDIA Blackwell上でDeepSeek V4 Proなどのフロンティアモデルを使用してエージェンティックワークロードを提供し、本番のエージェンティックアプリケーションを動かしています。Together AIは、AI駆動のエージェンティックコーディングプラットフォームCursorにBlackwell上でリアルタイム推論を提供しています。Cursorのエージェントは、開発者が作業を続けている間に、バグのデバッグ、機能の生成、リファクタリングの実行を行います。DeepInfraは、自動車ディーラー向けAIワークフォースプラットフォームPam.aiを支えており、このプラットフォームは完全にNVIDIA Blackwell上でエージェントを展開し、サービスの予約、電話対応、アウトバウンドセールスキャンペーンを実行しています。NVIDIAとオープンソースコミュニティが推論ソフトウェアの最適化を続けるにつれ、エージェンティックワークロードのパフォーマンスと効率はさらに向上するでしょう。NVIDIA Vera Rubinアーキテクチャは現在フル生産に入っており、スケールでのエージェンティックAIの増大する需要に応える次世代のインフラストラクチャ容量をもたらします。