AIファクトリー:知能の新たなインフラストラクチャ
AIファクトリーは、電力をリアルタイムでトークン(知能の単位)に変換する新しいインフラです。エージェンティックAIの拡大に伴い、ワットあたりの性能とトークンあたりのコストが重要経済指標となります。本記事では、AIファクトリーの仕組み、アーキテクチャ最適化、NVIDIAの最新ハードウェアによる効率向上を解説します。
記事インテリジェンス
要点
- AIファクトリーは電力をトークンに変換し、知能を生産する「発電所」である。
- 自律エージェントの台頭により、推論ワークロードはより深く複雑になり、リアルタイム調整が必要。
- NVIDIA Blackwell UltraとVera Rubinは、ワットあたりの性能を大幅に向上させ、トークンコストを削減。
- フルスタックのAIファクトリーは、チップからソフトウェアまでの協調設計により、企業展開を支援。
重要な理由
このニュースが重要なのは、AIファクトリーは電力をトークンに変換し、知能を生産する「発電所」であるためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
AIファクトリーは、知能をリアルタイムで生産するために構築された新しいクラスのインフラストラクチャです。産業時代には発電所がエネルギーを電力に変換しましたが、AI時代にはAIファクトリーがエネルギーをトークン(推論モデル、エージェント、インテリジェントシステムの生産単位)に変換します。その経済性は、1秒あたりのトークン数、1ワットあたりのトークン数、トークンあたりのコスト、稼働率、稼働時間によって定義されます。このモデルでは、ワットあたりのパフォーマンスが直接収益につながり、トークンあたりのコストがすべてのAIファクトリーの経済性に影響します。
AIはもはや単なるソフトウェアではなく、不可欠なインフラです。AIファクトリーは大規模な計算リソースを同期させながら、数十億のリクエストを処理します。ソフトウェアによってオーケストレーションされ、自律型マルチエージェントシステムで構成され、24時間稼働して知能を生成します。エージェンティックシステムは、NVIDIA Nemotronを含む最高性能のAIモデルを使用して推論と計画を行い、オープンモデルは企業のドメイン固有のニーズに合わせてカスタマイズ、最適化、安全に展開できます。
AIファクトリーのアーキテクチャは、新しい種類のワークロード向けに設計されています。常時稼働の推論は単なるプロンプト応答以上のものであり、自律エージェントが推論、計画、検索、ツール使用、データ取得、コード作成、行動を実行します。これらのマルチエージェントシステムは、AIワークロードをより長く、より深く、より計算集約的にし、インフラが効率的に動作し続けることを要求します。パフォーマンスは、ワークフロー全体をスムーズに動かし続け、次のステップ、次のアクション、次の決定のために知能を生産し続けることに依存します。
自律エージェントは、高速メモリ、コンテキスト用ストレージ、調整用ネットワーク、オーケストレーション用ソフトウェア、実行用CPUと組み合わせたアクセラレーテッドコンピューティングに依存します。ワークロードはスタック全体を移動し、各ステップで厳しいレイテンシ要件があります。AIファクトリーは、これらのワークフローを継続的に動かし、効率的にトークンを大規模生産するために必要なスループット、応答性、稼働率を提供するフルスタックシステムで構成されます。
ハードウェア、ネットワーク、メモリ、ストレージ、ソフトウェアは協調設計され、各層で継続的に最適化されて稼働率を向上させ、トークンコストを削減し、出力を増やします。応答性とスループットのバランスをとり、生産を最大化します。AIワークフローがより長く、よりインタラクティブになるにつれて、ファクトリーはリアルタイムで動作する必要があります。つまり、リクエストのルーティング、メモリ管理、サービスの調整、レイテンシとスループットのバランス、スタック全体の高稼働率維持が必要です。ソフトウェア層は重要であり、ファクトリーを効率的に運用する能力が、どれだけの知能を生産し、どれだけの価値を生み出すかを決定します。推論は、マシン全体にわたるライブオーケストレーションの課題となっています。
AIコンピューティングにおいて、ワットあたりのパフォーマンスはAIファクトリーの競争力を測る究極の指標となっています。データセンターはかつてファイルを保存していましたが、今やAIファクトリーはトークンを生産します。AIのプロデューサーにとって、その出力は直接収益に影響します。企業にとって、トークンあたりのコストは、AIを収益性高くスケールできるかどうかを決定します。SemiAnalysisのInferenceXベンチマークはこの変化を定量的に示しています:NVIDIA Blackwell Ultra GPUは最小のトークンあたりコストを実現し、同じ電力エンベロープからより多くの知能を低単位コストで生産できるようにします。ワットあたりのトークン数が多いほど、インフラコスト、スペース、電力あたりのスループットが向上します。
NVIDIA GB300 NVL72システムは、メガワットあたりのトークン数が前世代比50倍、トークンあたりのコストはNVIDIA Hopperプラットフォーム比35倍低減します。NVIDIA Dynamoフレームワークは、長コンテキスト推論と大規模推論スループットをオーケストレーションし、ワークロードがよりインタラクティブで複雑になるにつれて稼働率を高く保ちます。NVIDIA Vera Rubinプラットフォームはその曲線をさらに延ばし、推理とエージェンティックAIの拡大に伴い、LPXによりワットあたりのパフォーマンスを最大35倍向上させ、より深いフルスタック最適化によりトークンコストを低減します。
GPUから始まり、NVIDIAはアクセラレーテッドコンピューティング、高速インターコネクト、液冷システム、推論ソフトウェア、自律エージェント、リファレンスアーキテクチャ、そしてそれらを大規模に構築・運用するために必要なエコシステムを含むフルスタックAIファクトリーへと拡大しました。NVIDIAはCisco、Dell、HPE、Lenovo、Supermicroなどのグローバルシステムパートナーと緊密に協力し、AIインフラをエンタープライズデータセンターにもたらします。また、厳選されたAIソフトウェアパートナーのエコシステムに依存して、各企業のユースケース向けのAIソリューションを構築します。これらのAIファクトリーは、エージェンティックAIワークロードからフィジカルAI、ロボティクスまで、幅広いユースケースに展開可能です。金融サービス、ライフサイエンス、製造業、公共部門など、あらゆる業界の組織がAIファクトリーを構築またはレンタルする必要があります。
NVIDIA自身もエンタープライズAIファクトリーを運営し、数百の自律AIエージェントがエンジニアリング、ソフトウェア、運用チームを支援しています。これは実際の証明です:AIファクトリーは企業の構築、設計、運用方法を変革できます。企業内の生産性を向上させ、AIを時々使うツールから日常業務に直接組み込まれる機能へと変えます。AIファクトリーは、単一の事業部門やワークロードをサポートするために小規模から始めることも、大規模な高性能AI推論とトレーニングをサポートするためにゼロから構築することもできます。NVIDIA DSXリファレンスデザインは、設計、シミュレーション、運用、エコシステム技術を統合し、メガワットあたりの最低トークンコストでギガワット級のAIファクトリーを構築します。
これらのギガワット級AIファクトリーの構築には、最適化されたコンピューティング以上のものが必要です。施設設計、ハードウェアシステム、電力、冷却、運用を構築前に共同でモデル化し、展開後に継続的に改善できる共有デジタル環境が必要です。NVIDIA Omniverse DSXブループリントは、デジタルツインでこのワークフローをサポートし、Omniverse、OpenUSD、SimReadyアセットを使用して、施設、ハードウェア、ソフトウェアを接続し、パートナーがAIファクトリーのライフサイクル全体にわたって設計を検証し、運用を最適化できるようにします。
フルスタックアプローチは、組織がすべてのシステムからより多くの知能を抽出し、AIインフラを自律的で常時稼働の推論、行動、洞察のエンジンに変えるのに役立ちます。前回の産業革命はエネルギーを仕事に変換しましたが、今回はエネルギーを知能に変換します。AIファクトリーはこの新時代のインフラであり、次の経済成長の波を推進するために構築されています。