大規模推論を効率化する基礎研究
AIが研究から生産へ移行するにつれ、AIネイティブチームの課題はモデル構築から、効率的で信頼性が高く大規模なモデル運用へとシフトしています。推論コストは生産AIシステムの総ライフタイムコストの80~90%を占めます。Together AIはFlashAttention-4やATLASなどの研究と、フルスタックのハードウェア最適化、インテリジェントなスケジューリングにより、効率的な推論を実現し、顧客のユニットエコノミクスを改善します。
人工知能(AI)が研究段階から実運用へと移行するにつれて、AIネイティブチームが直面する課題は、モデルを構築することから、それを効率的に、信頼性高く、大規模に稼働させることへと変化しています。推論(inference)は、すべてのユーザークエリ、エージェントステップ、API呼び出しに対して継続的に実行されるため、生産AIシステムの総ライフタイムコストの80~90%を占めると推定されています。トレーニングが一時的な投資であるのに対し、推論コストは新規ユーザーやユースケースの拡大に比例して増加します。
NVIDIA GTC 2026において、NVIDIAのCEOであるジェンスン・フアン氏は次のように明確に述べています。「人々は情報にお金を払うが、ほとんどの場合、仕事にお金を払う。エージェントシステムは仕事を完了させる。」このAIの新奇性から実用的な道具への移行は、まさにインフラストラクチャの優先順位を再形成しています。Together AIにとって、これは新しい課題ではありません。同社のCTOであるCe Zhang氏はGTCで、業界で最も要求の厳しい生産推論ワークロードの運用から得た貴重な教訓を共有しました。
なぜ推論は特に難しいのか
実運用における推論は、単に「モデルを実行する」ことではありません。それは、複数の競合する次元を同時に最適化する問題です。
- レイテンシは、何を構築できるかを決定します。コーディングアシスタントやリアルタイムサポート、会話エージェントなどのアプリケーションでは、500ミリ秒未満の応答時間は必須条件であり、製品がソフトウェアのように感じられるか、待ち時間のように感じられるかを左右します。エージェントワークフローはこれをさらに増幅します。各200ミリ秒のモデル呼び出しが5回あれば、ユーザーが結果を確認するまでに合計1秒のレイテンシが蓄積されます。
- スループットはユニットエコノミクスを決定します。AIネイティブ企業は従来のSaaSとは構造的に異なるコストプロファイルに直面しています。レガシーソフトウェア企業が80~90%の粗利率を目標とするのに対し、AI企業は一般的に50~60%で運営されており、推論だけでスケーリング段階の企業の収益の約23%を占めています。効率的な推論は、GPU時間あたりにより多くのリクエストを処理することを意味し、その計算は直接マージンに影響します。
- モデル環境は常に変化します。今日のモデルに最適化された推論スタックは、明日のモデルでは大幅な再調整が必要になる可能性があります。新しいアーキテクチャ、量子化手法、ハードウェアが登場し続けており、最先端を維持するには、一度きりの最適化ではなく、スタック全体への継続的な投資が必要です。
- 同時実行性は容赦がありません。数千の同時ユーザーにサービスを提供するには、異なるコンテキスト長、レイテンシ要件、コストプロファイルをすべて一度に、パフォーマンスの低下なしに処理する必要があります。これは、計算上の課題であると同時に、スケジューリングとオーケストレーションの課題でもあります。
Together AIの推論アプローチ
Together AIの推論へのアプローチは、単一の最適化ではありません。研究、システムエンジニアリング、ハードウェアの専門知識を組み合わせた複合スタックであり、フロンティアが進むにつれて継続的に改善されるように設計されています。
- 研究を本番環境に迅速に展開:Together Researchチームは、FlashAttention(現在はFlashAttention-4まで)、ThunderKittens、Aurora(オープンソースの適応型投機的復号システムで、LLM推論を最大1.25倍高速化)など、推論効率において最も広く採用されている進歩のいくつかに貢献しています。この研究は通常、公開から数週間以内に顧客向けの本番環境に投入されます。
- 適応型投機的復号:標準的な投機的復号では、静的で小さなドラフトモデルを使用してトークンを提案し、大きなモデルが並行して検証します。コード補完や構造化出力などの予測可能なワークロードでは1.5~3倍の高速化が達成されます。Together AIのATLASおよびAuroraシステムはさらに一歩進んでいます。Auroraは、強化学習ベースのオープンソースフレームワークで、ライブの推論トレースからリアルタイムに学習し、トラフィックパターンの変化に適応します。適切にトレーニングされた静的投機器と比較しても意味のある高速化を達成し、サービスの中断はありません。
- フルスタックハードウェア最適化:最新のNVIDIA Blackwellハードウェア(GB200 NVL72、HGX B200)上で動作するために、72-GPUメッシュ全体にわたるカスタム並列戦略、NVFP4量子化の実装、モデルリリースを数日で完了させるための重みから本番へのパイプラインを構築しています。Cursorが数百万のアクティブな開発者に本番グレードのレイテンシを必要としたとき、Together AIはそれを実現するフルスタックインフラを構築し、厳格なレイテンシSLAを処理しました。
- インテリジェントなスケジューリングとバッチ処理:高スループット推論には、どのリクエストをバッチ処理するか、コンテキスト長とレイテンシ要件に基づいてどのようにルーティングするか、いつスループットと応答性をトレードオフするかなど、スマートなリアルタイム意思決定が必要です。Together AIの推論エンジンはこれを動的に処理し、AIネイティブアプリが依存するエクスペリエンスを犠牲にすることなく、各GPU時間から最大の効率を引き出します。
適切な最適化の経済効果
スタンフォード大学の2025 AI Indexは、注目すべきトレンドを示しています。GPT-3.5レベルの推論コストは、2022年後半から2024年後半の間に280分の1以上に低下しました。しかし、トータルの推論支出は増加しています。コストが下がるにつれて、チームはより多くのユースケース、ユーザー、エージェントステップにAIを展開するからです。トークンあたりのコスト低下はインフラの課題を軽減せず、その適用範囲を拡大しました。Together AIは、ハードウェアとソフトウェアのスタック全体を最適化することで、顧客により良い収益性を提供し続けています。
AIネイティブ企業にとって、推論最適化は複利的な優位性をもたらします。推論効率が2倍になれば、同じハードウェアでより多くの顧客にサービスを提供できるだけでなく、以前は実現できなかったユースケースが可能になります。効率改善のたびに利益率が直接向上し、時間の経過とともに構築可能なものも拡大します。
Together AIは、単に高速な推論を提供するだけでなく、AIネイティブチームがコストの成長を収益の成長よりも速くすることなく拡大できるようにするインフラ層であることを誇りにしています。
Together AIで次のステップを構築する準備はできていますか?今すぐ始めましょう。