AI News HubLIVE
站内改写2 分で読了

初の推論拡散LLM「Mercury 2」がBasetenで利用可能に

Inceptionが開発したMercury 2は、拡散アーキテクチャを採用した最速の推論LLMです。従来の自己回帰モデルとは異なり、並列処理により標準NVIDIA GPU上で毎秒1000トークン以上の生成速度を実現。速度は同等クラスのモデルより5〜10倍高速で、コストは半分以下、品質はHaikuやGPT-5 miniに匹敵します。Augment Codeは本番環境で使用し、コストを90%、レイテンシを82%削減しました。Basetenがエンタープライズ級の推論プラットフォームを提供します。

ソースBaseten Blog

AIモデルの分野に大きな進展がありました。Inception Labsによる初の拡散アーキテクチャ採用の大規模言語モデル(dLLM)「Mercury 2」が、Baseten推論プラットフォームを通じて開発者に提供開始されました。Basetenは本番級の拡散LLMを提供する初の推論プラットフォームであり、専用チップを必要とせずにリアルタイム推論を実現します。

Mercury 2は毎秒1,000トークン以上の生成速度を達成し、NVIDIA H100やBlackwellなどの汎用GPU上で動作します。コストは同等性能のモデルの半分以下でありながら、品質はHaikuやGPT-5 miniに匹敵します。これは従来、専用AIチップでのみ可能だった速度です。

従来の自己回帰型LLMはトークンを逐次生成するため、本質的に速度の上限がありました。投機的デコードやマルチヘッドアーキテクチャなどの工夫が施されてきましたが、これらはあくまで推論時のパッチであり、根本的な制約を除去するものではありません。拡散LLMは全く異なるアプローチを取ります。まず完全な出力を並行して生成し、その後複数のパスで全体を洗練させます。この速度はモデル自体の設計に組み込まれており、将来の改善余地も大きく残されています。

Augment CodeはMercury 2を本番環境で最初に採用したチームの一つです。このAIコーディングプラットフォームは、コンテキスト圧縮という重要なタスクにMercury 2を専用サブモデルとして利用し、コストを90%、レイテンシを82%削減しました。圧縮ステップは約150秒から27秒に短縮され、ほぼ認識されないほど高速化しました。MCPサーバーツール検索では、Mercury 2が1秒未満でサマリーを返し、エージェントが次のツール選択をシームレスに行えるようになりました。

「当社の目標はLLMの経済性と性能を根本的に再定義し、より有用にすることです。画期的なアーキテクチャの構築は戦いの半分に過ぎず、市場に届けるには同等に革新的なインフラパートナーが必要です。Basetenは推論のゴールドスタンダードであり、彼らと協力することで、お客様は生の並列速度とともに、エンタープライズ本番環境に求められる堅牢な分離、グローバルスケール、コンプライアンスを手に入れられます。」—— Inceptionチーム

Basetenが提供するソリューションは、NVIDIA H100やBlackwell GPU上でのデプロイメントを含み、常時稼働容量とバーストスケーリングを組み合わせてトラフィック急増に対応します。Baseten Frontier Gatewayによる顧客ごとのレート制限、リクエスト優先順位付け、APIルーティング、メトリクスと可観測性、音声などの超低レイテンシワークロード向けのBlackwellクラスター(ターゲットエンドツーエンド遅延150~250ミリ秒)などが含まれます。

Mercury 2が示す教訓は、最新のAIアプリケーションがマルチモデルシステムへと進化する中で、すべての呼び出しに最も高価なモデルを使う必要はないということです。ユーザーの意図を推論する部分にはClaudeが必要かもしれませんが、ルーティング、圧縮、検索、要約などのタスクには、高速でコスト効率が高く、十分に賢いモデルが適しています。Mercury 2はまさにその層のために設計されています。

現在Mercury 2はBasetenで利用可能です。マルチエージェントシステム、コーディングツール、音声アプリケーション、または現在単一の高価なモデルにすべてのトラフィックをルーティングしている場合、Mercury 2を試す価値があります。Basetenでは無料の概念実証(POC)を提供しています。