2026-06-20站内改写2 分で読了更新: 2026-06-20

拡散ベースのLLM：トークンを逐次ではなく並列生成し、高速化・低コスト化

Inception社は、従来の自己回帰型ではなく拡散モデルを採用した次世代大規模言語モデルを開発。複数のトークンを並列生成することで、速度を数倍に向上させ、コストを半分以下に削減する。Mercuryシリーズ（推論用dLLMとコード編集用）はフォーチュン500企業で導入され、顕著な性能向上を示している。

ソースHacker News AI著者: binyu

記事インテリジェンス

エンジニア上級

要点

Inceptionは拡散モデルを用いてLLMのトークン生成を並列化し、高速化と低コスト化を実現。
Mercury 2は初の推論特化型拡散LLM、Mercury Edit 2はコード編集向けで低遅延。
フォーチュン500企業での導入実績があり、顧客は遅延82%削減、コスト90%削減を報告。
チームはスタンフォード、Google DeepMind、OpenAIなどから集結し、拡散モデルやFlash Attentionなどの研究成果を持つ。

重要な理由

このニュースが重要なのは、Inceptionは拡散モデルを用いてLLMのトークン生成を並列化し、高速化と低コスト化を実現ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Inception社は、拡散モデルに基づく新しい大規模言語モデル（LLM）を発表しました。従来の自己回帰型LLMがトークンを1つずつ逐次生成するのに対し、拡散LLM（dLLM）は複数のトークンを並列に生成します。これにより、最先端の品質を維持しながら、速度は数倍、コストは半分以下に抑えられます。

拡散モデルは元々画像や動画生成（SoraやMidJourneyなど）で成功を収めていましたが、Inceptionはこれを言語モデリングに革新的に応用しました。このフレームワークは、特定のスキーマや意味的制約に厳密に従う出力制御を可能にし、音声、画像、動画などの他のモダリティと自然に統合できます。例えば、ユーザーはJSONスキーマに従った出力を要求したり、複数の候補を同時に反復最適化することができます。

Inceptionは2つの主要モデルを提供しています。Mercury 2は「最速の推論LLM」かつ「初の推論dLLM」とされ、複雑なアプリケーション（リアルタイムエージェント、音声対話など）に適しています。Mercury Edit 2はコード編集に特化した小型モデルで、極めて低レイテンシーであり、IDEに統合して即時補完を提供するのに適しています。両モデルとも入力100万トークンあたり0.25ドル、出力100万トークンあたり0.75ドルという競争力のある価格設定です。

これらのモデルはすでに複数のフォーチュン500企業で導入されています。顧客の報告によれば、Mercury 2は要約タスクのレイテンシーを82%削減し、コストを90%削減しました。音声エージェント企業のCEOは「Mercuryを使った後は元の環境に戻るのが難しい」と述べ、コードエディタの共同創業者は「速度はフロー状態を保つために不可欠であり、Mercuryの補完は開発者の思考の一部のように感じられる」と評価しています。

Inceptionのチームは、スタンフォード大学、UCLA、コーネル大学、Google DeepMind、Meta AI、Microsoft AI、OpenAIなどのトップ研究機関から集まった研究者で構成されています。拡散モデル、Flash Attention、直接選好最適化（DPO）などの分野で先駆的な成果を挙げており、企業向けのプライバシー保証やAWS Bedrock、Azure Foundryを通じたサービス提供、ファインチューニングやプライベートデプロイにも対応しています。InceptionのモデルはOpenAI APIと互換性があり、従来のLLMをシームレスに置き換えることができます。

この技術的ブレークスルーは、LLMの推論効率の大きな飛躍を示唆しており、AIアプリケーションの開発手法とコスト構造を変革する可能性を秘めています。