2026-05-15 11:42 UTC+9サイト内リライト4 分で読了更新: 2026-06-27 09:25 UTC+9

MCP対CLI論争：速度を巡る議論の背後にある推論基盤と安全な実行

PerplexityのCTOがMCPからAPI/CLIへの移行を発表し、MCPのオーバーヘッドと速度に関する議論が勃発。本記事では、MCPのトークン消費とレイテンシ問題を分析するとともに、Cerebrasのウェハースケールエンジンによる高速推論やMontyインタプリタによる安全なコード実行環境がこれらの問題を緩和し、MCPとCLIの両方に利益をもたらす可能性を探る。

ソースCerebras Blog

記事インテリジェンス

エンジニア上級

要点

PerplexityはMCPのレイテンシを理由にCLI/APIへ移行、支持者はMCPのトークン消費がCLIの最大42倍と指摘
Cerebrasのウェハースケール推論は最大15倍高速なトークン生成を実現し、MCPのオーバーヘッドを現実的に
Monty（Rust製の最小限Pythonインタプリタ）は0.06ミリ秒で起動し、安全な実行レイテンシを大幅削減
推論基盤と実行環境の改善はMCPとCLIの両方に有益であり、プロトコル選択だけが問題ではない

重要な理由

このニュースが重要なのは、PerplexityはMCPのレイテンシを理由にCLI/APIへ移行、支持者はMCPのトークン消費がCLIの最大42倍と指摘ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

2026年4月6日、PerplexityのAsk 2026カンファレンスにおいて、CTOのDenis Yaratsが同社がMCP（Model Context Protocol）からAPIおよびCLIへ移行することを発表しました。この発表は即座にTwitter上で2つの陣営に分裂する議論を引き起こしました。

MCPは2024年11月にAnthropicがオープンスタンダードとして公開して以来、13ヶ月で月間ダウンロード数が9700万を超え、多くの企業やプラットフォームに採用されるまでに成長していました。しかし、有力なAI企業であるPerplexityはそこから離れる選択をしました。

MCPのオーバーヘッドは恣意的なものではありません。このプロトコルは、モデルのインタラクションを特定の監査可能な経路に導くように設計されています。すべてのツール呼び出しには完全なスキーマ定義が付随し、すべての認証ハンドシェイクはエンドツーエンドで実行され、各ステップは前のステップが完了するのを待ってから次のステップを開始します。この予測可能性はまさにエンタープライズ展開に必要なものです。しかし、その代償として、マルチステップのワークフローでは構造化された各ステップがレイテンシを追加し、ツール呼び出しの長いチェーン全体でコストが蓄積されます。

MCPに反対する陣営は、トークンオーバーヘッドが有害な制約であり、ランタイムを遅くし、接続するツールが増えるほど悪化すると主張しました。DevCommunityのSamir Amzaniは、GitHub、Slack、Sentryの3つのサービスを接続するだけで、エージェントが最初のユーザーメッセージを読む前にMCPコンテキストウィンドウに55,000トークン以上のツール定義が入り、CLIよりも3～42倍のトークン使用量になると指摘しています。

一方、支持者はMCPのレイテンシ問題を認めつつも、CLIに切り替えることで失うものを挙げました。CLIは軽量で高速ですが、静的なため明示的にプログラムされたツールしか呼び出せず、開発者はサービスごとに個別に認証を管理する必要があり、観測可能性やデバッグのための共有プロトコル層がありません。

Perplexityから公式な説明はありませんでしたが、この分裂は実際の開発ニーズを反映しています。より高速なレイテンシを必要とするチームはCLIの方が実用的であり、観測可能性と本番安全性を優先するチームはMCPの構造にオーバーヘッドの価値を見出すでしょう。

CLIとAPIへの切り替えは確かに一部の問題を解決します。トークンオーバーヘッドは減少し、ステップごとのレイテンシは改善します。しかし、それだけですべてが解決するわけではありません。スケールでの複合レイテンシや安全でないコード実行といった基本的な制約は、インターフェースを交換するだけでは完全には解決されません。

これらのより深い制約は、推論インフラストラクチャとコード実行環境という2つの領域に注目する価値があることを示しています。

より高速な推論

より高速な推論はレイテンシ問題に直接取り組みます。CerebrasのWafer-Scale Engineのような新しいチップアーキテクチャは、モデルウェイトをオフチップメモリではなくウェハー上のオンチップメモリに保持することで、従来のGPU推論のメモリボトルネックを排除します。その結果、モデルに依存しますが、毎秒最大3,000トークン、従来のGPUベースソリューションよりも最大15倍高速な処理が可能です。

この速度はMCPの計算を変えます。高速な推論を実際のMCPサーバー（GitHub for code context、Slack for team data、Atlassian for project state）と組み合わせると、各ツール呼び出しのレイテンシコストは大幅に減少します。基礎となる推論が十分に高速であれば、MCPを非現実的にしていたオーバーヘッドは管理可能になります。

MCPの監査可能な構造を優先するエンタープライズにとって、これは重要です。より高速な推論はセーフティレイヤーを犠牲にする必要がなく、ツール呼び出しを含むフルスタックを本番環境でより実行可能にします。

安全なコード実行

エージェントが生成したコードを実行するには、安全性と速度のトレードオフがあります。PydanticがリリースしたMontyは、Rustで書かれた最小限のPythonインタプリタで、スコープを小さく保つことで異なるアプローチを取っています。Montyはエージェントが必要とするものだけを実行し、ファイルシステムアクセス、ネットワーク呼び出し、環境変数は明示的に許可されない限りアクセスできず、外部呼び出しが認証を必要とする場合にのみ一時停止します。インタプリタが最小限であるため、プロンプトインジェクションの攻撃面もそれに対応して小さくなります。

起動時間は0.06ミリ秒未満で、Dockerの195ミリ秒、サンドボックスサービスの1,000ミリ秒以上と比較して大幅に高速です。ただし、Montyはまだ実験的であり、部分的なPythonサブセットのみをサポートし、サードパーティライブラリのサポートはありません。そのため、まだ本番環境には対応していませんが、さらなる反復と開発のための青写真は存在します。

これらの改善はMCPとCLIの両方に利益をもたらす

MCP対CLIの議論を駆り立てるフラストレーションは現実のものです。トークンオーバーヘッド、遅いワークフロー、エージェント生成コードの実行リスク——これらはすべて否定できません。しかし、エクスペリエンスを高速化する方法の大部分は、プロトコル自体だけでなく、推論インフラストラクチャと実行環境にもあります。そして、これらの改善はMCPだけのものではなく、CLIワークフローも同様に高速化できます。

Perplexityは現実的な制約に対して実用的な判断を下しました。そして、MCPが遅すぎると感じて静かにCLIに手を伸ばしている多くのチームも同様です。同様に、多くのチームがMCPを使い続けています。どちらも特定の開発ニーズに基づいた合理的な決定です。

MCP対CLIの議論が続く中、プロトコル以外にも、推論インフラストラクチャと実行環境は同様に注目に値します。