2026-05-15 10:42 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

MCP vs CLI爭論：速度之爭背後的推理基礎設施與安全執行

Perplexity CTO宣佈從MCP轉向API和CLI，引發關於MCP開銷與速度的討論。本文分析了MCP的令牌開銷和延遲問題，同時指出更快的推理芯片（如Cerebras的晶圓級引擎）和安全代碼執行環境（如Monty解釋器）可以緩解這些問題，對MCP和CLI均有裨益。

來源Cerebras Blog

2026年4月6日，在Perplexity的Ask 2026大會上，CTO Denis Yarats宣佈Perplexity正在從MCP（模型上下文協議）轉向API和CLI（命令行界面）。這一消息立即在Twitter上引發了兩極分化的討論。

MCP自2024年11月由Anthropic作為開放標準推出以來，在13個月內月下載量超過9700萬次，被眾多公司和平台採用。然而，Perplexity作為一家知名AI公司，卻選擇了放棄它。

MCP的開銷並非任意為之。該協議通過引導模型交互沿着特定、可審計的路徑工作：每個工具調用都攜帶完整的模式定義，每次身份驗證握手端到端運行，每一步都等待上一步完成。這種可預測性正是企業部署所需要的。但代價是，在多步驟工作流中，每個結構化步驟都會增加延遲，這些成本在長鏈工具調用中累積。

反對MCP的人認為，令牌開銷是一個有害的限制，會減慢運行時速度，並且隨着連接更多工具而惡化。例如，DevCommunity的Samir Amzani指出，連接GitHub、Slack和Sentry三個服務，就會在MCP上下文窗口中放入超過55,000個令牌的工具定義，然後代理才能讀取用户消息，令牌使用量比CLI高出3到42倍。

然而，支持者指出，轉向CLI意味着放棄許多好處。CLI輕量且快速，但它們是靜態的，只能調用顯式編程的工具，要求開發者為每個服務單獨管理身份驗證，並且沒有用於可觀察性或調試的共享協議層。

Perplexity沒有給出官方解釋，但分歧反映了實際開發需求：需要更低延遲的團隊可能發現CLI更實用，而優先考慮可觀察性和生產安全性的團隊可能認為MCP的結構值得開銷。

轉向CLI和API確實解決了一些問題：令牌開銷下降，每步延遲改善。但它不能解決所有問題。一些根本性限制——如大規模下的複合延遲和不安全的代碼執行——並不能通過交換接口完全解決。

這些深層限制指向兩個值得關注的領域：推理基礎設施和代碼執行環境。

更快的推理

更快的推理直接針對延遲問題。新芯片架構（如Cerebras的晶圓級引擎）將模型權重保留在晶圓上的片上內存中，而不是依賴片外內存，從而消除了傳統GPU推理的內存瓶頸。結果是高達每秒3000個令牌，比傳統GPU解決方案快15倍。

這種速度改變了MCP的計算方式。將更快的推理與真正的MCP服務器（如GitHub用於代碼上下文，Slack用於團隊數據，Atlassian用於項目狀態）配對，每個工具調用的延遲成本顯著降低。當底層推理足夠快時，MCP的開銷變得可管理。

對於優先考慮MCP可審計結構的企業來説，這意味着更快的推理不需要放棄安全層，只是使整個堆棧（包括工具調用）在生產中更可行。

安全代碼執行

運行代理生成的代碼需要在安全性和速度之間權衡。Monty是一個基於Rust的微型Python解釋器，由Pydantic發佈，它通過保持較小範圍來採取不同方法。Monty只運行代理需要的內容——沒有文件系統訪問，沒有網絡調用，沒有環境變量（除非明確允許），僅在外部調用需要授權時暫停。由於解釋器極小，提示注入的攻擊面也相應較小。啓動時間低於0.06毫秒，而Docker為195毫秒，沙箱服務超過1000毫秒。不過，Monty仍是實驗性的，只支持部分Python子集，沒有第三方庫支持，尚未準備好投入生產。但藍圖為進一步迭代和開發奠定了基礎。

這些改進對MCP和CLI都有利。驅動MCP與CLI爭論的挫折是真實的——令牌開銷、緩慢的工作流、運行代理生成代碼的風險——但如何加速體驗的很大一部分也在於推理基礎設施和執行環境，而不僅僅是協議本身。

Perplexity的決策是務實的，許多團隊悄悄轉向CLI也是如此：因為MCP感覺太慢。同樣，許多其他團隊堅持使用MCP。考慮到各自的開發需求，兩者都是合理的決定。

隨着MCP與CLI的爭論繼續，除了協議之外，推理基礎設施和執行環境同樣值得關注。