2026-05-15 10:42 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

MCP vs CLI爭論：速度之爭背後的推理基礎設施與安全執行

Perplexity CTO宣佈從MCP轉向API和CLI，引發關於MCP開銷與速度的討論。本文分析了MCP的令牌開銷和延遲問題，同時指出更快的推理晶片（如Cerebras的晶圓級引擎）和安全程式碼執行環境（如Monty直譯器）可以緩解這些問題，對MCP和CLI均有裨益。

來源Cerebras Blog

2026年4月6日，在Perplexity的Ask 2026大會上，CTO Denis Yarats宣佈Perplexity正在從MCP（模型上下文協議）轉向API和CLI（命令列介面）。這一訊息立即在Twitter上引發了兩極分化的討論。

MCP自2024年11月由Anthropic作為開放標準推出以來，在13個月內月下載量超過9700萬次，被眾多公司和平臺採用。然而，Perplexity作為一家知名AI公司，卻選擇了放棄它。

MCP的開銷並非任意為之。該協議透過引導模型互動沿著特定、可審計的路徑工作：每個工具呼叫都攜帶完整的模式定義，每次身份驗證握手端到端執行，每一步都等待上一步完成。這種可預測性正是企業部署所需要的。但代價是，在多步驟工作流中，每個結構化步驟都會增加延遲，這些成本在長鏈工具呼叫中累積。

反對MCP的人認為，令牌開銷是一個有害的限制，會減慢執行時速度，並且隨著連線更多工具而惡化。例如，DevCommunity的Samir Amzani指出，連線GitHub、Slack和Sentry三個服務，就會在MCP上下文視窗中放入超過55,000個令牌的工具定義，然後代理才能讀取使用者訊息，令牌使用量比CLI高出3到42倍。

然而，支持者指出，轉向CLI意味著放棄許多好處。CLI輕量且快速，但它們是靜態的，只能呼叫顯式程式設計的工具，要求開發者為每個服務單獨管理身份驗證，並且沒有用於可觀察性或除錯的共享協議層。

Perplexity沒有給出官方解釋，但分歧反映了實際開發需求：需要更低延遲的團隊可能發現CLI更實用，而優先考慮可觀察性和生產安全性的團隊可能認為MCP的結構值得開銷。

轉向CLI和API確實解決了一些問題：令牌開銷下降，每步延遲改善。但它不能解決所有問題。一些根本性限制——如大規模下的複合延遲和不安全的程式碼執行——並不能透過交換介面完全解決。

這些深層限制指向兩個值得關注的領域：推理基礎設施和程式碼執行環境。

更快的推理

更快的推理直接針對延遲問題。新晶片架構（如Cerebras的晶圓級引擎）將模型權重保留在晶圓上的片上記憶體中，而不是依賴片外記憶體，從而消除了傳統GPU推理的記憶體瓶頸。結果是高達每秒3000個令牌，比傳統GPU解決方案快15倍。

這種速度改變了MCP的計算方式。將更快的推理與真正的MCP伺服器（如GitHub用於程式碼上下文，Slack用於團隊資料，Atlassian用於專案狀態）配對，每個工具呼叫的延遲成本顯著降低。當底層推理足夠快時，MCP的開銷變得可管理。

對於優先考慮MCP可審計結構的企業來說，這意味著更快的推理不需要放棄安全層，只是使整個堆疊（包括工具呼叫）在生產中更可行。

安全程式碼執行

執行代理生成的程式碼需要在安全性和速度之間權衡。Monty是一個基於Rust的微型Python直譯器，由Pydantic釋出，它透過保持較小範圍來採取不同方法。Monty只執行代理需要的內容——沒有檔案系統訪問，沒有網路呼叫，沒有環境變數（除非明確允許），僅在外部呼叫需要授權時暫停。由於直譯器極小，提示注入的攻擊面也相應較小。啟動時間低於0.06毫秒，而Docker為195毫秒，沙箱服務超過1000毫秒。不過，Monty仍是實驗性的，只支援部分Python子集，沒有第三方庫支援，尚未準備好投入生產。但藍圖為進一步迭代和開發奠定了基礎。

這些改進對MCP和CLI都有利。驅動MCP與CLI爭論的挫折是真實的——令牌開銷、緩慢的工作流、執行代理生成程式碼的風險——但如何加速體驗的很大一部分也在於推理基礎設施和執行環境，而不僅僅是協議本身。

Perplexity的決策是務實的，許多團隊悄悄轉向CLI也是如此：因為MCP感覺太慢。同樣，許多其他團隊堅持使用MCP。考慮到各自的開發需求，兩者都是合理的決定。

隨著MCP與CLI的爭論繼續，除了協議之外，推理基礎設施和執行環境同樣值得關注。