AI News HubLIVE
站内改写

本地AI硬體:2.6年回本?

蘋果Mac Mini M4 Pro和Mac Studio大記憶體型號因本地AI需求激增而缺貨。本地自主AI代理(如OpenClaw)興起推動硬體搶購。但即便慷慨估算,購買128GB記憶體的本地裝置(如GMKtec EVO-X2,3299美元)執行Gemma 4模型,需2.6年才能透過節省API費用回本。

文章情報

工程師進階

要點

  • 蘋果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。
  • OpenClaw等自主AI代理框架在本地硬體上爆發。
  • 以GMKtec EVO-X2(3299美元)和Gemma 4模型為例,本地推理回本時間約2.6年。
  • 假設全天候滿負荷執行,每年可節省約1279美元API費用。

為什麼重要

這條新聞值得關注,因為蘋果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

您可能已經注意到,大記憶體版Mac Mini M4 Pro已經消失。蘋果這款可愛的小型桌上型電腦變得難以買到。首先,發貨延遲延長至十六週。然後,蘋果從其美國商店中撤下了整條配置線。先是64GB的Mac Mini不見了,隨後128GB及更大(196GB、256GB、512GB)的Mac Studio機型也相繼消失。在2026年第二季度財報電話會議上,蒂姆·庫克透露了原因。“這兩款產品都是AI和智慧體工具的絕佳平臺,”他對投資者表示,“客戶對此的認識速度超出了我們的預期。”

本地硬體上的自主AI代理(特別是OpenClaw和後來的Hermes Agent)在AI社群中爆炸式增長。OpenClaw目前在GitHub上擁有超過35萬顆星,超過了React,成為最受關注的軟體專案。來自Nous Research的Hermes Agent(以及NVidia NemoClaw等OpenClaw變體)遵循類似的理念:透過WhatsApp或Telegram等訊息應用給它一個任務,它就會獨立地為您工作。

這些代理框架可以使用本地LLM。它們的興起引發了硬體搶購潮。如果您擁有硬體,就可以永遠擺脫LLM API賬單……

但慷慨地說,需要2.6年才能收回投資!讓我們看看原因……

方案

目前您無法購買新的128GB記憶體Mac Studio。可行的替代方案包括NVidia DGX Spark(最便宜的是華碩128GB型號,售價3494美元)和Ryzen AI Max+395(最便宜的是GMKtec EVO-X2 128GB,售價3299美元)。這些機器的重要特點是它們使用128GB統一的LPDDR5X記憶體。“統一”意味著我們可以為CPU或GPU分配記憶體,128GB記憶體允許我們執行具有大上下文(如256K tokens)的非常強大的中型LLM。

我們從GMKtec EVO-X2開始:3299美元。

對於模型,我們使用Gemma 4 26B-A4B。這是一個相當強大的混合專家模型,擁有252億個引數(38億個活躍引數)。它在這樣的硬體上執行良好,其基準測試與幾倍大小的模型競爭,並且代表了人們實際部署用於代理工作流的開放權重模型類別。

對於雲對比,我們使用DeepInfra,這是一個對此模型相當便宜的提供商:輸入每百萬tokens 0.07美元,輸出每百萬tokens 0.34美元(大致平均每百萬tokens 0.10美元)。

(慷慨的)計算

我們將應用“慷慨原則”的一個變體:當我們做出假設時,我們會選擇有利於購買硬體的數字。這樣,如果本地推理看起來仍然不划算,那也不會是因為我們的假設。

假設1:我們會物有所值,讓機器全天候滿負荷推理執行。

假設2:我們將專注於輸出token,因為它們代表使用本地推理的最大節省。輸出token成本為每百萬0.34美元,機器的峰值併發輸出速率約為120 tokens/秒(可在5-8個併發請求下實現)。相比之下,輸入token以每百萬0.07美元和240 tokens/秒計算,每年節省529.80美元,不到下方計算的輸入token節省額的一半。

因此:

120 tokens/秒 × 31,536,000秒/年 = 3,764,320,000 tokens/年 3,764,320,000 × 0.34/1,000,000 = 每年避免的API成本約為1279美元

將3299美元除以1279美元,得到約2.58年,即約2.6年。