AI News HubLIVE
站内改写

本地AI硬件:2.6年回本?

蘋果Mac Mini M4 Pro和Mac Studio大內存型號因本地AI需求激增而缺貨。本地自主AI代理(如OpenClaw)興起推動硬件搶購。但即便慷慨估算,購買128GB內存的本地設備(如GMKtec EVO-X2,3299美元)運行Gemma 4模型,需2.6年才能通過節省API費用回本。

文章情報

工程師進階

要點

  • 蘋果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。
  • OpenClaw等自主AI代理框架在本地硬件上爆發。
  • 以GMKtec EVO-X2(3299美元)和Gemma 4模型為例,本地推理回本時間約2.6年。
  • 假設全天候滿負荷運行,每年可節省約1279美元API費用。

為甚麼重要

這條新聞值得關注,因為蘋果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

您可能已經注意到,大內存版Mac Mini M4 Pro已經消失。蘋果這款可愛的小型台式機變得難以買到。首先,發貨延遲延長至十六週。然後,蘋果從其美國商店中撤下了整條配置線。先是64GB的Mac Mini不見了,隨後128GB及更大(196GB、256GB、512GB)的Mac Studio機型也相繼消失。在2026年第二季度財報電話會議上,蒂姆·庫克透露了原因。“這兩款產品都是AI和智能體工具的絕佳平台,”他對投資者表示,“客户對此的認識速度超出了我們的預期。”

本地硬件上的自主AI代理(特別是OpenClaw和後來的Hermes Agent)在AI社區中爆炸式增長。OpenClaw目前在GitHub上擁有超過35萬顆星,超過了React,成為最受關注的軟件項目。來自Nous Research的Hermes Agent(以及NVidia NemoClaw等OpenClaw變體)遵循類似的理念:通過WhatsApp或Telegram等消息應用給它一個任務,它就會獨立地為您工作。

這些代理框架可以使用本地LLM。它們的興起引發了硬件搶購潮。如果您擁有硬件,就可以永遠擺脱LLM API賬單……

但慷慨地説,需要2.6年才能收回投資!讓我們看看原因……

方案

目前您無法購買新的128GB內存Mac Studio。可行的替代方案包括NVidia DGX Spark(最便宜的是華碩128GB型號,售價3494美元)和Ryzen AI Max+395(最便宜的是GMKtec EVO-X2 128GB,售價3299美元)。這些機器的重要特點是它們使用128GB統一的LPDDR5X內存。“統一”意味着我們可以為CPU或GPU分配內存,128GB內存允許我們運行具有大上下文(如256K tokens)的非常強大的中型LLM。

我們從GMKtec EVO-X2開始:3299美元。

對於模型,我們使用Gemma 4 26B-A4B。這是一個相當強大的混合專家模型,擁有252億個參數(38億個活躍參數)。它在這樣的硬件上運行良好,其基準測試與幾倍大小的模型競爭,並且代表了人們實際部署用於代理工作流的開放權重模型類別。

對於雲對比,我們使用DeepInfra,這是一個對此模型相當便宜的提供商:輸入每百萬tokens 0.07美元,輸出每百萬tokens 0.34美元(大致平均每百萬tokens 0.10美元)。

(慷慨的)計算

我們將應用“慷慨原則”的一個變體:當我們做出假設時,我們會選擇有利於購買硬件的數字。這樣,如果本地推理看起來仍然不划算,那也不會是因為我們的假設。

假設1:我們會物有所值,讓機器全天候滿負荷推理運行。

假設2:我們將專注於輸出token,因為它們代表使用本地推理的最大節省。輸出token成本為每百萬0.34美元,機器的峯值併發輸出速率約為120 tokens/秒(可在5-8個併發請求下實現)。相比之下,輸入token以每百萬0.07美元和240 tokens/秒計算,每年節省529.80美元,不到下方計算的輸入token節省額的一半。

因此:

120 tokens/秒 × 31,536,000秒/年 = 3,764,320,000 tokens/年 3,764,320,000 × 0.34/1,000,000 = 每年避免的API成本約為1279美元

將3299美元除以1279美元,得到約2.58年,即約2.6年。