AI News HubLIVE
站内改写

本地AI硬件:2.6年回本?

苹果Mac Mini M4 Pro和Mac Studio大内存型号因本地AI需求激增而缺货。本地自主AI代理(如OpenClaw)兴起推动硬件抢购。但即便慷慨估算,购买128GB内存的本地设备(如GMKtec EVO-X2,3299美元)运行Gemma 4模型,需2.6年才能通过节省API费用回本。

文章情报

工程师进阶

要点

  • 苹果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。
  • OpenClaw等自主AI代理框架在本地硬件上爆发。
  • 以GMKtec EVO-X2(3299美元)和Gemma 4模型为例,本地推理回本时间约2.6年。
  • 假设全天候满负荷运行,每年可节省约1279美元API费用。

为什么重要

这条新闻值得关注,因为苹果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

您可能已经注意到,大内存版Mac Mini M4 Pro已经消失。苹果这款可爱的小型台式机变得难以买到。首先,发货延迟延长至十六周。然后,苹果从其美国商店中撤下了整条配置线。先是64GB的Mac Mini不见了,随后128GB及更大(196GB、256GB、512GB)的Mac Studio机型也相继消失。在2026年第二季度财报电话会议上,蒂姆·库克透露了原因。“这两款产品都是AI和智能体工具的绝佳平台,”他对投资者表示,“客户对此的认识速度超出了我们的预期。”

本地硬件上的自主AI代理(特别是OpenClaw和后来的Hermes Agent)在AI社区中爆炸式增长。OpenClaw目前在GitHub上拥有超过35万颗星,超过了React,成为最受关注的软件项目。来自Nous Research的Hermes Agent(以及NVidia NemoClaw等OpenClaw变体)遵循类似的理念:通过WhatsApp或Telegram等消息应用给它一个任务,它就会独立地为您工作。

这些代理框架可以使用本地LLM。它们的兴起引发了硬件抢购潮。如果您拥有硬件,就可以永远摆脱LLM API账单……

但慷慨地说,需要2.6年才能收回投资!让我们看看原因……

方案

目前您无法购买新的128GB内存Mac Studio。可行的替代方案包括NVidia DGX Spark(最便宜的是华硕128GB型号,售价3494美元)和Ryzen AI Max+395(最便宜的是GMKtec EVO-X2 128GB,售价3299美元)。这些机器的重要特点是它们使用128GB统一的LPDDR5X内存。“统一”意味着我们可以为CPU或GPU分配内存,128GB内存允许我们运行具有大上下文(如256K tokens)的非常强大的中型LLM。

我们从GMKtec EVO-X2开始:3299美元。

对于模型,我们使用Gemma 4 26B-A4B。这是一个相当强大的混合专家模型,拥有252亿个参数(38亿个活跃参数)。它在这样的硬件上运行良好,其基准测试与几倍大小的模型竞争,并且代表了人们实际部署用于代理工作流的开放权重模型类别。

对于云对比,我们使用DeepInfra,这是一个对此模型相当便宜的提供商:输入每百万tokens 0.07美元,输出每百万tokens 0.34美元(大致平均每百万tokens 0.10美元)。

(慷慨的)计算

我们将应用“慷慨原则”的一个变体:当我们做出假设时,我们会选择有利于购买硬件的数字。这样,如果本地推理看起来仍然不划算,那也不会是因为我们的假设。

假设1:我们会物有所值,让机器全天候满负荷推理运行。

假设2:我们将专注于输出token,因为它们代表使用本地推理的最大节省。输出token成本为每百万0.34美元,机器的峰值并发输出速率约为120 tokens/秒(可在5-8个并发请求下实现)。相比之下,输入token以每百万0.07美元和240 tokens/秒计算,每年节省529.80美元,不到下方计算的输入token节省额的一半。

因此:

120 tokens/秒 × 31,536,000秒/年 = 3,764,320,000 tokens/年 3,764,320,000 × 0.34/1,000,000 = 每年避免的API成本约为1279美元

将3299美元除以1279美元,得到约2.58年,即约2.6年。