2026-05-30 05:14 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

本地AI硬件：2.6年回本？

苹果Mac Mini M4 Pro和Mac Studio大内存型号因本地AI需求激增而缺货。本地自主AI代理（如OpenClaw）兴起推动硬件抢购。但即便慷慨估算，购买128GB内存的本地设备（如GMKtec EVO-X2，3299美元）运行Gemma 4模型，需2.6年才能通过节省API费用回本。

来源Hacker News AI作者: rbuccigrossi

您可能已经注意到，大内存版Mac Mini M4 Pro已经消失。苹果这款可爱的小型台式机变得难以买到。首先，发货延迟延长至十六周。然后，苹果从其美国商店中撤下了整条配置线。先是64GB的Mac Mini不见了，随后128GB及更大（196GB、256GB、512GB）的Mac Studio机型也相继消失。在2026年第二季度财报电话会议上，蒂姆·库克透露了原因。“这两款产品都是AI和智能体工具的绝佳平台，”他对投资者表示，“客户对此的认识速度超出了我们的预期。”

本地硬件上的自主AI代理（特别是OpenClaw和后来的Hermes Agent）在AI社区中爆炸式增长。OpenClaw目前在GitHub上拥有超过35万颗星，超过了React，成为最受关注的软件项目。来自Nous Research的Hermes Agent（以及NVidia NemoClaw等OpenClaw变体）遵循类似的理念：通过WhatsApp或Telegram等消息应用给它一个任务，它就会独立地为您工作。

这些代理框架可以使用本地LLM。它们的兴起引发了硬件抢购潮。如果您拥有硬件，就可以永远摆脱LLM API账单……

但慷慨地说，需要2.6年才能收回投资！让我们看看原因……

方案

目前您无法购买新的128GB内存Mac Studio。可行的替代方案包括NVidia DGX Spark（最便宜的是华硕128GB型号，售价3494美元）和Ryzen AI Max+395（最便宜的是GMKtec EVO-X2 128GB，售价3299美元）。这些机器的重要特点是它们使用128GB统一的LPDDR5X内存。“统一”意味着我们可以为CPU或GPU分配内存，128GB内存允许我们运行具有大上下文（如256K tokens）的非常强大的中型LLM。

我们从GMKtec EVO-X2开始：3299美元。

对于模型，我们使用Gemma 4 26B-A4B。这是一个相当强大的混合专家模型，拥有252亿个参数（38亿个活跃参数）。它在这样的硬件上运行良好，其基准测试与几倍大小的模型竞争，并且代表了人们实际部署用于代理工作流的开放权重模型类别。

对于云对比，我们使用DeepInfra，这是一个对此模型相当便宜的提供商：输入每百万tokens 0.07美元，输出每百万tokens 0.34美元（大致平均每百万tokens 0.10美元）。

（慷慨的）计算

我们将应用“慷慨原则”的一个变体：当我们做出假设时，我们会选择有利于购买硬件的数字。这样，如果本地推理看起来仍然不划算，那也不会是因为我们的假设。

假设1：我们会物有所值，让机器全天候满负荷推理运行。

假设2：我们将专注于输出token，因为它们代表使用本地推理的最大节省。输出token成本为每百万0.34美元，机器的峰值并发输出速率约为120 tokens/秒（可在5-8个并发请求下实现）。相比之下，输入token以每百万0.07美元和240 tokens/秒计算，每年节省529.80美元，不到下方计算的输入token节省额的一半。

因此：

120 tokens/秒 × 31,536,000秒/年 = 3,764,320,000 tokens/年 3,764,320,000 × 0.34/1,000,000 = 每年避免的API成本约为1279美元

将3299美元除以1279美元，得到约2.58年，即约2.6年。