2026-05-10站内改写

追求AI独立的探索之旅

本文作者探讨了GitHub Copilot转向按用量计费后的AI独立之路。通过分析AI经济学的陷阱，作者决定投资本地推理硬件以减少对大型AI供应商的依赖。文章详细介绍了Mac M3 Ultra、8× Nvidia RTX 3090和Ryzen AI Max+等硬件方案，并解释了推理过程中的内存带宽瓶颈。

文章情报

投资人进阶

要点

GitHub Copilot转向按用量计费，揭示了AI公司通过低价建立依赖的策略。
作者认为AI泡沫更像陷阱，建议通过本地推理减少依赖。
内存带宽是推理性能的关键瓶颈，而非原始算力。
比较了Mac M3 Ultra、8× RTX 3090和Ryzen AI Max+等硬件方案。

为什么重要

这条新闻值得关注，因为GitHub Copilot转向按用量计费，揭示了AI公司通过低价建立依赖的策略。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

2026年5月10日

几周前，GitHub宣布Copilot将转向按用量计费，不再提供固定订阅。这一变化刺痛了许多依赖免费或低价订阅的用户，包括通过开源贡献者福利使用的作者。作者指出，这种低价策略并非慷慨，而是AI实验室和科技巨头为建立用户依赖而进行的补贴。每笔便宜的API调用都是训练数据点，每个工作流都是切换成本。GitHub Copilot每月10美元的定价从未可持续，这是一场伪装成订阅的圈地运动。

作者早有预感AI经济的陷阱。他在去年底开始购买本地推理硬件，首先采用了Strix Halo芯片（Ryzen AI Max+），拥有128GB统一内存，可本地运行Qwen3.6-27B和Gemma 4等模型，用于电子邮件、日历摘要、会议总结等后台任务，以避免增加AI账单。然而，对于需要大上下文和快速反馈的代理任务（如编码代理、自动研究任务），本地模型的吞吐量仍不足。要获得每秒50个令牌以上的流畅体验，需要投资数千美元的硬件。

本文详细阐述了推理的工作原理：关键资源是内存容量（模型能否装入）、内存带宽（权重流速度）和原始算力（数学运算速度）。大多数人的直觉关注算力，但实际瓶颈往往是内存带宽。例如，RTX 3070（448 GB/s）在推理上可能比RTX 4060 Ti（288 GB/s）更快。苹果的M系列芯片因统一内存架构而非常适合推理。另外，KV缓存随上下文长度增长，新架构如Qwen3.6通过仅缓存部分层减少了内存占用。对于代理任务，令牌每秒（tok/s）至关重要：5 tok/s的等待令人沮丧，而40 tok/s则能实现即时循环。

作者调研了截至2026年中的硬件市场，预算约1万美元。主要选项包括：Mac M3 Ultra（最高512GB内存，支持MLX框架，但缺乏CUDA）、8× Nvidia RTX 3090（192GB显存，936 GB/s带宽，但功耗大、组装复杂）、Ryzen AI Max+（128GB起，性价比高，但需ROCm软件栈）。作者总结，本地推理的硬件选择取决于用户对性能、成本和便捷性的权衡。