2026-05-10站内改写

追求AI獨立的探索之旅

本文作者探討了GitHub Copilot轉向按用量計費後的AI獨立之路。通過分析AI經濟學的陷阱，作者決定投資本地推理硬件以減少對大型AI供應商的依賴。文章詳細介紹了Mac M3 Ultra、8× Nvidia RTX 3090和Ryzen AI Max+等硬件方案，並解釋了推理過程中的內存帶寬瓶頸。

文章情報

投資人進階

要點

GitHub Copilot轉向按用量計費，揭示了AI公司通過低價建立依賴的策略。
作者認為AI泡沫更像陷阱，建議通過本地推理減少依賴。
內存帶寬是推理性能的關鍵瓶頸，而非原始算力。
比較了Mac M3 Ultra、8× RTX 3090和Ryzen AI Max+等硬件方案。

為甚麼重要

這條新聞值得關注，因為GitHub Copilot轉向按用量計費，揭示了AI公司通過低價建立依賴的策略。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

2026年5月10日

幾周前，GitHub宣佈Copilot將轉向按用量計費，不再提供固定訂閲。這一變化刺痛了許多依賴免費或低價訂閲的用户，包括通過開源貢獻者福利使用的作者。作者指出，這種低價策略並非慷慨，而是AI實驗室和科技巨頭為建立用户依賴而進行的補貼。每筆便宜的API調用都是訓練數據點，每個工作流都是切換成本。GitHub Copilot每月10美元的定價從未可持續，這是一場偽裝成訂閲的圈地運動。

作者早有預感AI經濟的陷阱。他在去年底開始購買本地推理硬件，首先採用了Strix Halo芯片（Ryzen AI Max+），擁有128GB統一內存，可本地運行Qwen3.6-27B和Gemma 4等模型，用於電子郵件、日曆摘要、會議總結等後台任務，以避免增加AI賬單。然而，對於需要大上下文和快速反饋的代理任務（如編碼代理、自動研究任務），本地模型的吞吐量仍不足。要獲得每秒50個令牌以上的流暢體驗，需要投資數千美元的硬件。

本文詳細闡述了推理的工作原理：關鍵資源是內存容量（模型能否裝入）、內存帶寬（權重流速度）和原始算力（數學運算速度）。大多數人的直覺關注算力，但實際瓶頸往往是內存帶寬。例如，RTX 3070（448 GB/s）在推理上可能比RTX 4060 Ti（288 GB/s）更快。蘋果的M系列芯片因統一內存架構而非常適合推理。另外，KV緩存隨上下文長度增長，新架構如Qwen3.6通過僅緩存部分層減少了內存佔用。對於代理任務，令牌每秒（tok/s）至關重要：5 tok/s的等待令人沮喪，而40 tok/s則能實現即時循環。

作者調研了截至2026年中的硬件市場，預算約1萬美元。主要選項包括：Mac M3 Ultra（最高512GB內存，支持MLX框架，但缺乏CUDA）、8× Nvidia RTX 3090（192GB顯存，936 GB/s帶寬，但功耗大、組裝複雜）、Ryzen AI Max+（128GB起，性價比高，但需ROCm軟件棧）。作者總結，本地推理的硬件選擇取決於用户對性能、成本和便捷性的權衡。