2026-05-10站内改写

追求AI獨立的探索之旅

本文作者探討了GitHub Copilot轉向按用量計費後的AI獨立之路。透過分析AI經濟學的陷阱，作者決定投資本地推理硬體以減少對大型AI供應商的依賴。文章詳細介紹了Mac M3 Ultra、8× Nvidia RTX 3090和Ryzen AI Max+等硬體方案，並解釋了推理過程中的記憶體頻寬瓶頸。

文章情報

投資人進階

要點

GitHub Copilot轉向按用量計費，揭示了AI公司透過低價建立依賴的策略。
作者認為AI泡沫更像陷阱，建議透過本地推理減少依賴。
記憶體頻寬是推理效能的關鍵瓶頸，而非原始算力。
比較了Mac M3 Ultra、8× RTX 3090和Ryzen AI Max+等硬體方案。

為什麼重要

這條新聞值得關注，因為GitHub Copilot轉向按用量計費，揭示了AI公司透過低價建立依賴的策略。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

2026年5月10日

幾周前，GitHub宣佈Copilot將轉向按用量計費，不再提供固定訂閱。這一變化刺痛了許多依賴免費或低價訂閱的使用者，包括透過開源貢獻者福利使用的作者。作者指出，這種低價策略並非慷慨，而是AI實驗室和科技巨頭為建立使用者依賴而進行的補貼。每筆便宜的API呼叫都是訓練資料點，每個工作流都是切換成本。GitHub Copilot每月10美元的定價從未可持續，這是一場偽裝成訂閱的圈地運動。

作者早有預感AI經濟的陷阱。他在去年底開始購買本地推理硬體，首先採用了Strix Halo晶片（Ryzen AI Max+），擁有128GB統一記憶體，可本地執行Qwen3.6-27B和Gemma 4等模型，用於電子郵件、日曆摘要、會議總結等後臺任務，以避免增加AI賬單。然而，對於需要大上下文和快速反饋的代理任務（如編碼代理、自動研究任務），本地模型的吞吐量仍不足。要獲得每秒50個令牌以上的流暢體驗，需要投資數千美元的硬體。

本文詳細闡述了推理的工作原理：關鍵資源是記憶體容量（模型能否裝入）、記憶體頻寬（權重流速度）和原始算力（數學運算速度）。大多數人的直覺關注算力，但實際瓶頸往往是記憶體頻寬。例如，RTX 3070（448 GB/s）在推理上可能比RTX 4060 Ti（288 GB/s）更快。蘋果的M系列晶片因統一記憶體架構而非常適合推理。另外，KV快取隨上下文長度增長，新架構如Qwen3.6透過僅快取部分層減少了記憶體佔用。對於代理任務，令牌每秒（tok/s）至關重要：5 tok/s的等待令人沮喪，而40 tok/s則能實現即時迴圈。

作者調研了截至2026年中的硬體市場，預算約1萬美元。主要選項包括：Mac M3 Ultra（最高512GB記憶體，支援MLX框架，但缺乏CUDA）、8× Nvidia RTX 3090（192GB視訊記憶體，936 GB/s頻寬，但功耗大、組裝複雜）、Ryzen AI Max+（128GB起，價效比高，但需ROCm軟體棧）。作者總結，本地推理的硬體選擇取決於使用者對效能、成本和便捷性的權衡。