2026-05-11站内改写

筆記本電腦本地AI的兩年：開源模型超越摩爾定律

2024年5月至2026年5月，最貴的MacBook Pro內存仍為128GB，硬件幾乎未變。但可運行的開源模型在人工智能分析指數上從10分提升至47分（DeepSeek V4 Flash），性能提升4.7倍，每10.7個月翻一番，速度是摩爾定律的兩倍以上。進步源於稀疏混合專家模型、激進量化技術和推理優化的小型密集模型。

文章情報

工程師進階

要點

128GB MacBook Pro上運行的開源模型智能指數兩年內從10升至47，翻倍速度超過摩爾定律。
兩大突破：稀疏MoE模型（如gpt-oss-120B）和小型密集推理模型（如Qwen3.6 27B）。
硬件未變，所有提升來自軟件和模型設計創新。

為甚麼重要

這條新聞值得關注，因為128GB MacBook Pro上運行的開源模型智能指數兩年內從10升至47，翻倍速度超過摩爾定律。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

2024年5月至2026年5月，市場上最昂貴的MacBook Pro始終配備128GB統一內存，硬件上限幾乎沒有移動。然而，能夠在其上運行的最智能開源模型，其人工智能分析指數得分從10（Llama 3 70B）躍升至47（DeepSeek V4 Flash，採用antirez的混合Q2 GGUF）。這是24個月內4.7倍的提升，相當於每10.7個月智能翻一番。而摩爾定律（晶體管數量）每24個月翻一番。本地開源AI在筆記本電腦上的改進速度是摩爾定律的兩倍以上，且硬件完全未變。

硬件停滯不前該文的前提很簡單：購買市場上最貴的MacBook Pro，測量可在其上運行的最智能開源模型，每六個月重複一次。三代旗艦Max芯片，內存上限從未移動，內存帶寬增長約50%，但這隻影響解碼速度，不改變可容納的模型。變化的是模型本身。

五個時間點作者選取了每個時間點最智能且滿足條件的開源模型：在128GB內存下可使用量化運行，且速度不低於每秒5個token。所有得分均基於人工智能分析指數v4.0。 2024年5月：Llama 3 70B Instruct (Q4) 得分10；2024年10月：Qwen 2.5 72B (Q4) 16；2025年3月：Llama 3.3 70B (Q4) 14；2025年10月：gpt-oss-120B (MXFP4) 33；2026年5月：DeepSeek V4 Flash (IQ2_XXS+Q8) 47。

兩個不連續點第一個不連續點：2025年8月稀疏MoE的出現。gpt-oss-120B打破瓶頸，1170億總參數但每token僅51億激活，解碼速度達40-60 token/s，得分從14躍至33。第二個不連續點：2026年4月小型密集推理模型追趕上來。Qwen3.6 27B (推理) 得分46，僅27B參數；DeepSeek V4 Flash總參數2840億，激活130億，通過Q2混合量化適配筆記本，得分47。

與摩爾定律對比本地AI在MacBook Pro上從10到47，相當於每10.7個月翻一番，速度是摩爾定律的兩倍。如果遵循摩爾定律，2026年5月得分應為20左右。令人驚歎的是，硬件幾乎未變，所有進步來自軟件和模型設計。

原因分析三個主要因素：稀疏混合專家模型（MoE）將模型容量與每token計算解耦；激進量化成為常態，混合精度方案保留質量；推理調優的小型密集模型通過更好訓練數據和思維鏈訓練大幅提升參數效率。

未來展望按此速度，2027年5月指數得分可能達75。但128GB內存上限是硬約束，若蘋果提升M6 Max內存，曲線將繼續上揚，否則只能靠模型更小更智能。

注意事項人工智能分析指數進行了兩次調整，本文所有得分已統一至v4.0。本地量化模型通常比全精度低1-3分。上下文長度也會消耗內存，長上下文時解碼速度下降。想復現結果，可從Hugging Face下載模型。