2026-05-11站内改写

筆記型電腦本地AI的兩年：開源模型超越摩爾定律

2024年5月至2026年5月，最貴的MacBook Pro記憶體仍為128GB，硬體幾乎未變。但可執行的開源模型在人工智慧分析指數上從10分提升至47分（DeepSeek V4 Flash），效能提升4.7倍，每10.7個月翻一番，速度是摩爾定律的兩倍以上。進步源於稀疏混合專家模型、激進量化技術和推理最佳化的小型密集模型。

文章情報

工程師進階

要點

128GB MacBook Pro上執行的開源模型智慧指數兩年內從10升至47，翻倍速度超過摩爾定律。
兩大突破：稀疏MoE模型（如gpt-oss-120B）和小型密集推理模型（如Qwen3.6 27B）。
硬體未變，所有提升來自軟體和模型設計創新。

為什麼重要

這條新聞值得關注，因為128GB MacBook Pro上執行的開源模型智慧指數兩年內從10升至47，翻倍速度超過摩爾定律。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

2024年5月至2026年5月，市場上最昂貴的MacBook Pro始終配備128GB統一記憶體，硬體上限幾乎沒有移動。然而，能夠在其上執行的最智慧開源模型，其人工智慧分析指數得分從10（Llama 3 70B）躍升至47（DeepSeek V4 Flash，採用antirez的混合Q2 GGUF）。這是24個月內4.7倍的提升，相當於每10.7個月智慧翻一番。而摩爾定律（電晶體數量）每24個月翻一番。本地開源AI在筆記型電腦上的改進速度是摩爾定律的兩倍以上，且硬體完全未變。

硬體停滯不前該文的前提很簡單：購買市場上最貴的MacBook Pro，測量可在其上執行的最智慧開源模型，每六個月重複一次。三代旗艦Max晶片，記憶體上限從未移動，記憶體頻寬增長約50%，但這隻影響解碼速度，不改變可容納的模型。變化的是模型本身。

五個時間點作者選取了每個時間點最智慧且滿足條件的開源模型：在128GB記憶體下可使用量化執行，且速度不低於每秒5個token。所有得分均基於人工智慧分析指數v4.0。 2024年5月：Llama 3 70B Instruct (Q4) 得分10；2024年10月：Qwen 2.5 72B (Q4) 16；2025年3月：Llama 3.3 70B (Q4) 14；2025年10月：gpt-oss-120B (MXFP4) 33；2026年5月：DeepSeek V4 Flash (IQ2_XXS+Q8) 47。

兩個不連續點第一個不連續點：2025年8月稀疏MoE的出現。gpt-oss-120B打破瓶頸，1170億總引數但每token僅51億啟用，解碼速度達40-60 token/s，得分從14躍至33。第二個不連續點：2026年4月小型密集推理模型追趕上來。Qwen3.6 27B (推理) 得分46，僅27B引數；DeepSeek V4 Flash總引數2840億，啟用130億，透過Q2混合量化適配筆記本，得分47。

與摩爾定律對比本地AI在MacBook Pro上從10到47，相當於每10.7個月翻一番，速度是摩爾定律的兩倍。如果遵循摩爾定律，2026年5月得分應為20左右。令人驚歎的是，硬體幾乎未變，所有進步來自軟體和模型設計。

原因分析三個主要因素：稀疏混合專家模型（MoE）將模型容量與每token計算解耦；激進量化成為常態，混合精度方案保留質量；推理調優的小型密集模型透過更好訓練資料和思維鏈訓練大幅提升引數效率。

未來展望按此速度，2027年5月指數得分可能達75。但128GB記憶體上限是硬約束，若蘋果提升M6 Max記憶體，曲線將繼續上揚，否則只能靠模型更小更智慧。

注意事項人工智慧分析指數進行了兩次調整，本文所有得分已統一至v4.0。本地量化模型通常比全精度低1-3分。上下文長度也會消耗記憶體，長上下文時解碼速度下降。想復現結果，可從Hugging Face下載模型。