笔记本电脑本地AI的两年:开源模型超越摩尔定律
2024年5月至2026年5月,最贵的MacBook Pro内存仍为128GB,硬件几乎未变。但可运行的开源模型在人工智能分析指数上从10分提升至47分(DeepSeek V4 Flash),性能提升4.7倍,每10.7个月翻一番,速度是摩尔定律的两倍以上。进步源于稀疏混合专家模型、激进量化技术和推理优化的小型密集模型。
文章情报
要点
- 128GB MacBook Pro上运行的开源模型智能指数两年内从10升至47,翻倍速度超过摩尔定律。
- 两大突破:稀疏MoE模型(如gpt-oss-120B)和小型密集推理模型(如Qwen3.6 27B)。
- 硬件未变,所有提升来自软件和模型设计创新。
为什么重要
这条新闻值得关注,因为128GB MacBook Pro上运行的开源模型智能指数两年内从10升至47,翻倍速度超过摩尔定律。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
2024年5月至2026年5月,市场上最昂贵的MacBook Pro始终配备128GB统一内存,硬件上限几乎没有移动。然而,能够在其上运行的最智能开源模型,其人工智能分析指数得分从10(Llama 3 70B)跃升至47(DeepSeek V4 Flash,采用antirez的混合Q2 GGUF)。这是24个月内4.7倍的提升,相当于每10.7个月智能翻一番。而摩尔定律(晶体管数量)每24个月翻一番。本地开源AI在笔记本电脑上的改进速度是摩尔定律的两倍以上,且硬件完全未变。
硬件停滞不前 该文的前提很简单:购买市场上最贵的MacBook Pro,测量可在其上运行的最智能开源模型,每六个月重复一次。三代旗舰Max芯片,内存上限从未移动,内存带宽增长约50%,但这只影响解码速度,不改变可容纳的模型。变化的是模型本身。
五个时间点 作者选取了每个时间点最智能且满足条件的开源模型:在128GB内存下可使用量化运行,且速度不低于每秒5个token。所有得分均基于人工智能分析指数v4.0。 2024年5月:Llama 3 70B Instruct (Q4) 得分10;2024年10月:Qwen 2.5 72B (Q4) 16;2025年3月:Llama 3.3 70B (Q4) 14;2025年10月:gpt-oss-120B (MXFP4) 33;2026年5月:DeepSeek V4 Flash (IQ2_XXS+Q8) 47。
两个不连续点 第一个不连续点:2025年8月稀疏MoE的出现。gpt-oss-120B打破瓶颈,1170亿总参数但每token仅51亿激活,解码速度达40-60 token/s,得分从14跃至33。 第二个不连续点:2026年4月小型密集推理模型追赶上来。Qwen3.6 27B (推理) 得分46,仅27B参数;DeepSeek V4 Flash总参数2840亿,激活130亿,通过Q2混合量化适配笔记本,得分47。
与摩尔定律对比 本地AI在MacBook Pro上从10到47,相当于每10.7个月翻一番,速度是摩尔定律的两倍。如果遵循摩尔定律,2026年5月得分应为20左右。令人惊叹的是,硬件几乎未变,所有进步来自软件和模型设计。
原因分析 三个主要因素:稀疏混合专家模型(MoE)将模型容量与每token计算解耦;激进量化成为常态,混合精度方案保留质量;推理调优的小型密集模型通过更好训练数据和思维链训练大幅提升参数效率。
未来展望 按此速度,2027年5月指数得分可能达75。但128GB内存上限是硬约束,若苹果提升M6 Max内存,曲线将继续上扬,否则只能靠模型更小更智能。
注意事项 人工智能分析指数进行了两次调整,本文所有得分已统一至v4.0。本地量化模型通常比全精度低1-3分。上下文长度也会消耗内存,长上下文时解码速度下降。想复现结果,可从Hugging Face下载模型。