ノートPCでのローカルAIの2年:オープンモデルがムーアの法則を超えた
2024年5月から2026年5月まで、最も高価なMacBook Proのメモリは128GBのままで、ハードウェアはほとんど変わりませんでした。しかし、その上で動作する最もスマートなオープンウェイトモデルの人工分析知能指数スコアは10から47(DeepSeek V4 Flash)に上昇し、4.7倍の向上、10.7ヶ月ごとに倍増し、ムーアの法則の2倍以上のペースでした。進歩は、スパース混合専門家モデル、積極的な量子化、推論調整された小型高密度モデルによるものです。
記事インテリジェンス
要点
- 128GB MacBook Pro上のオープンウェイトAIモデルの知能指数が24ヶ月で4.7倍に向上、倍加速度はムーアの法則を超える。
- 2つの不連続点:スパースMoEモデル(gpt-oss-120Bなど)と小型高密度推論モデル(Qwen3.6 27Bなど)。
- ハードウェアはほぼ変わらず、すべての進歩はソフトウェアとモデル設計の革新による。
重要な理由
このニュースが重要なのは、128GB MacBook Pro上のオープンウェイトAIモデルの知能指数が24ヶ月で4.7倍に向上、倍加速度はムーアの法則を超えるためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
2024年5月から2026年5月まで、市場で最も高価なMacBook Proは常に128GBのユニファイドメモリを搭載し、ハードウェアの上限はほとんど動きませんでした。しかし、その上で実際に実行できる最もスマートなオープンウェイトモデルは、人工分析知能指数スコアが10(Llama 3 70B)から47(DeepSeek V4 Flash、antirezの混合Q2 GGUF使用)に跳ね上がりました。これは24ヶ月で4.7倍の向上、つまり10.7ヶ月ごとに知能が倍増することを意味します。ムーアの法則(トランジスタ数)は24ヶ月ごとに倍増します。ノートパソコン上のローカルオープンウェイトAIは、完全に変わらないハードウェア上で、ムーアの法則の2倍以上の速度で改善されています。
ハードウェアは停滞 この投稿の前提は単純です。市場で最も高価なMacBook Proを購入し、その上で実際に実行できる最もスマートなオープンウェイトモデルを固定ベンチマークで測定し、6ヶ月ごとに2年間繰り返します。3世代のフラッグシップMaxチップで、RAMの上限は決して動かず、メモリ帯域幅は約50%増加しましたが、これはデコード速度に関係するもので、どのモデルがメモリに収まるかを変えるものではありません。変わったのはモデルでした。
5つのスナップショット 各時点で、著者はその時点で最もスマートで条件を満たすオープンウェイトモデルを選びました:その日までにリリースされ、128GBに使用可能な量子化で収まり(Q4がデフォルトだが、混合Q2スキームも許容)、当時のトップMacBook Proで毎秒5トークン以上で動作するもの。すべてのスコアは人工分析知能指数v4.0によるものです。 2024年5月:Llama 3 70B Instruct (Q4) スコア10;2024年10月:Qwen 2.5 72B (Q4) 16;2025年3月:Llama 3.3 70B (Q4) 14;2025年10月:gpt-oss-120B (MXFP4) 33;2026年5月:DeepSeek V4 Flash (IQ2_XXS+Q8) 47。
不連続点1:スパースMoEの登場(2025年8月) 1年以上、ローカル上限は700億の高密度パラメータでした。gpt-oss-120Bがこれを打破しました。総パラメータ1170億、トークンあたりアクティブは51億のみ。MoEルーターがトークンごとに異なる専門家サブセットを選択するため、デコードはアクティブパスの帯域幅に制限されます。結果:M4 Max上で毎秒40〜60トークン、スコアは14から33に跳ね上がりました。このモデルはネイティブにMXFP4で出荷され、ローカルコピーでの量子化品質損失は実質ゼロです。
不連続点2:小型高密度推論の追い上げ、巨大MoEがQ2で適合(2026年4月) 2つのことが2週間以内に起こりました。Qwen3.6 27B(推論)が2026年4月22日に登場。270億パラメータの高密度モデルでスコア46。Q4で15GBを占め、128GB MacBook Proでは113GBの余裕があります。DeepSeek V4 Flashが4月24日に登場。総パラメータ2840億、アクティブ130億。フル精度ではノートパソコンに収まりませんが、antirezがルーテッド専門家にIQ2_XXS、アテンションなどにQ8を使用したGGUFを公開。合計80.8GB。スコア47。どちらもローカル上限をgpt-oss-120Bより引き上げました。
ムーアの法則との比較 ローカルAIはMacBook Pro上で24ヶ月にスコア10から47へ。これは2.23回の倍増、つまり10.7ヶ月ごとの倍増です。ムーアの法則の2倍以上のペース。もしローカル知能が厳密にムーアの法則に従っていたら、2026年5月のスコアは20程度だったでしょう。さらに驚くべきことに、ムーアの法則はハードウェアの高速化に関するものでしたが、この話ではハードウェアはほとんど変わりませんでした。すべての利益はソフトウェアとモデル設計からもたらされました。
なぜ起こったか 3つの要素が大部分の仕事をしました。スパース混合専門家モデル(MoE)はモデル容量とトークンあたりの計算を切り離します。積極的な量子化が標準的な慣行になり、混合精度スキームが品質を保持します。推論調整された小型高密度モデルは、より良いトレーニングデータと連鎖思考トレーニングによりパラメータあたりの能力を急激に押し上げました。
来年の見通し 10.7ヶ月ごとの倍増を外挿すると、2027年5月までに同じ128GBノートパソコンハードウェア上でスコア約75になります。ただし、アーキテクチャの革新が続くことと、指数が再基準化されないことが前提です。今後の制約は128GBの上限です。AppleがM6 Maxで最大ユニファイドメモリを引き上げれば、曲線はさらに伸びる余地があります。上限が変わらなければ、将来の利益はモデルがより小さくスマートになることから完全に来るでしょう。
注意点 人工分析知能指数はこの期間中に2回再基準化されました。この投稿のすべてのスコアはv4.0に統一されています。ローカル量子化モデルは通常、Q4高密度で全精度より1〜3ポイント低くなります。DeepSeek V4 FlashのQ2混合量子化は、敏感な層をQ8に保つことでわずかに大きなヒットを緩和しています。「128GBに使用可能な量子化で収まる」は簡略表現です。コンテキスト長はメモリを消費し、長いコンテキストではデコード速度が低下します。再現したい場合は、Hugging Faceからモデルをダウンロードしてください。