2026-05-11站内改写

ノートPCでのローカルAIの2年：オープンモデルがムーアの法則を超えた

2024年5月から2026年5月まで、最も高価なMacBook Proのメモリは128GBのままで、ハードウェアはほとんど変わりませんでした。しかし、その上で動作する最もスマートなオープンウェイトモデルの人工分析知能指数スコアは10から47（DeepSeek V4 Flash）に上昇し、4.7倍の向上、10.7ヶ月ごとに倍増し、ムーアの法則の2倍以上のペースでした。進歩は、スパース混合専門家モデル、積極的な量子化、推論調整された小型高密度モデルによるものです。

記事インテリジェンス

エンジニア上級

要点

128GB MacBook Pro上のオープンウェイトAIモデルの知能指数が24ヶ月で4.7倍に向上、倍加速度はムーアの法則を超える。
2つの不連続点：スパースMoEモデル（gpt-oss-120Bなど）と小型高密度推論モデル（Qwen3.6 27Bなど）。
ハードウェアはほぼ変わらず、すべての進歩はソフトウェアとモデル設計の革新による。

重要な理由

このニュースが重要なのは、128GB MacBook Pro上のオープンウェイトAIモデルの知能指数が24ヶ月で4.7倍に向上、倍加速度はムーアの法則を超えるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

2024年5月から2026年5月まで、市場で最も高価なMacBook Proは常に128GBのユニファイドメモリを搭載し、ハードウェアの上限はほとんど動きませんでした。しかし、その上で実際に実行できる最もスマートなオープンウェイトモデルは、人工分析知能指数スコアが10（Llama 3 70B）から47（DeepSeek V4 Flash、antirezの混合Q2 GGUF使用）に跳ね上がりました。これは24ヶ月で4.7倍の向上、つまり10.7ヶ月ごとに知能が倍増することを意味します。ムーアの法則（トランジスタ数）は24ヶ月ごとに倍増します。ノートパソコン上のローカルオープンウェイトAIは、完全に変わらないハードウェア上で、ムーアの法則の2倍以上の速度で改善されています。

ハードウェアは停滞この投稿の前提は単純です。市場で最も高価なMacBook Proを購入し、その上で実際に実行できる最もスマートなオープンウェイトモデルを固定ベンチマークで測定し、6ヶ月ごとに2年間繰り返します。3世代のフラッグシップMaxチップで、RAMの上限は決して動かず、メモリ帯域幅は約50％増加しましたが、これはデコード速度に関係するもので、どのモデルがメモリに収まるかを変えるものではありません。変わったのはモデルでした。

5つのスナップショット各時点で、著者はその時点で最もスマートで条件を満たすオープンウェイトモデルを選びました：その日までにリリースされ、128GBに使用可能な量子化で収まり（Q4がデフォルトだが、混合Q2スキームも許容）、当時のトップMacBook Proで毎秒5トークン以上で動作するもの。すべてのスコアは人工分析知能指数v4.0によるものです。 2024年5月：Llama 3 70B Instruct (Q4) スコア10；2024年10月：Qwen 2.5 72B (Q4) 16；2025年3月：Llama 3.3 70B (Q4) 14；2025年10月：gpt-oss-120B (MXFP4) 33；2026年5月：DeepSeek V4 Flash (IQ2_XXS+Q8) 47。

不連続点1：スパースMoEの登場（2025年8月） 1年以上、ローカル上限は700億の高密度パラメータでした。gpt-oss-120Bがこれを打破しました。総パラメータ1170億、トークンあたりアクティブは51億のみ。MoEルーターがトークンごとに異なる専門家サブセットを選択するため、デコードはアクティブパスの帯域幅に制限されます。結果：M4 Max上で毎秒40〜60トークン、スコアは14から33に跳ね上がりました。このモデルはネイティブにMXFP4で出荷され、ローカルコピーでの量子化品質損失は実質ゼロです。

不連続点2：小型高密度推論の追い上げ、巨大MoEがQ2で適合（2026年4月） 2つのことが2週間以内に起こりました。Qwen3.6 27B（推論）が2026年4月22日に登場。270億パラメータの高密度モデルでスコア46。Q4で15GBを占め、128GB MacBook Proでは113GBの余裕があります。DeepSeek V4 Flashが4月24日に登場。総パラメータ2840億、アクティブ130億。フル精度ではノートパソコンに収まりませんが、antirezがルーテッド専門家にIQ2_XXS、アテンションなどにQ8を使用したGGUFを公開。合計80.8GB。スコア47。どちらもローカル上限をgpt-oss-120Bより引き上げました。

ムーアの法則との比較ローカルAIはMacBook Pro上で24ヶ月にスコア10から47へ。これは2.23回の倍増、つまり10.7ヶ月ごとの倍増です。ムーアの法則の2倍以上のペース。もしローカル知能が厳密にムーアの法則に従っていたら、2026年5月のスコアは20程度だったでしょう。さらに驚くべきことに、ムーアの法則はハードウェアの高速化に関するものでしたが、この話ではハードウェアはほとんど変わりませんでした。すべての利益はソフトウェアとモデル設計からもたらされました。

なぜ起こったか 3つの要素が大部分の仕事をしました。スパース混合専門家モデル（MoE）はモデル容量とトークンあたりの計算を切り離します。積極的な量子化が標準的な慣行になり、混合精度スキームが品質を保持します。推論調整された小型高密度モデルは、より良いトレーニングデータと連鎖思考トレーニングによりパラメータあたりの能力を急激に押し上げました。

来年の見通し 10.7ヶ月ごとの倍増を外挿すると、2027年5月までに同じ128GBノートパソコンハードウェア上でスコア約75になります。ただし、アーキテクチャの革新が続くことと、指数が再基準化されないことが前提です。今後の制約は128GBの上限です。AppleがM6 Maxで最大ユニファイドメモリを引き上げれば、曲線はさらに伸びる余地があります。上限が変わらなければ、将来の利益はモデルがより小さくスマートになることから完全に来るでしょう。

注意点人工分析知能指数はこの期間中に2回再基準化されました。この投稿のすべてのスコアはv4.0に統一されています。ローカル量子化モデルは通常、Q4高密度で全精度より1〜3ポイント低くなります。DeepSeek V4 FlashのQ2混合量子化は、敏感な層をQ8に保つことでわずかに大きなヒットを緩和しています。「128GBに使用可能な量子化で収まる」は簡略表現です。コンテキスト長はメモリを消費し、長いコンテキストではデコード速度が低下します。再現したい場合は、Hugging Faceからモデルをダウンロードしてください。