AppleがWWDC 2026でオンデバイスAIスタックを再構築
WWDC 2026では新たなシリコンは発表されず、代わりにAppleシリコン上でAIが動作する方法の構造的な再構築が行われました。新しい推論フレームワークCore AI、新しいモデル形式.aimodel、次世代オンデバイスモデルAFM 3、そしてクラウドに対する明確な姿勢の変化が示されました。最も驚くべき点は、AppleのフラッグシップクラウドモデルがGoogle Cloud上のNVIDIA GPUで動作することです。
WWDC 2026では新しいシリコンは発表されませんでしたが、AppleはオンデバイスAIの実行方法を根本的に再構築しました。発表の中心は、新しい推論フレームワークCore AI、新しいモデル形式.aimodel、次世代オンデバイスモデルAFM 3、そしてクラウドに対する明確に異なる姿勢です。消費者向け機能が注目を集めましたが、開発者向けドキュメント、セッションコード、そして1件の機械学習研究投稿により、キーノートよりも明確なロードマップと、いくつかの本当に奇妙な詳細が明らかになりました。
大きな変更点:Core AIがニューラルネットワークでCore MLを置き換え
10年にわたり、Core MLは「iPhoneでモデルを実行する」ための答えでした。WWDC 2026でAppleはCore AIを導入し、これは追加ではなく引き継ぎであると明確に位置づけました。Core AIのドキュメントは古いケースをCore MLに戻します。「アプリがニューラルネットワーク以外のモデルタイプ(決定木や表形式の特徴エンジニアリングなど)を使用する場合は、Core MLを参照してください。」一方、Core MLのドキュメントは新しいものへと導きます。「アプリが最新のアーキテクチャと推論技術を使用してAIモデルを統合する場合は、Core AIを参照してください。」合わせると、これは分割を示しています。Core MLは従来の非ニューラル機械学習に縮小され、ニューラルネットワークとトランスフォーマーはCore AIに移行します。AppleはCore AIを「CPU、GPU、Neural Engine全体で最新のモデルアーキテクチャと推論技術を使用できるようにする」ものと説明しています。ツールチェーンの微妙な兆候として、新しいCore AIデバッグゲージはCore MLフレームワークをサポートしないことが明記されています。Core MLは非推奨ではありませんが、重心とツールへの投資は移りました。
新しいアーティファクト:.aimodelバンドル
Core AIは新しいディスク形式.aimodelを導入しますが、最初に奇妙な点は、これがファイルではなくディレクトリであることです。Appleのcoreai-modelsリポジトリは全体を通じてこれをディレクトリとして扱い、Pythonエクスポーターはディレクトリ専用の呼び出しで古いものを削除し、Swiftランタイムは「.aimodelディレクトリ」として解決します。内部のモデルバンドルにはプレーンJSONのmetadata.jsonが含まれ、モデル種類(LLM、VLM、拡散、セグメンター)、トークナイザー、語彙サイズ、コンテキスト長、圧縮プリセット、モデルファイルを記録します。重みペイロードは不透明なフレームワーク呼び出しによって書き込まれ、そのバイトレイアウトは公開されていません。したがって、形式は半開放型です。読み取り可能なマニフェストが文書化されていないバイナリブロックを包み込んでいます。モデルは新しいPythonツールチェーンで準備されます。Core AI Optimization(coreai-opt、coremltoolsの後継)による圧縮と、Core AI PyTorch Extensions(coreai-torch)によるPyTorchからの直接エクスポートです。圧縮オプションはGGUFの世界よりも豊富で、2、4、8ビットの整数重み、FP8(E4M3)やFP4(E2M1)などの浮動小数点マイクロフォーマット、ブロックスケーリングされたMXFP8、1~8ビットのパレタイズ化が含まれます。あるフォーラム読者は、Appleがw4a8/w4a16などのアクティベーション量子化も推進していると指摘しました。Appleのインストールベースを考えると、同社が承認する形式は、サブ100Bモデルがすべての人に提供される方法を形成する可能性があります。
ハードウェアの兆候:行列乗算がGPUに移行
新しいチップはありませんでしたが、WWDC 2026はM5およびA19 GPUのストーリーを明確にし、今週最も明確なハードウェアシグナルとなりました。Appleの説明:「ニューラルアクセラレータはM5の行列乗算専用のハードウェアです。各シェーダーコアに他のGPUパイプライン(ALU、レイトレーシングなど)と並んで組み込まれています。各シェーダーコアには独自のニューラルアクセラレータがあります。」Appleの数値:行列乗算は4~8倍高速化、LLMの最初のトークンまでの時間(計算バウンドのプリフィル)は最大4倍高速化、トークン生成(メモリバウンドのデコード)は最大25%高速化。これは、ローカル推論の分野でよく知られているルーフラインモデルであり、Apple自身もMetal Performance Primitivesガイドで明記しています。「低演算強度のGEMMはメモリバウンドであり、高演算強度のGEMMは計算バウンドであり、カーネルパフォーマンスのルーフラインモデルを形成します。」プリフィル対デコードの分割は、Apple自身の言語になりました。コード内の別の兆候:coreai-modelsソースコードは、モデルがそのグラフ構造から好む計算ユニットを推測します。チャンク化された静的シェイプのグラフはNeural Engineを好み、動的シェイプのグラフはGPUを好みます。これは、Appleが何年も示唆してきたバイフルケーションを静かに形式化したものです。Neural Engineは静的で古典的な作業用、GPU(各シェーダーコアにニューラルアクセラレータ内蔵)はトランスフォーマーの行列乗算用です。強調すべきは、これはエクスポート時にエンコードされたモデルの好みのターゲットであり、実際の実行がどこで行われるかの保証ではないということです。
モデル:AFM 3と帯域幅の壁
Appleは第3世代のFoundation Modelsも導入しました。オンデバイスでは、30億パラメータの高密度モデル(AFM 3 Core)と200億パラメータのスパース混合エキスパートモデル(AFM 3 Core Advanced)があります。後者はネイティブマルチモーダルで、一度に10億~40億パラメータのみを活性化し、最も高性能なAppleシリコンに制限されています。興味深い部分はメモリセクションで、Appleは制約を明確に述べています。「モデル全体はフラッシュメモリ(NAND)に保存される…NANDからDRAMへの帯域幅は、トークンごとに重みをスワップするには遅すぎる。」これは、AppleがすべてのローカルLLMランナーが直面するまさにその壁を説明しているものです。常駐させるには大きすぎるモデルは、トークンごとに移動されるバイト数で代償を支払います。彼らの答えは、常時アクティブな「共有エキスパート」と入力依存の「ルーテッドエキスパート」の割合が高い混合エキスパートモデルであり、常時オンラインの重みをメモリに保持し、残りをできるだけストリーミングしないようにし、量子化認識トレーニングで残りを圧縮します。これは、Appleも物理法則から免除されているわけではなく、研究投稿で異常なほど率直であることを思い出させます。
境界:オンデバイス、クラウド、そして不透明な中間
Appleのファンデーションモデルは現在、オンデバイスからクラウドまでのスペクトルをカバーしており、クラウド側には驚くべき形状があります。AppleはGoogleおよびNVIDIAと協力して、Private Cloud ComputeをGoogle CloudのNVIDIA GPUに拡張しました。Appleの最も要求の厳しいモデルは、Google Cloud上のNVIDIA GPUで動作し、Googleと共同で構築されています。独自のシリコンを設計し、オンデバイスプライバシーを売りにする企業にとって、フラッグシップクラウドモデルが競合他社のハードウェアと競合他社のクラウド上で動作することは、今週最も驚くべき兆候です。最も確認したかったのは切り替えです。リクエストがいつデバイスで実行され、いつPrivate Cloud Computeに送られるのか、そして事後にどちらが発生したかを確認できるのか。AppleのAPIは明示的な選択肢を公開しています。Private Cloud Computeモデルオプションと、専用のPrivateCloudComputeLanguageModelタイプです。Core AIドキュメント、Foundation Modelsドキュメント、Expanding-Private-Cloud-Computeセキュリティ投稿のいずれにも、オンデバイスリクエストが透過的にオフロードされるタイミングや、そのルーティングが開発者やユーザーに可視であるかどうかの記述は見つかりませんでした。したがって、正直なバージョンは次のとおりです。スペクトルは現実であり、クラウドはGoogleとNVIDIAであり、トリガーメカニズムとその監査可能性は単に公開されていません。沈黙をどう解釈するかはあなた次第です。
開発者が確認できるもの:タイミング
Core AIには3つのツールが付属しています。スタンドアロンのDebuggerアプリ、Xcodeデバッグゲージ、Instrumentsテンプレートです。これらは実際のものを測定します。Core AIインストルメントは、CPU、GPU、Neural Engine全体の実行タイミングをプロファイリングし、Core AIイベントをハードウェアアクティビティと関連付けます。レイテンシ、トークン数、モデルを実行した計算ユニット—Xcode内で、自身のアプリのCore AI呼び出しに対して。エネルギー、メモリ帯域幅、サーマル状態は、Core AIプロファイリングドキュメントのどこにも記載されていません。これはツールが報告する内容に関する声明であり、判断ではありませんが、オンデバイスパフォーマンスの多くがまさにこれら3つによって決定されることを考えると、注目すべきギャップです。
もう1つのトラック:MLX
並行して、Appleはパワーユーザー向けの持ち込み重みパスとしてMLXへの投資を継続しました。WWDC 2026では、複数のMacにわたる分散推論(Thunderbolt 5上の新しいJACCLバックエンド)、OpenAI互換のmlx_lm.server、そしてそれに基づくMac上のエージェント機能が追加されました。注目すべきは、MLXセッションはCore AIやFoundation Modelsに遡らないことです。これは意図的な2トラック戦略です。システム自身のモデルはCore AIとFoundation Models上で、オープンコミュニティのモデルはMLX上で動作します。
より広範な影響
一歩下がって見ると、ロードマップは明確です。オンデバイスAIは今や第一級のプラットフォーム機能です。Apple Intelligenceを動かす同じ推論エンジンが、独自の形式、ツールチェーン、プロファイラを備えた開発者フレームワークになりました。これは機能よりも大きなコミットメントです。スタックは統合される前に断片化しています。Core ML、Core AI、MLXが共存しており、開発者は発表から数時間以内に3つのうちどれを使うべきか、なぜかを尋ねています。Appleはフレームワークを、それらを説明するストーリーよりも速く出荷しました。難しい問題は普遍的なものです。AFM 3のNAND帯域幅の認めと、プリフィル対デコードのルーフラインは、すべてのローカル推論プロジェクトが直面する同じ制約です。興味深いのはAppleがそれらを解決したことではなく、Appleが今や私たちと同じ用語でそれらを説明していることです。クラウドの境界は注目すべき部分です。スイッチが文書化されておらず、クラウド側がGoogleとNVIDIA上で動作するローカルからクラウドへのスペクトルは、より多くの注目を集める信頼とアーキテクチャの問題です。