AI News HubLIVE
站内改写2 分で読了

MLXを使ってMac上でローカルエージェントAIを実行する(WWDC 2026)[動画]

このビデオでは、MLXフレームワークを使用して、クラウドやAPIキーなしでMac上に完全ローカルのエージェント型AIワークフローを構築し実行する方法を紹介します。MLXからエージェントまでの4層スタック、M5ニューラルアクセラレータによる4倍のプロンプト処理高速化、連続バッチングによる同時処理、複数Macにわたる分散推論といったパフォーマンス最適化を解説。デモでは、ローカルエージェントがSwiftUIアプリをゼロから構築し、Xcodeのバグを修正する様子を紹介します。

ソースHacker News AI著者: sebiw

WWDC 2026において、AppleのMLXチームは、MLXフレームワークを活用してMac上で完全ローカルのエージェント型AIを構築し実行する方法を実演しました。この技術はクラウドサービスやAPIキーに依存せず、すべての計算をユーザーのデバイス上で完了させるため、データプライバシー、低レイテンシ、オフライン利用の確保が可能です。

ビデオではまず、エージェントの基本ループを説明:ユーザーがエージェントと対話し、エージェントが言語モデルに判断を仰ぎ、ツールを呼び出してコマンド実行、ファイル読み取り、APIアクセスを行い、その結果をモデルにフィードバックして次のステップを決定します。このループはタスク完了までローカルで繰り返されます。実演では、ローカルMac上で動作するエージェントがGitHub CLIを呼び出し、最近のプルリクエストを取得して変更を要約し、注意が必要な項目を特定する様子が示されました。

ローカルエージェントの実現は4層のスタックに基づいています:最下層はMLXフレームワークで、低レベルの計算、Metalアクセラレーション、メモリ管理を担当。第2層はMLX-LMで、言語モデルの読み込み、実行、量子化、微調整を提供。第3層はMLX-LMサーバーで、OpenAI互換のHTTPサーバーとして機能し、構造化ツール呼び出しや推論モデルをサポート。最上層はエージェントフレームワーク(Xcode、OpenCodeなど)で、標準APIを介してサーバーと通信します。このスタックはOllama、LM Studioなど多くの人気ツールで採用されています。セットアップは3ステップで完了:MLX-LMのインストール(pip install)、サーバーの起動(ツール呼び出し対応モデルを指定)、エージェントをローカルサーバーに向けるだけです。

パフォーマンス最適化に関しては、3つの課題に焦点を当てています。1つ目の課題はプロンプト処理:エージェントワークフローでは、モデルがツール出力結果を繰り返し処理する必要があります。M5チップのニューラルアクセラレータはこの処理に特化し、行列乗算をM4比で4倍高速化し、プロンプト処理時間を大幅に短縮します。コード変更は不要で、自動的に最適なカーネルが選択されます。2つ目の課題は並行処理:エージェントは複数のサブエージェントを並行して生成することが一般的です。MLX-LMサーバーは連続バッチングにより、同時リクエストを動的にグループ化してGPU上で処理し、待ち時間を排除します。3つ目の課題はモデルサイズ:1.6兆パラメータのDeepSeekモデルのように、単一Macのメモリに収まらない大規模モデルには、MLXの分散推論が有効です。Thunderboltまたはイーサネットで接続された複数のMacにモデルを自動分割し、プロンプト処理を並列化します。macOS 26.2以降ではThunderbolt RDMAをサポートし、4ノード構成で最大3倍の高速化を実現します。

デモでは、エージェントのコーディング能力を披露:空のXcodeプロジェクトから、エージェントが2分間でiPad用描画アプリをゼロから構築しました。コード作成、ビルド、エラー修正を全て自動で行い、さらに丸みを帯びた線端への変更要求にも対応。また、Xcodeに統合したデモでは、意図的に仕込んだバグをエージェントが数秒で特定し修正しました。全ての処理はローカルで完結し、開発環境におけるエージェントAIの実用性を実証しています。