2026-06-12站内改写2 分鐘閱讀更新: 2026-06-12

使用MLX在Mac上運行本地自主AI（WWDC 2026）[視頻]

本視頻展示瞭如何利用MLX框架在Mac上完全本地化運行自主AI代理，無需雲端或API密鑰。涵蓋了從基礎棧到性能優化的四大層次，包括藉助M5神經加速器實現4倍提示處理加速、連續批處理支持併發以及多Mac分佈式推理。通過OpenCode等實際演示，展示了代理在本地構建SwiftUI應用和修復Xcode錯誤的完整流程。

來源Hacker News AI作者: sebiw

在WWDC 2026上，Apple的MLX團隊展示瞭如何利用MLX框架在Mac上構建和運行完全本地化的自主AI代理。該技術無需依賴雲服務或API密鑰，所有計算均在用户設備上完成，從而確保數據隱私、低延遲和離線可用性。視頻首先介紹了自主代理的核心循環：用户與代理交互，代理調用語言模型進行決策，然後通過工具執行命令、讀取文件或訪問API，並觀察結果反饋給模型以決定下一步行動。整個過程在本地設備上循環進行，直到任務完成。MLX團隊展示了實際案例：一個運行在本地Mac上的代理，通過調用GitHub CLI獲取最近的拉取請求，總結變更並標記需要關注的項目，所有操作均實時執行。

代理的本地化運行依賴於四層技術棧：底層為MLX框架，負責底層計算、Metal加速和內存管理；第二層為MLX-LM，提供加載、運行、量化和微調語言模型的能力；第三層為MLX-LM服務器，一個兼容OpenAI的HTTP服務器，支持結構化工具調用和推理模型；頂層為代理框架，如Xcode、OpenCode等，通過標準API與服務器通信。該棧已被Ollama、LM Studio等流行工具廣泛採用。設置本地代理僅需三步：安裝MLX-LM（一個pip命令），啓動服務器（指定支持工具調用的模型），以及將代理指向本地服務器地址。

性能優化方面，視頻重點介紹了三個挑戰。首先是提示處理：自主工作流程中，模型需反覆處理大量工具輸出結果。M5芯片的神經加速器專為此優化，使矩陣乘法速度相比M4提升4倍，從而顯著縮短提示處理時間。用户無需任何代碼更改即可自動受益。其次是併發：代理常並行生成多個子代理處理不同任務。MLX-LM服務器通過連續批處理動態合併請求，避免排隊等待，確保全體子代理流暢運行。最後是模型大小：對於參數規模極大的模型（如1.6萬億參數的DeepSeek），單台Mac內存可能不足。MLX的分佈式推理支持通過Thunderbolt或以太網連接多台Mac，自動分片加載模型，並可並行處理提示。macOS 26.2起支持Thunderbolt RDMA，四節點分佈式推理速度提升高達3倍。

實際演示部分展示了代理的編碼能力：從空白Xcode項目開始，代理在2分鐘內自主構建了一個功能完整的iPad繪圖應用，包括代碼編寫、構建和錯誤修復。隨後通過集成到Xcode，代理快速定位並修復了故意引入的bug。所有操作均在本地完成，驗證了自主AI在開發環境中的實用價值。