2026-06-12站内改写2 分鐘閱讀更新: 2026-06-12

使用MLX在Mac上執行本地自主AI（WWDC 2026）[影片]

本影片展示瞭如何利用MLX框架在Mac上完全本地化執行自主AI代理，無需雲端或API金鑰。涵蓋了從基礎棧到效能最佳化的四大層次，包括藉助M5神經加速器實現4倍提示處理加速、連續批處理支援併發以及多Mac分散式推理。透過OpenCode等實際演示，展示了代理在本地構建SwiftUI應用和修復Xcode錯誤的完整流程。

來源Hacker News AI作者: sebiw

在WWDC 2026上，Apple的MLX團隊展示瞭如何利用MLX框架在Mac上構建和執行完全本地化的自主AI代理。該技術無需依賴雲服務或API金鑰，所有計算均在使用者裝置上完成，從而確保資料隱私、低延遲和離線可用性。影片首先介紹了自主代理的核心迴圈：使用者與代理互動，代理呼叫語言模型進行決策，然後透過工具執行命令、讀取檔案或訪問API，並觀察結果反饋給模型以決定下一步行動。整個過程在本地裝置上迴圈進行，直到任務完成。MLX團隊展示了實際案例：一個執行在本地Mac上的代理，透過呼叫GitHub CLI獲取最近的拉取請求，總結變更並標記需要關注的專案，所有操作均即時執行。

代理的本地化執行依賴於四層技術棧：底層為MLX框架，負責底層計算、Metal加速和記憶體管理；第二層為MLX-LM，提供載入、執行、量化和微調語言模型的能力；第三層為MLX-LM伺服器，一個相容OpenAI的HTTP伺服器，支援結構化工具呼叫和推理模型；頂層為代理框架，如Xcode、OpenCode等，透過標準API與伺服器通訊。該棧已被Ollama、LM Studio等流行工具廣泛採用。設定本地代理僅需三步：安裝MLX-LM（一個pip命令），啟動伺服器（指定支援工具呼叫的模型），以及將代理指向本地伺服器地址。

效能最佳化方面，影片重點介紹了三個挑戰。首先是提示處理：自主工作流程中，模型需反覆處理大量工具輸出結果。M5晶片的神經加速器專為此最佳化，使矩陣乘法速度相比M4提升4倍，從而顯著縮短提示處理時間。使用者無需任何程式碼更改即可自動受益。其次是併發：代理常並行生成多個子代理處理不同任務。MLX-LM伺服器透過連續批處理動態合併請求，避免排隊等待，確保全體子代理流暢執行。最後是模型大小：對於引數規模極大的模型（如1.6萬億引數的DeepSeek），單臺Mac記憶體可能不足。MLX的分散式推理支援透過Thunderbolt或乙太網連線多臺Mac，自動分片載入模型，並可並行處理提示。macOS 26.2起支援Thunderbolt RDMA，四節點分散式推理速度提升高達3倍。

實際演示部分展示了代理的編碼能力：從空白Xcode專案開始，代理在2分鐘內自主構建了一個功能完整的iPad繪圖應用，包括程式碼編寫、構建和錯誤修復。隨後透過整合到Xcode，代理快速定位並修復了故意引入的bug。所有操作均在本地完成，驗證了自主AI在開發環境中的實用價值。