使用MLX在Mac上執行本地自主AI(WWDC 2026)[影片]
本影片展示瞭如何利用MLX框架在Mac上完全本地化執行自主AI代理,無需雲端或API金鑰。涵蓋了從基礎棧到效能最佳化的四大層次,包括藉助M5神經加速器實現4倍提示處理加速、連續批處理支援併發以及多Mac分散式推理。透過OpenCode等實際演示,展示了代理在本地構建SwiftUI應用和修復Xcode錯誤的完整流程。
在WWDC 2026上,Apple的MLX團隊展示瞭如何利用MLX框架在Mac上構建和執行完全本地化的自主AI代理。該技術無需依賴雲服務或API金鑰,所有計算均在使用者裝置上完成,從而確保資料隱私、低延遲和離線可用性。影片首先介紹了自主代理的核心迴圈:使用者與代理互動,代理呼叫語言模型進行決策,然後透過工具執行命令、讀取檔案或訪問API,並觀察結果反饋給模型以決定下一步行動。整個過程在本地裝置上迴圈進行,直到任務完成。MLX團隊展示了實際案例:一個執行在本地Mac上的代理,透過呼叫GitHub CLI獲取最近的拉取請求,總結變更並標記需要關注的專案,所有操作均即時執行。
代理的本地化執行依賴於四層技術棧:底層為MLX框架,負責底層計算、Metal加速和記憶體管理;第二層為MLX-LM,提供載入、執行、量化和微調語言模型的能力;第三層為MLX-LM伺服器,一個相容OpenAI的HTTP伺服器,支援結構化工具呼叫和推理模型;頂層為代理框架,如Xcode、OpenCode等,透過標準API與伺服器通訊。該棧已被Ollama、LM Studio等流行工具廣泛採用。設定本地代理僅需三步:安裝MLX-LM(一個pip命令),啟動伺服器(指定支援工具呼叫的模型),以及將代理指向本地伺服器地址。
效能最佳化方面,影片重點介紹了三個挑戰。首先是提示處理:自主工作流程中,模型需反覆處理大量工具輸出結果。M5晶片的神經加速器專為此最佳化,使矩陣乘法速度相比M4提升4倍,從而顯著縮短提示處理時間。使用者無需任何程式碼更改即可自動受益。其次是併發:代理常並行生成多個子代理處理不同任務。MLX-LM伺服器透過連續批處理動態合併請求,避免排隊等待,確保全體子代理流暢執行。最後是模型大小:對於引數規模極大的模型(如1.6萬億引數的DeepSeek),單臺Mac記憶體可能不足。MLX的分散式推理支援透過Thunderbolt或乙太網連線多臺Mac,自動分片載入模型,並可並行處理提示。macOS 26.2起支援Thunderbolt RDMA,四節點分散式推理速度提升高達3倍。
實際演示部分展示了代理的編碼能力:從空白Xcode專案開始,代理在2分鐘內自主構建了一個功能完整的iPad繪圖應用,包括程式碼編寫、構建和錯誤修復。隨後透過整合到Xcode,代理快速定位並修復了故意引入的bug。所有操作均在本地完成,驗證了自主AI在開發環境中的實用價值。