AI News HubLIVE
站内改写2 分鐘閱讀

使用MLX在Mac上運行本地自主AI(WWDC 2026)[視頻]

本視頻展示瞭如何利用MLX框架在Mac上完全本地化運行自主AI代理,無需雲端或API密鑰。涵蓋了從基礎棧到性能優化的四大層次,包括藉助M5神經加速器實現4倍提示處理加速、連續批處理支持併發以及多Mac分佈式推理。通過OpenCode等實際演示,展示了代理在本地構建SwiftUI應用和修復Xcode錯誤的完整流程。

來源Hacker News AI作者: sebiw

在WWDC 2026上,Apple的MLX團隊展示瞭如何利用MLX框架在Mac上構建和運行完全本地化的自主AI代理。該技術無需依賴雲服務或API密鑰,所有計算均在用户設備上完成,從而確保數據隱私、低延遲和離線可用性。視頻首先介紹了自主代理的核心循環:用户與代理交互,代理調用語言模型進行決策,然後通過工具執行命令、讀取文件或訪問API,並觀察結果反饋給模型以決定下一步行動。整個過程在本地設備上循環進行,直到任務完成。MLX團隊展示了實際案例:一個運行在本地Mac上的代理,通過調用GitHub CLI獲取最近的拉取請求,總結變更並標記需要關注的項目,所有操作均實時執行。

代理的本地化運行依賴於四層技術棧:底層為MLX框架,負責底層計算、Metal加速和內存管理;第二層為MLX-LM,提供加載、運行、量化和微調語言模型的能力;第三層為MLX-LM服務器,一個兼容OpenAI的HTTP服務器,支持結構化工具調用和推理模型;頂層為代理框架,如Xcode、OpenCode等,通過標準API與服務器通信。該棧已被Ollama、LM Studio等流行工具廣泛採用。設置本地代理僅需三步:安裝MLX-LM(一個pip命令),啓動服務器(指定支持工具調用的模型),以及將代理指向本地服務器地址。

性能優化方面,視頻重點介紹了三個挑戰。首先是提示處理:自主工作流程中,模型需反覆處理大量工具輸出結果。M5芯片的神經加速器專為此優化,使矩陣乘法速度相比M4提升4倍,從而顯著縮短提示處理時間。用户無需任何代碼更改即可自動受益。其次是併發:代理常並行生成多個子代理處理不同任務。MLX-LM服務器通過連續批處理動態合併請求,避免排隊等待,確保全體子代理流暢運行。最後是模型大小:對於參數規模極大的模型(如1.6萬億參數的DeepSeek),單台Mac內存可能不足。MLX的分佈式推理支持通過Thunderbolt或以太網連接多台Mac,自動分片加載模型,並可並行處理提示。macOS 26.2起支持Thunderbolt RDMA,四節點分佈式推理速度提升高達3倍。

實際演示部分展示了代理的編碼能力:從空白Xcode項目開始,代理在2分鐘內自主構建了一個功能完整的iPad繪圖應用,包括代碼編寫、構建和錯誤修復。隨後通過集成到Xcode,代理快速定位並修復了故意引入的bug。所有操作均在本地完成,驗證了自主AI在開發環境中的實用價值。