AI News HubLIVE
站内改写4 分鐘閱讀

蘋果在WWDC 2026重建其設備端AI堆棧

蘋果在WWDC 2026上未發佈新芯片,而是徹底重建了設備端AI運行方式,包括新的推理框架Core AI、模型格式.aimodel、新一代設備端模型AFM 3,以及更明確的雲協作策略。Core AI取代Core ML進行神經網絡處理,新GPU集成了神經加速器,矩陣乘法速度提升4-8倍。蘋果的旗艦雲模型運行在谷歌雲的NVIDIA GPU上,這一合作引人注目。

來源Hacker News AI作者: ABS

WWDC 2026並未帶來新的芯片,但蘋果徹底重建了其設備端AI的運行方式。這次發佈的核心是新的推理框架Core AI、新的模型格式.aimodel、新一代設備端模型AFM 3,以及一種明顯不同的雲策略。雖然消費者特性是頭條,但開發者文檔、會議代碼和一篇機器學習研究帖子揭示了更清晰的路線圖,以及一些真正令人意外的細節。

重大變化:Core AI取代Core ML處理神經網絡

十年來,Core ML一直是“在iPhone上運行模型”的答案。在WWDC 2026上,蘋果推出了Core AI,並明確表示這是交接而非新增。Core AI的文檔將舊案例送回Core ML:“如果你的應用使用除神經網絡以外的模型類型,如決策樹或表格特徵工程,請參閲Core ML。”而Core ML的文檔則指向新框架:“如果你的應用集成使用最新架構和推理技術的AI模型,請參閲Core AI。”合在一起,這構成了一次拆分:Core ML縮小到傳統的非神經網絡機器學習,而神經網絡和Transformer則轉移至Core AI。蘋果將Core AI描述為產品本身的引擎:“Core AI允許你的應用在CPU、GPU和神經引擎上使用最新的模型架構和推理技術。”工具鏈中的微妙跡象是新的Core AI調試儀表盤不支持Core ML框架。Core ML並未棄用,但其重心和工具投入已經轉移。

新格式:.aimodel包

Core AI附帶新的磁盤格式.aimodel,奇怪的是它不是一個文件而是一個目錄。蘋果的coreai-models存儲庫將其視為目錄,Python導出器使用僅目錄調用來刪除舊格式,Swift運行時將其解析為“.aimodel目錄”。內部是純JSON的metadata.json文件,記錄模型類型、分詞器、詞彙量、上下文長度、壓縮預設和模型文件。權重有效負載由不透明的框架調用寫入,其字節佈局未公開。因此格式是半開放的:可讀的清單包裹着一個未記錄的二進制塊。模型使用新的Python工具鏈準備:Core AI優化用於壓縮,Core AI PyTorch擴展用於從PyTorch直接導出。壓縮選項比GGUF世界更豐富:2、4、8位整數權重;FP8和FP4等浮點微格式;塊縮放MXFP8;以及1至8位調色板量化。一位論壇讀者指出,蘋果還在推動激活量化,如w4a8/w4a16。考慮到蘋果的安裝基數,其支持的格式可能最終影響子100B模型的發佈方式。

硬件信號:矩陣乘法移至GPU

沒有新芯片,但WWDC 2026明確了M5和A19 GPU的故事,這是本週最清晰的硬件信號。蘋果表示:“神經加速器是M5中專用於矩陣乘法的專用硬件。它們內置於每個着色器核心中,與其他GPU管線並列。每個着色器核心都有自己的神經加速器。”蘋果的數據:矩陣乘法速度提升4至8倍,LLM首詞延遲(計算密集的預填充階段)提升高達4倍,令牌生成(內存密集的解碼階段)提升高達25%。這實際上是本地推理領域熟悉的屋頂線模型,現在蘋果自己也明確表述了:“低算術強度的GEMM是內存密集型的,高算術強度的GEMM是計算密集型的,構成了內核性能的屋頂線模型。”預填充與解碼的拆分現在成了蘋果自己的語言。另一個代碼中的跡象:coreai-models源代碼根據圖結構推斷模型的首選計算單元:分塊、靜態形狀的圖偏好神經引擎;動態形狀的圖偏好GPU。這悄然形式化了蘋果多年來暗示的分叉——神經引擎用於靜態、經典形狀的工作,而GPU(每個着色器核心內嵌神經加速器)用於Transformer矩陣乘法。值得強調的是,這是導出時編碼的模型首選目標,並非實際執行的保證。

模型:AFM 3與帶寬牆

蘋果還推出了第三代基礎模型。設備端模型包括30億參數的密集模型(AFM 3 Core)和200億參數的稀疏混合專家模型(AFM 3 Core Advanced),後者原生多模態,每次激活僅1至4億參數,並限制在性能最強的蘋果硅芯片上。有趣的部分是內存部分,蘋果明確描述了約束:“整個模型存儲在閃存(NAND)中……NAND到DRAM帶寬對於逐令牌交換權重來説太慢。”這是蘋果在描述每個本地LLM運行者都會遇到的牆:一個太大而無法常駐的模型,每個令牌移動的字節數需支付代價。他們的答案是混合專家模型,具有高比例始終活躍的“共享專家”和依賴於輸入的“路由專家”——保持始終在線的權重在內存中,儘可能少地流式傳輸剩餘部分——並通過量化感知訓練壓縮其餘部分。這提醒我們,蘋果也不能免於物理定律,只是在一篇研究帖子中異常坦誠。

邊界:設備端、雲端和模糊的中間地帶

蘋果的基礎模型現在涵蓋從設備端到雲端的譜系,而云端部分有一個驚人的形狀。蘋果與谷歌和NVIDIA合作,將私有云計算擴展到谷歌雲中的NVIDIA GPU。蘋果性能最強的模型運行在谷歌雲的NVIDIA GPU上,由谷歌構建。對於一家設計自家芯片並主打設備端隱私的公司來説,旗艦雲模型運行在競爭對手的硬件和競爭對手的雲上,是本週最令人驚訝的跡象。最想確認的是切換機制:請求何時在設備上運行,何時轉到私有云計算,之後能否分辨?蘋果的API公開了顯式選擇——私有云計算模型選項和專門的PrivateCloudComputeLanguageModel類型。但在Core AI文檔、基礎模型文檔或擴展私有云計算安全帖子中,我找不到任何關於設備端請求何時透明卸載或路由對開發者或用户可見的聲明。因此,誠實的版本是:譜系是真實的,雲端是谷歌加NVIDIA,而觸發機制及其可審計性根本沒有公開説明。沉默由你解讀。

開發者可見的內容:計時

Core AI附帶三個工具——獨立調試器應用、Xcode調試儀表盤和Instruments模板——它們確實測量了真實內容。Core AI工具分析CPU、GPU和神經引擎的執行時序,關聯Core AI事件與硬件活動。延遲、令牌計數和運行模型的計算單元——在Xcode中,針對你自己的應用的Core AI調用。能量、內存帶寬和熱狀態未出現在Core AI分析文檔中。這是一個關於工具報告內容的陳述,但考慮到設備端性能很大程度上由這三個因素決定,這是一個值得注意的空白。

另一條軌道:MLX

並行地,蘋果繼續投資於MLX作為供高級用户使用的自帶權重路徑。WWDC 2026增加了跨多台Mac的分佈式推理(通過Thunderbolt 5的新JACCL後端)、OpenAI兼容的mlx_lm.server,以及基於此的Mac端Agent功能。值得注意的是,MLX會議沒有回溯到Core AI或基礎模型——這是一種故意的雙軌策略:系統自己的模型運行在Core AI和基礎模型上,開放社區模型運行在MLX上。

更廣泛的影響

退一步看,路線圖清晰可辨:設備端AI現在是一流的平台能力。驅動蘋果智能的相同推理引擎現在是一個開發者框架,擁有自己的格式、工具鏈和分析器。這是一個比功能更大的承諾。堆棧正在碎片化,然後才會整合:Core ML、Core AI和MLX現在共存,開發者們在公告發布數小時內就開始詢問使用哪一個以及為什麼。蘋果交付框架的速度快於解釋它們的故事。硬問題是普遍性的:AFM 3的NAND帶寬聲明和預填充與解碼的屋頂線是每個本地推理項目都在面對的相同約束。有趣的是不是蘋果解決了它們,而是蘋果現在用與我們相同的術語來描述它們。雲邊界是值得關注的部分。一個本地到雲的譜系,其切換機制未記錄,雲端運行在谷歌和NVIDIA上,這是一個信任和架構問題,將會引起更多關注。