2026-05-19 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Apple M3 Ultra上即時擴散模型推理的系統最佳化

本研究針對Apple M3 Ultra（60核GPU，512 GB統一記憶體）進行了10階段的全面最佳化實驗，旨在實現即時相機img2img變換。透過結合蒸餾專用模型SDXS-512的CoreML轉換和3執行緒相機流水線，最終在512x512解析度下達到了22.7 FPS。研究揭示了CUDA平臺上的最佳化策略在Apple Silicon統一記憶體架構上並不有效，例如量化無法加速、並行推理無效以及神經引擎不適用於大規模模型，並提供了針對Apple Silicon的擴散模型推理實用指南。

來源arXiv Machine Learning作者: Yoichi Ochiai

近日，一篇名為《Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra》的論文在arXiv上發表，作者是Yoichi Ochiai。該研究針對Apple M3 Ultra晶片（60核GPU，512 GB統一記憶體）進行了系統性的擴散模型推理最佳化，目標是實現即時相機影像到影像（img2img）變換。儘管基於NVIDIA GPU的即時影像生成技術已取得顯著進展，但在非CUDA平臺如Apple Silicon上的系統最佳化研究仍然十分有限。

研究團隊開展了涵蓋10個階段的全面最佳化實驗，探索了多種技術手段，包括CoreML轉換、量化、Token Merging、神經引擎利用、緊湊模型探索、幀插值、基於kNN搜尋的合成、pix2pix-turbo、光流幀跳過以及知識蒸餾。每種方法都經過了嚴格的定量評估。例如，在CoreML轉換階段，研究者嘗試將標準擴散模型轉換為CoreML格式，發現直接轉換無法有效利用Apple Silicon的硬體加速；而量化實驗表明，將模型權重從FP16降至INT8甚至INT4雖能減少記憶體佔用，但推理速度並未提升，這與CUDA平臺上的經驗截然不同。Token Merging技術嘗試在注意力機制中合併冗餘token以降低計算量，但效果有限；神經引擎雖然理論上為機器學習加速設計，但面對大規模擴散模型時，其有限的快取和計算單元導致效能反而不如GPU直接推理。

最終，透過將蒸餾專用模型SDXS-512進行CoreML轉換，並設計三執行緒相機流水線（分別處理影像採集、模型推理和結果輸出），研究者在512x512解析度下實現了22.7 FPS的即時img2img變換。該流水線透過流水線並行和記憶體最佳化，將端到端延遲控制在43毫秒以內，滿足了即時互動的需求。

該工作的核心貢獻在於系統性地證明了在CUDA平臺上建立的最佳化經驗在Apple Silicon的統一記憶體架構上並不一定有效。研究揭示了一個與NVIDIA GPU截然不同的最佳化景觀：量化無法帶來加速，並行推理效果不佳（由於統一記憶體頻寬競爭），神經引擎不適合處理大規模模型。基於這些發現，研究者提供了針對Apple Silicon的擴散模型推理實用指南，包括推薦使用蒸餾模型而非直接量化、避免多卡並行而採用單執行緒流水線、以及優先利用GPU而非神經引擎等。這些指南為在非CUDA硬體上部署高效生成模型奠定了堅實基礎，並推動了更廣泛的硬體生態最佳化。