2026-05-19 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Apple M3 Ultra上實時擴散模型推理的系統優化

本研究針對Apple M3 Ultra（60核GPU，512 GB統一內存）進行了10階段的全面優化實驗，旨在實現實時相機img2img變換。通過結合蒸餾專用模型SDXS-512的CoreML轉換和3線程相機流水線，最終在512x512分辨率下達到了22.7 FPS。研究揭示了CUDA平台上的優化策略在Apple Silicon統一內存架構上並不有效，例如量化無法加速、並行推理無效以及神經引擎不適用於大規模模型，並提供了針對Apple Silicon的擴散模型推理實用指南。

來源arXiv Machine Learning作者: Yoichi Ochiai

近日，一篇名為《Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra》的論文在arXiv上發表，作者是Yoichi Ochiai。該研究針對Apple M3 Ultra芯片（60核GPU，512 GB統一內存）進行了系統性的擴散模型推理優化，目標是實現實時相機圖像到圖像（img2img）變換。儘管基於NVIDIA GPU的實時圖像生成技術已取得顯著進展，但在非CUDA平台如Apple Silicon上的系統優化研究仍然十分有限。

研究團隊開展了涵蓋10個階段的全面優化實驗，探索了多種技術手段，包括CoreML轉換、量化、Token Merging、神經引擎利用、緊湊模型探索、幀插值、基於kNN搜索的合成、pix2pix-turbo、光流幀跳過以及知識蒸餾。每種方法都經過了嚴格的定量評估。例如，在CoreML轉換階段，研究者嘗試將標準擴散模型轉換為CoreML格式，發現直接轉換無法有效利用Apple Silicon的硬件加速；而量化實驗表明，將模型權重從FP16降至INT8甚至INT4雖能減少內存佔用，但推理速度並未提升，這與CUDA平台上的經驗截然不同。Token Merging技術嘗試在注意力機制中合併冗餘token以降低計算量，但效果有限；神經引擎雖然理論上為機器學習加速設計，但面對大規模擴散模型時，其有限的緩存和計算單元導致性能反而不如GPU直接推理。

最終，通過將蒸餾專用模型SDXS-512進行CoreML轉換，並設計三線程相機流水線（分別處理圖像採集、模型推理和結果輸出），研究者在512x512分辨率下實現了22.7 FPS的實時img2img變換。該流水線通過流水線並行和內存優化，將端到端延遲控制在43毫秒以內，滿足了實時交互的需求。

該工作的核心貢獻在於系統性地證明了在CUDA平台上建立的優化經驗在Apple Silicon的統一內存架構上並不一定有效。研究揭示了一個與NVIDIA GPU截然不同的優化景觀：量化無法帶來加速，並行推理效果不佳（由於統一內存帶寬競爭），神經引擎不適合處理大規模模型。基於這些發現，研究者提供了針對Apple Silicon的擴散模型推理實用指南，包括推薦使用蒸餾模型而非直接量化、避免多卡並行而採用單線程流水線、以及優先利用GPU而非神經引擎等。這些指南為在非CUDA硬件上部署高效生成模型奠定了堅實基礎，並推動了更廣泛的硬件生態優化。