2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

如何在2026年使用Nvidia eGPU搭配Mac進行本地AI

蘋果已批准Tiny Corp的TinyGPU驅動程式，允許Nvidia和AMD外接GPU在Apple Silicon Mac上用於計算工作負載。本指南涵蓋了硬體推薦、設定步驟以及執行基於CUDA的本地AI的效能基準測試。

2026年4月，蘋果公司正式簽署並公證了Tiny Corp開發的TinyGPU驅動程式，這是首個獲得官方認可的方式，讓Nvidia和AMD外接GPU可以在Apple Silicon Mac上用於計算工作負載。這一突破性進展意味著使用者現在可以將RTX 4090等顯示卡透過Thunderbolt 4連線到Mac Mini M4 Pro，並利用CUDA加速進行推理、微調和影像生成，同時Mac的統一記憶體可以作為溢位緩衝區。

TinyGPU驅動由喬治·霍茲領導的Tiny Corp開發，專注於計算而非圖形處理。它已透過蘋果的標準公證流程，安裝簡單，無需停用系統完整性保護。驅動支援Nvidia Ampere及以上架構（如RTX 3090、4090、5090）和AMD RDNA3及以上架構。對於Nvidia GPU，CUDA編譯需要在Docker容器內完成，而AMD的ROCm則原生支援。Tom's Hardware的分析證實該驅動透過了蘋果的公證要求，並使用標準的IOKit核心擴充套件API。AppleInsider的測試發現，它可以在Sonnet Breakaway Box 750和RTX 4090上開箱即用。eGPU.io社群已經編制了涵蓋30多種GPU和機箱組合的相容性資料庫。

在效能方面，Thunderbolt 4提供約32 Gbps的有效頻寬，約為原生PCIe 4.0 x16的一半。然而，對於大多數推理任務，效能瓶頸主要在於GPU的視訊記憶體頻寬，而非PCIe頻寬。早期基準測試顯示，LLM推理效能可達原生PCIe的60-85%，影像生成和微調則略低。具體來說，單使用者LLM推理時，13B以下模型效能為原生PCIe的60-75%，更大模型為75-85%；Stable Diffusion XL影像生成為55-65%；微調為50-60%。

硬體選擇上，RTX 4090憑藉24GB GDDR6X視訊記憶體和合理的價格成為最佳選擇，可處理多達30B引數模型，在Llama 3 8B Q4上可達45-50 tok/s，在70B Q4上可達9-10 tok/s。對於需要執行70B模型的使用者，RTX 5090的32GB GDDR7視訊記憶體更合適，效能約70-75 tok/s（8B）和13-15 tok/s（70B），但需要750W以上機箱。預算有限時，二手RTX 3090（約$699-$999）提供相同的24GB視訊記憶體，效能約為4090的75%，在8B模型上達35-38 tok/s。入門級RTX 5060 Ti 16GB（$429-$479）可流暢執行8B-13B模型，8B模型約40-45 tok/s。中端RTX 5080（$999-$1,099）適合計算密集型工作負載。最便宜的選項是Intel Arc B580（$249-$289），12GB視訊記憶體，效能約為5060 Ti的一半，適合7B-8B模型。

eGPU機箱方面，推薦Sonnet Breakaway Box 750eX（$349-$399）作為高階選擇，750W電源，相容4090和5090。Razer Core X Chroma（$299-$349）700W電源，帶USB集線器，但內部空間較緊。預算選項Sonnet Breakaway Box 550（$199-$249）適合5060 Ti或5080。

作為主機，Mac Mini M4 Pro以24GB統一記憶體和Thunderbolt 4介面成為價效比之選，$1,399起。Mac Studio M4 Max最高支援128GB記憶體，適合混合工作流，大型模型可直接在Mac上執行。總之，這一生態的成熟讓Mac使用者終於能方便地利用Nvidia GPU加速本地AI應用。