AI News HubLIVE
站内改写2 分鐘閱讀

如何在2026年使用Nvidia eGPU搭配Mac進行本地AI

蘋果已批准Tiny Corp的TinyGPU驅動程式,允許Nvidia和AMD外接GPU在Apple Silicon Mac上用於計算工作負載。本指南涵蓋了硬體推薦、設定步驟以及執行基於CUDA的本地AI的效能基準測試。

來源Hacker News AI作者: falava

2026年4月,蘋果公司正式簽署並公證了Tiny Corp開發的TinyGPU驅動程式,這是首個獲得官方認可的方式,讓Nvidia和AMD外接GPU可以在Apple Silicon Mac上用於計算工作負載。這一突破性進展意味著使用者現在可以將RTX 4090等顯示卡透過Thunderbolt 4連線到Mac Mini M4 Pro,並利用CUDA加速進行推理、微調和影像生成,同時Mac的統一記憶體可以作為溢位緩衝區。

TinyGPU驅動由喬治·霍茲領導的Tiny Corp開發,專注於計算而非圖形處理。它已透過蘋果的標準公證流程,安裝簡單,無需停用系統完整性保護。驅動支援Nvidia Ampere及以上架構(如RTX 3090、4090、5090)和AMD RDNA3及以上架構。對於Nvidia GPU,CUDA編譯需要在Docker容器內完成,而AMD的ROCm則原生支援。Tom's Hardware的分析證實該驅動透過了蘋果的公證要求,並使用標準的IOKit核心擴充套件API。AppleInsider的測試發現,它可以在Sonnet Breakaway Box 750和RTX 4090上開箱即用。eGPU.io社群已經編制了涵蓋30多種GPU和機箱組合的相容性資料庫。

在效能方面,Thunderbolt 4提供約32 Gbps的有效頻寬,約為原生PCIe 4.0 x16的一半。然而,對於大多數推理任務,效能瓶頸主要在於GPU的視訊記憶體頻寬,而非PCIe頻寬。早期基準測試顯示,LLM推理效能可達原生PCIe的60-85%,影像生成和微調則略低。具體來說,單使用者LLM推理時,13B以下模型效能為原生PCIe的60-75%,更大模型為75-85%;Stable Diffusion XL影像生成為55-65%;微調為50-60%。

硬體選擇上,RTX 4090憑藉24GB GDDR6X視訊記憶體和合理的價格成為最佳選擇,可處理多達30B引數模型,在Llama 3 8B Q4上可達45-50 tok/s,在70B Q4上可達9-10 tok/s。對於需要執行70B模型的使用者,RTX 5090的32GB GDDR7視訊記憶體更合適,效能約70-75 tok/s(8B)和13-15 tok/s(70B),但需要750W以上機箱。預算有限時,二手RTX 3090(約$699-$999)提供相同的24GB視訊記憶體,效能約為4090的75%,在8B模型上達35-38 tok/s。入門級RTX 5060 Ti 16GB($429-$479)可流暢執行8B-13B模型,8B模型約40-45 tok/s。中端RTX 5080($999-$1,099)適合計算密集型工作負載。最便宜的選項是Intel Arc B580($249-$289),12GB視訊記憶體,效能約為5060 Ti的一半,適合7B-8B模型。

eGPU機箱方面,推薦Sonnet Breakaway Box 750eX($349-$399)作為高階選擇,750W電源,相容4090和5090。Razer Core X Chroma($299-$349)700W電源,帶USB集線器,但內部空間較緊。預算選項Sonnet Breakaway Box 550($199-$249)適合5060 Ti或5080。

作為主機,Mac Mini M4 Pro以24GB統一記憶體和Thunderbolt 4介面成為價效比之選,$1,399起。Mac Studio M4 Max最高支援128GB記憶體,適合混合工作流,大型模型可直接在Mac上執行。總之,這一生態的成熟讓Mac使用者終於能方便地利用Nvidia GPU加速本地AI應用。