2026-06-16站内改写2 分钟阅读更新: 2026-06-16

如何在2026年使用Nvidia eGPU搭配Mac进行本地AI

苹果已批准Tiny Corp的TinyGPU驱动程序，允许Nvidia和AMD外置GPU在Apple Silicon Mac上用于计算工作负载。本指南涵盖了硬件推荐、设置步骤以及运行基于CUDA的本地AI的性能基准测试。

2026年4月，苹果公司正式签署并公证了Tiny Corp开发的TinyGPU驱动程序，这是首个获得官方认可的方式，让Nvidia和AMD外置GPU可以在Apple Silicon Mac上用于计算工作负载。这一突破性进展意味着用户现在可以将RTX 4090等显卡通过Thunderbolt 4连接到Mac Mini M4 Pro，并利用CUDA加速进行推理、微调和图像生成，同时Mac的统一内存可以作为溢出缓冲区。

TinyGPU驱动由乔治·霍兹领导的Tiny Corp开发，专注于计算而非图形处理。它已通过苹果的标准公证流程，安装简单，无需禁用系统完整性保护。驱动支持Nvidia Ampere及以上架构（如RTX 3090、4090、5090）和AMD RDNA3及以上架构。对于Nvidia GPU，CUDA编译需要在Docker容器内完成，而AMD的ROCm则原生支持。Tom's Hardware的分析证实该驱动通过了苹果的公证要求，并使用标准的IOKit内核扩展API。AppleInsider的测试发现，它可以在Sonnet Breakaway Box 750和RTX 4090上开箱即用。eGPU.io社区已经编制了涵盖30多种GPU和机箱组合的兼容性数据库。

在性能方面，Thunderbolt 4提供约32 Gbps的有效带宽，约为原生PCIe 4.0 x16的一半。然而，对于大多数推理任务，性能瓶颈主要在于GPU的显存带宽，而非PCIe带宽。早期基准测试显示，LLM推理性能可达原生PCIe的60-85%，图像生成和微调则略低。具体来说，单用户LLM推理时，13B以下模型性能为原生PCIe的60-75%，更大模型为75-85%；Stable Diffusion XL图像生成为55-65%；微调为50-60%。

硬件选择上，RTX 4090凭借24GB GDDR6X显存和合理的价格成为最佳选择，可处理多达30B参数模型，在Llama 3 8B Q4上可达45-50 tok/s，在70B Q4上可达9-10 tok/s。对于需要运行70B模型的用户，RTX 5090的32GB GDDR7显存更合适，性能约70-75 tok/s（8B）和13-15 tok/s（70B），但需要750W以上机箱。预算有限时，二手RTX 3090（约$699-$999）提供相同的24GB显存，性能约为4090的75%，在8B模型上达35-38 tok/s。入门级RTX 5060 Ti 16GB（$429-$479）可流畅运行8B-13B模型，8B模型约40-45 tok/s。中端RTX 5080（$999-$1,099）适合计算密集型工作负载。最便宜的选项是Intel Arc B580（$249-$289），12GB显存，性能约为5060 Ti的一半，适合7B-8B模型。

eGPU机箱方面，推荐Sonnet Breakaway Box 750eX（$349-$399）作为高端选择，750W电源，兼容4090和5090。Razer Core X Chroma（$299-$349）700W电源，带USB集线器，但内部空间较紧。预算选项Sonnet Breakaway Box 550（$199-$249）适合5060 Ti或5080。

作为主机，Mac Mini M4 Pro以24GB统一内存和Thunderbolt 4接口成为性价比之选，$1,399起。Mac Studio M4 Max最高支持128GB内存，适合混合工作流，大型模型可直接在Mac上运行。总之，这一生态的成熟让Mac用户终于能方便地利用Nvidia GPU加速本地AI应用。