AI News HubLIVE
站内改写2 分钟阅读

如何在2026年使用Nvidia eGPU搭配Mac进行本地AI

苹果已批准Tiny Corp的TinyGPU驱动程序,允许Nvidia和AMD外置GPU在Apple Silicon Mac上用于计算工作负载。本指南涵盖了硬件推荐、设置步骤以及运行基于CUDA的本地AI的性能基准测试。

来源Hacker News AI作者: falava

2026年4月,苹果公司正式签署并公证了Tiny Corp开发的TinyGPU驱动程序,这是首个获得官方认可的方式,让Nvidia和AMD外置GPU可以在Apple Silicon Mac上用于计算工作负载。这一突破性进展意味着用户现在可以将RTX 4090等显卡通过Thunderbolt 4连接到Mac Mini M4 Pro,并利用CUDA加速进行推理、微调和图像生成,同时Mac的统一内存可以作为溢出缓冲区。

TinyGPU驱动由乔治·霍兹领导的Tiny Corp开发,专注于计算而非图形处理。它已通过苹果的标准公证流程,安装简单,无需禁用系统完整性保护。驱动支持Nvidia Ampere及以上架构(如RTX 3090、4090、5090)和AMD RDNA3及以上架构。对于Nvidia GPU,CUDA编译需要在Docker容器内完成,而AMD的ROCm则原生支持。Tom's Hardware的分析证实该驱动通过了苹果的公证要求,并使用标准的IOKit内核扩展API。AppleInsider的测试发现,它可以在Sonnet Breakaway Box 750和RTX 4090上开箱即用。eGPU.io社区已经编制了涵盖30多种GPU和机箱组合的兼容性数据库。

在性能方面,Thunderbolt 4提供约32 Gbps的有效带宽,约为原生PCIe 4.0 x16的一半。然而,对于大多数推理任务,性能瓶颈主要在于GPU的显存带宽,而非PCIe带宽。早期基准测试显示,LLM推理性能可达原生PCIe的60-85%,图像生成和微调则略低。具体来说,单用户LLM推理时,13B以下模型性能为原生PCIe的60-75%,更大模型为75-85%;Stable Diffusion XL图像生成为55-65%;微调为50-60%。

硬件选择上,RTX 4090凭借24GB GDDR6X显存和合理的价格成为最佳选择,可处理多达30B参数模型,在Llama 3 8B Q4上可达45-50 tok/s,在70B Q4上可达9-10 tok/s。对于需要运行70B模型的用户,RTX 5090的32GB GDDR7显存更合适,性能约70-75 tok/s(8B)和13-15 tok/s(70B),但需要750W以上机箱。预算有限时,二手RTX 3090(约$699-$999)提供相同的24GB显存,性能约为4090的75%,在8B模型上达35-38 tok/s。入门级RTX 5060 Ti 16GB($429-$479)可流畅运行8B-13B模型,8B模型约40-45 tok/s。中端RTX 5080($999-$1,099)适合计算密集型工作负载。最便宜的选项是Intel Arc B580($249-$289),12GB显存,性能约为5060 Ti的一半,适合7B-8B模型。

eGPU机箱方面,推荐Sonnet Breakaway Box 750eX($349-$399)作为高端选择,750W电源,兼容4090和5090。Razer Core X Chroma($299-$349)700W电源,带USB集线器,但内部空间较紧。预算选项Sonnet Breakaway Box 550($199-$249)适合5060 Ti或5080。

作为主机,Mac Mini M4 Pro以24GB统一内存和Thunderbolt 4接口成为性价比之选,$1,399起。Mac Studio M4 Max最高支持128GB内存,适合混合工作流,大型模型可直接在Mac上运行。总之,这一生态的成熟让Mac用户终于能方便地利用Nvidia GPU加速本地AI应用。