在2017年的AMD RX 580 8GB上通过Vulkan运行35B MoE模型(无需ROCm/CUDA)
本文详细记录了如何通过编译支持Vulkan的llama.cpp和stable-diffusion.cpp,在2017年的AMD RX 580 8GB显卡上本地运行AI推理,包括LLM和图像生成。提供了硬件规格、性能基准、双路径架构、失败尝试记录以及完整的配置指南。
本文详细描述了如何在2017年的AMD RX 580 8GB显卡上,通过Vulkan API运行现代AI模型。作者通过编译llama.cpp和stable-diffusion.cpp的Vulkan后端,实现了LLM推理和图像生成,完全无需CUDA或ROCm。
硬件配置为:RX 580 2048SP(Polaris架构)、Intel Xeon E5-2690 v3 CPU、32GB DDR4 ECC内存和NVMe SSD。关键性能基准测试显示:Mistral 7B Q4_K_M模型在GPU上达到17-18 tok/s,而CPU纯算力仅3-5 tok/s;SD 1.5图像生成约72秒/张。Qwen3 4B模型在Linux下可达35 tok/s。
文章提出了核心的双路径架构:将LLM和SD 1.5等小模型分配至GPU Vulkan路径,而FLUX.1等超过8GB显存的大模型则通过CPU WSL2路径运行,利用32GB RAM作为“虚拟显存”。这一设计有效规避了显存瓶颈。
作者详细记录了失败尝试:DirectML因OpaqueTensorImpl错误失效,ROCm在v5.x后放弃Polaris支持,OpenVINO不兼容新版Forge架构。这些案例说明了主流AI栈对旧硬件的放弃程度。
配置指南涵盖了从源码编译、服务器启动到Docker集成(OpenWebUI)的全流程。特别强调了FLUX模型需要正确的GGUF格式(leejet版),并给出了显存分配方案(扩散模型放GPU,T5XXL和VAE放CPU)。文章还提供了语音转写(whisper.cpp)和声音克隆(Applio RVC)的优化配置。
最后,作者强调这一方案的意义:在2026年,一张2017年的显卡仍能运行尖端AI模型,前提是放弃对主流闭源栈的依赖,转向开源社区。