2026-06-21 06:16 UTC+8站内改写1 分钟阅读更新: 2026-06-22 07:31 UTC+8

在2017年的AMD RX 580 8GB上通过Vulkan运行35B MoE模型（无需ROCm/CUDA）

本文详细记录了如何通过编译支持Vulkan的llama.cpp和stable-diffusion.cpp，在2017年的AMD RX 580 8GB显卡上本地运行AI推理，包括LLM和图像生成。提供了硬件规格、性能基准、双路径架构、失败尝试记录以及完整的配置指南。

来源Hacker News AI作者: aivisionslab

本文详细描述了如何在2017年的AMD RX 580 8GB显卡上，通过Vulkan API运行现代AI模型。作者通过编译llama.cpp和stable-diffusion.cpp的Vulkan后端，实现了LLM推理和图像生成，完全无需CUDA或ROCm。

硬件配置为：RX 580 2048SP（Polaris架构）、Intel Xeon E5-2690 v3 CPU、32GB DDR4 ECC内存和NVMe SSD。关键性能基准测试显示：Mistral 7B Q4_K_M模型在GPU上达到17-18 tok/s，而CPU纯算力仅3-5 tok/s；SD 1.5图像生成约72秒/张。Qwen3 4B模型在Linux下可达35 tok/s。

文章提出了核心的双路径架构：将LLM和SD 1.5等小模型分配至GPU Vulkan路径，而FLUX.1等超过8GB显存的大模型则通过CPU WSL2路径运行，利用32GB RAM作为“虚拟显存”。这一设计有效规避了显存瓶颈。

作者详细记录了失败尝试：DirectML因OpaqueTensorImpl错误失效，ROCm在v5.x后放弃Polaris支持，OpenVINO不兼容新版Forge架构。这些案例说明了主流AI栈对旧硬件的放弃程度。

配置指南涵盖了从源码编译、服务器启动到Docker集成（OpenWebUI）的全流程。特别强调了FLUX模型需要正确的GGUF格式（leejet版），并给出了显存分配方案（扩散模型放GPU，T5XXL和VAE放CPU）。文章还提供了语音转写（whisper.cpp）和声音克隆（Applio RVC）的优化配置。

最后，作者强调这一方案的意义：在2026年，一张2017年的显卡仍能运行尖端AI模型，前提是放弃对主流闭源栈的依赖，转向开源社区。