在2017年的AMD RX 580 8GB上通過Vulkan運行35B MoE模型(無需ROCm/CUDA)
本文詳細記錄瞭如何通過編譯支持Vulkan的llama.cpp和stable-diffusion.cpp,在2017年的AMD RX 580 8GB顯卡上本地運行AI推理,包括LLM和圖像生成。提供了硬件規格、性能基準、雙路徑架構、失敗嘗試記錄以及完整的配置指南。
本文詳細描述瞭如何在2017年的AMD RX 580 8GB顯卡上,通過Vulkan API運行現代AI模型。作者通過編譯llama.cpp和stable-diffusion.cpp的Vulkan後端,實現了LLM推理和圖像生成,完全無需CUDA或ROCm。
硬件配置為:RX 580 2048SP(Polaris架構)、Intel Xeon E5-2690 v3 CPU、32GB DDR4 ECC內存和NVMe SSD。關鍵性能基準測試顯示:Mistral 7B Q4_K_M模型在GPU上達到17-18 tok/s,而CPU純算力僅3-5 tok/s;SD 1.5圖像生成約72秒/張。Qwen3 4B模型在Linux下可達35 tok/s。
文章提出了核心的雙路徑架構:將LLM和SD 1.5等小模型分配至GPU Vulkan路徑,而FLUX.1等超過8GB顯存的大模型則通過CPU WSL2路徑運行,利用32GB RAM作為“虛擬顯存”。這一設計有效規避了顯存瓶頸。
作者詳細記錄了失敗嘗試:DirectML因OpaqueTensorImpl錯誤失效,ROCm在v5.x後放棄Polaris支持,OpenVINO不兼容新版Forge架構。這些案例説明了主流AI棧對舊硬件的放棄程度。
配置指南涵蓋了從源碼編譯、服務器啓動到Docker集成(OpenWebUI)的全流程。特別強調了FLUX模型需要正確的GGUF格式(leejet版),並給出了顯存分配方案(擴散模型放GPU,T5XXL和VAE放CPU)。文章還提供了語音轉寫(whisper.cpp)和聲音克隆(Applio RVC)的優化配置。
最後,作者強調這一方案的意義:在2026年,一張2017年的顯卡仍能運行尖端AI模型,前提是放棄對主流閉源棧的依賴,轉向開源社區。