2026-06-21 06:16 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

在2017年的AMD RX 580 8GB上通過Vulkan運行35B MoE模型（無需ROCm/CUDA）

本文詳細記錄瞭如何通過編譯支持Vulkan的llama.cpp和stable-diffusion.cpp，在2017年的AMD RX 580 8GB顯卡上本地運行AI推理，包括LLM和圖像生成。提供了硬件規格、性能基準、雙路徑架構、失敗嘗試記錄以及完整的配置指南。

來源Hacker News AI作者: aivisionslab

本文詳細描述瞭如何在2017年的AMD RX 580 8GB顯卡上，通過Vulkan API運行現代AI模型。作者通過編譯llama.cpp和stable-diffusion.cpp的Vulkan後端，實現了LLM推理和圖像生成，完全無需CUDA或ROCm。

硬件配置為：RX 580 2048SP（Polaris架構）、Intel Xeon E5-2690 v3 CPU、32GB DDR4 ECC內存和NVMe SSD。關鍵性能基準測試顯示：Mistral 7B Q4_K_M模型在GPU上達到17-18 tok/s，而CPU純算力僅3-5 tok/s；SD 1.5圖像生成約72秒/張。Qwen3 4B模型在Linux下可達35 tok/s。

文章提出了核心的雙路徑架構：將LLM和SD 1.5等小模型分配至GPU Vulkan路徑，而FLUX.1等超過8GB顯存的大模型則通過CPU WSL2路徑運行，利用32GB RAM作為“虛擬顯存”。這一設計有效規避了顯存瓶頸。

作者詳細記錄了失敗嘗試：DirectML因OpaqueTensorImpl錯誤失效，ROCm在v5.x後放棄Polaris支持，OpenVINO不兼容新版Forge架構。這些案例説明了主流AI棧對舊硬件的放棄程度。

配置指南涵蓋了從源碼編譯、服務器啓動到Docker集成（OpenWebUI）的全流程。特別強調了FLUX模型需要正確的GGUF格式（leejet版），並給出了顯存分配方案（擴散模型放GPU，T5XXL和VAE放CPU）。文章還提供了語音轉寫（whisper.cpp）和聲音克隆（Applio RVC）的優化配置。

最後，作者強調這一方案的意義：在2026年，一張2017年的顯卡仍能運行尖端AI模型，前提是放棄對主流閉源棧的依賴，轉向開源社區。