AI News HubLIVE
サイト内リライト1 分で読了

2017年のAMD RX 580 8GBでVulkan経由で35B MoEモデルを実行(ROCm/CUDA不要)

この記事は、Vulkan対応のllama.cppとstable-diffusion.cppをコンパイルすることで、2017年のAMD RX 580 8GB GPU上でローカルにAI推論を実行する方法を詳述しています。LLMと画像生成の性能ベンチマーク、二重パスアーキテクチャ、失敗した試み、完全な設定ガイドを提供します。

ソースHacker News AI著者: aivisionslab

この記事では、2017年製AMD RX 580 8GB GPUでVulkan APIを介して最新のAIモデルを実行する方法を詳細に説明しています。著者はllama.cppとstable-diffusion.cppをVulkanバックエンドでコンパイルし、CUDAやROCmを一切使用せずにLLM推論と画像生成を実現しました。

ハードウェア構成は、RX 580 2048SP(Polarisアーキテクチャ)、Intel Xeon E5-2690 v3 CPU、32GB DDR4 ECCメモリ、NVMe SSDです。主要なベンチマーク結果:Mistral 7B Q4_K_MモデルはGPUで17~18 tok/s、CPUでは3~5 tok/s。SD 1.5画像生成は約72秒/枚。Qwen3 4BモデルはLinuxで約35 tok/sを記録しました。

中核となるのは二重パスアーキテクチャです。LLMやSD 1.5のような小規模モデルはGPU Vulkanパスに割り当て、FLUX.1など8GBを超える大規模モデルはCPU WSL2パスで実行します。これにより、32GB RAMを「仮想VRAM」として活用し、VRAMの制約を回避します。

著者は失敗した試みも記録しています:DirectMLはOpaqueTensorImplエラーで動作せず、ROCmはv5.x以降Polarisをサポート外、OpenVINOは新しいForgeアーキテクチャと互換性がありません。これらの事例は、主流AIスタックが古いハードウェアを置き去りにしていることを示しています。

設定ガイドは、ソースからのコンパイル、サーバー起動、Docker統合(OpenWebUI)の全手順を網羅しています。特にFLUXモデルには正しいGGUF形式(leejet版)が必要で、拡散モデルをGPU、T5XXLとVAEをCPUに割り当てるメモリ配分を提示しています。また、音声文字起こし(whisper.cpp)と音声クローン(Applio RVC)の最適化設定も含まれています。

最後に、著者はこのプロジェクトの意義を強調しています:2026年において、2017年のGPUでもコミュニティ主導のオープンソーススタックを活用すれば、最先端のAIをローカルで実行可能であること。