2026-06-21 07:16 UTC+9サイト内リライト1 分で読了更新: 2026-06-22 08:31 UTC+9

2017年のAMD RX 580 8GBでVulkan経由で35B MoEモデルを実行（ROCm/CUDA不要）

この記事は、Vulkan対応のllama.cppとstable-diffusion.cppをコンパイルすることで、2017年のAMD RX 580 8GB GPU上でローカルにAI推論を実行する方法を詳述しています。LLMと画像生成の性能ベンチマーク、二重パスアーキテクチャ、失敗した試み、完全な設定ガイドを提供します。

ソースHacker News AI著者: aivisionslab

記事インテリジェンス

エンジニア上級

要点

Vulkanバックエンドにより、RX 580でMistral 7B LLM（17 tok/s）とSD 1.5画像生成（72秒/枚）が実行可能。
小モデルはGPU、大モデル（>8GB）はCPUにルーティングする二重パスアーキテクチャでVRAM制限を克服。
DirectML、ROCm、OpenVINOは互換性または性能の問題で失敗。
LLM、画像生成、FLUXハイブリッド、音声文字起こし、音声クローンの完全なセットアップ手順を提供。

重要な理由

このニュースが重要なのは、Vulkanバックエンドにより、RX 580でMistral 7B LLM（17 tok/s）とSD 1.5画像生成（72秒/枚）が実行可能ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

この記事では、2017年製AMD RX 580 8GB GPUでVulkan APIを介して最新のAIモデルを実行する方法を詳細に説明しています。著者はllama.cppとstable-diffusion.cppをVulkanバックエンドでコンパイルし、CUDAやROCmを一切使用せずにLLM推論と画像生成を実現しました。

ハードウェア構成は、RX 580 2048SP（Polarisアーキテクチャ）、Intel Xeon E5-2690 v3 CPU、32GB DDR4 ECCメモリ、NVMe SSDです。主要なベンチマーク結果：Mistral 7B Q4_K_MモデルはGPUで17～18 tok/s、CPUでは3～5 tok/s。SD 1.5画像生成は約72秒/枚。Qwen3 4BモデルはLinuxで約35 tok/sを記録しました。

中核となるのは二重パスアーキテクチャです。LLMやSD 1.5のような小規模モデルはGPU Vulkanパスに割り当て、FLUX.1など8GBを超える大規模モデルはCPU WSL2パスで実行します。これにより、32GB RAMを「仮想VRAM」として活用し、VRAMの制約を回避します。

著者は失敗した試みも記録しています：DirectMLはOpaqueTensorImplエラーで動作せず、ROCmはv5.x以降Polarisをサポート外、OpenVINOは新しいForgeアーキテクチャと互換性がありません。これらの事例は、主流AIスタックが古いハードウェアを置き去りにしていることを示しています。

設定ガイドは、ソースからのコンパイル、サーバー起動、Docker統合（OpenWebUI）の全手順を網羅しています。特にFLUXモデルには正しいGGUF形式（leejet版）が必要で、拡散モデルをGPU、T5XXLとVAEをCPUに割り当てるメモリ配分を提示しています。また、音声文字起こし（whisper.cpp）と音声クローン（Applio RVC）の最適化設定も含まれています。

最後に、著者はこのプロジェクトの意義を強調しています：2026年において、2017年のGPUでもコミュニティ主導のオープンソーススタックを活用すれば、最先端のAIをローカルで実行可能であること。