AI News HubLIVE
サイト内リライト2 分で読了

ParallelKernelBench:最先端LLMはまだ高速マルチGPUカーネルを書けない

ParallelKernelBenchは、LLMが87の実ワークロードに対して高速なマルチGPU CUDAカーネルを書けるかをテストするベンチマークです。最高のモデルでも3分の1未満しか解けず、ベースラインを上回ったのはさらに少ないですが、生成されたカーネルの中には既存の公開実装を凌ぐものもあります。

ParallelKernelBench(PKB)は、大規模言語モデル(LLM)がマルチGPU CUDAカーネルを記述する能力を評価する新しいベンチマークおよび評価フレームワークです。このベンチマークは、実コードベースから抽出した87の問題で構成されており、タスクはPyTorch + NCCLの実装を、NVLink経由で直接データを転送するCUDAカーネルに置き換えることです。GPT-5.5、Gemini 3 Pro、Opus 4.7などの最先端コーディングモデルをテストした結果、全体的に大きな性能ギャップが明らかになりました。最高のモデルでも3分の1未満の問題しか正解できず、そのうちベースラインを上回ったのはさらに少数でした。

シングルGPUカーネル生成とは異なり、マルチGPUカーネル生成には3つの独自の課題があります。設計空間が組み合わせ爆発を起こす(テンソル並列、エキスパート並列など複数の並列戦略を組み合わせる必要がある)、性能モデルが変化する(ボトルネックが計算やメモリ帯域ではなく、インターコネクト帯域になることが多い)、そして重要な設計選択(コピーエンジン、TMA、SMロード/ストア、NVLSなどを通じたGPU間データ転送方法、および転送と計算の融合の有無)が導入されることです。

PKBは、Megatron-LM、DeepSpeed、TensorRT-LLM、NeMo-RLなどのシステムコードベース、およびGNNルーティング、分散FFT、ガウススプラッティングなどの非LLMワークロードから問題を収集し、テンソル並列、コンテキスト並列、データ並列、エキスパート並列、FSDP/ZeROなど、本番環境で一般的な並列タイプをカバーしています。

評価結果は、マルチGPUカーネル生成におけるモデルの根本的な限界を示しています。ゼロショット設定では、GPT-5.5が最高で28問正解(うち22問がベースラインより高速)、3回のサンプリングで36問正解(27問が高速)に改善されましたが、fast1@3指標は最大でも31%にとどまりました。成功例は、集合プリミティブ、テンソル並列GEMM、Ulyssesスタイルのコンテキスト並列などの一般的なパターンに集中しています。失敗の原因はコンパイルエラー、出力不一致、デッドロックなど多岐にわたりますが、より深い問題は、ランク調整、データ分割、通信順序に関する推論の欠如にあります。

研究者らは、モデルにコンパイル、テスト、性能フィードバックを提供するエージェンティックフレームワークを試しました。Gemini 3 Proはエージェントループにより正解数を24から35に改善し、うち26がベースラインより高速でした。しかし、約20回の反復で性能が頭打ちになり、フィードバックは構文や形状の誤りのデバッグには役立つものの、ランク調整や転送メカニズム選択に関する高度な推論の欠如は解消できないことが示唆されました。

限界はあるものの、単発生成で真に新しい高性能カーネルが出現することもあります。例えば、NeMo-RL GRPO学習ループ用の語彙並列log-probカーネル、Hyena前方コンテキスト並列カーネル、SAM 3全収集カーネルなどです。これらのカーネルは4台のH100 GPU上で検証され、PyTorch + NCCLベースラインを大幅に上回る性能を示しました。これらの事例は、特に最適化された公開リファレンスが不足しているワークロードにおいて、AI駆動最適化の可能性を示しています。