2026-06-23 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-24 02:02 UTC+8

ParallelKernelBench：前沿LLM尚无法编写快速的多GPU内核

ParallelKernelBench是一个新的基准测试，评估LLM编写多GPU CUDA内核的能力。在87个真实问题中，最佳模型仅能正确解决不到三分之一，且只有不到四分之一的解决方案优于基线。文章分析了模型失败的原因，并展示了几个意外生成的高性能内核案例。

来源Together AI Blog

ParallelKernelBench（PKB）是一个新的基准测试和评估框架，旨在测试大型语言模型（LLM）编写多GPU CUDA内核的能力。该基准包含87个来自实际代码库的问题，任务是将PyTorch + NCCL实现替换为直接通过NVLink传输数据的CUDA内核。研究人员测试了GPT-5.5、Gemini 3 Pro、Opus 4.7等前沿编码模型，结果显示整体性能差距显著：最佳模型仅能正确解决不到三分之一的问题，且只有不到四分之一的解决方案优于朴素的PyTorch + NCCL基线。

与单GPU内核生成不同，多GPU内核生成面临三个独特挑战：设计空间呈组合式扩展（需要结合张量并行、专家并行等多种并行策略）、性能模型改变（瓶颈往往在于互连带宽而非计算或内存带宽），以及引入关键设计选择（如何通过复制引擎、TMA、SM加载/存储或NVLS在GPU间传输数据，以及是否将传输与计算融合）。

PKB的设计覆盖了生产环境中常见的并行类型，包括张量并行、上下文并行、数据并行、专家并行、FSDP/ZeRO等，问题来源于Megatron-LM、DeepSpeed、TensorRT-LLM、NeMo-RL等系统代码库，以及GNN路由、分布式FFT、高斯溅射等非LLM工作负载。

评估结果表明，模型在多GPU内核生成方面存在根本性局限。在零次学习设置中，GPT-5.5最佳成绩为28个正确解（其中22个快于基线），通过三次尝试可提升至36个正确解（27个快于基线），但fast1@3指标最高仅31%。成功案例主要集中在常见模式，如集合原语、张量并行GEMM和Ulysses风格上下文并行。失败原因包括编译错误、输出不正确和死锁，更深层次的问题在于模型难以推理排名协调、数据分区和集合排序。

研究人员还尝试将模型包装在代理框架中，提供编译、测试和性能反馈，使模型可以迭代改进。Gemini 3 Pro通过代理循环将正确解从24个提升至35个，其中26个快于基线。然而，经过约20次迭代后性能达到平台期，表明反馈虽有助于调试语法和形状错误，但无法解决对排名协调和传输机制选择等高级推理的缺失。

尽管存在局限性，模型在单次生成中偶尔会产生真正新颖的高性能内核，例如用于NeMo-RL GRPO训练循环的词汇并行log-prob内核、Hyena前向上下文并行内核以及SAM 3全收集内核。这些内核在4块H100 GPU上经过验证，性能显著优于PyTorch + NCCL基线。这些案例展示了AI驱动优化的潜力，尤其是在缺乏优化公共参考的工作负载领域。