AI News HubLIVE
站内改写2 分钟阅读

ParallelKernelBench:前沿LLM尚无法编写快速的多GPU内核

ParallelKernelBench是一个新的基准测试,评估LLM编写多GPU CUDA内核的能力。在87个真实问题中,最佳模型仅能正确解决不到三分之一,且只有不到四分之一的解决方案优于基线。文章分析了模型失败的原因,并展示了几个意外生成的高性能内核案例。

ParallelKernelBench(PKB)是一个新的基准测试和评估框架,旨在测试大型语言模型(LLM)编写多GPU CUDA内核的能力。该基准包含87个来自实际代码库的问题,任务是将PyTorch + NCCL实现替换为直接通过NVLink传输数据的CUDA内核。研究人员测试了GPT-5.5、Gemini 3 Pro、Opus 4.7等前沿编码模型,结果显示整体性能差距显著:最佳模型仅能正确解决不到三分之一的问题,且只有不到四分之一的解决方案优于朴素的PyTorch + NCCL基线。

与单GPU内核生成不同,多GPU内核生成面临三个独特挑战:设计空间呈组合式扩展(需要结合张量并行、专家并行等多种并行策略)、性能模型改变(瓶颈往往在于互连带宽而非计算或内存带宽),以及引入关键设计选择(如何通过复制引擎、TMA、SM加载/存储或NVLS在GPU间传输数据,以及是否将传输与计算融合)。

PKB的设计覆盖了生产环境中常见的并行类型,包括张量并行、上下文并行、数据并行、专家并行、FSDP/ZeRO等,问题来源于Megatron-LM、DeepSpeed、TensorRT-LLM、NeMo-RL等系统代码库,以及GNN路由、分布式FFT、高斯溅射等非LLM工作负载。

评估结果表明,模型在多GPU内核生成方面存在根本性局限。在零次学习设置中,GPT-5.5最佳成绩为28个正确解(其中22个快于基线),通过三次尝试可提升至36个正确解(27个快于基线),但fast1@3指标最高仅31%。成功案例主要集中在常见模式,如集合原语、张量并行GEMM和Ulysses风格上下文并行。失败原因包括编译错误、输出不正确和死锁,更深层次的问题在于模型难以推理排名协调、数据分区和集合排序。

研究人员还尝试将模型包装在代理框架中,提供编译、测试和性能反馈,使模型可以迭代改进。Gemini 3 Pro通过代理循环将正确解从24个提升至35个,其中26个快于基线。然而,经过约20次迭代后性能达到平台期,表明反馈虽有助于调试语法和形状错误,但无法解决对排名协调和传输机制选择等高级推理的缺失。

尽管存在局限性,模型在单次生成中偶尔会产生真正新颖的高性能内核,例如用于NeMo-RL GRPO训练循环的词汇并行log-prob内核、Hyena前向上下文并行内核以及SAM 3全收集内核。这些内核在4块H100 GPU上经过验证,性能显著优于PyTorch + NCCL基线。这些案例展示了AI驱动优化的潜力,尤其是在缺乏优化公共参考的工作负载领域。