ParallelKernelBench:前沿LLM尚無法編寫快速的多GPU核心
ParallelKernelBench是一個新的基準測試,評估LLM編寫多GPU CUDA核心的能力。在87個真實問題中,最佳模型僅能正確解決不到三分之一,且只有不到四分之一的解決方案優於基線。文章分析了模型失敗的原因,並展示了幾個意外生成的高效能核心案例。
ParallelKernelBench(PKB)是一個新的基準測試和評估框架,旨在測試大型語言模型(LLM)編寫多GPU CUDA核心的能力。該基準包含87個來自實際程式碼庫的問題,任務是將PyTorch + NCCL實現替換為直接透過NVLink傳輸資料的CUDA核心。研究人員測試了GPT-5.5、Gemini 3 Pro、Opus 4.7等前沿編碼模型,結果顯示整體效能差距顯著:最佳模型僅能正確解決不到三分之一的問題,且只有不到四分之一的解決方案優於樸素的PyTorch + NCCL基線。
與單GPU核心生成不同,多GPU核心生成面臨三個獨特挑戰:設計空間呈組合式擴充套件(需要結合張量並行、專家並行等多種並行策略)、效能模型改變(瓶頸往往在於互連頻寬而非計算或記憶體頻寬),以及引入關鍵設計選擇(如何透過複製引擎、TMA、SM載入/儲存或NVLS在GPU間傳輸資料,以及是否將傳輸與計算融合)。
PKB的設計覆蓋了生產環境中常見的並行型別,包括張量並行、上下文並行、資料並行、專家並行、FSDP/ZeRO等,問題來源於Megatron-LM、DeepSpeed、TensorRT-LLM、NeMo-RL等系統程式碼庫,以及GNN路由、分散式FFT、高斯濺射等非LLM工作負載。
評估結果表明,模型在多GPU核心生成方面存在根本性侷限。在零次學習設定中,GPT-5.5最佳成績為28個正確解(其中22個快於基線),透過三次嘗試可提升至36個正確解(27個快於基線),但fast1@3指標最高僅31%。成功案例主要集中在常見模式,如集合原語、張量並行GEMM和Ulysses風格上下文並行。失敗原因包括編譯錯誤、輸出不正確和死鎖,更深層次的問題在於模型難以推理排名協調、資料分割槽和集合排序。
研究人員還嘗試將模型包裝在代理框架中,提供編譯、測試和效能反饋,使模型可以迭代改進。Gemini 3 Pro透過代理迴圈將正確解從24個提升至35個,其中26個快於基線。然而,經過約20次迭代後效能達到平臺期,表明反饋雖有助於除錯語法和形狀錯誤,但無法解決對排名協調和傳輸機制選擇等高階推理的缺失。
儘管存在侷限性,模型在單次生成中偶爾會產生真正新穎的高效能核心,例如用於NeMo-RL GRPO訓練迴圈的詞彙並行log-prob核心、Hyena前向上下文並行核心以及SAM 3全收集核心。這些核心在4塊H100 GPU上經過驗證,效能顯著優於PyTorch + NCCL基線。這些案例展示了AI驅動最佳化的潛力,尤其是在缺乏最佳化公共參考的工作負載領域。