2026-06-23 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-24 02:02 UTC+8

ParallelKernelBench：前沿LLM尚無法編寫快速的多GPU核心

ParallelKernelBench是一個新的基準測試，評估LLM編寫多GPU CUDA核心的能力。在87個真實問題中，最佳模型僅能正確解決不到三分之一，且只有不到四分之一的解決方案優於基線。文章分析了模型失敗的原因，並展示了幾個意外生成的高效能核心案例。

來源Together AI Blog

ParallelKernelBench（PKB）是一個新的基準測試和評估框架，旨在測試大型語言模型（LLM）編寫多GPU CUDA核心的能力。該基準包含87個來自實際程式碼庫的問題，任務是將PyTorch + NCCL實現替換為直接透過NVLink傳輸資料的CUDA核心。研究人員測試了GPT-5.5、Gemini 3 Pro、Opus 4.7等前沿編碼模型，結果顯示整體效能差距顯著：最佳模型僅能正確解決不到三分之一的問題，且只有不到四分之一的解決方案優於樸素的PyTorch + NCCL基線。

與單GPU核心生成不同，多GPU核心生成面臨三個獨特挑戰：設計空間呈組合式擴充套件（需要結合張量並行、專家並行等多種並行策略）、效能模型改變（瓶頸往往在於互連頻寬而非計算或記憶體頻寬），以及引入關鍵設計選擇（如何透過複製引擎、TMA、SM載入/儲存或NVLS在GPU間傳輸資料，以及是否將傳輸與計算融合）。

PKB的設計覆蓋了生產環境中常見的並行型別，包括張量並行、上下文並行、資料並行、專家並行、FSDP/ZeRO等，問題來源於Megatron-LM、DeepSpeed、TensorRT-LLM、NeMo-RL等系統程式碼庫，以及GNN路由、分散式FFT、高斯濺射等非LLM工作負載。

評估結果表明，模型在多GPU核心生成方面存在根本性侷限。在零次學習設定中，GPT-5.5最佳成績為28個正確解（其中22個快於基線），透過三次嘗試可提升至36個正確解（27個快於基線），但fast1@3指標最高僅31%。成功案例主要集中在常見模式，如集合原語、張量並行GEMM和Ulysses風格上下文並行。失敗原因包括編譯錯誤、輸出不正確和死鎖，更深層次的問題在於模型難以推理排名協調、資料分割槽和集合排序。

研究人員還嘗試將模型包裝在代理框架中，提供編譯、測試和效能反饋，使模型可以迭代改進。Gemini 3 Pro透過代理迴圈將正確解從24個提升至35個，其中26個快於基線。然而，經過約20次迭代後效能達到平臺期，表明反饋雖有助於除錯語法和形狀錯誤，但無法解決對排名協調和傳輸機制選擇等高階推理的缺失。

儘管存在侷限性，模型在單次生成中偶爾會產生真正新穎的高效能核心，例如用於NeMo-RL GRPO訓練迴圈的詞彙並行log-prob核心、Hyena前向上下文並行核心以及SAM 3全收集核心。這些核心在4塊H100 GPU上經過驗證，效能顯著優於PyTorch + NCCL基線。這些案例展示了AI驅動最佳化的潛力，尤其是在缺乏最佳化公共參考的工作負載領域。