AI News HubLIVE
站内改写1 分鐘閱讀

FrontierCode:從正確性到質量,提升AI代碼生成標準

Cognition AI發佈FrontierCode基準測試,旨在衡量AI模型生成高質量、可合併代碼的能力。該基準由20多位開源維護者耗時40小時以上每任務構建,採用創新評分方法,包括反向經典測試、代碼範圍檢查和自適應經典評分。結果顯示,即使是頂尖模型如Claude Opus 4.8,在最高難度Diamond子集上得分僅為13.4%,凸顯了代碼質量方面的巨大挑戰。

來源Hacker News AI作者: streamer45

Cognition AI今日正式發佈FrontierCode,這是一個全新的基準測試,旨在評估AI模型生成高質量、可維護代碼的能力。與現有僅關注功能正確性的基準不同,FrontierCode將代碼質量作為核心指標,模擬真實開源項目的代碼審查流程。

FrontierCode由36個知名開源項目的維護者共同開發,每項任務耗時超過40小時。這些維護者根據自身倉庫的標準定義了“可合併”的含義,確保基準反映真實世界的代碼質量要求。基準包含三個難度遞增的子集:Extended(150項)、Main(100項)和Diamond(50項最難的)。評估採用雙指標:通過率(需滿足所有阻礙條件)和得分(加權彙總所有評分項)。

在初步結果中,Anthropic的Claude Opus 4.8表現最佳,但在Diamond子集上僅得13.4%,Main和Extended分別為34.3%和51.8%。OpenAI的GPT-5.5得分為6.3%,但推理效率更高,使用token數僅為Opus 4.8的四分之一。開源模型表現顯著落後,最好的Kimi K2.6在Diamond上僅得3.8%。

FrontierCode的獨特之處在於其創新的評分方法。除了傳統的單元測試,它引入了三種新型評估:反向經典測試(確保AI編寫的測試在錯誤代碼上失敗)、代碼範圍檢查(限制修改文件、行數和語義範圍)以及自適應經典評分(利用LLM調整測試環境以適應不同實現)。相比SWE-Bench Pro,FrontierCode的誤判率降低了81%。

此外,FrontierCode的任務描述更接近真實場景,僅提供簡潔的説明和代碼庫指南,要求AI自主推斷維護者意圖。這與此前基準過度詳細的任務描述形成鮮明對比。Cognition表示,FrontierCode為評估AI代碼生成質量提供了最可靠的信號,並揭示了當前模型在代碼質量方面的顯著不足。未來,該基準有望推動AI代碼生成向更高標準發展。