AI News HubLIVE
站内改写1 分钟阅读

FrontierCode:从正确性到质量,提升AI代码生成标准

Cognition AI发布FrontierCode基准测试,旨在衡量AI模型生成高质量、可合并代码的能力。该基准由20多位开源维护者耗时40小时以上每任务构建,采用创新评分方法,包括反向经典测试、代码范围检查和自适应经典评分。结果显示,即使是顶尖模型如Claude Opus 4.8,在最高难度Diamond子集上得分仅为13.4%,凸显了代码质量方面的巨大挑战。

来源Hacker News AI作者: streamer45

Cognition AI今日正式发布FrontierCode,这是一个全新的基准测试,旨在评估AI模型生成高质量、可维护代码的能力。与现有仅关注功能正确性的基准不同,FrontierCode将代码质量作为核心指标,模拟真实开源项目的代码审查流程。

FrontierCode由36个知名开源项目的维护者共同开发,每项任务耗时超过40小时。这些维护者根据自身仓库的标准定义了“可合并”的含义,确保基准反映真实世界的代码质量要求。基准包含三个难度递增的子集:Extended(150项)、Main(100项)和Diamond(50项最难的)。评估采用双指标:通过率(需满足所有阻碍条件)和得分(加权汇总所有评分项)。

在初步结果中,Anthropic的Claude Opus 4.8表现最佳,但在Diamond子集上仅得13.4%,Main和Extended分别为34.3%和51.8%。OpenAI的GPT-5.5得分为6.3%,但推理效率更高,使用token数仅为Opus 4.8的四分之一。开源模型表现显著落后,最好的Kimi K2.6在Diamond上仅得3.8%。

FrontierCode的独特之处在于其创新的评分方法。除了传统的单元测试,它引入了三种新型评估:反向经典测试(确保AI编写的测试在错误代码上失败)、代码范围检查(限制修改文件、行数和语义范围)以及自适应经典评分(利用LLM调整测试环境以适应不同实现)。相比SWE-Bench Pro,FrontierCode的误判率降低了81%。

此外,FrontierCode的任务描述更接近真实场景,仅提供简洁的说明和代码库指南,要求AI自主推断维护者意图。这与此前基准过度详细的任务描述形成鲜明对比。Cognition表示,FrontierCode为评估AI代码生成质量提供了最可靠的信号,并揭示了当前模型在代码质量方面的显著不足。未来,该基准有望推动AI代码生成向更高标准发展。