AI News HubLIVE
站内改写2 分で読了

FrontierCode:コードの品質を評価する新ベンチマーク

Cognition AIは、AIモデルが高品質でマージ可能なコードを生成する能力を測定するベンチマーク「FrontierCode」を発表しました。20名以上のオープンソースメンテナーが各タスクに40時間以上を費やし、逆古典的テストや適応的古典的評価などの新しい採点手法を採用。結果では、最先端モデルでも最高難易度のDiamondサブセットで13.4%のスコアにとどまり、コード品質の課題が浮き彫りになりました。

ソースHacker News AI著者: streamer45

Cognition AIは本日、AIモデルが高品質で保守可能なコードを生成する能力に特化したベンチマーク「FrontierCode」を発表しました。既存のベンチマークが機能的正確性のみをテストするのに対し、FrontierCodeはコード品質を中核に据え、実際のオープンソースプロジェクトのコードレビュープロセスを模倣しています。

FrontierCodeは、36の主要オープンソースリポジトリのメンテナー20名以上が協力して開発し、各タスクに40時間以上を費やしました。メンテナーは自身のリポジトリの基準に基づいて「マージ可能」の定義を定め、ベンチマークが現実世界のコード品質要件を反映することを保証しています。ベンチマークは難易度別に3つのサブセット(Extended 150タスク、Main 100タスク、Diamond 50タスク)で構成され、評価は「通過率」(すべてのブロッカー条件を満たす必要あり)と「スコア」(全評価項目の加重合計)の2軸で行われます。

最新の結果では、AnthropicのClaude Opus 4.8が最高性能を示したものの、Diamondサブセットでのスコアは13.4%にとどまり、MainとExtendedではそれぞれ34.3%と51.8%でした。OpenAIのGPT-5.5は6.3%のスコアでしたが、推論効率は優れており、使用トークン数はOpus 4.8の4分の1です。オープンソースモデルは顕著に劣り、最高のKimi K2.6でもDiamondで3.8%でした。

FrontierCodeの革新的な点は、新たな採点手法にあります。従来のユニットテストに加え、次の3つの手法を導入:逆古典的テスト(AIが書いたテストが誤ったコードでは失敗することを確認)、コードスコープチェック(変更ファイル、行数、意味的範囲の制限)、適応的古典的評価(LLMを使用してテスト環境を異なる実装に適応)。これにより、SWE-Bench Proと比較して誤判定率を81%削減しました。

さらに、FrontierCodeのタスク説明は現実の状況により近く、簡潔な指示とコードベースガイドラインのみを提供し、AIがメンテナーの意図を自律的に推論することを求めます。これは過度に詳細な既存ベンチマークのタスク説明とは対照的です。Cognitionは、FrontierCodeがコード生成品質の評価において最も信頼性の高いシグナルを提供し、現在のモデルがコード品質面で著しく不足していることを明らかにしたと述べています。このベンチマークは、AIコード生成の品質向上に向けた重要な一歩となるでしょう。