AI News HubLIVE
サイト内リライト2 分で読了

MirrorCode:AIが単独で完成できる最大のソフトウェアプロジェクトとは?

AIはすでに長期的なコーディングタスクを処理できる。Claude Opus 4.7は、16000行のGoコードと40以上のコマンドを持つバイオインフォマティクスツールキットgotreeを14時間、251ドルで再実装した。しかし、MirrorCodeベンチマークのスコアはわずか56%であり、改善の余地がある。モデルの性能は急速に向上しているが、データ汚染が懸念される。25のターゲットプログラムのうち22がオープンソース化された。

ソースHacker News AI著者: tadamcz

人工知能は長期にわたるプログラミングタスクにおいて顕著な能力を示していますが、まだ長い道のりがあります。MirrorCodeベンチマークの最新結果は、AIが大規模ソフトウェアプロジェクトを単独で完了する能力の現状と課題を明らかにしています。

Claude Opus 4.7 は、約 16,000 行の Go コードと 40 以上のコマンドからなるバイオインフォマティクスツールキット gotree の再実装に成功しました。このタスクを人間のエンジニアが完了するには 2 ~ 17 週間かかると推定されるのに対し、Opus 4.7 は 14 時間、コスト 251 ドルで達成しました。ただし、完全な再実装ではありません。2,001 のテストのうち 2,000 に合格しましたが、1 つのエッジケースで失敗しました。MirrorCode の総合スコアはわずか 56% であり、多くのタスクで AI が確実に完全な解決に至っていないことを示しています。

研究では、AI モデルの能力が急速に向上していることも明らかになりました。1 年前のトップモデルのスコアは約 30% で、カレンダーユーティリティなどの単純なプログラムしか処理できませんでした。コストの傾向は一貫しておらず、GPT-5.5 は GPT-5 の 3 倍のコストがかかったのに対し、Claude Opus 4.7 は Opus 4.1 より 3 倍安価でした。

重要な注意点はデータ汚染です。MirrorCode のタスクはオープンソースプログラムの再実装を含むため、AI モデルが事前学習で元のコードベースをすでに見ている可能性があり、ベンチマークの性能を過大評価する恐れがあります。しかし、研究では、AI は記憶スクリーニングを通過したターゲットプログラムの再実装に成功し、記憶の証拠が示されたプログラムでは失敗しました。これは、結果が記憶に支配されていないことを示唆していますが、記憶が性能に寄与している可能性を完全には排除できません。全体として、MirrorCode で測定された能力は未知のコードベースに一般化できると期待されます。

研究チームは、25 のターゲットプログラムのうち 22(6 つのプログラミング言語にわたる合計 132 のタスクインスタンス)をオープンソースとして公開し、残りの 3 つは非公開のテストセットとして保持しています。この研究は METR と共同で開発され、METR からの助成金によって支援されました。

25 のターゲットのうち、AI モデルは 21 で少なくとも一度はテストの 99% 以上に合格しました。通常、不合格となったテストは少数のエッジケースです。より厳格な 100% 合格の基準では、8 つのターゲットがこれまでに完全に解決されたことがありません。ベンチマークスコアが 70% 未満であるのは、いくつかのターゲットが確実に解決されておらず、AI が一部の実行でのみ成功するためです。