AI News HubLIVE
站内改写2 分で読了

【AINews】FrontierCode:コード品質をベンチマークする、いい加減なコードを排除

CognitionがFrontierCodeベンチマークを発表。ユニットテスト合格だけでなく、実際にマージ可能なコードの品質を評価。最良モデルでも hardest サブセットで13%しか達成できず、コーディングがまだ解決されていないことを示す。エージェント制御は「ループ」へ移行中だが、注意点も多い。その他、Kimiのコーディングエージェントとデスクトップ製品、Googleのローカル展開改善、100万以上のセッションに基づくAgent Arena、AppleのWWDC統合に焦点。

ソースLatent Space

Cognitionは、コード評価の基準を単なるユニットテスト合格から実際のマージ可能性に引き上げるFrontierCodeベンチマークを公開しました。タスクはオープンソースメンテナーと協力して構築され、各タスクに40時間以上かかり、回帰安全性、コードのクリーンさ、スコープ、テストの正確性、保守性などの次元で評価されます。結果として、最良モデルOpus 4.8でも hardest サブセットでわずか13%のスコアにとどまり、SWE-Benchスタイルの50%以上に比べて、コーディングがまだ解決されていないことを示しています。

「ループ」がエージェント制御の主要なメタファーになりつつありますが、注意が必要です。実践者は、エージェントに明確な目標、検証基準、反復構造を与えるべきだと強調しており、dzhngは「ループを使うな、ステートマシンを設計せよ」と述べています。一方、Omar Sar0やGraham Neubigは、簡単に検証できる領域以外では人間のチェックポイントが依然として不可欠だと指摘しています。

製品面では、ClaudeDevsがMCPコネクタ開発者向けの可観測性ダッシュボードを追加し、MagicPathが外部エージェントワークフローとマルチプレイヤーキャンバス編集のためのBuilderプランを開始しました。LangSmith SandboxesやModalのサンドボックス拡張ストーリーは、エージェントに隔離された検査可能な長期実行環境が必要であるというインフラトレンドを示しています。

モデルに関しては、MoonshotがKimiコードエージェントを更新し、ワンラインCLIインストール、ドラッグアンドドロップ動画、ACPサポート、プラグイン、IDE統合を追加しました。また、最大300のローカルサブエージェントを持つデスクトップエージェント製品Kimi Workも発表。GoogleはQAT Gemma 4チェックポイントを公開し、メモリ使用量を約4分の1に削減、Gemma 4 E2Bは約1GBで動作可能。llama.cppは動画入力サポートを追加しました。

Agent Arenaは100万以上の実際のセッションに基づき、投票ではなく因果追跡を用いてオーケストレーター/フレームワークの効果を評価します。確認された成功、賞賛と苦情の比率、操縦可能性、bash復旧、ツール幻覚の5つのシグナルをカバーします。

コンシューマAIプラットフォームでは、GoogleがNotebookLMをアップグレードし、エージェントチャット、強力な推論、新しい出力フォーマットを追加。AI Plusサブスクリプションを7.99ドルから4.99ドルに値下げし、ストレージを400GBに倍増。AppleのWWDCでは、統合に焦点を当て、デバイス上のモデルは20Bパラメータのクエリルーティングアーキテクチャを採用し、クエリごとにNANDからRAMにエキスパートをロードする非標準設計であることが注目されました。

研究面では、AnthropicはAIが生物学よりもコーディングで進歩した理由は、生物学的データベースとツールがエージェント使用向けに設計されていないためだと主張。OpenEnvはHugging Face、Meta-PyTorch、Reflection、Unslothなどを含むコンソーシアムに移管されました。Hivemindは、Claude Code、Codex、Cursorなどのエージェントからのトレースを再利用可能なスキルに変換するシステムを発表。最適化に関する議論も活発で、MuonとShampooの違いなど、オプティマイザレベルの改善への関心が再燃しています。