AnthropicのClaude Sonnet 5システムカードは、ベンチマークよりもAIの未来を物語っている
Anthropicが公開したClaude Sonnet 5のシステムカード(145ページ)は、ベンチマークスコアよりも、AIエージェントの自律的な能力(Webブラウジング、ツール使用、計画、プロンプトインジェクション耐性、障害回復など)の評価に重点を置いています。エンジニアリングチームが信頼性の高いエージェント基盤を構築するための指針を提供します。
Anthropicは火曜日にClaude Sonnet 5を発表し、ベンチマークチャートとともに145ページのシステムカードを公開しました。この文書はベンチマークの向上には大部分の紙面を割かず、代わりにエージェントが自律的に行動する際の評価に重点を置いています:ウェブブラウジング、ツール使用、長期タスクの計画、プロンプトインジェクションへの耐性、そして実行失敗時の回復方法。その回復能力は、Anthropicがエージェントの信頼性向上を次のエンジニアリング上の課題と見なしていることを示しています。
Sonnet 5のシステムカードは、初期のLLMではほとんど見られなかった評価項目を導入しています。例えば、セクション5では、悪意のあるコーディングエージェント、コンピュータ使用エージェント、ブラウザエージェントの使用評価、自律的な影響力工作、複数の攻撃面にわたるプロンプトインジェクション耐性(適応型攻撃者をコーディング、コンピュータ使用、ブラウザ使用環境でテストするライブバグバウンティプログラムを含む)をカバーしています。
Anthropicはまた、SHADE-ArenaとLinuxArenaの結果を報告しています。これらは、エージェントが指示に従いながら隠れた目的を追求する、秘密裏に行動しようとするかどうかを評価します。Sonnet 5のこれらの評価におけるステルス率はほぼゼロでしたが、Anthropicがこれらのテストを実施するという事実自体が、チャットウィンドウで良好なパフォーマンスを示すモデルと、持続的な自律性を与えられたときに信頼性をもって行動するモデルとの間のギャップを真剣に受け止めていることを示しています。
プロンプトインジェクションに関しては、システムカードは3つの異なるエージェント表面(コーディング環境、コンピュータ使用、ブラウザナビゲーション)にわたるロバストネステストを説明しています。結果はSonnet 4.6からの改善を示していますが、評価設計自体が示唆に富んでいます。Anthropicは、ウェブを閲覧するエージェントが訪問したページに埋め込まれた指示によって乗っ取られる可能性を徹底的にチェックしています。
なぜこれがエンジニアリングチームにとって重要なのか
組織は、インシデント調査、プルリクエストレビュー、ドキュメント更新、内部システムのナビゲーション、最小限の監督でのワークフロー調整を実行できるエージェントを必要としています。これらのワークロードは、モデル自体をはるかに超えた周辺インフラに新たな要求を課します。本質的に、これらはインフラパターンであり、エージェントがより長期で監督の少ない作業を引き受けるにつれて、エンジニアリングチームが構築・維持する必要のある配管のようなものです。
長期タスクは無数の方法で中断される可能性があります。例えば、ツール呼び出しが途中でタイムアウトしたり、ブラウザセッションがリダイレクト後にコンテキストを失うなどです。各中断は、エージェントに何が変わったかを理解させ、進捗を保持し、続行方法を決定させるか、または続行できないことを認識させます。
エージェントのインフラパターン
Anthropic自身の評価インフラは、これらのシステムがどのようなものかを垣間見せてくれます。システムカードは、エージェントがコンテキストを蓄積するにつれて古いツール出力を削除するツール結果クリアや、アクティブコンテキストウィンドウの外で情報を永続化できるメモリツールなどの機能を説明しています。これらの機能は、エージェントが長時間作業する際に生じる実用的な問題を解決します。状態は複数のステップにわたって永続化されなければならず、外部ツールは同期を保つ必要があり、エージェントが古いまたは不完全な情報で続行する前に障害を検出しなければなりません。
エージェント展開が壊れる場所
システムカードは、AnthropicがAI競争の行き先をどのように見ているかについてのいくつかのヒントを提供しています。まず、ベンチマークは収束しているように見え、標準評価におけるトップモデル間のギャップは縮小し続けています。しかし、収束していないのは、エージェントが2時間のコーディングタスクをコンテキストを失わずにこなせるか、悪意のあるページに乗っ取られることなくウェブを閲覧できるか、API呼び出しの失敗後に自己回復できるかという点です。
エージェントプラットフォームを評価するエンジニアリングチームにとって、システムカードはプロダクションで重要な質問のチェックリストとしても機能します。ベンチマークスコアは全体像の一部にすぎません。プラットフォームが失敗したAPI呼び出しをどのように処理するか、長期タスク全体で状態を保持する方法、エージェントがワークフローの途中でコンテキストを失った場合の回復方法を理解することが同様に重要です。これらが、自律システムが展開された後に確実に動作し続けるかどうかを決定する状況です。