SentinelBench:長期監視エージェントのためのベンチマーク
AIエージェントは通常、連続的なアクションを行いますが、長時間かかるタスクには持続的注意の戦略が適しています。SentinelBenchは、10の合成Web環境における100のタスクで構成されるオープンソースベンチマークで、タスク完了、反応時間、リソース使用量を測定し、応答性とコストのトレードオフを明らかにします。3つのモデルと2つのブラウザエージェントフレームワークで実験を行い、ベースラインを確立しました。
近年、AIエージェントは数分から数時間にわたるタスクを実行するよう求められることが増えています。しかし、ほとんどのエージェントはデフォルトで連続的なアクションを取ります。ツールコールを発行し、ページをリフレッシュし、代替案を検索し、または強引に進捗を図ろうとします。これは多くの長時間タスクには適しておらず、むしろ持続的注意の戦略が有効です。エージェントは環境を監視し、外部イベントが進行を可能にしたときに気づき、無駄なリソース消費をせずに迅速に応答するべきです。
この種のタスクにおける進捗を測定するために、研究者らはSentinelBenchを導入しました。これは時間経過とともに変化する監視タスクのためのオープンソースベンチマークです。SentinelBenchは、電子メール、カレンダー、金融、プロフェッショナルネットワーキング、エンターテイメントなど10の合成Web環境にわたる100のタスクを含みます。各環境はライブWebインターフェースを公開し、スクリプト化されたイベントシーケンスを再生します。エージェントは状態が変化するWebページをナビゲートし、推論する必要があります。
SentinelBenchはタスク完了、反応時間、リソース使用量を測定し、応答性とコストのトレードオフを明らかにします。研究チームは3つのモデルと2つのブラウザエージェントフレームワークで結果を報告し、将来の比較のための性能ベースラインを確立しました。結果は、エージェント設計の選択が主要な指標に劇的な影響を与えることを示し、SentinelBenchがエージェント行動の有意義な違いを識別できることを実証しています。
この研究は、長期監視エージェントの設計と評価に重要なテストベッドを提供し、AIエージェントのパラダイムを「連続行動」から「インテリジェントな待機」へとシフトさせる可能性があります。