2026-06-06 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

SentinelBench：長期監視エージェントのためのベンチマーク

AIエージェントは通常、連続的なアクションを行いますが、長時間かかるタスクには持続的注意の戦略が適しています。SentinelBenchは、10の合成Web環境における100のタスクで構成されるオープンソースベンチマークで、タスク完了、反応時間、リソース使用量を測定し、応答性とコストのトレードオフを明らかにします。3つのモデルと2つのブラウザエージェントフレームワークで実験を行い、ベースラインを確立しました。

ソースarXiv AI著者: Matheus Kunzler Maldaner, Adam Fourney, Amanda Swearngin, Hussein Mozzanar, Gagan Bansal, Maya Murad, Rafah Hosn, Saleema Amershi

記事インテリジェンス

エンジニア上級

要点

AIエージェントのデフォルトは連続アクションだが、長期監視タスクには非効率。
SentinelBenchはメール、カレンダー、金融など10の合成環境で100タスクを提供。
タスク完了、反応時間、リソース使用を測定し、応答性とコストのトレードオフを評価。
3つのモデルと2つのブラウザエージェントフレームワークで実験し、性能ベースラインを確立。

重要な理由

このニュースが重要なのは、AIエージェントのデフォルトは連続アクションだが、長期監視タスクには非効率ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

近年、AIエージェントは数分から数時間にわたるタスクを実行するよう求められることが増えています。しかし、ほとんどのエージェントはデフォルトで連続的なアクションを取ります。ツールコールを発行し、ページをリフレッシュし、代替案を検索し、または強引に進捗を図ろうとします。これは多くの長時間タスクには適しておらず、むしろ持続的注意の戦略が有効です。エージェントは環境を監視し、外部イベントが進行を可能にしたときに気づき、無駄なリソース消費をせずに迅速に応答するべきです。

この種のタスクにおける進捗を測定するために、研究者らはSentinelBenchを導入しました。これは時間経過とともに変化する監視タスクのためのオープンソースベンチマークです。SentinelBenchは、電子メール、カレンダー、金融、プロフェッショナルネットワーキング、エンターテイメントなど10の合成Web環境にわたる100のタスクを含みます。各環境はライブWebインターフェースを公開し、スクリプト化されたイベントシーケンスを再生します。エージェントは状態が変化するWebページをナビゲートし、推論する必要があります。

SentinelBenchはタスク完了、反応時間、リソース使用量を測定し、応答性とコストのトレードオフを明らかにします。研究チームは3つのモデルと2つのブラウザエージェントフレームワークで結果を報告し、将来の比較のための性能ベースラインを確立しました。結果は、エージェント設計の選択が主要な指標に劇的な影響を与えることを示し、SentinelBenchがエージェント行動の有意義な違いを識別できることを実証しています。

この研究は、長期監視エージェントの設計と評価に重要なテストベッドを提供し、AIエージェントのパラダイムを「連続行動」から「インテリジェントな待機」へとシフトさせる可能性があります。