AI News HubLIVE
站内改写3 分で読了

ハーバード大学とPerplexityの新研究:AIエージェントは1セッションで26分の自律作業、検索は33秒

ハーバード大学とPerplexityによる新しい研究は、マッチドペアセッションを用いて自律エージェントと検索アシスタントを比較し、自律性、時間、コストにおいて大きな向上があり、試みられる作業範囲も拡大することを明らかにしました。

ソースMarkTechPost著者: Asif Razzaq

ハーバード大学とPerplexityの共同研究により、AIエージェントが知識労働をどう変えるかについて、実運用データに基づく実証的証拠が得られました。この研究はPerplexityの2つの製品、Search(対話型検索エンジン)とComputer(エンドツーエンドのタスク計画・実行エージェント)を比較しています。同じユーザーが両方の製品を利用しており、研究チームはタスクをほぼ一定に保った形で自然な比較を行うことができました。

調査期間は2026年2月27日から5月27日までの90日間で、Computerはその2日前にローンチされました。核心手法は両製品間で近似したクエリペアをマッチングすることです。研究チームはコサイン類似度0.99以上の10,000セッションペアを特定し、各ペアは実質的に同じタスクを両方の方法で試行したものとなります。Computerのセッションは、コード実行、ブラウザ操作、ファイル書き込み、コネクタ呼び出しなどの「実行」ツールを呼び出したものに限定され、真の自律作業が行われていることを保証しています。

採用率は調査期間中に上昇し、累積Computerクエリ数は初週の84倍に達しました。マッチング分析の結果、Computerの採用によりユーザーの日常的なSearchクエリも1.05増加し、補完関係(代替ではない)を示しています。

研究は単純なタスクベースモデルに基づいています。各タスクはステップ数を持ち、長いタスクほど弱いながら価値が高いとされます。エージェントはコスト構造を変えます。タスクごとに高い固定コスト(委任とレビュー用)がかかる一方、ステップごとの限界コストは低くなります(システムが実行するため)。これにより損益分岐ステップ数が生じ、それ以下では会話モード、以上ではエージェントモードが有利になります。短い検索は手動で、長いワークフローはエージェントに任せられます。

自律性に関して、Computerは1セッションあたり26分のマシン作業を行い、Searchは33秒(48倍の差)。中央値でも9分対14秒と同様のパターンです。差はドメインによって異なり、ローカルタスクでは75倍、科学分野では26倍(平易な回答で十分な場合が多い)。自律性の向上は品質を低下させませんでした。研究チームはユーザーの次の行動から不満を評価し、Computerの有意義な不満率は1.3%に対しSearchは2.9%(55%減)。フォローアップターンはComputerでレビューや拡張にシフトする傾向があるものの、変化は小さいです。コネクタの利用は明確に増加し、Computerの7.9%のセッションで少なくとも1つのコネクタが呼び出されたのに対し、Searchは1.8%でした。

効率面では、Search+人間の反事実を推定。Searchのみの人間はマッチタスクに269分かかるのに対し、Computer+人間は36分。時間87%減、コスト94%減です。コスト削減は時間削減を上回るのは、ドメインの賃金が効果を増幅するため。Computerのモデルコストはタスクあたり4~10ドル、Searchは約0.05ドル。限界値もフレームワークを支持し、Computer+人間はステップあたり0.16ドル、Search+人間は2.05ドル。マッチしたComputerセッションのプロンプトは長く(中央値652文字対448文字)、エージェントの高い固定コスト仮説を裏付けます。損益分岐分析では、専門家がすべての手動ステップを20分以内に完了しなければComputerに匹敵しないとしています。研究チームは独立したLLM推計とユーザーインタビューでクロスチェックし、LLM法では時間84%減、コスト93%減を確認。インタビューでは5倍から300倍の高速化が報告されました。

研究の範囲は従来の研究を拡張しています。自律性はタスクを高速化するだけでなく、ユーザーが試みるタスクの種類を変えます。水平的には、Computerクエリはより職業横断的で、職業横断クエリの割合はComputerが59%、Searchが50%。経営・起業分野で最大の差(19ポイント)。垂直的には、Computerクエリはより要求が高く、ブルーム改訂分類法で76%が高次認知を必要とするのに対しSearchは55%。創造レベルの作業はComputerクエリの50%、Searchは26%。Computerクエリはより多くの知識領域にまたがり、クエリあたり平均2.40のO*NET知識領域(Searchは1.74)、3つ以上の領域を必要とする確率は約3倍。O*NET階層が細かくなるほど構成可能性が高まり、タスクステートメントレベルではComputerがSearchより60%多くのアクティビティに関与。約23%のComputerクエリは同じユーザーがSearchに一度も送信したことのないタスクステートメントにヒットしました。

この研究の主な価値は、AIエージェントが効率を向上させるだけでなく、知識労働者が扱えるタスクの範囲を拡大し、より複雑で学際的な作業に挑戦することを促す点にあります。実用的な教訓はタスクとツールの適合性です。短いルックアップには会話型パス、長いワークフローにはエージェントを割り当てるべきです。