AIエージェントの有用性
著者はAI研究者として、AIエージェントの有用性について考察する。業界の急速な進歩にもかかわらず、デジタル・ミニマリズムと手作業を重視する哲学から、私的な利用は限られている。本稿では、生産性と価値、コーディングや研究への応用、人間の監督の重要性について論じる。
AIエージェントの有用性について
2026年4月8日
エージェンティックAIは今、その瞬間(あるいは10年とも言われる)を迎えている。私は過去2年間、LLMを活用したエージェントの研究を行ってきたが、研究(公的資金によるプロジェクトや学術的なピアレビューを含む)は遅く、テクノロジー業界全体での開発と展開の急速なペースには追いつけない。特に、AIツール自体が新しいツールやフレームワークのプログラミングを支援するために使われる場合はなおさらだ。小規模な実験は、新しいフロンティアモデルや大企業の画期的なツールによってすぐに時代遅れになる。最先端のAIモデルを試すことはかつてないほど容易になっている(APIに接続するだけだ)が、関連性を維持しながら堅牢な実験を行う時間を確保することは難しい。
開発のスピードは極めて速いが、テクノロジーへの普遍的アクセスによって緊迫感は和らいでいる。ほとんどの改良はこれまで、オープンウェイトモデルやオープンソースソフトウェアに取り入れられてきた。堀は長く守られず、競合他社は定期的に追い越していく。多くの研究は公開されており、厳重に守られた秘密でさえ、非常に単純なミスで漏洩する可能性がある。私は、市民としても研究者としても、AI競争に「取り残される」ことをほとんど恐れていない。なぜなら、テクノロジーは非常にアクセスしやすいからだ。ビジネスマネージャーやCEOは明らかに異なる見方をしており、なぜ、どのように、どのようなコストで採用するのかを適切に評価せずに、可能な限り迅速にAIを採用しようとする切迫した衝動が続いている。これらのツールはまだ真新しく、効果的な使い方に関するアドバイスは多種多様だ。私は特に、AIエージェントの有用性に対する見解がどれほど分かれているかに興味をそそられており、それがこの記事を書くきっかけとなった。
エージェントの不在
AIエージェントには魅力的な点が多くあるが、最も興味深いのは、自由時間にはほとんど役に立たないということだ。仕事では、研究対象としてある意味で不可欠である。その一環として、コーディングエージェントを実験し、ソフトウェアエンジニアリングにどのような影響を与えるかを理解している。コンピュータプログラミングは永遠に変わったことは間違いない。しかし、仕事用のラップトップを閉じると、AIエージェントに何かを頼みたいという衝動は全く起きない。
AIエージェントが私に代わって行動する必要性を感じないのは、特権的な立場の表れなのか、人生で何に焦点を当てているかの結果なのか、それとも実際には宣伝されているほど有用ではないのか。多くの点で、私は明らかに特権的である。無料の教育、広範な社会サービス、無料の医療、検閲の自由を享受しているため、安定した安全な生活を送り、権利を守るために強力な機関と戦う必要がほとんどない。これを言及するのは、LLMが煩雑な官僚的手続きを伴う様々な課題の解決に役立ったという逸話が多くあるからだ。私は現在そのような問題に直面していないため、そうした状況でのAIエージェントの有用性について多くを語ることはできず、その点で明らかに特権的である。ただし、個々の規模での利益と集団的な規模での結果には通常違いがあることを指摘しておきたい。
日常的な事柄に関しては、私はデジタル・ミニマリズムの哲学に従っており、その自然な結果として、デジタルデバイスで達成したいことは最小限である。これがおそらく、AIエージェントが私にとって superfluous に感じられる主な理由の一つだろう。それらは(まだ)デジタル領域に限定されており、そこで達成したいことがほとんどないため、当然必要性を感じない。さらに、思考の外部化に関する記事で概説したように、特定の平凡な活動は私たちにとって健康的であるという態度を持っており、そのためプロセスの自動化にはあまり熱心ではない。多くの人々がこれらのツールの使用に多大な時間と費用を費やしているのを観察するが、それはほぼ常に、コンピュータに向かう時間を増やすことであり、減らすことではない。
生産性と価値
前述のように、私自身の立場を検討し提示する理由は、そのようなエージェントの価値に関する議論に貢献することにある。サイモン・ウィリソンのような影響力のある人々は、AIエージェントが明らかな需要と価値をもたらすとコメントしている。OpenClawのようなAIツールの人気は高い需要を示しているが、人気で価値を判断できるかどうかは確かではない。人気がありながら有害なものの例は十分にある。
エド・ジトロンは今年初め、BlueSkyでAIの限られた有用性について強い見解を示し、AIができることは「一部のエンジニアが何かを少し速く行うこと」だけではないかと疑問を呈した。ある回答者は、ジトロンは単に生産性の向上を説明しているだけで、それを認識していないと観察した。私の解釈では、ここでの欠落しているリンクは、ジトロンが行間で、開発者の生産性の単純な高速化は必ずしも価値の向上につながらないと言っていることであり、価値はコード行数や開発速度では測定できないということだ。私たちが「価値」を実際にどう意味するかについては、間違いなく大きな違いがあり、特に欧州と米国の立場を比較する際に顕著である。後者は通常、生産性や経済成長といったやや一元的な側面と結びついているが、それが必ずしも生活の質を向上させるために必要なものとは限らない。
最近のAIに関するエッセイ、例えばダリオ・アモデイの「テクノロジーの思春期」やマット・シューマーの「大きなことが起きている」は、誇大広告に拍車をかけている。シューマーは全員にAIを使い、うまく使う方法を考え出すよう促している。例えば、毎日一定時間AIを使うことなどだ。AIの真の利点は私にはまだ不明だが、テクノロジーが何であり、何ができるかを認識することの重要性には同意する。しかし、私たちはすでに、シューマーのアドバイスを逆転させるべき時点に来ている。私は毎日、AIからの入力なしに、ペンと紙で書く時間を取っている。研究ではLLMやAIエージェントと多く対話し、最新モデルやツールの新機能を試している。しかし、常に自分の反省と発展のために仕事時間の一部を確保している。LLMが登場する前から、オンライン検索で他人の考えや解決策を見つけることはあまりにも容易で、独自の努力をしなくなっていた。
AI研究におけるAIエージェント
仕事で行うことのほぼすべてはデジタルであり、LLMやAIエージェントを活用する可能性は技術的に非常に大きい。しかし、様々なユースケースでの経験は一様ではない。散文に対するフィードバックを求めることは、少なくとも長期的には有益とは感じられない。言語モデルにぴったりのタスクのように思える:テキストが良く構成されているか、意味を成すか、議論が弱いか、何を改善できるかなどを教えてくれる。LLMは確かにテキストの改善に役立つかもしれず、私が世界的なデジタルライブラリで訓練された数学モデルよりも優れた散文を書けるとは主張しない。しかし、執筆におけるLLMのテスト(例えば、レポートの草稿の改善)では、LLMはしばしば私を不満の残る方向に導き、私が責任を持てない、もし「親切なアシスタント」に説得されてテキストを適応させなければ書かなかったであろうものに行き着く。誰でもLLMに何かを書かせることができるが、私は自分の知識と経験に基づいて重要で真実だと判断することを書くよう信頼され、報酬を得ている。
プログラミングとソフトウェア開発は、これまでテストした中で最も有望なユースケースである。私はGitHub Copilot、OpenAIのCodex、Claude Code、Gooseといったコーディングエージェントを、様々なLLMをエンジンとして実験してきた。2025年秋には、コーディングエージェントは非常に扱いにくく、不必要な量のコードを生成し、プロジェクト全体をすぐに管理不能にした。インラインのオートコンプリート機能の方がエージェント的アプローチよりも好ましいようだった。現在、状況は変わり、コーディングエージェントを使用して小規模なプロトタイプやプロジェクトを構築できるようになったが、必要なレベルの監督と洞察は維持している。
多くの開発者が何ヶ月もコーディングエージェントを「ハンズオフ」開発に使用しており、自分ではほとんどコードを書いていないことを認識している。私は慎重派であり、ソフトウェアプロジェクトがどのように設計・実装されているかを知ることに特に注意を払っている。以下は、私の好みとユースケースに基づいてコーディングエージェントのユーザビリティを向上させるためにテストした指示の例である:
基本原則
最小限で焦点を絞った変更を行う。疑わしい場合は、より少なく行う。
コード変更
- リクエストごとに最大1~2ファイルの変更を優先する
- 変更をリクエストされた特定の機能に集中させる
- 明示的に要求されない限り、動作コードのリファクタリングを避ける
コードを書く前に
計画を述べる:
- どのファイルを変更または作成するか
- 変更のおおよその範囲
- 既存機能への潜在的な副作用
大規模な変更(100行以上または複数ファイル)を行う前に承認を待つ。
上記の指示は過度に制限的に見えるかもしれないが、この種のガイドラインにより、私の見解ではコーディングエージェントはより有用になった。
AIエージェントは研究を加速する方法としても提示されている。私は簡単な文献レビューを含む比較的単純な研究論文のアイデアを持っており、AIエージェントがデータ収集から完成論文までどの程度うまくやるかを見たかった。「超高推論努力」を備えたGPT-5.4を搭載したOpenAIのCodexは、印象的なほど一貫したものを生成したが、それほど面白くも関連性もなかった。また、同じエージェントに別の論文のために書いた分析と議論を再現させてみた。再び一貫していたが、興味深い研究は生まれなかった。
間違いなく、この分野では大きな進歩があった。AIエージェントは現在、ほぼすべての形式のデータセットを与えられ、分析するスクリプトを作成し、図や表を生成し、議論を生成し、人間の介入なしにすべてをPDFにまとめることができる。結果自体が特に興味深いわけではないとしても、データ分析と可視化のためのスクリプト生成がはるかに高速になることを意味する。結果の解釈はそれほど簡単に外部化できず、たとえLLMが一貫性と関連性のある議論を生成できたとしても、人間が結果を見て面白く有用だと判断しなければ、結果が実際に解釈されたのかどうかという問題が残る。
エージェントフレームワークとそれを動かすLLMの改善により、研究のステップと品質管理の多くをエージェントに外部化できる可能性がある。現在の最先端に基づけば、AIエージェントが論理的で価値のある研究を生み出せる未来を容易に想像できる。私はむしろ、プロセスへの人間の参加が減少することを心配している。「ヒューマン・イン・ザ・ループ」はAI研究で一般的な用語だが、これを二元的に扱うのではなく、人間の関与のスペクトラムとして考えるべきである。自動化の度合いが大きくなると、一部のAIプロバイダーが謳う自己エンパワーメントではなく、むしろ人間の主体性がすぐに減少する。現実世界の研究は、理想主義的な知識の探求だけでなく、社会や政策を形成するものである。研究において人間の関与と整合性(フロンティアAIモデルの開発に参加していない人間やコミュニティを含む)を維持することは、今後重要な課題となるだろう。
面白い余談として、自分の仕事を説明する際に「AI研究者」という用語を使うことに非常に慎重になっている。現時点では、それがAIを研究する人間なのか、研究を行うAIエージェントなのかを知ることは不可能である。