AI News HubLIVE
站内改写

非同期エージェントの時代 — CognitionのWalden Yan氏とOpenInspectのCole Murray氏

本記事は、AIコーディングツールが開発者と密接に連携するローカルワークフローから、非同期のバックグラウンドエージェントへと進化する過程を探り、2025年12月のモデルの変曲点が「スペックからPRへ」のワークフローを実用的にしたこと、そしてDevinやOpenInspectのアーキテクチャ、セキュリティ、テスト、メモリ、マルチエージェントオーケストレーションについて詳しく解説している。

記事インテリジェンス

エンジニア上級

要点

  • バックグラウンドエージェントが主流になりつつあり、DevinのマージされたPRの割合がCognitionリポジトリで16%から80%に増加。
  • 2025年12月のモデルアップグレード(Opus 4.5/GPT 5.2)により、エージェントが仕様から完全なプルリクエストを自律的に生成できるようになった。
  • Devinはセキュリティと実際のアプリケーションテストのために、完全なVMを使用して頭脳とマシンを分離している。
  • メモリ管理、マルチエージェントオーケストレーション、そして「バイブコーディング」によるコードベースの劣化防止が依然として重要な課題である。

重要な理由

このニュースが重要なのは、バックグラウンドエージェントが主流になりつつあり、DevinのマージされたPRの割合がCognitionリポジトリで16%から80%に増加ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

AIプログラミングエージェントの分野では、一方でSierra、Decagon、Notion、Cursorといった数十億ドル規模のエージェントラボが台頭し、他方でLangGraph、Pydantic、FlueなどのフレームワークやAnthropic、Gemini、Amazonのマネージドエージェントにより、DIYエージェントがかつてないほど容易になっています。Shopify、Stripe、Paradigm、Razorpay、さらにはCognitionのパートナーであるRampまでもが独自のバックグラウンドエージェントを構築しています。しかし、Cognitionは脅威を感じていません。同社が発表した100億ドルのシリーズDラウンドは依然として需要過多でした。

Cognitionの共同創業者兼CPOであるWalden Yan氏とOpenInspectの創業者Cole Murray氏が、「Devinは細部に宿る」理由について議論しました。2024年を振り返ると、非同期エージェントは最もAGIに賭けた選択でした。モデルはまだ「バイブコーディング」をサポートするほど優れておらず、人々はAIを信頼しておらず、適切なフォームファクターも不明でした。現在では状況は明らかです。第一世代のAIコーディングツールは開発者を高速化しましたが、依然としてループに深く関与していました(CopilotやCursorのタブ補完など)。第二世代はローカルエージェント(Claude Code、Windsurf、Cursorのエージェントペイン)でした。そして現在の非同期エージェント時代は、エージェントオーケストレーションによるエンドツーエンド開発に焦点を当てた、さらに遠い未来を指し示しています。

CursorのMichael Truell氏が述べたように、「Cursorはもはや主にコードを書くためのものではなく、開発者がソフトウェアを生み出す工場を構築するためのものです。この工場はエージェントの艦隊で構成され、開発者は初期指示の提供、独立して作業するためのツールの装備、作業のレビューといった形でチームメイトとして対話します。」エージェントは開発者のフロー内にのみ存在すべきではなく、バックグラウンドで動作するように設定されるべきです。タスク、リポジトリ、マシン、シェル、ブラウザ、テスト、メモリ、レビューループを与えて、別の場所で作業を実行させることができます。

1年足らずの間に、業界の感情はマルチエージェントシステムの回避から、実際に機能するアプローチの提案へと移行しました。「コンテキストエンジニアリング」の提唱から、Devinの7倍のPR成長(Cognitionリポジトリでのコミット占有率が16%から80%に急増)の基盤構築まで、Walden Yan氏はバックグラウンドエージェントシフトの最前線にいました。このエピソードでは、OpenInspectのCole Murray氏とともに、なぜ誰もが独自のDevinを構築しているのか、2025年12月のモデルの変曲点が何を変えたのか、そしてなぜ「スペックからプルリクエストへ」が実際のプロダクションワークフローになりつつあるのかを解き明かします。

対談では、バックグラウンドエージェントのアーキテクチャについて深く掘り下げています。ハーネスインボックス vs アウトオブボックス、Devinが「脳」とマシンを分離する理由、リポジトリセットアップが依然として最も難しい問題の一つである理由、Dockerだけでは不十分な理由、そしてフルVM、スナップショット、スコープ付きシークレット、GitHubボット、Slack統合、ビデオベースのテストがどのように連携するか。また、メモリ、MCPの限界、マルチエージェントオーケストレーション、AIコードレビュー、SRE自動トリアージ、PMがSlackからコードを出荷する、Windsurf 2.0、ハイブリッドフロンティア/サブフロンティアシステム、そして制御不能な「バイブコーディング」の本当の失敗モード(コードベースが最も劣ったエンジニアのレベルに後退する)についても議論しています。

エージェントがソフトウェアを食い、ソフトウェアが世界を食うにつれて、次に何が起こるかの結論は明白です。このエピソードで議論されたトピックは多岐にわたります。エンジニアリング界がバックグラウンドエージェントとクラウドエージェントに目覚めつつある理由、2025年12月のモデル変曲点がスペック to PR ワークフローを実用的にした理由、DevinのマージPR成長率7倍とコミット占有率16%から80%への上昇、ColeがOpenInspectをオープンソースのバックグラウンドエージェントシステムとして構築した理由、1席あたり20ドルのエージェント製品の経済性とマネタイズの難しさ、Cognitionが実際に販売しているもの(インフラ、オンボーディング、統合、採用)、ハーネスインボックス vs アウトオブボックスのアーキテクチャの重要性、Devinがセキュリティとパーミッションのために脳とマシンを分離する理由、リポジトリセットアップ、スコープ付きシークレット、Docker Compose、エージェント対応開発環境、エージェントが実際のアプリケーションを実行してテストする際にフルVMが重要な理由、Android、macOS、Windows、ネステッド仮想化、マシン固有のエージェントワーク、テストが「コンピューターユース」よりもはるかに難しい理由、スクリーンショット、ビデオ検証、そして「動作確認済み」のマージモーメント、GitHub UX、Devin Review、AIレビュアー、PRコメントに応答するエージェント、ファーストクラスのSlackおよびエンタープライズ統合にMCPだけでは不十分な理由、メモリ、知識、スキル、Claude.md、そして検索が未解決の課題である理由、Devinの自動生成メモリとメモリプルーニングの課題、常時稼働エージェントとしての永続的なPM、サブエージェント、メタDevin管理、マルチエージェントシステムが実際に追加する価値、ピュアオートマージの「バイブコーディング」が約2週間で崩壊する理由、AIコードの臭い、lintルール、報酬ハッキング、エージェント作成コード向けSemgrep、GitAI、インラインコンテキスト、コード変更の「なぜ」を保存すること、ローカルテスト、モックサーバー、古いコードベース、企業をエージェント対応にする準備、Windsurf 2.0とローカルフロントエージェントからクラウドバックグラウンドエージェントへのハンドオフ、SRE自動トリアージ、サポートワークフロー、エージェントのファーストレスポンダーとしての役割、PM、マーケティング担当者、非エンジニアがSlackからプルリクエストを作成すること、AIエージェント予算(エンジニア1人あたり1000〜5000ドル)、ハイブリッドフロンティア/サブフロンティアシステム、自律コーディング工場の台頭、そしてCognitionが採用している役割。

Walden Yan氏とCole Murray氏の完全な会話は、タイムスタンプとトランスクリプトとともに公開されています。