AIエージェントプラットフォームを自社構築すべきでない理由
多くの企業はAIエージェントプラットフォームの自社構築に伴う複雑さと長期的なコストを過小評価している。本記事では、メモリ、ガバナンス、評価、オーケストレーションの4つの重要なコンポーネントを分析し、プロジェクトに着手する前に問うべき5つの質問を提示する。
取締役会から四半期末までにAIエージェント戦略を求められ、多くの企業がプラットフォームの自社構築に踏み切ろうとしている。しかし、この記事は、その決定がしばしば工学的な課題を過小評価していると指摘する。著者は、メモリ、ガバナンス、評価、オーケストレーションという4つの主要コンポーネントを分析し、自社構築の実際のコストが想定をはるかに超えることを明らかにする。
まず、メモリは単なるデータベースの問題ではない。本番環境のメモリは、エピソード記憶、セマンティック記憶、手続き記憶を区別し、時間的推論、重複排除、マルチテナント分離などの機能が必要となる。関連スタートアップのMem0、Letta、Zepの資金調達状況を見れば、これが独立した製品カテゴリーであることがわかる。Mem0はシードおよびシリーズAで2400万ドルを調達、Letta(旧MemGPT)はFelicisから1000万ドル、Zepは時間知識グラフエンジンを備えた独立企業として存在する。Mem0の「State of AI Agent Memory 2026」レポートは、3つのホスティングモデルにわたる21のフレームワークをマッピングし、測定可能なベンチマークの差異を示している。LongMemEvalでは、Zepは時間クエリでMem0より15ポイント高く、これらが同じ市場にサービスを提供する交換可能なツールではないことを示している。これはプラットフォームチームが最も過小評価するコンポーネントであり、メモリはデータベース問題のように聞こえるが、実際はそうではない。
ガバナンスも軽視されがちだ。エージェントのガバナンスはデータの権限管理だけでなく、アクションの承認、意思決定チェーンの監査可能性、行動のドリフト検出などを含む。2026年8月にEU AI法が全面施行され、ハイリスクシステムに対する完全な執行が始まる。信用スコアリング、採用判断、医療支援、重要インフラなどが対象となる。内部プラットフォームが適合性評価、人間による監視メカニズム、完全な監査証跡、継続的な監視を処理できない場合、それはv2機能ではなく、法的エクスポージャーである。Grant Thorntonの2026年AI影響調査では、950人のビジネスエグゼクティブの78%が、90日以内に独立したAIガバナンス監査に合格できる確信を持っていない。同時に、企業はガバナンスフレームワークが追いつくよりも速くエージェントの自律性を高めている。OWASPは「過度なエージェント権限」をLLMアプリケーションのトップ脆弱性として文書化している。コーネル大学の研究者は、エージェントが取り込むコンテンツを通じて操作する間接プロンプトインジェクション攻撃を実証した。これらはエージェント固有の攻撃面であり、従来のセキュリティツールはそれらを認識しない。RBACは予測可能な意図を持つ人間向けに設計されており、エージェントには予測可能な意図がない。
評価の面では、エージェントの非決定論的な性質により、従来のテスト手法は通用しない。マッキンゼーのQuantumBlackチームは、エージェント評価は従来のソフトウェアテストやLLM評価とは質的に異なると指摘する。LLMではプロンプトへの応答を評価するが、単一エージェントではツール呼び出し、状態遷移、中間決定を含む完全な軌跡を評価する。マルチエージェントシステムでは、調整パターンや集合的不変条件を含むシステムダイナミクスを評価する。これは、エージェントの動作が設計上非決定的であるため重要であり、同じ入力が異なる有効な実行経路を生み出す。グーグルVertex AIは、trajectory_exact_match、trajectory_precision、trajectory_recallを本番指標として標準化している。LangChainの2026年「State of AI Agents」レポートによると、組織の57%がエージェントを本番環境に導入しており、32%が品質を最大の導入障壁としている。ガートナーは、2028年までにソフトウェアエンジニアリングチームの60%がAI評価および可観測性プラットフォームを採用すると予測しており、2025年の18%から増加する。自分の評価が機能しているかどうかを判断するには別の評価が必要であり、この再帰性がプラットフォームチームを疲弊させる。
オーケストレーション層はまだ収束していない。LangGraphは条件付きエッジを持つ有向グラフを使用し、CrewAIはロールベースのクルーを使用し、OpenAIのAgents SDKは明示的なハンドオフを使用し、AutoGenは会話型GroupChatを使用し、Google ADKは階層的エージェントツリーを使用し、ClaudeのAgents SDKはサブエージェントを持つツール使用チェーンを使用し、MicrosoftのAgent Frameworkは独自のものだ。それぞれが状態管理、通信パターン、調整モデルに関する異なる賭けを表しており、互換性はない。それらの間の移行は設定変更ではなく、エージェントロジックの大部分を書き換えることを意味する。その下では、プロトコル層がまだ発明されている。Model Context Protocol(MCP)はツール統合の標準になりつつあり、エージェント間(A2A)プロトコルがフレームワーク間の調整のために登場している。両方とも動的な目標であり、動的なプロトコルの上に構築することは、内部プラットフォームチームがほとんど価格設定しないコストである。2024年に独自のオーケストレーション層を構築した場合、2026年に書き直すことになる。フレームワークを選択したチームは、その2年間を出荷に費やした。
ただし、記事は自社構築が合理的なケースもあると認めている。独自データは持続可能な競争優位性であり、マスターカードは取引ネットワーク上に基盤モデルを構築し、Plaidは金融機関カバレッジ上に構築した。規制産業はフルスタックの制御を望む正当な理由があり、既製のAIツールはHIPAA、GxP、21 CFR Part 11、SOX、FFIEC、PCI DSSなどのフレームワークにきれいにマッピングできるとは限らない。AI層でのベンダーロックインは従来のソフトウェアよりも微妙で危険である。しかし、重要な区別は、これらはプラットフォームコンポーネントの上にエージェントを構築するための議論であり、プラットフォームコンポーネント自体を構築するための議論ではないということだ。データ、ドメインロジック、評価基準、ガバナンスポリシー、ビジネスに必要な特定の動作を所有することはできても、その下にあるメモリ層、オーケストレーションエンジン、トレース収集インフラを所有する必要はない。ビジネス固有の部分を構築し、技術カテゴリ固有の部分を購入する。それがヒューリスティックである。
最後に、プラットフォームエンジニアが自社構築を決定する前に答えるべき5つの質問が示されている。「エージェントプラットフォームを構築しているのか、それともワークフローシステムか?」「4つのコンポーネント(メモリ、ガバナンス、評価、オーケストレーション)のそれぞれについて、『完了』を3文以内で説明できるか?」もしできなければ、要件がないことになる。これらの質問は、コスト超過の落とし穴を避けるために役立つだろう。