AI News HubLIVE
サイト内リライト4 分で読了

内部で構築したAIエンジニアリングスタック——出荷するプラットフォーム上で

Cloudflare の R&D 部門の 93% が自社プラットフォーム上に構築された AI コーディングツールを使用しています。過去 30 日間で、AI Gateway は 2018 万リクエストと 2413.7 億トークンを処理し、Workers AI は 515 億入力トークンを処理しました。内部スタックには、ゼロトラスト認証、集中ルーティング、MCP サーバーポータル、AI コードレビューア、ナレッジグラフが含まれており、すべて Cloudflare が出荷する製品上で動作しています。

ソースCloudflare AI Blog著者: Ayush Thakur

Cloudflare は、自社の出荷プラットフォーム製品上に構築された内部 AI エンジニアリングスタックの詳細な構築プロセスを公開しました。過去 30 日間で、研究開発部門の 93% が自社インフラ上で動作する AI コーディングツールを利用しています。この取り組みは 11 か月前に始まり、iMARS(Internal MCP Agent/Server Rollout Squad)と呼ばれる特別チームが結成されました。現在、3,683 人の内部ユーザーが AI コーディングツールを積極的に使用しており、全社の 60%、研究開発部門の 93% に相当します。データを見ると、過去 30 日間で AI リクエスト総数は 4795 万件、AI Gateway は 2018 万リクエストと 2413.7 億トークンを処理し、Workers AI は 515 億の入力トークンと 3.61 億の出力トークンを処理しました。開発者の速度への影響は明らかで、マージリクエストの四半期ごとの増加は過去にない水準に達しています。

アーキテクチャは 3 つの層に分かれています:プラットフォーム層、ナレッジ層、実行層。プラットフォーム層には、Cloudflare Access によるゼロトラスト認証、AI Gateway による集中 LLM ルーティングとコスト追跡、Workers AI による同一ネットワーク推論が含まれます。MCP サーバーポータルは、単一の OAuth で 13 の本番 MCP サーバーと 182 以上のツールを集約し、Code Mode をサポートしてコンテキストウィンドウのトークンオーバーヘッドを削減します。ナレッジ層は Backstage サービスカタログに基づいており、2,055 のサービス、228 の API、依存関係グラフを追跡します。さらに、AGENTS.md システムが各リポジトリに構造化コンテキストファイルを生成し、コーディングエージェントがコードベースの規則と境界を理解できるようにします。実行層には AI コードレビューアが含まれ、GitLab CI に統合されてすべてのマージリクエストを自動レビューし、エンジニアリングコーデックスの具体的なルールを引用します。

注目すべき点は、これらのコンポーネントがすべて内部専用ではなく、Cloudflare がすでに出荷している製品であり、Agents Week 中に大幅なアップデートが行われたことです。例えば、Workers AI 上で動作する Kimi K2.5 モデルは、セキュリティエージェントが毎日処理する 70 億トークンのタスクを非常に低コストで処理しています。今後の展望として、チームはバックグラウンドエージェントを開発しています。これはクラウド上で動作し、Durable Objects と Agents SDK を使用して長時間実行セッションを実現し、リポジトリのクローン、テストの実行、マージリクエストの作成などのタスクを実行します。Sandbox SDK は Agents Week 中に一般提供が開始され、エージェントが生成したコードのためのサンドボックス実行環境を提供します。Cloudflare は、内部スタックの成功の鍵は各層の緊密な統合にあると強調しています。ルーティングプロキシワーカーから検出エンドポイント、コードとしての設定まで、ユーザーは 1 つのコマンドを実行するだけでセットアップが完了し、手動で API キーや MCP サーバー接続を設定する必要はありません。このアーキテクチャにより、3,000 人以上のエンジニア向けのツール更新が、wrangler deploy 1 回で済むようになりました。

プラットフォーム層では、プロキシワーカーが Hono フレームワークを使用して認証、ルーティング、モデルカタログの更新を処理します。1 時間ごとに models.dev から最新のモデルリストを取得し、Workers KV にキャッシュして、すべてのモデルに自動的に Zero Data Retention を適用します。ユーザーは cloudflared でログインして JWT を取得し、Worker はユーザーのメールを匿名 UUID にマッピングしてコスト追跡を行い、AI Gateway は UUID のみを認識します。MCP ポータルの各サーバーは McpAgent と workers-oauth-provider に基づいており、単一の monorepo で管理され、新しいサーバーの追加は既存のものをコピーしてラップする API を変更するだけです。Code Mode は GitLab MCP サーバーの 34 個のツールを portal_codemode_search と portal_codemode_execute の 2 つのポータルレベルツールに削減し、リクエストあたりのトークンオーバーヘッドを 15,000 から大幅に削減します。

ナレッジ層では、Backstage が 2,055 のサービス、228 の API、1,302 のデータベースなどのエンティティを追跡し、MCP エージェントが 13 のツールを通じてサービス所有権や依存関係を照会できるようにします。AGENTS.md ジェネレーターは約 3,900 のリポジトリを処理し、Backstage からエンティティメタデータを取得し、リポジトリ構造(言語、ビルドシステム、テストフレームワーク、ディレクトリレイアウト)を分析し、エンジニアリングコーデックス標準にマッピングして、モデルが構造化ドキュメントを生成し、マージリクエストを通じてチームがレビューできるようにします。AI コードレビューアはリポジトリの変更を検出し、AGENTS.md の更新を提案できます。

実行層の AI コードレビューアはすべてのリポジトリをカバーし、マルチエージェントコーディネーターが MR を trivial、lite、full のリスク階層に分類し、コード品質、セキュリティ、コーデックスコンプライアンス、ドキュメント、パフォーマンスなどの専門エージェントに委任します。各エージェントは AI Gateway 経由でモデルにアクセスし、中央リポジトリから Codex ルールをプルし、リポジトリの AGENTS.md を読み取ってコンテキストを取得します。レビュー出力はセキュリティ、コード品質、パフォーマンスなどのカテゴリに分類され、各発見には重要度(Critical、Important、Suggestion、Optional Nits)がラベル付けされ、特定の Codex ルール ID が引用されます。Workers AI はレビュートラフィックの約 15% を処理し、主にドキュメントレビューに使用され、Kimi K2.5 はこのタスクでコストパフォーマンスに優れています。Opus 4.6 や GPT 5.4 などの最先端モデルは、セキュリティに敏感でアーキテクチャ的に複雑なレビューを担当します。過去 30 日間で、標準 CI パイプラインのすべてのリポジトリで 100% AI コードレビューが適用され、AI Gateway は 5.47M リクエストと 24.77B トークンを処理しました。

エンジニアリングコーデックス(Codex)は、多段階 AI 蒸留プロセスを通じてルールセットとエージェントスキルを出力します。スキルは段階的な開示とネストされた階層構造を使用し、エンジニアはローカルで「Rust サービスでエラーを処理する方法」や「この TypeScript コードをコンプライアンスチェックする」などのプロンプトで使用できます。ネットワークファイアウォールチームは、マルチエージェントコンセンサスプロセスを使用して rampartd を監査し、各要件を COMPLIANT、PARTIAL、NON-COMPLIANT とスコアリングし、違反の詳細と是正手順を提供して、以前は数週間かかっていた手作業を構造化された反復可能なプロセスに短縮しました。

バックグラウンドエージェントが次の進化形です。Durable Objects と Agents SDK を使用してクラウド上で長時間実行セッションを実現し、Sandbox SDK がクローン、ビルド、テストのための隔離環境を提供します。この取り組みは 11 か月にわたる、コードの記述方法だけでなく、レビュー方法、標準の適用方法、数千のリポジトリにわたる変更の安全な出荷方法を再考する努力を表しており、すべての層が顧客が使用するのと同じ製品上で実行されています。