SpaceXはすでに年間280億ドルのNeocloud
本号では、SpaceXのReflection AIとの3度目のGPUレンタル契約、OpenAI Daybreakの拡大されたサイバーセキュリティプログラム、Sakana Fuguのオーケストレーションリリースとベンチマーク透明性への反発、GLM-5.2のオープンウェイトモデルとしての躍進、GoogleのInteractions API GA、Basetenの15億ドルシリーズF、そしてエージェントをシステムとして評価する重要性の高まりを取り上げます。
SpaceXは静かにAI向けクラウドの巨人になりつつある。AnthropicやGoogleとの既知のリース契約に続き、Reflection AIと3度目のGPUレンタル契約を結び、GB300計算リソースへのアクセスを得るために総額63億ドルと推定される。アナリストのJamin Ballの計算によると、これらの取引による月間収益は約23.2億ドル、年換算で280億ドルに上る——これはCoreweaveの現在の収益の約2倍であり、同社の評価額は依然として600億ドルである。これは、「Neocloud」容量とGPUブローカレッジがモデルビルダーとハードウェア供給をつなぐ重要な戦略的レイヤーになりつつあることを示している。
OpenAIのDaybreakプログラムは大幅に拡大された。脆弱性発見に加え、OpenAIはクローズドループのパッチ生成を提供するようになり、Codexセキュリティプラグイン、完全なGPT-5.5-Cyberモデル、サイバーパートナープログラム、そして重要なOSSを保護する「Patch the Planet」を導入。このプログラムは3000万以上のコミットをスキャンし、3万以上のコードベースをカバーし、50万以上の追加修正を自動検出した。しかし、性能主張と輸出管理ロジックが衝突している:OpenAIはGPT-5.5-CyberがCyberGymでSOTAであると主張するが、なぜこのモデルがAnthropicのMythos/Fableと同じ管理下にないのかという質問が公に上がっている。同時に、Mythosに関する噂が明確化された:NSAが言及した「数時間で数週間分」は初期アクセス前提のレッドチーム作業に関連しており、これらのレッドチームはもはやMythosへのアクセスを持っていないと報告されている。
Sakana Fuguのリリースは、オーケストレーションシステムの評価に関する議論を引き起こした。Fuguは、モデル選択、委任、検証、統合を学習する単一APIとして提示され、Vercelに迅速に統合された。しかし、批評家は不透明なベースライン、コスト計算の欠如、疑わしい報告を指摘。詳細な分解では、Fuguは基本的にルーター/分類器と事前計画されたマルチステップワークフローシステムであり、SWE-Bench ProでOpusに約10ポイント劣り、匿名モデルと比較していることが示された。これにより、議論は「オーケストレーションは有用か」から「オーケストレーションシステムをどのように評価し開示すべきか」に移行した。
GLM-5.2は、エージェントタスクでフロンティアに迫る最初のオープンウェイトモデルとして登場した。複数のベンチマークで優れた性能を示し、GDPval-AA EloでClaude FableとOpus 4.8に次ぐ3位にランクイン。実際のテストでは、GLM-5.2はClineのバグ修正でより信頼性が高く、コストも低く、実際の自律研究タスクを実行できた。AWS Marketplace、Basetenなど20以上のプラットフォームに迅速に展開され、推論ベンダーやエージェントツール構築者は積極的に最適化を進めている。これは、オープンモデルの品質がエージェントワークフローで実行可能な閾値を超えたことを示している。
エージェントインフラでは、GoogleがInteractions APIをGeminiのデフォルトインターフェースに昇格させ、バックグラウンド非同期実行、拡張ツールサポート、マルチモーダル生成、リモートLinuxサンドボックスをサポート。同時に、HermesはiMessageアクセス、Raft統合、デスクトップGUI制御を追加し、スター数は20万を超えた。
推論経済では、Basetenが15億ドルのシリーズFで、ポストトレーニングされたオープンモデルと推論をエンタープライズコントロールプレーンとして賭けている。顧客リストにはAbridge、Cursor、Decagonなどが含まれ、企業が独自のインテリジェンスレイヤーを所有する追求を示している。さらに、ReflectionとSpaceXの63億ドルの計算取引は、GPUレンタルが戦略的市場になりつつあることを強調している。
最後に、ベンチマークと評価方法論が注目されている。大規模なLLM-as-a-Judge監査では、完全一致の一致が判断品質を過大評価し、Cohenのkappaが一致度の有意な低下を明らかにした。エージェントの評価は、静的スコアからツール使用、メモリ、検証、長期実行を含むシステム動作へと移行しつつある。