2026-06-23 14:19 UTC+8站内改写2 分钟阅读更新: 2026-06-23 21:43 UTC+8

SpaceX已成每年280亿美元的云服务巨头

本期涵盖SpaceX与Reflection AI的第三次GPU租赁交易、OpenAI Daybreak扩展的网络安全计划、Sakana Fugu的编排发布及其基准透明度争议、GLM-5.2作为开放权重模型的突破、Google Interactions API正式发布、Baseten的15亿美元F轮融资，以及评估代理系统而非聊天机器人的趋势。

来源Latent Space

SpaceX正悄然成为AI领域的云服务巨头。继与Anthropic和Google的知名租约后，SpaceX又与Reflection AI签订了第三份GPU租赁协议，估计总额达63亿美元，用于获取GB300计算资源。据分析师Jamin Ball计算，这些交易的月度收入约为23.2亿美元，年化达280亿美元——几乎是Coreweave当前收入的两倍，而后者估值仍高达600亿美元。这表明“Neocloud”容量和GPU经纪正成为连接模型构建者与硬件供应的重要战略层。

OpenAI的Daybreak计划显著扩展。除了漏洞发现，OpenAI现在提供闭环补丁生成，通过Codex安全插件、完整的GPT-5.5-Cyber模型、网络合作伙伴计划和“Patch the Planet”计划保护关键开源软件。该计划已扫描超过3000万次提交、覆盖3万个代码库，自动检测了50多万个额外修复。然而，能力主张与出口控制逻辑发生碰撞：OpenAI声称GPT-5.5-Cyber在CyberGym上达到SOTA，但公众质疑为何该模型不受与Anthropic的Mythos/Fable相同的控制。同时，有关Mythos的传闻得到澄清：NSA提及的“数小时而非数周”与具有初始访问假设的红队工作相关，且这些红队据报道已不再拥有Mythos访问权限。

Sakana Fugu的发布引发了关于编排系统评估的辩论。Fugu作为一个学习模型选择、委托、验证和综合的单一API，被Vercel迅速集成。然而，批评者指出基线不透明、缺少成本核算以及可疑的报告。详细的拆解显示，Fugu本质上是一个路由/分类器加上预计划的多步工作流系统，在SWE-Bench Pro上落后Opus约10个百分点，且以匿名模型进行比较。这促使讨论从“编排是否有用”转向“如何评估和披露编排系统”。

GLM-5.2作为首个被广泛视为前沿接近的开放权重模型出现。它在多个基准测试中表现优异，在GDPval-AA Elo中排名第三，仅次于Claude Fable和Opus 4.8。实际测试中，GLM-5.2在Cline的bug修复中更可靠且更便宜，并能执行真实的自研究任务。它迅速在AWS Marketplace、Baseten等20多个平台上架，推理供应商和代理工具构建者正积极围绕它进行优化。这标志着开放模型质量已越过阈值，使其成为代理工作流中的可行选择。

在代理基础设施方面，Google将Interactions API升级为默认的Gemini接口，支持后台异步执行、扩展工具支持、多模态生成和远程Linux沙箱。同时，Hermes继续扩展，增加iMessage访问、Raft集成和桌面GUI控制，星标数超过20万。

推理经济方面，Baseten以15亿美元的F轮融资押注于后训练开放模型和推理作为企业控制平面。其客户名单包括Abridge、Cursor、Decagon等，显示公司正追求拥有自己的智能层。此外，Reflection与SpaceX的63亿美元计算交易凸显了GPU租赁成为一个战略市场。

最后，基准测试和评估方法学受到关注。一项大型LLM-as-a-Judge审计显示，精确匹配协议会高估评判质量，而Cohen's kappa则揭示了一致性的显著下降。对代理的评估正从静态分数转向系统行为，包括工具使用、内存、验证和长期执行。