SpaceX已成每年280亿美元的云服务巨头
本期涵盖SpaceX与Reflection AI的第三次GPU租赁交易、OpenAI Daybreak扩展的网络安全计划、Sakana Fugu的编排发布及其基准透明度争议、GLM-5.2作为开放权重模型的突破、Google Interactions API正式发布、Baseten的15亿美元F轮融资,以及评估代理系统而非聊天机器人的趋势。
SpaceX正悄然成为AI领域的云服务巨头。继与Anthropic和Google的知名租约后,SpaceX又与Reflection AI签订了第三份GPU租赁协议,估计总额达63亿美元,用于获取GB300计算资源。据分析师Jamin Ball计算,这些交易的月度收入约为23.2亿美元,年化达280亿美元——几乎是Coreweave当前收入的两倍,而后者估值仍高达600亿美元。这表明“Neocloud”容量和GPU经纪正成为连接模型构建者与硬件供应的重要战略层。
OpenAI的Daybreak计划显著扩展。除了漏洞发现,OpenAI现在提供闭环补丁生成,通过Codex安全插件、完整的GPT-5.5-Cyber模型、网络合作伙伴计划和“Patch the Planet”计划保护关键开源软件。该计划已扫描超过3000万次提交、覆盖3万个代码库,自动检测了50多万个额外修复。然而,能力主张与出口控制逻辑发生碰撞:OpenAI声称GPT-5.5-Cyber在CyberGym上达到SOTA,但公众质疑为何该模型不受与Anthropic的Mythos/Fable相同的控制。同时,有关Mythos的传闻得到澄清:NSA提及的“数小时而非数周”与具有初始访问假设的红队工作相关,且这些红队据报道已不再拥有Mythos访问权限。
Sakana Fugu的发布引发了关于编排系统评估的辩论。Fugu作为一个学习模型选择、委托、验证和综合的单一API,被Vercel迅速集成。然而,批评者指出基线不透明、缺少成本核算以及可疑的报告。详细的拆解显示,Fugu本质上是一个路由/分类器加上预计划的多步工作流系统,在SWE-Bench Pro上落后Opus约10个百分点,且以匿名模型进行比较。这促使讨论从“编排是否有用”转向“如何评估和披露编排系统”。
GLM-5.2作为首个被广泛视为前沿接近的开放权重模型出现。它在多个基准测试中表现优异,在GDPval-AA Elo中排名第三,仅次于Claude Fable和Opus 4.8。实际测试中,GLM-5.2在Cline的bug修复中更可靠且更便宜,并能执行真实的自研究任务。它迅速在AWS Marketplace、Baseten等20多个平台上架,推理供应商和代理工具构建者正积极围绕它进行优化。这标志着开放模型质量已越过阈值,使其成为代理工作流中的可行选择。
在代理基础设施方面,Google将Interactions API升级为默认的Gemini接口,支持后台异步执行、扩展工具支持、多模态生成和远程Linux沙箱。同时,Hermes继续扩展,增加iMessage访问、Raft集成和桌面GUI控制,星标数超过20万。
推理经济方面,Baseten以15亿美元的F轮融资押注于后训练开放模型和推理作为企业控制平面。其客户名单包括Abridge、Cursor、Decagon等,显示公司正追求拥有自己的智能层。此外,Reflection与SpaceX的63亿美元计算交易凸显了GPU租赁成为一个战略市场。
最后,基准测试和评估方法学受到关注。一项大型LLM-as-a-Judge审计显示,精确匹配协议会高估评判质量,而Cohen's kappa则揭示了一致性的显著下降。对代理的评估正从静态分数转向系统行为,包括工具使用、内存、验证和长期执行。