2026-06-23 14:19 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-23 21:43 UTC+8

SpaceX已成每年280億美元的雲服務巨頭

本期涵蓋SpaceX與Reflection AI的第三次GPU租賃交易、OpenAI Daybreak擴展的網絡安全計劃、Sakana Fugu的編排發佈及其基準透明度爭議、GLM-5.2作為開放權重模型的突破、Google Interactions API正式發佈、Baseten的15億美元F輪融資，以及評估代理系統而非聊天機器人的趨勢。

來源Latent Space

SpaceX正悄然成為AI領域的雲服務巨頭。繼與Anthropic和Google的知名租約後，SpaceX又與Reflection AI簽訂了第三份GPU租賃協議，估計總額達63億美元，用於獲取GB300計算資源。據分析師Jamin Ball計算，這些交易的月度收入約為23.2億美元，年化達280億美元——幾乎是Coreweave當前收入的兩倍，而後者估值仍高達600億美元。這表明“Neocloud”容量和GPU經紀正成為連接模型構建者與硬件供應的重要戰略層。

OpenAI的Daybreak計劃顯著擴展。除了漏洞發現，OpenAI現在提供閉環補丁生成，通過Codex安全插件、完整的GPT-5.5-Cyber模型、網絡合作夥伴計劃和“Patch the Planet”計劃保護關鍵開源軟件。該計劃已掃描超過3000萬次提交、覆蓋3萬個代碼庫，自動檢測了50多萬個額外修復。然而，能力主張與出口控制邏輯發生碰撞：OpenAI聲稱GPT-5.5-Cyber在CyberGym上達到SOTA，但公眾質疑為何該模型不受與Anthropic的Mythos/Fable相同的控制。同時，有關Mythos的傳聞得到澄清：NSA提及的“數小時而非數週”與具有初始訪問假設的紅隊工作相關，且這些紅隊據報道已不再擁有Mythos訪問權限。

Sakana Fugu的發佈引發了關於編排系統評估的辯論。Fugu作為一個學習模型選擇、委託、驗證和綜合的單一API，被Vercel迅速集成。然而，批評者指出基線不透明、缺少成本核算以及可疑的報告。詳細的拆解顯示，Fugu本質上是一個路由/分類器加上預計劃的多步工作流系統，在SWE-Bench Pro上落後Opus約10個百分點，且以匿名模型進行比較。這促使討論從“編排是否有用”轉向“如何評估和披露編排系統”。

GLM-5.2作為首個被廣泛視為前沿接近的開放權重模型出現。它在多個基準測試中表現優異，在GDPval-AA Elo中排名第三，僅次於Claude Fable和Opus 4.8。實際測試中，GLM-5.2在Cline的bug修復中更可靠且更便宜，並能執行真實的自研究任務。它迅速在AWS Marketplace、Baseten等20多個平台上架，推理供應商和代理工具構建者正積極圍繞它進行優化。這標誌着開放模型質量已越過閾值，使其成為代理工作流中的可行選擇。

在代理基礎設施方面，Google將Interactions API升級為默認的Gemini接口，支持後台異步執行、擴展工具支持、多模態生成和遠程Linux沙箱。同時，Hermes繼續擴展，增加iMessage訪問、Raft集成和桌面GUI控制，星標數超過20萬。

推理經濟方面，Baseten以15億美元的F輪融資押注於後訓練開放模型和推理作為企業控制平面。其客户名單包括Abridge、Cursor、Decagon等，顯示公司正追求擁有自己的智能層。此外，Reflection與SpaceX的63億美元計算交易凸顯了GPU租賃成為一個戰略市場。

最後，基準測試和評估方法學受到關注。一項大型LLM-as-a-Judge審計顯示，精確匹配協議會高估評判質量，而Cohen's kappa則揭示了一致性的顯著下降。對代理的評估正從靜態分數轉向系統行為，包括工具使用、內存、驗證和長期執行。