AI News HubLIVE
站內改寫2 分鐘閱讀

SpaceX已成每年280億美元的雲服務巨頭

本期涵蓋SpaceX與Reflection AI的第三次GPU租賃交易、OpenAI Daybreak擴展的網絡安全計劃、Sakana Fugu的編排發佈及其基準透明度爭議、GLM-5.2作為開放權重模型的突破、Google Interactions API正式發佈、Baseten的15億美元F輪融資,以及評估代理系統而非聊天機器人的趨勢。

SpaceX正悄然成為AI領域的雲服務巨頭。繼與Anthropic和Google的知名租約後,SpaceX又與Reflection AI簽訂了第三份GPU租賃協議,估計總額達63億美元,用於獲取GB300計算資源。據分析師Jamin Ball計算,這些交易的月度收入約為23.2億美元,年化達280億美元——幾乎是Coreweave當前收入的兩倍,而後者估值仍高達600億美元。這表明“Neocloud”容量和GPU經紀正成為連接模型構建者與硬件供應的重要戰略層。

OpenAI的Daybreak計劃顯著擴展。除了漏洞發現,OpenAI現在提供閉環補丁生成,通過Codex安全插件、完整的GPT-5.5-Cyber模型、網絡合作夥伴計劃和“Patch the Planet”計劃保護關鍵開源軟件。該計劃已掃描超過3000萬次提交、覆蓋3萬個代碼庫,自動檢測了50多萬個額外修復。然而,能力主張與出口控制邏輯發生碰撞:OpenAI聲稱GPT-5.5-Cyber在CyberGym上達到SOTA,但公眾質疑為何該模型不受與Anthropic的Mythos/Fable相同的控制。同時,有關Mythos的傳聞得到澄清:NSA提及的“數小時而非數週”與具有初始訪問假設的紅隊工作相關,且這些紅隊據報道已不再擁有Mythos訪問權限。

Sakana Fugu的發佈引發了關於編排系統評估的辯論。Fugu作為一個學習模型選擇、委託、驗證和綜合的單一API,被Vercel迅速集成。然而,批評者指出基線不透明、缺少成本核算以及可疑的報告。詳細的拆解顯示,Fugu本質上是一個路由/分類器加上預計劃的多步工作流系統,在SWE-Bench Pro上落後Opus約10個百分點,且以匿名模型進行比較。這促使討論從“編排是否有用”轉向“如何評估和披露編排系統”。

GLM-5.2作為首個被廣泛視為前沿接近的開放權重模型出現。它在多個基準測試中表現優異,在GDPval-AA Elo中排名第三,僅次於Claude Fable和Opus 4.8。實際測試中,GLM-5.2在Cline的bug修復中更可靠且更便宜,並能執行真實的自研究任務。它迅速在AWS Marketplace、Baseten等20多個平台上架,推理供應商和代理工具構建者正積極圍繞它進行優化。這標誌着開放模型質量已越過閾值,使其成為代理工作流中的可行選擇。

在代理基礎設施方面,Google將Interactions API升級為默認的Gemini接口,支持後台異步執行、擴展工具支持、多模態生成和遠程Linux沙箱。同時,Hermes繼續擴展,增加iMessage訪問、Raft集成和桌面GUI控制,星標數超過20萬。

推理經濟方面,Baseten以15億美元的F輪融資押注於後訓練開放模型和推理作為企業控制平面。其客户名單包括Abridge、Cursor、Decagon等,顯示公司正追求擁有自己的智能層。此外,Reflection與SpaceX的63億美元計算交易凸顯了GPU租賃成為一個戰略市場。

最後,基準測試和評估方法學受到關注。一項大型LLM-as-a-Judge審計顯示,精確匹配協議會高估評判質量,而Cohen's kappa則揭示了一致性的顯著下降。對代理的評估正從靜態分數轉向系統行為,包括工具使用、內存、驗證和長期執行。