AI News HubLIVE
站内改写

[AINews] 新的AI基礎設施十角獸:Fireworks、Baseten(OpenRouter緊隨其後)

AI基礎設施初創公司Fireworks、Baseten和OpenRouter正在籌集鉅額資金,標誌着推理基礎設施成為關鍵的AI平台層。同時,智能體工程、新基準測試和模型更新主導了AI新聞週期。

文章情報

工程師進階

要點

  • Fireworks(150億美元)、Baseten(110億美元)和OpenRouter(1.13億美元)引領推理基礎設施融資浪潮。
  • 智能體工程中的“ harness”正在成為編程智能體的主要差異化因素。
  • 研究智能體在適當裝備下展現出潛在能力,而“睡眠”等記憶壓縮技術正在興起。

為甚麼重要

這條新聞值得關注,因為Fireworks(150億美元)、Baseten(110億美元)和OpenRouter(1.13億美元)引領推理基礎設施融資浪潮。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本週AI新聞聚焦於推理基礎設施領域的重大融資事件。Fireworks AI正以150億美元估值進行融資(較7個月前增長3.75倍),Baseten以110億美元估值融資(3個月內增長2.2倍),而OpenRouter則以1.13億美元的C輪融資(6個月內交易量增長5倍)成為焦點。這些進展表明,多模型推理時代需要強大的路由層。

在AI Twitter上,“ harness工程”成為編程智能體的關鍵差異化因素。多個帖子指出,獲勝的棧現在是模型+ harness+評估循環,而不僅僅是更強的基座模型。深度求索正在建立專門的harness團隊,以便在模型輸出、運行時反饋、驗證和糾正之間形成閉環。谷歌的Gemini託管智能體指南將智能體基礎設施定義為一次API調用即可獲得沙箱、持久化和掛載的託管harness。新基準DeepSWE獲得從業者好評,被認為更能反映真實的編碼體驗。

研究智能體方面,有報道稱Claude Mythos解決了埃爾德什問題#90,這表明在合適的harness下,模型可以展現出超出常規聊天界面的巨大潛力。論文《語言模型需要睡眠》提出了一種類似睡眠的整合階段,將最近的上下文轉換為持久性快速權重,然後清除KV緩存,從而在保持喚醒延遲的同時,將計算移至離線階段。

模型和優化器方面,AMUSE提出了結合Muon和無計劃梯度評估的新優化器。MiniMax的M3模型採用塊稀疏兩階段注意力機制,據稱在100萬token情況下,預填充速度提升9.7倍,解碼速度提升15.6倍。微軟的MAI-Image-2.5在圖像競技場排名第三,打破了OpenAI和谷歌的壟斷。

基礎設施方面,華為的τ縮放論文被視為工程路線圖,提議將時間常數τ作為跨設備、芯片和數據中心的統一度量。數據中心電力和推理供應約束成為首要問題,SemiAnalysis探討了800VDC過渡,Epoch AI估計推理計算可能出現短缺。

在生產工具方面,vLLM合併了Rust前端,在預處理密集型工作負載中實現了約837 req/s,而Python版本僅約162 req/s。W&B發佈了MCP服務器,讓編碼智能體檢查實驗和訓練運行。Unsloth支持在本地UI中運行GPT、Claude等API。Cloudflare重啓了初創公司計劃,提供高達35萬美元的積分。

Reddit上,Qwen 3.7的發佈引發了廣泛討論,其基準測試結果將Qwen3.7-Max定位為前沿模型,在智能體編碼、軟件工程、工具使用等方面領先。此外,關於本地運行模型的討論也很熱烈。