2026-05-27 11:33 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

[AINews] 新的AI基礎設施十角獸：Fireworks、Baseten（OpenRouter緊隨其後）

AI基礎設施初創公司Fireworks、Baseten和OpenRouter正在籌集鉅額資金，標誌着推理基礎設施成為關鍵的AI平台層。同時，智能體工程、新基準測試和模型更新主導了AI新聞週期。

本週AI新聞聚焦於推理基礎設施領域的重大融資事件。Fireworks AI正以150億美元估值進行融資（較7個月前增長3.75倍），Baseten以110億美元估值融資（3個月內增長2.2倍），而OpenRouter則以1.13億美元的C輪融資（6個月內交易量增長5倍）成為焦點。這些進展表明，多模型推理時代需要強大的路由層。

在AI Twitter上，“ harness工程”成為編程智能體的關鍵差異化因素。多個帖子指出，獲勝的棧現在是模型+ harness+評估循環，而不僅僅是更強的基座模型。深度求索正在建立專門的harness團隊，以便在模型輸出、運行時反饋、驗證和糾正之間形成閉環。谷歌的Gemini託管智能體指南將智能體基礎設施定義為一次API調用即可獲得沙箱、持久化和掛載的託管harness。新基準DeepSWE獲得從業者好評，被認為更能反映真實的編碼體驗。

研究智能體方面，有報道稱Claude Mythos解決了埃爾德什問題#90，這表明在合適的harness下，模型可以展現出超出常規聊天界面的巨大潛力。論文《語言模型需要睡眠》提出了一種類似睡眠的整合階段，將最近的上下文轉換為持久性快速權重，然後清除KV緩存，從而在保持喚醒延遲的同時，將計算移至離線階段。

模型和優化器方面，AMUSE提出了結合Muon和無計劃梯度評估的新優化器。MiniMax的M3模型採用塊稀疏兩階段注意力機制，據稱在100萬token情況下，預填充速度提升9.7倍，解碼速度提升15.6倍。微軟的MAI-Image-2.5在圖像競技場排名第三，打破了OpenAI和谷歌的壟斷。

基礎設施方面，華為的τ縮放論文被視為工程路線圖，提議將時間常數τ作為跨設備、芯片和數據中心的統一度量。數據中心電力和推理供應約束成為首要問題，SemiAnalysis探討了800VDC過渡，Epoch AI估計推理計算可能出現短缺。

在生產工具方面，vLLM合併了Rust前端，在預處理密集型工作負載中實現了約837 req/s，而Python版本僅約162 req/s。W&B發佈了MCP服務器，讓編碼智能體檢查實驗和訓練運行。Unsloth支持在本地UI中運行GPT、Claude等API。Cloudflare重啓了初創公司計劃，提供高達35萬美元的積分。

Reddit上，Qwen 3.7的發佈引發了廣泛討論，其基準測試結果將Qwen3.7-Max定位為前沿模型，在智能體編碼、軟件工程、工具使用等方面領先。此外，關於本地運行模型的討論也很熱烈。