2026-05-27 11:33 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

[AINews] 新的AI基础设施十角兽：Fireworks、Baseten（OpenRouter紧随其后）

AI基础设施初创公司Fireworks、Baseten和OpenRouter正在筹集巨额资金，标志着推理基础设施成为关键的AI平台层。同时，智能体工程、新基准测试和模型更新主导了AI新闻周期。

本周AI新闻聚焦于推理基础设施领域的重大融资事件。Fireworks AI正以150亿美元估值进行融资（较7个月前增长3.75倍），Baseten以110亿美元估值融资（3个月内增长2.2倍），而OpenRouter则以1.13亿美元的C轮融资（6个月内交易量增长5倍）成为焦点。这些进展表明，多模型推理时代需要强大的路由层。

在AI Twitter上，“ harness工程”成为编程智能体的关键差异化因素。多个帖子指出，获胜的栈现在是模型+ harness+评估循环，而不仅仅是更强的基座模型。深度求索正在建立专门的harness团队，以便在模型输出、运行时反馈、验证和纠正之间形成闭环。谷歌的Gemini托管智能体指南将智能体基础设施定义为一次API调用即可获得沙箱、持久化和挂载的托管harness。新基准DeepSWE获得从业者好评，被认为更能反映真实的编码体验。

研究智能体方面，有报道称Claude Mythos解决了埃尔德什问题#90，这表明在合适的harness下，模型可以展现出超出常规聊天界面的巨大潜力。论文《语言模型需要睡眠》提出了一种类似睡眠的整合阶段，将最近的上下文转换为持久性快速权重，然后清除KV缓存，从而在保持唤醒延迟的同时，将计算移至离线阶段。

模型和优化器方面，AMUSE提出了结合Muon和无计划梯度评估的新优化器。MiniMax的M3模型采用块稀疏两阶段注意力机制，据称在100万token情况下，预填充速度提升9.7倍，解码速度提升15.6倍。微软的MAI-Image-2.5在图像竞技场排名第三，打破了OpenAI和谷歌的垄断。

基础设施方面，华为的τ缩放论文被视为工程路线图，提议将时间常数τ作为跨设备、芯片和数据中心的统一度量。数据中心电力和推理供应约束成为首要问题，SemiAnalysis探讨了800VDC过渡，Epoch AI估计推理计算可能出现短缺。

在生产工具方面，vLLM合并了Rust前端，在预处理密集型工作负载中实现了约837 req/s，而Python版本仅约162 req/s。W&B发布了MCP服务器，让编码智能体检查实验和训练运行。Unsloth支持在本地UI中运行GPT、Claude等API。Cloudflare重启了初创公司计划，提供高达35万美元的积分。

Reddit上，Qwen 3.7的发布引发了广泛讨论，其基准测试结果将Qwen3.7-Max定位为前沿模型，在智能体编码、软件工程、工具使用等方面领先。此外，关于本地运行模型的讨论也很热烈。