AI News HubLIVE
站内改写

[AINews] 新的AI基础设施十角兽:Fireworks、Baseten(OpenRouter紧随其后)

AI基础设施初创公司Fireworks、Baseten和OpenRouter正在筹集巨额资金,标志着推理基础设施成为关键的AI平台层。同时,智能体工程、新基准测试和模型更新主导了AI新闻周期。

文章情报

工程师进阶

要点

  • Fireworks(150亿美元)、Baseten(110亿美元)和OpenRouter(1.13亿美元)引领推理基础设施融资浪潮。
  • 智能体工程中的“ harness”正在成为编程智能体的主要差异化因素。
  • 研究智能体在适当装备下展现出潜在能力,而“睡眠”等记忆压缩技术正在兴起。

为什么重要

这条新闻值得关注,因为Fireworks(150亿美元)、Baseten(110亿美元)和OpenRouter(1.13亿美元)引领推理基础设施融资浪潮。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本周AI新闻聚焦于推理基础设施领域的重大融资事件。Fireworks AI正以150亿美元估值进行融资(较7个月前增长3.75倍),Baseten以110亿美元估值融资(3个月内增长2.2倍),而OpenRouter则以1.13亿美元的C轮融资(6个月内交易量增长5倍)成为焦点。这些进展表明,多模型推理时代需要强大的路由层。

在AI Twitter上,“ harness工程”成为编程智能体的关键差异化因素。多个帖子指出,获胜的栈现在是模型+ harness+评估循环,而不仅仅是更强的基座模型。深度求索正在建立专门的harness团队,以便在模型输出、运行时反馈、验证和纠正之间形成闭环。谷歌的Gemini托管智能体指南将智能体基础设施定义为一次API调用即可获得沙箱、持久化和挂载的托管harness。新基准DeepSWE获得从业者好评,被认为更能反映真实的编码体验。

研究智能体方面,有报道称Claude Mythos解决了埃尔德什问题#90,这表明在合适的harness下,模型可以展现出超出常规聊天界面的巨大潜力。论文《语言模型需要睡眠》提出了一种类似睡眠的整合阶段,将最近的上下文转换为持久性快速权重,然后清除KV缓存,从而在保持唤醒延迟的同时,将计算移至离线阶段。

模型和优化器方面,AMUSE提出了结合Muon和无计划梯度评估的新优化器。MiniMax的M3模型采用块稀疏两阶段注意力机制,据称在100万token情况下,预填充速度提升9.7倍,解码速度提升15.6倍。微软的MAI-Image-2.5在图像竞技场排名第三,打破了OpenAI和谷歌的垄断。

基础设施方面,华为的τ缩放论文被视为工程路线图,提议将时间常数τ作为跨设备、芯片和数据中心的统一度量。数据中心电力和推理供应约束成为首要问题,SemiAnalysis探讨了800VDC过渡,Epoch AI估计推理计算可能出现短缺。

在生产工具方面,vLLM合并了Rust前端,在预处理密集型工作负载中实现了约837 req/s,而Python版本仅约162 req/s。W&B发布了MCP服务器,让编码智能体检查实验和训练运行。Unsloth支持在本地UI中运行GPT、Claude等API。Cloudflare重启了初创公司计划,提供高达35万美元的积分。

Reddit上,Qwen 3.7的发布引发了广泛讨论,其基准测试结果将Qwen3.7-Max定位为前沿模型,在智能体编码、软件工程、工具使用等方面领先。此外,关于本地运行模型的讨论也很热烈。