Sakana Fugu:一个模型指挥所有
Sakana AI 推出 Fugu,一个通过单一API动态编排多种模型的多智能体系统,在编码、推理等复杂任务上达到前沿性能,且不依赖单一供应商。基于ICLR 2026论文,Fugu学习自动组合和协调专家模型,提供两种版本:Fugu(平衡性能与延迟)和Fugu Ultra(针对高强度问题优化)。在多个基准测试中,Fugu模型与顶尖模型并驾齐驱,甚至超越。目前EU/EEA区域暂不可用。
Sakana AI 近日发布了名为“Fugu”的多智能体系统,旨在通过单一API动态编排多种顶级模型,以解决复杂的多步骤任务。该系统无需依赖单一供应商,而是将集体智能直接整合到工作流程中。
Fugu的核心在于其多智能体架构,它由一个学习型协调器驱动,能够根据任务自动选择和组合不同的专家模型。这使得Fugu在处理编码、推理、数学等复杂任务时表现出色,同时降低了API的复杂性并提高了成本效益。
Fugu提供了两种模型版本:标准版Fugu,在性能和延迟之间取得平衡,适合日常使用;以及Fugu Ultra,它协调更广泛的专家模型池,以在困难、高风险的问题上最大化答案质量。两者都通过OpenAI兼容的API提供,用户可以轻松切换。
在技术层面,Fugu基于两篇被ICLR 2026接收的研究论文:TRINITY和Conductor。TRINITY使用轻量级进化协调器,为多个LLM分配“思考者”、“工作者”和“验证者”角色;而Conductor则通过强化学习发现自然语言协调策略,设计智能体之间的通信模式和提示,从而提升整体性能。
在定量评估中,Fugu系列模型在多项工程、科学和推理基准测试中超越了公开可用的前沿模型,与Fable 5和Mythos Preview等顶尖模型不相上下。例如,在SWE-Bench Pro上,Fugu Ultra达到了73.7%,在TerminalBench 2.1上为82.1%,在GPQA-D上高达95.5%。值得注意的是,Fugu的模型池不包含那些未公开的模型,因此避免了出口管制风险。
此外,Fugu还支持灵活控制参与模型的池子,用户可以根据数据、隐私或合规要求,选择排除特定的提供商或模型。目前,该服务在EU/EEA区域暂不可用,因为Sakana AI正在努力达成GDPR等法规的合规性。
Fugu已在实际场景中得到应用,例如在AutoResearch实验中,Fugu Ultra在14小时内自主运行了123次实验,优化了小型GPT的训练配方,最终实现了比基线模型更低的验证bits-per-byte。其他案例包括古典假名书简的阅读顺序恢复、Rubik's Cube求解器生成等,均展示了Fugu在多步骤、高质量任务上的潜力。
总体而言,Sakana Fugu代表了一种将多智能体智能作为服务交付的新方式,为开发者和企业提供了一种灵活、强大且符合隐私要求的AI解决方案。